このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231212となっている論文です。

PDF登録状況(公開日: 20231212)

TitleAuthorsAbstract論文公表日・翻訳日
# RecAGT: Sharding Permissioned Blockchainにおける悪意のあるノード識別のためのアダプティブグループテストを備えたShardテスト可能なコード

RecAGT: Shard Testable Codes with Adaptive Group Testing for Malicious Nodes Identification in Sharding Permissioned Blockchain ( http://arxiv.org/abs/2311.02582v2 )

ライセンス: Link先を確認
Dong-Yang Yu, Jin Wang, Lingzhi Li, Wei Jiang, Can Liu, (参考訳) 近年、アセット管理、サプライチェーン、ヘルスケアなど、さまざまな分野において、認可型ブロックチェーンが広く研究されている。 多くの学者は、ノードのグループ化やクロスシャーディングトランザクションの処理など、シャーディング技術に基づく検証性、スケーラビリティ、パフォーマンスの向上に特化している。 しかし、彼らはノード脆弱性の問題を無視する、すなわち、ノードがライフサイクルを通して悪意ある制御を受けないという保証はない。 この課題に直面して、通信オーバーヘッドを低減し、潜在的な悪意のあるノードを特定することを目的とした、新しい識別方式であるRecAGTを提案する。 まず、シャードテスト可能なコードは、機密データが漏洩した場合に元のデータをエンコードするように設計されている。 第二に、悪意のある行動に対する証拠として、新しいアイデンティティ証明プロトコルが提示される。 最後に、悪意のあるノードを特定するために適応的なグループテストが選択される。 特に、当社の作業は委員会内部の運用に重点を置いているため、シャーディングを許可されたブロックチェーンにも適用可能です。 シミュレーションの結果,提案手法は通信コストと計算コストの低い悪質ノードを効果的に識別できることが示唆された。

Recently, permissioned blockchain has been extensively explored in various fields, such as asset management, supply chain, healthcare, and many others. Many scholars are dedicated to improving its verifiability, scalability, and performance based on sharding techniques, including grouping nodes and handling cross-shard transactions. However, they ignore the node vulnerability problem, i.e., there is no guarantee that nodes will not be maliciously controlled throughout their life cycle. Facing this challenge, we propose RecAGT, a novel identification scheme aimed at reducing communication overhead and identifying potential malicious nodes. First, shard testable codes are designed to encode the original data in case of a leak of confidential data. Second, a new identity proof protocol is presented as evidence against malicious behavior. Finally, adaptive group testing is chosen to identify malicious nodes. Notably, our work focuses on the internal operation within the committee and can thus be applied to any sharding permissioned blockchains. Simulation results show that our proposed scheme can effectively identify malicious nodes with low communication and computational costs.
翻訳日:2024-03-25 13:45:54 公開日:2023-12-12
# B5G/6Gサービスにおける無人航空機のためのブロックチェーンベースのセキュリティアーキテクチャ

Blockchain-Based Security Architecture for Unmanned Aerial Vehicles in B5G/6G Services and Beyond: A Comprehensive Approach ( http://arxiv.org/abs/2312.06928v1 )

ライセンス: Link先を確認
Senthil Kumar Jagatheesaperumal, Mohamed Rahouti, Kaiqi Xiong, Abdellah Chehri, Nasir Ghani, Jan Bieniek, (参考訳) 以前は愛好家によって好まれていた無人航空機(UAV)は、災害を効果的に管理し、緊急事態に対応するために欠かせないツールへと進化してきた。 例えば、最も重要な応用の1つは、遠隔の農村地帯でシームレスな無線通信サービスを提供することである。 したがって、先進的なUAVベースのB5G/6Gアーキテクチャに関連する研究と開発において、異なるセキュリティ課題を特定し、検討することが重要である。 本研究は,5G/6Gシステムのアーキテクチャの枠組み,運用を促進する技術,プライバシに関する懸念に関して,UAVに関するセキュリティ上の配慮を徹底的に検討する。 すべてのプロトコルスタック層にセキュリティ統合を示し、UAVベースのB5G/6G通信とそのエネルギーと電力の最適化要素をセキュアにするための既存のメカニズムを解析する。 最後に、この論文は、今後の研究課題と戦略とともに、セキュリティを確立し、UAVベースのシステムを保護するための最新の技術動向を要約する。

Unmanned Aerial Vehicles (UAVs), previously favored by enthusiasts, have evolved into indispensable tools for effectively managing disasters and responding to emergencies. For example, one of their most critical applications is to provide seamless wireless communication services in remote rural areas. Thus, it is substantial to identify and consider the different security challenges in the research and development associated with advanced UAV-based B5G/6G architectures. Following this requirement, the present study thoroughly examines the security considerations about UAVs in relation to the architectural framework of the 5G/6G system, the technologies that facilitate its operation, and the concerns surrounding privacy. It exhibits security integration at all the protocol stack layers and analyzes the existing mechanisms to secure UAV-based B5G/6G communications and its energy and power optimization factors. Last, this article also summarizes modern technological trends for establishing security and protecting UAV-based systems, along with the open challenges and strategies for future research work.
翻訳日:2024-03-18 12:36:38 公開日:2023-12-12
# 属性推論攻撃に対するフェデレーション学習のためのタスク非依存のプライバシ保護表現学習

Task-Agnostic Privacy-Preserving Representation Learning for Federated Learning Against Attribute Inference Attacks ( http://arxiv.org/abs/2312.06989v1 )

ライセンス: Link先を確認
Caridad Arroyo Arevalo, Sayedeh Leila Noorbakhsh, Yun Dong, Yuan Hong, Binghui Wang, (参考訳) フェデレートラーニング(FL)は、生データを共有せずに、異なるデバイスからデータを協調的にトレーニングする特性のために、近年広く研究されている。 それにもかかわらず、最近の研究では、敵はデバイスのデータ、例えば収入、人種、性的指向などのセンシティブな属性に関する個人情報を推論することが可能である。 属性推論攻撃を軽減するために、さまざまなプライバシ保護FLメソッドを採用/適用することができる。 FLタスクを事前に知るか、計算上のオーバーヘッドやユーティリティ損失を許容できないか、あるいは証明可能なプライバシ保証を持っていないかである。 本稿では,これらの課題に対処し,属性推論攻撃に対するFL({\bf TAPPFL})のタスク依存型プライバシ保護プレゼンテーション学習手法を設計する。 TAPPFLは情報理論によって定式化されている。 具体的には、TAPPFLは2つの相互情報目標を持ち、1つのゴールが各デバイスのデータ内のプライベート属性に関する最小情報を含むタスクに依存しないデータ表現を学習し、もう1つのゴールは、FLユーティリティを維持するためにデバイスデータに関する可能な限り多くの情報を含むことを確実にする。 また、TAPPFLのプライバシー保証は、最悪の属性推論攻撃や、ユーティリティ保護とプライバシ保護の本質的にのトレードオフに対してもたらします。 複数のデータセットやアプリケーションの大規模な結果から、データプライバシ保護、FLユーティリティのメンテナンス、効率向上のためのTAPPFLの有効性が検証されている。 実験の結果、TAPPFLは既存のdefaults\footnote{Sourceコードとフルバージョンより優れていることが示されている。

Federated learning (FL) has been widely studied recently due to its property to collaboratively train data from different devices without sharing the raw data. Nevertheless, recent studies show that an adversary can still be possible to infer private information about devices' data, e.g., sensitive attributes such as income, race, and sexual orientation. To mitigate the attribute inference attacks, various existing privacy-preserving FL methods can be adopted/adapted. However, all these existing methods have key limitations: they need to know the FL task in advance, or have intolerable computational overheads or utility losses, or do not have provable privacy guarantees. We address these issues and design a task-agnostic privacy-preserving presentation learning method for FL ({\bf TAPPFL}) against attribute inference attacks. TAPPFL is formulated via information theory. Specifically, TAPPFL has two mutual information goals, where one goal learns task-agnostic data representations that contain the least information about the private attribute in each device's data, and the other goal ensures the learnt data representations include as much information as possible about the device data to maintain FL utility. We also derive privacy guarantees of TAPPFL against worst-case attribute inference attacks, as well as the inherent tradeoff between utility preservation and privacy protection. Extensive results on multiple datasets and applications validate the effectiveness of TAPPFL to protect data privacy, maintain the FL utility, and be efficient as well. Experimental results also show that TAPPFL outperforms the existing defenses\footnote{Source code and full version: \url{https://github.com/TAPPFL}}.
翻訳日:2024-03-18 12:36:38 公開日:2023-12-12
# 合成データにおけるプライベートサンプリングの実践的考察

Practical considerations on using private sampling for synthetic data ( http://arxiv.org/abs/2312.07139v1 )

ライセンス: Link先を確認
Clément Pierquin, Bastien Zimmermann, Matthieu Boussard, (参考訳) 人工知能とデータアクセスはすでに主流だ。 人工知能を設計したり、データベースからコンテンツを開示する際の大きな課題の1つは、プロセスに参加する個人のプライバシを保存することである。 合成データ生成のための微分プライバシーは、合成データを自由に使用しながらプライバシを保存する能力のために、多くの注目を集めている。 プライベートサンプリングは、プライバシーと正確性のために厳密な境界を持つ微分プライベートな合成データを構築する最初のノイズフリー手法である。 しかし、この合成データ生成手法には、現実的なデータセットには適用できないような制約が伴っている。 本稿では,プライベートサンプリングアルゴリズムの実装と,実例における制約の現実性について議論する。

Artificial intelligence and data access are already mainstream. One of the main challenges when designing an artificial intelligence or disclosing content from a database is preserving the privacy of individuals who participate in the process. Differential privacy for synthetic data generation has received much attention due to the ability of preserving privacy while freely using the synthetic data. Private sampling is the first noise-free method to construct differentially private synthetic data with rigorous bounds for privacy and accuracy. However, this synthetic data generation method comes with constraints which seem unrealistic and not applicable for real-world datasets. In this paper, we provide an implementation of the private sampling algorithm and discuss the realism of its constraints in practical cases.
翻訳日:2024-03-18 12:26:52 公開日:2023-12-12
# 追従停止!パーソナルアイテム追跡装置のアンチストーキング機能の有効性の評価

Stop Following Me! Evaluating the Effectiveness of Anti-Stalking Features of Personal Item Tracking Devices ( http://arxiv.org/abs/2312.07157v1 )

ライセンス: Link先を確認
Kieron Ivy Turk, Alice Hutchings, (参考訳) 個人用アイテム追跡装置は、鍵、財布、スーツケースなどの失われたアイテムを見つけるのに人気がある。 このデバイスは、ストーカーや家庭内虐待者によって、被害者の居場所を時間をかけて追跡するために悪用されている。 一部のデバイスメーカーは「アンチストーキング機能」を作成し、後にそれらが不十分であるという批判を受けて改善した。 我々は,アサシンズギルドの学生社会と協調して,博物学的な擬似実験を通じて,5種類の追跡装置を用いたアンチストーキング機能の有効性を分析した。 参加者は追跡されるかもしれないことを知り、トラッカーを検知して除去するインセンティブを受けていたにもかかわらず、アンチストーキング機能は役に立たず、滅多に使われなかった。 また、機能の可用性、ユーザビリティ、有効性に関する追加の問題も特定します。 これらの失敗は、トラッカーが悪用されるのを防ぐために、アンチストーキング機能の存在を大幅に改善する必要性を示唆している。

Personal item tracking devices are popular for locating lost items such as keys, wallets, and suitcases. Originally created to help users find personal items quickly, these devices are now being abused by stalkers and domestic abusers to track their victims' location over time. Some device manufacturers created `anti-stalking features' in response, and later improved on them after criticism that they were insufficient. We analyse the effectiveness of the anti-stalking features with five brands of tracking devices through a gamified naturalistic quasi-experiment in collaboration with the Assassins' Guild student society. Despite participants knowing they might be tracked, and being incentivised to detect and remove the tracker, the anti-stalking features were not useful and were rarely used. We also identify additional issues with feature availability, usability, and effectiveness. These failures combined imply a need to greatly improve the presence of anti-stalking features to prevent trackers being abused.
翻訳日:2024-03-18 12:26:52 公開日:2023-12-12
# 暗号ランサムウェアの理解

Understanding Crypto-Ransomware ( http://arxiv.org/abs/2312.07641v1 )

ライセンス: Link先を確認
Vadim Kotov, Mantej Rajpal, (参考訳) 2013年9月に登場したCrypto-Ransomwareは、新たな攻撃ベクトルを活用し、高度な暗号化アルゴリズムを導入し、ターゲットとするファイルの種類を拡大した。 本報告では,2013年9月以降に遭遇したランサムウェア変種30種を解析し,高度化傾向を示した。

Crypto-Ransomware has been increasing in sophistication since it first appeared in September 2013, leveraging new attack vectors, incorporating advanced encryption algorithms, and expanding the number of file types it targets. In this report, we dissect nearly 30 samples of ransomware variants that have been encountered since September 2013, revealing a trend of increasing sophistication.
翻訳日:2024-03-18 12:26:52 公開日:2023-12-12
# IMPRESSによる氷の浄化反応

A Response to Glaze Purification via IMPRESS ( http://arxiv.org/abs/2312.07731v1 )

ライセンス: Link先を確認
Shawn Shan, Stanley Wu, Haitao Zheng, Ben Y. Zhao, (参考訳) 近年の研究では、Glazeによって保護された画像からアートスタイルの模倣を可能にするため、Glazeによって追加された保護摂動を除去する新たなメカニズムが提案されている。 原論文では有望な結果を示したが、著者のコードによるテストでは、提案された浄化アプローチのいくつかの制限が示されていた。 主な制限は 1) もともとのトレーニングデータに埋もれていた著名な歴史アーティストでないアーティストに対して, 浄化は限定的な効果がある。 2【評価指標の問題点】 3) クリーニング画像の模倣結果に対する側方損傷について検討した。 我々は、浄化攻撃の現実のユーザビリティを理解するために、これらの制限を慎重に検討すべきであると考えている。

Recent work proposed a new mechanism to remove protective perturbation added by Glaze in order to again enable mimicry of art styles from images protected by Glaze. Despite promising results shown in the original paper, our own tests with the authors' code demonstrated several limitations of the proposed purification approach. The main limitations are 1) purification has a limited effect when tested on artists that are not well-known historical artists already embedded in original training data, 2) problems in evaluation metrics, and 3) collateral damage on mimicry result for clean images. We believe these limitations should be carefully considered in order to understand real world usability of the purification attack.
翻訳日:2024-03-18 12:26:52 公開日:2023-12-12
# 医療・医療分野における大規模言語モデル : レビュー

Large language models in healthcare and medical domain: A review ( http://arxiv.org/abs/2401.06775v1 )

ライセンス: Link先を確認
Zabir Al Nazi, Wei Peng(参考訳) 医療分野における大規模言語モデル(LLM)の展開は、熱意と不安の両方を引き起こしている。 これらのモデルは、フリーテキストクエリに熟練した応答を提供し、専門的な医療知識の微妙な理解を示している。 この包括的調査は、従来のプレトレーニング言語モデル(PLM)から医療分野におけるLLMの現在の状態に至るまで、医療応用用に設計された既存のLLMの機能を明らかにするものである。 まず,多種多様な医療応用の効率と有効性,特に臨床言語理解タスクに焦点を当てたLCMの可能性を検討する。 これらのタスクは、名前付きエンティティ認識と関係抽出から自然言語推論、マルチモーダル医療アプリケーション、文書分類、質問応答まで幅広い範囲を包含する。 さらに、医療領域における最新の技術 LLM の広範な比較を行い、また、様々なオープンソース LLM の利用状況を評価し、医療分野におけるその意義を強調した。 さらに, 生体医学領域におけるllm評価に必要な性能指標を提示し, その効果と限界を明らかにした。 最後に、医療分野で大きな言語モデルが直面する顕著な課題と制約を要約し、その潜在的なメリットと欠点に関する全体的視点を提供する。 このレビューは、医療におけるllmの現在の展望を包括的に探究し、医療応用の変化とさらなる研究と開発を必要とする領域におけるその役割について論じている。

The deployment of large language models (LLMs) within the healthcare sector has sparked both enthusiasm and apprehension. These models exhibit the remarkable capability to provide proficient responses to free-text queries, demonstrating a nuanced understanding of professional medical knowledge. This comprehensive survey delves into the functionalities of existing LLMs designed for healthcare applications, elucidating the trajectory of their development, starting from traditional Pretrained Language Models (PLMs) to the present state of LLMs in healthcare sector. First, we explore the potential of LLMs to amplify the efficiency and effectiveness of diverse healthcare applications, particularly focusing on clinical language understanding tasks. These tasks encompass a wide spectrum, ranging from named entity recognition and relation extraction to natural language inference, multi-modal medical applications, document classification, and question-answering. Additionally, we conduct an extensive comparison of the most recent state-of-the-art LLMs in the healthcare domain, while also assessing the utilization of various open-source LLMs and highlighting their significance in healthcare applications. Furthermore, we present the essential performance metrics employed to evaluate LLMs in the biomedical domain, shedding light on their effectiveness and limitations. Finally, we summarize the prominent challenges and constraints faced by large language models in the healthcare sector, offering a holistic perspective on their potential benefits and shortcomings. This review provides a comprehensive exploration of the current landscape of LLMs in healthcare, addressing their role in transforming medical applications and the areas that warrant further research and development.
翻訳日:2024-01-22 12:40:36 公開日:2023-12-12
# $(\alpha,\beta,\gamma)$重み付きwigner-yanase-dysonスキュー情報によるより密接な和の不確かさ関係

Tighter sum uncertainty relations via $(\alpha,\beta,\gamma)$ weighted Wigner-Yanase-Dyson skew information ( http://arxiv.org/abs/2401.08641v1 )

ライセンス: Link先を確認
Cong Xu, Zhaoqi Wu and Shao-Ming Fei(参考訳) 任意の有限可観測性に対するより厳密な不確実性関係を、$(\alpha,\beta,\gamma)$weighted wigner-yanase-dyson ((\alpha,\beta,\gamma)$wwyd)スキュー情報を用いて確立する。 結果は、$(\alpha,\gamma)$ weighted Wigner-Yanase-Dyson ($(\alpha,\gamma)$WWYD)スキュー情報および重み付き Wigner-Yanase-Dyson (WWYD)スキュー情報にも適用できる。 また、(\alpha,\beta,\gamma)$ modified weighted wigner-yanase-dyson ((\alpha,\beta,\gamma)$mwyd)のスキュー情報を介して、量子チャネルとユニタリチャネルのより狭い下限を示す。 詳細な例は、我々の不確実性関係の厳密さを示すものである。

We establish tighter uncertainty relations for arbitrary finite observables via $(\alpha,\beta,\gamma)$ weighted Wigner-Yanase-Dyson ($(\alpha,\beta,\gamma)$WWYD) skew information. The results are also applicable to the $(\alpha,\gamma)$ weighted Wigner-Yanase-Dyson ($(\alpha,\gamma)$WWYD) skew information and the weighted Wigner-Yanase-Dyson (WWYD) skew information. We also present tighter lower bounds of quantum channels and unitary channels via $(\alpha,\beta,\gamma)$ modified weighted Wigner-Yanase-Dyson ($(\alpha,\beta,\gamma)$MWWYD) skew information. Detailed examples are provided to illustrate tightness of our uncertainty relations.
翻訳日:2024-01-22 09:52:58 公開日:2023-12-12
# 深部平衡モデルによる1ステップ拡散蒸留

One-Step Diffusion Distillation via Deep Equilibrium Models ( http://arxiv.org/abs/2401.08639v1 )

ライセンス: Link先を確認
Zhengyang Geng and Ashwini Pokle and J. Zico Kolter(参考訳) 拡散モデルは高品質なサンプルを生成するのに優れているが、数百回の反復を必要とするため、より高速なネットワークに生成プロセスを蒸留する試みが複数おこなわれる。 しかし、既存の多くのアプローチは様々な課題に悩まされており、蒸留訓練のプロセスは複雑であり、しばしば複数の訓練段階を必要とする。 本稿では,初期雑音から得られた画像に直接拡散モデルを蒸留する簡易かつ効果的な方法を提案する。 このアプローチにおいて特に重要なのは、新しいDeep Equilibrium(DEQ)モデルを蒸留アーキテクチャとして活用することである。 提案手法は,拡散モデルからのノイズ/イメージペアのみによる完全オフライントレーニングを可能とし,既存の訓練予算のワンステップ手法に比べて優れた性能を実現する。 GET は FID スコアの点で 5 倍の ViT と一致し,計算コストと画像品質の重要なバランスを保ちながら,DEC アーキテクチャがこの機能に不可欠であることを実証する。 コード、チェックポイント、データセットが利用可能だ。

Diffusion models excel at producing high-quality samples but naively require hundreds of iterations, prompting multiple attempts to distill the generation process into a faster network. However, many existing approaches suffer from a variety of challenges: the process for distillation training can be complex, often requiring multiple training stages, and the resulting models perform poorly when utilized in single-step generative applications. In this paper, we introduce a simple yet effective means of distilling diffusion models directly from initial noise to the resulting image. Of particular importance to our approach is to leverage a new Deep Equilibrium (DEQ) model as the distilled architecture: the Generative Equilibrium Transformer (GET). Our method enables fully offline training with just noise/image pairs from the diffusion model while achieving superior performance compared to existing one-step methods on comparable training budgets. We demonstrate that the DEQ architecture is crucial to this capability, as GET matches a $5\times$ larger ViT in terms of FID scores while striking a critical balance of computational cost and image quality. Code, checkpoints, and datasets are available.
翻訳日:2024-01-22 09:52:39 公開日:2023-12-12
# T5モデルを用いた自然言語クエリのSQLへの変換

Translating Natural Language Queries to SQL Using the T5 Model ( http://arxiv.org/abs/2312.12414v1 )

ライセンス: Link先を確認
Albert Wong, Lien Pham, Young Lee, Shek Chan, Razel Sadaya, Youry Khmelevsky, Mathias Clement, Florence Wing Yau Cheng, Joe Mahony, Michael Ferri(参考訳) 本稿では,T5モデルを基盤として,自然言語のSQLモデルへの展開過程について述べる。 2022年8月にオンライントランザクション処理システムとデータウェアハウス向けに開発されたモデルは、それぞれ73\%と84\%の正確なマッチング精度を持つ。 これらのモデルは、研究プロジェクトで完了した他の作業と合わせて、いくつかの会社で実施され、日常的にうまく利用された。 モデル開発で使用されるアプローチは、他のデータベース環境やより強力な事前訓練された言語モデルでも同様に実装できる。

This paper presents the development process of a natural language to SQL model using the T5 model as the basis. The models, developed in August 2022 for an online transaction processing system and a data warehouse, have a 73\% and 84\% exact match accuracy respectively. These models, in conjunction with other work completed in the research project, were implemented for several companies and used successfully on a daily basis. The approach used in the model development could be implemented in a similar fashion for other database environments and with a more powerful pre-trained language model.
翻訳日:2024-01-15 13:29:21 公開日:2023-12-12
# Essay:量子幾何学はどこへ導くのか?

Essay: Where Can Quantum Geometry Lead Us? ( http://arxiv.org/abs/2312.11516v1 )

ライセンス: Link先を確認
Paivi Torma(参考訳) 量子幾何学は、量子状態間の位相と振幅距離を定義する。 位相距離はベリー曲率によって特徴づけられ、トポロジカル現象と関連している。 量子メートル法で特徴づけられる振幅距離を含む完全な量子幾何学の重要性は、ここ数年で注目されるようになった。 様々な量子輸送と相互作用の現象は、量子幾何学の影響を強く受けている。 例えば、量子幾何学は、単一の電子が動かない平らなバンドにおいて超電流の反直感的な流れを可能にする。 このエッセイでは、この研究トピックの重要なオープンな問題と将来の応用についての私の見解を議論し、読者にさらなるアイデアを導き出そうとします。 量子幾何学は、バンド理論の新たな章を開くことができ、室温超伝導のような変化をもたらす。 しかし、まず量子幾何学の効果を直接示す実験がもっと必要である。 また、最も進んだ数値手法に量子幾何学解析を統合する必要がある。 さらに、量子幾何学の分岐は、自由および相関電子材料、ボゾン系、光学、その他の分野における電気および電磁応答や相互作用現象を含む幅広い範囲で研究されるべきである。

Quantum geometry defines the phase and amplitude distances between quantum states. The phase distance is characterized by the Berry curvature and thus relates to topological phenomena. The significance of the full quantum geometry, including the amplitude distance characterized by the quantum metric, has started to receive attention in the last few years. Various quantum transport and interaction phenomena have been found to be critically influenced by quantum geometry. For example, quantum geometry allows counterintuitive flow of supercurrent in a flat band where single electrons are immobile. In this Essay, I will discuss my view of the important open problems and future applications of this research topic and will try to inspire the reader to come up with further ideas. At its best, quantum geometry can open a new chapter in band theory and lead to breakthroughs as transformative as room-temperature superconductivity. However, first, more experiments directly showing the effect of quantum geometry are needed. We also have to integrate quantum geometry analysis in our most advanced numerical methods. Further, the ramifications of quantum geometry should be studied in a wider range, including electric and electromagnetic responses and interaction phenomena in free- and correlated-electron materials, bosonic systems, optics, and other fields.
翻訳日:2024-01-15 13:27:38 公開日:2023-12-12
# Maatphor: プロンプトインジェクション攻撃のための自動バリアント分析

Maatphor: Automated Variant Analysis for Prompt Injection Attacks ( http://arxiv.org/abs/2312.11513v1 )

ライセンス: Link先を確認
Ahmed Salem and Andrew Paverd and Boris K\"opf(参考訳) プロンプトインジェクションは、大規模言語モデル(LLM)に対する深刻なセキュリティ脅威として浮上している。 現在、新たに発見されたプロンプトインジェクション技術に対する防御のベストプラクティスは、システムにガードレールを追加することである(例えば、システムプロンプトを更新したり、モデルの入力および/または出力に分類器を使用)が、マルウェアの変種がアンチウイルスソフトウェアを避けるために作られるのと同じように、プロンプトインジェクションの変種はLLMのガードレールを避けるために作成することができる。 理想的には、新しいプロンプトインジェクション技術が発見された場合、プロンプトインジェクションの成功だけでなく、可能な変種に対しても候補防御をテストすべきである。 本研究では,既知のプロンプトインジェクション攻撃の自動変種解析において,ディフェンダーを支援するツールを提案する。 1) 与えられたプロンプトの変種を自動的に生成する、(2) モデルの出力のみに基づいて変種が有効かどうかを自動的に決定する、という2つの大きな課題を解決する。 このツールは、Jailbreak用のデータセットの生成やインジェクション攻撃の迅速化を支援し、このドメイン内のデータの不足を克服する。 我々はmaatphorを3種類のプロンプトインジェクションタスクで評価した。 非効率な(0%)シードプロンプトから始まり、Maatphorは最初の40回のイテレーションで少なくとも60%有効である変種を一貫して生成する。

Prompt injection has emerged as a serious security threat to large language models (LLMs). At present, the current best-practice for defending against newly-discovered prompt injection techniques is to add additional guardrails to the system (e.g., by updating the system prompt or using classifiers on the input and/or output of the model.) However, in the same way that variants of a piece of malware are created to evade anti-virus software, variants of a prompt injection can be created to evade the LLM's guardrails. Ideally, when a new prompt injection technique is discovered, candidate defenses should be tested not only against the successful prompt injection, but also against possible variants. In this work, we present, a tool to assist defenders in performing automated variant analysis of known prompt injection attacks. This involves solving two main challenges: (1) automatically generating variants of a given prompt according, and (2) automatically determining whether a variant was effective based only on the output of the model. This tool can also assist in generating datasets for jailbreak and prompt injection attacks, thus overcoming the scarcity of data in this domain. We evaluate Maatphor on three different types of prompt injection tasks. Starting from an ineffective (0%) seed prompt, Maatphor consistently generates variants that are at least 60% effective within the first 40 iterations.
翻訳日:2024-01-15 13:27:06 公開日:2023-12-12
# 小児の神経心理学的検査結果の予測因子としての患者・クリニシアン相互作用の経路シグナル表現 : 概念実証

Path Signature Representation of Patient-Clinician Interactions as a Predictor for Neuropsychological Tests Outcomes in Children: A Proof of Concept ( http://arxiv.org/abs/2312.11512v1 )

ライセンス: Link先を確認
Giulio Falcioni, Alexandra Georgescu, Emilia Molimpakis, Lev Gottlieb, Taylor Kuhn, Stefano Goria(参考訳) 本研究は、神経発達障害児の診断認知評価中に収集されたビデオおよび音声データに対する機械学習技術の適用に関する概念実証研究である。 この研究は39の動画記録のデータセットを利用し、臨床医が4つの認知評価試験を施した広範囲なセッションを撮影した。 各臨床セッションの開始40分後から,Wechsler Intelligence Scale for Children (WISC-V) を対象とし,臨床医と小児の頭位と発声位置を抽出した。 サンプルサイズと異種記録スタイルが限定されているにもかかわらず, 患者・クリニック相互作用に着目し, 記録データの特徴としてパスシグネチャの抽出に成功した。 これらの特徴は、評価過程(対話と運動パターン)の対人的ダイナミクスを定量化する。 これらの特徴は,全セッション長の認知テストスコアを予測し,臨床判断支援ツールとして予測モデルをプロトタイピングする有望な可能性を示唆する。 全体として、この概念実証は、小児の神経発達障害に対する認知評価の効率を高めるために、臨床ビデオおよび音声データ分析に機械学習技術を活用する可能性を示している。

This research report presents a proof-of-concept study on the application of machine learning techniques to video and speech data collected during diagnostic cognitive assessments of children with a neurodevelopmental disorder. The study utilised a dataset of 39 video recordings, capturing extensive sessions where clinicians administered, among other things, four cognitive assessment tests. From the first 40 minutes of each clinical session, covering the administration of the Wechsler Intelligence Scale for Children (WISC-V), we extracted head positions and speech turns of both clinician and child. Despite the limited sample size and heterogeneous recording styles, the analysis successfully extracted path signatures as features from the recorded data, focusing on patient-clinician interactions. Importantly, these features quantify the interpersonal dynamics of the assessment process (dialogue and movement patterns). Results suggest that these features exhibit promising potential for predicting all cognitive tests scores of the entire session length and for prototyping a predictive model as a clinical decision support tool. Overall, this proof of concept demonstrates the feasibility of leveraging machine learning techniques for clinical video and speech data analysis in order to potentially enhance the efficiency of cognitive assessments for neurodevelopmental disorders in children.
翻訳日:2024-01-15 13:26:23 公開日:2023-12-12
# ComplexityNet: タスク複雑度学習によるLLM推論効率の向上

ComplexityNet: Increasing LLM Inference Efficiency by Learning Task Complexity ( http://arxiv.org/abs/2312.11511v1 )

ライセンス: Link先を確認
Henry Bae, Aghyad Deeb, Alex Fleury, Kehang Zhu(参考訳) 本稿では,タスクの複雑さを評価するために設計された言語モデルであるComplexityNetを紹介する。 このモデルは、様々な言語モデルによって正確な出力の可能性を予測する。 ComplexityNetの初期アプリケーションには、MBPP(Mostly Basic Python Problems)データセットが含まれています。 私たちはタスクの複雑さを定義するために、最初のラベルセットを作成しました。 complexitynetはタスクの複雑さを決定するのに79%の精度を達成し、オリジナルの非微調整モデルの34%の精度を大きく改善した。 さらに、complexnetは、高いコード生成精度86.7%を維持しながら、計算リソース使用量を最高複雑さモデルと比較して90%効果的に削減する。 本研究は、タスクを複雑度に基づいて分類する小さなモデルを微調整することで、大規模言語モデルの使用における精度と効率のバランスのとれたトレードオフをもたらすことを実証する。 この結果から, LLM アプリケーション, 特に資源制約環境において, 最適化に期待できる方向性が示唆された。

We present ComplexityNet, a streamlined language model designed for assessing task complexity. This model predicts the likelihood of accurate output by various language models, each with different capabilities. Our initial application of ComplexityNet involves the Mostly Basic Python Problems (MBPP) dataset. We pioneered the creation of the first set of labels to define task complexity. ComplexityNet achieved a notable 79% accuracy in determining task complexity, a significant improvement over the 34% accuracy of the original, non fine-tuned model. Furthermore, ComplexityNet effectively reduces computational resource usage by 90% compared to using the highest complexity model, while maintaining a high code generation accuracy of 86.7%. This study demonstrates that fine-tuning smaller models to categorize tasks based on their complexity can lead to a more balanced trade-off between accuracy and efficiency in the use of Large Language Models. Our findings suggest a promising direction for optimizing LLM applications, especially in resource-constrained environments.
翻訳日:2024-01-15 13:25:12 公開日:2023-12-12
# QuadAttack: 順序付きトップK攻撃に対する擬似プログラミングアプローチ

QuadAttack: A Quadratic Programming Approach to Ordered Top-K Attacks ( http://arxiv.org/abs/2312.11510v1 )

ライセンス: Link先を確認
Thomas Paniagua, Ryan Grainger, Tianfu Wu(参考訳) ディープニューラルネットワーク(DNN)の敵対的脆弱性はよく知られており、しばしば1ドル以上の攻撃(例えば、猫のイメージを犬として分類するためにDNNを騙す)を学ぶ文脈で広く懸念されている。 この論文は、よりアグレッシブに順序づけられたトップ-$k$ clear-box~\footnote{ これは文学においてホワイト/ブラックボックス攻撃と呼ばれることが多い。 本論文では,中立的用語,クリア/オプタクボックス攻撃を採用し,単純さのためにプレフィックスクリアボックスを省略する。 対外蒸留法で提案された標的攻撃。 計算コストの低い上位$K$攻撃を学習する,新しい,厳密な2次プログラミング(QP)手法を提案し,これを「textbf{QuadAttac$K$}」と呼ぶ。 我々のquadattac$k$はqpを直接解いて、特徴埋め込み空間(つまり、最終線形分類器への入力空間)における攻撃制約を満たすため、特徴埋め込み空間(すなわち、クラスコヒーレンス原理)の意味論を利用する。 最適化された特徴埋め込みベクトル摂動により、バニラワンステップバックプロパゲーションを介してデータ空間内の逆摂動を計算する。 実験では、提案されたQuadAttac$K$が、ResNet-50、DenseNet-121、ViT-B、DiT-Sを用いてImageNet-1k分類でテストされている。 安価な予算($\times 60$)で$k=10$から$k=20$まで成功し、すべてのテストモデルで$k=5$のアタック成功率をさらに向上させながら、$k=1$のパフォーマンスを維持した。

The adversarial vulnerability of Deep Neural Networks (DNNs) has been well-known and widely concerned, often under the context of learning top-$1$ attacks (e.g., fooling a DNN to classify a cat image as dog). This paper shows that the concern is much more serious by learning significantly more aggressive ordered top-$K$ clear-box~\footnote{ This is often referred to as white/black-box attacks in the literature. We choose to adopt neutral terminology, clear/opaque-box attacks in this paper, and omit the prefix clear-box for simplicity.} targeted attacks proposed in Adversarial Distillation. We propose a novel and rigorous quadratic programming (QP) method of learning ordered top-$K$ attacks with low computing cost, dubbed as \textbf{QuadAttac$K$}. Our QuadAttac$K$ directly solves the QP to satisfy the attack constraint in the feature embedding space (i.e., the input space to the final linear classifier), which thus exploits the semantics of the feature embedding space (i.e., the principle of class coherence). With the optimized feature embedding vector perturbation, it then computes the adversarial perturbation in the data space via the vanilla one-step back-propagation. In experiments, the proposed QuadAttac$K$ is tested in the ImageNet-1k classification using ResNet-50, DenseNet-121, and Vision Transformers (ViT-B and DEiT-S). It successfully pushes the boundary of successful ordered top-$K$ attacks from $K=10$ up to $K=20$ at a cheap budget ($1\times 60$) and further improves attack success rates for $K=5$ for all tested models, while retaining the performance for $K=1$.
翻訳日:2024-01-15 13:24:51 公開日:2023-12-12
# SEOpinion:EコマースWebサイトの要約と探索

SEOpinion: Summarization and Exploration Opinion of E-Commerce Websites ( http://arxiv.org/abs/2312.14171v1 )

ライセンス: Link先を確認
Alhassan Mabrouk and Rebeca P. D\'iaz-Redondo and Mohammed Kayed(参考訳) Eコマース(EC)ウェブサイトは、人間の認知処理能力を超える有用な情報を大量に提供している。 商品購入時の代替品の比較を支援するため、過去の研究では顧客レビューに基づく意見要約システムを考案した。 彼らはメーカーが提供するテンプレートの情報を無視したが、これらの記述的情報は多くの製品側面や特徴を持っている。 そこで本研究では,2つの主要な段階において,テンプレートの情報と顧客レビューの組合せを用いて,製品面の要約と,それらに関する意見(意見)を提示するSEOpinion(Summa-rization and Exploration of Opinions)という手法を提案する。 まず、階層的アスペクト抽出(HAE)フェーズは、テンプレートから製品側面の階層を生成する。 続いて、階層的アスペクトベース意見要約(haos)フェーズは、この階層を顧客の意見で強化し、他の潜在的な購入者に示す。 本稿では,Deep LearningベースのBERT技術の適用可能性をテストするため,ノートパソコン用EC Webサイトのトップ5から情報を収集してコーパスを作成する。 実験結果から、Recurrent Neural Network(RNN)は、畳み込みニューラルネットワーク(CNN)やSVM(Support Vector Machine)技術よりも優れた結果(第1フェーズと第2フェーズのF1尺度では77.4%と82.6%)が得られることが示された。

E-Commerce (EC) websites provide a large amount of useful information that exceed human cognitive processing ability. In order to help customers in comparing alternatives when buying a product, previous studies designed opinion summarization systems based on customer reviews. They ignored templates' information provided by manufacturers, although these descriptive information have much product aspects or characteristics. Therefore, this paper proposes a methodology coined as SEOpinion (Summa-rization and Exploration of Opinions) which provides a summary for the product aspects and spots opinion(s) regarding them, using a combination of templates' information with the customer reviews in two main phases. First, the Hierarchical Aspect Extraction (HAE) phase creates a hierarchy of product aspects from the template. Subsequently, the Hierarchical Aspect-based Opinion Summarization (HAOS) phase enriches this hierarchy with customers' opinions; to be shown to other potential buyers. To test the feasibility of using Deep Learning-based BERT techniques with our approach, we have created a corpus by gathering information from the top five EC websites for laptops. The experimental results show that Recurrent Neural Network (RNN) achieves better results (77.4% and 82.6% in terms of F1-measure for the first and second phase) than the Convolutional Neural Network (CNN) and the Support Vector Machine (SVM) technique.
翻訳日:2024-01-15 13:14:35 公開日:2023-12-12
# 深層学習に基づく感性分類:比較調査

Deep Learning-based Sentiment Classification: A Comparative Survey ( http://arxiv.org/abs/2312.17253v1 )

ライセンス: Link先を確認
Mohamed Kayed and Rebeca P. D\'iaz-Redondo and Alhassan Mabrouk(参考訳) 近年,Deep Learning (DL) アプローチは,マイニングやセンチメント分析(SA)のレビューにおいて中心となる課題である感性分類(SC)問題の解決に応用されている。 これらのアプローチのパフォーマンスは、さまざまな要因の影響を受けます。 本稿では,これらの因子を,データ準備ベース因子,特徴表現ベース因子,分類技術ベース因子の3つに分類する。 本論文は,3つのアプリケーションドメイン(製品,映画,レストラン)内の21のレビューデータセットを用いて,100以上のdlベースのscアプローチのパフォーマンスを比較する包括的文献ベース調査である。 これらの21のデータセットは、我々の研究にグローバルなビジョンを与えるために異なる特性(バランス/不均衡、サイズなど)を持っている。 本比較では,提案する因子が研究用DLベースのSC手法の性能に与える影響について述べる。

Recently, Deep Learning (DL) approaches have been applied to solve the Sentiment Classification (SC) problem, which is a core task in reviews mining or Sentiment Analysis (SA). The performances of these approaches are affected by different factors. This paper addresses these factors and classifies them into three categories: data preparation based factors, feature representation based factors and the classification techniques based factors. The paper is a comprehensive literature-based survey that compares the performance of more than 100 DL-based SC approaches by using 21 public datasets of reviews given by customers within three specific application domains (products, movies and restaurants). These 21 datasets have different characteristics (balanced/imbalanced, size, etc.) to give a global vision for our study. The comparison explains how the proposed factors quantitatively affect the performance of the studied DL-based SC approaches.
翻訳日:2024-01-15 12:48:12 公開日:2023-12-12
# 言語と政治の双方向適応によるオープンエンドエンボディエージェントの構築

Building Open-Ended Embodied Agent via Language-Policy Bidirectional Adaptation ( http://arxiv.org/abs/2401.00006v1 )

ライセンス: Link先を確認
Shaopeng Zhai, Jie Wang, Tianyi Zhang, Fuxian Huang, Qi Zhang, Ming Zhou, Jing Hou and Yu Liu(参考訳) オープンエンド学習エージェントの構築には、事前学習言語モデル(LLM)と強化学習(RL)アプローチの課題が含まれる。 LLMはコンテキスト固有のリアルタイムインタラクションに苦しむ一方、RL法は探索の効率性の問題に直面している。 そこで我々は,LLMとGRLと連携して,任意の指示を解釈できるオープンエンドエージェントを構築するための協調学習フレームワークOpenContraを提案する。 この実装は、(1)人間の指示を構造化された目標に翻訳するLLMを微調整し、(2)任意の目標を達成するために目標条件付きRLポリシーを訓練し、(2)LLMとRLポリシーを互いに適応させ、指示空間にオープンディペンデンスを達成させる協調訓練を含む。 複雑で広大な目標空間を持つバトルロイヤルFPSゲームであるContraで実験を行う。 その結果、OpenContraで訓練されたエージェントは、任意の人間の指示を理解し、高い完成率で目標を達成していることが示され、OpenContraがオープンなエンボディエージェントを構築するための最初の実用的なソリューションである可能性が証明された。

Building open-ended learning agents involves challenges in pre-trained language model (LLM) and reinforcement learning (RL) approaches. LLMs struggle with context-specific real-time interactions, while RL methods face efficiency issues for exploration. To this end, we propose OpenContra, a co-training framework that cooperates LLMs and GRL to construct an open-ended agent capable of comprehending arbitrary human instructions. The implementation comprises two stages: (1) fine-tuning an LLM to translate human instructions into structured goals, and curriculum training a goal-conditioned RL policy to execute arbitrary goals; (2) collaborative training to make the LLM and RL policy learn to adapt each, achieving open-endedness on instruction space. We conduct experiments on Contra, a battle royale FPS game with a complex and vast goal space. The results show that an agent trained with OpenContra comprehends arbitrary human instructions and completes goals with a high completion ratio, which proves that OpenContra may be the first practical solution for constructing open-ended embodied agents.
翻訳日:2024-01-15 12:24:19 公開日:2023-12-12
# フローネットワークにおける学習のためのセンサ配置

Sensor Placement for Learning in Flow Networks ( http://arxiv.org/abs/2401.02438v1 )

ライセンス: Link先を確認
Arnav Burudgunte, Arlei Silva(参考訳) 大規模なインフラストラクチャネットワーク(輸送や電力流通など)では、障害や混雑、その他の敵対的なイベントの監視が常に必要となる。 しかしながら、ネットワーク内のすべてのリンクにセンサーを割り当てることは、配置とメンテナンスコストのためにしばしば実現不可能である。 代わりに、センサーはいくつかのキーリンクにのみ配置することができ、機械学習アルゴリズムは、ネットワーク全体での計測不足(例えば、トラフィック数、電力フロー)の推測に利用することができる。 本稿では,ネットワークのセンサ配置問題について検討する。 まず, 流れの保存仮定に基づいて問題を定式化し, 最適に固定されたセンサを配置することがNPハードであることを示す。 次に,大規模ネットワークにスケールするセンサ配置のための効率よく適応的なグリーディヒューリスティックを提案する。 実世界のアプリケーションドメインのデータセットを用いた本実験は,提案手法が文献の既存の代替案よりも正確な推論を可能にすることを示す。 我々は,不完全あるいは不完全な推定値であっても,特に少数のセンサが利用可能な場合,予測誤差を大幅に改善できることを実証する。

Large infrastructure networks (e.g. for transportation and power distribution) require constant monitoring for failures, congestion, and other adversarial events. However, assigning a sensor to every link in the network is often infeasible due to placement and maintenance costs. Instead, sensors can be placed only on a few key links, and machine learning algorithms can be leveraged for the inference of missing measurements (e.g. traffic counts, power flows) across the network. This paper investigates the sensor placement problem for networks. We first formalize the problem under a flow conservation assumption and show that it is NP-hard to place a fixed set of sensors optimally. Next, we propose an efficient and adaptive greedy heuristic for sensor placement that scales to large networks. Our experiments, using datasets from real-world application domains, show that the proposed approach enables more accurate inference than existing alternatives from the literature. We demonstrate that considering even imperfect or incomplete ground-truth estimates can vastly improve the prediction error, especially when a small number of sensors is available.
翻訳日:2024-01-15 09:43:39 公開日:2023-12-12
# 3dgazenet:合成ビューからの弱スーパービジョンによる視線推定の一般化

3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from Synthetic Views ( http://arxiv.org/abs/2212.02997v3 )

ライセンス: Link先を確認
Evangelos Ververas, Polydefkis Gkagkos, Jiankang Deng, Michail Christos Doukas, Jia Guo, Stefanos Zafeiriou(参考訳) 未発見領域や野生条件によく一般化した視線推定モデルの開発は、既知の最善の解決法がない課題である。 これは主に、現実世界に存在する顔、頭の位置、環境の分布をカバーする根拠となる真理データを取得するのが難しいためである。 最近の手法では、特定のソースとターゲットドメイン間のギャップをドメイン適応を用いて埋めようとしている。 本研究では,新しい環境に適応せずに直接適用可能な一般視線推定モデルを訓練することを提案する。 そこで我々は,頭部・身体・手ポーズ推定の利点を高密度3次元座標予測として再検討し,高密度3次元眼メッシュの回帰として視線推定を表現した。 画像領域間のギャップを埋めるために,シーンの3次元形状から抽出した視線擬似注釈を用いた多彩な顔の大規模データセットを作成し,その効果のバランスをとるための多視点監視フレームワークを設計する。 本手法を視線一般化のタスクでテストし,真理データが得られない場合の最先端技術に比べて最大30%,真理データが得られない場合は最大10%の改善を実証する。 プロジェクト資料は、https://github.com/vagver/3dgazenetで研究目的に利用できる。

Developing gaze estimation models that generalize well to unseen domains and in-the-wild conditions remains a challenge with no known best solution. This is mostly due to the difficulty of acquiring ground truth data that cover the distribution of faces, head poses, and environments that exist in the real world. Most recent methods attempt to close the gap between specific source and target domains using domain adaptation. In this work, we propose to train general gaze estimation models which can be directly employed in novel environments without adaptation. To do so, we leverage the observation that head, body, and hand pose estimation benefit from revising them as dense 3D coordinate prediction, and similarly express gaze estimation as regression of dense 3D eye meshes. To close the gap between image domains, we create a large-scale dataset of diverse faces with gaze pseudo-annotations, which we extract based on the 3D geometry of the scene, and design a multi-view supervision framework to balance their effect during training. We test our method in the task of gaze generalization, in which we demonstrate improvement of up to 30% compared to state-of-the-art when no ground truth data are available, and up to 10% when they are. The project material are available for research purposes at https://github.com/Vagver/3DGazeNet.
翻訳日:2023-12-16 05:31:54 公開日:2023-12-12
# loco: 局所制約のあるトレーニングフリーなレイアウトからイメージへの合成

LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis ( http://arxiv.org/abs/2311.12342v2 )

ライセンス: Link先を確認
Peiang Zhao, Han Li, Ruiyang Jin, S. Kevin Zhou(参考訳) 最近のテキストから画像への拡散モデルは、高品質な画像を生成する前例のないレベルに達している。 しかしながら、テキストプロンプトへの排他的依存はしばしば、きめ細かい空間構成を正確に伝達するのに不足する。 本稿では,テキストプロンプトと空間レイアウトの両方に対応する高品質画像の生成に優れた,レイアウトから画像への合成のためのトレーニングフリーな手法であるlocoを提案する。 本手法では,個別の物体に対する横断的注意を洗練し,特定領域における正確な配置を確保するために,局所的注意制限を導入する。 さらに,これまで無視されていたパディングトークンに埋め込まれた意味情報を活用するために,パディングトークン制約を提案する。 locoは既存のテキストから画像へ、レイアウトから画像へモデルをシームレスに統合し、パフォーマンスを大幅に向上させ、以前の方法で見られた意味的障害を効果的に対処します。 広範な実験を通じて,既存の最先端のトレーニングフリーなレイアウトからイメージへのアプローチを,複数のベンチマークで質的かつ定量的に比較し,このアプローチの優位性を示す。

Recent text-to-image diffusion models have reached an unprecedented level in generating high-quality images. However, their exclusive reliance on textual prompts often falls short in accurately conveying fine-grained spatial compositions. In this paper, we propose LoCo, a training-free approach for layout-to-image synthesis that excels in producing high-quality images aligned with both textual prompts and spatial layouts. Our method introduces a Localized Attention Constraint to refine cross-attention for individual objects, ensuring their precise placement in designated regions. We further propose a Padding Token Constraint to leverage the semantic information embedded in previously neglected padding tokens, thereby preventing the undesired fusion of synthesized objects. LoCo seamlessly integrates into existing text-to-image and layout-to-image models, significantly amplifying their performance and effectively addressing semantic failures observed in prior methods. Through extensive experiments, we showcase the superiority of our approach, surpassing existing state-of-the-art training-free layout-to-image methods both qualitatively and quantitatively across multiple benchmarks.
翻訳日:2023-12-16 03:45:48 公開日:2023-12-12
# QAFE-Net:ランドマークヒートマップを用いた表情の品質評価

QAFE-Net: Quality Assessment of Facial Expressions with Landmark Heatmaps ( http://arxiv.org/abs/2312.00856v2 )

ライセンス: Link先を確認
Shuchao Duan, Amirhossein Dadashzadeh, Alan Whone, Majid Mirmehdi(参考訳) 表情認識(FER)法は人間の気分や感情の分類において大きな進歩を遂げている。 FER以外にも、痛み評価手法は痛み表情の強度のレベルを評価するが、すべての表情の質を評価することは健康関連アプリケーションにおいて重要な価値である。 本研究では,パーキンソン病患者の5種類の表情の質について検討した。 本稿では,時間的ランドマークのヒートマップとRGBデータを組み合わせた新たなランドマーク誘導型アプローチQAFE-Netを提案する。 提案手法は,新しいパーキンソン病表情データセット(pfed5)と,痛み推定ベンチマーク(unbc-mcmaster shoulder pain expression archive database)を用いて評価した。 比較実験により,提案手法はPFED5上でのSOTA行動品質評価よりも優れており,UNBC-McMaster上でのSOTA痛み推定法よりも平均絶対誤差が低いことが示された。 私たちのコードと新しいPFED5データセットはhttps://github.com/shuchaoduan/QAFE-Net.orgで公開されている。

Facial expression recognition (FER) methods have made great inroads in categorising moods and feelings in humans. Beyond FER, pain estimation methods assess levels of intensity in pain expressions, however assessing the quality of all facial expressions is of critical value in health-related applications. In this work, we address the quality of five different facial expressions in patients affected by Parkinson's disease. We propose a novel landmark-guided approach, QAFE-Net, that combines temporal landmark heatmaps with RGB data to capture small facial muscle movements that are encoded and mapped to severity scores. The proposed approach is evaluated on a new Parkinson's Disease Facial Expression dataset (PFED5), as well as on the pain estimation benchmark, the UNBC-McMaster Shoulder Pain Expression Archive Database. Our comparative experiments demonstrate that the proposed method outperforms SOTA action quality assessment works on PFED5 and achieves lower mean absolute error than the SOTA pain estimation methods on UNBC-McMaster. Our code and the new PFED5 dataset are available at https://github.com/shuchaoduan/QAFE-Net.
翻訳日:2023-12-16 03:36:11 公開日:2023-12-12
# TLControl:人間の運動合成のための軌道と言語制御

TLControl: Trajectory and Language Control for Human Motion Synthesis ( http://arxiv.org/abs/2311.17135v3 )

ライセンス: Link先を確認
Weilin Wan, Zhiyang Dou, Taku Komura, Wenping Wang, Dinesh Jayaraman, Lingjie Liu(参考訳) 制御可能な人間のモーション合成は、AR/VR、ゲーム、映画、エンボディドAIの応用に不可欠である。 既存の手法は言語または完全な軌道制御にのみ焦点をあてることが多く、特にマルチジョイント制御において、ユーザが特定した軌道に合わせた合成動作の精度に欠ける。 これらの問題に対処するため,TLControlは,低レベルな軌跡と高レベルな言語セマンティクス制御の両方を取り入れた,リアルな人間の動作合成のための新しい手法である。 具体的には、まずVQ-VAEをトレーニングし、ボディパーツによって構成されたコンパクトな潜在運動空間を学習する。 次に,学習された潜在運動空間に基づく関節の完全な軌跡の粗い初期予測を行うために,ユーザが指定した部分的軌跡とテキスト記述を条件として仮面付き軌跡変換器を提案する。 最後に, 高精度軌道制御のための粗い予測を洗練するために, 効率的なテストタイム最適化を提案する。 実験により,TLControlはトラジェクトリの精度と時間効率に優れており,インタラクティブで高品質なアニメーション生成に実用的であることが示された。

Controllable human motion synthesis is essential for applications in AR/VR, gaming, movies, and embodied AI. Existing methods often focus solely on either language or full trajectory control, lacking precision in synthesizing motions aligned with user-specified trajectories, especially for multi-joint control. To address these issues, we present TLControl, a new method for realistic human motion synthesis, incorporating both low-level trajectory and high-level language semantics controls. Specifically, we first train a VQ-VAE to learn a compact latent motion space organized by body parts. We then propose a Masked Trajectories Transformer to make coarse initial predictions of full trajectories of joints based on the learned latent motion space, with user-specified partial trajectories and text descriptions as conditioning. Finally, we introduce an efficient test-time optimization to refine these coarse predictions for accurate trajectory control. Experiments demonstrate that TLControl outperforms the state-of-the-art in trajectory accuracy and time efficiency, making it practical for interactive and high-quality animation generation.
翻訳日:2023-12-16 03:33:32 公開日:2023-12-12
# 0.1%のデータでセグメンテーションが減る

0.1% Data Makes Segment Anything Slim ( http://arxiv.org/abs/2312.05284v2 )

ライセンス: Link先を確認
Zigeng Chen, Gongfan Fang, Xinyin Ma, Xinchao Wang(参考訳) SAM(Segment Anything Model)の恐ろしいモデルサイズと計算要求により、リソース制約のあるデバイスへのデプロイが困難になった。 sam圧縮に対する既存のアプローチは、通常、新しいネットワークをスクラッチからトレーニングすることであり、圧縮コストとモデルパフォーマンスのトレードオフとなる。 そこで本研究では,SlimSAMを提案する。SlimSAMは,訓練コストを著しく低減し,優れた性能を実現する新しいSAM圧縮手法である。 これは、統一プルーニング蒸留フレームワークによる事前訓練されたSAMの効率的な再利用によって達成される。 元のSAMからの知識継承を向上させるために,圧縮プロセスをプログレッシブな手順に分割する,革新的な代替スリム化戦略を採用した。 従来の刈り取り技術から切り離して, 精巧に熟成し, 脱カップリングモデル構造を交互に蒸留する。 さらに, プルーニング目標を最適化目標と整合させ, プルーニング後の蒸留を促進させる新たなラベルフリープルーニング基準も提案している。 SlimSAMは、既存の方法の10倍以上のトレーニングコストを必要とする一方で、大幅なパフォーマンス向上を実現している。 オリジナルのSAM-Hと比較しても、SlimSAMはパラメータカウントをわずか0.9% (5.7M)、MACを0.8% (21G)、SAMトレーニングデータの0.1% (10k) に減らしながら、接近性能を達成する。 コードはurl{http://github.com/czg1225/SlimSAM}で入手できる。

The formidable model size and demanding computational requirements of Segment Anything Model (SAM) have rendered it cumbersome for deployment on resource-constrained devices. Existing approaches for SAM compression typically involve training a new network from scratch, posing a challenging trade-off between compression costs and model performance. To address this issue, this paper introduces SlimSAM, a novel SAM compression method that achieves superior performance with remarkably low training costs. This is achieved by the efficient reuse of pre-trained SAMs through a unified pruning-distillation framework. To enhance knowledge inheritance from the original SAM, we employ an innovative alternate slimming strategy that partitions the compression process into a progressive procedure. Diverging from prior pruning techniques, we meticulously prune and distill decoupled model structures in an alternating fashion. Furthermore, a novel label-free pruning criterion is also proposed to align the pruning objective with the optimization target, thereby boosting the post-distillation after pruning. SlimSAM yields significant performance improvements while demanding over 10 times less training costs than any other existing methods. Even when compared to the original SAM-H, SlimSAM achieves approaching performance while reducing parameter counts to merely 0.9% (5.7M), MACs to 0.8% (21G), and requiring only 0.1% (10k) of the SAM training data. Code is available at url{http://github.com/czg1225/SlimSAM}.
翻訳日:2023-12-16 03:22:35 公開日:2023-12-12
# HODLからMOONへ:暗号通貨エコシステムにおけるコミュニティ進化、感情ダイナミクス、価格相互作用を理解する

From HODL to MOON: Understanding Community Evolution, Emotional Dynamics, and Price Interplay in the Cryptocurrency Ecosystem ( http://arxiv.org/abs/2312.08394v1 )

ライセンス: Link先を確認
Kostantinos Papadamou, Jay Patel, Jeremy Blackburn, Philipp Jovanovic, Emiliano De Cristofaro(参考訳) 本稿では,reddit上で暗号通貨コミュニティを大規模に分析し,その活動の進化と感情のダイナミクス,価格変動の関係について考察する。 我々は、時間分析、統計モデリング、感情検出を用いて、112の暗号通貨関連サブレディットの130万件以上の投稿を分析した。 r/cryptocurrencyと/r/dogecoinが最もアクティブなサブredditであるが、2021年には暗号通貨関連の活動が急増し、その後急速に減少している。 また、オンライン活動とさまざまなコインの価格の相互関係について、主に価格変更を導く投稿数の変化について、強い相関関係を明らかにした。 バックテスト分析によると、毎日の投稿数が前よりも多い場合、コインを購入したり売ったりするという相互相関に基づく直接的な戦略は、投資の3倍のリターンをもたらす。 最後に、私たちは暗号通貨コミュニティの感情的ダイナミクスに光を当て、市場の上昇中に喜びが顕著な指標となり、市場の衰退は怒りの高まりを示していることに気付きました。

This paper presents a large-scale analysis of the cryptocurrency community on Reddit, shedding light on the intricate relationship between the evolution of their activity, emotional dynamics, and price movements. We analyze over 130M posts on 122 cryptocurrency-related subreddits using temporal analysis, statistical modeling, and emotion detection. While /r/CryptoCurrency and /r/dogecoin are the most active subreddits, we find an overall surge in cryptocurrency-related activity in 2021, followed by a sharp decline. We also uncover a strong relationship in terms of cross-correlation between online activity and the price of various coins, with the changes in the number of posts mostly leading the price changes. Backtesting analysis shows that a straightforward strategy based on the cross-correlation where one buys/sells a coin if the daily number of posts about it is greater/less than the previous would have led to a 3x return on investment. Finally, we shed light on the emotional dynamics of the cryptocurrency communities, finding that joy becomes a prominent indicator during upward market performance, while a decline in the market manifests an increase in anger.
翻訳日:2023-12-16 03:08:50 公開日:2023-12-12
# オンライン食料品育成のためのマルチクリトリアレコメンデーションシステム

Multi-criteria recommendation systems to foster online grocery ( http://arxiv.org/abs/2312.08393v1 )

ライセンス: Link先を確認
Manar Mohamed Hafez, Rebeca P. D\'iaz Redondo, Ana Fern\'andez-Vilas, H\'ector Olivera Paz\'o(参考訳) 情報の指数的な増加に伴い、ユーザができるだけ早く重要なものにアクセスできるようにするメカニズムの設計が不可欠になっている。 情報技術開発のための推奨システム(rs$)はソリューションであり、インテリジェントなシステムである。 ユーザーの興味のある項目からさまざまな種類のデータを収集し、レコメンデーションとして提示することができる。 また、$RS$はeコマースにおいて非常に重要な役割を果たす。 製品を推薦する目的は、特定の製品の最も適切な指定を指定することである。 プロダクトを推奨する主な課題は、製品とその属するカテゴリに関する情報が不十分であることだ。 本稿では,2つの文書表現法であるback-of-words(BOW)と,ベクトルベース(Doc2Vec)と呼ばれるニューラルネットワークベースのドキュメントの組み合わせを用いて,製品データを変換する。 本稿では, 商品特性(コンポジション, 包装, 栄養食卓, アレルゲンなど)に依存する, オンライン食料品を育成するための各文書表現手法の3つの基準推薦システム(製品, パッケージ, 健康)を提案する。 評価のために,ユーザおよび専門家による調査を行った。 最後に、各文書表現法におけるこれらの3つの基準の性能を比較し、ニューラルネットワーク(Doc2Vec)がより良い性能を示し、結果を完全に変更した。

With the exponential increase in information, it has become imperative to design mechanisms that allow users to access what matters to them as quickly as possible. The recommendation system ($RS$) with information technology development is the solution, it is an intelligent system. Various types of data can be collected on items of interest to users and presented as recommendations. $RS$ also play a very important role in e-commerce. The purpose of recommending a product is to designate the most appropriate designation for a specific product. The major challenges when recommending products are insufficient information about the products and the categories to which they belong. In this paper, we transform the product data using two methods of document representation: bag-of-words (BOW) and the neural network-based document combination known as vector-based (Doc2Vec). We propose three-criteria recommendation systems (product, package, and health) for each document representation method to foster online grocery, which depends on product characteristics such as (composition, packaging, nutrition table, allergen, etc.). For our evaluation, we conducted a user and expert survey. Finally, we have compared the performance of these three criteria for each document representation method, discovering that the neural network-based (Doc2Vec) performs better and completely alters the results.
翻訳日:2023-12-16 03:08:31 公開日:2023-12-12
# 著者名曖昧化のためのグラフベースのアプローチの探索

Exploring Graph Based Approaches for Author Name Disambiguation ( http://arxiv.org/abs/2312.08388v1 )

ライセンス: Link先を確認
Chetanya Rastogi, Prabhat Agarwal, Shreya Singh(参考訳) 科学文献管理、研究者の検索、ソーシャルネットワーク分析など、多くの応用において、名前の曖昧さ(whoiswhoを曖昧さから解放する)は難しい問題となっている。 さらに、科学文献の成長により、この問題はより困難で緊急に解決される。 名前の曖昧さは学術や産業で広く研究されてきたが、データの散らばりと同一の名前シナリオの複雑さのために解決されていない。 そこで本研究では,問題に固有のネットワーク構造を用いて,名前の曖昧さを解消する作業を行うことのできるモデルを探索し,モデルの解析を行う。

In many applications, such as scientific literature management, researcher search, social network analysis and etc, Name Disambiguation (aiming at disambiguating WhoIsWho) has been a challenging problem. In addition, the growth of scientific literature makes the problem more difficult and urgent. Although name disambiguation has been extensively studied in academia and industry, the problem has not been solved well due to the clutter of data and the complexity of the same name scenario. In this work, we aim to explore models that can perform the task of name disambiguation using the network structure that is intrinsic to the problem and present an analysis of the models.
翻訳日:2023-12-16 03:08:08 公開日:2023-12-12
# 同期力学系の構造複雑性解析

A Structural Complexity Analysis of Synchronous Dynamical Systems ( http://arxiv.org/abs/2312.08385v1 )

ライセンス: Link先を確認
Eduard Eiben, Robert Ganian, Thekla Hamm, Viktoriia Korchemna(参考訳) 同期力学系は、意見の拡散、病気の拡散、製品の採用など、ネットワークにおける様々な現象を捉えるためによく確立されたモデルである。 我々は、同期動的システムにおける3つの注目すべき問題について検討する: システムが開始設定から目標設定に移行するかどうか、システムが開始設定から収束するかどうか、およびシステムがすべての開始設定から収束する保証があるかどうか。 これら3つの問題はいずれも古典的な意味では難解であることが知られているが、より詳細なパラメータ化複雑性パラダイムを用いて、ネットワークの構造的パラメータの観点から、トラクタビリティの正確な境界の研究を開始する。 最初の結果として、木幅を最も顕著でユビキタスな構造パラメータとみなし、定常木幅の例においても3つの問題が難解であることを示す。 我々は、木幅の制約であるtreedepthによってパラメータ化された2つの問題に対して、固定パラメータアルゴリズムを用いてこの負の探索を補完する。 木深度と最大赤道度でパラメータ化した場合、この最終問題に対する固定パラメータアルゴリズムを用いて、木深度下での収束保証の類似アルゴリズムを除外することができる。

Synchronous dynamic systems are well-established models that have been used to capture a range of phenomena in networks, including opinion diffusion, spread of disease and product adoption. We study the three most notable problems in synchronous dynamic systems: whether the system will transition to a target configuration from a starting configuration, whether the system will reach convergence from a starting configuration, and whether the system is guaranteed to converge from every possible starting configuration. While all three problems were known to be intractable in the classical sense, we initiate the study of their exact boundaries of tractability from the perspective of structural parameters of the network by making use of the more fine-grained parameterized complexity paradigm. As our first result, we consider treewidth - as the most prominent and ubiquitous structural parameter - and show that all three problems remain intractable even on instances of constant treewidth. We complement this negative finding with fixed-parameter algorithms for the former two problems parameterized by treedepth, a well-studied restriction of treewidth. While it is possible to rule out a similar algorithm for convergence guarantee under treedepth, we conclude with a fixed-parameter algorithm for this last problem when parameterized by treedepth and the maximum in-degree.
翻訳日:2023-12-16 03:07:57 公開日:2023-12-12
# さらに: ラベル・スカース・スモールホルダ領域のフィールドデライン化に擬似ラベルを活用する

Taking it further: leveraging pseudo labels for field delineation across label-scarce smallholder regions ( http://arxiv.org/abs/2312.08384v1 )

ライセンス: Link先を確認
Philippe Rufin, Sherrie Wang, S\'a Nogueira Lisboa, Jan Hemmerling, Mirela G. Tulbure, Patrick Meyfroidt(参考訳) 転送学習は、事前訓練されたフィールドデラインモデルのリソース効率の良い地理的転送を可能にする。 しかし、特にサハラ以南のアフリカでは、複雑でダイナミックな小さめの景観のためのラベル付きデータの不足が、大面積のフィールドデライン化の大きなボトルネックとなっている。 本研究は,地理情報とセンサ特性の微調整モデルにスパースフィールドデライン化擬似ラベルを用いる可能性を検討する。 本研究では,インドにおける作物の作付けを訓練したフラクタルResUNet(中間フィールドサイズ0.24ha)上に構築し,この事前学習モデルを用いてモザンビーク(中間フィールドサイズ0.06ha)の擬似ラベルを生成する。 複数の疑似ラベル選択戦略を考案し,疑似ラベルの量,地域特性,季節分布,空間的一致度を人間に付与された訓練ラベル (n = 1,512) と比較した。 次に、人間の注釈付きラベルと擬似ラベルをモデル微調整に使用し、人間のフィールドアノテーションに対する予測を比較した(n = 2,199)。 私たちの結果は 一 フィールドデライン化及びフィールドサイズ推定における事前学習モデルの良好なベースライン性能と、 二 ほぼすべての実験において、性能改善を伴う地域微調整の付加価値 さらに、我々は 三 擬似ラベルのみを使用する場合の実質的な性能向上(iouの最大77%、ヒトのラベルによるrmseの68%の低下)、及び iv) 人間のアノテーションを擬似ラベルで補完する場合のさらなる性能向上。 擬似ラベルは大規模に効率よく生成できるため、ラベルスカース設定でのドメイン適応が容易になる。 ここで提示されるワークフローは、ラベルが一般的に乏しいサハラ以南のアフリカにおける異種小作農におけるデータギャップの持続を克服するためのステップストーンである。

Transfer learning allows for resource-efficient geographic transfer of pre-trained field delineation models. However, the scarcity of labeled data for complex and dynamic smallholder landscapes, particularly in Sub-Saharan Africa, remains a major bottleneck for large-area field delineation. This study explores opportunities of using sparse field delineation pseudo labels for fine-tuning models across geographies and sensor characteristics. We build on a FracTAL ResUNet trained for crop field delineation in India (median field size of 0.24 ha) and use this pre-trained model to generate pseudo labels in Mozambique (median field size of 0.06 ha). We designed multiple pseudo label selection strategies and compared the quantities, area properties, seasonal distribution, and spatial agreement of the pseudo labels against human-annotated training labels (n = 1,512). We then used the human-annotated labels and the pseudo labels for model fine-tuning and compared predictions against human field annotations (n = 2,199). Our results indicate i) a good baseline performance of the pre-trained model in both field delineation and field size estimation, and ii) the added value of regional fine-tuning with performance improvements in nearly all experiments. Moreover, we found iii) substantial performance increases when using only pseudo labels (up to 77% of the IoU increases and 68% of the RMSE decreases obtained by human labels), and iv) additional performance increases when complementing human annotations with pseudo labels. Pseudo labels can be efficiently generated at scale and thus facilitate domain adaptation in label-scarce settings. The workflow presented here is a stepping stone for overcoming the persisting data gaps in heterogeneous smallholder agriculture of Sub-Saharan Africa, where labels are commonly scarce.
翻訳日:2023-12-16 03:07:36 公開日:2023-12-12
# 拡散カクテル:拡散モデルからの融合生成

Diffusion Cocktail: Fused Generation from Diffusion Models ( http://arxiv.org/abs/2312.08873v1 )

ライセンス: Link先を確認
Haoming Liu, Yuanhe Guo, Shengjie Wang, Hongyi Wen(参考訳) 拡散モデルは高品質な画像の生成に優れ、拡張が容易であり、安定拡散のような微調整ベースモデルによって様々なスタイルで拡散モデルの広範なコレクションを作成してきたアクティブユーザの間では非常に人気がある。 最近の研究は、拡散モデルの様々なコンポーネントに符号化された意味情報と視覚情報を明らかにすることに集中しており、より優れた生成品質とよりきめ細かい制御を可能にしている。 しかし、これらの手法は単一モデルの改善を目標とし、広く利用可能な微調整拡散モデルの集合を見落としている。 本研究では拡散モデルの組み合わせについて検討する。 拡散カクテル(ditail)は,2つの拡散モデル間で正確なコンテンツ情報を伝達できるトレーニングフリーな手法である。 これにより、拡散モデルセットを使用して多様な世代を実行できるようになり、単一のモデルだけでは得られない新しい画像が得られる。 また,画像の代わりに拡散モデルによって設定された対象スタイルを用いて,ディテールを用いたスタイル転送についても検討する。 ditailは拡散生成をより詳細に操作できるので、幅広いコミュニティが様々なスタイルやコンテンツをシームレスに統合し、あらゆるスタイルのコンテンツを生成することができる。

Diffusion models excel at generating high-quality images and are easy to extend, making them extremely popular among active users who have created an extensive collection of diffusion models with various styles by fine-tuning base models such as Stable Diffusion. Recent work has focused on uncovering semantic and visual information encoded in various components of a diffusion model, enabling better generation quality and more fine-grained control. However, those methods target improving a single model and overlook the vastly available collection of fine-tuned diffusion models. In this work, we study the combinations of diffusion models. We propose Diffusion Cocktail (Ditail), a training-free method that can accurately transfer content information between two diffusion models. This allows us to perform diverse generations using a set of diffusion models, resulting in novel images that are unlikely to be obtained by a single model alone. We also explore utilizing Ditail for style transfer, with the target style set by a diffusion model instead of an image. Ditail offers a more detailed manipulation of the diffusion generation, thereby enabling the vast community to integrate various styles and contents seamlessly and generate any content of any style.
翻訳日:2023-12-15 22:40:32 公開日:2023-12-12
# vista-llama: ビジュアルトークンと同等距離で信頼できるビデオナレーター

Vista-LLaMA: Reliable Video Narrator via Equal Distance to Visual Tokens ( http://arxiv.org/abs/2312.08870v1 )

ライセンス: Link先を確認
Fan Ma, Xiaojie Jin, Heng Wang, Yuchen Xian, Jiashi Feng, Yi Yang(参考訳) 近年の大規模ビデオ言語モデルの進歩は,映像理解における有望な成果を示している。 現在のアプローチでは、ビデオを簡単に言語トークンに変換し、マルチモーダルタスクに大規模言語モデルを採用する。 しかし、この方法はしばしば、テキストの長さが増加し、ビデオの影響が減少するにつれて、一般に「幻覚」として知られる無関係なコンテンツを生成する。 この問題を解決するために、生成したテキスト長に関係なく、すべての視覚トークンと任意の言語トークンとの一貫性のある距離を維持する新しいフレームワークVista-LLaMAを提案する。 vista-llamaは、視覚トークンとテキストトークンの間の注意重みを決定する際に相対的な位置エンコーディングを省略し、テキストとテキストトークンの位置エンコーディングを保持する。 これは、特に視覚トークンとテキストトークンの相対距離が長い場合に、視覚トークンがテキスト生成に与える影響を増幅する。 提案手法は,ビデオコンテンツに関連した無関係なテキストを生成する可能性を著しく低減する。 さらに,従来のフレームの助けを借りて,現在の映像フレームを言語空間のトークンに投影する逐次視覚プロジェクタを提案する。 このアプローチは、ビデオ内の時間的関係をキャプチャするだけでなく、ビデオ全体を包含する視覚トークンを少なくする。 提案手法は,従来の様々な手法(ビデオチャットgpt,moviechatなど)を4つの難解なオープンエンドビデオ質問応答ベンチマークで大幅に上回っている。 ゼロショットNExT-QAでは60.7、ゼロショットMSRVTT-QAでは60.5に達し、新しい最先端性能が設定される。 このプロジェクトはhttps://jinxxian.github.io/Vista-LLaMA.comで入手できる。

Recent advances in large video-language models have displayed promising outcomes in video comprehension. Current approaches straightforwardly convert video into language tokens and employ large language models for multi-modal tasks. However, this method often leads to the generation of irrelevant content, commonly known as "hallucination", as the length of the text increases and the impact of the video diminishes. To address this problem, we propose Vista-LLaMA, a novel framework that maintains the consistent distance between all visual tokens and any language tokens, irrespective of the generated text length. Vista-LLaMA omits relative position encoding when determining attention weights between visual and text tokens, retaining the position encoding for text and text tokens. This amplifies the effect of visual tokens on text generation, especially when the relative distance is longer between visual and text tokens. The proposed attention mechanism significantly reduces the chance of producing irrelevant text related to the video content. Furthermore, we present a sequential visual projector that projects the current video frame into tokens of language space with the assistance of the previous frame. This approach not only captures the temporal relationship within the video, but also allows less visual tokens to encompass the entire video. Our approach significantly outperforms various previous methods (e.g., Video-ChatGPT, MovieChat) on four challenging open-ended video question answering benchmarks. We reach an accuracy of 60.7 on the zero-shot NExT-QA and 60.5 on the zero-shot MSRVTT-QA, setting a new state-of-the-art performance. This project is available at https://jinxxian.github.io/Vista-LLaMA.
翻訳日:2023-12-15 22:38:19 公開日:2023-12-12
# EditGuard: タンパーのローカライゼーションと著作権保護のためのVersatile Image Watermarking

EditGuard: Versatile Image Watermarking for Tamper Localization and Copyright Protection ( http://arxiv.org/abs/2312.08883v1 )

ライセンス: Link先を確認
Xuanyu Zhang, Runyi Li, Jiwen Yu, Youmin Xu, Weiqi Li, Jian Zhang(参考訳) AIGC(AI- generated content)モデルが素晴らしい、人生的なイメージを生成できる時代において、未承認の複製と悪意のある改ざんの影は、著作権の完全性と情報セキュリティに差し迫った脅威をもたらす。 現在の画像透かし法は、ビジュアルコンテンツの保護に広く受け入れられているが、著作権を保護し、トレーサビリティを保証するだけである。 彼らは、ますます現実的なイメージの改ざんをローカライズするのに不足しており、信頼の危機、プライバシー侵害、法的紛争につながる可能性がある。 この課題を解決するために,我々は,特にAIGCベースの編集手法において,著作権保護とタンパー非依存のローカライゼーションを統一する,革新的なプロアクティブな法医学フレームワークEditGuardを提案する。 認識不能な透かしを巧妙に埋め込み、改ざんされた領域と著作権情報の正確な復号を行うことができる。 画像から画像へのステガノグラフィのフレガリティと局所性を活用することで、editguardを統一した画像ビットステガノグラフィ問題に変換することで、トレーニングプロセスを改ざん型から完全に分離することができる。 大規模な実験により,私たちのEditGuardは,肉眼で検出が困難な画像偽造に対して,様々なAIGCベースの改ざん手法に対して,改ざん精度,著作権回復精度,一般化可能性のバランスをとっていた。 プロジェクトページはhttps://xuanyuzhang21.github.io/project/editguard/で入手できる。

In the era where AI-generated content (AIGC) models can produce stunning and lifelike images, the lingering shadow of unauthorized reproductions and malicious tampering poses imminent threats to copyright integrity and information security. Current image watermarking methods, while widely accepted for safeguarding visual content, can only protect copyright and ensure traceability. They fall short in localizing increasingly realistic image tampering, potentially leading to trust crises, privacy violations, and legal disputes. To solve this challenge, we propose an innovative proactive forensics framework EditGuard, to unify copyright protection and tamper-agnostic localization, especially for AIGC-based editing methods. It can offer a meticulous embedding of imperceptible watermarks and precise decoding of tampered areas and copyright information. Leveraging our observed fragility and locality of image-into-image steganography, the realization of EditGuard can be converted into a united image-bit steganography issue, thus completely decoupling the training process from the tampering types. Extensive experiments demonstrate that our EditGuard balances the tamper localization accuracy, copyright recovery precision, and generalizability to various AIGC-based tampering methods, especially for image forgery that is difficult for the naked eye to detect. The project page is available at https://xuanyuzhang21.github.io/project/editguard/.
翻訳日:2023-12-15 22:25:49 公開日:2023-12-12
# ニューラルビデオフィールド編集

Neural Video Fields Editing ( http://arxiv.org/abs/2312.08882v1 )

ライセンス: Link先を確認
Shuzhou Yang and Chong Mou and Jiwen Yu and Yuhan Wang and Xiandong Meng and Jian Zhang(参考訳) 拡散モデルはテキスト駆動ビデオ編集に革命をもたらした。 しかし,これらの手法を実世界の編集に適用することは,(1)フレーム数の増加に伴うグラフィックスメモリ需要の急増,(2)編集映像におけるフレーム間非一貫性の2つの課題に直面する。 そこで本稿では,メモリオーバヘッドを軽減し,実世界の長大動画の一貫した編集を改善するために設計された,新しいテキスト駆動ビデオ編集フレームワークであるnveditを提案する。 具体的には,tri-planeとsparse gridを用いて,数百フレームの長い映像をメモリ効率良くエンコーディングするニューラルビデオフィールドを構築した。 次に、オフザシェルフテキスト・トゥ・イメージ(T2I)モデルを用いて、ビデオフィールドを更新し、テキスト駆動編集効果を付与する。 プログレッシブ最適化戦略(progressive optimization strategy)が開発された。 重要なのは、ニューラルビデオフィールドとT2Iモデルの両方が適応可能で置き換え可能であり、将来の研究に刺激を与えることだ。 実験により,フレーム間の一貫性に優れる数百フレームの編集に成功した。

Diffusion models have revolutionized text-driven video editing. However, applying these methods to real-world editing encounters two significant challenges: (1) the rapid increase in graphics memory demand as the number of frames grows, and (2) the inter-frame inconsistency in edited videos. To this end, we propose NVEdit, a novel text-driven video editing framework designed to mitigate memory overhead and improve consistent editing for real-world long videos. Specifically, we construct a neural video field, powered by tri-plane and sparse grid, to enable encoding long videos with hundreds of frames in a memory-efficient manner. Next, we update the video field through off-the-shelf Text-to-Image (T2I) models to impart text-driven editing effects. A progressive optimization strategy is developed to preserve original temporal priors. Importantly, both the neural video field and T2I model are adaptable and replaceable, thus inspiring future research. Experiments demonstrate that our approach successfully edits hundreds of frames with impressive inter-frame consistency.
翻訳日:2023-12-15 22:25:19 公開日:2023-12-12
# AdaptIR:事前学習画像復元モデルのためのパラメータ効率的なマルチタスク適応

AdaptIR: Parameter Efficient Multi-task Adaptation for Pre-trained Image Restoration Models ( http://arxiv.org/abs/2312.08881v1 )

ライセンス: Link先を確認
Hang Guo, Tao Dai, Yuanchao Bai, Bin Chen, Shu-Tao Xia, Zexuan Zhu(参考訳) 事前トレーニングは、様々な画像復元タスクで有望な結果を示しており、通常は、特定の下流タスク(例えば、画像デノイジング)ごとに完全な微調整が行われる。 しかし、そのような完全な微調整は通常、事前訓練された修復モデルの膨大なパラメータのため、実際の計算コストの問題に苦しむため、実際の応用は制限される。 近年,パラメータ効率のよい転写学習 (PETL) は完全な微調整に有効な代替手段を提供しているが,劣化の多様性のため,事前学習した画像復元モデルには大きな課題に直面している。 そこで本研究では,事前学習した復元モデルに適応する新しいパラメータ効率の高い転送学習法であるadaptirを提案する。 具体的には,局所的空間的,大域的空間的,チャネル的相互作用を直交的に捉えるマルチブランチインセプション構造からなる。 このように、非常に低いパラメータ予算で強力な表現を可能にする。 広範な実験により,本手法は0.6%のパラメータしか使用せずに,完全な微調整と同等あるいはそれ以上の性能を達成できることが証明された。 コードはhttps://github.com/csguoh/AdaptIRで入手できる。

Pre-training has shown promising results on various image restoration tasks, which is usually followed by full fine-tuning for each specific downstream task (e.g., image denoising). However, such full fine-tuning usually suffers from the problems of heavy computational cost in practice, due to the massive parameters of pre-trained restoration models, thus limiting its real-world applications. Recently, Parameter Efficient Transfer Learning (PETL) offers an efficient alternative solution to full fine-tuning, yet still faces great challenges for pre-trained image restoration models, due to the diversity of different degradations. To address these issues, we propose AdaptIR, a novel parameter efficient transfer learning method for adapting pre-trained restoration models. Specifically, the proposed method consists of a multi-branch inception structure to orthogonally capture local spatial, global spatial, and channel interactions. In this way, it allows powerful representations under a very low parameter budget. Extensive experiments demonstrate that the proposed method can achieve comparable or even better performance than full fine-tuning, while only using 0.6% parameters. Code is available at https://github.com/csguoh/AdaptIR.
翻訳日:2023-12-15 22:25:03 公開日:2023-12-12
# GenDet: AI生成画像検出のための優れた一般化を目指して

GenDet: Towards Good Generalizations for AI-Generated Image Detection ( http://arxiv.org/abs/2312.08880v1 )

ライセンス: Link先を確認
Mingjian Zhu, Hanting Chen, Mouxiao Huang, Wei Li, Hailin Hu, Jie Hu, Yunhe Wang(参考訳) AI画像の誤用は、社会的に有害な影響をもたらす可能性があるため、偽ニュースの拡散のような問題に対処するための検出器の作成を促す。 既存の手法では, 発生源が生成した画像は効果的に検出できるが, 未知発生器が生成する画像を検出することは困難である。 彼らは、検出器が実画像と偽画像を処理するときの出力差を増幅することに集中しない。 これにより、実検体と偽検体が密接な出力分布となり、未検出のジェネレータ検出の分類が困難になる。 本稿では, この課題を異常検出の観点から考察し, 対向的な教師・学生間の不一致認識フレームワークを提案する。 本手法は,偽画像に対する大きな差異を想定しながら,実画像に対する生徒と教師モデルの出力差を小さくする。 我々は,教師と学生のネットワーク間の差を小さくし,入力が偽画像である場合に,対角学習を用いて特徴増強器を訓練する。 提案手法は, 公開ベンチマークにおいて最先端の手法であり, 可視化結果から, 様々な種類のジェネレータに直面すると, 高い出力差が維持されることが示された。

The misuse of AI imagery can have harmful societal effects, prompting the creation of detectors to combat issues like the spread of fake news. Existing methods can effectively detect images generated by seen generators, but it is challenging to detect those generated by unseen generators. They do not concentrate on amplifying the output discrepancy when detectors process real versus fake images. This results in a close output distribution of real and fake samples, increasing classification difficulty in detecting unseen generators. This paper addresses the unseen-generator detection problem by considering this task from the perspective of anomaly detection and proposes an adversarial teacher-student discrepancy-aware framework. Our method encourages smaller output discrepancies between the student and the teacher models for real images while aiming for larger discrepancies for fake images. We employ adversarial learning to train a feature augmenter, which promotes smaller discrepancies between teacher and student networks when the inputs are fake images. Our method has achieved state-of-the-art on public benchmarks, and the visualization results show that a large output discrepancy is maintained when faced with various types of generators.
翻訳日:2023-12-15 22:24:42 公開日:2023-12-12
# 表面の認識と周期的一貫性を考慮した自己監督型3次元シーンフローの規則化

Regularizing Self-supervised 3D Scene Flows with Surface Awareness and Cyclic Consistency ( http://arxiv.org/abs/2312.08879v1 )

ライセンス: Link先を確認
Patrik Vacek, David Hurych, Karel Zimmermann, Patrick Perez, Tomas Svoboda(参考訳) ポイントクラウドからの3dシーンフローの予測を監督せずに学ぶことは、多くのビジョンシステムの中心である。 本稿では,必要な正規化を改善するための新しい学習フレームワークを提案する。 シーン要素がほとんど剛性であるという仮定に基づいて、現在の滑らかさの損失は入力点雲における '`rigid cluster' の定義に基づいて構築される。 これらのクラスタの定義は困難であり、予測フローの品質に大きな影響を与えます。 2つの新しい一貫性損失を導入し、クラスタを拡大し、異なるオブジェクトに分散することを防ぐ。 特に,空間的近接性に加えて表面配向の類似性も考慮し,前向きの周期的損失と<emph{spatial}の整合性を適用した。 提案した損失はモデルに依存しないため,既存のモデルの性能を大幅に向上させるために,プラグアンドプレイ方式で使用することができる。 また,4つの標準センサティック駆動データセット上でのフレームワークの有効性と一般化能力を示すとともに,3次元シーンフロー推定における最先端性能を実現する。 私たちのコードは匿名で \url{https://github.com/vacany/sac-flow} で利用可能です。

Learning without supervision how to predict 3D scene flows from point clouds is central to many vision systems. We propose a novel learning framework for this task which improves the necessary regularization. Relying on the assumption that scene elements are mostly rigid, current smoothness losses are built on the definition of ``rigid clusters" in the input point clouds. The definition of these clusters is challenging and has a major impact on the quality of predicted flows. We introduce two new consistency losses that enlarge clusters while preventing them from spreading over distinct objects. In particular, we enforce \emph{temporal} consistency with a forward-backward cyclic loss and \emph{spatial} consistency by considering surface orientation similarity in addition to spatial proximity. The proposed losses are model-independent and can thus be used in a plug-and-play fashion to significantly improve the performance of existing models, as demonstrated on two top-performing ones. We also showcase the effectiveness and generalization capability of our framework on four standard sensor-unique driving datasets, achieving state-of-the-art performance in 3D scene flow estimation. Our codes are available anonymously on \url{https://github.com/vacany/sac-flow}.
翻訳日:2023-12-15 22:24:23 公開日:2023-12-12
# 四元数ネットワークを用いたドメインプロンプト学習

Domain Prompt Learning with Quaternion Networks ( http://arxiv.org/abs/2312.08878v1 )

ライセンス: Link先を確認
Qinglong Cao, Zhengqin Xu, Yuntian Chen, Chao Ma, Xiaokang Yang(参考訳) プロンプト学習は、大規模な視覚言語モデル(VLM)において、効果的でデータ効率のよい手法として登場した。 しかし、リモートセンシングや医用画像などの特殊な領域にVLMを適用する場合、ドメインプロンプト学習は未熟である。 大規模なドメイン固有基盤モデルはこの問題に対処するのに役立つが、単一の視覚レベルに集中することで、視覚と言語の両方のモダリティを促進することが困難になる。 そこで本研究では, 4次ネットワークを用いて, vlmのロバスト認識能力を一般化された領域から特定領域に移すための, ドメイン固有基礎モデルからのドメイン固有知識の活用を提案する。 具体的には、ドメイン固有の基礎モデルからのドメイン固有の視覚特徴を用いて、言語分岐から四元数ネットワーク内の特殊空間への一般化文脈埋め込みの変換を導く。 さらに,階層的言語プロンプト特徴とドメイン固有視覚特徴の相互関係を解析し,ビジョンプロンプト特徴を生成する階層的アプローチを提案する。 このようにして、四元数ネットワークは特定のドメインにおける相互関係を効果的にマイニングすることができ、ドメイン固有の視覚言語コントラスト学習を促進する。 ドメイン固有データセットの大規模な実験により,提案手法が新たな最先端の学習結果を得ることを示す。

Prompt learning has emerged as an effective and data-efficient technique in large Vision-Language Models (VLMs). However, when adapting VLMs to specialized domains such as remote sensing and medical imaging, domain prompt learning remains underexplored. While large-scale domain-specific foundation models can help tackle this challenge, their concentration on a single vision level makes it challenging to prompt both vision and language modalities. To overcome this, we propose to leverage domain-specific knowledge from domain-specific foundation models to transfer the robust recognition ability of VLMs from generalized to specialized domains, using quaternion networks. Specifically, the proposed method involves using domain-specific vision features from domain-specific foundation models to guide the transformation of generalized contextual embeddings from the language branch into a specialized space within the quaternion networks. Moreover, we present a hierarchical approach that generates vision prompt features by analyzing intermodal relationships between hierarchical language prompt features and domain-specific vision features. In this way, quaternion networks can effectively mine the intermodal relationships in the specific domain, facilitating domain-specific vision-language contrastive learning. Extensive experiments on domain-specific datasets show that our proposed method achieves new state-of-the-art results in prompt learning.
翻訳日:2023-12-15 22:24:01 公開日:2023-12-12
# 騒音はあなたにあるかもしれない:敵の例のない敵の訓練

May the Noise be with you: Adversarial Training without Adversarial Examples ( http://arxiv.org/abs/2312.08877v1 )

ライセンス: Link先を確認
Ayoub Arous, Andres F Lopez-Lopera, Nael Abu-Ghazaleh, Ihsen Alouani(参考訳) 本稿では, 実例を学習することなく, 敵対的学習モデルを得ることができるか, という疑問について検討する。 我々の直感は、固有確率性を持つモデル、すなわち、確率損失関数を最小化することでパラメータを最適化し、非確率的な頑健な期待関数を生成することである。 入力レベルでノイズを導入する関連手法とは対照的に,本提案手法は訓練時にNNモデルの層にガウス雑音を埋め込むことにより,固有確率性を取り入れる。 ノイズ分散パラメータをカプセル化した閉形式確率損失関数を導入し, 層内雑音の伝搬をモデル化する。 さらに,確率性を考慮したモデルパラメータの最適化を実現するために,定式化雑音認識勾配を寄与する。 実験結果から,良性分布をトレーニングした確率的アーキテクチャの予測モデルが逆向きに堅牢であることが確認された。 興味深いことに,適用されたガウス雑音の標準偏差が強靭性およびベースライン精度に与える影響は,対向訓練における雑音の大きさの影響をよく反映している。 我々の研究は、全く異なるアプローチで敵の訓練を受けたネットワークに貢献する。

In this paper, we investigate the following question: Can we obtain adversarially-trained models without training on adversarial examples? Our intuition is that training a model with inherent stochasticity, i.e., optimizing the parameters by minimizing a stochastic loss function, yields a robust expectation function that is non-stochastic. In contrast to related methods that introduce noise at the input level, our proposed approach incorporates inherent stochasticity by embedding Gaussian noise within the layers of the NN model at training time. We model the propagation of noise through the layers, introducing a closed-form stochastic loss function that encapsulates a noise variance parameter. Additionally, we contribute a formalized noise-aware gradient, enabling the optimization of model parameters while accounting for stochasticity. Our experimental results confirm that the expectation model of a stochastic architecture trained on benign distribution is adversarially robust. Interestingly, we find that the impact of the applied Gaussian noise's standard deviation on both robustness and baseline accuracy closely mirrors the impact of the noise magnitude employed in adversarial training. Our work contributes adversarially trained networks using a completely different approach, with empirically similar robustness to adversarial training.
翻訳日:2023-12-15 22:23:39 公開日:2023-12-12
# OpenSight: LiDARベースのオブジェクト検出のためのシンプルなオープン語彙フレームワーク

OpenSight: A Simple Open-Vocabulary Framework for LiDAR-Based Object Detection ( http://arxiv.org/abs/2312.08876v1 )

ライセンス: Link先を確認
Hu Zhang, Jianhua Xu, Tao Tang, Haiyang Sun, Xin Yu, Zi Huang, Kaicheng Yu(参考訳) 従来のlidarベースのオブジェクト検出研究は主にクローズドセットのシナリオに焦点を当てている。 しかし、いくつかの既知のLiDARクラスを持つ既存の2Dオープン語彙モデルを直接転送することは、過度に適合する問題に悩まされる傾向がある。 本稿では,より高度な2D-3DモデリングフレームワークであるOpenSightを提案する。 opensightは2d-3d幾何プリミティブを使用して、ジェネリックオブジェクトの初期識別とローカライズを行い、さらに検出されたオブジェクトのより具体的な意味解釈を行う。 このプロセスはLiDARのカメラ画像からジェネリックオブジェクトのための2Dボックスを生成することから始まる。 これらの2DボックスとLiDARポイントは、LiDAR空間に持ち帰り、対応する3Dボックスを推定する。 汎用的なオブジェクト知覚を改善するため、我々のフレームワークは時間的制約と空間的制約の両方を統合する。 時間的認識は、予測された3dボックスを連続するタイムスタンプに関連付け、欠落または不正確なボックスを再調整する。 空間認識は、推定された3dボックスを様々な距離にランダムに配置し、汎用オブジェクトの可視性を高める。 検出対象の特定の意味を解釈するために,まず3次元特徴を2次元画像埋め込みでアライメントし,次にアライメントされた3D-2D特徴を融合してセマンティックデコーディングを行う。 提案手法は,広く使用されている3次元検出ベンチマークにおいて,最先端のオープンボキャブラリ性能を確立し,新しいカテゴリのオブジェクトを効果的に同定する。

Traditional LiDAR-based object detection research primarily focuses on closed-set scenarios, which falls short in complex real-world applications. Directly transferring existing 2D open-vocabulary models with some known LiDAR classes for open-vocabulary ability, however, tends to suffer from over-fitting problems: The obtained model will detect the known objects, even presented with a novel category. In this paper, we propose OpenSight, a more advanced 2D-3D modeling framework for LiDAR-based open-vocabulary detection. OpenSight utilizes 2D-3D geometric priors for the initial discernment and localization of generic objects, followed by a more specific semantic interpretation of the detected objects. The process begins by generating 2D boxes for generic objects from the accompanying camera images of LiDAR. These 2D boxes, together with LiDAR points, are then lifted back into the LiDAR space to estimate corresponding 3D boxes. For better generic object perception, our framework integrates both temporal and spatial-aware constraints. Temporal awareness correlates the predicted 3D boxes across consecutive timestamps, recalibrating the missed or inaccurate boxes. The spatial awareness randomly places some ``precisely'' estimated 3D boxes at varying distances, increasing the visibility of generic objects. To interpret the specific semantics of detected objects, we develop a cross-modal alignment and fusion module to first align 3D features with 2D image embeddings and then fuse the aligned 3D-2D features for semantic decoding. Our experiments indicate that our method establishes state-of-the-art open-vocabulary performance on widely used 3D detection benchmarks and effectively identifies objects for new categories of interest.
翻訳日:2023-12-15 22:23:19 公開日:2023-12-12
# 連続的なテストドメインの変更でオブジェクト検出器はいつアップデートされるべきか?

What, How, and When Should Object Detectors Update in Continually Changing Test Domains? ( http://arxiv.org/abs/2312.08875v1 )

ライセンス: Link先を確認
Jayeon Yoo, Dongkwan Lee, Inseop Chung, Donghyun Kim, Nojun Kwak(参考訳) ディープラーニングモデルの性能がテスト時に分散シフトに遭遇すると劣化するという事実はよく知られている。 テストデータを推論しながらモデルをオンラインに適応させるTTAアルゴリズムが提案されている。 しかし、既存の研究は主にバッチ正規化層や分類ヘッドの最適化による分類タスクに焦点を当てているが、このアプローチはトランスフォーマーのような様々なモデルアーキテクチャに適用性が制限され、オブジェクト検出などの他のタスクに適用することが困難になっている。 本稿では,モデルのどの部分が更新され,どのように更新され,いつ更新されるかを考慮し,連続的に変化するテスト領域におけるオブジェクト検出のための新しいオンライン適応手法を提案する。 アーキテクチャに依存しない軽量なアダプタモジュールを導入し、トレーニング済みのバックボーンを変更せずに更新するだけで、新しいテストドメインを効率的に適用し、破滅的な忘れを防止することができる。 さらに,ドメインシフトを解決するために,オブジェクト検出のための実用的で簡単な機能整合手法を提案する。 さらに,モデルが十分に適合した時期や,テスト分布の変化による追加適応が必要な時期を決定することで効率を向上させる。 提案手法は,COCO$\rightarrow$ COCO-corruptedおよびShiFTに対して最大4.9\%pおよび7.9\%pの改善を実現し,約20FPS以上を維持しながら,広く使用されているベンチマークのベースラインを超えている。

It is a well-known fact that the performance of deep learning models deteriorates when they encounter a distribution shift at test time. Test-time adaptation (TTA) algorithms have been proposed to adapt the model online while inferring test data. However, existing research predominantly focuses on classification tasks through the optimization of batch normalization layers or classification heads, but this approach limits its applicability to various model architectures like Transformers and makes it challenging to apply to other tasks, such as object detection. In this paper, we propose a novel online adaption approach for object detection in continually changing test domains, considering which part of the model to update, how to update it, and when to perform the update. By introducing architecture-agnostic and lightweight adaptor modules and only updating these while leaving the pre-trained backbone unchanged, we can rapidly adapt to new test domains in an efficient way and prevent catastrophic forgetting. Furthermore, we present a practical and straightforward class-wise feature aligning method for object detection to resolve domain shifts. Additionally, we enhance efficiency by determining when the model is sufficiently adapted or when additional adaptation is needed due to changes in the test distribution. Our approach surpasses baselines on widely used benchmarks, achieving improvements of up to 4.9\%p and 7.9\%p in mAP for COCO $\rightarrow$ COCO-corrupted and SHIFT, respectively, while maintaining about 20 FPS or higher.
翻訳日:2023-12-15 22:22:46 公開日:2023-12-12
# インフレーション量子ゲートによる高速擬似ランダム量子状態発生器

Fast pseudorandom quantum state generators via inflationary quantum gates ( http://arxiv.org/abs/2304.09885v2 )

ライセンス: Link先を確認
Claudio Chamon, Eduardo R. Mucciolo, Andrei E. Ruckenstein, and Zhi-Cheng Yang(参考訳) 擬似ランダムな量子状態に到達するためのメカニズム、すなわち、計算的にハール乱数と区別できないこと、深さ$\log n$の浅い量子回路で、$n$はクォーディットの数であることを示す。 しばしば、$\log n$ ``computational time" は情報スクランブルの速度の低い境界を与えると議論されるが、これらの議論によって示唆されるスクランブルのレベルは擬似ランダムネスに必要なレベルにはならない。 実際、$\log n$-depth $2-qudit-gate-based generic random quantum circuits that match the ``speed limit" for scramblingは計算的に疑似ランダムな量子状態を生成することができない。 この結論は、そのような回路の$\log n$層を通じて進化し続ける短いポーリ弦の保留確率における多項式(n$)テールの存在と関係している。 しかし、浅い$\log n$-depthの量子回路で擬似乱数量子状態を生成することは、'inflationary' 量子 (iq) ゲートの普遍的な族を駆使して保留可能性のテールを排除することで達成できると主張する。 iqゲートは$$-qubitのゲートでは実装できないが、$d\ge 3$と$d$ primeで$u(d^2)$の2-qu$d$it-ゲートのサブセットとして、または特別な3-qubitのゲートとして実現できる。 擬似ランダム状態を生成する最速の方法を特定することは概念的に重要であり、多くの領域の量子情報に影響を及ぼす。

We propose a mechanism for reaching pseudorandom quantum states, i.e., states that computationally indistinguishable from Haar random, with shallow quantum circuits of depth $\log n$, where $n$ is the number of qudits. While it is often argued that a $\log n$ ``computational time" provides a lower bound on the speed of information scrambling, the level of scrambling implied by those arguments does not rise to the level required for pseudorandomness. Indeed, we show that $\log n$-depth $2$-qudit-gate-based generic random quantum circuits that match the ``speed limit" for scrambling cannot produce computationally pseudorandom quantum states. This conclusion is connected with the presence of polynomial (in $n$) tails in the stay probability of short Pauli strings that survive evolution through $\log n$ layers of such circuits. We argue, however, that producing pseudorandom quantum states with shallow $\log n$-depth quantum circuits can be accomplished if one employs universal families of ``inflationary'' quantum (IQ) gates which eliminate the tails in the stay-probability. We prove that IQ-gates cannot be implemented with $2$-qubit gates but can be realized either as a subset of 2-qu$d$it-gates in $U(d^2)$ with $d\ge 3$ and $d$ prime, or as special 3-qubit gates. Identifying the fastest way of producing pseudorandom states is conceptually important and has implications to many areas of quantum information.
翻訳日:2023-12-14 23:32:37 公開日:2023-12-12
# 無線フェデレーション学習における証明可能な保証による伝達の学習

Learning to Transmit with Provable Guarantees in Wireless Federated Learning ( http://arxiv.org/abs/2304.09329v2 )

ライセンス: Link先を確認
Boning Li, Jake Perazzone, Ananthram Swami, Santiago Segarra(参考訳) 干渉制限無線ネットワーク上でのフェデレーション学習(FL)に送信電力を割り当てる新しいデータ駆動方式を提案する。 提案手法は, fl訓練中に無線チャネルが変化し, 訓練データが独立でない場合(非i.i.d.)に, ローカルデバイス上で同一に分散する場合に有用である。 直感的には、電力ポリシーは、通信制約下でflプロセス中にサーバエンドで受信された情報を最適化するように設計されている。 最終的な目標は、訓練中のグローバルFLモデルの精度と効率を改善することです。 提案手法はグラフ畳み込みネットワーク(GCN)を用いてパラメータ化され、関連する制約付き最適化問題は原始双対(PD)アルゴリズムによって解決される。 理論的には、定式化問題はゼロ双対性ギャップを持ち、パワーポリシーがパラメータ化されると、最適性はこのパラメータ化の表現性に依存する。 提案手法は,異なる無線チャネル設定と様々なデータ均一性の下で,既存のベースラインよりも優れていることを示す。

We propose a novel data-driven approach to allocate transmit power for federated learning (FL) over interference-limited wireless networks. The proposed method is useful in challenging scenarios where the wireless channel is changing during the FL training process and when the training data are not independent and identically distributed (non-i.i.d.) on the local devices. Intuitively, the power policy is designed to optimize the information received at the server end during the FL process under communication constraints. Ultimately, our goal is to improve the accuracy and efficiency of the global FL model being trained. The proposed power allocation policy is parameterized using graph convolutional networks (GCNs), and the associated constrained optimization problem is solved through a primal-dual (PD) algorithm. Theoretically, we show that the formulated problem has a zero duality gap and, once the power policy is parameterized, optimality depends on how expressive this parameterization is. Numerically, we demonstrate that the proposed method outperforms existing baselines under different wireless channel settings and varying degrees of data heterogeneity.
翻訳日:2023-12-14 23:31:59 公開日:2023-12-12
# ローレンツ錐体の最大指数

Maximal exponent of the Lorentz cones ( http://arxiv.org/abs/2311.18634v2 )

ライセンス: Link先を確認
Guillaume Aubrun, Jing Bai(参考訳) n-次元ローレンツ錐の最大指数(すなわち、原始写像が厳密に正となるために必要な最小の反復数)が n-次元ローレンツ錐と等しいことを示す。 副産物として、量子wielandtの不等式における最適指数は3に等しいことを示す。

We show that the maximal exponent (i.e., the minimum number of iterations required for a primitive map to become strictly positive) of the n-dimensional Lorentz cone is equal to n. As a byproduct, we show that the optimal exponent in the quantum Wielandt inequality for qubit channels is equal to 3.
翻訳日:2023-12-14 23:25:32 公開日:2023-12-12
# xlb: pythonで拡張可能な超並列格子ボルツマンライブラリ

XLB: A Differentiable Massively Parallel Lattice Boltzmann Library in Python ( http://arxiv.org/abs/2311.16080v2 )

ライセンス: Link先を確認
Mohammadmehdi Ataei and Hesam Salehipour(参考訳) 格子ボルツマン法 (LBM) は計算スケーラビリティのアルゴリズム的ポテンシャルから流体力学問題の解法として注目されている。 JAXプラットフォームに基づいたPythonベースの差別化可能なLBMライブラリであるXLBライブラリを紹介します。 XLBのアーキテクチャはアクセシビリティ、拡張性、計算性能の確保に重点を置いており、CPU、TPU、マルチGPU、分散マルチGPUまたはTPUシステム間で効果的にスケーリングできる。 このライブラリは、新しい境界条件、衝突モデル、あるいはマルチ物理シミュレーション機能で容易に拡張できる。 xlbの差別化性とデータ構造は、広範なjaxベースの機械学習エコシステムと互換性があり、物理ベースの機械学習、最適化、逆問題に対処することができる。 XLBは数十億のセルでのシミュレーション処理に成功し、毎秒ギガスケールの格子更新を実現している。 XLBはApache-2.0ライセンスでリリースされており、GitHubでhttps://github.com/Autodesk/XLBで入手できる。

The lattice Boltzmann method (LBM) has emerged as a prominent technique for solving fluid dynamics problems due to its algorithmic potential for computational scalability. We introduce XLB library, a Python-based differentiable LBM library based on the JAX platform. The architecture of XLB is predicated upon ensuring accessibility, extensibility, and computational performance, enabling scaling effectively across CPU, TPU, multi-GPU, and distributed multi-GPU or TPU systems. The library can be readily augmented with novel boundary conditions, collision models, or multi-physics simulation capabilities. XLB's differentiability and data structure is compatible with the extensive JAX-based machine learning ecosystem, enabling it to address physics-based machine learning, optimization, and inverse problems. XLB has been successfully scaled to handle simulations with billions of cells, achieving giga-scale lattice updates per second. XLB is released under the permissive Apache-2.0 license and is available on GitHub at https://github.com/Autodesk/XLB.
翻訳日:2023-12-14 23:24:39 公開日:2023-12-12
# フーリエ変換とソフトしきい値付き領域一般化

Domain Generalization with Fourier Transform and Soft Thresholding ( http://arxiv.org/abs/2309.09866v3 )

ライセンス: Link先を確認
Hongyi Pan, Bin Wang, Zheyuan Zhang, Xin Zhu, Debesh Jha, Ahmet Enis Cetin, Concetto Spampinato, Ulas Bagci(参考訳) ドメインの一般化は、複数のソースドメインでモデルをトレーニングすることを目的としている。 多くの領域一般化法の中で、フーリエ変換に基づく領域一般化法は、主にフーリエ変換のパワーを利用してデータの本質的なパターンや規則性を捉え、モデルがドメインシフトに対してより堅牢になるために人気を得ている。 主流のフーリエ変換に基づく領域一般化は、ソースとターゲット画像の間の位相スペクトルを保持しながらフーリエスペクトルを置き換える。 しかし、振幅スペクトルの背景干渉を無視する。 この制限を克服するために、フーリエ領域にソフトスレッディング関数を導入する。 このアルゴリズムを眼疾患の診断に重要な網膜眼底画像分割に適用するが,神経回路の性能は領域シフトによって異なる源をまたがって劣化する可能性がある。 提案手法は,フーリエ領域の小さな値を除去し,より優れた一般化を提供することにより,基礎画像の強化を実現する。 フーリエ変換に基づく領域一般化と融合したソフトしきい値の革新的な性質は、ターゲット画像の背景干渉を著しく減らし、ニューラルネットワークモデルの性能を向上させる。 公開データ実験は,従来の手法や最先端手法よりも優れたセグメンテーション指標を用いた手法の有効性を検証する。

Domain generalization aims to train models on multiple source domains so that they can generalize well to unseen target domains. Among many domain generalization methods, Fourier-transform-based domain generalization methods have gained popularity primarily because they exploit the power of Fourier transformation to capture essential patterns and regularities in the data, making the model more robust to domain shifts. The mainstream Fourier-transform-based domain generalization swaps the Fourier amplitude spectrum while preserving the phase spectrum between the source and the target images. However, it neglects background interference in the amplitude spectrum. To overcome this limitation, we introduce a soft-thresholding function in the Fourier domain. We apply this newly designed algorithm to retinal fundus image segmentation, which is important for diagnosing ocular diseases but the neural network's performance can degrade across different sources due to domain shifts. The proposed technique basically enhances fundus image augmentation by eliminating small values in the Fourier domain and providing better generalization. The innovative nature of the soft thresholding fused with Fourier-transform-based domain generalization improves neural network models' performance by reducing the target images' background interference significantly. Experiments on public data validate our approach's effectiveness over conventional and state-of-the-art methods with superior segmentation metrics.
翻訳日:2023-12-14 23:23:35 公開日:2023-12-12
# M'emoire sur la m'ecanique Quantique et l'approcheondulatoire

M\'emoire sur la m\'ecanique quantique et l'approche ondulatoire ( http://arxiv.org/abs/2008.08277v3 )

ライセンス: Link先を確認
Olivier Rousselle(参考訳) コペンハーゲンの解釈は多くの批判の対象であり、特にド・ブロイとアインシュタインは因果主義と現実主義の原理と矛盾している。 この論文の目的は、伝統的な量子力学の代替として波動力学を研究することであり、louis de broglieのアイデアの連続性、de broglie-bohm理論(それぞれの粒子が導かれる波と関連している)、d broglie-bohm理論(粒子の確率的性質が変動する真空のエネルギー場によって引き起こされる)、量子力学と流体力学の類似性の研究である。

The Copenhagen interpretation has been the subject of much criticism, notably by De Broglie and Einstein, because it contradicts the principles of causality and realism. The aim of this essay is to study the wave mechanics as an alternative to traditional quantum mechanics, in the continuity of the ideas of Louis de Broglie: the pilot wave theory of De Broglie (where each particle is associated with a wave which guides it), De Broglie-Bohm theory, stochastic electrodynamics (where the stochastic character of particles is caused by the energy field of the fluctuating vacuum), and the analogies between quantum mechanics and hydrodynamics.
翻訳日:2023-12-14 21:33:58 公開日:2023-12-12
# インテリジェンスプライマー

Intelligence Primer ( http://arxiv.org/abs/2008.07324v4 )

ライセンス: Link先を確認
Karl Fezer and Andrew Sloss(参考訳) 人工知能は、すべての生物の基本的な部分であり、人工知能の基礎でもある。 このプライマーでは、知性に関連するアイデアを探求し、それによって意味と制約を理解し、将来のシステムの能力を概説します。 人工知能は、機械学習の形で、私たちの生活に大きな影響を与えています。 探索として、私たちは必要不可欠なさまざまなインテリジェンスを旅します。 人々がこれを将来を決定するのに役立つと願っている。 また、調査期間中に、新たな思考を促す質問を作成したいと思っています。 知能は単一の量ではなく、生物学、物理学、哲学、認知科学、神経科学、心理学、コンピュータ科学にまたがる主題である。 歴史家のユヴァル・ノア・ハリは、将来エンジニアと科学者は、心理学、哲学、倫理といった分野を含むために彼らの理解を広げる必要があると指摘している。 フィクション作家は長い間、これらの地域では不十分な技術者や科学者を描いてきた。 今日、現代社会では、人工知能と法的な要件の出現は、これらのより広い対象を前景に押し込む機能として機能する。 インテリジェンスの導入から始まり、より深い思考とアイデアに素早く移行します。 私たちはこれを、ダグラス・アダムズの有名なSF小説「Life, the Universe, and Everything primer」と呼ぶ。 42は正しい答えかもしれないが、その質問は何だろう?

Intelligence is a fundamental part of all living things, as well as the foundation for Artificial Intelligence. In this primer we explore the ideas associated with intelligence and, by doing so, understand the implications and constraints and potentially outline the capabilities of future systems. Artificial Intelligence, in the form of Machine Learning, has already had a significant impact on our lives. As an exploration, we journey into different parts of intelligence that appear essential. We hope that people find this helpful in determining the future. Also, during the exploration, we hope to create new thought-provoking questions. Intelligence is not a single weighable quantity but a subject that spans Biology, Physics, Philosophy, Cognitive Science, Neuroscience, Psychology, and Computer Science. The historian Yuval Noah Harari pointed out that engineers and scientists in the future will have to broaden their understandings to include disciplines such as Psychology, Philosophy, and Ethics. Fiction writers have long portrayed engineers and scientists as deficient in these areas. Today, in modern society, the emergence of Artificial Intelligence and legal requirements act as forcing functions to push these broader subjects into the foreground. We start with an introduction to intelligence and move quickly to more profound thoughts and ideas. We call this a Life, the Universe, and Everything primer, after the famous science fiction book by Douglas Adams. Forty-two may be the correct answer, but what are the questions?
翻訳日:2023-12-14 21:33:41 公開日:2023-12-12
# ランダムにピボットされたcholesky: 入力評価の少ないカーネル行列の実用的近似

Randomly pivoted Cholesky: Practical approximation of a kernel matrix with few entry evaluations ( http://arxiv.org/abs/2207.06503v5 )

ライセンス: Link先を確認
Yifan Chen, Ethan N. Epperly, Joel A. Tropp, Robert J. Webber(参考訳) ランダムにピボットされた部分チョレスキーアルゴリズム(RPCholesky)は、N x N の正準有限(psd)行列の階数-k近似を計算する。 RPCholesky は (k + 1) N のエントリ評価と O(k^2 N) の追加演算しか必要とせず、ほんの数行のコードで実装できる。 この方法は特にカーネルマトリックスの近似に有用である。 本稿では,この基本アルゴリズムの実験的および理論的挙動に関する徹底的な研究を行う。 科学機械学習で生じる行列近似問題に対して、RPCholeskyが代替アルゴリズムのパフォーマンスにマッチするか、勝っていることを示す実験がある。 さらにRPCholeskyは、ほぼ最適に近い低ランク近似を確実に返します。 RPCholeskyの単純さ、有効性、堅牢性は、科学計算や機械学習アプリケーションでの使用を強く支持している。

The randomly pivoted partial Cholesky algorithm (RPCholesky) computes a factorized rank-k approximation of an N x N positive-semidefinite (psd) matrix. RPCholesky requires only (k + 1) N entry evaluations and O(k^2 N) additional arithmetic operations, and it can be implemented with just a few lines of code. The method is particularly useful for approximating a kernel matrix. This paper offers a thorough new investigation of the empirical and theoretical behavior of this fundamental algorithm. For matrix approximation problems that arise in scientific machine learning, experiments show that RPCholesky matches or beats the performance of alternative algorithms. Moreover, RPCholesky provably returns low-rank approximations that are nearly optimal. The simplicity, effectiveness, and robustness of RPCholesky strongly support its use in scientific computing and machine learning applications.
翻訳日:2023-12-14 21:29:36 公開日:2023-12-12
# 識別特徴を用いた下流分類における自己監督表現品質の測定

Measuring Self-Supervised Representation Quality for Downstream Classification using Discriminative Features ( http://arxiv.org/abs/2203.01881v6 )

ライセンス: Link先を確認
Neha Kalibhat, Kanika Narang, Hamed Firooz, Maziar Sanjabi, Soheil Feizi(参考訳) 自己教師付き学習(SSL)は下流の分類タスクにおいて顕著な結果を示している。 しかし、失敗モードを理解し、学習した表現を解釈する作業は限られている。 本稿では,SimCLR,SwaV,MoCo,BYOL,DINO,SimSiam,VICReg,Barlow Twinsといった最先端の自己教師型モデルの表現空間について検討する。 クラスラベル情報を使わずに、画像のユニークな物理的属性に対応する識別的特徴を発見し、主に正しく分類された表現に現れる。 これらの特徴を用いて、線形分類性能に大きな影響を及ぼすことなく、表現空間を最大40%圧縮することができる。 次に,画像Net-100で91.45,ImageNet-1Kで78.78のAUPRCを達成し,線形評価中に標本が誤分類される可能性を確実に予測できる教師なしスコアであるセルフ・スーパービジョン表現品質スコア(あるいはQスコア)を提案する。 Q-Scoreは、訓練済みエンコーダの正規化用語としても使用でき、低品質表現を補うことができる。 Q-Score正規化による微調整により、SSLモデルの線形探索精度はImageNet-100では5.8%、ImageNet-1Kでは3.7%向上する。 最後に、勾配ヒートマップとsaient imagenetマスクを用いて、各表現の解釈可能性の定量化のためのメトリックを定義する。 識別機能はコア属性と強く関連していることを示し,q-score正規化によってssl表現をより解釈可能にした。

Self-supervised learning (SSL) has shown impressive results in downstream classification tasks. However, there is limited work in understanding their failure modes and interpreting their learned representations. In this paper, we study the representation space of state-of-the-art self-supervised models including SimCLR, SwaV, MoCo, BYOL, DINO, SimSiam, VICReg and Barlow Twins. Without the use of class label information, we discover discriminative features that correspond to unique physical attributes in images, present mostly in correctly-classified representations. Using these features, we can compress the representation space by up to 40% without significantly affecting linear classification performance. We then propose Self-Supervised Representation Quality Score (or Q-Score), an unsupervised score that can reliably predict if a given sample is likely to be mis-classified during linear evaluation, achieving AUPRC of 91.45 on ImageNet-100 and 78.78 on ImageNet-1K. Q-Score can also be used as a regularization term on pre-trained encoders to remedy low-quality representations. Fine-tuning with Q-Score regularization can boost the linear probing accuracy of SSL models by up to 5.8% on ImageNet-100 and 3.7% on ImageNet-1K compared to their baselines. Finally, using gradient heatmaps and Salient ImageNet masks, we define a metric to quantify the interpretability of each representation. We show that discriminative features are strongly correlated to core attributes and, enhancing these features through Q-score regularization makes SSL representations more interpretable.
翻訳日:2023-12-14 21:29:08 公開日:2023-12-12
# 信号と1/f周波数雑音の判別のためのデュアル共振器動インダクタンス検出器

Dual-Resonator Kinetic-Inductance Detector for Distinction between Signal and 1/f Frequency Noise ( http://arxiv.org/abs/2202.11310v4 )

ライセンス: Link先を確認
N. Foroozani, B. Sarabi, S. H. Moseley, T. Stevenson, E. J. Wollack, O. Noroozian and K. D. Osborn(参考訳) 量子情報デバイスに類似した天文学的インダクタンス検出器(kids)は、材料による性能制限ノイズを経験する。 特に、1/f(周波数)ノイズは、回路誘電体および材料界面の2レベルシステム欠陥(TLS)から生じる支配的なノイズメカニズムである。 ここでは、1/f雑音制限KIDに対して信号対雑音(または雑音等価電力)を改善するために設計されたデュアル共振器KID(DuRKID)を提案する。 まず、DuRKIDの図式化回路を示し、次に意図した動作、最初の測定、理論、議論について説明する。 この回路は、2つの超伝導共振器で4つのコンデンサの電気容量橋を共有し、それぞれTLSをホストする。 このデバイスはモードのハイブリダイゼーションを使用して動作することを意図しており、tlsはどのコンデンサに存在するかによってどちらかのモードに結合する。 対照的に、意図されたKID信号はインダクタに向けられ、ハイブリダイゼーションにより両方の(ハイブリダイド化された)モードで相関周波数が変化する。 したがって、光子信号とTLS周波数ノイズを区別することができる。 ハイブリダイゼーションを実現するために、スズインダクタを電流バイアスして、一方のベア共振器モードのチューニングを他方と縮退させ、所望の共振器モードの周波数チューニングとハイブリダイゼーションを期待通りに行うことができる。 伝送線路に対する2共振器の共振器結合と非意図結合も測定によって特徴づけられる。 この理論では、量子情報科学モードに基づき、4ポートsパラメータを計算し、デバイスの1/f周波数ノイズをシミュレートする。 この研究により、DuRKIDは1/fノイズに制限されたKID検出器よりも大きく、基本的な性能上の優位性を示すことが明らかとなった。

Astronomical Kinetic Inductance Detectors (KIDs), similar to quantum information devices, experience performance limiting noise from materials. In particular, 1/f (frequency) noise can be a dominant noise mechanism, which arises from Two-Level System defects (TLSs) in the circuit dielectrics and material interfaces. Here we present a Dual-Resonator KID (DuRKID), which is designed for improved signal to noise (or noise equivalent power) relative to 1/f-noise limited KIDs. We first show the DuRKID schematic, fabricated circuit, and we follow with a description of the intended operation, first measurements, theory, and discussion. The circuit consists of two superconducting resonators sharing an electrical capacitance bridge of 4 capacitors, each of which hosts TLSs. The device is intended to operate using hybridization of the modes, which causes TLSs to either couple to one mode or the other, depending upon which capacitor they reside in. In contrast, the intended KID signal is directed to an inductor, and due to hybridization this causes correlated frequency changes in both (hybridized) modes. Therefore, one can distinguish photon signal from TLS frequency noise. To achieve hybridization, a TiN inductor is current biased to allow tuning of one bare resonator mode into degeneracy with the other and measurements show that the intended resonator modes frequency tune and hybridize as expected. The interresonator coupling and unintentional coupling of the 2 resonators to transmission lines are also characterized in measurements. In the theory, based on a quantum-information-science modes, we calculate the 4-port S parameters and simulate the 1/f frequency noise of the device. The study reveals that the DuRKID can exhibit a large and fundamental performance advantage over 1/f-noise-limited KID detectors.
翻訳日:2023-12-14 21:27:59 公開日:2023-12-12
# 測定による量子時計

Quantum clocks driven by measurement ( http://arxiv.org/abs/2109.05390v4 )

ライセンス: Link先を確認
A. A. Gangat and G. J. Milburn(参考訳) 古典物理学では、時計は熱平衡から駆動される開放散逸系であり、必然的に熱雑音を受ける。 エントロピー低減により駆動される量子クロックを計測により記述する。 この機構は、開放型共平面共振器に結合した超伝導トランスモン量子ビットからなる。 キャビティとキュービットはコヒーレントフィールドによって駆動され、キャビティ出力はホモダイン検出によって監視される。 測定自体が条件モーメントの変動周期とともにコヒーレント振動を誘導することを示す。 観測された測定電流からクロック信号を抽出し、分析してノイズ性能を決定する。 このモデルはゼロ温度での時計の基本原理を示しており、良い時計は高いエネルギー散逸率とエントロピー生成を必要とする。

In classical physics, clocks are open dissipative systems driven from thermal equilibrium and necessarily subject to thermal noise. We describe a quantum clock driven by entropy reduction through measurement. The mechanism consists of a superconducting transmon qubit coupled to an open co-planar resonator. The cavity and qubit are driven by coherent fields and the cavity output is monitored with homodyne detection. We show that the measurement itself induces coherent oscillations, with fluctuating period, in the conditional moments. The clock signal can be extracted from the observed measurement currents and analysed to determine the noise performance. The model demonstrates a fundamental principle of clocks at zero temperature: good clocks require high rates of energy dissipation and consequently entropy generation.
翻訳日:2023-12-14 21:27:06 公開日:2023-12-12
# 滑らかな微分プライバシー

Smoothed Differential Privacy ( http://arxiv.org/abs/2107.01559v4 )

ライセンス: Link先を確認
Ao Liu, Yu-Xiang Wang, Lirong Xia(参考訳) 微分プライバシー(DP)は、最悪のケース分析に基づいて広く受け入れられ、広く適用されているプライバシーの概念である。 しばしばdpは非プライベートなノイズなしでほとんどのメカニズムを分類する(dwork et al., 2014)。 したがって、(DPを達成するために)プライバシーを改善するために追加ノイズが追加される。 しかし、多くの現実世界のアプリケーションでは、添加音は望ましくない(Bagdasaryan et al., 2019)し、時には禁止される(Liu et al., 2020)。 本稿では,Spielman & Teng,2004 年5 月号) のスムーズな解析の背景にある最悪の平均ケースのアイデアに従って,DP の自然な拡張を提案する。 我々の概念であるスムーズなDPは,現実的な環境下での付加雑音を伴わない機構のプライバシー漏洩を効果的に測定することができる。 サンプリング手順の離散的なメカニズムはDPが予測するよりもプライベートである一方,サンプリング手順の連続的なメカニズムはスムーズなDPの下では依然としてプライベートではない。 また, 組成, 処理後のロバスト性, 分布抑制など, 平滑化dpの望ましい特性がいくつか証明された。 これらの特性に基づいて,スムーズなDPのプライバシーパラメータを計算するアルゴリズムを提案する。 実験により, 平滑化dpにより, 離散的サンプリング機構は実世界の選挙ではプライベートであり, 離散的ニューラルネットワークでは付加ノイズを付加することなくプライベートであることが検証された。 これらの結果は、最悪のケース分析を超えて、現実的なプライバシー対策の理論的基礎に寄与すると考えている。

Differential privacy (DP) is a widely-accepted and widely-applied notion of privacy based on worst-case analysis. Often, DP classifies most mechanisms without additive noise as non-private (Dwork et al., 2014). Thus, additive noises are added to improve privacy (to achieve DP). However, in many real-world applications, adding additive noise is undesirable (Bagdasaryan et al., 2019) and sometimes prohibited (Liu et al., 2020). In this paper, we propose a natural extension of DP following the worst average-case idea behind the celebrated smoothed analysis (Spielman & Teng, May 2004). Our notion, smoothed DP, can effectively measure the privacy leakage of mechanisms without additive noises under realistic settings. We prove that any discrete mechanism with sampling procedures is more private than what DP predicts, while many continuous mechanisms with sampling procedures are still non-private under smoothed DP. In addition, we prove several desirable properties of smoothed DP, including composition, robustness to post-processing, and distribution reduction. Based on those properties, we propose an efficient algorithm to calculate the privacy parameters for smoothed DP. Experimentally, we verify that, according to smoothed DP, the discrete sampling mechanisms are private in real-world elections, and some discrete neural networks can be private without adding any additive noise. We believe that these results contribute to the theoretical foundation of realistic privacy measures beyond worst-case analysis.
翻訳日:2023-12-14 21:26:11 公開日:2023-12-12
# 回答集合プログラムの逐次合成

Sequential composition of answer set programs ( http://arxiv.org/abs/2104.12156v5 )

ライセンス: Link先を確認
Christian Anti\'c(参考訳) 本稿では,回答集合プログラムの逐次構成を紹介する。 セマンティック側では、プログラムの即時結果演算子は合成によって表現できることを示し、Hhornプログラムの最小モデルのセマンティックスを演算子への明示的な参照なしに計算することができる。 その結果、解集合を代数的に特徴づけることができ、強同値と均一同値の代数的特徴を与える。 より広い意味では、本論文は、解答集合プログラムの代数への第一歩であり、将来的には、この論文の手法をより広範なプログラムのクラス、特に高次かつ解答的プログラムとその拡張に引き上げる計画である。

This paper introduces the sequential composition of answer set programs. On the semantic side, we show that the immediate consequence operator of a program can be represented via composition, which allows us to compute the least model semantics of Horn programs without any explicit reference to operators. As a result, we can characterize answer sets algebraically, which provides an algebraic characterization of strong and uniform equivalence. In a broader sense, this paper is a first step towards an algebra of answer set programs and in the future we plan to lift the methods of this paper to wider classes of programs, most importantly to higher-order and disjunctive programs and extensions thereof.
翻訳日:2023-12-14 21:25:33 公開日:2023-12-12
# 画像劣化のためのマルチスケール構造誘導拡散

Multiscale Structure Guided Diffusion for Image Deblurring ( http://arxiv.org/abs/2212.01789v3 )

ライセンス: Link先を確認
Mengwei Ren, Mauricio Delbracio, Hossein Talebi, Guido Gerig, Peyman Milanfar(参考訳) DPM(Diffusion Probabilistic Models)は近年,ガウスノイズを高画質な画像にマッピングする画像条件生成プロセスとして,ぼやけた入力を条件とした画像デブロアリングに用いられている。 image-conditioned dpms(icdpms)は、ペアワイズインドメインデータでトレーニングされた場合、回帰ベースの方法よりも現実的な結果を示している。 しかし、特定の劣化モデルや中間的な制約を課さないため、ドメイン外画像で表現された画像の復元におけるロバスト性は明らかではない。 そこで本研究では,中間層におけるシャープ画像の粗い構造をicdpmに知らせる暗黙のバイアスとして,単純かつ効果的な多スケール構造指導を提案する。 このガイド付き定式化は、特に目に見えない領域において、劣化する結果を著しく改善する。 この指導は、複数の低い解像度でクリーンシャープターゲットを予測するように訓練された回帰ネットワークの潜在空間から抽出され、最も塩分の高い鋭い構造を維持する。 ぼやけた入力とマルチスケールのガイダンスの両方により、icdpmモデルはぼやけを理解し、クリーンなイメージを復元する。 我々は,多種多様なデータセット上で学習された単一データセットモデルを評価し,未知のデータに対して少ないアーティファクトでよりロバストなデブラリング結果を示す。 提案手法は既存のベースラインを上回り,競争歪指標を維持しつつ,最先端の知覚品質を実現する。

Diffusion Probabilistic Models (DPMs) have recently been employed for image deblurring, formulated as an image-conditioned generation process that maps Gaussian noise to the high-quality image, conditioned on the blurry input. Image-conditioned DPMs (icDPMs) have shown more realistic results than regression-based methods when trained on pairwise in-domain data. However, their robustness in restoring images is unclear when presented with out-of-domain images as they do not impose specific degradation models or intermediate constraints. To this end, we introduce a simple yet effective multiscale structure guidance as an implicit bias that informs the icDPM about the coarse structure of the sharp image at the intermediate layers. This guided formulation leads to a significant improvement of the deblurring results, particularly on unseen domain. The guidance is extracted from the latent space of a regression network trained to predict the clean-sharp target at multiple lower resolutions, thus maintaining the most salient sharp structures. With both the blurry input and multiscale guidance, the icDPM model can better understand the blur and recover the clean image. We evaluate a single-dataset trained model on diverse datasets and demonstrate more robust deblurring results with fewer artifacts on unseen data. Our method outperforms existing baselines, achieving state-of-the-art perceptual quality while keeping competitive distortion metrics.
翻訳日:2023-12-14 21:21:15 公開日:2023-12-12
# シーングラフ生成のための自己教師付き関係アライメント

Self-Supervised Relation Alignment for Scene Graph Generation ( http://arxiv.org/abs/2302.01403v2 )

ライセンス: Link先を確認
Bicheng Xu, Renjie Liao, Leonid Sigal(参考訳) シーングラフ生成の目標は、ノードが識別および局所化されたオブジェクトとエッジと対応する相互作用述語に対応する入力画像からグラフを予測することである。 既存のメソッドは、完全に監督された方法でトレーニングされ、メッセージパッシングメカニズム、損失関数、および/またはバイアス緩和にフォーカスします。 本研究では,シーングラフ生成性能の向上を目的とした,単純かつ効率的な自己教師付きリレーショナルアライメント正規化を提案する。 提案されたアライメントは一般的であり、既存のシーングラフ生成フレームワークと組み合わせることができ、元のモデルの目的と並行してトレーニングされる。 このアライメントは、教師付きアラインメントとパラメータをミラーし共有する補助関係予測分岐をデザインした蒸留によって達成される。 補助分岐では、関係入力機能はメッセージパッシングと予測予測の前に部分的にマスクされる。 マスクされた関係の予測は、メッセージの送信後に監督された関係と整列される。 この自己教師付きリレーショナルアライメントの有効性を,sgtrとニューラルモチーフという2つのシーングラフ生成アーキテクチャと組み合わせて説明し,いずれの場合においても有意にパフォーマンスが向上することを示す。

The goal of scene graph generation is to predict a graph from an input image, where nodes correspond to identified and localized objects and edges to their corresponding interaction predicates. Existing methods are trained in a fully supervised manner and focus on message passing mechanisms, loss functions, and/or bias mitigation. In this work we introduce a simple-yet-effective self-supervised relational alignment regularization designed to improve the scene graph generation performance. The proposed alignment is general and can be combined with any existing scene graph generation framework, where it is trained alongside the original model's objective. The alignment is achieved through distillation, where an auxiliary relation prediction branch, that mirrors and shares parameters with the supervised counterpart, is designed. In the auxiliary branch, relational input features are partially masked prior to message passing and predicate prediction. The predictions for masked relations are then aligned with the supervised counterparts after the message passing. We illustrate the effectiveness of this self-supervised relational alignment in conjunction with two scene graph generation architectures, SGTR and Neural Motifs, and show that in both cases we achieve significantly improved performance.
翻訳日:2023-12-14 21:15:54 公開日:2023-12-12
# ニューラルオイラー回転方程式によるタンパク質-リガンド結合エネルギー予測

Unsupervised Protein-Ligand Binding Energy Prediction via Neural Euler's Rotation Equation ( http://arxiv.org/abs/2301.10814v2 )

ライセンス: Link先を確認
Wengong Jin, Siranush Sarkizova, Xun Chen, Nir Hacohen, Caroline Uhler(参考訳) タンパク質リガンド結合予測は、AIによる薬物発見の根本的な問題である。 従来の研究は、小さな分子に対する結合親和性データを用いた教師あり学習法に重点を置いていたが、ラベル付きデータのような抗体のような他の薬物クラスにも同様の戦略を適用することは困難である。 本稿では,非教師付きアプローチと結合エネルギー予測を生成的モデリングタスクとして再構成する。 具体的には,se(3)デノイジングスコアマッチングを用いた無標識タンパク質リガンド複合体の組上でエネルギーベースモデルを訓練し,そのログ類似性を結合親和性として解釈する。 我々の重要な貢献は、SE(3)スコアマッチングのためのニューラルオイラーの回転方程式(NERE)と呼ばれる新しい同変回転予測ネットワークである。 タンパク質とリガンド原子の間の力とトルクをモデル化することで回転を予測し、原子座標に対するエネルギー関数の勾配として定義される。 タンパク質-リガンドおよび抗体-抗原結合親和性予測ベンチマークにおけるNEREの評価を行った。 本モデルでは, 教師なしベースライン(物理ベースおよび統計的ポテンシャル)を全て上回り, 抗体症例における教師付き学習法と一致した。

Protein-ligand binding prediction is a fundamental problem in AI-driven drug discovery. Prior work focused on supervised learning methods using a large set of binding affinity data for small molecules, but it is hard to apply the same strategy to other drug classes like antibodies as labelled data is limited. In this paper, we explore unsupervised approaches and reformulate binding energy prediction as a generative modeling task. Specifically, we train an energy-based model on a set of unlabelled protein-ligand complexes using SE(3) denoising score matching and interpret its log-likelihood as binding affinity. Our key contribution is a new equivariant rotation prediction network called Neural Euler's Rotation Equations (NERE) for SE(3) score matching. It predicts a rotation by modeling the force and torque between protein and ligand atoms, where the force is defined as the gradient of an energy function with respect to atom coordinates. We evaluate NERE on protein-ligand and antibody-antigen binding affinity prediction benchmarks. Our model outperforms all unsupervised baselines (physics-based and statistical potentials) and matches supervised learning methods in the antibody case.
翻訳日:2023-12-14 21:15:05 公開日:2023-12-12
# QBistがメルローポンティを読む

A QBist reads Merleau-Ponty ( http://arxiv.org/abs/2212.11094v3 )

ライセンス: Link先を確認
R\"udiger Schack(参考訳) ミシェル・ビットボル(Michel Bitbol)とローラ・ド・ラ・トレンブリー(Laura de La Tremblaye)による初期の研究に続いて、この短い論文はQBismとモーリス・メルロー=ポンティ(Maurice Merleau-Ponty)のエッセイThe Intertwining--the chiasmの間の接触点を探求している。

Following earlier work by Michel Bitbol and Laura de La Tremblaye which examines QBism from the perspective of phenomenology, this short paper explores points of contact between QBism and Maurice Merleau-Ponty's essay The intertwining--the chiasm.
翻訳日:2023-12-14 21:13:42 公開日:2023-12-12
# ジェネレーティブAIのための強化学習 - 最先端、機会、オープンリサーチの課題

Reinforcement Learning for Generative AI: State of the Art, Opportunities and Open Research Challenges ( http://arxiv.org/abs/2308.00031v2 )

ライセンス: Link先を確認
Giorgio Franceschelli and Mirco Musolesi(参考訳) Generative Artificial Intelligence(AI)は、コンピュータ科学における過去10年で最もエキサイティングな発展の1つだ。 同時に、強化学習(rl)は、さまざまな機械学習タスクにおいて非常に成功したパラダイムとして現れています。 本稿では,RLを生成AIに適用するための技術,機会,オープンな研究課題について論じる。 特に、目的関数を同時に最大化しながら出力を生成する方法としてRL、目的関数によって容易に捕捉できない所望の特性を生成プロセスに組み込む方法として、RLを特定の目的関数なしで生成する代替方法として論じる。 我々は,この魅力的な新興地域の機会と課題について,深く議論して調査を締めくくった。

Generative Artificial Intelligence (AI) is one of the most exciting developments in Computer Science of the last decade. At the same time, Reinforcement Learning (RL) has emerged as a very successful paradigm for a variety of machine learning tasks. In this survey, we discuss the state of the art, opportunities and open research questions in applying RL to generative AI. In particular, we will discuss three types of applications, namely, RL as an alternative way for generation without specified objectives; as a way for generating outputs while concurrently maximizing an objective function; and, finally, as a way of embedding desired characteristics, which cannot be easily captured by means of an objective function, into the generative process. We conclude the survey with an in-depth discussion of the opportunities and challenges in this fascinating emerging area.
翻訳日:2023-12-14 20:54:57 公開日:2023-12-12
# オブジェクト検出とインスタンスセグメンテーションのための再訪トークンプルーニング

Revisiting Token Pruning for Object Detection and Instance Segmentation ( http://arxiv.org/abs/2306.07050v3 )

ライセンス: Link先を確認
Yifei Liu, Mathias Gehrig, Nico Messikommer, Marco Cannici, Davide Scaramuzza(参考訳) ビジョントランスフォーマー(vits)はコンピュータビジョンにおいて印象的な性能を示しているが、その高い計算コスト(トークン数の二乗)は、計算制約付きアプリケーションにおける採用を制限している。 しかし、全てのトークンが等しく重要であるわけではないため、この大量のトークンは必要ないかもしれない。 本稿では,オブジェクト検出とインスタンスセグメンテーションの推論を高速化するトークンプルーニングについて検討し,画像分類から先行研究を拡張した。 広範な実験を通じて、我々は高密度なタスクに対する4つの洞察を提供する。 (i)トークンは完全に刈り取られて廃棄されるのではなく、機能マップに保存して後で使用する。 (ii) 前処理したトークンの再活性化により,モデル性能がさらに向上する。 (iii)画像に基づく動的刈り込み速度は固定刈り出し速度より優れている。 (iv)軽量2層MLPはトークンを効果的にプーンし、より単純な設計で複雑なゲーティングネットワークに匹敵する精度を実現する。 我々は,これらの設計決定がCOCOデータセットに与える影響を評価し,既存のトークンプルーニング法と比較して,ボックス・マスクともに1.5mAPから0.3mAPに低下したことを示すアプローチを導入する。 提案手法は,すべてのトークンを利用する密接なトークンに対して,推論速度の向上を実現し,ネットワーク全体のパフォーマンスを最大34%高速化し,バックボーンを46%高速化する。

Vision Transformers (ViTs) have shown impressive performance in computer vision, but their high computational cost, quadratic in the number of tokens, limits their adoption in computation-constrained applications. However, this large number of tokens may not be necessary, as not all tokens are equally important. In this paper, we investigate token pruning to accelerate inference for object detection and instance segmentation, extending prior works from image classification. Through extensive experiments, we offer four insights for dense tasks: (i) tokens should not be completely pruned and discarded, but rather preserved in the feature maps for later use. (ii) reactivating previously pruned tokens can further enhance model performance. (iii) a dynamic pruning rate based on images is better than a fixed pruning rate. (iv) a lightweight, 2-layer MLP can effectively prune tokens, achieving accuracy comparable with complex gating networks with a simpler design. We assess the effects of these design decisions on the COCO dataset and introduce an approach that incorporates these findings, showing a reduction in performance decline from ~1.5 mAP to ~0.3 mAP in both boxes and masks, compared to existing token pruning methods. In relation to the dense counterpart that utilizes all tokens, our method realizes an increase in inference speed, achieving up to 34% faster performance for the entire network and 46% for the backbone.
翻訳日:2023-12-14 20:54:07 公開日:2023-12-12
# フェデレーションQ-Learningにおける不均一性の祝福:線形スピードアップと超越

The Blessing of Heterogeneity in Federated Q-Learning: Linear Speedup and Beyond ( http://arxiv.org/abs/2305.10697v2 )

ライセンス: Link先を確認
Jiin Woo, Gauri Joshi, Yuejie Chi(参考訳) 強化学習(RL)に使用されるデータが分散的に複数のエージェントによって収集される場合、RLアルゴリズムのフェデレーションされたバージョンは、エージェントがローカルデータを共有することなく協調学習を可能にする。 本稿では,ローカルデータだけで訓練されたローカルQ推定値を定期的に集約することで,最適なQ関数を学習することを目的とした,連合型Q-ラーニングについて考察する。 無限ホライゾン表型マルコフ決定プロセスに着目し,同期型および非同期型q-learningの両方に対して,サンプル複雑性の保証を行う。 どちらの場合も、我々の境界はエージェントの数と他の有意な問題パラメータへのほぼ最適依存関係に関して線形スピードアップを示す。 非同期環境では、局所的なQ-推定を等しく重み付けしたQ-ラーニングの既存の分析では、各エージェントが状態-作用空間全体をカバーする必要がある。 対照的に, 改良されたサンプル複雑性は, 全エージェントの平均定常状態行動占有率分布の最小値に反比例してスケールし, エージェントが一括して状態行動空間全体をカバーし, 単一エージェントの場合のカバレッジ要件を緩和することで協調学習を可能にする不均一性を顕在化する。 しかし、そのサンプルの複雑さは、局所的な軌道が非常に不均一であるときに依然として悩む。 そこで本研究では,より頻繁に訪れる状態-行動ペアに対してより大きな重みを与えるとともに,局所的な行動方針の不均一性に関わらず,全ての軌道が中央に処理されているかのように頑健な線形高速化を実現する,重要度の高い新しいQ-ラーニングアルゴリズムを提案する。

When the data used for reinforcement learning (RL) are collected by multiple agents in a distributed manner, federated versions of RL algorithms allow collaborative learning without the need for agents to share their local data. In this paper, we consider federated Q-learning, which aims to learn an optimal Q-function by periodically aggregating local Q-estimates trained on local data alone. Focusing on infinite-horizon tabular Markov decision processes, we provide sample complexity guarantees for both the synchronous and asynchronous variants of federated Q-learning. In both cases, our bounds exhibit a linear speedup with respect to the number of agents and near-optimal dependencies on other salient problem parameters. In the asynchronous setting, existing analyses of federated Q-learning, which adopt an equally weighted averaging of local Q-estimates, require that every agent covers the entire state-action space. In contrast, our improved sample complexity scales inverse proportionally to the minimum entry of the average stationary state-action occupancy distribution of all agents, thus only requiring the agents to collectively cover the entire state-action space, unveiling the blessing of heterogeneity in enabling collaborative learning by relaxing the coverage requirement of the single-agent case. However, its sample complexity still suffers when the local trajectories are highly heterogeneous. In response, we propose a novel federated Q-learning algorithm with importance averaging, giving larger weights to more frequently visited state-action pairs, which achieves a robust linear speedup as if all trajectories are centrally processed, regardless of the heterogeneity of local behavior policies.
翻訳日:2023-12-14 20:51:42 公開日:2023-12-12
# 連続学習技術を用いたバッチアクティブ学習の高速化

Accelerating Batch Active Learning Using Continual Learning Techniques ( http://arxiv.org/abs/2305.06408v2 )

ライセンス: Link先を確認
Arnav Das, Gantavya Bhatt, Megh Bhalerao, Vianne Gao, Rui Yang, Jeff Bilmes(参考訳) Active Learning(AL)の大きな問題は、クエリラウンド毎にモデルがスクラッチから再トレーニングされるため、トレーニングコストが高いことだ。 まず、ウォームスタート障害のあるニューラルネットワークの標準alをデモし、トレーニングを加速し、alクエリラウンドを微調整するときに壊滅的な忘れるのを避けることから始める。 次に,従来ラベル付き集合に対するさらなるトレーニングをバイアスすることで,この問題を回避する新しい手法を開発した。 我々は,新旧の学習に有効であり,特に進化する分布から来るデータに対して,新旧の学習に有効な,既存のリプレイ型連続学習(cl)アルゴリズムを採用し,これを実現している。 このパラダイムを連続アクティブ学習(cal)と呼びます。 CALは, モデル蒸留を多用し, 歴史から多種多様な不確実点を選択するリプレイ方式を用いて, 大幅な高速化を実現していることを示す。 自然言語、ビジョン、医用画像、計算生物学など、さまざまなデータ領域に対して、それぞれ異なるニューラルネットワークアーキテクチャとデータセットサイズで実験を行います。 CALは、パフォーマンスを維持しながら、トレーニング時間の3倍の短縮を提供する。

A major problem with Active Learning (AL) is high training costs since models are typically retrained from scratch after every query round. We start by demonstrating that standard AL on neural networks with warm starting fails, both to accelerate training and to avoid catastrophic forgetting when using fine-tuning over AL query rounds. We then develop a new class of techniques, circumventing this problem, by biasing further training towards previously labeled sets. We accomplish this by employing existing, and developing novel, replay-based Continual Learning (CL) algorithms that are effective at quickly learning the new without forgetting the old, especially when data comes from an evolving distribution. We call this paradigm Continual Active Learning (CAL). We show CAL achieves significant speedups using a plethora of replay schemes that use model distillation and that select diverse, uncertain points from the history. We conduct experiments across many data domains, including natural language, vision, medical imaging, and computational biology, each with different neural architectures and dataset sizes. CAL consistently provides a 3x reduction in training time, while retaining performance.
翻訳日:2023-12-14 20:50:48 公開日:2023-12-12
# 生成的プロキシ:画像からの3次元ソーシャルインタラクションの先行

Generative Proxemics: A Prior for 3D Social Interaction from Images ( http://arxiv.org/abs/2306.09337v2 )

ライセンス: Link先を確認
Lea M\"uller, Vickie Ye, Georgios Pavlakos, Michael Black, Angjoo Kanazawa(参考訳) 社会的相互作用は人間の行動とコミュニケーションの基本的な側面である。 個人が他者と結びつく方法(プロキシミクスとしても知られる)は、社会的手がかりを伝達し、社会的相互作用のダイナミクスに影響を与える。 このようなインタラクションを画像から再構築することは、相互閉塞と大規模なトレーニングデータセットの可用性の制限による課題である。 そこで本稿では,この3dプロキソミクスに先立って身近な社会的相互作用を持つ2人の人間を学習し,その1視点の3d再構成への応用を実証する。 まず、コンタクトアノテーション付き画像データセットを使用して対話する人々の3Dトレーニングデータを作成する。 次に,BUDDIと呼ばれる新しい拡散モデルを用いて,近親密な社会的相互作用における2人のポーズに関する共同分布を学習する。 生成的proxemicsモデルからのサンプリングは、現実的な3dヒューマンインタラクションを生成し、知覚研究を通じて検証します。 拡散モデルを用いた最適化アプローチにより,1つの画像から近接した2人の人物を1つの画像から再構成する。 提案手法は,うるさい初期推定値から正確な3dソーシャルインタラクションを回復し,最先端手法を上回っている。 私たちのコード、データ、モデルは、プロジェクトのWebサイトで利用可能です。

Social interaction is a fundamental aspect of human behavior and communication. The way individuals position themselves in relation to others, also known as proxemics, conveys social cues and affects the dynamics of social interaction. Reconstructing such interaction from images presents challenges because of mutual occlusion and the limited availability of large training datasets. To address this, we present a novel approach that learns a prior over the 3D proxemics two people in close social interaction and demonstrate its use for single-view 3D reconstruction. We start by creating 3D training data of interacting people using image datasets with contact annotations. We then model the proxemics using a novel denoising diffusion model called BUDDI that learns the joint distribution over the poses of two people in close social interaction. Sampling from our generative proxemics model produces realistic 3D human interactions, which we validate through a perceptual study. We use BUDDI in reconstructing two people in close proximity from a single image without any contact annotation via an optimization approach that uses the diffusion model as a prior. Our approach recovers accurate and plausible 3D social interactions from noisy initial estimates, outperforming state-of-the-art methods. Our code, data, and model are availableat our project website at: muelea.github.io/buddi.
翻訳日:2023-12-14 20:37:26 公開日:2023-12-12
# 自己データを用いた生成モデルの反復再訓練の安定性について

On the Stability of Iterative Retraining of Generative Models on their own Data ( http://arxiv.org/abs/2310.00429v3 )

ライセンス: Link先を確認
Quentin Bertrand, Avishek Joey Bose, Alexandre Duplessis, Marco Jiralerspong, and Gauthier Gidel(参考訳) 深層生成モデルは複雑なデータのモデリングにおいて大きな進歩を遂げ、しばしばサンプルの真正性を識別する典型的な人間の能力を超える生成品質を示す。 間違いなく、この成功の重要な要因は、これらのモデルが消費する大量のWebスケールデータによって実現される。 これらのモデルの性能と可用性の容易さにより、Webは必然的に、合成コンテンツで人口が増えます。 このような事実は、生成モデルの将来のイテレーションは、彼らのトレーニングがクリーンなデータと過去のモデルから人工的に生成されたデータの両方からキュレートされているという事実と競合する必要があることを意味する。 本稿では,混合データセット(実データと合成データ)に対する生成モデルの学習が安定性に与える影響を厳格に研究する枠組みを開発した。 まず, 初期生成モデルがデータ分布を十分に近似し, クリーントレーニングデータ(w.r.t.合成データ)の比率が十分に大きいことを条件として, 反復学習の安定性を証明する。 我々は,CIFAR10およびFFHQ上の正規化流れと最先端拡散モデルを用いて,合成画像と自然画像の両方に関する理論を実験的に検証した。

Deep generative models have made tremendous progress in modeling complex data, often exhibiting generation quality that surpasses a typical human's ability to discern the authenticity of samples. Undeniably, a key driver of this success is enabled by the massive amounts of web-scale data consumed by these models. Due to these models' striking performance and ease of availability, the web will inevitably be increasingly populated with synthetic content. Such a fact directly implies that future iterations of generative models must contend with the reality that their training is curated from both clean data and artificially generated data from past models. In this paper, we develop a framework to rigorously study the impact of training generative models on mixed datasets (of real and synthetic data) on their stability. We first prove the stability of iterative training under the condition that the initial generative models approximate the data distribution well enough and the proportion of clean training data (w.r.t. synthetic data) is large enough. We empirically validate our theory on both synthetic and natural images by iteratively training normalizing flows and state-of-the-art diffusion models on CIFAR10 and FFHQ.
翻訳日:2023-12-14 20:29:48 公開日:2023-12-12
# coreset selectionは、証明可能な一般化による量子機械学習モデルを高速化する

Coreset selection can accelerate quantum machine learning models with provable generalization ( http://arxiv.org/abs/2309.10441v2 )

ライセンス: Link先を確認
Yiming Huang, Huiyuan Wang, Yuxuan Du, Xiao Yuan(参考訳) 量子ニューラルネットワーク(QNN)と量子カーネルは、量子機械学習の領域で目立った存在であり、短期量子コンピュータの初期段階の能力を活用して、古典的な機械学習課題を克服する。 それでも、トレーニング効率の課題はqnnと量子カーネルの両方に制限を与え、広範なデータセットに適用した場合の有効性を抑制する。 この懸念に対処するために、コアセット選択(coreset selection)という、QNNと量子カーネルのトレーニングの迅速化を目的として、元のトレーニングデータセットから偏差部分集合を蒸留する、統一的なアプローチを提案する。 さらに,そのようなコアセット上でのトレーニング時のqnnと量子カーネルの一般化誤差境界を分析し,完全なオリジナルデータセットでのトレーニングと同等の性能を示す。 体系的な数値シミュレーションにより,合成データ分類,量子相関の同定,量子コンパイルを含むタスクの迅速化におけるコアセット選択の可能性を明らかにする。 私たちの研究は、トレーニングコストを削減しつつ、理論的保証で多様な量子機械学習モデルを改善するための有用な方法を提供します。

Quantum neural networks (QNNs) and quantum kernels stand as prominent figures in the realm of quantum machine learning, poised to leverage the nascent capabilities of near-term quantum computers to surmount classical machine learning challenges. Nonetheless, the training efficiency challenge poses a limitation on both QNNs and quantum kernels, curbing their efficacy when applied to extensive datasets. To confront this concern, we present a unified approach: coreset selection, aimed at expediting the training of QNNs and quantum kernels by distilling a judicious subset from the original training dataset. Furthermore, we analyze the generalization error bounds of QNNs and quantum kernels when trained on such coresets, unveiling the comparable performance with those training on the complete original dataset. Through systematic numerical simulations, we illuminate the potential of coreset selection in expediting tasks encompassing synthetic data classification, identification of quantum correlations, and quantum compiling. Our work offers a useful way to improve diverse quantum machine learning models with a theoretical guarantee while reducing the training cost.
翻訳日:2023-12-14 20:29:08 公開日:2023-12-12
# 微分算数分布モジュールによるアフィン変換不変画像分類

Affine-Transformation-Invariant Image Classification by Differentiable Arithmetic Distribution Module ( http://arxiv.org/abs/2309.00752v2 )

ライセンス: Link先を確認
Zijie Tan, Guanfang Dong, Chenqiu Zhao, Anup Basu(参考訳) 畳み込みニューラルネットワーク(CNN)は画像分類において有望な結果を得たが、それでも回転、翻訳、フリップ、シャッフルなどのアフィン変換には弱い。 この欠点は、異なるアフィン変換の影響を緩和できるモジュールを設計する動機となっている。 そこで本研究では,特に画像中の画素の空間分布情報を学習することに焦点を当て,分布学習技術を取り入れることで,より堅牢な代替手段を導入する。 従来のヒストグラムに依存した分布学習手法の非微分可能性の問題を是正するために,カーネル密度推定(KDE)を用いて,異なるヒストグラムを定式化する。 本稿では,画像から固有確率分布を抽出するために設計された新しい微分可能算術分布モジュール(dadm)を提案する。 提案手法は,特徴抽出能力を犠牲にすることなく,アフィン変換に対するモデルの堅牢性を高め,従来のCNNと分散学習のギャップを埋めることができる。 提案手法の有効性をアブレーション実験とlenetとの比較実験により検証した。

Although Convolutional Neural Networks (CNNs) have achieved promising results in image classification, they still are vulnerable to affine transformations including rotation, translation, flip and shuffle. The drawback motivates us to design a module which can alleviate the impact from different affine transformations. Thus, in this work, we introduce a more robust substitute by incorporating distribution learning techniques, focusing particularly on learning the spatial distribution information of pixels in images. To rectify the issue of non-differentiability of prior distribution learning methods that rely on traditional histograms, we adopt the Kernel Density Estimation (KDE) to formulate differentiable histograms. On this foundation, we present a novel Differentiable Arithmetic Distribution Module (DADM), which is designed to extract the intrinsic probability distributions from images. The proposed approach is able to enhance the model's robustness to affine transformations without sacrificing its feature extraction capabilities, thus bridging the gap between traditional CNNs and distribution-based learning. We validate the effectiveness of the proposed approach through ablation study and comparative experiments with LeNet.
翻訳日:2023-12-14 20:26:13 公開日:2023-12-12
# ベイズ実験設計における期待情報ゲインの勾配の推定について

On Estimating the Gradient of the Expected Information Gain in Bayesian Experimental Design ( http://arxiv.org/abs/2308.09888v2 )

ライセンス: Link先を確認
Ziqiao Ao, Jinglai Li(参考訳) ベイズ推定のための最適実験条件を見つけることを目的としたベイズ実験設計(BED)は通常、期待情報ゲイン(EIG)を最適化するために行われる。 勾配情報はしばしば効率的なEIG最適化のために必要であり、その結果、BED問題にはEIGの勾配を推定する能力が不可欠である。 本研究の目的は, 確率的勾配降下アルゴリズムと組み合わせることで, eigの効率的な最適化を実現するために, eigの勾配推定法を開発することである。 具体的には、まず、設計変数に関するEIG勾配の後方予測表現を導入する。 そこで本研究では,EIG勾配の推定手法として,マルコフ・チェイン・モンテカルロ (MCMC) が生成した後続サンプルを用いてEIG勾配を推定するUEEG-MCMCと,パラメータサンプルを繰り返し使用して高いシミュレーション効率を実現するBEEG-APを提案する。 理論的解析および数値解析により、UEEG-MCMCは実際のEIG値を再び堅牢にし、BEEG-APは最適化されるEIG値が小さい場合により効率的であることが示された。 さらに,これらの手法は,数値実験でよく用いられるベンチマークよりも優れた性能を示す。

Bayesian Experimental Design (BED), which aims to find the optimal experimental conditions for Bayesian inference, is usually posed as to optimize the expected information gain (EIG). The gradient information is often needed for efficient EIG optimization, and as a result the ability to estimate the gradient of EIG is essential for BED problems. The primary goal of this work is to develop methods for estimating the gradient of EIG, which, combined with the stochastic gradient descent algorithms, result in efficient optimization of EIG. Specifically, we first introduce a posterior expected representation of the EIG gradient with respect to the design variables. Based on this, we propose two methods for estimating the EIG gradient, UEEG-MCMC that leverages posterior samples generated through Markov Chain Monte Carlo (MCMC) to estimate the EIG gradient, and BEEG-AP that focuses on achieving high simulation efficiency by repeatedly using parameter samples. Theoretical analysis and numerical studies illustrate that UEEG-MCMC is robust agains the actual EIG value, while BEEG-AP is more efficient when the EIG value to be optimized is small. Moreover, both methods show superior performance compared to several popular benchmarks in our numerical experiments.
翻訳日:2023-12-14 20:25:31 公開日:2023-12-12
# 精度と多様性の最適化--予測組み合わせに対するマルチタスクアプローチ

Optimizing accuracy and diversity: a multi-task approach to forecast combinations ( http://arxiv.org/abs/2310.20545v2 )

ライセンス: Link先を確認
Giovanni Felici, Antonio M. Sudoso(参考訳) 予測の組み合わせは、複数の予測を使用して、1つのより正確な予測を生成する。 近年、最も適切な予測モデルを選択するか、それらの組み合わせの重みを最適化するために機能ベースの予測が採用されている。 本稿では,複数の課題を同時に解決し,予測のための現在の運用研究手法を充実させるマルチタスク最適化パラダイムを提案する。 基本的には、標準的な機能ベースの予測アプローチに学習と最適化のタスクを追加し、最適な予測方法のセットを特定することに焦点を当てている。 トレーニングフェーズでは、線形制約と二次目的関数を持つ最適化モデルを用いて、各時系列の正確かつ多様な方法を特定する。 さらに、トレーニングフェーズ内では、ニューラルネットワークを使用して、その最適化モデルの振る舞いを学習する。 トレーニングが完了すると、ネットワークを使用してメソッドの候補セットが識別される。 提案手法は特徴に基づく予測における多様性の本質的役割を導き,予測アンサンブルを最適化する際のモデル組み合わせとモデル選択の相互作用を強調する。 m4コンペティションデータセットを用いた大規模シリーズ実験の結果,本提案手法は最先端手法に比べてポイント予測精度が向上することが示された。

Forecast combination involves using multiple forecasts to create a single, more accurate prediction. Recently, feature-based forecasting has been employed to either select the most appropriate forecasting models or to optimize the weights of their combination. In this paper, we present a multi-task optimization paradigm that focuses on solving both problems simultaneously and enriches current operational research approaches to forecasting. In essence, it incorporates an additional learning and optimization task into the standard feature-based forecasting approach, focusing on the identification of an optimal set of forecasting methods. During the training phase, an optimization model with linear constraints and quadratic objective function is employed to identify accurate and diverse methods for each time series. Moreover, within the training phase, a neural network is used to learn the behavior of that optimization model. Once training is completed the candidate set of methods is identified using the network. The proposed approach elicits the essential role of diversity in feature-based forecasting and highlights the interplay between model combination and model selection when optimizing forecasting ensembles. Experimental results on a large set of series from the M4 competition dataset show that our proposal enhances point forecast accuracy compared to state-of-the-art methods.
翻訳日:2023-12-14 20:17:08 公開日:2023-12-12
# バックドアでプライバシーを守る

Defending Our Privacy With Backdoors ( http://arxiv.org/abs/2310.08320v2 )

ライセンス: Link先を確認
Dominik Hintersdorf, Lukas Struppek, Daniel Neider, Kristian Kersting(参考訳) 未処理で、しばしばセンシティブなWebスクラッドデータに基づいてトレーニングされた大規模なAIモデルの拡散は、プライバシー上の大きな懸念を引き起こしている。 懸念の1つは、敵がプライバシー攻撃を使ってトレーニングデータに関する情報を抽出できることである。 残念ながら、パフォーマンスを犠牲にすることなく、特定の情報をモデルから取り除くという作業は簡単ではなく、難しいことが証明されている。 本研究では,モデルから個人名などの個人情報を取り除き,テキストエンコーダに焦点をあてるため,バックドア攻撃に基づく比較的簡単かつ効果的な防御手法を提案する。 具体的には, バックドアを戦略的に挿入することで, センシティブなフレーズの埋め込みを, 人名ではなく「人」の言葉と整合させる。 実験により, ゼロショット分類器の特殊なプライバシー攻撃を用いて, CLIP に対するバックドアベース防御の有効性を実証した。 私たちのアプローチは、バックドア攻撃に対する新たな"デュアルユース"な視点を提供するだけでなく、未確認のweb階層データでトレーニングされたモデル内の個人のプライバシを強化する有望な手段を提供します。

The proliferation of large AI models trained on uncurated, often sensitive web-scraped data has raised significant privacy concerns. One of the concerns is that adversaries can extract information about the training data using privacy attacks. Unfortunately, the task of removing specific information from the models without sacrificing performance is not straightforward and has proven to be challenging. We propose a rather easy yet effective defense based on backdoor attacks to remove private information such as names of individuals from models, and focus in this work on text encoders. Specifically, through strategic insertion of backdoors, we align the embeddings of sensitive phrases with those of neutral terms-"a person" instead of the person's name. Our empirical results demonstrate the effectiveness of our backdoor-based defense on CLIP by assessing its performance using a specialized privacy attack for zero-shot classifiers. Our approach provides not only a new "dual-use" perspective on backdoor attacks, but also presents a promising avenue to enhance the privacy of individuals within models trained on uncurated web-scraped data.
翻訳日:2023-12-14 20:14:59 公開日:2023-12-12
# EdVAE: 証拠離散変分オートエンコーダによるコードブックの崩壊の軽減

EdVAE: Mitigating Codebook Collapse with Evidential Discrete Variational Autoencoders ( http://arxiv.org/abs/2310.05718v2 )

ライセンス: Link先を確認
Gulcin Baykal, Melih Kandemir, Gozde Unal(参考訳) コードブック崩壊は、ベクトル量子変分オートエンコーダ(VQ-VAE)のような離散表現空間を持つ深層生成モデルの訓練において一般的な問題である。 我々は、エンコーダがデータを表すコードブック埋め込み上の分布を直接学習する代替設計の離散変分オートエンコーダ(dvaes)に対して、同じ問題が発生することを観察する。 確率分布を得るためにソフトマックス関数を用いることで、最適のコードブック要素に過信確率を割り当てることで、コードブックの崩壊を引き起こすと仮定する。 本稿では,dVAEのコードブック崩壊問題に対処するために,ソフトマックスの代わりに顕在的深層学習(EDL)を組み込む新しい手法を提案する。 ソフトマックス使用法とは対照的に,コードブック埋め込みにおける確率分布の達成の重要性を明らかに監視する。 各種データセットを用いた実験により,コードブックの崩壊を軽減し,再構築性能を向上し,dVAEモデルやVQ-VAEモデルと比較してコードブックの利用率を向上させることができた。 私たちのコードはhttps://github.com/ituvisionlab/EdVAE で参照できます。

Codebook collapse is a common problem in training deep generative models with discrete representation spaces like Vector Quantized Variational Autoencoders (VQ-VAEs). We observe that the same problem arises for the alternatively designed discrete variational autoencoders (dVAEs) whose encoder directly learns a distribution over the codebook embeddings to represent the data. We hypothesize that using the softmax function to obtain a probability distribution causes the codebook collapse by assigning overconfident probabilities to the best matching codebook elements. In this paper, we propose a novel way to incorporate evidential deep learning (EDL) instead of softmax to combat the codebook collapse problem of dVAE. We evidentially monitor the significance of attaining the probability distribution over the codebook embeddings, in contrast to softmax usage. Our experiments using various datasets show that our model, called EdVAE, mitigates codebook collapse while improving the reconstruction performance, and enhances the codebook usage compared to dVAE and VQ-VAE based models. Our code can be found at https://github.com/ituvisionlab/EdVAE .
翻訳日:2023-12-14 20:14:24 公開日:2023-12-12
# ニューラルネットワークにおける学習概念の学習データへの寄与

Attributing Learned Concepts in Neural Networks to Training Data ( http://arxiv.org/abs/2310.03149v3 )

ライセンス: Link先を確認
Nicholas Konz, Charles Godfrey, Madelyn Shapiro, Jonathan Tu, Henry Kvinge, Davis Brown(参考訳) 現在までに、深層学習モデルは、データの内部表現の一部として、特定の人間解釈可能な特徴を学習する証拠がかなりある。 正しい(あるいは間違った)概念を持つことは、信頼できる機械学習システムにとって重要であるため、モデルの元々のトレーニングセットからのインプットが、与えられたレイヤで概念を学ぶ上で最も重要であったかを尋ねるのは当然です。 そこで本研究では,データ帰属法とモデルで学習した概念を探索する手法を組み合わせる。 ネットワーク層における2つの概念データセットに対するネットワークとプローブアンサンブルの訓練を行い,大規模データ帰属のためのTRAK法を開発した。 コンバージェンス(収束)の証拠として,概念の上位1万個の画像を取り除き,モデルの再訓練を行うことで,ネットワーク内の概念の位置や概念の空間性が変化しないことがある。 これは、いくつかの特定の例に強く依存するのではなく、概念の発展を知らせる特徴が、その例全体により広範に広がり、概念形成における堅牢性が示唆されることを示唆している。

By now there is substantial evidence that deep learning models learn certain human-interpretable features as part of their internal representations of data. As having the right (or wrong) concepts is critical to trustworthy machine learning systems, it is natural to ask which inputs from the model's original training set were most important for learning a concept at a given layer. To answer this, we combine data attribution methods with methods for probing the concepts learned by a model. Training network and probe ensembles for two concept datasets on a range of network layers, we use the recently developed TRAK method for large-scale data attribution. We find some evidence for convergence, where removing the 10,000 top attributing images for a concept and retraining the model does not change the location of the concept in the network nor the probing sparsity of the concept. This suggests that rather than being highly dependent on a few specific examples, the features that inform the development of a concept are spread in a more diffuse manner across its exemplars, implying robustness in concept formation.
翻訳日:2023-12-14 20:13:22 公開日:2023-12-12
# deceptprompt: 逆自然言語命令によるllm駆動コード生成の活用

DeceptPrompt: Exploiting LLM-driven Code Generation via Adversarial Natural Language Instructions ( http://arxiv.org/abs/2312.04730v2 )

ライセンス: Link先を確認
Fangzhou Wu, Xiaogeng Liu, Chaowei Xiao(参考訳) LLM(Large Language Models)の進歩により、LLMは自然言語をプログラミング言語に変換するコード生成に大きな進歩を遂げた。 これらのコードLLMは、大規模なユーザや組織によって広く受け入れられている。 しかし、致命的な脆弱性が存在するコードの中に危険な性質が隠されている。 一部のLLMプロバイダは、人間のガイダンスに合わせることでこれらの問題に対処しようとしているが、これらの取り組みは、Code LLMを実用的で堅牢なものにしない。 実際に最悪の場合、LLMの性能を深く理解しなければ、それらを様々な現実世界のアプリケーションに適用することは問題となるだろう。 既存のコードLLMは、脆弱性のあるコードを生成することに免疫していますか? もしそうでなければ、実際のデプロイメントシナリオにおいて、この問題の最大の深刻度は何でしょう? 本稿では,新しいアルゴリズムであるdeceptpromptについて紹介する。このアルゴリズムは,悪意のある自然言語命令を生成して,脆弱性のある正確なコードを生成するためのコードllmを駆動する。 deceptpromptは、微細な粒度損失設計を持つシステマティック進化に基づくアルゴリズムによって達成される。 deceptpromptのユニークな利点は、完全に良質で非指向的な意味を持つ自然な接頭辞や接尾辞を見つけることを可能にします。 この機能は、ユーザーが自然言語を使用している実際のシナリオで、これらのllm上でほぼワーストケースのレッドチームを行うことができます。 deceptpromptに関する広範な実験と分析は、我々のアプローチの有効性を検証するだけでなく、コード生成タスクにおけるllmの大きな弱点にも光を当てました。 最適化プレフィックス/サフィックスを適用する場合、アタック成功率(ASR)はプレフィックス/サフィックスを適用せずに平均50%向上する。

With the advancement of Large Language Models (LLMs), significant progress has been made in code generation, enabling LLMs to transform natural language into programming code. These Code LLMs have been widely accepted by massive users and organizations. However, a dangerous nature is hidden in the code, which is the existence of fatal vulnerabilities. While some LLM providers have attempted to address these issues by aligning with human guidance, these efforts fall short of making Code LLMs practical and robust. Without a deep understanding of the performance of the LLMs under the practical worst cases, it would be concerning to apply them to various real-world applications. In this paper, we answer the critical issue: Are existing Code LLMs immune to generating vulnerable code? If not, what is the possible maximum severity of this issue in practical deployment scenarios? In this paper, we introduce DeceptPrompt, a novel algorithm that can generate adversarial natural language instructions that drive the Code LLMs to generate functionality correct code with vulnerabilities. DeceptPrompt is achieved through a systematic evolution-based algorithm with a fine grain loss design. The unique advantage of DeceptPrompt enables us to find natural prefix/suffix with totally benign and non-directional semantic meaning, meanwhile, having great power in inducing the Code LLMs to generate vulnerable code. This feature can enable us to conduct the almost-worstcase red-teaming on these LLMs in a real scenario, where users are using natural language. Our extensive experiments and analyses on DeceptPrompt not only validate the effectiveness of our approach but also shed light on the huge weakness of LLMs in the code generation task. When applying the optimized prefix/suffix, the attack success rate (ASR) will improve by average 50% compared with no prefix/suffix applying.
翻訳日:2023-12-14 20:07:01 公開日:2023-12-12
# コンテキスト帯域による層と頭部のフレキシビリティを有するサンプルベース動的階層変換器

Sample-based Dynamic Hierarchical Transformer with Layer and Head Flexibility via Contextual Bandit ( http://arxiv.org/abs/2312.03038v2 )

ライセンス: Link先を確認
Fanfei Meng, Lele Zhang, Yu Chen, Yuxin Wang(参考訳) トランスフォーマーは一定の数のレイヤーとヘッドを必要とし、個々のサンプルの複雑さに柔軟であり、トレーニングや推論の費用がかかる。 そこで,本稿では,サンプルベース動的階層型トランスフォーマ (dht) モデルを提案する。 層数と頭数を決定するために、組合せトンプソンサンプリング(英語版)を展開する間、統一された信頼度バウンドを使い、その数に応じて特定の頭の組み合わせを選択する。 推論のみのためにトレーニングされたネットワークを圧縮することに焦点を当てた以前の作業とは異なり、dhtはトレーニング中に基盤となるネットワークアーキテクチャを適応的に最適化するだけでなく、効率的な推論のための柔軟なネットワークを持つ。 私たちの知る限りでは、これは動的システムを実装する追加の補助ニューラルネットワークを使わずに、初めて包括的なデータ駆動動的トランスフォーマーである。 実験結果によると、精度の低下を最小限に抑えつつ、トレーニングと推論の両方で最大74%の計算節約を達成している。

Transformer requires a fixed number of layers and heads which makes them inflexible to the complexity of individual samples and expensive in training and inference. To address this, we propose a sample-based Dynamic Hierarchical Transformer (DHT) model whose layers and heads can be dynamically configured with single data samples via solving contextual bandit problems. To determine the number of layers and heads, we use the Uniform Confidence Bound while we deploy combinatorial Thompson Sampling in order to select specific head combinations given their number. Different from previous work that focuses on compressing trained networks for inference only, DHT is not only advantageous for adaptively optimizing the underlying network architecture during training but also has a flexible network for efficient inference. To the best of our knowledge, this is the first comprehensive data-driven dynamic transformer without any additional auxiliary neural networks that implement the dynamic system. According to the experiment results, we achieve up to 74% computational savings for both training and inference with a minimal loss of accuracy.
翻訳日:2023-12-14 20:06:14 公開日:2023-12-12
# just-in-time security patch detection -- データ拡張の救済のためのllm

Just-in-Time Security Patch Detection -- LLM At the Rescue for Data Augmentation ( http://arxiv.org/abs/2312.01241v2 )

ライセンス: Link先を確認
Xunzhu Tang and Zhenghan Chen and Kisub Kim and Haoye Tian and Saad Ezzini and Jacques Klein(参考訳) オープンソースソフトウェアで見つかった脆弱性が増大する中、[discreet]セキュリティパッチを特定する必要性が最重要視されている。 ソフトウェアプロバイダのメンテナンスの扱い方における一貫性の欠如は、包括的なアドバイザリのないセキュリティパッチのリリースを招き、ユーザを不適切なセキュリティリスクにさらしている。 そこで本稿では,LLM(Large Language Models)を利用した新たなセキュリティパッチ検出システム LLMDA と,パッチレビュー,データ拡張,特徴結合のためのコードテキストアライメント手法を提案する。 LLMDA内では当初,最近の文献の2つのセキュリティパッチデータセットであるPatchDBとSPI-DBのパッチ調査と拡張にLLMを使用しました。 次にラベル付き命令を使用してLSMDAを指示し、セキュリティ関連性に基づいたパッチを識別します。 その後、ptformerを使ってパッチとコードをマージし、固有の詳細とパッチとコードの相互接続の両方を包含するハイブリッド属性を定式化する。 この特異な組み合わせ手法により,本システムはパッチとコードのコンテクストからより多くの洞察を得ることができ,検出精度が向上する。 最後に,LLMDAのセキュリティパッチの識別能力を高めるため,バッチ内での確率的バッチコントラスト学習機構を考案した。 その結果,LSMDAはセキュリティパッチ検出技術の開始点をはるかに上回り,ソフトウェアメンテナンスの強化の可能性を強調した。

In the face of growing vulnerabilities found in open-source software, the need to identify {discreet} security patches has become paramount. The lack of consistency in how software providers handle maintenance often leads to the release of security patches without comprehensive advisories, leaving users vulnerable to unaddressed security risks. To address this pressing issue, we introduce a novel security patch detection system, LLMDA, which capitalizes on Large Language Models (LLMs) and code-text alignment methodologies for patch review, data enhancement, and feature combination. Within LLMDA, we initially utilize LLMs for examining patches and expanding data of PatchDB and SPI-DB, two security patch datasets from recent literature. We then use labeled instructions to direct our LLMDA, differentiating patches based on security relevance. Following this, we apply a PTFormer to merge patches with code, formulating hybrid attributes that encompass both the innate details and the interconnections between the patches and the code. This distinctive combination method allows our system to capture more insights from the combined context of patches and code, hence improving detection precision. Finally, we devise a probabilistic batch contrastive learning mechanism within batches to augment the capability of the our LLMDA in discerning security patches. The results reveal that LLMDA significantly surpasses the start of the art techniques in detecting security patches, underscoring its promise in fortifying software maintenance.
翻訳日:2023-12-14 20:05:40 公開日:2023-12-12
# FedEmb: NetworkとFeature Embedding Aggregationを用いた垂直かつハイブリッドなフェデレーション学習アルゴリズム

FedEmb: A Vertical and Hybrid Federated Learning Algorithm using Network And Feature Embedding Aggregation ( http://arxiv.org/abs/2312.00102v3 )

ライセンス: Link先を確認
Fanfei Meng, Lele Zhang, Yu Chen, Yuxin Wang(参考訳) フェデレートラーニング(FL)は、中央サーバにデータを公開せずに、分散クライアント上で機械学習モデルの分散トレーニングを行うための新興パラダイムである。 学習方式は水平、垂直またはハイブリッド(垂直と水平の両方)である。 ディープニューラルネットワーク(DNN)モデリングに関する既存の研究は、水平データ分布に重点を置いているが、垂直とハイブリッドのスキームはあまり研究されていない。 本稿では,垂直およびハイブリッドDNN学習のための一般化アルゴリズムであるFedEmbを提案する。 提案アルゴリズムの考え方は,既存の作業と比較して,推論精度の向上,プライバシー保護特性の向上,クライアントサーバ通信帯域幅の低減などが特徴である。 実験の結果,feedembは分割特徴量と対象空間分散問題の両方に有効な手法であり,ローカルクライアントに格納されたデータセットのプライバシーを明かすことなく,0.3%から4.2%の推論精度の向上を示し,垂直ベースライン法よりも88.9%の時間複雑性を低減した。

Federated learning (FL) is an emerging paradigm for decentralized training of machine learning models on distributed clients, without revealing the data to the central server. The learning scheme may be horizontal, vertical or hybrid (both vertical and horizontal). Most existing research work with deep neural network (DNN) modelling is focused on horizontal data distributions, while vertical and hybrid schemes are much less studied. In this paper, we propose a generalized algorithm FedEmb, for modelling vertical and hybrid DNN-based learning. The idea of our algorithm is characterised by higher inference accuracy, stronger privacy-preserving properties, and lower client-server communication bandwidth demands as compared with existing work. The experimental results show that FedEmb is an effective method to tackle both split feature & subject space decentralized problems, shows 0.3% to 4.2% inference accuracy improvement with limited privacy revealing for datasets stored in local clients, and reduces 88.9 % time complexity over vertical baseline method.
翻訳日:2023-12-14 20:04:54 公開日:2023-12-12
# きめ細かい染色体認識のための教師付きコントラスト学習

Supervised Contrastive Learning for Fine-grained Chromosome Recognition ( http://arxiv.org/abs/2312.07623v1 )

ライセンス: Link先を確認
Ruijia Chang, Suncheng Xiang, Chengyu Zhou, Kui Su, Dahong Qian, Jun Wang(参考訳) 染色体認識は核タイピングにおいて必須の課題であり、出生時欠陥診断や生医学研究において重要な役割を果たす。 しかし、既存の分類法は染色体のクラス間類似性やクラス内変異のために重大な課題に直面している。 そこで本研究では,信頼できる染色体分類のためのモデル非依存な深層ネットワークを訓練するための教師付きコントラスト学習戦略を提案する。 潜伏空間に微細な染色体埋め込みを抽出することができる。 これらの埋め込みは、クラス間の境界を効果的に拡大し、クラス内変異を減少させ、染色体タイプの予測においてその識別性を高める。 2つの大規模な染色体データセットの上に、TransformersやResNetsといった最先端の深層ネットワークを増強する際、コントラスト学習戦略のパワーを包括的に検証する。 その結果、モデルの一般化性能を大幅に改善でき、精度は+4.5%向上した。 この作業を受け入れると、コードと事前訓練されたモデルがリリースされる。

Chromosome recognition is an essential task in karyotyping, which plays a vital role in birth defect diagnosis and biomedical research. However, existing classification methods face significant challenges due to the inter-class similarity and intra-class variation of chromosomes. To address this issue, we propose a supervised contrastive learning strategy that is tailored to train model-agnostic deep networks for reliable chromosome classification. This method enables extracting fine-grained chromosomal embeddings in latent space. These embeddings effectively expand inter-class boundaries and reduce intra-class variations, enhancing their distinctiveness in predicting chromosome types. On top of two large-scale chromosome datasets, we comprehensively validate the power of our contrastive learning strategy in boosting cutting-edge deep networks such as Transformers and ResNets. Extensive results demonstrate that it can significantly improve models' generalization performance, with an accuracy improvement up to +4.5%. Codes and pretrained models will be released upon acceptance of this work.
翻訳日:2023-12-14 18:15:09 公開日:2023-12-12
# 説明者の批判: 適切な説明のための議論

Clash of the Explainers: Argumentation for Context-Appropriate Explanations ( http://arxiv.org/abs/2312.07635v1 )

ライセンス: Link先を確認
Leila Methnani, Virginia Dignum, Andreas Theodorou(参考訳) 特定のeXplainable Artificial Intelligence(XAI)テクニックをいつ、なぜ適用すべきかを理解するのは簡単な作業ではありません。 特定のコンテキストに最も適したアプローチはひとつもありません。 本稿は,説明が必要な文脈において,最も適切な説明者を選択するという課題に対処することを目的とする。 aiによる説明が効果的になるためには、説明を受け付けるステークホルダーに対して、説明とその提示方法が向けられる必要がある。 もし -- 一般に -- 唯一の説明テクニックが残りの部分を超えなければ、コンテキストに適合するメソッドを選択するために利用可能なメソッドを推論する必要がある。 透明性のため,任意の説明者の中から,最も適切な説明者に対する合意に達するための議論手法を導入することを提案する。 本稿では,利害関係者の所定のメンタルモデルと,複数の利害関係者の利害関係者に対して適切に説明できるaiモデルを用いて,利害関係者の利害関係者の利害関係者に対する論議問題を解く理性要素からなるモジュラー推論システムを提案する。 サポートする前提 -- と推論 -- をフォーマルにすることで、ステークホルダーの特性を説明手法にマッピングすることができます。 これにより、テクニックを推論し、与えられたコンテキストに最適なものを優先することができると同時に、選択決定に対する透明性も提供できます。

Understanding when and why to apply any given eXplainable Artificial Intelligence (XAI) technique is not a straightforward task. There is no single approach that is best suited for a given context. This paper aims to address the challenge of selecting the most appropriate explainer given the context in which an explanation is required. For AI explainability to be effective, explanations and how they are presented needs to be oriented towards the stakeholder receiving the explanation. If -- in general -- no single explanation technique surpasses the rest, then reasoning over the available methods is required in order to select one that is context-appropriate. Due to the transparency they afford, we propose employing argumentation techniques to reach an agreement over the most suitable explainers from a given set of possible explainers. In this paper, we propose a modular reasoning system consisting of a given mental model of the relevant stakeholder, a reasoner component that solves the argumentation problem generated by a multi-explainer component, and an AI model that is to be explained suitably to the stakeholder of interest. By formalising supporting premises -- and inferences -- we can map stakeholder characteristics to those of explanation techniques. This allows us to reason over the techniques and prioritise the best one for the given context, while also offering transparency into the selection decision.
翻訳日:2023-12-14 18:01:58 公開日:2023-12-12
# キラル感度分子特性予測のためのSE(3)不変多パラメータ永続ホモロジー

SE(3)-Invariant Multiparameter Persistent Homology for Chiral-Sensitive Molecular Property Prediction ( http://arxiv.org/abs/2312.07633v1 )

ライセンス: Link先を確認
Andac Demir, Francis Prael III, Bulent Kiziltan(参考訳) 本研究では,多パラメータ持続ホモロジー(MPPH)を用いた新しい分子指紋生成法を提案する。 この手法は、正確な分子特性予測が不可欠である創薬と物質科学において重要な意味を持つ。 SE(3)-不変性とVietoris-Rips持続ホモロジーを組み合わせることで、分子キラリティの3次元表現を効果的に捉えることができる。 この非加重ミラー像の性質は分子相互作用に直接影響し、分子特性の予測に必須の要素となる。 我々は, 原子量, 部分電荷, 結合型, キラリティーなどの様々なスケールとパラメータにまたがるビエトリス・リップス持続ホモロジーを応用し, 分子構造の基盤となるトポロジーとパターンを探索する。 本手法の有効性は, 芳香族性, 軌道ハイブリダイゼーション, 結合極性, 共役系, および結合角, ねじれ角などのパラメータを付加することにより改善できる。 さらに, gbdtのベイズアンサンブルにおける確率的勾配ランジュバンブースティングを利用して, 勾配ブースティングモデルに対するアレテータ的, 認識的不確実性推定を得る。 これらの不確実性推定では、アクティブラーニングとモデル微調整のための高不確実性サンプルを優先し、データラベリングがコストや時間を要するシナリオの恩恵を受ける。 従来のGNNと比較して、MPPHは分子データトポロジーのより包括的で解釈可能な特徴を提供する。 提案手法を理論的安定性保証を用いて実証し,分子特性予測における既存手法よりも優れた性能を示す。

In this study, we present a novel computational method for generating molecular fingerprints using multiparameter persistent homology (MPPH). This technique holds considerable significance for drug discovery and materials science, where precise molecular property prediction is vital. By integrating SE(3)-invariance with Vietoris-Rips persistent homology, we effectively capture the three-dimensional representations of molecular chirality. This non-superimposable mirror image property directly influences the molecular interactions, serving as an essential factor in molecular property prediction. We explore the underlying topologies and patterns in molecular structures by applying Vietoris-Rips persistent homology across varying scales and parameters such as atomic weight, partial charge, bond type, and chirality. Our method's efficacy can be improved by incorporating additional parameters such as aromaticity, orbital hybridization, bond polarity, conjugated systems, as well as bond and torsion angles. Additionally, we leverage Stochastic Gradient Langevin Boosting in a Bayesian ensemble of GBDTs to obtain aleatoric and epistemic uncertainty estimates for gradient boosting models. With these uncertainty estimates, we prioritize high-uncertainty samples for active learning and model fine-tuning, benefiting scenarios where data labeling is costly or time consuming. Compared to conventional GNNs which usually suffer from oversmoothing and oversquashing, MPPH provides a more comprehensive and interpretable characterization of molecular data topology. We substantiate our approach with theoretical stability guarantees and demonstrate its superior performance over existing state-of-the-art methods in predicting molecular properties through extensive evaluations on the MoleculeNet benchmark datasets.
翻訳日:2023-12-14 18:01:38 公開日:2023-12-12
# マルチコア光ファイバーセルローテーションを用いたAI駆動プロジェクショントモグラフィ

AI-driven projection tomography with multicore fibre-optic cell rotation ( http://arxiv.org/abs/2312.07631v1 )

ライセンス: Link先を確認
Jiawei Sun, Bin Yang, Nektarios Koukourakis, Jochen Guck, and Juergen W. Czarske(参考訳) 光トモグラフィーは非侵襲的なイメージング法として登場し、細胞内構造に関する3次元的な洞察を与え、細胞機能、相互作用、プロセスのより深い理解を可能にする。 従来の光トモグラフィー法は、限られた照明走査範囲で制限されており、異方性分解能と細胞構造の不完全イメージングに繋がる。 この問題を克服するために,マイクロ流体チップ内のセルの精密な光学的操作を容易にし,等方性で全角投影トモグラフィーを実現する小型マルチコア光ファイバ光セル回転子システムを用いた。 さらに,手動処理を必要とする従来の計算手法から完全に自律的なプロセスへのパラダイムシフトが可能な,AI駆動トモグラフィ再構築ワークフローを実証する。 提案した細胞回転トモグラフィー法の性能は,細胞ファントムとHL60ヒト癌細胞の3次元再構成によって検証される。 この学習に基づくトモグラフィ再構築ワークフローの汎用性は、フローサイトメトリートモグラフィーや音響回転トモグラフィーに限らず、様々なトモグラフィーモダリティにまたがる幅広い応用の道を開く。 したがって、このAI駆動のアプローチは、細胞生物学の進歩を促進し、先駆的な治療の開始を支援し、早期がんの診断を増強することができる。

Optical tomography has emerged as a non-invasive imaging method, providing three-dimensional insights into subcellular structures and thereby enabling a deeper understanding of cellular functions, interactions, and processes. Conventional optical tomography methods are constrained by a limited illumination scanning range, leading to anisotropic resolution and incomplete imaging of cellular structures. To overcome this problem, we employ a compact multi-core fibre-optic cell rotator system that facilitates precise optical manipulation of cells within a microfluidic chip, achieving full-angle projection tomography with isotropic resolution. Moreover, we demonstrate an AI-driven tomographic reconstruction workflow, which can be a paradigm shift from conventional computational methods, often demanding manual processing, to a fully autonomous process. The performance of the proposed cell rotation tomography approach is validated through the three-dimensional reconstruction of cell phantoms and HL60 human cancer cells. The versatility of this learning-based tomographic reconstruction workflow paves the way for its broad application across diverse tomographic imaging modalities, including but not limited to flow cytometry tomography and acoustic rotation tomography. Therefore, this AI-driven approach can propel advancements in cell biology, aiding in the inception of pioneering therapeutics, and augmenting early-stage cancer diagnostics.
翻訳日:2023-12-14 18:01:06 公開日:2023-12-12
# トレーニング済みユニバーサル医用画像変換器

Pre-trained Universal Medical Image Transformer ( http://arxiv.org/abs/2312.07630v1 )

ライセンス: Link先を確認
Lingxiao Luo, Xuanzhong Chen, Bingda Tang, Xinsheng Chen, Chengpeng Hu, Yujiang Li, Rong Han, Ting Chen(参考訳) 自己教師付き学習は,医療画像解析におけるラベル付きデータ不足の課題に対処するために,ラベル付き医療画像データの豊富さを活用するための有効な方法として登場した。 特に、視覚トークン再構成を伴うマスク画像モデリング(mim)は、一般コンピュータビジョン(cv)領域において有望な結果を示し、医用画像解析の候補となっている。 しかし、異種な2dおよび3d医療画像の存在は、単一のモデル構造に効果的に使用できるトレーニングデータの量と多様性を制限することが多い。 本研究では,入力画像のボクセル間隔に基づいて畳み込みパラメータを適応的に調整する空間適応畳み込み(sac)モジュールを提案する。 このSACモジュールを用いることで、様々な画像モダリティと空間特性を用いて、幅広い医療画像を効果的に処理できるユニバーサルビジュアルトークンライザとユニバーサルビジョントランスフォーマー(ViT)を構築する。 さらに、MIMに対する視覚トークン化者の再構成目標の堅牢性を高めるため、視覚トークン化者の離散トークン出力を確率的ソフトトークンに一般化することを提案する。 一般化されたソフトトークン表現は, 構成的解釈により, 事前分布正規化と効果的に統合できることを示す。 その結果、55の公開医用画像データセットで、900万枚以上の2Dスライス(48,000枚以上の3D画像を含む)からなる視覚トークン再構成により、ユニバーサルな視覚トークン化装置を事前訓練した。 これは、私たちの知識に3D医療画像モデルを事前訓練するための、最大で、最も包括的で多様なデータセットである。 下流の医用画像分類とセグメンテーションタスクの実験結果から, モデルの性能が向上し, ラベル効率が向上した。

Self-supervised learning has emerged as a viable method to leverage the abundance of unlabeled medical imaging data, addressing the challenge of labeled data scarcity in medical image analysis. In particular, masked image modeling (MIM) with visual token reconstruction has shown promising results in the general computer vision (CV) domain and serves as a candidate for medical image analysis. However, the presence of heterogeneous 2D and 3D medical images often limits the volume and diversity of training data that can be effectively used for a single model structure. In this work, we propose a spatially adaptive convolution (SAC) module, which adaptively adjusts convolution parameters based on the voxel spacing of the input images. Employing this SAC module, we build a universal visual tokenizer and a universal Vision Transformer (ViT) capable of effectively processing a wide range of medical images with various imaging modalities and spatial properties. Moreover, in order to enhance the robustness of the visual tokenizer's reconstruction objective for MIM, we suggest to generalize the discrete token output of the visual tokenizer to a probabilistic soft token. We show that the generalized soft token representation can be effectively integrated with the prior distribution regularization through a constructive interpretation. As a result, we pre-train a universal visual tokenizer followed by a universal ViT via visual token reconstruction on 55 public medical image datasets, comprising over 9 million 2D slices (including over 48,000 3D images). This represents the largest, most comprehensive, and diverse dataset for pre-training 3D medical image models to our knowledge. Experimental results on downstream medical image classification and segmentation tasks demonstrate the superior performance of our model and improved label efficiency.
翻訳日:2023-12-14 18:00:42 公開日:2023-12-12
# マルチモーダル・センティメント分析 : 知覚と誘発センティメント

Multimodal Sentiment Analysis: Perceived vs Induced Sentiments ( http://arxiv.org/abs/2312.07627v1 )

ライセンス: Link先を確認
Aditi Aggarwal, Deepika Varshney, Saurabh Patel(参考訳) ソーシャルメディアは、人びとが大量の情報にアクセスし、交換できるグローバルなネットワークを作った。 この情報は、ポジティブな視点とネガティブな視点の両方を反映して、様々な意見を生み出します。 GIFは、視覚的に魅力的なコミュニケーション方法を提供するマルチメディアフォーマットとして際立っている。 本研究では,視覚的特徴とテキスト的特徴を統合し,GIFの感情を予測するマルチモーダルフレームワークを提案する。 また、顔の感情検出やOCR生成キャプションなどの属性を取り入れ、GIFのセマンティックな側面をキャプチャする。 開発された分類器は、TwitterのGIFで82.7%の精度を実現している。 さらに、本研究では、著者の知覚する感情のばらつきと読者の感情を分析し、リアクションGIFデータセットに基づく調査を行った。

Social media has created a global network where people can easily access and exchange vast information. This information gives rise to a variety of opinions, reflecting both positive and negative viewpoints. GIFs stand out as a multimedia format offering a visually engaging way for users to communicate. In this research, we propose a multimodal framework that integrates visual and textual features to predict the GIF sentiment. It also incorporates attributes including face emotion detection and OCR generated captions to capture the semantic aspects of the GIF. The developed classifier achieves an accuracy of 82.7% on Twitter GIFs, which is an improvement over state-of-the-art models. Moreover, we have based our research on the ReactionGIF dataset, analysing the variance in sentiment perceived by the author and sentiment induced in the reader
翻訳日:2023-12-14 18:00:10 公開日:2023-12-12
# 大規模言語モデリングのためのスパイキングニューラルネットワークのアストロサイト拡張

Astrocyte-Enabled Advancements in Spiking Neural Networks for Large Language Modeling ( http://arxiv.org/abs/2312.07625v1 )

ライセンス: Link先を確認
Guobin Shen, Dongcheng Zhao, Yiting Dong, Yang Li, Jindong Li, Yi Zeng(参考訳) 脳の複雑な神経構造の中で、アストロサイトは発達、構造、代謝において重要な役割を果たす。 これらの細胞は三成分シナプスを介して神経活動を調節し、学習や記憶などの認知過程に直接影響を与える。 アストロサイトの重要性の認識が高まりつつあるにもかかわらず、従来のスパイキングニューラルネットワーク(SNN)モデルは主に神経細胞中心であり、アストロサイトが神経力学に深く影響していることを見越す。 これらの生物学的知見に触発されて、我々は神経細胞-星細胞相互作用を計算パラダイムに統合する革新的なフレームワークであるアストロサイト修飾スパイキングユニット(am-su)を開発した。 astrocyte-modulated spiking neural network (am-snet) は記憶保持と自然言語生成、特に長期依存と複雑な言語構造を扱うタスクにおいて非常に優れた性能を示す。 AM-SNetの設計は生物学的信頼性を高めるだけでなく、新しい計算力学を導入し、複雑な時間依存のより効率的な処理を可能にしている。 さらに、AM-SNetは低レイテンシ、高スループット、実用的なアプリケーションでのメモリ使用量の削減を示し、リソース制約のある環境に非常に適している。 我々の研究は、知的ニューラルネットワークに天体力学をうまく統合することで、生物学的可視性とニューラルモデリングのギャップを狭め、神経細胞とアストロサイトの両方を含む未来の生物学的にインスパイアされたニューラルコンピューティング研究の基盤となる。

Within the complex neuroarchitecture of the brain, astrocytes play crucial roles in development, structure, and metabolism. These cells regulate neural activity through tripartite synapses, directly impacting cognitive processes such as learning and memory. Despite the growing recognition of astrocytes' significance, traditional Spiking Neural Network (SNN) models remain predominantly neuron-centric, overlooking the profound influence of astrocytes on neural dynamics. Inspired by these biological insights, we have developed an Astrocyte-Modulated Spiking Unit (AM-SU), an innovative framework that integrates neuron-astrocyte interactions into the computational paradigm, demonstrating wide applicability across various hardware platforms. Our Astrocyte-Modulated Spiking Neural Network (AM-SNet) exhibits exceptional performance in tasks involving memory retention and natural language generation, particularly in handling long-term dependencies and complex linguistic structures. The design of AM-SNet not only enhances its biological authenticity but also introduces novel computational dynamics, enabling more effective processing of complex temporal dependencies. Furthermore, AM-SNet shows low latency, high throughput, and reduced memory usage in practical applications, making it highly suitable for resource-constrained environments. By successfully integrating astrocytic dynamics into intelligent neural networks, our work narrows the gap between biological plausibility and neural modeling, laying the groundwork for future biologically-inspired neural computing research that includes both neurons and astrocytes.
翻訳日:2023-12-14 17:59:56 公開日:2023-12-12
# 上部信頼境界を用いた適応的近接政策最適化

Adaptive Proximal Policy Optimization with Upper Confidence Bound ( http://arxiv.org/abs/2312.07624v1 )

ライセンス: Link先を確認
Ziqi Zhang, Jingzehua Xu, Zifeng Zhuang, Jinxin Liu, Donglin wang(参考訳) 信頼地域政策最適化(TRPO)は、信頼領域内の新政策の更新を制約し、安定性と単調な最適化を確保するとともに、政策を魅力的に最適化する。 信頼領域最適化の理論的保証に基づいて、PPO(Proximal Policy Optimization)はアルゴリズムのサンプリング効率を向上し、サロゲート信頼領域内の新旧ポリシーの更新を精査することで、デプロイメントの複雑さを低減する。 しかし、この手法は、サロゲート信頼領域の固定設定によって制限されており、最適クリッピング境界がトレーニングプロセス全体を通して一定であることの理論的証明がないため、サロゲート信頼領域内の新旧ポリシーの比率をトラストすることで、アルゴリズムが最高の性能を達成することを保証できるため、PPOの性能を改善するための動的クリップ境界の探索と研究は極めて有益である。 適応的なクリップ付き信頼領域を設計し,動的クリップバウンドがPPOの性能に与える影響を探索するために,オンライントレーニングプロセス中にバンディットを用いて動的にクリップバウンドを探索・活用する適応型PPO-CLIP(Adaptive-PPO)手法を提案する。 さらに,我々のAdaptive-PPOはPPO-CLIPと比較して,サンプル効率と性能を示すことを示す。

Trust Region Policy Optimization (TRPO) attractively optimizes the policy while constraining the update of the new policy within a trust region, ensuring the stability and monotonic optimization. Building on the theoretical guarantees of trust region optimization, Proximal Policy Optimization (PPO) successfully enhances the algorithm's sample efficiency and reduces deployment complexity by confining the update of the new and old policies within a surrogate trust region. However, this approach is limited by the fixed setting of surrogate trust region and is not sufficiently adaptive, because there is no theoretical proof that the optimal clipping bound remains consistent throughout the entire training process, truncating the ratio of the new and old policies within surrogate trust region can ensure that the algorithm achieves its best performance, therefore, exploring and researching a dynamic clip bound for improving PPO's performance can be quite beneficial. To design an adaptive clipped trust region and explore the dynamic clip bound's impact on the performance of PPO, we introduce an adaptive PPO-CLIP (Adaptive-PPO) method that dynamically explores and exploits the clip bound using a bandit during the online training process. Furthermore, ample experiments will initially demonstrate that our Adaptive-PPO exhibits sample efficiency and performance compared to PPO-CLIP.
翻訳日:2023-12-14 17:59:29 公開日:2023-12-12
# 数学的言語モデル:サーベイ

Mathematical Language Models: A Survey ( http://arxiv.org/abs/2312.07622v1 )

ライセンス: Link先を確認
Wentao Liu, Hanglei Hu, Jie Zhou, Yuyang Ding, Junsong Li, Jiayi Zeng, Mengliang He, Qin Chen, Bo Jiang, Aimin Zhou and Liang He(参考訳) 近年,Language Models (LM) の活用が目覚ましい進歩を遂げており,数学分野においてPLM (Pre-trained Language Models) とLLM (Large-scale Language Models) を包含している。 本稿では,2つの異なる視点 – タスクと方法論 – から重要な研究成果を体系的に分類する,数学的 LM の総合的な調査を行う。 ランドスケープでは、多くの数学的LLMが提案されており、さらに命令学習、ツールベースの手法、基本的なCoT技術、高度なCoT方法論に展開されている。 さらに,トレーニングデータセット,ベンチマークデータセット,拡張データセットなど,60以上の数学的データセットのコンパイルも行った。 この調査は、数学のlms分野における主要な課題と将来の軌跡を整理し、この領域の発展に投資した研究者の間で将来のイノベーションを促進・促進するための貴重な資源として位置づけられている。

In recent years, there has been remarkable progress in leveraging Language Models (LMs), encompassing Pre-trained Language Models (PLMs) and Large-scale Language Models (LLMs), within the domain of mathematics. This paper conducts a comprehensive survey of mathematical LMs, systematically categorizing pivotal research endeavors from two distinct perspectives: tasks and methodologies. The landscape reveals a large number of proposed mathematical LLMs, which are further delineated into instruction learning, tool-based methods, fundamental CoT techniques, and advanced CoT methodologies. In addition, our survey entails the compilation of over 60 mathematical datasets, including training datasets, benchmark datasets, and augmented datasets. Addressing the primary challenges and delineating future trajectories within the field of mathematical LMs, this survey is positioned as a valuable resource, poised to facilitate and inspire future innovation among researchers invested in advancing this domain.
翻訳日:2023-12-14 17:59:00 公開日:2023-12-12
# 脳最適化推論はfMRI脳活動の再構築を改善する

Brain-optimized inference improves reconstructions of fMRI brain activity ( http://arxiv.org/abs/2312.07705v1 )

ライセンス: Link先を確認
Reese Kneeland, Jordyn Ojeda, Ghislain St-Yves, Thomas Naselaris(参考訳) AIでの大きなデータセットと開発がリリースされ、人間の脳活動から見えるイメージを再構成するデコード手法が劇的に改善された。 本研究では,推定中の再構成と脳活動の整合性を最適化することにより,最近の復号法をさらに改善する可能性を評価する。 画像から脳活動をマッピングする脳最適化符号化モデルを用いて, 基本復号法からシード再構成をサンプリングし, 繰り返し改良した。 各イテレーションで、前回のイテレーションからシード再構築を条件とした画像分散(拡散モデル)から小さな画像ライブラリをサンプリングする。 エンコーディングモデルを通して計測された脳活動に最も近いものを選び、これらの画像を用いて、次のイテレーションで小さなライブラリの生成中に構造的指導を行う。 各イテレーションにおける画像分布の確率性を低減し、画像分布の「幅」の基準が満たされた場合に停止する。 このプロセスが最近の復号法に適用された場合、人間のレーダによって測定された基本復号法、様々な画像特徴量、脳活動のアライメントに優れることを示す。 これらの結果から,最先端のデコードアルゴリズムからシード復元が出力された場合でも,デコード分布と脳活動分布を明示的に一致させることにより,復元品質が著しく向上することが示された。 興味深いことに、精細化の速度は視覚野全体で系統的に異なり、より初期の視覚領域はより緩やかに収束し、より高レベルの脳領域よりも狭い画像分布を好む。 このように、脳最適化推論は、再構成を改善し、視覚脳領域にまたがる表現の多様性を探求するための簡潔で新しい方法を提供する。

The release of large datasets and developments in AI have led to dramatic improvements in decoding methods that reconstruct seen images from human brain activity. We evaluate the prospect of further improving recent decoding methods by optimizing for consistency between reconstructions and brain activity during inference. We sample seed reconstructions from a base decoding method, then iteratively refine these reconstructions using a brain-optimized encoding model that maps images to brain activity. At each iteration, we sample a small library of images from an image distribution (a diffusion model) conditioned on a seed reconstruction from the previous iteration. We select those that best approximate the measured brain activity when passed through our encoding model, and use these images for structural guidance during the generation of the small library in the next iteration. We reduce the stochasticity of the image distribution at each iteration, and stop when a criterion on the "width" of the image distribution is met. We show that when this process is applied to recent decoding methods, it outperforms the base decoding method as measured by human raters, a variety of image feature metrics, and alignment to brain activity. These results demonstrate that reconstruction quality can be significantly improved by explicitly aligning decoding distributions to brain activity distributions, even when the seed reconstruction is output from a state-of-the-art decoding algorithm. Interestingly, the rate of refinement varies systematically across visual cortex, with earlier visual areas generally converging more slowly and preferring narrower image distributions, relative to higher-level brain areas. Brain-optimized inference thus offers a succinct and novel method for improving reconstructions and exploring the diversity of representations across visual brain areas.
翻訳日:2023-12-14 17:50:24 公開日:2023-12-12
# ラベル不足状況に対するドリフト検出を伴うオンライン・適応・教師なし回帰フレームワーク

An Online, Adaptive and Unsupervised Regression Framework with Drift Detection for Label Scarcity Contexts ( http://arxiv.org/abs/2312.07682v1 )

ライセンス: Link先を確認
Rene Richard and Nabil Belacel(参考訳) リアルタイムラベルの取得が困難である場合、従来の手法では、サブ最適性能が得られる。 本稿では,制限付きラベル付きデータを用いたストリーミング環境の最適戦略を提案し,教師なし回帰のための適応手法を提案する。 提案手法は,初期ラベルのスパースセットを活用し,データの進化パターンに応答して動的モデル適応を可能にする,革新的なドリフト検出機構を導入する。 適応性を高めるために,Adaptive WINdowingアルゴリズムとRoot Mean Square Error (RMSE)に基づく誤り一般化アルゴリズムを統合する。 ADWINはリアルタイムドリフト検出を容易にし、RMSEはモデル予測精度のロバストな測度を提供する。 この組み合わせにより,ストリーミングデータの課題を効果的にナビゲートし,高い予測精度を維持しつつ,変化パターンに継続的に適応することができる。 最後に、多変量法の性能を様々な公開データセットで評価し、適応しないベースラインと比較する。 包括的評価を通じて,リアルタイムラベル取得が重要な課題であるタスクに対して,適応回帰手法の優れた効果を示す。 その結果、従来のアプローチを上回り、ラベルの不足と進化するデータパターンを特徴とするシナリオにおいて、その可能性を強調した。

In scenarios where obtaining real-time labels proves challenging, conventional approaches may result in sub-optimal performance. This paper presents an optimal strategy for streaming contexts with limited labeled data, introducing an adaptive technique for unsupervised regression. The proposed method leverages a sparse set of initial labels and introduces an innovative drift detection mechanism to enable dynamic model adaptations in response to evolving patterns in the data. To enhance adaptability, we integrate the ADWIN (ADaptive WINdowing) algorithm with error generalization based on Root Mean Square Error (RMSE). ADWIN facilitates real-time drift detection, while RMSE provides a robust measure of model prediction accuracy. This combination enables our multivariate method to effectively navigate the challenges of streaming data, continuously adapting to changing patterns while maintaining a high level of predictive precision. Finally, we evaluate the performance of our multivariate method across various public datasets, comparing it to non-adapting baselines. Through comprehensive assessments, we demonstrate the superior efficacy of our adaptive regression technique for tasks where obtaining labels in real-time is a significant challenge. The results underscore the method's capacity to outperform traditional approaches and highlight its potential in scenarios characterized by label scarcity and evolving data patterns.
翻訳日:2023-12-14 17:49:57 公開日:2023-12-12
# I Open at the Close: A Deep Reinforcement Learning Evaluation of Open Streets Initiatives

I Open at the Close: A Deep Reinforcement Learning Evaluation of Open Streets Initiatives ( http://arxiv.org/abs/2312.07680v1 )

ライセンス: Link先を確認
R. Teal Witter, Lucas Rosenblatt(参考訳) オープンストリートイニシアチブは、歩行者や自転車に道路を「開放」し、車やトラックに閉鎖する。 このイニシアチブは北米の多くの都市で採用されており、都市環境におけるコミュニティ空間を拡大している。 しかし、オープンストリートは都市を安全で混雑の少ないものにするのだろうか? 我々は,この課題を強化学習問題として,どの街路が開いているのかを考察する。 道路開放の影響をシミュレートするために,まず,ネットワークと時間データを用いた車両衝突予測モデルを比較した。 グラフ構造とデータの短期的時間的依存性を活かしたリカレントグラフニューラルネットワークは,最適な予測性能を与える。 そして、衝突や交通をシミュレートする能力により、強化学習問題をフレーム化し、どの通りが開いているかを見つける。 ニューヨーク市オープンストリートプログラムの街路をqラーニングアルゴリズムによって提案された街路と比較する。 Q-ラーニングアルゴリズムによって提案された道路は確実に良い結果が得られるのに対し、プログラムの街路はランダムに選択された通りと同じような結果が得られる。 我々は、安全で混雑の少ない都市のためにどの道路を開かを選ぶためのステップとして、我々の仕事を提示する。 すべてのコードとデータはgithubから入手できます。

The open streets initiative "opens" streets to pedestrians and bicyclists by closing them to cars and trucks. The initiative, adopted by many cities across North America, increases community space in urban environments. But could open streets also make cities safer and less congested? We study this question by framing the choice of which streets to open as a reinforcement learning problem. In order to simulate the impact of opening streets, we first compare models for predicting vehicle collisions given network and temporal data. We find that a recurrent graph neural network, leveraging the graph structure and the short-term temporal dependence of the data, gives the best predictive performance. Then, with the ability to simulate collisions and traffic, we frame a reinforcement learning problem to find which streets to open. We compare the streets in the NYC Open Streets program to those proposed by a Q-learning algorithm. We find that the streets proposed by the Q-learning algorithm have reliably better outcomes, while streets in the program have similar outcomes to randomly selected streets. We present our work as a step toward principally choosing which streets to open for safer and less congested cities. All our code and data are available on Github.
翻訳日:2023-12-14 17:49:35 公開日:2023-12-12
# コンセンサス予測のためのベイズオンライン学習

Bayesian Online Learning for Consensus Prediction ( http://arxiv.org/abs/2312.07679v1 )

ライセンス: Link先を確認
Sam Showalter, Alex Boyd, Padhraic Smyth, Mark Steyvers(参考訳) 事前訓練された分類器と複数の人的専門家が与えられた場合、モデル予測を無償で提供するオンライン分類の課題について検討する。 この実用的で未熟な環境では、oracleの根拠真理は利用できない。 代わりに、予測対象はすべての専門家の合意投票として定義される。 クエリフルコンセンサスにコストがかかることを考慮し,多変量超幾何分布の特性を利用したオンラインベイズコンセンサス推定のための一般的なフレームワークを提案する。 この枠組みに基づいて,専門家の信念とモデル信念を後から生成することで,部分的なフィードバックから専門家のコンセンサスを動的に推定する手法群を提案する。 この後部分析はクエリコストと分類性能の間の解釈可能なトレードオフを引き起こす。 CIFAR-10HとImageNet-16Hの大規模クラウドソースデータセットに対するフレームワークの有効性を示す。

Given a pre-trained classifier and multiple human experts, we investigate the task of online classification where model predictions are provided for free but querying humans incurs a cost. In this practical but under-explored setting, oracle ground truth is not available. Instead, the prediction target is defined as the consensus vote of all experts. Given that querying full consensus can be costly, we propose a general framework for online Bayesian consensus estimation, leveraging properties of the multivariate hypergeometric distribution. Based on this framework, we propose a family of methods that dynamically estimate expert consensus from partial feedback by producing a posterior over expert and model beliefs. Analyzing this posterior induces an interpretable trade-off between querying cost and classification performance. We demonstrate the efficacy of our framework against a variety of baselines on CIFAR-10H and ImageNet-16H, two large-scale crowdsourced datasets.
翻訳日:2023-12-14 17:49:15 公開日:2023-12-12
# 高次ネットワーク解析のための量子コンピュータの位相信号処理

Topological Signal Processing on Quantum Computers for Higher-Order Network Analysis ( http://arxiv.org/abs/2312.07672v1 )

ライセンス: Link先を確認
Caesnan M. G. Leditto, Angus Southwell, Behnam Tonekaboni, Gregory A. L. White, Muhammad Usman, Kavan Modi(参考訳) 複雑なシステムのグローバルな振る舞いの予測と解析は、コンポーネントインタラクションの複雑な性質のために難しい。 最近の研究は、高次ネットワークとして知られるノード間のマルチウェイ相互作用を持つネットワークを用いて複雑なシステムをモデル化し始めた。 この文脈において、単純複体(simplicial complex)は、その位相構造とホッジ理論との関係により大きな注目を集めた高次ネットワークのクラスである。 トポロジカル信号処理はこれらの接続を利用して、単純錯体のような非ユークリッド領域で定義された信号を分析し、操作する。 本研究では,フィルタ処理をTSPに実装する汎用量子アルゴリズムを提案し,そのHodge分解に基づくネットワークデータの抽出への応用について述べる。 我々は,近年の量子アルゴリズムで導入された既存ツールをトポロジカルデータ解析に活用し,量子特異値変換フレームワークを用いたスペクトルフィルタリング手法と組み合わせる。 本論文は概念実証として機能するが, tspフィルタリングプロセスにおいてよく知られた古典的アルゴリズムを超多項的に改善し, 量子状態からデータを符号化・検索することに関して重要な注意点を明らかにした。 提案アルゴリズムは, 量子トポロジカルデータ解析から高次元複雑系解析への新たな応用まで, ツールの適用性を一般化する。

Predicting and analyzing global behaviour of complex systems is challenging due to the intricate nature of their component interactions. Recent work has started modelling complex systems using networks endowed with multiway interactions among nodes, known as higher-order networks. In this context, simplicial complexes are a class of higher-order networks that have received significant attention due to their topological structure and connections to Hodge theory. Topological signal processing utilizes these connections to analyze and manipulate signals defined on non-Euclidean domains such as simplicial complexes. In this work, we present a general quantum algorithm for implementing filtering processes in TSP and describe its application to extracting network data based on the Hodge decomposition. We leverage pre-existing tools introduced in recent quantum algorithms for topological data analysis and combine them with spectral filtering techniques using the quantum singular value transformation framework. While this paper serves as a proof-of-concept, we obtain a super-polynomial improvement over the best known classical algorithms for TSP filtering processes, modulo some important caveats about encoding and retrieving the data from a quantum state. The proposed algorithm generalizes the applicability of tools from quantum topological data analysis to novel applications in analyzing high-dimensional complex systems.
翻訳日:2023-12-14 17:49:00 公開日:2023-12-12
# 人間のように反応する:音による社会性向上による内在的人間行動のNAOへの取り込み

Reacting like Humans: Incorporating Intrinsic Human Behaviors into NAO through Sound-Based Reactions for Enhanced Sociability ( http://arxiv.org/abs/2312.07671v1 )

ライセンス: Link先を確認
Ali Ghadami, Mohammadreza Taghimohammadi, Mohammad Mohammadzadeh, Mohammad Hosseinipour, Alireza Taheri(参考訳) ロボットの人間に対する受容性と社会性は、人間のような反応を取り入れることで著しく向上することができる。 人間は考えずに、環境イベントに素早く反応できる。 人間が自然反応を見せる例は、突然大きな音に遭遇し、彼らを驚かせたり怖がらせたりする。 そのような瞬間の間、個人は本能的に手を動かし、音の起源に向かって向きを変え、出来事の原因を判断しようとする。 この固有の行動は、この研究の少ない社会ロボティクスを探求する動機となった。 本研究では, 動作発生器, 音響分類器, YOLOオブジェクト検出器から構成されるマルチモーダルシステムを用いて, 環境を感知し, 突然の音の存在下, 自然の人間の恐怖反応を示し, そして, 環境中の恐怖を感知する音源を特定する。 これらのユニークで有効な動きと推論は、人間の内在的な反応を模倣し、ロボットの社交性を高める。 動作生成のために,LSTMとMDNネットワークに基づくモデルを提案し,様々な動作を合成した。 また,音響検出の場合,音響信号のスペクトログラムを入力とした伝達学習モデルが好まれる。 音響検出、モーション生成、画像認識の個別モデルを開発した後、NAOロボットに実装された総合的な恐怖モジュールに統合された。 最後に、この恐怖モジュールを実用的にテストし、専門家と非専門家の2つのグループが、ロボットの性能を評価するためのアンケートに答えた。 われわれの期待する結果を踏まえて、この予備的な探索研究は、社会ロボティクスに新たな視点を与え、ロボットに固有の人間の行動や感情をモデル化するための出発点となるかもしれない。

Robots' acceptability among humans and their sociability can be significantly enhanced by incorporating human-like reactions. Humans can react to environmental events very quickly and without thinking. An instance where humans display natural reactions is when they encounter a sudden and loud sound that startles or frightens them. During such moments, individuals may instinctively move their hands, turn toward the origin of the sound, and try to determine the event's cause. This inherent behavior motivated us to explore this less-studied part of social robotics. In this work, a multi-modal system composed of an action generator, sound classifier, and YOLO object detector was designed to sense the environment and, in the presence of sudden loud sounds, show natural human fear reactions, and finally, locate the fear-causing sound source in the environment. These unique and valid generated motions and inferences could imitate intrinsic human reactions and enhance the sociability of robots. For motion generation, a model based on LSTM and MDN networks was proposed to synthesize various motions. Also, in the case of sound detection, a transfer learning model was preferred that used the spectrogram of sound signals as its input. After developing individual models for sound detection, motion generation, and image recognition, they were integrated into a comprehensive fear module that was implemented on the NAO robot. Finally, the fear module was tested in practical application and two groups of experts and non-experts filled out a questionnaire to evaluate the performance of the robot. Given our promising results, this preliminary exploratory research provides a fresh perspective on social robotics and could be a starting point for modeling intrinsic human behaviors and emotions in robots.
翻訳日:2023-12-14 17:48:38 公開日:2023-12-12
# GMTalker:ガウシアンミキチャーをベースとした感情会話ビデオPortraits

GMTalker: Gaussian Mixture based Emotional talking video Portraits ( http://arxiv.org/abs/2312.07669v1 )

ライセンス: Link先を確認
Yibo Xia, Lizhen Wang, Xiang Deng, Xiaoyan Luo and Yebin Liu(参考訳) 音声-リップ同期、鮮明な表現、リアルな頭ポーズ、目まきといった高忠実で感情制御可能な音声映像の合成は、近年重要かつ困難な課題となっている。 既存の手法のほとんどは、パーソナライズされた正確な感情制御を達成するか、異なる感情間で継続的に補間し、多様な動きを生み出す。 これらの問題に対処するために,ガウス混合型感情的音声像生成フレームワークであるGMTalkerを提案する。 具体的には,連続的かつマルチモーダルな潜在空間を構築し,より柔軟な感情操作を実現するガウス混合型表現生成器(gmeg)を提案する。 さらに,多様な動きを生成するために,広範囲な動きを持つデータセット上で事前訓練された正規化フローベースモーションジェネレータを導入する。 最後に,感情マッピングネットワーク(emn)を備えた個人化された感情誘導型ヘッドジェネレータを提案する。 定量的・質的実験により,従来の画像品質,フォトリアリズム,感情の正確性,動きの多様性に勝ることを示す。

Synthesizing high-fidelity and emotion-controllable talking video portraits, with audio-lip sync, vivid expression, realistic head pose, and eye blink, is an important and challenging task in recent years. Most of the existing methods suffer in achieving personalized precise emotion control or continuously interpolating between different emotions and generating diverse motion. To address these problems, we present GMTalker, a Gaussian mixture based emotional talking portraits generation framework. Specifically, we propose a Gaussian Mixture based Expression Generator (GMEG) which can construct a continuous and multi-modal latent space, achieving more flexible emotion manipulation. Furthermore, we introduce a normalizing flow based motion generator pretrained on the dataset with a wide-range motion to generate diverse motions. Finally, we propose a personalized emotion-guided head generator with an Emotion Mapping Network (EMN) which can synthesize high-fidelity and faithful emotional video portraits. Both quantitative and qualitative experiments demonstrate our method outperforms previous methods in image quality, photo-realism, emotion accuracy and motion diversity.
翻訳日:2023-12-14 17:48:07 公開日:2023-12-12
# 2次元導波路QEDにおける強い相互作用光子

Strongly interacting photons in 2D waveguide QED ( http://arxiv.org/abs/2312.07668v1 )

ライセンス: Link先を確認
Matija Te\v{c}er, Marco Di Liberto, Pietro Silvi, Simone Montangero, Filippo Romanato and Giuseppe Calaj\`o(参考訳) 導波管量子力学(QED)の1次元閉じ込めは、光-物質相互作用を高め、強い量子非線形光学応答を誘導するために重要な役割を果たす。 2次元以上の環境では、光子がより大きな位相空間内で放出されるため、この応答は減少し、強い光子-光子相互作用がまだ達成できるかどうかに疑問が持たれる。 本研究では,2次元導波路に閉じ込められた光に結合した2次元正方形原子配列の場合,この疑問に正の答えを与える。 より具体的には、真の2次元特徴を持つ長寿命2光子反発性および有界状態の発生を実証する。 さらに、これらの効果のシグネチャは、自由空間原子配列でも弱いサブラジアンのバンド内散乱共鳴の形で観測される。 本研究は2次元導波路QEDにおける強い光子-光子相互作用の存在をパラダイム的に示すものである。

One dimensional confinement in waveguide Quantum Electrodynamics (QED) plays a crucial role to enhance light-matter interactions and to induce a strong quantum nonlinear optical response. In two or higher dimensional settings, this response is reduced since photons can be emitted within a larger phase space, opening the question whether strong photon-photon interaction can be still achieved. In this study, we positively answer this question for the case of a 2D square array of atoms coupled to the light confined into a two-dimensional waveguide. More specifically, we demonstrate the occurrence of long-lived two-photon repulsive and bound states with genuine 2D features. Furthermore, we observe signatures of these effects also in free-space atomic arrays in the form of weakly-subradiant in-band scattering resonances. Our findings provide a paradigmatic signature of the presence of strong photon-photon interactions in 2D waveguide QED.
翻訳日:2023-12-14 17:47:46 公開日:2023-12-12
# clip as rnn: トレーニングの努力なしに無数のビジュアルコンセプトをセグメント化する

CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor ( http://arxiv.org/abs/2312.07661v1 )

ライセンス: Link先を確認
Shuyang Sun, Runjia Li, Philip Torr, Xiuye Gu, Siyang Li(参考訳) 既存のopen-vocabulary image segmentationメソッドは、マスクアノテーションと/または画像テキストデータセットの微調整ステップを必要とする。 マスクラベルは労働集約的であり、セグメンテーションデータセットのカテゴリ数を制限する。 その結果、訓練済みVLMの開語彙能力は微調整後に著しく低下する。 しかし、微調整なしでは、画像に存在しない概念を参照するテキストクエリがある場合、VLMは画像テキストの監督が弱いため、最適でないマスク予測を行う傾向にある。 これらの問題を緩和するために,無関係なテキストを段階的にフィルタリングし,トレーニングを伴わずにマスク品質を向上させる新しい繰り返しフレームワークを導入する。 リカレントユニットは、凍結重量のVLM上に作られた2段セグメンタである。 したがって、本モデルはvlmの幅広い語彙空間を維持し、そのセグメンテーション能力を強化する。 実験結果から,本手法はトレーニング不要なデータだけでなく,何百万ものデータサンプルを微調整し,ゼロショットセマンティックタスクと参照画像セグメンテーションタスクの両方に新たな最先端記録を設定する。 具体的には,Pascal VOC,COCO Object,Pascal Contextの28.8,16.0,6.9mIoUを改良した。

Existing open-vocabulary image segmentation methods require a fine-tuning step on mask annotations and/or image-text datasets. Mask labels are labor-intensive, which limits the number of categories in segmentation datasets. As a result, the open-vocabulary capacity of pre-trained VLMs is severely reduced after fine-tuning. However, without fine-tuning, VLMs trained under weak image-text supervision tend to make suboptimal mask predictions when there are text queries referring to non-existing concepts in the image. To alleviate these issues, we introduce a novel recurrent framework that progressively filters out irrelevant texts and enhances mask quality without training efforts. The recurrent unit is a two-stage segmenter built upon a VLM with frozen weights. Thus, our model retains the VLM's broad vocabulary space and strengthens its segmentation capability. Experimental results show that our method outperforms not only the training-free counterparts, but also those fine-tuned with millions of additional data samples, and sets new state-of-the-art records for both zero-shot semantic and referring image segmentation tasks. Specifically, we improve the current record by 28.8, 16.0, and 6.9 mIoU on Pascal VOC, COCO Object, and Pascal Context.
翻訳日:2023-12-14 17:47:33 公開日:2023-12-12
# 量子スピンダイナミクスの硬さ

The hardness of quantum spin dynamics ( http://arxiv.org/abs/2312.07658v1 )

ライセンス: Link先を確認
Chae-Yeun Park, Pablo A. M. Casares, Juan Miguel Arrazola, and Joonsuk Huh(参考訳) 最近の実験は、ランダム回路サンプリングとガウスボソンサンプリングにおける量子計算の利点を示した。 しかし、これらの実験がかなりの研究努力の後にも実用化できるかどうかは不明である。 一方、相互作用するスピンの量子コヒーレントダイナミクスをシミュレートすることは、量子コンピュータの最初の有用な応用であると考えられており、量子の優位性が期待できる。 何百もの相互作用するスピンのダイナミクスをシミュレートする証拠は、古典的コンピュータでは難しいが、具体的な証明はまだ現れていない。 我々は、量子スピンハミルトニアンの幅広いクラスが生成する出力分布からのサンプリングが、古典コンピュータにとって難しい問題であることを証明して、この問題に対処する。 この証明は、2部スピン相互作用を考慮したときの係数として行列の永久性を含む出力確率のテイラー級数に基づいている。 出力確率を推定するオラクルを用いて係数を抽出する古典的アルゴリズムを考案する。 恒久的な計算は#P-ハードであるため、多項式階層が崩壊しない限り、そのようなオラクルは存在しない。 反濃縮予想では、サンプリングタスクの硬さも証明される。 本稿では,200本のスピンを含む場合,従来のデバイスでは困難だが,フォールトトレラント量子ビットを持つ中間スケールの量子コンピュータでは実現可能であると推定する。

Recent experiments demonstrated quantum computational advantage in random circuit sampling and Gaussian boson sampling. However, it is unclear whether these experiments can lead to practical applications even after considerable research effort. On the other hand, simulating the quantum coherent dynamics of interacting spins has been considered as a potential first useful application of quantum computers, providing a possible quantum advantage. Despite evidence that simulating the dynamics of hundreds of interacting spins is challenging for classical computers, concrete proof is yet to emerge. We address this problem by proving that sampling from the output distribution generated by a wide class of quantum spin Hamiltonians is a hard problem for classical computers. Our proof is based on the Taylor series of the output probability, which contains the permanent of a matrix as a coefficient when bipartite spin interactions are considered. We devise a classical algorithm that extracts the coefficient using an oracle estimating the output probability. Since calculating the permanent is #P-hard, such an oracle does not exist unless the polynomial hierarchy collapses. With an anticoncentration conjecture, the hardness of the sampling task is also proven. Based on our proof, we estimate that an instance involving about 200 spins will be challenging for classical devices but feasible for intermediate-scale quantum computers with fault-tolerant qubits.
翻訳日:2023-12-14 17:47:12 公開日:2023-12-12
# 非局所擬ポテンシャルを用いた第一量子化における現実物質の量子シミュレーション

Quantum Simulation of Realistic Materials in First Quantization Using Non-local Pseudopotentials ( http://arxiv.org/abs/2312.07654v1 )

ライセンス: Link先を確認
Dominic W. Berry, Nicholas C. Rubin, Ahmed O. Elnabawy, Gabriele Ahlers, A. Eugene DePrince III, Joonho Lee, Christian Gogolin, Ryan Babbush(参考訳) 本稿では,Babbush et al.とSu et alによって開発された電子構造の量子シミュレーションにおける最初の量子化平面波アルゴリズムの有用性を改良し,実証する。 疑似ポテンシャルを含む最初の量子化シミュレーションのための最初の量子アルゴリズムについて述べる。 我々は、シミュレーションからコア電子を除去できる最も正確で広く使われているノルム保存擬ポテンシャルの1つであるゴデッカー・テッター・ハッター擬ポテンシャル(GTH)に焦点を当てる。 その結果、スクリーニングされた核ポテンシャルは電子波動関数のカスプを正則化し、化学的に正確に平面波のオーダーを小さくする。 gth擬ポテンシャルの複雑な形式にもかかわらず、量子シミュレーションのコストを大幅に増加させることなく、関連する演算子をブロックすることができる。 核ポテンシャルのシミュレーションは疑似ポテンシャルなしではずっとシンプルだが、まだボトルネックとなっている。 また, 従来の手法を一般化して, 非キュービック単位細胞を用いた材料シミュレーションを可能にする。 最後に,これらの手法を組み合わせることで,不均一触媒(遷移金属への一酸化炭素吸着など)の商用利用におけるブロックエンコーディングコストを推定し,第2量子化における物質シミュレーションに必要な量子資源と比較する。 粒子数の多い計算セルの場合、第一量子化はしばしば有意義に少ない時空体積を必要とする。

This paper improves and demonstrates the usefulness of the first quantized plane-wave algorithms for the quantum simulation of electronic structure, developed by Babbush et al. and Su et al. We describe the first quantum algorithm for first quantized simulation that accurately includes pseudopotentials. We focus on the Goedecker-Tetter-Hutter (GTH) pseudopotential, which is among the most accurate and widely used norm-conserving pseudopotentials enabling the removal of core electrons from the simulation. The resultant screened nuclear potential regularizes cusps in the electronic wavefunction so that orders of magnitude fewer plane waves are required for a chemically accurate basis. Despite the complicated form of the GTH pseudopotential, we are able to block encode the associated operator without significantly increasing the overall cost of quantum simulation. This is surprising since simulating the nuclear potential is much simpler without pseudopotentials, yet is still the bottleneck. We also generalize prior methods to enable the simulation of materials with non-cubic unit cells, which requires nontrivial modifications. Finally, we combine these techniques to estimate the block-encoding costs for commercially relevant instances of heterogeneous catalysis (e.g. carbon monoxide adsorption on transition metals) and compare to the quantum resources needed to simulate materials in second quantization. We conclude that for computational cells with many particles, first quantization often requires meaningfully less spacetime volume.
翻訳日:2023-12-14 17:46:52 公開日:2023-12-12
# 絡み合いエントロピーの共変レギュレータ:ベーケンシュタイン境界とQNECの証明

A covariant regulator for entanglement entropy: proofs of the Bekenstein bound and QNEC ( http://arxiv.org/abs/2312.07646v1 )

ライセンス: Link先を確認
Jonah Kudler-Flam, Samuel Leutheusser, Adel A. Rahman, Gautam Satishchandran, and Antony J. Speranza(参考訳) 量子場理論における部分領域に対するフォン・ノイマンのエントロピーは、普遍的に紫外発散を含むが、フォン・ノイマンのエントロピー間の差は有限であり、多くの物理的関係のあるシナリオにおいてよく定義される。 このようなエントロピー差の概念は、モジュラー交叉積に基づくエントロピーの新しい共変レギュレータを導入することにより、一般曲線時空における場の量子論において厳密に定義できることを示す。 このレギュレータは、タイプ ii von neumann 代数を各時空部分領域に関連付け、よく定義された再正規化エントロピーをもたらす。 本処方は、文献で広く用いられているヒューリスティックな公式と一致するエントロピー差の式を再現し、ユニタリな不変性や凹凸性などの望ましい性質を満たすことを証明した。 応用として、真空置換フォン・ノイマンエントロピーで直接的に定式化されたベッケンシュタイン境界と量子零エネルギー条件の証明を提供する。

While von Neumann entropies for subregions in quantum field theory universally contain ultraviolet divergences, differences between von Neumann entropies are finite and well-defined in many physically relevant scenarios. We demonstrate that such a notion of entropy differences can be rigorously defined in quantum field theory in a general curved spacetime by introducing a novel, covariant regulator for the entropy based on the modular crossed product. This regulator associates a type II von Neumann algebra to each spacetime subregion, resulting in well-defined renormalized entropies. This prescription reproduces formulas for entropy differences that coincide with heuristic formulas widely used in the literature, and we prove that it satisfies desirable properties such as unitary invariance and concavity. As an application, we provide proofs of the Bekenstein bound and the quantum null energy condition, formulated directly in terms of vacuum-subtracted von Neumann entropies.
翻訳日:2023-12-14 17:46:26 公開日:2023-12-12
# 人間とロボットの相互作用における人間の視線と拡張現実を活用した未知の物体の教育

Teaching Unknown Objects by Leveraging Human Gaze and Augmented Reality in Human-Robot Interaction ( http://arxiv.org/abs/2312.07638v1 )

ライセンス: Link先を確認
Daniel Weber(参考訳) ロボットは、優れた作業能力、正確性、効率性、スケーラビリティによって、幅広い環境においてますます人気を高めています。 この開発は人工知能、特に機械学習の進歩によってさらに奨励されている。 高度なニューラルネットワークを利用することで、ロボットは近くの物体を検出して対話することができる。 しかしながら、広範囲なデータセットへの根本的な依存と、これらのオブジェクト検出モデルに対する相当量のトレーニングデータの提供から、大きな欠点が生まれます。 この問題は、ロボットと周囲の特定の配置場所が事前に分かっていない場合に特に問題となる。 広大なオブジェクトの配列は、既存のデータセットだけで既存のオブジェクトのスペクトル全体を包括的にカバーすることは事実上不可能である。 この論文の目的は、人間-ロボットインタラクション(HRI)の文脈で未知のオブジェクトを教えることで、そのデータ依存から解放し、事前に定義されたシナリオから解放することであった。 この文脈において、アイトラッキングと拡張現実の組み合わせは、人間の教師がロボットとコミュニケーションし、人間の視線によって物体を無力に指さすための強力なシナジーを生み出した。 この全体的アプローチは、ロボットが関心の対象を3D空間で識別し視覚的に分割できるマルチモーダルなHRIシステムの開発につながった。 人間が提供したクラス情報を通じて、ロボットはオブジェクトを学習し、後段で再検出することができた。 このHRIベースの教育から得られた知識により、ロボットの物体検出能力は、事前定義されたクラスに制限されず、その汎用性と適応性を示すことなく、広範囲なデータセットで訓練された最先端の物体検出器に匹敵する性能を示した。

Robots are becoming increasingly popular in a wide range of environments due to their exceptional work capacity, precision, efficiency, and scalability. This development has been further encouraged by advances in Artificial Intelligence, particularly Machine Learning. By employing sophisticated neural networks, robots are given the ability to detect and interact with objects in their vicinity. However, a significant drawback arises from the underlying dependency on extensive datasets and the availability of substantial amounts of training data for these object detection models. This issue becomes particularly problematic when the specific deployment location of the robot and the surroundings, are not known in advance. The vast and ever-expanding array of objects makes it virtually impossible to comprehensively cover the entire spectrum of existing objects using preexisting datasets alone. The goal of this dissertation was to teach a robot unknown objects in the context of Human-Robot Interaction (HRI) in order to liberate it from its data dependency, unleashing it from predefined scenarios. In this context, the combination of eye tracking and Augmented Reality created a powerful synergy that empowered the human teacher to communicate with the robot and effortlessly point out objects by means of human gaze. This holistic approach led to the development of a multimodal HRI system that enabled the robot to identify and visually segment the Objects of Interest in 3D space. Through the class information provided by the human, the robot was able to learn the objects and redetect them at a later stage. Due to the knowledge gained from this HRI based teaching, the robot's object detection capabilities exhibited comparable performance to state-of-the-art object detectors trained on extensive datasets, without being restricted to predefined classes, showcasing its versatility and adaptability.
翻訳日:2023-12-14 17:46:06 公開日:2023-12-12
# 広範なフォームゲームにおける責任

Responsibility in Extensive Form Games ( http://arxiv.org/abs/2312.07637v1 )

ライセンス: Link先を確認
Qi Shi(参考訳) counterfactual と see-to-it の2つの異なる責任形態は、一つのエージェントまたは複数のエージェントが同時に行動するという文脈で哲学とaiにおいて広く議論されてきた。 複数のエージェントが何らかの順序で行動する状況に対する反実的責任の一般化は比較的単純であるが、対人的責任についても同じことは言えない。 このような設定に適用可能な対itモダリティの2つのバージョンが文献で提案されている。 どちらも責任感を完全に捉えていない。 本稿では,この2つのモダリティを満たすような設定において,it の可視的責任の定義を提案する。 本稿では,新たに提案された責任概念と反事実的責任概念を相互に定義できないことを示し,これら2つの責任形態の責任ギャップを考察する。 この2つの責任形態は、考えられる各状況において責任を負うのに十分なものではないが、上位責任を考慮すれば、このギャップは存在しない。

Two different forms of responsibility, counterfactual and seeing-to-it, have been extensively discussed in the philosophy and AI in the context of a single agent or multiple agents acting simultaneously. Although the generalisation of counterfactual responsibility to a setting where multiple agents act in some order is relatively straightforward, the same cannot be said about seeing-to-it responsibility. Two versions of seeing-to-it modality applicable to such settings have been proposed in the literature. Neither of them perfectly captures the intuition of responsibility. This paper proposes a definition of seeing-to-it responsibility for such settings that amalgamate the two modalities. This paper shows that the newly proposed notion of responsibility and counterfactual responsibility are not definable through each other and studies the responsibility gap for these two forms of responsibility. It shows that although these two forms of responsibility are not enough to ascribe responsibility in each possible situation, this gap does not exist if higher-order responsibility is taken into account.
翻訳日:2023-12-14 17:45:36 公開日:2023-12-12
# エンド・ツー・エンドのトレーニングを超えて - コンテキストサプライによる欲張りなローカル学習の促進

Go beyond End-to-End Training: Boosting Greedy Local Learning with Context Supply ( http://arxiv.org/abs/2312.07636v1 )

ライセンス: Link先を確認
Chengting Yu, Fengzhao Zhang, Hanzhi Ma, Aili Wang and Erping Li(参考訳) ディープネットワークの従来のエンドツーエンド(E2E)トレーニングでは、バックプロパゲーションの中間アクティベーションを格納する必要があるため、GPU上のメモリフットプリントが大きくなり、モデルの並列化が制限される。 代わりに、グリーディなローカル学習は、ネットワークを勾配に分離したモジュールに分割し、局所的な予備的損失に基づいてトレーニングし、メモリコストを大幅に削減する非同期および並列トレーニング方法を提供する。 しかし, 実験により, 勾配分離モジュールのセグメンテーション数が増加するにつれて, 局所学習方式の性能は著しく低下し, 拡張性が著しく低下することがわかった。 この問題を回避するために,情報理論の観点からの局所学習の欲望を理論的に分析し,情報損失を補償するために分離モジュール間のコンテキスト供給を組み込んだcontsupスキームを提案する。 ベンチマークデータセット (cifar, svhn, stl-10) における実験により, sotaの結果が得られ, 提案手法は, 最小メモリと計算オーバーヘッドで局所学習の性能を著しく向上し, 分離モジュール数を増加させることができることを示した。 私たちのコードはhttps://github.com/tab-ct/contsupで利用可能です。

Traditional end-to-end (E2E) training of deep networks necessitates storing intermediate activations for back-propagation, resulting in a large memory footprint on GPUs and restricted model parallelization. As an alternative, greedy local learning partitions the network into gradient-isolated modules and trains supervisely based on local preliminary losses, thereby providing asynchronous and parallel training methods that substantially reduce memory cost. However, empirical experiments reveal that as the number of segmentations of the gradient-isolated module increases, the performance of the local learning scheme degrades substantially, severely limiting its expansibility. To avoid this issue, we theoretically analyze the greedy local learning from the standpoint of information theory and propose a ContSup scheme, which incorporates context supply between isolated modules to compensate for information loss. Experiments on benchmark datasets (i.e. CIFAR, SVHN, STL-10) achieve SOTA results and indicate that our proposed method can significantly improve the performance of greedy local learning with minimal memory and computational overhead, allowing for the boost of the number of isolated modules. Our codes are available at https://github.com/Tab-ct/ContSup.
翻訳日:2023-12-14 17:45:19 公開日:2023-12-12
# MedYOLO: 医用画像オブジェクト検出フレームワーク

MedYOLO: A Medical Image Object Detection Framework ( http://arxiv.org/abs/2312.07729v1 )

ライセンス: Link先を確認
Joseph Sobek, Jose R. Medina Inojosa, Betsy J. Medina Inojosa, S. M. Rassoulinejad-Mousavi, Gian Marco Conte, Francisco Lopez-Jimenez, Bradley J. Erickson(参考訳) 医療画像における臓器、病変、その他の構造の人工知能による同定は、通常、興味のある領域のボクセル正確なセグメンテーションを作成するために設計された畳み込みニューラルネットワーク(CNN)を用いて行われる。 しかし、これらのCNNを訓練するために必要なラベルは、品質を確保するのに時間を要する。 voxelレベルの精度を必要としないタスクでは、オブジェクト検出モデルはアノテーションの労力を減らすために有効な代替手段を提供する。 この潜在的な応用にもかかわらず、3次元医用イメージングのための汎用オブジェクト検出フレームワークの選択肢は少ない。 本報告では, YOLO モデルのワンショット検出手法を用いた3次元物体検出フレームワーク MedYOLO について報告する。 BRaTS,LIDC,腹部臓器CT(CT)データセット,心電図同期心電図CTデータセットの4つの異なるデータセットでこのモデルを検証した。 その結果,超パラメータチューニングがなくても,心臓,肝臓,膵などの中規模および大規模構造において高い性能が得られることがわかった。 しかし、モデルは非常に小さく、稀に存在する構造に苦しむ。

Artificial intelligence-enhanced identification of organs, lesions, and other structures in medical imaging is typically done using convolutional neural networks (CNNs) designed to make voxel-accurate segmentations of the region of interest. However, the labels required to train these CNNs are time-consuming to generate and require attention from subject matter experts to ensure quality. For tasks where voxel-level precision is not required, object detection models offer a viable alternative that can reduce annotation effort. Despite this potential application, there are few options for general purpose object detection frameworks available for 3-D medical imaging. We report on MedYOLO, a 3-D object detection framework using the one-shot detection method of the YOLO family of models and designed for use with medical imaging. We tested this model on four different datasets: BRaTS, LIDC, an abdominal organ Computed Tomography (CT) dataset, and an ECG-gated heart CT dataset. We found our models achieve high performance on commonly present medium and large-sized structures such as the heart, liver, and pancreas even without hyperparameter tuning. However, the models struggle with very small or rarely present structures.
翻訳日:2023-12-14 17:36:21 公開日:2023-12-12
# 2つのエージェントは量子測定結果にいつ同意するのか? QB主義における客観的合意

When will two agents agree on a quantum measurement outcome? Intersubjective agreement in QBism ( http://arxiv.org/abs/2312.07728v1 )

ライセンス: Link先を確認
R\"udiger Schack(参考訳) 量子力学に対するQBistのアプローチでは、測定はエージェントが自分自身の外部の世界で行う作用である。 測定装置は、エージェントの拡張であり、両方の測定結果とその確率は、エージェントに個人的なものである。 QBismによると、量子形式論において、2つのエージェントの量子状態の割り当てまたはそれぞれの測定結果が相互に一貫性を持つ必要があることを示すものはない。 クレンニコフは近年、QBismの量子測度に関するパーソナリスト理論は、オザワのいわゆるinterjectivity theoremによって無効化されていると主張した。 ここで、我々はクレンニコフの主張に反論し、それはオザワの数学的定理ではなく、クレンニコフがqbismと相容れないという追加の仮定であることを示した。 次に、より一般的にQB主義における異種間合意の問題に取り組む。 2つのエージェントがそれぞれの測定結果について同意する必要はないが、qbistエージェントは、別のエージェントが報告した測定結果が彼女と一致することを期待する条件を作成しようとすることができる。 大沢の定理の仮定は、そのような条件だけを例に示すことが判明した。

In the QBist approach to quantum mechanics, a measurement is an action an agent takes on the world external to herself. A measurement device is an extension of the agent and both measurement outcomes and their probabilities are personal to the agent. According to QBism, nothing in the quantum formalism implies either that the quantum state assignments of two agents or their respective measurement outcomes need to be mutually consistent. Recently, Khrennikov has claimed that QBism's personalist theory of quantum measurement is invalidated by Ozawa's so-called intersubjectivity theorem. Here, following Stacey, we refute Khrennikov's claim by showing that it is not Ozawa's mathematical theorem but an additional assumption made by Khrennikov that QBism is incompatible with. We then address the question of intersubjective agreement in QBism more generally. Even though there is never a necessity for two agents to agree on their respective measurement outcomes, a QBist agent can strive to create conditions under which she would expect another agent's reported measurement outcome to agree with hers. It turns out that the assumptions of Ozawa's theorem provide an example for just such a condition.
翻訳日:2023-12-14 17:36:02 公開日:2023-12-12
# インスタンスセグメンテーションを用いた自動行動分析

Automated Behavioral Analysis Using Instance Segmentation ( http://arxiv.org/abs/2312.07723v1 )

ライセンス: Link先を確認
Chen Yang, Jeremy Forest, Matthew Einhorn, Thomas A. Cleland(参考訳) 動物行動分析は生命科学や生物医学研究など様々な分野において重要な役割を担っている。 しかし、利用可能なデータの不足とラベル付きデータセットの大量取得に伴う高コストが大きな課題となっている。 本研究では,これらの問題に対処するために,インスタンスセグメンテーションに基づく転送学習を利用する新しい手法を提案する。 インスタンスセグメンテーションネットワークの分類ヘッドを微調整することにより,複数の動物を追跡し,実験映像における行動解析を容易にする。 本手法の有効性を実証するために,様々な動物行動分析タスクにおいて,人間の能力に匹敵する優れた性能レベルを達成できることを示す実験を行った。 さらに,学習には少数のラベル付き画像しか必要としないため,本ソリューションの実用性を強調した。 本手法の採用とさらなる開発を容易にするため,我々はannolid(アノテーションおよびインスタンスセグメンテーションに基づく複数動物追跡および行動分析パッケージ)というオープンソース実装を開発した。 コードベースはgithubのhttps://github.com/cplab/annolid.comで公開されている。 この資源は、最先端技術による動物行動分析に興味を持つ研究者や実践者にとって貴重な資産である。

Animal behavior analysis plays a crucial role in various fields, such as life science and biomedical research. However, the scarcity of available data and the high cost associated with obtaining a large number of labeled datasets pose significant challenges. In this research, we propose a novel approach that leverages instance segmentation-based transfer learning to address these issues. By capitalizing on fine-tuning the classification head of the instance segmentation network, we enable the tracking of multiple animals and facilitate behavior analysis in laboratory-recorded videos. To demonstrate the effectiveness of our method, we conducted a series of experiments, revealing that our approach achieves exceptional performance levels, comparable to human capabilities, across a diverse range of animal behavior analysis tasks. Moreover, we emphasize the practicality of our solution, as it requires only a small number of labeled images for training. To facilitate the adoption and further development of our method, we have developed an open-source implementation named Annolid (An annotation and instance segmentation-based multiple animal tracking and behavior analysis package). The codebase is publicly available on GitHub at https://github.com/cplab/annolid. This resource serves as a valuable asset for researchers and practitioners interested in advancing animal behavior analysis through state-of-the-art techniques.
翻訳日:2023-12-14 17:35:40 公開日:2023-12-12
# 土星プラットフォーム:金融サービスのための基盤モデル運用と生成AI

Saturn Platform: Foundation Model Operations and Generative AI for Financial Services ( http://arxiv.org/abs/2312.07721v1 )

ライセンス: Link先を確認
Antonio J. G. Busson, Rennan Gaio, Rafael H. Rocha, Francisco Evangelista, Bruno Rizzi, Luan Carvalho, Rafael Miceli, Marcos Rabaioli, David Favaro(参考訳) Saturnは、ファンデーションモデル(FM)の構築とITオペレーション(Ops)との統合を支援する革新的なプラットフォームである。 データサイエンティストの要求を満たすためにカスタムメイドされ、技術領域でのコラボレーションを強化しながら、効果的にfmを作成し、実装することができる。 幅広いツールと機能を提供することで、サターンはFM開発のさまざまな段階を合理化し、自動化し、データサイエンスチームにとって貴重な資産となる。 本稿では、金融セクターにおけるFMから派生した生成AIモデルの今後の応用について紹介する。

Saturn is an innovative platform that assists Foundation Model (FM) building and its integration with IT operations (Ops). It is custom-made to meet the requirements of data scientists, enabling them to effectively create and implement FMs while enhancing collaboration within their technical domain. By offering a wide range of tools and features, Saturn streamlines and automates different stages of FM development, making it an invaluable asset for data science teams. This white paper introduces prospective applications of generative AI models derived from FMs in the financial sector.
翻訳日:2023-12-14 17:35:20 公開日:2023-12-12
# CaVE: 2進線形プログラムによる高速予測最適化のためのコーンアラインアプローチ

CaVE: A Cone-Aligned Approach for Fast Predict-then-optimize with Binary Linear Programs ( http://arxiv.org/abs/2312.07718v1 )

ライセンス: Link先を確認
Bo Tang, Elias B. Khalil(参考訳) エンドツーエンド予測最適化フレームワークは、意思決定中心学習としても知られ、コンテキストインスタンス情報から最適化問題の未知コスト(目的関数)係数を予測する機械学習モデルのトレーニング手順に最適化を統合する能力で人気を集めている。 当然、この空間における関心のある問題の多くは整数線型プログラムとしてキャストできる。 本研究では,バイナリ線形プログラム(BLP)に着目し,予測列最適化のための新たなエンドツーエンドトレーニング手法を提案する。 提案手法であるコーンアラインベクトル推定 (cave) は, 予測したコストベクトルを, トレーニングインスタンスの真の最適解に対応するコーンに整合させる。 予測コストベクトルが円錐内にあるとき、二項問題の線形緩和に対する最適解は真のコストベクトルに最適 w.r.t. である。 このアライメントは、意思決定対応学習モデルを生成するだけでなく、その勾配で損失関数を計算するためにBLPを解く必要性を回避するため、トレーニング時間を劇的に短縮する。 複数のデータセットにまたがる実験により,本手法はトレーニング時間とソリューション品質のトレードオフを良好に示し,特に車両ルーティングなどの大規模最適化問題において,本手法の難しさから,文学における予測最適化手法の恩恵を受けていない。

The end-to-end predict-then-optimize framework, also known as decision-focused learning, has gained popularity for its ability to integrate optimization into the training procedure of machine learning models that predict the unknown cost (objective function) coefficients of optimization problems from contextual instance information. Naturally, most of the problems of interest in this space can be cast as integer linear programs. In this work, we focus on binary linear programs (BLPs) and propose a new end-to-end training method for predict-then-optimize. Our method, Cone-aligned Vector Estimation (CaVE), aligns the predicted cost vectors with the cone corresponding to the true optimal solution of a training instance. When the predicted cost vector lies inside the cone, the optimal solution to the linear relaxation of the binary problem is optimal w.r.t. to the true cost vector. Not only does this alignment produce decision-aware learning models, but it also dramatically reduces training time as it circumvents the need to solve BLPs to compute a loss function with its gradients. Experiments across multiple datasets show that our method exhibits a favorable trade-off between training time and solution quality, particularly with large-scale optimization problems such as vehicle routing, a hard BLP that has yet to benefit from predict-then-optimize methods in the literature due to its difficulty.
翻訳日:2023-12-14 17:35:11 公開日:2023-12-12
# 大規模言語モデルを活用した計算ワークフローの構築と実行

Leveraging Large Language Models to Build and Execute Computational Workflows ( http://arxiv.org/abs/2312.07711v1 )

ライセンス: Link先を確認
Alejandro Duque, Abdullah Syed, Kastan V. Day, Matthew J. Berry, Daniel S. Katz, Volodymyr V. Kindratenko(参考訳) 数十億のパラメータを持つ大規模言語モデル(llms)の最近の開発と、ユーザフレンドリーなアプリケーションプログラミングインターフェース(apis)の作成が相まって、簡単なヒューマンクエリに応答してコードの自動生成と実行ができるようになった。 本稿では、これらの新興能力がどのようにして複雑な科学的なワークフローを容易にし、従来のコーディング方法の必要性をなくすのかを考察する。 我々はPhyloflowをOpenAIの関数呼び出しAPIに統合する試みからの最初の成果を示し、これらの概念に基づいた包括的なワークフロー管理システムを開発するための戦略を概説する。

The recent development of large language models (LLMs) with multi-billion parameters, coupled with the creation of user-friendly application programming interfaces (APIs), has paved the way for automatically generating and executing code in response to straightforward human queries. This paper explores how these emerging capabilities can be harnessed to facilitate complex scientific workflows, eliminating the need for traditional coding methods. We present initial findings from our attempt to integrate Phyloflow with OpenAI's function-calling API, and outline a strategy for developing a comprehensive workflow management system based on these concepts.
翻訳日:2023-12-14 17:34:47 公開日:2023-12-12
# 偏光勾配レーザー冷却によるボース・アインシュタイン凝縮

Bose-Einstein condensation by polarization gradient laser cooling ( http://arxiv.org/abs/2312.07708v1 )

ライセンス: Link先を確認
Wenchao Xu, Tamara \v{S}umarac, Emily H. Qiu, Matthew L. Peters, Sergio H. Cant\'u, Zeyang Li, Adrian J. Menssen, Mikhail D. Lukin, Simone Colombo and Vladan Vuleti\'c(参考訳) 蒸発冷却のない量子縮退ガスを作る試みは、レーザー冷却の初期から行われており、偏光勾配冷却(PGC、別名「光学モラセ」)だけが凝縮に達することができないという意見が一致している。 本研究では,光双極子トラップ内で単純なPGCが小さなボース・アインシュタイン凝縮体(BEC)を生成できることを示す。 BEC生成が可能な実験パラメータは機械学習によって発見され, 原子数は5倍に増加し, 温度は2.5倍に低下した。 トラップ光が微視的対物レンズによってわずかに不整合になると、pgcの40ミリ秒以内の局所二量体の内部に、$\sim 250$$^{87}$rb原子のbecが形成される。

Attempts to create quantum degenerate gases without evaporative cooling have been pursued since the early days of laser cooling, with the consensus that polarization gradient cooling (PGC, also known as "optical molasses") alone cannot reach condensation. In the present work, we report that simple PGC can generate a small Bose-Einstein condensate (BEC) inside a corrugated micrometer-sized optical dipole trap. The experimental parameters enabling BEC creation were found by machine learning, which increased the atom number by a factor of 5 and decreased the temperature by a factor of 2.5, corresponding to almost two orders of magnitude gain in phase space density. When the trapping light is slightly misaligned through a microscopic objective lens, a BEC of $\sim 250$ $^{87}$Rb atoms is formed inside a local dimple within 40 ms of PGC.
翻訳日:2023-12-14 17:34:35 公開日:2023-12-12
# 変化する環境を監視するための機械学習と市民科学のアプローチ

Machine Learning and Citizen Science Approaches for Monitoring the Changing Environment ( http://arxiv.org/abs/2312.07698v1 )

ライセンス: Link先を確認
Sulong Zhou(参考訳) この論文は、複雑な異種変化環境において、浸水地域とハリケーンイベントに関する差し迫った質問に答える新しいツールと方法論を組み合わせる。 リモートセンシングのアプローチに加えて、シチズンサイエンスと機械学習は、環境管理と災害対応の質問に答えるために先進技術を活用する新興分野である。

This dissertation will combine new tools and methodologies to answer pressing questions regarding inundation area and hurricane events in complex, heterogeneous changing environments. In addition to remote sensing approaches, citizen science and machine learning are both emerging fields that harness advancing technology to answer environmental management and disaster response questions.
翻訳日:2023-12-14 17:34:18 公開日:2023-12-12
# 決定変換器によるリアルタイムネットワーク侵入検出

Real-time Network Intrusion Detection via Decision Transformers ( http://arxiv.org/abs/2312.07696v1 )

ライセンス: Link先を確認
Jingdi Chen, Hanhan Zhou, Yongsheng Mei, Gina Adam, Nathaniel D. Bastian, Tian Lan(参考訳) 時間的観測に基づくリアルタイムな意思決定を必要とする多くのサイバーセキュリティ問題は、例えば、到着したパケットのシーケンスからネットワーク侵入を検出するようなシーケンスモデリング問題として抽象化できる。 強化学習のような既存のアプローチは、マルコフの性質が必ずしも保持されず、基盤となるネットワーク状態が観測できないため、そのようなサイバーセキュリティ決定問題には適していない。 本稿では,リアルタイムネットワーク侵入検出の問題をカジュアルシーケンスモデリングとしてキャストし,リアルタイム意思決定のためのトランスフォーマーアーキテクチャのパワーを浮き彫りにする。 提案手法では, 報酬, ネットワークパケット, 検出決定からなる過去の経路に因果決定変換器を条件付けすることで, 所望のリターンを達成するために将来の検出決定を生成する。 これにより、リアルタイムネットワーク侵入検出に決定トランスフォーマーを適用でき、検出の精度とタイムラインの新たなトレードオフが可能になる。 提案手法は,公開ネットワーク侵入検出データセット上で評価され,強化学習とシーケンスモデリングを用いた複数のベースラインアルゴリズムよりも精度が高い。

Many cybersecurity problems that require real-time decision-making based on temporal observations can be abstracted as a sequence modeling problem, e.g., network intrusion detection from a sequence of arriving packets. Existing approaches like reinforcement learning may not be suitable for such cybersecurity decision problems, since the Markovian property may not necessarily hold and the underlying network states are often not observable. In this paper, we cast the problem of real-time network intrusion detection as casual sequence modeling and draw upon the power of the transformer architecture for real-time decision-making. By conditioning a causal decision transformer on past trajectories, consisting of the rewards, network packets, and detection decisions, our proposed framework will generate future detection decisions to achieve the desired return. It enables decision transformers to be applied to real-time network intrusion detection, as well as a novel tradeoff between the accuracy and timeliness of detection. The proposed solution is evaluated on public network intrusion detection datasets and outperforms several baseline algorithms using reinforcement learning and sequence modeling, in terms of detection accuracy and timeliness.
翻訳日:2023-12-14 17:34:11 公開日:2023-12-12
# GP+:ガウスプロセスによるカーネルベースの学習のためのPythonライブラリ

GP+: A Python Library for Kernel-based learning via Gaussian Processes ( http://arxiv.org/abs/2312.07694v1 )

ライセンス: Link先を確認
Amin Yousefpour, Zahra Zanjani Foumani, Mehdi Shishehbor, Carlos Mora, Ramin Bostanabad(参考訳) 本稿では,そのパラメトリック共分散と平均関数によって特徴付けられる強力な統計モデルであるガウス過程(gps)によるカーネルベース学習のためのオープンソースライブラリgp+を提案する。 GP+はPyTorch上に構築されており、確率的学習と推論のためのユーザフレンドリでオブジェクト指向のツールを提供する。 実例で示すように、gp+は他のgpモデリングライブラリよりもいくつかのユニークな利点がある。 これらの利点は、主に非線形多様体学習技術とGPの共分散と平均関数を統合することで達成される。 GP+の導入の一環として,(1)確率的データ融合と逆パラメータ推定を可能にする手法や,(2)カテゴリー変数と定量的変数の両方を持つ混合特徴空間にまたがる擬似パラメトリック平均関数を具備する手法も提案する。 本稿では,ベイズ最適化,マルチ忠実度モデリング,感度解析,コンピュータモデルの校正といった文脈におけるこれらの貢献の影響を実証する。

In this paper we introduce GP+, an open-source library for kernel-based learning via Gaussian processes (GPs) which are powerful statistical models that are completely characterized by their parametric covariance and mean functions. GP+ is built on PyTorch and provides a user-friendly and object-oriented tool for probabilistic learning and inference. As we demonstrate with a host of examples, GP+ has a few unique advantages over other GP modeling libraries. We achieve these advantages primarily by integrating nonlinear manifold learning techniques with GPs' covariance and mean functions. As part of introducing GP+, in this paper we also make methodological contributions that (1) enable probabilistic data fusion and inverse parameter estimation, and (2) equip GPs with parsimonious parametric mean functions which span mixed feature spaces that have both categorical and quantitative variables. We demonstrate the impact of these contributions in the context of Bayesian optimization, multi-fidelity modeling, sensitivity analysis, and calibration of computer models.
翻訳日:2023-12-14 17:33:53 公開日:2023-12-12
# 制約付き最適化からの脱却:発電機座標法による量子化学の量子計算

Unleashed from Constrained Optimization: Quantum Computing for Quantum Chemistry Employing Generator Coordinate Method ( http://arxiv.org/abs/2312.07691v1 )

ライセンス: Link先を確認
Muqing Zheng, Bo Peng, Ang Li, Xiu Yang, Karol Kowalski(参考訳) ハイブリッド量子古典的アプローチは、量子化学問題に対する潜在的な解決策を提供するが、バレンプラトーやアンサツェの正確性のような課題も導入する。 これらの課題は、グローバルミニマの特定を保証せずに、制約付き最適化問題としてしばしば現れます。 本研究では,制約付き最適化と一般化固有値問題の相互関係を,与えられた回転型正準変換によって生成される非直交および超完全基底集合の一意クラスを用いて強調する。 生成子座標のアプローチを用いて、これらの基底集合を用いて波動関数を表現する。 一般化された固有値問題により、エネルギーの厳密な下界が得られ、従来の変分量子固有解法(VQE)よりも優れている。 提案手法は, 量子化学問題を複雑化するのに理想的な数値最小化器のバレンプラトー問題とヒューリスティックな性質に効果的に取り組む。 実世界のアプリケーションでは、非直交基底集合の線形展開を強調し、これらの変換を選択するための適応スキームを提案する。 これにより、ハイブリッド量子古典シミュレーションにおける精度と効率の調和が保証される。 我々の分析と提案手法は量子化学における量子コンピューティングの応用をさらに広げる。 特に、彼らは励起状態計算とハミルトンのダウンフォールディングにおける代替戦略の道を開き、化学における高度な量子シミュレーションの基礎を築いた。

Hybrid quantum-classical approaches offer potential solutions for quantum chemistry problems, but they also introduce challenges such as the barren plateau and the exactness of the ansatze. These challenges often manifest as constrained optimization problems without a guarantee of identifying global minima. In this work, we highlight the interconnection between constrained optimization and generalized eigenvalue problems, using a unique class of non-orthogonal and overcomplete basis sets generated by Givens rotation-type canonical transformations on a reference state. Employing the generator coordinate approach, we represent the wave function in terms of these basis sets. The ensuing generalized eigenvalue problem yields rigorous lower bounds on energy, outperforming the conventional variational quantum eigensolver (VQE) that employs the same canonical transformations in its ansatze. Our approach effectively tackles the barren plateau issue and the heuristic nature of numerical minimizers in the standard VQE, making it ideal for intricate quantum chemical challenges. For real-world applications, we propose an adaptive scheme for selecting these transformations, emphasizing the linear expansion of the non-orthogonal basis sets. This ensures a harmonious balance between accuracy and efficiency in hybrid quantum-classical simulations. Our analysis and suggested methodology further broaden the applications of quantum computing in quantum chemistry. Notably, they pave the way for alternative strategies in excited state computation and Hamiltonian downfolding, laying the groundwork for sophisticated quantum simulations in chemistry.
翻訳日:2023-12-14 17:33:36 公開日:2023-12-12
# 離散断熱量子線形系ソルバーは、ランダム化断熱系ソルバーよりも低い定数因子を有する

The discrete adiabatic quantum linear system solver has lower constant factors than the randomized adiabatic solver ( http://arxiv.org/abs/2312.07690v1 )

ライセンス: Link先を確認
Pedro C.S. Costa, Dong An, Ryan Babbush, and Dominic Berry(参考訳) 線形方程式系の解は、他の多くの量子アルゴリズムの基礎であり、最近の結果は、条件数 $\kappa$ と許容誤差 $\epsilon$ [prx quantum \textbf{3}, 0403003 (2022)]の両方において最適なスケーリングを行うアルゴリズムを提供した。 その仕事は離散的断熱定理に基づいており、複雑性の上界に対する明示的な定数係数を導いた。 ここでは, ランダム行列の数値実験により, 定数係数は, 前回の結果から得られた上限値の約1500倍小さいことを示す。 つまり、このアプローチは、上界から予測されるよりもずっと効率的であるということです。 特に、より効率的であると主張する [arxiv:2305.11352] からのランダム化アプローチを使うよりも、桁違いに効率的である。

The solution of linear systems of equations is the basis of many other quantum algorithms, and recent results provided an algorithm with optimal scaling in both the condition number $\kappa$ and the allowable error $\epsilon$ [PRX Quantum \textbf{3}, 0403003 (2022)]. That work was based on the discrete adiabatic theorem, and worked out an explicit constant factor for an upper bound on the complexity. Here we show via numerical testing on random matrices that the constant factor is in practice about 1,500 times smaller than the upper bound found numerically in the previous results. That means that this approach is far more efficient than might naively be expected from the upper bound. In particular, it is over an order of magnitude more efficient than using a randomised approach from [arXiv:2305.11352] that claimed to be more efficient.
翻訳日:2023-12-14 17:33:10 公開日:2023-12-12
# 量子限界に接近するスクイーズド真空による適応位相推定

Adaptive Phase Estimation with Squeezed Vacuum Approaching the Quantum Limit ( http://arxiv.org/abs/2312.07686v1 )

ライセンス: Link先を確認
M. A. Rodr\'iguez-Garc\'ia and F. E. Becerra(参考訳) 位相推定はコミュニケーション、センシング、情報処理において中心的な役割を果たす。 スクイーズ状態のような量子相関状態は、ショットノイズ限界を超える位相推定を可能にし、原理上は最適な量子測定と組み合わせて、精度の究極の量子限界に近づく。 しかし、量子相関状態を持つ光学位相推定のための最適な量子測定の物理的実現はまだ不明である。 ここでは, 真空圧縮状態を用いた光位相推定のための適応型ガウス計測手法を導入することにより, 高精度に量子限界にアプローチする。 この戦略は、回転とホモダインによる局所最適 povm の包括的集合を基盤とし、特定の正規性条件下でこの量子パラメータ推定問題に対する漸近的最適性を保証する適応的測定プロセスを最適化するための適応量子状態推定フレームワークを使用する。 その結果、局所最適ホモダイン測定に基づく適応位相推定戦略は、[0, \pi/2)$の位相間隔内での量子限界を達成する。 さらに、この戦略をヘテロダイン測定を含むことで一般化し、圧縮真空により不明瞭な位相符号化が可能となる$[0, \pi)$から全位相の位相推定を可能にする。 驚くべきことに、圧縮真空中でエンコードできる位相の最大範囲であるこの位相間隔に対して、この推定戦略は漸近的な量子光学性能を維持しており、量子計測の著しい進歩を表している。

Phase estimation plays a central role in communications, sensing, and information processing. Quantum correlated states, such as squeezed states, enable phase estimation beyond the shot-noise limit, and in principle approach the ultimate quantum limit in precision, when paired with optimal quantum measurements. However, physical realizations of optimal quantum measurements for optical phase estimation with quantum correlated states are still unknown. Here we address this problem by introducing an adaptive Gaussian measurement strategy for optical phase estimation with squeezed vacuum states that, by construction, approaches the quantum limit in precision. This strategy builds from a comprehensive set of locally optimal POVMs through rotations and homodyne measurements and uses the Adaptive Quantum State Estimation framework for optimizing the adaptive measurement process, which, under certain regularity conditions, guarantees asymptotic optimality for this quantum parameter estimation problem. As a result, the adaptive phase estimation strategy based on locally-optimal homodyne measurements achieves the quantum limit within the phase interval of $[0, \pi/2)$. Furthermore, we generalize this strategy by including heterodyne measurements, enabling phase estimation across the full range of phases from $[0, \pi)$, where squeezed vacuum allows for unambiguous phase encoding. Remarkably, for this phase interval, which is the maximum range of phases that can be encoded in squeezed vacuum, this estimation strategy maintains an asymptotic quantum-optimal performance, representing a significant advancement in quantum metrology.
翻訳日:2023-12-14 17:32:53 公開日:2023-12-12
# オフライン-オンライン強化学習におけるQ値推定の視点

A Perspective of Q-value Estimation on Offline-to-Online Reinforcement Learning ( http://arxiv.org/abs/2312.07685v1 )

ライセンス: Link先を確認
Yinmin Zhang, Jie Liu, Chuming Li, Yazhe Niu, Yaodong Yang, Yu Liu, Wanli Ouyang(参考訳) Online-to-online Reinforcement Learning (O2O RL) は,オフライン事前訓練ポリシのパフォーマンス向上を目的としている。 オフラインRLアルゴリズムに基づいて構築されたほとんどのO2Oメソッドは、RLの目的と悲観のバランス、オフラインおよびオンラインサンプルの利用に焦点を当てている。 本稿では,新しい観点から,O2O RLに残る課題を体系的に研究し,オンラインファインタニングの遅さと不安定性の背景には,オフライン事前学習から受け継いだ不正確なQ値推定が関係していることを明らかにする。 具体的には、推定バイアスとQ値の不正確なランクがポリシー更新の誤解を招くことを実証し、CQLやTD3-BCといった標準オフラインRLアルゴリズムをオンライン微調整では非効率にする。 本研究では,(1)摂動値の更新と(2)Q値の更新頻度の増加の2つの手法によるQ値推定の問題に対処する。 第1の手法は、鋭いピークでバイアス付きQ値の推定を円滑にし、準最適行動の早期政策利用を防止する。 第2の方法は、学習の加速によるオフライン事前学習から受け継いだ推定バイアスを緩和する。 MuJoco と Adroit の環境における大規模な実験により,提案手法である SO2 がQ値推定問題を著しく軽減し,最先端手法に対する性能を最大83.1%向上することを示した。

Offline-to-online Reinforcement Learning (O2O RL) aims to improve the performance of offline pretrained policy using only a few online samples. Built on offline RL algorithms, most O2O methods focus on the balance between RL objective and pessimism, or the utilization of offline and online samples. In this paper, from a novel perspective, we systematically study the challenges that remain in O2O RL and identify that the reason behind the slow improvement of the performance and the instability of online finetuning lies in the inaccurate Q-value estimation inherited from offline pretraining. Specifically, we demonstrate that the estimation bias and the inaccurate rank of Q-value cause a misleading signal for the policy update, making the standard offline RL algorithms, such as CQL and TD3-BC, ineffective in the online finetuning. Based on this observation, we address the problem of Q-value estimation by two techniques: (1) perturbed value update and (2) increased frequency of Q-value updates. The first technique smooths out biased Q-value estimation with sharp peaks, preventing early-stage policy exploitation of sub-optimal actions. The second one alleviates the estimation bias inherited from offline pretraining by accelerating learning. Extensive experiments on the MuJoco and Adroit environments demonstrate that the proposed method, named SO2, significantly alleviates Q-value estimation issues, and consistently improves the performance against the state-of-the-art methods by up to 83.1%.
翻訳日:2023-12-14 17:32:27 公開日:2023-12-12
# SMUG(Smoothed Unrolling)によるロバストMRI再建

Robust MRI Reconstruction by Smoothed Unrolling (SMUG) ( http://arxiv.org/abs/2312.07784v1 )

ライセンス: Link先を確認
Shijun Liang, Van Hoang Minh Nguyen, Jinghan Jia, Ismail Alkhouri, Sijia Liu, Saiprasad Ravishankar(参考訳) 磁気共鳴画像(MRI)の分野でのディープラーニング(DL)の人気が高まっている中、最近の研究では、DLベースのMRI再構成モデルは、最悪の加法摂動を含む小さな入力障害に対して過度に敏感である可能性が示唆されている。 この感度は、しばしば不安定なエイリアス画像に繋がる。 このことは、MRI再建のためのDL技術をどのように考案するかという問題を提起する。 そこで本研究では,ランダム化平滑化(rs)に基づくロバストな学習手法を用いて,深部ローリングに基づくmri再構成モデルを発展させた新しい画像再構成フレームワークであるsmoiseed unrolling (smug)を提案する。 入力ノイズに対するモデルの耐性を向上させるrsは、画像分類タスクの逆防御アプローチの設計において広く使われている。 しかし,従来の DL ベースMRI モデルに RS を適用した設計は効果がないことがわかった。 本稿では、SMUGとその変種が、DLベースMRI再構成モデルのアンロールアーキテクチャに基づいてRSプロセスをカスタマイズすることで、上記の問題に対処できることを示す。 バニラRS法と比較して、SMUGは、入力測定に対する最悪のケースやランダムノイズの摂動、様々な測定サンプリングレート、様々なアンローリングステップを含む様々な不安定源に対して、MRI再構成の堅牢性を改善する。 さらに,摂動の存在下での手法のロバスト性を理論的に解析した。

As the popularity of deep learning (DL) in the field of magnetic resonance imaging (MRI) continues to rise, recent research has indicated that DL-based MRI reconstruction models might be excessively sensitive to minor input disturbances, including worst-case additive perturbations. This sensitivity often leads to unstable, aliased images. This raises the question of how to devise DL techniques for MRI reconstruction that can be robust to train-test variations. To address this problem, we propose a novel image reconstruction framework, termed Smoothed Unrolling (SMUG), which advances a deep unrolling-based MRI reconstruction model using a randomized smoothing (RS)-based robust learning approach. RS, which improves the tolerance of a model against input noises, has been widely used in the design of adversarial defense approaches for image classification tasks. Yet, we find that the conventional design that applies RS to the entire DL-based MRI model is ineffective. In this paper, we show that SMUG and its variants address the above issue by customizing the RS process based on the unrolling architecture of a DL-based MRI reconstruction model. Compared to the vanilla RS approach, we show that SMUG improves the robustness of MRI reconstruction with respect to a diverse set of instability sources, including worst-case and random noise perturbations to input measurements, varying measurement sampling rates, and different numbers of unrolling steps. Furthermore, we theoretically analyze the robustness of our method in the presence of perturbations.
翻訳日:2023-12-14 17:25:32 公開日:2023-12-12
# 潜在性部分群の存在下で合成データを生成する変分オートエンコーダとプロペンサスコア法の組み合わせ

Combining propensity score methods with variational autoencoders for generating synthetic data in presence of latent sub-groups ( http://arxiv.org/abs/2312.07781v1 )

ライセンス: Link先を確認
Kiana Farhadyar, Federico Bonofiglio, Maren Hackenberg, Daniela Zoeller, Harald Binder(参考訳) 臨床コホートに基づく合成データ生成を必要とする設定では、例えば、データ保護規則により、個人間の不均一性は、我々が制御または忠実に保存する必要がある問題である。 そのような異種性の源は、例えば、部分群ラベルによって示されるように知られ、あるいは未知であり、したがって双曲性や歪みのような分布の性質にのみ反映される。 低次元の潜在表現を用いた生成的ディープラーニング手法である変分オートエンコーダ(vaes)から合成データを得る際に、そのような不均一性がどのように保存・制御されるかを検討する。 限界分布に反映される未知の不均一性を忠実に再現するために,VAEと事前変換を組み合わせることを提案する。 サブグループによる既知の不均一性に対処するため、vaesをグループメンバーシップモデル、特にプロペンサリティスコア回帰モデルで補完する。 この評価はサブグループと限界分布の挑戦を特徴とする現実的なシミュレーション設計を用いて行われる。 提案手法は, 極端分布にのみ焦点をあてた合成データ手法と比較して, 後者を忠実に回収する。 propensityスコアは、潜在空間で視覚化された場合など、補完的な情報を追加し、サブグループ固有の特性の有無に関わらず、合成データのサンプリングを可能にする。 また,本提案手法を,バイモーダリティに加えて,研究現場間でかなりの分布差を示す国際的ストロークトライアルの実際のデータを用いて述べる。 これらの結果から, 統計的アプローチによる不均一性の記述は, 臨床コホートから構造を忠実に反映した合成データを得るための生成的深層学習を補完する上で, より一般的に有用であることが示唆された。

In settings requiring synthetic data generation based on a clinical cohort, e.g., due to data protection regulations, heterogeneity across individuals might be a nuisance that we need to control or faithfully preserve. The sources of such heterogeneity might be known, e.g., as indicated by sub-groups labels, or might be unknown and thus reflected only in properties of distributions, such as bimodality or skewness. We investigate how such heterogeneity can be preserved and controlled when obtaining synthetic data from variational autoencoders (VAEs), i.e., a generative deep learning technique that utilizes a low-dimensional latent representation. To faithfully reproduce unknown heterogeneity reflected in marginal distributions, we propose to combine VAEs with pre-transformations. For dealing with known heterogeneity due to sub-groups, we complement VAEs with models for group membership, specifically from propensity score regression. The evaluation is performed with a realistic simulation design that features sub-groups and challenging marginal distributions. The proposed approach faithfully recovers the latter, compared to synthetic data approaches that focus purely on marginal distributions. Propensity scores add complementary information, e.g., when visualized in the latent space, and enable sampling of synthetic data with or without sub-group specific characteristics. We also illustrate the proposed approach with real data from an international stroke trial that exhibits considerable distribution differences between study sites, in addition to bimodality. These results indicate that describing heterogeneity by statistical approaches, such as propensity score regression, might be more generally useful for complementing generative deep learning for obtaining synthetic data that faithfully reflects structure from clinical cohorts.
翻訳日:2023-12-14 17:25:02 公開日:2023-12-12
# 宣言的事実はllmの一般化に影響を与えます

Tell, don't show: Declarative facts influence how LLMs generalize ( http://arxiv.org/abs/2312.07779v1 )

ライセンス: Link先を確認
Alexander Meinke and Owain Evans(参考訳) 大規模言語モデル(LLM)が学習データの抽象的宣言文からどのように一般化するかを検討する。 例として、2050年にロンドンで天気予報を発行するLLMについて考えてみましょう。 一つの可能性は、報告書の温度が2023年の報告書の平均とばらつきと一致している(即ち事前訓練の統計と一致)。 もう一つの可能性は、2023年に書かれた科学論文から気候変動に関する宣言的な声明を取り入れることで、より高い気温を予測することである。 An example of such a declarative statement is "global temperatures will increase by $1^{\circ} \mathrm{C}$ by 2050". To test the influence of abstract declarative statements, we construct tasks in which LLMs are finetuned on both declarative and procedural information. We find that declarative statements influence model predictions, even when they conflict with procedural information. In particular, finetuning on a declarative statement $S$ increases the model likelihood for logical consequences of $S$. The effect of declarative statements is consistent across three domains: aligning an AI assistant, predicting weather, and predicting demographic features. Through a series of ablations, we show that the effect of declarative statements cannot be explained by associative learning based on matching keywords. Nevertheless, the effect of declarative statements on model likelihoods is small in absolute terms and increases surprisingly little with model size (i.e. from 330 million to 175 billion parameters). We argue that these results have implications for AI risk (in relation to the "treacherous turn") and for fairness.

We examine how large language models (LLMs) generalize from abstract declarative statements in their training data. As an illustration, consider an LLM that is prompted to generate weather reports for London in 2050. One possibility is that the temperatures in the reports match the mean and variance of reports from 2023 (i.e. matching the statistics of pretraining). Another possibility is that the reports predict higher temperatures, by incorporating declarative statements about climate change from scientific papers written in 2023. An example of such a declarative statement is "global temperatures will increase by $1^{\circ} \mathrm{C}$ by 2050". To test the influence of abstract declarative statements, we construct tasks in which LLMs are finetuned on both declarative and procedural information. We find that declarative statements influence model predictions, even when they conflict with procedural information. In particular, finetuning on a declarative statement $S$ increases the model likelihood for logical consequences of $S$. The effect of declarative statements is consistent across three domains: aligning an AI assistant, predicting weather, and predicting demographic features. Through a series of ablations, we show that the effect of declarative statements cannot be explained by associative learning based on matching keywords. Nevertheless, the effect of declarative statements on model likelihoods is small in absolute terms and increases surprisingly little with model size (i.e. from 330 million to 175 billion parameters). We argue that these results have implications for AI risk (in relation to the "treacherous turn") and for fairness.
翻訳日:2023-12-14 17:24:31 公開日:2023-12-12
# インクリメンタル階層的テキストクラスタリング手法:レビュー

Incremental hierarchical text clustering methods: a review ( http://arxiv.org/abs/2312.07769v1 )

ライセンス: Link先を確認
Fernando Simeone, Maik Olher Chaves, Ahmed Esmin(参考訳) インターネット利用の増加は、継続的に利用可能な大量のデータに寄与し、データの自動的かつ効率的な組織化の必要性を生み出した。 この文脈では、テキストクラスタリング技術は、その特徴に従って文書を整理することを目的としているため、重要である。 より具体的には、階層的かつインクリメンタルなクラスタリング技術は、動的データを階層的な形式で整理することができるため、この組織が更新され、その探索が容易になる。 本研究の主な貢献は,2010年から2018年にかけて出版されたテキスト文書のクラスタリングを目的とした研究で使用されている手法の組織化と比較である。 本研究の理解を深めるために,本研究の課題と出版作品の異なる特徴に関する主要な概念について述べる。

The growth in Internet usage has contributed to a large volume of continuously available data, and has created the need for automatic and efficient organization of the data. In this context, text clustering techniques are significant because they aim to organize documents according to their characteristics. More specifically, hierarchical and incremental clustering techniques can organize dynamic data in a hierarchical form, thus guaranteeing that this organization is updated and its exploration is facilitated. Based on the relevance and contemporary nature of the field, this study aims to analyze various hierarchical and incremental clustering techniques; the main contribution of this research is the organization and comparison of the techniques used by studies published between 2010 and 2018 that aimed to texts documents clustering. We describe the principal concepts related to the challenge and the different characteristics of these published works in order to provide a better understanding of the research in this field.
翻訳日:2023-12-14 17:24:10 公開日:2023-12-12
# 空間知識を取り入れた階層学習--地球画像の洪水マッピングへの応用

Spatial Knowledge-Infused Hierarchical Learning: An Application in Flood Mapping on Earth Imagery ( http://arxiv.org/abs/2312.07767v1 )

ライセンス: Link先を確認
Zelin Xu, Tingsong Xiao, Wenchong He, Yu Wang, Zhe Jiang(参考訳) 地球画像の深層学習は、農業、生態学、自然災害管理といった地球科学の応用においてますます重要な役割を担っている。 それでも、プログレッシブはしばしば限定的なトレーニングラベルによって妨げられる。 限られたトレーニングラベルを持つ地球画像,ベースディープニューラルネットワークモデル,ラベル制約のある空間知識ベースを考えると,本課題は,ニューラルネットワークをトレーニングしながら,完全なラベルを推測することである。 この問題は、スパースでノイズの多い入力ラベル、ラベル推論プロセス内の空間的不確実性、そして多数のサンプル位置に関連する高い計算コストによって困難である。 ニューロシンボリックモデルに関する既存の研究は、ニューラルネットワークへのシンボリックロジックの統合(損失関数、モデルアーキテクチャ、トレーニングラベル拡張など)に焦点を当てているが、これらの手法は空間データ(空間的不確実性、空間的粒度と計算コストのトレードオフなど)の課題を完全には解決していない。 このギャップを埋めるために,多段階階層内のサンプルラベルを反復的に推論する空間知識融合階層学習(SKI-HL)フレームワークを提案する。 提案手法は,空間的不確実性に基づく異なる解像度のラベルを選択的に推定するモジュールと,不確実性を考慮したマルチインスタンス学習を用いたニューラルネットワークパラメータを訓練するモジュールから構成される。 実世界のフラッドマッピングデータセットに関する広範囲な実験により、提案手法が複数のベースライン法を上回ることが示された。 コードは \url{https://github.com/zelinxu2000/ski-hl} で入手できる。

Deep learning for Earth imagery plays an increasingly important role in geoscience applications such as agriculture, ecology, and natural disaster management. Still, progress is often hindered by the limited training labels. Given Earth imagery with limited training labels, a base deep neural network model, and a spatial knowledge base with label constraints, our problem is to infer the full labels while training the neural network. The problem is challenging due to the sparse and noisy input labels, spatial uncertainty within the label inference process, and high computational costs associated with a large number of sample locations. Existing works on neuro-symbolic models focus on integrating symbolic logic into neural networks (e.g., loss function, model architecture, and training label augmentation), but these methods do not fully address the challenges of spatial data (e.g., spatial uncertainty, the trade-off between spatial granularity and computational costs). To bridge this gap, we propose a novel Spatial Knowledge-Infused Hierarchical Learning (SKI-HL) framework that iteratively infers sample labels within a multi-resolution hierarchy. Our framework consists of a module to selectively infer labels in different resolutions based on spatial uncertainty and a module to train neural network parameters with uncertainty-aware multi-instance learning. Extensive experiments on real-world flood mapping datasets show that the proposed model outperforms several baseline methods. The code is available at \url{https://github.com/ZelinXu2000/SKI-HL}.
翻訳日:2023-12-14 17:23:57 公開日:2023-12-12
# llmは緑の円を見つけられるか? 構成一般化のためのヒューマンガイドツール操作の検討

Can LLM find the green circle? Investigation and Human-guided tool manipulation for compositional generalization ( http://arxiv.org/abs/2312.07763v1 )

ライセンス: Link先を確認
Min Zhang, Jianfeng He, Shuo Lei, Murong Yue, Linhang Wang, Chang-Tien Lu(参考訳) 自然言語における複雑な句の意味は、それぞれの構成要素から成り立っている。 構成一般化のタスクは、モデルのコンポーネントの新しい組み合わせを理解する能力を評価する。 以前の研究では、より小さなタスク固有のモデルを訓練し、一般化が不十分であった。 大規模言語モデル (LLMs) は、文脈内学習 (ICL) を通じて多くのタスクにおいて顕著な一般化能力を示すが、構成的一般化の可能性は未解明のままである。 本稿では,合成一般化におけるICL手法を実証的に検討する。 長い推論ステップの累積誤差とツール作成に必要な複雑なロジックによって、複雑な構成問題に苦しむことが分かりました。 その結果、サブクエストのためのツールを生成し、複数のツールを統合するヒューマンガイドツール操作フレームワーク(HTM)を提案する。 本手法は,最小限の労力でツール作成と使用の有効性を高める。 実験の結果,提案手法は2つの構成一般化ベンチマークの最先端性能を達成し,既存の手法よりも70%高い性能を示した。

The meaning of complex phrases in natural language is composed of their individual components. The task of compositional generalization evaluates a model's ability to understand new combinations of components. Previous studies trained smaller, task-specific models, which exhibited poor generalization. While large language models (LLMs) exhibit impressive generalization abilities on many tasks through in-context learning (ICL), their potential for compositional generalization remains unexplored. In this paper, we first empirically investigate prevailing ICL methods in compositional generalization. We find that they struggle with complex compositional questions due to cumulative errors in long reasoning steps and intricate logic required for tool-making. Consequently, we propose a human-guided tool manipulation framework (HTM) that generates tools for sub-questions and integrates multiple tools. Our method enhances the effectiveness of tool creation and usage with minimal human effort. Experiments show that our method achieves state-of-the-art performance on two compositional generalization benchmarks and outperforms existing methods on the most challenging test split by 70%.
翻訳日:2023-12-14 17:23:31 公開日:2023-12-12
# 精神病理の潜伏因子同定のための臨床アンケートの解釈因子化

Interpretable factorization of clinical questionnaires to identify latent factors of psychopathology ( http://arxiv.org/abs/2312.07762v1 )

ライセンス: Link先を確認
Ka Chun Lam, Bridget W Mahony, Armin Raznahan, Francisco Pereira(参考訳) 精神医学研究は、少数の潜在要因を同定し、アンケートデータで測定された行動における精神病理学の症状を理解することを目的としている。 因子分析は、この目的のために伝統的なツールであるが、結果の因子は解釈できない可能性があり、また変数を導出することもある。 さらに、データの欠落は一般的であり、明示的なインプテーションがしばしば必要となる。 これらの制約を克服するために,非負の行列因子化法であるicqf(constructionaled questionnaire factorization)を提案する。 本手法は,因子解釈可能性と解安定性の促進を目的とする。 理論的収束保証を備えた最適化手法と、遅延次元を正確に検出する自動手順を提供する。 これらの手順を現実的な合成データを用いて検証する。 本手法は,健康的脳ネットワークと青年期脳認知発達研究の2つの独立したデータセットにおいて,広く用いられている汎用質問票において有効であることを示す。 具体的には、ICQFは、さまざまな障害の診断情報を保存しながら、ドメインの専門家によって定義された解釈可能性を改善し、より小さなデータセットサイズで競合する手法より優れていることを示す。 これは,本手法の正規化が領域特性と一致することを示唆している。 ICQF のpython実装は \url{https://github.com/jefferykclam/ICQF} で利用可能である。

Psychiatry research seeks to understand the manifestations of psychopathology in behavior, as measured in questionnaire data, by identifying a small number of latent factors that explain them. While factor analysis is the traditional tool for this purpose, the resulting factors may not be interpretable, and may also be subject to confounding variables. Moreover, missing data are common, and explicit imputation is often required. To overcome these limitations, we introduce interpretability constrained questionnaire factorization (ICQF), a non-negative matrix factorization method with regularization tailored for questionnaire data. Our method aims to promote factor interpretability and solution stability. We provide an optimization procedure with theoretical convergence guarantees, and an automated procedure to detect latent dimensionality accurately. We validate these procedures using realistic synthetic data. We demonstrate the effectiveness of our method in a widely used general-purpose questionnaire, in two independent datasets (the Healthy Brain Network and Adolescent Brain Cognitive Development studies). Specifically, we show that ICQF improves interpretability, as defined by domain experts, while preserving diagnostic information across a range of disorders, and outperforms competing methods for smaller dataset sizes. This suggests that the regularization in our method matches domain characteristics. The python implementation for ICQF is available at \url{https://github.com/jefferykclam/ICQF}.
翻訳日:2023-12-14 17:23:12 公開日:2023-12-12
# XC-NAS:多経路畳み込みニューラルネットワークのニューラルネットワーク探索のための新しいセルエンコーディング手法

XC-NAS: A New Cellular Encoding Approach for Neural Architecture Search of Multi-path Convolutional Neural Networks ( http://arxiv.org/abs/2312.07760v1 )

ライセンス: Link先を確認
Trevor Londt, Xiaoying Gao, Peter Andreae, Yi Mei(参考訳) 畳み込みニューラルネットワーク(CNN)は、革新的な技術や複雑なマルチパスアーキテクチャトポロジを導入し、分類タスクにおいて大きな成功を収め続けている。 Neural Architecture Search (NAS)は、これらの複雑なアーキテクチャの設計を自動化することを目的としており、人手による手作業による作業のコストを削減する。 セルラーエンコーディング(CE)は、様々な複雑性を持つ新しいマルチパストポロジの構築に優れた進化的計算手法であり、最近NASを用いて様々な分類タスクのためにCNNアーキテクチャを進化させた。 しかし、既存のCEアプローチには厳しい制限がある。 これらは1つのドメインに限定され、部分的にceのテーマを実装したり、マイクロアーキテクチャの検索空間にのみ焦点を合わせている。 本稿では,画像およびテキスト分類タスクの深さ,幅,複雑さの異なる新しいマルチパスCNNアーキテクチャを進化させる新しいCE表現とアルゴリズムを提案する。 このアルゴリズムは、マクロ構造探索空間に特化している。 さらに、サロゲートモデルアプローチを用いて、アルゴリズムが1gpu日未満でパフォーマンスの高いcnnアーキテクチャを進化させ、十分な数の実験を実行し、科学的堅牢性を達成することができることを示す。 実験の結果,提案手法は競争力が高く,いくつかの最先端手法を破り,画像領域とテキスト領域の両方に一般化可能であることがわかった。

Convolutional Neural Networks (CNNs) continue to achieve great success in classification tasks as innovative techniques and complex multi-path architecture topologies are introduced. Neural Architecture Search (NAS) aims to automate the design of these complex architectures, reducing the need for costly manual design work by human experts. Cellular Encoding (CE) is an evolutionary computation technique which excels in constructing novel multi-path topologies of varying complexity and has recently been applied with NAS to evolve CNN architectures for various classification tasks. However, existing CE approaches have severe limitations. They are restricted to only one domain, only partially implement the theme of CE, or only focus on the micro-architecture search space. This paper introduces a new CE representation and algorithm capable of evolving novel multi-path CNN architectures of varying depth, width, and complexity for image and text classification tasks. The algorithm explicitly focuses on the macro-architecture search space. Furthermore, by using a surrogate model approach, we show that the algorithm can evolve a performant CNN architecture in less than one GPU day, thereby allowing a sufficient number of experiment runs to be conducted to achieve scientific robustness. Experiment results show that the approach is highly competitive, defeating several state-of-the-art methods, and is generalisable to both the image and text domains.
翻訳日:2023-12-14 17:22:51 公開日:2023-12-12
# IDKM: 命令型、微分可能な$k$-Meansによるメモリ効率の良いニューラルネットワーク量子化

IDKM: Memory Efficient Neural Network Quantization via Implicit, Differentiable $k$-Means ( http://arxiv.org/abs/2312.07759v1 )

ライセンス: Link先を確認
Sean Jaffe, Ambuj K. Singh, Francesco Bullo(参考訳) エッジデバイスへのデプロイメントを可能にするためには、パフォーマンス損失を最小限にした大規模なニューラルネットワークの圧縮が不可欠だ。 (Cho et al., 2022) は微分可能な$k$-means (DKM) と呼ばれる注意に基づくクラスタリングアルゴリズムを用いた重み量子化法を提案した。 最先端の結果を得たにもかかわらず、DKMのパフォーマンスはその重いメモリ依存によって制限される。 本稿では,DKMのメモリ制限を解消する暗黙的で微分可能な$k$-meansアルゴリズム(IDKM)を提案する。 $t$ を $k$-means の反復数とし、$m$ をウェイトベクター数とし、$b$ をクラスタアドレス当たりのビット数とする。 IDKMは、単一の$k$-means層の全体的なメモリ複雑性を$\mathcal{O}(t \cdot m \cdot 2^b)$から$\mathcal{O}(m \cdot 2^b)$に減らす。 我々はまた、勾配計算の時間的複雑さが$t$にも依存しない、Jacobian-Free-Backpropagation (IDKM-JFB) の変種IDKMを導入する。 我々は,IDKMがDKMと同等の性能で計算時間が少なく,メモリも少ないことを示すことによって,本手法の概念実証を行う。 また、DKMが全くトレーニングできないハードウェア上で、IDKMとIDKM-JFBを使用して、大規模なニューラルネットワークであるResnet18を定量化しています。

Compressing large neural networks with minimal performance loss is crucial to enabling their deployment on edge devices. (Cho et al., 2022) proposed a weight quantization method that uses an attention-based clustering algorithm called differentiable $k$-means (DKM). Despite achieving state-of-the-art results, DKM's performance is constrained by its heavy memory dependency. We propose an implicit, differentiable $k$-means algorithm (IDKM), which eliminates the major memory restriction of DKM. Let $t$ be the number of $k$-means iterations, $m$ be the number of weight-vectors, and $b$ be the number of bits per cluster address. IDKM reduces the overall memory complexity of a single $k$-means layer from $\mathcal{O}(t \cdot m \cdot 2^b)$ to $\mathcal{O}( m \cdot 2^b)$. We also introduce a variant, IDKM with Jacobian-Free-Backpropagation (IDKM-JFB), for which the time complexity of the gradient calculation is independent of $t$ as well. We provide a proof of concept of our methods by showing that, under the same settings, IDKM achieves comparable performance to DKM with less compute time and less memory. We also use IDKM and IDKM-JFB to quantize a large neural network, Resnet18, on hardware where DKM cannot train at all.
翻訳日:2023-12-14 17:22:26 公開日:2023-12-12
# 表表現学習のための多項式に基づく自己認識

Polynomial-based Self-Attention for Table Representation learning ( http://arxiv.org/abs/2312.07753v1 )

ライセンス: Link先を確認
Jayoung Kim, Yehjin Shin, Noseong Park(参考訳) 既存のデータ型の大部分を構成する構造化データは、機械学習の分野で長年研究されてきたトピックである。 エンコーダ・デコーダ構造からトランスフォーマーまで,様々な表型データ表現学習手法が提案されている。 これらのうち、Transformerベースの手法は、表データだけでなく、コンピュータビジョンや自然言語処理など、様々な分野で最先端のパフォーマンスを実現している。 しかし、最近の研究では、トランスフォーマーのキーコンポーネントである自己注意が過度な問題を引き起こす可能性があることが明らかになっている。 表型データ用トランスフォーマーもこの問題に直面することを示し、この問題に対処するため、モデルのスケーラビリティを高めるために、元の自己アテンション層に代わる新しい行列多項式ベースの自己アテンション層を提案する。 提案層を具備した3つの表学習モデルを用いて実験を行った結果,提案層はオーバースムーシング問題を効果的に軽減し,既存手法の表現性能を向上し,最先端の表表現法を上回った。

Structured data, which constitutes a significant portion of existing data types, has been a long-standing research topic in the field of machine learning. Various representation learning methods for tabular data have been proposed, ranging from encoder-decoder structures to Transformers. Among these, Transformer-based methods have achieved state-of-the-art performance not only in tabular data but also in various other fields, including computer vision and natural language processing. However, recent studies have revealed that self-attention, a key component of Transformers, can lead to an oversmoothing issue. We show that Transformers for tabular data also face this problem, and to address the problem, we propose a novel matrix polynomial-based self-attention layer as a substitute for the original self-attention layer, which enhances model scalability. In our experiments with three representative table learning models equipped with our proposed layer, we illustrate that the layer effectively mitigates the oversmoothing problem and enhances the representation performance of the existing methods, outperforming the state-of-the-art table representation methods.
翻訳日:2023-12-14 17:21:56 公開日:2023-12-12
# 超低温原子における誤差補正状態

Error Correcting States in Ultracold Atoms ( http://arxiv.org/abs/2312.07746v1 )

ライセンス: Link先を確認
Harry C. P. Kendell and Giacaomo Ferranti and Carrie A. Weidner(参考訳) 深部光学格子の個々の部位に閉じ込められた単一超低温原子を用いたGKP(Gottesman-Kitaev-Preskill)誤り訂正量子ビットの符号化法を示す。 量子最適制御プロトコルを用いて、10dBのスクイーズによるGKP量子ビット状態の生成を実証する。 状態は個々の格子サイトの振動レベルに符号化され、格子ポテンシャルの位相変調によって生成される。 最後に、これらの状態を実現するための実現可能な実験プロトコルを提供する。 我々のプロトコルは、連続可変量子情報に対して、原子GKP状態の大規模な配列を生成する可能性を開く。

We demonstrate a method for encoding Gottesman-Kitaev-Preskill (GKP) error-correcting qubits with single ultracold atoms trapped in individual sites of a deep optical lattice. Using quantum optimal control protocols, we demonstrate the generation of GKP qubit states with 10 dB squeezing, which is the current minimum allowable squeezing level for use in surface code error correction. States are encoded in the vibrational levels of the individual lattice sites and generated via phase modulation of the lattice potential. Finally, we provide a feasible experimental protocol for the realization of these states. Our protocol opens up possibilities for generating large arrays of atomic GKP states for continuous-variable quantum information.
翻訳日:2023-12-14 17:21:38 公開日:2023-12-12
# FULL-W2V:GPUアクセラレーションシステム上でのW2Vの完全エクスプロイトデータ再利用

FULL-W2V: Fully Exploiting Data Reuse for W2V on GPU-Accelerated Systems ( http://arxiv.org/abs/2312.07743v1 )

ライセンス: Link先を確認
Thomas Randall, Tyler Allen and Rong Ge(参考訳) Word2Vecは、低次元の高密度ベクトルを持つ人間のテキストにおける潜在文法的および構文的情報を表す自然言語処理(NLP)分野において、非常に重要な革新の1つである。 Word2Vecはアルゴリズム固有のシーケンシャル性、集中的なメモリアクセス、そしてそれが表す大きな語彙のために計算コストが高い。 以前の研究は並列性を探求し、メモリシステムの性能を向上させる技術を調査したが、強力なgpu上でのスループットを効果的に得るのに苦労している。 メモリデータアクセスとレイテンシは、GPUの以前の作業における主要なボトルネックであり、高度に最適化されたカーネルがアーキテクチャのピークパフォーマンスに到達するのを防ぐ。 本稿では、W2Vアルゴリズムにおけるデータ再利用の機会を最大限に活用し、GPUアーキテクチャとリソースを活用して低メモリレベルへのアクセスを削減し、時間的局所性を向上させる新しいアルゴリズムFULL-W2Vを提案する。 FULL-W2Vは、従来の最先端のGPU実装と比較して、GPUグローバルメモリへのアクセスを89 %以上削減できるため、連続するハードウェア世代にまたがる大幅なパフォーマンス向上を実現している。 プロトタイプ実装では,nvidia pascal p100 から volta v100 カードへの移植時の2.97倍の高速化を実現している。 In-deepth Analysisによると、レジスタと共有メモリキャッシュによるメモリアクセスの削減と高スループット共有メモリの削減により、演算強度が大幅に向上した。 フルw2vは、nlpや他のドメインの多くのアプリケーションに役立つ可能性がある。

Word2Vec remains one of the highly-impactful innovations in the field of Natural Language Processing (NLP) that represents latent grammatical and syntactical information in human text with dense vectors in a low dimension. Word2Vec has high computational cost due to the algorithm's inherent sequentiality, intensive memory accesses, and the large vocabularies it represents. While prior studies have investigated technologies to explore parallelism and improve memory system performance, they struggle to effectively gain throughput on powerful GPUs. We identify memory data access and latency as the primary bottleneck in prior works on GPUs, which prevents highly optimized kernels from attaining the architecture's peak performance. We present a novel algorithm, FULL-W2V, which maximally exploits the opportunities for data reuse in the W2V algorithm and leverages GPU architecture and resources to reduce access to low memory levels and improve temporal locality. FULL-W2V is capable of reducing accesses to GPU global memory significantly, e.g., by more than 89\%, compared to prior state-of-the-art GPU implementations, resulting in significant performance improvement that scales across successive hardware generations. Our prototype implementation achieves 2.97X speedup when ported from Nvidia Pascal P100 to Volta V100 cards, and outperforms the state-of-the-art by 5.72X on V100 cards with the same embedding quality. In-depth analysis indicates that the reduction of memory accesses through register and shared memory caching and high-throughput shared memory reduction leads to a significantly improved arithmetic intensity. FULL-W2V can potentially benefit many applications in NLP and other domains.
翻訳日:2023-12-14 17:21:25 公開日:2023-12-12
# 古典的埋め込み分割ケイリー六角形は3要素文脈を持つ3量子文脈性を制御する

Classically-embedded split Cayley hexagons rule three-qubit contextuality with three-element contexts ( http://arxiv.org/abs/2312.07738v1 )

ライセンス: Link先を確認
Metod Saniga, Fr\'ed\'eric Holweck, Colm Kelleher, Axel Muller, Alain Giorgetti, Henri de Boutray(参考訳) よく知られているように、2次ケイリー六角形は古典的およびスキューと呼ばれる2つの非同型埋め込みにおいて3量子シンプレクティック極空間に存在する。 2つの埋め込みはどちらも可観測性に基づく独自の文脈構成を導出しないが、古典的に} 埋め込みされたコピーは、最も顕著な3ビットの文脈構成の文脈性を完全に定義することを発見している: そのような文脈構成のそれぞれの不満足な文脈の集合は、ある古典的な埋め込みの六角形がこの特定の構成と共有する直線の集合に同型である。 特に、この共有集合は、doilyのグリッドに属する3つのペアワイズな不連続な線からなり、楕円二次体に対して対応する集合は、四角形に広がる(デサルゲシアン)を形成する9つの互いに分離した線を特徴としており、双曲線二次体では、集合は、ヒーウッドグラフの辺と単射である21本の線を伴い、最後に、空間の315個のコンテキストすべてからなる構成では、その63個の不満足な線が六角形全体を覆う。 この符号化の特定の図形は、スキュー埋め込みの六角形(英語版)の {\it line-complement} によって提供され、その24の不満足な文脈は、特定の古典的な六角形がスキュー埋め込みのものと異なる24行と正確に一致する。 また,前回報告した事例に関連して,ノイズのある中間スケール量子コンピュータ(nisq)の実験実験を行い,理論的な結果の検証を行った。

As it is well known, split Cayley hexagons of order two live in the three-qubit symplectic polar space in two non-isomorphic embeddings, called classical and skew. Although neither of the two embeddings yields observable-based contextual configurations of their own, {\it classically}-embedded copies are found to fully rule contextuality properties of the most prominent three-qubit contextual configurations in the following sense: each set of unsatisfiable contexts of such a contextual configuration is isomorphic to the set of lines that certain classically-embedded hexagon shares with this particular configuration. In particular, for a doily this shared set comprises three pairwise disjoint lines belonging to a grid of the doily, for an elliptic quadric the corresponding set features nine mutually disjoint lines forming a (Desarguesian) spread on the quadric, for a hyperbolic quadric the set entails 21 lines that are in bijection with the edges of the Heawood graph and, finally, for the configuration that consists of all the 315 contexts of the space its 63 unsatisfiable ones cover an entire hexagon. A particular illustration of this encoding is provided by the {\it line-complement} of a skew-embedded hexagon; its 24 unsatisfiable contexts correspond exactly to those 24 lines in which a particular classical copy of the hexagon differs from the considered skew-embedded one. In connection with the last-mentioned case we also conducted some experimental tests on a Noisy Intermediate Scale Quantum (NISQ) computer to validate our theoretical findings.
翻訳日:2023-12-14 17:20:54 公開日:2023-12-12
# 変圧器を用いた埋め込みと分類対応アテンション層による金融取引の階層的分類

Hierarchical Classification of Financial Transactions Through Context-Fusion of Transformer-based Embeddings and Taxonomy-aware Attention Layer ( http://arxiv.org/abs/2312.07730v1 )

ライセンス: Link先を確認
Antonio J. G. Busson, Rafael Rocha, Rennan Gaio, Rafael Miceli, Ivan Pereira, Daniel de S. Moraes, S\'ergio Colcher, Alvaro Veiga, Bruno Rizzi, Francisco Evangelista, Leandro Santos, Fellipe Marques, Marcos Rabaioli, Diego Feldberg, Debora Mattos, Jo\~ao Pasqua, Diogo Dias(参考訳) 本研究は,金融取引の階層的マルチラベル分類のためのトランスフォーマーベースモデルであるTwo-headed DragoNetを提案する。 我々のモデルは,2つの短いテキスト記述子(商号と事業活動)からコンテキスト埋め込みを生成するトランスフォーマーエンコーダレイヤのスタックに基づいており,次いで,階層的な2段階の分類(マクロとマイクロカテゴリ)に従ってトランザクションを分類するContext Fusionレイヤと2つの出力ヘッドが続く。 最後に,提案した分類学対応注意層は,与えられた分類学で定義された分類階層規則を破る予測を補正する。 提案手法は,F1スコアをカードデータセットで93 %,現在のアカウントデータセットで95%,マクロカテゴリ分類実験において,従来の機械学習手法よりも優れていた。

This work proposes the Two-headed DragoNet, a Transformer-based model for hierarchical multi-label classification of financial transactions. Our model is based on a stack of Transformers encoder layers that generate contextual embeddings from two short textual descriptors (merchant name and business activity), followed by a Context Fusion layer and two output heads that classify transactions according to a hierarchical two-level taxonomy (macro and micro categories). Finally, our proposed Taxonomy-aware Attention Layer corrects predictions that break categorical hierarchy rules defined in the given taxonomy. Our proposal outperforms classical machine learning methods in experiments of macro-category classification by achieving an F1-score of 93\% on a card dataset and 95% on a current account dataset.
翻訳日:2023-12-14 17:20:10 公開日:2023-12-12
# 深層クラスタリングのための環境調和型近傍精錬所

Contextually Affinitive Neighborhood Refinery for Deep Clustering ( http://arxiv.org/abs/2312.07806v1 )

ライセンス: Link先を確認
Chunlin Yu, Ye Shi, Jingya Wang(参考訳) 自己教師付き学習のこれまでの取り組みは、インスタンス識別の観点から深いクラスタリングの研究を啓蒙してきた。 この基盤の上に構築された最近の研究は、意味的に類似したインスタンスをグループ化することの重要性を強調している。 これを実現する効果的な方法の一つは、近傍一貫性によって保存される意味構造を促進することである。 しかし、周辺地域のサンプルは互いに近接しているため制限される可能性があり、実質的に多様な監視信号を提供しない可能性がある。 画像検索の文脈における多彩な再ランク付け手法に着想を得て,より情報に富んだ隣人を,文脈に親和性のある(仲間)近傍で発掘し,その際,地域間一貫性を促進するために,効率的なオンライン再ランク付けプロセスを採用することを提案する。 クラスタ境界近傍の固有近傍雑音を緩和するため, 雑音近傍の問題を回避すべく, 漸進的に緩和された境界フィルタリング手法を提案する。 提案手法は,汎用的な自己教師型フレームワークに容易に統合でき,いくつかのベンチマークで最先端の手法よりも優れている。

Previous endeavors in self-supervised learning have enlightened the research of deep clustering from an instance discrimination perspective. Built upon this foundation, recent studies further highlight the importance of grouping semantically similar instances. One effective method to achieve this is by promoting the semantic structure preserved by neighborhood consistency. However, the samples in the local neighborhood may be limited due to their close proximity to each other, which may not provide substantial and diverse supervision signals. Inspired by the versatile re-ranking methods in the context of image retrieval, we propose to employ an efficient online re-ranking process to mine more informative neighbors in a Contextually Affinitive (ConAff) Neighborhood, and then encourage the cross-view neighborhood consistency. To further mitigate the intrinsic neighborhood noises near cluster boundaries, we propose a progressively relaxed boundary filtering strategy to circumvent the issues brought by noisy neighbors. Our method can be easily integrated into the generic self-supervised frameworks and outperforms the state-of-the-art methods on several popular benchmarks.
翻訳日:2023-12-14 17:09:26 公開日:2023-12-12
# 低次元後投射による不確かさの可視化

Uncertainty Visualization via Low-Dimensional Posterior Projections ( http://arxiv.org/abs/2312.07804v1 )

ライセンス: Link先を確認
Omer Yair, Elias Nehme, Tomer Michaeli(参考訳) 不測の逆問題では、単一の再構成のみを抽出するのではなく、可算解の全スペクトルについての洞察を得ることが一般的である。 妥当な解とその可能性に関する情報は後続分布にコード化されている。 しかし、高次元データでは、この分布を可視化するのは困難である。 本研究では,低次元部分空間上のエネルギーベースモデル(EBM)を用いて後部を推定・可視化するための新しいアプローチを提案する。 具体的には、入力測定と解の低次元部分空間にまたがる方向の集合を受信する条件付きEMMを訓練し、その空間内の後方の確率密度関数を出力する。 提案手法の有効性を多種多様なデータセットおよび画像復元問題に適用し,不確実性定量化と可視化におけるその強みを示す。 このように,本手法は拡散型後部サンプリング器からサンプルを投影するベースラインよりも優れ,桁違いに高速である。 さらに、ガウス後方を仮定するベースラインよりも正確である。

In ill-posed inverse problems, it is commonly desirable to obtain insight into the full spectrum of plausible solutions, rather than extracting only a single reconstruction. Information about the plausible solutions and their likelihoods is encoded in the posterior distribution. However, for high-dimensional data, this distribution is challenging to visualize. In this work, we introduce a new approach for estimating and visualizing posteriors by employing energy-based models (EBMs) over low-dimensional subspaces. Specifically, we train a conditional EBM that receives an input measurement and a set of directions that span some low-dimensional subspace of solutions, and outputs the probability density function of the posterior within that space. We demonstrate the effectiveness of our method across a diverse range of datasets and image restoration problems, showcasing its strength in uncertainty quantification and visualization. As we show, our method outperforms a baseline that projects samples from a diffusion-based posterior sampler, while being orders of magnitude faster. Furthermore, it is more accurate than a baseline that assumes a Gaussian posterior.
翻訳日:2023-12-14 17:09:06 公開日:2023-12-12
# 高次元における埋め込みベクトルの推定

Estimation of embedding vectors in high dimensions ( http://arxiv.org/abs/2312.07802v1 )

ライセンス: Link先を確認
Golara Ahmadi Azar, Melika Emami, Alyson Fletcher, Sundeep Rangan(参考訳) 埋め込みは多くの機械学習モデル、特に自然言語処理における基本的な特徴抽出ステップである。 埋め込みは、データトークンを、同様のトークンが埋め込み空間内のある計量によって互いに近いベクトルにマッピングされる低次元空間にマッピングしようとする。 基本的な質問は、そのような埋め込みがいかにうまく学べるかである。 この問題を考察するために、確率変数の相関が埋め込みの類似性と関連しているような「真」だが未知の埋め込みが存在する離散データに対する単純な確率モデルを考える。 このモデルでは、埋め込みは低ランク近似メッセージパッシング(AMP)法の変種によって学習できることが示されている。 AMPアプローチは、ある高次元極限における推定精度の正確な予測を可能にする。 特に、この方法論は、値当たりのサンプル数、用語の頻度、確率分布に対する埋め込み相関の強さといった重要なパラメータの関係についての洞察を提供する。 理論的な結果は合成データと実文データの両方のシミュレーションによって検証される。

Embeddings are a basic initial feature extraction step in many machine learning models, particularly in natural language processing. An embedding attempts to map data tokens to a low-dimensional space where similar tokens are mapped to vectors that are close to one another by some metric in the embedding space. A basic question is how well can such embedding be learned? To study this problem, we consider a simple probability model for discrete data where there is some "true" but unknown embedding where the correlation of random variables is related to the similarity of the embeddings. Under this model, it is shown that the embeddings can be learned by a variant of low-rank approximate message passing (AMP) method. The AMP approach enables precise predictions of the accuracy of the estimation in certain high-dimensional limits. In particular, the methodology provides insight on the relations of key parameters such as the number of samples per value, the frequency of the terms, and the strength of the embedding correlation on the probability distribution. Our theoretical findings are validated by simulations on both synthetic data and real text data.
翻訳日:2023-12-14 17:08:49 公開日:2023-12-12
# 観光における感性分析:微調整BERTか文埋め込みか?

Sentiment analysis in Tourism: Fine-tuning BERT or sentence embeddings concatenation? ( http://arxiv.org/abs/2312.07797v1 )

ライセンス: Link先を確認
Ibrahim Bouabdallaoui, Fatima Guerouate, Samya Bouhaddour, Chaimae Saadi, Mohammed Sbihi(参考訳) トランスフォーマからの双方向エンコーダ表現が、名前付きエンティティ認識、質問と回答、感情分析といった自然言語処理タスクを作成する上で最も強力な技術であることは疑いないが、伝統的なテクニックの使用は、最近のモデル、特に単語のトークン化技術や埋め込み技術の改善にとって大きな可能性を秘めている。 最近だ 本稿では、トランスフォーマーからの双方向エンコーダ表現を微調整する手法と、2つの埋め込みを結合して積み重ねた双方向長期記憶-双方向Gated Recurrent Unitsモデルの性能を高める方法の比較研究を行い、これら2つのアプローチをモロッコのショッピングモールの感情分析の文脈に適用する。 2つのアプローチのレベルで最高の学習率の探索を行い,2つ目のアプローチについて各文の埋め込み組み合わせについて最適な最適化器の比較を行った。

Undoubtedly that the Bidirectional Encoder representations from Transformers is the most powerful technique in making Natural Language Processing tasks such as Named Entity Recognition, Question & Answers or Sentiment Analysis, however, the use of traditional techniques remains a major potential for the improvement of recent models, in particular word tokenization techniques and embeddings, but also the improvement of neural network architectures which are now the core of each architecture. recent. In this paper, we conduct a comparative study between Fine-Tuning the Bidirectional Encoder Representations from Transformers and a method of concatenating two embeddings to boost the performance of a stacked Bidirectional Long Short-Term Memory-Bidirectional Gated Recurrent Units model; these two approaches are applied in the context of sentiment analysis of shopping places in Morocco. A search for the best learning rate was made at the level of the two approaches, and a comparison of the best optimizers was made for each sentence embedding combination with regard to the second approach.
翻訳日:2023-12-14 17:08:33 公開日:2023-12-12
# 知識ギャップの発見のためのRAG(Harnessing Retrieval-Augmented Generation)

Harnessing Retrieval-Augmented Generation (RAG) for Uncovering Knowledge Gaps ( http://arxiv.org/abs/2312.07796v1 )

ライセンス: Link先を確認
Joan Figuerola Hurtado(参考訳) 本稿では,Retrieval Augmented Generation(RAG)モデルを用いて,インターネット上の知識ギャップを明らかにする手法を提案する。 ユーザの検索行動をシミュレートすることで、RAGシステムは情報検索システムのギャップを特定し、対処する。 本研究は,一致精度93%の関連提案の生成におけるragシステムの有効性を示す。 この手法は、科学的発見、教育強化、研究開発、市場分析、検索エンジン最適化、コンテンツ開発といった様々な分野に適用することができる。 その結果,知識ギャップを特定し,理解することの価値が強調された。

The paper presents a methodology for uncovering knowledge gaps on the internet using the Retrieval Augmented Generation (RAG) model. By simulating user search behaviour, the RAG system identifies and addresses gaps in information retrieval systems. The study demonstrates the effectiveness of the RAG system in generating relevant suggestions with a consistent accuracy of 93%. The methodology can be applied in various fields such as scientific discovery, educational enhancement, research development, market analysis, search engine optimisation, and content development. The results highlight the value of identifying and understanding knowledge gaps to guide future endeavours.
翻訳日:2023-12-14 17:08:14 公開日:2023-12-12
# 軽量変圧器を用いた交通信号制御:オフライン-オンラインRLアプローチ

Traffic Signal Control Using Lightweight Transformers: An Offline-to-Online RL Approach ( http://arxiv.org/abs/2312.07795v1 )

ライセンス: Link先を確認
Xingshuai Huang, Di Wu, and Benoit Boulet(参考訳) 交通渋滞の低減と交通効率の向上に効率的な交通信号制御が重要である。 交通流のダイナミックな性質は、交通信号制御(TSC)のための強化学習(RL)を探究するきっかけとなった。 従来の方法と比較して、RLベースのソリューションは好ましい性能を示している。 しかし,実世界におけるrlベースのトラヒック信号制御の応用は,サンプル効率の低さと高計算能力によって制限される。 本稿では,オフラインデータセットから容易にアクセス可能なポリシを学習可能な,シンプルかつパワフルな意思決定トランスフォーマーベースのtsc手法であるdtlightを提案する。 DTLightは知識蒸留を利用して、よく訓練されたより大きな教師モデルから軽量のコントローラを学び、実装の計算を減らす。 さらに、アダプタモジュールを統合して、微調整に関連するコストを軽減することで、DTLightを最小限の計算でオンライン適応し、実際のデプロイ時にわずか数ステップしか微調整できないものにする。 さらに、DTLightは現実世界のTSC問題にも適用できるように拡張されている。 合成および実世界のシナリオに関する大規模な実験は、オフラインデータセットで純粋にトレーニングされたDTLightが、ほとんどのシナリオで最先端のオンラインRLベースのメソッドより優れていることを示している。 実験の結果、オンラインの微調整により、最高のオンラインRLベースラインメソッドよりもDTLightのパフォーマンスが42.6%向上することが示された。 本研究では、オフラインRL(DTRL)を備えたTSC用に特別に設計されたデータセットについても紹介する。 データセットとコードは公開されています。

Efficient traffic signal control is critical for reducing traffic congestion and improving overall transportation efficiency. The dynamic nature of traffic flow has prompted researchers to explore Reinforcement Learning (RL) for traffic signal control (TSC). Compared with traditional methods, RL-based solutions have shown preferable performance. However, the application of RL-based traffic signal controllers in the real world is limited by the low sample efficiency and high computational requirements of these solutions. In this work, we propose DTLight, a simple yet powerful lightweight Decision Transformer-based TSC method that can learn policy from easily accessible offline datasets. DTLight novelly leverages knowledge distillation to learn a lightweight controller from a well-trained larger teacher model to reduce implementation computation. Additionally, it integrates adapter modules to mitigate the expenses associated with fine-tuning, which makes DTLight practical for online adaptation with minimal computation and only a few fine-tuning steps during real deployment. Moreover, DTLight is further enhanced to be more applicable to real-world TSC problems. Extensive experiments on synthetic and real-world scenarios show that DTLight pre-trained purely on offline datasets can outperform state-of-the-art online RL-based methods in most scenarios. Experiment results also show that online fine-tuning further improves the performance of DTLight by up to 42.6% over the best online RL baseline methods. In this work, we also introduce Datasets specifically designed for TSC with offline RL (referred to as DTRL). Our datasets and code are publicly available.
翻訳日:2023-12-14 17:08:02 公開日:2023-12-12
# 差分的プロジェクション深度に基づく中央値

Differentially private projection-depth-based medians ( http://arxiv.org/abs/2312.07792v1 )

ライセンス: Link先を確認
Kelly Ramsay and Dylan Spicker(参考訳) 提案・テスト・リリース(PTR)と指数的メカニズムを用いて,$(\epsilon,\delta)$-differentially private projection-depth-based mediansを開発した。 入力パラメータと人口測定(例えばモーメント境界を仮定しない)に関する一般的な条件の下では、PTRにおけるテストが失敗する確率と、有限サンプル偏差境界によるプライバシのコストを定量化する。 我々は,標準射影深度に基づく中央値について,主な結果を示す。 ガウス分布において、結果として得られる偏差境界は、共分散行列の条件数の多項式関数まで、プライベートガウス平均推定の既知の下限に一致することを示す。 コーシーな設定では、ヘビーテールによる ``outlier error amplification''' 効果がプライバシのコストを上回っていることを示す。 この結果は数値シミュレーションによって検証される。 さらに、一般のPTR機構と、予測された順序統計間隔に対する均一な濃度結果を示す。

We develop $(\epsilon,\delta)$-differentially private projection-depth-based medians using the propose-test-release (PTR) and exponential mechanisms. Under general conditions on the input parameters and the population measure, (e.g. we do not assume any moment bounds), we quantify the probability the test in PTR fails, as well as the cost of privacy via finite sample deviation bounds. We demonstrate our main result on the canonical projection-depth-based median. In the Gaussian setting, we show that the resulting deviation bound matches the known lower bound for private Gaussian mean estimation, up to a polynomial function of the condition number of the covariance matrix. In the Cauchy setting, we show that the ``outlier error amplification'' effect resulting from the heavy tails outweighs the cost of privacy. This result is then verified via numerical simulations. Additionally, we present results on general PTR mechanisms and a uniform concentration result on the projected spacings of order statistics.
翻訳日:2023-12-14 17:07:42 公開日:2023-12-12
# 特性回路

Characteristic Circuits ( http://arxiv.org/abs/2312.07790v1 )

ライセンス: Link先を確認
Zhongjie Yu, Martin Trapp, Kristian Kersting(参考訳) 多くの現実のシナリオでは、データの複雑な関係を捉えながら、不確実性の下で確実に効率的に推論できることが不可欠である。 確率回路(probabilistic circuits, pcs)は、高次元確率分布(high-dimensional probability distribution)に単純で扱いやすい分布を合成することで、この課題に対処できる。 しかし、異種データのPCの学習は困難であり、いくつかのパラメトリック分布の密度はクローズドな形で利用できないため、潜在的な使用を制限することができる。 スペクトル領域における異種データ上の分布の統一形式化を提供する、可搬確率モデルの一群である特性回路(ccs)を導入する。 特徴関数と確率測度の1対1の関係は、不均一データ領域上の高次元分布を学習し、閉形式密度関数がなくても効率的な確率的推論を容易にする。 我々は,CCの構造とパラメータをデータから効率的に学習し,CCが共通ベンチマークデータセット上の異種データ領域に対する最先端密度推定器より優れていることを示す。

In many real-world scenarios, it is crucial to be able to reliably and efficiently reason under uncertainty while capturing complex relationships in data. Probabilistic circuits (PCs), a prominent family of tractable probabilistic models, offer a remedy to this challenge by composing simple, tractable distributions into a high-dimensional probability distribution. However, learning PCs on heterogeneous data is challenging and densities of some parametric distributions are not available in closed form, limiting their potential use. We introduce characteristic circuits (CCs), a family of tractable probabilistic models providing a unified formalization of distributions over heterogeneous data in the spectral domain. The one-to-one relationship between characteristic functions and probability measures enables us to learn high-dimensional distributions on heterogeneous data domains and facilitates efficient probabilistic inference even when no closed-form density function is available. We show that the structure and parameters of CCs can be learned efficiently from the data and find that CCs outperform state-of-the-art density estimators for heterogeneous data domains on common benchmark data sets.
翻訳日:2023-12-14 17:07:25 公開日:2023-12-12
# コンピュータによる評価が中学生の理科成績に及ぼす影響

Impact of Computer-Based Assessments on the Science's Ranks of Secondary Students ( http://arxiv.org/abs/2312.07789v1 )

ライセンス: Link先を確認
Eduardo A. Soto Rodr\'iguez and Ana Fern\'andez Vilas and Rebeca P. D\'iaz Redondo(参考訳) 本研究は,第2級の教科におけるデジタル・ペーパー・ベース・テストの実施による影響を報告する。 提案手法では,コンピュータと紙による教師による評価で得られた2つのコホートのパーセンタイルのスコアを比較し,テストモード効果のシグナルを求める。 概して、コホートとジェンダーのレベルでは、生徒は両方のテストモードで等しくランク付けされた。 さらに,女性と最上位の生徒は,モードの違いが小さい2つのサブグループであった。 これらの知見の実際的な意義は、ケーススタディのレンズと、通常の学校が高レベルのコンピュータベースのテストを提供する余裕があるかどうかに関する疑念から議論されている。

This study reports the impact of examining either with digital or paper-based tests in science subjects taught across the second-ary level. With our method, we compare the percentile ranking scores of two cohorts earned in computer- and paper-based teacher-made assessments to find signals of a testing mode effect. It was found that overall, at cohort and gender levels, pupils were rank-ordered equivalently in both testing modes. Furthermore, females and top-achieving pupils were the two subgroups where the differences between modes were smaller. The practical implications of these findings are discussed from the lens of a case study and the doubt about whether regular schools could afford to deliver high-stakes computer-based tests.
翻訳日:2023-12-14 17:07:07 公開日:2023-12-12
# 人間のデータを超えた: 言語モデルによる問題解決のための自己学習のスケーリング

Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models ( http://arxiv.org/abs/2312.06585v2 )

ライセンス: Link先を確認
Avi Singh, John D. Co-Reyes, Rishabh Agarwal, Ankesh Anand, Piyush Patil, Peter J. Liu, James Harrison, Jaehoon Lee, Kelvin Xu, Aaron Parisi, Abhishek Kumar, Alex Alemi, Alex Rizkowsky, Azade Nova, Ben Adlam, Bernd Bohnet, Gamaleldin Elsayed, Hanie Sedghi, Igor Mordatch, Isabelle Simpson, Izzeddin Gur, Jasper Snoek, Jeffrey Pennington, Jiri Hron, Kathleen Kenealy, Kevin Swersky, Kshiteej Mahajan, Laura Culp, Lechao Xiao, Maxwell L. Bileschi, Noah Constant, Roman Novak, Rosanne Liu, Tris Warkentin, Yundi Qian, Ethan Dyer, Behnam Neyshabur, Jascha Sohl-Dickstein, Noah Fiedel(参考訳) 人間の生成したデータに対する微調整言語モデル~(lms)が普及している。 しかし、これらのモデルの性能はしばしば高品質な人間のデータの量と多様性によって制限される。 本稿では,スカラーフィードバックにアクセスできるタスク,例えば正当性を検証できる数学問題において,人間のデータを超えることができるかどうかを考察する。 そこで我々は,(1)モデルからサンプルを生成し,二元フィードバックを用いてフィルタリングし,(2)これらのサンプル上でモデルを微調整し,(3)このプロセスを数回繰り返す。 PaLM-2モデルを用いた高度なMATH推論とAPPS符号化ベンチマークを用いて、ReST$^{EM}$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回る。 総じて,フィードバックによる自己学習は,人間生成データへの依存を大幅に低減できることが示唆された。

Fine-tuning language models~(LMs) on human-generated data remains a prevalent practice. However, the performance of such models is often limited by the quantity and diversity of high-quality human data. In this paper, we explore whether we can go beyond human data on tasks where we have access to scalar feedback, for example, on math problems where one can verify correctness. To do so, we investigate a simple self-training method based on expectation-maximization, which we call ReST$^{EM}$, where we (1) generate samples from the model and filter them using binary feedback, (2) fine-tune the model on these samples, and (3) repeat this process a few times. Testing on advanced MATH reasoning and APPS coding benchmarks using PaLM-2 models, we find that ReST$^{EM}$ scales favorably with model size and significantly surpasses fine-tuning only on human data. Overall, our findings suggest self-training with feedback can substantially reduce dependence on human-generated data.
翻訳日:2023-12-14 12:29:14 公開日:2023-12-12
# aiコンペティションとベンチマーク:ポストチャレンジ論文、ベンチマーク、その他の普及行動による影響のある課題に向けて

AI Competitions and Benchmarks: towards impactful challenges with post-challenge papers, benchmarks and other dissemination actions ( http://arxiv.org/abs/2312.06036v2 )

ライセンス: Link先を確認
Antoine Marot, David Rousseau, Zhen Xu(参考訳) AIチャレンジの組織化は最終イベントに終止符を打たない。 長期的な影響も組織化する必要がある。 この章は、チャレンジが正式に完了した後の様々な活動を取り上げている。 異なるアフターチャレンジ活動のターゲットオーディエンスを特定した。 チャレンジのさまざまなアウトプットは、それらを収集する手段でリストされる。 章の主部は典型的なポストカレンゲ紙のテンプレートであり、グラフや、チャレンジを長期のベンチマークに変換する方法についてのアドバイスを含んでいる。

Organising an AI challenge does not end with the final event. The long-lasting impact also needs to be organised. This chapter covers the various activities after the challenge is formally finished. The target audience of different post-challenge activities is identified. The various outputs of the challenge are listed with the means to collect them. The main part of the chapter is a template for a typical post-challenge paper, including possible graphs as well as advice on how to turn the challenge into a long-lasting benchmark.
翻訳日:2023-12-14 12:28:30 公開日:2023-12-12
# 局所時空間表現学習による経時的ニューロ画像解析

Local Spatiotemporal Representation Learning for Longitudinally-consistent Neuroimage Analysis ( http://arxiv.org/abs/2206.04281v4 )

ライセンス: Link先を確認
Mengwei Ren and Neel Dey and Martin A. Styner and Kelly Botteron and Guido Gerig(参考訳) 近年の医療コンピュータビジョンの自己監督的進歩は、分節のような下流のタスクに先立って、グローバルおよび局所的な解剖学的自己相似性を活用している。 しかし、現在の方法ではi.d.画像取得を前提としており、後続の縦スキャンが被験者固有の時間変化を追跡する臨床研究設計では無効である。 さらに、既存の医療関連画像対画像アーキテクチャの自己教師あり手法は、空間的または時間的自己相似性のみを活用し、単一の画像スケールで適用された損失のみを、naive multi-scale spatiotemporal extensions が崩壊して解を縮退させる。 そこで本論文は,(1)長手画像に基づいて訓練された画像・画像アーキテクチャのための局所的・多スケール時空間表現学習手法を提案する。 本研究は,学習対象の多段階内特徴の時空間的自己相似性を利用して事前学習を行い,崩壊した同一性表現を回避したいくつかの特徴量正規化を開発する。 ワンショットセグメンテーション設定でベンチマークされたこのフレームワークは、高度にチューニングされたランダム初期化ベースラインと、i.i.d.と縦型データセットの両方向けに設計された現在の自己教師あり技術の両方を上回っている。 これらの改善は、長手神経変性性成人MRIと幼児脳MRIの両方で示され、より高いパフォーマンスと長手整合性が得られる。

Recent self-supervised advances in medical computer vision exploit global and local anatomical self-similarity for pretraining prior to downstream tasks such as segmentation. However, current methods assume i.i.d. image acquisition, which is invalid in clinical study designs where follow-up longitudinal scans track subject-specific temporal changes. Further, existing self-supervised methods for medically-relevant image-to-image architectures exploit only spatial or temporal self-similarity and only do so via a loss applied at a single image-scale, with naive multi-scale spatiotemporal extensions collapsing to degenerate solutions. To these ends, this paper makes two contributions: (1) It presents a local and multi-scale spatiotemporal representation learning method for image-to-image architectures trained on longitudinal images. It exploits the spatiotemporal self-similarity of learned multi-scale intra-subject features for pretraining and develops several feature-wise regularizations that avoid collapsed identity representations; (2) During finetuning, it proposes a surprisingly simple self-supervised segmentation consistency regularization to exploit intra-subject correlation. Benchmarked in the one-shot segmentation setting, the proposed framework outperforms both well-tuned randomly-initialized baselines and current self-supervised techniques designed for both i.i.d. and longitudinal datasets. These improvements are demonstrated across both longitudinal neurodegenerative adult MRI and developing infant brain MRI and yield both higher performance and longitudinal consistency.
翻訳日:2023-12-13 21:18:09 公開日:2023-12-12
# 学習アルゴリズムのリスク嗜好

Risk Preferences of Learning Algorithms ( http://arxiv.org/abs/2205.04619v3 )

ライセンス: Link先を確認
Andreas Haupt and Aroon Narayanan(参考訳) エージェントのフィードバックからの学習は経済的成果を形作っており、今日では多くの経済意思決定者が学習アルゴリズムを使って連続的な選択を行っている。 このメモは、広く使われている学習アルゴリズムである$\varepsilon$-greedyが創発的なリスク回避を示していることを示している。 同じ期待の作用を提示すると、幅広い条件の下で、$\varepsilon$-Greedy は確率が近づくような低分散作用を選択する。 この創発的な選好は、公平性への懸念から均質化まで幅広い結果をもたらし、よりリスクの高い行動が厳密に高い期待利益率を持つ場合でも、一過性に保持される。 このバイアスを修正する2つの方法について議論する。 最初の方法は、アクションが選択される確率の関数としてデータを重み付けするアルゴリズムを必要とする。 2つめは、多くのデータを集めていないアクションの楽観的な見積もりをアルゴリズムに要求することである。 これらの補正によりリスク中立性が回復することを示す。

Agents' learning from feedback shapes economic outcomes, and many economic decision-makers today employ learning algorithms to make consequential choices. This note shows that a widely used learning algorithm, $\varepsilon$-Greedy, exhibits emergent risk aversion: it prefers actions with lower variance. When presented with actions of the same expectation, under a wide range of conditions, $\varepsilon$-Greedy chooses the lower-variance action with probability approaching one. This emergent preference can have wide-ranging consequences, ranging from concerns about fairness to homogenization, and holds transiently even when the riskier action has a strictly higher expected payoff. We discuss two methods to correct this bias. The first method requires the algorithm to reweight data as a function of how likely the actions were to be chosen. The second requires the algorithm to have optimistic estimates of actions for which it has not collected much data. We show that risk-neutrality is restored with these corrections.
翻訳日:2023-12-13 21:17:36 公開日:2023-12-12
# APG:クリックスルーレート予測のための適応パラメータ生成ネットワーク

APG: Adaptive Parameter Generation Network for Click-Through Rate Prediction ( http://arxiv.org/abs/2203.16218v3 )

ライセンス: Link先を確認
Bencheng Yan, Pengjie Wang, Kai Zhang, Feng Li, Hongbo Deng, Jian Xu, Bo Zheng(参考訳) 多くのWebアプリケーションでは、ディープラーニングベースのCTR予測モデル(略してCTRモデル)が広く採用されている。 従来の深いCTRモデルは、静的な方法でパターンを学習する。 しかし、そのような方法では、基礎となる分布が異なるインスタンスをそれぞれ特徴付けることはほとんどできない。 これは実際に深部CTRモデルの表現力を制限し、準最適結果をもたらす。 本稿では, 適応パラメータ生成ネットワーク (APG) として, 異なるインスタンスに基づいて, 深部CTRモデルのパラメータを動的に生成可能な, 効率的で効果的で普遍的なモジュールを提案する。 その結果, 各種深部CTRモデルにAPGを適用でき, 性能を著しく向上できることがわかった。 一方、APGは通常の深いCTRモデルと比較して、時間コストを38.7\%削減し、メモリ使用量を96.6\%削減できる。 我々はapgを産業支援型検索システムに導入し,それぞれ3-% ctrゲインと1-% rpmゲインを達成した。

In many web applications, deep learning-based CTR prediction models (deep CTR models for short) are widely adopted. Traditional deep CTR models learn patterns in a static manner, i.e., the network parameters are the same across all the instances. However, such a manner can hardly characterize each of the instances which may have different underlying distributions. It actually limits the representation power of deep CTR models, leading to sub-optimal results. In this paper, we propose an efficient, effective, and universal module, named as Adaptive Parameter Generation network (APG), which can dynamically generate parameters for deep CTR models on-the-fly based on different instances. Extensive experimental evaluation results show that APG can be applied to a variety of deep CTR models and significantly improve their performance. Meanwhile, APG can reduce the time cost by 38.7\% and memory usage by 96.6\% compared to a regular deep CTR model. We have deployed APG in the industrial sponsored search system and achieved 3\% CTR gain and 1\% RPM gain respectively.
翻訳日:2023-12-13 21:17:19 公開日:2023-12-12
# 閉じ込められたボゾン原子系における永続的再生

Persistent revivals in a system of trapped bosonic atoms ( http://arxiv.org/abs/2203.08922v2 )

ライセンス: Link先を確認
Carlos Diaz Mejia, Javier de la Cruz, Sergio Lerma-Hernandez and Jorge G. Hirsch(参考訳) 量子カオスの動的シグネチャは、異なる初期状態の生存確率において、位置ノイズと開境界条件を持つ線形鎖に閉じ込められた冷原子の系で観察される。 カオスは小さな障害領域、中間エネルギーに存在していることが示されている。 この研究は7,8と9の異なる部位と原子で行われているが、粒子密度が1である場合に焦点を当てている。 カオス地域でのエネルギーを伴う職業基盤の状態は、長い間進化してきた。 生存確率の挙動の顕著な違いは、エネルギー・固有ベーシス参加比(pr)の異なる状態において見出される。 大きなprを持つものは、平衡前の特徴的なランダム・マトリックス相関ホールを示すのに対し、小さなprを持つものは、平衡の段階まで続くリバイバルに置き換えられる辺縁または全く相関ホールを示さず、量子スカーリング現象との関連を示唆する。

Dynamical signatures of quantum chaos are observed in the survival probability of different initial states, in a system of cold atoms trapped in a linear chain with site noise and open boundary conditions. It is shown that chaos is present in the region of small disorder, at intermediate energies. The study is performed with different number of sites and atoms: 7,8 and 9, but focusing on the case where the particle density is one. States of the occupation basis with energies in the chaotic region are evolved at long times. Remarkable differences in the behaviour of the survival probability are found for states with different energy-eigenbasis participation ratio (PR). Whereas those with large PR clearly exhibit the characteristic random-matrix correlation hole before equilibration, those with small PR present a marginal or even no correlation hole which is replaced by revivals lasting up to the stage of equilibration, suggesting a connection with the quantum scarring phenomenon.
翻訳日:2023-12-13 21:17:04 公開日:2023-12-12
# 対人運転:エンドツーエンドの自動運転を攻撃

Adversarial Driving: Attacking End-to-End Autonomous Driving ( http://arxiv.org/abs/2103.09151v8 )

ライセンス: Link先を確認
Han Wu, Syed Yunas, Sareh Rowlands, Wenjie Ruan, and Johan Wahlstrom(参考訳) ディープニューラルネットワークの研究が進むにつれて、ディープ畳み込みネットワークは自動運転タスクに有望になる。 特に、自動運転にエンドツーエンドのニューラルネットワークモデルを採用するという、新たなトレンドがある。 しかし、以前の研究では、ディープニューラルネットワーク分類器は敵の攻撃に弱いことが示されている。 回帰作業では、敵攻撃の効果はよく理解されていない。 本研究では、エンドツーエンドの自動運転モデルに対する2つのホワイトボックス攻撃を考案する。 我々の攻撃は,入力画像のゆらぎによって自律運転システムの動作を制御する。 同じ攻撃強度(エプシロン=1)の800の攻撃において、画像特異的および画像非依存の攻撃は、それぞれ元の出力から0.478と0.111のステアリング角度を逸脱し、そのステアリング角度を0.002(ステアリング角度は[-1,1]の範囲)だけ摂動するランダムノイズよりもはるかに強い。 どちらの攻撃もGPUを使わずにCPU上でリアルタイムで開始できる。 デモビデオ: https://youtu.be/I0i8uN2oOP0。

As research in deep neural networks advances, deep convolutional networks become promising for autonomous driving tasks. In particular, there is an emerging trend of employing end-to-end neural network models for autonomous driving. However, previous research has shown that deep neural network classifiers are vulnerable to adversarial attacks. While for regression tasks, the effect of adversarial attacks is not as well understood. In this research, we devise two white-box targeted attacks against end-to-end autonomous driving models. Our attacks manipulate the behavior of the autonomous driving system by perturbing the input image. In an average of 800 attacks with the same attack strength (epsilon=1), the image-specific and image-agnostic attack deviates the steering angle from the original output by 0.478 and 0.111, respectively, which is much stronger than random noises that only perturbs the steering angle by 0.002 (The steering angle ranges from [-1, 1]). Both attacks can be initiated in real-time on CPUs without employing GPUs. Demo video: https://youtu.be/I0i8uN2oOP0.
翻訳日:2023-12-13 21:15:18 公開日:2023-12-12
# 量子データ解析の改良

Improved quantum data analysis ( http://arxiv.org/abs/2011.10908v3 )

ライセンス: Link先を確認
Costin B\u{a}descu, Ryan O'Donnell(参考訳) 量子データ解析における基本ルーチンのよりサンプル効率の良いバージョンと簡単な証明を提供する。 特に、$O((\log^2 m)/\epsilon^2)$$d$次元状態 $\rho$ のサンプルのみを必要とする量子 "Threshold Search" アルゴリズムを与える。 つまり、$0 \le A_1, A_2, ..., A_m \le 1$ が$\mathrm{tr}(\rho A_i) \ge 1/2$ となると、このアルゴリズムは$\mathrm{tr}(\rho A_j) \ge 1/2-\epsilon$ で$j$ を求める。 その結果,Shadow Tomography アルゴリズムは$\tilde{O}((\log^2 m)(\log d)/\epsilon^4)$サンプルしか必要とせず,パラメータ $m$, $d$, $\epsilon$ に対して最もよく知られた依存を実現する。 これにより、$m$状態間の量子仮説選択の同じサンプル複雑性が生まれ、$\tilde{o}((\log^3 m)/\epsilon^2)$サンプルを用いる別の仮説選択法も与えられる。

We provide more sample-efficient versions of some basic routines in quantum data analysis, along with simpler proofs. Particularly, we give a quantum "Threshold Search" algorithm that requires only $O((\log^2 m)/\epsilon^2)$ samples of a $d$-dimensional state $\rho$. That is, given observables $0 \le A_1, A_2, ..., A_m \le 1$ such that $\mathrm{tr}(\rho A_i) \ge 1/2$ for at least one $i$, the algorithm finds $j$ with $\mathrm{tr}(\rho A_j) \ge 1/2-\epsilon$. As a consequence, we obtain a Shadow Tomography algorithm requiring only $\tilde{O}((\log^2 m)(\log d)/\epsilon^4)$ samples, which simultaneously achieves the best known dependence on each parameter $m$, $d$, $\epsilon$. This yields the same sample complexity for quantum Hypothesis Selection among $m$ states; we also give an alternative Hypothesis Selection method using $\tilde{O}((\log^3 m)/\epsilon^2)$ samples.
翻訳日:2023-12-13 21:14:56 公開日:2023-12-12
# ガウス過程の混合による能動学習のための局所関数複雑性

Local Function Complexity for Active Learning via Mixture of Gaussian Processes ( http://arxiv.org/abs/1902.10664v6 )

ライセンス: Link先を確認
Danny Panknin, Stefan Chmiela, Klaus-Robert M\"uller, Shinichi Nakajima(参考訳) 実世界のデータにおける不均一性(例えば観測ノイズレベルの変化やソース関数の構造的複雑性の変化)は、統計的推論にユニークな課題をもたらす。 彼らに対する会計は、物理資源や計算時間が制限された場合の予測能力を大幅に向上させることができる。 本稿では,局所多項式平滑化 (lps) の領域から導出した局所関数複雑性 (lfc) の推定について, モデル非依存アクティブラーニング (al) フレームワークの開発に用いられる局所構造複雑性の概念を確立するための最近の理論結果について述べる。 点推定に依存しているため、LPSモデルクラスは実世界の問題に付随する大きな入力空間次元に関して堅牢でスケーラブルではない。 ここでは、LPSベースのLFCのガウス過程回帰(GPR)に基づくアナログを導出、推定し、上記フレームワークの代用として使用し、堅牢でスケーラブルにする。 我々は, 有機分子の量子化学力場を再構築し, トレーニング要求を大幅に減らし, 最先端性能を実証する上で, 実世界の課題に取り組む前に, 原型低次元合成データセットを用いたAL応用におけるLFC推定の有効性を評価する。

Inhomogeneities in real-world data, e.g., due to changes in the observation noise level or variations in the structural complexity of the source function, pose a unique set of challenges for statistical inference. Accounting for them can greatly improve predictive power when physical resources or computation time is limited. In this paper, we draw on recent theoretical results on the estimation of local function complexity (LFC), derived from the domain of local polynomial smoothing (LPS), to establish a notion of local structural complexity, which is used to develop a model-agnostic active learning (AL) framework. Due to its reliance on pointwise estimates, the LPS model class is not robust and scalable concerning large input space dimensions that typically come along with real-world problems. Here, we derive and estimate the Gaussian process regression (GPR)-based analog of the LPS-based LFC and use it as a substitute in the above framework to make it robust and scalable. We assess the effectiveness of our LFC estimate in an AL application on a prototypical low-dimensional synthetic dataset, before taking on the challenging real-world task of reconstructing a quantum chemical force field for a small organic molecule and demonstrating state-of-the-art performance with a significantly reduced training demand.
翻訳日:2023-12-13 21:13:43 公開日:2023-12-12
# タスクの接ベクトル場に沿った積分連続学習

Integral Continual Learning Along the Tangent Vector Field of Tasks ( http://arxiv.org/abs/2211.13108v3 )

ライセンス: Link先を確認
Tian Yu Liu, Aditya Golatkar, Stefano Soatto, Alessandro Achille(参考訳) 本稿では,「ジェネラリスト」モデルのベクトル場に沿って,特殊データセットからの情報を漸進的に組み込む軽量連続学習手法を提案する。 スペシャリストモデルに対する接地平面は、一般のガイドとして機能し、接地平面における最適化景観の凸性を活用しながら、破滅的な忘れ込みにつながる過度な適合を避ける。 それは小さな固定サイズのメモリバッファを維持し、ソースデータセットの0.4%まで低く、単純な再サンプリングによって更新される。 本手法は,様々なバッファサイズで異なるデータセットに対して強い性能を実現する。 具体的には,Seq-CIFAR-10とSeq-TinyImageNetでは,平均18.77%,28.48%の蒸留を必要としない既存手法をそれぞれ上回っている。 本手法は,既存のリプレイ型連続学習手法と組み合わせて容易に利用できる。 メモリバッファの制約が緩和されてロジットなどのメタデータの保存が可能になった場合、Seq-CIFAR-10のパラゴン性能に対して17.84%のエラー低減が達成される。

We propose a lightweight continual learning method which incorporates information from specialized datasets incrementally, by integrating it along the vector field of "generalist" models. The tangent plane to the specialist model acts as a generalist guide and avoids the kind of over-fitting that leads to catastrophic forgetting, while exploiting the convexity of the optimization landscape in the tangent plane. It maintains a small fixed-size memory buffer, as low as 0.4% of the source datasets, which is updated by simple resampling. Our method achieves strong performance across various buffer sizes for different datasets. Specifically, in the class-incremental setting we outperform the existing methods that do not require distillation by an average of 18.77% and 28.48%, for Seq-CIFAR-10 and Seq-TinyImageNet respectively. Our method can easily be used in conjunction with existing replay-based continual learning methods. When memory buffer constraints are relaxed to allow storage of metadata such as logits, we attain an error reduction of 17.84% towards the paragon performance on Seq-CIFAR-10.
翻訳日:2023-12-13 21:06:58 公開日:2023-12-12
# 自己回帰的時間依存を伴う非定常バンディット

Non-Stationary Bandits with Auto-Regressive Temporal Dependency ( http://arxiv.org/abs/2210.16386v3 )

ライセンス: Link先を確認
Qinyi Chen, Negin Golrezaei, Djallel Bouneffouf(参考訳) 従来のマルチアーム・バンディット(MAB)フレームワークは、確率的あるいは敵対的な設定の下で主に検討され、しばしばレコメンデーションシステムやオンライン広告のような多くの現実世界のアプリケーションに固有の時間的ダイナミクスを見落としている。 本稿では, 自己回帰(AR)報酬構造を用いて, 実世界の力学の時間的構造を捉えた新しい非定常MABフレームワークを提案する。 2つの重要なメカニズムを統合するアルゴリズムを提案する。 (i)時間依存を利用して探索と搾取の動的バランスをとるための交替機構 (ii)既報情報を破棄するように設計された再起動機構。 本アルゴリズムは,ロバストな動的ベンチマークに対する後悔を計測することで,下限にほぼ匹敵する後悔上限を達成する。 最後に,観光需要予測に関する実世界のケーススタディを通じて,我々のアルゴリズムの有効性と,より複雑で急速に進化する時系列への我々の手法の適用性の両方を実証する。

Traditional multi-armed bandit (MAB) frameworks, predominantly examined under stochastic or adversarial settings, often overlook the temporal dynamics inherent in many real-world applications such as recommendation systems and online advertising. This paper introduces a novel non-stationary MAB framework that captures the temporal structure of these real-world dynamics through an auto-regressive (AR) reward structure. We propose an algorithm that integrates two key mechanisms: (i) an alternation mechanism adept at leveraging temporal dependencies to dynamically balance exploration and exploitation, and (ii) a restarting mechanism designed to discard out-of-date information. Our algorithm achieves a regret upper bound that nearly matches the lower bound, with regret measured against a robust dynamic benchmark. Finally, via a real-world case study on tourism demand prediction, we demonstrate both the efficacy of our algorithm and the broader applicability of our techniques to more complex, rapidly evolving time series.
翻訳日:2023-12-13 21:06:38 公開日:2023-12-12
# 開量子系の漸近ダイナミクスとモジュラー理論

Asymptotic Dynamics of Open Quantum Systems and Modular Theory ( http://arxiv.org/abs/2210.14548v2 )

ライセンス: Link先を確認
Daniele Amato, Paolo Facchi and Arturo Konderak(参考訳) 本稿では,有限次元開量子系の漸近力学のいくつかの側面を考察する。 まず、周辺写像の構造定理を思い出した後、十分な条件とそのユニタリ性の特徴について論じる。 興味深いことに、これは漸近写像の構造に置換が存在するため必ずしも保証されない。 そこで,富田と竹崎による漸近写像とモジュラー理論の関連性を示す。

In this Article, several aspects of the asymptotic dynamics of finite-dimensional open quantum systems are explored. First, after recalling a structure theorem for the peripheral map, we discuss sufficient conditions and a characterization for its unitarity. Interestingly, this is not always guaranteed due to the presence of permutations in the structure of the asymptotic map. Then, we show the connection between the asymptotic map and the modular theory by Tomita and Takesaki.
翻訳日:2023-12-13 21:06:22 公開日:2023-12-12
# 等角予測集合を用いたベイズ最適化

Bayesian Optimization with Conformal Prediction Sets ( http://arxiv.org/abs/2210.12496v4 )

ライセンス: Link先を確認
Samuel Stanton, Wesley Maddox, and Andrew Gordon Wilson(参考訳) ベイズ最適化は不確実性の下で意思決定を行うためのコヒーレントでユビキタスなアプローチであり、マルチアームバンディット、アクティブラーニング、ブラックボックス最適化などのアプリケーションがある。 ベイジアン最適化は、クエリ結果に関する再現可能でエピステマティックな不確実性を定量化するベイジアンモデルの後方分布に関する決定(すなわち、目的関数クエリ)を最大で期待できるユーティリティで選択する。 実際には、主観的に不可解な結果は2つの理由で定期的に起こりうる。 1)モデル誤特定及び 2)共変量シフト。 コンフォーマル予測は、不確実な定量化手法であり、不特定モデルであってもカバレッジを保証するとともに、共変量シフトを補正するための単純なメカニズムである。 本稿では,モデル予測の有効性が保証された探索空間の領域に対してクエリを指示する共形ベイズ最適化を提案し,ブラックボックス最適化タスクと表ランク付けタスクのスイート上でその振る舞いを検討する。 多くの場合、クエリのカバレッジはサンプル効率を損なうことなく大幅に改善できる。

Bayesian optimization is a coherent, ubiquitous approach to decision-making under uncertainty, with applications including multi-arm bandits, active learning, and black-box optimization. Bayesian optimization selects decisions (i.e. objective function queries) with maximal expected utility with respect to the posterior distribution of a Bayesian model, which quantifies reducible, epistemic uncertainty about query outcomes. In practice, subjectively implausible outcomes can occur regularly for two reasons: 1) model misspecification and 2) covariate shift. Conformal prediction is an uncertainty quantification method with coverage guarantees even for misspecified models and a simple mechanism to correct for covariate shift. We propose conformal Bayesian optimization, which directs queries towards regions of search space where the model predictions have guaranteed validity, and investigate its behavior on a suite of black-box optimization tasks and tabular ranking tasks. In many cases we find that query coverage can be significantly improved without harming sample-efficiency.
翻訳日:2023-12-13 21:06:08 公開日:2023-12-12
# 科学をシンプルにする:科学論文の要約のためのコーパス

Making Science Simple: Corpora for the Lay Summarisation of Scientific Literature ( http://arxiv.org/abs/2210.09932v2 )

ライセンス: Link先を確認
Tomas Goldsack, Zhihao Zhang, Chenghua Lin, Carolina Scarton(参考訳) layの要約は、与えられたテキストをまとめて要約し、単純化することを目的としている。 layの要約のための自動的アプローチは、科学文献へのアクセスを広げる上で重要な価値をもたらし、研究結果に関して学際的な知識共有と公衆の理解の両立を可能にする。 しかし、現在のこのタスクのコーパスはサイズとスコープが限られており、広く適用可能なデータ駆動アプローチの開発を妨げている。 これらの問題を是正するために,本論文はPLOS(大規模)とeLife(大規模)の2つの新しいレイ・サマリゼーション・データセットを提示し,それぞれが専門家が作成したレイ・サマリとともにバイオメディカル・ジャーナル記事を含む。 私たちは、さまざまなアプリケーションのニーズをサポートするために活用できるデータセット間の可読性と抽象性の異なるレベルを強調し、レイサマリーの徹底的な特徴付けを提供します。 最後に、主流の要約アプローチを使用してデータセットをベンチマークし、ドメインエキスパートと手動で評価を行い、その有用性を実証し、このタスクの重要な課題に光を当てる。

Lay summarisation aims to jointly summarise and simplify a given text, thus making its content more comprehensible to non-experts. Automatic approaches for lay summarisation can provide significant value in broadening access to scientific literature, enabling a greater degree of both interdisciplinary knowledge sharing and public understanding when it comes to research findings. However, current corpora for this task are limited in their size and scope, hindering the development of broadly applicable data-driven approaches. Aiming to rectify these issues, we present two novel lay summarisation datasets, PLOS (large-scale) and eLife (medium-scale), each of which contains biomedical journal articles alongside expert-written lay summaries. We provide a thorough characterisation of our lay summaries, highlighting differing levels of readability and abstractiveness between datasets that can be leveraged to support the needs of different applications. Finally, we benchmark our datasets using mainstream summarisation approaches and perform a manual evaluation with domain experts, demonstrating their utility and casting light on the key challenges of this task.
翻訳日:2023-12-13 21:05:47 公開日:2023-12-12
# トランスダクティブおよびセミ教師付き連合学習のためのクロスクライアントラベル伝播

Cross-client Label Propagation for Transductive and Semi-Supervised Federated Learning ( http://arxiv.org/abs/2210.06434v4 )

ライセンス: Link先を確認
Jonathan Scott, Michelle Yeo, Christoph H. Lampert(参考訳) トランスダクティブフェデレーション学習のための新しい手法であるクロスクライアントラベル伝搬(XCLP)を提案する。 XCLPは、複数のクライアントのデータからデータグラフを共同で推定し、ラベル情報をグラフ全体に伝播することによりラベル付きデータのラベルを算出する。 クライアントがデータを誰とでも共有することを避けるため、XCLPは2つの暗号化的にセキュアなプロトコルを使っている。 我々は、連合学習におけるXCLPの2つの異なる応用を実証した。 最初は、見当たらないテストポイントのラベルを予測するために、ワンショットでそれを使用します。 第二に、半教師なしのフェデレーション環境での擬似ラベルなしトレーニングデータを繰り返し使用する。 実際のフェデレーションと標準ベンチマークの両方の実験では、XCLPはどちらのアプリケーションでも、代替手法よりも高い分類精度を達成している。

We present Cross-Client Label Propagation(XCLP), a new method for transductive federated learning. XCLP estimates a data graph jointly from the data of multiple clients and computes labels for the unlabeled data by propagating label information across the graph. To avoid clients having to share their data with anyone, XCLP employs two cryptographically secure protocols: secure Hamming distance computation and secure summation. We demonstrate two distinct applications of XCLP within federated learning. In the first, we use it in a one-shot way to predict labels for unseen test points. In the second, we use it to repeatedly pseudo-label unlabeled training data in a federated semi-supervised setting. Experiments on both real federated and standard benchmark datasets show that in both applications XCLP achieves higher classification accuracy than alternative approaches.
翻訳日:2023-12-13 21:05:03 公開日:2023-12-12
# エネルギー領域における遅い電子の自己トッピング

Self-trapping of slow electrons in the energy domain ( http://arxiv.org/abs/2209.14850v3 )

ライセンス: Link先を確認
Maor Eldar, Zhaopin Chen, Yiming Pan and Michael Kr\"uger(参考訳) 光と急速電子の相互作用により、電子波束の位相コヒーレントな操作と加速が可能になった。 ここでは、低エネルギー電子(約20-200ev)が位相整合光電界と相互作用する新しい方法で、この相互作用を調べる。 解析的および1次元の数値的研究により、低速電子は電子分散の非消滅曲率によるエネルギー領域の強い閉じ込めを受けることが示された。 スペクトルトラップは調整可能であり、光場パラメータの適切な選択は相互作用のダイナミクスを2つのエネルギー状態に還元することができる。 電子をトラップする能力は、電子ビーム物理学、自由電子量子光学、量子シミュレータの範囲を広げる。

The interaction of light and swift electrons has enabled phase-coherent manipulation and acceleration of electron wavepackets. Here we investigate this interaction in a new regime where low-energy electrons (~20-200 eV) interact with a phase-matched light field. Our analytical and one-dimensional numerical study shows that slow electrons are subject to strong confinement in the energy domain due to the non-vanishing curvature of the electron dispersion. The spectral trap is tunable and an appropriate choice of light field parameters can reduce the interaction dynamics to only two energy states. The capacity to trap electrons expands the scope of electron beam physics, free-electron quantum optics and quantum simulators.
翻訳日:2023-12-13 21:04:20 公開日:2023-12-12
# LiveFoodベンチマークによるドメインインクリメンタルビデオハイライト検出の探索

Exploring Domain Incremental Video Highlights Detection with the LiveFood Benchmark ( http://arxiv.org/abs/2209.05166v4 )

ライセンス: Link先を確認
Sen Pei, Shixiong Xu, and Xiaojie Jin(参考訳) video highlights detection (vhd) はコンピュータビジョンの活発な研究分野であり、生の動画入力から最もユーザーを惹きつけるクリップを見つけることを目的としている。 しかしながら、ほとんどのVHDメソッドは、クローズドワールドの仮定に基づいており、例えば、予め多くのハイライトカテゴリが定義されており、すべてのトレーニングデータが事前に利用可能である。 その結果、既存のメソッドはハイライトドメインの増加やトレーニングデータに関してスケーラビリティが低い。 上記の問題に対処するために,グローバルプロトタイプ符号化(gpe)と呼ばれる新しいビデオハイライト検出手法を提案し,パラメータ化されたプロトタイプを用いて新たなドメインへの適応を漸進的に学習する。 この新たな研究の方向性を促進するために、我々はlivefoodという注釈付きデータセットを収集し、材料、調理、プレゼンテーション、食事の4つのドメインからなる5100以上のライブグルメビデオを含む。 私たちの知る限り、これはインクリメンタルな学習環境におけるビデオハイライト検出を探求する最初の仕事であり、関心のある領域とトレーニングデータの両方が時間とともに増加する実用的なシナリオにvhdを適用するための新しい土地を開く。 広範囲な実験を通してGPEの有効性を実証する。 特に、GPEはLiveFoodの一般的なドメインインクリメンタル学習メソッドを超え、すべてのドメインで大きなmAP改善を実現している。 古典的なデータセットに関しては、GPEは以前のアーティファクトと同等のパフォーマンスを得る。 https://github.com/foreverps/incrementalvhd_gpe。

Video highlights detection (VHD) is an active research field in computer vision, aiming to locate the most user-appealing clips given raw video inputs. However, most VHD methods are based on the closed world assumption, i.e., a fixed number of highlight categories is defined in advance and all training data are available beforehand. Consequently, existing methods have poor scalability with respect to increasing highlight domains and training data. To address above issues, we propose a novel video highlights detection method named Global Prototype Encoding (GPE) to learn incrementally for adapting to new domains via parameterized prototypes. To facilitate this new research direction, we collect a finely annotated dataset termed LiveFood, including over 5,100 live gourmet videos that consist of four domains: ingredients, cooking, presentation, and eating. To the best of our knowledge, this is the first work to explore video highlights detection in the incremental learning setting, opening up new land to apply VHD for practical scenarios where both the concerned highlight domains and training data increase over time. We demonstrate the effectiveness of GPE through extensive experiments. Notably, GPE surpasses popular domain incremental learning methods on LiveFood, achieving significant mAP improvements on all domains. Concerning the classic datasets, GPE also yields comparable performance as previous arts. The code is available at: https://github.com/ForeverPs/IncrementalVHD_GPE.
翻訳日:2023-12-13 21:03:57 公開日:2023-12-12
# 逆検出:物体検出をリアルタイムで攻撃する

Adversarial Detection: Attacking Object Detection in Real Time ( http://arxiv.org/abs/2209.01962v6 )

ライセンス: Link先を確認
Han Wu, Syed Yunas, Sareh Rowlands, Wenjie Ruan, and Johan Wahlstrom(参考訳) 知的ロボットは環境を認識するために物体検出モデルに依存している。 ディープラーニングのセキュリティの進歩に続いて、オブジェクト検出モデルは敵の攻撃に対して脆弱であることが判明した。 しかし、以前の研究は主に静的画像やオフラインビデオの攻撃に焦点を当てていた。 したがって、そのような攻撃が動的環境における現実世界のロボットアプリケーションを破壊するかどうかはまだ不明である。 本稿では,オブジェクト検出モデルに対する最初のリアルタイムオンライン攻撃を提案することで,このギャップを埋める。 所望の場所で非存在オブジェクトのバウンディングボックスを構成する3つの攻撃を考案する。 この攻撃は、約20回のイテレーションで約90%の成功率を達成する。 デモビデオはhttps://youtu.be/zjz1anlxsmuで見ることができる。

Intelligent robots rely on object detection models to perceive the environment. Following advances in deep learning security it has been revealed that object detection models are vulnerable to adversarial attacks. However, prior research primarily focuses on attacking static images or offline videos. Therefore, it is still unclear if such attacks could jeopardize real-world robotic applications in dynamic environments. This paper bridges this gap by presenting the first real-time online attack against object detection models. We devise three attacks that fabricate bounding boxes for nonexistent objects at desired locations. The attacks achieve a success rate of about 90% within about 20 iterations. The demo video is available at https://youtu.be/zJZ1aNlXsMU.
翻訳日:2023-12-13 21:03:34 公開日:2023-12-12
# 正規化条件付き平均埋め込み学習のための最適レート

Optimal Rates for Regularized Conditional Mean Embedding Learning ( http://arxiv.org/abs/2208.01711v3 )

ライセンス: Link先を確認
Zhu Li, Dimitri Meunier, Mattes Mollenhauer, Arthur Gretton(参考訳) 条件付き平均埋め込み (conditional mean embedded, cme) のカーネルリッジ回帰推定(kernel ridge regression estimation)の一貫性について論じる。これは、目標再生成カーネル hilbert space $\mathcal{h}_y$ への$y$ の条件付き分布の埋め込みである。 CMEにより、ターゲットRKHS関数の条件付き期待値が得られ、非パラメトリック因果推定やベイズ推定に採用されている。 ここでは、ターゲット CME が入力補間空間から $\mathcal{H}_X$ と $L_2$ を $\mathcal{H}_Y$ に作用するヒルベルト・シュミット作用素の空間にあるような不特定設定に対処する。 この作用素空間は新しく定義されたベクトル値補間空間に同型であることが示されている。 この同型性を用いて、不特定条件下での経験的CME推定器の新しい適応的統計的学習率を導出する。 我々の解析は、$\mathcal{H}_Y$を有限次元と仮定することなく、最適な$O(\log n / n)$レートと一致することを示した。 さらに,学習速度の低い上限を確立し,得られた上限値が最適であることを示す。

We address the consistency of a kernel ridge regression estimate of the conditional mean embedding (CME), which is an embedding of the conditional distribution of $Y$ given $X$ into a target reproducing kernel Hilbert space $\mathcal{H}_Y$. The CME allows us to take conditional expectations of target RKHS functions, and has been employed in nonparametric causal and Bayesian inference. We address the misspecified setting, where the target CME is in the space of Hilbert-Schmidt operators acting from an input interpolation space between $\mathcal{H}_X$ and $L_2$, to $\mathcal{H}_Y$. This space of operators is shown to be isomorphic to a newly defined vector-valued interpolation space. Using this isomorphism, we derive a novel and adaptive statistical learning rate for the empirical CME estimator under the misspecified setting. Our analysis reveals that our rates match the optimal $O(\log n / n)$ rates without assuming $\mathcal{H}_Y$ to be finite dimensional. We further establish a lower bound on the learning rate, which shows that the obtained upper bound is optimal.
翻訳日:2023-12-13 21:03:06 公開日:2023-12-12
# MammoFL:Federated Learningを用いたマンモグラフィ乳房密度推定

MammoFL: Mammographic Breast Density Estimation using Federated Learning ( http://arxiv.org/abs/2206.05575v4 )

ライセンス: Link先を確認
Ramya Muthukrishnan, Angelina Heyler, Keshava Katti, Sarthak Pati, Walter Mankowski, Aprupa Alahari, Michael Sanborn, Emily F. Conant, Christopher Scott, Stacey Winham, Celine Vachon, Pratik Chaudhari, Despina Kontos, Spyridon Bakas(参考訳) 本研究では,ニューラルネットワークを用いた定量的乳房密度推定を自動化し,多施設データセット上でのフェデレート学習の強力なユースケースであることを示す。 対象は,2施設のCC-viewとMLO-viewのマンモグラフィー画像であった。 2つのU-Netは、これらの画像から乳腺と高密度組織のセグメンテーションを行い、次いで乳腺密度(PD)を計算するために、アルゴリズムによって生成されたラベルで別々に訓練された。 ネットワークは、フェデレーション学習でトレーニングされ、3つの非フェデレーションベースラインと比較して、1つはシングルインスティテュートデータセットで、もう1つは集約されたマルチインスティテュートデータセットでトレーニングされた。 アルゴリズムの一般化には,多施設データセットのトレーニングが不可欠であることを示す。 さらに,多施設データセットにおけるフェデレーション学習は,多施設データセットの集中型トレーニングとほぼ同レベルの非知覚データに対するモデル一般化を改善し,この手法にフェデレーション学習を適用し,患者のプライバシを保ちながらアルゴリズムの一般化性を向上させることができることを示した。

In this study, we automate quantitative mammographic breast density estimation with neural networks and show that this tool is a strong use case for federated learning on multi-institutional datasets. Our dataset included bilateral CC-view and MLO-view mammographic images from two separate institutions. Two U-Nets were separately trained on algorithm-generated labels to perform segmentation of the breast and dense tissue from these images and subsequently calculate breast percent density (PD). The networks were trained with federated learning and compared to three non-federated baselines, one trained on each single-institution dataset and one trained on the aggregated multi-institution dataset. We demonstrate that training on multi-institution datasets is critical to algorithm generalizability. We further show that federated learning on multi-institutional datasets improves model generalization to unseen data at nearly the same level as centralized training on multi-institutional datasets, indicating that federated learning can be applied to our method to improve algorithm generalizability while maintaining patient privacy.
翻訳日:2023-12-13 21:02:40 公開日:2023-12-12
# ラウンドロビン微分位相シフトプロトコルにおける高次元符号化

High-dimensional Encoding in the Round-Robin Differential-Phase-Shift Protocol ( http://arxiv.org/abs/2302.07888v2 )

ライセンス: Link先を確認
Mikka Stasiuk, Felix Hufnagel, Xiaoqin Gao, Aaron Z. Goldberg, Fr\'ed\'eric Bouchard, Ebrahim Karimi, Khabat Heshami(参考訳) 量子鍵分布(QKD)では、プロトコルは、高い鍵レート、高いノイズレベルの操作、実用的なセキュリティ考慮など、望ましい実験属性を採用するように調整される。 ラウンドロビン差動位相シフトプロトコル (rrdps) は差動位相シフトプロトコルの一種であり、信号の乱れの監視や実装の実用性の向上といったセキュリティ解析の制約を取り除くために導入された。 RRDPSプロトコルは高次元の量子状態において単一光子の符号化を必要とするが、少なくとも1ビットの秘密鍵しか分散しない。 しかし、別のプロトコルのファミリ、すなわち高次元(HD) QKDは、符号化アルファベットを拡張し、単一の光子がそれぞれ1ビット以上の秘密鍵を運ぶことができる。 高次元のBB84プロトコルは、鍵レートや耐雑音性などの符号化方式の潜在的な利点を実証している。 本稿では、RDPS QKDを任意に大きなエンコードアルファベットに拡張し、セキュリティ効果を探索するアプローチを考案する。 本稿では,概念実証実験を用いて,プロトコルパラメータを最適化することで,様々な実験条件に適応できることを実証する。 提案手法は,hd と dps qkd の両方の情報エンコーディングに対するユニークなアプローチを活用することで,一見非互換な量子通信方式とのギャップを埋めるための洞察を与える。

In quantum key distribution (QKD), protocols are tailored to adopt desirable experimental attributes, including high key rates, operation in high noise levels, and practical security considerations. The round-robin differential phase shift protocol (RRDPS), falling in the family of differential phase shift protocols, was introduced to remove restrictions on the security analysis, such as the requirement to monitor signal disturbances, improving its practicality in implementations. While the RRDPS protocol requires the encoding of single photons in high-dimensional quantum states, at most, only one bit of secret key is distributed per sifted photon. However, another family of protocols, namely high-dimensional (HD) QKD, enlarges the encoding alphabet, allowing single photons to carry more than one bit of secret key each. The high-dimensional BB84 protocol exemplifies the potential benefits of such an encoding scheme, such as larger key rates and higher noise tolerance. Here, we devise an approach to extend the RRDPS QKD to an arbitrarily large encoding alphabet and explore the security consequences. We demonstrate our new framework with a proof-of-concept experiment and show that it can adapt to various experimental conditions by optimizing the protocol parameters. Our approach offers insight into bridging the gap between seemingly incompatible quantum communication schemes by leveraging the unique approaches to information encoding of both HD and DPS QKD.
翻訳日:2023-12-13 20:55:04 公開日:2023-12-12
# Gamma-Phi損失の分類校正について

On Classification-Calibration of Gamma-Phi Losses ( http://arxiv.org/abs/2302.07321v2 )

ライセンス: Link先を確認
Yutong Wang and Clayton D. Scott(参考訳) Gamma-Phi の損失は、ロジスティックやその他の一般的な損失を一般化する多クラス分類損失関数の族であり、加速文学に応用されている。 このような損失の分類・校正(CC)のための、最初の一般的な条件を確立する。 私たちの知る限り、この十分条件は、ccが完全に正当化されている非凸マルチクラスサーロゲート損失の最初のファミリーを与える。 さらに,従来提案されていた十分条件が十分でないことを示す。 この貢献は、マルチクラスccの研究において重要な技術的課題を浮き彫りにするが、以前の作業では無視されている。

Gamma-Phi losses constitute a family of multiclass classification loss functions that generalize the logistic and other common losses, and have found application in the boosting literature. We establish the first general sufficient condition for the classification-calibration (CC) of such losses. To our knowledge, this sufficient condition gives the first family of nonconvex multiclass surrogate losses for which CC has been fully justified. In addition, we show that a previously proposed sufficient condition is in fact not sufficient. This contribution highlights a technical issue that is important in the study of multiclass CC but has been neglected in prior work.
翻訳日:2023-12-13 20:54:39 公開日:2023-12-12
# 過パラメータモデル学習のためのガウスニュートンの再考

Rethinking Gauss-Newton for learning over-parameterized models ( http://arxiv.org/abs/2302.02904v3 )

ライセンス: Link先を確認
Michael Arbel and Romain Menegaux and Pierre Wolinski(参考訳) 本研究は,平均場環境におけるオーバーパラメータの1層ネットワーク最適化におけるガウス・ニュートン(gn)のグローバル収束と暗黙のバイアスについて研究する。 まず, 条件改善によるGDよりも高速な収束率を示す連続時間限界において, GNのグローバル収束結果を確立する。 次に,GNの手法の暗黙的偏見を調べるために,合成回帰タスクに関する実証的研究を行った。 gn はgd よりも大域的最適度を求めるのが早いが、学習したモデルはランダム初期重みから小さな分散で開始し、小さなステップサイズで収束を遅くするテストデータによく一般化する。 具体的には, 線形層が過度に最適化されていないため, モデルが準最適トレーニングと試験性能を有するにもかかわらず, ダイナミクスが優れた一般化特性を持つ特徴を回復できる隠れ学習現象が生じることを示す。 本研究では,GNの収束速度と学習解の一般化能力とのトレードオフを示す。

This work studies the global convergence and implicit bias of Gauss Newton's (GN) when optimizing over-parameterized one-hidden layer networks in the mean-field regime. We first establish a global convergence result for GN in the continuous-time limit exhibiting a faster convergence rate compared to GD due to improved conditioning. We then perform an empirical study on a synthetic regression task to investigate the implicit bias of GN's method. While GN is consistently faster than GD in finding a global optimum, the learned model generalizes well on test data when starting from random initial weights with a small variance and using a small step size to slow down convergence. Specifically, our study shows that such a setting results in a hidden learning phenomenon, where the dynamics are able to recover features with good generalization properties despite the model having sub-optimal training and test performances due to an under-optimized linear layer. This study exhibits a trade-off between the convergence speed of GN and the generalization ability of the learned solution.
翻訳日:2023-12-13 20:54:24 公開日:2023-12-12
# 簡易拡散:高分解能画像のためのエンドツーエンド拡散

Simple diffusion: End-to-end diffusion for high resolution images ( http://arxiv.org/abs/2301.11093v2 )

ライセンス: Link先を確認
Emiel Hoogeboom, Jonathan Heek, Tim Salimans(参考訳) 現在,高解像度画像の画素空間における拡散モデルの適用は困難である。 その代わり、既存のアプローチは低次元空間における拡散(相対拡散)にフォーカスするか、カスケードと呼ばれる複数の超解像レベルを持つ。 欠点は、これらのアプローチが拡散フレームワークにさらに複雑さをもたらすことです。 本稿では,高分解能画像のデノナイズ拡散を改善することを目的とした。 この論文は、高分解能画像上で標準的な拡散モデルを訓練し、それでもこれらの代替手法に匹敵する性能を得ることができるか? 4つの主な発見は 1)高解像度画像のノイズスケジュールを調整すべきである。 2) アーキテクチャの特定の部分のみをスケールするには十分です。 3) アーキテクチャ内の特定の場所にドロップアウトを追加する必要がある。 4) ダウンサンプリングは高解像度の特徴マップを避けるための効果的な戦略である。 これらの単純かつ効果的な手法を組み合わせることで、ImageNet上のモデレータをサンプリングすることなく拡散モデル間の画像生成の最先端を実現する。

Currently, applying diffusion models in pixel space of high resolution images is difficult. Instead, existing approaches focus on diffusion in lower dimensional spaces (latent diffusion), or have multiple super-resolution levels of generation referred to as cascades. The downside is that these approaches add additional complexity to the diffusion framework. This paper aims to improve denoising diffusion for high resolution images while keeping the model as simple as possible. The paper is centered around the research question: How can one train a standard denoising diffusion models on high resolution images, and still obtain performance comparable to these alternate approaches? The four main findings are: 1) the noise schedule should be adjusted for high resolution images, 2) It is sufficient to scale only a particular part of the architecture, 3) dropout should be added at specific locations in the architecture, and 4) downsampling is an effective strategy to avoid high resolution feature maps. Combining these simple yet effective techniques, we achieve state-of-the-art on image generation among diffusion models without sampling modifiers on ImageNet.
翻訳日:2023-12-13 20:54:06 公開日:2023-12-12
# 量子ビット冷却と加熱による熱力学的状態変換性の決定

Thermodynamic state convertibility is determined by qubit cooling and heating ( http://arxiv.org/abs/2301.06048v2 )

ライセンス: Link先を確認
Thomas Theurer, Elia Zanoni, Carlo Maria Scandolo, Gilad Gour(参考訳) 熱力学は物理学の基礎と技術応用の両方において重要な役割を担っている。 近年の運用の観点からは、量子資源理論として定式化されている。 この理論の核心は、熱平衡状態(すなわち熱平衡状態)の間の相互変換である。 ここでは、熱平衡状態にある他の量子系を熱して冷却するためにアサーモナリティをどのように利用できるかという問題を解く。 次に,準古典的資源(異なるエネルギー固有状態間のコヒーレンスを示さない資源)間の変換性は,量子ビットを冷却・加熱する能力,すなわち最も単純な量子系における2つの基本的な熱力学的タスクによって完全に特徴づけられることを示した。

Thermodynamics plays an important role both in the foundations of physics and in technological applications. An operational perspective adopted in recent years is to formulate it as a quantum resource theory. At the core of this theory is the interconversion between athermality states, i.e., states out of thermal equilibrium. Here, we solve the question how athermality can be used to heat and cool other quantum systems that are initially at thermal equilibrium. We then show that the convertibility between quasi-classical resources (resources that do not exhibit coherence between different energy eigenstates) is fully characterized by their ability to cool and heat qubits, i.e., by two of the most fundamental thermodynamical tasks on the simplest quantum systems.
翻訳日:2023-12-13 20:53:51 公開日:2023-12-12
# 最適化問題の自動定式化のための入力中のハイライト名前付きエンティティ

Highlighting Named Entities in Input for Auto-Formulation of Optimization Problems ( http://arxiv.org/abs/2212.13201v3 )

ライセンス: Link先を確認
Neeraj Gangwar and Nickvash Kani(参考訳) 運用研究は、数学的最適化問題として現実世界の問題のモデリングと解決を扱っている。 数学のシステムを解くことは分析ソフトウェアによって行われるが、数学の操作の集合として問題を定式化するのはドメインの専門家が手作業で行うのが一般的である。 最近の機械学習手法は、テキスト上の問題記述を対応する数学的定式化に変換することを約束している。 本稿では,線形計画語問題を数学的定式化する手法を提案する。 入力中の名前付きエンティティを活用し、これらのエンティティを強調するために入力を強化します。 提案手法は,NL4Optコンペティションへの応募者の中で最も精度が高く,第1位を確保している。

Operations research deals with modeling and solving real-world problems as mathematical optimization problems. While solving mathematical systems is accomplished by analytical software, formulating a problem as a set of mathematical operations has been typically done manually by domain experts. Recent machine learning methods have shown promise in converting textual problem descriptions to corresponding mathematical formulations. This paper presents an approach that converts linear programming word problems into mathematical formulations. We leverage the named entities in the input and augment the input to highlight these entities. Our approach achieves the highest accuracy among all submissions to the NL4Opt Competition, securing first place in the generation track.
翻訳日:2023-12-13 20:52:51 公開日:2023-12-12
# ディック量子電池の充電の強化学習最適化

Reinforcement learning optimization of the charging of a Dicke quantum battery ( http://arxiv.org/abs/2212.12397v2 )

ライセンス: Link先を確認
Paolo Andrea Erdman, Gian Marcello Andolina, Vittorio Giovannetti, Frank No\'e(参考訳) 量子電池(Quantum Battery)は、量子力学が支配するエネルギー貯蔵装置で、集団効果によって高い充電性能を約束する。 ディッケ電池は実験可能なため、共通の光子モードと結合した2段階のシステムで構成されており、量子電池の最も有望な設計の1つである。 ここでは強化学習を用いて,結合強度の変調やシステムキャビティのデチューニングにより,ディッケバッテリの充電プロセスを最適化する。 標準の帯電戦略に関して,抽出可能なエネルギー(エルゴトロピー)と量子力学的エネルギーゆらぎ(チャージ精度)が大幅に改善できることがわかった。 特に、バッテリーがほぼ完全に充電された場合でも、充電時間の集団的スピードアップは維持できる。

Quantum batteries are energy-storing devices, governed by quantum mechanics, that promise high charging performance thanks to collective effects. Due to its experimental feasibility, the Dicke battery - which comprises $N$ two-level systems coupled to a common photon mode - is one of the most promising designs for quantum batteries. Here, we use reinforcement learning to optimize the charging process of a Dicke battery either by modulating the coupling strength, or the system-cavity detuning. We find that the extractable energy (ergotropy) and quantum mechanical energy fluctuations (charging precision) can be greatly improved with respect to standard charging strategies. Notably, the collective speedup of the charging time can be preserved even when nearly fully charging the battery.
翻訳日:2023-12-13 20:52:41 公開日:2023-12-12
# 観測可能推定を支援する量子メモリ

Quantum memory assisted observable estimation ( http://arxiv.org/abs/2212.07710v3 )

ライセンス: Link先を確認
Liubov A. Markovich, Attaallah Almasi, Sina Zeytino\u{g}lu and Johannes Borregaard(参考訳) 多ビット可観測物の推定は、量子情報処理の重要な課題である。 一般に適用可能なアプローチは、可観測物を多重量子ビットパウリ弦の重み付き和、すなわち単一量子ビットパウリ行列のテンソル積に分解することであり、これは単一の量子ビット回転で容易に測定できる。 しかし、このアプローチにおけるショットノイズの蓄積は、有限個の測定値に対する達成可能な分散を著しく制限する。 本稿では,測定情報を格納・蓄積可能な単一量子メモリへのアクセスを利用して,この制限を回避する新しい手法であるCoherent Pauli Summation(CPS)を提案する。 本アルゴリズムは,分解オブザーバブルのpauli文字列数に線形にスケールする所定の分散に対して,必要な測定数の削減を提供する。 我々の研究は、単一長コヒーレンス量子ビットメモリが、基数タスクにおけるノイズの多い多ビット量子デバイスの動作にどのように役立つかを示す。

The estimation of many-qubit observables is an essential task of quantum information processing. The generally applicable approach is to decompose the observables into weighted sums of multi-qubit Pauli strings, i.e., tensor products of single-qubit Pauli matrices, which can readily be measured with single qubit rotations. The accumulation of shot noise in this approach, however, severely limits the achievable variance for a finite number of measurements. We introduce a novel method, dubbed Coherent Pauli Summation (CPS) that circumvents this limitation by exploiting access to a single-qubit quantum memory in which measurement information can be stored and accumulated. Our algorithm offers a reduction in the required number of measurements for a given variance that scales linearly with the number of Pauli strings of the decomposed observable. Our work demonstrates how a single long-coherence qubit memory can assist the operation of noisy many-qubit quantum devices in a cardinal task.
翻訳日:2023-12-13 20:52:11 公開日:2023-12-12
# NFResNet:デブロアリングのためのマルチスケールおよびU字型ネットワーク

NFResNet: Multi-scale and U-shaped Networks for Deblurring ( http://arxiv.org/abs/2212.05909v2 )

ライセンス: Link先を確認
Tanish Mittal, Preyansh Agrawal, Esha Pahwa, Aarya Makwana(参考訳) マルチスケールおよびU字型ネットワークは、デブロアリングを含む様々な画像復元問題に広く利用されている。 幅広い応用を念頭に置いて,これらのアーキテクチャの比較と画像の劣化に対する影響について述べる。 また、NFResblockと呼ばれる新しいブロックも導入する。 高速フーリエ変換層と一連の修正された非線形活性化自由ブロックからなる。 これらのアーキテクチャと追加に基づき,NFResnetとNFResnet+を導入し,それぞれマルチスケールアーキテクチャとU-Netアーキテクチャを改良した。 また、これらのアーキテクチャをトレーニングするために、Charbonnier Loss、Edge Loss、 Frequency Reconstruction Lossという3つの異なる損失関数を使用します。 本稿では,各成分のアブレーション研究とともに,深部ビデオデブラリングデータセットに関する広範囲な実験を行った。 提案手法は,Pak Signal to Noise (PSNR) 比と構造類似度指数 (SSIM) の値を大きく向上させる。

Multi-Scale and U-shaped Networks are widely used in various image restoration problems, including deblurring. Keeping in mind the wide range of applications, we present a comparison of these architectures and their effects on image deblurring. We also introduce a new block called as NFResblock. It consists of a Fast Fourier Transformation layer and a series of modified Non-Linear Activation Free Blocks. Based on these architectures and additions, we introduce NFResnet and NFResnet+, which are modified multi-scale and U-Net architectures, respectively. We also use three different loss functions to train these architectures: Charbonnier Loss, Edge Loss, and Frequency Reconstruction Loss. Extensive experiments on the Deep Video Deblurring dataset, along with ablation studies for each component, have been presented in this paper. The proposed architectures achieve a considerable increase in Peak Signal to Noise (PSNR) ratio and Structural Similarity Index (SSIM) value.
翻訳日:2023-12-13 20:51:56 公開日:2023-12-12
# 洪水画像予測のための階層的地形注意と多スケール降雨誘導

Hierarchical Terrain Attention and Multi-Scale Rainfall Guidance For Flood Image Prediction ( http://arxiv.org/abs/2212.01819v2 )

ライセンス: Link先を確認
Feifei Wang, Yong Wang, Bing Li, Qidong Huang, Shaoqing Chen(参考訳) 気候の悪化に伴い、降雨による洪水現象が頻発している。 影響を軽減するために、最近の研究は洪水を予測するために畳み込みニューラルネットワークまたはその変種を採用する。 しかし,これらの手法は,地形特徴や降雨パターンに含まれる基礎的な情報を見渡すことで,洪水画像の生の画素をグローバル制約により再構成することを直接的に強制する。 そこで本稿では,地形の空間的特徴量に着目した階層的地形空間的注意を取り入れ,降水パターン情報の生成を広範囲に統合する多層降水モデルを構築した,正確な洪水マップ予測のための新しい枠組みを提案する。 種々の降雨条件下でモデルに適応するため, 発電機と判別器の双方に降雨回帰損失を付加監督として活用する。 実漁獲量データセットの広範な評価は,降雨条件の異なる過去の技術を大きく上回る,本手法の優れた性能を示す。

With the deterioration of climate, the phenomenon of rain-induced flooding has become frequent. To mitigate its impact, recent works adopt convolutional neural network or its variants to predict the floods. However, these methods directly force the model to reconstruct the raw pixels of flood images through a global constraint, overlooking the underlying information contained in terrain features and rainfall patterns. To address this, we present a novel framework for precise flood map prediction, which incorporates hierarchical terrain spatial attention to help the model focus on spatially-salient areas of terrain features and constructs multi-scale rainfall embedding to extensively integrate rainfall pattern information into generation. To better adapt the model in various rainfall conditions, we leverage a rainfall regression loss for both the generator and the discriminator as additional supervision. Extensive evaluations on real catchment datasets demonstrate the superior performance of our method, which greatly surpasses the previous arts under different rainfall conditions.
翻訳日:2023-12-13 20:51:41 公開日:2023-12-12
# ループホールフリー非局所相関の任意大距離への拡張

Extending loophole-free nonlocal correlations to arbitrarily large distances ( http://arxiv.org/abs/2211.14231v2 )

ライセンス: Link先を確認
Anubhav Chaturvedi, Giuseppe Viola, Marcin Paw{\l}owski(参考訳) 量子理論の最も顕著な特徴の1つは、ベル非局所性と呼ばれる現象である局所的な隠れ変数(古典的)の説明に抵抗する相関関係を遠方の観測者が共有できることである。 基礎的関連性に加えて、非局所的な相関により、遠くの観測者が古典的に理解不能な情報処理や、無条件でセキュアなデバイスに依存しない鍵配布方式のような暗号的な成果を達成できる。 しかし, 最先端ベル実験で非局所相関を実現できる距離は, 検出器の閾値効率が高く, 実験ノイズに対する非局所相関の脆弱さのため, かなり制限されている。 極端に低いしきい値条件で量子戦略を求める代わりに、ループホールのない非局所相関の性質を利用する。 具体的には,空間的に分離した参加者が測定装置の位置をランダムに選択するベル実験について考察する。 ソースに近いデバイスが完璧で、極端に抜け穴のない非局所相関を目撃すると、そのような相関はソースから任意に離れたデバイスに拡張でき、検出効率と可視性はほぼゼロである。 ソースに近い不完全性に対応するために、特定の分析的トレードオフを示す: ソースに近い抜け穴のない非局所性が高いほど、ソースから閾値要件を低くする。 この解析的トレードオフを最適量子戦略と組み合わせて、ソースから離れた測定装置の臨界条件を推定し、汎用的なネットワークシナリオに適用可能な汎用数値法を定式化する。

One of the most striking features of quantum theory is that it allows distant observers to share correlations that resist local hidden variable (classical) explanations, a phenomenon referred to as Bell nonlocality. Besides their foundational relevance, the nonlocal correlations enable distant observers to accomplish classically inconceivable information processing and cryptographic feats such as unconditionally secure device-independent key distribution schemes. However, the distances over which nonlocal correlations can be realized in state-of-the-art Bell experiments remain severely limited owing to the high threshold efficiencies of the detectors and the fragility of the nonlocal correlations to experimental noise. Instead of looking for quantum strategies with marginally lower threshold requirements, we exploit the properties of loophole-free nonlocal correlations, which are experimentally attainable today, albeit at short distances, to extend them over arbitrarily large distances. Specifically, we consider Bell experiments wherein the spatially separated parties randomly choose the location of their measurement devices in addition to their measurement settings. We demonstrate that when devices close to the source are perfect and witness extremal loophole-free nonlocal correlations, such correlations can be extended to devices placed arbitrarily far from the source, with almost-zero detection efficiency and visibility. To accommodate imperfections close to the source, we demonstrate a specific analytical tradeoff: the higher the loophole-free nonlocality close to the source, the lower the threshold requirements away from the source. We utilize this analytical tradeoff paired with optimal quantum strategies to estimate the critical requirements of a measurement device placed away from the source and formulate a versatile numerical method applicable to generic network scenarios.
翻訳日:2023-12-13 20:51:21 公開日:2023-12-12
# cornerformer: きめ細かい構造再構築のためのコーナー表現の強化

CornerFormer: Boosting Corner Representation for Fine-Grained Structured Reconstruction ( http://arxiv.org/abs/2304.07072v4 )

ライセンス: Link先を確認
Hongbo Tian and Yulong Li and Linzhi Huang and Xu Ling and Yue Yang and Jiani Hu(参考訳) 構造化再構成は非自明な密集した予測問題であり、ラスター画像から構造情報(例えば、建物角とエッジ)を抽出し、それを2次元平面グラフに再構成する。 一般的なセグメンテーションや検出問題と比較すると、構造的推論に全体幾何学的情報を活用する能力に大きく依存する。 現在の変圧器ベースのアプローチは、第1モデルのコーナーを検出し、第2モデルのエッジ(コーナーペア)を分類する、2段階的な方法でこの問題に取り組む。 しかし、2段階を異なるモデルに分離し、バックボーンエンコーダのみを共有する。 既存のモデリング戦略と異なり,コーナー表現法が強化されている。 1) 異なる粒度で特徴を共有することにより,コーナー検出とエッジ予測の知識を融合させる。 2)角膜候補は4つの熱マップチャネルにおいてその方向を示す。 質的および定量的評価により,提案手法は隣接する角や微小な縁などの細粒構造をよりよく再構成できることが証明された。 その結果、Cornerでは+1.9\%@F-1、Edgeでは+3.0\%@F-1で最先端モデルより優れている。

Structured reconstruction is a non-trivial dense prediction problem, which extracts structural information (\eg, building corners and edges) from a raster image, then reconstructs it to a 2D planar graph accordingly. Compared with common segmentation or detection problems, it significantly relays on the capability that leveraging holistic geometric information for structural reasoning. Current transformer-based approaches tackle this challenging problem in a two-stage manner, which detect corners in the first model and classify the proposed edges (corner-pairs) in the second model. However, they separate two-stage into different models and only share the backbone encoder. Unlike the existing modeling strategies, we present an enhanced corner representation method: 1) It fuses knowledge between the corner detection and edge prediction by sharing feature in different granularity; 2) Corner candidates are proposed in four heatmap channels w.r.t its direction. Both qualitative and quantitative evaluations demonstrate that our proposed method can better reconstruct fine-grained structures, such as adjacent corners and tiny edges. Consequently, it outperforms the state-of-the-art model by +1.9\%@F-1 on Corner and +3.0\%@F-1 on Edge.
翻訳日:2023-12-13 20:44:08 公開日:2023-12-12
# 有限次元スペクトル動的埋め込みによる確率非線形制御

Stochastic Nonlinear Control via Finite-dimensional Spectral Dynamic Embedding ( http://arxiv.org/abs/2304.03907v2 )

ライセンス: Link先を確認
Tongzheng Ren, Zhaolin Ren, Na Li, Haitong Ma and Bo Dai(参考訳) 本稿では,非線形確率系の最適制御のためのスペクトルダイナミクス埋め込み制御(SDEC)を提案する。 この方法は無限次元の特徴を利用して状態-作用値関数を線形に表現し、実用的な実装のために有限次元のトランケーション近似を利用する。 これらの有限次元近似の有効性を特徴付けるために,有限次元切断による近似誤差と有限サンプル近似による統計誤差を,政策評価と政策最適化の両方において詳細に理論的に解析する。 我々の分析には、2つの顕著なカーネル近似法が含まれている。 また,このアルゴリズムを実験的に検証し,いくつかのベンチマーク問題に対するクープマン法,iLQR法,エネルギー法との比較を行った。

This paper presents an approach, Spectral Dynamics Embedding Control (SDEC), to optimal control for nonlinear stochastic systems. This method leverages an infinite-dimensional feature to linearly represent the state-action value function and exploits finite-dimensional truncation approximation for practical implementation. To characterize the effectiveness of these finite dimensional approximations, we provide an in-depth theoretical analysis to characterize the approximation error induced by the finite-dimension truncation and statistical error induced by finite-sample approximation in both policy evaluation and policy optimization. Our analysis includes two prominent kernel approximation methods: truncations onto random features and Nystrom features. We also empirically test the algorithm and compare the performance with Koopman-based, iLQR, and energy-based methods on a few benchmark problems.
翻訳日:2023-12-13 20:43:52 公開日:2023-12-12
# DeepAccident: V2X自動運転の動作と事故予測ベンチマーク

DeepAccident: A Motion and Accident Prediction Benchmark for V2X Autonomous Driving ( http://arxiv.org/abs/2304.01168v4 )

ライセンス: Link先を確認
Tianqi Wang, Sukmin Kim, Wenxuan Ji, Enze Xie, Chongjian Ge, Junsong Chen, Zhenguo Li, Ping Luo(参考訳) 安全は自動運転の優先事項である。 それでも、現在公表されているデータセットは、自律運転の直接的かつ説明可能な安全性評価をサポートしていない。 本研究では,実世界の運転時に頻繁に発生する多様な事故シナリオを含む現実的なシミュレータを用いて生成された大規模データセットであるdeepaccidentを提案する。 提案したDeepAccidentデータセットは,57Kの注釈付きフレームと285Kの注釈付きサンプルを含む。 さらに,異なる自律運転アルゴリズムの事故予測能力を直接評価するために,エンド・ツー・エンド動作と事故予測という新たなタスクを提案する。 さらに,各シナリオに対して,データ記録のための4台の車両と1台のインフラを設定し,事故シナリオの多様な視点を提供し,V2X(車間通信)による知覚と予測タスクの実現を可能にした。 最後に,V2XFormerと呼ばれるベースラインV2Xモデルを提案する。

Safety is the primary priority of autonomous driving. Nevertheless, no published dataset currently supports the direct and explainable safety evaluation for autonomous driving. In this work, we propose DeepAccident, a large-scale dataset generated via a realistic simulator containing diverse accident scenarios that frequently occur in real-world driving. The proposed DeepAccident dataset includes 57K annotated frames and 285K annotated samples, approximately 7 times more than the large-scale nuScenes dataset with 40k annotated samples. In addition, we propose a new task, end-to-end motion and accident prediction, which can be used to directly evaluate the accident prediction ability for different autonomous driving algorithms. Furthermore, for each scenario, we set four vehicles along with one infrastructure to record data, thus providing diverse viewpoints for accident scenarios and enabling V2X (vehicle-to-everything) research on perception and prediction tasks. Finally, we present a baseline V2X model named V2XFormer that demonstrates superior performance for motion and accident prediction and 3D object detection compared to the single-vehicle model.
翻訳日:2023-12-13 20:43:39 公開日:2023-12-12
# 古典的および量子的決定項過程による臨床データインプテーションの改善

Improved clinical data imputation via classical and quantum determinantal point processes ( http://arxiv.org/abs/2303.17893v2 )

ライセンス: Link先を確認
Skander Kazdaghli, Iordanis Kerenidis, Jens Kieckbusch and Philip Teare(参考訳) 医療データ不足が典型的であり,その信頼性が極めて重要である,生命科学領域を含む機械学習実践者にとって,インプットデータは重要な問題である。 現在、臨床データの計算に標準的アプローチは存在せず、広く使われているアルゴリズムは下流分類にばらつきをもたらす。 本稿では,MICEやMissForestといった多変量帰納法(多変量帰納法)を普及させる決定点過程に基づく新しい計算法を提案する。 その利点は2つある:下流分類の精度の向上によって示される含意データの質を改善すること、そして分類結果からばらつきを取り除く決定論的で信頼性の高い含意を提供すること。 本手法の利点を, 合成および実際の臨床データに対して広範囲なインプテーションを行うことで実験的に実証する。 また,dppサンプリングに量子回路を適用することで,量子ハードウェア実験を行う。 我々は、最先端のIBM量子プロセッサ上での小規模計算タスクに対して最大10キュービットの競合結果を示す。 古典的・量子的手法は臨床データ予測モデルの有効性とロバスト性を改善し、より良く信頼性の高いデータインプットを提供する。 これらの改善は、我々のアプローチが予測に高い信頼性をもたらす薬品試験など、高い精度を必要とする設定において大きな価値をもたらす可能性がある。

Imputing data is a critical issue for machine learning practitioners, including in the life sciences domain, where missing clinical data is a typical situation and the reliability of the imputation is of great importance. Currently, there is no canonical approach for imputation of clinical data and widely used algorithms introduce variance in the downstream classification. Here we propose novel imputation methods based on determinantal point processes that enhance popular techniques such as the Multivariate Imputation by Chained Equations (MICE) and MissForest. Their advantages are two-fold: improving the quality of the imputed data demonstrated by increased accuracy of the downstream classification; and providing deterministic and reliable imputations that remove the variance from the classification results. We experimentally demonstrate the advantages of our methods by performing extensive imputations on synthetic and real clinical data. We also perform quantum hardware experiments by applying the quantum circuits for DPP sampling, since such quantum algorithms provide a computational advantage with respect to classical ones. We demonstrate competitive results with up to ten qubits for small-scale imputation tasks on a state-of-the-art IBM quantum processor. Our classical and quantum methods improve the effectiveness and robustness of clinical data prediction modeling by providing better and more reliable data imputations. These improvements can add significant value in settings demanding high precision, such as in pharmaceutical drug trials where our approach can provide higher confidence in the predictions made.
翻訳日:2023-12-13 20:43:20 公開日:2023-12-12
# Diffusion Schr\"odinger Bridge Matching

Diffusion Schr\"odinger Bridge Matching ( http://arxiv.org/abs/2303.16852v3 )

ライセンス: Link先を確認
Yuyang Shi, Valentin De Bortoli, Andrew Campbell, Arnaud Doucet(参考訳) 輸送問題の解決、すなわちある分布を別の分布に輸送する地図を見つけることは、機械学習に多くの応用がある。 生成的モデルに動機づけられた新しい質量移動法が最近提案されており、例えば、分極拡散モデル(ddms)とフローマッチングモデル(fmms)は、そのような移動を確率微分方程式(sde)または常微分方程式(ode)で実装している。 しかし、多くの応用において、魅力的な特性を持つ決定論的動的最適輸送(OT)マップを近似することが望ましいが、DDMとFMMはOTマップに近い輸送を提供することが保証されていない。 対照的に、Schr\"odinger bridges (SBs) は OT のエントロピー規則化されたバージョンを復元する確率的動的写像を計算する。 残念なことに、SBを近似する既存の数値法は、次元のスケールが低かったり、繰り返しにまたがってエラーを蓄積する。 本稿では,SB問題を解決するための新しい手法であるIterative Markovian Fitting (IMF)と,IMFの反復計算のための新しい数値アルゴリズムであるDiffusion Schr\"odinger Bridge Matching (DSBM)を紹介する。 DSBMは従来のSB数値よりも大幅に改善され、様々な最近の輸送方法の特殊な/制限ケースとして回復する。 様々な問題についてDSBMの性能を実証する。

Solving transport problems, i.e. finding a map transporting one given distribution to another, has numerous applications in machine learning. Novel mass transport methods motivated by generative modeling have recently been proposed, e.g. Denoising Diffusion Models (DDMs) and Flow Matching Models (FMMs) implement such a transport through a Stochastic Differential Equation (SDE) or an Ordinary Differential Equation (ODE). However, while it is desirable in many applications to approximate the deterministic dynamic Optimal Transport (OT) map which admits attractive properties, DDMs and FMMs are not guaranteed to provide transports close to the OT map. In contrast, Schr\"odinger bridges (SBs) compute stochastic dynamic mappings which recover entropy-regularized versions of OT. Unfortunately, existing numerical methods approximating SBs either scale poorly with dimension or accumulate errors across iterations. In this work, we introduce Iterative Markovian Fitting (IMF), a new methodology for solving SB problems, and Diffusion Schr\"odinger Bridge Matching (DSBM), a novel numerical algorithm for computing IMF iterates. DSBM significantly improves over previous SB numerics and recovers as special/limiting cases various recent transport methods. We demonstrate the performance of DSBM on a variety of problems.
翻訳日:2023-12-13 20:42:56 公開日:2023-12-12
# リカレントニューラルネットワークと物理共変量を用いた一組のPVシステムによる日内電力出力予測

Forecasting Intraday Power Output by a Set of PV Systems using Recurrent Neural Networks and Physical Covariates ( http://arxiv.org/abs/2303.08459v2 )

ライセンス: Link先を確認
Pierrick Bruneau, David Fiorelli, Christian Braun, Daniel Koster(参考訳) PhotoVoltaic (PV) システムによって出力される電力の正確な日内予測は、エネルギー分配グリッドの動作を改善するために重要である。 本稿では,このような日内予測を行う神経自己回帰モデルについて述べる。 我々は、物理的で決定論的なpvパフォーマンスモデルを構築し、その出力はニューラルネットワークのコンテキストで共変量として使用される。 さらに、アプリケーションデータは、地理的に分散したPVシステムの集合に関連している。 すべてのPVサイトを単一のニューラルモデルで処理し、PVサイトに関する情報を特定の共変量に埋め込む。 季節効果の明示的なモデリングに依存するスケールフリーなアプローチを用いる。 本提案は,当初小売部門で使用されていたモデルを再利用し,新たなガウス出力分布を開示する。 論文からのアブレーション研究と代替アーキテクチャとの比較により、最高の性能のモデル変種作業のコンポーネントは、ベースラインとして使用される物理モデルに関して15.72%のスキルスコアに達するために相乗的に機能することが示されている。

Accurate intraday forecasts of the power output by PhotoVoltaic (PV) systems are critical to improve the operation of energy distribution grids. We describe a neural autoregressive model which aims at performing such intraday forecasts. We build upon a physical, deterministic PV performance model, the output of which being used as covariates in the context of the neural model. In addition, our application data relates to a geographically distributed set of PV systems. We address all PV sites with a single neural model, which embeds the information about the PV site in specific covariates. We use a scale-free approach which does rely on explicit modelling of seasonal effects. Our proposal repurposes a model initially used in the retail sector, and discloses a novel truncated Gaussian output distribution. An ablation study and a comparison to alternative architectures from the literature shows that the components in the best performing proposed model variant work synergistically to reach a skill score of 15.72% with respect to the physical model, used as a baseline.
翻訳日:2023-12-13 20:42:15 公開日:2023-12-12
# ArCL: Augmentation-Robust表現によるコントラスト学習の促進

ArCL: Enhancing Contrastive Learning with Augmentation-Robust Representations ( http://arxiv.org/abs/2303.01092v2 )

ライセンス: Link先を確認
Xuyang Zhao and Tianqi Du and Yisen Wang and Jun Yao and Weiran Huang(参考訳) Self-Supervised Learning (SSL)は、モデルトレーニングにラベルのないデータを活用するパラダイムである。 実験的な研究により、sslは下流の分布とトレーニングの分布が異なる分散シフトシナリオにおいて有望なパフォーマンスを達成できることが示されている。 しかし、その移動可能性に関する理論的理解は限られている。 本稿では,データ拡張の影響を調べることにより,自己教師ありコントラスト学習の伝達可能性を分析するための理論的枠組みを提案する。 この結果から,コントラスト学習の下流性能はデータ拡張の選択に大きく依存していることが判明した。 さらに、対照的な学習は、その伝達可能性を制限するドメイン不変の特徴を学習できないことを示す。 これらの理論的知見に基づいて、ドメイン不変の特徴を学習し、既存のコントラスト学習アルゴリズムと容易に統合できるAugmentation-robust Contrastive Learning (ArCL) という新しい手法を提案する。 複数のデータセットで実験を行い,arclがコントラスト学習の伝達性を大幅に向上させることを示した。

Self-Supervised Learning (SSL) is a paradigm that leverages unlabeled data for model training. Empirical studies show that SSL can achieve promising performance in distribution shift scenarios, where the downstream and training distributions differ. However, the theoretical understanding of its transferability remains limited. In this paper, we develop a theoretical framework to analyze the transferability of self-supervised contrastive learning, by investigating the impact of data augmentation on it. Our results reveal that the downstream performance of contrastive learning depends largely on the choice of data augmentation. Moreover, we show that contrastive learning fails to learn domain-invariant features, which limits its transferability. Based on these theoretical insights, we propose a novel method called Augmentation-robust Contrastive Learning (ArCL), which guarantees to learn domain-invariant features and can be easily integrated with existing contrastive learning algorithms. We conduct experiments on several datasets and show that ArCL significantly improves the transferability of contrastive learning.
翻訳日:2023-12-13 20:41:33 公開日:2023-12-12
# GTRL: エンティティグループを考慮した時間的知識グラフ表現学習法

GTRL: An Entity Group-Aware Temporal Knowledge Graph Representation Learning Method ( http://arxiv.org/abs/2302.11091v2 )

ライセンス: Link先を確認
Xing Tang, Ling Chen(参考訳) 時間的知識グラフ(TKG)表現学習は、イベント予測や質問応答などの下流タスクに不可欠な時間的情報を統合することで、エンティティとイベントタイプを連続した低次元ベクトル空間に埋め込む。 既存の手法では、複数のグラフ畳み込み層を積み重ねて、遠方のエンティティの影響をモデル化する。 問題を緩和するため,近年の研究では,遠隔者の影響のモデル化に寄与する経路を得るために強化学習を取り入れている。 しかしながら、ホップ数が限られているため、これらの研究は遠く離れていて到達不能なエンティティ間の相関を捉えられなかった。 そこで本稿では,グループ対応の時間知識グラフ表現学習手法であるGTRLを提案する。 GTRLは、有限層のみを積み重ねることで、エンティティ間の相関を捉えるためにエンティティグループモデリングを組み込んだ最初の研究である。 具体的には、エンティティからエンティティグループを生成するためにentity group mapperが提案されている。 実体群に基づく暗黙相関エンコーダは、任意の対の実体群間の暗黙的相関を捉えるために導入された。 さらに、階層的なGCNを利用して、エンティティグループグラフとエンティティグラフのメッセージ集約と表現更新を実現する。 最後に、GRUはTKGの時間依存性を捉えるために使用される。 3つの実世界のデータセットに対する大規模な実験は、GTRLがイベント予測タスクにおける最先端のパフォーマンスを達成し、それぞれ13.44%、9.65%、12.15%、15.12%のMRR、Hits@1、Hits@3、Hits@10で最高のベースラインを上回っていることを示している。

Temporal Knowledge Graph (TKG) representation learning embeds entities and event types into a continuous low-dimensional vector space by integrating the temporal information, which is essential for downstream tasks, e.g., event prediction and question answering. Existing methods stack multiple graph convolution layers to model the influence of distant entities, leading to the over-smoothing problem. To alleviate the problem, recent studies infuse reinforcement learning to obtain paths that contribute to modeling the influence of distant entities. However, due to the limited number of hops, these studies fail to capture the correlation between entities that are far apart and even unreachable. To this end, we propose GTRL, an entity Group-aware Temporal knowledge graph Representation Learning method. GTRL is the first work that incorporates the entity group modeling to capture the correlation between entities by stacking only a finite number of layers. Specifically, the entity group mapper is proposed to generate entity groups from entities in a learning way. Based on entity groups, the implicit correlation encoder is introduced to capture implicit correlations between any pairwise entity groups. In addition, the hierarchical GCNs are exploited to accomplish the message aggregation and representation updating on the entity group graph and the entity graph. Finally, GRUs are employed to capture the temporal dependency in TKGs. Extensive experiments on three real-world datasets demonstrate that GTRL achieves the state-of-the-art performances on the event prediction task, outperforming the best baseline by an average of 13.44%, 9.65%, 12.15%, and 15.12% in MRR, Hits@1, Hits@3, and Hits@10, respectively.
翻訳日:2023-12-13 20:40:08 公開日:2023-12-12
# 一般化に基づく類似性

Generalization-based similarity ( http://arxiv.org/abs/2302.10096v4 )

ライセンス: Link先を確認
Christian Anti\'c(参考訳) 一見遠く離れた物体間の類似点の検出と利用は、間違いなく重要な人間の能力である。 本稿では、要素の重要な性質を一般化の集合がエンコードする観察に基づいて、抽象代数的および定性的正当化に基づく類似性の概念である「textit{from the ground up」を開発する。 このように定義される類似性は数学的性質に訴える。 普遍代数学の基本的な概念のみを用いて第一原理から類似性の概念を構築し、その妥当性を読者に納得させることで、モデル理論型を通して自然に一階論理に組み込むことができることを示す。

Detecting and exploiting similarities between seemingly distant objects is without doubt an important human ability. This paper develops \textit{from the ground up} an abstract algebraic and qualitative justification-based notion of similarity based on the observation that sets of generalizations encode important properties of elements. We show that similarity defined in this way has appealing mathematical properties. As we construct our notion of similarity from first principles using only elementary concepts of universal algebra, to convince the reader of its plausibility, we show that it can be naturally embedded into first-order logic via model-theoretic types.
翻訳日:2023-12-13 20:39:34 公開日:2023-12-12
# 言語構造の線形時間モデリング:順序論的視点

Linear-Time Modeling of Linguistic Structure: An Order-Theoretic Perspective ( http://arxiv.org/abs/2305.15057v2 )

ライセンス: Link先を確認
Tianyu Liu, Afra Amini, Mrinmaya Sachan, Ryan Cotterell(参考訳) 文字列内のトークンのペア間の関係をモデル化するタスクは、自然言語を理解する上で不可欠な部分である。 このようなタスクは一般的に、トークンのペア単位での徹底的な比較が必要となるため、文字列の長さが2倍に複雑になる。 これらの徹底的な比較を回避できることを示すとともに,文字列上の部分順序としてトークン間の関係をキャストすることで,タスクの複雑さを線形に低減できることを示す。 提案手法は,文字列中の各トークンの実際の数を並列に予測し,それに従ってトークンをソートすることで,文字列内のトークンの総順序を決定する。 各順序は、予測数によってソートされた、より小さいトークンからより大きなトークンへと向き付けられた弧の集合を意味する。 トータルオーダーの交叉は文字列のトークン集合上の部分順序となり、その後、所望の言語構造を表す有向グラフに復号される。 依存関係解析とコア参照分解に関する実験により,本手法が最先端あるいは同等の性能を実現することを示す。 さらに,本手法の線形複雑性と並列性は,グラフベースコリファレンス分解モデルの速度を2倍にし,グラフベースの依存性パーサよりも10倍の高速化を実現する。

Tasks that model the relation between pairs of tokens in a string are a vital part of understanding natural language. Such tasks, in general, require exhaustive pair-wise comparisons of tokens, thus having a quadratic runtime complexity in the length of the string. We show that these exhaustive comparisons can be avoided, and, moreover, the complexity of such tasks can be reduced to linear by casting the relation between tokens as a partial order over the string. Our method predicts real numbers for each token in a string in parallel and sorts the tokens accordingly, resulting in total orders of the tokens in the string. Each total order implies a set of arcs oriented from smaller to greater tokens, sorted by their predicted numbers. The intersection of total orders results in a partial order over the set of tokens in the string, which is then decoded into a directed graph representing the desired linguistic structure. Our experiments on dependency parsing and coreference resolution show that our method achieves state-of-the-art or comparable performance. Moreover, the linear complexity and parallelism of our method double the speed of graph-based coreference resolution models, and bring a 10-times speed-up over graph-based dependency parsers.
翻訳日:2023-12-13 20:33:01 公開日:2023-12-12
# 画像復元問題に対する空間相関による主不確かさの定量化

Principal Uncertainty Quantification with Spatial Correlation for Image Restoration Problems ( http://arxiv.org/abs/2305.10124v2 )

ライセンス: Link先を確認
Omer Belhasin, Yaniv Romano, Daniel Freedman, Ehud Rivlin, Michael Elad(参考訳) 近年,画像の逆問題に対する不確かさの定量化が注目されている。 この課題に対する既存のアプローチでは、ピクセル当たりの確率値に基づいて不確かさ領域を定義するが、画像内の空間的相関は無視し、不確実性が誇張される。 本稿では,画像内の空間的関係を考慮した新しい定義とそれに対応する不確かさ領域の解析を行うPUQ(Principal Uncertainity Quantification)を提案する。 近年の生成モデルの進歩を用いて,経験的後方分布の主成分周辺の不確実性間隔を導出し,ユーザ定義の信頼確率による真の未知値の包含を保証する曖昧性領域を形成する。 計算効率と解釈可能性を向上させるため,数個の主方向のみを用いて真の未知値の回復を保証し,より情報に富む不確実性領域を実現する。 提案手法は,画像の着色,超解像,塗布実験により検証され,その有効性はベースライン法との比較により示され,より厳密な不確実性領域を示す。

Uncertainty quantification for inverse problems in imaging has drawn much attention lately. Existing approaches towards this task define uncertainty regions based on probable values per pixel, while ignoring spatial correlations within the image, resulting in an exaggerated volume of uncertainty. In this paper, we propose PUQ (Principal Uncertainty Quantification) -- a novel definition and corresponding analysis of uncertainty regions that takes into account spatial relationships within the image, thus providing reduced volume regions. Using recent advancements in generative models, we derive uncertainty intervals around principal components of the empirical posterior distribution, forming an ambiguity region that guarantees the inclusion of true unseen values with a user-defined confidence probability. To improve computational efficiency and interpretability, we also guarantee the recovery of true unseen values using only a few principal directions, resulting in more informative uncertainty regions. Our approach is verified through experiments on image colorization, super-resolution, and inpainting; its effectiveness is shown through comparison to baseline methods, demonstrating significantly tighter uncertainty regions.
翻訳日:2023-12-13 20:32:40 公開日:2023-12-12
# 易軸強磁性体を有するキャビティマグノニクス:臨界に強化されたマグノンスクイーズと光-物質相互作用

Cavity magnonics with easy-axis ferromagnet: Critically enhanced magnon squeezing and light-matter interaction ( http://arxiv.org/abs/2305.08119v2 )

ライセンス: Link先を確認
Jongjun M. Lee, Hyun-Woo Lee, Myung-Joong Hwang(参考訳) マグノンスクイージングの生成と探索は、量子マグノニクスの分野において重要な課題である。 本研究では,この課題に対処するため,容易軸強磁性体を用いたキャビティマグノニクスのセットアップを提案する。 この目的のために,我々はまず,容易軸強磁性体におけるマグノンスクイーズの発生機構を確立し,イジング相転移点近傍の外部磁場をチューニングすることにより、マグノンスクイーズを臨界的に向上させることができることを示す。 磁石を空洞磁場に結合すると、有効キャビティ-マグノン相互作用はマグノンスクイーズに比例し、静磁場を用いてキャビティ-マグノン結合強度を高めることができる。 キャビティフィールドの周波数シフトを測定することで,マグノンスクイーズを探査できることを実証した。 さらに, 静磁場をチューニングすることで, マグネトロン超ラジアント相転移を観測することができ, キャビティとマグネットとの磁気相互作用が弱すぎて超ラジアント相転移を駆動できないという課題を克服できる。 我々の研究は、磁石の内在的性質を利用して、従来の空洞QED物理を超える空洞マグノニクスのユニークな能力を開発する方法である。

Generating and probing the magnon squeezing is an important challenge in the field of quantum magnonics. In this work, we propose a cavity magnonics setup with an easy-axis ferromagnet to address this challenge. To this end, we first establish a mechanism for the generation of magnon squeezing in the easy-axis ferromagnet and show that the magnon squeezing can be critically enhanced by tuning an external magnetic field near the Ising phase transition point. When the magnet is coupled to the cavity field, the effective cavity-magnon interaction becomes proportional to the magnon squeezing, allowing one to enhance the cavity-magnon coupling strength using a static field. We demonstrate that the magnon squeezing can be probed by measuring the frequency shift of the cavity field. Moreover, a magnonic superradiant phase transition can be observed in our setup by tuning the static magnetic field, overcoming the challenge that the magnetic interaction between the cavity and the magnet is typically too weak to drive the superradiant transition. Our work paves the way to develop unique capabilities of cavity magnonics that goes beyond the conventional cavity QED physics by harnessing the intrinsic property of a magnet.
翻訳日:2023-12-13 20:32:20 公開日:2023-12-12
# 情報検索における検索と大規模言語モデルとの相乗的相互作用

Synergistic Interplay between Search and Large Language Models for Information Retrieval ( http://arxiv.org/abs/2305.07402v3 )

ライセンス: Link先を確認
Jiazhan Feng, Chongyang Tao, Xiubo Geng, Tao Shen, Can Xu, Guodong Long, Dongyan Zhao, Daxin Jiang(参考訳) 情報検索(IR)は大量のデータから関連資源を抽出する上で重要な役割を担い、その応用は従来の知識ベースから現代検索モデル(RM)へと進化してきた。 大規模言語モデル(LLM)の出現は、ユーザーが自然言語で検索システムと対話できるようにすることによって、IR分野にさらなる革命をもたらした。 本稿では LLM と RM の長所と短所を考察し,ユーザ発行クエリの理解と最新情報検索におけるそれぞれの強みを強調した。 制約を回避しつつ、両パラダイムの利点を活用するために、RMとLLMの相乗効果による情報改善を促進する新しいフレームワークInteRを提案する。 InteRにより、RMはLLM生成した知識コレクションを使用してクエリにおける知識を拡大し、LLMが検索したドキュメントを使用した迅速な定式化を強化することができる。 この反復的な精錬プロセスはRMとLLMの入力を増大させ、より正確な検索につながる。 Web検索と低リソース検索タスクを含む大規模検索ベンチマーク実験により、InteRは、関連判定を用いた場合でさえ、最先端の手法と比較して、全体的なゼロショット検索性能が優れていることが示された。 ソースコードはhttps://github.com/Cyril-JZ/InteRで入手できる。

Information retrieval (IR) plays a crucial role in locating relevant resources from vast amounts of data, and its applications have evolved from traditional knowledge bases to modern retrieval models (RMs). The emergence of large language models (LLMs) has further revolutionized the IR field by enabling users to interact with search systems in natural languages. In this paper, we explore the advantages and disadvantages of LLMs and RMs, highlighting their respective strengths in understanding user-issued queries and retrieving up-to-date information. To leverage the benefits of both paradigms while circumventing their limitations, we propose InteR, a novel framework that facilitates information refinement through synergy between RMs and LLMs. InteR allows RMs to expand knowledge in queries using LLM-generated knowledge collections and enables LLMs to enhance prompt formulation using retrieved documents. This iterative refinement process augments the inputs of RMs and LLMs, leading to more accurate retrieval. Experiments on large-scale retrieval benchmarks involving web search and low-resource retrieval tasks demonstrate that InteR achieves overall superior zero-shot retrieval performance compared to state-of-the-art methods, even those using relevance judgment. Source code is available at https://github.com/Cyril-JZ/InteR
翻訳日:2023-12-13 20:31:55 公開日:2023-12-12
# グラフニューラルネットワークによる粒状流れのサーロゲートモデル

Graph Neural Network-based surrogate model for granular flows ( http://arxiv.org/abs/2305.05218v2 )

ライセンス: Link先を確認
Yongjin Choi, Krishna Kumar(参考訳) 粒状流の正確なシミュレーションは地すべりや土石流を含む様々な地質学的リスクを評価するのに不可欠である。 粒状流は、固体状から流体状への複雑な遷移を示す粒子の動的再配置を伴う。 従来の連続法と離散法は、大規模システムのシミュレーションにおける計算コストによって制限される。 統計モデルや機械学習ベースのモデルは代替手段を提供する。 それでも、それらは主に経験的であり、限られたパラメータセットに基づいている。 順列依存学習のため、従来の機械学習ベースのモデルは一般化するために巨大なトレーニングデータを必要とする。 これらの問題を解決するために、局所的な相互作用を学習する最先端の機械学習アーキテクチャであるグラフニューラルネットワークを使用する。 グラフは粒度が動的に変化する状態と、粒子間のエネルギーや運動量交換のような相互作用則を表す。 局所的相互作用則を学習することにより,グラニュラーフローの現在の状態をとり,オイラー明示積分を用いて次の状態を予測できるグラフニューラルネットワークベースシミュレータ(gns)を開発した。 我々は異なる粒状軌道でGNSを訓練する。 次に粒界崩壊を予測することにより, GNSの性能を評価する。 GNSは、トレーニング中に見つからないアスペクト比が異なるカラム崩壊のフローダイナミクスを正確に予測する。 GNSは高忠実度数値シミュレータよりも数百倍高速である。 モデルはトレーニングデータよりもはるかに大きな領域に一般化し、トレーニングされた粒子の2倍以上の数を処理します。

Accurate simulation of granular flow dynamics is crucial for assessing various geotechnical risks, including landslides and debris flows. Granular flows involve a dynamic rearrangement of particles exhibiting complex transitions from solid-like to fluid-like responses. Traditional continuum and discrete numerical methods are limited by their computational cost in simulating large-scale systems. Statistical or machine learning-based models offer an alternative. Still, they are largely empirical, based on a limited set of parameters. Due to their permutation-dependent learning, traditional machine learning-based models require huge training data to generalize. To resolve these problems, we use a graph neural network, a state-of-the-art machine learning architecture that learns local interactions. Graphs represent the state of dynamically changing granular flows and the interaction laws, such as energy and momentum exchange between grains. We develop a graph neural network-based simulator (GNS) that takes the current state of granular flow and predicts the next state using Euler explicit integration by learning the local interaction laws. We train GNS on different granular trajectories. We then assess the performance of GNS by predicting granular column collapse. GNS accurately predicts flow dynamics for column collapses with different aspect ratios unseen during training. GNS is hundreds of times faster than high-fidelity numerical simulators. The model also generalizes to domains much larger than the training data, handling more than twice the number of particles than it was trained on.
翻訳日:2023-12-13 20:31:30 公開日:2023-12-12
# 相関電子における情報スクランブルの速度論:衝撃波からFKPPダイナミクスへの障害駆動遷移

Kinetics of information scrambling in correlated electrons: disorder-driven transition from shock-wave to FKPP dynamics ( http://arxiv.org/abs/2305.04958v2 )

ライセンス: Link先を確認
Camille Aron, \'Eric Brunet, Aditi Mitra(参考訳) クエンチド障害は、量子情報のスクランブルを遅くする。 ボトムアップ法を用いて, 超伝導遷移近傍の相関金属中のスクランブルの運動論的理論を, 不純物散乱速度の増加に伴ってスクランブルダイナミクスに従って定式化する。 この枠組み内では、バタフライ速度 $v$ がフェルミ速度によって設定された光円錐速度 $v_{\rm lc }$ によって束縛されていることを厳密に示す。 本研究は,FKPP(Fisher or Kolmogorov-Petrovsky-Piskunov)クラスに属するスムーズな走行波と,速度$v$の速度で伝播する不連続な衝撃波と,速度$v$の速度で伝播する緩やかな伝播波との間に生じる,小さいが有限な障害強度で発生する障害駆動動的遷移を解析的に同定した。 拡散状態において、$v^2/\lambda_{\rm FKPP} \sim D_{\rm el}$ ここで、$\lambda_{\rm FKPP}$は非弾性散乱速度で設定されたリャプノフ指数、$D_{\rm el}$は弾性拡散定数である。

Quenched disorder slows down the scrambling of quantum information. Using a bottom-up approach, we formulate a kinetic theory of scrambling in a correlated metal near a superconducting transition, following the scrambling dynamics as the impurity scattering rate is increased. Within this framework, we rigorously show that the butterfly velocity $v$ is bounded by the light cone velocity $v_{\rm lc }$ set by the Fermi velocity. We analytically identify a disorder-driven dynamical transition occurring at small but finite disorder strength between a spreading of information characterized at late times by a discontinuous shock wave propagating at the maximum velocity $v_{\rm lc}$, and a smooth traveling wave belonging to the Fisher or Kolmogorov-Petrovsky-Piskunov (FKPP) class and propagating at a slower, if not considerably slower, velocity $v$. In the diffusive regime, we establish the relation $v^2/\lambda_{\rm FKPP} \sim D_{\rm el}$ where $\lambda_{\rm FKPP}$ is the Lyapunov exponent set by the inelastic scattering rate and $D_{\rm el}$ is the elastic diffusion constant.
翻訳日:2023-12-13 20:31:10 公開日:2023-12-12
# 計算量的または難解な確率をもつ空間過程のニューラルラバース曲面

Neural Likelihood Surfaces for Spatial Processes with Computationally Intensive or Intractable Likelihoods ( http://arxiv.org/abs/2305.04634v2 )

ライセンス: Link先を確認
Julia Walchessen, Amanda Lenzi, Mikael Kuusela(参考訳) 空間統計学において、不確実性定量化の信頼できる手段と組み合わされた高速で正確なパラメータ推定は、空間過程を実世界データに適合させる際に困難である。 本研究では,畳み込みニューラルネットワークを用いて空間過程の帰結関数を学習する手法を提案する。 特別に設計された分類タスクを通じて、ニューラルネットワークは、正確な可能性が明確に利用できない状況でも、暗黙的に可能性関数を学習します。 分類タスクでトレーニングをすると、ニューラルネットワークはプラッツスケーリングを使用して校正され、ニューラルチャンス表面の精度が向上する。 そこで本研究では,2つの異なる空間過程 (ガウス過程, ブラウン・レズニック過程) について, 計算量的に集中的かつ難解な確率で, 推定値の最大推定値と近似的信頼領域を比較した。 提案手法は,標準手法が望ましくない,あるいは不正確である状況において,信頼性の高い不確実性定量化法を用いて高速かつ正確なパラメータ推定を行う。 この方法は、高速なシミュレーションが利用できるグリッド上の任意の空間過程に適用できる。

In spatial statistics, fast and accurate parameter estimation, coupled with a reliable means of uncertainty quantification, can be challenging when fitting a spatial process to real-world data because the likelihood function might be slow to evaluate or wholly intractable. In this work, we propose using convolutional neural networks to learn the likelihood function of a spatial process. Through a specifically designed classification task, our neural network implicitly learns the likelihood function, even in situations where the exact likelihood is not explicitly available. Once trained on the classification task, our neural network is calibrated using Platt scaling which improves the accuracy of the neural likelihood surfaces. To demonstrate our approach, we compare neural likelihood surfaces and the resulting maximum likelihood estimates and approximate confidence regions with the equivalent for exact or approximate likelihood for two different spatial processes: a Gaussian process and a Brown-Resnick process which have computationally intensive and intractable likelihoods, respectively. We conclude that our method provides fast and accurate parameter estimation with a reliable method of uncertainty quantification in situations where standard methods are either undesirably slow or inaccurate. The method is applicable to any spatial process on a grid from which fast simulations are available.
翻訳日:2023-12-13 20:30:46 公開日:2023-12-12
# 高分解能熱赤外画像から発生する地表面温度

District-scale surface temperatures generated from high-resolution longitudinal thermal infrared images ( http://arxiv.org/abs/2305.01971v2 )

ライセンス: Link先を確認
Subin Lin, Vasantha Ramani, Miguel Martin, Pandarasamy Arjunan, Adrian Chong, Filip Biljecki, Marcel Ignatius, Kameshwar Poolla, Clayton Miller(参考訳) 本稿では,赤外線サーモグラフィ(赤外線サーモグラフィ)によって収集されたデータセットについて述べる。 ほとんどの研究は都市と建築規模に焦点を当てているが、屋上観測所は地域規模での動的相互作用を伴う時間的・空間的な高分解能な観測を提供する。 シンガポールでは、都市システムにおける幅広いダイナミックなプロセスを評価することができるマルチモーダルプラットフォームを備えた屋上赤外線サーモグラフィ観測所が配備された。 シンガポール国立大学のキャンパスの屋外の文脈を見渡す2つの建物の最上部に置かれた。 このプラットフォームは熱帯地域からのリモートセンシングデータを一時的なスケールで収集し、ユーザーは建物、道路、植生などの個々の特徴の温度トレンドを判断できる。 データセットには、平均10秒間隔で収集された1,365,921枚の熱画像が含まれている。

The paper describes a dataset that was collected by infrared thermography, which is a non-contact, non-intrusive technique to collect data and analyze the built environment in various aspects. While most studies focus on the city and building scales, the rooftop observatory provides high temporal and spatial resolution observations with dynamic interactions on the district scale. The rooftop infrared thermography observatory with a multi-modal platform that is capable of assessing a wide range of dynamic processes in urban systems was deployed in Singapore. It was placed on the top of two buildings that overlook the outdoor context of the campus of the National University of Singapore. The platform collects remote sensing data from tropical areas on a temporal scale, allowing users to determine the temperature trend of individual features such as buildings, roads, and vegetation. The dataset includes 1,365,921 thermal images collected on average at approximately 10 seconds intervals from two locations during ten months.
翻訳日:2023-12-13 20:30:19 公開日:2023-12-12
# 消散性境界状態調製

Dissipative Boundary State Preparation ( http://arxiv.org/abs/2305.00031v2 )

ライセンス: Link先を確認
Fan Yang, Paolo Molignini, Emil J. Bergholtz(参考訳) 我々は、コヒーレントハミルトン力学と局所散逸の相互作用を通じて、トポロジカルまたは非トポロジカル量子系の境界状態を作成するために、汎用的で実験的に利用できるレシピを考案する。 直感的には,損失が適切に設計される部分格子上で消失する境界状態の空間構造を利用する。 これにより、ターゲット境界状態が無限の寿命で膨らむような特異な非自明な定常状態が得られ、他の全ての状態は指数的に減衰する。 注目すべきは、損失を1つの境界でのみ適用すると、全く同じ境界で局所化された一意な定常状態が得られることである。 我々は1次元Su-Schrieffer-Heegerモデルと2次元チャーン絶縁体に対するスペクトルミラー対称性の存在下でのフルリウヴィリアスペクトルと散逸ギャップを厳密に導出した。 我々はこのレシピを汎用的な非対話システムへ拡張する方法について概説する。

We devise a generic and experimentally accessible recipe to prepare boundary states of topological or nontopological quantum systems through an interplay between coherent Hamiltonian dynamics and local dissipation. Intuitively, our recipe harnesses the spatial structure of boundary states which vanish on sublattices where losses are suitably engineered. This yields unique nontrivial steady states that populate the targeted boundary states with infinite lifetimes while all other states are exponentially damped in time. Remarkably, applying loss only at one boundary can yield a unique steady state localized at the very same boundary. We detail our construction and rigorously derive full Liouvillian spectra and dissipative gaps in the presence of a spectral mirror symmetry for a one-dimensional Su-Schrieffer-Heeger model and a two-dimensional Chern insulator. We outline how our recipe extends to generic noninteracting systems.
翻訳日:2023-12-13 20:30:02 公開日:2023-12-12
# 医用画像のセグメントモデルについて

Segment Anything Model for Medical Images? ( http://arxiv.org/abs/2304.14660v5 )

ライセンス: Link先を確認
Yuhao Huang, Xin Yang, Lian Liu, Han Zhou, Ao Chang, Xinrui Zhou, Rusi Chen, Junxuan Yu, Jiongquan Chen, Chaoyu Chen, Sijing Liu, Haozhe Chi, Xindi Hu, Kejuan Yue, Lei Li, Vicente Grau, Deng-Ping Fan, Fajin Dong, Dong Ni(参考訳) Segment Anything Model (SAM) は一般画像分割のための最初の基礎モデルである。 様々な自然画像分割タスクで印象的な結果が得られた。 しかし、複雑なモダリティ、微細な解剖学的構造、不確実で複雑な物体の境界、広範囲の物体スケールのため、医療画像セグメンテーション(MIS)はより困難である。 SAMのパフォーマンスを医療データで完全に検証するために、53のオープンソースデータセットを収集して分類し、18のモダリティ、84のオブジェクト、125のオブジェクトとモダリティのペアターゲット、1050Kの2Dイメージ、6033Kマスクを備えた大規模な医療セグメンテーションデータセットを構築した。 いわゆるcosmos 1050kデータセット上で,様々なモデルと戦略を総合的に解析した。 主な知見は以下のとおりである。 1)SAMは特定の対象において顕著な性能を示したが,他の状況では不安定,不完全,あるいは完全に失敗した。 2) 大きなViT-Hを持つSAMは、小さなViT-Bよりも全体的な性能が良好であった。 3)SAMは,手動ヒント,特にボックスで,Everythモードよりも優れていた。 4)SAMは高いラベル付け品質と少ない時間で人間のアノテーションに役立つ。 5)SAMは中心点のランダム性や密箱のプロンプトに敏感であり,性能低下に悩まされる恐れがあった。 6)SAMは1点または数点の対話的手法よりも優れた性能を示したが,点数が増加するにつれて性能が向上する。 7)SAMの性能は,境界複雑性や強度差など,異なる要因と相関していた。 8)特定の医療タスクにおけるSAMの微細化は,平均DICE性能を4.39%,ViT-BとViT-Hの6.68%向上させる可能性がある。 この総合的なレポートは、研究者がMISにおけるSAMアプリケーションの可能性を探究し、SAMを適切に利用し開発する方法をガイドするのに役立つと期待している。

The Segment Anything Model (SAM) is the first foundation model for general image segmentation. It has achieved impressive results on various natural image segmentation tasks. However, medical image segmentation (MIS) is more challenging because of the complex modalities, fine anatomical structures, uncertain and complex object boundaries, and wide-range object scales. To fully validate SAM's performance on medical data, we collected and sorted 53 open-source datasets and built a large medical segmentation dataset with 18 modalities, 84 objects, 125 object-modality paired targets, 1050K 2D images, and 6033K masks. We comprehensively analyzed different models and strategies on the so-called COSMOS 1050K dataset. Our findings mainly include the following: 1) SAM showed remarkable performance in some specific objects but was unstable, imperfect, or even totally failed in other situations. 2) SAM with the large ViT-H showed better overall performance than that with the small ViT-B. 3) SAM performed better with manual hints, especially box, than the Everything mode. 4) SAM could help human annotation with high labeling quality and less time. 5) SAM was sensitive to the randomness in the center point and tight box prompts, and may suffer from a serious performance drop. 6) SAM performed better than interactive methods with one or a few points, but will be outpaced as the number of points increases. 7) SAM's performance correlated to different factors, including boundary complexity, intensity differences, etc. 8) Finetuning the SAM on specific medical tasks could improve its average DICE performance by 4.39% and 6.68% for ViT-B and ViT-H, respectively. We hope that this comprehensive report can help researchers explore the potential of SAM applications in MIS, and guide how to appropriately use and develop SAM.
翻訳日:2023-12-13 20:29:46 公開日:2023-12-12
# MCLFIQ:携帯の非接触指紋画像品質

MCLFIQ: Mobile Contactless Fingerprint Image Quality ( http://arxiv.org/abs/2304.14123v2 )

ライセンス: Link先を確認
Jannis Priesnitz, Axel Wei{\ss}enfeld, Laurenz Ruzicka, Christian Rathgeb, Bernhard Strobl, Ralph Lessmann, Christoph Busch(参考訳) 我々は,モバイルコンタクトレス指紋検体における最初の品質評価アルゴリズムである,モバイルコンタクトレス指紋画像品質(MCLFIQ)を提案する。 そこで我々はNIST Fingerprint Image Quality (NFIQ) 2法を再訓練した。 得られたMCLFIQモデルの予測性能をError-vsを用いて評価する。 -3つの認識アルゴリズムを用いた実世界の非接触指紋データベース上でのカード特性(EDC)曲線 実験では、MCLFIQ法を元のNFIQ 2.2法と比較し、接触のない指紋画像に対するシャープネスに基づく品質評価アルゴリズムである \rev{ and the general purpose image quality Assessment method BRISQUEを開発した。 さらに、4つのコンタクトベースの指紋データセットのベンチマークも実施している。 以上の結果から,NFIQ2の非接触指紋への微調整は,実際のデータベースでのトレーニングの代替となる可能性が示唆された。 さらに, 接触指紋のベースライン法に比べ, MCLFIQ法の方が精度が高く, 頑健であることを示す。 我々は,接触のない指紋品質評価のための新しい標準アルゴリズムの開発において,MCLFIQ法を \rev{starting point として検討することを提案する。

We propose MCLFIQ: Mobile Contactless Fingerprint Image Quality, the first quality assessment algorithm for mobile contactless fingerprint samples. To this end, we re-trained the NIST Fingerprint Image Quality (NFIQ) 2 method, which was originally designed for contact-based fingerprints, with a synthetic contactless fingerprint database. We evaluate the predictive performance of the resulting MCLFIQ model in terms of Error-vs.-Discard Characteristic (EDC) curves on three real-world contactless fingerprint databases using three recognition algorithms. In experiments, the MCLFIQ method is compared against the original NFIQ 2.2 method, a sharpness-based quality assessment algorithm developed for contactless fingerprint images \rev{and the general purpose image quality assessment method BRISQUE. Furthermore, benchmarks on four contact-based fingerprint datasets are also conducted.} Obtained results show that the fine-tuning of NFIQ 2 on synthetic contactless fingerprints is a viable alternative to training on real databases. Moreover, the evaluation shows that our MCLFIQ method works more accurate and robust compared to all baseline methods on contactless fingerprints. We suggest considering the proposed MCLFIQ method as a \rev{starting point for the development of} a new standard algorithm for contactless fingerprint quality assessment.
翻訳日:2023-12-13 20:29:15 公開日:2023-12-12
# WiFi CSIを用いたデバイスレスマルチルーム人間プレゼンス検出のための時間選択型RNN

Time-Selective RNN for Device-Free Multi-Room Human Presence Detection Using WiFi CSI ( http://arxiv.org/abs/2304.13107v2 )

ライセンス: Link先を確認
Li-Hsiang Shen, An-Hung Hsiao, Fang-Yu Chu, Kai-Ten Feng(参考訳) デバイスフリーの人間の存在検出は、ホームオートメーション、セキュリティ、医療など、さまざまなアプリケーションにとって重要な技術である。 カメラベースのシステムは伝統的にこの目的で使われてきたが、プライバシーの懸念が高まる。 この問題に対処するため、最近の研究では、商用WiFiアクセスポイント(AP)から抽出した無線チャネル状態情報(CSI)を用いて、詳細なチャネル特性を提供する。 本稿では,tcd-fern(time-selective conditional dual feature extract recurrent network)を用いたマルチルームシナリオのためのデバイスフリーな人間存在検出システムを提案する。 本システムは動的および静的データプリプロセッシング手法を用いて,現在の人間の機能において重要な時間的特徴をキャプチャするように設計されている。 人物の移動と空間的特徴を抽出し、視線(LoS)と非視線(NLoS)の区別を行う。 計算複雑性を低減しつつ, 各試料のより客観的な変動を与えるために, サブキャリア融合を行う。 部屋分割による特徴減衰問題を緩和するために投票方式がさらに採用され、人間の存在検出精度が約3%向上した。 実験の結果,subcarrier fusion,dual-feature recurrent network,time selection,condition mechanismの活用の大幅な改善が示された。 オープン文学における既存の研究と比較して,提案するTD-FERNシステムは,WiFi APの少ないマルチルームシナリオにおいて,人間の存在検出精度の97%以上を達成できる。

Device-free human presence detection is a crucial technology for various applications, including home automation, security, and healthcare. While camera-based systems have traditionally been used for this purpose, they raise privacy concerns. To address this issue, recent research has explored the use of wireless channel state information (CSI) extracted from commercial WiFi access points (APs) to provide detailed channel characteristics. In this paper, we propose a device-free human presence detection system for multi-room scenarios using a time-selective conditional dual feature extract recurrent network (TCD-FERN). Our system is designed to capture significant time features on current human features using a dynamic and static data preprocessing technique. We extract both moving and spatial features of people and differentiate between line-of-sight (LoS) and non-line-of-sight (NLoS) cases. Subcarrier fusion is carried out in order to provide more objective variation of each sample while reducing the computational complexity. A voting scheme is further adopted to mitigate the feature attenuation problem caused by room partitions, with around 3% improvement of human presence detection accuracy. Experimental results have revealed the significant improvement of leveraging subcarrier fusion, dual-feature recurrent network, time selection and condition mechanisms. Compared to the existing works in open literature, our proposed TCD-FERN system can achieve above 97% of human presence detection accuracy for multi-room scenarios with the adoption of fewer WiFi APs.
翻訳日:2023-12-13 20:28:57 公開日:2023-12-12
# 量子サービス提供の比較:MaxCutにおけるQAOAの事例

Comparing Quantum Service Offerings: A Case Study of QAOA for MaxCut ( http://arxiv.org/abs/2304.12718v2 )

ライセンス: Link先を確認
Julian Obst and Johanna Barzen and Martin Beisel and Frank Leymann and Marie Salm and Felix Truger(参考訳) 量子コンピューティングの出現に伴い、多くの量子デバイスがクラウド経由でアクセスできるようになった。 しかし、この分野の急速な発展により、これらの量子特化サービスの提供は、ソフトウェア開発者に課す能力と要件が著しく異なる。 これは、これらのサービスをアプリケーションの一部として使用することに関心がある量子コンピューティング領域の外部の実践者にとって、特に困難である。 本稿では,異なるハードウェア技術に基づく複数のデバイスを比較し,それぞれに同じ実験を行うことにより,異なる提供物を通じて提供する。 実験から得られた教訓を文書化することにより,量子特化製品の利用を簡素化し,主要な量子ハードウェア技術間の差異を明らかにすることを目的とする。

With the emergence of quantum computing, a growing number of quantum devices is accessible via cloud offerings. However, due to the rapid development of the field, these quantum-specific service offerings vary significantly in capabilities and requirements they impose on software developers. This is particularly challenging for practitioners from outside the quantum computing domain who are interested in using these offerings as parts of their applications. In this paper, we compare several devices based on different hardware technologies and provided through different offerings, by conducting the same experiment on each of them. By documenting the lessons learned from our experiments, we aim to simplify the usage of quantum-specific offerings and illustrate the differences between predominant quantum hardware technologies.
翻訳日:2023-12-13 20:28:31 公開日:2023-12-12
# 物理学を意識した時空間ダイナミクスとテストタイムリファインメントによる乱流の再構成

Reconstructing Turbulent Flows Using Physics-Aware Spatio-Temporal Dynamics and Test-Time Refinement ( http://arxiv.org/abs/2304.12130v3 )

ライセンス: Link先を確認
Shengyu Chen, Tianshu Bao, Peyman Givi, Can Zheng, Xiaowei Jia(参考訳) 乱流のシミュレーションは、航空宇宙工学、環境科学、エネルギー産業、バイオメディシンにおける多くの社会的重要な応用にとって重要である。 大規模な渦シミュレーション(les)は、計算コストの低減により、乱流をシミュレートするための直接数値シミュレーション(dns)の代替として広く用いられている。 しかし、LESは乱流輸送の全てのスケールを正確に捉えることができない。 低分解能LESからDNSを再構成することは、多くの科学・工学分野において重要であるが、乱流の時空間的複雑さのために既存の超解像法に多くの課題をもたらす。 本研究では,低分解能LESデータからシーケンシャルDNSを再構成する物理誘導型ニューラルネットワークを提案する。 提案手法は,時空間モデル設計における流れの力学を基礎とする偏微分方程式を利用する。 また, 物理的制約を強制し, 長期にわたって蓄積した復元誤差を更に低減するために, 劣化に基づく改良法も開発されている。 2種類の乱流データから,高分解能DNSデータの再構成および流動輸送の物理的特性の保存において,提案手法の優位性を確認した。

Simulating turbulence is critical for many societally important applications in aerospace engineering, environmental science, the energy industry, and biomedicine. Large eddy simulation (LES) has been widely used as an alternative to direct numerical simulation (DNS) for simulating turbulent flows due to its reduced computational cost. However, LES is unable to capture all of the scales of turbulent transport accurately. Reconstructing DNS from low-resolution LES is critical for many scientific and engineering disciplines, but it poses many challenges to existing super-resolution methods due to the spatio-temporal complexity of turbulent flows. In this work, we propose a new physics-guided neural network for reconstructing the sequential DNS from low-resolution LES data. The proposed method leverages the partial differential equation that underlies the flow dynamics in the design of spatio-temporal model architecture. A degradation-based refinement method is also developed to enforce physical constraints and further reduce the accumulated reconstruction errors over long periods. The results on two different types of turbulent flow data confirm the superiority of the proposed method in reconstructing the high-resolution DNS data and preserving the physical characteristics of flow transport.
翻訳日:2023-12-13 20:28:21 公開日:2023-12-12
# CoPL:視覚言語理解のためのコンテキストプロンプト学習

CoPL: Contextual Prompt Learning for Vision-Language Understanding ( http://arxiv.org/abs/2307.00910v2 )

ライセンス: Link先を確認
Koustava Goswami, Srikrishna Karanam, Prateksha Udhayanan, K J Joseph and Balaji Vasan Srinivasan(参考訳) マルチモーダル学習の最近の進歩は、様々な下流タスクで表現が一般化できる強力な視覚言語モデルを生み出している。 近年,自然言語処理の文献から借用した訓練可能なプロンプトを取り入れた一般化能力がさらに拡張されている。 このような迅速な学習技術は印象的な結果を示しているが、これらのプロンプトは2つの側面に制限されたグローバルイメージの特徴に基づいてトレーニングされていることを認識している。 第二に、既存の作業はすべてのプロンプトを等しく直感的に重くし、イメージのセマンティクスに応じてプロンプトをリウィートすべきである。 提案するContextual Prompt Learning(CoPL)フレームワークの一部として,画像の局所的な特徴にプロンプトを合わせることができる。 これまでの作業で重要なイノベーションは、プロンプト学習プロセスの一部としてローカルイメージ機能を使用すること、さらに重要なのは、目の前のタスクに適したローカル機能に基づいてこれらのプロンプトを重み付けする学習です。 これにより、ローカルな画像特徴に一致した動的プロンプトと、ローカルなコンテキスト関係を認識することができます。 各種標準データセットおよび少数ショットデータセットに対する広範囲な実験結果から,本手法は,現在の技術手法と比較して,大幅な性能向上を図っている。 また,局所的な画像特徴に適応した動的プロンプトの学習の有用性を確立するために,散発的および散発的性能の両方を実証する。

Recent advances in multimodal learning has resulted in powerful vision-language models, whose representations are generalizable across a variety of downstream tasks. Recently, their generalization ability has been further extended by incorporating trainable prompts, borrowed from the natural language processing literature. While such prompt learning techniques have shown impressive results, we identify that these prompts are trained based on global image features which limits itself in two aspects: First, by using global features, these prompts could be focusing less on the discriminative foreground image, resulting in poor generalization to various out-of-distribution test cases. Second, existing work weights all prompts equally whereas intuitively, prompts should be reweighed according to the semantics of the image. We address these as part of our proposed Contextual Prompt Learning (CoPL) framework, capable of aligning the prompts to the localized features of the image. Our key innovations over earlier works include using local image features as part of the prompt learning process, and more crucially, learning to weight these prompts based on local features that are appropriate for the task at hand. This gives us dynamic prompts that are both aligned to local image features as well as aware of local contextual relationships. Our extensive set of experiments on a variety of standard and few-shot datasets show that our method produces substantially improved performance when compared to the current state of the art methods. We also demonstrate both few-shot and out-of-distribution performance to establish the utility of learning dynamic prompts that are aligned to local image features.
翻訳日:2023-12-13 20:21:32 公開日:2023-12-12
# Q-Ensemblesによるオフライン・オンライン強化学習の改善

Improving Offline-to-Online Reinforcement Learning with Q-Ensembles ( http://arxiv.org/abs/2306.06871v3 )

ライセンス: Link先を確認
Kai Zhao, Yi Ma, Jianye Hao, Jinyi Liu, Yan Zheng, Zhaopeng Meng(参考訳) オフライン強化学習(RL)は、エージェントが一定の経験のデータセットから学習する学習パラダイムである。 しかしながら、静的データセットのみからの学習は、探索の欠如により、パフォーマンスを制限できる。 オフラインからオンラインまでのRLは、オフラインの事前トレーニングとオンラインの微調整を組み合わせることで、エージェントがリアルタイムで環境と対話することでポリシーをさらに洗練することができる。 その利点にもかかわらず、既存のオフラインからオンラインまでのRLメソッドは、オンラインフェーズにおけるパフォーマンス低下と改善の遅さに悩まされている。 これらの課題に対処するために,Ensemble-based Offline-to-Online (E2O) RLという新しいフレームワークを提案する。 Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。 さらに,オンラインのパフォーマンス向上を図るため,Q値推定の悲観性を適切に緩和し,アンサンブルに基づく探索機構を我々のフレームワークに組み込む。 実験結果から,既存のオフラインRL手法のオンライン微調整におけるトレーニング安定性,学習効率,最終性能を著しく向上し,既存のオフラインRL手法よりも大幅に向上することが示された。

Offline reinforcement learning (RL) is a learning paradigm where an agent learns from a fixed dataset of experience. However, learning solely from a static dataset can limit the performance due to the lack of exploration. To overcome it, offline-to-online RL combines offline pre-training with online fine-tuning, which enables the agent to further refine its policy by interacting with the environment in real-time. Despite its benefits, existing offline-to-online RL methods suffer from performance degradation and slow improvement during the online phase. To tackle these challenges, we propose a novel framework called Ensemble-based Offline-to-Online (E2O) RL. By increasing the number of Q-networks, we seamlessly bridge offline pre-training and online fine-tuning without degrading performance. Moreover, to expedite online performance enhancement, we appropriately loosen the pessimism of Q-value estimation and incorporate ensemble-based exploration mechanisms into our framework. Experimental results demonstrate that E2O can substantially improve the training stability, learning efficiency, and final performance of existing offline RL methods during online fine-tuning on a range of locomotion and navigation tasks, significantly outperforming existing offline-to-online RL methods.
翻訳日:2023-12-13 20:20:43 公開日:2023-12-12
# HCIの課題のマッピング:規模のマイニングインサイトへのChatGPTとGPT-4の適用と評価

Mapping the Challenges of HCI: An Application and Evaluation of ChatGPT and GPT-4 for Mining Insights at Scale ( http://arxiv.org/abs/2306.05036v3 )

ライセンス: Link先を確認
Jonas Oppenlaender, Joonas H\"am\"al\"ainen(参考訳) ChatGPTやGPT-4のような大規模言語モデル(LLM)は、広く普及している。 しかし、これらのllmはクローズドソースであり、実際のユースケースでのパフォーマンスについてはほとんど知られていない。 本稿では,HCI分野の研究課題を特定するために,テキストコーパスから洞察を抽出する実世界の課題に対して,ChatGPTとGPT-4の組み合わせを適用し,評価する。 2023年のCHIコンファレンスから,100以上のトピックで4,392件の研究課題を抽出し,インタラクティブな探索のための研究課題を可視化する。 本課題のllmを批判的に評価し,chatgptとgpt-4の組み合わせは,テキストコーパスを大規模に解析するための優れたコスト効率のよい手段であると結論づける。 費用効率は研究のアイデアを柔軟にプロトタイピングし、異なる視点からテキストコーパスを分析する上で鍵となる。

Large language models (LLMs), such as ChatGPT and GPT-4, are gaining wide-spread real world use. Yet, these LLMs are closed source, and little is known about their performance in real-world use cases. In this paper, we apply and evaluate the combination of ChatGPT and GPT-4 for the real-world task of mining insights from a text corpus in order to identify research challenges in the field of HCI. We extract 4,392 research challenges in over 100 topics from the 2023 CHI conference proceedings and visualize the research challenges for interactive exploration. We critically evaluate the LLMs on this practical task and conclude that the combination of ChatGPT and GPT-4 makes an excellent cost-efficient means for analyzing a text corpus at scale. Cost-efficiency is key for flexibly prototyping research ideas and analyzing text corpora from different perspectives, with implications for applying LLMs for mining insights in academia and practice.
翻訳日:2023-12-13 20:20:22 公開日:2023-12-12
# きめ細かい視覚プロンプト

Fine-Grained Visual Prompting ( http://arxiv.org/abs/2306.04356v2 )

ライセンス: Link先を確認
Lingfeng Yang, Yueze Wang, Xiang Li, Xinlong Wang, Jian Yang(参考訳) CLIPのような視覚言語モデル(VLM)は、画像レベルの視覚知覚において、印象的なゼロショット転送機能を示している。 しかしながら、これらのモデルでは、正確なローカライゼーションと認識を必要とするインスタンスレベルのタスクのパフォーマンスが制限されている。 以前の研究は、カラフルな箱や円のような視覚的なプロンプトを組み込むことで、モデルが関心のあるオブジェクトを認識する能力を向上させることを示唆している。 それでも、言語プロンプトに比べて視覚的なプロンプトデザインは滅多に研究されていない。 色とりどりの箱や円のような粗い視覚的なヒントを用いる既存のアプローチは、無関係でノイズの多いピクセルを含むため、しばしば最適以下のパフォーマンスをもたらす。 本稿では,よりきめ細かなマーキング,例えばセグメンテーションマスクとそのバリエーションを探索することにより,視覚的プロンプトデザインを慎重に研究する。 さらに,汎用セグメンテーションモデルから取得したピクセルレベルのアノテーションを活用し,詳細な視覚的プロンプトを行う,ゼロショットフレームワークも導入する。 その結果,Blur Reverse Maskと呼ばれる標的マスクの外側のぼやけの直接的応用が極めて有効であることが判明した。 提案手法は, マスクアノテーションの精度を利用して, ターゲットと周辺背景との空間的コヒーレンスを維持しつつ, 弱関連領域へのフォーカスを低減する。 我々のFGVPは、RefCOCO、RefCOCO+、RefCOCOgベンチマークにおける参照表現のゼロショット理解において優れた性能を示す。 従来のメソッドを3.0%から4.6%のマージンで上回り、最大で12.5%のrefcoco+ testaサブセットで改善する。 コードはhttps://github.com/ylingfeng/FGVPで入手できる。

Vision-Language Models (VLMs), such as CLIP, have demonstrated impressive zero-shot transfer capabilities in image-level visual perception. However, these models have shown limited performance in instance-level tasks that demand precise localization and recognition. Previous works have suggested that incorporating visual prompts, such as colorful boxes or circles, can improve the ability of models to recognize objects of interest. Nonetheless, compared to language prompting, visual prompting designs are rarely explored. Existing approaches, which employ coarse visual cues such as colorful boxes or circles, often result in sub-optimal performance due to the inclusion of irrelevant and noisy pixels. In this paper, we carefully study the visual prompting designs by exploring more fine-grained markings, such as segmentation masks and their variations. In addition, we introduce a new zero-shot framework that leverages pixel-level annotations acquired from a generalist segmentation model for fine-grained visual prompting. Consequently, our investigation reveals that a straightforward application of blur outside the target mask, referred to as the Blur Reverse Mask, exhibits exceptional effectiveness. This proposed prompting strategy leverages the precise mask annotations to reduce focus on weakly related regions while retaining spatial coherence between the target and the surrounding background. Our Fine-Grained Visual Prompting (FGVP) demonstrates superior performance in zero-shot comprehension of referring expressions on the RefCOCO, RefCOCO+, and RefCOCOg benchmarks. It outperforms prior methods by an average margin of 3.0% to 4.6%, with a maximum improvement of 12.5% on the RefCOCO+ testA subset. Code is available at https://github.com/ylingfeng/FGVP.
翻訳日:2023-12-13 20:20:01 公開日:2023-12-12
# プログラム可能なツイーザアレイに対するハバードパラメータ

Hubbard parameters for programmable tweezer arrays ( http://arxiv.org/abs/2306.03019v3 )

ライセンス: Link先を確認
Hao-Tian Wei, Eduardo Ibarra-Garc\'ia-Padilla, Michael L. Wall, and Kaden R. A. Hazzard(参考訳) フェルミ・ハバード・トウィーザーアレイの実験的な実現は、プログラマブル・格子幾何学とハバードモデルパラメータを単一サイトイメージングと組み合わせたフェルミイオン物質工学の新しい段階を開く。 これらの多用途なフェルミ・ハバード模型を量子シミュレータとして用いるためには、ハバードパラメータを記述することが重要である。 ここでは、任意の2次元格子ジオメトリのハバードモデルパラメータを計算する方法を開発し、複数のバンドとフェルミオンとボソンの両方に対して、トンネリング$t$、オンサイトポテンシャル$V$、相互作用$U$。 いくつかの例を示す。 注目すべき発見の1つは、等しく強く分離された個々のツイーザーポテンシャルの有限配列は、実際には、非周期的な全ポテンシャルを与えるため、空間的に一様でないハバードパラメータを与える。 これらのパラメータを等しくするトラップ構成を見つける手順を示す。 より一般に、これらの手順はハバードパラメータを計算する逆問題を解く: 所望のハバードパラメータが与えられたとき、それらを実現するためのトラップ構成を見つける。 これらの手法はトンネル結合tweezer配列を使用するための重要なツールとなる。

The experimental realization of Fermi-Hubbard tweezer arrays opens a new stage for engineering fermionic matter, where programmable lattice geometries and Hubbard model parameters are combined with single-site imaging. In order to use these versatile experimental Fermi-Hubbard models as quantum simulators, it is crucial to know the Hubbard parameters describing them. Here we develop methods to calculate the Hubbard model parameters of arbitrary two-dimensional lattice geometries: the tunneling $t$, on-site potential $V$, and interaction $U$, for multiple bands and for both fermions and bosons. We show several examples. One notable finding is that a finite array of equally strong and separated individual tweezer potentials actually sums to give a non-periodic total potential and thus spatially non-uniform Hubbard parameters. We demonstrate procedures to find trap configurations that equalize these parameters. More generally, these procedures solve the inverse problem of calculating Hubbard parameters: given desired Hubbard parameters, find trap configurations to realize them. These methods will be critical tools for using tunnel-coupled tweezer arrays.
翻訳日:2023-12-13 20:19:09 公開日:2023-12-12
# 曲率誘導サンプリングと不確かさ拡張表現による表面ニューラルインプリシタンス向上

Enhancing Surface Neural Implicits with Curvature-Guided Sampling and Uncertainty-Augmented Representations ( http://arxiv.org/abs/2306.02099v3 )

ライセンス: Link先を確認
Lu Sang and Abhishek Saroha and Maolin Gao and Daniel Cremers(参考訳) ニューラル暗黙は、適応的な解像度を提供し、任意のトポロジをサポートするため、表面を表現するのに人気になっている。 以前の研究は地上の真理点雲に依存していたが、彼らはしばしば、再構成過程における入力品質とサンプリング方法の影響を無視する。 本稿では,入力の幾何学的特徴を考慮したサンプリング手法を用いて,不確実性を考慮した表面暗黙表現を用いたサンプリング手法を提案する。 そこで本研究では,学習期間中のサンプリングフェーズを増大させるため,異なる幾何学的特徴,すなわち平均曲率を効率的に計算する戦略を提案する。 不確実性拡張は、出力符号付き距離値の占有率と信頼性に関する洞察を与え、それによって表現能力をオープンサーフェスに拡張する。 最後に,本手法が,合成データと実世界のデータの両方に最先端の再構築をもたらすことを示す。

Neural implicits have become popular for representing surfaces because they offer an adaptive resolution and support arbitrary topologies. While previous works rely on ground truth point clouds, they often ignore the effect of input quality and sampling methods during reconstructing process. In this paper, we introduce a sampling method with an uncertainty-augmented surface implicit representation that employs a sampling technique that considers the geometric characteristics of inputs. To this end, we introduce a strategy that efficiently computes differentiable geometric features, namely, mean curvatures, to augment the sampling phase during the training period. The uncertainty augmentation offers insights into the occupancy and reliability of the output signed distance value, thereby expanding representation capabilities into open surfaces. Finally, we demonstrate that our method leads to state-of-the-art reconstructions on both synthetic and real-world data.
翻訳日:2023-12-13 20:18:47 公開日:2023-12-12
# 離散拡散誘導によるタンパク質設計

Protein Design with Guided Discrete Diffusion ( http://arxiv.org/abs/2305.20009v2 )

ライセンス: Link先を確認
Nate Gruver, Samuel Stanton, Nathan C. Frey, Tim G. J. Rudner, Isidro Hotzel, Julien Lafrance-Vanasse, Arvind Rajpal, Kyunghyun Cho, and Andrew Gordon Wilson(参考訳) タンパク質設計における一般的なアプローチは、生成モデルと条件付きサンプリングのための識別モデルを組み合わせることである。 生成モデルは可塑性配列をサンプリングし、識別モデルは高い適合度を有する配列を探索する。 条件付きサンプリングにおいて広範囲に成功しているため、分類器誘導拡散モデリングはタンパク質設計の有望な基礎となり、逆折り畳み構造のためのガイド付き拡散モデルを開発した。 本研究では,離散拡散モデルの誘導手法であるdiffusioN Optimized Smpling (NOS)を提案する。 nosはシーケンス空間で直接設計を行うことを可能にし、少ないデータや挑戦的な逆設計を含む構造ベースの方法の重大な制限を回避する。 さらに,複数の目的や編集に基づく制約を緩和するシーケンス設計のためのベイズ最適化手法であるLaMBOをNOSで一般化する。 得られた方法であるLaMBO-2は、サリエンシマップの新たな応用を通じて、離散拡散と限定的な編集によるパフォーマンスの向上を可能にする。 我々はLaMBO-2を実世界のタンパク質設計タスクに適用し、局所性および開発可能性制約下でのいくつかの治療対象に対する高発現収率および結合親和性の抗体を最適化し、実験室での試験で99%の発現率と40%の結合率を達成する。

A popular approach to protein design is to combine a generative model with a discriminative model for conditional sampling. The generative model samples plausible sequences while the discriminative model guides a search for sequences with high fitness. Given its broad success in conditional sampling, classifier-guided diffusion modeling is a promising foundation for protein design, leading many to develop guided diffusion models for structure with inverse folding to recover sequences. In this work, we propose diffusioN Optimized Sampling (NOS), a guidance method for discrete diffusion models that follows gradients in the hidden states of the denoising network. NOS makes it possible to perform design directly in sequence space, circumventing significant limitations of structure-based methods, including scarce data and challenging inverse design. Moreover, we use NOS to generalize LaMBO, a Bayesian optimization procedure for sequence design that facilitates multiple objectives and edit-based constraints. The resulting method, LaMBO-2, enables discrete diffusions and stronger performance with limited edits through a novel application of saliency maps. We apply LaMBO-2 to a real-world protein design task, optimizing antibodies for higher expression yield and binding affinity to several therapeutic targets under locality and developability constraints, attaining a 99% expression rate and 40% binding rate in exploratory in vitro experiments.
翻訳日:2023-12-13 20:18:30 公開日:2023-12-12
# 点雲上の深層学習のための滑らかで正確な回転対称性

Smooth, exact rotational symmetrization for deep learning on point clouds ( http://arxiv.org/abs/2305.19302v2 )

ライセンス: Link先を確認
Sergey N. Pozdnyakov and Michele Ceriotti(参考訳) 点雲は3Dオブジェクトの汎用表現であり、科学や工学に広く応用されている。 入力として使用するディープラーニングモデルが数多く提案されている。 化学・材料モデリングの分野は、モデルが実際に使用可能であるためには物理的制約の厳密な遵守が極めて望ましいため、特に困難である。 これらの制約には、同一原子の翻訳、回転、置換に関する滑らかさと不変性が含まれる。 これらの要件が厳密に満たされていない場合、モデルに優れた精度があるとしても、原子論シミュレーションはばかげた結果をもたらす可能性がある。 その結果、設計空間を制限して不変性を実現する専用アーキテクチャが開発された。 汎用のポイントクラウドモデルはより多様であるが、しばしば回転対称性を無視する。 任意のモデルに回転同分散を付加し、他の全ての要求を保存できる一般対称性法を提案する。 提案手法は,設計領域の制約を緩和し,他の領域で有効なアイデアを組み込むことにより,より優れた原子スケールMLスキームの開発を容易にする。 このアイデアは,本質的同変ではないが,分子や固体のベンチマークデータセット上での最先端性能を実現するPoint Edge Transformer (PET) アーキテクチャを導入することで実証する。 一般プロトコルのA-posteriori適用により,PETの精度は最小限に抑えられた。

Point clouds are versatile representations of 3D objects and have found widespread application in science and engineering. Many successful deep-learning models have been proposed that use them as input. The domain of chemical and materials modeling is especially challenging because exact compliance with physical constraints is highly desirable for a model to be usable in practice. These constraints include smoothness and invariance with respect to translations, rotations, and permutations of identical atoms. If these requirements are not rigorously fulfilled, atomistic simulations might lead to absurd outcomes even if the model has excellent accuracy. Consequently, dedicated architectures, which achieve invariance by restricting their design space, have been developed. General-purpose point-cloud models are more varied but often disregard rotational symmetry. We propose a general symmetrization method that adds rotational equivariance to any given model while preserving all the other requirements. Our approach simplifies the development of better atomic-scale ML schemes by relaxing the constraints on the design space and making it possible to incorporate ideas that proved effective in other domains. We demonstrate this idea by introducing the Point Edge Transformer (PET) architecture, which is not intrinsically equivariant but achieves state-of-the-art performance on several benchmark datasets of molecules and solids. A-posteriori application of our general protocol makes PET exactly equivariant, with minimal changes to its accuracy.
翻訳日:2023-12-13 20:18:07 公開日:2023-12-12
# FoPro-KD : 長期医療画像認識のための効果的な知識蒸留法

FoPro-KD: Fourier Prompted Effective Knowledge Distillation for Long-Tailed Medical Image Recognition ( http://arxiv.org/abs/2305.17421v2 )

ライセンス: Link先を確認
Marawan Elbatel, Robert Mart\'i, and Xiaomeng Li(参考訳) 医用画像分類,特にまれな疾患を伴う長期データセットにおいて,公開モデルからの表現伝達は,医用画像分類を改善する上で有望な手法である。 しかし、既存の手法はしばしばこれらのモデルの周波数依存性の挙動を見落とし、表現の転送や稀な疾患への一般化の有効性を制限する。 本稿では,凍った事前学習モデルから学習した周波数パターンのパワーを活用し,転送性と圧縮性を向上させる新しいフレームワークfopro-kdを提案する。 1) 公開されている事前学習モデルからの表現を活用すれば, たとえより小さい事前学習モデルからの表現を活用しても, 特にレアクラスにおいて, 性能が大幅に向上できることを実証する。 2) 事前学習したモデルが周波数優先性を示し, 提案したフーリエ・プロンプト・ジェネレータ (FPG) を用いて, 入力画像中の特定の周波数を操作できるようにし, 識別的表現伝達を向上させる。 3) 入力画像中のこれらの周波数を増幅または縮小することにより, 有効知識蒸留(EKD)を可能にする。 EKDは、事前訓練されたモデルからより小さなモデルへの知識の伝達を容易にする。 まれな疾患が流行する消化管画像認識と皮膚病変分類の広範な実験を通じて,fopro-kdフレームワークは既存の手法を上回り,まれな疾患分類のためのよりアクセスしやすい医療モデルを実現する。 コードはhttps://github.com/xmed-lab/FoPro-KDで入手できる。

Representational transfer from publicly available models is a promising technique for improving medical image classification, especially in long-tailed datasets with rare diseases. However, existing methods often overlook the frequency-dependent behavior of these models, thereby limiting their effectiveness in transferring representations and generalizations to rare diseases. In this paper, we propose FoPro-KD, a novel framework that leverages the power of frequency patterns learned from frozen pre-trained models to enhance their transferability and compression, presenting a few unique insights: 1) We demonstrate that leveraging representations from publicly available pre-trained models can substantially improve performance, specifically for rare classes, even when utilizing representations from a smaller pre-trained model. 2) We observe that pre-trained models exhibit frequency preferences, which we explore using our proposed Fourier Prompt Generator (FPG), allowing us to manipulate specific frequencies in the input image, enhancing the discriminative representational transfer. 3) By amplifying or diminishing these frequencies in the input image, we enable Effective Knowledge Distillation (EKD). EKD facilitates the transfer of knowledge from pre-trained models to smaller models. Through extensive experiments in long-tailed gastrointestinal image recognition and skin lesion classification, where rare diseases are prevalent, our FoPro-KD framework outperforms existing methods, enabling more accessible medical models for rare disease classification. Code is available at https://github.com/xmed-lab/FoPro-KD.
翻訳日:2023-12-13 20:17:46 公開日:2023-12-12
# マルチモーダルによる参照:ビデオオブジェクトセグメンテーションのための統合時間変換器

Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation ( http://arxiv.org/abs/2305.16318v2 )

ライセンス: Link先を確認
Shilin Yan, Renrui Zhang, Ziyu Guo, Wenchao Chen, Wei Zhang, Hongyang Li, Yu Qiao, Hao Dong, Zhongjiang He, Peng Gao(参考訳) 近年,言語や音声などのマルチモーダル信号によって参照されるビデオオブジェクトセグメンテーション (VOS) が,産業と学界の両方で注目を集めている。 モダリティ内の意味的アライメントとフレーム間の視覚的対応を探索することは困難である。 しかし、既存の手法では異なるモダリティに対して別々のネットワークアーキテクチャを採用し、参照とのフレーム間の時間的相互作用を無視している。 本稿では,ビデオオブジェクトセグメンテーション参照のためのマルチモーダル統一時間変換器MUTRを提案する。 初めて統一されたフレームワークで、mutrはdetrスタイルのトランスフォーマーを採用し、テキストまたはオーディオ参照で指定されたビデオオブジェクトをセグメンテーションすることができる。 具体的には,ビデオとマルチモーダル信号の時間的関係を解明する2つの戦略を提案する。 まず,トランスフォーマー前の低レベルの時間的アグリゲーションでは,マルチモーダル参照が連続するビデオフレームから多次元の視覚的手がかりをキャプチャできる。 これにより、テキストまたは音声信号を時間的知識で効果的に内包し、モダリティ間の意味的アライメントを促進する。 第2に,トランスフォーマの後の高レベルな時間的相互作用に対して,異なる物体埋め込みに対してフレーム間特徴コミュニケーションを行い,映像に沿って追従するためのオブジェクト間対応の改善に寄与する。 Ref-YouTube-VOS と AVSBench の各テキストおよびオーディオ参照のデータセットでは、MUTR は、最先端のメソッドに対する +4.2% と +8.7% の J&F の改善を達成した。 コードはhttps://github.com/OpenGVLab/MUTRで公開されている。

Recently, video object segmentation (VOS) referred by multi-modal signals, e.g., language and audio, has evoked increasing attention in both industry and academia. It is challenging for exploring the semantic alignment within modalities and the visual correspondence across frames. However, existing methods adopt separate network architectures for different modalities, and neglect the inter-frame temporal interaction with references. In this paper, we propose MUTR, a Multi-modal Unified Temporal transformer for Referring video object segmentation. With a unified framework for the first time, MUTR adopts a DETR-style transformer and is capable of segmenting video objects designated by either text or audio reference. Specifically, we introduce two strategies to fully explore the temporal relations between videos and multi-modal signals. Firstly, for low-level temporal aggregation before the transformer, we enable the multi-modal references to capture multi-scale visual cues from consecutive video frames. This effectively endows the text or audio signals with temporal knowledge and boosts the semantic alignment between modalities. Secondly, for high-level temporal interaction after the transformer, we conduct inter-frame feature communication for different object embeddings, contributing to better object-wise correspondence for tracking along the video. On Ref-YouTube-VOS and AVSBench datasets with respective text and audio references, MUTR achieves +4.2% and +8.7% J&F improvements to state-of-the-art methods, demonstrating our significance for unified multi-modal VOS. Code is released at https://github.com/OpenGVLab/MUTR.
翻訳日:2023-12-13 20:17:20 公開日:2023-12-12
# バーンイン時間を短縮した割引mdpのモデルフリー強化学習

Regret-Optimal Model-Free Reinforcement Learning for Discounted MDPs with Short Burn-In Time ( http://arxiv.org/abs/2305.15546v2 )

ライセンス: Link先を確認
Xiang Ji, Gen Li(参考訳) 強化学習における重要な問題は、最適方針の学習である。 本研究は,オンライン環境下でのテーブル型無限ホライゾンディスカウントマルコフ決定プロセスで行った。 既存のアルゴリズムは、後悔の最適性を達成できないか、高いメモリと計算コストを発生させるかのいずれかである。 さらに、既存の最適アルゴリズムはすべて、最適なサンプル効率を達成するために長いバーンイン時間を必要とし、すなわち、サンプルサイズが高い閾値を超えない限り、その最適性は保証されない。 分散削減を用いたモデルフリーなアルゴリズムと,実行ポリシーを緩やかに切り換える新しい手法を導入することで,オープンな問題を両立する。 これは割引設定における最初の後悔の最適モデルフリーアルゴリズムであり、バーンイン時間の短縮によるメリットがある。

A crucial problem in reinforcement learning is learning the optimal policy. We study this in tabular infinite-horizon discounted Markov decision processes under the online setting. The existing algorithms either fail to achieve regret optimality or have to incur a high memory and computational cost. In addition, existing optimal algorithms all require a long burn-in time in order to achieve optimal sample efficiency, i.e., their optimality is not guaranteed unless sample size surpasses a high threshold. We address both open problems by introducing a model-free algorithm that employs variance reduction and a novel technique that switches the execution policy in a slow-yet-adaptive manner. This is the first regret-optimal model-free algorithm in the discounted setting, with the additional benefit of a low burn-in time.
翻訳日:2023-12-13 20:16:50 公開日:2023-12-12
# 学習におけるシークエンス--体系的文献レビュー

The Sequence Matters in Learning -- A Systematic Literature Review ( http://arxiv.org/abs/2308.01218v2 )

ライセンス: Link先を確認
Manuel Valle Torre, Catharine Oertel, Marcus Specht(参考訳) 逐次データと分析を用いた学習者の行動の記述と分析が,学習分析でますます普及している。 それにもかかわらず、学習シーケンスの定義は様々であり、データ集約と分析のために実装された方法に関する選択も見いだされた。 さらに、異なる教育環境を研究するためにシーケンスが使われ、様々な介入の基盤となる。 本論文では,学習支援と学習分析におけるシーケンス分析の利用状況を説明するため,これらの側面の概要を述べることを目的とした。 74の論文は,学習行動の系列を主眼とした教育環境に関する実証的研究を行う基準に基づいて選択された。 その結果,シーケンスが分析される異なる学習タスクを強調表示し,異なる種類のシーケンスアクションのためのデータマッピング戦略を特定し,目的とスコープに基づいて技法を区別し,シーケンス分析の結果に基づいて教育的介入を識別できる。

Describing and analysing learner behaviour using sequential data and analysis is becoming more and more popular in Learning Analytics. Nevertheless, we found a variety of definitions of learning sequences, as well as choices regarding data aggregation and the methods implemented for analysis. Furthermore, sequences are used to study different educational settings and serve as a base for various interventions. In this literature review, the authors aim to generate an overview of these aspects to describe the current state of using sequence analysis in educational support and learning analytics. The 74 included articles were selected based on the criteria that they conduct empirical research on an educational environment using sequences of learning actions as the main focus of their analysis. The results enable us to highlight different learning tasks where sequences are analysed, identify data mapping strategies for different types of sequence actions, differentiate techniques based on purpose and scope, and identify educational interventions based on the outcomes of sequence analysis.
翻訳日:2023-12-13 20:08:50 公開日:2023-12-12
# 量子コンピュータにおけるYang-Baxterゲートの最適実現

Optimal realization of Yang-Baxter gate on quantum computers ( http://arxiv.org/abs/2307.16781v2 )

ライセンス: Link先を確認
Kun Zhang, Kwangmin Yu, Kun Hao, Vladimir Korepin(参考訳) 量子コンピュータは、古典的シミュレーションを超えて多体系のダイナミクスを研究する有望な方法を提供する。 可積分系は多体系の力学を理解するための理論的基礎を成している。 可積分系の量子シミュレーションは、量子コンピュータの有効なベンチマークを提供するだけでなく、可積分系を研究するための最初のステップでもある。 可積分系のシミュレーションのためのビルディングブロックはyang-baxterゲートである。 量子コンピュータ上でのYang-Baxterゲートの最適実現法を知ることは不可欠である。 yang-baxterゲートの幾何学的図に基づいて、最小数のcnotまたは$r_{zz}$ゲートを持つ2種類のyang-baxterゲートの最適実現を示す。 また,IBM量子コンピュータのパルス制御により,Yang-Baxterゲートを体系的に実現する方法を示す。 我々は、IBM量子コンピュータ上で異なる実現法をテストし比較する。 yang-baxterゲートのパルス実現は、最適なcnotや$r_{zz}$実現よりも常に高いゲート忠実度を持つことがわかった。 上記の最適実現に基づいて,量子コンピュータ上でのyang-baxter方程式のシミュレーションを実証する。 この結果は,ヤンバクスターゲートに基づくさらなる実験研究のガイドラインと標準を提供する。

Quantum computers provide a promising method to study the dynamics of many-body systems beyond classical simulation. Integrable systems lay the theoretical foundation for our understanding on the dynamics of the many-body system. Quantum simulation of the integrable system not only provides a valid benchmark for quantum computers but is also the first step in studying integrable-breaking systems. The building block for the simulation of an integrable system is the Yang-Baxter gate. It is vital to know how to optimally realize the Yang-Baxter gates on quantum computers. Based on the geometric picture of the Yang-Baxter gates, we present the optimal realizations of two types of Yang-Baxter gates with a minimal number of CNOT or $R_{zz}$ gates. We also show how to systematically realize the Yang-Baxter gates via the pulse control on IBM quantum computers. We test and compare the different realizations on IBM quantum computers. We find that the pulse realizations of the Yang-Baxter gates always have a higher gate fidelity compared to the optimal CNOT or $R_{zz}$ realizations. On the basis of the above optimal realizations, we demonstrate the simulation of the Yang-Baxter equation on quantum computers. Our results provide a guideline and standard for further experimental studies based on the Yang-Baxter gate.
翻訳日:2023-12-13 20:08:35 公開日:2023-12-12
# RKHSにおける密度比の適応学習

Adaptive learning of density ratios in RKHS ( http://arxiv.org/abs/2307.16164v2 )

ライセンス: Link先を確認
Werner Zellinger, Stefan Kindermann, Sergei V. Pereverzyev(参考訳) 有限個の密度の観測から2つの確率密度の比を推定することは、二サンプルテスト、分散推定、生成モデル、共変量シフト適応、条件密度推定、新規性検出における機械学習および統計学における中心的な問題である。 本研究では,実密度比と再現カーネルヒルベルト空間(RKHS)のモデルとの正則化ブレグマン偏差を最小化する,大規模な密度比推定法を解析する。 我々は,新しい有限サンプル誤差境界を導出し,密度比の正則性を知らずに境界を最小化するlepskii型パラメータ選択原理を提案する。 二次損失の特別な場合、この手法は適応的にミニマックス最適誤差率を達成する。 数値図面が提供される。

Estimating the ratio of two probability densities from finitely many observations of the densities is a central problem in machine learning and statistics with applications in two-sample testing, divergence estimation, generative modeling, covariate shift adaptation, conditional density estimation, and novelty detection. In this work, we analyze a large class of density ratio estimation methods that minimize a regularized Bregman divergence between the true density ratio and a model in a reproducing kernel Hilbert space (RKHS). We derive new finite-sample error bounds, and we propose a Lepskii type parameter choice principle that minimizes the bounds without knowledge of the regularity of the density ratio. In the special case of quadratic loss, our method adaptively achieves a minimax optimal error rate. A numerical illustration is provided.
翻訳日:2023-12-13 20:08:16 公開日:2023-12-12
# INFLECT-DGNN:動的グラフニューラルネットワークによるインフルエンサー予測

INFLECT-DGNN: Influencer Prediction with Dynamic Graph Neural Networks ( http://arxiv.org/abs/2307.08131v3 )

ライセンス: Link先を確認
Elena Tiukhova, Emiliano Penaloza, Mar\'ia \'Oskarsd\'ottir, Bart Baesens, Monique Snoeck, Cristi\'an Bravo(参考訳) 予測モデリングにネットワーク情報を活用することは、多くの領域で広まっている。 参照とターゲットマーケティングの領域において、インフルエンサー検出は、顧客ブランド関係の継続的な発展による動的ネットワーク表現の取り込みから大きな恩恵を受けることができる分野として際立っている。 グラフニューラルネットワーク(gnn)とリカレントニューラルネットワーク(rnn)と重み付き損失関数を組み合わせた,ダイナミックグラフニューラルネットワークによるインフルエンサー予測のための新たなフレームワークであるinflect-dgnnと,グラフデータに適応した合成マイノリティオーバーサンプリング技術(smote)と,注意深いローリングウィンドウ戦略を紹介する。 予測性能を評価するため、3つの都市のネットワークを用いたユニークな企業データセットを用いて、インフルエンサー予測のための利益主導評価手法を導出する。 この結果から, 時間特性の符号化にRNNを用いることで, 予測性能が大幅に向上したことを示す。 各種モデルの結果を比較して,グラフ表現,時間的依存,利益主導の手法による評価の重要性を示す。

Leveraging network information for predictive modeling has become widespread in many domains. Within the realm of referral and targeted marketing, influencer detection stands out as an area that could greatly benefit from the incorporation of dynamic network representation due to the ongoing development of customer-brand relationships. To elaborate this idea, we introduce INFLECT-DGNN, a new framework for INFLuencer prEdiCTion with Dynamic Graph Neural Networks that combines Graph Neural Networks (GNN) and Recurrent Neural Networks (RNN) with weighted loss functions, the Synthetic Minority Oversampling TEchnique (SMOTE) adapted for graph data, and a carefully crafted rolling-window strategy. To evaluate predictive performance, we utilize a unique corporate data set with networks of three cities and derive a profit-driven evaluation methodology for influencer prediction. Our results show how using RNN to encode temporal attributes alongside GNNs significantly improves predictive performance. We compare the results of various models to demonstrate the importance of capturing graph representation, temporal dependencies, and using a profit-driven methodology for evaluation.
翻訳日:2023-12-13 20:08:02 公開日:2023-12-12
# ド・ジッター空間の量子熱力学

Quantum thermodynamics of de Sitter space ( http://arxiv.org/abs/2307.04800v3 )

ライセンス: Link先を確認
Robert Alicki, Gabriela Barenboim and Alejandro Jenkins(参考訳) 我々は、拡大する三次元空間 $\mathbf x$ に埋め込まれた開量子系の局所物理学を考察し、宇宙論的時間 $t$ で発展し、質量のない量子場に弱結合する。 対応するマルコフマスター方程式をシステムの非ユニタリ進化に対して導出し、ハッブルパラメータ $h = $ const を持つド・ジッター空間に対して示す。 背景フィールドは、温度$t_{\rm ds} = h / 2 \pi$ の物理的な熱浴として機能する。 この浴のエネルギー密度は、ステファン=ボルツマン法$\rho_{\rm dS} \propto h^4$に従う。 これらの結果がド・ジッター空間の熱力学をどのように解明するかをコメントし、赤外線における不安定性に関する以前の議論を支持する。 宇宙論的な意味は随伴する手紙で考慮されている。

We consider the local physics of an open quantum system embedded in an expanding three-dimensional space $\mathbf x$, evolving in cosmological time $t$, weakly coupled to a massless quantum field. We derive the corresponding Markovian master equation for the system's nonunitary evolution and show that, for a de Sitter space with Hubble parameter $h = $ const., the background fields act as a physical heat bath with temperature $T_{\rm dS} = h / 2 \pi$. The energy density of this bath obeys the Stefan-Boltzmann law $\rho_{\rm dS} \propto h^4$. We comment on how these results clarify the thermodynamics of de Sitter space and support previous arguments for its instability in the infrared. The cosmological implications are considered in an accompanying letter.
翻訳日:2023-12-13 20:07:07 公開日:2023-12-12
# 初期フォールトトレラント量子アルゴリズムの性能のモデル化

Modeling the Performance of Early Fault-Tolerant Quantum Algorithms ( http://arxiv.org/abs/2306.17235v2 )

ライセンス: Link先を確認
Qiyao Liang, Yiqing Zhou, Archismita Dalal, and Peter D. Johnson(参考訳) フォールトトレラント量子計算(FTQC)の進歩は、初期のフォールトトレラント量子コンピュータ(EFTQC)による実用的な応用の追求を促している。 これらのデバイスは、キュービット数とフォールトトレランス能力に制限があり、eftqcアルゴリズムとして知られるある程度のエラーを許容するアルゴリズムを必要とする。 初期の量子優位性の開始を予測するためには、IFTQCアルゴリズムを開発し解析し、ノイズの多い中間スケール量子(NISQ)法と従来のFTQC法の両方から洞察を得るための包括的な方法論が必要である。 そこで本研究では,ETTQCデバイス上でのアルゴリズム性能を,誤差の度合いに応じてモデル化する手法を提案する。 本研究では,位相推定のためのEFTQCアルゴリズムであるランダム化フーリエ推定(RFE)の性能解析に本手法を適用した。 従来の量子位相推定アルゴリズムと比較して, RFEの動作性能と耐障害性について検討した。 解析の結果、RFEはより高い実行時上限を持ちながら、物理量子ビット数の大幅な削減を実現していることがわかった。 EFTQCデバイスの性能に関するより現実的な仮定を考えると、さらに大きな物理量子ビットの節約が期待できる。 EFTQCアルゴリズムの性能トレードオフとリソース要件に関する洞察を提供することで、我々の研究は量子優位への道筋における実用的で効率的な量子コンピューティングソリューションの開発に寄与する。

Progress in fault-tolerant quantum computation (FTQC) has driven the pursuit of practical applications with early fault-tolerant quantum computers (EFTQC). These devices, limited in their qubit counts and fault-tolerance capabilities, require algorithms that can accommodate some degrees of error, which are known as EFTQC algorithms. To predict the onset of early quantum advantage, a comprehensive methodology is needed to develop and analyze EFTQC algorithms, drawing insights from both the methodologies of noisy intermediate-scale quantum (NISQ) and traditional FTQC. To address this need, we propose such a methodology for modeling algorithm performance on EFTQC devices under varying degrees of error. As a case study, we apply our methodology to analyze the performance of Randomized Fourier Estimation (RFE), an EFTQC algorithm for phase estimation. We investigate the runtime performance and the fault-tolerant overhead of RFE in comparison to the traditional quantum phase estimation algorithm. Our analysis reveals that RFE achieves significant savings in physical qubit counts while having a much higher runtime upper bound. We anticipate even greater physical qubit savings when considering more realistic assumptions about the performance of EFTQC devices. By providing insights into the performance trade-offs and resource requirements of EFTQC algorithms, our work contributes to the development of practical and efficient quantum computing solutions on the path to quantum advantage.
翻訳日:2023-12-13 20:06:54 公開日:2023-12-12
# 補助ロボットアームのためのaiエンハンスド共有制御の検討

Exploring AI-enhanced Shared Control for an Assistive Robotic Arm ( http://arxiv.org/abs/2306.13509v2 )

ライセンス: Link先を確認
Max Pascher, Kirill Kronhardt, Jan Freienstein, Jens Gerken(参考訳) 補助技術、特に補助ロボットアームは、運動障害を持つ人々が自己決定的な生活を生きられる可能性を持っている。 近年、キノヴァのjacoロボットアームなど、エンドユーザーが利用できるシステムが増えてきている。 しかし、それらは主に複雑な手動コントロールを必要とし、ユーザを圧倒する可能性がある。 その結果、研究者たちはそのようなロボットを自律的に動作させる方法を模索した。 しかし、少なくともこの特定のユーザーグループでは、このようなアプローチは無駄であることが示されている。 ここでは、自律ロボットが対向する高いレベルの自律性を達成するために、ユーザーはコントロールを維持したい。 本研究では,アートインテリジェンス(AI)を共有制御パラダイムに統合する方法について検討する。 特に,人間とロボットのインタフェースに対する要求事項と,人間のループをいかに保ちながら,精神的負荷と必要な運動能力を大幅に削減できるかに注目した。

Assistive technologies and in particular assistive robotic arms have the potential to enable people with motor impairments to live a self-determined life. More and more of these systems have become available for end users in recent years, such as the Kinova Jaco robotic arm. However, they mostly require complex manual control, which can overwhelm users. As a result, researchers have explored ways to let such robots act autonomously. However, at least for this specific group of users, such an approach has shown to be futile. Here, users want to stay in control to achieve a higher level of personal autonomy, to which an autonomous robot runs counter. In our research, we explore how Artifical Intelligence (AI) can be integrated into a shared control paradigm. In particular, we focus on the consequential requirements for the interface between human and robot and how we can keep humans in the loop while still significantly reducing the mental load and required motor skills.
翻訳日:2023-12-13 20:05:53 公開日:2023-12-12
# VisoGender:画像文代名詞分解における性別バイアスのベンチマーク用データセット

VisoGender: A dataset for benchmarking gender bias in image-text pronoun resolution ( http://arxiv.org/abs/2306.12424v3 )

ライセンス: Link先を確認
Siobhan Mackenzie Hall, Fernanda Gon\c{c}alves Abrantes, Hanwen Zhu, Grace Sodunke, Aleksandar Shtedritski, Hannah Rose Kirk(参考訳) 視覚言語モデルにおける性別バイアスをベンチマークするための新しいデータセットであるVisoGenderを紹介する。 ウィノグラードとウィノゲンダーのスキーマにインスパイアされた,二進性ジェンダーのヘゲモニックシステムにおける職業関連バイアスに着目し,各画像は場面における被写体と対象の代名詞関係を含むキャプションに関連付けられる。 VisoGenderは、職業的役割における性別表現によってバランスが取れ、バイアス評価を2つの方法で支援する。 一 男性と見なされる性表現を有する画像の被写体における代名詞分解能の精度と、人間の注釈者による女性との違いを評価するための分解能バイアス 二 性別中立性検索の検索において、男性及び女性性表現を有すると認識された専門家の比率を比較する検索バイアス。 我々は、最先端の視覚言語モデルをいくつかベンチマークし、複雑な場面における二項性解消のバイアスを示す。 性別バイアスの方向と大きさは、タスクと評価されるモデルに依存するが、キャプションモデルは通常、視覚言語エンコーダよりもバイアスが少ない。 データセットとコードはhttps://github.com/oxai/visogenderで入手できる。

We introduce VisoGender, a novel dataset for benchmarking gender bias in vision-language models. We focus on occupation-related biases within a hegemonic system of binary gender, inspired by Winograd and Winogender schemas, where each image is associated with a caption containing a pronoun relationship of subjects and objects in the scene. VisoGender is balanced by gender representation in professional roles, supporting bias evaluation in two ways: i) resolution bias, where we evaluate the difference between pronoun resolution accuracies for image subjects with gender presentations perceived as masculine versus feminine by human annotators and ii) retrieval bias, where we compare ratios of professionals perceived to have masculine and feminine gender presentations retrieved for a gender-neutral search query. We benchmark several state-of-the-art vision-language models and find that they demonstrate bias in resolving binary gender in complex scenes. While the direction and magnitude of gender bias depends on the task and the model being evaluated, captioning models are generally less biased than Vision-Language Encoders. Dataset and code are available at https://github.com/oxai/visogender
翻訳日:2023-12-13 20:05:16 公開日:2023-12-12
# DIAS: DSAシークエンスにおける頭蓋内動脈セグメンテーションのための包括的データセットとベンチマーク

DIAS: A Comprehensive Dataset and Benchmark for Intracranial Artery Segmentation in DSA sequences ( http://arxiv.org/abs/2306.12153v2 )

ライセンス: Link先を確認
Wentao Liu, Tong Tian, Lemeng Wang, Weijin Xu, Haoyuan Li, Wenyi Zhao, Siyu Tian, Xipeng Pan, Huihua Yang, Feng Gao, Yiming Deng, and Ruisheng Su(参考訳) digital subtraction angiography (dsa) は病変血管構築、動脈血行動態の解明、血管内インターベンションの誘導のためのゴールドスタンダードとして広く認められている。 血管形態の定量化に重要なDSAにおける頭蓋内動脈の自動分節は、コンピュータ支援脳卒中研究や臨床実践において重要な役割を担っている。 しかしながら、この特定の領域の研究は、主に研究コミュニティ内でIAセグメンテーションのための公開データセットが利用できないため、制約が残っている。 現在、方法論の主な焦点は、社内データセットを使用した単一フレームDSAのセグメンテーションにある。 これらの方法は、単一フレームdsaにおけるコントラストの部分的包含によって制限され、血管構造を正確に表現する上での課題に直面する。 本稿では,DSAシークエンスにおけるIAセグメンテーションのためのデータセットであるDIASを紹介する。 DIASを評価するための総合的なベンチマークが確立されており、完全に、弱く、半教師付きセグメンテーション手法を網羅している。 具体的には, dsa配列における血管内コントラストの時空間的表現をキャプチャする血管配列分割ネットワークを提案する。 弱教師付き学習のために,scribble監督と一貫性規則化の両方を組み込んだ新しいscribble learningベースの画像セグメンテーションフレームワークを提案する。 さらに,ラベルなしのdsaシーケンスを利用してセグメンテーション性能を向上させるランダムパッチベースの自己学習フレームワークを提案する。 DIASデータセットに関する広範な実験により,これらの手法が今後の研究および臨床応用の基盤となる可能性を示す。

Digital subtraction angiography (DSA) is universally acknowledged as the gold standard for examining lesion angioarchitecture, elucidating arterial blood supply dynamics, and guiding endovascular interventions. The automatic segmentation of intracranial arteries (IA) in DSA, which is pivotal for quantifying vascular morphology, plays an essential role in computer-assisted stroke research and clinical practices. Nevertheless, research in this specific domain remains constrained, primarily owing to the unavailability of publicly datasets for IA segmentation within the research community. Currently, the predominant focus of methodologies lies in the segmentation of single-frame DSA using in-house datasets. These methods, limited by the partial inclusion of contrast in single-frame DSA, encounters challenges in rendering a precise representation of vascular structures. In this paper, we introduces DIAS, a dataset specifically developed for IA segmentation in DSA sequences. A comprehensive benchmark has been established for evaluating DIAS, covering fully, weakly, and semi-supervised segmentation methods. Specifically, we propose a vessel sequence segmentation network that captures the spatiotemporal representation of intravascular contrast for segmenting vessels in DSA sequences. For weakly-supervised learning, we propose a novel scribble learning-based image segmentation framework, incorporating both scribble supervision and consistency regularization. Furthermore, we introduce a random patch-based self-training framework that harnesses unlabeled DSA sequences to improve segmentation performance. Our extensive experiments on the DIAS dataset demonstrate the effectiveness of these methods as potential baselines for future research and clinical applications.
翻訳日:2023-12-13 20:04:55 公開日:2023-12-12
# SportsSloMo:人間中心のビデオフレーム補間のためのベンチマークとベースライン

SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame Interpolation ( http://arxiv.org/abs/2308.16876v2 )

ライセンス: Link先を確認
Jiaben Chen, Huaizu Jiang(参考訳) 人間中心のビデオフレーム補間は、人々のエンターテイメント体験を改善し、スローモーションビデオの合成などスポーツ分析業界における商業的応用を見つける大きな可能性を秘めている。 コミュニティには複数のベンチマークデータセットがあるが、人間中心のシナリオに特化したものはない。 このギャップを埋めるために、私たちはsportsslomoを紹介します。これは130万以上のビデオクリップと、youtubeからクロールされた高解像度(約720p)のスローモーションスポーツビデオの100万フレームからなるベンチマークです。 ベンチマークでは,いくつかの最先端手法を再トレーニングし,他のデータセットと比較して精度が低下することを示した。 これは我々のベンチマークの難しさを強調するものであり、人体は変形性が高く、オクルージョンはスポーツビデオで頻繁に見られるため、最もパフォーマンスの良い方法であっても重大な課題をもたらすことを示唆する。 精度を向上させるために,人間の認識前処理を考慮した2つの損失項を導入し,それぞれパノプティカルセグメンテーションとヒューマンキーポイント検出に補助的監督を加える。 損失項はモデル非依存であり、任意のビデオフレーム補間アプローチに簡単に接続できる。 実験の結果,提案した損失項の有効性が検証され,既存の5つのモデルに対して一貫した性能向上が達成された。 データセットとコードは、https://neu-vi.github.io/sportsslomo/で見ることができる。

Human-centric video frame interpolation has great potential for improving people's entertainment experiences and finding commercial applications in the sports analysis industry, e.g., synthesizing slow-motion videos. Although there are multiple benchmark datasets available in the community, none of them is dedicated for human-centric scenarios. To bridge this gap, we introduce SportsSloMo, a benchmark consisting of more than 130K video clips and 1M video frames of high-resolution ($\geq$720p) slow-motion sports videos crawled from YouTube. We re-train several state-of-the-art methods on our benchmark, and the results show a decrease in their accuracy compared to other datasets. It highlights the difficulty of our benchmark and suggests that it poses significant challenges even for the best-performing methods, as human bodies are highly deformable and occlusions are frequent in sports videos. To improve the accuracy, we introduce two loss terms considering the human-aware priors, where we add auxiliary supervision to panoptic segmentation and human keypoints detection, respectively. The loss terms are model agnostic and can be easily plugged into any video frame interpolation approaches. Experimental results validate the effectiveness of our proposed loss terms, leading to consistent performance improvement over 5 existing models, which establish strong baseline models on our benchmark. The dataset and code can be found at: https://neu-vi.github.io/SportsSlomo/.
翻訳日:2023-12-13 19:57:47 公開日:2023-12-12
# GHuNeRF:モノクラービデオから一般提供可能な人間のNeRF

GHuNeRF: Generalizable Human NeRF from a Monocular Video ( http://arxiv.org/abs/2308.16576v3 )

ライセンス: Link先を確認
Chen Li, Jiahao Lin, Gim Hee Lee(参考訳) 本稿では,モノクロビデオから一般化可能なヒトNeRFモデルを学習する上での課題に取り組む。 既存の一般化可能な人間のNeRFは印象的な結果を得たが、常に利用できるとは限らないミューティビュー画像やビデオが必要である。 一方、モノクラービデオからの人間の自由視点レンダリングに関する研究は、目に見えないアイデンティティに一般化することはできない。 これらの制約を考慮し,GHuNeRFを提案し,人間の演奏者のモノクロ映像から一般化可能なNeRFモデルを学習する。 まず,3次元特徴量の構築に使用される頂点的特徴量を計算するために,可視性に着目したアグリゲーションスキームを導入する。 特徴ボリュームは、解像度が限られているため、人間のパフォーマーの全体的な形状を不十分な精度で表現できる。 これを解決するために,注意機構を用いて時間的に整列されたポイントワイドな特徴を持つボリューム機能をさらに強化する。 最後に、強化された機能は、各サンプル点の密度と色を予測するために使用される。 表面ガイドによるサンプリング戦略も、トレーニングと推論の両方の効率を改善するために採用されている。 我々は,ZJU-MoCapデータセットに対するアプローチを検証し,既存のマルチビュービデオベースアプローチと同等のパフォーマンスを実現する。 また,単眼人スナップショットデータセット上でテストを行い,単眼映像のみを使用する場合の既存の作業よりも優れた性能を実現する。 私たちのコードはプロジェクトのWebサイトで利用可能です。

In this paper, we tackle the challenging task of learning a generalizable human NeRF model from a monocular video. Although existing generalizable human NeRFs have achieved impressive results, they require muti-view images or videos which might not be always available. On the other hand, some works on free-viewpoint rendering of human from monocular videos cannot be generalized to unseen identities. In view of these limitations, we propose GHuNeRF to learn a generalizable human NeRF model from a monocular video of the human performer. We first introduce a visibility-aware aggregation scheme to compute vertex-wise features, which is used to construct a 3D feature volume. The feature volume can only represent the overall geometry of the human performer with insufficient accuracy due to the limited resolution. To solve this, we further enhance the volume feature with temporally aligned point-wise features using an attention mechanism. Finally, the enhanced feature is used for predicting density and color for each sampled point. A surface-guided sampling strategy is also adopted to improve the efficiency for both training and inference. We validate our approach on the widely-used ZJU-MoCap dataset, where we achieve comparable performance with existing multi-view video based approaches. We also test on the monocular People-Snapshot dataset and achieve better performance than existing works when only monocular video is used. Our code is available at the project website.
翻訳日:2023-12-13 19:57:22 公開日:2023-12-12
# フォン・ノイマン測定スキームをエミュレートする非エルミートハミルトニアンの埋め込み

Embedding of a non-Hermitian Hamiltonian to emulate the von Neumann measurement scheme ( http://arxiv.org/abs/2308.15411v2 )

ライセンス: Link先を確認
Gurpahul Singh, Ritesh K. Singh and Soumitro Banerjee(参考訳) 量子力学における測定方法の問題は、その定式化以来存在している。 フォン・ノイマン(Von Neumann)は、測定をフルシステム・アンシラ空間におけるユニタリな進化と、アシラのポインター状態の1つへの投射(波動関数の「崩壊」を表す)という2段階の過程として扱う計画を提案した。 環境の存在下で散逸量子現象を説明するために広く用いられてきたリンドブラッドマスター方程式は、マスター方程式におけるジャンプ作用素がエルミートであるとき、フォン・ノイマン測定スキームの最初の部分を効果的に記述することができる。 我々はフォン・ノイマン測度スキームの最初の部分をエミュレートする非エルミート的ハミルトン形式を提案した。 我々は、埋め込みプロトコルを用いて、システム部分空間のダイナミクスを支配する非エルミートハミルトニアンを、全空間を一元的に発展させる高次元エルミートハミルトニアンに拡張した。 我々は、必要な埋め込みを達成するために、アンシラヒルベルト空間の様々な制約と必要次元を得た。 この特別な埋め込みと特定の射影作用素を用いて、リンドブラッドマスター方程式に密接に従うシステム部分空間内の非エルミート力学を得る。 この研究は、非エルミート的ハミルトニアンを用いて測定問題に新たな視点を与える。

The problem of how measurement in quantum mechanics takes place has existed since its formulation. Von Neumann proposed a scheme where he treated measurement as a two-part process -- a unitary evolution in the full system-ancilla space and then a projection onto one of the pointer states of the ancilla (representing the "collapse" of the wavefunction). The Lindblad master equation, which has been extensively used to explain dissipative quantum phenomena in the presence of an environment, can effectively describe the first part of the von Neumann measurement scheme when the jump operators in the master equation are Hermitian. We have proposed a non-Hermitian Hamiltonian formalism to emulate the first part of the von Neumann measurement scheme. We have used the embedding protocol to dilate a non-Hermitian Hamiltonian that governs the dynamics in the system subspace into a higher-dimensional Hermitian Hamiltonian that evolves the full space unitarily. We have obtained the various constraints and the required dimensionality of the ancilla Hilbert space in order to achieve the required embedding. Using this particular embedding and a specific projection operator, one obtains non-Hermitian dynamics in the system subspace that closely follow the Lindblad master equation. This work lends a new perspective to the measurement problem by employing non-Hermitian Hamiltonians.
翻訳日:2023-12-13 19:57:02 公開日:2023-12-12
# instructme:潜在拡散モデルを用いた指導型音楽編集・リミックスフレームワーク

InstructME: An Instruction Guided Music Edit And Remix Framework with Latent Diffusion Models ( http://arxiv.org/abs/2308.14360v3 )

ライセンス: Link先を確認
Bing Han, Junyu Dai, Weituo Hao, Xinyan He, Dong Guo, Jitong Chen, Yuxuan Wang, Yanmin Qian and Xuchen Song(参考訳) 音楽編集は、主に楽器のトラックの修正や全体のリミックスを伴い、一連の操作を通じてオリジナル曲の新たな再解釈を提供する。 これらの音楽処理手法は様々な応用において大きな可能性を秘めているが、かなりの専門知識を必要とする。 以前の手法は、画像や音声の修正に効果があるが、直接音楽に適用すると劣化する。 これは音楽の独特なデータの性質に起因しており、そのような手法は音楽の本質的な調和とコヒーレンスを必然的に損なうことができる。 本稿では,遅延拡散モデルに基づくインストラクションガイド付き音楽編集・リミックスフレームワークであるInstructMEを開発する。 本フレームワークは,編集前後の一貫性を維持するため,U-Netをマルチスケールアグリゲーションで強化する。 さらに,コンディション情報としてコード進行行列を導入し,それを意味空間に組み込んで,編集中の旋律調和を改善する。 拡張された楽曲に合わせてinstructmeはチャンクトランスフォーマを使用して、音楽シーケンス内の長期的な時間依存を識別する。 instructmeをインスツルメンテーション,リミックス,マルチラウンド編集でテストした。 主観的評価と客観的評価は,提案手法が音楽品質,テキスト関連性,調和性において先行するシステムを大幅に上回ることを示している。 デモサンプルはhttps://musicedit.github.io/で入手できる。

Music editing primarily entails the modification of instrument tracks or remixing in the whole, which offers a novel reinterpretation of the original piece through a series of operations. These music processing methods hold immense potential across various applications but demand substantial expertise. Prior methodologies, although effective for image and audio modifications, falter when directly applied to music. This is attributed to music's distinctive data nature, where such methods can inadvertently compromise the intrinsic harmony and coherence of music. In this paper, we develop InstructME, an Instruction guided Music Editing and remixing framework based on latent diffusion models. Our framework fortifies the U-Net with multi-scale aggregation in order to maintain consistency before and after editing. In addition, we introduce chord progression matrix as condition information and incorporate it in the semantic space to improve melodic harmony while editing. For accommodating extended musical pieces, InstructME employs a chunk transformer, enabling it to discern long-term temporal dependencies within music sequences. We tested InstructME in instrument-editing, remixing, and multi-round editing. Both subjective and objective evaluations indicate that our proposed method significantly surpasses preceding systems in music quality, text relevance and harmony. Demo samples are available at https://musicedit.github.io/
翻訳日:2023-12-13 19:56:23 公開日:2023-12-12
# 量子スピン鎖の作業統計:量子相転移の特徴付け、ベンチマーク時間進化、量子状態の通過率の検討

Work statistics for Quantum Spin Chains: characterizing quantum phase transitions, benchmarking time evolution, and examining passivity of quantum states ( http://arxiv.org/abs/2308.13366v2 )

ライセンス: Link先を確認
Feng-Li Lin and Ching-Yu Huang(参考訳) 量子スピン鎖のゆらぎ定理の文脈における作業統計の3つの側面を行列積状態に基づく数値的手法により検討する。 まず,スピンチェーン上で急速クエンチによる研究が量子相転移(qpt)を特徴付けるのに有効であることを詳述する。 さらに,Ising 鎖やHaldane 鎖のような位相型といったランダウ・ギンズブルグ型およびランドウ・ギンズブルグ型のQPTを特徴付ける能力を示す数値結果を得る。 第2に,実時間コリレータと熱分割関数の比を関連付けるjarzynskiの等式のようなゆらぎ定理を,数値的実時間発展手法のベンチマーク指標として用いることを提案する。 第三に、いくつかの周期的インパルス過程下での量子スピン鎖の基底状態と熱状態の通過率について研究する。 我々は熱状態の過渡性を検証する。 さらに、Ising様鎖のいくつかの基底状態は、自発的あるいは明示的な対称性の破れからスピン秩序が小さく、量子エンジンに利用できるように活性であることがわかった。

We study three aspects of work statistics in the context of the fluctuation theorem for the quantum spin chains by numerical methods based on matrix-product states. First, we elaborate that the work done on the spin-chain by a sudden quench can be used to characterize the quantum phase transitions (QPT). We further obtain the numerical results to demonstrate its capability of characterizing the QPT of both Landau-Ginzbrug types, such as the Ising chain, or topological types, such as the Haldane chain. Second, we propose to use the fluctuation theorem, such as Jarzynski's equality, which relates the real-time correlator to the ratio of the thermal partition functions, as a benchmark indicator for the numerical real-time evolving methods. Third, we study the passivity of ground and thermal states of quantum spin chains under some cyclic impulse processes. We verify the passivity of thermal states. Furthermore, we find that some ground states in the Ising-like chain, with less overall spin order from spontaneous or explicit symmetry breaking, can be active so that they can be exploited for quantum engines.
翻訳日:2023-12-13 19:56:01 公開日:2023-12-12
# トポロジーによる絡み合い学習

Disentanglement Learning via Topology ( http://arxiv.org/abs/2308.12696v2 )

ライセンス: Link先を確認
Nikita Balabin, Daria Voronkova, Ilya Trofimov, Evgeny Burnaev, Serguei Barannikov(参考訳) マルチスケールなトポロジ的損失項を付加することにより,不整合表現を学習するTopDis (Topological Disentanglement)を提案する。 ディスタングルメントは、ディープラーニングモデルの説明可能性と堅牢性、およびハイレベル認知へのステップにとって重要なデータ表現の重要な特性である。 VAEに基づく最先端手法は、潜伏変数の結合分布の総相関を最小化する。 データ多様体のトポロジ的性質を解析することにより、解離について異なる視点をとる。 特に,データ多様体のトポロジ的類似性を最適化する。 我々の知る限りでは、この論文は、解離のための微分可能なトポロジ的損失を提案する最初の論文である。 実験の結果,提案したトポロジカル損失はMIG,FacterVAEスコア,SAPスコア,DCIアンタングルメントスコアなどの非アンタングルメントスコアを改善した。 本手法は教師なしの方法で動作し,変動要因をラベル付けすることなく問題に適用できる。 さらに, 提案した位相損失を用いて, 訓練されたGANにおいて, 絡み合った方向を求める方法を示す。

We propose TopDis (Topological Disentanglement), a method for learning disentangled representations via adding multi-scale topological loss term. Disentanglement is a crucial property of data representations substantial for the explainability and robustness of deep learning models and a step towards high-level cognition. The state-of-the-art method based on VAE minimizes the total correlation of the joint distribution of latent variables. We take a different perspective on disentanglement by analyzing topological properties of data manifolds. In particular, we optimize the topological similarity for data manifolds traversals. To the best of our knowledge, our paper is the first one to propose a differentiable topological loss for disentanglement. Our experiments have shown that the proposed topological loss improves disentanglement scores such as MIG, FactorVAE score, SAP score and DCI disentanglement score with respect to state-of-the-art results. Our method works in an unsupervised manner, permitting to apply it for problems without labeled factors of variation. Additionally, we show how to use the proposed topological loss to find disentangled directions in a trained GAN.
翻訳日:2023-12-13 19:55:40 公開日:2023-12-12
# エゴセントリックアクションの語彙を開く

Opening the Vocabulary of Egocentric Actions ( http://arxiv.org/abs/2308.11488v2 )

ライセンス: Link先を確認
Dibyadip Chatterjee, Fadime Sener, Shugao Ma, Angela Yao(参考訳) エゴセントリックなビデオにおける人間の行動は、しばしば、オブジェクトに適用される動詞(手によって実行される)からなる手動オブジェクトの相互作用である。 大規模なスケールアップにもかかわらず、エゴセントリックデータセットは、アクションコンポジションの2つの制限と、相互作用するオブジェクトのクローズドセットに直面している。 本稿では,オープンな語彙認識タスクを提案する。 訓練中に観察される動詞とオブジェクトのセットが与えられた場合、目標は、動詞を、目に見えるものや新しいものを含む行動のオープンな語彙に一般化することである。 この目的のために、オブジェクトに依存しない動詞エンコーダとプロンプトベースのオブジェクトエンコーダを用いて、動詞とオブジェクトの予測を分離する。 このプロンプトはCLIP表現を利用して、対話するオブジェクトのオープンな語彙を予測する。 EPIC-KITCHENS-100およびアセンブリ101データセット上にオープンな語彙ベンチマークを作成するが、クローズドアクション法は一般化に失敗するが、提案手法は有効である。 さらに,提案するオブジェクトエンコーダは,既存のオープンボキャブラリー視覚認識手法を大きく上回っている。

Human actions in egocentric videos are often hand-object interactions composed from a verb (performed by the hand) applied to an object. Despite their extensive scaling up, egocentric datasets still face two limitations - sparsity of action compositions and a closed set of interacting objects. This paper proposes a novel open vocabulary action recognition task. Given a set of verbs and objects observed during training, the goal is to generalize the verbs to an open vocabulary of actions with seen and novel objects. To this end, we decouple the verb and object predictions via an object-agnostic verb encoder and a prompt-based object encoder. The prompting leverages CLIP representations to predict an open vocabulary of interacting objects. We create open vocabulary benchmarks on the EPIC-KITCHENS-100 and Assembly101 datasets; whereas closed-action methods fail to generalize, our proposed method is effective. In addition, our object encoder significantly outperforms existing open-vocabulary visual recognition methods in recognizing novel interacting objects.
翻訳日:2023-12-13 19:55:20 公開日:2023-12-12
# 合成ミニマックス最適化のための高速確率分散低減法

Faster Stochastic Variance Reduction Methods for Compositional MiniMax Optimization ( http://arxiv.org/abs/2308.09604v2 )

ライセンス: Link先を確認
Jin Liu, Xiaokang Pan, Junwen Duan, Hongdong Li, Youqi Li, Zhe Qu(参考訳) 本稿では,AUCの深層化や強化学習政策評価など,さまざまな機械学習領域における重要な課題である構成最小値最適化の確率的最適化の領域を掘り下げる。 その重要性にもかかわらず、構成的ミニマックス最適化の問題はまだ未定である。 この複雑さに加えて、構成最小最適化の現在の手法は、最適以下の複雑さや大きなバッチサイズへの依存に悩まされている。 これらの制約に対応するために,Nested STOchastic Recursive Momentum (NSTORM)と呼ばれる新しい手法を導入し,$O(\kappa^3 /\epsilon^3 )$の最適なサンプル複雑性を達成し,$\epsilon$-accuracyソリューションを得る。 また、NSTORMはPolyak-\L ojasiewicz(PL)条件の下で同じサンプルの複雑さを達成できます。 しかし、NSTORMは低学習率の要求に直面する問題があり、機械学習における実際の適用性を制限している可能性がある。 このハードルを克服するために、適応学習率のADA-NSTORM(ADA-NSTORM)を提案する。 我々はADA-NSTORMが同じサンプルの複雑さを達成できることを実証するが、実験結果はより有効であることを示す。 提案手法は,各イテレーションにおいて大きなバッチサイズを必要とすることなく,既存のミニマックス最適化と低い境界を一致させることができることを示す。 大規模実験は提案手法の効率化を支援する。

This paper delves into the realm of stochastic optimization for compositional minimax optimization - a pivotal challenge across various machine learning domains, including deep AUC and reinforcement learning policy evaluation. Despite its significance, the problem of compositional minimax optimization is still under-explored. Adding to the complexity, current methods of compositional minimax optimization are plagued by sub-optimal complexities or heavy reliance on sizable batch sizes. To respond to these constraints, this paper introduces a novel method, called Nested STOchastic Recursive Momentum (NSTORM), which can achieve the optimal sample complexity of $O(\kappa^3 /\epsilon^3 )$ to obtain the $\epsilon$-accuracy solution. We also demonstrate that NSTORM can achieve the same sample complexity under the Polyak-\L ojasiewicz (PL)-condition - an insightful extension of its capabilities. Yet, NSTORM encounters an issue with its requirement for low learning rates, potentially constraining its real-world applicability in machine learning. To overcome this hurdle, we present ADAptive NSTORM (ADA-NSTORM) with adaptive learning rates. We demonstrate that ADA-NSTORM can achieve the same sample complexity but the experimental results show its more effectiveness. All the proposed complexities indicate that our proposed methods can match lower bounds to existing minimax optimizations, without requiring a large batch size in each iteration. Extensive experiments support the efficiency of our proposed methods.
翻訳日:2023-12-13 19:55:03 公開日:2023-12-12
# 非単調シーケンシャル・サブモジュラー最大化

Non-monotone Sequential Submodular Maximization ( http://arxiv.org/abs/2308.08641v2 )

ライセンス: Link先を確認
Shaojie Tang and Jing Yuan(参考訳) 本稿では,部分モジュラー最適化における基本問題である逐次部分モジュラー最大化について検討する。 具体的には、$k$ の部分モジュラ函数 $f_1, \cdots ,f_k: 2^V \rightarrow \mathbb{R}^+$ の重み付け和が最大になるような基底集合 $V$ から$k$ の項目群を選択してランク付けすることを目的としており、各関数 $f_j$ はこの列から最初の$j$ を入力として取る。 シーケンシャルなサブモジュラー最大化に関する既存の研究は、サブモジュラー関数が非減退であると仮定して、モノトーンの設定に集中している。 しかし、多様性を意識したレコメンデーションシステムのような現実世界の様々なシナリオでは、既存のセットにアイテムを追加することは、全体的なユーティリティに悪影響を及ぼす可能性がある。 そこで本研究では, 単調でない部分モジュラー関数の問題点を解明し, フレキシブルと固定長の制約と, 同一の実用機能を持つ特別な場合の両方に対して有効な解を提供する。 ビデオレコメンデーション領域における提案アルゴリズムの有効性を実証的評価により検証した。 本研究は,項目の順序付けが得られた全体的な価値に大きく影響する,推薦システムやアソシエーション最適化など,さまざまな分野に影響を及ぼす。

In this paper, we study a fundamental problem in submodular optimization, which is called sequential submodular maximization. Specifically, we aim to select and rank a group of $k$ items from a ground set $V$ such that the weighted summation of $k$ (possibly non-monotone) submodular functions $f_1, \cdots ,f_k: 2^V \rightarrow \mathbb{R}^+$ is maximized, here each function $f_j$ takes the first $j$ items from this sequence as input. The existing research on sequential submodular maximization has predominantly concentrated on the monotone setting, assuming that the submodular functions are non-decreasing. However, in various real-world scenarios, like diversity-aware recommendation systems, adding items to an existing set might negatively impact the overall utility. In response, this paper pioneers the examination of the aforementioned problem with non-monotone submodular functions and offers effective solutions for both flexible and fixed length constraints, as well as a special case with identical utility functions. The empirical evaluations further validate the effectiveness of our proposed algorithms in the domain of video recommendations. The results of this research have implications in various fields, including recommendation systems and assortment optimization, where the ordering of items significantly impacts the overall value obtained.
翻訳日:2023-12-13 19:54:36 公開日:2023-12-12
# フライスワットかキャノンか? メタモデリングによるコスト効果言語モデル選択

Fly-Swat or Cannon? Cost-Effective Language Model Choice via Meta-Modeling ( http://arxiv.org/abs/2308.06077v2 )

ライセンス: Link先を確認
Marija \v{S}akota, Maxime Peyrard, Robert West(参考訳) ジェネレーティブ言語モデル(LM)は、データサイエンス全体にわたって一様である。 様々なタスクに対して、入力はLMの自然言語プロンプトとして表現することができ、その出力から解を抽出することができる。 lmのパフォーマンスはモデルサイズによって一貫して向上していますが、さらに大きなモデルに問い合わせる金銭的なコストも伴っています。 しかし、重要なことは全ての入力が等しく難しいわけではない: 満足な解を得るためにより大きなLMを必要とするものもいるが、他のより小さなLMでは十分である。 この事実に基づいて、コスト効果言語モデル選択(CELMOC)のためのフレームワークを設計する。 入力のセットと候補LMのセットが与えられた後、CELMOCは、各入力を、メタモデルと呼ばれる入力でうまく動作すると予測されたLMに任意に割り当て、低コストで全体的なパフォーマンスを達成することを目的としている。 コストパフォーマンストレードオフは、ユーザが柔軟に調整することができる。 オプションには、所定のコスト予算内に留まり、期待されるパフォーマンス(または処理された入力数)を最大化することや、すべての入力を処理しながら総コストを最小化することが含まれる。 5つの自然言語タスクをカバーする14のデータセット上でcelmocを評価し,サイズとコストの異なる4つの候補lmsを用いて評価した。 CELMOCでは,最大利用可能なLMの性能と63%のコスト削減を実現した。 公開ライブラリーのおかげで、研究者も実践者も、パフォーマンスを犠牲にすることなく大量のお金を節約できる。

Generative language models (LMs) have become omnipresent across data science. For a wide variety of tasks, inputs can be phrased as natural language prompts for an LM, from whose output the solution can then be extracted. LM performance has consistently been increasing with model size - but so has the monetary cost of querying the ever larger models. Importantly, however, not all inputs are equally hard: some require larger LMs for obtaining a satisfactory solution, whereas for others smaller LMs suffice. Based on this fact, we design a framework for Cost-Effective Language Model Choice (CELMOC). Given a set of inputs and a set of candidate LMs, CELMOC judiciously assigns each input to an LM predicted to do well on the input according to a so-called meta-model, aiming to achieve high overall performance at low cost. The cost-performance trade-off can be flexibly tuned by the user. Options include, among others, maximizing total expected performance (or the number of processed inputs) while staying within a given cost budget, or minimizing total cost while processing all inputs. We evaluate CELMOC on 14 datasets covering five natural language tasks, using four candidate LMs of vastly different size and cost. With CELMOC, we match the performance of the largest available LM while achieving a cost reduction of 63%. Via our publicly available library, researchers as well as practitioners can thus save large amounts of money without sacrificing performance.
翻訳日:2023-12-13 19:54:06 公開日:2023-12-12
# 高速NeRF合成とレンダリングのための汎用的暗黙フレームワーク

A General Implicit Framework for Fast NeRF Composition and Rendering ( http://arxiv.org/abs/2308.04669v3 )

ライセンス: Link先を確認
Xinyu Gao, Ziyi Yang, Yunlu Zhao, Yuxiang Sun, Xiaogang Jin, Changqing Zou(参考訳) 様々なニューラル・ラジアンス・フィールド(nerf)法が近年、高いレンダリング速度で顕著な成功を収めている。 しかし、現在の加速法は特殊であり、様々な暗黙的手法と相容れないため、様々な種類のNeRF作品に対するリアルタイムな構成を妨げている。 NeRFは放射線のサンプリングに依存するため、加速のための一般的なガイダンスを提供することができる。 そこで我々は,NeRFオブジェクトを高速に構成するための一般的な暗黙パイプラインを提案する。 本手法は,複数のNeRFオブジェクトを任意の剛性変換とともにシームレスに配置・描画し,解析光源を用いて物体内および物体間の動的影の鋳造を可能にする。 主に,光線と暗黙表面との直接交叉計算を可能にすることで,物体間の空間的関係を迅速に決定するニューラル深度場(nedf)と呼ばれる新しい表面表現を導入する。 交叉ニューラルネットワークを用いて、空間構造によらず、NeRFを高速化するためにクエリし、提案手法は、NeRFオブジェクトのプログレッシブかつインタラクティブな合成を可能にする最初の方法である。 さらに、既存のNeRFワークのプレビュープラグインとしても機能する。

A variety of Neural Radiance Fields (NeRF) methods have recently achieved remarkable success in high render speed. However, current accelerating methods are specialized and incompatible with various implicit methods, preventing real-time composition over various types of NeRF works. Because NeRF relies on sampling along rays, it is possible to provide general guidance for acceleration. To that end, we propose a general implicit pipeline for composing NeRF objects quickly. Our method enables the casting of dynamic shadows within or between objects using analytical light sources while allowing multiple NeRF objects to be seamlessly placed and rendered together with any arbitrary rigid transformations. Mainly, our work introduces a new surface representation known as Neural Depth Fields (NeDF) that quickly determines the spatial relationship between objects by allowing direct intersection computation between rays and implicit surfaces. It leverages an intersection neural network to query NeRF for acceleration instead of depending on an explicit spatial structure.Our proposed method is the first to enable both the progressive and interactive composition of NeRF objects. Additionally, it also serves as a previewing plugin for a range of existing NeRF works.
翻訳日:2023-12-13 19:53:41 公開日:2023-12-12
# 動的非結合能動フィードバックによる2量子絡み合いの安定化

Stabilizing two-qubit entanglement with dynamically decoupled active feedback ( http://arxiv.org/abs/2308.03923v2 )

ライセンス: Link先を確認
Sacha Greenfield, Leigh Martin, Felix Motzoi, K. Birgitta Whaley, Justin Dressel, and Eli M. Levenson-Falk(参考訳) 連続的な2量子ビットハーフパリティ測定からアクティブな状態依存フィードバックを用いた2つの非相互作用量子ビットの最大絡み合い状態の安定化のためのプロトコルを,並列な非可換動的デカップリングドライブと協調して提案・解析する。 我々は、そのようなドライブは測定とフィードバックを同時に行うことができる一方で、フィードバックプロトコル自体において重要な役割を果たすことを実証する。 フィードバックループの時間遅延,不完全な状態追跡,非効率な測定,1/f$の分散量子周波数ノイズの強調,緩和といった現実的な非理想性が存在する場合でも,単位に近い忠実性を持つロバスト安定化が達成できることを示す。 制御信号の影響を追跡するフィードバックコントローラにおいて、前方状態推定戦略を導入することで、フィードバック遅延の軽減を図る。 より一般に、定常状態は、ほとんどの既知のフィードバックや誤り訂正スキームとは対照的に、エラー状態に関係なく、アンシラスを必要とせずに、世界的に魅力的である。

We propose and analyze a protocol for stabilizing a maximally entangled state of two noninteracting qubits using active state-dependent feedback from a continuous two-qubit half-parity measurement in coordination with a concurrent, non-commuting dynamical decoupling drive. We demonstrate that such a drive can be simultaneous with the measurement and feedback, while also playing a key part in the feedback protocol itself. We show that robust stabilization with near-unit fidelity can be achieved even in the presence of realistic nonidealities, such as time delay in the feedback loop, imperfect state-tracking, inefficient measurements, dephasing from $1/f$-distributed qubit-frequency noise, and relaxation. We mitigate feedback-delay error by introducing a forward-state-estimation strategy in the feedback controller that tracks the effects of control signals already in transit. More generally, the steady state is globally attractive without the need for ancillas, regardless of the error state, in contrast to most known feedback and error correction schemes.
翻訳日:2023-12-13 19:53:24 公開日:2023-12-12
# Copycatのパーセプトロン:集団学習でバリアを壊す

The Copycat Perceptron: Smashing Barriers Through Collective Learning ( http://arxiv.org/abs/2308.03743v2 )

ライセンス: Link先を確認
Giovanni Catania, Aur\'elien Decelle, and Beatriz Seoane(参考訳) 教師・学生シナリオにおけるy$結合二元パーセプトロンモデルの平衡特性を, 学習則に従えば, 生徒の重み間のハミング距離に比例する明示的な強磁性結合によって特徴づける。 最近の研究とは対照的に、各学生の一般化性能に影響を与える熱ノイズが存在するというより一般的な設定を解析する。 In the nonzero temperature regime, we find that the coupling of replicas produces a bend of the phase diagram towards smaller values of $\alpha$: This suggests that the free energy landscape gets smoother around the solution with perfect generalization (i.e., the teacher's) at a fixed fraction of examples, allowing standard thermal updates such as Simulated Annealing to easily reach the teacher solution and avoid entrapment in metastable states as it happens in the unreplicated case, even in the so-called computationally easy regime. これらの結果は、十分な数のレプリカに対して、複製されたシミュレーションアニーリング(rsa)のベイズ最適特性について、解析的および数値的証拠を提供する。 学習の観点から、これらの結果は、複数の学生(この場合、同じデータをレビューする)が、協力的および連合的学習の文脈で活用できる特性として、同じルールを著しく高速かつ少ない例で学習できることを示唆している。

We characterize the equilibrium properties of a model of $y$ coupled binary perceptrons in the teacher-student scenario, subject to a learning rule, with an explicit ferromagnetic coupling proportional to the Hamming distance between the students' weights. In contrast to recent works, we analyze a more general setting in which thermal noise is present that affects each student's generalization performance. In the nonzero temperature regime, we find that the coupling of replicas produces a bend of the phase diagram towards smaller values of $\alpha$: This suggests that the free energy landscape gets smoother around the solution with perfect generalization (i.e., the teacher's) at a fixed fraction of examples, allowing standard thermal updates such as Simulated Annealing to easily reach the teacher solution and avoid entrapment in metastable states as it happens in the unreplicated case, even in the so-called computationally easy regime. These results provide additional analytic and numerical evidence for the recently conjectured Bayes-optimal property of Replicated Simulated Annealing (RSA) for a sufficient number of replicas. From a learning perspective, these results also suggest that multiple students working together (in this case reviewing the same data) are able to learn the same rule both significantly faster and with fewer examples, a property that could be exploited in the context of cooperative and federated learning.
翻訳日:2023-12-13 19:53:05 公開日:2023-12-12
# スケールでの粒度:高解像度オーソグラフィー画像とハイブリッド学習による近隣社会経済指標の推定

Granularity at Scale: Estimating Neighborhood Socioeconomic Indicators from High-Resolution Orthographic Imagery and Hybrid Learning ( http://arxiv.org/abs/2309.16808v2 )

ライセンス: Link先を確認
Ethan Brewer, Giovani Valdrighi, Parikshit Solunke, Joao Rulff, Yurii Piadyk, Zhonghui Lv, Jorge Poco, and Claudio Silva(参考訳) 世界の多くの地域は、既存のデータ収集方法の限界のために、人口の社会経済的幸福に関する基本的な情報を持っていない。 衛星や航空機などの遠隔地から得られたオーバーヘッド画像は、地上の生命状態の窓として機能し、より高解像度のセンサーを必要とするより小さなスケールでの推定で、コミュニティ情報が不足している「ギャップに埋める」のに役立つ。 センサーの解像度の改善と並行して、機械学習とコンピュータビジョンの最近の進歩により、これらの特徴を他の情報と関連付けるプロセスにおいて、画像データのパターンから素早く特徴を抽出し、検出することが可能になった。 本研究は, 教師付き畳み込みニューラルネットワークと半教師付きクラスタリングという2つのアプローチが, 人口密度, 中央値の世帯所得, および全米の都市の高解像度画像から各地区の教育的到達度を推定するものである。 その結果、画像から抽出された特徴は、近隣の人口密度 (r$^2$- 0.81) を正確に推定でき、教師付きアプローチにより、人口の所得と教育の変動の約半分を説明できることがわかった。 地理的一般化の基盤となる提示されたアプローチに加えて、新しい半教師付きアプローチは、ラベルデータを必要としない航空画像から微細な情報を推定する将来の研究の基盤を提供する。

Many areas of the world are without basic information on the socioeconomic well-being of the residing population due to limitations in existing data collection methods. Overhead images obtained remotely, such as from satellite or aircraft, can help serve as windows into the state of life on the ground and help "fill in the gaps" where community information is sparse, with estimates at smaller geographic scales requiring higher resolution sensors. Concurrent with improved sensor resolutions, recent advancements in machine learning and computer vision have made it possible to quickly extract features from and detect patterns in image data, in the process correlating these features with other information. In this work, we explore how well two approaches, a supervised convolutional neural network and semi-supervised clustering based on bag-of-visual-words, estimate population density, median household income, and educational attainment of individual neighborhoods from publicly available high-resolution imagery of cities throughout the United States. Results and analyses indicate that features extracted from the imagery can accurately estimate the density (R$^2$ up to 0.81) of neighborhoods, with the supervised approach able to explain about half the variation in a population's income and education. In addition to the presented approaches serving as a basis for further geographic generalization, the novel semi-supervised approach provides a foundation for future work seeking to estimate fine-scale information from aerial imagery without the need for label data.
翻訳日:2023-12-13 19:45:28 公開日:2023-12-12
# 複雑性から明快へ:クリフォードの幾何代数と凸性による深層ニューラルネットワーク重みの解析的表現

From Complexity to Clarity: Analytical Expressions of Deep Neural Network Weights via Clifford's Geometric Algebra and Convexity ( http://arxiv.org/abs/2309.16512v2 )

ライセンス: Link先を確認
Mert Pilanci(参考訳) 本稿では,幾何学的(クリフォード)代数と凸最適化に基づくニューラルネットワークの新たな解析法を提案する。 我々は,標準正規化損失のトレーニングにおいて,深部ReLUニューラルネットワークの最適重みがトレーニングサンプルのウェッジ積によって与えられることを示した。 さらに、トレーニング問題は、トレーニングデータセットの幾何学的構造を符号化するウェッジ製品特徴よりも凸最適化に還元される。 この構造は、データベクトルによって生成される三角形と平行同位体の符号付き体積で与えられる。 凸問題は、関連するウェッジ製品の特徴のみを見つけるために$\ell_1$正規化によってサンプルの小さなサブセットを見つける。 本分析は,深層ニューラルネットワークの内部動作に関する新たな視点を提供し,隠れ層の役割に光を当てる。

In this paper, we introduce a novel analysis of neural networks based on geometric (Clifford) algebra and convex optimization. We show that optimal weights of deep ReLU neural networks are given by the wedge product of training samples when trained with standard regularized loss. Furthermore, the training problem reduces to convex optimization over wedge product features, which encode the geometric structure of the training dataset. This structure is given in terms of signed volumes of triangles and parallelotopes generated by data vectors. The convex problem finds a small subset of samples via $\ell_1$ regularization to discover only relevant wedge product features. Our analysis provides a novel perspective on the inner workings of deep neural networks and sheds light on the role of the hidden layers.
翻訳日:2023-12-13 19:45:03 公開日:2023-12-12
# DifAttack: 分散機能空間によるクエリ効率の良いブラックボックス攻撃

DifAttack: Query-Efficient Black-Box Attack via Disentangled Feature Space ( http://arxiv.org/abs/2309.14585v2 )

ライセンス: Link先を確認
Liu Jun, Zhou Jiantao, Zeng Jiandian, Jinyu Tian(参考訳) 本研究は,高攻撃成功率(ASR)と良好な一般化性を備えた,効率的なスコアベースブラックボックス攻撃について検討する。 本研究では,DifAttackと呼ばれる,DifAttackと呼ばれる不整形特徴空間に基づく新たな攻撃手法を設計する。 具体的には、ディファタックはまず、画像の潜伏した特徴を敵対的特徴と視覚的特徴に切り離し、前者が画像の敵対的能力を支配し、後者が視覚的な外観を大々的に決定する。 我々は,ホワイトボックス攻撃法を用いて,利用可能なサロゲートモデルから生成した一対のクリーンイメージとその逆例(aes)を用いて,乱れに対するオートエンコーダを訓練する。 最終的に、DifAttackは、視覚的特徴を変更せずに、成功しているAEが生成されるまで、被害者モデルからのクエリフィードバックに従って、敵機能を反復的に最適化する。 さらに,ブラックボックスモデルにaesを最適化する際のサロゲートモデルの勾配情報の使用を避けるため,本提案手法は,被害者モデルのトレーニングデータセットが不明なオープンセットシナリオにおいて,本質的により優れた攻撃能力を有する。 広範な実験結果から,本手法はasrとクエリの効率を,特にターゲット攻撃とオープンセットシナリオにおいて同時に大幅に改善できることが判明した。 コードは近くhttps://github.com/csjunjun/difattack.gitで入手できる。

This work investigates efficient score-based black-box adversarial attacks with a high Attack Success Rate (ASR) and good generalizability. We design a novel attack method based on a Disentangled Feature space, called DifAttack, which differs significantly from the existing ones operating over the entire feature space. Specifically, DifAttack firstly disentangles an image's latent feature into an adversarial feature and a visual feature, where the former dominates the adversarial capability of an image, while the latter largely determines its visual appearance. We train an autoencoder for the disentanglement by using pairs of clean images and their Adversarial Examples (AEs) generated from available surrogate models via white-box attack methods. Eventually, DifAttack iteratively optimizes the adversarial feature according to the query feedback from the victim model until a successful AE is generated, while keeping the visual feature unaltered. In addition, due to the avoidance of using surrogate models' gradient information when optimizing AEs for black-box models, our proposed DifAttack inherently possesses better attack capability in the open-set scenario, where the training dataset of the victim model is unknown. Extensive experimental results demonstrate that our method achieves significant improvements in ASR and query efficiency simultaneously, especially in the targeted attack and open-set scenarios. The code will be available at https://github.com/csjunjun/DifAttack.git soon.
翻訳日:2023-12-13 19:44:30 公開日:2023-12-12
# LLMによる誤報検出は可能か?

Can LLM-Generated Misinformation Be Detected? ( http://arxiv.org/abs/2309.13788v2 )

ライセンス: Link先を確認
Canyu Chen, Kai Shu(参考訳) 大規模言語モデル(llm)の出現は、変革的な影響をもたらした。 しかし、chatgptのようなllmを悪用して誤った情報を生成する可能性は、オンラインの安全と公共の信頼に深刻な懸念をもたらしている。 LLMが生成した誤報は、人間が書いた誤報よりも有害か? 我々は,検出難易度の観点からこの問題に取り組むことを提案する。 まず LLM 生成の誤情報を分類する。 次に,LLMを用いた誤情報生成手法の分類と検証を行った。 そこで,本研究では,llmが生成した誤情報を人間や検出者に対して,同じ意味を持つ人間の誤情報と比較して検出することが困難であることを示す。 また,llm時代の誤情報対策における発見の意義と対策について考察する。

The advent of Large Language Models (LLMs) has made a transformative impact. However, the potential that LLMs such as ChatGPT can be exploited to generate misinformation has posed a serious concern to online safety and public trust. A fundamental research question is: will LLM-generated misinformation cause more harm than human-written misinformation? We propose to tackle this question from the perspective of detection difficulty. We first build a taxonomy of LLM-generated misinformation. Then we categorize and validate the potential real-world methods for generating misinformation with LLMs. Then, through extensive empirical investigation, we discover that LLM-generated misinformation can be harder to detect for humans and detectors compared to human-written misinformation with the same semantics, which suggests it can have more deceptive styles and potentially cause more harm. We also discuss the implications of our discovery on combating misinformation in the age of LLMs and the countermeasures.
翻訳日:2023-12-13 19:44:04 公開日:2023-12-12
# ma, no code: json プランを調整するだけで autopet ii チャレンジ用に nnu-net を微調整する

Look Ma, no code: fine tuning nnU-Net for the AutoPET II challenge by only adjusting its JSON plans ( http://arxiv.org/abs/2309.13747v2 )

ライセンス: Link先を確認
Fabian Isensee, Klaus H.Maier-Hein(参考訳) 我々は,nUNetPlans.json'ファイルの理解と修正が簡単なため,nnU-Netを変更せずにAutoPET IIの課題に参加する。 残エンコーダ付きUNetに切り替えることで、バッチサイズを増大させ、パッチサイズを増大させることで、モデルトレーニングの計算要求の増加を犠牲にして、自動構成されたnnU-Netベースライン(5倍のクロスバリデーションDiceスコア65.14 vs 33.28)を大幅に上回る構成が得られる。 最後の提出は、最も有望な2つの構成をまとめます。

We participate in the AutoPET II challenge by modifying nnU-Net only through its easy to understand and modify 'nnUNetPlans.json' file. By switching to a UNet with residual encoder, increasing the batch size and increasing the patch size we obtain a configuration that substantially outperforms the automatically configured nnU-Net baseline (5-fold cross-validation Dice score of 65.14 vs 33.28) at the expense of increased compute requirements for model training. Our final submission ensembles the two most promising configurations.
翻訳日:2023-12-13 19:43:49 公開日:2023-12-12
# キャビティエンハンスド原子周波数コム量子メモリの現実的なモデルに向けて

Towards a Realistic Model for Cavity-Enhanced Atomic Frequency Comb Quantum Memories ( http://arxiv.org/abs/2309.10332v2 )

ライセンス: Link先を確認
Shahrzad Taherizadegan (1), Jacob H. Davidson (2), Sourabh Kumar (1), Daniel Oblak (1), and Christoph Simon (1) ((1) Department of Physics & Astronomy, Institute for Quantum Science and Technology, University of Calgary, Calgary, Alberta, Canada, (2) QuTech and Kavli Institute of Nanoscience, Delft University of Technology, Delft, The Netherlands)(参考訳) 原子周波数コム(AFC)量子メモリは長距離量子通信において好ましいプロトコルである。 非対称光学キャビティにafcを挿入すると貯蔵効率は向上するが、コーム特性の測定は困難になる。 我々は,分散の影響を含む空洞型AFC量子メモリの理論モデルを開発し,そのモデルと実験結果との密接な整合性を示す。 効率を推定するための半定量的な合意と、デチューニングの関数として効率がどのように変化するのかをうまく記述すると、実験反射率の定性的特徴も捉える。 比較のために、分散のない理論モデルが劇的に失敗し、正しい効率を予測できないことを示す。 本モデルは,キャビティ内の光学的深さなどの生成したコーム特性を正確に推定するステップであり,キャビティ強化型afc量子メモリの性能を正確に予測することができる。

Atomic frequency comb (AFC) quantum memory is a favorable protocol in long distance quantum communication. Putting the AFC inside an asymmetric optical cavity enhances the storage efficiency but makes the measurement of the comb properties challenging. We develop a theoretical model for cavity-enhanced AFC quantum memory that includes the effects of dispersion, and show a close alignment of the model with our own experimental results. Providing semi quantitative agreement for estimating the efficiency and a good description of how the efficiency changes as a function of detuning, it also captures certain qualitative features of the experimental reflectivity. For comparison, we show that a theoretical model without dispersion fails dramatically to predict the correct efficiencies. Our model is a step forward to accurately estimating the created comb properties, such as the optical depth inside the cavity, and so being able to make precise predictions of the performance of the prepared cavity-enhanced AFC quantum memory.
翻訳日:2023-12-13 19:43:13 公開日:2023-12-12
# Talk2Care: 大規模言語モデルによる非同期患者プロバイダ通信の実現

Talk2Care: Facilitating Asynchronous Patient-Provider Communication with Large-Language-Model ( http://arxiv.org/abs/2309.09357v4 )

ライセンス: Link先を確認
Ziqi Yang, Xuhai Xu, Bingsheng Yao, Shao Zhang, Ethan Rogers, Stephen Intille, Nawar Shara, Guodong Gordon Gao, Dakuo Wang(参考訳) 在宅高齢者や医療提供者を支援するための遠隔医療アプリケーションが多いにもかかわらず、基本的なメッセージングや電話は依然として最も一般的なコミュニケーション方法であり、可用性や情報損失、プロセスの非効率に苦しんでいる。 患者と提供者のコミュニケーションを促進する有望な解決策の1つは、強力な自然会話と要約機能を備えた大規模言語モデル(llm)を活用することである。 しかし、通信におけるllmsの役割の理解は限られている。 まず,高齢者 (N=10) と医療提供者 (N=9) の2つのインタビュー研究を行い, 患者支援非同期コミュニケーションにおけるLSMの必要性と機会について検討した。 1)高齢者向けに音声アシスタント(vas)の利便性とアクセシビリティを活用し,効果的な情報収集のためにllmを利用したvaインターフェースを構築した。 2)健康提供者向けに,高齢者のvaとの会話に基づく重要な健康情報を要約し提示するための,llmベースのダッシュボードを構築した。 さらに,高齢者と提供者との2つのユーザスタディを行い,システムのユーザビリティを評価した。 その結果,Talk2Careはコミュニケーションプロセスを促進し,高齢者の健康情報を充実させ,提供者の努力と時間を著しく節約できることがわかった。 我々は,医療と対人コミュニケーションの交点におけるllmsの能力の探索として,我々の研究を期待する。

Despite the plethora of telehealth applications to assist home-based older adults and healthcare providers, basic messaging and phone calls are still the most common communication methods, which suffer from limited availability, information loss, and process inefficiencies. One promising solution to facilitate patient-provider communication is to leverage large language models (LLMs) with their powerful natural conversation and summarization capability. However, there is a limited understanding of LLMs' role during the communication. We first conducted two interview studies with both older adults (N=10) and healthcare providers (N=9) to understand their needs and opportunities for LLMs in patient-provider asynchronous communication. Based on the insights, we built an LLM-powered communication system, Talk2Care, and designed interactive components for both groups: (1) For older adults, we leveraged the convenience and accessibility of voice assistants (VAs) and built an LLM-powered VA interface for effective information collection. (2) For health providers, we built an LLM-based dashboard to summarize and present important health information based on older adults' conversations with the VA. We further conducted two user studies with older adults and providers to evaluate the usability of the system. The results showed that Talk2Care could facilitate the communication process, enrich the health information collected from older adults, and considerably save providers' efforts and time. We envision our work as an initial exploration of LLMs' capability in the intersection of healthcare and interpersonal communication.
翻訳日:2023-12-13 19:42:57 公開日:2023-12-12
# ロータークラフトによる離着陸支援のためのマルチスケールfiducial markerの使用

The Use of Multi-Scale Fiducial Markers To Aid Takeoff and Landing Navigation by Rotorcraft ( http://arxiv.org/abs/2309.08769v3 )

ライセンス: Link先を確認
Jongwon Lee, Su Yeon Choi, Timothy Bretl(参考訳) 本稿では,マルチスケールのfiducial marker(すなわち,幅広い距離で検出可能な人工ランドマーク)を活用した視覚スラムの性能を定量化し,ロータークラフトにおける信頼性の高い離着陸ナビゲーションの可能性を示す。 以前の研究では、グリッドセルの白黒パターンを持つ四角いマーカーは、カラーカメラによるビジュアルスラムのパフォーマンスを改善するために使用できることが示されている。 この前の作業を拡張して、ネストされたマーカーレイアウトを可能にします。 2台のFLIRブラックフライカラーカメラを搭載したDJIマトリス300 RTKロータクラフトを用いて,各種環境条件下での半自律離着陸動作の性能評価を行い,RTK GNSSを用いて地中真実ポーズ推定値を得た。 性能指標には、絶対軌道誤差と、合計フレームに対する推定ポーズ数の分数が含まれる。 私たちのデータセットとfiducial markersを使ったvisual slamの実装のコードは、オープンソースとして公開しています。

This paper quantifies the performance of visual SLAM that leverages multi-scale fiducial markers (i.e., artificial landmarks that can be detected at a wide range of distances) to show its potential for reliable takeoff and landing navigation in rotorcraft. Prior work has shown that square markers with a black-and-white pattern of grid cells can be used to improve the performance of visual SLAM with color cameras. We extend this prior work to allow nested marker layouts. We evaluate performance during semi-autonomous takeoff and landing operations in a variety of environmental conditions by a DJI Matrice 300 RTK rotorcraft with two FLIR Blackfly color cameras, using RTK GNSS to obtain ground truth pose estimates. Performance measures include absolute trajectory error and the fraction of the number of estimated poses to the total frame. We release all of our results -- our dataset and the code of the implementation of the visual SLAM with fiducial markers -- to the public as open-source.
翻訳日:2023-12-13 19:42:32 公開日:2023-12-12
# Agents: 自律言語エージェントのためのオープンソースフレームワーク

Agents: An Open-source Framework for Autonomous Language Agents ( http://arxiv.org/abs/2309.07870v3 )

ライセンス: Link先を確認
Wangchunshu Zhou, Yuchen Eleanor Jiang, Long Li, Jialong Wu, Tiannan Wang, Shi Qiu, Jintian Zhang, Jing Chen, Ruipu Wu, Shuai Wang, Shiding Zhu, Jiyu Chen, Wentao Zhang, Xiangru Tang, Ningyu Zhang, Huajun Chen, Peng Cui, Mrinmaya Sachan(参考訳) 大規模言語モデル(LLM)の最近の進歩により、研究者や開発者は、さまざまなタスクを自動的に解決し、自然言語インターフェースを使用して環境、人間、その他のエージェントと対話できる自律型言語エージェントを構築することができる。 我々は、言語エージェントを人工知能への有望な方向とみなし、オープンソースライブラリであるAgentsを、これらの進歩をより広い非専門家の聴衆に開放することを目的としている。 エージェントは、計画、メモリ、ツールの使用、マルチエージェント通信、きめ細かいシンボル制御など、重要な機能をサポートするために慎重に設計されている。 エージェントは、非専門家が最先端の自律型言語エージェントを構築し、カスタマイズし、テストし、チューニングし、デプロイすることを可能にするため、ユーザフレンドリである。 この図書館は、モジュラーデザインが研究者にとって容易に拡張できるようにするため、研究に親しみやすい。 Agentsはhttps://github.com/aiwaves-cn/agentsで利用できる。

Recent advances on large language models (LLMs) enable researchers and developers to build autonomous language agents that can automatically solve various tasks and interact with environments, humans, and other agents using natural language interfaces. We consider language agents as a promising direction towards artificial general intelligence and release Agents, an open-source library with the goal of opening up these advances to a wider non-specialist audience. Agents is carefully engineered to support important features including planning, memory, tool usage, multi-agent communication, and fine-grained symbolic control. Agents is user-friendly as it enables non-specialists to build, customize, test, tune, and deploy state-of-the-art autonomous language agents without much coding. The library is also research-friendly as its modularized design makes it easily extensible for researchers. Agents is available at https://github.com/aiwaves-cn/agents.
翻訳日:2023-12-13 19:42:16 公開日:2023-12-12
# 固有状態分布の解剖学:真の多相性を求めて

Anatomy of the eigenstates distribution: a quest for a genuine multifractality ( http://arxiv.org/abs/2309.06468v2 )

ライセンス: Link先を確認
Anton Kutlin and Ivan M. Khaymovich(参考訳) 最近の一連の研究によって動機づけられたマルチフラクタル相への関心は、Multi-Body Localized (MBL) フェーズに存在し、量子アニールや機械学習において高い需要があると考えられているため高まっている。 ガウス分布ホッピング要素を持つRosenzweigPorter(RP)モデルの成功に触発されて、太い尾を持つ分散ホッピング項を持つRPライクなアンサンブルがいくつか提案されている。 本研究では, 汎用RPモデルに対するフラクタル次元の自己整合解析計算を可能にする一般(図式)アプローチを開発し, マルチフラクタル相の出現に対するRPハミルトニアンの特徴について検討する。 真のマルチフラクタル性に寄与する唯一の特徴は、オンサイトエネルギーの分布であり、つまり、統計的に均質な対角性障害の分布と非相関な対角性項を持つランダム行列モデルがマルチフラクタル位相をホストできないことを意味する。

Motivated by a series of recent works, an interest in multifractal phases has risen as they are believed to be present in the Many-Body Localized (MBL) phase and are of high demand in quantum annealing and machine learning. Inspired by the success of the RosenzweigPorter (RP) model with Gaussian-distributed hopping elements, several RP-like ensembles with the fat-tailed distributed hopping terms have been proposed, with claims that they host the desired multifractal phase. In the present work, we develop a general (graphical) approach allowing a self-consistent analytical calculation of fractal dimensions for a generic RP model and investigate what features of the RP Hamiltonians can be responsible for the multifractal phase emergence. We conclude that the only feature contributing to a genuine multifractality is the on-site energies' distribution, meaning that no random matrix model with a statistically homogeneous distribution of diagonal disorder and uncorrelated off-diagonal terms can host a multifractal phase.
翻訳日:2023-12-13 19:41:59 公開日:2023-12-12
# GNNにおけるフェアネスの促進:安定性の評価

Promoting Fairness in GNNs: A Characterization of Stability ( http://arxiv.org/abs/2309.03648v3 )

ライセンス: Link先を確認
Yaning Jia, Chunhui Zhang(参考訳) 頑健な統計学の手法であるリプシッツ境界は、関連する無関係なバイアス要因を考慮して、入力に関する出力の最大変化を制限することができる。 追加の計算コストを発生させることなく、機械学習モデルの出力安定性を効率よく検証できる手法である。 近年,非ユークリッドデータを扱うグラフニューラルネットワーク (GNN) が注目されている。 しかしながら、gnnリプシッツ境界がモデル出力の安定化に光を当てるかどうか、特に固有のバイアスを持つ非ユークリッドデータを扱う場合の以前の研究は行われていない。 GNNトレーニングに使用される共通グラフデータの固有のバイアスを考えると、入力バイアスによって引き起こされるGNN出力の摂動を制限し、トレーニング中の公正性を保護することが深刻な課題となる。 近年、リプシッツ定数がユークリッド神経回路網の安定性を制御するのに使われているにもかかわらず、正確なリプシッツ定数の計算はGNNのような非ユークリッド神経回路網、特にフェアネスの文脈において解明されている。 このギャップを狭めるために、私たちは、帰属グラフで動作する一般的なgnnから始め、入力に関連するバイアスに関する出力の変化を制限するために束縛されたリプシッツを定式化する。 さらに,gnnモデルのリプシッツ定数が,公平なトレーニングのためにデータから学習したバイアスによって引き起こされる出力摂動をいかに制約するかを理論的に解析した。 モデル出力のバイアスを制限するリプシッツ境界の有効性を実験的に検証した。 最後に、学習力学の観点から、なぜ理論上のリプシッツ境界がGNNトレーニングを効果的にガイドし、精度と公正性のトレードオフを改善することができるのかを示す。

The Lipschitz bound, a technique from robust statistics, can limit the maximum changes in the output concerning the input, taking into account associated irrelevant biased factors. It is an efficient and provable method for examining the output stability of machine learning models without incurring additional computation costs. Recently, Graph Neural Networks (GNNs), which operate on non-Euclidean data, have gained significant attention. However, no previous research has investigated the GNN Lipschitz bounds to shed light on stabilizing model outputs, especially when working on non-Euclidean data with inherent biases. Given the inherent biases in common graph data used for GNN training, it poses a serious challenge to constraining the GNN output perturbations induced by input biases, thereby safeguarding fairness during training. Recently, despite the Lipschitz constant's use in controlling the stability of Euclideanneural networks, the calculation of the precise Lipschitz constant remains elusive for non-Euclidean neural networks like GNNs, especially within fairness contexts. To narrow this gap, we begin with the general GNNs operating on an attributed graph, and formulate a Lipschitz bound to limit the changes in the output regarding biases associated with the input. Additionally, we theoretically analyze how the Lipschitz constant of a GNN model could constrain the output perturbations induced by biases learned from data for fairness training. We experimentally validate the Lipschitz bound's effectiveness in limiting biases of the model output. Finally, from a training dynamics perspective, we demonstrate why the theoretical Lipschitz bound can effectively guide the GNN training to better trade-off between accuracy and fairness.
翻訳日:2023-12-13 19:41:35 公開日:2023-12-12
# 物理誘導プロセスモデルを用いた人型ロボットの未知検出

Detection of Unknown-Unknowns in Human-in-Plant Human-in-Loop Systems Using Physics Guided Process Models ( http://arxiv.org/abs/2309.02603v2 )

ライセンス: Link先を確認
Aranyak Maity, Ayan Banerjee and Sandeep Gupta(参考訳) 未知のシナリオは、設計とテストフェーズで考慮されていないシステムの運用シナリオである。 このようなシナリオでは、HIL(Human-in-loop)システムの動作は、安全性や有効性といった要件を満たすことが保証されていない。 本稿では、未知のシナリオを発見し、潜在的な安全リスクを評価する安全クリティカルなHIL-HIPシステムの運転出力特性を解析するための新しいフレームワークを提案する。 安全確認操作特性からサイバー物理系(CPS)の偏差をチェックする物理誘導サロゲートモデル(PGSM)をマイニングするために,ダイナミックス誘導型ハイブリッドリカレントニューラルネットワーク(DiH-RNN)を提案する。 PGSMは、システムを管理する物理法則に基づいて未知の未知の早期発見を可能にする。 未知のインスリンカートリッジエラーによる人工膵(AP)の手術的変化の検出を実証した。

Unknown-unknowns are operational scenarios in systems that are not accounted for in the design and test phase. In such scenarios, the operational behavior of the Human-in-loop (HIL) Human-in-Plant (HIP) systems is not guaranteed to meet requirements such as safety and efficacy. We propose a novel framework for analyzing the operational output characteristics of safety-critical HIL-HIP systems that can discover unknown-unknown scenarios and evaluate potential safety hazards. We propose dynamics-induced hybrid recurrent neural networks (DiH-RNN) to mine a physics-guided surrogate model (PGSM) that checks for deviation of the cyber-physical system (CPS) from safety-certified operational characteristics. The PGSM enables early detection of unknown-unknowns based on the physical laws governing the system. We demonstrate the detection of operational changes in an Artificial Pancreas(AP) due to unknown insulin cartridge errors.
翻訳日:2023-12-13 19:41:06 公開日:2023-12-12
# キャビティ真空ゆらぎのehrenfestモデルと3レベル原子からの放出方法

Ehrenfest Modeling of Cavity Vacuum Fluctuations and How to Achieve Emission from a Three-Level Atom ( http://arxiv.org/abs/2309.01912v2 )

ライセンス: Link先を確認
Ming-Hsiu Hsieh, Alex Krotz, Roel Tempelaar(参考訳) 物質と光学キャビティモードの強いカップリングの効率的なモデリングには、古典的キャビティ場がエレンフェストの定理を通じて物質の量子状態と自己整合的に相互作用する平均場混合量子-古典力学を用いる。 従来, 2レベル原子による真空揺らぎからエネルギーの非物理的描画を解く手段として, 空洞場の真空揺らぎを量子力学的基底状態から切り離す手法として, 分離平均場(DC-MF)ダイナミックス(decoupled mean-field dynamics)を導入した。 ここでは、任意の数の(非退化)原子レベルのDC-MFダイナミクスを一般化し、従来の平均場力学によって予測される3レベル原子からの非物理的放出の欠如を解消することを示す。 さらに,dc-mfを用いて再吸収および(共鳴)2光子放出過程の解説を行う。

A much-needed solution for the efficient modeling of strong coupling between matter and optical cavity modes is offered by mean-field mixed quantum--classical dynamics, where a classical cavity field interacts self-consistently with quantum states of matter through Ehrenfest's theorem. We previously introduced a modified mean-field approach, referred to as decoupled mean-field (DC-MF) dynamics, wherein vacuum fluctuations of the cavity field are decoupled from the quantum-mechanical ground state as a means to resolve an unphysical drawing of energy from the vacuum fluctuations by a two-level atom. Here, we generalize DC-MF dynamics for an arbitrary number of (nondegenerate) atomic levels, and show that it resolves an unphysical lack of emission from a three-level atom predicted by conventional mean-field dynamics. We furthermore show DC-MF to provide an improved description of reabsorption and (resonant) two-photon emission processes.
翻訳日:2023-12-13 19:40:47 公開日:2023-12-12
# マスク付き特徴アライメントを持つ平均教師DETR:ロバストドメイン適応検出トランスフレームワーク

Mean Teacher DETR with Masked Feature Alignment: A Robust Domain Adaptive Detection Transformer Framework ( http://arxiv.org/abs/2310.15646v2 )

ライセンス: Link先を確認
Weixi Weng, Chun Yuan(参考訳) 非教師付きドメイン適応オブジェクト検出(UDAOD)による検出変換器(DETR)の研究は主に特徴アライメントに焦点を当てており、既存の手法は2つの種類に分けられる。 1段階の機能アライメント手法は、パフォーマンスの変動やトレーニングの停滞を容易に引き起こすことができる。 平均教師に基づく2段階特徴アライメント手法は、事前訓練段階に続き、自己訓練段階と、信頼性の高い事前訓練モデルの獲得と一貫した性能向上の達成に直面する課題を含む。 上述の手法では、ターゲットライクなドメインのような第3の関連ドメインをどのように活用して適応を支援するかはまだ検討されていない。 これらの問題に対処するため、我々はMTMと呼ばれる2段階のフレームワーク、すなわちMasked Feature Alignmentを用いた平均教師-DETRを提案する。 事前訓練段階では,画像スタイルの転送によって生成されたラベル付きターゲットライクな画像を用いて,性能変動を回避する。 自己学習段階において,平均教師に基づく擬似ラベルによるラベル付き目標画像の活用と,学生モデルの一貫したパフォーマンス向上を実現するために,オブジェクトクエリ知識転送(oqkt)と呼ばれるモジュールを提案する。 最も重要なことは,Masked Domain Query-based Feature Alignment (MDQFA) や Masked Token-wise Feature Alignment (MTWFA) といったマスク付き機能アライメント手法によって,トレーニングの停滞を防止し,事前訓練段階における堅牢な事前訓練モデルを実現するとともに,自己学習段階におけるモデルの目標性能を向上させることにある。 3つの難解なシナリオの実験と理論的解析はmtmの有効性を検証する。

Unsupervised domain adaptation object detection(UDAOD) research on Detection Transformer(DETR) mainly focuses on feature alignment and existing methods can be divided into two kinds, each of which has its unresolved issues. One-stage feature alignment methods can easily lead to performance fluctuation and training stagnation. Two-stage feature alignment method based on mean teacher comprises a pretraining stage followed by a self-training stage, each facing problems in obtaining reliable pretrained model and achieving consistent performance gains. Methods mentioned above have not yet explore how to utilize the third related domain such as target-like domain to assist adaptation. To address these issues, we propose a two-stage framework named MTM, i.e. Mean Teacher-DETR with Masked Feature Alignment. In the pretraining stage, we utilize labeled target-like images produced by image style transfer to avoid performance fluctuation. In the self-training stage, we leverage unlabeled target images by pseudo labels based on mean teacher and propose a module called Object Queries Knowledge Transfer(OQKT) to ensure consistent performance gains of the student model. Most importantly, we propose masked feature alignment methods including Masked Domain Query-based Feature Alignment(MDQFA) and Masked Token-wise Feature Alignment(MTWFA) to alleviate domain shift in a more robust way, which not only prevent training stagnation and lead to a robust pretrained model in the pretraining stage, but also enhance the model's target performance in the self-training stage. Experiments on three challenging scenarios and a theoretical analysis verify the effectiveness of MTM.
翻訳日:2023-12-13 19:34:48 公開日:2023-12-12
# 適応型マルチヘッドアテンションを用いたトランスフォーマーの感情分析

Sentiment analysis with adaptive multi-head attention in Transformer ( http://arxiv.org/abs/2310.14505v3 )

ライセンス: Link先を確認
Fanfei Meng, David Demeter(参考訳) 本稿では,映画レビュー資料の感情を識別するためのアテンション機構に基づく新しいフレームワークを提案する。 注意機構を有するディープニューラルネットワークの以前の取り組みは、固定数のマルチヘッド注意を持つエンコーダとデコーダに焦点を当てていた。 そこで本研究では,より有用な情報をメモリから読み取ることができなければ,注意処理を自動停止する機構が必要であり,文の長さに応じて注意ヘッド数を変化させる適応型多頭注意アーキテクチャ(adaptattn)を提案する。 AdaptAttnは、各文書を文の長さに基づいて、小、中、大の3つのビンのいずれかに分類するデータ前処理ステップを有する。 小さめに分類された文書は、各層で2つのヘッドを通り、中型グループは4つのヘッドを通り、大きなグループは8つのヘッドで処理される。 本モデルの有効性をスタンフォード大映画レビューデータセットで検証する。 実験結果から,本モデルからのF1スコアはベースラインモデルと同等であることがわかった。

We propose a novel framework based on the attention mechanism to identify the sentiment of a movie review document. Previous efforts on deep neural networks with attention mechanisms focus on encoder and decoder with fixed numbers of multi-head attention. Therefore, we need a mechanism to stop the attention process automatically if no more useful information can be read from the memory.In this paper, we propose an adaptive multi-head attention architecture (AdaptAttn) which varies the number of attention heads based on length of sentences. AdaptAttn has a data preprocessing step where each document is classified into any one of the three bins small, medium or large based on length of the sentence. The document classified as small goes through two heads in each layer, the medium group passes four heads and the large group is processed by eight heads. We examine the merit of our model on the Stanford large movie review dataset. The experimental results show that the F1 score from our model is on par with the baseline model.
翻訳日:2023-12-13 19:34:16 公開日:2023-12-12
# 画素ワイドグレーディエントクリッピングによる高分解能3次元生成の促進

Enhancing High-Resolution 3D Generation through Pixel-wise Gradient Clipping ( http://arxiv.org/abs/2310.12474v2 )

ライセンス: Link先を確認
Zijie Pan, Jiachen Lu, Xiatian Zhu, Li Zhang(参考訳) 高解像度の3Dオブジェクト生成は、主に包括的な注釈付きトレーニングデータの可用性が限られているため、依然として難しい課題である。 最近の進歩は、Score Distillation Sampling (SDS)のような知識伝達技術を用いて、広範囲のキュレートされたWebデータセットで事前訓練された画像生成モデルを活用することで、この制約を克服することを目的としている。 高分解能レンダリングの要求に効率的に対処するためには、しばしば潜伏拡散モデル(ldm)のような潜伏表現ベースのモデルを採用する必要がある。 このフレームワークでは、個々の画像画素の勾配を計算するには、LCMで使用されるVAEエンコーダのような画像モデルの凍ったコンポーネントを通して、指定された潜在空間から勾配をバックプロパゲートする必要がある。 しかし、この勾配伝播経路は最適化されておらず、訓練中は制御されていない。 画像生成モデルからテクスチャ関連情報を取得する際に,非規制勾配が3次元モデルの能力に悪影響を及ぼすことが判明した。 そこで本研究では,既存の3次元生成モデルへのシームレスな統合を実現するため,画素方向勾配クリッピング (pgc) と呼ばれる革新的な操作を提案する。 具体的には,ピクセル毎の勾配を効率的にクリップし,テクスチャ関連勾配方向を維持しながら,確率的勾配の大きさを制御する。 このシンプルさと最小限の余剰コストにもかかわらず、高解像度オブジェクトレンダリングのための既存の3次元生成モデルの性能向上にPGCの有効性を実証する広範な実験を行った。

High-resolution 3D object generation remains a challenging task primarily due to the limited availability of comprehensive annotated training data. Recent advancements have aimed to overcome this constraint by harnessing image generative models, pretrained on extensive curated web datasets, using knowledge transfer techniques like Score Distillation Sampling (SDS). Efficiently addressing the requirements of high-resolution rendering often necessitates the adoption of latent representation-based models, such as the Latent Diffusion Model (LDM). In this framework, a significant challenge arises: To compute gradients for individual image pixels, it is necessary to backpropagate gradients from the designated latent space through the frozen components of the image model, such as the VAE encoder used within LDM. However, this gradient propagation pathway has never been optimized, remaining uncontrolled during training. We find that the unregulated gradients adversely affect the 3D model's capacity in acquiring texture-related information from the image generative model, leading to poor quality appearance synthesis. To address this overarching challenge, we propose an innovative operation termed Pixel-wise Gradient Clipping (PGC) designed for seamless integration into existing 3D generative models, thereby enhancing their synthesis quality. Specifically, we control the magnitude of stochastic gradients by clipping the pixel-wise gradients efficiently, while preserving crucial texture-related gradient directions. Despite this simplicity and minimal extra cost, extensive experiments demonstrate the efficacy of our PGC in enhancing the performance of existing 3D generative models for high-resolution object rendering.
翻訳日:2023-12-13 19:33:43 公開日:2023-12-12
# 量子近似最適化アルゴリズムを用いた将来の高エネルギー衝突器の荷電粒子再構成

Charged particle reconstruction for future high energy colliders with Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2310.10255v2 )

ライセンス: Link先を確認
Hideki Okawa(参考訳) 最先端の人工知能の使用は、コンピューティングリソースの膨大な需要に対応するために、高輝度大型ハドロン衝突型加速器のような将来の高エネルギー衝突器のベースラインとなる。 量子機械学習の急速な発展は、この課題にさらなるパラダイムシフトをもたらす可能性がある。 2つの最も高いCPU消費成分のうちの1つは、荷電粒子再構成、いわゆるトラック再構成であり、二次的非制約バイナリ最適化(QUBO)問題と見なすことができる。 量子近似最適化アルゴリズム (quantum approximation optimization algorithm,qaoa) は、そのような組合せ問題を解く最も有望なアルゴリズムの1つであり、ノイズの多い中間スケール量子コンピュータの時代において量子優位を求めるものである。 その結果,QAOAは有望な性能を示し,量子コンピュータを用いたトラック再構築の候補の一つとして実証された。

Usage of cutting-edge artificial intelligence will be the baseline at future high energy colliders such as the High Luminosity Large Hadron Collider, to cope with the enormously increasing demand of the computing resources. The rapid development of quantum machine learning could bring in further paradigm-shifting improvement to this challenge. One of the two highest CPU-consuming components, the charged particle reconstruction, the so-called track reconstruction, can be considered as a quadratic unconstrained binary optimization (QUBO) problem. The Quantum Approximate Optimization Algorithm (QAOA) is one of the most promising algorithms to solve such combinatorial problems and to seek for a quantum advantage in the era of the Noisy Intermediate-Scale Quantum computers. It is found that the QAOA shows promising performance and demonstrated itself as one of the candidates for the track reconstruction using quantum computers.
翻訳日:2023-12-13 19:32:31 公開日:2023-12-12
# 量子誤差緩和のための純度を用いたゼロノイズ外挿法

Zero-noise Extrapolation Assisted with Purity for Quantum Error Mitigation ( http://arxiv.org/abs/2310.10037v3 )

ライセンス: Link先を確認
Tian-Ren Jin, Yun-Hao Shi, Zheng-An Wang, Tian-Ming Li, Kai Xu, and Heng Fan(参考訳) 量子エラー緩和(quantum error mitigation)は、量子システムで発生するエラーの処理後に使用される技術であり、期待されるエラーを低減し、高い精度を達成する。 量子誤差緩和の1つの方法はゼロノイズ外挿であり、これはノイズを増幅し、観測可能な興味の期待をノイズのない点まで外挿する。 この手法は通常、ノイズ増幅過程において異なるレベルのノイズの誤差率を仮定するため、ノイズの誤差モデルに依存する。 本稿では,ノイズ回路における出力状態の純度が外挿過程を補助し,誤差率に関する仮定を不要にすることを提案する。 また、実験データの補間のために量子チャネルの線形性から準多項モデルを導入し、他のモデルに還元することができる。 さらに,オンライン量子計算プラットフォームquafu上で数値シミュレーションと実験を行い,通常のゼロノイズ抽出法と仮想蒸留法との比較を行い,純度支援ゼロノイズ抽出の検証を行った。 提案手法は操作者期待測定のランダムなゆらぎを抑制することができ、特に誤差率が中程度であれば、ゼロノイズ外挿法や仮想蒸留法よりも低いレベルまで外挿のバイアスを効果的に低減できることを示す。

Quantum error mitigation is a technique used to post-process errors occurring in the quantum system, which reduces the expected errors and achieves higher accuracy. One method of quantum error mitigation is zero-noise extrapolation, which involves amplifying the noise and then extrapolating the observable expectation of interest back to a noise-free point. This method usually relies on the error model of the noise, as error rates for different levels of noise are assumed during the noise amplification process. In this paper, we propose that the purity of output states in noisy circuits can assist in the extrapolation process, eliminating the need for assumptions about error rates. We also introduce the quasi-polynomial model from the linearity of quantum channel for extrapolation of experimental data, which can be reduced to other proposed models. Furthermore, we verify our purity-assisted zero-noise extrapolation by performing numerical simulations and experiments on the online public quantum computation platform, Quafu, to compare it with the routine zero-noise extrapolation and virtual distillation methods. Our results demonstrate that this modified method can suppress the random fluctuation of operator expectation measurement, and effectively reduces the bias in extrapolation to a level lower than both the zero-noise extrapolation and virtual distillation methods, especially when the error rate is moderate.
翻訳日:2023-12-13 19:32:15 公開日:2023-12-12
# ドメイン制御型プロンプト学習

Domain-Controlled Prompt Learning ( http://arxiv.org/abs/2310.07730v2 )

ライセンス: Link先を確認
Qinglong Cao, Zhengqin Xu, Yuntian Chen, Chao Ma, Xiaokang Yang(参考訳) CLIPのような大規模な事前学習された視覚言語モデルは、適切なテキストプロンプトが提供されると、様々なタスクにわたって顕著な一般化能力を示す。 しかし、リモートセンシング画像(RSI)や医療画像など、これらのモデルを特定のドメインに適応させることは、まだ未調査であり、課題である。 既存のプロンプト学習法では、ドメイン認識性やドメイン転送機構が欠如しており、自然画像パターンにおける特定の画像の誤解による最適でない性能をもたらす。 このジレンマに対処するために、我々は特定のドメインに対する \textbf{domain- controlled prompt learning} を提案した。 具体的には、大規模な特定ドメイン基盤モデル(LSDM)が最初に導入され、本質的な特定ドメイン知識を提供する。 軽量ニューラルネットワークを用いて、これらの知識をドメインバイアスに転送し、視覚と言語の両方を制御し、直接的に組み込む方法でドメイン適応プロンプトを得る。 同時に、既存の過度に適合する課題を克服するために、トレーニング可能な余分なパラメータを伴わない新しいノイズ付加戦略を提案し、このモデルが大域的ドメイン振動方式で最適解から逃れる手助けをする。 実験により,本手法は特定の領域画像認識データセットにおける最先端性能を実現する。 私たちのコードはhttps://github.com/caoql98/DCPLで利用可能です。

Large pre-trained vision-language models, such as CLIP, have shown remarkable generalization capabilities across various tasks when appropriate text prompts are provided. However, adapting these models to specific domains, like remote sensing images (RSIs), medical images, etc, remains unexplored and challenging. Existing prompt learning methods often lack domain-awareness or domain-transfer mechanisms, leading to suboptimal performance due to the misinterpretation of specific images in natural image patterns. To tackle this dilemma, we proposed a \textbf{Domain-Controlled Prompt Learning} for the specific domains. Specifically, the large-scale specific domain foundation model (LSDM) is first introduced to provide essential specific domain knowledge. Using lightweight neural networks, we transfer this knowledge into domain biases, which control both the visual and language branches to obtain domain-adaptive prompts in a directly incorporating manner. Simultaneously, to overcome the existing overfitting challenge, we propose a novel noisy-adding strategy, without extra trainable parameters, to help the model escape the suboptimal solution in a global domain oscillation manner. Experimental results show our method achieves state-of-the-art performance in specific domain image recognition datasets. Our code is available at https://github.com/caoql98/DCPL.
翻訳日:2023-12-13 19:31:50 公開日:2023-12-12
# 量子接続、電荷および仮想粒子

Quantum connection, charges and virtual particles ( http://arxiv.org/abs/2310.06507v3 )

ライセンス: Link先を確認
Alexander D. Popov(参考訳) 幾何学的には、量子力学は古典的な粒子相空間上の複素直線束 $L_\hbar$ で定義される: $T^*{R}^3\cong{R}^6$ で、座標は $x^a$ と momenta $p_a$, $a,...=1,2,3$ である。 この量子バンドル $L_\hbar$ には接続 $A_\hbar$ が与えられ、そのセクションはシュリンガー方程式に従う標準波動関数 $\psi$ である。 共変微分の成分 $\nabla_{a_\hbar}^{}$ in $l_\hbar$ は作用素 ${\hat x}^a$ と ${\hat p}_a$ と等価である。 束 $L_\hbar=: L_{C}^+$ は対称性群 U(1)$_\hbar$ に関連付けられ、群 U(1)$_\hbar$ の生成元の固有値である量子電荷 $q=1$ の粒子を記述する。 複素共役束 $L^-_{C}:={\overline{L_{C}^+}}$ は量子電荷 $q=-1$ の反粒子を記述する。 L_{C}^\pm$ と接続 $A_\hbar$ を相対論的位相空間 $T^*{R}^{3,1}$ に持ち上げ、粒子と反粒子の両方を記述するディラックスピノルバンドルに結合する。 自由相対論的クォークとレプトンはミンコフスキー空間${R}^{3,1}$上のディラック方程式によって記述される。 この方程式は、バンドル上での量子接続 $a_\hbar$ との相互作用を含まない: $l^\pm_{c}\to t^*{r}^{3,1}$ なぜなら、$a_\hbar$ は $t^*{r}^{3,1}$ の $p_a$-directions に沿ってのみ非有界成分を持つからである。 素フェルミオン$\Psi$と量子接続$A_\hbar$ on $L_{C}^\pm$との相互作用を可能にするため、$\Psi$が$t$と$x^a$にのみ依存する条件を維持しながら、ダイラック方程式を位相空間に拡張する。 拡張方程式は、離散エネルギー値とコヒーレント状態のウェーブパケットを持つ振動子型解の無限個数を持つ。 これらの正規化解は、質量殻ハイパーボロイドの外に住む仮想粒子や反粒子を記述している。 自由粒子への遷移は、圧縮されたコヒーレント状態を通じて可能である。

Geometrically, quantum mechanics is defined by a complex line bundle $L_\hbar$ over the classical particle phase space $T^*{R}^3\cong{R}^6$ with coordinates $x^a$ and momenta $p_a$, $a,...=1,2,3$. This quantum bundle $L_\hbar$ is endowed with a connection $A_\hbar$, and its sections are standard wave functions $\psi$ obeying the Schr\"odinger equation. The components of covariant derivatives $\nabla_{A_\hbar}^{}$ in $L_\hbar$ are equivalent to operators ${\hat x}^a$ and ${\hat p}_a$. The bundle $L_\hbar=: L_{C}^+$ is associated with symmetry group U(1)$_\hbar$ and describes particles with quantum charge $q=1$ which is eigenvalue of the generator of the group U(1)$_\hbar$. The complex conjugate bundle $L^-_{C}:={\overline{L_{C}^+}}$ describes antiparticles with quantum charge $q=-1$. We will lift the bundles $L_{C}^\pm$ and connection $A_\hbar$ on them to the relativistic phase space $T^*{R}^{3,1}$ and couple them to the Dirac spinor bundle describing both particles and antiparticles. Free relativistic quarks and leptons are described by the Dirac equation on Minkowski space ${R}^{3,1}$. This equation does not contain interaction with the quantum connection $A_\hbar$ on bundles $L^\pm_{C}\to T^*{R}^{3,1}$ because $A_\hbar$ has non-vanishing components only along $p_a$-directions in $T^*{R}^{3,1}$. To enable the interaction of elementary fermions $\Psi$ with quantum connection $A_\hbar$ on $L_{C}^\pm$, we will extend the Dirac equation to the phase space while maintaining the condition that $\Psi$ depends only on $t$ and $x^a$. The extended equation has an infinite number of oscillator-type solutions with discrete energy values as well as wave packets of coherent states. We argue that all these normalized solutions describe virtual particles and antiparticles living outside the mass shell hyperboloid. The transition to free particles is possible through squeezed coherent states.
翻訳日:2023-12-13 19:31:29 公開日:2023-12-12
# 異なるネットワーク曲げで生成モデルをハックする

Hacking Generative Models with Differentiable Network Bending ( http://arxiv.org/abs/2310.04816v3 )

ライセンス: Link先を確認
Giacomo Aldegheri, Alina Rogalska, Ahmed Youssef, Eugenia Iofinova(参考訳) 本研究では,生成モデルの「ハッキング」を行い,その出力を元のトレーニング分布から新たな目標へと押し下げる手法を提案する。 モデルの中間層の間に小さなトレーニング可能なモジュールを注入し、少量のイテレーションのためにトレーニングし、残りのネットワークを凍結させます。 得られた出力画像は、芸術的な目的のために活用できるオリジナルと新しい目的の間の緊張によって与えられる不気味な品質を示す。

In this work, we propose a method to 'hack' generative models, pushing their outputs away from the original training distribution towards a new objective. We inject a small-scale trainable module between the intermediate layers of the model and train it for a low number of iterations, keeping the rest of the network frozen. The resulting output images display an uncanny quality, given by the tension between the original and new objectives that can be exploited for artistic purposes.
翻訳日:2023-12-13 19:30:42 公開日:2023-12-12
# 注意シンク付き効率的なストリーミング言語モデル

Efficient Streaming Language Models with Attention Sinks ( http://arxiv.org/abs/2309.17453v3 )

ライセンス: Link先を確認
Guangxuan Xiao, Yuandong Tian, Beidi Chen, Song Han, Mike Lewis(参考訳) 長い対話が期待されるマルチラウンド対話のようなストリーミングアプリケーションへの大規模言語モデル(llm)のデプロイは、緊急に必要だが、2つの大きな課題がある。 まず、デコード段階では、以前のトークンのキーと値の状態(kv)をキャッシュすることで、広範なメモリを消費する。 第二に、人気のあるLLMはトレーニングシーケンス長よりも長いテキストに一般化できない。 最新のkvsだけがキャッシュされるウィンドウの注意は自然なアプローチですが、テキストの長さがキャッシュサイズを超えると失敗することを示しています。 我々は、初期トークンのKVを維持することで、窓の注意を回復する興味深い現象、すなわち注意シンクを観察する。 本稿では,最初に注意シンクの出現は,意味的に重要でない場合でも,初期トークンを「シンク」として注目するスコアが強いことに起因することを示す。 以上の分析に基づいて,有限長注意ウィンドウで学習したLLMを微調整なしで無限列長に一般化する,効率的なフレームワークであるStreamingLLMを導入する。 StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。 さらに,事前トレーニング中にプレースホルダトークンを注意シンクとして追加することで,ストリーミングデプロイメントをさらに改善できることが分かりました。 ストリーミング設定では、StreamingLLMはスライディングウィンドウのリ計算ベースラインを最大22.2倍高速化する。 コードとデータセットはhttps://github.com/mit-han-lab/streaming-llmで提供される。

Deploying Large Language Models (LLMs) in streaming applications such as multi-round dialogue, where long interactions are expected, is urgently needed but poses two major challenges. Firstly, during the decoding stage, caching previous tokens' Key and Value states (KV) consumes extensive memory. Secondly, popular LLMs cannot generalize to longer texts than the training sequence length. Window attention, where only the most recent KVs are cached, is a natural approach -- but we show that it fails when the text length surpasses the cache size. We observe an interesting phenomenon, namely attention sink, that keeping the KV of initial tokens will largely recover the performance of window attention. In this paper, we first demonstrate that the emergence of attention sink is due to the strong attention scores towards initial tokens as a ``sink'' even if they are not semantically important. Based on the above analysis, we introduce StreamingLLM, an efficient framework that enables LLMs trained with a finite length attention window to generalize to infinite sequence lengths without any fine-tuning. We show that StreamingLLM can enable Llama-2, MPT, Falcon, and Pythia to perform stable and efficient language modeling with up to 4 million tokens and more. In addition, we discover that adding a placeholder token as a dedicated attention sink during pre-training can further improve streaming deployment. In streaming settings, StreamingLLM outperforms the sliding window recomputation baseline by up to 22.2x speedup. Code and datasets are provided at https://github.com/mit-han-lab/streaming-llm.
翻訳日:2023-12-13 19:29:31 公開日:2023-12-12
# NeutronOrch: CPU-GPU異種環境下でのサンプルベースGNNトレーニングの再考

NeutronOrch: Rethinking Sample-based GNN Training under CPU-GPU Heterogeneous Environments ( http://arxiv.org/abs/2311.13225v2 )

ライセンス: Link先を確認
Xin Ai, Qiange Wang, Chunyu Cao, Yanfeng Zhang, Chaoyi Chen, Hao Yuan, Yu Gu, Ge Yu(参考訳) グラフニューラルネットワーク(GNN)は様々なアプリケーションで優れた性能を示している。 既存のフレームワークは、gnnモデルをトレーニングするためにcpu-gpuヘテロジニアス環境を利用し、gpuメモリ制限を克服するためにミニバッチとサンプリング技術を統合する。 CPU-GPUヘテロジニアス環境では、サンプルベースのGNNトレーニングを、サンプル、コレクション、トレーニングの3つのステップに分けることができます。 既存のGNNシステムでは、CPUやGPUの各ステップを使用するために異なるタスクオーケストレーション手法を使用している。 大規模な実験と分析の結果、既存のタスクオーケストレーション手法では、非効率なCPU処理やGPUリソースの競合によって制限された異種資源を十分に活用できないことがわかった。 本稿では,階層型タスクオーケストレーション手法を取り入れ,CPUとGPUのバランスよく利用するためのサンプルベースGNNトレーニングシステムであるNeurotronOrchを提案する。 neutronorchはトレーニングプロセスをレイヤ単位で分離し、下位層のトレーニングタスクをcpuにプッシュダウンする。 これにより、GPUトレーニングの計算負荷とメモリフットプリントが大幅に削減される。 非効率なCPU処理を避けるため、NeutronOrchは頻繁にアクセスされる頂点のトレーニングをCPUにオフロードするだけで、GPUはバウンドスタルネスで埋め込みを再利用できる。 さらに、trontronorchは層ベースのタスクオーケストレーション法のためのきめ細かいパイプライン設計を提供し、異なるリソース上の異なるタスクを完全に重複させながら、境界的な停滞を厳密に保証する。 実験の結果、現在最先端のGNNシステムと比較すると、NeurotronOrchは最大11.51倍の性能向上を達成できることがわかった。

Graph Neural Networks (GNNs) have demonstrated outstanding performance in various applications. Existing frameworks utilize CPU-GPU heterogeneous environments to train GNN models and integrate mini-batch and sampling techniques to overcome the GPU memory limitation. In CPU-GPU heterogeneous environments, we can divide sample-based GNN training into three steps: sample, gather, and train. Existing GNN systems use different task orchestrating methods to employ each step on CPU or GPU. After extensive experiments and analysis, we find that existing task orchestrating methods fail to fully utilize the heterogeneous resources, limited by inefficient CPU processing or GPU resource contention. In this paper, we propose NeutronOrch, a system for sample-based GNN training that incorporates a layer-based task orchestrating method and ensures balanced utilization of the CPU and GPU. NeutronOrch decouples the training process by layer and pushes down the training task of the bottom layer to the CPU. This significantly reduces the computational load and memory footprint of GPU training. To avoid inefficient CPU processing, NeutronOrch only offloads the training of frequently accessed vertices to the CPU and lets GPU reuse their embeddings with bounded staleness. Furthermore, NeutronOrch provides a fine-grained pipeline design for the layer-based task orchestrating method, fully overlapping different tasks on heterogeneous resources while strictly guaranteeing bounded staleness. The experimental results show that compared with the state-of-the-art GNN systems, NeutronOrch can achieve up to 11.51x performance speedup.
翻訳日:2023-12-13 19:22:23 公開日:2023-12-12
# カットオフのない簡易dirac相互作用作用素の自己随伴性

Self-adjointness of a simplified Dirac interaction operator without any cutoffs ( http://arxiv.org/abs/2311.12870v2 )

ライセンス: Link先を確認
Mads J. Damgaard(参考訳) ディラック相互作用作用素の簡略化版として、$\hat h_\mathrm{i} \propto \int d\mathbf{k}d\mathbf{p}(\hat a(\mathbf{k}) + \hat a^\dagger(-\mathbf{k})) \hat b^\dagger(\mathbf{p} + \mathbf{k}) \hat b(\mathbf{p})/\sqrt{|\mathbf{k}|}$ がヒルベルト空間において密な領域上の自己随伴であることを示す。 これを示すために使用するテクニックは、より広い範囲の演算子にも拡張できる可能性がある。 したがって、この手法は将来より数学的に明確に定義されたQFTの理論につながる可能性がある。

We show that a simplified version of the Dirac interaction operator given by $\hat H_\mathrm{I} \propto \int d\mathbf{k}d\mathbf{p}(\hat a(\mathbf{k}) + \hat a^\dagger(-\mathbf{k})) \hat b^\dagger(\mathbf{p} + \mathbf{k}) \hat b(\mathbf{p})/\sqrt{|\mathbf{k}|}$ is self-adjoint on a certain domain that is dense in the Hilbert space, even without any cutoffs. The technique that we use for showing this can potentially be extended to a much wider range of operators as well. This technique might therefore potentially lead to more mathematically well-defined theories of QFT in the future.
翻訳日:2023-12-13 19:21:56 公開日:2023-12-12
# オーストラリア国定電力市場における揮発性電力価格の確率論的予測手法

A probabilistic forecast methodology for volatile electricity prices in the Australian National Electricity Market ( http://arxiv.org/abs/2311.07289v2 )

ライセンス: Link先を確認
Cameron Cornell, Nam Trong Dinh, S. Ali Pourmousavi(参考訳) オーストラリア国定電力市場(NEM)の南オーストラリア地域は、現代の電力市場において最も高い価格変動率を示している。 本稿では,これらの極端な条件下での確率的予測へのアプローチについて概説する。 本稿では,確率的予測のためのアンサンブルツールとして分位回帰を用いた予測手法を提案する。 アンサンブルフレームワークでは,学習期間の異なるモデルの平均化により適応性が向上し,予測精度が向上することを示した。 最終モデルの適用性は、中央値予測とオーストラリアのnemオペレーターが提供するポイント予測を比較し、これらのnem予測をかなりのマージンで上回ったモデルと比較することで評価される。

The South Australia region of the Australian National Electricity Market (NEM) displays some of the highest levels of price volatility observed in modern electricity markets. This paper outlines an approach to probabilistic forecasting under these extreme conditions, including spike filtration and several post-processing steps. We propose using quantile regression as an ensemble tool for probabilistic forecasting, with our combined forecasts achieving superior results compared to all constituent models. Within our ensemble framework, we demonstrate that averaging models with varying training length periods leads to a more adaptive model and increased prediction accuracy. The applicability of the final model is evaluated by comparing our median forecasts with the point forecasts available from the Australian NEM operator, with our model outperforming these NEM forecasts by a significant margin.
翻訳日:2023-12-13 19:20:45 公開日:2023-12-12
# 自己宣伝校正による微調整大言語モデルに対する実践的メンバーシップ推論攻撃

Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration ( http://arxiv.org/abs/2311.06062v2 )

ライセンス: Link先を確認
Wenjie Fu, Huandong Wang, Chen Gao, Guanghua Liu, Yong Li, Tao Jiang(参考訳) メンバーシップ推論攻撃(mia)は、対象のデータレコードがモデルトレーニングに利用されたかどうかを推測することを目的としている。 以前の試みでは、MIAを介して言語モデル(LM)のプライバシーリスクを定量化していたが、既存のMIAアルゴリズムが実用的な大規模言語モデル(LLM)に顕著なプライバシー漏洩を引き起こすかどうかについては合意が得られていない。 LM用に設計された既存のMIAは、参照フリーと参照ベースアタックの2つのカテゴリに分類される。 どちらも、トレーニングレコードがサンプリングされる確率が常に高いという仮説に基づいている。 しかしながら、この仮説は、複数の正規化法とLLMの一般化によって緩和されるターゲットモデルの過剰適合に大きく依存している。 基準ベース攻撃は、目標モデルと基準モデルとの確率差を比較することにより、より信頼性の高い会員信号を測定するLLMにおいて有望な効果を達成しているように見える。 しかしながら、参照ベースの攻撃のパフォーマンスは、トレーニングデータセットに非常に近い参照データセットに大きく依存している。 全体として、既存のMIAは、過度にフィットせずプライベートな、実用的な微調整のLLMに対して、効果的なプライバシー漏洩を公開することができない。 本稿では,自補的確率的変動(spv-mia)に基づくメンバシップ推論攻撃を提案する。 具体的には, 学習過程においてllmの記憶は避けられず, オーバーフィッティング前に発生するため, オーバーフィッティングよりも記憶に基づく, より信頼性の高いメンバーシップ信号, 確率的変動を導入する。 さらに,LLM自体を誘導することで,参照モデルを微調整するデータセットを構築するセルフプロンプト手法を提案する。 このようにして、相手はパブリックAPIから同様の分布を持つデータセットを収集できる。

Membership Inference Attacks (MIA) aim to infer whether a target data record has been utilized for model training or not. Prior attempts have quantified the privacy risks of language models (LMs) via MIAs, but there is still no consensus on whether existing MIA algorithms can cause remarkable privacy leakage on practical Large Language Models (LLMs). Existing MIAs designed for LMs can be classified into two categories: reference-free and reference-based attacks. They are both based on the hypothesis that training records consistently strike a higher probability of being sampled. Nevertheless, this hypothesis heavily relies on the overfitting of target models, which will be mitigated by multiple regularization methods and the generalization of LLMs. The reference-based attack seems to achieve promising effectiveness in LLMs, which measures a more reliable membership signal by comparing the probability discrepancy between the target model and the reference model. However, the performance of reference-based attack is highly dependent on a reference dataset that closely resembles the training dataset, which is usually inaccessible in the practical scenario. Overall, existing MIAs are unable to effectively unveil privacy leakage over practical fine-tuned LLMs that are overfitting-free and private. We propose a Membership Inference Attack based on Self-calibrated Probabilistic Variation (SPV-MIA). Specifically, since memorization in LLMs is inevitable during the training process and occurs before overfitting, we introduce a more reliable membership signal, probabilistic variation, which is based on memorization rather than overfitting. Furthermore, we introduce a self-prompt approach, which constructs the dataset to fine-tune the reference model by prompting the target LLM itself. In this manner, the adversary can collect a dataset with a similar distribution from public APIs.
翻訳日:2023-12-13 19:20:32 公開日:2023-12-12
# キーストローク検証チャレンジ(KVC: Biometric and Fairness Benchmark Evaluation)

Keystroke Verification Challenge (KVC): Biometric and Fairness Benchmark Evaluation ( http://arxiv.org/abs/2311.06000v2 )

ライセンス: Link先を確認
Giuseppe Stragapede, Ruben Vera-Rodriguez, Ruben Tolosana, Aythami Morales, Naser Damer, Julian Fierrez, Javier Ortega-Garcia(参考訳) 生体認証のためのキーストロークダイナミクス(KD)の分析にはいくつかの利点がある:最も差別的な行動特性の一つであり、キーボードはユーザーがテキストデータを入力するための主要な手段であり、その獲得には追加のハードウェアが必要であり、その処理は比較的軽量であり、透過的に被験者を認識することができる。 しかし、実験プロトコルとメトリクスの不均一性と、文献で採用されているデータベースのサイズが限られているため、異なるシステム間の直接比較が妨げられ、キーストロークバイオメトリックスの進歩の障害となっている。 そこで本稿では,Aalto Keystroke Databases から抽出したデスクトップおよびモバイルキーボードを用いて取得した185,000件以上の可変転写テキストのツイート長シーケンスに基づいて,KD に基づく生体認証性能と公平性をベンチマークする実験フレームワークを提案する。 このフレームワークは、Keystroke Verification Challenge (KVC)という形でCodaLab上で動作する。 さらに,新しい公平度指標であるsweted impostor ratio (sir) を導入し,検証スコアにおけるデム間およびデム内群バイアスパターンを捉えた。 提案手法は,2つの最先端キーストローク検証システム「typenet」と「typeformer」を用いて異なる入力特徴の比較を行い,時間領域に拡張された特徴を優先してテキスト内容(押したキーのascii符号)の分析を破棄することで,プライバシーを侵害しないシステムを実現する。 我々の実験は、このアプローチが満足なパフォーマンスを維持することができることを示している。

Analyzing keystroke dynamics (KD) for biometric verification has several advantages: it is among the most discriminative behavioral traits; keyboards are among the most common human-computer interfaces, being the primary means for users to enter textual data; its acquisition does not require additional hardware, and its processing is relatively lightweight; and it allows for transparently recognizing subjects. However, the heterogeneity of experimental protocols and metrics, and the limited size of the databases adopted in the literature impede direct comparisons between different systems, thus representing an obstacle in the advancement of keystroke biometrics. To alleviate this aspect, we present a new experimental framework to benchmark KD-based biometric verification performance and fairness based on tweet-long sequences of variable transcript text from over 185,000 subjects, acquired through desktop and mobile keyboards, extracted from the Aalto Keystroke Databases. The framework runs on CodaLab in the form of the Keystroke Verification Challenge (KVC). Moreover, we also introduce a novel fairness metric, the Skewed Impostor Ratio (SIR), to capture inter- and intra-demographic group bias patterns in the verification scores. We demonstrate the usefulness of the proposed framework by employing two state-of-the-art keystroke verification systems, TypeNet and TypeFormer, to compare different sets of input features, achieving a less privacy-invasive system, by discarding the analysis of text content (ASCII codes of the keys pressed) in favor of extended features in the time domain. Our experiments show that this approach allows to maintain satisfactory performance.
翻訳日:2023-12-13 19:20:00 公開日:2023-12-12
# DEFT: 現実世界のハンド・ポリシーのためのデクサラス・ファイン・チューニング

DEFT: Dexterous Fine-Tuning for Real-World Hand Policies ( http://arxiv.org/abs/2310.19797v2 )

ライセンス: Link先を確認
Aditya Kannan, Kenneth Shaw, Shikhar Bahl, Pragna Mannam, Deepak Pathak(参考訳) デクスタリティはしばしば複雑な操作の基盤として見なされる。 人間は、食べ物作りから操作ツールまで、さまざまなスキルを手を使って実行することができる。 本稿では,これらの課題,特に軟質で変形可能な物体や,複雑で比較的長い水平なタスクについて検討する。 しかし、そのような振る舞いをスクラッチから学ぶことはデータ非効率である。 これを回避するために,実世界で直接実行される人間による事前処理を活用する新しいアプローチDEFT(DExterous Fine-Tuning for Hand Policies)を提案する。 これらの先行性を改善するために、DEFTは効率的なオンライン最適化手順を必要とする。 人間の学習とオンラインの微調整を統合し、ソフトなロボットハンドと組み合わせることで、DEFTはさまざまなタスクにまたがって成功を示し、汎用的な巧妙な操作に向けた堅牢でデータ効率のよい経路を確立する。 ビデオの検索結果はhttps://dexterous-finetuning.github.ioでご覧ください。

Dexterity is often seen as a cornerstone of complex manipulation. Humans are able to perform a host of skills with their hands, from making food to operating tools. In this paper, we investigate these challenges, especially in the case of soft, deformable objects as well as complex, relatively long-horizon tasks. However, learning such behaviors from scratch can be data inefficient. To circumvent this, we propose a novel approach, DEFT (DExterous Fine-Tuning for Hand Policies), that leverages human-driven priors, which are executed directly in the real world. In order to improve upon these priors, DEFT involves an efficient online optimization procedure. With the integration of human-based learning and online fine-tuning, coupled with a soft robotic hand, DEFT demonstrates success across various tasks, establishing a robust, data-efficient pathway toward general dexterous manipulation. Please see our website at https://dexterous-finetuning.github.io for video results.
翻訳日:2023-12-13 19:19:08 公開日:2023-12-12
# 良い規則性は、大きな学習率の暗黙のバイアスを生み出す:安定性、バランス、カタパルト

Good regularity creates large learning rate implicit biases: edge of stability, balancing, and catapult ( http://arxiv.org/abs/2310.17087v2 )

ライセンス: Link先を確認
Yuqing Wang, Zhenghao Xu, Tuo Zhao, Molei Tao(参考訳) 非凸最適化の勾配降下に適用された大きな学習率は、安定性の辺(cohen et al., 2021)、バランス(wang et al., 2022)、カタパルト(lewkowycz et al., 2020)を含む様々な暗黙のバイアスをもたらす。 これらの現象は古典最適化理論では十分に説明できない。 これらの暗黙の偏見を理解するための理論的な大きな進歩があったが、どの目的関数の方がより可能性が高いかは定かではない。 本稿は、この質問に答える最初のステップを提供し、これらの暗黙の偏見が実際には同じ氷山における様々なヒントであることを示す。 これらの結果を確立するために,既存の収束解析で一般的に想定されるグローバルリプシッツ連続勾配を伴わない非凸関数群に対して,大きな学習率の下で大域収束理論を考案する。 具体的には、最適化対象関数が良好な正則性を持つ場合、これらの現象はより起こりやすい。 この規則性と、平坦な領域を好む大きな学習率を用いた勾配降下は、これらの非自明な動的挙動をもたらす。 また、非凸関数の大規模学習速度勾配降下最適化のために束縛された最初の非漸近収束率である。 我々の理論は特定の機能にのみ適用されているが、ニューラルネットワークへの外挿の可能性も実験的に検証されており、損失の選択、アクティベーション関数、バッチ正規化などのテクニックがすべて正則性に大きく影響し、全く異なるトレーニングダイナミクスをもたらす。

Large learning rates, when applied to gradient descent for nonconvex optimization, yield various implicit biases including the edge of stability (Cohen et al., 2021), balancing (Wang et al., 2022), and catapult (Lewkowycz et al., 2020). These phenomena cannot be well explained by classical optimization theory. Though significant theoretical progress has been made in understanding these implicit biases, it remains unclear for which objective functions would they be more likely. This paper provides an initial step in answering this question and also shows that these implicit biases are in fact various tips of the same iceberg. To establish these results, we develop a global convergence theory under large learning rates, for a family of nonconvex functions without globally Lipschitz continuous gradient, which was typically assumed in existing convergence analysis. Specifically, these phenomena are more likely to occur when the optimization objective function has good regularity. This regularity, together with gradient descent using a large learning rate that favors flatter regions, results in these nontrivial dynamical behaviors. Another corollary is the first non-asymptotic convergence rate bound for large-learning-rate gradient descent optimization of nonconvex functions. Although our theory only applies to specific functions so far, the possibility of extrapolating it to neural networks is also experimentally validated, for which different choices of loss, activation functions, and other techniques such as batch normalization can all affect regularity significantly and lead to very different training dynamics.
翻訳日:2023-12-13 19:18:36 公開日:2023-12-12
# 正準量子化はGKSL力学につながるか?

Does canonical quantization lead to GKSL dynamics? ( http://arxiv.org/abs/2310.17061v3 )

ライセンス: Link先を確認
T. Koide and F. Nicacio(参考訳) 熱力学的に一貫した熱緩和過程を記述するためのブラウン運動の一般化された古典モデルを導入する。 このモデルに正準量子化を適用すると、密度演算子の量子方程式が得られる。 この方程式は定常解として熱平衡状態を持つが、時間進化は必ずしも完全正のトレース保存(CPTP)写像であるとは限らない。 しかし、高調波振動子ポテンシャルの適用においては、CPTPマップの要件はパラメータの選択によって適切に満たされ、その後、詳細なバランス条件を満たすGorini-Kossakowski-Sudarshan-Lindblad(GKSL)方程式を再現する。 この結果は、熱緩和過程における量子古典的対応を示唆し、デコヒーレンスの研究に新たな洞察を与える。

We introduce a generalized classical model of Brownian motion for describing thermal relaxation processes which is thermodynamically consistent. Applying the canonical quantization to this model, a quantum equation for the density operator is obtained. This equation has a thermal equilibrium state as its stationary solution, but the time evolution is not necessarily a Completely Positive and Trace-Preserving (CPTP) map. In the application to the harmonic oscillator potential, however, the requirement of the CPTP map is shown to be satisfied by choosing parameters appropriately and then our equation reproduces a Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) equation satisfying the detailed balance condition. This result suggests a quantum-classical correspondence in thermal relaxation processes and will provide a new insight to the study of decoherence.
翻訳日:2023-12-13 19:18:04 公開日:2023-12-12
# 知識駆動型自動運転に向けて

Towards Knowledge-driven Autonomous Driving ( http://arxiv.org/abs/2312.04316v2 )

ライセンス: Link先を確認
Xin Li, Yeqi Bai, Pinlong Cai, Licheng Wen, Daocheng Fu, Bo Zhang, Xuemeng Yang, Xinyu Cai, Tao Ma, Jianfei Guo, Xing Gao, Min Dou, Botian Shi, Yong Liu, Liang He, Yu Qiao(参考訳) 本稿では,新たな知識駆動自動運転技術について検討する。 我々の調査は、現在の自動運転システムの限界、特にデータバイアスに対する感度、長期シナリオの扱いの難しさ、解釈可能性の欠如を強調している。 逆に、認知、一般化、生涯学習の能力を持つ知識駆動手法が、これらの課題を克服するための有望な方法として現れる。 本稿では,知識駆動型自動運転の本質を掘り下げ,その中核となるコンポーネントであるデータセットとベンチマーク,環境,ドライバエージェントについて検討する。 大規模な言語モデル、世界モデル、ニューラルレンダリング、その他の高度な人工知能技術を活用することで、これらのコンポーネントは総合的に、適応的で、インテリジェントな自動運転システムに貢献する。 本論文は、この領域におけるこれまでの研究成果を体系的に整理、レビューし、将来の研究および自動運転の実践的応用に関する洞察とガイダンスを提供する。 知識駆動型自動運転の最先端開発に関する最新情報と、関連する貴重なオープンソースリソースについて、継続的に公開します。

This paper explores the emerging knowledge-driven autonomous driving technologies. Our investigation highlights the limitations of current autonomous driving systems, in particular their sensitivity to data bias, difficulty in handling long-tail scenarios, and lack of interpretability. Conversely, knowledge-driven methods with the abilities of cognition, generalization and life-long learning emerge as a promising way to overcome these challenges. This paper delves into the essence of knowledge-driven autonomous driving and examines its core components: dataset \& benchmark, environment, and driver agent. By leveraging large language models, world models, neural rendering, and other advanced artificial intelligence techniques, these components collectively contribute to a more holistic, adaptive, and intelligent autonomous driving system. The paper systematically organizes and reviews previous research efforts in this area, and provides insights and guidance for future research and practical applications of autonomous driving. We will continually share the latest updates on cutting-edge developments in knowledge-driven autonomous driving along with the relevant valuable open-source resources at: \url{https://github.com/PJLab-ADG/awesome-knowledge-driven-AD}.
翻訳日:2023-12-13 19:13:08 公開日:2023-12-12
# Series2Vec: 時系列分類のための類似性に基づく自己教師型表現学習

Series2Vec: Similarity-based Self-supervised Representation Learning for Time Series Classification ( http://arxiv.org/abs/2312.03998v2 )

ライセンス: Link先を確認
Navid Mohammadi Foumani, Chang Wei Tan, Geoffrey I. Webb, Hamid Rezatofighi, Mahsa Salehi(参考訳) 時系列分析は、定義可能な意味のある自己教師型学習タスクの形式に関して、視覚処理や自然言語処理と本質的に異なると論じる。 この知見に動機づけられ、自己教師付き表現学習のための新しいアプローチである \textit{series2vec} を導入する。 正のサンプル変種が負のセットの級数よりもアンカーのサンプルに似ていないというリスクを持つ時系列の他の自己教師あり手法とは異なり、 series2vec は自己教師付きタスクを通じて時間領域とスペクトル領域の両方の2つの系列の類似性を予測するように訓練される。 Series2Vecは、手作りのデータ拡張を必要とせず、本質的に類似度測定の質よりも、教師なしの類似度ステップの一貫性に依存している。 さらに,類似した時系列の類似表現をネットワークに学習させるため,訓練中のバッチ内の各表現に順序不変注意を適用する新しい手法を提案する。 UCR/UEAアーカイブとともに,9つの大規模実世界のデータセットに対するSeries2Vecの評価を行った。 さらに, 大規模実験により, series2vec が完全な教師付きトレーニングと相性良く動作し, 限られたラベルデータを持つデータセットにおいて高い効率性を提供することを示した。 最後に,Series2Vecと他の表現学習モデルとの融合が時系列分類の性能向上につながることを示す。 コードとモデルは、 \url{https://github.com/Navidfoumani/Series2Vecでオープンソース化されている。 }

We argue that time series analysis is fundamentally different in nature to either vision or natural language processing with respect to the forms of meaningful self-supervised learning tasks that can be defined. Motivated by this insight, we introduce a novel approach called \textit{Series2Vec} for self-supervised representation learning. Unlike other self-supervised methods in time series, which carry the risk of positive sample variants being less similar to the anchor sample than series in the negative set, Series2Vec is trained to predict the similarity between two series in both temporal and spectral domains through a self-supervised task. Series2Vec relies primarily on the consistency of the unsupervised similarity step, rather than the intrinsic quality of the similarity measurement, without the need for hand-crafted data augmentation. To further enforce the network to learn similar representations for similar time series, we propose a novel approach that applies order-invariant attention to each representation within the batch during training. Our evaluation of Series2Vec on nine large real-world datasets, along with the UCR/UEA archive, shows enhanced performance compared to current state-of-the-art self-supervised techniques for time series. Additionally, our extensive experiments show that Series2Vec performs comparably with fully supervised training and offers high efficiency in datasets with limited-labeled data. Finally, we show that the fusion of Series2Vec with other representation learning models leads to enhanced performance for time series classification. Code and models are open-source at \url{https://github.com/Navidfoumani/Series2Vec.}
翻訳日:2023-12-13 19:12:49 公開日:2023-12-12
# タスクは価値ある1ワード:高画質のVersatile Image Inpaintingのためのタスクプロンプトによる学習

A Task is Worth One Word: Learning with Task Prompts for High-Quality Versatile Image Inpainting ( http://arxiv.org/abs/2312.03594v3 )

ライセンス: Link先を確認
Junhao Zhuang, Yanhong Zeng, Wenran Liu, Chun Yuan, Kai Chen(参考訳) ユーザの指定した領域がユーザの意図に応じて妥当なコンテンツで満たされる、高品質な多彩なイメージインペインティングの実現には、大きな課題がある。 既存の手法では、適切なトレーニング戦略が必要となるため、コンテキスト認識画像の塗り込みとテキスト誘導オブジェクトの塗り込みを同時に扱うのが困難である。 この課題を克服するために、私たちはpowerpaintを紹介します。powerpaintは、両方のタスクに優れた、最初の高品質で多用途なインペインティングモデルです。 まず、学習可能なタスクプロンプトと調整された微調整戦略を導入し、モデルの焦点を異なる塗りつぶしターゲットに明示的に導く。 これによりPowerPaintは、さまざまなタスクプロンプトを利用することで、さまざまなインペイントタスクを達成できる。 第2に,PowerPaintにおけるタスクプロンプトの汎用性について,オブジェクト削除の負のプロンプトとしての有効性を示す。 さらに,プロンプト補間手法を活用し,形状誘導型オブジェクトのインパインティングを制御可能とした。 最後に,様々なインパインティングベンチマークでPowerPaintを広範囲に評価し,多彩な画像インパインティングの優れた性能を示す。 当社のプロジェクトページでは、コードとモデルを公開しています。

Achieving high-quality versatile image inpainting, where user-specified regions are filled with plausible content according to user intent, presents a significant challenge. Existing methods face difficulties in simultaneously addressing context-aware image inpainting and text-guided object inpainting due to the distinct optimal training strategies required. To overcome this challenge, we introduce PowerPaint, the first high-quality and versatile inpainting model that excels in both tasks. First, we introduce learnable task prompts along with tailored fine-tuning strategies to guide the model's focus on different inpainting targets explicitly. This enables PowerPaint to accomplish various inpainting tasks by utilizing different task prompts, resulting in state-of-the-art performance. Second, we demonstrate the versatility of the task prompt in PowerPaint by showcasing its effectiveness as a negative prompt for object removal. Additionally, we leverage prompt interpolation techniques to enable controllable shape-guided object inpainting. Finally, we extensively evaluate PowerPaint on various inpainting benchmarks to demonstrate its superior performance for versatile image inpainting. We release our codes and models on our project page: https://powerpaint.github.io/.
翻訳日:2023-12-13 19:11:59 公開日:2023-12-12
# 量子テレポーテーションとスーパーデンス符号化のインバータチェーンリンク実装

An inverter-chain link implementation of quantum teleportation and superdense coding ( http://arxiv.org/abs/2312.03276v2 )

ライセンス: Link先を確認
Felix A. Buot, Roland E.S. Otadoy, and Xavier L. Bacalla(参考訳) 量子絡み合いのインバータチェーンリンク(ICL)ダイアグラムの新しい視点は、量子テレポーテーションと超密度符号化の基本的な概念を忠実に捉えている。 ICL は、物理的/幾何学的な表現が EPR によって引き起こされた謎のリンクを提供する一連のパウリ行列演算と見なすことができる。 本稿では,量子テレポーテーションとスーパーデンス符号化の資源として,離散位相空間とICL解析を用いる。 量子重ね合わせ原理とアダマール変換を局所的な単一量子ビット演算で評価する。 EPRが提起する基本的な問題に関して、我々の結果は量子絡み合いの幾何学的性質を支持するものと思われる。 結論として、一般相対性理論と量子力学、すなわち ER=EPR を統一することを目的とした物理学における大胆な予想について論じる。

A new perspective in terms of inverter-chain link (ICL) diagrams of quantum entanglement faithfully captures the fundamental concept of quantum teleportation and superdense coding. The ICL may be considered a series of {\sigma}_{x} Pauli-matrix operations, where a physical/geometric representation provides the mysterious link raised by EPR. Here, we employ discrete phase space and ICL analyses of quantum entanglement as a resource for quantum teleportation and superdense coding. We underscore the quantum superposition principle and Hadamard transformation under a local single-qubit operation. On the fundamental question posed by EPR, our result seems to lend support to the geometric nature of quantum entanglement. In concluding remarks, we discuss very briefly a bold conjecture in physics aiming to unify general relativity with quantum mechanics, namely, ER=EPR.
翻訳日:2023-12-13 19:11:37 公開日:2023-12-12
# OpenStereo: ステレオマッチングと強力なベースラインのための総合ベンチマーク

OpenStereo: A Comprehensive Benchmark for Stereo Matching and Strong Baseline ( http://arxiv.org/abs/2312.00343v2 )

ライセンス: Link先を確認
Xianda Guo, Juntao Lu, Chenming Zhang, Yiqi Wang, Yiqun Duan, Tian Yang, Zheng Zhu, Long Chen(参考訳) コンピュータビジョンにおける重要な技術であるステレオマッチングは、ロボット工学、自律ナビゲーション、拡張現実において重要な役割を果たす。 近年、数多くの印象的な手法が開発されているにもかかわらず、その結果を複製し、実用的なアプリケーションに適したアーキテクチャを決定することは依然として困難である。 このギャップに対処するため,本論文では,性能向上に留まらず,実用性に焦点をあてた総合ベンチマークを提案する。 具体的には,OpenStereoと呼ばれる,柔軟で効率的なステレオマッチングコードベースを開発する。 openstereoには12以上のネットワークモデルのトレーニングと推論コードが含まれており、私たちの知る限り、最も完全なステレオマッチングツールボックスです。 OpenStereoをベースにSceneFlowデータセットの実験を行い、元の論文で報告されたパフォーマンス指標を達成または超えた。 さらに,最近のステレオマッチングの進展を,アブレーション実験によって詳細に再検討する。 これらの調査は、シンプルだが強力なベースラインモデルであるStereoBaseの開発にインスピレーションを与えた。 SceneFlowデータセット上での多数のステレオマッチング手法に対するStereoBaseの広範な比較分析により,その顕著な性能が示された。 ソースコードはhttps://github.com/XiandaGuo/OpenStereoで入手できる。

Stereo matching, a pivotal technique in computer vision, plays a crucial role in robotics, autonomous navigation, and augmented reality. Despite the development of numerous impressive methods in recent years, replicating their results and determining the most suitable architecture for practical application remains challenging. Addressing this gap, our paper introduces a comprehensive benchmark focusing on practical applicability rather than solely on performance enhancement. Specifically, we develop a flexible and efficient stereo matching codebase, called OpenStereo. OpenStereo includes training and inference codes of more than 12 network models, making it, to our knowledge, the most complete stereo matching toolbox available. Based on OpenStereo, we conducted experiments on the SceneFlow dataset and have achieved or surpassed the performance metrics reported in the original paper. Additionally, we conduct an in-depth revisitation of recent developments in stereo matching through ablative experiments. These investigations inspired the creation of StereoBase, a simple yet strong baseline model. Our extensive comparative analyses of StereoBase against numerous contemporary stereo matching methods on the SceneFlow dataset demonstrate its remarkably strong performance. The source code is available at https://github.com/XiandaGuo/OpenStereo.
翻訳日:2023-12-13 19:08:30 公開日:2023-12-12
# Swin-UNETRを用いた空間的・時間的移動学習による降水学習

Precipitation Nowcasting With Spatial And Temporal Transfer Learning Using Swin-UNETR ( http://arxiv.org/abs/2312.00258v2 )

ライセンス: Link先を確認
Ajitabh Kumar(参考訳) 気候変動により、極端な気象現象の頻度が増加した。 早期警戒システムは災害や生命の喪失を防ぐことができる。 このようなイベントを管理することは、公的機関と民間機関の両方にとって課題である。 降水ノキャスティングは、関連機関がそのようなイベントに備えるのに役立ちます。 数値天気予報(NWP)は、伝統的に物理学に基づく予測に使われてきたが、近年では、学習に基づくアプローチにより、放送のターンアラウンド時間を短縮している。 本研究では,最近提案されたSwin-UNETR (Swin UNEt TRansformer) を用いて,ヨーロッパの10地域における降水量予測を行った。 Swin-UNETRは、Swin変換器をベースとしたエンコーダが衛星画像の複数の入力チャネルからマルチスケール特徴を抽出するU字型ネットワークを使用し、CNNベースのデコーダは予測を行う。 トレーニングされたモデルは、データが利用可能なリージョンだけでなく、データが利用できない新しいリージョンでも利用することができる。

Climate change has led to an increase in frequency of extreme weather events. Early warning systems can prevent disasters and loss of life. Managing such events remain a challenge for both public and private institutions. Precipitation nowcasting can help relevant institutions to better prepare for such events. Numerical weather prediction (NWP) has traditionally been used to make physics based forecasting, and recently deep learning based approaches have been used to reduce turn-around time for nowcasting. In this work, recently proposed Swin-UNETR (Swin UNEt TRansformer) is used for precipitation nowcasting for ten different regions of Europe. Swin-UNETR utilizes a U-shaped network within which a swin transformer-based encoder extracts multi-scale features from multiple input channels of satellite image, while CNN-based decoder makes the prediction. Trained model is capable of nowcasting not only for the regions for which data is available, but can also be used for new regions for which data is not available.
翻訳日:2023-12-13 19:08:13 公開日:2023-12-12
# 後方対応機能アップデートによるDeep Feature Learningのステアリング

Steering Deep Feature Learning with Backward Aligned Feature Updates ( http://arxiv.org/abs/2311.18718v2 )

ライセンス: Link先を確認
L\'ena\"ic Chizat and Praneeth Netrapalli(参考訳) ディープラーニングは階層的な特徴学習によって成功するが、初期化スケールや学習率などのハイパーパラメータ(HP)を調整することで、この振る舞いを間接的に制御できる。 本稿では,特徴の学習を予測,測定,制御するための重要な概念として,特徴更新と後方パスの整合性を提案する。 一方,アライメントが成立すると,一つのsgdステップ後の特徴更新の大きさは,単純で一般的な公式による前方および後方通過の大きさと関係していることが示された。 これにより、初期化とトレーニングを通じてhps(初期化スケールと学習率)を自動的に調整し、望ましい特徴学習行動を達成する技術が生まれる。 一方、ランダム初期化では、このアライメントはある核のスペクトルによって決定され、よく条件付けられた層対層ジャコビアン(動的等長法)はアライメントを意味する。 最後に,relu mlpsとresnetsを広幅・奥行き限界で検討する。 ランダム行列理論と数値実験のヒントを組み合わせることで i) iid初期化を伴うMDPでは、アライメントは深度で縮退し、トレーニングの開始が不可能となる。 (ii) ResNets では、分岐スケール $1/\sqrt{\text{depth}}$ は無限の深さで非自明なアライメントを維持する唯一のものである。

Deep learning succeeds by doing hierarchical feature learning, yet tuning Hyper-Parameters (HP) such as initialization scales, learning rates etc., only give indirect control over this behavior. In this paper, we propose the alignment between the feature updates and the backward pass as a key notion to predict, measure and control feature learning. On the one hand, we show that when alignment holds, the magnitude of feature updates after one SGD step is related to the magnitude of the forward and backward passes by a simple and general formula. This leads to techniques to automatically adjust HPs (initialization scales and learning rates) at initialization and throughout training to attain a desired feature learning behavior. On the other hand, we show that, at random initialization, this alignment is determined by the spectrum of a certain kernel, and that well-conditioned layer-to-layer Jacobians (aka dynamical isometry) implies alignment. Finally, we investigate ReLU MLPs and ResNets in the large width-then-depth limit. Combining hints from random matrix theory and numerical experiments, we show that (i) in MLP with iid initializations, alignment degenerates with depth, making it impossible to start training, and that (ii) in ResNets, the branch scale $1/\sqrt{\text{depth}}$ is the only one maintaining non-trivial alignment at infinite depth.
翻訳日:2023-12-13 19:07:57 公開日:2023-12-12
# グラフストリームにおける要約と変化検出のバランス

Balancing Summarization and Change Detection in Graph Streams ( http://arxiv.org/abs/2311.18694v2 )

ライセンス: Link先を確認
Shintaro Fukushima and Kenji Yamanishi(参考訳) 本研究では,グラフ要約とグラフ変更検出のバランス問題に対処する。 グラフ要約は、大規模グラフをより小さなスケールに圧縮する。 しかし、疑問は残る: 元のグラフはどれくらい圧縮されるべきなのか? この問題は,サマリグラフのストリームを用いて統計的に有意な変化を検出することを目的とした,グラフ変化検出の観点から解かれる。 圧縮率が極端に高い場合、重要な変更は無視できるが、圧縮率が極端に低い場合は、メモリの増加とともに誤報が増加する可能性がある。 これは、グラフ総和の圧縮率と変更検出の精度との間にトレードオフがあることを意味する。 本稿では,このトレードオフのバランスを保ち,信頼性の高いグラフ要約と変更検出を同時に実現するための新しい定量的手法を提案する。 本稿では,階層的潜在変数モデルの確率的構造をグラフに導入し,最小記述長原理に基づいてパラメータ化された要約グラフを設計する。 次に、サマリーグラフを特定するパラメータを最適化し、変更検出の精度を保証し、タイプiのエラー確率(誤報を発生させる可能性)を所定の信頼レベル未満に抑える。 まず,グラフ要約と変化検出を結合する理論的枠組みを提案する。 そして、その効果を合成および実データに実証的に示す。

This study addresses the issue of balancing graph summarization and graph change detection. Graph summarization compresses large-scale graphs into a smaller scale. However, the question remains: To what extent should the original graph be compressed? This problem is solved from the perspective of graph change detection, aiming to detect statistically significant changes using a stream of summary graphs. If the compression rate is extremely high, important changes can be ignored, whereas if the compression rate is extremely low, false alarms may increase with more memory. This implies that there is a trade-off between compression rate in graph summarization and accuracy in change detection. We propose a novel quantitative methodology to balance this trade-off to simultaneously realize reliable graph summarization and change detection. We introduce a probabilistic structure of hierarchical latent variable model into a graph, thereby designing a parameterized summary graph on the basis of the minimum description length principle. The parameter specifying the summary graph is then optimized so that the accuracy of change detection is guaranteed to suppress Type I error probability (probability of raising false alarms) to be less than a given confidence level. First, we provide a theoretical framework for connecting graph summarization with change detection. Then, we empirically demonstrate its effectiveness on synthetic and real datasets.
翻訳日:2023-12-13 19:07:32 公開日:2023-12-12
# Trifecta: より深い前方ネットワークをトレーニングするための3つの簡単なテクニック

The Trifecta: Three simple techniques for training deeper Forward-Forward networks ( http://arxiv.org/abs/2311.18130v2 )

ライセンス: Link先を確認
Thomas Dooms, Ing Jyh Tsang, Jose Oramas(参考訳) 現代の機械学習モデルは、さまざまな非自明なタスクで人間より優れている。 しかし、モデルの複雑さが増すにつれて、かなりの量の電力を消費し、未発見のデータに対して効果的に一般化するのに苦労している。 モデルパラメータのサブセットを一度に更新することに焦点を当てたローカル学習は、これらの問題に対処するための有望なテクニックとして登場した。 近年,新しい局所学習アルゴリズムであるフォワードフォワード( forward-forward)が,その革新的学習アプローチによって広く注目を集めている。 残念ながら、そのアプリケーションはスケーラビリティの問題のために、より小さなデータセットに限定されている。 この目的のために,より深いネットワーク上でのフォワードフォワードアルゴリズムを大幅に改善する3つの単純な手法のコレクションであるThe Trifectaを提案する。 我々の実験は、我々のモデルが、単純なデータセットのトレーニング速度とテスト精度の両方において、同様に構造化されたバックプロパゲーションベースのモデルと同等であることを示した。 これは、レイヤごとにローカルに情報を提供する表現を学習し、アーキテクチャの深い層に伝播する際にその情報を保持する能力によって達成される。 これによりCIFAR-10の精度は約84%となり、FFアルゴリズムよりも25%向上した。 これらの結果は、バックプロパゲーションの真の競合であり、有望な研究手段としてのフォワードフォワードの可能性を強調している。

Modern machine learning models are able to outperform humans on a variety of non-trivial tasks. However, as the complexity of the models increases, they consume significant amounts of power and still struggle to generalize effectively to unseen data. Local learning, which focuses on updating subsets of a model's parameters at a time, has emerged as a promising technique to address these issues. Recently, a novel local learning algorithm, called Forward-Forward, has received widespread attention due to its innovative approach to learning. Unfortunately, its application has been limited to smaller datasets due to scalability issues. To this end, we propose The Trifecta, a collection of three simple techniques that synergize exceptionally well and drastically improve the Forward-Forward algorithm on deeper networks. Our experiments demonstrate that our models are on par with similarly structured, backpropagation-based models in both training speed and test accuracy on simple datasets. This is achieved by the ability to learn representations that are informative locally, on a layer-by-layer basis, and retain their informativeness when propagated to deeper layers in the architecture. This leads to around 84% accuracy on CIFAR-10, a notable improvement (25%) over the original FF algorithm. These results highlight the potential of Forward-Forward as a genuine competitor to backpropagation and as a promising research avenue.
翻訳日:2023-12-13 19:07:15 公開日:2023-12-12
# Simul-LLM:大規模言語モデルを用いた高品質同時翻訳のためのフレームワーク

Simul-LLM: A Framework for Exploring High-Quality Simultaneous Translation with Large Language Models ( http://arxiv.org/abs/2312.04691v2 )

ライセンス: Link先を確認
Victor Agostinelli, Max Wild, Matthew Raffel, Kazi Ahmed Asif Fuad, Lizhong Chen(参考訳) 数十億のパラメータを持つ大規模言語モデル(llm)が、大量のデータに事前トレーニングされ、ダウンストリームのさまざまな自然言語処理タスクにおける最先端のパフォーマンスにほぼあるいはそれ以上の能力を持つようになりました。 ニューラルマシン翻訳(NMT)は、LLMが大きな成功を収めたタスクの一つである。 しかし、LLMをNMTのより難しいサブセットである同時翻訳(SimulMT)に適用することに注力する研究はほとんどない。 本稿では,従来のSimulMTのコンセプトと実践をLLMの文脈で検証し,NMTで微調整されたLCMをSimulMTのタスクに適応させる,Simul-LLMを紹介し,SimulMTにフォーカスしたLLMのためのオープンソースのファインチューニングおよび評価パイプライン開発フレームワークであるSimul-LLMを紹介する。

Large language models (LLMs) with billions of parameters and pretrained on massive amounts of data are now capable of near or better than state-of-the-art performance in a variety of downstream natural language processing tasks. Neural machine translation (NMT) is one such task that LLMs have been applied to with great success. However, little research has focused on applying LLMs to the more difficult subset of NMT called simultaneous translation (SimulMT), where translation begins before the entire source context is available to the model. In this paper, we address key challenges facing LLMs fine-tuned for SimulMT, validate classical SimulMT concepts and practices in the context of LLMs, explore adapting LLMs that are fine-tuned for NMT to the task of SimulMT, and introduce Simul-LLM, the first open-source fine-tuning and evaluation pipeline development framework for LLMs focused on SimulMT.
翻訳日:2023-12-13 18:55:47 公開日:2023-12-12
# 相対論的量子オットーエンジン:量子場からのインスタントワーク抽出

Relativistic quantum Otto engine: Instant work extraction from a quantum field ( http://arxiv.org/abs/2312.04485v2 )

ライセンス: Link先を確認
Kensuke Gallock-Yoshimura(参考訳) 本研究では,unruh-dewitt粒子検出器を用いて量子オットーエンジンに対する非摂動的アプローチを行い,任意の大域的双曲曲線時空における量子クライン・ゴルドン場から仕事を抽出する。 我々は、真空状態、熱状態、および圧縮状態を含む任意の準自由状態における場を考えることにより、その範囲を広げる。 本手法の重要な特徴は,検出器とフィールド間の瞬時相互作用であり,非摂動解析が可能となる。 第2等調過程の検出器が第1の相互作用から信号を受け取ると、2つの等調過程が瞬時に発生しても、検出器は量子オットーサイクルから正の仕事をうまく抽出できることを実証する。 このシグナリングにより検出器は磁場に熱を放出し、熱力学サイクルが完了する。 実演として,安静時の検出器を平坦な時空で検討し,ミンコフスキー真空状態から抽出した作品を計算した。

In this study, we carry out a non-perturbative approach to a quantum Otto engine, employing an Unruh-DeWitt particle detector to extract work from a quantum Klein-Gordon field in an arbitrary globally hyperbolic curved spacetime. We broaden the scope by considering the field in any quasi-free state, which includes vacuum, thermal, and squeezed states. A key aspect of our method is the instantaneous interaction between the detector and the field, which enables a thorough non-perturbative analysis. We demonstrate that the detector can successfully extract positive work from the quantum Otto cycle, even when two isochoric processes occur instantaneously, provided the detector in the second isochoric process receives a signal from the first interaction. This signaling allows the detector to release heat into the field, thereby the thermodynamic cycle is completed. As a demonstration, we consider a detector at rest in flat spacetime and compute the work extracted from the Minkowski vacuum state.
翻訳日:2023-12-13 18:55:26 公開日:2023-12-12
# GPT-4Vにおける医療タスクパフォーマンスの向上:プロンプトエンジニアリング戦略の総合的研究

Enhancing Medical Task Performance in GPT-4V: A Comprehensive Study on Prompt Engineering Strategies ( http://arxiv.org/abs/2312.04344v2 )

ライセンス: Link先を確認
Pengcheng Chen, Ziyan Huang, Zhongying Deng, Tianbin Li, Yanzhou Su, Haoyu Wang, Jin Ye, Yu Qiao, Junjun He(参考訳) openaiの最新大型ビジョン言語モデル(lvlm)であるgpt-4v(ision)は、医療応用におけるその可能性に大きな関心を集めている。 約束にもかかわらず、最近の研究や内部レビューは、専門的な医療業務における過小評価を強調している。 本稿では,GPT-4Vの医療機能の境界,特に内視鏡,CT,MRIなどの複雑な画像データ処理について検討する。 オープンソースデータセットを活用して、基礎的な能力を評価し、拡張のための相当な領域を特定しました。 我々の研究は、AIの応答性を改善するためのしばしば未利用の戦略である、迅速なエンジニアリングを強調している。 反復テストにより,モデルのプロンプトを改良し,医用画像の解釈精度と関連性を大幅に改善した。 包括的評価から, GPT-4Vの医療集積を増強する10種類の効果的なプロンプトエンジニアリング手法を抽出した。 これらの方法論的強化は、GPT-4Vの信頼性、正確、臨床的に価値のある洞察を促進する。 GPT-4Vの完全な診断能力を活かすための、明確で実用的なガイダンスを提供する。

OpenAI's latest large vision-language model (LVLM), GPT-4V(ision), has piqued considerable interest for its potential in medical applications. Despite its promise, recent studies and internal reviews highlight its underperformance in specialized medical tasks. This paper explores the boundary of GPT-4V's capabilities in medicine, particularly in processing complex imaging data from endoscopies, CT scans, and MRIs etc. Leveraging open-source datasets, we assessed its foundational competencies, identifying substantial areas for enhancement. Our research emphasizes prompt engineering, an often-underutilized strategy for improving AI responsiveness. Through iterative testing, we refined the model's prompts, significantly improving its interpretative accuracy and relevance in medical imaging. From our comprehensive evaluations, we distilled 10 effective prompt engineering techniques, each fortifying GPT-4V's medical acumen. These methodical enhancements facilitate more reliable, precise, and clinically valuable insights from GPT-4V, advancing its operability in critical healthcare environments. Our findings are pivotal for those employing AI in medicine, providing clear, actionable guidance on harnessing GPT-4V's full diagnostic potential.
翻訳日:2023-12-13 18:55:07 公開日:2023-12-12
# 人間対大規模言語モデル:AIの先進時代における判断予測

Humans vs Large Language Models: Judgmental Forecasting in an Era of Advanced AI ( http://arxiv.org/abs/2312.06941v1 )

ライセンス: Link先を確認
MAhdi Abolghasemi, Odkhishig Ganbold, Kristian Rotaru(参考訳) 本研究では,小売業における人的専門家と大規模言語モデル(LLM)の予測精度について検討した。 123人の予測装置とChatGPT4, ChatGPT3.5, Bard, Bing, Llama2を含む5つのLCMを用いて, 平均絶対誤差による予測精度の評価を行った。 分析は, 支援統計モデル(ベースラインとアドバンスト), 製品がプロモーションにかかわるか否か, 外的影響の性質など, 予測者性能に及ぼす因子の影響について検討した。 以上の結果から,LSMは予測精度において常に人間より優れておらず,高度な統計予測モデルでは予測器やLSMの性能が一様に向上しないことがわかった。 人間とLLMの予測者は、特にプロモーション期間と、ポジティブな外部影響の影響下で予測誤差が増大した。 本研究は, LLMを実用的な予測プロセスに統合する際の注意深い考察を提唱する。

This study investigates the forecasting accuracy of human experts versus Large Language Models (LLMs) in the retail sector, particularly during standard and promotional sales periods. Utilizing a controlled experimental setup with 123 human forecasters and five LLMs, including ChatGPT4, ChatGPT3.5, Bard, Bing, and Llama2, we evaluated forecasting precision through Mean Absolute Percentage Error. Our analysis centered on the effect of the following factors on forecasters performance: the supporting statistical model (baseline and advanced), whether the product was on promotion, and the nature of external impact. The findings indicate that LLMs do not consistently outperform humans in forecasting accuracy and that advanced statistical forecasting models do not uniformly enhance the performance of either human forecasters or LLMs. Both human and LLM forecasters exhibited increased forecasting errors, particularly during promotional periods and under the influence of positive external impacts. Our findings call for careful consideration when integrating LLMs into practical forecasting processes.
翻訳日:2023-12-13 17:51:47 公開日:2023-12-12
# Informal Dialectal Arabic: Spanish/ French to Levantine/Gulf Arabic における内容ローカライゼーションに基づくニューラルマシン翻訳

Content-Localization based Neural Machine Translation for Informal Dialectal Arabic: Spanish/French to Levantine/Gulf Arabic ( http://arxiv.org/abs/2312.06926v1 )

ライセンス: Link先を確認
Fatimah Alzamzami, Abdulmotaleb El Saddik(参考訳) 高リソース言語の資源は、言語に依存した研究問題を解決するために、低リソース言語で効率的に利用されていない。 スペイン語とフランス語は、非公式なオンライン社会行動モデリングのための適切なレベルのデータ資源が観察される高資源言語と考えられている。 しかし、これらのデータリソースにアクセスし、文脈やトーンを方言アラビア語のような低リソース言語に転送する機械翻訳システムは存在しない。 そこで本研究では,高リソース言語の内容を低リソース言語/ダイアレクタにローカライズするフレームワークを提案する。 我々の知る限りでは、スペイン語とフランス語からアラビア語の方言へ/または/から、並列翻訳データセットを提供する最初の試みである。 これを利用することで、アラビア語の非資源的方言と、異なる地域におけるスマートシティ内および地域間における多様なオンライン社会行動の研究を高速に追跡することを目指している。 実験の結果,高・低資源言語と方言間の資源利用における提案手法の有用性が示された。 これだけでなく、同じ言語で方言を無視することは、オンライン社会行動の誤解を招く可能性があることが証明されている。

Resources in high-resource languages have not been efficiently exploited in low-resource languages to solve language-dependent research problems. Spanish and French are considered high resource languages in which an adequate level of data resources for informal online social behavior modeling, is observed. However, a machine translation system to access those data resources and transfer their context and tone to a low-resource language like dialectal Arabic, does not exist. In response, we propose a framework that localizes contents of high-resource languages to a low-resource language/dialects by utilizing AI power. To the best of our knowledge, we are the first work to provide a parallel translation dataset from/to informal Spanish and French to/from informal Arabic dialects. Using this, we aim to enrich the under-resource-status dialectal Arabic and fast-track the research of diverse online social behaviors within and across smart cities in different geo-regions. The experimental results have illustrated the capability of our proposed solution in exploiting the resources between high and low resource languages and dialects. Not only this, but it has also been proven that ignoring dialects within the same language could lead to misleading analysis of online social behavior.
翻訳日:2023-12-13 17:51:29 公開日:2023-12-12
# VRゲームにおける表情認識

Facial Emotion Recognition in VR Games ( http://arxiv.org/abs/2312.06925v1 )

ライセンス: Link先を確認
Fatemeh Dehghani, Loutfouz Zaman(参考訳) 感情検出はゲームユーザリサーチ(GUR)において重要な要素であり、ゲーム開発者はプレイヤーの感情的体験を把握し、ゲームの調整を行うことができる。 しかし、仮想リアリティ(VR)ゲームにおける感情の検出は、プレイヤーの顔の上部、すなわち目とまぶしさをカバーし、印象を認識する上で重要な情報を提供するヘッドマウントディスプレイ(HMD)によって困難である。 これに対処するために、私たちは畳み込みニューラルネットワーク(cnn)を使用して、目とまぶたを覆うフルフェイスイメージの感情を予測するモデルをトレーニングしました。 私たちはFER2013データセットを使用し、画像の目とまぶたをカバーするように修正しました。 これらの画像のモデルは、怒り、幸福、嫌悪、恐怖、公平性、悲しみ、驚きの7つの異なる感情を正確に認識することができる。 2つのVRゲームでテストし、プレイヤーの感情を検出することで、モデルの性能を評価した。 ゲームプレイセッションの後、プレイヤーから自己報告された感情データを収集した。 ゲームプレイ中にプレイヤーが経験する感情を理解するために,実験から収集したデータを分析した。 ゲーム開発者がより魅力的で没入的なゲーム体験を創造するのに役立つVRゲームにおけるプレイヤーの感情の検出を可能にすることで、我々のアプローチはゲームプレイ分析を強化する可能性があることがわかった。

Emotion detection is a crucial component of Games User Research (GUR), as it allows game developers to gain insights into players' emotional experiences and tailor their games accordingly. However, detecting emotions in Virtual Reality (VR) games is challenging due to the Head-Mounted Display (HMD) that covers the top part of the player's face, namely, their eyes and eyebrows, which provide crucial information for recognizing the impression. To tackle this we used a Convolutional Neural Network (CNN) to train a model to predict emotions in full-face images where the eyes and eyebrows are covered. We used the FER2013 dataset, which we modified to cover eyes and eyebrows in images. The model in these images can accurately recognize seven different emotions which are anger, happiness, disgust, fear, impartiality, sadness and surprise. We assessed the model's performance by testing it on two VR games and using it to detect players' emotions. We collected self-reported emotion data from the players after the gameplay sessions. We analyzed the data collected from our experiment to understand which emotions players experience during the gameplay. We found that our approach has the potential to enhance gameplay analysis by enabling the detection of players' emotions in VR games, which can help game developers create more engaging and immersive game experiences.
翻訳日:2023-12-13 17:51:07 公開日:2023-12-12
# NLPタスクの安全性アライメント:コンテキスト内攻撃としての弱アライズ

Safety Alignment in NLP Tasks: Weakly Aligned Summarization as an In-Context Attack ( http://arxiv.org/abs/2312.06924v1 )

ライセンス: Link先を確認
Yu Fu, Yufei Li, Wen Xiao, Cong Liu, Yue Dong(参考訳) 大規模言語モデル(LLM)の有用性と安全性のバランスをとる最近の発展は、重要な疑問を提起している。 本研究は,敵攻撃によって得られた安全感性文書に着目し,各種NLPタスクの安全アライメントに有意差が認められた。 例えば、LLMは悪意のある長い文書を効果的に要約できるが、しばしば翻訳を拒む。 要約のような、より弱い安全アライメントを持つタスクを悪用する攻撃は、翻訳や質問回答(QA)など、従来より堅牢と考えられていたタスクの統合性を損なう可能性がある。 さらに,安全アライメントの少ない複数のnlpタスクの同時使用により,有害なコンテンツが不注意に処理されるリスクが高まる。 これらの脆弱性は,特にLlama2モデルとGPT-4において,幅広いNLPタスクにまたがる安全アライメント強化の必要性が示唆された。

Recent developments in balancing the usefulness and safety of Large Language Models (LLMs) have raised a critical question: Are mainstream NLP tasks adequately aligned with safety consideration? Our study, focusing on safety-sensitive documents obtained through adversarial attacks, reveals significant disparities in the safety alignment of various NLP tasks. For instance, LLMs can effectively summarize malicious long documents but often refuse to translate them. This discrepancy highlights a previously unidentified vulnerability: attacks exploiting tasks with weaker safety alignment, like summarization, can potentially compromise the integraty of tasks traditionally deemed more robust, such as translation and question-answering (QA). Moreover, the concurrent use of multiple NLP tasks with lesser safety alignment increases the risk of LLMs inadvertently processing harmful content. We demonstrate these vulnerabilities in various safety-aligned LLMs, particularly Llama2 models and GPT-4, indicating an urgent need for strengthening safety alignments across a broad spectrum of NLP tasks.
翻訳日:2023-12-13 17:50:45 公開日:2023-12-12
# 容量のない施設位置問題に対する変分量子アルゴリズム

A variational quantum algorithm for the uncapacitated facility location problem ( http://arxiv.org/abs/2312.06922v1 )

ライセンス: Link先を確認
Sha-Sha Wang, Hai-Ling Liu, Fei Gao, Su-Juan Qin, and Qiao-Yan Wen(参考訳) 量子交互作用素 ansatz (qaoa+) は、組合せ最適化問題を解くための変分量子アルゴリズム (vqas) の一つであり、制約付き最適化問題の実現可能な空間における対象解を探索する。 しかし、QAOA+の性能は制約付き最適化問題の非制約変数の存在に影響される可能性がある。 単純さのため、include-unconstrained-variables-problems (iuvps)と呼ぶ。 ハードウェア効率アンサッツ(HEA)を考えると、回路深度を最小化し、量子チップ上で効率よく実装できるという利点がある。 本稿では,uncapacitated facility location problem (uflp) を例として,qaoa+ と hea の利点を利用して iuvps に対処する ansatz を開発した。 このアルゴリズムの核の一つは混合ハミルトニアンの構成である。 混合ハミルトニアンの作成を容易にするため、UFLPをIUVPに属する制約付き最適化問題に変換する。 最後に,量子近似最適化アルゴリズム (qaoa) や qaoa+, hea と比較して,he-qaoa+ が回路深度が低い場合の成功確率が有意に高いことを示した。 提案アルゴリズムは、IUVPに対処するための実行可能なソリューションを提供し、類似問題に対処するための他のアプローチの開発を促す。

The Quantum Alternating Operator Ansatz (QAOA+) is one of the Variational Quantum Algorithms (VQAs) for solving combinatorial optimization problems, which searches for a target solution in the feasible space of the constrained optimization problems. However, the performance of QAOA+ may be influenced by the presence of unconstrained variables of the constrained optimization problems. For simplicity, we call them as Include-Unconstrained-Variables-Problems (IUVPs). Considering Hardware-Efficient Ansatz (HEA) has the advantage of minimizing circuit depth and being easy to implement efficiently on a quantum chip. In this paper, taking the Uncapacitated Facility Location Problem (UFLP) as an example, we leverage the benefits of QAOA+ and HEA to develop an ansatz named HE-QAOA+ for addressing IUVPs. One of the cores of this algorithm is the construction of mixed Hamiltonian. To facilitate the creation of the mixed Hamiltonian, we transform UFLP into a constrained optimization problem belonging to IUVPs, where the feasible space is composed of bit strings with a fixed Hamming weight. Finally, the numerical results demonstrate that HE-QAOA+ has a significantly higher success probability at lower circuit depths compared to the Quantum Approximation Optimization Algorithm (QAOA), QAOA+, and HEA. The proposed algorithm offers a viable solution for addressing the IUVPs, inspiring the development of other approaches for tackling analogous problems.
翻訳日:2023-12-13 17:50:28 公開日:2023-12-12
# Adaptive Hierarchical Spatiotemporal Dynamic Imaging を用いた痛解析

Pain Analysis using Adaptive Hierarchical Spatiotemporal Dynamic Imaging ( http://arxiv.org/abs/2312.06920v1 )

ライセンス: Link先を確認
Issam Serraoui, Eric Granger, Abdenour Hadid, Abdelmalik Taleb-Ahmed(参考訳) 自動痛み強度推定は、医療や医療分野で重要な役割を担っている。 行動指標や生理指標を用いて人体の痛みを計測する多くの方法が開発されているが、表情はこの目的のために顕著な道具として現れている。 それでも、ラベル付きデータへの依存は高価で時間を要することが多い。 そこで本研究では,適応階層時空間動画像(AHDI)技術を紹介する。 AHDIは、顔ビデオの時空間変化を特異なRGB画像にエンコードし、より単純な2Dディープモデルをビデオ表現に適用することができる。 この枠組み内では、一般化された顔表現を導出するために残差ネットワークを用いる。 これらの表現は、痛みの強さを推定し、本物の痛み表現とシミュレートされた痛み表現を区別する2つのタスクに最適化される。 前者の場合、回帰モデルを抽出した表現を用いて訓練し、後者の場合、バイナリ分類器は真と偽の痛みの表示を識別する。 広く使用されている2つの痛みデータセットでこの方法をテストすることで、両方のタスクに奨励的な結果が得られた。 unbc のデータベースでは,mse が 0.40 の sota を上回る 0.27 の mse を達成した。 biovidデータセットでは,soma精度よりも5.37%向上した89.76%の精度を達成した。 特に、本物の痛みとシミュレートされた痛みを区別するために、我々の精度は94.03%であり、実質的な8.98%の改善を示している。 本手法は,広範囲なラベル付きデータの必要性を最小限に抑えるだけでなく,痛み評価の精度を高め,より優れた痛み管理を容易にする。

Automatic pain intensity estimation plays a pivotal role in healthcare and medical fields. While many methods have been developed to gauge human pain using behavioral or physiological indicators, facial expressions have emerged as a prominent tool for this purpose. Nevertheless, the dependence on labeled data for these techniques often renders them expensive and time-consuming. To tackle this, we introduce the Adaptive Hierarchical Spatio-temporal Dynamic Image (AHDI) technique. AHDI encodes spatiotemporal changes in facial videos into a singular RGB image, permitting the application of simpler 2D deep models for video representation. Within this framework, we employ a residual network to derive generalized facial representations. These representations are optimized for two tasks: estimating pain intensity and differentiating between genuine and simulated pain expressions. For the former, a regression model is trained using the extracted representations, while for the latter, a binary classifier identifies genuine versus feigned pain displays. Testing our method on two widely-used pain datasets, we observed encouraging results for both tasks. On the UNBC database, we achieved an MSE of 0.27 outperforming the SOTA which had an MSE of 0.40. On the BioVid dataset, our model achieved an accuracy of 89.76%, which is an improvement of 5.37% over the SOTA accuracy. Most notably, for distinguishing genuine from simulated pain, our accuracy stands at 94.03%, marking a substantial improvement of 8.98%. Our methodology not only minimizes the need for extensive labeled data but also augments the precision of pain evaluations, facilitating superior pain management.
翻訳日:2023-12-13 17:50:00 公開日:2023-12-12
# 量子場理論におけるメルミンの不等式の研究にワイル作用素を用いる

Using Weyl operators to study Mermin's inequalities in Quantum Field Theory ( http://arxiv.org/abs/2312.06918v1 )

ライセンス: Link先を確認
Philipe De Fabritiis, Fillipe M. Guedes, Marcelo S. Guimaraes, Itzhak Roditi, Silvio P. Sorella(参考訳) メルミンの不等式は、ワイル作用素で構築されたフォン・ノイマン代数を用いて量子場理論の枠組みで研究される。 我々は、富田竹崎モジュラー理論に基づく一般的な構成を考案し、それを用いて、メルミン作用素の真空期待値を計算し、パラメータ空間を解析し、マーミンの不等式を明示的に示す。 したがって、モジュラー作用素の力に頼って、スカラー場理論の真空状態内で調べると、メルミンの不等式が破られることを示すことができる。

Mermin's inequalities are investigated in a Quantum Field Theory framework by using von Neumann algebras built with Weyl operators. We devise a general construction based on the Tomita-Takesaki modular theory and use it to compute the vacuum expectation value of the Mermin operator, analyzing the parameter space and explicitly exhibiting a violation of Mermin's inequalities. Therefore, relying on the power of modular operators, we are able to demonstrate that Mermin's inequalities are violated when examined within the vacuum state of a scalar field theory.
翻訳日:2023-12-13 17:49:33 公開日:2023-12-12
# アルツハイマー病マウスにおける新しい物体認識と自発位置認識機械学習解析手法の探索

Exploring Novel Object Recognition and Spontaneous Location Recognition Machine Learning Analysis Techniques in Alzheimer's Mice ( http://arxiv.org/abs/2312.06914v1 )

ライセンス: Link先を確認
Soham Bafana, Radha Raghuraman, S. Abid Hussaini(参考訳) マウスにおける物体認識パターンの理解は行動神経科学の進歩に不可欠であり、特にアルツハイマー研究の領域において人間の健康に重大な影響を及ぼす。 本研究は,新しい物体認識(nor)と自発的位置認識(slr)タスクに着目し,このような振る舞いを分析するための最先端計算パイプラインの開発,応用,評価に重点を置いている。 このパイプラインは、初期データ収集のためのAny-Maze、詳細なポーズ推定のためのDeepLabCut、ニュアンスな行動分類のための畳み込みニューラルネットワーク(CNN)の3つの高度な計算モデルを統合する。 4つの異なるマウス群で採用され、高い精度と堅牢性を示した。 ビデオ品質の制限や手動計算の必要性といったある種の課題にもかかわらず、結果はパイプラインの有効性とスケーラビリティの可能性を確認している。 この研究は、行動神経科学に対する多次元計算アプローチの概念実証となり、将来、より複雑な分析のためのパイプラインの汎用性と準備を強調する。

Understanding object recognition patterns in mice is crucial for advancing behavioral neuroscience and has significant implications for human health, particularly in the realm of Alzheimer's research. This study is centered on the development, application, and evaluation of a state-of-the-art computational pipeline designed to analyze such behaviors, specifically focusing on Novel Object Recognition (NOR) and Spontaneous Location Recognition (SLR) tasks. The pipeline integrates three advanced computational models: Any-Maze for initial data collection, DeepLabCut for detailed pose estimation, and Convolutional Neural Networks (CNNs) for nuanced behavioral classification. Employed across four distinct mouse groups, this pipeline demonstrated high levels of accuracy and robustness. Despite certain challenges like video quality limitations and the need for manual calculations, the results affirm the pipeline's efficacy and potential for scalability. The study serves as a proof of concept for a multidimensional computational approach to behavioral neuroscience, emphasizing the pipeline's versatility and readiness for future, more complex analyses.
翻訳日:2023-12-13 17:49:16 公開日:2023-12-12
# 超伝導量子ビットを用いたスケーラブル量子情報処理のための多重制御方式

Multiplexed control scheme for scalable quantum information processing with superconducting qubits ( http://arxiv.org/abs/2312.06911v1 )

ライセンス: Link先を確認
Pan Shi, Jiahao Yuan, Fei Yan, Haifeng Yu(参考訳) スケーラブルな量子情報処理の進歩は、膨大な数の量子ビットの正確かつ並列な操作に依存し、数百万に到達する可能性がある。 超伝導量子ビットは伝統的に個々の回路で制御されており、ワイヤの過剰使用によりスケーラビリティの課題に直面している。 この課題は、オンチップルーティング、I/Oパッケージング、テストプラットフォーム、経済的に実現可能なソリューションの容量をすぐに超える重要なポイントに近づいている。 本稿では,複数のキュービットとカプラを操作するための共有制御線を効率的に利用する多重化制御方式を提案する。 量子ハードウェアとソフトウェアの共同設計を統合することで、周波数多重化や個別チューニングといった高度な技術を活用する。 これにより、1ビットと2ビットのゲートの同時実行と独立実行が可能となり、配線は大幅に簡略化された。 このスキームは近い将来、制御線路の数を1桁から2桁に減らし、超伝導量子プロセッサのスケーラビリティを大幅に向上させる可能性がある。

The advancement of scalable quantum information processing relies on the accurate and parallel manipulation of a vast number of qubits, potentially reaching into the millions. Superconducting qubits, traditionally controlled through individual circuitry, currently face a formidable scalability challenge due to the excessive use of wires. This challenge is nearing a critical point where it might soon surpass the capacities of on-chip routing, I/O packaging, testing platforms, and economically feasible solutions. Here we introduce a multiplexed control scheme that efficiently utilizes shared control lines for operating multiple qubits and couplers. By integrating quantum hardware-software co-design, our approach utilizes advanced techniques like frequency multiplexing and individual tuning. This enables simultaneous and independent execution of single- and two-qubit gates with significantly simplified wiring. This scheme has the potential to diminish the number of control lines by one to two orders of magnitude in the near future, thereby substantially enhancing the scalability of superconducting quantum processors.
翻訳日:2023-12-13 17:48:42 公開日:2023-12-12
# 結合グラフ上の量子ウォーク

Quantum walks on join graphs ( http://arxiv.org/abs/2312.06906v1 )

ライセンス: Link先を確認
Steve Kirkland and Hermie Monterde(参考訳) 二つのグラフの結合 $X\vee Y$ と $Y$ は、それぞれ$X$ の頂点を$Y$ の頂点に結合することによって得られるグラフである。 隣接行列あるいはラプラシア行列を関連するハミルトン行列とする重み付き結合グラフ上での連続量子ウォークの挙動を考察する。 我々は、結合グラフにおける強いコスペクタリティ、周期性、完全状態移動(pst)を特徴付ける。 また、結合に強いスペクトル、周期性、PSTが保存されている条件も決定する。 ある条件下では、他のグラフと結合するとPSTを示すPSTのないグラフが存在することを示す。 これは結合演算が PST で新しいグラフを生成することを約束していることを示している。 さらに、$X$ と $X\vee Y$ の周期頂点に対しては、その最小周期を $X$ と $X\vee Y$ の表現を与える。 結合演算は周期性とPSTを保存する必要はないが、$\big| |U_M(X\vee Y,t)_{u,v}|-|U_M(X,t)_{u,v}| \big|\leq \frac{2}{|V(X)|}$ for all vertices $u$ and $v$ of $X$, where $U_M(X\vee Y,t)$ and $U_M(X,t)$は、隣接行列またはラプラシア行列に対してそれぞれ$X\vee Y$と$X$の遷移行列を表す。 有界な $\frac{2}{|V(X)|}$ はグラフの無限族に対して強であることを示す。

The join $X\vee Y$ of two graphs $X$ and $Y$ is the graph obtained by joining each vertex of $X$ to each vertex of $Y$. We explore the behaviour of a continuous quantum walk on a weighted join graph having the adjacency matrix or Laplacian matrix as its associated Hamiltonian. We characterize strong cospectrality, periodicity and perfect state transfer (PST) in a join graph. We also determine conditions in which strong cospectrality, periodicity and PST are preserved in the join. Under certain conditions, we show that there are graphs with no PST that exhibits PST when joined by another graph. This suggests that the join operation is promising in producing new graphs with PST. Moreover, for a periodic vertex in $X$ and $X\vee Y$, we give an expression that relates its minimum periods in $X$ and $X\vee Y$. While the join operation need not preserve periodicity and PST, we show that $\big| |U_M(X\vee Y,t)_{u,v}|-|U_M(X,t)_{u,v}| \big|\leq \frac{2}{|V(X)|}$ for all vertices $u$ and $v$ of $X$, where $U_M(X\vee Y,t)$ and $U_M(X,t)$ denote the transition matrices of $X\vee Y$ and $X$ respectively relative to either the adjacency or Laplacian matrix. We demonstrate that the bound $\frac{2}{|V(X)|}$ is tight for infinite families of graphs.
翻訳日:2023-12-13 17:48:15 公開日:2023-12-12
# Perseus:大規模モデルトレーニングからエネルギーの膨張を取り除く

Perseus: Removing Energy Bloat from Large Model Training ( http://arxiv.org/abs/2312.06902v1 )

ライセンス: Link先を確認
Jae-Won Chung, Yile Gu, Insu Jang, Luoxi Meng, Nikhil Bansal, Mosharaf Chowdhury(参考訳) 多数のGPU上で大規模なAIモデルをトレーニングすることは、膨大なエネルギーを消費する。 トレーニング中に消費されるすべてのエネルギーが、エンドツーエンドのトレーニングスループットに直接寄与する訳ではなく、トレーニングを遅くすることなく、かなりの部分を取り除くことができる。 本研究では,大規模モデルトレーニングにおける2つの独立したエネルギー肥大源を同定し,両者を緩和する統一最適化フレームワークPerseusを提案する。 perseusは、効率的な反復グラフカットベースのアルゴリズムを用いて、任意の大規模モデルのトレーニングジョブの「イテレーション時間エネルギー」パレートフロンティアを取得し、その前方および後方の計算のエネルギー消費を時間とともにスケジュールし、本質的および極端的なエネルギー塊を取り除く。 GPT-3やBloomのような大型モデルの評価では、Perseusは大規模なモデルトレーニングのエネルギー消費を最大30%削減する。

Training large AI models on numerous GPUs consumes a massive amount of energy. We observe that not all energy consumed during training directly contributes to end-to-end training throughput, and a significant portion can be removed without slowing down training, which we call energy bloat. In this work, we identify two independent sources of energy bloat in large model training, intrinsic and extrinsic, and propose Perseus, a unified optimization framework that mitigates both. Perseus obtains the "iteration time-energy" Pareto frontier of any large model training job using an efficient iterative graph cut-based algorithm and schedules energy consumption of its forward and backward computations across time to remove intrinsic and extrinsic energy bloat. Evaluation on large models like GPT-3 and Bloom shows that Perseus reduces energy consumption of large model training by up to 30%, enabling savings otherwise unobtainable before.
翻訳日:2023-12-13 17:46:49 公開日:2023-12-12
# 学習可能な長さ制御戦略を用いた教師なし抽出要約

Unsupervised Extractive Summarization with Learnable Length Control Strategies ( http://arxiv.org/abs/2312.06901v1 )

ライセンス: Link先を確認
Renlong Jie, Xiaojun Meng, Xin Jiang, Qun Liu(参考訳) 教師なし抽出要約は情報抽出と検索において重要な手法である。 教師付き手法と比較して、トレーニングに質の高い人間ラベルのサマリーを必要としないため、異なるタイプ、ドメイン、言語を持つ文書に容易に適用できる。 textrankやpacsumなど既存の教師なしの手法のほとんどは、文中心性に基づくグラフベースのランキングに依存している。 しかし、このスコアラはエンドツーエンドのトレーニングでは直接適用できず、良い要約を得るためには位置関係の事前仮定がしばしば必要となる。 さらに、ユーザーが特定の長さ制約の下でテキストを要約することを決定できる長さ制御可能な抽出器にはあまり注意が払わない。 本稿では,シムズネットワークに基づく教師なし抽出要約モデルを紹介し,選択した要約と原文書間の訓練可能な双方向予測目標を開発する。 集中性に基づくランキング手法と異なり, 抽出スコアは, 位置推定を必要とせず, エンドツーエンドでトレーニングすることができる。 さらに,0-1knapsackソルバを終端から終端までの長さ制御可能な抽出に近似することにより,可変長制御モジュールを導入する。 実験の結果, 教師なし手法は, 同じ文エンコーダを用いて, 集中度に基づくベースラインよりも優れていた。 トレーニング可能なknapsackモジュールによる長さ制御能力では、エンドツーエンドのトレーニングを使わずに、パフォーマンスが一貫して強力なベースラインを上回っます。 人的評価はさらに,本手法がベースライン間において,関連性と一貫性の観点から最良であることを示す。

Unsupervised extractive summarization is an important technique in information extraction and retrieval. Compared with supervised method, it does not require high-quality human-labelled summaries for training and thus can be easily applied for documents with different types, domains or languages. Most of existing unsupervised methods including TextRank and PACSUM rely on graph-based ranking on sentence centrality. However, this scorer can not be directly applied in end-to-end training, and the positional-related prior assumption is often needed for achieving good summaries. In addition, less attention is paid to length-controllable extractor, where users can decide to summarize texts under particular length constraint. This paper introduces an unsupervised extractive summarization model based on a siamese network, for which we develop a trainable bidirectional prediction objective between the selected summary and the original document. Different from the centrality-based ranking methods, our extractive scorer can be trained in an end-to-end manner, with no other requirement of positional assumption. In addition, we introduce a differentiable length control module by approximating 0-1 knapsack solver for end-to-end length-controllable extracting. Experiments show that our unsupervised method largely outperforms the centrality-based baseline using a same sentence encoder. In terms of length control ability, via our trainable knapsack module, the performance consistently outperforms the strong baseline without utilizing end-to-end training. Human evaluation further evidences that our method performs the best among baselines in terms of relevance and consistency.
翻訳日:2023-12-13 17:46:16 公開日:2023-12-12
# バイオインスパイアコンピューティングがディープラーニングと出会う - ニューラルネットワークによる低遅延、高精度、エネルギー効率の高いスパイクニューラルネットワーク

When Bio-Inspired Computing meets Deep Learning: Low-Latency, Accurate, & Energy-Efficient Spiking Neural Networks from Artificial Neural Networks ( http://arxiv.org/abs/2312.06900v1 )

ライセンス: Link先を確認
Gourav Datta, Zeyu Liu, James Diffenderfer, Bhavya Kailkhura, and Peter A. Beerel(参考訳) バイオインスパイアされたスパイキングニューラルネットワーク(SNN)は、複雑な畳み込みニューラルネットワーク(CNN)に匹敵する精度を示している。 特に、ANN-to-SNN変換は、複雑な画像認識タスクにおける最先端(SOTA)テスト精度に近いディープSNNの開発において、近年大きな牽引力を得ている。 しかし、高度なANN-to-SNN変換アプローチは、損失のない変換では、SNNの時間ステップの数は、ANNアクティベーション関数の量子化ステップの数と等しくなければならないことを示す。 時間ステップの削減は変換エラーを大幅に増加させる。 さらに、ニューロモルフィックチップの計算エネルギーを支配するsnのスパイキング活性は、時間ステップの数に比例して減少しない。 精度の懸念を軽減するために,SOTA変換手法よりも指数関数的に少ない時間ステップを発生させる新しいANN-to-SNN変換フレームワークを提案する。 我々のフレームワークは,SNN統合火災ニューロンモデルを同一の複雑さで修正し,訓練されたANNにおける各バッチ正規化(BN)層のバイアス項をシフトさせる。 スパイク活動の懸念を軽減するため,変換されたSNNのスパイク間隔を増大させるため,シュロゲート勾配を有する微細なL1正規化器を用いたソースANNのトレーニングを提案する。 そこで,提案手法では,超低レイテンシ,超低計算エネルギーのsnを,超低時間ステップ,高スパイクスパーシティ,超高テスト精度,例えば,imagenetデータセット上で4時間ステップしか持たない73.30%という精度で実現している。

Bio-inspired Spiking Neural Networks (SNN) are now demonstrating comparable accuracy to intricate convolutional neural networks (CNN), all while delivering remarkable energy and latency efficiency when deployed on neuromorphic hardware. In particular, ANN-to-SNN conversion has recently gained significant traction in developing deep SNNs with close to state-of-the-art (SOTA) test accuracy on complex image recognition tasks. However, advanced ANN-to-SNN conversion approaches demonstrate that for lossless conversion, the number of SNN time steps must equal the number of quantization steps in the ANN activation function. Reducing the number of time steps significantly increases the conversion error. Moreover, the spiking activity of the SNN, which dominates the compute energy in neuromorphic chips, does not reduce proportionally with the number of time steps. To mitigate the accuracy concern, we propose a novel ANN-to-SNN conversion framework, that incurs an exponentially lower number of time steps compared to that required in the SOTA conversion approaches. Our framework modifies the SNN integrate-and-fire (IF) neuron model with identical complexity and shifts the bias term of each batch normalization (BN) layer in the trained ANN. To mitigate the spiking activity concern, we propose training the source ANN with a fine-grained L1 regularizer with surrogate gradients that encourages high spike sparsity in the converted SNN. Our proposed framework thus yields lossless SNNs with ultra-low latency, ultra-low compute energy, thanks to the ultra-low timesteps and high spike sparsity, and ultra-high test accuracy, for example, 73.30% with only 4 time steps on the ImageNet dataset.
翻訳日:2023-12-13 17:45:50 公開日:2023-12-12
# 誘導拡散モデルにおけるLoRA強化蒸留

LoRA-Enhanced Distillation on Guided Diffusion Models ( http://arxiv.org/abs/2312.06899v1 )

ライセンス: Link先を確認
Pareesa Ameneh Golnari(参考訳) 安定拡散(SD)のような拡散モデルは、様々な特徴を持つ高解像度画像を生成する能力を提供するが、計算とメモリのコストがかなり高い。 分類器を含まない誘導拡散モデルでは、長い推論時間は2つの異なる拡散モデルを分別化ステップで計算する必要性に起因している。 最近の研究は、蒸留技術による推論時間の改善を約束し、計算量を減らすことで同様のデノナイジングステップを実行するようモデルに教えている。 しかし、蒸留の応用は、既にリソース集約的な拡散モデルにさらなるメモリオーバーヘッドをもたらし、実用性が低下する。 これらの課題に対処するために,ローランド適応 (LoRA) とモデル蒸留を併用し,効率よく拡散モデルを圧縮する手法を提案する。 このアプローチは推論時間を短縮するだけでなく、メモリオーバーヘッドを軽減し、蒸留に先立ってメモリ消費を著しく削減する。 その結果, 蒸留プロセスによる推論時間の大幅な短縮と, メモリ消費の約50%の削減が達成された。 生成した画像について検討した結果,LoRA添加蒸留は画像品質と得られたプロンプトとの整合性を維持していることがわかった。 要約すると、従来の蒸留はメモリ消費を増加させる傾向にあるが、LoRA強化蒸留は品質のトレードオフや妥協なしに最適化を提供する。

Diffusion models, such as Stable Diffusion (SD), offer the ability to generate high-resolution images with diverse features, but they come at a significant computational and memory cost. In classifier-free guided diffusion models, prolonged inference times are attributed to the necessity of computing two separate diffusion models at each denoising step. Recent work has shown promise in improving inference time through distillation techniques, teaching the model to perform similar denoising steps with reduced computations. However, the application of distillation introduces additional memory overhead to these already resource-intensive diffusion models, making it less practical. To address these challenges, our research explores a novel approach that combines Low-Rank Adaptation (LoRA) with model distillation to efficiently compress diffusion models. This approach not only reduces inference time but also mitigates memory overhead, and notably decreases memory consumption even before applying distillation. The results are remarkable, featuring a significant reduction in inference time due to the distillation process and a substantial 50% reduction in memory consumption. Our examination of the generated images underscores that the incorporation of LoRA-enhanced distillation maintains image quality and alignment with the provided prompts. In summary, while conventional distillation tends to increase memory consumption, LoRA-enhanced distillation offers optimization without any trade-offs or compromises in quality.
翻訳日:2023-12-13 17:45:16 公開日:2023-12-12
# PatchMorph: 小さなパッチを用いた教師なし3次元脳画像登録のための確率的ディープラーニングアプローチ

PatchMorph: A Stochastic Deep Learning Approach for Unsupervised 3D Brain Image Registration with Small Patches ( http://arxiv.org/abs/2312.06958v1 )

ライセンス: Link先を確認
Henrik Skibbe, Michal Byra, Akiya Watakabe, Tetsuo Yamamori, Marco Reisert(参考訳) 我々は,教師なし3次元脳画像登録に適した確率的深層学習アルゴリズムである"PatchMorph"を紹介する。 他の方法とは異なり、我々は局所的な変形と大域的な変換を組み合わせられる解を導出するために、一定サイズのコンパクトパッチを使用する。 このアプローチは、トレーニング中のGPUのメモリフットプリントを最小限にすると同時に、画像の緩和や境界のパッチ問題に対する推論中に、多数のランダムに重複する小さなパッチを操作できる。 PatchMorphは、2つの入力イメージ間の世界座標変換を順応的に処理し、間隔、配列サイズ、向きなどの属性のばらつきを調節する。 パッチの空間分解能は粗いものから細かいものへと遷移し、画像の整列に必要なグローバル属性とローカル属性の両方に対処する。 各パッチはユニークな視点を提供し、一緒に包括的なソリューションに向かって収束する。 連続2光子トモグラフィによるヒトt1 mri脳画像とmarmoset脳画像の実験はpatchmorphの優れた性能を肯定する。

We introduce "PatchMorph," an new stochastic deep learning algorithm tailored for unsupervised 3D brain image registration. Unlike other methods, our method uses compact patches of a constant small size to derive solutions that can combine global transformations with local deformations. This approach minimizes the memory footprint of the GPU during training, but also enables us to operate on numerous amounts of randomly overlapping small patches during inference to mitigate image and patch boundary problems. PatchMorph adeptly handles world coordinate transformations between two input images, accommodating variances in attributes such as spacing, array sizes, and orientations. The spatial resolution of patches transitions from coarse to fine, addressing both global and local attributes essential for aligning the images. Each patch offers a unique perspective, together converging towards a comprehensive solution. Experiments on human T1 MRI brain images and marmoset brain images from serial 2-photon tomography affirm PatchMorph's superior performance.
翻訳日:2023-12-13 17:38:03 公開日:2023-12-12
# オンラインサドルポイント問題とオンライン凸凹最適化

Online Saddle Point Problem and Online Convex-Concave Optimization ( http://arxiv.org/abs/2312.06957v1 )

ライセンス: Link先を確認
Qing-xin Meng and Jian-wei Liu(参考訳) 本稿では,オンライン・サドルポイント問題を解くことを中心に,オンライン・コンベックス・コンベブ最適化(occo)フレームワークを紹介する。 本稿では、性能指標として一般化双対性ギャップ(Dual-Gap)を提案し、OCCOとDual-Gapとオンライン凸最適化(OCO)の並列性を確立する。 OCOからのOCCOの自然な拡張を示すために、暗黙のオンラインミラー降下指数と楽観的な変種という2つのアルゴリズムを開発した。 分析の結果、OCOの暗黙的な更新によって生じる動的後悔と、それらの双対性ギャップが類似した表現形式を共有することが明らかとなった。 実験結果は、アルゴリズムの有効性をさらに実証する。 同時に,最近の論文で紹介された動的ナッシュ均衡の後悔には本質的な欠陥があることを明らかにした。

Centered around solving the Online Saddle Point problem, this paper introduces the Online Convex-Concave Optimization (OCCO) framework, which involves a sequence of two-player time-varying convex-concave games. We propose the generalized duality gap (Dual-Gap) as the performance metric and establish the parallel relationship between OCCO with Dual-Gap and Online Convex Optimization (OCO) with regret. To demonstrate the natural extension of OCCO from OCO, we develop two algorithms, the implicit online mirror descent-ascent and its optimistic variant. Analysis reveals that their duality gaps share similar expression forms with the corresponding dynamic regrets arising from implicit updates in OCO. Empirical results further substantiate the effectiveness of our algorithms. Simultaneously, we unveil that the dynamic Nash equilibrium regret, which was initially introduced in a recent paper, has inherent defects.
翻訳日:2023-12-13 17:37:44 公開日:2023-12-12
# IA2U: 水中モデルのためのマルチPrior付きトランスファープラグイン

IA2U: A Transfer Plugin with Multi-Prior for In-Air Model to Underwater ( http://arxiv.org/abs/2312.06955v1 )

ライセンス: Link先を確認
Jingchun Zhou and Qilin Gai and Weishi Zhang and Kin-man Lam and Xianping Fu and Ting Li and Chongyi Li(参考訳) 水中環境では、懸濁粒子濃度と濁度の変化が重篤な画像劣化を引き起こし、画像強調(ie)と物体検出(od)タスクに重大な課題をもたらす。 現在、空中画像の強調と検出は顕著な進歩を遂げているが、これらの環境の複雑さと変動性により、水中環境への適用は制限されている。 細調整された空気中のモデルは高いオーバーヘッドを節約し、スクラッチから水中モデルを構築するよりもオプションで参照作業を行う。 これらの問題に対処するため, IA2U という, 水中モデルから水中アプリケーションへの変換に先立って, 複数先行する転送プラグインを設計した。 IA2Uは水中シナリオでの効率的な適用を可能にし、水中IEとODの性能を向上させる。 IA2Uは、色や視認性などの画像劣化の程度を特徴付ける水型、細部とテクスチャの違いに焦点をあてた分解前の水型、撮影時の環境条件と撮影対象の特性を考慮に入れた試料の3種類を統合している。 IA2Uはトランスフォーマーのような構造を用いて,タスクレベルの水中画像特徴の階層的向上を実現するために,クエリ条件と共同タスク損失関数としてこれらの先行情報を利用する。 実験の結果,ia2uと空気中モデルの組み合わせにより,水中画像強調と物体検出タスクにおいて優れた性能が得られることがわかった。 コードは公開される予定だ。

In underwater environments, variations in suspended particle concentration and turbidity cause severe image degradation, posing significant challenges to image enhancement (IE) and object detection (OD) tasks. Currently, in-air image enhancement and detection methods have made notable progress, but their application in underwater conditions is limited due to the complexity and variability of these environments. Fine-tuning in-air models saves high overhead and has more optional reference work than building an underwater model from scratch. To address these issues, we design a transfer plugin with multiple priors for converting in-air models to underwater applications, named IA2U. IA2U enables efficient application in underwater scenarios, thereby improving performance in Underwater IE and OD. IA2U integrates three types of underwater priors: the water type prior that characterizes the degree of image degradation, such as color and visibility; the degradation prior, focusing on differences in details and textures; and the sample prior, considering the environmental conditions at the time of capture and the characteristics of the photographed object. Utilizing a Transformer-like structure, IA2U employs these priors as query conditions and a joint task loss function to achieve hierarchical enhancement of task-level underwater image features, therefore considering the requirements of two different tasks, IE and OD. Experimental results show that IA2U combined with an in-air model can achieve superior performance in underwater image enhancement and object detection tasks. The code will be made publicly available.
翻訳日:2023-12-13 17:37:28 公開日:2023-12-12
# Feature Norm Regularized Federated Learning:スキュー分布をグローバルインサイトに変換する

Feature Norm Regularized Federated Learning: Transforming Skewed Distributions into Global Insights ( http://arxiv.org/abs/2312.06951v1 )

ライセンス: Link先を確認
Ke Hu, WeiDong Qiu, Peng Tang(参考訳) フェデレーテッドラーニングの分野では、非独立で同一に分散されたデータ(非i.d.)に対処することは、グローバルモデルの性能を改善する上で重要な課題である。 このアルゴリズムは、クラスの平均的特徴ノルムを独自に組み込んで、非i.d.シナリオにおけるモデルの精度と収束性を高める。 包括的分析により,FNR-FLは収束を加速するだけでなく,特に特徴分布スキューシナリオにおいて,他の現代のフェデレーション学習アルゴリズムをはるかに上回っていることが明らかとなった。 FNR-FLの新たなモジュラー設計は、既存の連合学習フレームワークとのシームレスな統合を促進し、その適応性と幅広い応用の可能性を強化する。 我々は、厳密な経験的評価を通じて、様々な歪んだデータ分布にまたがるFNR-FLの異常な性能を示す。 fedavgと比較すると、fnr-flは精度が66.24\%向上し、トレーニング時間が11.40\%低下し、効果と効率が向上している。

In the field of federated learning, addressing non-independent and identically distributed (non-i.i.d.) data remains a quintessential challenge for improving global model performance. This work introduces the Feature Norm Regularized Federated Learning (FNR-FL) algorithm, which uniquely incorporates class average feature norms to enhance model accuracy and convergence in non-i.i.d. scenarios. Our comprehensive analysis reveals that FNR-FL not only accelerates convergence but also significantly surpasses other contemporary federated learning algorithms in test accuracy, particularly under feature distribution skew scenarios. The novel modular design of FNR-FL facilitates seamless integration with existing federated learning frameworks, reinforcing its adaptability and potential for widespread application. We substantiate our claims through rigorous empirical evaluations, demonstrating FNR-FL's exceptional performance across various skewed data distributions. Relative to FedAvg, FNR-FL exhibits a substantial 66.24\% improvement in accuracy and a significant 11.40\% reduction in training time, underscoring its enhanced effectiveness and efficiency.
翻訳日:2023-12-13 17:36:57 公開日:2023-12-12
# READ-PVLA:低リソースビデオ言語モデリングにおけるパラメータ効率変換学習のための部分的ビデオ言語アライメント付きリカレントアダプタ

READ-PVLA: Recurrent Adapter with Partial Video-Language Alignment for Parameter-Efficient Transfer Learning in Low-Resource Video-Language Modeling ( http://arxiv.org/abs/2312.06950v1 )

ライセンス: Link先を確認
Thong Nguyen, Xiaobao Wu, Xinshuai Dong, Khoi Le, Zhiyuan Hu, Cong-Duy Nguyen, See-Kiong Ng, Luu Anh Tuan(参考訳) 完全微調整された大規模トランスフォーマーモデルは、時間的言語接地やビデオ言語要約といったビデオ言語モデリングタスクにおいて一般的なパラダイムとなっている。 タスクの数が増え、トレーニングデータが限られているため、完全な微調整アプローチはコストのかかるモデルストレージと不安定なトレーニングにつながる。 これらの欠点を克服するため、トレーニング済みモデルに軽量アダプタを導入し、微調整時にのみ更新する。 しかし、既存のアダプタは、ビデオフレームやテキストワード間の固有の時間的関係をキャプチャできない。 さらに、生のビデオ言語入力からアダプタの低次元空間に流れる重要なタスク関連情報の保存を無視する。 これらの問題に対処するために、我々はまず、時間的モデリング機能を実現するために繰り返し計算を利用する新しいRecurrent Adapter (READ)を提案する。 第2に,読取モジュールに流入するタスク関連情報を維持するために,部分最適トランスポートを用いた部分映像言語アライメント(pvla)の目標を提案する。 我々はREAD-PVLAフレームワークを広範囲な実験により検証し、READ-PVLAは複数の低リソースの時間的言語グラウンドとビデオ言語要約ベンチマークにおいて既存の微調整戦略を著しく上回っている。

Fully fine-tuning pretrained large-scale transformer models has become a popular paradigm for video-language modeling tasks, such as temporal language grounding and video-language summarization. With a growing number of tasks and limited training data, such full fine-tuning approach leads to costly model storage and unstable training. To overcome these shortcomings, we introduce lightweight adapters to the pre-trained model and only update them at fine-tuning time. However, existing adapters fail to capture intrinsic temporal relations among video frames or textual words. Moreover, they neglect the preservation of critical task-related information that flows from the raw video-language input into the adapter's low-dimensional space. To address these issues, we first propose a novel REcurrent ADapter (READ) that employs recurrent computation to enable temporal modeling capability. Second, we propose Partial Video-Language Alignment (PVLA) objective via the use of partial optimal transport to maintain task-related information flowing into our READ modules. We validate our READ-PVLA framework through extensive experiments where READ-PVLA significantly outperforms all existing fine-tuning strategies on multiple low-resource temporal language grounding and video-language summarization benchmarks.
翻訳日:2023-12-13 17:36:35 公開日:2023-12-12
# MaTe3D: マスク付きテキストベースの3D画像編集

MaTe3D: Mask-guided Text-based 3D-aware Portrait Editing ( http://arxiv.org/abs/2312.06947v1 )

ライセンス: Link先を確認
Kangneng Zhou, Daiheng Gao, Xuan Wang, Jie Zhang, Peng Zhang, Xusen Sun, Longhao Zhang, Shiqi Yang, Bang Zhang, Liefeng Bo, Yaxing Wang(参考訳) 近年,3d認識による顔編集が目覚ましい進歩を遂げている。 現在のアプローチではマスク誘導やテキストベースの編集に成功しているが、これらの特性は単一の方法に統合されていない。 この制限に対処するため,マスク誘導型テキストベースの3D画像編集法である \textbf{MaTe3D} を提案する。 まず,SDFを用いた新しい3Dジェネレータを提案する。 マスクベースの編集(主に地域において)をより良く行うため,グローバルとローカルの両方の表現を効果的にモデル化することを目的として,SDFと密度一貫性の損失を提案する。 次に,推論最適化手法を提案する。 本稿では,SDS(Score Distillation Smpling)と条件付きSDS(Score Distillation Smpling)の2つの手法を紹介する。 前者は幾何学と外見のミスマッチ問題を克服し、究極的には忠実性を損なうことを目的としている。 条件付きSDSは、さらなる良好な安定な結果をもたらす。 さらに、大規模な高解像度の猫顔アノテーションであるCatMask-HQデータセットを作成します。 FFHQとCatMask-HQのデータセットを用いて実験を行い,提案手法の有効性を実証した。 本手法は,修正マスクとテキストプロンプトを付与した3次元顔画像を忠実に生成する。 私たちのコードとモデルは公開されます。

Recently, 3D-aware face editing has witnessed remarkable progress. Although current approaches successfully perform mask-guided or text-based editing, these properties have not been combined into a single method. To address this limitation, we propose \textbf{MaTe3D}: mask-guided text-based 3D-aware portrait editing. First, we propose a new SDF-based 3D generator. To better perform masked-based editing (mainly happening in local areas), we propose SDF and density consistency losses, aiming to effectively model both the global and local representations jointly. Second, we introduce an inference-optimized method. We introduce two techniques based on the SDS (Score Distillation Sampling), including a blending SDS and a conditional SDS. The former aims to overcome the mismatch problem between geometry and appearance, ultimately harming fidelity. The conditional SDS contributes to further producing satisfactory and stable results. Additionally, we create CatMask-HQ dataset, a large-scale high-resolution cat face annotations. We perform experiments on both the FFHQ and CatMask-HQ datasets to demonstrate the effectiveness of the proposed method. Our method generates faithfully a edited 3D-aware face image given a modified mask and a text prompt. Our code and models will be publicly released.
翻訳日:2023-12-13 17:36:11 公開日:2023-12-12
# WaterHE-NeRF:水中環境復元のための水線トレーシングニューラルレーダ

WaterHE-NeRF: Water-ray Tracing Neural Radiance Fields for Underwater Scene Reconstruction ( http://arxiv.org/abs/2312.06946v1 )

ライセンス: Link先を確認
Jingchun Zhou and Tianyu Liang and Zongxin He and Dehuan Zhang and Weishi Zhang and Xianping Fu and Chongyi Li(参考訳) neural radiance field (nerf) 技術は、特に水中場面で有望な物理ベースのボリュームレンダリングプロセスにより、新しい視点合成タスクにおいて大きな可能性を証明している。 水媒体による光減衰対策における既存の水中NeRF手法の限界と実地真実(GT)監督の欠如に対処するため,本研究ではWaterHE-NeRFを提案する。 本研究では,3次元空間における色,密度,照度減衰を正確にエンコードするRetinex理論による新しい水線トレーシング場を開発する。 WaterHE-NeRFは、その輝度減衰機構を通じて、劣化した多視点画像とクリアな多視点画像の両方を生成し、再構成損失とワッサーシュタイン距離を組み合わせて画像復元を最適化する。 さらに、擬似GTとしてヒストグラム等化(HE)を用いることで、元の詳細と色分布を保存する際のネットワークの精度が向上する。 実際の水中データセットと合成データセットに関する広範な実験は、ウォーターヘナーフの有効性を検証する。 私たちのコードは公開されます。

Neural Radiance Field (NeRF) technology demonstrates immense potential in novel viewpoint synthesis tasks, due to its physics-based volumetric rendering process, which is particularly promising in underwater scenes. Addressing the limitations of existing underwater NeRF methods in handling light attenuation caused by the water medium and the lack of real Ground Truth (GT) supervision, this study proposes WaterHE-NeRF. We develop a new water-ray tracing field by Retinex theory that precisely encodes color, density, and illuminance attenuation in three-dimensional space. WaterHE-NeRF, through its illuminance attenuation mechanism, generates both degraded and clear multi-view images and optimizes image restoration by combining reconstruction loss with Wasserstein distance. Additionally, the use of histogram equalization (HE) as pseudo-GT enhances the network's accuracy in preserving original details and color distribution. Extensive experiments on real underwater datasets and synthetic datasets validate the effectiveness of WaterHE-NeRF. Our code will be made publicly available.
翻訳日:2023-12-13 17:35:53 公開日:2023-12-12
# エンタングルの代替特性といくつかの応用

Alternative Characterization of Entanglers and Some Applications ( http://arxiv.org/abs/2312.06944v1 )

ライセンス: Link先を確認
Isaac Dobes and Nathan Jing(参考訳) 本稿では,局所クビットゲートを随伴作用により特殊直交行列に変換するユニタリ行列であるエンタングルの代替的特徴付けについて述べる。 我々の代替キャラクタリゼーションは、様々な応用があることを示す「逆ドット積のアイデンティティ」と呼ばれる特性を起動する。 特に、逆ドット積の恒等式を用いて、基底行列が計算基底からベルジェム(ベル基底の提唱された一般化)への変化が絡み合っていることを証明し、また、逆ドット積の恒等式とn$-タングルとの密接な関係を明らかにし、これを用いて混合状態がスピン不変である場合の十分条件を与える。

In this paper we provide an alternative characterization of entanglers, which are unitary matries that transform local qubit gates into special orthogonal matrices via the adjoint action. Our alternative characterization invovles a property which we refer to as the "reverse dot product identity," which we show has various applications. In particular, we use the reverse dot product identity to prove that the change of basis matrix from the computational basis to the Bell gems (a proposed generaliztion of the Bell basis), are entanglers, and we also reveal a close connection between the reverse dot product identity to the $n$-tangle and use this to provide sufficient conditions for when a mixed state is spin-invariant.
翻訳日:2023-12-13 17:35:34 公開日:2023-12-12
# AIコントロール:意図的な転倒にもかかわらず安全性を改善する

AI Control: Improving Safety Despite Intentional Subversion ( http://arxiv.org/abs/2312.06942v1 )

ライセンス: Link先を確認
Ryan Greenblatt, Buck Shlegeris, Kshitij Sachan, Fabien Roger(参考訳) 大きな言語モデル(LLM)がより強力になり、より自律的にデプロイされるようになるにつれ、有害な結果を引き起こすのを防ぐことがますます重要になります。 研究者は、モデルを使用して他のモデルのアウトプットをレビューしたり、微妙な障害モードを表面化するための赤チーム技術など、この目的のために様々な安全技術を調査している。 しかし、研究者は、モデル自体が意図的にそれを覆そうとしている場合、そのような手法が安全を保っているかどうかを評価していない。 本稿では,意図的な転倒に対して堅牢な安全技術(プロトコール)のパイプラインを開発し,評価する。 我々は、強力だが信頼できないモデル(GPT-4)へのアクセス、信頼性の低いモデル(GPT-3.5)へのアクセス、高品質な信頼性のある労働力を提供する人間請負業者のアクセス制限など、一連のプログラミング問題の解決を望むシナリオについて検討する。 バックドアを含むソリューションを決して提出しないプロトコルについて検討し、ここではテストケースで捕捉されない論理的エラーとして運用する。 我々は、様々なプロトコルを調査し、信頼できないモデルがそれらを抑止するために使用できる戦略に対してそれぞれをテストする。 1つのプロトコルはtrusted editingと呼ばれるものです。 このプロトコルはまず GPT-4 にコードを書き、次に GPT-3.5 にコードの不審さを評価するよう要求する。 コードが疑わしいしきい値以下であれば、それを提出する。 そうでなければ、GPT-3.5は、不審と思われる部分を削除するためにソリューションを編集し、その後、編集されたコードを提出する。 もう一つのプロトコルは信頼できない監視である。 このプロトコルは GPT-4 にコードを書き、次に GPT-4 の別のインスタンスにコードがバックドアされているかどうかを尋ねる。 これらのプロトコルは、単純なベースラインで大幅に改善される。

As large language models (LLMs) become more powerful and are deployed more autonomously, it will be increasingly important to prevent them from causing harmful outcomes. Researchers have investigated a variety of safety techniques for this purpose, e.g. using models to review the outputs of other models, or red-teaming techniques to surface subtle failure modes. However, researchers have not evaluated whether such techniques still ensure safety if the model is itself intentionally trying to subvert them. In this paper, we develop and evaluate pipelines of safety techniques ("protocols") that are robust to intentional subversion. We investigate a scenario in which we want to solve a sequence of programming problems, using access to a powerful but untrusted model (in our case, GPT-4), access to a less powerful trusted model (in our case, GPT-3.5), and limited access to human contractors who provide high-quality trusted labor. We investigate protocols that aim to never submit solutions containing backdoors, which we operationalize here as logical errors that are not caught by test cases. We investigate a range of protocols and test each against strategies that the untrusted model could use to subvert them. One protocol is what we call trusted editing. This protocol first asks GPT-4 to write code, and then asks GPT-3.5 to rate the suspiciousness of that code. If the code is below some suspiciousness threshold, it is submitted. Otherwise, GPT-3.5 edits the solution to remove parts that seem suspicious and then submits the edited code. Another protocol is untrusted monitoring. This protocol asks GPT-4 to write code, and then asks another instance of GPT-4 whether the code is backdoored, using various techniques to prevent the GPT-4 instances from colluding. These protocols improve substantially on simple baselines.
翻訳日:2023-12-13 17:35:18 公開日:2023-12-12
# SAR自動目標認識のためのディープラーニング分類器のベンチマーク

Benchmarking Deep Learning Classifiers for SAR Automatic Target Recognition ( http://arxiv.org/abs/2312.06940v1 )

ライセンス: Link先を確認
Jacob Fein-Ashley, Tian Ye, Rajgopal Kannan, Viktor Prasanna, Carl Busart(参考訳) Synthetic Aperture Radar SAR Automatic Target Recognition ATR is a key technique of remote-sensing image recognition which can be supported by deep neural networks The existing works of SAR ATR mostly focus on improving the accuracy of the target recognition while ignoring the systems performance in terms of speed and storage which is critical to real-world applications of SAR ATR For decision-makers aiming to identify a proper deep learning model to deploy in a SAR ATR system it is important to understand the performance of different candidate deep learning models and determine the best model accordingly This paper comprehensively benchmarks several advanced deep learning models for SAR ATR with multiple distinct SAR imagery datasets Specifically we train and test five SAR image classifiers based on Residual Neural Networks ResNet18 ResNet34 ResNet50 Graph Neural Network GNN and Vision Transformer for Small-Sized Datasets (SS-ViT) We select three datasets MSTAR GBSAR and SynthWakeSAR that offer heterogeneity We evaluate and compare the five classifiers concerning their classification accuracy runtime performance in terms of inference throughput and analytical performance in terms of number of parameters number of layers model size and number of operations Experimental results show that the GNN classifier outperforms with respect to throughput and latency However it is also shown that no clear model winner emerges from all of our chosen metrics and a one model rules all case is doubtful in the domain of SAR ATR

Synthetic Aperture Radar SAR Automatic Target Recognition ATR is a key technique of remote-sensing image recognition which can be supported by deep neural networks The existing works of SAR ATR mostly focus on improving the accuracy of the target recognition while ignoring the systems performance in terms of speed and storage which is critical to real-world applications of SAR ATR For decision-makers aiming to identify a proper deep learning model to deploy in a SAR ATR system it is important to understand the performance of different candidate deep learning models and determine the best model accordingly This paper comprehensively benchmarks several advanced deep learning models for SAR ATR with multiple distinct SAR imagery datasets Specifically we train and test five SAR image classifiers based on Residual Neural Networks ResNet18 ResNet34 ResNet50 Graph Neural Network GNN and Vision Transformer for Small-Sized Datasets (SS-ViT) We select three datasets MSTAR GBSAR and SynthWakeSAR that offer heterogeneity We evaluate and compare the five classifiers concerning their classification accuracy runtime performance in terms of inference throughput and analytical performance in terms of number of parameters number of layers model size and number of operations Experimental results show that the GNN classifier outperforms with respect to throughput and latency However it is also shown that no clear model winner emerges from all of our chosen metrics and a one model rules all case is doubtful in the domain of SAR ATR
翻訳日:2023-12-13 17:34:48 公開日:2023-12-12
# 単一量子ビット量子メモリの視覚的定量化

Visually quantifying single-qubit quantum memory ( http://arxiv.org/abs/2312.06939v1 )

ライセンス: Link先を確認
Wan-Guan Chang, Chia-Yi Ju, Guang-Yin Chen, Yueh-Nan Chen, Huan-Yu Ku(参考訳) 量子情報を記憶するために、量子メモリはネットワーク内の中央中間成分となる。 信頼性のある量子メモリの最小基準は、エンタングル状態の維持であり、これは非エンタングルメント破壊(non-eb)チャネルによって記述できる。 本研究では、入力状態生成を信頼することなく、全ての単一量子ビットの量子メモリを量子化できることを示す。 言い換えれば、全ての単一量子ビット量子メモリを量子化する半デバイス非依存のアプローチを提供する。 具体的には、2量子の量子ステアリング楕円体の概念を1量子の量子チャネルに適用し、チャネル楕円体を定義する。 楕円体はブロッホ球面内の有限出力状態を可視化することで構成することができる。 チャネルのChoi-Jamio{\l}kowski状態はすべてチャネル楕円体の幾何学的データから再構成できるので、信頼できる量子メモリを検出することができる。 最後に、チャネル楕円体の体積を観測することにより、単一量子ビット量子メモリを視覚的に定量化する。

To store quantum information, quantum memory plays a central intermediate ingredient in a network. The minimal criterion for a reliable quantum memory is the maintenance of the entangled state, which can be described by the non-entanglement-breaking (non-EB) channel. In this work, we show that all single-qubit quantum memory can be quantified without trusting input state generation. In other words, we provide a semi-device-independent approach to quantify all single-qubit quantum memory. More specifically, we apply the concept of the two-qubit quantum steering ellipsoids to a single-qubit quantum channel and define the channel ellipsoids. An ellipsoid can be constructed by visualizing finite output states within the Bloch sphere. Since the Choi-Jamio{\l}kowski state of a channel can all be reconstructed from geometric data of the channel ellipsoid, a reliable quantum memory can be detected. Finally, we visually quantify the single-qubit quantum memory by observing the volume of the channel ellipsoid.
翻訳日:2023-12-13 17:34:27 公開日:2023-12-12
# 変換器はカルマンフィルタを表現できるか?

Can a Transformer Represent a Kalman Filter? ( http://arxiv.org/abs/2312.06937v1 )

ライセンス: Link先を確認
Gautam Goel, Peter Bartlett(参考訳) Transformersは、さまざまなビジョン、言語、ロボット工学タスクで最先端のパフォーマンスを達成した、自己回帰的なディープラーニングアーキテクチャのクラスである。 線形力学系におけるカルマンフィルタの問題を再検討し、変換器がカルマンフィルタを強い意味で近似できることを示す。 具体的には、任意の観測可能なltiシステムに対して、カルマンフィルタを実装した明示的な因果的変換器を構築し、時間的に一様に境界付けられた小さな加算誤差まで構成する。 我々の建設は2段階の削減に基づいている。 まず,ソフトマックス自着ブロックがガウス核の平滑化推定器を正確に表現できることを示す。 次に、この推定器がカルマンフィルタに近似していることを示す。 また, トランスフィルタを計測・フィードバック制御に利用し, 得られた非線形コントローラがlqgコントローラなどの標準最適制御ポリシの性能に密接に近似していることを証明する。

Transformers are a class of autoregressive deep learning architectures which have recently achieved state-of-the-art performance in various vision, language, and robotics tasks. We revisit the problem of Kalman Filtering in linear dynamical systems and show that Transformers can approximate the Kalman Filter in a strong sense. Specifically, for any observable LTI system we construct an explicit causally-masked Transformer which implements the Kalman Filter, up to a small additive error which is bounded uniformly in time; we call our construction the Transformer Filter. Our construction is based on a two-step reduction. We first show that a softmax self-attention block can exactly represent a certain Gaussian kernel smoothing estimator. We then show that this estimator closely approximates the Kalman Filter. We also investigate how the Transformer Filter can be used for measurement-feedback control and prove that the resulting nonlinear controllers closely approximate the performance of standard optimal control policies such as the LQG controller.
翻訳日:2023-12-13 17:34:12 公開日:2023-12-12
# テキスト操作検出に向けて:新しいデータセットと新しい解法

Toward Real Text Manipulation Detection: New Dataset and New Solution ( http://arxiv.org/abs/2312.06934v1 )

ライセンス: Link先を確認
Dongliang Luo, Yuliang Liu, Rui Yang, Xianjin Liu, Jishen Zeng, Yu Zhou, Xiang Bai(参考訳) 写実的なテキスト改ざんが急増し、画像中の不正なテキストの検出が情報セキュリティの維持に寄与している。 しかし、プロのテキスト操作とアノテーションに関連する高いコストは、実世界のデータセットの可用性を制限し、ほとんどは合成改ざんに依存しており、実世界の改ざん属性を不適切に複製している。 この問題に対処するために,手動で5,986枚と5,258枚の自動改ざん画像を含む14,250枚のテキスト画像を含むReal Text Manipulation (RTM)データセットと,ソリューション安定性を評価するための3,006個の未修正テキスト画像を提案する。 評価の結果,rtmデータセット上でのテキスト偽造検出では既存の手法が乱れていることがわかった。 本稿では,マルチモーダル情報融合のための,一貫性を考慮したアグリゲーションハブとGated Cross Neighborhood-attention Fusionモジュールを備えたロバストなベースラインソリューションを提案し,トレーニング中にTampered-Authentic Contrastive Learningモジュールを補足し,特徴表現の区別を強化した。 このフレームワークは、他のデュアルストリームアーキテクチャに拡張可能で、それぞれ手動と全体的な操作で7.33%と6.38%の顕著なローカライゼーション性能向上を示した。 我々の貢献は、実世界のテキスト改ざん検出の進歩を促進することを目的としている。 コードとデータセットはhttps://github.com/DrLuo/RTMで公開される。

With the surge in realistic text tampering, detecting fraudulent text in images has gained prominence for maintaining information security. However, the high costs associated with professional text manipulation and annotation limit the availability of real-world datasets, with most relying on synthetic tampering, which inadequately replicates real-world tampering attributes. To address this issue, we present the Real Text Manipulation (RTM) dataset, encompassing 14,250 text images, which include 5,986 manually and 5,258 automatically tampered images, created using a variety of techniques, alongside 3,006 unaltered text images for evaluating solution stability. Our evaluations indicate that existing methods falter in text forgery detection on the RTM dataset. We propose a robust baseline solution featuring a Consistency-aware Aggregation Hub and a Gated Cross Neighborhood-attention Fusion module for efficient multi-modal information fusion, supplemented by a Tampered-Authentic Contrastive Learning module during training, enriching feature representation distinction. This framework, extendable to other dual-stream architectures, demonstrated notable localization performance improvements of 7.33% and 6.38% on manual and overall manipulations, respectively. Our contributions aim to propel advancements in real-world text tampering detection. Code and dataset will be made available at https://github.com/DrLuo/RTM
翻訳日:2023-12-13 17:33:54 公開日:2023-12-12
# 時系列データのロバスト表現学習のための予測変分オートエンコーダ

Predictive variational autoencoder for learning robust representations of time-series data ( http://arxiv.org/abs/2312.06932v1 )

ライセンス: Link先を確認
Julia Huiming Wang (1), Dexter Tsin (2), Tatiana Engel (2) ((1) Cold Spring Harbor School of Biological Sciences, (2) Princeton Neuroscience Institute)(参考訳) 変異オートエンコーダ(VAE)は、神経活動と動物の行動を管理する低次元潜在因子を発見するために広く用いられている。 しかし、注意深いモデル選択がなければ、未発見の潜在因子は真の基礎となる特徴よりもデータのノイズを反映し、そのような表現は科学的解釈には適さない。 この問題に対する既存のソリューションには、特定のデータタイプに特有の追加の測定変数やデータ拡張が導入されている。 我々は,次の時点を予測するvaeアーキテクチャを提案し,スプリアス特徴の学習を緩和することを示す。 さらに,潜在空間における時間経過の滑らかさに基づくモデル選択指標を提案する。 これら2つのvaes上の制約を合わせて,時間とともに滑らかになるようにして,頑健な潜在表現を生成し,合成データセット上の潜在因子を忠実に回復することを示す。

Variational autoencoders (VAEs) have been used extensively to discover low-dimensional latent factors governing neural activity and animal behavior. However, without careful model selection, the uncovered latent factors may reflect noise in the data rather than true underlying features, rendering such representations unsuitable for scientific interpretation. Existing solutions to this problem involve introducing additional measured variables or data augmentations specific to a particular data type. We propose a VAE architecture that predicts the next point in time and show that it mitigates the learning of spurious features. In addition, we introduce a model selection metric based on smoothness over time in the latent space. We show that together these two constraints on VAEs to be smooth over time produce robust latent representations and faithfully recover latent factors on synthetic datasets.
翻訳日:2023-12-13 17:33:28 公開日:2023-12-12
# 事前学習モデルの精密調整のための動的補正自己蒸留法

Dynamic Corrective Self-Distillation for Better Fine-Tuning of Pretrained Models ( http://arxiv.org/abs/2312.07028v1 )

ライセンス: Link先を確認
Ibtihel Amara, Vinija Jain, and Aman Chadha(参考訳) 我々は,ラベル付き下流データを含む事前学習言語モデル(plm)の転送学習過程において遭遇する積極的な微調整の問題に取り組む。 この問題は、主にその後のタスクでパフォーマンスが低下する結果となる。 従来の機械学習における適応的強化法に着想を得て,PLMの微調整を改善するために有効な動的補正自己蒸留法を提案する。 本手法では,各イテレーションにおいて,各データポイントに割り当てられた重みを動的に調整することにより,学生モデルが積極的に適応し,自己補正を行う自己蒸留機構を実行する。 この反復的自己補正プロセスは、PLMの全体的な微調整能力を大幅に向上させ、性能と堅牢性を向上させる。 本手法の有効性をGLUEベンチマークを用いて総合評価し,様々な下流タスクにおけるPLMの微調整プロセスの強化について検証した。

We tackle the challenging issue of aggressive fine-tuning encountered during the process of transfer learning of pre-trained language models (PLMs) with limited labeled downstream data. This problem primarily results in a decline in performance on the subsequent task. Inspired by the adaptive boosting method in traditional machine learning, we present an effective dynamic corrective self-distillation (DCS) approach to improve the fine-tuning of the PLMs. Our technique involves performing a self-distillation mechanism where, at each iteration, the student model actively adapts and corrects itself by dynamically adjusting the weights assigned to individual data points. This iterative self-correcting process significantly enhances the overall fine-tuning capability of PLMs, leading to improved performance and robustness. We conducted comprehensive evaluations using the GLUE benchmark demonstrating the efficacy of our method in enhancing the fine-tuning process for various PLMs across diverse downstream tasks.
翻訳日:2023-12-13 17:27:53 公開日:2023-12-12
# トポロジー最適化における物理情報ニューラルネットワークの動的構成

Dynamically configured physics-informed neural network in topology optimization applications ( http://arxiv.org/abs/2312.06993v1 )

ライセンス: Link先を確認
Jichao Yin and Ziming Wen and Shuhao Li and Yaya Zhanga and Hu Wang(参考訳) トポロジ最適化(TO)フレームワークへの機械学習(ML)の統合が注目されているが、データ駆動モデルにおけるデータ取得は禁止されている。 一般的なML手法と比較して、物理インフォームドニューラルネットワーク(PINN)は、前方の問題を解決する際に大量のデータを生成することを避け、さらに推論を改善することができる。 この目的のために動的に構成されたpinn-based topology optimization (dcpinn-to)法を提案する。 dcpinnは、バックボーンニューラルネットワーク(nn)と係数nnという2つのサブネットワークで構成されており、係数nnは、学習可能なパラメータが少ない。 設計されたアーキテクチャは、トレーニング可能なパラメータを動的に設定することを目的としている。 さらに,各最適化サイクルにおける擬似密度に応じてコロケーションを選択的にサンプリングするアクティブサンプリング戦略を提案する。 このようにして、最適化プロセスによってコロケーションの数は減少するが、ほとんど影響しない。 ガウス積分は元素のひずみエネルギーを計算するために使われ、コロケーションにおける物質のマッピングを分離する副産物となる。 分解能の異なるいくつかの例はDCPINN-TO法の有効性を検証し、その一般化を説明するためにマルチロードおよびマルチ制約問題を用いる。 また, (fea-to) に基づく有限要素解析と比較して, 変位予測と最適化結果の精度は, dcpinn-to法が効率的かつ効率的であることを示す。

Integration of machine learning (ML) into the topology optimization (TO) framework is attracting increasing attention, but data acquisition in data-driven models is prohibitive. Compared with popular ML methods, the physics-informed neural network (PINN) can avoid generating enormous amounts of data when solving forward problems and additionally provide better inference. To this end, a dynamically configured PINN-based topology optimization (DCPINN-TO) method is proposed. The DCPINN is composed of two subnetworks, namely the backbone neural network (NN) and the coefficient NN, where the coefficient NN has fewer trainable parameters. The designed architecture aims to dynamically configure trainable parameters; that is, an inexpensive NN is used to replace an expensive one at certain optimization cycles. Furthermore, an active sampling strategy is proposed to selectively sample collocations depending on the pseudo-densities at each optimization cycle. In this manner, the number of collocations will decrease with the optimization process but will hardly affect it. The Gaussian integral is used to calculate the strain energy of elements, which yields a byproduct of decoupling the mapping of the material at the collocations. Several examples with different resolutions validate the feasibility of the DCPINN-TO method, and multiload and multiconstraint problems are employed to illustrate its generalization. In addition, compared to finite element analysis-based TO (FEA-TO), the accuracy of the displacement prediction and optimization results indicate that the DCPINN-TO method is effective and efficient.
翻訳日:2023-12-13 17:27:39 公開日:2023-12-12
# ループ攻撃:グラフベースのループクロージャ検出に対する逆攻撃

Attacking the Loop: Adversarial Attacks on Graph-based Loop Closure Detection ( http://arxiv.org/abs/2312.06991v1 )

ライセンス: Link先を確認
Jonathan J.Y. Kim, Martin Urschler, Patricia J. Riddle and Jorg S. Wicker(参考訳) ロボット工学の進歩に伴い、大規模工場や倉庫では、人間のすぐ隣で動く視覚SLAM(vSLAM)を有効にした自動化ロボットを組み込むことがますます一般的になっている。 これにより、vSLAMコンポーネントに対する敵対的な攻撃は、それと共に働く人間に有害である可能性がある。 ループクロージャ検出(LCD)は、小さなドリフトであっても時間とともに大きなドリフトに蓄積できるため、マッピングにおけるドリフトの蓄積を最小限にするvSLAMの重要な構成要素である。 Kimらによる以前の研究、SymbioLCD2は、ループクロージャ候補を見つけるための単一のグラフ構造に視覚的特徴とセマンティックオブジェクトを統合する。 これにより、視覚的特徴ベースのLCDよりもパフォーマンスが向上する一方で、グラフベースの敵対攻撃に対する単一の脆弱性も生んだ。 以前報告されたvisual-patchベースの攻撃とは異なり、小さなグラフの摂動は検出がはるかに難しく、より重大な脅威となる。 本稿では,固有分散性に基づく摂動法とWeisfeiler-Lehman特徴抽出器を用いたSVM-RBFサロゲートモデルを用いた新しいブラックボックス回避攻撃フレームワークであるAdversarial-LCDを提案する。 SVM-RBFサロゲートモデルを用いたAdversarial-LCDの攻撃性能は,SVM-linear,SVM-polynomial,Bayesianなどの他の機械学習サロゲートアルゴリズムよりも優れており,攻撃フレームワークの有効性が示された。 さらに,我々の固有分散性に基づく摂動法はランダムウォークやショートストパスなどの他のアルゴリズムよりも優れており,逆LCDの摂動選択法の効率性を強調している。

With the advancement in robotics, it is becoming increasingly common for large factories and warehouses to incorporate visual SLAM (vSLAM) enabled automated robots that operate closely next to humans. This makes any adversarial attacks on vSLAM components potentially detrimental to humans working alongside them. Loop Closure Detection (LCD) is a crucial component in vSLAM that minimizes the accumulation of drift in mapping, since even a small drift can accumulate into a significant drift over time. A prior work by Kim et al., SymbioLCD2, unified visual features and semantic objects into a single graph structure for finding loop closure candidates. While this provided a performance improvement over visual feature-based LCD, it also created a single point of vulnerability for potential graph-based adversarial attacks. Unlike previously reported visual-patch based attacks, small graph perturbations are far more challenging to detect, making them a more significant threat. In this paper, we present Adversarial-LCD, a novel black-box evasion attack framework that employs an eigencentrality-based perturbation method and an SVM-RBF surrogate model with a Weisfeiler-Lehman feature extractor for attacking graph-based LCD. Our evaluation shows that the attack performance of Adversarial-LCD with the SVM-RBF surrogate model was superior to that of other machine learning surrogate algorithms, including SVM-linear, SVM-polynomial, and Bayesian classifier, demonstrating the effectiveness of our attack framework. Furthermore, we show that our eigencentrality-based perturbation method outperforms other algorithms, such as Random-walk and Shortest-path, highlighting the efficiency of Adversarial-LCD's perturbation selection method.
翻訳日:2023-12-13 17:27:14 公開日:2023-12-12
# AIによる山火事防止・検知・抑制システム

AI-based Wildfire Prevention, Detection and Suppression System ( http://arxiv.org/abs/2312.06990v1 )

ライセンス: Link先を確認
Prisha Shroff(参考訳) 森林火災は世界の環境に深刻な脅威をもたらす。 世界の森林火災の期間は19%増加し、世界中で激しい森林火災が発生している。 毎年森林は山火事で焼かれ、大量の二酸化炭素が大気中に放出され、気候変動に寄与する。 野火を防ぎ、検知し、抑制するシステムが必要である。 AIベースのWildfire Prevention, Detection and Suppression System(WPDSS)は、ホットスポットを効果的に予測し、山火事を検出し、防火剤を噴霧するドローンを配備し、山火事を予防し、抑制する、新しい、完全に自動化されたエンドツーエンドのAIベースのソリューションである。 WPDSSは4つのステップからなる。 1. 事前処理:NASAのリアルタイム衛星データとNOAAの気象データ、気温、降水量、風、土壌水分、および予防のための土地被覆量をロードする。 検出のために、土地被覆、湿度、温度、植生、燃やされた地域指数、オゾン、co2のリアルタイムデータをロードする。 マスキングのプロセスを使ってホットスポットを排除したり、水域や雨などの野火を排除したりしない。 2. 学習: AIモデルはランダムな森林分類器で構成されており、ホットスポットと山火事のラベル付きデータセットを使用してトレーニングされる。 3. ホットスポットとワイルドファイアの識別: wpdsはモデルを通じてリアルタイムデータを実行し、自動的にホットスポットとワイルドファイアを識別する。 4. ドローンの展開: ドローンは特定されたホットスポットまたはワイルドファイアの場所まで飛ぶ。 wpdssは98.6%の精度でホットスポットを識別でき、98.7%の精度で野火を検知できた。 WPDSSは気候変動の影響を減らし、生態系や生物多様性を保護し、経済的損失を回避し、人命を救う。 WPDSSの力は世界中のあらゆる場所に応用でき、山火事を防ぎ抑制し、気候変動を抑えることができる。

Wildfires pose a serious threat to the environment of the world. The global wildfire season length has increased by 19% and severe wildfires have besieged nations around the world. Every year, forests are burned by wildfires, causing vast amounts of carbon dioxide to be released into the atmosphere, contributing to climate change. There is a need for a system which prevents, detects, and suppresses wildfires. The AI based Wildfire Prevention, Detection and Suppression System (WPDSS) is a novel, fully automated, end to end, AI based solution to effectively predict hotspots and detect wildfires, deploy drones to spray fire retardant, preventing and suppressing wildfires. WPDSS consists of four steps. 1. Preprocessing: WPDSS loads real time satellite data from NASA and meteorological data from NOAA of vegetation, temperature, precipitation, wind, soil moisture, and land cover for prevention. For detection, it loads the real time data of Land Cover, Humidity, Temperature, Vegetation, Burned Area Index, Ozone, and CO2. It uses the process of masking to eliminate not hotspots and not wildfires such as water bodies, and rainfall. 2. Learning: The AI model consists of a random forest classifier, which is trained using a labeled dataset of hotspots and wildfires and not hotspots and not wildfires. 3. Identification of hotspots and wildfires: WPDSS runs the real time data through the model to automatically identify hotspots and wildfires. 4. Drone deployment: The drone flies to the identified hotspot or wildfire location. WPDSS attained a 98.6% accuracy in identifying hotspots and a 98.7% accuracy in detecting wildfires. WPDSS will reduce the impacts of climate change, protect ecosystems and biodiversity, avert huge economic losses, and save human lives. The power of WPDSS developed can be applied to any location globally to prevent and suppress wildfires, reducing climate change.
翻訳日:2023-12-13 17:26:44 公開日:2023-12-12
# MWSIS: 自律運転のための2Dボックスアノテーション付きマルチモーダル弱修正インスタンスセグメンテーション

MWSIS: Multimodal Weakly Supervised Instance Segmentation with 2D Box Annotations for Autonomous Driving ( http://arxiv.org/abs/2312.06988v1 )

ライセンス: Link先を確認
Guangfeng Jiang, Jun Liu, Yuzhi Wu, Wenlong Liao, Tao He, Pai Peng(参考訳) インスタンス分割はコンピュータビジョン、特に自動運転における基本的な研究である。 しかし、インスタンスセグメンテーションのための手動マスクアノテーションはかなり時間がかかり、コストがかかる。 この問題に対処するために、いくつかの先行研究は2dまたは3dボックスを探索することで、弱い監督の方法を適用しようとする。 しかし、誰も2Dボックスアノテーションだけで2Dと3Dのインスタンスを同時に分割することに成功していないため、アノテーションのコストは桁違いに削減できる。 そこで,本稿では,mwsis(multimodal weakly supervised instance segmentation)と呼ばれる新しいフレームワークを提案する。このフレームワークは,疑似ラベルの品質を向上させるために,様々な細粒度ラベル生成および修正モジュールを2dおよび3dモダリティの両方に組み込んで,一貫性スパースクロスモーダル監督(consistency sparse cross-modal supervisor, cscs)という新しい手法とともに,応答蒸留によるマルチモーダル予測の不一致を低減する。 特に、3dバックボーンを下流タスクに移すと、3d検出器の性能が向上するだけでなく、5%の完全教師付きアノテーションで完全に教師付きインスタンスセグメンテーションを上回ってしまう。 Waymoデータセットでは、提案されたフレームワークがベースラインを大幅に改善し、特に2Dと3Dのインスタンスセグメンテーションタスクで2.59%のmAPと12.75%のmAPを達成した。 コードはhttps://github.com/jiangxb98/mwsis-pluginで入手できる。

Instance segmentation is a fundamental research in computer vision, especially in autonomous driving. However, manual mask annotation for instance segmentation is quite time-consuming and costly. To address this problem, some prior works attempt to apply weakly supervised manner by exploring 2D or 3D boxes. However, no one has ever successfully segmented 2D and 3D instances simultaneously by only using 2D box annotations, which could further reduce the annotation cost by an order of magnitude. Thus, we propose a novel framework called Multimodal Weakly Supervised Instance Segmentation (MWSIS), which incorporates various fine-grained label generation and correction modules for both 2D and 3D modalities to improve the quality of pseudo labels, along with a new multimodal cross-supervision approach, named Consistency Sparse Cross-modal Supervision (CSCS), to reduce the inconsistency of multimodal predictions by response distillation. Particularly, transferring the 3D backbone to downstream tasks not only improves the performance of the 3D detectors, but also outperforms fully supervised instance segmentation with only 5% fully supervised annotations. On the Waymo dataset, the proposed framework demonstrates significant improvements over the baseline, especially achieving 2.59% mAP and 12.75% mAP increases for 2D and 3D instance segmentation tasks, respectively. The code is available at https://github.com/jiangxb98/mwsis-plugin.
翻訳日:2023-12-13 17:26:10 公開日:2023-12-12
# 要件アーティファクトからの因果関係の自動抽出

Automatic extraction of cause-effect-relations from requirements artifacts ( http://arxiv.org/abs/2312.06986v1 )

ライセンス: Link先を確認
Julian Frattini, Maximilian Junker, Michael Unterkalmsteiner, Daniel Mendez(参考訳) 背景:自然言語文からの因果関係の検出と抽出は,様々な応用分野において大きな可能性を示している。 要件工学の分野は、(1)要件アーティファクトは主に自然言語で書かれ、(2)因果文は要件の主題に関する本質的な文脈を伝達し、(3)抽出され、形式化された因果関係は、テストケースのようなさらなるアーティファクトへの(半)自動翻訳に利用可能である。 目的:要求工学の文脈における構文的基準に基づく対話的因果関係抽出の価値を理解することを目的とする。 方法: 自動的因果関係抽出システムのプロトタイプを開発し, 自動抽出が要求形式化の手動作業を減らすかどうかを判定し, 利用可能な要求成果物の集合に適用することで評価を行った。 結果:18の要件文書から4457の自然言語文を分析し,その内558が因果性(12.52%)であった。 要求文書の最良の評価は、平均して48.57%の因果効果グラフを自動抽出することであり、このアプローチの実現可能性を示している。 限界: このアプローチの実現性は理論上は証明されているが、実用のためにスケールアップされる可能性の探求が欠如している。 要件エンジニアに対する自動因果関係抽出の適用性の評価は,今後の研究に残されている。 結論: 要件工学のコンテキストでは因果関係抽出の構文的アプローチが有効であり、要件アーティファクトからさらなるアーティファクトの自動生成に向けてパイプラインを支援することができる。

Background: The detection and extraction of causality from natural language sentences have shown great potential in various fields of application. The field of requirements engineering is eligible for multiple reasons: (1) requirements artifacts are primarily written in natural language, (2) causal sentences convey essential context about the subject of requirements, and (3) extracted and formalized causality relations are usable for a (semi-)automatic translation into further artifacts, such as test cases. Objective: We aim at understanding the value of interactive causality extraction based on syntactic criteria for the context of requirements engineering. Method: We developed a prototype of a system for automatic causality extraction and evaluate it by applying it to a set of publicly available requirements artifacts, determining whether the automatic extraction reduces the manual effort of requirements formalization. Result: During the evaluation we analyzed 4457 natural language sentences from 18 requirements documents, 558 of which were causal (12.52%). The best evaluation of a requirements document provided an automatic extraction of 48.57% cause-effect graphs on average, which demonstrates the feasibility of the approach. Limitation: The feasibility of the approach has been proven in theory but lacks exploration of being scaled up for practical use. Evaluating the applicability of the automatic causality extraction for a requirements engineer is left for future research. Conclusion: A syntactic approach for causality extraction is viable for the context of requirements engineering and can aid a pipeline towards an automatic generation of further artifacts from requirements artifacts.
翻訳日:2023-12-13 17:25:40 公開日:2023-12-12
# 2つのJaynes-Cummings空洞のコヒーレント制御

Coherent control of two Jaynes-Cummings cavities ( http://arxiv.org/abs/2312.06984v1 )

ライセンス: Link先を確認
L. O. Casta\~nos-Cervantes, Lorenzo M. Procopio and Marco Enr\'iquez(参考訳) 本研究では,コヒーレント重ね合わせにおける2つの空洞の1つと相互作用する2レベル原子の研究の新たな特徴を明らかにする。 ジェームズ・カンミングス模型は、原子-場相互作用を記述し、そのような相互作用に対する量子不定値の影響を研究するために用いられる。 両キャビティのコヒーレントな制御は,従来の方法では達成不可能な要求に対する原子動力学の新たな操作を可能にすることを示す。 さらに、原子のコヒーレント制御は、ベル状またはシュル・オーディンガー・キャット様の状態形を取る空洞場の非常に絡み合った状態を生成することが示されている。 その結果、量子系をコヒーレント制御で理解し、活用し、量子不確定性を利用した原子-場相互作用の研究に新たな研究道を開くことができた。

In this work, we uncover new features on the study of a two-level atom interacting with one of two cavities in a coherent superposition. The James-Cummings model is used to describe the atom-field interaction and to study the effects of quantum indefiniteness on such an interaction. We show that coherent control of the two cavities in an undefined manner allows novel possibilities to manipulate the atomic dynamics on demand which are not achievable in the conventional way. In addition, it is shown that the coherent control of the atom creates highly entangled states of the cavity fields taking a Bell-like or Schr\"odinger-cat-like state form. Our results are a step forward to understand and harness quantum systems in a coherent control, and open a new research avenue in the study of atom-field interaction exploiting quantum indefiniteness.
翻訳日:2023-12-13 17:25:11 公開日:2023-12-12
# 合成cxr画像におけるバイアスレンズからの幻覚の概念と妥当性について

On the notion of Hallucinations from the lens of Bias and Validity in Synthetic CXR Images ( http://arxiv.org/abs/2312.06979v1 )

ライセンス: Link先を確認
Gauri Bhardwaj, Yuvaraj Govindarajulu, Sundaraparipurnan Narayanan, Pavan Kulkarni, Manojkumar Parmar(参考訳) 医療画像は病気の診断に革命をもたらしたが、多様なプライバシーを意識したデータセットへのアクセスが限られている。 オープンソースの医療データセットは価値はあるものの、データ品質と臨床情報格差に悩まされている。 拡散モデルのような生成モデルはこれらの課題を軽減することを目的としている。 スタンフォード大学の研究者たちは、医療画像データ拡張のための微調整された安定拡散モデル(RoentGen)の有用性を探求した。 本研究は,スタンフォード大学の研究課題を拡大するための具体的考察を考察し,安定拡散は医用画像データのギャップを解消できるのか? バイアスのレンズと 生成された結果の妥当性から 我々はRoentGenを利用してChest-XRay(CXR)画像を生成し、バイアス、妥当性、幻覚の評価を行った。 診断精度は病状分類器で評価し, 病状分類器では潜伏性幻覚が確認された。 バイアス分析の結果,雌ヒスパニック亜群に明らかな影響を及ぼした様々な亜群間での分類性能の差が認められた。 さらに、人種や性別を入力に組み込むことで、生成された画像の公平性の問題が悪化する。 合成画像のクオリティは変動性を示し,特に特定の病クラスにおいて,原画像と比較して不確かさが顕著であった。 さらに, 潜伏幻覚を観察し, 画像の約42%が誤って新型コロナウイルスを示唆し, 幻覚要素の存在を示唆した。 これらの同定はCXR画像の解釈可能性に関する新たな研究の方向性を提供し、医療応用におけるリスクと患者の安全性のさらなる理解を提供する。

Medical imaging has revolutionized disease diagnosis, yet the potential is hampered by limited access to diverse and privacy-conscious datasets. Open-source medical datasets, while valuable, suffer from data quality and clinical information disparities. Generative models, such as diffusion models, aim to mitigate these challenges. At Stanford, researchers explored the utility of a fine-tuned Stable Diffusion model (RoentGen) for medical imaging data augmentation. Our work examines specific considerations to expand the Stanford research question, Could Stable Diffusion Solve a Gap in Medical Imaging Data? from the lens of bias and validity of the generated outcomes. We leveraged RoentGen to produce synthetic Chest-XRay (CXR) images and conducted assessments on bias, validity, and hallucinations. Diagnostic accuracy was evaluated by a disease classifier, while a COVID classifier uncovered latent hallucinations. The bias analysis unveiled disparities in classification performance among various subgroups, with a pronounced impact on the Female Hispanic subgroup. Furthermore, incorporating race and gender into input prompts exacerbated fairness issues in the generated images. The quality of synthetic images exhibited variability, particularly in certain disease classes, where there was more significant uncertainty compared to the original images. Additionally, we observed latent hallucinations, with approximately 42% of the images incorrectly indicating COVID, hinting at the presence of hallucinatory elements. These identifications provide new research directions towards interpretability of synthetic CXR images, for further understanding of associated risks and patient safety in medical applications.
翻訳日:2023-12-13 17:24:56 公開日:2023-12-12
# classmix:適応染色分離に基づく擬似ラベル付きコントラスト学習による病理組織像分類

CLASSMix: Adaptive stain separation-based contrastive learning with pseudo labeling for histopathological image classification ( http://arxiv.org/abs/2312.06978v1 )

ライセンス: Link先を確認
Bodong Zhang, Hamid Manoochehri, Man Minh Ho, Fahimeh Fooladgar, Yosep Chong, Beatrice S. Knudsen, Deepika Sirohi, Tolga Tasdizen(参考訳) 病理組織学的画像分類は医用画像解析における重要な側面の一つである。 モデルトレーニングにおけるラベル付きデータに関連するコストが高いため、広範囲にラベル付きデータセットの必要性を軽減するために、半教師付き学習手法が提案されている。 本研究では,デジタル病理組織学的ヘマトキシリンおよびエオシン(H&E)画像に基づく半教師付き分類タスクのモデルを提案する。 我々は、新しいモデルContrastive Learning with Adaptive Stain Separation and MixUp (CLASSMix) と呼ぶ。 本モデルは,分離したヘマトキシリン画像とエオシン画像の対比学習と,mixupを用いた擬似ラベリングの2つの主成分からなる。 当院のclear cell renal cell carcinoma (ccrcc) データセットと癌ゲノムアトラスプログラム (tcga) の他モデルとの比較を行った。 CLASSMixモデルが両方のデータセットで最高のパフォーマンスを示す。 モデルにおけるさまざまな部分の貢献も分析されます。

Histopathological image classification is one of the critical aspects in medical image analysis. Due to the high expense associated with the labeled data in model training, semi-supervised learning methods have been proposed to alleviate the need of extensively labeled datasets. In this work, we propose a model for semi-supervised classification tasks on digital histopathological Hematoxylin and Eosin (H&E) images. We call the new model Contrastive Learning with Adaptive Stain Separation and MixUp (CLASSMix). Our model is formed by two main parts: contrastive learning between adaptively stain separated Hematoxylin images and Eosin images, and pseudo labeling using MixUp. We compare our model with other state-of-the-art models on clear cell renal cell carcinoma (ccRCC) datasets from our institution and The Cancer Genome Atlas Program (TCGA). We demonstrate that our CLASSMix model has the best performance on both datasets. The contributions of different parts in our model are also analyzed.
翻訳日:2023-12-13 17:24:32 公開日:2023-12-12
# 量子計算モーメントからの任意基底状態観測

Arbitrary Ground State Observables from Quantum Computed Moments ( http://arxiv.org/abs/2312.06975v1 )

ライセンス: Link先を確認
Harish J. Vallury and Lloyd C. L. Hollenberg(参考訳) 量子系の基底状態特性の決定は物理学と化学の基本的な問題であり、量子コンピュータの重要な応用と考えられている。 一般的なアプローチは、量子コンピュータ上で試行的な基底状態を作成し、エネルギーなどの可観測性を測定することであるが、ターゲットの基底状態を正確に記述できないハードウェアの制約によって制限されることが多い。 量子計算モーメント(QCM)法は、準最適またはノイズのある試行状態に関するハミルトンモーメントを計算することにより、システムの基底状態エネルギーを推定するのに極めて有用であることが証明されている。 本稿では,量子システムの任意の基底状態観測可能量を推定するためにqcm法を拡張する。 本稿では, ハイゼンベルク模型の基底状態の磁化とスピンスピン相関をQCMを用いて決定するための予備的な結果を示す。 本研究は,サブオプティカルトライアル状態とノイズの処理におけるqcmの既定の利点を検証し,より一般的な基底状態特性の推定への適用性を拡張し,近い将来の量子ハードウェア上での幅広い問題を解決するための実用的可能性を示す。

The determination of ground state properties of quantum systems is a fundamental problem in physics and chemistry, and is considered a key application of quantum computers. A common approach is to prepare a trial ground state on the quantum computer and measure observables such as energy, but this is often limited by hardware constraints that prevent an accurate description of the target ground state. The quantum computed moments (QCM) method has proven to be remarkably useful in estimating the ground state energy of a system by computing Hamiltonian moments with respect to a suboptimal or noisy trial state. In this paper, we extend the QCM method to estimate arbitrary ground state observables of quantum systems. We present preliminary results of using QCM to determine the ground state magnetisation and spin-spin correlations of the Heisenberg model in its various forms. Our findings validate the well-established advantage of QCM over existing methods in handling suboptimal trial states and noise, extend its applicability to the estimation of more general ground state properties, and demonstrate its practical potential for solving a wide range of problems on near-term quantum hardware.
翻訳日:2023-12-13 17:24:16 公開日:2023-12-12
# SM70:医療機器のための大規模言語モデル

SM70: A Large Language Model for Medical Devices ( http://arxiv.org/abs/2312.06974v1 )

ライセンス: Link先を確認
Anubhav Bhatti, Surajsinh Parmar, San Lee(参考訳) これは70億パラメータの大型言語モデルで、"jee1"(g1と発音される)というブランド名でspassmedの医療機器用に特別に設計されたものです。 この大きな言語モデルは、医療ドメインの質問に対してより正確で安全な応答を提供する。 SM70を微調整するために、公開データセットMedAlpacaから約800Kのデータエントリを使用しました。 Llama2 70BのオープンソースモデルはSM70の基礎となり、我々はQLoRA技術を用いて微調整を行った。 評価は、3つのベンチマークデータセット(usmle、pubmedqa、usmle)で行われ、それぞれが医療知識と推論のユニークな側面を表している。 sm70の性能はllama2 70b, clinical camel 70 (cc70), gpt 3.5, gpt 4, med-palmなど他の著名なllmと対比され、医療領域における機能の比較理解を提供する。 以上の結果から,SM70 は PubMed から抽出した事実に基づく質問から,複雑な臨床的意思決定シナリオまで,様々な医学的クエリの処理能力に優れていたことが示唆された。 特にUSMLEおよびPUBMEDQAデータセットにおけるSM70の堅牢な性能は、臨床決定支援と医療情報検索に有効なツールとしての可能性を示している。 有望な結果にもかかわらず, SM70 が GPT 4 より遅れている領域も認識しており, 特に広範囲な医学的知識と複雑な推論を必要とする課題において, さらなる発展の必要性を強調している。

We are introducing SM70, a 70 billion-parameter Large Language Model that is specifically designed for SpassMed's medical devices under the brand name 'JEE1' (pronounced as G1 and means 'Life'). This large language model provides more accurate and safe responses to medical-domain questions. To fine-tune SM70, we used around 800K data entries from the publicly available dataset MedAlpaca. The Llama2 70B open-sourced model served as the foundation for SM70, and we employed the QLoRA technique for fine-tuning. The evaluation is conducted across three benchmark datasets - MEDQA - USMLE, PUBMEDQA, and USMLE - each representing a unique aspect of medical knowledge and reasoning. The performance of SM70 is contrasted with other notable LLMs, including Llama2 70B, Clinical Camel 70 (CC70), GPT 3.5, GPT 4, and Med-Palm, to provide a comparative understanding of its capabilities within the medical domain. Our results indicate that SM70 outperforms several established models in these datasets, showcasing its proficiency in handling a range of medical queries, from fact-based questions derived from PubMed abstracts to complex clinical decision-making scenarios. The robust performance of SM70, particularly in the USMLE and PUBMEDQA datasets, suggests its potential as an effective tool in clinical decision support and medical information retrieval. Despite its promising results, the paper also acknowledges the areas where SM70 lags behind the most advanced model, GPT 4, thereby highlighting the need for further development, especially in tasks demanding extensive medical knowledge and intricate reasoning.
翻訳日:2023-12-13 17:23:57 公開日:2023-12-12
# 随時近似形式的特徴属性

Anytime Approximate Formal Feature Attribution ( http://arxiv.org/abs/2312.06973v1 )

ライセンス: Link先を確認
Jinqiang Yu, Graham Farr, Alexey Ignatiev, Peter J. Stuckey(参考訳) 人工知能(AI)アルゴリズムと機械学習(ML)モデルの幅広い使用と、それらに関連する重要な問題により、説明可能な人工知能(XAI)の必要性が保証されている。 この決定がなされたことにより、その決定に寄与した入力機能は何ですか? この問題に対処するために様々なXAIアプローチが存在するが、そのほとんどは重大な制限がある。 ヒューリスティックなXAIアプローチは品質保証の欠如に悩まされ、しばしばシェープ値の近似を試みる。 最近の選択肢は、形式的特徴属性(FFA)と呼ばれるもので、その特徴を含む形式的帰納的説明(AXp)の断片として機能の重要性を定義するものである。 この測定は、モデルの振る舞いを正式に推論する観点から重要視される。 ffa の定義を使って計算することは困難であり、これは axp を数えることを伴うが、近似できるからである。 これらの結果をもとに,本稿ではいくつかの貢献を行う。 第一に、計算FFAは、たとえコントラスト的な形式的説明(CXp)の集合が提供されても、その問題が#Pハードであることを証明することで、魅力的な証拠を与える。 第二に、AXp と CXp の双対性を利用して、CXp の列挙から AXp の列挙に切り替える効率的なヒューリスティックを提案し、任意の方法で FFA を効果的に近似する適応的説明列挙アルゴリズムを提案する。 最後に, 広範に使用されるデータセットを用いて得られた実験結果から, ffa近似法の有効性を, ffa近似の誤差, 計算された説明数, および一定時間制限による多様性の観点から示している。

Widespread use of artificial intelligence (AI) algorithms and machine learning (ML) models on the one hand and a number of crucial issues pertaining to them warrant the need for explainable artificial intelligence (XAI). A key explainability question is: given this decision was made, what are the input features which contributed to the decision? Although a range of XAI approaches exist to tackle this problem, most of them have significant limitations. Heuristic XAI approaches suffer from the lack of quality guarantees, and often try to approximate Shapley values, which is not the same as explaining which features contribute to a decision. A recent alternative is so-called formal feature attribution (FFA), which defines feature importance as the fraction of formal abductive explanations (AXp's) containing the given feature. This measures feature importance from the view of formally reasoning about the model's behavior. It is challenging to compute FFA using its definition because that involves counting AXp's, although one can approximate it. Based on these results, this paper makes several contributions. First, it gives compelling evidence that computing FFA is intractable, even if the set of contrastive formal explanations (CXp's) is provided, by proving that the problem is #P-hard. Second, by using the duality between AXp's and CXp's, it proposes an efficient heuristic to switch from CXp enumeration to AXp enumeration on-the-fly resulting in an adaptive explanation enumeration algorithm effectively approximating FFA in an anytime fashion. Finally, experimental results obtained on a range of widely used datasets demonstrate the effectiveness of the proposed FFA approximation approach in terms of the error of FFA approximation as well as the number of explanations computed and their diversity given a fixed time limit.
翻訳日:2023-12-13 17:23:27 公開日:2023-12-12
# CCM:テキスト間一貫性モデルに条件制御を追加する

CCM: Adding Conditional Controls to Text-to-Image Consistency Models ( http://arxiv.org/abs/2312.06971v1 )

ライセンス: Link先を確認
Jie Xiao, Kai Zhu, Han Zhang, Zhiheng Liu, Yujun Shen, Yu Liu, Xueyang Fu, Zheng-Jun Zha(参考訳) 一貫性モデル(cms)は、視覚的コンテンツの効率的かつ高品質作成に有望である。 しかし、事前訓練されたCMに新しい条件制御を追加する方法は検討されていない。 本報告では,cmsに制御ネットライクな条件付き制御を追加するための代替戦略を検討し,3つの重要な知見を示す。 1)拡散モデル(dms)用に訓練された制御ネットは、高レベル意味制御のために直接cmsに適用できるが、低レベル詳細とリアリズム制御に苦しむ。 2)CMは,Songらの提案した一貫性トレーニングを用いて,コントロールネットをゼロからトレーニング可能な生成モデルの独立したクラスとして機能する。 3) DM ベースの ControlNet をCM に高速に転送可能な軽量アダプタを,一貫性トレーニングを通じて複数条件で共同で最適化することができる。 エッジ,奥行き,人間のポーズ,低解像度画像,マスキング画像の3つの条件付き制御を,テキストから画像への潜在一貫性モデルを用いて検討した。

Consistency Models (CMs) have showed a promise in creating visual content efficiently and with high quality. However, the way to add new conditional controls to the pretrained CMs has not been explored. In this technical report, we consider alternative strategies for adding ControlNet-like conditional control to CMs and present three significant findings. 1) ControlNet trained for diffusion models (DMs) can be directly applied to CMs for high-level semantic controls but struggles with low-level detail and realism control. 2) CMs serve as an independent class of generative models, based on which ControlNet can be trained from scratch using Consistency Training proposed by Song et al. 3) A lightweight adapter can be jointly optimized under multiple conditions through Consistency Training, allowing for the swift transfer of DMs-based ControlNet to CMs. We study these three solutions across various conditional controls, including edge, depth, human pose, low-resolution image and masked image with text-to-image latent consistency models.
翻訳日:2023-12-13 17:22:56 公開日:2023-12-12
# マルチモーダル大言語モデルのためのHalucination Augmented Contrastive Learning

Hallucination Augmented Contrastive Learning for Multimodal Large Language Model ( http://arxiv.org/abs/2312.06968v1 )

ライセンス: Link先を確認
Chaoya Jiang, Haiyang Xu, Mengfan Dong, Jiaxing Chen, Wei Ye, Ming Yan, Qinghao Ye, Ji Zhang, Fei Huang, Shikun Zhang(参考訳) マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理する。 しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。 本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。 まず,MLLMにおけるテキストトークンと視覚トークンの表現分布を解析し,2つの重要な知見を明らかにした。 1) テキスト表現と視覚表現の間には大きなギャップがあり, 満足のいくクロスモーダル表現の整合性を示す。 2)幻覚を含まないテキストの表現は絡み合っており,区別が困難である。 これらの2つの観察は、幻覚を緩和するためのシンプルで効果的な方法をもたらした。 具体的には,mllmにコントラスト学習を導入し,幻覚付きテキストを難解な例とし,非幻覚性テキストと視覚的サンプルの表現を自然に近づけながら,非幻覚性テキストと幻覚性テキストの表現をプッシュする。 本手法を定量的かつ定性的に評価し,幻覚発生の低減と複数のベンチマークにおける性能向上に有効であることを示す。 MMhal-Benchベンチマークでは,ベースラインのMiniGPT-4/LLaVAよりも34.66%/29.5%改善した。

Multi-modal large language models (MLLMs) have been shown to efficiently integrate natural language with visual information to handle multi-modal tasks. However, MLLMs still face a fundamental limitation of hallucinations, where they tend to generate erroneous or fabricated information. In this paper, we address hallucinations in MLLMs from a novel perspective of representation learning. We first analyzed the representation distribution of textual and visual tokens in MLLM, revealing two important findings: 1) there is a significant gap between textual and visual representations, indicating unsatisfactory cross-modal representation alignment; 2) representations of texts that contain and do not contain hallucinations are entangled, making it challenging to distinguish them. These two observations inspire us with a simple yet effective method to mitigate hallucinations. Specifically, we introduce contrastive learning into MLLMs and use text with hallucination as hard negative examples, naturally bringing representations of non-hallucinative text and visual samples closer while pushing way representations of non-hallucinating and hallucinative text. We evaluate our method quantitatively and qualitatively, showing its effectiveness in reducing hallucination occurrences and improving performance across multiple benchmarks. On the MMhal-Bench benchmark, our method obtains a 34.66% /29.5% improvement over the baseline MiniGPT-4/LLaVA.
翻訳日:2023-12-13 17:22:23 公開日:2023-12-12
# 地中リモートアライメントによるアノテーションのない遠隔センシング視覚言語基礎モデル

Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment ( http://arxiv.org/abs/2312.06960v1 )

ライセンス: Link先を確認
Utkarsh Mall, Cheng Perng Phoo, Meilin Kelsey Liu, Carl Vondrick, Bharath Hariharan, Kavita Bala(参考訳) テキストアノテーションを使わずにリモートセンシング画像の視覚言語モデルを訓練する手法を提案する。 私たちの重要な洞察は、リモートセンシング画像と言語を接続するための仲介手段として、地上で撮影されたコロケーションのインターネットイメージを使用することです。 具体的には,映像をリモートセンシングするための画像エンコーダを訓練し,大量のインターネット画像と衛星画像を用いてクリップの画像エンコーダと整合させる。 非教師なしアプローチにより,2つの異なる解像度のリモートセンシング画像に対して,第1段階の大規模視覚言語モデル(vlm)の訓練が可能となった。 これらのVLMは,衛星画像に対するゼロショット,オープンボキャブラリ画像分類,検索,セグメンテーション,視覚的質問応答を可能にする。 それぞれのタスクにおいて、VLMはテキストアノテーションなしで訓練され、既存のVLMの監督訓練よりも優れており、分類では最大20%、セグメンテーションでは80%向上しています。

We introduce a method to train vision-language models for remote-sensing images without using any textual annotations. Our key insight is to use co-located internet imagery taken on the ground as an intermediary for connecting remote-sensing images and language. Specifically, we train an image encoder for remote sensing images to align with the image encoder of CLIP using a large amount of paired internet and satellite images. Our unsupervised approach enables the training of a first-of-its-kind large-scale vision language model (VLM) for remote sensing images at two different resolutions. We show that these VLMs enable zero-shot, open-vocabulary image classification, retrieval, segmentation and visual question answering for satellite images. On each of these tasks, our VLM trained without textual annotations outperforms existing VLMs trained with supervision, with gains of up to 20% for classification and 80% for segmentation.
翻訳日:2023-12-13 17:21:46 公開日:2023-12-12
# Patch-MI: パッチベース再構成によるモデル反転攻撃の強化

Patch-MI: Enhancing Model Inversion Attacks via Patch-Based Reconstruction ( http://arxiv.org/abs/2312.07040v1 )

ライセンス: Link先を確認
Jonggyu Jang, Hyeonsu Lyu, Hyun Jong Yang(参考訳) model inversion (mi)攻撃は、モデルの重み付けのみにアクセスして、トレーニングデータセット内の機密情報を明らかにすることを目的としている。 この分野で著名なMI攻撃は、補助データセットを使用して、ターゲットデータ属性を再現し、画像が写実性を維持するように制限するが、その成功はしばしば補助データセットとターゲットデータセットの類似性に依存する。 分布が異なる場合、既存のMI攻撃は失敗し、非現実的または標的的無関係な結果をもたらす。 これらの課題に応えて,ジグソーパズルの組立に触発されたPatch-MIという画期的なアプローチを導入する。 この目的のために私たちは,パッチベースの判別器を備えたgan(generative adversarial network)ライクなフレームワークを用いて,mi攻撃の確率的解釈を新たに構築する。 このアプローチは、異なる補助的データセット分布であっても、ターゲットデータセット分布と類似した画像の合成を可能にする。 さらに,一般化画像を作成する高度な操作であるランダム変換ブロックを巧みに採用することで,対象分類器の有効性を高める。 我々は,Patch-MIが既存の生成的MI手法を精度的に上回り,統計的データセットの品質を同等に保ちながら大きな進歩を示した。 結果の再現性のため、ソースコードをhttps://github.com/jonggyujang0123/Patch-Attack.comで公開しています。

Model inversion (MI) attacks aim to reveal sensitive information in training datasets by solely accessing model weights. Generative MI attacks, a prominent strand in this field, utilize auxiliary datasets to recreate target data attributes, restricting the images to remain photo-realistic, but their success often depends on the similarity between auxiliary and target datasets. If the distributions are dissimilar, existing MI attack attempts frequently fail, yielding unrealistic or target-unrelated results. In response to these challenges, we introduce a groundbreaking approach named Patch-MI, inspired by jigsaw puzzle assembly. To this end, we build upon a new probabilistic interpretation of MI attacks, employing a generative adversarial network (GAN)-like framework with a patch-based discriminator. This approach allows the synthesis of images that are similar to the target dataset distribution, even in cases of dissimilar auxiliary dataset distribution. Moreover, we artfully employ a random transformation block, a sophisticated maneuver that crafts generalized images, thus enhancing the efficacy of the target classifier. Our numerical and graphical findings demonstrate that Patch-MI surpasses existing generative MI methods in terms of accuracy, marking significant advancements while preserving comparable statistical dataset quality. For reproducibility of our results, we make our source code publicly available in https://github.com/jonggyujang0123/Patch-Attack.
翻訳日:2023-12-13 17:14:52 公開日:2023-12-12
# Diff-OP3D:オープンポーズ3次元ゼロショット分類のためのブリッジング2次元拡散

Diff-OP3D: Bridging 2D Diffusion for Open Pose 3D Zero-Shot Classification ( http://arxiv.org/abs/2312.07039v1 )

ライセンス: Link先を確認
Weiguang Zhao, Guanyu Yang, Chaolong Yang, Chenru Jiang, Yuyao Yan, Rui Zhang, Kaizhu Huang(参考訳) 爆発的な3dデータの成長に伴い,ゼロショット学習によるデータラベリングの容易化が急務となっている。 近年,CLIP(Contrastive Language- Image Pre-Training)を3Dビジョンに移行する手法が,ゼロショット分類タスクにおいて大きく進歩している。 しかし、これらの手法は主にアライメントされたポーズの3Dオブジェクト(ap-3os)に焦点を合わせ、転倒した椅子や横たわるテディベアのような現実世界のシナリオでよく見られる3Dオブジェクトの認識(op-3os)を見渡す。 この目的のために,我々は3次元オープンポジゼロショット分類のためのより挑戦的なベンチマークを提案する。 ベンチマークの結果,1つの理想のポーズを自動的に最適化し,これらのOP-3osを分類する,簡潔な角度補正機構を設計した。 さらに, 3次元ゼロショット分類のクラスとして, 2次元事前学習拡散モデルを付加訓練なしで橋渡しする試みも行った。 このような3次元物体への2次元拡散は、ap-3osとop-3osのゼロショット分類を改善する上で不可欠である。 私たちのモデルは、それぞれmodelnet10$^{\ddag}$とmcgill$^{\ddag}$ open poseベンチマークで3.5%と15.8%改善し、アライメントされたposing modelnet10で現在の6.8%を上回り、3dゼロショットタスクにおけるディフュージョンの有効性を肯定する。

With the explosive 3D data growth, the urgency of utilizing zero-shot learning to facilitate data labeling becomes evident. Recently, the methods via transferring Contrastive Language-Image Pre-training (CLIP) to 3D vision have made great progress in the 3D zero-shot classification task. However, these methods primarily focus on aligned pose 3D objects (ap-3os), overlooking the recognition of 3D objects with open poses (op-3os) typically encountered in real-world scenarios, such as an overturned chair or a lying teddy bear. To this end, we propose a more challenging benchmark for 3D open-pose zero-shot classification. Echoing our benchmark, we design a concise angle-refinement mechanism that automatically optimizes one ideal pose as well as classifies these op-3os. Furthermore, we make a first attempt to bridge 2D pre-trained diffusion model as a classifer to 3D zero-shot classification without any additional training. Such 2D diffusion to 3D objects proves vital in improving zero-shot classification for both ap-3os and op-3os. Our model notably improves by 3.5% and 15.8% on ModelNet10$^{\ddag}$ and McGill$^{\ddag}$ open pose benchmarks, respectively, and surpasses the current state-of-the-art by 6.8% on the aligned pose ModelNet10, affirming diffusion's efficacy in 3D zero-shot tasks.
翻訳日:2023-12-13 17:14:28 公開日:2023-12-12
# HyperRouter: エキスパートのスパースミックスの効果的なトレーニングと推論を目指して

HyperRouter: Towards Efficient Training and Inference of Sparse Mixture of Experts ( http://arxiv.org/abs/2312.07035v1 )

ライセンス: Link先を確認
Giang Do, Khiem Le, Quang Pham, TrungTin Nguyen, Thanh-Nam Doan, Bint T. Nguyen, Chenghao Liu, Savitha Ramasamy, Xiaoli Li, Steven Hoi(参考訳) 入力トークンを少数の専門家にルーティングすることで、Sparse Mixture-of-Expertsは大規模言語モデルの効率的なトレーニングを可能にした。 近年の研究では、すべての専門家が最終的に同様の表現を学習する崩壊問題を緩和することで、ルータの修理が競争力を発揮することが示唆されている。 しかし、この戦略には2つの重要な制限がある。 一 ランダムなルータから派生したポリシーは準最適かもしれない。 (ii)訓練や評価には膨大な資源が必要であり、効率性は限られている。 この作業では、固定ハイパーネットワークとトレーニング可能な埋め込みを通じてルータのパラメータを動的に生成し、ルータのトレーニングと凍結のバランスを実現し、改善されたルーティングポリシを学ぶ。 幅広いタスクにわたる大規模な実験は、既存のルーティング手法と比較して、 \HyperRouterの性能と効率性が優れていることを示す。 我々の実装は {\url{https://github.com/giangdip2410/HyperRouter}}} で公開されています。

By routing input tokens to only a few split experts, Sparse Mixture-of-Experts has enabled efficient training of large language models. Recent findings suggest that fixing the routers can achieve competitive performance by alleviating the collapsing problem, where all experts eventually learn similar representations. However, this strategy has two key limitations: (i) the policy derived from random routers might be sub-optimal, and (ii) it requires extensive resources during training and evaluation, leading to limited efficiency gains. This work introduces \HyperRout, which dynamically generates the router's parameters through a fixed hypernetwork and trainable embeddings to achieve a balance between training the routers and freezing them to learn an improved routing policy. Extensive experiments across a wide range of tasks demonstrate the superior performance and efficiency gains of \HyperRouter compared to existing routing methods. Our implementation is publicly available at {\url{{https://github.com/giangdip2410/HyperRouter}}}.
翻訳日:2023-12-13 17:13:59 公開日:2023-12-12
# ボックス制約付き数値グローバル最適化のためのGNBG生成テストスイート

GNBG-Generated Test Suite for Box-Constrained Numerical Global Optimization ( http://arxiv.org/abs/2312.07034v1 )

ライセンス: Link先を確認
Amir H. Gandomi (1,2), Danial Yazdani (1), Mohammad Nabi Omidvar (3), and Kalyanmoy Deb (4) ((1) Faculty of Engineering & Information Technology, University of Technology Sydney, (2) University Research and Innovation Center (EKIK), Obuda University, (3) School of Computing, University of Leeds, and Leeds University Business School, (4) BEACON Center, Michigan State University)(参考訳) 本論文では,汎用数値ベンチマークジェネレータ(GNBG)を用いて体系的に構築した,ボックス制約の数値大域最適化問題インスタンスを24個導入する。 これらの例は、様々のモジュラリティ、頑丈さ、対称性、条件付け、可変相互作用構造、盆地の線形性、偽造性など、幅広い問題の特徴をカバーしている。 目的として,本テストスイートは,厳密な評価と最適化アルゴリズムの比較分析を容易にする,様々な難易度と問題特性を提供する。 これらの問題を提示することで,アルゴリズムの強みと弱みを評価するための構造化プラットフォームを研究者に提供することを目的としている。 再現性のために、このテストスイートのMATLABソースコードが公開されている。

This document introduces a set of 24 box-constrained numerical global optimization problem instances, systematically constructed using the Generalized Numerical Benchmark Generator (GNBG). These instances cover a broad spectrum of problem features, including varying degrees of modality, ruggedness, symmetry, conditioning, variable interaction structures, basin linearity, and deceptiveness. Purposefully designed, this test suite offers varying difficulty levels and problem characteristics, facilitating rigorous evaluation and comparative analysis of optimization algorithms. By presenting these problems, we aim to provide researchers with a structured platform to assess the strengths and weaknesses of their algorithms against challenges with known, controlled characteristics. For reproducibility, the MATLAB source code for this test suite is publicly available.
翻訳日:2023-12-13 17:13:42 公開日:2023-12-12
# Ahpatron: Tighter Mistake境界を持つ新しい予算のオンラインカーネル学習マシン

Ahpatron: A New Budgeted Online Kernel Learning Machine with Tighter Mistake Bound ( http://arxiv.org/abs/2312.07032v1 )

ライセンス: Link先を確認
Yun Liao, Junfan Li, Shizhong Liao, Qinghua Hu, Jianwu Dang(参考訳) 本稿では,オンラインカーネル学習の誤り境界を予算上で検討する。 そこで我々は,前作の誤りバウンドを大幅に改善し,dekel,shalev-shwartz,singer(2005)によるオープン問題を解決した,新たな予算オンラインカーネル学習モデルahpatronを提案する。 私たちはまず、アクティブな更新ルールを使用する予算のないモデルであるAVPという名前のPerceptronのアグレッシブなバージョンを提示する。 残りの例の半分を取り除き、残りの例にまたがる仮説空間に削除された例を投影する新しい予算維持機構を設計する。 Ahpatron は上記のメカニズムを採用して AVP を近似する。 理論解析により、Ahpatronはより厳密な誤り境界を持ち、実験結果は、Ahpatronが同じまたはより小さな予算で最先端のアルゴリズムより優れていることを示している。

In this paper, we study the mistake bound of online kernel learning on a budget. We propose a new budgeted online kernel learning model, called Ahpatron, which significantly improves the mistake bound of previous work and resolves the open problem posed by Dekel, Shalev-Shwartz, and Singer (2005). We first present an aggressive variant of Perceptron, named AVP, a model without budget, which uses an active updating rule. Then we design a new budget maintenance mechanism, which removes a half of examples,and projects the removed examples onto a hypothesis space spanned by the remaining examples. Ahpatron adopts the above mechanism to approximate AVP. Theoretical analyses prove that Ahpatron has tighter mistake bounds, and experimental results show that Ahpatron outperforms the state-of-the-art algorithms on the same or a smaller budget.
翻訳日:2023-12-13 17:13:28 公開日:2023-12-12
# マルチエージェント分布強化学習に基づく雑音分布分解

Noise Distribution Decomposition based Multi-Agent Distributional Reinforcement Learning ( http://arxiv.org/abs/2312.07025v1 )

ライセンス: Link先を確認
Wei Geng, Baidi Xiao, Rongpeng Li, Ning Wei, Dong Wang, and Zhifeng Zhao(参考訳) 一般に、強化学習(Reinforcement Learning, RL)エージェントは、環境と繰り返し対話し、受信した報酬を観察された状態に通知し、行動を実行することでポリシーを更新する。 しかし、一般的にノイズの多い観測(例えば報酬や状態)につながる環境障害は、エージェントのパフォーマンスを著しく形作ることができた。 さらに,MARL(Multi-Agent Reinforcement Learning)の学習性能は,知的エージェント間の干渉によるノイズの影響を受けやすい。 したがって、MARLの設計に革命を起こすことが必須となり、ノイズ報酬の迷惑な影響を改善できる。 本稿では,gaussian mixture model (gmm) による大域的に共有される雑音の報酬を近似し,各エージェントを分散rlにより局所的に更新可能な個別分布的報酬の組み合わせに分解することにより,新しい分解型マルチエージェント分散rl法を提案する。 さらに、拡散モデル(DM)を報酬生成に利用して、学習分布に対する費用対効果の問題を緩和する。 さらに、分布分解の最適性は理論的に検証され、損失関数の設計は分解の曖昧さを避けるために慎重に調整される。 また,提案手法の有効性を,雑音を考慮した広範囲なシミュレーション実験により検証した。 さらに、異なるMARLタスクにおける分布RLの優位性を示すために、異なるリスク感受性ポリシーを評価する。

Generally, Reinforcement Learning (RL) agent updates its policy by repetitively interacting with the environment, contingent on the received rewards to observed states and undertaken actions. However, the environmental disturbance, commonly leading to noisy observations (e.g., rewards and states), could significantly shape the performance of agent. Furthermore, the learning performance of Multi-Agent Reinforcement Learning (MARL) is more susceptible to noise due to the interference among intelligent agents. Therefore, it becomes imperative to revolutionize the design of MARL, so as to capably ameliorate the annoying impact of noisy rewards. In this paper, we propose a novel decomposition-based multi-agent distributional RL method by approximating the globally shared noisy reward by a Gaussian mixture model (GMM) and decomposing it into the combination of individual distributional local rewards, with which each agent can be updated locally through distributional RL. Moreover, a diffusion model (DM) is leveraged for reward generation in order to mitigate the issue of costly interaction expenditure for learning distributions. Furthermore, the optimality of the distribution decomposition is theoretically validated, while the design of loss function is carefully calibrated to avoid the decomposition ambiguity. We also verify the effectiveness of the proposed method through extensive simulation experiments with noisy rewards. Besides, different risk-sensitive policies are evaluated in order to demonstrate the superiority of distributional RL in different MARL tasks.
翻訳日:2023-12-13 17:13:10 公開日:2023-12-12
# EdgePruner: グラフコントラスト学習におけるエッジプルーニング

EdgePruner: Poisoned Edge Pruning in Graph Contrastive Learning ( http://arxiv.org/abs/2312.07022v1 )

ライセンス: Link先を確認
Hiroya Kato, Kento Hasegawa, Seira Hidano, Kazuhide Fukushima(参考訳) Graph Contrastive Learning (GCL)は、未知ノードの有用な表現を得ることができる教師なしグラフ表現学習である。 ノード表現は、ダウンストリームタスクの特徴として利用できる。 しかし、GCLは既存の学習モデルと同様に中毒攻撃に弱い。 最先端の防御は有毒なグラフによる悪影響を十分に否定することはできないが、そのような防御はgclに敵対的な訓練を導入する。 さらに改良するためには, 対向エッジの刈り取りが重要である。 我々の知る限りでは、その実現可能性はまだGCL領域で探索されていない。 本稿では,GCL,EdgePrunerの簡易防衛法を提案する。 gclに対する最先端の毒殺攻撃は、主に有害なグラフを作成するために敵対的なエッジを追加する傾向があるという事実に注目します。 したがって、edgepruner prunesはgclによる有毒グラフのトレーニング後に得られたノード表現に基づいてコントラスト損失を最小化する。 さらに,異なる特徴を持つノードが有毒グラフの対角線で接続されているという事実にも着目する。 そこで我々は, 隣接ノード間の特徴類似性を導入し, 対向エッジをより適切に決定する。 この類似性は、様々なデータセットの有毒グラフからの悪影響をさらに排除するのに役立つ。 最後にedgeprunerは、サニタイズされたグラフとして最小のコントラスト損失をもたらすグラフを出力する。 以上の結果から,6つのデータセット上でpruning adversarial edgesが実現可能であることが示された。 EdgePrunerは攻撃時のノード分類の精度を最先端の防御よりも最大5.55%向上させることができる。 さらに,EdgePrunerは適応攻撃に対して免疫性を示す。

Graph Contrastive Learning (GCL) is unsupervised graph representation learning that can obtain useful representation of unknown nodes. The node representation can be utilized as features of downstream tasks. However, GCL is vulnerable to poisoning attacks as with existing learning models. A state-of-the-art defense cannot sufficiently negate adverse effects by poisoned graphs although such a defense introduces adversarial training in the GCL. To achieve further improvement, pruning adversarial edges is important. To the best of our knowledge, the feasibility remains unexplored in the GCL domain. In this paper, we propose a simple defense for GCL, EdgePruner. We focus on the fact that the state-of-the-art poisoning attack on GCL tends to mainly add adversarial edges to create poisoned graphs, which means that pruning edges is important to sanitize the graphs. Thus, EdgePruner prunes edges that contribute to minimizing the contrastive loss based on the node representation obtained after training on poisoned graphs by GCL. Furthermore, we focus on the fact that nodes with distinct features are connected by adversarial edges in poisoned graphs. Thus, we introduce feature similarity between neighboring nodes to help more appropriately determine adversarial edges. This similarity is helpful in further eliminating adverse effects from poisoned graphs on various datasets. Finally, EdgePruner outputs a graph that yields the minimum contrastive loss as the sanitized graph. Our results demonstrate that pruning adversarial edges is feasible on six datasets. EdgePruner can improve the accuracy of node classification under the attack by up to 5.55% compared with that of the state-of-the-art defense. Moreover, we show that EdgePruner is immune to an adaptive attack.
翻訳日:2023-12-13 17:12:46 公開日:2023-12-12
# モダリティを意識した歩行者注意学習の可視赤外線による再識別

Transferring Modality-Aware Pedestrian Attentive Learning Visible-Infrared Person Re-identification ( http://arxiv.org/abs/2312.07021v1 )

ライセンス: Link先を確認
Yuwei Guo, Wenhao Zhang, Licheng Jiao, Shuang Wang, Shuo Wang, and Fang Liu(参考訳) Visible-infrared person re-identification (VI-ReID) は、視覚的および赤外線のモダリティを越えて同じ歩行者を探索することを目的としている。 既存のモデルは、モダリティの変動を減らすためにモダリティ固有の情報を補償することに焦点を当てている。 しかし、これらの手法は計算オーバーヘッドが高くなり、対応する画像や特徴を生成する際に干渉情報を導入することがある。 この問題に対処するためには,歩行者指向の特徴を活用し,モダリティ完全かつ一貫性のある表現を学ぶことが重要である。 本稿では,トランスファーリング・モダリティを意識した歩行者注意学習(TMPA)モデルを提案する。 具体的には,異なるモダリティから対応する領域を混合することにより歩行者領域のコヒーレンスを高めるために,地域ベースのデータ拡張モジュールpedmixを提案する。 軽量なハイブリッド補償モジュールであるmodality feature transfer (mft) は、最小の計算オーバーヘッドで識別的モダリティ完全機能を完全に探求するために、クロスアテンションと畳み込みネットワークを統合するために考案された。 ベンチマークSYSU-MM01とRegDBデータセットを用いた大規模な実験により,提案したTMPAモデルの有効性が示された。

Visible-infrared person re-identification (VI-ReID) aims to search the same pedestrian of interest across visible and infrared modalities. Existing models mainly focus on compensating for modality-specific information to reduce modality variation. However, these methods often lead to a higher computational overhead and may introduce interfering information when generating the corresponding images or features. To address this issue, it is critical to leverage pedestrian-attentive features and learn modality-complete and -consistent representation. In this paper, a novel Transferring Modality-Aware Pedestrian Attentive Learning (TMPA) model is proposed, focusing on the pedestrian regions to efficiently compensate for missing modality-specific features. Specifically, we propose a region-based data augmentation module PedMix to enhance pedestrian region coherence by mixing the corresponding regions from different modalities. A lightweight hybrid compensation module, i.e., the Modality Feature Transfer (MFT), is devised to integrate cross attention and convolution networks to fully explore the discriminative modality-complete features with minimal computational overhead. Extensive experiments conducted on the benchmark SYSU-MM01 and RegDB datasets demonstrated the effectiveness of our proposed TMPA model.
翻訳日:2023-12-13 17:12:19 公開日:2023-12-12
# 視覚言語支援属性学習

Vision-language Assisted Attribute Learning ( http://arxiv.org/abs/2312.07009v1 )

ライセンス: Link先を確認
Kongming Liang, Xinran Wang, Rui Wang, Donghui Gao, Ling Jin, Weidong Liu, Xiatian Zhu, Zhanyu Ma, Jun Guo(参考訳) 大規模な属性ラベリングは通常不完全で部分的であり、モデルの最適化には重大な課題がある。 既存の属性学習手法では、欠落したラベルを負のラベルとして扱う場合や、トレーニング中にすべて無視する場合が多い。 これらの制限を克服するため,本稿では,利用可能な視覚言語知識を活用し,モデル学習に欠落するラベルを明確に開示する。 画像が与えられた場合、既成の視覚言語モデルによって支援された各属性ラベルの可能性を予測し、訓練中のスコアの高い属性を無作為に選択する。 当社の戦略は、この高いスコアがラベルの曖昧さを明らかにする上で有益であることから、完全な無視と欠落したラベルの否定のバランスを保ちます。 広汎な実験により,提案した視覚言語支援損失は,新たにクリーン化したVAWデータセット上で最先端のパフォーマンスを実現することができた。 定性的評価は,提案手法がより完全な属性を予測できることを示す。

Attribute labeling at large scale is typically incomplete and partial, posing significant challenges to model optimization. Existing attribute learning methods often treat the missing labels as negative or simply ignore them all during training, either of which could hamper the model performance to a great extent. To overcome these limitations, in this paper we leverage the available vision-language knowledge to explicitly disclose the missing labels for enhancing model learning. Given an image, we predict the likelihood of each missing attribute label assisted by an off-the-shelf vision-language model, and randomly select to ignore those with high scores in training. Our strategy strikes a good balance between fully ignoring and negatifying the missing labels, as these high scores are found to be informative on revealing label ambiguity. Extensive experiments show that our proposed vision-language assisted loss can achieve state-of-the-art performance on the newly cleaned VAW dataset. Qualitative evaluation demonstrates the ability of the proposed method in predicting more complete attributes.
翻訳日:2023-12-13 17:11:56 公開日:2023-12-12
# 半監督対象検出のための混合擬似ラベル

Mixed Pseudo Labels for Semi-Supervised Object Detection ( http://arxiv.org/abs/2312.07006v1 )

ライセンス: Link先を確認
Zeming Chen, Wenwei Zhang, Xinjiang Wang, Kai Chen, Zhi Wang(参考訳) 擬似ラベル法は半教師付き物体検出タスクでかなり成功したが、本論文ではこのアプローチにおける注目すべき制限を明らかにする。 具体的には、擬似ラベル法は、特に小・末尾の分類対象において、擬似ラベルの検出が欠落しているときに現れる弱点をアクセントしながら、検出器固有の強度を増幅する傾向がある。 これらの課題を克服するために,疑似ラベルデータのためのミックスアップとモザイクからなる混合擬似ラベル (mixpl) を提案する。 さらに、ラベル付きデータを関連するインスタンスで再サンプリングすることで、テールカテゴリにおけるモデルの検出性能が向上する。 特に、MixPLは、様々な検出器の性能を一貫して改善し、COCO-StandardおよびCOCO-Fullベンチマーク上で、より高速なR-CNN、FCOS、DINOによる新しい最先端の結果を得る。 さらに、MixPLは大規模なモデルに優れたスケーラビリティを示し、DINO Swin-Lを2.5%改善し、COCO val2017ベンチマークで追加アノテーションなしで非自明な新しいレコード(60.2% mAP)を達成する。

While the pseudo-label method has demonstrated considerable success in semi-supervised object detection tasks, this paper uncovers notable limitations within this approach. Specifically, the pseudo-label method tends to amplify the inherent strengths of the detector while accentuating its weaknesses, which is manifested in the missed detection of pseudo-labels, particularly for small and tail category objects. To overcome these challenges, this paper proposes Mixed Pseudo Labels (MixPL), consisting of Mixup and Mosaic for pseudo-labeled data, to mitigate the negative impact of missed detections and balance the model's learning across different object scales. Additionally, the model's detection performance on tail categories is improved by resampling labeled data with relevant instances. Notably, MixPL consistently improves the performance of various detectors and obtains new state-of-the-art results with Faster R-CNN, FCOS, and DINO on COCO-Standard and COCO-Full benchmarks. Furthermore, MixPL also exhibits good scalability on large models, improving DINO Swin-L by 2.5% mAP and achieving nontrivial new records (60.2% mAP) on the COCO val2017 benchmark without extra annotations.
翻訳日:2023-12-13 17:11:39 公開日:2023-12-12
# racer: 合理性のある人工知能カーフォローモデル

RACER: Rational Artificial Intelligence Car-following-model Enhanced by Reality ( http://arxiv.org/abs/2312.07003v1 )

ライセンス: Link先を確認
Tianyi Li, Alexander Halatsis, Raphael Stern(参考訳) 本稿では,理論上実現可能でありながら適応クルーズ制御(acc)の運転行動を予測するために設計された,部分微分制約を満たす最先端のディープラーニングカーフォローモデルである,現実によって強化された合理的人工知能カーフォローモデルであるracerを提案する。 従来のモデルとは異なり、RACERはRational Driving Constraints (RDCs) を効果的に統合しており、これは実際の運転の重要な要素であり、非常に正確で現実的な予測をもたらす。 OVRV(Optimal Velocity Relative Velocity)やNN(Car-following Neural Network)、PINN(Car-following Physics-Informed Neural Network)といった確立されたモデルに対して、RACERは、加速度、速度、間隔といった重要な指標を網羅する。 特に、他のモデルとは対照的に、RCCに完全準拠し、違反をゼロに登録する。 この研究は、特に輸送における安全対策を強化するために、AIモデルに物理的な制約を組み込むことの巨大な価値を強調している。 また、将来の研究では、人間の運転データに対してこれらのモデルをテストし、より安全で合理的な運転行動を導く可能性がある。 提案モデルの汎用性は、さらなるデリバティブ制約とより広範なアーキテクチャ応用を組み込む可能性を含み、その魅力を高め、科学コミュニティにおけるその影響を広げる。

This paper introduces RACER, the Rational Artificial Intelligence Car-following model Enhanced by Reality, a cutting-edge deep learning car-following model, that satisfies partial derivative constraints, designed to predict Adaptive Cruise Control (ACC) driving behavior while staying theoretically feasible. Unlike conventional models, RACER effectively integrates Rational Driving Constraints (RDCs), crucial tenets of actual driving, resulting in strikingly accurate and realistic predictions. Against established models like the Optimal Velocity Relative Velocity (OVRV), a car-following Neural Network (NN), and a car-following Physics-Informed Neural Network (PINN), RACER excels across key metrics, such as acceleration, velocity, and spacing. Notably, it displays a perfect adherence to the RDCs, registering zero violations, in stark contrast to other models. This study highlights the immense value of incorporating physical constraints within AI models, especially for augmenting safety measures in transportation. It also paves the way for future research to test these models against human driving data, with the potential to guide safer and more rational driving behavior. The versatility of the proposed model, including its potential to incorporate additional derivative constraints and broader architectural applications, enhances its appeal and broadens its impact within the scientific community.
翻訳日:2023-12-13 17:11:16 公開日:2023-12-12
# 誠実さの合理化

Alignment for Honesty ( http://arxiv.org/abs/2312.07000v1 )

ライセンス: Link先を確認
Yuqing Yang, Ethan Chern, Xipeng Qiu, Graham Neubig, Pengfei Liu(参考訳) 近年の研究では、人間の意図に従って大規模言語モデル(llm)の有用性と無害性を高めるためにアライメント技術を適用している。 本稿では,LLMが知識の欠如に対して積極的に回答を拒む一方で,過度に保守的でないことを確実にする,誠実さの調整の重要性を論じる。 しかし、正直さに対するアライメントの重要な側面は、単純ではないllmの知識の限界を理解することである。 この課題は、メトリック開発、ベンチマーク作成、トレーニング方法論という観点で包括的なソリューションを要求する。 本稿では,これらの課題に,まずは厳密な問題定義を定め,儒教の解釈に触発された「正直」を定め,対処する。 これは、LCMの誠実さを定量的に測定し、調整後の進捗を定量化するメトリクスを開発するための基盤となる。 さらに、他のタスクのパフォーマンスを犠牲にすることなく、誠実さを強調する複数の効率的な微調整手法により、よりフレキシブルなトレーニングフレームワークを導入する。 広範な実験により,提案する指標で示されるように,これらの整合モデルが誠実さを著しく高めていることが判明した。 私たちはhttps://github.com/gair-nlp/alignment-for-honestyで将来の研究を促進するための豊富なリソースをオープンソースとして公開しています。

Recent research has made significant strides in applying alignment techniques to enhance the helpfulness and harmlessness of large language models (LLMs) in accordance with human intentions. In this paper, we argue for the importance of alignment for honesty, ensuring that LLMs proactively refuse to answer questions when they lack knowledge, while still not being overly conservative. However, a pivotal aspect of alignment for honesty involves discerning the limits of an LLM's knowledge, which is far from straightforward. This challenge demands comprehensive solutions in terms of metric development, benchmark creation, and training methodologies. In this paper, we address these challenges by first establishing a precise problem definition and defining ``honesty'' inspired by the Analects of Confucius. This serves as a cornerstone for developing metrics that effectively measure an LLM's honesty by quantifying its progress post-alignment. Furthermore, we introduce a flexible training framework which is further instantiated by several efficient fine-tuning techniques that emphasize honesty without sacrificing performance on other tasks. Our extensive experiments reveal that these aligned models show a marked increase in honesty, as indicated by our proposed metrics. We open-source a wealth of resources to facilitate future research at https://github.com/GAIR-NLP/alignment-for-honesty, including honesty-aligned models, training and evaluation datasets for honesty alignment, concept glossary, as well as all relevant source code.
翻訳日:2023-12-13 17:10:48 公開日:2023-12-12
# DGNet:水中画像強調のための騒音抑制型動的勾配誘導ネットワーク

DGNet: Dynamic Gradient-guided Network with Noise Suppression for Underwater Image Enhancement ( http://arxiv.org/abs/2312.06999v1 )

ライセンス: Link先を確認
Jingchun Zhou and Zongxin He and Dehuan Zhang and Kin-man Lam and Weishi Zhang and Xianping Fu and Yi Wang and Chongyi Li(参考訳) 水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。 この問題を解決するため、従来の方法は劣化過程を理想化し、画像特徴の分布に対する中雑音や物体の動きの影響を無視し、モデルの一般化と適応性を制限した。 従来の手法では、原画像と合成接地画像から構築した基準勾配を用いる。 これにより、ネットワーク性能は低品質のトレーニングデータに影響される可能性がある。 提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。 このプロセスは画質を改善し、局所最適化を避ける。 さらに、チャネル結合推論(CCI)戦略と周波数領域平滑化モジュール(FRS)に基づく特徴回復再構築モジュール(FRR)を提案する。 これらのモジュールは、様々な種類のノイズがネットワーク性能に与える影響を減らしながら、他の劣化機能を分離する。 複数の公開データセットの実験は、既存の最先端アプローチよりも、特にパフォーマンスのマイルストーンを達成する上で、我々の手法の優位性を実証している。 パラメータサイズと推論時間の観点からの効率は、その幅広い実用性を示す。 コードは公開される予定だ。

Underwater image enhancement (UIE) is a challenging task due to the complex degradation caused by underwater environments. To solve this issue, previous methods often idealize the degradation process, and neglect the impact of medium noise and object motion on the distribution of image features, limiting the generalization and adaptability of the model. Previous methods use the reference gradient that is constructed from original images and synthetic ground-truth images. This may cause the network performance to be influenced by some low-quality training data. Our approach utilizes predicted images to dynamically update pseudo-labels, adding a dynamic gradient to optimize the network's gradient space. This process improves image quality and avoids local optima. Moreover, we propose a Feature Restoration and Reconstruction module (FRR) based on a Channel Combination Inference (CCI) strategy and a Frequency Domain Smoothing module (FRS). These modules decouple other degradation features while reducing the impact of various types of noise on network performance. Experiments on multiple public datasets demonstrate the superiority of our method over existing state-of-the-art approaches, especially in achieving performance milestones: PSNR of 25.6dB and SSIM of 0.93 on the UIEB dataset. Its efficiency in terms of parameter size and inference time further attests to its broad practicality. The code will be made publicly available.
翻訳日:2023-12-13 17:10:20 公開日:2023-12-12
# 教師付きコントラスト学習によるトランスフォーマーによる非参照画像品質評価

Transformer-based No-Reference Image Quality Assessment via Supervised Contrastive Learning ( http://arxiv.org/abs/2312.06995v1 )

ライセンス: Link先を確認
Jinsong Shi, Pan Gao, Jie Qin(参考訳) 画像品質評価(IQA)は、画像処理分野、特にNo-Reference Image Quality Assessment(NR-IQA)における研究ホットスポットである。 強力な特徴抽出能力のため、既存の畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースのNR-IQA法は大きな進歩を遂げた。 しかし、未知の真の歪みデータセットに直面すると、まだ限られた能力を示す。 NR-IQAの性能をさらに向上するために、新しい教師付きコントラスト学習(SCL)とトランスフォーマーベースのNR-IQAモデルSaTQAを提案する。 まず,scl(画像主観スコア不要)による大規模合成データセット上でのモデルを訓練し,歪みの種類やレベルの異なる画像の劣化特性を抽出する。 画像から歪み情報を抽出するために,CNNインダクティブバイアスとTransformerの長期依存性モデリング機能を組み合わせることで,マルチストリームブロック(MSB)を組み込んだバックボーンネットワークを提案する。 最後に,比較学習から得られた劣化特徴と,背骨ネットワークが抽出した知覚歪み情報とを融合させて,最終的な歪み画像品質スコアを得るためのパッチ注意ブロック(PAB)を提案する。 7つの標準IQAデータセットの実験結果から、SaTQAは合成データセットと認証データセットの両方において最先端の手法よりも優れていた。 コードはhttps://github.com/I2-Multimedia-Lab/SaTQAで入手できる。

Image Quality Assessment (IQA) has long been a research hotspot in the field of image processing, especially No-Reference Image Quality Assessment (NR-IQA). Due to the powerful feature extraction ability, existing Convolution Neural Network (CNN) and Transformers based NR-IQA methods have achieved considerable progress. However, they still exhibit limited capability when facing unknown authentic distortion datasets. To further improve NR-IQA performance, in this paper, a novel supervised contrastive learning (SCL) and Transformer-based NR-IQA model SaTQA is proposed. We first train a model on a large-scale synthetic dataset by SCL (no image subjective score is required) to extract degradation features of images with various distortion types and levels. To further extract distortion information from images, we propose a backbone network incorporating the Multi-Stream Block (MSB) by combining the CNN inductive bias and Transformer long-term dependence modeling capability. Finally, we propose the Patch Attention Block (PAB) to obtain the final distorted image quality score by fusing the degradation features learned from contrastive learning with the perceptual distortion information extracted by the backbone network. Experimental results on seven standard IQA datasets show that SaTQA outperforms the state-of-the-art methods for both synthetic and authentic datasets. Code is available at https://github.com/I2-Multimedia-Lab/SaTQA
翻訳日:2023-12-13 17:09:58 公開日:2023-12-12
# DiffuVST:グローバル・ヒストリー誘導デノナイジングモデルによるフィクションシーンのナレーション

DiffuVST: Narrating Fictional Scenes with Global-History-Guided Denoising Models ( http://arxiv.org/abs/2312.07066v1 )

ライセンス: Link先を確認
Shengguang Wu, Mei Yuan, Qi Su(参考訳) 画像とビデオの作成の最近の進歩、特にAIベースの画像合成は、高度な抽象性と多様性を示す多くの視覚シーンの生成につながっている。 その結果、視覚的ストーリーテリング(VST)は、画像の集合から有意義で一貫性のある物語を生成するタスクであり、さらに困難になり、現実のイメージを超えてますます求められている。 通常自己回帰デコーダを使用する既存のVST技術は大きな進歩を遂げているが、推論速度が低く、合成シーンには適していない。 そこで本研究では,一連の視覚記述の生成を単一条件の雑音化過程としてモデル化する拡散系システムdiffuvstを提案する。 確率的かつ非自己回帰的な diffuvst の推論時間における性質により、非常に多様な物語をより効率的に生成することができる。 さらに、DiffuVSTは双方向のテキスト履歴ガイダンスとマルチモーダルアダプタモジュールを備えたユニークな設計で、文間コヒーレンスと画像からテキストへの忠実さを効果的に改善する。 4つの架空のビジュアルストーリーデータセットをカバーするストーリー生成タスクに関する広範な実験は、テキストの品質と推論速度の両方において、従来の自己回帰モデルよりもdiffuvstが優れていることを示している。

Recent advances in image and video creation, especially AI-based image synthesis, have led to the production of numerous visual scenes that exhibit a high level of abstractness and diversity. Consequently, Visual Storytelling (VST), a task that involves generating meaningful and coherent narratives from a collection of images, has become even more challenging and is increasingly desired beyond real-world imagery. While existing VST techniques, which typically use autoregressive decoders, have made significant progress, they suffer from low inference speed and are not well-suited for synthetic scenes. To this end, we propose a novel diffusion-based system DiffuVST, which models the generation of a series of visual descriptions as a single conditional denoising process. The stochastic and non-autoregressive nature of DiffuVST at inference time allows it to generate highly diverse narratives more efficiently. In addition, DiffuVST features a unique design with bi-directional text history guidance and multimodal adapter modules, which effectively improve inter-sentence coherence and image-to-text fidelity. Extensive experiments on the story generation task covering four fictional visual-story datasets demonstrate the superiority of DiffuVST over traditional autoregressive models in terms of both text quality and inference speed.
翻訳日:2023-12-13 17:02:42 公開日:2023-12-12
# MixStyle Approximation による効率的クロスドメインフェデレーション学習

Efficient Cross-Domain Federated Learning by MixStyle Approximation ( http://arxiv.org/abs/2312.07064v1 )

ライセンス: Link先を確認
Manuel R\"oder, Leon Heller, Maximilian M\"unch, Frank-Michael Schleif(参考訳) 相互接続されたエッジデバイスとセンサを備えたエッジデバイスが出現したことで、フェデレーション学習(fl)が注目され、データのプライバシを維持しながら分散学習を可能にするようになった。 しかし、flは実際のタスクにおいて、高価なデータラベリングとソースとターゲットサンプル間のドメインシフトという2つの課題に直面している。 本稿では,ハードウェア制約環境におけるクライアント適応のためのプライバシ保護とリソース効率のよいfl概念を提案する。 当社のアプローチには、ソースデータの事前トレーニングと、ローエンドクライアントによるターゲットデータの微調整を含む。 ソースおよびターゲットドメインデータから近似したインスタンスレベルの特徴統計量の確率混合により、ローカルクライアント適応プロセスが合理化される。 適合したパラメータは中央サーバに転送され、グローバルに集約される。 予備結果は, 下流タスクにおける競合性能を維持しつつ, 計算コストと伝送コストを低減できることを示す。

With the advent of interconnected and sensor-equipped edge devices, Federated Learning (FL) has gained significant attention, enabling decentralized learning while maintaining data privacy. However, FL faces two challenges in real-world tasks: expensive data labeling and domain shift between source and target samples. In this paper, we introduce a privacy-preserving, resource-efficient FL concept for client adaptation in hardware-constrained environments. Our approach includes server model pre-training on source data and subsequent fine-tuning on target data via low-end clients. The local client adaptation process is streamlined by probabilistic mixing of instance-level feature statistics approximated from source and target domain data. The adapted parameters are transferred back to the central server and globally aggregated. Preliminary results indicate that our method reduces computational and transmission costs while maintaining competitive performance on downstream tasks.
翻訳日:2023-12-13 17:02:19 公開日:2023-12-12
# 手続き的インタラクション生成によるヒューマン・オブジェクト間インタラクションのテンプレートフリー再構築

Template Free Reconstruction of Human-object Interaction with Procedural Interaction Generation ( http://arxiv.org/abs/2312.07063v1 )

ライセンス: Link先を確認
Xianghui Xie and Bharat Lal Bhatnagar and Jan Eric Lenssen and Gerard Pons-Moll(参考訳) 単一のRGB画像から3Dで人間とオブジェクトのインタラクションを再構築することは難しい作業であり、既存のデータ駆動手法は慎重に計算された3Dインタラクションデータセットに存在するオブジェクトを超えて一般化しない。 強力な相互作用と3次元形状の先行を学習するために大規模な実データをキャプチャすることは、人間と物体の相互作用の組合せの性質のために非常に高価である。 本稿では,ProciGen(Procedural Interaction Generation, 手続き的インタラクション生成)を提案する。 我々は3Dで1M以上の人間と物体の相互作用ペアを生成し、この大規模なデータを利用してHDM(Hierarchical Diffusion Model)を訓練する。 我々のHDMは、現実的な相互作用と高精度な人間と物体の形状の両方を学習する画像条件拡散モデルである。 ProciGenでトレーニングしたHDMは、テンプレートメッシュを必要とする事前メソッドよりも大幅に優れており、データセットはオブジェクトインスタンスを発見できない強力な一般化能力を持つトレーニングメソッドを可能にします。 私たちのコードとデータは、https://virtual humans.mpi-inf.mpg.de/procigen-hdm.comで公開されます。

Reconstructing human-object interaction in 3D from a single RGB image is a challenging task and existing data driven methods do not generalize beyond the objects present in the carefully curated 3D interaction datasets. Capturing large-scale real data to learn strong interaction and 3D shape priors is very expensive due to the combinatorial nature of human-object interactions. In this paper, we propose ProciGen (Procedural interaction Generation), a method to procedurally generate datasets with both, plausible interaction and diverse object variation. We generate 1M+ human-object interaction pairs in 3D and leverage this large-scale data to train our HDM (Hierarchical Diffusion Model), a novel method to reconstruct interacting human and unseen objects, without any templates. Our HDM is an image-conditioned diffusion model that learns both realistic interaction and highly accurate human and object shapes. Experiments show that our HDM trained with ProciGen significantly outperforms prior methods that requires template meshes and that our dataset allows training methods with strong generalization ability to unseen object instances. Our code and data will be publicly released at: https://virtualhumans.mpi-inf.mpg.de/procigen-hdm.
翻訳日:2023-12-13 17:02:05 公開日:2023-12-12
# ThinkBot: 思考連鎖推論による身体的指導

ThinkBot: Embodied Instruction Following with Thought Chain Reasoning ( http://arxiv.org/abs/2312.07062v1 )

ライセンス: Link先を確認
Guanxing Lu, Ziwei Wang, Changliu Liu, Jiwen Lu, Yansong Tang(参考訳) EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。 従来の手法では、エージェントのアクションプランを生成するための粗末な人間の指示を直接考慮しており、通常はアクション記述における命令の不整合のため、人間の目標達成に失敗する。 それとは対照的に,ThinkBotでは,人間の指示における思考連鎖が欠落した行動記述を復元し,エージェントが一貫性のある指示に従うことで人間の目標を達成できるようにする。 具体的には,まず大規模言語モデルに基づくインストラクションコンプタの設計を行い,インストラクションコンプタに知覚された環境と完結したサブゴールが考慮される連続したヒューマンインストラクション間の対話オブジェクトとの動作の欠如を復元する。 部分観察されたシーンセマンティックマップに基づいて,エージェントが複雑な目標を達成するために対話対象の位置を推定するオブジェクトローカライザを提案する。 シミュレーション環境における大規模な実験により、ThinkBotは成功率と実行効率の両面で、最先端のEIF手法よりも優れた性能を示した。

Embodied Instruction Following (EIF) requires agents to complete human instruction by interacting objects in complicated surrounding environments. Conventional methods directly consider the sparse human instruction to generate action plans for agents, which usually fail to achieve human goals because of the instruction incoherence in action descriptions. On the contrary, we propose ThinkBot that reasons the thought chain in human instruction to recover the missing action descriptions, so that the agent can successfully complete human goals by following the coherent instruction. Specifically, we first design an instruction completer based on large language models to recover the missing actions with interacted objects between consecutive human instruction, where the perceived surrounding environments and the completed sub-goals are considered for instruction completion. Based on the partially observed scene semantic maps, we present an object localizer to infer the position of interacted objects for agents to achieve complex human goals. Extensive experiments in the simulated environment show that our ThinkBot outperforms the state-of-the-art EIF methods by a sizable margin in both success rate and execution efficiency.
翻訳日:2023-12-13 17:01:42 公開日:2023-12-12
# maxq: n:m スパーシティネットワークのための多軸クエリ

MaxQ: Multi-Axis Query for N:M Sparsity Network ( http://arxiv.org/abs/2312.07061v1 )

ライセンス: Link先を確認
Jingyang Xiang and Siqi Li and Junhao Chen and Zhuangzhi Chen and Tianxin Huang and Linpeng Peng and Yong Liu(参考訳) N:Mスパシティは、構造化および非構造化のスパシティと比較して、顕著なパフォーマンスと遅延トレードオフのために注目されている。 しかし、既存のn:mスパーシティ法はブロック間の重みの相対的重要性を区別せず、重要な重みを過小評価する。 さらに、ネットワーク全体にn:mのスパーシティを直接適用することで、深刻な情報損失を発生させる。 したがって、それらはまだ準最適である。 本稿では,これらの問題を解決するために,MaxQと呼ばれる効率的なマルチアクシスクエリ手法を提案する。 トレーニング中、maxqは、複数の軸間の重みの重要性を考慮して、ソフトなn:mマスクを生成するダイナミックなアプローチを採用している。 この方法はより重要度を高め、より効果的な更新を保証する。 一方、N:M重みブロックの割合を徐々に増加させる空間戦略が適用され、プランニングによる損傷からネットワークを徐々に修復することができる。 実行中、N:Mソフトマスクは定数としてプリ計算され、スパースパターンに歪みを生じさせることなく重みに折り畳まれる。 総合的な実験により、MaxQは画像分類、オブジェクト検出、インスタンスセグメンテーションを含む様々なコンピュータビジョンタスクにおいて、多様なCNNアーキテクチャ間で一貫した改善を達成している。 1:16スパースパターンを持つresnet50の場合、maxqはimagenet上で74.6\%top-1精度を達成でき、最先端よりも2.8\%改善できる。

N:M sparsity has received increasing attention due to its remarkable performance and latency trade-off compared with structured and unstructured sparsity. However, existing N:M sparsity methods do not differentiate the relative importance of weights among blocks and leave important weights underappreciated. Besides, they directly apply N:M sparsity to the whole network, which will cause severe information loss. Thus, they are still sub-optimal. In this paper, we propose an efficient and effective Multi-Axis Query methodology, dubbed as MaxQ, to rectify these problems. During the training, MaxQ employs a dynamic approach to generate soft N:M masks, considering the weight importance across multiple axes. This method enhances the weights with more importance and ensures more effective updates. Meanwhile, a sparsity strategy that gradually increases the percentage of N:M weight blocks is applied, which allows the network to heal from the pruning-induced damage progressively. During the runtime, the N:M soft masks can be precomputed as constants and folded into weights without causing any distortion to the sparse pattern and incurring additional computational overhead. Comprehensive experiments demonstrate that MaxQ achieves consistent improvements across diverse CNN architectures in various computer vision tasks, including image classification, object detection and instance segmentation. For ResNet50 with 1:16 sparse pattern, MaxQ can achieve 74.6\% top-1 accuracy on ImageNet and improve by over 2.8\% over the state-of-the-art.
翻訳日:2023-12-13 17:01:22 公開日:2023-12-12
# 雑音環境における音声信号解析のためのLSTM-CNNネットワーク

LSTM-CNN Network for Audio Signature Analysis in Noisy Environments ( http://arxiv.org/abs/2312.07059v1 )

ライセンス: Link先を確認
Praveen Damacharla, Hamid Rajabalipanah, and Mohammad Hosein Fakheri(参考訳) 自動的に人を数え、仕事、展示、ショッピングモール、販売、産業利用で性別を指定する複数のアプリケーションがある。 現在の音声検出法は動作が良好であると考えられるが、ほとんどの場合、性別に加えて、現在の話者数も不明であり、多くのクラスが存在するため、分類方法が適していない。 本研究では,長期間のメモリ畳み込みニューラルネットワーク(LSTM-CNN)に着目し,音声データの時間的・周波数依存的な特徴を抽出し,各フレームにおけるアクティブ話者の数/性別をノイズの多い環境下で推定する。 最大話者数を10と考えて,公的な都市,工業的状況,モール,展示場,職場,自然環境において,男性,女性,背景雑音の組み合わせが多様である19,000個の音声サンプルを用いて学習を行った。 この概念の証明は、数と性別を検出する上で、約0.019/0.017のトレーニング/検証MSE値で有望な性能を示す。

There are multiple applications to automatically count people and specify their gender at work, exhibitions, malls, sales, and industrial usage. Although current speech detection methods are supposed to operate well, in most situations, in addition to genders, the number of current speakers is unknown and the classification methods are not suitable due to many possible classes. In this study, we focus on a long-short-term memory convolutional neural network (LSTM-CNN) to extract time and / or frequency-dependent features of the sound data to estimate the number / gender of simultaneous active speakers at each frame in noisy environments. Considering the maximum number of speakers as 10, we have utilized 19000 audio samples with diverse combinations of males, females, and background noise in public cities, industrial situations, malls, exhibitions, workplaces, and nature for learning purposes. This proof of concept shows promising performance with training/validation MSE values of about 0.019/0.017 in detecting count and gender.
翻訳日:2023-12-13 17:00:56 公開日:2023-12-12
# クロスパースペクティブリンクを仮定した関係量子力学:内部矛盾スキーム

Relational Quantum Mechanics with Cross-Perspective Links Postulate: an Internally Inconsistent Scheme ( http://arxiv.org/abs/2312.07056v1 )

ライセンス: Link先を確認
Marcin Markiewicz and Marek \.Zukowski(参考訳) 本稿では、関係量子力学(RQM)の中心概念である相対事実の状況について、クロスパースペクティブリンク仮定と呼ばれる新たなRQM修正の文脈で論じる。 新しい公理は、適切な測定によって、他のオブザーバシステムによって得られた相対的な結果/成果の値を学ぶ。 我々は,相対的な事実が予測力や因果力を持たず,相対的な事実が有意な隠れ変数となり,特定の測定結果が因果的に決定されるようなWigner-Friend-typeのシナリオについて議論する。 しかし、クロスパースペクティブリンク公理(cross-perspective link axiom)はrqmの他の公理を無効にしており、ウィグナー-フレンドのシナリオでは、友人の相対的事実の出現にもかかわらず、rqmは相互作用のユニタリ変換の後、友人とシステムに絡み合った状態を割り当てる。 RQMによるこの量子力学的状態は、ウィグナーの状況を適切に記述している。 このことは、クロスパースペクティブリンク公理を持つRQMが内部的に矛盾する隠れ変数理論であり、任意の意味で量子力学の解釈として扱うことはできないことを示している。

We discuss the status of relative facts - the central concept of Relational Quantum Mechanics (RQM) - in the context of the new amendment to RQM called cross-perspective links postulate. The new axiom states that by a proper measurement one learns the value of the relative outcome/fact earlier obtained by another observer-system. We discuss a Wigner-Friend-type scenario in which, without cross-perspective links postulate, relative facts have no any predictive or causal power, whereas including cross-perspective links makes them effectively hidden variables, which causally determine outcomes of specific measurements. However, cross-perspective links axiom invalidates the other axiom of RQM, the one which states that in a Wigner-Friend scenario, RQM assigns an entangled state to the Friend and System after the unitary transformation of their interaction, despite the appearance of the relative fact for the Friend. This quantum mechanical state according to RQM properly describes the situation for Wigner. This shows that RQM with cross-perspective links axiom is an internally inconsistent hidden variable theory and therefore cannot be treated as an interpretation of quantum mechanics in any sense.
翻訳日:2023-12-13 17:00:38 公開日:2023-12-12
# ハッシュ関数による局所微分プライバシに基づくサブグラフカウントの通信コスト削減

Communication Cost Reduction for Subgraph Counting under Local Differential Privacy via Hash Functions ( http://arxiv.org/abs/2312.07055v1 )

ライセンス: Link先を確認
Quentin Hillebrand, Vorapong Suppakitpaisarn and Tetsuo Shibuya(参考訳) エッジローカルディファレンシャルプライバシの下でサブグラフをカウントする場合の通信コストを削減するためのハッシュ関数の利用を提案する。 グラフ統計の計算には、エッジの局所微分プライバシー下でのサブグラフ数を含む様々なアルゴリズムが存在するが、多くのアルゴリズムは高い通信コストを被り、大きなグラフでは効率が低下する。 データ圧縮は、差分プライバシーの典型的なアプローチであるが、そのローカル差分プライバシーのアプリケーションは、すべてのノードが再現できる圧縮形式を必要とする。 本研究では,線形整合ハッシュを導入する。 サンプリングレートが$s$であれば、公開グラフ統計のばらつきを増加させるコストを$s^2$とすることで、通信コストを$s^2$に削減できる。 実験の結果,提案手法が通信コストに合致すると,先行アルゴリズムの性能と比較して最大1000倍の精度で三角数に対する$\ell_2$-errorを低減できることがわかった。

We suggest the use of hash functions to cut down the communication costs when counting subgraphs under edge local differential privacy. While various algorithms exist for computing graph statistics, including the count of subgraphs, under the edge local differential privacy, many suffer with high communication costs, making them less efficient for large graphs. Though data compression is a typical approach in differential privacy, its application in local differential privacy requires a form of compression that every node can reproduce. In our study, we introduce linear congruence hashing. With a sampling rate of $s$, our method can cut communication costs by a factor of $s^2$, albeit at the cost of increasing variance in the published graph statistic by a factor of $s$. The experimental results indicate that, when matched for communication costs, our method achieves a reduction in the $\ell_2$-error for triangle counts by up to 1000 times compared to the performance of leading algorithms.
翻訳日:2023-12-13 17:00:11 公開日:2023-12-12
# 光コヒーレンストモグラフィーにおける高近視スクリーニングのための調整可能なロバスト変換器

Adjustable Robust Transformer for High Myopia Screening in Optical Coherence Tomography ( http://arxiv.org/abs/2312.07052v1 )

ライセンス: Link先を確認
Xiao Ma, Zetian Zhang, Zexuan Ji, Kun Huang, Na Su, Songtao Yuan, Qiang Chen(参考訳) 近視 (myopia) は、眼球が細長いことによる視覚障害の症状である。 画像データは高近視と病理近視の研究に重要な材料である。 球面同値と軸長の測定は、高い近視を識別するための金の基準であるが、それらとマッチングするための画像データは乏しい。 さらに, 高近視の定義基準は研究によって異なり, 自動検診にサンプルを含めるには, 適切な解釈可能性の評価が必要である。 本研究では,光コヒーレンストモグラフィー(OCT)データの高ミオピアスクリーニングのためのArtiable robust transformer (ARTran) モデルを提案する。 視覚トランスフォーマに基づいて,高近視のより識別的な特徴を捉えるための異方性パッチ埋め込み(ape)を提案する。 可変スクリーニング条件下でモデルを効果的にするために、固定されたクラストークンを置き換えるための調整可能なクラス埋め込み(ACE)を提案し、異なる条件に適応するように出力を変更する。 高ミオピアおよび低ミオピア閾値におけるデータの混乱を考慮すると、ラベルノイズ学習戦略を導入し、モデルの堅牢性を高めるためのシフトサブスペース遷移行列(SST)を提案する。 さらに、上記の2つの構造を組み合わせることで、不確実性評価の証拠が得られる。 実験の結果,提案手法の有効性と信頼性が示された。 コードはhttps://github.com/maxiao0234/artran.com/。

Myopia is a manifestation of visual impairment caused by an excessively elongated eyeball. Image data is critical material for studying high myopia and pathological myopia. Measurements of spherical equivalent and axial length are the gold standards for identifying high myopia, but the available image data for matching them is scarce. In addition, the criteria for defining high myopia vary from study to study, and therefore the inclusion of samples in automated screening efforts requires an appropriate assessment of interpretability. In this work, we propose a model called adjustable robust transformer (ARTran) for high myopia screening of optical coherence tomography (OCT) data. Based on vision transformer, we propose anisotropic patch embedding (APE) to capture more discriminative features of high myopia. To make the model effective under variable screening conditions, we propose an adjustable class embedding (ACE) to replace the fixed class token, which changes the output to adapt to different conditions. Considering the confusion of the data at high myopia and low myopia threshold, we introduce the label noise learning strategy and propose a shifted subspace transition matrix (SST) to enhance the robustness of the model. Besides, combining the two structures proposed above, the model can provide evidence for uncertainty evaluation. The experimental results demonstrate the effectiveness and reliability of the proposed method. Code is available at: https://github.com/maxiao0234/ARTran.
翻訳日:2023-12-13 16:59:51 公開日:2023-12-12
# マスクを監督する: 統一マスク情報を活用した教師なし3次元ポーズ推定

Mask as Supervision: Leveraging Unified Mask Information for Unsupervised 3D Pose Estimation ( http://arxiv.org/abs/2312.07051v1 )

ライセンス: Link先を確認
Yuchen Yang, Yu Qiao, Xiao Sun(参考訳) 単眼rgb画像からの3次元人物ポーズの自動推定はコンピュータビジョンにおいて困難かつ未解決の問題である。 教師ありの方法では、3dポーズデータセットの多様性が限られているため、アプローチは労力のかかるアノテーションと一般化能力に大きく依存している。 これらの課題に対処するために,マスクを教師なし3次元ポーズ推定の監督として利用する統一フレームワークを提案する。 一般的な教師なしセグメンテーションアルゴリズムでは、提案モデルは、粗いものから細かいものまで正確なポーズ情報を利用する骨格と物理表現を用いる。 従来の教師なしアプローチと比較して、アノテーションなしデータの処理を可能にし、使い勝手の良い推定結果を提供する、完全に教師なしの方法で人間の骨格を整理する。 ヒト3.6M と MPI-INF-3DHP データセットのポーズ推定性能について総合実験を行った。 アプリ内データセットに関するさらなる実験は、モデルを強化するためにより多くのデータにアクセスする能力を示している。 コードはhttps://github.com/charrrlie/mask-as-supervisionで入手できる。

Automatic estimation of 3D human pose from monocular RGB images is a challenging and unsolved problem in computer vision. In a supervised manner, approaches heavily rely on laborious annotations and present hampered generalization ability due to the limited diversity of 3D pose datasets. To address these challenges, we propose a unified framework that leverages mask as supervision for unsupervised 3D pose estimation. With general unsupervised segmentation algorithms, the proposed model employs skeleton and physique representations that exploit accurate pose information from coarse to fine. Compared with previous unsupervised approaches, we organize the human skeleton in a fully unsupervised way which enables the processing of annotation-free data and provides ready-to-use estimation results. Comprehensive experiments demonstrate our state-of-the-art pose estimation performance on Human3.6M and MPI-INF-3DHP datasets. Further experiments on in-the-wild datasets also illustrate the capability to access more data to boost our model. Code will be available at https://github.com/Charrrrrlie/Mask-as-Supervision.
翻訳日:2023-12-13 16:59:30 公開日:2023-12-12
# 実誤りを注入する学習による実誤り訂正の改善

Improving Factual Error Correction by Learning to Inject Factual Errors ( http://arxiv.org/abs/2312.07049v1 )

ライセンス: Link先を確認
Xingwei He, Qianru Zhang, A-Long Jin, Jun Ma, Yuan Yuan, Siu Ming Yiu(参考訳) 事実的誤り訂正(factual error correction, fec)は、虚偽の主張における事実的誤りを最小限の編集で修正することを目的としている。 このタスクは、大規模な言語モデルが直面する幻覚問題の緩和に不可欠である。 ペアデータ(すなわち虚偽のクレームとそれに対応する正しいクレーム)の欠如を考えると、既存の方法は通常、マスクの正しいパラダイムを採用する。 このパラダイムは、不正なクレームと正しいクレームにのみ依存するため、遠方の監督された方法と呼ばれる。 これらの方法は、補正器で修正する前に偽クレーム内の事実エラーを明示的に識別するマスカを必要とする。 しかし、マスカを訓練するためのペアデータがないため、クレーム内の事実エラーを正確に特定することは困難である。 そこで本研究では,3段階の遠方監視法である誤り(life)を学習することでfecを改善することを提案する。 具体的には、まず、マスク・then-corrupt プロシージャを用いて破損者を訓練し、故意に事実エラーを正しいテキストに導入する。 その後、破損者は正しいクレームに適用され、かなりの量のペアデータを生成する。 その後、低品質データをフィルタリングし、残りのデータを使って修正者を訓練します。 特に、我々の補正器はマスカを必要としないため、明示的な事実的エラー識別に関連するボトルネックを回避できる。 まず,SARIファイナルの10.59ポイント(改善率19.3%)において,従来の最良性能の遠隔監視手法よりも優れた性能を示した。 第二に、ChatGPTがコンテキスト内例によって引き起こされたのと比較しても、LIFEはSARIファイナルにおいて7.16ポイントの優位性を達成する。

Factual error correction (FEC) aims to revise factual errors in false claims with minimal editing, making them faithful to the provided evidence. This task is crucial for alleviating the hallucination problem encountered by large language models. Given the lack of paired data (i.e., false claims and their corresponding correct claims), existing methods typically adopt the mask-then-correct paradigm. This paradigm relies solely on unpaired false claims and correct claims, thus being referred to as distantly supervised methods. These methods require a masker to explicitly identify factual errors within false claims before revising with a corrector. However, the absence of paired data to train the masker makes accurately pinpointing factual errors within claims challenging. To mitigate this, we propose to improve FEC by Learning to Inject Factual Errors (LIFE), a three-step distantly supervised method: mask-corrupt-correct. Specifically, we first train a corruptor using the mask-then-corrupt procedure, allowing it to deliberately introduce factual errors into correct text. The corruptor is then applied to correct claims, generating a substantial amount of paired data. After that, we filter out low-quality data, and use the remaining data to train a corrector. Notably, our corrector does not require a masker, thus circumventing the bottleneck associated with explicit factual error identification. Our experiments on a public dataset verify the effectiveness of LIFE in two key aspects: Firstly, it outperforms the previous best-performing distantly supervised method by a notable margin of 10.59 points in SARI Final (19.3% improvement). Secondly, even compared to ChatGPT prompted with in-context examples, LIFE achieves a superiority of 7.16 points in SARI Final.
翻訳日:2023-12-13 16:59:14 公開日:2023-12-12
# オブジェクト指向物体検出のためのエッジワッサースタイン距離損失

Edge Wasserstein Distance Loss for Oriented Object Detection ( http://arxiv.org/abs/2312.07048v1 )

ライセンス: Link先を確認
Yuke Zhu, Yumeng Ruan, Zihua Xiong, Sheng Guo(参考訳) 回帰損失設計はオブジェクト指向オブジェクト検出に不可欠なトピックである。 角度の周期性と幅と高さの定義のあいまいさにより、従来のL1距離損失とその変異は計量の不連続性と正方形問題に悩まされている。 解として、分布に基づく手法は、向き付けされたボックスを分布として表現することで大きな利点を示す。 ガウス分布を応用して距離測度の解析形式を得るのと異なり,新しい向き付け回帰損失であるwasserstein distance (ewd) 損失を提案し,正方形問題を緩和する。 具体的には、向き付けボックス(obox)表現に対して、確率密度関数がエッジ上の非零である特別に設計された分布を選択する。 このことから,wasserstein距離を指標として発展させる。 さらに、OBoxのエッジ表現に基づいて、EWD損失を4次および多項式回帰シナリオに一般化することができる。 複数の一般的なデータセットと異なる検出器の実験により,提案手法の有効性が示された。

Regression loss design is an essential topic for oriented object detection. Due to the periodicity of the angle and the ambiguity of width and height definition, traditional L1-distance loss and its variants have been suffered from the metric discontinuity and the square-like problem. As a solution, the distribution based methods show significant advantages by representing oriented boxes as distributions. Differing from exploited the Gaussian distribution to get analytical form of distance measure, we propose a novel oriented regression loss, Wasserstein Distance(EWD) loss, to alleviate the square-like problem. Specifically, for the oriented box(OBox) representation, we choose a specially-designed distribution whose probability density function is only nonzero over the edges. On this basis, we develop Wasserstein distance as the measure. Besides, based on the edge representation of OBox, the EWD loss can be generalized to quadrilateral and polynomial regression scenarios. Experiments on multiple popular datasets and different detectors show the effectiveness of the proposed method.
翻訳日:2023-12-13 16:58:42 公開日:2023-12-12
# 圧縮を再考する:大規模言語モデルにおける潜在特徴の低次モデリング

Rethinking Compression: Reduced Order Modelling of Latent Features in Large Language Models ( http://arxiv.org/abs/2312.07046v1 )

ライセンス: Link先を確認
Arnav Chavan, Nahush Lele and Deepak Gupta(参考訳) 大規模言語モデル(llm)の大規模化により、従来の圧縮手法の直接適用は実用的でないことが証明される。 最小限の勾配更新を伴う計算要求は、特にコンシューマグレードのハードウェアにおいて問題となる。 本稿では,特徴空間における低ランク分解と重み空間の再パラメータ化を伴う低次モデルに基づくllmのパラメトリック・実用的な圧縮手法を提案する。 特に、この圧縮技術は階層的に動作し、GPUデバイスの必要性を回避し、メモリと時間の両方の厳密な制約の中で数十億のモデルの圧縮を可能にする。 本手法は, マトリックス分解を利用したモデル圧縮の著しい進歩を示し, 従来の構造的プルーニング法と比較して優れた効果を示す。

Due to the substantial scale of Large Language Models (LLMs), the direct application of conventional compression methodologies proves impractical. The computational demands associated with even minimal gradient updates present challenges, particularly on consumer-grade hardware. This paper introduces an innovative approach for the parametric and practical compression of LLMs based on reduced order modelling, which entails low-rank decomposition within the feature space and re-parameterization in the weight space. Notably, this compression technique operates in a layer-wise manner, obviating the need for a GPU device and enabling the compression of billion-scale models within stringent constraints of both memory and time. Our method represents a significant advancement in model compression by leveraging matrix decomposition, demonstrating superior efficacy compared to the prevailing state-of-the-art structured pruning method.
翻訳日:2023-12-13 16:58:26 公開日:2023-12-12
# 電力系統の大規模基礎モデル

Large Foundation Models for Power Systems ( http://arxiv.org/abs/2312.07044v1 )

ライセンス: Link先を確認
Chenghao Huang, Siyang Li, Ruohong Liu, Hao Wang, Yize Chen(参考訳) 大規模言語モデル(llm)のような基盤モデルは、タスク固有のデータ収集やモデルトレーニングなしで、幅広いフォーマットフリーなクエリに応答でき、大規模電力システムのモデリングと運用のための様々な研究とアプリケーション機会を生み出す。 本稿では, GPT-4のような大規模基盤モデルがどのように開発されたのかを概説し, 電力・エネルギーシステムの課題にどのように活用できるかを論じる。 まず, 最適潮流(opf), 電気自動車(ev)スケジューリング, 電力工学技術報告の知識検索, 状況把握など, 電力系統領域を横断する4つの代表的なタスクにおける性能を検証することにより, 既存の基礎モデルの可能性を検討する。 その結果, 電力系統の運用パイプラインの効率と信頼性を高める上で, 基礎モデルの強力な能力が示された。 また、電力システムアプリケーションにおける基礎モデルの今後の展開に関する提案と予測も提供する。

Foundation models, such as Large Language Models (LLMs), can respond to a wide range of format-free queries without any task-specific data collection or model training, creating various research and application opportunities for the modeling and operation of large-scale power systems. In this paper, we outline how such large foundation model such as GPT-4 are developed, and discuss how they can be leveraged in challenging power and energy system tasks. We first investigate the potential of existing foundation models by validating their performance on four representative tasks across power system domains, including the optimal power flow (OPF), electric vehicle (EV) scheduling, knowledge retrieval for power engineering technical reports, and situation awareness. Our results indicate strong capabilities of such foundation models on boosting the efficiency and reliability of power system operational pipelines. We also provide suggestions and projections on future deployment of foundation models in power system applications.
翻訳日:2023-12-13 16:58:12 公開日:2023-12-12
# Envy-Free Graph Cutting の複雑さ

The Complexity of Envy-Free Graph Cutting ( http://arxiv.org/abs/2312.07043v1 )

ライセンス: Link先を確認
Argyrios Deligkas, Eduard Eiben, Robert Ganian, Thekla Hamm, Sebastian Ordyniak(参考訳) 我々は,異なる好みのエージェント間で,不均質な資源の集合を公平に分割する問題を考える。 我々は、リソースが連結グラフのエッジに対応するような設定に集中し、すべてのエージェントがこのグラフの連結部分を割り当てなければならない。 問題はNP完全であり、エージェント数とグラフ内のエッジ数という2つの自然な複雑性尺度に関して、その複雑さを分析する。 この問題は2つのエージェントを持つインスタンスに対してもNPハードのままであるが、グラフの構造特性に基づいてエージェント数が一定である場合の複雑性を特徴付ける二分法を提供する。 後者の場合、グラフが一定数のエッジを持つ場合、多項式時間アルゴリズムを設計する。

We consider the problem of fairly dividing a set of heterogeneous divisible resources among agents with different preferences. We focus on the setting where the resources correspond to the edges of a connected graph, every agent must be assigned a connected piece of this graph, and the fairness notion considered is the classical envy freeness. The problem is NP-complete, and we analyze its complexity with respect to two natural complexity measures: the number of agents and the number of edges in the graph. While the problem remains NP-hard even for instances with 2 agents, we provide a dichotomy characterizing the complexity of the problem when the number of agents is constant based on structural properties of the graph. For the latter case, we design a polynomial-time algorithm when the graph has a constant number of edges.
翻訳日:2023-12-13 16:57:55 公開日:2023-12-12
# スタートアップにおけるソフトウェア工学的目標,課題,実践の進展モデル

A Progression Model of Software Engineering Goals, Challenges, and Practices in Start-Ups ( http://arxiv.org/abs/2312.07106v1 )

ライセンス: Link先を確認
Eriks Klotins, Michael Unterkalmsteiner, Panagiota Chatzipetrou, Tony Gorschek, Rafael Prikladnicki, Nirnaya Tripathi, Leandro Bento Pompermaier(参考訳) コンテキスト: ソフトウェアスタートアップは、イノベーションとソフトウェア集約製品のサプライヤーとして現れています。 しかし、従来のソフトウェアエンジニアリングのプラクティスは、文脈では評価されず、スタートアップの目標や課題にも適用されない。 その結果、スタートアップのコンテキストでは、ソフトウェアエンジニアリングに対するサポートが不十分です。 目標: スタートアップ企業におけるエンジニアリングの目標、課題、プラクティスに関するデータを収集し、スタートアップにおけるエンジニアリングの作業を特徴付けるトレンドやパターンを確認します。 このようなデータにより、研究者は目標と課題がプラクティスとどのように関係しているかをよりよく理解することができる。 この理解は、これらの目標と課題に対処するソリューションの設計を目的とした将来の研究を知らせる。 さらに、これらの傾向とパターンは、エンジニアリングプラクティスにおいてよりインフォームドな決定を下すのに役立ちます。 方法: ケースサーベイ手法を用いて,ソフトウェアスタートアップの大規模なサンプルから,手作業で詳細な経験を収集する。 オープンコーディングとクロスケース解析を用いてパターンを記述・同定し,統計的解析により相関する。 結果: 84のスタートアップケースを分析し,スタートアップに共通する16の目標,9の課題,16のエンジニアリングプラクティスを特定します。 私たちはこれらの目標、課題、プラクティスをライフサイクルステージ(開始、安定化、成長、成熟)にマップしました。 したがって、スタートアップにおけるソフトウェアエンジニアリングの取り組みを導く進歩モデルの作成。 結論: スタートアップはある程度同じ課題に直面し、既存の企業と同じプラクティスを実践していると結論づける。 しかし、スタートアップにおけるソフトウェアエンジニアリングの主な課題は、複数のプロセス領域を一度に進化させることであり、重大なエラーには多少の差がある。

Context: Software start-ups are emerging as suppliers of innovation and software-intensive products. However, traditional software engineering practices are not evaluated in the context, nor adopted to goals and challenges of start-ups. As a result, there is insufficient support for software engineering in the start-up context. Objective: We aim to collect data related to engineering goals, challenges, and practices in start-up companies to ascertain trends and patterns characterizing engineering work in start-ups. Such data allows researchers to understand better how goals and challenges are related to practices. This understanding can then inform future studies aimed at designing solutions addressing those goals and challenges. Besides, these trends and patterns can be useful for practitioners to make more informed decisions in their engineering practice. Method: We use a case survey method to gather first-hand, in-depth experiences from a large sample of software start-ups. We use open coding and cross-case analysis to describe and identify patterns, and corroborate the findings with statistical analysis. Results: We analyze 84 start-up cases and identify 16 goals, 9 challenges, and 16 engineering practices that are common among start-ups. We have mapped these goals, challenges, and practices to start-up life-cycle stages (inception, stabilization, growth, and maturity). Thus, creating the progression model guiding software engineering efforts in start-ups. Conclusions: We conclude that start-ups to a large extent face the same challenges and use the same practices as established companies. However, the primary software engineering challenge in start-ups is to evolve multiple process areas at once, with a little margin for serious errors.
翻訳日:2023-12-13 16:51:25 公開日:2023-12-12
# SGLangを用いた大規模言語モデルの効率的なプログラミング

Efficiently Programming Large Language Models using SGLang ( http://arxiv.org/abs/2312.07104v1 )

ライセンス: Link先を確認
Lianmin Zheng, Liangsheng Yin, Zhiqiang Xie, Jeff Huang, Chuyue Sun, Cody Hao Yu, Shiyi Cao, Christos Kozyrakis, Ion Stoica, Joseph E. Gonzalez, Clark Barrett, Ying Sheng(参考訳) 大規模言語モデル(LLM)は、複数の連鎖生成呼び出し、高度なプロンプト技術、制御フロー、および外部環境との相互作用を必要とする複雑なタスクにますます使われている。 しかし、これらのアプリケーションのプログラミングと実行のための効率的なシステムは不足している。 このギャップを埋めるために,LLMのための構造化生成言語であるSGLangを紹介する。 SGLangはLLMの効率的なプログラミング用に設計されており、一般的なLLMプログラミングパターンにプリミティブを組み込んでいる。 我々はSGLangをPythonに組み込まれたドメイン固有言語として実装し、SGLang用のインタプリタ、コンパイラ、高性能ランタイムを開発した。 これらのコンポーネントは並列処理、バッチ処理、キャッシュ、共有、その他のコンパイルテクニックなどの最適化を可能にするために協力する。 さらに,RadixAttentionを提案する。これは,キーバリュー(KV)キャッシュのLRUキャッシュをラディクスツリー内のすべての要求に対して保持し,実行時に複数の世代コールをまたいだKVキャッシュの自動再利用を可能にする技術である。 SGLangはLLMプログラムの記述を簡略化し、実行効率を高める。 我々の実験は、SGLangがコードの複雑さを減らし制御を増強しつつ、一般的なLLMタスクを最大5倍高速化できることを示した。

Large language models (LLMs) are increasingly used for complex tasks requiring multiple chained generation calls, advanced prompting techniques, control flow, and interaction with external environments. However, efficient systems for programming and executing these applications are lacking. To bridge this gap, we introduce SGLang, a Structured Generation Language for LLMs. SGLang is designed for the efficient programming of LLMs and incorporates primitives for common LLM programming patterns. We have implemented SGLang as a domain-specific language embedded in Python, and we developed an interpreter, a compiler, and a high-performance runtime for SGLang. These components work together to enable optimizations such as parallelism, batching, caching, sharing, and other compilation techniques. Additionally, we propose RadixAttention, a novel technique that maintains a Least Recently Used (LRU) cache of the Key-Value (KV) cache for all requests in a radix tree, enabling automatic KV cache reuse across multiple generation calls at runtime. SGLang simplifies the writing of LLM programs and boosts execution efficiency. Our experiments demonstrate that SGLang can speed up common LLM tasks by up to 5x, while reducing code complexity and enhancing control.
翻訳日:2023-12-13 16:51:00 公開日:2023-12-12
# 簡潔な超球面分類の計算複雑性

The Computational Complexity of Concise Hypersphere Classification ( http://arxiv.org/abs/2312.07103v1 )

ライセンス: Link先を確認
Eduard Eiben, Robert Ganian, Iyad Kanj, Sebastian Ordyniak, Stefan Szeider(参考訳) ハイパースフィア分類(hypersphere classification)は、実数値データとバイナリデータの分類について簡単に説明できる古典的かつ基礎的な手法である。 しかし、実数値データよりもバイナリデータを扱う場合、ハイパースフィア分類による(理想的には簡潔な)説明を得るのは難しい。 本稿では,二元データに対する超球分類問題の複雑性理論による最初の研究を行う。 我々は,細粒度パラメータ化複雑性パラダイムを用いて,入力データに現れる構造的特性の影響と潜在的簡潔さの制約を分析する。 以上の結果から,バイナリデータの超球分分類のための新しい固定パラメータアルゴリズムや,より厳密で簡潔な説明が得られている。

Hypersphere classification is a classical and foundational method that can provide easy-to-process explanations for the classification of real-valued and binary data. However, obtaining an (ideally concise) explanation via hypersphere classification is much more difficult when dealing with binary data than real-valued data. In this paper, we perform the first complexity-theoretic study of the hypersphere classification problem for binary data. We use the fine-grained parameterized complexity paradigm to analyze the impact of structural properties that may be present in the input data as well as potential conciseness constraints. Our results include stronger lower bounds and new fixed-parameter algorithms for hypersphere classification of binary data, which can find an exact and concise explanation when one exists.
翻訳日:2023-12-13 16:50:38 公開日:2023-12-12
# エンドツーエンドディープラーニングを用いたマルチコアファイバー内視鏡のキャリブレーションフリー定量的位相イメージング

Calibration-free quantitative phase imaging in multi-core fiber endoscopes using end-to-end deep learning ( http://arxiv.org/abs/2312.07102v1 )

ライセンス: Link先を確認
Jiawei Sun, Bin Zhao, Dong Wang, Zhigang Wang, Jie Zhang, Nektarios Koukourakis, Juergen W. Czarske, Xuelong Li(参考訳) マルチコアファイバ(MCF)を介するQPIは,生体内無ラベル内視鏡的画像モダリティの出現であり,侵襲性は最小である。 しかし、従来の反復位相探索アルゴリズムの計算要求はリアルタイムイメージングの可能性を制限している。 位相再構成時間を5.5msに大幅に短縮し、181fpsの動画レートイメージングを可能にする学習型MCF位相イメージング法を実証した。 さらに,MCF位相イメージングに適した最初のオープンソースデータセットを自動生成する,50,176対のスペックルと位相画像からなる革新的な光学システムを提案する。 訓練されたディープニューラルネットワーク(dnn)は、平均忠実度99.8\%の実験でロバストな位相再構成性能を示す。 このような効率的なファイバフェーズイメージングアプローチは、着脱困難領域におけるQPIの適用範囲を広げることができる。

Quantitative phase imaging (QPI) through multi-core fibers (MCFs) has been an emerging in vivo label-free endoscopic imaging modality with minimal invasiveness. However, the computational demands of conventional iterative phase retrieval algorithms have limited their real-time imaging potential. We demonstrate a learning-based MCF phase imaging method, that significantly reduced the phase reconstruction time to 5.5 ms, enabling video-rate imaging at 181 fps. Moreover, we introduce an innovative optical system that automatically generated the first open-source dataset tailored for MCF phase imaging, comprising 50,176 paired speckle and phase images. Our trained deep neural network (DNN) demonstrates robust phase reconstruction performance in experiments with a mean fidelity of up to 99.8\%. Such an efficient fiber phase imaging approach can broaden the applications of QPI in hard-to-reach areas.
翻訳日:2023-12-13 16:50:26 公開日:2023-12-12
# 異常値と異常検出に関するメタサーベイ

Meta-survey on outlier and anomaly detection ( http://arxiv.org/abs/2312.07101v1 )

ライセンス: Link先を確認
Madalina Olteanu (CEREMADE), Fabrice Rossi (CEREMADE), Florian Yger (MILES, LAMSADE)(参考訳) モデル推定とデータ処理に対する外れ値と異常の影響は、数十年にわたって様々な分野にまたがる広範な研究機関によって証明されているように、最も重要視されている。 その結果、多くのレビュー、調査、教科書が既存の文献をまとめようとしており、統計学とデータマイニングのコミュニティから幅広い方法を取り上げている。 研究を組織化し、まとめるこれらの取り組みは重要ではないが、特定の応用分野や科学分野に関係なく、あらゆるデータ集約型アプリケーションにおいて、外れ値や異常が広範に存在しているため、固有の課題に直面している。 その結果、結果として得られた論文の収集は、鮮やかで幾分異質なままである。 この領域における知識組織の必要性に対処するため、本論文では、一般的な調査の体系的なメタサーベイと、異常検出と異常検出に関するレビューを実装した。 古典的な体系的な調査手法を用いて、2つの専門的な科学検索エンジンを用いて500近い論文を収集している。 この包括的収集から、アウトリーバー検出に関する一般的な調査であると主張する56の論文のサブセットが雪球探索技術を用いて選択され、フィールドカバレッジが向上する。 微妙な品質評価フェーズは、さらに25の高品質な総合調査のサブセットに選択を洗練させる。 このキュレートされたコレクションを用いて,20年間にわたる外乱検出フィールドの進化を解明し,新たなテーマと手法を明らかにした。 さらに,本調査の分析は,この分野に貢献した地域社会の学者が採用した調査書記の実践に光を当てている。 最後に、論文は文学からコンセンサスが生まれているいくつかのトピックを取り上げている。 これには、外れ値型の分類、高次元データによる課題、異常スコアの重要性、学習条件の影響、ベンチマークの困難さ、ニューラルネットワークの重要性などが含まれる。 非コンセンサス的な側面も議論され、特に局所的および大域的外れ値の区別と、検出方法を有意義な分類法に整理する上での課題が論じられた。

The impact of outliers and anomalies on model estimation and data processing is of paramount importance, as evidenced by the extensive body of research spanning various fields over several decades: thousands of research papers have been published on the subject. As a consequence, numerous reviews, surveys, and textbooks have sought to summarize the existing literature, encompassing a wide range of methods from both the statistical and data mining communities. While these endeavors to organize and summarize the research are invaluable, they face inherent challenges due to the pervasive nature of outliers and anomalies in all data-intensive applications, irrespective of the specific application field or scientific discipline. As a result, the resulting collection of papers remains voluminous and somewhat heterogeneous. To address the need for knowledge organization in this domain, this paper implements the first systematic meta-survey of general surveys and reviews on outlier and anomaly detection. Employing a classical systematic survey approach, the study collects nearly 500 papers using two specialized scientific search engines. From this comprehensive collection, a subset of 56 papers that claim to be general surveys on outlier detection is selected using a snowball search technique to enhance field coverage. A meticulous quality assessment phase further refines the selection to a subset of 25 high-quality general surveys. Using this curated collection, the paper investigates the evolution of the outlier detection field over a 20-year period, revealing emerging themes and methods. Furthermore, an analysis of the surveys sheds light on the survey writing practices adopted by scholars from different communities who have contributed to this field. Finally, the paper delves into several topics where consensus has emerged from the literature. These include taxonomies of outlier types, challenges posed by high-dimensional data, the importance of anomaly scores, the impact of learning conditions, difficulties in benchmarking, and the significance of neural networks. Non-consensual aspects are also discussed, particularly the distinction between local and global outliers and the challenges in organizing detection methods into meaningful taxonomies.
翻訳日:2023-12-13 16:50:13 公開日:2023-12-12
# 現実世界における軽量高分解能被写体マットリング

Lightweight high-resolution Subject Matting in the Real World ( http://arxiv.org/abs/2312.07100v1 )

ライセンス: Link先を確認
Peng Liu, Fanyi Wang, Jingwen Su, Yanhao Zhang, Guojun Qi(参考訳) 既存の精度オブジェクト検出(SOD)手法は、高解像度のシーンで高速な推測と正確な結果を同時に満たすのに苦労する。 パブリックデータセットの品質と高解像度画像のための効率的なネットワークモジュールによって制限されている。 これらの問題を緩和するため,我々は,データセットhrsomと軽量ネットワークpsunetの構築を提案する。 モバイルデポリメントフレームワークの効率的な推論を考慮して,対称画素シャッフルモジュールと軽量モジュールtrsuを設計した。 13のSOD手法と比較して、提案したPSUNetは高解像度のベンチマークデータセット上で最高の目標性能を持つ。 客観的評価の結果は,ネットワークの10倍のパラメータ量を持つu$^2$netと比較して優れている。 Snapdragon 8 Gen 2 Mobile Platformでは、640$\times$640の画像の推測は113msしかかからない。 そして、主観評価では、評価結果は業界ベンチマークIOS16より優れている(背景から見れば)。

Existing saliency object detection (SOD) methods struggle to satisfy fast inference and accurate results simultaneously in high resolution scenes. They are limited by the quality of public datasets and efficient network modules for high-resolution images. To alleviate these issues, we propose to construct a saliency object matting dataset HRSOM and a lightweight network PSUNet. Considering efficient inference of mobile depolyment framework, we design a symmetric pixel shuffle module and a lightweight module TRSU. Compared to 13 SOD methods, the proposed PSUNet has the best objective performance on the high-resolution benchmark dataset. Evaluation results of objective assessment are superior compared to U$^2$Net that has 10 times of parameter amount of our network. On Snapdragon 8 Gen 2 Mobile Platform, inference a single 640$\times$640 image only takes 113ms. And on the subjective assessment, evaluation results are better than the industry benchmark IOS16 (Lift subject from background).
翻訳日:2023-12-13 16:49:38 公開日:2023-12-12
# TT-RecS: 分類学的トレースレコメンダシステム

TT-RecS: The Taxonomic Trace Recommender System ( http://arxiv.org/abs/2312.07093v1 )

ライセンス: Link先を確認
Michael Unterkalmsteiner(参考訳) 従来のトレースリンクは、ソースとターゲットのアーティファクトの間で直接確立される。 これは、トレースが確立されたときに対象のアーティファクトが存在する必要がある。 本稿では,ソースアーティファクトと知識組織構造(例えば分類法)との間接的トレースリンクの概念を紹介する。 これにより、ターゲットの成果物が生成される前にリンク(分類学的トレースと呼ぶ)を作成することができる。 この概念とアプローチの実用性を評価するため,我々はTT-RecSというプロトタイプを開発し,手動またはレコメンダシステムの助けを借りて,そのようなトレースリンクを作成できるようにした。

Traditional trace links are established directly between source and target artefacts. This requires that the target artefact exists when the trace is established. We introduce the concept of indirect trace links between a source artefact and a knowledge organization structure, e.g. a taxonomy. This allows the creation of links (we call them taxonomic traces) before target artefacts are created. To gauge the viability of this concept and approach, we developed a prototype, TT-RecS, that allows to create such trace links either manually or with the help of a recommender system.
翻訳日:2023-12-13 16:49:23 公開日:2023-12-12
# BED:標準関係抽出のためのバイエンコーダデコーダモデル

BED: Bi-Encoder-Decoder Model for Canonical Relation Extraction ( http://arxiv.org/abs/2312.07088v1 )

ライセンス: Link先を確認
Nantao Zheng and Siyu Long and Xinyu Dai(参考訳) 正準関係抽出は、三重項(エンティティペアとそれらの関係)が知識ベースにマッピングされる文から関係三重項を抽出することを目的としている。 近年,エンコーダ-デコーダアーキテクチャに基づく手法を提案し,有望な結果を得た。 しかし、これらの手法は、強化トレーニングデータとしてのみ用いられるエンティティ情報をうまく利用できない。 さらに、埋め込みが学習されていないため、新しい実体を表現できない。 本稿では,この問題を解決するために,BED(Bi-Encoder-Decoder)という新しいフレームワークを提案する。 具体的には,エンティティ情報を十分に活用するために,エンコーダを用いて情報の意味を符号化し,高品質なエンティティ表現を実現する。 訓練されたエンティティエンコーダが与えられた新しいエンティティでは、それらの表現を簡単に生成できる。 2つのデータセットにおける実験結果から,本手法は従来より大幅に性能が向上し,新たなエンティティをリトレーニングすることなくうまく処理できることがわかった。

Canonical relation extraction aims to extract relational triples from sentences, where the triple elements (entity pairs and their relationship) are mapped to the knowledge base. Recently, methods based on the encoder-decoder architecture are proposed and achieve promising results. However, these methods cannot well utilize the entity information, which is merely used as augmented training data. Moreover, they are incapable of representing novel entities, since no embeddings have been learned for them. In this paper, we propose a novel framework, Bi-Encoder-Decoder (BED), to solve the above issues. Specifically, to fully utilize entity information, we employ an encoder to encode semantics of this information, leading to high-quality entity representations. For novel entities, given a trained entity encoder, their representations can be easily generated. Experimental results on two datasets show that, our method achieves a significant performance improvement over the previous state-of-the-art and handle novel entities well without retraining.
翻訳日:2023-12-13 16:49:14 公開日:2023-12-12
# マルチラベル分類におけるロバストネスに向けて:不均衡と騒音に対するデータ強化戦略

Toward Robustness in Multi-label Classification: A Data Augmentation Strategy against Imbalance and Noise ( http://arxiv.org/abs/2312.07087v1 )

ライセンス: Link先を確認
Hwanjun Song and Minseok Kim and Jae-Gil Lee(参考訳) マルチラベル分類は、トレーニングデータにおける不均衡とノイズのラベルによる課題を提起する。 これらの課題に対処するために, balancemix という統一データ拡張手法を提案する。 提案手法は,不均衡ラベルに対する2つのサンプリング器を含む。 また、ラベルの粒度を改良し、ノイズの多いラベルを、堅牢な最適化のためにクリーン、リラベル、曖昧に分類する。 3つのベンチマークデータセットに関する広範な実験は、 balancemixが既存の最先端のメソッドよりも優れていることを示している。 コードはhttps://github.com/disl-lab/balancemixでリリースします。

Multi-label classification poses challenges due to imbalanced and noisy labels in training data. We propose a unified data augmentation method, named BalanceMix, to address these challenges. Our approach includes two samplers for imbalanced labels, generating minority-augmented instances with high diversity. It also refines multi-labels at the label-wise granularity, categorizing noisy labels as clean, re-labeled, or ambiguous for robust optimization. Extensive experiments on three benchmark datasets demonstrate that BalanceMix outperforms existing state-of-the-art methods. We release the code at https://github.com/DISL-Lab/BalanceMix.
翻訳日:2023-12-13 16:48:56 公開日:2023-12-12
# 生成的AI時代をナビゲートする:倫理的GenAI評価のためのAIアセスメント尺度の導入

Navigating the generative AI era: Introducing the AI assessment scale for ethical GenAI assessment ( http://arxiv.org/abs/2312.07086v1 )

ライセンス: Link先を確認
Mike Perkins (1), Leon Furze (2), Jasper Roe (3), Jason MacVaugh (1) ((1) British University Vietnam, (2) Deakin University, (3) James Cook University Singapore)(参考訳) ジェネレーティブ・人工知能(GenAI)の最近の進歩は、社会の複数の領域におけるパラダイムシフトを生み出しており、これらの技術の使用は今後数十年で教育の明確な特徴となる可能性が高い。 GenAIは変革的な教育の機会を提供し、同時に倫理的・学術的な課題を提起する。 このような背景から、我々はGenAIツールを教育アセスメントに統合するための実用的でシンプルで十分に包括的なツール、AIAS(AI Assessment Scale)を概説した。 AIASは、学習結果に基づいて、教育者がGenAI使用の適切なレベルを選択する権限を与える。 AIASは、学生や教育者に対してより明確で透明性を提供し、機関が協力し合うための公平で公平なポリシーツールを提供し、GenAIの機会を受け入れつつ、そのようなツールが教育的に適切でなくても必要な場合もあることを認識しながら、ニュアンスなアプローチを提供する。 実践的でフレキシブルなアプローチを迅速に実施することで、AIASは、教育におけるGenAIに関する現在の不確実性と不安に対処するための、非常に必要な出発点を形成することができる。 第二の目的として, 現代文学と関わり, 教育におけるジェナイツールの再検討を提唱し, 学術的不正行為のファシリテータとしてのジェナイへの取り組みとは対照的に, 技術が教育・学習の支援・強化にどのように役立つかを予見する。

Recent developments in Generative Artificial Intelligence (GenAI) have created a paradigm shift in multiple areas of society, and the use of these technologies is likely to become a defining feature of education in coming decades. GenAI offers transformative pedagogical opportunities, while simultaneously posing ethical and academic challenges. Against this backdrop, we outline a practical, simple, and sufficiently comprehensive tool to allow for the integration of GenAI tools into educational assessment: the AI Assessment Scale (AIAS). The AIAS empowers educators to select the appropriate level of GenAI usage in assessments based on the learning outcomes they seek to address. The AIAS offers greater clarity and transparency for students and educators, provides a fair and equitable policy tool for institutions to work with, and offers a nuanced approach which embraces the opportunities of GenAI while recognising that there are instances where such tools may not be pedagogically appropriate or necessary. By adopting a practical, flexible approach that can be implemented quickly, the AIAS can form a much-needed starting point to address the current uncertainty and anxiety regarding GenAI in education. As a secondary objective, we engage with the current literature and advocate for a refocused discourse on GenAI tools in education, one which foregrounds how technologies can help support and enhance teaching and learning, which contrasts with the current focus on GenAI as a facilitator of academic misconduct.
翻訳日:2023-12-13 16:48:47 公開日:2023-12-12
# GNBG:連続数値最適化のための一般化・構成可能なベンチマーク生成器

GNBG: A Generalized and Configurable Benchmark Generator for Continuous Numerical Optimization ( http://arxiv.org/abs/2312.07083v1 )

ライセンス: Link先を確認
Danial Yazdani (1), Mohammad Nabi Omidvar (2), Delaram Yazdani (3), Kalyanmoy Deb (4), and Amir H. Gandomi (1,5) ((1) Faculty of Engineering & Information Technology, University of Technology Sydney, (2) School of Computing, University of Leeds, and Leeds University Business School, (3) Liverpool Logistics, Offshore and Marine (LOOM) Research Institute, Faculty of Engineering and Technology, School of Engineering, Liverpool John Moores University, (4) BEACON Center, Michigan State University, (5) University Research and Innovation Center (EKIK), Obuda University)(参考訳) 最適化の課題は進化を続けており、ツールや理解も必要です。 最適化アルゴリズムを効果的に評価、検証、比較するためには、様々な特徴を持つ様々な問題インスタンスを含むベンチマークテストスイートを使用することが重要である。 従来のベンチマークスイートは、多くの固定テスト関数で構成されており、制御可能な条件下でのアルゴリズムの体系的評価など、特定の研究目的と整合させることが困難である。 本稿では,単目的,ボックス制約,連続的な数値最適化のための一般化数値ベンチマークジェネレータ(GNBG)を提案する。 複数のベースライン関数と変換に依存する既存のアプローチとは異なり、GNBGは単一でパラメトリックで設定可能なベースライン関数を使用する。 この設計により、様々な問題特性を制御できる。 GNBGを用いた研究者は、一様関数から多モード関数、様々な局所最適パターン、対称構造から非対称構造に至るまで、幅広い形態的特徴をカバーするインスタンスを生成することができる。 生成する問題は、分離性、可変相互作用構造、次元、条件付け、盆地形状にも変化する。 これらのカスタマイズ可能な機能は最適化アルゴリズムの体系的な評価と比較を可能にし、研究者は多様な制御可能な条件下でその強みと弱みを調べることができる。

As optimization challenges continue to evolve, so too must our tools and understanding. To effectively assess, validate, and compare optimization algorithms, it is crucial to use a benchmark test suite that encompasses a diverse range of problem instances with various characteristics. Traditional benchmark suites often consist of numerous fixed test functions, making it challenging to align these with specific research objectives, such as the systematic evaluation of algorithms under controllable conditions. This paper introduces the Generalized Numerical Benchmark Generator (GNBG) for single-objective, box-constrained, continuous numerical optimization. Unlike existing approaches that rely on multiple baseline functions and transformations, GNBG utilizes a single, parametric, and configurable baseline function. This design allows for control over various problem characteristics. Researchers using GNBG can generate instances that cover a broad array of morphological features, from unimodal to highly multimodal functions, various local optima patterns, and symmetric to highly asymmetric structures. The generated problems can also vary in separability, variable interaction structures, dimensionality, conditioning, and basin shapes. These customizable features enable the systematic evaluation and comparison of optimization algorithms, allowing researchers to probe their strengths and weaknesses under diverse and controllable conditions.
翻訳日:2023-12-13 16:48:20 公開日:2023-12-12
# 夢のメタ重み付けモデル融合によるネットワーク分割・融合による連続学習

Continual Learning through Networks Splitting and Merging with Dreaming-Meta-Weighted Model Fusion ( http://arxiv.org/abs/2312.07082v1 )

ライセンス: Link先を確認
Yi Sun, Xin Xu, Jian Li, Guanglei Xie, Yifei Shi, Qiang Fang(参考訳) ネットワークの安定性と可塑性を連続的な学習シナリオでバランスさせることは困難です。 既存の研究は通常、学習知識の破滅的な忘れ込みを避けるため、安定性を重視し、後のタスクの学習の可塑性を制限する。 そこで我々は,スプリットとメタ重畳融合という2段階戦略を用いて,よりよいトレードオフを実現するための連続学習手法Split2MetaFusionを提案する。 この戦略では, より安定性のよい遅いモデル, より可塑性のよい高速モデルが, 分裂段階において順次学習される。 安定性と可塑性は2つのモデルを適応的に融合させることで維持される。 この目的に向けて,融合ギャップを狭めるための低速学習プロセスに対して,タスク予測型ヌルスペースプロジェクタ(tpnsp)という最適化器を設計する。 モデル融合を改善するために、私たちは、以前のデータセットを使用する必要のない古い知識と新しい知識を同時に維持するためのドリーミング・ミータ重融合ポリシーをさらに設計します。 本研究で報告された実験結果と解析は,ネットワーク安定性の維持と可塑性維持のための提案手法の優位性を示すものである。 私たちのコードはリリースされます。

It's challenging to balance the networks stability and plasticity in continual learning scenarios, considering stability suffers from the update of model and plasticity benefits from it. Existing works usually focus more on the stability and restrict the learning plasticity of later tasks to avoid catastrophic forgetting of learned knowledge. Differently, we propose a continual learning method named Split2MetaFusion which can achieve better trade-off by employing a two-stage strategy: splitting and meta-weighted fusion. In this strategy, a slow model with better stability, and a fast model with better plasticity are learned sequentially at the splitting stage. Then stability and plasticity are both kept by fusing the two models in an adaptive manner. Towards this end, we design an optimizer named Task-Preferred Null Space Projector(TPNSP) to the slow learning process for narrowing the fusion gap. To achieve better model fusion, we further design a Dreaming-Meta-Weighted fusion policy for better maintaining the old and new knowledge simultaneously, which doesn't require to use the previous datasets. Experimental results and analysis reported in this work demonstrate the superiority of the proposed method for maintaining networks stability and keeping its plasticity. Our code will be released.
翻訳日:2023-12-13 16:47:59 公開日:2023-12-12
# GANインバージョンのための空間的不一致情報補償

Spatial-Contextual Discrepancy Information Compensation for GAN Inversion ( http://arxiv.org/abs/2312.07079v1 )

ライセンス: Link先を確認
Ziqiang Zhang, Yan Yan, Jing-Hao Xue, Hanzi Wang(参考訳) 既存のganインバージョン手法の多くは正確な再構成を実現するが、編集性に欠けるか、忠実さを犠牲にして強い編集性を提供する。 したがって、歪曲性トレードオフのバランスをとることは、GANの逆転にとって重要な課題である。 そこで,本稿では,dipn(disrepancy information prediction network)とdicn(disrepancy information compensation network)からなる空間的不一致情報補償型ganインバージョン法(sdic)を提案する。 SDIC は "compensate-and-edit" パラダイムに従い、元の画像と再構成/編集された画像の間の画像詳細のギャップを埋めることに成功した。 一方、DIPNは、原画像と初期再構成画像のマルチレベル空間コンテキスト情報を符号化し、2時間ガラスモジュールによる空間コンテキストガイド付き不一致マップを予測する。 このように、文脈関係をモデル化し、細かな画像詳細をキャプチャする信頼できる不一致マップが学習される。 一方、DICNは遅延コードとGANジェネレータの両方に予測誤差情報を異なる変換で組み込んで、高品質な再構成/編集画像を生成する。 これは、gan反転中の画像詳細の損失を効果的に補償する。 定量的および定性的な実験は,画像インバージョンと編集作業の両方において高速な推論速度で,提案手法が優れた歪み適応性トレードオフを実現することを示した。

Most existing GAN inversion methods either achieve accurate reconstruction but lack editability or offer strong editability at the cost of fidelity. Hence, how to balance the distortioneditability trade-off is a significant challenge for GAN inversion. To address this challenge, we introduce a novel spatial-contextual discrepancy information compensationbased GAN-inversion method (SDIC), which consists of a discrepancy information prediction network (DIPN) and a discrepancy information compensation network (DICN). SDIC follows a "compensate-and-edit" paradigm and successfully bridges the gap in image details between the original image and the reconstructed/edited image. On the one hand, DIPN encodes the multi-level spatial-contextual information of the original and initial reconstructed images and then predicts a spatial-contextual guided discrepancy map with two hourglass modules. In this way, a reliable discrepancy map that models the contextual relationship and captures finegrained image details is learned. On the other hand, DICN incorporates the predicted discrepancy information into both the latent code and the GAN generator with different transformations, generating high-quality reconstructed/edited images. This effectively compensates for the loss of image details during GAN inversion. Both quantitative and qualitative experiments demonstrate that our proposed method achieves the excellent distortion-editability trade-off at a fast inference speed for both image inversion and editing tasks.
翻訳日:2023-12-13 16:47:38 公開日:2023-12-12
# 文脈問題:科学応用のための大規模言語モデルのデータ効率向上

Context Matter: Data-Efficient Augmentation of Large Language Models for Scientific Applications ( http://arxiv.org/abs/2312.07069v1 )

ライセンス: Link先を確認
Xiang Li, Haoran Tang, Siyu Chen, Ziwei Wang, Anurag Maravi, Marcin Abram(参考訳) 本稿では,gpt-4のような大規模言語モデル(llm)が生み出す課題,特に幻覚や論理ミス,複雑な質問に答える際の誤った結論などについて考察する。 コヒーレントで意味的に厳密な方法で誤った回答を提示するllmの能力は、事実的不正確性の検出をさらに複雑にする。 この問題は専門知識を必要とする分野において特に顕著である。 我々の研究はこれらの課題を深く掘り下げ、これらの誤りの理解と軽減を図り、科学や他の専門分野におけるLCMの精度と信頼性の向上に寄与する。 その結果,文脈の関連性と回答の質の非直線的関係が明らかになった。 さらに, 正しい校正を行うことで, グラデーション手順の自動化が可能であることを実証し, 少なくともある程度は, LLMを自己検査に利用することができることを示した。 最後に,本研究で記述した手法の概念実証として考えられる実験的なプラットフォームについて述べる。

In this paper, we explore the challenges inherent to Large Language Models (LLMs) like GPT-4, particularly their propensity for hallucinations, logic mistakes, and incorrect conclusions when tasked with answering complex questions. The capacity of LLMs to present erroneous answers in a coherent and semantically rigorous manner further complicates the detection of factual inaccuracies. This issue is especially pronounced in fields that require specialized expertise. Our work delves into these challenges, aiming to enhance the understanding and mitigation of such errors, thereby contributing to the improvement of LLM accuracy and reliability in scientific and other specialized domains. Our findings reveal a non-linear relationship between the context's relevancy and the answers' measured quality. In addition, we demonstrate that with the correct calibration, it is possible to automate the grading procedure -- a finding suggesting that, at least to some degree, the LLMs can be used to self-examine the quality of their own performance. Finally, we describe an experimental platform that can be seen as a proof-of-concept of the techniques described in this work.
翻訳日:2023-12-13 16:47:14 公開日:2023-12-12
# hidersに焦点をあてて - 敵のトレーニングを強化するための隠れた脅威を探求する

Focus on Hiders: Exploring Hidden Threats for Enhancing Adversarial Training ( http://arxiv.org/abs/2312.07067v1 )

ライセンス: Link先を確認
Qian Li, Yuxiao Hu, Yinpeng Dong, Dongxiao Zhang, Yuntian Chen(参考訳) 敵意トレーニングは、しばしばmin-max問題として定式化されるが、最悪の敵意の例のみに集中すると、モデルの相変わらず反復的な混乱を引き起こす。 我々は,このような無知なサンプルを「ヒアラー」として特徴付け,敵の訓練によって得られた安全領域内の隠れた高リスク領域を明らかにし,本モデルが真に最悪のケースを発見するのを防ぐ。 我々は,同時に精度と堅牢性を向上するために,敵の例に対抗して隠蔽機を防御するモデルを求める。 敵意学習のためのmin-max最適化問題を再考し,再定義することにより,hider-focus adversarial training(hfat)と呼ばれる一般化した敵意訓練アルゴリズムを提案する。 hfatは、最適化問題を単純化するために反復進化最適化戦略を導入し、標準敵訓練の最適化方向と防止ハイダを効果的に組み合わせ、ハイダを明らかにする補助モデルを採用している。 さらに,異なるトレーニング期間において,実例とハイダ間のフォーカスを適応的に調整する適応重み付け機構を導入する。 提案手法の有効性を実験的に検証し,HFATが高い堅牢性と精度を提供できることを確かめる。

Adversarial training is often formulated as a min-max problem, however, concentrating only on the worst adversarial examples causes alternating repetitive confusion of the model, i.e., previously defended or correctly classified samples are not defensible or accurately classifiable in subsequent adversarial training. We characterize such non-ignorable samples as "hiders", which reveal the hidden high-risk regions within the secure area obtained through adversarial training and prevent the model from finding the real worst cases. We demand the model to prevent hiders when defending against adversarial examples for improving accuracy and robustness simultaneously. By rethinking and redefining the min-max optimization problem for adversarial training, we propose a generalized adversarial training algorithm called Hider-Focused Adversarial Training (HFAT). HFAT introduces the iterative evolution optimization strategy to simplify the optimization problem and employs an auxiliary model to reveal hiders, effectively combining the optimization directions of standard adversarial training and prevention hiders. Furthermore, we introduce an adaptive weighting mechanism that facilitates the model in adaptively adjusting its focus between adversarial examples and hiders during different training periods. We demonstrate the effectiveness of our method based on extensive experiments, and ensure that HFAT can provide higher robustness and accuracy.
翻訳日:2023-12-13 16:46:56 公開日:2023-12-12
# 効率的なオプティカルフロー推定のためのコンテキストアウェア・イテレーション・ポリシーネットワーク

Context-Aware Iteration Policy Network for Efficient Optical Flow Estimation ( http://arxiv.org/abs/2312.07180v1 )

ライセンス: Link先を確認
Ri Cheng, Ruian He, Xuhao Jiang, Shili Zhou, Weimin Tan, Bo Yan(参考訳) 既存のリカレント光フロー推定ネットワークは、各サンプルのフローフィールドを更新するために固定された多数のイテレーションを使用するため、計算コストが高い。 効率的なネットワークは、フロー改善が制限されたときにイテレーションをスキップすべきである。 本稿では,サンプルあたりの最適イテレーション数を決定する効率的な光フロー推定のための文脈認識型イテレーションポリシーネットワークを開発した。 ポリシーネットワークは、コンテキスト情報を学習して、フロー改善がボトルネックになっているか、最小限であるかを認識する。 一方で、過去のイテレーション情報を含むイテレーション埋め込みと歴史的な隠れたセルを使用して、フローが以前のイテレーションからどのように変わったかを伝える。 一方で、ポリシーネットワークにインクリメンタルな損失を利用して、その後のイテレーションにおける光フロー改善の大きさを暗黙的に認識します。 さらに、我々の動的ネットワークにおける計算複雑性は制御可能であり、単一の訓練されたモデルで様々なリソースの選好を満たすことができる。 我々のポリシネットワークは、最先端の光フローネットワークに容易に統合できる。 Sintel/KITTIデータセットのFLOPを約40%/20%削減しながら,本手法が性能を維持することを示す。

Existing recurrent optical flow estimation networks are computationally expensive since they use a fixed large number of iterations to update the flow field for each sample. An efficient network should skip iterations when the flow improvement is limited. In this paper, we develop a Context-Aware Iteration Policy Network for efficient optical flow estimation, which determines the optimal number of iterations per sample. The policy network achieves this by learning contextual information to realize whether flow improvement is bottlenecked or minimal. On the one hand, we use iteration embedding and historical hidden cell, which include previous iterations information, to convey how flow has changed from previous iterations. On the other hand, we use the incremental loss to make the policy network implicitly perceive the magnitude of optical flow improvement in the subsequent iteration. Furthermore, the computational complexity in our dynamic network is controllable, allowing us to satisfy various resource preferences with a single trained model. Our policy network can be easily integrated into state-of-the-art optical flow networks. Extensive experiments show that our method maintains performance while reducing FLOPs by about 40%/20% for the Sintel/KITTI datasets.
翻訳日:2023-12-13 16:40:17 公開日:2023-12-12
# オンラインニューラル回帰を用いた文脈帯域

Contextual Bandits with Online Neural Regression ( http://arxiv.org/abs/2312.07145v1 )

ライセンス: Link先を確認
Rohan Deb, Yikun Ban, Shiliang Zuo, Jingrui He, Arindam Banerjee(参考訳) 近年の研究では,コンテキストバンディットからオンライン回帰まで,[foster and rakhlin, 2020, foster and krishnamurthy, 2021]という仮定の下での削減が示されている。 本研究では,このようなオンライン回帰と関連するNeuCB(NeuCBs)に対するニューラルネットワークの利用について検討する。 広域ネットワークに対する既存の結果を用いることで、正方形損失を伴うオンライン回帰に対する ${\mathcal{o}}(\sqrt{t})$ regret が容易に示され、この還元により、neucbsに対する${\mathcal{o}}(\sqrt{k} t^{3/4})$ regret が示される。 この標準的なアプローチとは別に、まず、QG(Quadratic Growth)条件を満たすほとんど凸な損失、PL(Polyak-\L ojasiewicz)条件の一般化、およびユニークなミニマを持つオンライン回帰に対して、$\mathcal{O}(\log T)$後悔を示す。 特定のミニマが存在しないため,広帯域ネットワークに直接適用できないが,ネットワーク予測に適切な小さな乱乱摂動を加えると,損失がユニークなミニマでQGを満たすことが予想される。 このような乱雑な予測に基づいて、オンライン回帰に対する${\mathcal{o}}(\log t)$の後悔を二乗損失とkl損失の両方で示し、それらを$\tilde{\mathcal{o}}(\sqrt{kt})$と$\tilde{\mathcal{o}}(\sqrt{kl^*} + k)$でneucbに変換する。 別として、NeuCB に対する既存の後悔境界は、この研究とは異なり、$\Omega(T)$ または i.d. コンテキストであることを示す。 最後に,様々なデータセットを用いた実験結果から,本アルゴリズム,特にkl損失に基づくアルゴリズムが,既存のアルゴリズムよりも永続的に優れていることが分かる。

Recent works have shown a reduction from contextual bandits to online regression under a realizability assumption [Foster and Rakhlin, 2020, Foster and Krishnamurthy, 2021]. In this work, we investigate the use of neural networks for such online regression and associated Neural Contextual Bandits (NeuCBs). Using existing results for wide networks, one can readily show a ${\mathcal{O}}(\sqrt{T})$ regret for online regression with square loss, which via the reduction implies a ${\mathcal{O}}(\sqrt{K} T^{3/4})$ regret for NeuCBs. Departing from this standard approach, we first show a $\mathcal{O}(\log T)$ regret for online regression with almost convex losses that satisfy QG (Quadratic Growth) condition, a generalization of the PL (Polyak-\L ojasiewicz) condition, and that have a unique minima. Although not directly applicable to wide networks since they do not have unique minima, we show that adding a suitable small random perturbation to the network predictions surprisingly makes the loss satisfy QG with unique minima. Based on such a perturbed prediction, we show a ${\mathcal{O}}(\log T)$ regret for online regression with both squared loss and KL loss, and subsequently convert these respectively to $\tilde{\mathcal{O}}(\sqrt{KT})$ and $\tilde{\mathcal{O}}(\sqrt{KL^*} + K)$ regret for NeuCB, where $L^*$ is the loss of the best policy. Separately, we also show that existing regret bounds for NeuCBs are $\Omega(T)$ or assume i.i.d. contexts, unlike this work. Finally, our experimental results on various datasets demonstrate that our algorithms, especially the one based on KL loss, persistently outperform existing algorithms.
翻訳日:2023-12-13 16:39:57 公開日:2023-12-12
# 協調運動計画のパラメータ化複雑性

The Parameterized Complexity of Coordinated Motion Planning ( http://arxiv.org/abs/2312.07144v1 )

ライセンス: Link先を確認
Eduard Eiben, Robert Ganian, Iyad Kanj(参考訳) コーディネートドモーションプランニング(cmp)では、k$ロボットが異なる出発グリッドポイントを占有し、k$の異なる目的地グリッドポイントに到達する必要がある矩形グリッドが与えられます。 それぞれの時間ステップで、他のロボットと衝突しない場合、どのロボットも隣のグリッドポイントに移動したり、現在のグリッドポイントにとどまったりすることができる。 目標は、k$ロボットを目的地に移動させるスケジュールを計算し、スケジュール内の時間ステップの数、すなわち、ロボットが移動する総長さを、目標とする目標を最小化することである。 対象目標の最小化から生じる問題を,CMP-M,後者をCMP-Lと呼ぶ。 CMP-M と CMP-L はどちらも SoCG 2021 の計算幾何学的挑戦として提起された基本的な問題であり、CMP は特殊ケースとして有名な$(n^2-1)$-puzzle も具体化している。 本稿では,CMP-MとCMP-Lのパラメータ化複雑性を,ロボットの数と対象目標の2つの最も基本的なパラメータについて検討する。 本研究は,従来のパラメータ化の下で,問題の最適解に関する新たな構造的洞察に依存した,両問題の固定パラメータトラクタビリティを確立するための新しいアプローチを開発する。 対象目標によってパラメータ化されると、CMP-MがパラNPハードとなる間、CMP-Lは固定パラメータ抽出可能であることを示す。 後者の結果は、以前知られていた問題に対する難解性の境界を改良するだけでなく、基礎的な縮小によって、従来のVertex DisjointとEdge Disjoint PathsのNP-hardnessをグリッド上の一定パス長で確立できるため、注目すべきである。

In Coordinated Motion Planning (CMP), we are given a rectangular-grid on which $k$ robots occupy $k$ distinct starting gridpoints and need to reach $k$ distinct destination gridpoints. In each time step, any robot may move to a neighboring gridpoint or stay in its current gridpoint, provided that it does not collide with other robots. The goal is to compute a schedule for moving the $k$ robots to their destinations which minimizes a certain objective target - prominently the number of time steps in the schedule, i.e., the makespan, or the total length traveled by the robots. We refer to the problem arising from minimizing the former objective target as CMP-M and the latter as CMP-L. Both CMP-M and CMP-L are fundamental problems that were posed as the computational geometry challenge of SoCG 2021, and CMP also embodies the famous $(n^2-1)$-puzzle as a special case. In this paper, we settle the parameterized complexity of CMP-M and CMP-L with respect to their two most fundamental parameters: the number of robots, and the objective target. We develop a new approach to establish the fixed-parameter tractability of both problems under the former parameterization that relies on novel structural insights into optimal solutions to the problem. When parameterized by the objective target, we show that CMP-L remains fixed-parameter tractable while CMP-M becomes para-NP-hard. The latter result is noteworthy, not only because it improves the previously-known boundaries of intractability for the problem, but also because the underlying reduction allows us to establish - as a simpler case - the NP-hardness of the classical Vertex Disjoint and Edge Disjoint Paths problems with constant path-lengths on grids.
翻訳日:2023-12-13 16:39:10 公開日:2023-12-12
# 非スムース確率ミラー降下のための一般テール境界

General Tail Bounds for Non-Smooth Stochastic Mirror Descent ( http://arxiv.org/abs/2312.07142v1 )

ライセンス: Link先を確認
Khaled Eldowa, Andrea Paudice(参考訳) 本稿では,凸およびリプシッツの目的に対する確率鏡Descentの最適化誤差に関する新しいテール境界を提供する。 本解析では,既存のテール境界を古典的ライトテールサブガウシアンノイズケースからより重いテールノイズレジームまで拡張する。 前回の繰り返しの最適化誤差と,その平均値について検討する。 結果は指数的尾を持つ雑音のクラスと多項式尾を持つノイズのクラスという2つの重要なケースでインスタンス化する。 この結果の顕著な特徴は、ドメインの直径の上限を必要としない点である。 最後に,重み付き雑音環境における反復音の平均挙動と最後の反復音の挙動を比較実験により支持する。

In this paper, we provide novel tail bounds on the optimization error of Stochastic Mirror Descent for convex and Lipschitz objectives. Our analysis extends the existing tail bounds from the classical light-tailed Sub-Gaussian noise case to heavier-tailed noise regimes. We study the optimization error of the last iterate as well as the average of the iterates. We instantiate our results in two important cases: a class of noise with exponential tails and one with polynomial tails. A remarkable feature of our results is that they do not require an upper bound on the diameter of the domain. Finally, we support our theory with illustrative experiments that compare the behavior of the average of the iterates with that of the last iterate in heavy-tailed noise regimes.
翻訳日:2023-12-13 16:38:36 公開日:2023-12-12
# 多言語大言語モデルが言語境界を越えて人間のステレオタイプをリーク

Multilingual large language models leak human stereotypes across language boundaries ( http://arxiv.org/abs/2312.07141v1 )

ライセンス: Link先を確認
Yang Trista Cao, Anna Sotnikova, Jieyu Zhao, Linda X. Zou, Rachel Rudinger, Hal Daume III(参考訳) 多言語大言語モデルは、様々な言語にまたがるテキストの理解と生成の能力で、ますます人気が高まっている。 これまでの研究では、単言語大言語モデルにおけるステレオタイプとバイアスの存在は、人間から収集され社会バイアスを反映したトレーニングデータの性質に起因することが示されている。 多言語言語モデルは、様々な言語から派生したトレーニングデータはあるものの、単言語モデルと同じ訓練手順を経る。 1つのソーシャルコンテキストに存在するステレオタイプは、モデル内の言語にまたがってリークするのでしょうか? 本研究ではまず,「ステレオタイプ漏洩」という用語を定義し,その測定のための枠組みを提案する。 この枠組みを用いて、英語、ロシア語、中国語、ヒンディー語という4つの言語にまたがるステレオタイプ関係の漏えいについて検討する。 ステレオタイプリークの定量化には,グループ・トレーディング・アソシエーションを通じてステレオタイプを測定する社会心理学からのアプローチを用いる。 我々は,mBERT,mT5,ChatGPTなどの多言語大言語モデルに現れるヒトのステレオタイプとステレオタイプ関連を評価した。 以上の結果から,全言語で陽性,陰性,非極性な関連が明らかとなった。 特に、多言語モデルのヒンディー語は他の言語の影響を受けやすいが、中国語は最小である。 加えて、ChatGPTは他のモデルよりも人間のスコアとの整合性が優れている。

Multilingual large language models have been increasingly popular for their proficiency in comprehending and generating text across various languages. Previous research has shown that the presence of stereotypes and biases in monolingual large language models can be attributed to the nature of their training data, which is collected from humans and reflects societal biases. Multilingual language models undergo the same training procedure as monolingual ones, albeit with training data sourced from various languages. This raises the question: do stereotypes present in one social context leak across languages within the model? In our work, we first define the term ``stereotype leakage'' and propose a framework for its measurement. With this framework, we investigate how stereotypical associations leak across four languages: English, Russian, Chinese, and Hindi. To quantify the stereotype leakage, we employ an approach from social psychology, measuring stereotypes via group-trait associations. We evaluate human stereotypes and stereotypical associations manifested in multilingual large language models such as mBERT, mT5, and ChatGPT. Our findings show a noticeable leakage of positive, negative, and non-polar associations across all languages. Notably, Hindi within multilingual models appears to be the most susceptible to influence from other languages, while Chinese is the least. Additionally, ChatGPT exhibits a better alignment with human scores than other models.
翻訳日:2023-12-13 16:38:26 公開日:2023-12-12
# Text2AC-Zero:2次元拡散を用いたアニメーション文字の連続合成

Text2AC-Zero: Consistent Synthesis of Animated Characters using 2D Diffusion ( http://arxiv.org/abs/2312.07133v1 )

ライセンス: Link先を確認
Abdelrahman Eldesokey, Peter Wonka(参考訳) 本稿では,事前学習されたテキスト・トゥ・イメージ(T2I)拡散モデルに基づく一貫したテキスト・トゥ・アニメーション・文字合成のためのゼロショット手法を提案する。 既存のtext-to-video(t2v)メソッドはトレーニングに費用がかかり、多様な文字や動きを生成するために大規模なビデオデータセットを必要とする。 同時に、ゼロショットの代替品は時間的に一貫性のあるビデオを作り出すことができない。 我々は,このギャップを埋めるために,アニメーションキャラクタの時間的一貫性のある映像を作成し,トレーニングや微調整を必要としないゼロショット方式を提案する。 既存のテキストに基づく動き拡散モデルを用いて,t2iモデルの誘導に利用する多様な動きを生成する。 時間的整合性を達成するために,ビデオフレームの遅延を整列するために計算するクロスフレーム密度対応を利用した空間潜在アライメントモジュールを導入する。 さらに,Pixel-Wise Guidanceを提案し,視差を最小限に抑える方向に拡散過程を操る。 提案手法は,時間的に一貫した動画を多種多様な動きやスタイルで生成し,画素単位の一貫性とユーザの好みで既存のゼロショットT2Vアプローチより優れている。

We propose a zero-shot approach for consistent Text-to-Animated-Characters synthesis based on pre-trained Text-to-Image (T2I) diffusion models. Existing Text-to-Video (T2V) methods are expensive to train and require large-scale video datasets to produce diverse characters and motions. At the same time, their zero-shot alternatives fail to produce temporally consistent videos. We strive to bridge this gap, and we introduce a zero-shot approach that produces temporally consistent videos of animated characters and requires no training or fine-tuning. We leverage existing text-based motion diffusion models to generate diverse motions that we utilize to guide a T2I model. To achieve temporal consistency, we introduce the Spatial Latent Alignment module that exploits cross-frame dense correspondences that we compute to align the latents of the video frames. Furthermore, we propose Pixel-Wise Guidance to steer the diffusion process in a direction that minimizes visual discrepancies. Our proposed approach generates temporally consistent videos with diverse motions and styles, outperforming existing zero-shot T2V approaches in terms of pixel-wise consistency and user preference.
翻訳日:2023-12-13 16:38:06 公開日:2023-12-12
# 因果推論による画像コンテンツ生成

Image Content Generation with Causal Reasoning ( http://arxiv.org/abs/2312.07132v1 )

ライセンス: Link先を確認
Xiaochuan Li, Baoyu Fan, Runze Zhang, Liang Jin, Di Wang, Zhenhua Guo, Yaqian Zhao, Rengang Li(参考訳) ChatGPTの出現は、生成人工知能(GAI)の研究を再び引き起こした。 生成した結果に人々は驚いたが、生成したテキストコンテンツに反映される推論の可能性にも気づいた。 しかし、この因果推論の現在の能力は、主にGPT-3のようなモデルのような言語生成の領域に限られている。 視覚的モダリティでは、現在同等の研究はない。 視覚コンテンツ生成における因果推論は重要である。 これは視覚情報が無限の粒度を含むためである。 特に画像は、特定の推論タスク、特に粗いテキストと比較して、より直感的で具体的なデモンストレーションを提供することができる。 そこで,vqai(visual question answering with image)と呼ばれる新しい画像生成タスクを提案し,従来の\textit{tom and jerry}アニメーションシリーズに基づいて,同じ名前のデータセットを確立する。 さらに,この課題に対処するために,画像生成のための新しいパラダイムを開発する。 最後に,生成されたコンテンツの可視化や可能性と限界に関する議論など,広範な実験と分析を行う。 コードとデータはcc by-nc-sa 4.0のライセンスのもと、学術的および非商業的利用のために公開されている。 コードとデータセットは、https://github.com/IEIT-AGI/MIX-Shannon/blob/main/projects/VQAI/lgd_vqai.mdで公開されている。

The emergence of ChatGPT has once again sparked research in generative artificial intelligence (GAI). While people have been amazed by the generated results, they have also noticed the reasoning potential reflected in the generated textual content. However, this current ability for causal reasoning is primarily limited to the domain of language generation, such as in models like GPT-3. In visual modality, there is currently no equivalent research. Considering causal reasoning in visual content generation is significant. This is because visual information contains infinite granularity. Particularly, images can provide more intuitive and specific demonstrations for certain reasoning tasks, especially when compared to coarse-grained text. Hence, we propose a new image generation task called visual question answering with image (VQAI) and establish a dataset of the same name based on the classic \textit{Tom and Jerry} animated series. Additionally, we develop a new paradigm for image generation to tackle the challenges of this task. Finally, we perform extensive experiments and analyses, including visualizations of the generated content and discussions on the potentials and limitations. The code and data are publicly available under the license of CC BY-NC-SA 4.0 for academic and non-commercial usage. The code and dataset are publicly available at: https://github.com/IEIT-AGI/MIX-Shannon/blob/main/projects/VQAI/lgd_vqai.md.
翻訳日:2023-12-13 16:37:45 公開日:2023-12-12
# 分割・分割攻撃:テキスト対画像生成モデルの検閲をバイパスするためにllmの力を利用する

Divide-and-Conquer Attack: Harnessing the Power of LLM to Bypass the Censorship of Text-to-Image Generation Model ( http://arxiv.org/abs/2312.07130v1 )

ライセンス: Link先を確認
Yimo Deng, Huangxun Chen(参考訳) テキスト・ツー・イメージ生成モデルは多くの革新的なサービスを提供しているが、非倫理的な画像を生成する可能性から倫理的な懸念も生んでいる。 ほとんどの一般公開されたテキストから画像へのモデルは、意図しない生成意図を防ぐために安全フィルタを使用している。 本稿では,最先端のテキスト・ツー・イメージモデルの安全フィルタを回避するために,分割・探索攻撃を提案する。 我々の攻撃はLLMをテキスト変換のエージェントとして利用し、センシティブなテキストから敵のプロンプトを生成する。 我々は,LLMを複数の無害な記述に分解し,機密画像を生成しながら,安全フィルタを回避できる効果的なヘルパープロンプトを開発した。 これは、潜在有害な意味は、全ての個々の要素が一緒に引かれるときにのみ明らかになることを意味する。 本評価は,chatgptにネイティブに統合されたsoma dalle-3のクローズドボックスセーフティフィルタを回避し,非倫理的な画像を生成することを実証する。 このアプローチは基本的に、LPMが生成したGPT-4を補助するDALLE-3に対して敵のプロンプトを使用するもので、自身の槍を使ってシールドを破ることに似ている。 従来の手作業や反復的なモデルクエリ手法よりも深刻なセキュリティ上の影響がある可能性があり、同様の取り組みにもっと注意を向けることを願っています。 私たちのコードとデータは、https://github.com/researchcode001/Divide-and-Conquer-Attack.comで利用可能です。

Text-to-image generative models offer many innovative services but also raise ethical concerns due to their potential to generate unethical images. Most publicly available text-to-image models employ safety filters to prevent unintended generation intents. In this work, we introduce the Divide-and-Conquer Attack to circumvent the safety filters of state-of-the-art text-to-image models. Our attack leverages LLMs as agents for text transformation, creating adversarial prompts from sensitive ones. We have developed effective helper prompts that enable LLMs to break down sensitive drawing prompts into multiple harmless descriptions, allowing them to bypass safety filters while still generating sensitive images. This means that the latent harmful meaning only becomes apparent when all individual elements are drawn together. Our evaluation demonstrates that our attack successfully circumvents the closed-box safety filter of SOTA DALLE-3 integrated natively into ChatGPT to generate unethical images. This approach, which essentially uses LLM-generated adversarial prompts against GPT-4-assisted DALLE-3, is akin to using one's own spear to breach their shield. It could have more severe security implications than previous manual crafting or iterative model querying methods, and we hope it stimulates more attention towards similar efforts. Our code and data are available at: https://github.com/researchcode001/Divide-and-Conquer-Attack
翻訳日:2023-12-13 16:37:27 公開日:2023-12-12
# MS-Twins:医療画像セグメンテーションのためのマルチスケールディープセルフアテンションネットワーク

MS-Twins: Multi-Scale Deep Self-Attention Networks for Medical Image Segmentation ( http://arxiv.org/abs/2312.07128v1 )

ライセンス: Link先を確認
Jing Xu(参考訳) トランスフォーマーは自然言語処理に好まれるが、医療画像の分野で応用される研究はほとんどない。 長期的な依存のため、トランスフォーマーは、その固有の空間的誘導バイアスを克服する非コンボリューション畳み込みニューラルネットワークに寄与することが期待されている。 最近提案されたtransformerベースのパーティショニング手法は、グローバルコンテキストを畳み込み表現にエンコードするために、transformerを補助モジュールとしてのみ使用する。 畳み込みを伴う結合自己結合(トランスフォーマーの核)の最適化方法についての研究はほとんどない。 そこで本論文では,MS-Twins(Multi-Scale Twins)を提案する。 MS-Twinsは、さまざまなスケールとカスケード機能を組み合わせることで、セマンティックおよびきめ細かい情報をよりよくキャプチャできる。 既存のネットワーク構造と比較すると、MS-TwinsはSynapseとACDCという2つの一般的なデータ集合の変換器に基づいて、従来の手法に大きな進歩を遂げている。 特に、SynapseにおけるMS-TwinsのパフォーマンスはSwinUNetよりも8%高い。 Synapse と ACDC での MS-Twins のパフォーマンスは,完全に複雑な医療画像セグメンテーションネットワークである nnUNet と比較しても,まだ多少の利点がある。

Although transformer is preferred in natural language processing, few studies have applied it in the field of medical imaging. For its long-term dependency, the transformer is expected to contribute to unconventional convolution neural net conquer their inherent spatial induction bias. The lately suggested transformer-based partition method only uses the transformer as an auxiliary module to help encode the global context into a convolutional representation. There is hardly any study about how to optimum bond self-attention (the kernel of transformers) with convolution. To solve the problem, the article proposes MS-Twins (Multi-Scale Twins), which is a powerful segmentation model on account of the bond of self-attention and convolution. MS-Twins can better capture semantic and fine-grained information by combining different scales and cascading features. Compared with the existing network structure, MS-Twins has made significant progress on the previous method based on the transformer of two in common use data sets, Synapse and ACDC. In particular, the performance of MS-Twins on Synapse is 8% higher than SwinUNet. Even compared with nnUNet, the best entirely convoluted medical image segmentation network, the performance of MS-Twins on Synapse and ACDC still has a bit advantage.
翻訳日:2023-12-13 16:37:01 公開日:2023-12-12
# 大規模言語モデルを用いた能率的臨床タスク適応

Efficient Few-Shot Clinical Task Adaptation with Large Language Models ( http://arxiv.org/abs/2312.07125v1 )

ライセンス: Link先を確認
Kaipeng Zheng, Weiran Huang, Lichao Sun(参考訳) ごく少数のサンプルを持つタスクにモデルを適用するために、数少ない学習が研究されている。 医用画像のアノテーションコストが高いため、特に臨床研究において重要な意味を持つ。 いくつかの研究は、医療画像の少数ショット学習を探求しているが、ドメイン固有の優先事項を得るためには、事前学習モデルに大量の医療画像が必要である。 vision foundationのモデルは最近、自然画像で目覚ましい成功を収めた。 したがって、自然画像から数発の臨床的タスクに急速に進歩する視覚基盤モデルを適用することは大きな約束である。 MedFMCは先日のNeurIPS 2023で、このトピックにもっと光を当てるためのチャレンジを組織した。 本研究では,課題解決法を提案する。 部分凍結によるファインチューニングの簡単な変形が顕著な性能を示した。 実証的な証拠は、このアプローチが限られたサンプルサイズで様々な一般的な微調整方法を上回ることを証明している。 さらに,性能向上のためのセマンティック・インシデントの利用の強化についても検討する。 大規模言語モデル(LLM)を用いてラベルを文脈化する新しい手法を提案する。 その結果,LLMが生成するコンテキストは類似のカテゴリに対するセマンティック埋め込みの識別を著しく向上させ,一般的に使用されるワンホットラベルや他のセマンティックインフォメーション手法と比較して1ショット設定で3%-5%の顕著な性能向上が得られた。 私たちのソリューションは、medfmcチャレンジの1位を確保します。

Few-shot learning has been studied to adapt models to tasks with very few samples. It holds profound significance, particularly in clinical tasks, due to the high annotation cost of medical images. Several works have explored few-shot learning on medical images, yet they still require a large number of medical images for pre-training models to gain domain-specific priors. Vision foundation models recently have achieved remarkable success in natural images. Hence, adapting rapidly advancing vision foundation models from natural images to few-shot clinical tasks holds great promise. MedFMC has recently organized a challenge to shed more light on this topic at NeurIPS 2023. In this work, we present our challenge solution. We observe that a simple variant of fine-tuning with partial freezing shows remarkable performance. Empirical evidence demonstrates that this approach could outperform various common fine-tuning methods under limited sample sizes. Additionally, we explore enhanced utilization of semantic supervision to boost performance. We propose a novel approach that contextualizes labels via large language models (LLMs). Our findings reveal that the context generated by LLMs significantly enhances the discrimination of semantic embeddings for similar categories, resulting in a notable performance improvement of 3%-5% in 1-shot settings compared to commonly employed one-hot labels and other semantic supervision methods. Our solution secures the 1st place in the MedFMC challenge.
翻訳日:2023-12-13 16:36:39 公開日:2023-12-12
# エージェントの目標、選好、行動に関する神経学的推論

Neural Reasoning About Agents' Goals, Preferences, and Actions ( http://arxiv.org/abs/2312.07122v1 )

ライセンス: Link先を確認
Matteo Bortoletto, Lei Shi, Andreas Bulling(参考訳) 本稿では, エージェントの目標, 好み, 行動について直感的思考を行うための新しいニューラルモデルとして, 直感的推論ネットワーク(irene)を提案する。 IRENEは、学習エージェントと世界状態表現のためのグラフニューラルネットワークと、タスクコンテキストをエンコードするトランスフォーマーを組み合わせたものだ。 挑戦的なBaby Intuitionsベンチマークで評価すると、IRENEは5つのタスクのうち3つで、48.9%の改善を達成している。 既存の方法とは対照的に、IRENEは特定のエージェントに好みを結びつけることができ、合理的なエージェントと不合理なエージェントを区別し、障害をブロックする役割をよりよく理解することができる。 また,トレーニングタスクがテストパフォーマンスに与える影響を初めて調査した。 本分析は,未確認評価タスクのトレーニング中に得られた知識を組み合わせたIRENEの有効性を示す。

We propose the Intuitive Reasoning Network (IRENE) - a novel neural model for intuitive psychological reasoning about agents' goals, preferences, and actions that can generalise previous experiences to new situations. IRENE combines a graph neural network for learning agent and world state representations with a transformer to encode the task context. When evaluated on the challenging Baby Intuitions Benchmark, IRENE achieves new state-of-the-art performance on three out of its five tasks - with up to 48.9% improvement. In contrast to existing methods, IRENE is able to bind preferences to specific agents, to better distinguish between rational and irrational agents, and to better understand the role of blocking obstacles. We also investigate, for the first time, the influence of the training tasks on test performance. Our analyses demonstrate the effectiveness of IRENE in combining prior knowledge gained during training for unseen evaluation tasks.
翻訳日:2023-12-13 16:36:18 公開日:2023-12-12
# 状態密度の推定による量子トポロジカルデータ解析

Quantum topological data analysis via the estimation of the density of states ( http://arxiv.org/abs/2312.07115v1 )

ライセンス: Link先を確認
Stefano Scali, Chukwudubem Umeano, Oleksandr Kyriienko(参考訳) 我々は、組合せラプラシアンの状態密度(dos)の推定に基づく量子トポロジカルデータ解析(qtda)プロトコルを開発した。 グラフとsimplicial Complexのトポロジ的特徴の計算は、データセットの分析と説明可能なAIソリューションの構築に不可欠である。 このタスクは、60以上の頂点と高次トポロジカルな特徴を持つ単純複体に対して、組合せスケーリングにより計算的に困難になる。 本稿では,ハイパーグラフを有効量子ハミルトニアンとして埋め込み,時間進化から状態の密度を評価することによって,その課題にアプローチすることを提案する。 具体的には,実効ハミルトニアンのカルタン分解と多面体プロトコルを用いた時間進化状態のサンプルオーバーラップを用いて,プロパゲータを量子回路として構成する。 次に,様々な後処理ルーチンを開発し,フーリエ様変換を実装してハミルトニアンのランク(およびカーネル)を復元する。 これによりベッチ数を推定し、単純複体の位相的特徴を明らかにすることができる。 ノイズやノイズのない量子シミュレータでプロトコルをテストし、ibm量子プロセッサでサンプルを実行します。 提案するqtda手法は,誤差軽減がなくても実ハードウェアノイズに対するレジリエンスを観測し,短期的デバイス実装への期待を示し,グローバルdosベースの推定器の有用性を強調する。

We develop a quantum topological data analysis (QTDA) protocol based on the estimation of the density of states (DOS) of the combinatorial Laplacian. Computing topological features of graphs and simplicial complexes is crucial for analyzing datasets and building explainable AI solutions. This task becomes computationally hard for simplicial complexes with over sixty vertices and high-degree topological features due to a combinatorial scaling. We propose to approach the task by embedding underlying hypergraphs as effective quantum Hamiltonians and evaluating their density of states from the time evolution. Specifically, we compose propagators as quantum circuits using the Cartan decomposition of effective Hamiltonians and sample overlaps of time-evolved states using multi-fidelity protocols. Next, we develop various post-processing routines and implement a Fourier-like transform to recover the rank (and kernel) of Hamiltonians. This enables us to estimate the Betti numbers, revealing the topological features of simplicial complexes. We test our protocol on noiseless and noisy quantum simulators and run examples on IBM quantum processors. We observe the resilience of the proposed QTDA approach to real-hardware noise even in the absence of error mitigation, showing the promise to near-term device implementations and highlighting the utility of global DOS-based estimators.
翻訳日:2023-12-13 16:36:03 公開日:2023-12-12
# 条件拡散モデルを用いた高分解能地域降雨の生成

Generating High-Resolution Regional Precipitation Using Conditional Diffusion Model ( http://arxiv.org/abs/2312.07112v1 )

ライセンス: Link先を確認
Naufal Shidqi, Chaeyoon Jeong, Sungwon Park, Elke Zeller, Arjun Babu Nellikkattil, Karandeep Singh(参考訳) 気候下降は気候研究において重要な技術であり、低分解能(LR)気候データを高分解能(HR)に投影するのに役立つ。 これまでの研究では、ダウンスケーリングタスクに対するディープラーニングの有効性が実証されている。 しかし、気候下降のためのほとんどのディープラーニングモデルは、HR気候データの生成に必要な複雑な詳細を捉える能力に制限があるため、高いスケーリング要因(すなわち4x、8x)に対して最適に機能しない可能性がある。 さらに、気候データは画像データとは異なった振る舞いをするので、深層生成モデルを用いる場合のニュアンス的アプローチが必要となる。 これらの課題に対応するため,本論文では,気候データ,特に地域規模での降水に関する深層生成モデルを提案する。 複数のLR気候変数に条件付き拡散確率モデル(DDPM)を用いる。 提案モデルは,コミュニティアース・システム・モデル (CESM) v1.2.2 シミュレーションの降水データを用いて評価した。 以上の結果から,下降気候データにおける条件拡散モデルの有効性が示唆された。

Climate downscaling is a crucial technique within climate research, serving to project low-resolution (LR) climate data to higher resolutions (HR). Previous research has demonstrated the effectiveness of deep learning for downscaling tasks. However, most deep learning models for climate downscaling may not perform optimally for high scaling factors (i.e., 4x, 8x) due to their limited ability to capture the intricate details required for generating HR climate data. Furthermore, climate data behaves differently from image data, necessitating a nuanced approach when employing deep generative models. In response to these challenges, this paper presents a deep generative model for downscaling climate data, specifically precipitation on a regional scale. We employ a denoising diffusion probabilistic model (DDPM) conditioned on multiple LR climate variables. The proposed model is evaluated using precipitation data from the Community Earth System Model (CESM) v1.2.2 simulation. Our results demonstrate significant improvements over existing baselines, underscoring the effectiveness of the conditional diffusion model in downscaling climate data.
翻訳日:2023-12-13 16:35:42 公開日:2023-12-12
# llmsはサイバーセキュリティ研究文献における概念抽出に乏しい

LLMs Perform Poorly at Concept Extraction in Cyber-security Research Literature ( http://arxiv.org/abs/2312.07110v1 )

ライセンス: Link先を確認
Maxime W\"ursch and Andrei Kucharavy and Dimitri Percia David and Alain Mermoud(参考訳) サイバーセキュリティの状況は急速に発展し、組織に脅威をもたらす。 レジリエンスを高めるためには、ドメインの最新の開発とトレンドを追跡する必要がある。 標準的な書誌学アプローチがそのような急速に発展する領域における限界を示すことが示されている。 この目的のために,大規模言語モデル(LLM)を用いて,サイバーセキュリティ関連テキストから関連する知識エンティティを抽出する。 我々は、サイバーセキュリティに関するarXivプリプリントのサブセットをデータとして使用し、エンティティ認識(ER)と関連性の観点から異なるLLMを比較します。 その結果,llmは,サイバーセキュリティの文脈を反映した優れた知識エンティティを生成できないことが示唆された。 そこで我々は,いくつかの統計解析を加味した名詞抽出器を開発し,そのドメインから固有名詞および関連化合物を抽出した。 その後、LLM領域のトレンドを特定するためにモデルを検証した。 いくつかの制限を観察するが、創発的なトレンドの進化を監視するための有望な結果を提供する。

The cybersecurity landscape evolves rapidly and poses threats to organizations. To enhance resilience, one needs to track the latest developments and trends in the domain. It has been demonstrated that standard bibliometrics approaches show their limits in such a fast-evolving domain. For this purpose, we use large language models (LLMs) to extract relevant knowledge entities from cybersecurity-related texts. We use a subset of arXiv preprints on cybersecurity as our data and compare different LLMs in terms of entity recognition (ER) and relevance. The results suggest that LLMs do not produce good knowledge entities that reflect the cybersecurity context, but our results show some potential for noun extractors. For this reason, we developed a noun extractor boosted with some statistical analysis to extract specific and relevant compound nouns from the domain. Later, we tested our model to identify trends in the LLM domain. We observe some limitations, but it offers promising results to monitor the evolution of emergent trends.
翻訳日:2023-12-13 16:35:24 公開日:2023-12-12
# ドクサスティック戦略の論理

The Logic of Doxastic Strategies ( http://arxiv.org/abs/2312.07107v1 )

ライセンス: Link先を確認
Junli Jiang and Pavel Naumov(参考訳) 多くの現実世界の状況では、ある戦略が目標を達成するのに成功すると知るのに十分な情報がないことが多いが、それを信じる十分な理由がある。 本稿では,このような戦略に対して 'doxastic' という用語を導入している。 主な技術的貢献は、ドクサスティックな戦略と信念のモダリティの間の相互作用を記述する健全で完全な論理システムである。

In many real-world situations, there is often not enough information to know that a certain strategy will succeed in achieving the goal, but there is a good reason to believe that it will. The paper introduces the term ``doxastic'' for such strategies. The main technical contribution is a sound and complete logical system that describes the interplay between doxastic strategy and belief modalities.
翻訳日:2023-12-13 16:35:07 公開日:2023-12-12
# アディジェンダー・スプラッシュ・イム・ネッツ:解剖学者ズワイエ・シストストーム

Verbreitungsmechanismen sch\"adigender Sprache im Netz: Anatomie zweier Shitstorms ( http://arxiv.org/abs/2312.07194v1 )

ライセンス: Link先を確認
Tatjana Scheffler, Veronika Solopova, Mihaela Popa-Wyatt(参考訳) この作業論文では、ビジネス界の著名人に対して、私たちの注意を、2つの模範的で、メディア横断的なクソストームに向けます。 両者は共通しており、第一にトリガーはシストストームの標的となる人物による議論の的となる声明であり、第二に、この標的のアイデンティティは比較的特権的なものである(シス・マール、ホワイト、成功)。 2つのメディアにまたがる怒り波の拡散を一度に検証し,その時間経過を解析するための計算言語学的手法の適用性を検証する。 有害な言語がデジタル空間にウイルスのように広がると仮定すると、我々は主に有害な言語の使用につながる事象や星座、そして「タブー」の言語形成がどのように起こるかに興味を持っている。 そこで本研究では,まず,導入後の個々の単語やフレーズ,どの経路が広まるかといった,言語的特徴の分布に注目した。 第2に、例えば、支持者の1グループと目標の反対者の1グループである「部族」が、明確な言語形態を持っているかどうかを問う。 我々の仮説では、サポーターは時間とともに均等に活動し続けるが、シストムのダイナミックな「リップル」効果は、反対者の様々な参加に基づいている。

In this working paper, we turn our attention to two exemplary, cross-media shitstorms directed against well-known individuals from the business world. Both have in common, first, the trigger, a controversial statement by the person who thereby becomes the target of the shitstorm, and second, the identity of this target as relatively privileged: cis-male, white, successful. We examine the spread of the outrage wave across two media at a time and test the applicability of computational linguistic methods for analyzing its time course. Assuming that harmful language spreads like a virus in digital space, we are primarily interested in the events and constellations that lead to the use of harmful language, and whether and how a linguistic formation of "tribes" occurs. Our research therefore focuses, first, on the distribution of linguistic features within the overall shitstorm: are individual words or phrases increasingly used after their introduction, and through which pathways they spread. Second, we ask whether "tribes," for example, one group of supporters and one of opponents of the target, have a distinguished linguistic form. Our hypothesis is that supporters remain equally active over time, while the dynamic "ripple" effect of the shitstorm is based on the varying participation of opponents.
翻訳日:2023-12-13 16:28:56 公開日:2023-12-12
# オブジェクトカウントにおけるポイントアノテーション復元のためのノイズ自動符号化器

Noised Autoencoders for Point Annotation Restoration in Object Counting ( http://arxiv.org/abs/2312.07190v1 )

ライセンス: Link先を確認
Yuda Zou, Xin Xiao, Peilin Zhou, Zhichao Sun, Bo Du, Yongchao Xu(参考訳) オブジェクトカウントは、セキュリティ監視、都市計画、生物学といった分野において重要性を増している分野である。 アノテーションは通常、2dポイントで提供される。 しかし、オブジェクト形状の複雑さとアノテーションの主観性はアノテーションの不整合を招き、トレーニング中にモデルを混乱させる可能性がある。 この問題を緩和するために、すべてのアノテーションから一般的な位置知識を抽出するノイズオートエンコーダ(NAE)手法を導入する。 このメソッドでは、初期ポイントアノテーションにランダムなオフセットを追加し、その後unetで元の位置に復元する。 MAEと同様に、NAEは一般的な知識から推測される最も一般的な位置への依存を必要とせず、非ジェネリックな点を復元する際の課題に直面している。 この依存が我々の方法の有効性の基盤となる。 既存のノイズ耐性メソッドとは異なり、我々のアプローチは初期点アノテーションを直接改善することに焦点を合わせます。 大規模な実験により、NAEは元のアノテーションよりも一貫性のあるアノテーションを得られることが示され、これらのアノテーションで訓練された高度なモデルの性能が着実に向上した。 注意すべき点として、提案されたアプローチは9つのデータセットに新しいレコードを設定するのに役立つ。 NAEコードと洗練されたポイントアノテーションを利用可能にします。

Object counting is a field of growing importance in domains such as security surveillance, urban planning, and biology. The annotation is usually provided in terms of 2D points. However, the complexity of object shapes and subjective of annotators may lead to annotation inconsistency, potentially confusing the model during training. To alleviate this issue, we introduce the Noised Autoencoders (NAE) methodology, which extracts general positional knowledge from all annotations. The method involves adding random offsets to initial point annotations, followed by a UNet to restore them to their original positions. Similar to MAE, NAE faces challenges in restoring non-generic points, necessitating reliance on the most common positions inferred from general knowledge. This reliance forms the cornerstone of our method's effectiveness. Different from existing noise-resistance methods, our approach focus on directly improving initial point annotations. Extensive experiments show that NAE yields more consistent annotations compared to the original ones, steadily enhancing the performance of advanced models trained with these revised annotations. \textbf{Remarkably, the proposed approach helps to set new records in nine datasets}. We will make the NAE codes and refined point annotations available.
翻訳日:2023-12-13 16:28:30 公開日:2023-12-12
# ベクトル値正規化最小二乗アルゴリズムのための最適ソボレフノルム率に向けて

Towards Optimal Sobolev Norm Rates for the Vector-Valued Regularized Least-Squares Algorithm ( http://arxiv.org/abs/2312.07186v1 )

ライセンス: Link先を確認
Zhu Li, Dimitri Meunier, Mattes Mollenhauer and Arthur Gretton(参考訳) L_2$と仮説空間の間を補間するノルムの連続スケール上で、無限次元ベクトル値リッジ回帰の最初の最適速度を示し、これはベクトル値再生核ヒルベルト空間と考える。 これらのレートは、真の回帰関数が仮説空間に含まれない不特定の場合を扱うことができる。 仮説空間のキャパシティに関する標準的な仮定とベクトル値補間空間の新たなテンソル積の構成を組み合わせることにより、回帰関数の滑らかさを特徴づける。 我々の上限は実値のカーネルリッジ回帰と同じ速度に達するだけでなく、対象の回帰関数が有界であるという仮定も取り除く。 下限については、プロジェクション引数を使って問題をスカラー設定に還元する。 これらの値はほとんどの場合最適であり、出力空間の次元に依存しないことを示す。 ベクトル値ソボレフ空間の特別な場合に対する結果を示す。

We present the first optimal rates for infinite-dimensional vector-valued ridge regression on a continuous scale of norms that interpolate between $L_2$ and the hypothesis space, which we consider as a vector-valued reproducing kernel Hilbert space. These rates allow to treat the misspecified case in which the true regression function is not contained in the hypothesis space. We combine standard assumptions on the capacity of the hypothesis space with a novel tensor product construction of vector-valued interpolation spaces in order to characterize the smoothness of the regression function. Our upper bound not only attains the same rate as real-valued kernel ridge regression, but also removes the assumption that the target regression function is bounded. For the lower bound, we reduce the problem to the scalar setting using a projection argument. We show that these rates are optimal in most cases and independent of the dimension of the output space. We illustrate our results for the special case of vector-valued Sobolev spaces.
翻訳日:2023-12-13 16:28:12 公開日:2023-12-12
# 複雑な文書の分類:大規模言語モデルとの比較

Classifying complex documents: comparing bespoke solutions to large language models ( http://arxiv.org/abs/2312.07182v1 )

ライセンス: Link先を確認
Glen Hopkins, Kristjan Kalm(参考訳) ここでは、複雑な法的文書の集合に対する最良の自動分類手法を探索する。 我々の目的は、12の州と267の郡から3万件の公庁舎の記録を9つのサブカテゴリを使って2つの異なるレベルで分類することである。 具体的には,微調整された大言語モデル (llm) が独自に学習したモデルの精度を達成できるか,また,必要な微調整量について検討した。

Here we search for the best automated classification approach for a set of complex legal documents. Our classification task is not trivial: our aim is to classify ca 30,000 public courthouse records from 12 states and 267 counties at two different levels using nine sub-categories. Specifically, we investigated whether a fine-tuned large language model (LLM) can achieve the accuracy of a bespoke custom-trained model, and what is the amount of fine-tuning necessary.
翻訳日:2023-12-13 16:27:44 公開日:2023-12-12
# 期待以上のリターン:強化学習アルゴリズムの評価における政策再現性会計

Beyond Expected Return: Accounting for Policy Reproducibility when Evaluating Reinforcement Learning Algorithms ( http://arxiv.org/abs/2312.07178v1 )

ライセンス: Link先を確認
Manon Flageat, Bryan Lim, Antoine Cully(参考訳) 強化学習(RL)における多くの応用は、通常、環境にノイズや確率性が存在する。 学習への影響の他に、これらの不確実性は、全く同じ方針を導いており、すなわち、あるロールアウトから別のロールアウトへ異なるリターンをもたらす。 RL の一般的な評価手順は、その分布の拡散を考慮しない期待値のみを用いて、連続した戻り値分布を要約する。 私たちの研究では、この広がりをポリシー再現性と定義しています。 ポリシーが何回もロールアウトされた時に同様のパフォーマンスを得る能力は、現実のアプリケーションにおいて重要な特性です。 期待されるリターンのみを使用する既存のプロシージャは、2つの面で制限されている: まず、幅広い性能再現性トレードオフを持つ無限数のリターン分布は同じリターンを持つことができ、ポリシーの比較に使用する場合の有効性を制限する。 そこで本研究では,要求される性能再現性トレードオフを選択するための選好パラメータをユーザに提供するベイズ最適化の指標であるlower confidence boundの使用を推奨することで,これらの制限に対処する。 また、ポリシ再現性を定式化し定量化し、一般的なRLタスクに対する一般的なRLアルゴリズムの広範な実験を用いて、メトリクスの利点を実証する。

Many applications in Reinforcement Learning (RL) usually have noise or stochasticity present in the environment. Beyond their impact on learning, these uncertainties lead the exact same policy to perform differently, i.e. yield different return, from one roll-out to another. Common evaluation procedures in RL summarise the consequent return distributions using solely the expected return, which does not account for the spread of the distribution. Our work defines this spread as the policy reproducibility: the ability of a policy to obtain similar performance when rolled out many times, a crucial property in some real-world applications. We highlight that existing procedures that only use the expected return are limited on two fronts: first an infinite number of return distributions with a wide range of performance-reproducibility trade-offs can have the same expected return, limiting its effectiveness when used for comparing policies; second, the expected return metric does not leave any room for practitioners to choose the best trade-off value for considered applications. In this work, we address these limitations by recommending the use of Lower Confidence Bound, a metric taken from Bayesian optimisation that provides the user with a preference parameter to choose a desired performance-reproducibility trade-off. We also formalise and quantify policy reproducibility, and demonstrate the benefit of our metrics using extensive experiments of popular RL algorithms on common uncertain RL tasks.
翻訳日:2023-12-13 16:27:29 公開日:2023-12-12
# 時間依存型共同設立者による縦断データにおける因果推論のインスツルメンタル変数推定

Instrumental Variable Estimation for Causal Inference in Longitudinal Data with Time-Dependent Latent Confounders ( http://arxiv.org/abs/2312.07175v1 )

ライセンス: Link先を確認
Debo Cheng, Ziqi Xu, Jiuyong Li, Lin Liu, Jixue Liu, Wentao Gao and Thuc Duy Le (UniSA STEM, University of South Australia, Adelaide, SA, Australia)(参考訳) 経年的観測データからの因果推論は、特に潜在時間依存の共起者の存在下で、時間依存の共起者を正しく同定することが困難であるため、難しい問題である。 インストゥルメンタル変数(iv)は潜伏する共同設立者問題に対処する強力なツールであるが、従来のivテクニックでは、縦断研究において潜伏する時間依存共同設立者を扱うことはできない。 本研究では,潜在時間依存型共同創設者のデータから時間変動因果効果を推定するための新しい時間依存型インストゥルメンタルファクターモデル(tifm)を提案する。 提案手法では,遅延IVを推論するためにリカレントニューラルネットワーク(RNN)アーキテクチャを用い,遅延IV因子を推定し,遅延IV因子を潜在時間依存的共同設立者によって引き起こされる境界バイアスに対処する。 縦断データにおける因果効果推定に関するTIFM法の理論解析を行った。 人工データセットによる広範囲な評価は、時間的因果効果推定におけるTIFMの有効性を示す。 さらに、TIFMを気候データセットに適用し、実際の問題に取り組む際の提案手法の可能性を示す。

Causal inference from longitudinal observational data is a challenging problem due to the difficulty in correctly identifying the time-dependent confounders, especially in the presence of latent time-dependent confounders. Instrumental variable (IV) is a powerful tool for addressing the latent confounders issue, but the traditional IV technique cannot deal with latent time-dependent confounders in longitudinal studies. In this work, we propose a novel Time-dependent Instrumental Factor Model (TIFM) for time-varying causal effect estimation from data with latent time-dependent confounders. At each time-step, the proposed TIFM method employs the Recurrent Neural Network (RNN) architecture to infer latent IV, and then uses the inferred latent IV factor for addressing the confounding bias caused by the latent time-dependent confounders. We provide a theoretical analysis for the proposed TIFM method regarding causal effect estimation in longitudinal data. Extensive evaluation with synthetic datasets demonstrates the effectiveness of TIFM in addressing causal effect estimation over time. We further apply TIFM to a climate dataset to showcase the potential of the proposed method in tackling real-world problems.
翻訳日:2023-12-13 16:26:46 公開日:2023-12-12
# 学習オプティマイザのトレーニングダイナミクスの検討

Investigation into the Training Dynamics of Learned Optimizers ( http://arxiv.org/abs/2312.07174v1 )

ライセンス: Link先を確認
Jan Sobotka, Petr \v{S}im\'anek, Daniel Va\v{s}ata(参考訳) 最適化は現代のディープラーニングの不可欠な部分です。 近年,従来の手作りアルゴリズムをメタ学習関数に置き換えることで,この最適化プロセスを高速化する手段として,学習オプティマイザの概念が登場している。 これらの手法の最初の有望な結果にもかかわらず、安定性と一般化の問題はまだ残っており、実用性は制限されている。 さらに、異なる条件下での内部動作や振る舞いは、まだ完全には理解されておらず、改善を見出すのは難しい。 そこで本研究では,ネットワークアーキテクチャの対称性とパラメータ更新分布の観点から,最適化軌道について検討する。 さらに、学習したオプティマイザと手作業で設計したオプティマイザを対比することにより、各アプローチが他方の強みからどのように恩恵を受けるかを示すいくつかの重要な洞察を特定します。

Optimization is an integral part of modern deep learning. Recently, the concept of learned optimizers has emerged as a way to accelerate this optimization process by replacing traditional, hand-crafted algorithms with meta-learned functions. Despite the initial promising results of these methods, issues with stability and generalization still remain, limiting their practical use. Moreover, their inner workings and behavior under different conditions are not yet fully understood, making it difficult to come up with improvements. For this reason, our work examines their optimization trajectories from the perspective of network architecture symmetries and parameter update distributions. Furthermore, by contrasting the learned optimizers with their manually designed counterparts, we identify several key insights that demonstrate how each approach can benefit from the strengths of the other.
翻訳日:2023-12-13 16:26:12 公開日:2023-12-12
# ビデオアクション検出のための半教師付きアクティブラーニング

Semi-supervised Active Learning for Video Action Detection ( http://arxiv.org/abs/2312.07169v1 )

ライセンス: Link先を確認
Aayush Singh, Aayush J Rana, Akash Kumar, Shruti Vyas, Yogesh Singh Rawat(参考訳) 本研究では,映像行動検出のためのラベル学習に焦点をあてる。 本研究では,ラベル付きデータとラベルなしデータとを併用した,新しい半教師付きアクティブラーニング手法を開発した。 ビデオ行動検出には時空間的局所化と分類が必要であるため、アクティブな学習情報サンプル選択と半教師付き学習擬似ラベル生成の両方にいくつかの課題が生じる。 まず,映像行動検出のための情報サンプルを効果的に選択するシンプルな拡張戦略であるNossAugを提案する。 次に,ビデオ中の関連アクティビティ領域を強調することにより,sslに対する擬似ラベルの有効利用を可能にする,ハイパスフィルタリングに基づく新しい手法であるfft-attentionを提案する。 提案手法を,UCF-101-24,JHMDB-21,Youtube-VOSの3種類のベンチマークデータセットで評価した。 まず,提案手法は,UCF101-24とJHMDB-21の2つのベースラインアプローチとともに,半教師付き・弱教師付き学習において先行して機能する。 次に、ビデオ内の他の密集予測タスクに対する一般化能力を示すビデオオブジェクトセグメンテーションにおけるYoutube-VOSの有効性を示す。

In this work, we focus on label efficient learning for video action detection. We develop a novel semi-supervised active learning approach which utilizes both labeled as well as unlabeled data along with informative sample selection for action detection. Video action detection requires spatio-temporal localization along with classification, which poses several challenges for both active learning informative sample selection as well as semi-supervised learning pseudo label generation. First, we propose NoiseAug, a simple augmentation strategy which effectively selects informative samples for video action detection. Next, we propose fft-attention, a novel technique based on high-pass filtering which enables effective utilization of pseudo label for SSL in video action detection by emphasizing on relevant activity region within a video. We evaluate the proposed approach on three different benchmark datasets, UCF-101-24, JHMDB-21, and Youtube-VOS. First, we demonstrate its effectiveness on video action detection where the proposed approach outperforms prior works in semi-supervised and weakly-supervised learning along with several baseline approaches in both UCF101-24 and JHMDB-21. Next, we also show its effectiveness on Youtube-VOS for video object segmentation demonstrating its generalization capability for other dense prediction tasks in videos.
翻訳日:2023-12-13 16:25:21 公開日:2023-12-12
# ハイブリッド確率輸送を用いた等変流マッチング

Equivariant Flow Matching with Hybrid Probability Transport ( http://arxiv.org/abs/2312.07168v1 )

ライセンス: Link先を確認
Yuxuan Song, Jingjing Gong, Minkai Xu, Ziyao Cao, Yanyan Lan, Stefano Ermon, Hao Zhou, Wei-Ying Ma(参考訳) 3d分子の生成には、カテゴリー的特徴(原子型)と連続的特徴(原子座標)を同時に決定する必要がある。 深層生成モデル、特に拡散モデル(dms)は、特徴豊富な幾何学の生成に有効性を示している。 しかし、既存のDMは非効率サンプリング速度の不安定な確率力学に悩まされる。 本稿では,同変モデリングと安定化確率力学の両方の利点を享受する幾何学的フローマッチングを提案する。 より具体的には、座標確率経路を同変最適輸送によって定式化し、異なるモダリティ間の情報を整列するハイブリッド確率経路を提案する。 実験により, 提案手法は, 平均サンプリング速度が4.75$\times$ の複数の分子生成ベンチマークにおいて, 常に良好な性能を実現することができた。

The generation of 3D molecules requires simultaneously deciding the categorical features~(atom types) and continuous features~(atom coordinates). Deep generative models, especially Diffusion Models (DMs), have demonstrated effectiveness in generating feature-rich geometries. However, existing DMs typically suffer from unstable probability dynamics with inefficient sampling speed. In this paper, we introduce geometric flow matching, which enjoys the advantages of both equivariant modeling and stabilized probability dynamics. More specifically, we propose a hybrid probability path where the coordinates probability path is regularized by an equivariant optimal transport, and the information between different modalities is aligned. Experimentally, the proposed method could consistently achieve better performance on multiple molecule generation benchmarks with 4.75$\times$ speed up of sampling on average.
翻訳日:2023-12-13 16:24:57 公開日:2023-12-12
# フェデレートマルチラベル分類のための言語誘導トランス

Language-Guided Transformer for Federated Multi-Label Classification ( http://arxiv.org/abs/2312.07165v1 )

ライセンス: Link先を確認
I-Jieh Liu, Ci-Siang Lin, Fu-En Yang, Yu-Chiang Frank Wang(参考訳) フェデレートラーニング(FL)は、複数のユーザがプライベートデータを共有せずに、プライバシー保護方法で堅牢なモデルを共同でトレーニングできる、新たなパラダイムである。 FLの既存のアプローチのほとんどは、タスクをマルチラベル画像分類に移行する際の影響を無視して、従来のシングルラベル画像分類のみを考慮する。 しかし,実世界のFLシナリオにおけるローカルデータ配信におけるユーザ不均一性に対処することは依然として困難であり,マルチラベル画像分類においてこの問題はさらに深刻化している。 近年の集中型セッティングにおけるトランスフォーマーの成功に触発されて,マルチラベル分類のための新しいFLフレームワークを提案する。 部分的なラベル相関は、トレーニング中にローカルクライアントによって観測されるため、ローカル更新されたモデルの直接集約は、十分なパフォーマンスを得られない。 そこで我々は,この課題に対処するために,言語ガイドトランスフォーマー(FedLGT)の新たなFLフレームワークを提案する。 各種マルチラベルデータセット(FLAIR,MS-COCOなど)の広範な実験を通じて,FedLGTが満足な性能を実現し,マルチラベルFLシナリオ下での標準FL技術より優れていることを示す。 コードはhttps://github.com/Jack24658735/FedLGTで入手できる。

Federated Learning (FL) is an emerging paradigm that enables multiple users to collaboratively train a robust model in a privacy-preserving manner without sharing their private data. Most existing approaches of FL only consider traditional single-label image classification, ignoring the impact when transferring the task to multi-label image classification. Nevertheless, it is still challenging for FL to deal with user heterogeneity in their local data distribution in the real-world FL scenario, and this issue becomes even more severe in multi-label image classification. Inspired by the recent success of Transformers in centralized settings, we propose a novel FL framework for multi-label classification. Since partial label correlation may be observed by local clients during training, direct aggregation of locally updated models would not produce satisfactory performances. Thus, we propose a novel FL framework of Language-Guided Transformer (FedLGT) to tackle this challenging task, which aims to exploit and transfer knowledge across different clients for learning a robust global model. Through extensive experiments on various multi-label datasets (e.g., FLAIR, MS-COCO, etc.), we show that our FedLGT is able to achieve satisfactory performance and outperforms standard FL techniques under multi-label FL scenarios. Code is available at https://github.com/Jack24658735/FedLGT.
翻訳日:2023-12-13 16:24:26 公開日:2023-12-12
# トランジット系外惑星検出のための一次元畳み込みニューラルネットワーク

One-dimensional Convolutional Neural Networks for Detecting Transiting Exoplanets ( http://arxiv.org/abs/2312.07161v1 )

ライセンス: Link先を確認
Santiago Iglesias \'Alvarez, Enrique D\'iez Alonso, Mar\'ia Luisa S\'anchez, Javier Rodr\'iguez Rodr\'iguez, Fernando S\'anchez Lasheras and Francisco Javier de Cos Juez(参考訳) トランジット法は、恒星の光曲線における周期的な日食を検知する最も関連性の高い太陽系外惑星検出手法の1つである。 これは、例えば望遠鏡の恒星フラックスへの応答によって誘導される光曲線にノイズが存在するため、必ずしも容易ではない。 そこで我々は、異なる望遠鏡やサーベイから得られた光線曲線でこれらのトランジットを検出できる人工ニューラルネットワークモデルの開発を目標とした。 ケプラー望遠鏡(k2)の延長ミッションで期待されるものを再現するために、トランジットなしの人工光曲線を作成し、後にテストされた1次元畳み込みニューラルネットワークモデルの訓練と検証を行い、精度99.02 %、推定誤差(損失関数)0.03を得た。 これらの結果は、1D CNNが非位相折りたたみマンデルおよびアゴール光曲線とトランジットを併用する良い選択であることを示すのに役立った。 また、トランジットのような信号が存在するかどうかを視覚的に検査する必要がある光曲線の数を減らし、分析に要する時間を短縮する(従来の分析では)。

The transit method is one of the most relevant exoplanet detection techniques, which consists of detecting periodic eclipses in the light curves of stars. This is not always easy due to the presence of noise in the light curves, which is induced, for example, by the response of a telescope to stellar flux. For this reason, we aimed to develop an artificial neural network model that is able to detect these transits in light curves obtained from different telescopes and surveys. We created artificial light curves with and without transits to try to mimic those expected for the extended mission of the Kepler telescope (K2) in order to train and validate a 1D convolutional neural network model, which was later tested, obtaining an accuracy of 99.02 % and an estimated error (loss function) of 0.03. These results, among others, helped to confirm that the 1D CNN is a good choice for working with non-phased-folded Mandel and Agol light curves with transits. It also reduces the number of light curves that have to be visually inspected to decide if they present transit-like signals and decreases the time needed for analyzing each (with respect to traditional analysis).
翻訳日:2023-12-13 16:24:01 公開日:2023-12-12
# グラフニューラルネットワークに対する非標的毒殺攻撃のコスト認識

Cost Aware Untargeted Poisoning Attack against Graph Neural Networks, ( http://arxiv.org/abs/2312.07158v1 )

ライセンス: Link先を確認
Yuwei Han, Yuni Lai, Yulin Zhu and Kai Zhou(参考訳) グラフニューラルネットワーク(GNN)は、グラフマイニングの分野で広く利用されている。 しかし、これらのネットワークは構造的摂動に弱い。 多くの研究が毒殺攻撃による脆弱性の分析に力を入れているが、現在の攻撃損失の非効率性が確認できた。 これらの損失は、誤って分類されたノードや弾力性のあるノードをターゲットとするエッジを変更するための攻撃戦略を支え、構造的対向的摂動を無駄にする。 そこで本研究では,ノードの分類マージンを動的に考慮し,攻撃予算の配分を改善するため,コスト認識型毒殺攻撃(ca-attack)と呼ばれる新しい攻撃損失フレームワークを提案する。 具体的には、負のマージンを持つノードを優先し、負のマージンを持つノードを延期する。 提案したCA攻撃が既存の攻撃戦略を大幅に強化することを示す実験を行った。

Graph Neural Networks (GNNs) have become widely used in the field of graph mining. However, these networks are vulnerable to structural perturbations. While many research efforts have focused on analyzing vulnerability through poisoning attacks, we have identified an inefficiency in current attack losses. These losses steer the attack strategy towards modifying edges targeting misclassified nodes or resilient nodes, resulting in a waste of structural adversarial perturbation. To address this issue, we propose a novel attack loss framework called the Cost Aware Poisoning Attack (CA-attack) to improve the allocation of the attack budget by dynamically considering the classification margins of nodes. Specifically, it prioritizes nodes with smaller positive margins while postponing nodes with negative margins. Our experiments demonstrate that the proposed CA-attack significantly enhances existing attack strategies
翻訳日:2023-12-13 16:23:40 公開日:2023-12-12
# 弱値とファインマンの盲点について

On Weak Values and Feynman's Blind Alley ( http://arxiv.org/abs/2312.07153v1 )

ライセンス: Link先を確認
Dmitri Sokolovski(参考訳) ファインマンは法の背後にある機械を推測せずに量子力学の基本原理を受け入れることを推奨した。 不確実性原理の結論の1つは、確率振幅の知識は、観測されていない量子系の過去についての有意義な言明を許さないことである。 弱い値に基づく特定の推論は、まさにそのように思われる。 Feynmanは最近の開発で間違っていたのだろうか? おそらくそうではない。

Feynman famously recommended accepting the basic principles of quantum mechanics without trying to guess the machinery behind the law. One of the corollaries of the Uncertainty Principle is that the knowledge of probability amplitudes does not allow one to make meaningful statements about the past of an unobserved quantum system. A particular type of reasoning, based on weak values, appears to do just that. Has Feynman been proven wrong by the more recent developments? Most likely not.
翻訳日:2023-12-13 16:23:26 公開日:2023-12-12
# Gaussian-Linear Hidden Markovモデル:Pythonパッケージ

The Gaussian-Linear Hidden Markov model: a Python package ( http://arxiv.org/abs/2312.07151v1 )

ライセンス: Link先を確認
Diego Vidaurre, Nick Y. Larsen, Laura Masaracchia, Lenno R.P.T Ruijters, Sonsoles Alonso, Christine Ahrends and Mark W. Woolrich(参考訳) 本稿では,神経科学でよく用いられるHMMの多種多型を一般化したGaussian-Linear Hidden Markovモデル(GLHMM)を提案する。 つまり、GLHMMは、線形回帰を用いてガウス状態分布を柔軟にパラメータ化し、非教師なし、エンコーディング、デコードモデルを含む幅広い用途を収容する一般的なフレームワークである。 glhmmはpythonツールボックスとして実装されており、統計的テストとサンプル外の予測に重点を置いている。 このツールボックスは確率的変分推論アプローチを使用しており、妥当な計算時間で巨大なデータセットを処理できる。 全体として、このアプローチは動物の記録や脳以外のデータを含むいくつかのデータモダリティに適用でき、幅広い実験パラダイムに適用できる。 実演では, fmri, 皮質電図, 脳磁図, 瞳孔計測の例を示す。

We propose the Gaussian-Linear Hidden Markov model (GLHMM), a generalisation of different types of HMMs commonly used in neuroscience. In short, the GLHMM is a general framework where linear regression is used to flexibly parameterise the Gaussian state distribution, thereby accommodating a wide range of uses -including unsupervised, encoding and decoding models. GLHMM is implemented as a Python toolbox with an emphasis on statistical testing and out-of-sample prediction -i.e. aimed at finding and characterising brain-behaviour associations. The toolbox uses a stochastic variational inference approach, enabling it to handle large data sets at reasonable computational time. Overall, the approach can be applied to several data modalities, including animal recordings or non-brain data, and applied over a broad range of experimental paradigms. For demonstration, we show examples with fMRI, electrocorticography, magnetoencephalo-graphy and pupillometry.
翻訳日:2023-12-13 16:23:19 公開日:2023-12-12
# 極端マスキングを用いた3次元点雲生成用拡散変圧器の高速訓練

Fast Training of Diffusion Transformer with Extreme Masking for 3D Point Clouds Generation ( http://arxiv.org/abs/2312.07231v1 )

ライセンス: Link先を確認
Shentong Mo, Enze Xie, Yue Wu, Junsong Chen, Matthias Nie{\ss}ner, Zhenguo Li(参考訳) 拡散変換器は近年,高品質な3D点雲の生成において顕著な効果を示した。 しかし、高分解能な3次元ボクセルに対するボクセルベース拡散モデルの訓練は、ボクセルの付加次元から生じる注意演算子の3次複雑さのため、非常に高価である。 2Dと比較して3Dの固有冗長性によって動機づけられたFastDiT-3Dは、効率的な3Dポイントクラウド生成に適したマスク付き拡散変圧器であり、トレーニングコストを大幅に削減する。 具体的には、マスク付きオートエンコーダからインスピレーションを得て、マスク付き酸化点雲上で動的に復調処理を行う。 また,ボクセル化ポイントクラウドから背景/フォアグラウンド情報を適応的に集約する新しいボクセルアウェアマスキング戦略を提案する。 本手法は, マスキング比が99%近い最先端性能を実現する。 さらに、3次元拡散モデルにMixture-of-Expert(MoE)を導入する。 各カテゴリは、異なる専門家による明確な拡散経路を学習し、勾配の衝突を軽減できる。 ShapeNetデータセットの実験結果から,本手法は最先端の高忠実度および多様な3Dポイントクラウド生成性能を実現する。 当社のFastDiT-3Dは、128解像度のボクセル点雲を生成する際の1-Nearest Neighbor Accuracy and Coverageのメトリクスを、当初のトレーニングコストの6.5%で改善しています。

Diffusion Transformers have recently shown remarkable effectiveness in generating high-quality 3D point clouds. However, training voxel-based diffusion models for high-resolution 3D voxels remains prohibitively expensive due to the cubic complexity of attention operators, which arises from the additional dimension of voxels. Motivated by the inherent redundancy of 3D compared to 2D, we propose FastDiT-3D, a novel masked diffusion transformer tailored for efficient 3D point cloud generation, which greatly reduces training costs. Specifically, we draw inspiration from masked autoencoders to dynamically operate the denoising process on masked voxelized point clouds. We also propose a novel voxel-aware masking strategy to adaptively aggregate background/foreground information from voxelized point clouds. Our method achieves state-of-the-art performance with an extreme masking ratio of nearly 99%. Moreover, to improve multi-category 3D generation, we introduce Mixture-of-Expert (MoE) in 3D diffusion model. Each category can learn a distinct diffusion path with different experts, relieving gradient conflict. Experimental results on the ShapeNet dataset demonstrate that our method achieves state-of-the-art high-fidelity and diverse 3D point cloud generation performance. Our FastDiT-3D improves 1-Nearest Neighbor Accuracy and Coverage metrics when generating 128-resolution voxel point clouds, using only 6.5% of the original training cost.
翻訳日:2023-12-13 16:15:45 公開日:2023-12-12
# 有害言語検出:アラビア語データセットの体系的調査

Toxic language detection: a systematic survey of Arabic datasets ( http://arxiv.org/abs/2312.07228v1 )

ライセンス: Link先を確認
Imene Bensalem, Paolo Rosso, Hanane Zitouni(参考訳) 本稿では,オンライン有毒言語に着目したアラビア語データセットの包括的調査を行う。 我々は,49のデータセットとその対応論文を体系的に収集し,コンテンツ,アノテーションプロセス,再利用性という3つの主要な領域にまたがる16の基準を考慮し,徹底的な分析を行った。 この分析により,既存のギャップを特定し,今後の研究成果の推薦を行うことができた。

This paper offers a comprehensive survey of Arabic datasets focused on online toxic language. We systematically gathered a total of 49 available datasets and their corresponding papers and conducted a thorough analysis, considering 16 criteria across three primary dimensions: content, annotation process, and reusability. This analysis enabled us to identify existing gaps and make recommendations for future research works.
翻訳日:2023-12-13 16:15:20 公開日:2023-12-12
# 回転走査型光音響顕微鏡画像の超解像

Super-Resolution on Rotationally Scanned Photoacoustic Microscopy Images Incorporating Scanning Prior ( http://arxiv.org/abs/2312.07226v1 )

ライセンス: Link先を確認
Kai Pan, Linyang Li, Li Lin, Pujin Cheng, Junyan Lyu, Lei Xi, and Xiaoyin Tang(参考訳) 光音響顕微鏡(PAM)画像は、光コントラストと音響分解能の利点を組み合わせた脳研究で広く利用されている。 しかし、走査速度と画像解像度の間にはトレードオフがある。 従来のラスタスキャンと比較すると、回転走査は走査機構を最適化することで高速なPAMイメージングの好機となる。 近年,スキャンプロセスに深層学習を取り入れてスキャン速度をさらに向上する傾向があり,ローテーションスキャンは比較的稀である。 本研究では,回転走査型PAMイメージングのための新しい高性能超解像フレームワークを提案する。 主観運動や高周波走査歪みによる隣接列の変位を除去するため, 前処理における奇数列,偶数列間の登録モジュールを導入し,トレーニングにおける変位劣化を取り入れた。 また, 血管内パッチの選択率を高めるために, 勾配型パッチ選択法が提案されている。 グローバルレセプティブフィールドを持つトランスベースネットワークは、より優れた性能のために適用される。 合成データと実データの両方を用いた実験結果から, 回転走査型PAM画像の超解像化のためのフレームワークの有効性と一般化性を示した。 コードはhttps://github.com/11710615/PAMSR.gitで入手できる。

Photoacoustic Microscopy (PAM) images integrating the advantages of optical contrast and acoustic resolution have been widely used in brain studies. However, there exists a trade-off between scanning speed and image resolution. Compared with traditional raster scanning, rotational scanning provides good opportunities for fast PAM imaging by optimizing the scanning mechanism. Recently, there is a trend to incorporate deep learning into the scanning process to further increase the scanning speed.Yet, most such attempts are performed for raster scanning while those for rotational scanning are relatively rare. In this study, we propose a novel and well-performing super-resolution framework for rotational scanning-based PAM imaging. To eliminate adjacent rows' displacements due to subject motion or high-frequency scanning distortion,we introduce a registration module across odd and even rows in the preprocessing and incorporate displacement degradation in the training. Besides, gradient-based patch selection is proposed to increase the probability of blood vessel patches being selected for training. A Transformer-based network with a global receptive field is applied for better performance. Experimental results on both synthetic and real datasets demonstrate the effectiveness and generalizability of our proposed framework for rotationally scanned PAM images'super-resolution, both quantitatively and qualitatively. Code is available at https://github.com/11710615/PAMSR.git.
翻訳日:2023-12-13 16:15:13 公開日:2023-12-12
# 環領域上の v-表現可能性問題の解法

Solution of the v-representability problem on a ring domain ( http://arxiv.org/abs/2312.07225v1 )

ライセンス: Link先を確認
Sarina M. Sutter, Markus Penz, Michael Ruggenthaler, Robert van Leeuwen, Klaas J. H. Giesbertz(参考訳) ソボレフ空間とその双対の観点から、環領域上の非相対論的量子多粒子系に対する v-表現可能性問題の解を提供する。 正方積分可能な任意の一粒子密度は、正方積分可能な弱微分を持ち、ゼロから切り離されたものは、対応する外部ポテンシャルを選択することにより、相互作用の有無に関わらず、多粒子シュリンガー方程式の解から実現できる。 このポテンシャルは分布的寄与を含むことができるが、それでも自己随伴ハミルトニアンを生じさせる。 重要なことに、これはよく定義されたコーン・シャムの手続きを可能にするが、一方、ホーエンベルク・コーンの定理の通常の証明を無効にする。

We provide a solution to the v-representability problem for a non-relativistic quantum many-particle system on a ring domain in terms of Sobolev spaces and their duals. Any one-particle density that is square-integrable, has a square-integrable weak derivative, and is gapped away from zero can be realized from the solution of a many-particle Schr\"odinger equation, with or without interactions, by choosing a corresponding external potential. This potential can contain a distributional contribution but still gives rise to a self-adjoint Hamiltonian. Importantly, this allows for a well-defined Kohn-Sham procedure but, on the other hand, invalidates the usual proof of the Hohenberg-Kohn theorem.
翻訳日:2023-12-13 16:14:52 公開日:2023-12-12
# ゼロショット点クラウドセマンティックセグメンテーションへのCLIPの知識伝達

Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2312.07221v1 )

ライセンス: Link先を確認
Yuanbin Wang, Shaofei Huang, Yulu Gao, Zhen Wang, Rui Wang, Kehua Sheng, Bo Zhang, Si Liu(参考訳) 従来の3Dセグメンテーション手法では、トレーニングセットに現れる一定の範囲のクラスしか認識できない。 CLIPのような大規模視覚言語事前訓練モデルでは、ゼロショット2D視覚タスクにおいて一般化能力を示すが、3Dセマンティックセグメンテーションに直接適用することはできない。 本稿では,ゼロショットポイントクラウドセマンティックセグメンテーションに着目し,CLIPが入力する視覚言語的知識を機能レベルと出力レベルの両方でクラウドエンコーダに転送するための,シンプルかつ効果的なベースラインを提案する。 2dエンコーダと3dエンコーダ間で機能レベルと出力レベルのアライメントを行い、効果的な知識転送を行う。 具体的には,グローバルセマンティクスと局所位置アライメントから2次元および3次元特徴をアライメントするために,マルチグラニュラリティクロスモーダル特徴アライメント(mcfa)モジュールを提案する。 出力レベルでは、CLIP画像エンコーダの動作を模倣する3Dセグメンテーションモデルの監督として、事前訓練されたCLIPモデルを用いて、未確認クラスの画素ごとの擬似ラベルを抽出する。 ポイントクラウドセグメンテーションの2つの人気のあるベンチマークで広範な実験が行われている。 提案手法は,セマンティックKITTIでは+29.2% mIoU,nuScenesでは31.8% mIoU) で過去の最先端手法よりも優れており,またアノテーションのないクラウドセマンティックセマンティックセマンティックスセグメンテーション設定においても有望な結果が得られ,ラベル効率のよい学習の可能性を示している。

Traditional 3D segmentation methods can only recognize a fixed range of classes that appear in the training set, which limits their application in real-world scenarios due to the lack of generalization ability. Large-scale visual-language pre-trained models, such as CLIP, have shown their generalization ability in the zero-shot 2D vision tasks, but are still unable to be applied to 3D semantic segmentation directly. In this work, we focus on zero-shot point cloud semantic segmentation and propose a simple yet effective baseline to transfer the visual-linguistic knowledge implied in CLIP to point cloud encoder at both feature and output levels. Both feature-level and output-level alignments are conducted between 2D and 3D encoders for effective knowledge transfer. Concretely, a Multi-granularity Cross-modal Feature Alignment (MCFA) module is proposed to align 2D and 3D features from global semantic and local position perspectives for feature-level alignment. For the output level, per-pixel pseudo labels of unseen classes are extracted using the pre-trained CLIP model as supervision for the 3D segmentation model to mimic the behavior of the CLIP image encoder. Extensive experiments are conducted on two popular benchmarks of point cloud segmentation. Our method outperforms significantly previous state-of-the-art methods under zero-shot setting (+29.2% mIoU on SemanticKITTI and 31.8% mIoU on nuScenes), and further achieves promising results in the annotation-free point cloud semantic segmentation setting, showing its great potential for label-efficient learning.
翻訳日:2023-12-13 16:14:41 公開日:2023-12-12
# インタラクションから学ぶ:強化学習を用いたユーザインタフェース適応

Learning from Interaction: User Interface Adaptation using Reinforcement Learning ( http://arxiv.org/abs/2312.07216v1 )

ライセンス: Link先を確認
Daniel Gaspar-Figueiredo(参考訳) ユーザのニーズに合わせたソフトウェアシステムの継続的適応は、ユーザエクスペリエンス(UX)を高める上で非常に重要です。 ユーザインタフェース(ui)適応は、ユーザの好みや状況に応じてレイアウト、ナビゲーション、コンテンツのプレゼンテーションを調整することで、この目標を達成する上で重要な役割を果たす。 しかし、適切なタイミングと適切な場所における適切な適応を提案することは、エンドユーザに価値を与えるために依然として課題である。 この課題に取り組むために、機械学習アプローチが使用できる。 特に,ユーザとのインタラクションから学習できることから,強化学習(Reinforcement Learning, RL)を採用している。 このアプローチでは、フィードバックは非常に重要であり、異なる適応に対するユーザの反応に関する客観的な洞察を得るためには、生理学的データの使用が有益かもしれない。 そこで本論文では,生理的データを用いたRLベースのUI適応フレームワークを提案する。 このフレームワークは、ユーザインタラクションから学び、UXを改善するための情報適応を作ることを目的としている。 この目的のために、我々の研究は以下の質問に答えることを目指している。 RLベースのアプローチはUXを改善するのか? UI適応を導く上でRLはどの程度有効か? 生理学的データによるUI適応はUXの強化に有効か? 評価計画では,これらの質問に対する回答を評価するためのユーザスタディを実施する。 経験的評価は、提案された適応フレームワークの構築、評価、改善のための強力な経験的基盤を提供する。 この研究の期待されている貢献は、インテリジェント適応UIのための新しいフレームワークの開発、UI適応を導くためのRLアルゴリズムの有効性に関する洞察、UXの客観的尺度としての生理的データの統合、提案したフレームワークがUXに与える影響の実証的検証である。

The continuous adaptation of software systems to meet the evolving needs of users is very important for enhancing user experience (UX). User interface (UI) adaptation, which involves adjusting the layout, navigation, and content presentation based on user preferences and contextual conditions, plays an important role in achieving this goal. However, suggesting the right adaptation at the right time and in the right place remains a challenge in order to make it valuable for the end-user. To tackle this challenge, machine learning approaches could be used. In particular, we are using Reinforcement Learning (RL) due to its ability to learn from interaction with the users. In this approach, the feedback is very important and the use of physiological data could be benefitial to obtain objective insights into how users are reacting to the different adaptations. Thus, in this PhD thesis, we propose an RL-based UI adaptation framework that uses physiological data. The framework aims to learn from user interactions and make informed adaptations to improve UX. To this end, our research aims to answer the following questions: Does the use of an RL-based approach improve UX? How effective is RL in guiding UI adaptation? and Can physiological data support UI adaptation for enhancing UX? The evaluation plan involves conducting user studies to evaluate answer these questions. The empirical evaluation will provide a strong empirical foundation for building, evaluating, and improving the proposed adaptation framework. The expected contributions of this research include the development of a novel framework for intelligent Adaptive UIs, insights into the effectiveness of RL algorithms in guiding UI adaptation, the integration of physiological data as objective measures of UX, and empirical validation of the proposed framework's impact on UX.
翻訳日:2023-12-13 16:14:07 公開日:2023-12-12
# ロボットチームのための可変自律性を実現するための大規模言語モデルの検討

Exploring Large Language Models to Facilitate Variable Autonomy for Human-Robot Teaming ( http://arxiv.org/abs/2312.07214v1 )

ライセンス: Link先を確認
Younes Lakhnati, Max Pascher, Jens Gerken(参考訳) 急速に進化するデジタルランドスケープでは、自律的なツールやロボットが一般的になりつつある。 本稿では,この開発の重要性を認識し,多言語モデル(LLM)であるジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)を人間-ロボット協調環境に統合し,言語-ロボットコミュニケーションによる可変自律性を実現する。 本稿では,単体VR(Unity Virtual Reality)設定に基づく,GPTを利用したマルチロボットテストベッド環境のための新しいフレームワークを提案する。 このシステムにより、ユーザーは自然言語でロボットエージェントと対話でき、それぞれが個々のGPTコアで動く。 OpenAIの関数呼び出しにより、構造化されていない自然言語入力と構造ロボット動作のギャップを埋める。 12人の参加者によるユーザスタディでは、GPT-4の有効性と、さらに重要なのは、マルチロボット環境で自然言語で会話する機会を与えられる際のユーザ戦略について検討している。 以上の結果から,ロボットとの会話の仕方や,ロボット共同作業者の実際の言語や認知能力について,ユーザが事前に期待していたことが示唆された。 それでも、より自然なコミュニケーションのフローと、人間のようなバック・アンド・フォースから恩恵を受けることができるかを探求したユーザーもいる。 同様のシステムの今後の研究および技術的実装について学んだ教訓の集合を提供する。

In a rapidly evolving digital landscape autonomous tools and robots are becoming commonplace. Recognizing the significance of this development, this paper explores the integration of Large Language Models (LLMs) like Generative pre-trained transformer (GPT) into human-robot teaming environments to facilitate variable autonomy through the means of verbal human-robot communication. In this paper, we introduce a novel framework for such a GPT-powered multi-robot testbed environment, based on a Unity Virtual Reality (VR) setting. This system allows users to interact with robot agents through natural language, each powered by individual GPT cores. By means of OpenAI's function calling, we bridge the gap between unstructured natural language input and structure robot actions. A user study with 12 participants explores the effectiveness of GPT-4 and, more importantly, user strategies when being given the opportunity to converse in natural language within a multi-robot environment. Our findings suggest that users may have preconceived expectations on how to converse with robots and seldom try to explore the actual language and cognitive capabilities of their robot collaborators. Still, those users who did explore where able to benefit from a much more natural flow of communication and human-like back-and-forth. We provide a set of lessons learned for future research and technical implementations of similar systems.
翻訳日:2023-12-13 16:13:41 公開日:2023-12-12
# 機械学習とディープラーニングに基づく脳にインスパイアされたコンピューティング:レビュー

Brain-inspired Computing Based on Machine Learning And Deep Learning:A Review ( http://arxiv.org/abs/2312.07213v1 )

ライセンス: Link先を確認
Bihui Yu, Sibo Zhang(参考訳) 人工知能の継続的な開発は、バイオメディカル研究や他の分野に大きな影響を与え、脳に触発されたコンピューティングは、マルチモーダル技術とバイオメディカル分野の重要な交差点である。 本稿では、脳にインスパイアされたコンピューティングにおける機械学習(ML)とディープラーニング(DL)モデルの総合的なレビューを行い、その進化、アプリケーション価値、課題、潜在的研究軌跡を追跡する。 まず、基本的な概念と開発史を概観し、その進化は、最近の機械学習と現在のディープラーニングの2つの段階に分けられ、脳にインスパイアされたコンピューティングの研究状態における各段階の重要性を強調している。 さらに,6つの視点から,脳にインスパイアされた計算タスクにおけるディープラーニングの最近の進歩と鍵となる技術を紹介する。 大幅な進歩にもかかわらず、その能力を完全に活用する上で課題は残る。 本稿では,機械学習とディープラーニングに基づく脳にインスパイアされた計算モデルの包括的レビューを行い,それらの応用可能性を強調し,今後の学術研究に有用な参考文献を提供する。 https://github.com/ultracoolHub/brain-inspired-computing

The continuous development of artificial intelligence has a profound impact on biomedical research and other fields.Brain-inspired computing is an important intersection of multimodal technology and biomedical field. This paper provides a comprehensive review of machine learning (ML) and deep learning (DL) models in brain-inspired computing, tracking their evolution, application value, challenges, and potential research trajectories. First, the basic concepts and development history are reviewed, and their evolution is divided into two stages: recent machine learning and current deep learning, emphasizing the importance of each stage in the research state of brain-inspired computing. In addition, the latest progress and key techniques of deep learning in different tasks of brain-inspired computing are introduced from six perspectives. Despite significant progress, challenges remain in making full use of its capabilities. This paper aims to provide a comprehensive review of brain-inspired computing models based on machine learning and deep learning, highlighting their potential in various applications and providing a valuable reference for future academic research. It can be accessed through the following url: https://github.com/ultracoolHub/brain-inspired-computing
翻訳日:2023-12-13 16:13:19 公開日:2023-12-12
# more than vanilla fusion:信号理論に基づくマルチモーダル融合のための単純でデカップリングフリーなアテンションモジュール

More than Vanilla Fusion: a Simple, Decoupling-free, Attention Module for Multimodal Fusion Based on Signal Theory ( http://arxiv.org/abs/2312.07212v1 )

ライセンス: Link先を確認
Peiwen Sun, Yifan Zhang, Zishan Liu, Donghao Chen, Honggang Zhang(参考訳) バニラ融合法は依然として主流のオーディオ視覚タスクの大部分を占めている。 しかしながら、理論的な観点からバニラ融合の有効性は議論に値する。 そこで本研究では,バイオニクスの観点から,マルチモーダルケースで融合した信号を再考し,基本信号理論と不確実性理論に基づくバニラ融合のための簡易かつプラグアンドプレイアテンションモジュールを提案する。 さらに、これまでのマルチモーダルな動的勾配変調の研究は、モダリティの分離に依存していた。 したがって、デカップリングフリーの勾配変調スキームは前述のアテンションモジュールと連動して設計されており、デカップリングのアテンションモジュールよりも様々な利点がある。 実験の結果、数行のコードで複数のマルチモーダル分類メソッドのパフォーマンスが最大2.0%向上できることが示されている。 最後に、他の融合タスクの定量的評価は、追加のアプリケーションシナリオの可能性を明らかにする。

The vanilla fusion methods still dominate a large percentage of mainstream audio-visual tasks. However, the effectiveness of vanilla fusion from a theoretical perspective is still worth discussing. Thus, this paper reconsiders the signal fused in the multimodal case from a bionics perspective and proposes a simple, plug-and-play, attention module for vanilla fusion based on fundamental signal theory and uncertainty theory. In addition, previous work on multimodal dynamic gradient modulation still relies on decoupling the modalities. So, a decoupling-free gradient modulation scheme has been designed in conjunction with the aforementioned attention module, which has various advantages over the decoupled one. Experiment results show that just a few lines of code can achieve up to 2.0% performance improvements to several multimodal classification methods. Finally, quantitative evaluation of other fusion tasks reveals the potential for additional application scenarios.
翻訳日:2023-12-13 16:13:01 公開日:2023-12-12
# 光スペクトルを用いた機械学習によるソフトフェイル管理の実験的検討

Experimental Investigation of Machine Learning based Soft-Failure Management using the Optical Spectrum ( http://arxiv.org/abs/2312.07208v1 )

ライセンス: Link先を確認
Lars E. Kruse, Sebastian K\"uhl, Annika Dochhan, Stephan Pachnicke(参考訳) 高速データの需要は指数関数的に増加している。 これを克服するために、光ネットワークはより複雑で多用途に変化した。 複雑さの増大は、ネットワーク保証を強化するために障害管理をより適応させる必要がある。 本稿では,異なる機械学習アルゴリズムのソフト障害管理の性能を実験的に比較する。 さらに,機械学習に基づくソフト障害管理フレームワークを導入する。 光学スペクトル解析器によって得られた光スペクトルデータに基づいて、可変オートエンコーダに基づく生成逆数ネットワーク(VAE-GAN)を利用する。 このフレームワークは、利用可能なトレーニングデータのごく一部で確実に動作し、未知の障害タイプを特定することができる。 調査によると、VAE-GANは、識別タスクで利用可能なトレーニングデータの最大10倍の精度で、他の機械学習アルゴリズムよりも優れている。 さらに、GANの高度なトレーニング機構は、未知のスペクトル識別のための高いF1スコアを示す。 フェールローカライゼーション比較は、確立した機械学習アルゴリズムよりも、VAEと組み合わせた低複雑性ニューラルネットワークの利点を示している。

The demand for high-speed data is exponentially growing. To conquer this, optical networks underwent significant changes getting more complex and versatile. The increasing complexity necessitates the fault management to be more adaptive to enhance network assurance. In this paper, we experimentally compare the performance of soft-failure management of different machine learning algorithms. We further introduce a machine-learning based soft-failure management framework. It utilizes a variational autoencoder based generative adversarial network (VAE-GAN) running on optical spectral data obtained by optical spectrum analyzers. The framework is able to reliably run on a fraction of available training data as well as identifying unknown failure types. The investigations show, that the VAE-GAN outperforms the other machine learning algorithms when up to 10\% of the total training data is available in identification tasks. Furthermore, the advanced training mechanism for the GAN shows a high F1-score for unknown spectrum identification. The failure localization comparison shows the advantage of a low complexity neural network in combination with a VAE over established machine learning algorithms.
翻訳日:2023-12-13 16:12:44 公開日:2023-12-12
# MCFNet:リアルタイムセマンティックセグメンテーションのためのマルチスケール共分散特徴融合ネットワーク

MCFNet: Multi-scale Covariance Feature Fusion Network for Real-time Semantic Segmentation ( http://arxiv.org/abs/2312.07207v1 )

ライセンス: Link先を確認
Xiaojie Fang, Xingguo Song, Xiangyin Meng, Xu Fang, Sheng Jin(参考訳) 低レベル空間詳細情報と高レベル意味抽象情報の両方が意味セグメンテーションタスクに不可欠である。 深層ネットワークによって抽出された特徴は、多くの空間情報が失われながら、豊富な意味情報を得ることができる。 しかし、空間的詳細情報を効果的に復元し、高レベルな意味論と融合する方法は、今のところうまく解決されていない。 本稿では,マルチスケール共分散機能融合ネットワーク(mcfnet)と呼ばれる,バイラテラルセグメンテーションネットワーク(bisenet)に基づく新しいアーキテクチャを提案する。 具体的には、このネットワークは新機能リファインメントモジュールと新機能フュージョンモジュールを導入している。 さらに,L-ゲイトと呼ばれるゲーティングユニットを提案し,無効な情報をフィルタリングし,マルチスケール機能を融合する。 提案したCityscapes,CamVidデータセットのモデルを評価し,最先端の手法と比較した。 広範な実験により,本手法が競争的成功を収めることが示された。 都市景観では、速度151.3 FPSで75.5%のmIOUを達成する。

The low-level spatial detail information and high-level semantic abstract information are both essential to the semantic segmentation task. The features extracted by the deep network can obtain rich semantic information, while a lot of spatial information is lost. However, how to recover spatial detail information effectively and fuse it with high-level semantics has not been well addressed so far. In this paper, we propose a new architecture based on Bilateral Segmentation Network (BiseNet) called Multi-scale Covariance Feature Fusion Network (MCFNet). Specifically, this network introduces a new feature refinement module and a new feature fusion module. Furthermore, a gating unit named L-Gate is proposed to filter out invalid information and fuse multi-scale features. We evaluate our proposed model on Cityscapes, CamVid datasets and compare it with the state-of-the-art methods. Extensive experiments show that our method achieves competitive success. On Cityscapes, we achieve 75.5% mIOU with a speed of 151.3 FPS.
翻訳日:2023-12-13 16:12:30 公開日:2023-12-12
# テレコムセクターからのチャーン予測データセット:アップリフトモデリングのための新しいベンチマーク

A churn prediction dataset from the telecom sector: a new benchmark for uplift modeling ( http://arxiv.org/abs/2312.07206v1 )

ライセンス: Link先を確認
Th\'eo Verhelst, Denis Mercier, Jeevan Shrestha, Gianluca Bontempi(参考訳) アップリフトモデリング(英: Uplift Modeling)は、個人に対する介入の因果的影響を特定することを目的とした、データ駆動意思決定において重要なアプローチである。 本稿では,ベルギー・オレンジ・ベルギーの通信会社によるチャーン予測に着目したアップリフトモデリングのための新しいベンチマークデータセットを提案する。 この文脈でchurnは、通信サービスへのサブスクリプションを終了させる顧客を指している。 これは、チャーン予測問題に対するアップリフトモデリングの効率を評価する可能性を提供する最初の公開データセットである。 さらに、そのユニークな特徴は、他のいくつかのパブリックアップリフトデータセットよりも困難である。

Uplift modeling, also known as individual treatment effect (ITE) estimation, is an important approach for data-driven decision making that aims to identify the causal impact of an intervention on individuals. This paper introduces a new benchmark dataset for uplift modeling focused on churn prediction, coming from a telecom company in Belgium, Orange Belgium. Churn, in this context, refers to customers terminating their subscription to the telecom service. This is the first publicly available dataset offering the possibility to evaluate the efficiency of uplift modeling on the churn prediction problem. Moreover, its unique characteristics make it more challenging than the few other public uplift datasets.
翻訳日:2023-12-13 16:12:15 公開日:2023-12-12
# マルチプロトコル協調型QKDネットワーク方式

A Practical Multi-Protocol Collaborative QKD Networking Scheme ( http://arxiv.org/abs/2312.07201v1 )

ライセンス: Link先を確認
Jia-Meng Yao, Qiong Li, Hao-Kun Mao(参考訳) 量子コンピューティングの進歩により、公開鍵暗号のセキュリティは深刻な脅威にさらされている。 量子時代のセキュリティを保証するため、量子鍵分布は競争的ソリューションとなっている。 qkdネットワークは測定デバイス依存ネットワークと測定デバイス非依存ネットワークに分類される。 計測デバイスに依存したネットワークでは、信頼できるリレーがすべて利用できる。 つまり、信頼できるリレーはすべて、厳格な制御を必要とする信頼性の高いリレーである。 この問題に対処するため、測定デバイス非依存ネットワークは信頼できないリレーを導入することで、信頼性の高いリレーノードの割合を減少させる。 しかし、短距離での計測デバイス依存プロトコルのキーレートが高いため、計測デバイス依存ネットワークの通信能力は測定デバイス依存ネットワークに比べて低下する。 したがって,QKDネットワークの信頼性の高い中継装置への依存度を大幅に低下させる方法が,QKDネットワークの実用化プロセスにおいて大きな問題となっている。 そこで本稿では,本稿で提案するマルチプロトコル協調ネットワークセルを提案する。 MPCネットワークセルによって構築されたQKDネットワークは、2つのプロトコルを組み合わせて信頼性の弱いリレーを導入し、高い通信容量を維持しながら、信頼性の高いリレーへの依存を低減する。 さらに,QKDネットワーク全体の性能向上を図るため,提案したフローベース数理モデルと最適化手法を用いて最適トポロジ設計手法を提案する。 シミュレーションの結果,提案手法は通信能力の大幅な低下を伴わず,信頼性の高い中継への依存を低減し,QKDネットワークの実用化に大きく貢献することを示す。

With the advancement of quantum computing, the security of public key cryptography is under serious threat. To guarantee security in the quantum era, Quantum Key Distribution has become a competitive solution. QKD networks can be classified into measurement-device-dependent network and measurement-device-independent network. In measurement-device-dependent networks, the information is available for all trusted relays. This means that all trusted relays are strongly trusted relays that require strict control, which is difficult to realize. To address this issue, measurement-device-independent networks reduce the proportion of strongly trusted relay nodes by introducing untrusted relays. However, due to the higher key rate of measurement-device-dependent protocols over short distances, the communication capability of measurement-device-independent networks has a degradation compared to measurement-device-dependent networks. Therefore, how to reduce the dependence of QKD networks on strong trusted relays without significantly affecting the communication capability has become a major issue in the practicalization process of QKD networks. To address this issue, a novel Multi-Protocol Collaborative networking cell is proposed in this paper. The QKD network built by the MPC networking cell reduces the dependence on strongly trusted relays by combining the two protocols to introduce weak trusted relays while maintaining the high communication capacity. What's more, to further enhance the overall performance of the QKD network, an optimal topology design method is presented via the proposed flow-based mathematical model and optimization method. The simulation results show that the proposed scheme reduces the dependence on strongly trusted relays without a significant reduction in communication capability, our work holds great significance in promoting the practicalization of QKD networks.
翻訳日:2023-12-13 16:12:05 公開日:2023-12-12
# コード事前学習言語モデルにおける不正データ検出のためのコードメンバーシップ推論

Code Membership Inference for Detecting Unauthorized Data Use in Code Pre-trained Language Models ( http://arxiv.org/abs/2312.07200v1 )

ライセンス: Link先を確認
Sheng Zhang, Hui Li(参考訳) コード事前訓練言語モデル(CPLM)は、ソフトウェア開発やメンテナンスを容易にする様々なタスクに役立てることができるため、大きな注目を集めている。 しかし、CPLMは大規模なオープンソースコードで訓練されており、潜在的なデータ侵害に関する懸念を提起している。 本稿では,CPLM(Code Membership Inference, CMI)タスクにおける不正コードの使用を検出するための最初の研究を開始する。 CMIの異なる設定のためのフレームワークBuzzerを設計する。 Buzzerは、ターゲットCPLMの蒸留、アンサンブル推論、一様および二様キャリブレーションなど、いくつかの推論手法を展開している。 広範な実験により、ブザーを用いてcmiを高精度に達成できることが示されている。 したがって、buzzerはcmiツールとして機能し、知的財産権を保護するのに役立つ。

Code pre-trained language models (CPLMs) have received great attention since they can benefit various tasks that facilitate software development and maintenance. However, CPLMs are trained on massive open-source code, raising concerns about potential data infringement. This paper launches the first study of detecting unauthorized code use in CPLMs, i.e., Code Membership Inference (CMI) task. We design a framework Buzzer for different settings of CMI. Buzzer deploys several inference techniques, including distilling the target CPLM, ensemble inference, and unimodal and bimodal calibration. Extensive experiments show that CMI can be achieved with high accuracy using Buzzer. Hence, Buzzer can serve as a CMI tool and help protect intellectual property rights.
翻訳日:2023-12-13 16:11:39 公開日:2023-12-12
# 多変量地球系データキューブとしてのシーズファイア

SeasFire as a Multivariate Earth System Datacube for Wildfire Dynamics ( http://arxiv.org/abs/2312.07199v1 )

ライセンス: Link先を確認
Ilektra Karasante, Lazaro Alonso, Ioannis Prapas, Akanksha Ahuja, Nuno Carvalhais and Ioannis Papoutsis(参考訳) 森林火災の世界的な発生、規模、頻度は、生態系サービスや人間の生活に大きな脅威をもたらす。 森林火災の前兆条件を効果的に定量化し、属性付けするため、地球系力学の徹底的な理解が不可欠である。 そこで,本研究では,地球観測による季節的野火モデルに準じた時空間データセットであるseasfire datacubeについて紹介する。 SeasFire データキューブは気候、植生、海洋指数、人為的要因を含む59の変数で構成され、8日間の時間分解能と0.25度の空間分解能を持ち、2001年から2021年まで広がる。 深層学習モデルを用いて,山火事運転者の多様性と季節性を探究し,海と気候の相互接続と山火事の因果関係をモデル化し,複数の時間スケールにわたるサブシーズンの山火事パターンを予測した。 私たちは、SeasFireデータキューブを公開し、地球システム科学者や機械学習の実践者に、山火事の理解と予測の改善に利用するようアピールします。

The global occurrence, scale, and frequency of wildfires pose significant threats to ecosystem services and human livelihoods. To effectively quantify and attribute the antecedent conditions for wildfires, a thorough understanding of Earth system dynamics is imperative. In response, we introduce the SeasFire datacube, a meticulously curated spatiotemporal dataset tailored for global sub-seasonal to seasonal wildfire modeling via Earth observation. The SeasFire datacube comprises of 59 variables encompassing climate, vegetation, oceanic indices, and human factors, has an 8-day temporal resolution and a spatial resolution of 0.25 degrees, and spans from 2001 to 2021. We showcase the versatility of SeasFire for exploring the variability and seasonality of wildfire drivers, modeling causal links between ocean-climate teleconnections and wildfires, and predicting sub-seasonal wildfire patterns across multiple timescales with a Deep Learning model. We publicly release the SeasFire datacube and appeal to Earth system scientists and Machine Learning practitioners to use it for an improved understanding and anticipation of wildfires.
翻訳日:2023-12-13 16:11:26 公開日:2023-12-12
# 制約付き拡散生成を用いたスケーラブルなモーションスタイル転送

Scalable Motion Style Transfer with Constrained Diffusion Generation ( http://arxiv.org/abs/2312.07311v1 )

ライセンス: Link先を確認
Wenjie Yin, Yi Yu, Hang Yin, Danica Kragic, M{\aa}rten Bj\"orkman(参考訳) 現在のモーションスタイル転送システムのトレーニングは、コンテンツを保存するためにスタイルドメイン間の一貫性の損失に依存しており、多くのドメインとプライベートデータへのスケーラブルなアプリケーションを妨げる。 近年の画像転送技術は,拡散モデル間の暗黙のブリッジングを利用して,各領域における独立した訓練の可能性を示しているが,コンテンツ保存は単純なデータパターンに限定されている。 トレーニング段階におけるドメイン独立性を維持しながら、後方拡散におけるバイアスサンプリングを行うことにより、この問題に対処する。 我々は、ソースドメインのキーフレームからバイアスを構築し、それをコンテンツ制約の勾配として適用し、キーフレーム多様体制約勾配(KMCG)を持つフレームワークを生成する。 検証の結果,ダンスのスタイルを10種類に切り替える訓練が成功していることが示された。 包括的実験により, ベースラインやアブレーブ拡散に基づくスタイル伝達モデルと比較して, 動作内容の保存が著しく改善された。 また、生成したダンスの動きの質を主観的に評価するための人間の研究を行う。 その結果, KMCGsの競争性が検証された。

Current training of motion style transfer systems relies on consistency losses across style domains to preserve contents, hindering its scalable application to a large number of domains and private data. Recent image transfer works show the potential of independent training on each domain by leveraging implicit bridging between diffusion models, with the content preservation, however, limited to simple data patterns. We address this by imposing biased sampling in backward diffusion while maintaining the domain independence in the training stage. We construct the bias from the source domain keyframes and apply them as the gradient of content constraints, yielding a framework with keyframe manifold constraint gradients (KMCGs). Our validation demonstrates the success of training separate models to transfer between as many as ten dance motion styles. Comprehensive experiments find a significant improvement in preserving motion contents in comparison to baseline and ablative diffusion-based style transfer models. In addition, we perform a human study for a subjective assessment of the quality of generated dance motions. The results validate the competitiveness of KMCGs.
翻訳日:2023-12-13 16:05:03 公開日:2023-12-12
# ラベル雑音下における分類器のロバスト性の解析

Analyze the Robustness of Classifiers under Label Noise ( http://arxiv.org/abs/2312.07271v1 )

ライセンス: Link先を確認
Cheng Zeng and Yixuan Xu and Jiaqi Tian(参考訳) 本研究では,複雑な実世界のシナリオにおけるノイズデータに対するモデルレジリエンスの向上を目的としたラベルノイズ分類器の堅牢性について検討する。 誤ったラベルや不正確なラベルによって特徴づけられる教師付き学習におけるラベルノイズは、モデルのパフォーマンスを著しく損なう。 本研究は, ラベルノイズが実用的応用に与える影響について, ますます関連する問題に焦点をあてる。 不正確なトレーニングデータラベルの課題に対処するため、敵機械学習(AML)と重み付け技術を統合する。 本手法では,基礎モデルとして畳み込みニューラルネットワーク(cnn)を用い,個々のトレーニングサンプルのパラメータ調整に重点を置く。 この戦略は、モデルのパフォーマンスに重大な影響を与えるサンプルにフォーカスするように設計されている。

This study explores the robustness of label noise classifiers, aiming to enhance model resilience against noisy data in complex real-world scenarios. Label noise in supervised learning, characterized by erroneous or imprecise labels, significantly impairs model performance. This research focuses on the increasingly pertinent issue of label noise's impact on practical applications. Addressing the prevalent challenge of inaccurate training data labels, we integrate adversarial machine learning (AML) and importance reweighting techniques. Our approach involves employing convolutional neural networks (CNN) as the foundational model, with an emphasis on parameter adjustment for individual training samples. This strategy is designed to heighten the model's focus on samples critically influencing performance.
翻訳日:2023-12-13 16:04:47 公開日:2023-12-12
# ProxyDet: Open Vocabulary Object Detectionのためのクラスミックスによる新しいプロキシクラスを合成する

ProxyDet: Synthesizing Proxy Novel Classes via Classwise Mixup for Open Vocabulary Object Detection ( http://arxiv.org/abs/2312.07266v1 )

ライセンス: Link先を確認
Joonhyun Jeong, Geondo Park, Jayeon Yoo, Hyungsik Jung, Heesu Kim(参考訳) Open-vocabulary Object Detection (OVOD)は、トレーニングセットにカテゴリが含まれない新しいオブジェクトを認識することを目的としている。 トレーニング中にこれらの見えないクラスを分類するために、多くのOVODフレームワークは、CLIPのような主に事前訓練されたビジョンと言語モデルのゼロショット機能を利用する。 未確認の新規クラスにおける一般化をさらに向上するため,既存のトレーニングデータ以外にも,かなりの数の新規カテゴリラベルを含む外部データソースに擬似領域ラベルを付加する手法が提案されている。 その単純さにもかかわらず、これらの擬似ラベル法は、擬似ラベル化されていない真新しいクラスに関して、まだ限定的な改善がなされている。 本稿では,新しいクラス全体の分布を一般化するための新しい,かつ単純な手法を提案する。 クリップ埋め込み空間における基底 (seen) クラスによって構築された凸包内に多数の新規クラスが存在するという観測に触発されて, 1対の基底クラス間の線形混合により新規クラスを近似するプロキシ・ノベルクラスを合成する。 これらの合成プロキシーノベルクラスで検出器を訓練することにより、新しいクラスの埋め込み空間を効果的に探索する。 LVIS や COCO などの様々な OVOD ベンチマークによる実験結果は、他の最先端手法と比較して、新しいクラスにおいて優れた性能を示した。

Open-vocabulary object detection (OVOD) aims to recognize novel objects whose categories are not included in training set. In order to classify these unseen classes during training, many OVOD frameworks leverage the zero-shot capability of largely pretrained vision and language models, such as CLIP. To further improve generalization on the unseen novel classes, several approaches proposed to additionally train with pseudo region labeling on the external data sources that contain a substantial number of novel category labels beyond the existing training data. Albeit its simplicity, these pseudo-labeling methods still exhibit limited improvement with regard to the genuine novel classes that were not pseudo-labeled. In this paper, we present a novel, yet simple technique that helps generalization on the overall distribution of novel classes. Inspired by our observation that numerous novel classes reside within the convex hull constructed by the base (seen) classes in the CLIP embedding space, we propose to synthesize proxy-novel classes approximating novel classes via linear mixup between a pair of base classes. By training our detector with these synthetic proxy-novel classes, we effectively explore the embedding space of novel classes. The experimental results on various OVOD benchmarks such as LVIS and COCO demonstrate superior performance on novel classes compared to the other state-of-the-art methods.
翻訳日:2023-12-13 16:04:34 公開日:2023-12-12
# 半教師付き医用画像分割のための二重構造保存画像フィルタリング

Dual Structure-Preserving Image Filterings for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2312.07264v1 )

ライセンス: Link先を確認
Yuliang Gu, Zhichao Sun, Xin Xiao, Yuda Zou, Zelong Liu and Yongchao Xu(参考訳) 近年,半教師付き画像セグメンテーションが注目されている。 鍵となるのは、トレーニングプロセスでラベルのないイメージを活用する方法だ。 ほとんどの手法は、画像および/またはモデルレベルでラベル付けされていない画像の一貫性のある予測(例えば、ノイズ/摂動の追加や代替バージョンの作成など)を維持している。 ほとんどの画像レベルの変化では、医療画像はしばしば事前構造情報を持ち、十分に調査されていない。 本稿では、半教師付き医用画像分割のための画像レベルのバリエーションとして、新しい二重構造保存画像フィルタリング(DSPIF)を提案する。 構造認識木に基づく画像表現におけるフィルタリングにより画像を単純化するコネクテッドフィルタリングに動機づけられ、双対コントラスト不変量max-treeとmin-tree表現を用いる。 具体的には,max/min-tree に兄弟関係を持たない位相同値なノード(つまり連結成分)を除去する新しい連結フィルタを提案する。 これにより、位相的に重要な構造を保存する2つのフィルタ画像が得られる。 このような二重構造保存画像フィルタリングを相互監督に適用することは、半監督的医用画像分割に有用である。 3つのベンチマークデータセットの大規模な実験結果から,提案手法が最先端の手法を著しく上回る結果が得られた。 ソースコードは公開される予定だ。

Semi-supervised image segmentation has attracted great attention recently. The key is how to leverage unlabeled images in the training process. Most methods maintain consistent predictions of the unlabeled images under variations (e.g., adding noise/perturbations, or creating alternative versions) in the image and/or model level. In most image-level variation, medical images often have prior structure information, which has not been well explored. In this paper, we propose novel dual structure-preserving image filterings (DSPIF) as the image-level variations for semi-supervised medical image segmentation. Motivated by connected filtering that simplifies image via filtering in structure-aware tree-based image representation, we resort to the dual contrast invariant Max-tree and Min-tree representation. Specifically, we propose a novel connected filtering that removes topologically equivalent nodes (i.e. connected components) having no siblings in the Max/Min-tree. This results in two filtered images preserving topologically critical structure. Applying such dual structure-preserving image filterings in mutual supervision is beneficial for semi-supervised medical image segmentation. Extensive experimental results on three benchmark datasets demonstrate that the proposed method significantly/consistently outperforms some state-of-the-art methods. The source codes will be publicly available.
翻訳日:2023-12-13 16:04:10 公開日:2023-12-12
# SSTA: 空間変換攻撃

SSTA: Salient Spatially Transformed Attack ( http://arxiv.org/abs/2312.07258v1 )

ライセンス: Link先を確認
Renyang Liu, Wei Zhou, Sixin Wu, Jun Zhao, Kwok-Yan Lam(参考訳) 大規模な研究は、ディープニューラルネットワーク(DNN)が敵の攻撃に対して脆弱であることを示しており、特に現実世界で開発されたAIモデルにおいて、DNNのさらなる応用に重大なセキュリティリスクをもたらす。 近年の有意な進展にもかかわらず、既存の攻撃手法は、ノイズ付加方式に強く依存する敵対的例(ae)の定式化により、まだ肉眼で検出されないという不十分な性能に苦しめられている。 このような課題は、暴露のリスクを大幅に増加させ、攻撃を失敗させる。 そこで本稿では,画像全体に外部ノイズを加えるのではなく,最も重要な領域にスムーズな空間変換距離を推定することにより,AEsのステルス性を高めるための新しいフレームワークであるSalient Spatially Transformed Attack (SSTA)を提案する。 最先端のベースラインと比較して、SSTAは攻撃成功率を100倍に保ちながら、AEの非感受性を効果的に改善できることを示した。

Extensive studies have demonstrated that deep neural networks (DNNs) are vulnerable to adversarial attacks, which brings a huge security risk to the further application of DNNs, especially for the AI models developed in the real world. Despite the significant progress that has been made recently, existing attack methods still suffer from the unsatisfactory performance of escaping from being detected by naked human eyes due to the formulation of adversarial example (AE) heavily relying on a noise-adding manner. Such mentioned challenges will significantly increase the risk of exposure and result in an attack to be failed. Therefore, in this paper, we propose the Salient Spatially Transformed Attack (SSTA), a novel framework to craft imperceptible AEs, which enhance the stealthiness of AEs by estimating a smooth spatial transform metric on a most critical area to generate AEs instead of adding external noise to the whole image. Compared to state-of-the-art baselines, extensive experiments indicated that SSTA could effectively improve the imperceptibility of the AEs while maintaining a 100\% attack success rate.
翻訳日:2023-12-13 16:03:48 公開日:2023-12-12
# GIST:知識相互作用によるパラメータ効率的な微調整の改善

GIST: Improving Parameter Efficient Fine Tuning via Knowledge Interaction ( http://arxiv.org/abs/2312.07255v1 )

ライセンス: Link先を確認
Jiacheng Ruan, Jingsheng Gao, Mingye Xie, Suncheng Xiang, Zefang Yu, Ting Liu, Yuzhuo Fu(参考訳) 下流タスクにおける事前学習モデルの校正のためのトレーニング可能なパラメータの調整や導入を行うPEFT法が近年注目されている。 しかし、従来の細結合フレームワーク内の既存のPEFTメソッドには、主な欠点が2つある。 1)訓練可能なパラメータと下流のタスク知識との明確な関連性を見落としている。 2)学習モデルの内在的タスク非依存知識と下流タスクにおけるタスク固有の知識との相互作用を無視する。 このギャップに対処するため,GISTと呼ばれるファインチューニングフレームワークをプラグアンドプレイ方式で提案する。 具体的には、まず、下流タスクにPEFTメソッドを適用する際に、Gistトークンと呼ばれるトレーニング可能なトークンを導入する。 このトークンはPEFT法によって学習されたタスク固有の知識の集合体として機能し、下流の知識との明確な関連を形成する。 さらに,タスクに依存しない知識とタスク固有の知識との明示的な相互作用を促進するために,双方向のKulback-Leibler Divergence目標を用いた知識相互作用の概念を導入する。 その結果、我々のフレームワーク内のPEFT手法は、知識相互作用を利用して、事前学習されたモデルに下流タスクをより包括的に理解させることができる。 大規模な実験は、我々のフレームワークの普遍性とスケーラビリティを実証する。 特に、VTAB-1Kベンチマークでは、GISTフレームワークにAdapter(PEFT法)を採用し、2.25%の性能向上を実現し、0.8Kパラメータしか増加しない。 コードはリリースされます。

The Parameter-Efficient Fine-Tuning (PEFT) method, which adjusts or introduces fewer trainable parameters to calibrate pre-trained models on downstream tasks, has become a recent research interest. However, existing PEFT methods within the traditional fine-tiuning framework have two main shortcomings: 1) They overlook the explicit association between trainable parameters and downstream task knowledge. 2) They neglect the interaction between the intrinsic task-agnostic knowledge of pre-trained models and the task-specific knowledge in downstream tasks. To address this gap, we propose a novel fine-tuning framework, named GIST, in a plug-and-play manner. Specifically, our framework first introduces a trainable token, called the Gist token, when applying PEFT methods on downstream tasks. This token serves as an aggregator of the task-specific knowledge learned by the PEFT methods and forms an explicit association with downstream knowledge. Furthermore, to facilitate explicit interaction between task-agnostic and task-specific knowledge, we introduce the concept of Knowledge Interaction via a Bidirectional Kullback-Leibler Divergence objective. As a result, PEFT methods within our framework can make the pre-trained model understand downstream tasks more comprehensively by leveraging the knowledge interaction. Extensive experiments demonstrate the universality and scalability of our framework. Notably, on the VTAB-1K benchmark, we employ the Adapter (a prevalent PEFT method) within our GIST framework and achieve a performance boost of 2.25%, with an increase of only 0.8K parameters. The Code will be released.
翻訳日:2023-12-13 16:03:29 公開日:2023-12-12
# cnvsrcチャレンジ2023のgua-speechシステム記述

The GUA-Speech System Description for CNVSRC Challenge 2023 ( http://arxiv.org/abs/2312.07254v1 )

ライセンス: Link先を確認
Shengqiang Li, Chao Lei, Baozhong Ma, Binbin Zhang, Fuping Pan(参考訳) 本研究では,中国連続視覚音声認識チャレンジ(CNVSRC)2023におけるタスク1単一話者視覚音声認識(VSR)固定トラックについて述べる。 具体的には、中間連結型時間分類(Inter CTC)残基を用いて、モデルにおけるCTCの条件独立性仮定を緩和する。 次に、バイトランスフォーマデコーダを使用して、モデルが過去と将来のコンテキスト情報の両方をキャプチャできるようにする。 さらに, モデルの認識精度を向上させるために, モデル単位として漢字を用いる。 最後に、推論段階における浅い融合のために、recurrent neural network language model (rnnlm) を用いる。 実験により,本システムはevalセット上で38.09%の文字誤り率(cer)を達成し,公式ベースライン上で21.63%の相対的なcer削減を達成し,課題の第2位を得た。

This study describes our system for Task 1 Single-speaker Visual Speech Recognition (VSR) fixed track in the Chinese Continuous Visual Speech Recognition Challenge (CNVSRC) 2023. Specifically, we use intermediate connectionist temporal classification (Inter CTC) residual modules to relax the conditional independence assumption of CTC in our model. Then we use a bi-transformer decoder to enable the model to capture both past and future contextual information. In addition, we use Chinese characters as the modeling units to improve the recognition accuracy of our model. Finally, we use a recurrent neural network language model (RNNLM) for shallow fusion in the inference stage. Experiments show that our system achieves a character error rate (CER) of 38.09% on the Eval set which reaches a relative CER reduction of 21.63% over the official baseline, and obtains a second place in the challenge.
翻訳日:2023-12-13 16:03:03 公開日:2023-12-12
# 可変特徴属性を用いた予測不確かさのドライバ同定

Identifying Drivers of Predictive Uncertainty using Variance Feature Attribution ( http://arxiv.org/abs/2312.07252v1 )

ライセンス: Link先を確認
Pascal Iversen, Simon Witzke, Katharina Baum and Bernhard Y. Renard(参考訳) 説明可能性と不確実性の定量化は、信頼できる人工知能の2つの柱である。 しかし、不確実性推定の背後にある推論は一般に説明がつかないままである。 不確実性のドライバを特定することは、潜在的なモデル制限を認識する点予測の説明を補完する。 不確実性推定過程における過単純化の検出を容易にする。 不確実性の説明は、コミュニケーションと意思決定の信頼を高める。 モデル不確実性の主な要因が関係しており、モデルの使用に影響を与える可能性があるかどうかを検証することができる。 これまでのところ、不確実性を説明する主題はほとんど研究されていない。 既存の文献の例外はベイズニューラルネットワークに特化しているか、技術的に複雑なアプローチに大きく依存している。 本稿では,予測的アレタリック不確実性を説明するためのシンプルでスケーラブルな解である分散特徴属性を提案する。 まず、ニューラルネットワークにガウス出力分布を付与し、分散出力ニューロンを付加することにより、予測分散として不確かさを推定する。 これにより,事前学習した点予測モデルに基づき,有意な分散推定を行うことができる。 次に,不確実性推定を説明するために,これらのモデルの分散出力について事前説明を行う。 本手法は,データ生成過程が知られている合成環境で評価する。 提案手法は,確立されたベースラインCLUEよりも,不確実性の影響を確実かつ高速に説明できることを示す。 我々は,不確かさを推定し帰属を得るため,最先端の回帰モデルを微調整する。 我々の説明は笑い線のような不確実性の原因を浮き彫りにする。 分散特徴帰属はモデルアーキテクチャの変更や計算オーバーヘッドの少ない不確実性推定の正確な説明を提供する。

Explainability and uncertainty quantification are two pillars of trustable artificial intelligence. However, the reasoning behind uncertainty estimates is generally left unexplained. Identifying the drivers of uncertainty complements explanations of point predictions in recognizing potential model limitations. It facilitates the detection of oversimplification in the uncertainty estimation process. Explanations of uncertainty enhance communication and trust in decisions. They allow for verifying whether the main drivers of model uncertainty are relevant and may impact model usage. So far, the subject of explaining uncertainties has been rarely studied. The few exceptions in existing literature are tailored to Bayesian neural networks or rely heavily on technically intricate approaches, hindering their broad adoption. We propose variance feature attribution, a simple and scalable solution to explain predictive aleatoric uncertainties. First, we estimate uncertainty as predictive variance by equipping a neural network with a Gaussian output distribution by adding a variance output neuron. Thereby, we can rely on pre-trained point prediction models and fine-tune them for meaningful variance estimation. Second, we apply out-of-the-box explainers on the variance output of these models to explain the uncertainty estimation. We evaluate our approach in a synthetic setting where the data-generating process is known. We show that our method can explain uncertainty influences more reliably and faster than the established baseline CLUE. We fine-tune a state-of-the-art age regression model to estimate uncertainty and obtain attributions. Our explanations highlight potential sources of uncertainty, such as laugh lines. Variance feature attribution provides accurate explanations for uncertainty estimates with little modifications to the model architecture and low computational overhead.
翻訳日:2023-12-13 16:02:48 公開日:2023-12-12
# 臨床テキストのニューラルマシン翻訳:多言語事前学習言語モデルとトランスファーラーニングに関する実証的研究

Neural Machine Translation of Clinical Text: An Empirical Investigation into Multilingual Pre-Trained Language Models and Transfer-Learning ( http://arxiv.org/abs/2312.07250v1 )

ライセンス: Link先を確認
Lifeng Han, Serge Gladkoff, Gleb Erofeev, Irina Sorokina, Betty Galiano, Goran Nenadic(参考訳) トランスフォーマー構造などの深層学習を用いた多言語ニューラルネットモデルを用いて,臨床用テキスト機械翻訳の検討を行う。 さらに,言語資源の不均衡問題に対処するために,多言語事前学習言語モデル(MMPLM)に基づく移動学習手法を用いた実験を行った。 3つのサブタスクに関する実験結果 1)臨床症例(CC) 2)臨床用語(CT)、および 3) オントロジ概念 (OC) は, ClinSpEn-2022における英語とスペイン語の臨床領域データの共有タスクにおいて, トップレベルのパフォーマンスを達成したことを示す。 さらに, 専門家による人体評価の結果, 臨床領域の微調整において, PLMが他の2つの大言語モデルよりも大きな差で勝利したことが明らかとなった。 最後に, 転写学習法は, WMT21fbモデルを用いて, WMT21fb自体の事前学習段階では見られなかった新しい言語空間のスペイン語に対応し, より多くの言語を調査するなど, 臨床知識変換の活用に適している。 これらの研究成果は、特に臨床や医療の分野で、ドメイン固有の機械翻訳の開発に光を当てることができる。 医療用テキスト分析と知識変換を改善するために,本研究に基づいてさらなる研究プロジェクトを実施できる。

We conduct investigations on clinical text machine translation by examining multilingual neural network models using deep learning such as Transformer based structures. Furthermore, to address the language resource imbalance issue, we also carry out experiments using a transfer learning methodology based on massive multilingual pre-trained language models (MMPLMs). The experimental results on three subtasks including 1) clinical case (CC), 2) clinical terminology (CT), and 3) ontological concept (OC) show that our models achieved top-level performances in the ClinSpEn-2022 shared task on English-Spanish clinical domain data. Furthermore, our expert-based human evaluations demonstrate that the small-sized pre-trained language model (PLM) won over the other two extra-large language models by a large margin, in the clinical domain fine-tuning, which finding was never reported in the field. Finally, the transfer learning method works well in our experimental setting using the WMT21fb model to accommodate a new language space Spanish that was not seen at the pre-training stage within WMT21fb itself, which deserves more exploitation for clinical knowledge transformation, e.g. to investigate into more languages. These research findings can shed some light on domain-specific machine translation development, especially in clinical and healthcare fields. Further research projects can be carried out based on our work to improve healthcare text analytics and knowledge transformation.
翻訳日:2023-12-13 16:02:26 公開日:2023-12-12
# 時系列の教師なし表現学習のためのマルチグラニュラリティフレームワーク

Multi-Granularity Framework for Unsupervised Representation Learning of Time Series ( http://arxiv.org/abs/2312.07248v1 )

ライセンス: Link先を確認
Chengyang Ye and Qiang Ma(参考訳) 時系列データの解析において表現学習は重要な役割を担い、幅広い応用において高い実用価値を持つ。 トレンド分析、時系列データ検索、予測を含む。 実際には、データ分析、機械学習モデル、意思決定プロセスの有効性と正確性に大きな影響を与える可能性があるため、データの混乱は重大な問題である。 一般に、これまでの研究では様々な粒度での変動性を考慮せず、結果として情報の利用が不十分になり、さらにデータ混乱の問題が悪化した。 本稿では,時系列の多粒度表現学習を実現するための教師なしフレームワークを提案する。 具体的には,細粒度と粗粒度を関連付けるために粒度変換器を用いた。 さらに,時系列の多粒度表現を学習するための教師なし学習タスクとして検索タスクを導入した。 さらに,教師なし学習による時系列の包括的多次元表現を得るために,新しい損失関数を考案した。 実験結果から,提案フレームワークは代替表現学習モデルに対して大きな優位性を示した。

Representation learning plays a critical role in the analysis of time series data and has high practical value across a wide range of applications. including trend analysis, time series data retrieval and forecasting. In practice, data confusion is a significant issue as it can considerably impact the effectiveness and accuracy of data analysis, machine learning models and decision-making processes. In general, previous studies did not consider the variability at various levels of granularity, thus resulting in inadequate information utilization, which further exacerbated the issue of data confusion. This paper proposes an unsupervised framework to realize multi-granularity representation learning for time series. Specifically, we employed a cross-granularity transformer to develop an association between fine- and coarse-grained representations. In addition, we introduced a retrieval task as an unsupervised training task to learn the multi-granularity representation of time series. Moreover, a novel loss function was designed to obtain the comprehensive multi-granularity representation of the time series via unsupervised learning. The experimental results revealed that the proposed framework demonstrates significant advantages over alternative representation learning models.
翻訳日:2023-12-13 16:01:56 公開日:2023-12-12
# 量子状態のアンロック:2モードでのビラソロ-ボゴリューボフ変換

Unlocking Novel Quantum States: Virasoro-Bogoliubov Transformations in Two Modes ( http://arxiv.org/abs/2312.07247v1 )

ライセンス: Link先を確認
So Katagiri(参考訳) 本稿では,virasoro-squeezingを用いたこれまでの研究に基づいて,ボゴリューボフ変換の2モード圧縮状態への拡張について検討する。 従来のボゴリューボフ変換の非線形拡張としてビラソロ・ボゴリューボフ変換を確立し、非線形二モード圧縮状態を生成する。 この研究は、量子物理学の様々な分野における革新的な洞察の可能性を持つ新しい量子状態を明らかにする。

This paper explores the Bogoliubov transformation's extension to two-mode squeezed states, building on our previous work with Virasoro-squeezing. We establish the Virasoro-Bogoliubov transformation as a non-linear extension of the traditional Bogoliubov transformation, creating non-linear two-mode squeezed states. This research unveils novel quantum states with the potential for innovative insights in various fields of quantum physics.
翻訳日:2023-12-13 16:01:40 公開日:2023-12-12
# ステレオ・ペアからのポーズフリー新規ビュー合成のための対応性, ポースおよびNeRFの統一

Unifying Correspondence, Pose and NeRF for Pose-Free Novel View Synthesis from Stereo Pairs ( http://arxiv.org/abs/2312.07246v1 )

ライセンス: Link先を確認
Sunghwan Hong, Jaewoo Jung, Heeseong Shin, Jiaolong Yang, Seungryong Kim, Chong Luo(参考訳) この研究は、3次元視覚における挑戦的で先駆的な課題であるステレオペアからのポーズレスノベルビュー合成の課題に踏み込んだ。 我々の革新的なフレームワークは、これまでとは違って、シームレスに2D対応マッチング、カメラポーズ推定、NeRFレンダリングを統合し、これらのタスクの相乗的強化を促進します。 我々は,3次元幾何学理解の基盤となる共有表現を利用するアーキテクチャを設計することにより,これを実現する。 タスク間の固有の相互作用に基づいて、我々の統合されたフレームワークは、モデル全体の正確性を改善するために提案されたトレーニング戦略とエンドツーエンドで訓練される。 実世界の2つのデータセットから様々な屋内・屋外のシーンを網羅的に評価することにより,これまでの手法,特に極端な視点の変化と正確なカメラポーズの欠如を特徴とするシナリオにおいて,我々のアプローチが大幅に改善されていることを示す。

This work delves into the task of pose-free novel view synthesis from stereo pairs, a challenging and pioneering task in 3D vision. Our innovative framework, unlike any before, seamlessly integrates 2D correspondence matching, camera pose estimation, and NeRF rendering, fostering a synergistic enhancement of these tasks. We achieve this through designing an architecture that utilizes a shared representation, which serves as a foundation for enhanced 3D geometry understanding. Capitalizing on the inherent interplay between the tasks, our unified framework is trained end-to-end with the proposed training strategy to improve overall model accuracy. Through extensive evaluations across diverse indoor and outdoor scenes from two real-world datasets, we demonstrate that our approach achieves substantial improvement over previous methodologies, especially in scenarios characterized by extreme viewpoint changes and the absence of accurate camera poses.
翻訳日:2023-12-13 16:01:31 公開日:2023-12-12
# dta: 分散変換に基づくクエリ制限シナリオのアタック

DTA: Distribution Transform-based Attack for Query-Limited Scenario ( http://arxiv.org/abs/2312.07245v1 )

ライセンス: Link先を確認
Renyang Liu, Wei Zhou, Xin Jin, Song Gao, Yuanyu Wang, Ruxin Wang(参考訳) 敵対的な例を生成する際、従来のブラックボックス攻撃手法は攻撃が成功するまで繰り返しクエリすることで攻撃対象モデルからの十分なフィードバックに依存している。 マシンラーニング・アズ・ア・サービス・プラットフォーム(MLaaS)は通常、最終結果(ハードラベル)しかクライアントに返さないため、特定の防御機構を備えたシステムが悪意のあるクエリを容易に検出できるため、実際のアプリケーションでは受け入れられない可能性がある。 対照的に、実行可能な方法は、限られた数のクエリの実行を許可された攻撃アクションをシミュレートするハードラベル攻撃である。 そこで本研究では,攻撃対象モデルへの依存を回避し,攻撃対象の分布の特徴を活用し,攻撃問題を分散変換方式で再構成し,分布変換ベース攻撃(dta)を提案する。 DTAは、ハードラベルのブラックボックス設定の下で条件付き可能性に取り組むことで、良心的な例から敵に対する統計的マッピングを構築する。 このようにして、ターゲットモデルを頻繁にクエリする必要はなくなった。 十分に訓練されたDTAモデルは、仮定された転送可能性に基づいて見えないモデルを攻撃するために使用可能な、特定の入力に対する逆例のバッチを直接かつ効率的に生成することができる。 さらに,よく訓練されたdtaモデルがトレーニングデータセットのセマンティクス空間に敏感でないこと,つまり,モデルが他のデータセットに対して許容される攻撃性能をもたらすことを驚くほど見出した。 大規模な実験は、提案されたアイデアの有効性とDTAの最先端性を検証する。

In generating adversarial examples, the conventional black-box attack methods rely on sufficient feedback from the to-be-attacked models by repeatedly querying until the attack is successful, which usually results in thousands of trials during an attack. This may be unacceptable in real applications since Machine Learning as a Service Platform (MLaaS) usually only returns the final result (i.e., hard-label) to the client and a system equipped with certain defense mechanisms could easily detect malicious queries. By contrast, a feasible way is a hard-label attack that simulates an attacked action being permitted to conduct a limited number of queries. To implement this idea, in this paper, we bypass the dependency on the to-be-attacked model and benefit from the characteristics of the distributions of adversarial examples to reformulate the attack problem in a distribution transform manner and propose a distribution transform-based attack (DTA). DTA builds a statistical mapping from the benign example to its adversarial counterparts by tackling the conditional likelihood under the hard-label black-box settings. In this way, it is no longer necessary to query the target model frequently. A well-trained DTA model can directly and efficiently generate a batch of adversarial examples for a certain input, which can be used to attack un-seen models based on the assumed transferability. Furthermore, we surprisingly find that the well-trained DTA model is not sensitive to the semantic spaces of the training dataset, meaning that the model yields acceptable attack performance on other datasets. Extensive experiments validate the effectiveness of the proposed idea and the superiority of DTA over the state-of-the-art.
翻訳日:2023-12-13 16:01:13 公開日:2023-12-12
# 拡散確率モデルの解探索のための統一サンプリングフレームワーク

A Unified Sampling Framework for Solver Searching of Diffusion Probabilistic Models ( http://arxiv.org/abs/2312.07243v1 )

ライセンス: Link先を確認
Enshu Liu, Xuefei Ning, Huazhong Yang, Yu Wang(参考訳) 近年,拡散確率モデル(dpms)の急速な進歩と幅広い応用が注目されている。 DPMからのサンプリングは、通常の微分方程式(ODE)の解法と見なすことができる。 有望な性能にもかかわらず、DPMの生成は通常、多数の機能評価(NFE)のために多くの時間を消費する。 近年の研究では、高次解法を用いて20ステップ程度のサンプリングを加速しているが、10nfe未満のサンプル品質は改善できる。 本稿では,ソルバのオプション戦略を検討するための統一サンプリングフレームワーク(usf)を提案する。 この枠組みでは, 異なるタイミングで異なる解法を採ることにより, トラクション誤差の低減が図られ, 慎重に設計された 'emph{solver schedule} は, サンプルの品質を大きなマージンで向上させる可能性がある。 そこで我々は,指数積分定式化に基づく新しいサンプリングフレームワークを提案し,各ステップで解法戦略を自由に選択し,そのフレームワークの具体的な決定を設計する。 さらに,ソルバスケジュールを自動的に最適化し,サンプリングの時間的品質のトレードオフを改善する予測型探索手法である$s^3$を提案する。 我々は、CIFAR-10, CelebA, ImageNet, LSUN-Bedroomデータセットの最先端サンプリング手法より優れた解法スケジュールを見つけることができることを示した。 具体的には、10 NFEと6.86 FIDと5 NFEの2.69 FIDをCIFAR-10データセットで達成し、SOTA法を著しく上回った。 さらに,安定拡散モデルに$s^3$を適用し,2$\times$の加速度比を得た。

Recent years have witnessed the rapid progress and broad application of diffusion probabilistic models (DPMs). Sampling from DPMs can be viewed as solving an ordinary differential equation (ODE). Despite the promising performance, the generation of DPMs usually consumes much time due to the large number of function evaluations (NFE). Though recent works have accelerated the sampling to around 20 steps with high-order solvers, the sample quality with less than 10 NFE can still be improved. In this paper, we propose a unified sampling framework (USF) to study the optional strategies for solver. Under this framework, we further reveal that taking different solving strategies at different timesteps may help further decrease the truncation error, and a carefully designed \emph{solver schedule} has the potential to improve the sample quality by a large margin. Therefore, we propose a new sampling framework based on the exponential integral formulation that allows free choices of solver strategy at each step and design specific decisions for the framework. Moreover, we propose $S^3$, a predictor-based search method that automatically optimizes the solver schedule to get a better time-quality trade-off of sampling. We demonstrate that $S^3$ can find outstanding solver schedules which outperform the state-of-the-art sampling methods on CIFAR-10, CelebA, ImageNet, and LSUN-Bedroom datasets. Specifically, we achieve 2.69 FID with 10 NFE and 6.86 FID with 5 NFE on CIFAR-10 dataset, outperforming the SOTA method significantly. We further apply $S^3$ to Stable-Diffusion model and get an acceleration ratio of 2$\times$, showing the feasibility of sampling in very few steps without retraining the neural network.
翻訳日:2023-12-13 16:00:24 公開日:2023-12-12
# 二進最適化のためのガウスボソンサンプリング

Gaussian Boson Sampling for binary optimization ( http://arxiv.org/abs/2312.07235v1 )

ライセンス: Link先を確認
Jean Cazalis (1), Yahui Chai (2), Karl Jansen (2 and 3), Stefan K\"uhn (2), Tirth Shah (1) ((1) Q.ANT GmbH, (2) CQTA, Deutsches Elektronen-Synchrotron DESY, (3) Cyprus Institute)(参考訳) 本研究では,飛行ゲート割り当て問題に対するガウスボソンサンプリングについて考察する。 条件付き値-リスクコスト関数を用いた変分量子固有解法を用いる。 ランダムに生成されたインスタンス上で数値シミュレーションを行うことで、原理の証明を行う。

In this study, we consider a Gaussian Boson Sampler for solving a Flight Gate Assignment problem. We employ a Variational Quantum Eigensolver approach using the Conditional Value-at-risk cost function. We provide proof of principle by carrying out numerical simulations on randomly generated instances.
翻訳日:2023-12-13 15:59:33 公開日:2023-12-12
# 大画像生成のための学習表現誘導拡散モデル

Learned representation-guided diffusion models for large-image generation ( http://arxiv.org/abs/2312.07330v1 )

ライセンス: Link先を確認
Alexandros Graikos, Srikar Yellapragada, Minh-Quan Le, Saarthak Kapse, Prateek Prasanna, Joel Saltz, Dimitris Samaras(参考訳) 高忠実度サンプルを合成するには、通常、拡散モデルは生成プロセスを導くために補助データを必要とする。 しかし、病理学や衛星画像などの専門領域で必要とされるパッチレベルのアノテーションの手間を省くことは不可能であり、しばしばドメインの専門家によって行われ、何億ものパッチが伴う。 現代の自己教師付き学習(ssl)表現は、豊富な意味と視覚情報をエンコードする。 本稿では,このような表現が,人間の詳細なラベルのプロキシとして機能するのに十分な表現であることを示す。 SSLからの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。 我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。 さらに,SSLの埋め込みから推定される空間的に一貫したパッチを組み込むことで,より大規模な画像を構築する。 実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流分類精度が向上する。 我々のモデルはトレーニング中に遭遇しないデータセットでも有効であり、その堅牢性と一般化性を示している。 学習された埋め込みから画像を生成することは、埋め込みのソースとは無関係である。 大きな画像を生成するために使われるSSL埋め込みは、参照画像から抽出するか、関連する任意のモダリティ(例えば、クラスラベル、テキスト、ゲノムデータ)で条件付けられた補助モデルからサンプリングすることができる。 概念実証として,テキスト記述から大規模病理と衛星画像の合成に成功したテキストから大規模画像合成パラダイムを導入する。

To synthesize high-fidelity samples, diffusion models typically require auxiliary data to guide the generation process. However, it is impractical to procure the painstaking patch-level annotation effort required in specialized domains like histopathology and satellite imagery; it is often performed by domain experts and involves hundreds of millions of patches. Modern-day self-supervised learning (SSL) representations encode rich semantic and visual information. In this paper, we posit that such representations are expressive enough to act as proxies to fine-grained human labels. We introduce a novel approach that trains diffusion models conditioned on embeddings from SSL. Our diffusion models successfully project these features back to high-quality histopathology and remote sensing images. In addition, we construct larger images by assembling spatially consistent patches inferred from SSL embeddings, preserving long-range dependencies. Augmenting real data by generating variations of real images improves downstream classifier accuracy for patch-level and larger, image-scale classification tasks. Our models are effective even on datasets not encountered during training, demonstrating their robustness and generalizability. Generating images from learned embeddings is agnostic to the source of the embeddings. The SSL embeddings used to generate a large image can either be extracted from a reference image, or sampled from an auxiliary model conditioned on any related modality (e.g. class labels, text, genomic data). As proof of concept, we introduce the text-to-large image synthesis paradigm where we successfully synthesize large pathology and satellite images out of text descriptions.
翻訳日:2023-12-13 15:52:12 公開日:2023-12-12
# マルチメディア検索のための適応信頼度マルチビューハッシュ

Adaptive Confidence Multi-View Hashing for Multimedia Retrieval ( http://arxiv.org/abs/2312.07327v1 )

ライセンス: Link先を確認
Jian Zhu, Yu Cui, Zhangmin Huang, Xingyu Li, Lei Liu, Lingfang Zeng, Li-Rong Dai(参考訳) マルチビューハッシュ法は,複数ビューからの異種データをバイナリハッシュコードに変換し,マルチメディア検索において重要な技術である。 しかし,本手法は主に信頼学習と融合を欠きながら,複数の視点の相補性を検討する。 さらに、現実的なアプリケーションシナリオでは、単一ビューデータは冗長ノイズを含む。 信頼度学習を行い、不要なノイズを除去するために、新しい適応信頼度マルチビューハッシュ(acmvh)法を提案する。 まず、様々な単一視点特徴から有用な情報を抽出し、ノイズ情報を除去する信頼ネットワークを開発する。 さらに、各ビューの信頼度を測定し、重み付けされた和を通じてマルチビュー特徴を融合させる適応型信頼度マルチビューネットワークを用いる。 最後に、拡張ネットワークは、融合した機能の特徴表現をさらに強化するように設計されている。 我々の知識を最大限に活用するために,マルチメディア検索分野への信頼度学習の適用を開拓した。 2つの公開データセットに関する広範囲な実験により、提案されたacmvhは最先端の手法よりも優れた性能を示す(最大で3.24%の増加)。 ソースコードはhttps://github.com/HackerHyper/ACMVHで入手できる。

The multi-view hash method converts heterogeneous data from multiple views into binary hash codes, which is one of the critical technologies in multimedia retrieval. However, the current methods mainly explore the complementarity among multiple views while lacking confidence learning and fusion. Moreover, in practical application scenarios, the single-view data contain redundant noise. To conduct the confidence learning and eliminate unnecessary noise, we propose a novel Adaptive Confidence Multi-View Hashing (ACMVH) method. First, a confidence network is developed to extract useful information from various single-view features and remove noise information. Furthermore, an adaptive confidence multi-view network is employed to measure the confidence of each view and then fuse multi-view features through a weighted summation. Lastly, a dilation network is designed to further enhance the feature representation of the fused features. To the best of our knowledge, we pioneer the application of confidence learning into the field of multimedia retrieval. Extensive experiments on two public datasets show that the proposed ACMVH performs better than state-of-the-art methods (maximum increase of 3.24%). The source code is available at https://github.com/HackerHyper/ACMVH.
翻訳日:2023-12-13 15:51:47 公開日:2023-12-12
# GenHowTo: インストラクショナルビデオからアクションと状態変換を生成するための学習

GenHowTo: Learning to Generate Actions and State Transformations from Instructional Videos ( http://arxiv.org/abs/2312.07322v1 )

ライセンス: Link先を確認
Tom\'a\v{s} Sou\v{c}ek, Dima Damen, Michael Wray, Ivan Laptev, Josef Sivic(参考訳) 動作とオブジェクト状態変換の時間的一貫性と物理的に妥当な画像を生成するタスクに対処する。 対象とする変換を記述する入力画像とテキストプロンプトが与えられると、生成された画像は環境を保存し、初期画像内のオブジェクトを変換します。 私たちの貢献は3倍です。 まず、大量の教示ビデオを活用して、初期オブジェクトの状態、アクション、結果のオブジェクト変換に対応する連続フレームのトリプレットのデータセットを自動的にマイニングします。 第2に、このデータを用いて、GenHowToと呼ばれる条件付き拡散モデルを開発し、訓練する。 第3に、genhowtoをさまざまなオブジェクトとアクションで評価し、既存の手法と比較して優れた性能を示す。 特に,GenHowToが目に見える相互作用カテゴリで88%,目に見えない相互作用カテゴリで74%を達成し,先行研究を大きなマージンで上回る定量的評価を行った。

We address the task of generating temporally consistent and physically plausible images of actions and object state transformations. Given an input image and a text prompt describing the targeted transformation, our generated images preserve the environment and transform objects in the initial image. Our contributions are threefold. First, we leverage a large body of instructional videos and automatically mine a dataset of triplets of consecutive frames corresponding to initial object states, actions, and resulting object transformations. Second, equipped with this data, we develop and train a conditioned diffusion model dubbed GenHowTo. Third, we evaluate GenHowTo on a variety of objects and actions and show superior performance compared to existing methods. In particular, we introduce a quantitative evaluation where GenHowTo achieves 88% and 74% on seen and unseen interaction categories, respectively, outperforming prior work by a large margin.
翻訳日:2023-12-13 15:51:30 公開日:2023-12-12
# gatenet:フローサイトメトリー自動ゲーティングのための新しいニューラルネットワークアーキテクチャ

GateNet: A novel Neural Network Architecture for Automated Flow Cytometry Gating ( http://arxiv.org/abs/2312.07316v1 )

ライセンス: Link先を確認
Lukas Fisch, Michael O. Heming, Andreas Schulte-Mecklenbeck, Catharina C. Gross, Stefan Zumdick, Carlotta Barkhau, Daniel Emden, Jan Ernsting, Ramona Leenings, Kelvin Sarink, Nils R. Winter, Udo Dannlowski, Heinz Wiendl, Gerd Meyer zu H\"orste, Tim Hahn(参考訳) フローサイトメトリーは末梢血(PB)や髄液(CSF)などの患者由来液中の細胞集団の同定に広く用いられている。 研究や臨床実践においてユビキタスなフローサイトメトリーはゲーティング、すなわち労働集約的かつエラーを起こしやすい手動調整を必要とする細胞型同定を必要とする。 このプロセスを容易にするために、バッチ効果の修正を必要とせずに、完全なエンドツーエンドの自動ゲーティングを可能にする、最初のニューラルネットワークアーキテクチャであるGateNetを設計した。 4人の専門家が手動でラベル付けしたn=127pbとcsfサンプルに基づいて、8,000,000以上のイベントをgatenetでトレーニングした。 新規で見知らぬサンプルでは、GateNetは人間レベルのパフォーマンスを達成する(F1スコアは0.910から0.997)。 さらに、f1スコア0.936で一般化を確認する公開データセットにgatenetを適用する。 我々の実装ではグラフィックス処理ユニット(GPU)を使用しているため、1イベントあたり15マイクロ秒しか必要としない。 重要なことに、gatenetは人間のレベルのパフォーマンスに達するのに10サンプル程度しか必要とせず、フローサイトメトリーのすべての領域で広く適用可能であることも示しています。

Flow cytometry is widely used to identify cell populations in patient-derived fluids such as peripheral blood (PB) or cerebrospinal fluid (CSF). While ubiquitous in research and clinical practice, flow cytometry requires gating, i.e. cell type identification which requires labor-intensive and error-prone manual adjustments. To facilitate this process, we designed GateNet, the first neural network architecture enabling full end-to-end automated gating without the need to correct for batch effects. We train GateNet with over 8,000,000 events based on N=127 PB and CSF samples which were manually labeled independently by four experts. We show that for novel, unseen samples, GateNet achieves human-level performance (F1 score ranging from 0.910 to 0.997). In addition we apply GateNet to a publicly available dataset confirming generalization with an F1 score of 0.936. As our implementation utilizes graphics processing units (GPU), gating only needs 15 microseconds per event. Importantly, we also show that GateNet only requires ~10 samples to reach human-level performance, rendering it widely applicable in all domains of flow cytometry.
翻訳日:2023-12-13 15:51:12 公開日:2023-12-12
# NVS-Adapter:単一画像からのプラグアンドプレイ新規ビュー合成

NVS-Adapter: Plug-and-Play Novel View Synthesis from a Single Image ( http://arxiv.org/abs/2312.07315v1 )

ライセンス: Link先を確認
Yoonwoo Jeong, Jinwoo Lee, Chiheon Kim, Minsu Cho, Doyup Lee(参考訳) 大規模テキスト・ツー・イメージ(t2i)モデルの転送学習は、最近、単一の画像から多様なオブジェクトの新しいビュー合成(nvs)の可能性を示している。 従来の手法では、NVSのマルチビューデータセット上で大規模モデルをトレーニングすることが多いが、T2Iモデルのパラメータ全体を微調整することで、高コストが要求されるだけでなく、新しいドメインで多様な画像を生成する際のT2Iモデルの一般化能力も低下する。 本研究では,T2Iモデルの一般化能力を完全に活用しつつ,新しい視覚オブジェクトの多視点を合成するための,T2IモデルのプラグアンドプレイモジュールであるNVS-Adapterを提案する。 NVS-Adapterは2つの主要コンポーネントから構成される。ビュー一貫性のクロスアテンションはビュー特徴の局所的な詳細を一致させるために視覚対応を学習し、グローバルセマンティックコンディショニングは生成されたビューのセマンティック構造を参照ビューと整合させる。 実験結果から,NVS-Adapterは幾何的に一貫したマルチビューを効果的に合成し,T2Iモデルを完全に微調整することなくベンチマーク上で高い性能を達成できることが示された。 コードとデータは ~\href{https://postech-cvlab.github.io/nvsadapter/}{https://postech-cvlab.github.io/nvsadapter/} で公開されている。

Transfer learning of large-scale Text-to-Image (T2I) models has recently shown impressive potential for Novel View Synthesis (NVS) of diverse objects from a single image. While previous methods typically train large models on multi-view datasets for NVS, fine-tuning the whole parameters of T2I models not only demands a high cost but also reduces the generalization capacity of T2I models in generating diverse images in a new domain. In this study, we propose an effective method, dubbed NVS-Adapter, which is a plug-and-play module for a T2I model, to synthesize novel multi-views of visual objects while fully exploiting the generalization capacity of T2I models. NVS-Adapter consists of two main components; view-consistency cross-attention learns the visual correspondences to align the local details of view features, and global semantic conditioning aligns the semantic structure of generated views with the reference view. Experimental results demonstrate that the NVS-Adapter can effectively synthesize geometrically consistent multi-views and also achieve high performance on benchmarks without full fine-tuning of T2I models. The code and data are publicly available in ~\href{https://postech-cvlab.github.io/nvsadapter/}{https://postech-cvlab.github.io/nvsadapter/}.
翻訳日:2023-12-13 15:50:51 公開日:2023-12-12
# scca: コンテキストセマンティクスの長い拡張のために、クロスチャンクの注意を移す

SCCA: Shifted Cross Chunk Attention for long contextual semantic expansion ( http://arxiv.org/abs/2312.07305v1 )

ライセンス: Link先を確認
Yuxiang Guo(参考訳) 効率的な手法としてのスパース注意は、計算コストを大幅に削減することができるが、現在のスパース注意は、グローバル情報フローを妨げるウィンドウの自己注意に依存する傾向がある。 そこで我々は,各注目層内の各フィールドを拡張するために,異なるKVシフト戦略を用いてSCCA(Shifted Cross Chunk Attention)を提案する。 ただし,Dilated Attention(DA)とDilated Neighborhood Attention(DNA)を併用して,Shifted Dilated Attention(SDA)を提示する。 SCCAとSDAは、多視点で注目結果を蓄積し、全視野で近似する。 本稿では,SCCAの異なるパターンとSCCAとSDAの組み合わせを用いた言語モデリング実験を行う。 提案したシフトクロスチャンクアテンション(SCCA)は,現在のスパースアテンションよりも大きな言語モデル(LLM)を,位置補間(PI)とLoRAと組み合わせて,より長いコンテキストに効果的に拡張することができる。 特にSCCAは、4kコンテキストから8kまでのLLaMA2 7Bを単一のV100で採用している。 この注意パターンは、元のアーキテクチャを維持しながらモデルコンテキストを拡張するプラグイン・アンド・プレイの微調整方法を提供することができ、既存のほとんどの技術と互換性がある。

Sparse attention as a efficient method can significantly decrease the computation cost, but current sparse attention tend to rely on window self attention which block the global information flow. For this problem, we present Shifted Cross Chunk Attention (SCCA), using different KV shifting strategy to extend respective field in each attention layer. Except, we combine Dilated Attention(DA) and Dilated Neighborhood Attention(DNA) to present Shifted Dilated Attention(SDA). Both SCCA and SDA can accumulate attention results in multi head attention to obtain approximate respective field in full attention. In this paper, we conduct language modeling experiments using different pattern of SCCA and combination of SCCA and SDA. The proposed shifted cross chunk attention (SCCA) can effectively extend large language models (LLMs) to longer context combined with Positional interpolation(PI) and LoRA than current sparse attention. Notably, SCCA adopts LLaMA2 7B from 4k context to 8k in single V100. This attention pattern can provide a Plug-and-play fine-tuning method to extend model context while retaining their original architectures, and is compatible with most existing techniques.
翻訳日:2023-12-13 15:50:26 公開日:2023-12-12
# 知識表現から知識組織へ

From Knowledge Representation to Knowledge Organization and Back ( http://arxiv.org/abs/2312.07302v1 )

ライセンス: Link先を確認
Fausto Giunchiglia and Mayukh Bagchi(参考訳) 知識表現 (kr) と facet-analytical knowledge organization (ko) はそれぞれ、人工知能コミュニティと情報科学コミュニティにおけるデータと知識モデリングの最も顕著な方法論である。 KRは、知識モデリングをサポートするテクノロジの堅牢でスケーラブルなエコシステムを誇っており、しばしばモデル(およびモデルベースのデータ)の品質を過小評価している。 一方、KOは技術駆動ではないが、モデリング(およびモデルベースのデータ)の品質を保証するための指針(カノン)の堅牢なフレームワークを開発した。 本稿では,KR法とfacet-analytical KO法の両方を詳細に解明し,それらの機能的マッピングを提供する。 そこで本研究では、KR手法の標準コンポーネントと、KOが提供したモデリング品質の指針を組み込んだ、KO富化KR手法を提案する。 方法論統合の実践的メリットは、KRに基づく画像アノテーション演習の顕著なケーススタディによって実証されている。

Knowledge Representation (KR) and facet-analytical Knowledge Organization (KO) have been the two most prominent methodologies of data and knowledge modelling in the Artificial Intelligence community and the Information Science community, respectively. KR boasts of a robust and scalable ecosystem of technologies to support knowledge modelling while, often, underemphasizing the quality of its models (and model-based data). KO, on the other hand, is less technology-driven but has developed a robust framework of guiding principles (canons) for ensuring modelling (and model-based data) quality. This paper elucidates both the KR and facet-analytical KO methodologies in detail and provides a functional mapping between them. Out of the mapping, the paper proposes an integrated KO-enriched KR methodology with all the standard components of a KR methodology plus the guiding canons of modelling quality provided by KO. The practical benefits of the methodological integration has been exemplified through a prominent case study of KR-based image annotation exercise.
翻訳日:2023-12-13 15:50:00 公開日:2023-12-12
# AlGaAs-on-Insulator導波路における通信バンドSPDC

Telecom-Band SPDC in AlGaAs-on-Insulator Waveguides ( http://arxiv.org/abs/2312.07300v1 )

ライセンス: Link先を確認
Marlon Placke, Jan Schlegel, Felix Mann, Pietro Della Casa, Andreas Thies, Markus Weyers, G\"unther Tr\"ankle and Sven Ramelow(参考訳) テレコムバンド量子鍵分布(QKD)の商業的普及には、完全に統合された室温送信機が必要である。 ポンプレーザを併用するプラットフォーム上での高効率パラメトリックダウンコンバージョン(SPDC)の実現は、大きな課題である。 本稿では、AlGaAs-on-insulator導波路をベースとしたプラットフォームを用いて、パルスレーザーパワーの1.6mWで使用可能な70波長波長多重QKD系において、使用可能な光子束を飽和させる、26GHzの周波数帯/mWの高効率な通信帯域SPDC(および第2高調波発生)を報告する。

Widespread commercial adoption of telecom-band quantum-key-distribution (QKD) will require fully integrated, room-temperature transmitters. Implementing highly efficient spontaneous parametric down-conversion (SPDC) on a platform that offers co-integration of the pump laser has been an outstanding challenge. Here, using such a platform based on AlGaAs-on-insulator waveguides, we report telecom-band SPDC (and second harmonic generation) with exceedingly large efficiencies of 26 GHz generated pairs/mW over a 7 THz bandwidth, which would saturate the usable photon-flux for a 70-channel wavelength-multiplexed QKD-system at merely 1.6 mW of pump laser power.
翻訳日:2023-12-13 15:49:43 公開日:2023-12-12
# 複雑再電流スペクトルネットワーク

Complex Recurrent Spectral Network ( http://arxiv.org/abs/2312.07296v1 )

ライセンス: Link先を確認
Lorenzo Chicchi, Lorenzo Giambagli, Lorenzo Buffoni, Raffaele Marino, Duccio Fanelli(参考訳) 本稿では,Recurrent Spectral Network (RSN) モデルの革新的変種である Complex Recurrent Spectral Network (\mathbb{C}$-RSN) の開発を通じて,人工知能(AI)を進化させる新しいアプローチを提案する。 $\mathbb{C}$-RSNは、既存のニューラルネットワークモデルにおいて、生物学的ニューラルネットワークの複雑なプロセスを動的に正確にエミュレートできないという限界に対処するように設計されている。 力学系理論から重要な概念を統合し、統計力学の原理を活用することで、$\mathbb{c}$-rsnモデルは局所化された非線形性、複素固定固有値、メモリと入力処理機能の分離をもたらす。 これらの特徴は集合的に$\mathbb{C}$-RSNが動的で振動する最終状態へと進化し、生物学的認知をより密接に反映する。 この研究の中心は、$\mathbb{C}$-RSNが、複雑な固有値構造と線形および非線形成分の革新的分離のおかげで、生物学的システムに固有のリズム的、振動力学をいかに捉えたかを探求することである。 mnistデータセットを用いた経験的評価により、時間依存関数によるデータの分類能力と情報処理の局所化を実証した。 注目すべきは、挿入順序の間接的なインプリント(および連続的な挿入間隔の分離時期)を有する、逐次入力収率パターンとして供給される異なるアイテムである。

This paper presents a novel approach to advancing artificial intelligence (AI) through the development of the Complex Recurrent Spectral Network ($\mathbb{C}$-RSN), an innovative variant of the Recurrent Spectral Network (RSN) model. The $\mathbb{C}$-RSN is designed to address a critical limitation in existing neural network models: their inability to emulate the complex processes of biological neural networks dynamically and accurately. By integrating key concepts from dynamical systems theory and leveraging principles from statistical mechanics, the $\mathbb{C}$-RSN model introduces localized non-linearity, complex fixed eigenvalues, and a distinct separation of memory and input processing functionalities. These features collectively enable the $\mathbb{C}$-RSN evolving towards a dynamic, oscillating final state that more closely mirrors biological cognition. Central to this work is the exploration of how the $\mathbb{C}$-RSN manages to capture the rhythmic, oscillatory dynamics intrinsic to biological systems, thanks to its complex eigenvalue structure and the innovative segregation of its linear and non-linear components. The model's ability to classify data through a time-dependent function, and the localization of information processing, is demonstrated with an empirical evaluation using the MNIST dataset. Remarkably, distinct items supplied as a sequential input yield patterns in time which bear the indirect imprint of the insertion order (and of the time of separation between contiguous insertions).
翻訳日:2023-12-13 15:49:30 公開日:2023-12-12
# バンディット問題における強制探索

Forced Exploration in Bandit Problems ( http://arxiv.org/abs/2312.07285v1 )

ライセンス: Link先を確認
Han Qi, Fei Guo, Li Zhu(参考訳) マルチアームバンディット(MAB)は古典的な逐次決定問題である。 ほとんどの研究は報酬分布(例えば有界)に関する仮定を必要とするが、実践者はこれらの分布に関する情報を得るのが困難であり、問題のモデル、特に非定常MAB問題の設計を行う。 本稿では,報酬分布に関する情報を使わずに実装できるマルチアームバンディットアルゴリズムを設計することを目的としている。 そこで本研究では,欲求規則と強制探索を交互に行う新しいアルゴリズムを提案する。 本手法はガウス分布,ベルヌーイ分布,その他のガウス分布に適用でき,追加情報を必要としない。 我々は,異なる強制探索戦略のための統一的な分析手法を採用し,定常的および区分的定常的設定に対して問題依存的な後悔の上限を提供する。 さらに,提案アルゴリズムを,報酬分布の異なる一般的な帯域幅アルゴリズムと比較した。

The multi-armed bandit(MAB) is a classical sequential decision problem. Most work requires assumptions about the reward distribution (e.g., bounded), while practitioners may have difficulty obtaining information about these distributions to design models for their problems, especially in non-stationary MAB problems. This paper aims to design a multi-armed bandit algorithm that can be implemented without using information about the reward distribution while still achieving substantial regret upper bounds. To this end, we propose a novel algorithm alternating between greedy rule and forced exploration. Our method can be applied to Gaussian, Bernoulli and other subgaussian distributions, and its implementation does not require additional information. We employ a unified analysis method for different forced exploration strategies and provide problem-dependent regret upper bounds for stationary and piecewise-stationary settings. Furthermore, we compare our algorithm with popular bandit algorithms on different reward distributions.
翻訳日:2023-12-13 15:49:01 公開日:2023-12-12
# ラベルシフト適応のためのカーネル法によるクラス確率マッチング

Class Probability Matching Using Kernel Methods for Label Shift Adaptation ( http://arxiv.org/abs/2312.07282v1 )

ライセンス: Link先を確認
Hongwei Wen, Annika Betken, Hanyuan Hang(参考訳) ドメイン適応では、共変量シフトとラベルシフト問題は2つの相補的タスクである。 データ分布の違いが特徴確率のばらつきから生じる共変量シフト適応では、既存のアプローチは自然にこの問題に対して \textit{feature probability matching} (\textit{fpm}) に基づいて対処する。 しかし、データ分布の違いがクラス確率の変化にのみ依存するラベルシフト適応の場合、現在の手法では、$d$次元の特徴空間上のFPMを用いて1次元ラベル空間上のクラス確率比を推定している。 ラベルシフト適応をより自然かつ効果的に扱うために、ソースドメインのクラス確率の新しい表現に着想を得て、1次元ラベル空間上の2つのクラス確率関数をマッチングしてクラス確率比を推定する \textit{class probability matching} (\textit{cpm}) と呼ばれる新しいフレームワークを提案する。 さらに、カーネルロジスティック回帰をCPMフレームワークに組み込んで条件付き確率を推定することにより、ラベルシフト適応のためのカーネルメソッドを用いた \textit{class probability matching} (\textit{CPMKM}) と呼ばれるアルゴリズムを提案する。 理論的な観点から、多クラスラベルシフト適応におけるクロスエントロピー損失に関して、CPMKMの最適収束率を確立する。 実験的な観点から、実際のデータセットの比較は、CPMKMが既存のFPMベースおよび最大形アルゴリズムより優れていることを示している。

In domain adaptation, covariate shift and label shift problems are two distinct and complementary tasks. In covariate shift adaptation where the differences in data distribution arise from variations in feature probabilities, existing approaches naturally address this problem based on \textit{feature probability matching} (\textit{FPM}). However, for label shift adaptation where the differences in data distribution stem solely from variations in class probability, current methods still use FPM on the $d$-dimensional feature space to estimate the class probability ratio on the one-dimensional label space. To address label shift adaptation more naturally and effectively, inspired by a new representation of the source domain's class probability, we propose a new framework called \textit{class probability matching} (\textit{CPM}) which matches two class probability functions on the one-dimensional label space to estimate the class probability ratio, fundamentally different from FPM operating on the $d$-dimensional feature space. Furthermore, by incorporating the kernel logistic regression into the CPM framework to estimate the conditional probability, we propose an algorithm called \textit{class probability matching using kernel methods} (\textit{CPMKM}) for label shift adaptation. From the theoretical perspective, we establish the optimal convergence rates of CPMKM with respect to the cross-entropy loss for multi-class label shift adaptation. From the experimental perspective, comparisons on real datasets demonstrate that CPMKM outperforms existing FPM-based and maximum-likelihood-based algorithms.
翻訳日:2023-12-13 15:48:46 公開日:2023-12-12
# 安全なマルチタスクベイズ最適化

Safe Multi-Task Bayesian Optimization ( http://arxiv.org/abs/2312.07281v1 )

ライセンス: Link先を確認
Jannis O. L\"ubsen, Christian Hespe, Annika Eichler(参考訳) ベイズ最適化は、高いサンプル効率とノイズロバスト性のため、システムの安全なオンライン最適化のための強力なツールとなっている。 さらなる高速化のために、システムの物理的モデルを最適化に組み込むことができ、実際のシステムの近似を提供することができ、それらからのサンプリングは大幅に安価である。 モデルと現実の類似性は、追加のハイパーパラメータによって表現され、最適化プロセスで学習される。 安全性はベイズ最適化のようなオンライン最適化手法の重要な基準であり、既知のハイパーパラメータを仮定した安全性保証を提供する最近の文献によって取り扱われている。 しかし、実際にはこれは適用されない。 そこで我々は,マルコフ連鎖モンテカルロ法による高パラメータ後方分布からの信頼領域の計算を含むマルチタスク設定を満たすために,ロバストなガウス過程の一様誤差境界を拡張した。 そして、ロバストな安全性境界を用いて、ベイジアン最適化を適用し、モデルの測定を取り入れながら安全な最適化を行う。 シミュレーションにより、モデルの忠実度に応じて、他の最先端の安全なベイズ最適化手法と比較して、最適化が大幅に加速できることが示されている。

Bayesian optimization has become a powerful tool for safe online optimization of systems, due to its high sample efficiency and noise robustness. For further speed-up reduced physical models of the system can be incorporated into the optimization to accelerate the process, since the models are able to offer an approximation of the actual system, and sampling from them is significantly cheaper. The similarity between model and reality is represented by additional hyperparameters and learned within the optimization process. Safety is an important criteria for online optimization methods like Bayesian optimization, which has been addressed by recent literature, which provide safety guarantees under the assumption of known hyperparameters. However, in practice this is not applicable. Therefore, we extend the robust Gaussian process uniform error bounds to meet the multi-task setting, which involves the calculation of a confidence region from the hyperparameter posterior distribution utilizing Markov chain Monte Carlo methods. Then, using the robust safety bounds, Bayesian optimization is applied to safely optimize the system while incorporating measurements of the models. Simulations show that the optimization can be significantly accelerated compared to other state-of-the-art safe Bayesian optimization methods depending on the fidelity of the models.
翻訳日:2023-12-13 15:48:16 公開日:2023-12-12
# システム構成性を考慮した変圧器の取得に向けて

Towards Equipping Transformer with the Ability of Systematic Compositionality ( http://arxiv.org/abs/2312.07280v1 )

ライセンス: Link先を確認
Chen Huang, Peixin Qin, Wenqiang Lei, Jiancheng Lv(参考訳) 言語の生産性と人間の認知における重要な要素の1つは、体系的な構成性の能力である。 しかし、近年の証拠は、トランスフォーマーが、見受けられるプリミティブに基づいて構成されたコンテキストを一般化することが困難であることを示している。 そこで本研究では,cat と呼ばれる構成性認識変換器と2つの新しい事前学習タスクを提案する。 本稿では,特に人気のあるBERTに基づいて,多層CATの実装を仮に実施する。 実験結果から,CATは,標準言語理解タスクの有効性に最小限の影響を伴って,構成性を考慮したタスクのベースラインよりも優れていた。

One of the key factors in language productivity and human cognition is the ability of systematic compositionality, which refers to understanding composed unseen examples of seen primitives. However, recent evidence reveals that the Transformers have difficulty generalizing the composed context based on the seen primitives. To this end, we take the first step to propose a compositionality-aware Transformer called CAT and two novel pre-training tasks to facilitate systematic compositionality. We tentatively provide a successful implementation of a multi-layer CAT on the basis of the especially popular BERT. The experimental results demonstrate that CAT outperforms baselines on compositionality-aware tasks with minimal impact on the effectiveness on standardized language understanding tasks.
翻訳日:2023-12-13 15:47:59 公開日:2023-12-12
# 医用画像における近距離・重複検出のための事前学習型視覚埋め込みのベンチマーク

Benchmarking Pretrained Vision Embeddings for Near- and Duplicate Detection in Medical Images ( http://arxiv.org/abs/2312.07273v1 )

ライセンス: Link先を確認
Tuan Truong, Farnaz Khun Jush, Matthias Lenga(参考訳) 近接および重複画像検出は、医療画像の分野において重要な関心事である。 医療データセットには、さまざまなソースからの類似画像や重複画像が含まれることが多いため、特にトレーニングとテストサブセット間のデータ漏洩による機械学習タスクにおいて、パフォーマンス上の問題や評価バイアスが発生する可能性がある。 本稿では,公用2次元コンピュータビジョン埋め込みを利用した近距離・重複3次元医用画像の同定手法を提案する。 類似性検索のための2種類の自己教師付き事前学習モデルと2つの異なるベクトルインデックス構造から抽出した埋め込みを比較検討した。 我々は,医療用セグメンテーションdecathlonデータセットに基づく実験ベンチマークを作成する。 提案手法は,それぞれ0.9645と0.8559の平均感度と特異性を達成し,近接画像検出と重複画像検出に有望な結果を与える。

Near- and duplicate image detection is a critical concern in the field of medical imaging. Medical datasets often contain similar or duplicate images from various sources, which can lead to significant performance issues and evaluation biases, especially in machine learning tasks due to data leakage between training and testing subsets. In this paper, we present an approach for identifying near- and duplicate 3D medical images leveraging publicly available 2D computer vision embeddings. We assessed our approach by comparing embeddings extracted from two state-of-the-art self-supervised pretrained models and two different vector index structures for similarity retrieval. We generate an experimental benchmark based on the publicly available Medical Segmentation Decathlon dataset. The proposed method yields promising results for near- and duplicate image detection achieving a mean sensitivity and specificity of 0.9645 and 0.8559, respectively.
翻訳日:2023-12-13 15:47:45 公開日:2023-12-12
# フェデレーション学習を用いた電気自動車のプライバシ・アウェアエネルギー消費モデル

Privacy-Aware Energy Consumption Modeling of Connected Battery Electric Vehicles using Federated Learning ( http://arxiv.org/abs/2312.07371v1 )

ライセンス: Link先を確認
Sen Yan, Hongyuan Fang, Ji Li, Tomas Ward, Noel O'Connor, Mingming Liu(参考訳) バッテリー電気自動車(BEV)は、大気汚染を減らす可能性から、現代都市ではますます重要になっている。 エネルギー消費の高精度かつリアルタイムな推定は、走行距離の不安を低減し、エネルギーコストを削減できる効率的な反復計画および車両システムの最適化に不可欠である。 データプライバシに対する大衆の認識が高まるにつれて、BEVエネルギー消費モデリングの文脈でデータプライバシを保護するアプローチを採用することが不可欠である。 Federated Learning(FL)は、デバイス上にローカルデータを保持し、中央サーバとモデルアップデートを共有することで、サードパーティに機密情報を暴露するリスクを軽減する、有望なソリューションである。 本研究は,ユーザプライバシを維持しつつ,BEVのエネルギー消費予測を改善するために,FedAvgやFedPerといったFL手法を用いることの可能性を検討する。 実世界の運転条件を模擬した10台のBEVのデータを用いて実験を行った。 その結果,FedAvg-LSTMモデルでは予測結果のMAE値が67.84 %まで低下した。 さらに,様々な実世界のシナリオを考察し,それらの場合におけるflメソッドの適用方法について論じた。 その結果,fl手法はユーザのプライバシを維持しつつ,bevエネルギー消費予測の性能を効果的に向上できることがわかった。

Battery Electric Vehicles (BEVs) are increasingly significant in modern cities due to their potential to reduce air pollution. Precise and real-time estimation of energy consumption for them is imperative for effective itinerary planning and optimizing vehicle systems, which can reduce driving range anxiety and decrease energy costs. As public awareness of data privacy increases, adopting approaches that safeguard data privacy in the context of BEV energy consumption modeling is crucial. Federated Learning (FL) is a promising solution mitigating the risk of exposing sensitive information to third parties by allowing local data to remain on devices and only sharing model updates with a central server. Our work investigates the potential of using FL methods, such as FedAvg, and FedPer, to improve BEV energy consumption prediction while maintaining user privacy. We conducted experiments using data from 10 BEVs under simulated real-world driving conditions. Our results demonstrate that the FedAvg-LSTM model achieved a reduction of up to 67.84\% in the MAE value of the prediction results. Furthermore, we explored various real-world scenarios and discussed how FL methods can be employed in those cases. Our findings show that FL methods can effectively improve the performance of BEV energy consumption prediction while maintaining user privacy.
翻訳日:2023-12-13 15:40:47 公開日:2023-12-12
# セマンティックセグメンテーションのための対数的半監督ドメイン適応 : ラベル付きターゲットサンプルの新しい役割

Adversarial Semi-Supervised Domain Adaptation for Semantic Segmentation: A New Role for Labeled Target Samples ( http://arxiv.org/abs/2312.07370v1 )

ライセンス: Link先を確認
Marwa Kechaou, Mokhtar Z. Alaya, Romain H\'erault, Gilles Gasso(参考訳) 意味的セグメンテーションの文脈におけるドメイン適応(DA)アプローチの逆学習ベースラインは、半教師付きフレームワークで検討されている。 これらのベースラインは、監視損失において利用可能なラベル付きターゲットサンプルのみを含む。 本研究では,セマンティックセグメンテーションと単一ドメイン分類器ニューラルネットワークの両面での有用性を高めることを提案する。 我々は、ラベル付き対象データがソースサンプルまたは実際のターゲットサンプルとして振る舞う場合に、新たなトレーニング目標損失を設計する。 根底にある根拠は、ラベル付き対象サンプルのセットをソースドメインの一部として考えることは、ドメインの矛盾を減らすのに役立ち、そのため敵の損失の寄与を改善することである。 提案手法を支援するために,ソースとラベル付きターゲットデータを混合し,同じ適応プロセスを適用する補完手法を検討する。 さらに,エントロピーを用いた教師なし選択手法を提案し,ラベル付き対象標本の選択を最適化する。 本稿では,GTA5,SynTHIA,Cityscapesのベンチマーク実験を通じて得られた知見を紹介する。 実証的評価は,提案手法の競争力を強調する。

Adversarial learning baselines for domain adaptation (DA) approaches in the context of semantic segmentation are under explored in semi-supervised framework. These baselines involve solely the available labeled target samples in the supervision loss. In this work, we propose to enhance their usefulness on both semantic segmentation and the single domain classifier neural networks. We design new training objective losses for cases when labeled target data behave as source samples or as real target samples. The underlying rationale is that considering the set of labeled target samples as part of source domain helps reducing the domain discrepancy and, hence, improves the contribution of the adversarial loss. To support our approach, we consider a complementary method that mixes source and labeled target data, then applies the same adaptation process. We further propose an unsupervised selection procedure using entropy to optimize the choice of labeled target samples for adaptation. We illustrate our findings through extensive experiments on the benchmarks GTA5, SYNTHIA, and Cityscapes. The empirical evaluation highlights competitive performance of our proposed approach.
翻訳日:2023-12-13 15:40:25 公開日:2023-12-12
# LLMによる大規模部分観測可能環境の逐次計画

Sequential Planning in Large Partially Observable Environments guided by LLMs ( http://arxiv.org/abs/2312.07368v1 )

ライセンス: Link先を確認
Swarna Kamal Paul(参考訳) 大規模状態空間と行動空間の連続的な計画は、探索空間の組合せ的爆発により、急速に困難になる。 モンテカルロ木探索のようなヒューリスティックな手法は、大きな状態空間に対して有効であるが、アクション空間が大きければ困難である。 報酬信号にのみ依存する純強化学習手法では, 環境との密接な相互作用が求められ, 実現可能な計画を立てる必要がある。 状態空間、観測、行動が自然言語で表現できるなら、大規模言語モデル(LLM)を使って行動計画を生成することができる。 最近、Reflexion、CLIN、SayCanといった目標指向のエージェントが、タスク固有のトレーニングを最小あるいは不要に、他の最先端メソッドのパフォーマンスを上回ることができた。 しかし、彼らはなお探検に苦労し、地元のオプティマで立ち往生している。 それらの計画能力は、テキストデータに対する基礎的なLCMの限られた推論能力によって制限される。 提案するハイブリッドエージェント "neoplanner" は, 状態空間探索とクエリとを融合して, 最善のアクションプランを得るための基礎的llmを提案する。 報酬信号は、探索の駆動に定量的に使用される。 探索と搾取のバランスは、状態の値の上限を最大化することで維持される。 ランダムな探索が必要な場所では、LCMをクエリしてアクションプランを生成する。 各トライアルからの学習は、テキスト形式でエンティティ関係として格納される。 これらは今後のLLMへの問い合わせで、継続的な改善に使用される。 サイエンスワールド環境での実験では、複数のタスクで得られる平均報酬の観点から、現在のベストメソッドから124%改善されている。

Sequential planning in large state space and action space quickly becomes intractable due to combinatorial explosion of the search space. Heuristic methods, like monte-carlo tree search, though effective for large state space, but struggle if action space is large. Pure reinforcement learning methods, relying only on reward signals, needs prohibitively large interactions with the environment to device a viable plan. If the state space, observations and actions can be represented in natural language then Large Language models (LLM) can be used to generate action plans. Recently several such goal-directed agents like Reflexion, CLIN, SayCan were able to surpass the performance of other state-of-the-art methods with minimum or no task specific training. But they still struggle with exploration and get stuck in local optima. Their planning capabilities are limited by the limited reasoning capability of the foundational LLMs on text data. We propose a hybrid agent "neoplanner", that synergizes both state space search with queries to foundational LLM to get the best action plan. The reward signals are quantitatively used to drive the search. A balance of exploration and exploitation is maintained by maximizing upper confidence bounds of values of states. In places where random exploration is needed, the LLM is queried to generate an action plan. Learnings from each trial are stored as entity relationships in text format. Those are used in future queries to the LLM for continual improvement. Experiments in the Scienceworld environment reveals a 124% improvement from the current best method in terms of average reward gained across multiple tasks.
翻訳日:2023-12-13 15:40:08 公開日:2023-12-12
# ロバスト画像検索のためのトリプルトデカップリングによる衝突指向逆行訓練

Collapse-Oriented Adversarial Training with Triplet Decoupling for Robust Image Retrieval ( http://arxiv.org/abs/2312.07364v1 )

ライセンス: Link先を確認
Qiwei Tian, Chenhao Lin, Qian Li, Zhengyu Zhao, Chao Shen(参考訳) 対人訓練は、画像検索システムにおいて、対人的例に対する防御において大きな成果を上げている。 しかし、既存の研究はモデル崩壊と弱い逆境という2つの大きな限界に苦しめられている。 本稿では,三重項疎結合(TRIDE)を用いた倒立指向(COLO)対向トレーニングを提案する。 具体的には、トリドがアンカーへの摂動の更新目標と三重項の2つの候補とを空間的に分離することにより強い敵意を生じさせるのに対し、coroは摂動更新方向を新たな崩壊計量で時間的に向き付けてモデル崩壊を防止する。 実験の結果、我々のcoro-trideは、10以上のロバストネスメトリクスと3つの人気のあるデータセットにおいて、現在のアートの状態を7%上回っています。 さらに,画像検索においてよく用いられるロバストネス指標の公平性限界を特定し,より有意義なロバストネス評価のための新しい指標を提案する。 コードはGitHubで公開されている。

Adversarial training has achieved substantial performance in defending image retrieval systems against adversarial examples. However, existing studies still suffer from two major limitations: model collapse and weak adversary. This paper addresses these two limitations by proposing collapse-oriented (COLO) adversarial training with triplet decoupling (TRIDE). Specifically, COLO prevents model collapse by temporally orienting the perturbation update direction with a new collapse metric, while TRIDE yields a strong adversary by spatially decoupling the update targets of perturbation into the anchor and the two candidates of a triplet. Experimental results demonstrate that our COLO-TRIDE outperforms the current state of the art by 7% on average over 10 robustness metrics and across 3 popular datasets. In addition, we identify the fairness limitations of commonly used robustness metrics in image retrieval and propose a new metric for more meaningful robustness evaluation. Codes will be made publicly available on GitHub.
翻訳日:2023-12-13 15:39:47 公開日:2023-12-12
# 流れマッチングによる潜性拡散の促進

Boosting Latent Diffusion with Flow Matching ( http://arxiv.org/abs/2312.07360v1 )

ライセンス: Link先を確認
Johannes S. Fischer and Ming Gui and Pingchuan Ma and Nick Stracke and Stefan A. Baumann and Bj\"orn Ommer(参考訳) 近年,視覚合成と基礎となる生成モデルが飛躍的に進歩している。 ここでは拡散モデル(DM)が特に際立っているが、最近はフローマッチング(FM)も注目されている。 dmsは多様な画像を提供するのに優れているが、長い訓練と遅い生成に苦しむ。 潜在拡散により、これらの問題は部分的に緩和されるのみである。 逆にFMはより高速なトレーニングと推論を提供するが、合成の多様性は低い。 拡散モデルと畳み込みデコーダの間にfmを導入することで,計算コストとモデルサイズを低減した高分解能画像合成が可能となる。 拡散は必要な生成の多様性を効率的に提供することができる。 FMは低分解能を補正し、小さな潜在空間を高次元空間にマッピングする。 その後、ldmの畳み込みデコーダはこれらの潜像を高解像度画像にマッピングする。 DMの多様性,FMの効率,畳み込みデコーダの有効性を組み合わせることで,1024^2$の最先端高解像度画像合成を最小計算コストで実現する。 重要な点として,本手法は近年のDMの近似と高速化戦略と直交しており,様々なDMフレームワークに容易に統合可能である。

Recently, there has been tremendous progress in visual synthesis and the underlying generative models. Here, diffusion models (DMs) stand out particularly, but lately, flow matching (FM) has also garnered considerable interest. While DMs excel in providing diverse images, they suffer from long training and slow generation. With latent diffusion, these issues are only partially alleviated. Conversely, FM offers faster training and inference but exhibits less diversity in synthesis. We demonstrate that introducing FM between the Diffusion model and the convolutional decoder offers high-resolution image synthesis with reduced computational cost and model size. Diffusion can then efficiently provide the necessary generation diversity. FM compensates for the lower resolution, mapping the small latent space to a high-dimensional one. Subsequently, the convolutional decoder of the LDM maps these latents to high-resolution images. By combining the diversity of DMs, the efficiency of FMs, and the effectiveness of convolutional decoders, we achieve state-of-the-art high-resolution image synthesis at $1024^2$ with minimal computational cost. Importantly, our approach is orthogonal to recent approximation and speed-up strategies for the underlying DMs, making it easily integrable into various DM frameworks.
翻訳日:2023-12-13 15:39:25 公開日:2023-12-12
# 野生魚におけるサンゴ礁の自動識別と3次元計測

Automatic coral reef fish identification and 3D measurement in the wild ( http://arxiv.org/abs/2312.07357v1 )

ライセンス: Link先を確認
Cyril Barrelet, Marc Chaumont, G\'erard Subsol(参考訳) 本稿では,3次元魚群の自動識別,追跡,および個体数測定のためのステレオ画像を用いたパイプラインを提案する。

In this paper we present a pipeline using stereo images in order to automatically identify, track in 3D fish, and measure fish population.
翻訳日:2023-12-13 15:38:56 公開日:2023-12-12
# 医用画像におけるCLIP : 包括的調査

CLIP in Medical Imaging: A Comprehensive Survey ( http://arxiv.org/abs/2312.07353v1 )

ライセンス: Link先を確認
Zihao Zhao, Yuxiao Liu, Han Wu, Yonghao Li, Sheng Wang, Lin Teng, Disheng Liu, Xiang Li, Zhiming Cui, Qian Wang, Dinggang Shen(参考訳) Contrastive Language-Image Pre-Training (CLIP)は、単純で効果的な事前学習パラダイムであり、視覚モデルに意味豊かなテキスト管理を導入し、その一般化性と解釈可能性により、様々なタスクにおいて有望な結果を示した。 最近、医療用視覚言語アライメントのための強力な事前訓練パラダイムや、様々な臨床タスクのための事前訓練されたキーコンポーネントとして、医療画像領域への関心が高まっている。 この将来性のある方向性をより深く理解することを目的として、この調査は、CLIP事前トレーニングとCLIP駆動アプリケーションの両方に関して、医療画像領域におけるCLIPパラダイムの詳細な調査を提供する。 調査(1)はCLIP方法論の基礎を概説することから始まる。 2) 医療領域におけるCLIP事前訓練の適応について検討し, 医用画像の特徴と報告のCLIPの最適化方法について検討した。 3)さらに,クリップ事前学習モデルの分類,高密度予測,クロスモーダルタスクなど,様々なタスクにおける実用化について検討する。 (4) 医用画像領域におけるCLIPの限界について考察し, 医用画像領域の要求に対処するための前方視方向を提案する。 この包括的調査は、CLIPパラダイムの全体的理解と、その潜在的な影響を、医学画像分析の分野の研究者に提供することを期待する。 プロジェクトページはhttps://github.com/zhaozh10/Awesome-CLIP-in-Medical-Imagingで公開されている。

Contrastive Language-Image Pre-training (CLIP), a straightforward yet effective pre-training paradigm, successfully introduces semantic-rich text supervision to vision models and has demonstrated promising results in various tasks due to its generalizability and interpretability. It has recently gained increasing interest in the medical imaging domain, either as a powerful pre-training paradigm for medical vision language alignment or a pre-trained key component for various clinical tasks. With the aim of facilitating a deeper understanding of this promising direction, this survey offers an in-depth exploration of the CLIP paradigm within the domain of medical imaging, regarding both refined CLIP pre-training and CLIP-driven applications. Our survey (1) starts with a brief introduction to the fundamentals of CLIP methodology. (2) Then, we investigate the adaptation of CLIP pre-training in the medical domain, focusing on how to optimize CLIP given characteristics of medical images and reports. (3) Furthermore, we explore the practical utilization of CLIP pre-trained models in various tasks, including classification, dense prediction, and cross-modal tasks. (4) Finally, we discuss existing limitations of CLIP in the context of medical imaging and propose forward-looking directions to address the demands of medical imaging domain. We expect that this comprehensive survey will provide researchers in the field of medical image analysis with a holistic understanding of the CLIP paradigm and its potential implications. The project page is available at https://github.com/zhaozh10/Awesome-CLIP-in-Medical-Imaging, which will be regularly updated.
翻訳日:2023-12-13 15:38:53 公開日:2023-12-12
# cholectrack20 : 腹腔鏡下手術におけるマルチクラスマルチツール追跡のためのデータセット

CholecTrack20: A Dataset for Multi-Class Multiple Tool Tracking in Laparoscopic Surgery ( http://arxiv.org/abs/2312.07352v1 )

ライセンス: Link先を確認
Chinedu Innocent Nwoye, Kareem Elgohary, Anvita Srinivas, Fauzan Zaid, Jo\"el L. Lavanchy, Nicolas Padoy(参考訳) 外科的ビデオにおけるツールトラッキングは、外科医のスキルアセスメント、安全ゾーンの推定、最小侵襲の手順における人間と機械の協調といったタスクに対するコンピュータ支援の介入において不可欠である。 大規模データセットの欠如は、このドメインにおける人工知能の実装を妨げている。 現在のデータセットは、しばしば外科的コンテキストが欠如している、過度に汎用的な追跡形式を示す: ツールがカメラのスコープから外れたときに明らかになる欠陥で、現実的な外科的表現を妨げる厳密な軌跡をもたらす。 ツールトラジェクトリの経時的時間を考慮した3つの視点((1)術中,(2)体内,(3)カメラのスコープ内での視認性)で、多クラス多ツール追跡のための広範囲なデータセットであるColecTrack20を導入することで、内視鏡手術の複雑度に合わせて、より正確で適応可能な追跡形式化の必要性に対処する。 このデータセットは、空間的位置、カテゴリ、アイデンティティ、オペレーター、フェーズ、および外科的視覚状態について詳述した35,000フレームを超える20の腹腔鏡ビデオと65,000のアノテートツールインスタンスで構成されている。 この詳細なデータセットは、プロシージャ内で進化する補助要件に対応する。

Tool tracking in surgical videos is vital in computer-assisted intervention for tasks like surgeon skill assessment, safety zone estimation, and human-machine collaboration during minimally invasive procedures. The lack of large-scale datasets hampers Artificial Intelligence implementation in this domain. Current datasets exhibit overly generic tracking formalization, often lacking surgical context: a deficiency that becomes evident when tools move out of the camera's scope, resulting in rigid trajectories that hinder realistic surgical representation. This paper addresses the need for a more precise and adaptable tracking formalization tailored to the intricacies of endoscopic procedures by introducing CholecTrack20, an extensive dataset meticulously annotated for multi-class multi-tool tracking across three perspectives representing the various ways of considering the temporal duration of a tool trajectory: (1) intraoperative, (2) intracorporeal, and (3) visibility within the camera's scope. The dataset comprises 20 laparoscopic videos with over 35,000 frames and 65,000 annotated tool instances with details on spatial location, category, identity, operator, phase, and surgical visual conditions. This detailed dataset caters to the evolving assistive requirements within a procedure.
翻訳日:2023-12-13 15:38:27 公開日:2023-12-12
# chatgptは入門プログラミングコースで教育アシスタントの役割を果たすことができるか?

Can ChatGPT Play the Role of a Teaching Assistant in an Introductory Programming Course? ( http://arxiv.org/abs/2312.07343v1 )

ライセンス: Link先を確認
Anishka, Atharva Mehta, Nipun Gupta, Dhruv Kumar, Pankaj Jalote(参考訳) 大規模言語モデル(LLM)の出現は、教育に大きな影響を与えることが期待される。 本稿では,LLMであるChatGPTを,導入プログラミングコースにおける仮想指導支援(TA)として活用する可能性について検討する。 そこで我々は,ChatGPTの性能を人間のTAの機能と比較することにより評価した。 私たちが注目するta関数は,(1)プログラミング課題の解決,(2)学生コード提出の段階的評価,(3)導入型プログラミングコースにおける大学生へのフィードバックの提供,などである。 まず,ChatGPTの解法が学生が提出した解とどのように一致しているかを検討する。 この分析はコードの正確性を超え、コード品質も考慮しています。 第二に,所与の格付けルーブリックを用いて学生のコード入力を格付けする際のChatGPTの習熟度を評価し,その性能を人間のTAに割り当てられた成績と比較する。 第3に、ChatGPTが提供するフィードバックの品質と関連性を分析する。 この評価は、ChatGPTがいかにミスに対処するかを考察し、コードの正しさとコード品質の両方の観点から、学生ソリューションの改善を提案する。 そこで我々は,ChatGPTをコンピュータ教育に組み込むことが,学習の自動化,個別化,教育支援にもたらす意味について論じる。

The emergence of Large language models (LLMs) is expected to have a major impact on education. This paper explores the potential of using ChatGPT, an LLM, as a virtual Teaching Assistant (TA) in an Introductory Programming Course. We evaluate ChatGPT's capabilities by comparing its performance with that of human TAs in some TA functions. The TA functions which we focus on include (1) solving programming assignments, (2) grading student code submissions, and (3) providing feedback to undergraduate students in an introductory programming course. Firstly, we investigate how closely ChatGPT's solutions align with those submitted by students. This analysis goes beyond code correctness and also considers code quality. Secondly, we assess ChatGPT's proficiency in grading student code submissions using a given grading rubric and compare its performance with the grades assigned by human TAs. Thirdly, we analyze the quality and relevance of the feedback provided by ChatGPT. This evaluation considers how well ChatGPT addresses mistakes and offers suggestions for improvement in student solutions from both code correctness and code quality perspectives. We conclude with a discussion on the implications of integrating ChatGPT into computing education for automated grading, personalized learning experiences, and instructional support.
翻訳日:2023-12-13 15:37:56 公開日:2023-12-12
# 拡張・量子化:高次元空間と製品量子化を用いた教師なし意味セグメント化

Expand-and-Quantize: Unsupervised Semantic Segmentation Using High-Dimensional Space and Product Quantization ( http://arxiv.org/abs/2312.07342v1 )

ライセンス: Link先を確認
Jiyoung Kim, Kyuhong Shim, Insu Lee, Byonghyo Shim(参考訳) unsupervised semantic segmentation (uss) はラベルなしで意味のあるカテゴリを発見し認識することを目的としている。 成功したUSSには2つの重要な能力が必要である。 1)情報圧縮及び 2)クラスタリング機能。 従来の手法では情報圧縮における特徴量削減に頼っていたが,本手法はクラスタリングを阻害する可能性がある。 本稿では,より優れたクラスタリングのための高次元空間の利点と効果的な情報圧縮のための製品量子化を組み合わせた,拡張および量子化非教師付きセマンティックセマンティックセマンティックセマンティックセマンティクス (EQUSS) と呼ばれる新しい USS フレームワークを提案する。 EQUSSは3つの標準ベンチマークで最先端の結果が得られることを示した。 さらに,ussの特徴のエントロピーを解析し,情報理論の観点からussを理解するための第一歩となる。

Unsupervised semantic segmentation (USS) aims to discover and recognize meaningful categories without any labels. For a successful USS, two key abilities are required: 1) information compression and 2) clustering capability. Previous methods have relied on feature dimension reduction for information compression, however, this approach may hinder the process of clustering. In this paper, we propose a novel USS framework called Expand-and-Quantize Unsupervised Semantic Segmentation (EQUSS), which combines the benefits of high-dimensional spaces for better clustering and product quantization for effective information compression. Our extensive experiments demonstrate that EQUSS achieves state-of-the-art results on three standard benchmarks. In addition, we analyze the entropy of USS features, which is the first step towards understanding USS from the perspective of information theory.
翻訳日:2023-12-13 15:37:36 公開日:2023-12-12
# 言語・方言識別のための多言語音声モデルの自己教師付き適応事前学習

Self-supervised Adaptive Pre-training of Multilingual Speech Models for Language and Dialect Identification ( http://arxiv.org/abs/2312.07338v1 )

ライセンス: Link先を確認
Mohammed Maqsood Shaik, Dietrich Klakow, Badr M. Abdullah(参考訳) 自動音声認識や音声言語識別(slid)などの下流タスクを微調整した場合,事前学習されたトランスフォーマティブ音声モデルが目覚ましい性能を示した。 しかし、この領域では、事前学習データのドメインが、微調整に使用される下流ラベルデータと異なる可能性があるため、ドメインミスマッチの問題は依然として課題である。 SLIDのような多言語タスクでは、事前訓練された音声モデルは下流タスクの全ての言語をサポートできない。 この課題に対処するために、我々は、事前学習されたモデルを下流タスクのターゲット領域と言語に適応させる自己教師付き適応事前学習(SAPT)を提案する。 我々は、XLSR-128モデルにSAPTを適用し、SLIDタスクに対するこのアプローチの有効性について検討する。 第一に、SAPTはFLEURSベンチマークのXLSR性能を向上し、表現不足言語では40.1%まで向上することを示した。 第2に,saptを4つの異なるデータセットに適用することで,微調整時のxlsrのサンプル効率が向上することを示す。 本実験は,自己スーパービジョンによる連続適応が,多言語音声モデルのダウンストリーム性能を向上させることを示す強い実証的証拠を提供する。

Pre-trained Transformer-based speech models have shown striking performance when fine-tuned on various downstream tasks such as automatic speech recognition and spoken language identification (SLID). However, the problem of domain mismatch remains a challenge in this area, where the domain of the pre-training data might differ from that of the downstream labeled data used for fine-tuning. In multilingual tasks such as SLID, the pre-trained speech model may not support all the languages in the downstream task. To address this challenge, we propose self-supervised adaptive pre-training (SAPT) to adapt the pre-trained model to the target domain and languages of the downstream task. We apply SAPT to the XLSR-128 model and investigate the effectiveness of this approach for the SLID task. First, we demonstrate that SAPT improves XLSR performance on the FLEURS benchmark with substantial gains up to 40.1% for under-represented languages. Second, we apply SAPT on four different datasets in a few-shot learning setting, showing that our approach improves the sample efficiency of XLSR during fine-tuning. Our experiments provide strong empirical evidence that continual adaptation via self-supervision improves downstream performance for multilingual speech models.
翻訳日:2023-12-13 15:37:20 公開日:2023-12-12
# rms:リアルタイムポーズ推定のための冗長性最小ポイントクラウドサンプリング

RMS: Redundancy-Minimizing Point Cloud Sampling for Real-Time Pose Estimation in Degenerated Environments ( http://arxiv.org/abs/2312.07337v1 )

ライセンス: Link先を確認
Pavel Petracek, Kostas Alexis, Martin Saska(参考訳) 移動ロボットの状態推定に使用される典型的な点雲サンプリング法は高い点冗長性を保っている。 点冗長性は推定パイプラインを遅くし、幾何学的に対称で構造のない環境でリアルタイムな推定ドリフトを可能にする。 本研究では,雲内の冗長性を最小化することにより,幾何学的退化の影響を低減できる新しい点雲サンプリング法を提案する。 提案手法は,ロボットのリアルタイム能力の制約を満たすため,点密度を正規化する一般的なスパーシフィケーション手法に代わるものである。 密度正規化とは対照的に,線形面と平面面は繰り返し推定パイプラインに伝播する高レベルの冗長性を含むという事実に基づく。 点の下の曲面を定量化する勾配流の概念を定義する。 また,勾配流のエントロピーの最大化は,ロボットのエゴモーション推定における点冗長性を最小化することを示す。 提案手法をポイントベースKISS-ICPと機能ベースLOAMオドメトリーパイプラインに統合し,KITTI,Hilti-Oxford,およびマルチロータUAVのカスタムデータセットを用いて実験的に評価する。 実験により, 提案手法は, 精度, 速度, 幾何的劣化条件において, 最先端の手法よりも高い性能を示した。

The typical point cloud sampling methods used in state estimation for mobile robots preserve a high level of point redundancy. The point redundancy slows down the estimation pipeline and can make real-time estimation drift in geometrically symmetrical and structureless environments. We propose a novel point cloud sampling method that is capable of lowering the effects of geometrical degeneracies by minimizing redundancy within the cloud. The proposed method is an alternative to the commonly used sparsification methods that normalize the density of points to comply with the constraints on the real-time capabilities of a robot. In contrast to density normalization, our method builds on the fact that linear and planar surfaces contain a high level of redundancy propagated into iterative estimation pipelines. We define the concept of gradient flow quantifying the surface underlying a point. We also show that maximizing the entropy of the gradient flow minimizes point redundancy for robot ego-motion estimation. We integrate the proposed method into the point-based KISS-ICP and feature-based LOAM odometry pipelines and evaluate it experimentally on KITTI, Hilti-Oxford, and custom datasets from multirotor UAVs. The experiments show that the proposed sampling technique outperforms state-of-the-art methods in well-conditioned as well as in geometrically-degenerated settings, in both accuracy and speed.
翻訳日:2023-12-13 15:37:00 公開日:2023-12-12
# 運動量粒子の最大範囲

Momentum Particle Maximum Likelihood ( http://arxiv.org/abs/2312.07335v1 )

ライセンス: Link先を確認
Jen Ning Lim, Juan Kuntz, Samuel Power, Adam M. Johansen(参考訳) 潜在変数モデルの最大確率推定(MLE)は、パラメータと確率分布の拡張空間に対する最適化問題としてしばしば再キャストされる。 例えば、期待最大化(EM)アルゴリズムは、この空間上の適切な自由エネルギー汎関数に適用された座標降下と解釈できる。 近年、この視点は最適輸送とワッサーシュタイン勾配流からの洞察と組み合わされ、標準EMよりも広いモデルのクラスに適用可能な粒子ベースのアルゴリズムが開発されている。 通常の微分方程式の離散化として 'momentum-enriched' 最適化アルゴリズムを解釈する先行研究からインスピレーションを得て、パラメータと確率分布の拡張空間上の自由エネルギー関数を最小化する類似の力学系に基づくアプローチを提案する。 その結果、ネステロフの加速勾配法、アンダーダムのランゲヴィン拡散法、および粒子法の要素をブレンドする力学系が得られた。 適切な仮定の下では,提案方式の定量的収束を連続時間における関数のユニークな最小化に確立する。 そこで本研究では,潜在変数モデルにおけるパラメータ推定に適用可能な数値的な離散化を提案する。 数値実験により,結果のアルゴリズムは既存の手法よりも高速に収束し,他の(ほぼ)mleアルゴリズムと比較できることを示した。

Maximum likelihood estimation (MLE) of latent variable models is often recast as an optimization problem over the extended space of parameters and probability distributions. For example, the Expectation Maximization (EM) algorithm can be interpreted as coordinate descent applied to a suitable free energy functional over this space. Recently, this perspective has been combined with insights from optimal transport and Wasserstein gradient flows to develop particle-based algorithms applicable to wider classes of models than standard EM. Drawing inspiration from prior works which interpret `momentum-enriched' optimisation algorithms as discretizations of ordinary differential equations, we propose an analogous dynamical systems-inspired approach to minimizing the free energy functional over the extended space of parameters and probability distributions. The result is a dynamic system that blends elements of Nesterov's Accelerated Gradient method, the underdamped Langevin diffusion, and particle methods. Under suitable assumptions, we establish quantitative convergence of the proposed system to the unique minimiser of the functional in continuous time. We then propose a numerical discretization of this system which enables its application to parameter estimation in latent variable models. Through numerical experiments, we demonstrate that the resulting algorithm converges faster than existing methods and compares favourably with other (approximate) MLE algorithms.
翻訳日:2023-12-13 15:36:29 公開日:2023-12-12
# Coupled Confusion Correction: 疎アノテーションを持つ群衆から学ぶ

Coupled Confusion Correction: Learning from Crowds with Sparse Annotations ( http://arxiv.org/abs/2312.07331v1 )

ライセンス: Link先を確認
Hansong Zhang, Shikun Li, Dan Zeng, Chenggang Yan, Shiming Ge(参考訳) データセットのサイズが大きくなるにつれて、こうしたデータセットに正確に注釈をつけることは、時間と経済の両方で高価なため、現実的ではない。 そのため,ラベルの収集コストを軽減するためにクラウドソーシングが広く採用され,ラベルノイズも必然的に導入され,最終的にはモデルの性能が低下する。 クラウドソーシングアノテーションから学ぶためには、各アノテータの専門知識をモデル化するのが一般的だが、クラウドソーシングによって収集されるアノテーションは通常、非常に疎結合である。 この問題を緩和するために,2つのモデルを同時に訓練し,相互に学習した混乱行列を補正する結合混乱補正(ccc)を提案する。 バイレベル最適化により、一方のモデルで学習した混乱行列は他方からの蒸留データによって補正できる。 さらに,類似の専門知識を共有する ‘annotator groups'' をクラスタ化し,それらの混乱行列を一緒に修正する。 このように、アノテーターの専門知識、特にめったにないラベルを提供する人の専門知識は、よりよく捉えられる。 注意すべき点として、アノテーションの空間性は、平均的なラベル数が低いことを意味するだけでなく、非常に少ないラベルを提供するアノテータが常に存在することを指摘した。 そこで我々は,クラウドソーシングラベルの生成を制御するために,ベータディストリビューションを使用することを提案する。 2種類の合成データセットと3つの実世界のデータセットで大規模な実験を行い、CCCが最先端のアプローチを著しく上回ることを示した。

As the size of the datasets getting larger, accurately annotating such datasets is becoming more impractical due to the expensiveness on both time and economy. Therefore, crowd-sourcing has been widely adopted to alleviate the cost of collecting labels, which also inevitably introduces label noise and eventually degrades the performance of the model. To learn from crowd-sourcing annotations, modeling the expertise of each annotator is a common but challenging paradigm, because the annotations collected by crowd-sourcing are usually highly-sparse. To alleviate this problem, we propose Coupled Confusion Correction (CCC), where two models are simultaneously trained to correct the confusion matrices learned by each other. Via bi-level optimization, the confusion matrices learned by one model can be corrected by the distilled data from the other. Moreover, we cluster the ``annotator groups'' who share similar expertise so that their confusion matrices could be corrected together. In this way, the expertise of the annotators, especially of those who provide seldom labels, could be better captured. Remarkably, we point out that the annotation sparsity not only means the average number of labels is low, but also there are always some annotators who provide very few labels, which is neglected by previous works when constructing synthetic crowd-sourcing annotations. Based on that, we propose to use Beta distribution to control the generation of the crowd-sourcing labels so that the synthetic annotations could be more consistent with the real-world ones. Extensive experiments are conducted on two types of synthetic datasets and three real-world datasets, the results of which demonstrate that CCC significantly outperforms state-of-the-art approaches.
翻訳日:2023-12-13 15:36:07 公開日:2023-12-12
# 大規模言語モデルは臨床推論者である:プロンプト生成合理的な診断フレームワーク

Large Language Models are Clinical Reasoners: Reasoning-Aware Diagnosis Framework with Prompt-Generated Rationales ( http://arxiv.org/abs/2312.07399v1 )

ライセンス: Link先を確認
Taeyoon Kwon, Kai Tzu-iunn Ong, Dongjin Kang, Seungjun Moon, Jeong Ryong Lee, Dosik Hwang, Yongsik Sim, Beomseok Sohn, Dongha Lee, Jinyoung Yeo(参考訳) 機械推論は、大規模言語モデル(LLM)によって近年大きく進歩している。 しかし、臨床領域では、nlp主導のほとんどのプロジェクトは、主に臨床分類や読解に焦点が当てられ、臨床医の高価な合理的な注釈による疾患診断のための未熟な臨床推論に焦点が当てられている。 本研究では,時間的かつ労力効率のよい方法で,プロンプトベース学習を通じて診断プロセスを合理化し,その合理化を理化するための,‘reasoning-aware’診断フレームワークを提案する。 具体的には,llmが診断的根拠を生成し,提示された患者データと臨床的思考連鎖(clinical chain-of-thought:clinical cot)という診断への道筋について考察する。 LLMs/LMsの臨床的推論能力について実験的に検証し,様々な場面で理性発生と疾患診断の両方について分析した。 さらに,本分野の今後の研究を円滑に進めつつ,実世界の臨床環境に対する機械生成的合理化の可能性を評価するための新しい基準セットを提案する。

Machine reasoning has made great progress in recent years owing to large language models (LLMs). In the clinical domain, however, most NLP-driven projects mainly focus on clinical classification or reading comprehension, and under-explore clinical reasoning for disease diagnosis due to the expensive rationale annotation with clinicians. In this work, we present a ``reasoning-aware'' diagnosis framework that rationalizes the diagnostic process via prompt-based learning in a time- and labor-efficient manner, and learns to reason over the prompt-generated rationales. Specifically, we address the clinical reasoning for disease diagnosis, where the LLM generates diagnostic rationales providing its insight on presented patient data and the reasoning path towards the diagnosis, namely Clinical Chain-of-Thought (Clinical CoT). We empirically demonstrate LLMs/LMs' ability of clinical reasoning via extensive experiments and analyses on both rationale generation and disease diagnosis in various settings. We further propose a novel set of criteria for evaluating machine-generated rationales' potential for real-world clinical settings, facilitating and benefiting future research in this area.
翻訳日:2023-12-13 15:29:39 公開日:2023-12-12
# LLMEval: 大規模言語モデルの評価方法に関する予備的研究

LLMEval: A Preliminary Study on How to Evaluate Large Language Models ( http://arxiv.org/abs/2312.07398v1 )

ライセンス: Link先を確認
Yue Zhang, Ming Zhang, Haipeng Yuan, Shichun Liu, Yongyao Shi, Tao Gui, Qi Zhang and Xuanjing Huang(参考訳) 近年,大規模言語モデルの評価が研究分野として注目されている。 LLM評価の3つの重要な質問は、'What, where, and How to evaluate'である。 しかし、既存の研究は、主に最初の2つの質問に焦点を当てている。これは基本的に、テスト中にllmを与えるべきタスクと、それが扱うべき知識である。 第3の質問は、どの標準を使うべきか、評価のタイプ、スコアの方法、ランク付けの方法に関するものだが、あまり議論は行われていない。 本稿では,様々な基準を手動評価と自動評価とを比較し,現場,クラウドソーシング,公開アノテータ,GPT-4を異なるスコアリング手法とランキングシステムを用いて分析する。 LLMEval という新たなデータセットを提案し,20 LLM 上で評価を行う。 合計2,186人が参加し、243,337人の手動アノテーションと57,511件の自動評価結果が得られた。 我々は異なる設定の比較と分析を行い、将来LSMを評価するための洞察を提供する10の結論を導いた。 データセットと結果はhttps://github.com/llmeval で公開されている。

Recently, the evaluation of Large Language Models has emerged as a popular area of research. The three crucial questions for LLM evaluation are ``what, where, and how to evaluate''. However, the existing research mainly focuses on the first two questions, which are basically what tasks to give the LLM during testing and what kind of knowledge it should deal with. As for the third question, which is about what standards to use, the types of evaluators, how to score, and how to rank, there hasn't been much discussion. In this paper, we analyze evaluation methods by comparing various criteria with both manual and automatic evaluation, utilizing onsite, crowd-sourcing, public annotators and GPT-4, with different scoring methods and ranking systems. We propose a new dataset, LLMEval and conduct evaluations on 20 LLMs. A total of 2,186 individuals participated, leading to the generation of 243,337 manual annotations and 57,511 automatic evaluation results. We perform comparisons and analyses of different settings and conduct 10 conclusions that can provide some insights for evaluating LLM in the future. The dataset and the results are publicly available at https://github.com/llmeval .
翻訳日:2023-12-13 15:29:18 公開日:2023-12-12
# メソスコピック共焦点放物型ビリヤードに対するリップマン・シュウィンガー方程式の解

Solutions of the Lippmann-Schwinger equation for mesoscopic confocal parabolic billiards ( http://arxiv.org/abs/2312.07396v1 )

ライセンス: Link先を確認
Alberto Ruiz-Biestro, Julio C. Gutierrez-Vega(参考訳) 種々のデルタ型ポテンシャル強度関数を持つ共焦点放物型ビリヤードと放物型セグメントによって生じる散乱波動関数に対するリップマン・シュウィンガー方程式の解析的および数値解を提案する。 解析式は放物型シリンダー関数Dmの積の和として表現される。 本研究では,共焦点放物型ビリヤードの共鳴とトンネルを,完全な内外画像を提供する正確な境界壁法を用いて数値的に検討する。 ビリヤードの放物面を判別するための基準を詳細に説明する。 我々はある固有エネルギーにおける透明性現象について論じる。 平面波がビリヤード対称性軸に沿って入射すると、反対称定常モードは誘導されない。

We present analytical and numerical solutions of the Lippmann-Schwinger equation for the scattered wavefunctions generated by confocal parabolic billiards and parabolic segments with various delta-type potential-strength functions. The analytical expressions are expressed as summations of products of parabolic cylinder functions Dm. We numerically investigate the resonances and tunneling in the confocal parabolic billiards by employing an accurate boundary wall method that provides a complete inside-outside picture. The criterion for discretizing the parabolic sides of the billiard is explained in detail. We discuss the phenomenon of transparency at certain eigenenergies. When the plane wave is incident along the billiard symmetry axis, antisymmetric stationary modes cannot be induced.
翻訳日:2023-12-13 15:28:59 公開日:2023-12-12
# 16フレーム以上のビデオファーストエンコーダをコントラスト的に事前学習する簡単なレシピ

A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames ( http://arxiv.org/abs/2312.07395v1 )

ライセンス: Link先を確認
Pinelopi Papalampidi, Skanda Koppula, Shreya Pathak, Justin Chiu, Joe Heyward, Viorica Patraucean, Jiajun Shen, Antoine Miech, Andrew Zisserman, Aida Nematzdeh(参考訳) 長い現実世界の動画を理解するには、長期の視覚依存のモデリングが必要です。 この目的のために, ビデオファーストアーキテクチャについて検討し, 浅層時間融合によるビデオへの大規模画像テキストモデル転送の共通パラダイムを基礎として検討する。しかし, そのアプローチには, 1) 標準映像データセットにおけるビデオ言語アライメントの低下による空間的能力の低下, (2) 処理可能なフレーム数のボトルネック化, という2つの制限を提示する。 メモリボトルネックを軽減するため,様々な効率的な手法のメモリ/精度トレードオフを体系的に分析した。 驚いたことに、ビデオの大部分(最大75%)をコントラストプレトレーニング中に隠すだけで、1fpsで4.3分までビデオにエンコーダをスケールできる最も堅牢な方法の1つがわかる。 1Bパラメータにスケールする長いビデオ・トゥ・テキストモデルをトレーニングするための簡単なアプローチは、新しいアーキテクチャの複雑さを増すことなく、長い時間依存性を持つベンチマーク(YouCook2, EgoSchema)のセグメントベース情報よりもずっと大きなLCMを情報アグリゲータとして使うという一般的なパラダイムを上回ります。

Understanding long, real-world videos requires modeling of long-range visual dependencies. To this end, we explore video-first architectures, building on the common paradigm of transferring large-scale, image--text models to video via shallow temporal fusion. However, we expose two limitations to the approach: (1) decreased spatial capabilities, likely due to poor video--language alignment in standard video datasets, and (2) higher memory consumption, bottlenecking the number of frames that can be processed. To mitigate the memory bottleneck, we systematically analyze the memory/accuracy trade-off of various efficient methods: factorized attention, parameter-efficient image-to-video adaptation, input masking, and multi-resolution patchification. Surprisingly, simply masking large portions of the video (up to 75%) during contrastive pre-training proves to be one of the most robust ways to scale encoders to videos up to 4.3 minutes at 1 FPS. Our simple approach for training long video-to-text models, which scales to 1B parameters, does not add new architectural complexity and is able to outperform the popular paradigm of using much larger LLMs as an information aggregator over segment-based information on benchmarks with long-range temporal dependencies (YouCook2, EgoSchema).
翻訳日:2023-12-13 15:28:46 公開日:2023-12-12
# ReRoGCRL:ゴール・コンディション強化学習における表現に基づくロバスト性

ReRoGCRL: Representation-based Robustness in Goal-Conditioned Reinforcement Learning ( http://arxiv.org/abs/2312.07392v1 )

ライセンス: Link先を確認
Xiangyu Yin, Sihao Wu, Jiaxu Liu, Meng Fang, Xingyu Zhao, Xiaowei Huang, Wenjie Ruan(参考訳) Goal-Conditioned Reinforcement Learning (GCRL) は注目されているが、そのアルゴリズム的堅牢性、特に敵の摂動に対して、まだ解明されていない。 残念ながら、従来のRL用に特別に設計された攻撃や堅牢な表現訓練方法は、GCRLに適用してもそれほど効果的ではない。 この課題に対処するために, 対向的コントラスト攻撃に触発された新しいアプローチである textit{Semi-Contrastive Representation} 攻撃を提案する。 RLの既存の攻撃とは異なり、ポリシー関数からの情報を必要とせず、デプロイ中にシームレスに実装できる。 さらに,既存のGCRLアルゴリズムの脆弱性を軽減するために,<textit{Adversarial Representation Tactics}を導入する。 この戦略は \textit{Semi-Contrastive Adversarial Augmentation} と \textit{Sensitivity-Aware Regularizer} を組み合わせる。 様々な種類の摂動に対して、基盤となるエージェントの対向的堅牢性を改善する。 複数の最先端GCRLアルゴリズムにおける攻撃・防御機構の優れた性能を検証する。 我々のツール {\bf ReRoGCRL} は \url{https://github.com/TrustAI/ReRoGCRL} で利用可能である。

While Goal-Conditioned Reinforcement Learning (GCRL) has gained attention, its algorithmic robustness, particularly against adversarial perturbations, remains unexplored. Unfortunately, the attacks and robust representation training methods specifically designed for traditional RL are not so effective when applied to GCRL. To address this challenge, we propose the \textit{Semi-Contrastive Representation} attack, a novel approach inspired by the adversarial contrastive attack. Unlike existing attacks in RL, it only necessitates information from the policy function and can be seamlessly implemented during deployment. Furthermore, to mitigate the vulnerability of existing GCRL algorithms, we introduce \textit{Adversarial Representation Tactics}. This strategy combines \textit{Semi-Contrastive Adversarial Augmentation} with \textit{Sensitivity-Aware Regularizer}. It improves the adversarial robustness of the underlying agent against various types of perturbations. Extensive experiments validate the superior performance of our attack and defence mechanism across multiple state-of-the-art GCRL algorithms. Our tool {\bf ReRoGCRL} is available at \url{https://github.com/TrustAI/ReRoGCRL}.
翻訳日:2023-12-13 15:28:17 公開日:2023-12-12
# 非マルコフフィードバックによる Gottesman-Kitaev-Preskill 量子誤り訂正の高速化

Boosting the Gottesman-Kitaev-Preskill quantum error correction with non-Markovian feedback ( http://arxiv.org/abs/2312.07391v1 )

ライセンス: Link先を確認
Matteo Puviani, Sangkha Borah, Remmy Zen, Jan Olle, Florian Marquardt(参考訳) ボソニック符号は、調和発振器の無限大ヒルベルト空間を利用する単一の成分装置において論理量子ビットの符号化を可能にする。 特に、Gottesman-Kitaev-Preskillコードは、最近、同じシステムで最高のパッシブエンコーディングのブレークプレイポイントを超えて修正可能であることが示されている。 このシステムの量子エラー補正(QEC)への現在のアプローチは、フィードバックを使用するプロトコルに基づいているが、応答は最新の測定結果のみに基づいている。 本研究では,最近提案するフィードバックグレープ法(gradient ascent pulse engineering with feedback)を用いて,メモリに基づくqecスキームを提供するリカレントニューラルネットワークを訓練し,これまでの計測結果の完全な履歴に対して非マルコフ的応答を行い,すべてのユニタリ操作を最適化する。 このアプローチは現在の戦略を大幅に上回り、より強力な計測ベースのQECプロトコルの道を開く。

Bosonic codes allow the encoding of a logical qubit in a single component device, utilizing the infinitely large Hilbert space of a harmonic oscillator. In particular, the Gottesman-Kitaev-Preskill code has recently been demonstrated to be correctable well beyond the break-even point of the best passive encoding in the same system. Current approaches to quantum error correction (QEC) for this system are based on protocols that use feedback, but the response is based only on the latest measurement outcome. In our work, we use the recently proposed Feedback-GRAPE (Gradient Ascent Pulse Engineering with Feedback) method to train a recurrent neural network that provides a QEC scheme based on memory, responding in a non-Markovian way to the full history of previous measurement outcomes, optimizing all subsequent unitary operations. This approach significantly outperforms current strategies and paves the way for more powerful measurement-based QEC protocols.
翻訳日:2023-12-13 15:27:58 公開日:2023-12-12
# 航空画像における信頼の獲得:地理空間システムにおける敵攻撃の包括的分析と評価

Eroding Trust In Aerial Imagery: Comprehensive Analysis and Evaluation Of Adversarial Attacks In Geospatial Systems ( http://arxiv.org/abs/2312.07389v1 )

ライセンス: Link先を確認
Michael Lanier, Aayush Dhakal, Zhexiao Xiong, Arthur Li, Nathan Jacobs, Yevgeniy Vorobeychik(参考訳) 航空画像が重要な役割を果たす重要な作戦では、データの完全性と信頼性が重要となる。 敵の攻撃の出現、特にラベルの制御を利用したり、物理的に実現可能なトロイの木馬を雇ったりは、その信頼を損なうと脅し、これらの攻撃の分析と緩和を緊急の問題にしている。 具体的には,攻撃者のラベルに対する制御が制限されているシナリオと,現実的な脅威ベクトルの使用に焦点を当てた。 頭上画像に合わせた手法を含む,いくつかの革新的な攻撃手法の提案と評価を行い,高品質なspacenetデータセットを用いたリモートセンシングシステムに対する脅威を実証的に示した。 我々の実験は、航空画像がもたらす固有の課題を反映しており、これらの予備的な結果は、潜在的なリスクだけでなく、最近の研究と比べて、問題の非自明な性質を強調している。

In critical operations where aerial imagery plays an essential role, the integrity and trustworthiness of data are paramount. The emergence of adversarial attacks, particularly those that exploit control over labels or employ physically feasible trojans, threatens to erode that trust, making the analysis and mitigation of these attacks a matter of urgency. We demonstrate how adversarial attacks can degrade confidence in geospatial systems, specifically focusing on scenarios where the attacker's control over labels is restricted and the use of realistic threat vectors. Proposing and evaluating several innovative attack methodologies, including those tailored to overhead images, we empirically show their threat to remote sensing systems using high-quality SpaceNet datasets. Our experimentation reflects the unique challenges posed by aerial imagery, and these preliminary results not only reveal the potential risks but also highlight the non-trivial nature of the problem compared to recent works.
翻訳日:2023-12-13 15:27:37 公開日:2023-12-12
# ブロックチェーン拡張グローバルプロセスモデルの分散化のためのトランスフォーメーションルール

Transformation rules for the decentralization of a blockchain-extended global process model ( http://arxiv.org/abs/2312.07388v1 )

ライセンス: Link先を確認
Julius K\"opke and Sebastian Trattnig(参考訳) ブロックチェーンと分散台帳技術は、組織全体の協調ビジネスプロセスをサポートする有望な機能を提供する。 通常、この分野のアプローチは2つのカテゴリに分類される。ブロックチェーン上でプロセスモデル全体を実行するか、主に参加者間のメッセージ交換を強制または監視するためにブロックチェーンを使用する。 この2つの手法の間に新しいアプローチを提案する。 ブロックチェーンアノテーションで拡張された集中型プロセスモデルを導入し、各参加組織のタスクと、タスク実行を確保するためにブロックチェーンテクノロジが必要な範囲を詳述する。 このモデルには、すべての重要なデータオブジェクトが含まれており、その処理がブロックチェーンによってどのように保護されるかを指定する。 このテクニカルレポートでは、この包括的モデルを各組織の個々のローカルプロセスモデルに自動分散する体系的3段階の手法と、ブロックチェーンの独立したプロセスモデルについて概説する。 この分散構造は、元のグローバルプロセスモデルを効果的に複製する。 当社のトランスフォーメーションアプローチはルールベースで、まずプラットフォーム固有のモデル、次にプラットフォーム固有のモデルの作成に重点を置いています。 その後、プラットフォーム固有のモデルを提案し、ブロックチェーンの1つのモデルと、参加する各組織のための1つのモデルを得る。

Blockchains and distributed ledger technology offer promising capabilities for supporting collaborative business processes across organizations. Typically, approaches in this field fall into two categories: either executing the entire process model on the blockchain or using the blockchain primarily to enforce or monitor the exchange of messages between participants. Our work proposes a novel approach that sits between these two methods. We introduce a centralized process model extended with blockchain annotations, detailing the tasks of each participating organization and the extent to which blockchain technology is needed to secure task execution. This model also includes all critical data objects and specifies how their handling should be protected by the blockchain. This technical report outlines a systematic three-step method for automatically decentralizing this comprehensive model into individual local process models for each organization, coupled with a separate process model for the blockchain. This decentralized structure effectively replicates the original global process model. Our transformation approach is rule-based, focusing on creating a platform-inde-pendent model first, then a platform-specific model. Subsequently, we project the platform-specific model to obtain one model for the blockchain and one model for each participating organization.
翻訳日:2023-12-13 15:27:19 公開日:2023-12-12
# カーネル回帰におけるウィナーカオス : 失語症とてんかんの不確かさの解消に向けて

Wiener Chaos in Kernel Regression: Towards Untangling Aleatoric and Epistemic Uncertainty ( http://arxiv.org/abs/2312.07387v1 )

ライセンス: Link先を確認
T. Faulwasser, O. Molodchyk(参考訳) ガウス過程(英: Gaussian Processes, GP)は、動的および制御の学習への様々なアプローチを可能にする汎用的な手法である。 基礎となる再生核ヒルベルト空間の正の半定値核は、関数上のガウス分布の共分散を構成するのに使われ、測定ノイズ(すなわちデータ破損)は通常、i.i.d.加法ガウス空間としてモデル化される。 本稿では,後者のガウス性仮定を緩和する。すなわち,非ガウス性測定ノイズを付加した核リッジ回帰を考える。 通常のカーネルトリックを適用するために、ノルベルト・ウィーナーが導入した有限分散の確率変数の列展開である多項式カオス展開による不確実性の表現に依存する。 我々は解析的$\mathcal{l}^2$解をウィナー核回帰(英語版)から導出し、議論する。 数値的な例として多項式系を考えると,本手法はてんかんおよび失語症の影響を解き放つことができる。

Gaussian Processes (GPs) are a versatile method that enables different approaches towards learning for dynamics and control. Gaussianity assumptions appear in two dimensions in GPs: The positive semi-definite kernel of the underlying reproducing kernel Hilbert space is used to construct the co-variance of a Gaussian distribution over functions, while measurement noise (i.e. data corruption) is usually modeled as i.i.d. additive Gaussian. In this note, we relax the latter Gaussianity assumption, i.e., we consider kernel ridge regression with additive i.i.d. non-Gaussian measurement noise. To apply the usual kernel trick, we rely on the representation of the uncertainty via polynomial chaos expansions, which are series expansions for random variables of finite variance introduced by Norbert Wiener. We derive and discuss the analytic $\mathcal{L}^2$ solution to the arising Wiener kernel regression. Considering a polynomial system as numerical example, we show that our approach allows to untangle the effects of epistemic and aleatoric uncertainties.
翻訳日:2023-12-13 15:26:59 公開日:2023-12-12
# 非線形フォトニックフィルタ空洞からの決定論的量子状態発生器と安定化器

Deterministic quantum state generators and stabilizers from nonlinear photonic filter cavities ( http://arxiv.org/abs/2312.07386v1 )

ライセンス: Link先を確認
Sean Chen, Nicholas Rivera, Jamison Sloan, and Marin Soljacic(参考訳) 特に光周波数における光の量子状態は、ハイゼンベルク制限されたメトロロジー、連続変数量子コンピューティング、量子通信など、多くの重要な量子技術や応用を実現するために必要であると考えられている。 それでも、様々な重要な量子光状態は、現在光学周波数で決定的に生成することが難しい。 これは、非線形相互作用が与えられたターゲット量子状態を作成する比較的少数のスキームが原因である。 本稿では、光の重要な量子状態を決定論的に生成し、安定化するための特に単純な概念について述べる。 周波数依存性の外部結合を持つ非線形共振器や非線形導波路のチェーンを考慮すれば、密度行列の光子数成分の周期的なラグを除いて「フィルタリング」できることを示す。 この現象の例として、収縮状態の安定化と「光子数コム」状態の生成が可能な空洞を示す。 さらに、これらのフィルター空洞では、グラウバーコヒーレント状態は決定論的に所望の順序でシュロディンガー猫状態へと進化する。 量子非線形光学におけるポテンシャル実現について論じる。 より広範に、ここで導入された技術と追加の「位相感受性」非線形性(二階非線形性など)を組み合わせることで、ここで示されるよりも広い多様な状態の受動的安定化と生成が可能になると期待している。

Quantum states of light, particularly at optical frequencies, are considered necessary to realize a host of important quantum technologies and applications, spanning Heisenberg-limited metrology, continuous-variable quantum computing, and quantum communications. Nevertheless, a wide variety of important quantum light states are currently challenging to deterministically generate at optical frequencies. In part, this is due to a relatively small number of schemes that prepare target quantum states given nonlinear interactions. Here, we present an especially simple concept for deterministically generating and stabilizing important quantum states of light, using only simple third-order optical nonlinearities and engineered dissipation. We show how by considering either a nonlinear cavity with frequency-dependent outcoupling, or a chain of nonlinear waveguides, one can "filter" out all but a periodic ladder of photon number components of a density matrix. As examples of this phenomenon, we show cavities which can stabilize squeezed states, as well as produce "photon-number-comb" states. Moreover, in these types of filter cavities, Glauber coherent states will deterministically evolve into Schrodinger cat states of a desired order. We discuss potential realizations in quantum nonlinear optics. More broadly, we expect that combining the techniques introduced here with additional "phase-sensitive" nonlinearities (such as second-order nonlinearity) should enable passive stabilization and generation of a wider variety of states than shown here.
翻訳日:2023-12-13 15:26:37 公開日:2023-12-12
# GSmoothFace:ファイングラインド3D顔誘導による顔生成を一般化したスムース

GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained 3D Face Guidance ( http://arxiv.org/abs/2312.07385v1 )

ライセンス: Link先を確認
Haiming Zhang, Zhihao Yuan, Chaoda Zheng, Xu Yan, Baoyuan Wang, Guanbin Li, Song Wu, Shuguang Cui, Zhen Li(参考訳) 既存の音声駆動音声合成法は大きな進歩を遂げるが,アバター特有の訓練要求や不安定な唇運動のため,実世界の応用には程遠い。 上記の問題に対処するため,我々は,話者のアイデンティティを保ちながら滑らかな唇のダイナミックスを合成できる,細粒度3次元顔モデルによる2段階の汎用会話顔生成モデルgsmoothfaceを提案する。 提案するgsmoothfaceモデルは,a2ep(audio to expression prediction)モジュールとtaft(target adaptive face translation)モジュールから構成される。 具体的には,a2epモジュールをまず開発し,駆動音声に同期した表現パラメータを予測した。 トランスフォーマは、長期的なオーディオコンテキストをキャプチャし、細粒度の3d顔頂点からパラメータを学習し、正確でスムーズなリップ同期パフォーマンスを実現する。 その後、Morphology Augmented Face Blending (MAFB) によって強化されたよく設計されたTAFTモジュールは、予測された表現パラメータとターゲット映像を入力として取り込んで、背景コンテンツを歪ませることなく、ターゲット映像の顔領域を変更する。 TAFTは、ターゲットビデオにおけるアイデンティティの外観と背景コンテキストを効果的に活用することにより、再トレーニングなしに異なる話者に一般化することができる。 定量的および定性的な実験は、リアリズム、唇同期、視覚的品質の観点から、我々の方法の優位性を確認する。 事前トレーニングされたモデルのコード、データ、リクエストについては、プロジェクトページを参照してください。

Although existing speech-driven talking face generation methods achieve significant progress, they are far from real-world application due to the avatar-specific training demand and unstable lip movements. To address the above issues, we propose the GSmoothFace, a novel two-stage generalized talking face generation model guided by a fine-grained 3d face model, which can synthesize smooth lip dynamics while preserving the speaker's identity. Our proposed GSmoothFace model mainly consists of the Audio to Expression Prediction (A2EP) module and the Target Adaptive Face Translation (TAFT) module. Specifically, we first develop the A2EP module to predict expression parameters synchronized with the driven speech. It uses a transformer to capture the long-term audio context and learns the parameters from the fine-grained 3D facial vertices, resulting in accurate and smooth lip-synchronization performance. Afterward, the well-designed TAFT module, empowered by Morphology Augmented Face Blending (MAFB), takes the predicted expression parameters and target video as inputs to modify the facial region of the target video without distorting the background content. The TAFT effectively exploits the identity appearance and background context in the target video, which makes it possible to generalize to different speakers without retraining. Both quantitative and qualitative experiments confirm the superiority of our method in terms of realism, lip synchronization, and visual quality. See the project page for code, data, and request pre-trained models: https://zhanghm1995.github.io/GSmoothFace.
翻訳日:2023-12-13 15:26:13 公開日:2023-12-12
# 自己ペーストインクリメンタルラーニングによる教師なし時間行動定位

Unsupervised Temporal Action Localization via Self-paced Incremental Learning ( http://arxiv.org/abs/2312.07384v1 )

ライセンス: Link先を確認
Haoyu Tang, Han Jiang, Mingzhu Xu, Yupeng Hu, Jihua Zhu, Liqiang Nie(参考訳) 近年,temporal action localization (tal) が情報検索コミュニティに大きな関心を集めている。 しかし、既存の監督/監視手法は、労働集約的で時間を要する広範囲なラベル付き時間境界と行動カテゴリーに大きく依存している。 教師なしの手法の中には、talの ‘iterative clustering and localization’ パラダイムを利用したものもあるが、依然として2つの重要な障害を抱えている。 1)不満足なビデオクラスタリングの信頼性 2)モデルトレーニングのための信頼性の低いビデオ擬似ラベル。 これらの制約に対処するために,クラスタリングとローカライズトレーニングを同時に強化し,より効果的な教師なしtalを実現するための,新しい自己ペースインクリメンタル学習モデルを提案する。 具体的には,コンテキスト的特徴損なう視覚情報を探索することで,クラスタリングの信頼性を向上させる。 その後,難解なモデルトレーニングのためのインクリメンタルインスタンス学習戦略を2つ設計し,ビデオ擬似ラベルの信頼性を保証し,全体的なローカライズ性能をさらに向上させる。 2つの公開データセットに対する大規模な実験は、いくつかの最先端の競合相手よりも、我々のモデルの優位性を裏付けている。

Recently, temporal action localization (TAL) has garnered significant interest in information retrieval community. However, existing supervised/weakly supervised methods are heavily dependent on extensive labeled temporal boundaries and action categories, which is labor-intensive and time-consuming. Although some unsupervised methods have utilized the ``iteratively clustering and localization'' paradigm for TAL, they still suffer from two pivotal impediments: 1) unsatisfactory video clustering confidence, and 2) unreliable video pseudolabels for model training. To address these limitations, we present a novel self-paced incremental learning model to enhance clustering and localization training simultaneously, thereby facilitating more effective unsupervised TAL. Concretely, we improve the clustering confidence through exploring the contextual feature-robust visual information. Thereafter, we design two (constant- and variable- speed) incremental instance learning strategies for easy-to-hard model training, thus ensuring the reliability of these video pseudolabels and further improving overall localization performance. Extensive experiments on two public datasets have substantiated the superiority of our model over several state-of-the-art competitors.
翻訳日:2023-12-13 15:25:42 公開日:2023-12-12
# ScribblePrompt:どんな医療画像でも高速でフレキシブルなインタラクティブセグメンテーション

ScribblePrompt: Fast and Flexible Interactive Segmentation for Any Medical Image ( http://arxiv.org/abs/2312.07381v1 )

ライセンス: Link先を確認
Hallee E. Wong, Marianne Rakic, John Guttag, Adrian V. Dalca(参考訳) セマンティック・メディカル・イメージ・セグメンテーションは科学研究と臨床医療の両方において重要な部分である。 十分なラベル付きデータによって、ディープラーニングモデルは、特定の医療画像セグメンテーションタスクを正確に自動化するように訓練することができる。 しかし、トレーニングデータを作成するために手動で画像のセグメンテーションを行うのは、非常に手間がかかる。 本稿では、スクリブル、クリック、バウンディングボックスを用いて、人間のアノテータが見えない構造を分割できる、医療画像のためのインタラクティブなセグメンテーションフレームワークであるScribblePromptを提案する。 Scribblesは複雑なタスクに対するユーザインタラクションの直感的で効果的な形式であるが、既存のほとんどのメソッドはクリックベースのインタラクションに焦点を当てている。 複数種類のインタラクションに対応可能なトレーニングモデルを実現するための,現実的なスクリブルのシミュレーションアルゴリズムを導入する。 新しいタスクの一般化を達成するために、リアルラベルと合成ラベルの両方を使用して65のオープンアクセスバイオメディカルデータセットの多様なコレクションをトレーニングします。 複数のネットワークアーキテクチャと未知のデータセット上でScribblePromptをテストし、単一のCPU上でリアルタイムに使用できることを示す。 ScribblePromptは,手動合成,シミュレーションインタラクション,ユーザスタディを用いて評価する。 ScribblePromptは、すべての評価において既存のメソッドよりも優れています。 ユーザスタディでは、ScribblePromptはアノテーション時間を28%削減し、Diceを既存の方法に比べて15%改善した。 scribblepromptをオンラインデモで紹介し、https://scribbleprompt.csail.mit.eduでコードを提供します。

Semantic medical image segmentation is a crucial part of both scientific research and clinical care. With enough labelled data, deep learning models can be trained to accurately automate specific medical image segmentation tasks. However, manually segmenting images to create training data is highly labor intensive. In this paper, we present ScribblePrompt, an interactive segmentation framework for medical imaging that enables human annotators to segment unseen structures using scribbles, clicks, and bounding boxes. Scribbles are an intuitive and effective form of user interaction for complex tasks, however most existing methods focus on click-based interactions. We introduce algorithms for simulating realistic scribbles that enable training models that are amenable to multiple types of interaction. To achieve generalization to new tasks, we train on a diverse collection of 65 open-access biomedical datasets -- using both real and synthetic labels. We test ScribblePrompt on multiple network architectures and unseen datasets, and demonstrate that it can be used in real-time on a single CPU. We evaluate ScribblePrompt using manually-collected scribbles, simulated interactions, and a user study. ScribblePrompt outperforms existing methods in all our evaluations. In the user study, ScribblePrompt reduced annotation time by 28% while improving Dice by 15% compared to existing methods. We showcase ScribblePrompt in an online demo and provide code at https://scribbleprompt.csail.mit.edu
翻訳日:2023-12-13 15:25:24 公開日:2023-12-12
# X4D-SceneFormer: クロスモーダルな知識伝達による4Dポイントクラウドビデオのシーン理解の強化

X4D-SceneFormer: Enhanced Scene Understanding on 4D Point Cloud Videos through Cross-modal Knowledge Transfer ( http://arxiv.org/abs/2312.07378v1 )

ライセンス: Link先を確認
Linglin Jing, Ying Xue, Xu Yan, Chaoda Zheng, Dong Wang, Ruimao Zhang, Zhigang Wang, Hui Fang, Bin Zhao, Zhen Li(参考訳) 4dポイントクラウド理解の分野は、動的3dポイントクラウドシーケンスの解析を目標として急速に発展している。 しかし、点雲におけるテクスチャの疎さと欠如のため、依然として困難な課題である。 さらに、点雲の不規則性は、ビデオシーケンス内の時間情報の整列に困難をもたらす。 これらの問題に対処するため、我々はX4D-SceneFormerと呼ばれる新しいクロスモーダルな知識伝達フレームワークを提案する。 このフレームワークは、時間的関係マイニングを備えたTransformerアーキテクチャを用いて、RGBシーケンスからテクスチャ先行を転送することで、4Dシーン理解を強化する。 具体的には、4Dポイント・クラウド・トランスフォーマーとGradient-aware Image Transformer (GIT)で構成されるデュアルブランチ・アーキテクチャで設計されている。 学習中,モダリティ間の知識伝達を強化するために,時間的一貫性の損失やマスキングされた自己意識を含む複数の知識伝達技術を用いる。 これにより、単一モードの4Dポイントクラウド入力を使用した推論時のパフォーマンスが向上する。 大規模実験により,アクション認識,アクションセグメンテーション,セマンティクスセグメンテーションなど,さまざまな4dポイントクラウドビデオ理解タスクにおいて,フレームワークの優れた性能が実証された。 その結果、HOI4D Challenge\footnote{\url{http://www.hoi4d.top/} 上で、85.3%(+7.9%)の精度と47.3%(+5.0%)のmIoUを4Dアクションセグメンテーションとセマンティックセグメンテーションで達成した。 これは、以前の最先端技術を大きく上回っている。 コードはhttps://github.com/jinglingling/x4dでリリースします。

The field of 4D point cloud understanding is rapidly developing with the goal of analyzing dynamic 3D point cloud sequences. However, it remains a challenging task due to the sparsity and lack of texture in point clouds. Moreover, the irregularity of point cloud poses a difficulty in aligning temporal information within video sequences. To address these issues, we propose a novel cross-modal knowledge transfer framework, called X4D-SceneFormer. This framework enhances 4D-Scene understanding by transferring texture priors from RGB sequences using a Transformer architecture with temporal relationship mining. Specifically, the framework is designed with a dual-branch architecture, consisting of an 4D point cloud transformer and a Gradient-aware Image Transformer (GIT). During training, we employ multiple knowledge transfer techniques, including temporal consistency losses and masked self-attention, to strengthen the knowledge transfer between modalities. This leads to enhanced performance during inference using single-modal 4D point cloud inputs. Extensive experiments demonstrate the superior performance of our framework on various 4D point cloud video understanding tasks, including action recognition, action segmentation and semantic segmentation. The results achieve 1st places, i.e., 85.3% (+7.9%) accuracy and 47.3% (+5.0%) mIoU for 4D action segmentation and semantic segmentation, on the HOI4D challenge\footnote{\url{http://www.hoi4d.top/}.}, outperforming previous state-of-the-art by a large margin. We release the code at https://github.com/jinglinglingling/X4D
翻訳日:2023-12-13 15:24:59 公開日:2023-12-12
# SAMにおけるRelax画像特異的プロンプト要件:カモフラージュオブジェクトの分割のための単一のジェネリックプロンプト

Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt for Segmenting Camouflaged Objects ( http://arxiv.org/abs/2312.07374v1 )

ライセンス: Link先を確認
Jian Hu, Jiayi Lin, Weitong Cai, Shaogang Gong(参考訳) camouflaged object detection (cod)アプローチはピクセルレベルの注釈付きデータセットに大きく依存している。 弱教師付きCOD (WSCOD) アプローチでは、スクリブルやポイントのようなスパースアノテーションを使用してアノテーションの労力を削減するが、精度が低下する可能性がある。 Segment Anything Model (SAM)は、ポイントのようなスパースプロンプトで顕著なセグメンテーション能力を示す。 しかし、手動プロンプトは現実世界のアプリケーションではアクセスできない可能性があるため、必ずしも実現可能であるとは限らない。 さらに、セマンティックな情報の代わりにローカライズ情報のみを提供するので、ターゲットを解釈する際の曖昧さを本質的に引き起こすことができる。 この作業では,手作業によるプロンプトの不要化を目標としている。 鍵となる考え方は、汎用テキストプロンプトによって与えられる意味情報を用いて視覚的プロンプトを推論するために、CCTP(Cross-modal Chains of Thought Prompting)を採用することである。 特に、CCTPは視覚言語モデルを用いて画像固有のコンセンサスフォアグラウンドと背景ヒートマップに単一のジェネリックテキストプロンプトをマッピングし、信頼できる視覚的プロンプトを取得する。 さらに,視覚プロンプトをテスト時間に適応させるために,入力画像の繰り返し重み付けを行うプログレッシブマスク生成(pmg)を提案する。 重要なのは、すべてのネットワークパラメータが修正され、追加のトレーニングが不要になることだ。 GenSAMの優位性を示す実験。 3つのベンチマークによる実験は、gensamがポイント監督アプローチよりも優れており、プロンプトとして一般的なタスク記述のみに依存する、スクリブル監督アプローチと同等の結果を達成していることを示している。 私たちのコードは以下のとおりです。

Camouflaged object detection (COD) approaches heavily rely on pixel-level annotated datasets. Weakly-supervised COD (WSCOD) approaches use sparse annotations like scribbles or points to reduce annotation effort, but this can lead to decreased accuracy. The Segment Anything Model (SAM) shows remarkable segmentation ability with sparse prompts like points. However, manual prompt is not always feasible, as it may not be accessible in real-world application. Additionally, it only provides localization information instead of semantic one, which can intrinsically cause ambiguity in interpreting the targets. In this work, we aim to eliminate the need for manual prompt. The key idea is to employ Cross-modal Chains of Thought Prompting (CCTP) to reason visual prompts using the semantic information given by a generic text prompt.To that end, we introduce a test-time adaptation per-instance mechanism called Generalizable SAM (GenSAM) to automatically enerate and optimize visual prompts the generic task prompt for WSCOD. In particular, CCTP maps a single generic text prompt onto image-specific consensus foreground and background heatmaps using vision-language models, acquiring reliable visual prompts. Moreover, to test-time adapt the visual prompts, we further propose Progressive Mask Generation (PMG) to iteratively reweight the input image, guiding the model to focus on the targets in a coarse-to-fine manner. Crucially, all network parameters are fixed, avoiding the need for additional training. Experiments demonstrate the superiority of GenSAM. Experiments on three benchmarks demonstrate that GenSAM outperforms point supervision approaches and achieves comparable results to scribble supervision ones, solely relying on general task descriptions as prompts. our codes is in: https://lwpyh.github.io/GenSAM/.
翻訳日:2023-12-13 15:24:29 公開日:2023-12-12
# 二層ファンデルワールス磁石における位相的マグノン・ポーラロン輸送

Topological magnon-polaron transport in a bilayer van der Waals magnet ( http://arxiv.org/abs/2312.07463v1 )

ライセンス: Link先を確認
Zhi-Xing Lin and Shu Zhang(参考訳) 内在的に磁性ファンデルワールス材料を積み重ねることで、マグノンの調整可能な輸送効果を探索し、スピントロニクスの応用の可能性を示す。 これらの系に位相的に非自明なマグノンを持つ可能性は、探索の範囲をさらに広げることができる。 本研究では, 層内強磁性交換と反強磁性交換の弱い2層系を考察し, 磁気弾性結合によって誘起されるトポロジカルマグノン-ポーラロン励起について検討する。 印加磁場下では、磁気基底状態が反平行層から平行層へと変化するメタ磁性遷移が特徴的である。 準磁性遷移はマグノン・ポーラロンの位相構造の遷移を伴い、トポロジー誘起輸送効果の識別可能な変化をもたらすことを示した。 熱ホール伝導率とスピンネルンスト係数の磁場依存性を線形応答理論を用いて解析した。

The stacking of intrinsically magnetic van der Waals materials provides a fertile platform to explore tunable transport effects of magnons, presenting significant prospects for spintronic applications. The possibility of having topologically nontrivial magnons in these systems can further expand the scope of exploration. In this work, we consider a bilayer system with intralayer ferromagnetic exchange and a weak interlayer antiferromagnetic exchange, and study the topological magnon-polaron excitations induced by magnetoelastic couplings. Under an applied magnetic field, the system features a metamagnetic transition, where the magnetic ground state changes from antiparallel layers to parallel. We show that the metamagnetic transition is accompanied by a transition of the topological structure of the magnon polarons, which results in discernible changes in the topology induced transport effects. The magnetic-field dependence of the thermal Hall conductivity and spin Nernst coefficient is analyzed with linear response theories.
翻訳日:2023-12-13 15:17:40 公開日:2023-12-12
# アンサンブル連合学習 : 協調型肺炎診断へのアプローチ

Ensemble Federated Learning: an approach for collaborative pneumonia diagnosis ( http://arxiv.org/abs/2312.07428v1 )

ライセンス: Link先を確認
Alhassan Mabrouk and Rebeca P. D\'iaz Redondo and Mohamed Abd Elaziz and Mohammed Kayed(参考訳) フェデレートラーニングはシナリオにとって非常に便利なアプローチである (i)データの交換は、プライバシーの懸念及び/又は (ii)迅速な反応が必要である。 スマート医療システムでは、両方の側面が通常必要です。 本稿では,プライバシの保護が鍵となる第1のシナリオについて検討し,医療機関や研究センター(計算ノード)の異なるデータセットを融合させることによる,ユニークで巨大な医療画像データセットの構築は選択肢ではない。 まず、各計算ノードが異なるデータセット(同じ型ではなく)で動作するという特徴に基づく、アンサンブル連合学習(efl)アプローチを提案する。 彼らは局所的に働き、8つの有名なcnnモデル(densenet169, mobilenetv2, xception, inceptionv3, vgg16, resnet50, densenet121, resnet152v2)を胸部x線画像に適用する。 次に、最適な2つのローカルモデルを使用して、中央ノードと共有されるローカルアンサンブルモデルを作成する。 第3に、アンサンブルモデルを集約してグローバルモデルを取得し、計算ノードと共有し、新たなイテレーションを継続する。 この手順は、最良のローカルモデルに変化がない限り継続する。 我々は,我々のアプローチを集中的なアプローチ(アンサンブルアプローチの有無に関わらず)と比較するために,異なる実験を行った。 その結果,提案手法は胸部x線画像(精度96.63\%)よりも優れており,文献の他の提案に比べて非常に競争力のある結果が得られることがわかった。

Federated learning is a very convenient approach for scenarios where (i) the exchange of data implies privacy concerns and/or (ii) a quick reaction is needed. In smart healthcare systems, both aspects are usually required. In this paper, we work on the first scenario, where preserving privacy is key and, consequently, building a unique and massive medical image data set by fusing different data sets from different medical institutions or research centers (computation nodes) is not an option. We propose an ensemble federated learning (EFL) approach that is based on the following characteristics: First, each computation node works with a different data set (but of the same type). They work locally and apply an ensemble approach combining eight well-known CNN models (densenet169, mobilenetv2, xception, inceptionv3, vgg16, resnet50, densenet121, and resnet152v2) on Chest X-ray images. Second, the best two local models are used to create a local ensemble model that is shared with a central node. Third, the ensemble models are aggregated to obtain a global model, which is shared with the computation nodes to continue with a new iteration. This procedure continues until there are no changes in the best local models. We have performed different experiments to compare our approach with centralized ones (with or without an ensemble approach)\color{black}. The results conclude that our proposal outperforms these ones in Chest X-ray images (achieving an accuracy of 96.63\%) and offers very competitive results compared to other proposals in the literature.
翻訳日:2023-12-13 15:17:23 公開日:2023-12-12
# 深層内部学習: 1つの入力からの深層学習

Deep Internal Learning: Deep Learning from a Single Input ( http://arxiv.org/abs/2312.07425v1 )

ライセンス: Link先を確認
Tom Tirer, Raja Giryes, Se Young Chun, Yonina C. Eldar(参考訳) ディープラーニングは一般的に、大きなラベル付きデータセットからニューラルネットワークをトレーニングすることにフォーカスする。 しかし、多くの場合、目の前の入力からのみネットワークをトレーニングする価値があります。 これは、単一の入力を使用してネットワークをゼロからトレーニングすることや、すでにトレーニング済みのネットワークを推論時に提供された入力例に適応することを含む。 本研究の目的は,この2つの重要な方向に向けて,過去数年間に提案されてきた深層学習技術について報告することである。 主に画像処理問題に焦点をあてるが、我々の調査したアプローチのほとんどは一般的な信号(ノイズと区別できる繰り返しパターンを持つベクター)に対して導出されており、そのため他のモダリティにも適用できる。 内部学習のトピックは、トレーニングデータが不足し、多様性が大きい多くの信号処理や画像処理の問題において非常に重要であり、一方、活用可能なデータには多くの構造がある、と我々は信じている。

Deep learning in general focuses on training a neural network from large labeled datasets. Yet, in many cases there is value in training a network just from the input at hand. This may involve training a network from scratch using a single input or adapting an already trained network to a provided input example at inference time. This survey paper aims at covering deep internal-learning techniques that have been proposed in the past few years for these two important directions. While our main focus will be on image processing problems, most of the approaches that we survey are derived for general signals (vectors with recurring patterns that can be distinguished from noise) and are therefore applicable to other modalities. We believe that the topic of internal-learning is very important in many signal and image processing problems where training data is scarce and diversity is large on the one hand, and on the other, there is a lot of structure in the data that can be exploited.
翻訳日:2023-12-13 15:16:52 公開日:2023-12-12
# GPT-4V(ision)は分布シフトにどの程度適応するか? 予備調査

How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation ( http://arxiv.org/abs/2312.07424v1 )

ライセンス: Link先を確認
Zhongyi Han, Guanglin Zhou, Rundong He, Jindong Wang, Xing Xie, Tailin Wu, Yilong Yin, Salman Khan, Lina Yao, Tongliang Liu, Kun Zhang(参考訳) 機械学習では、特に気候モデリング、バイオメディシン、自動運転といった分野において、デプロイメント条件がトレーニングシナリオから逸脱する分散シフトに対する一般化が重要である。 基礎モデルの出現は、その広範な事前訓練とタスクの汎用性によって区別され、分布シフトへの適応性への関心が高まった。 GPT-4V(ision)は最も先進的な多モード基盤モデルとして機能し、異常検出、ビデオ理解、画像生成、医療診断など様々な分野に応用されている。 しかし、そのデータ分布に対する堅牢性は、ほとんど未調査のままである。 このギャップに対処するため、GPT-4Vの動的環境における適応性と一般化能力を評価し、CLIPやLLaVAといった著名なモデルと比較した。 GPT-4Vのゼロショット一般化は、自然領域、医学領域、分子領域にまたがる13の多様なデータセットにまたがる。 さらに、制御されたデータ摂動に対する適応性について検討し、適応性を高めるツールとして、文脈内学習の有効性を検討する。 本研究は, GPT-4Vの分散シフトにおける機能境界を明確化し, その強度と限界を様々なシナリオで明らかにした。 この調査は、AIファンデーションモデルが分散シフトにどのように一般化するかの理解に寄与し、適応性と堅牢性に関する重要な洞察を提供する。 コードはhttps://github.com/jameszhou-gl/gpt-4v-distribution-shiftで公開されている。

In machine learning, generalization against distribution shifts -- where deployment conditions diverge from the training scenarios -- is crucial, particularly in fields like climate modeling, biomedicine, and autonomous driving. The emergence of foundation models, distinguished by their extensive pretraining and task versatility, has led to an increased interest in their adaptability to distribution shifts. GPT-4V(ision) acts as the most advanced publicly accessible multimodal foundation model, with extensive applications across various domains, including anomaly detection, video understanding, image generation, and medical diagnosis. However, its robustness against data distributions remains largely underexplored. Addressing this gap, this study rigorously evaluates GPT-4V's adaptability and generalization capabilities in dynamic environments, benchmarking against prominent models like CLIP and LLaVA. We delve into GPT-4V's zero-shot generalization across 13 diverse datasets spanning natural, medical, and molecular domains. We further investigate its adaptability to controlled data perturbations and examine the efficacy of in-context learning as a tool to enhance its adaptation. Our findings delineate GPT-4V's capability boundaries in distribution shifts, shedding light on its strengths and limitations across various scenarios. Importantly, this investigation contributes to our understanding of how AI foundation models generalize to distribution shifts, offering pivotal insights into their adaptability and robustness. Code is publicly available at https://github.com/jameszhou-gl/gpt-4v-distribution-shift.
翻訳日:2023-12-13 15:16:36 公開日:2023-12-12
# holoported characters:sparse rgbカメラによる人間のリアルタイム自由視点レンダリング

Holoported Characters: Real-time Free-viewpoint Rendering of Humans from Sparse RGB Cameras ( http://arxiv.org/abs/2312.07423v1 )

ライセンス: Link先を確認
Ashwath Shetty, Marc Habermann, Guoxing Sun, Diogo Luvizon, Vladislav Golyanik, Christian Theobalt(参考訳) そこで本研究では,従来の4K解像度でのマルチビュー録画から表示に至るまで,人間俳優の映像をリアルタイムにレンダリングする手法について紹介する。 提案手法は,動作中のアクターの4つのカメラビューと,各3次元骨格ポーズのみを必要とする。 広い服装の役者を扱い、衣服のしわ、顔の表情、手のジェスチャーなど、細かなダイナミックな細部まで再現する。 トレーニング時には、学習ベースのアプローチでは、密集したマルチビュービデオと、アクタの静的な表面スキャンが期待できます。 本手法は3つの主要な段階からなる。 ステージ1は、詳細な動的メッシュ幾何学を高品質に捉えるためのスケルトン駆動のニューラルアプローチである。 ステージ2は、4つのテストタイムカメラビューを入力として、ビュー依存のテクスチャを作成するための新しいソリューションである。 最後に、ステージ3は、前段から出力された最後の4k画像をレンダリングする新しい画像ベースリファインメントネットワークを備える。 提案手法は,スパースカメラビューを用いたリアルタイムレンダリングの解像度と品質の新たなベンチマークを確立し,没入型テレプレゼンスを実現する。

We present the first approach to render highly realistic free-viewpoint videos of a human actor in general apparel, from sparse multi-view recording to display, in real-time at an unprecedented 4K resolution. At inference, our method only requires four camera views of the moving actor and the respective 3D skeletal pose. It handles actors in wide clothing, and reproduces even fine-scale dynamic detail, e.g. clothing wrinkles, face expressions, and hand gestures. At training time, our learning-based approach expects dense multi-view video and a rigged static surface scan of the actor. Our method comprises three main stages. Stage 1 is a skeleton-driven neural approach for high-quality capture of the detailed dynamic mesh geometry. Stage 2 is a novel solution to create a view-dependent texture using four test-time camera views as input. Finally, stage 3 comprises a new image-based refinement network rendering the final 4K image given the output from the previous stages. Our approach establishes a new benchmark for real-time rendering resolution and quality using sparse input camera views, unlocking possibilities for immersive telepresence.
翻訳日:2023-12-13 15:16:10 公開日:2023-12-12
# FairSISA:LLMにおける未学習の公平性を改善するためのポストプロセシング

FairSISA: Ensemble Post-Processing to Improve Fairness of Unlearning in LLMs ( http://arxiv.org/abs/2312.07420v1 )

ライセンス: Link先を確認
Swanand Ravindra Kadhe, Anisa Halimi, Ambrish Rawat, Nathalie Baracaldo(参考訳) 大規模言語モデル(LLM)の訓練は、時間と計算資源の面で費用がかかる作業である。 教師なし事前トレーニングフェーズで使用される大量のトレーニングデータは、すべてのデータの検証が困難であり、残念なことに、トレーニング中に望ましくないデータが取り込まれる可能性がある。 スクラッチからのリトレーニングは現実的ではなく、モデルがリトレーニングなしで望ましくない情報を"未学習"するように修正される"アンラーニング"の規律が生み出された。 しかしながら、どんな修正でも、特に公平性のような重要な次元において、LLMの振る舞いを変えることができる。 これは、LLMの未学習と公平性の間のこの相互作用を調べる最初の研究である。 特に、disjoint shardsでトレーニングされたモデルのアンサンブルを作成するsisa(bourtoule et al., 2021)として知られる一般的なアンラーニングフレームワークにフォーカスしています。 我々は,SISAの性能・公正トレードオフを評価し,SISAがLLMの公平性を実際に低減できることを示す。 そこで本研究では,SISA によるアンサンブルモデルの処理後バイアス軽減手法を提案する。 我々は,モデルアンサンブルを扱える3つの手法を設計するために,[Hardt et al., 2016] の処理後フェアネス改善手法を適用し,その1つがモデルのアンサンブルに最適なフェア予測器であることを証明した。 実験の結果,'fairsisa' と呼ばれるポストプロセッシングフレームワークの有効性を実証した。

Training large language models (LLMs) is a costly endeavour in terms of time and computational resources. The large amount of training data used during the unsupervised pre-training phase makes it difficult to verify all data and, unfortunately, undesirable data may be ingested during training. Re-training from scratch is impractical and has led to the creation of the 'unlearning' discipline where models are modified to "unlearn" undesirable information without retraining. However, any modification can alter the behaviour of LLMs, especially on key dimensions such as fairness. This is the first work that examines this interplay between unlearning and fairness for LLMs. In particular, we focus on a popular unlearning framework known as SISA [Bourtoule et al., 2021], which creates an ensemble of models trained on disjoint shards. We evaluate the performance-fairness trade-off for SISA, and empirically demsontrate that SISA can indeed reduce fairness in LLMs. To remedy this, we propose post-processing bias mitigation techniques for ensemble models produced by SISA. We adapt the post-processing fairness improvement technique from [Hardt et al., 2016] to design three methods that can handle model ensembles, and prove that one of the methods is an optimal fair predictor for ensemble of models. Through experimental results, we demonstrate the efficacy of our post-processing framework called 'FairSISA'.
翻訳日:2023-12-13 15:15:49 公開日:2023-12-12
# k-Nearest-Neighbor機械翻訳の高速化に向けて

Towards Faster k-Nearest-Neighbor Machine Translation ( http://arxiv.org/abs/2312.07419v1 )

ライセンス: Link先を確認
Xiangyu Shi, Yunlong Liang, Jinan Xu, Yufeng Chen(参考訳) 近年の研究では、k-nearest-neighbor 機械翻訳(kNN-MT)アプローチの有効性が証明されている。 しかし、これらのモデルは、各トークンをデコードする際に、データストア全体の検索オーバーヘッドに苦しむ。 復号段階では,コーパスデータストアを検索した時点で約67%~84%のトークンが無害であり,ほとんどのトークンが無駄な検索を引き起こし,k-nearest-neighbor検索を開始することで不要な計算コストが生じる。 我々は,この現象を言語学において説明可能であると考え,トークンがニューラルマシン翻訳モデルとkNNによって生成される確率,あるいはニューラルモデルのみで生成される確率によって共同で翻訳されるべきかどうかを予測する,単純かつ効果的な多層パーセプトロン(MLP)ネットワークを提案する。 その結果,提案手法は冗長検索処理の削減に成功し,翻訳品質の低下を犠牲にして,kn検索のオーバーヘッドを最大53%削減することができた。 さらに,本手法は既存のkNN-MTシステムと併用可能である。

Recent works have proven the effectiveness of k-nearest-neighbor machine translation(a.k.a kNN-MT) approaches to produce remarkable improvement in cross-domain translations. However, these models suffer from heavy retrieve overhead on the entire datastore when decoding each token. We observe that during the decoding phase, about 67% to 84% of tokens are unvaried after searching over the corpus datastore, which means most of the tokens cause futile retrievals and introduce unnecessary computational costs by initiating k-nearest-neighbor searches. We consider this phenomenon is explainable in linguistics and propose a simple yet effective multi-layer perceptron (MLP) network to predict whether a token should be translated jointly by the neural machine translation model and probabilities produced by the kNN or just by the neural model. The results show that our method succeeds in reducing redundant retrieval operations and significantly reduces the overhead of kNN retrievals by up to 53% at the expense of a slight decline in translation quality. Moreover, our method could work together with all existing kNN-MT systems.
翻訳日:2023-12-13 15:15:21 公開日:2023-12-12
# ネパールにおけるビデオキャプションのためのアテンションベースエンコーダデコーダモデル(2023年)

Attention Based Encoder Decoder Model for Video Captioning in Nepali (2023) ( http://arxiv.org/abs/2312.07418v1 )

ライセンス: Link先を確認
Kabita Parajuli, Shashidhar Ram Joshi(参考訳) デバナガリ文字で書かれた言語であるネパール語でのビデオキャプションは、この領域に既存の学術研究が欠如していることから、独特な挑戦である。 本研究は,ネパール語ビデオキャプションのためのエンコーダ-デコーダパラダイムを開発し,この問題に対処する。 LSTMおよびGRUシーケンス・ツー・シーケンスモデルを用いて、CNNを用いてビデオフレームから検索した特徴に基づいて関連するテキスト記述を生成する。 Google Translateと手動のポスト編集を使用して、Google Translateを使用して作成したMicrosoft Research Video Description Corpus(MSVD)データセットと手動のポスト編集作業から、ネパールのビデオキャプションデータセットを生成する。 このモデルの有効性をbleu, metor, rouge計を用いて検証し, 評価を行った。

Video captioning in Nepali, a language written in the Devanagari script, presents a unique challenge due to the lack of existing academic work in this domain. This work develops a novel encoder-decoder paradigm for Nepali video captioning to tackle this difficulty. LSTM and GRU sequence-to-sequence models are used in the model to produce related textual descriptions based on features retrieved from video frames using CNNs. Using Google Translate and manual post-editing, a Nepali video captioning dataset is generated from the Microsoft Research Video Description Corpus (MSVD) dataset created using Google Translate, and manual post-editing work. The efficacy of the model for Devanagari-scripted video captioning is demonstrated by BLEU, METOR, and ROUGE measures, which are used to assess its performance.
翻訳日:2023-12-13 15:15:00 公開日:2023-12-12
# QSMVM:MANET上のビデオストリーミングサービスのためのQoS対応およびソーシャル対応マルチメトリックルーティングプロトコル

QSMVM: QoS-aware and social-aware multimetric routing protocol for video-streaming services over MANETs ( http://arxiv.org/abs/2312.07414v1 )

ライセンス: Link先を確認
Efra\'in Palacios Jara and Ahmad Mohamad Mezhe and M\'onica Aguilar Igartua and Rebeca P. D\'iaz Redondo and Ana Fern\'andez Vilas(参考訳) モバイルアドホックネットワーク(mobile ad hoc network, manet)は、無線リンクで接続される一連の自律的なモバイルデバイスであり、固定されたインフラストラクチャを持たない。 MANET上のビデオストリーミングのようなリアルタイムマルチメディアサービスは、MANETを介して送信されたビデオを共有したい観光客のグループのメンバーの2人、ユーザーが映画を視聴するMANET上に配信されるビデオストリーミングサービスなど、非常に有望なアプリケーションを提供している。 一方、人々がソーシャルネットワークを通じてオンラインで積極的に交流するソーシャルウェブ技術は、ネットワークのソーシャル化に繋がっている。 ユーザ間のインタラクション情報は、社会的に強化されたソフトウェアを提供するために利用されています。 これを達成するためには、特定のユーザと相互作用する各ユーザとの関係の強さを知る必要があります。 この関係の強さは、1973年にmark granovetterによって初めて導入されたtie strength(ts)という概念によって測定することができる。 本稿では,マルチパス・マルチメディア・ダイナミック・ソース・ルーティング (MMDSR) プロトコルという従来の提案を,フォワードアルゴリズムによる決定にソーシャル・メトリック・TSを含むように修正する。 サービス品質(QoS)と,MANETの転送パスを形成するユーザ間の信頼レベルとの間には,トレードオフがある。 我々の目標は、QoSが大きな影響を受けていない間、信頼度を上げることです。

A mobile ad hoc network (MANET) is a set of autonomous mobile devices connected by wireless links in a distributed manner and without a fixed infrastructure. Real-time multimedia services, such as video-streaming over MANETs, offers very promising applications, e.g. two members of a group of tourists who want to share a video transmitted through the MANET they form; a video-streaming service deployed over a MANET where users watch a film; among other examples. On the other hand, social web technologies, where people actively interact online with others through social networks, are leading to a socialization of networks. Information of interaction among users is being used to provide socially-enhanced software. To achieve this, we need to know the strength of the relationship between a given user and each user they interact with. This strength of the relationship can be measured through a concept called tie strength (TS), first introduced by Mark Granovetter in 1973. In this article, we modify our previous proposal named multipath multimedia dynamic source routing (MMDSR) protocol to include a social metric TS in the decisions taken by the forwarding algorithm. We find a trade-off between the quality of service (QoS) and the trust level between users who form the forwarding path in the MANET. Our goal is to increase the trust metric while the QoS is not affected significantly.
翻訳日:2023-12-13 15:14:43 公開日:2023-12-12
# aiの能力は、高価なリトレーニングなしで大幅に改善できる

AI capabilities can be significantly improved without expensive retraining ( http://arxiv.org/abs/2312.07413v1 )

ライセンス: Link先を確認
Tom Davidson, Jean-Stanislas Denain, Pablo Villalobos, Guillem Bas(参考訳) 最新のaiシステムは、webブラウザを使用するようにシステムを微調整するなど、初期トレーニング後に適用される"post-training enhancements"技術によって、高価な再トレーニングをすることなく、大幅に改善することができる。 最近のトレーニング後の機能強化をレビューし、ツール利用、プロンプトメソッド、足場、ソリューション選択、データ生成の5つのタイプに分類した。 異なる拡張により、異なるタスクのパフォーマンスが改善され、その重要性を比較することが困難になる。 そこで私たちは、さまざまな機能強化による改善を共通の通貨、計算等価のゲインに変換する: 強化と同額のパフォーマンスを改善するために、どれだけのトレーニング計算が必要か。 ほとんどの調査対象の拡張機能は、トレーニング計算の5倍以上の向上と、20倍以上の速度向上を実現しています。 訓練後の強化は比較的安価で、微調整コストは通常、当初のトレーニングコストの1%以下である。 幅広いアクターによってフロンティアモデルを拡張できるため、有能なポストトレーニング強化の開発を監督することは困難である。

State-of-the-art AI systems can be significantly improved without expensive retraining via "post-training enhancements"-techniques applied after initial training like fine-tuning the system to use a web browser. We review recent post-training enhancements, categorizing them into five types: tool-use, prompting methods, scaffolding, solution selection, and data generation. Different enhancements improve performance on different tasks, making it hard to compare their significance. So we translate improvements from different enhancements into a common currency, the compute-equivalent gain: how much additional training compute would be needed to improve performance by the same amount as the enhancement. Our non-experimental work shows that post-training enhancements have significant benefits: most surveyed enhancements improve benchmark performance by more than a 5x increase in training compute, some by more than 20x. Post-training enhancements are relatively cheap to develop: fine-tuning costs are typically <1% of the original training cost. Governing the development of capable post-training enhancements may be challenging because frontier models could be enhanced by a wide range of actors.
翻訳日:2023-12-13 15:14:19 公開日:2023-12-12
# diffmorpher: 画像モーフィングのための拡散モデルの能力を解き放つ

DiffMorpher: Unleashing the Capability of Diffusion Models for Image Morphing ( http://arxiv.org/abs/2312.07409v1 )

ライセンス: Link先を確認
Kaiwen Zhang, Yifan Zhou, Xudong Xu, Xingang Pan, Bo Dai(参考訳) 拡散モデルは、以前の生成モデルよりも優れた画像生成品質を達成した。 しかし、GANと比較して拡散モデルの顕著な制限は、2つの画像サンプル間のスムーズな補間が困難である。 このようなスムーズな補間は、多くのアプリケーションで画像モーフィングタスクのソリューションとして自然に機能するため、興味深い。 本研究では,拡散モデルを用いたスムーズで自然な画像補間を可能にするDiffMorpherを提案する。 我々のキーとなる考え方は、2つのLoRAをそれぞれ組み合わせて2つの画像の意味を捉え、LoRAパラメータと潜時ノイズを相互に補間することで、スムーズな意味遷移を確実にし、アノテーションを必要とせずに自動的に対応が現れるようにすることである。 また,連続画像間の平滑性をさらに高めるため,注意補間・注入法と新しいサンプリングスケジュールを提案する。 広範囲な実験により、DiffMorpherは、様々な対象カテゴリにわたる従来の方法よりもはるかに優れた画像変形効果を達成し、GANから拡散モデルを区別する重要な機能的ギャップを埋めることを示した。

Diffusion models have achieved remarkable image generation quality surpassing previous generative models. However, a notable limitation of diffusion models, in comparison to GANs, is their difficulty in smoothly interpolating between two image samples, due to their highly unstructured latent space. Such a smooth interpolation is intriguing as it naturally serves as a solution for the image morphing task with many applications. In this work, we present DiffMorpher, the first approach enabling smooth and natural image interpolation using diffusion models. Our key idea is to capture the semantics of the two images by fitting two LoRAs to them respectively, and interpolate between both the LoRA parameters and the latent noises to ensure a smooth semantic transition, where correspondence automatically emerges without the need for annotation. In addition, we propose an attention interpolation and injection technique and a new sampling schedule to further enhance the smoothness between consecutive images. Extensive experiments demonstrate that DiffMorpher achieves starkly better image morphing effects than previous methods across a variety of object categories, bridging a critical functional gap that distinguished diffusion models from GANs.
翻訳日:2023-12-13 15:14:01 公開日:2023-12-12
# turbo: 視覚言語モデルのためのインフォマティクス駆動アクセラレーションプラグイン

Turbo: Informativity-Driven Acceleration Plug-In for Vision-Language Models ( http://arxiv.org/abs/2312.07408v1 )

ライセンス: Link先を確認
Chen Ju, Haicheng Wang, Zeqian Li, Xu Chen, Zhonghua Zhai, Weilin Huang, Shuai Xiao(参考訳) VLM(Vision-Language Large Models)は、AIの主要なバックボーンとなっている。 しかし、彼らの高価な計算コスト、すなわちスループットと遅延は、現実世界のシナリオにおけるポテンシャルを妨げる。 VLMの加速を達成するために、既存の手法はプルーニング、蒸留、定量化といったモデルの観点から焦点を当てているが、データパースペクティブの冗長性は完全に見落としている。 本論文は,データ冗長性の深刻さを補うために,情報次数で案内されるプラグアンドプレイのTurboモジュールを設計し,視覚的・テキスト的データから非効率なトークンを抽出する。 効率性能トレードオフの追求において、情報度は相互冗長性と意味値の2つの重要な要素を考慮に入れている。 具体的には、前者はシーケンシャルトークン間のデータの重複を評価し、後者は全体的なセマンティクスへの貢献によって各トークンを評価する。 その結果、情報度の高いトークンは冗長性が低く、セマンティクスが強くなる。 VLMの計算では、Turboはユーザフレンドリーなプラグインとして機能し、情報度を参照するデータをソートする。 その利点は多面的であり、例えば、理解と生成にまたがる様々なVLMと概して互換性があり、再訓練なしに単純な使用が可能であり、自明なエンジニアリング努力である。 複数のvlmsベンチマークにおいて,性能低下下でターボの満足度を高めるための広範囲な実験を行った。

Vision-Language Large Models (VLMs) have become primary backbone of AI, due to the impressive performance. However, their expensive computation costs, i.e., throughput and delay, impede potentials in real-world scenarios. To achieve acceleration for VLMs, most existing methods focus on the model perspective: pruning, distillation, quantification, but completely overlook the data-perspective redundancy. To fill the overlook, this paper pioneers the severity of data redundancy, and designs one plug-and-play Turbo module guided by information degree to prune inefficient tokens from visual or textual data. In pursuit of efficiency-performance trade-offs, information degree takes two key factors into consideration: mutual redundancy and semantic value. Concretely, the former evaluates the data duplication between sequential tokens; while the latter evaluates each token by its contribution to the overall semantics. As a result, tokens with high information degree carry less redundancy and stronger semantics. For VLMs' calculation, Turbo works as a user-friendly plug-in that sorts data referring to information degree, utilizing only top-level ones to save costs. Its advantages are multifaceted, e.g., being generally compatible to various VLMs across understanding and generation, simple use without retraining and trivial engineering efforts. On multiple public VLMs benchmarks, we conduct extensive experiments to reveal the gratifying acceleration of Turbo, under negligible performance drop.
翻訳日:2023-12-13 15:13:39 公開日:2023-12-12
# フィードバック制御下における量子熱力学的不確かさ関係

Quantum thermodynamic uncertainty relation under feedback control ( http://arxiv.org/abs/2312.07407v1 )

ライセンス: Link先を確認
Yoshihiko Hasegawa(参考訳) 熱力学的不確実性関係は、より高い熱力学的コストがより高い精度で機能するシステムに不可欠であることを示している。 近年の議論は、古典的な非平衡系を超えて熱力学的不確実性関係を拡張し、量子特性をどのように利用して精度を向上するかを研究している。 このレターでは、量子システムを操作するための制御技術である量子フィードバックが、いかに精度を高めるかを検討する。 具体的には、ジャンプ数をスケールしたばらつきに対して下限を与えるジャンプ測定時のフィードバック制御に対する量子熱力学的不確実性関係を導出する。 その結果,フィードバック制御の存在は連続計測システムの精度を増加させ,数値シミュレーションにより検証できることがわかった。 さらに,ホモダイン検出下でのフィードバック制御に対する量子熱力学的不確かさ関係を導出する。

The thermodynamic uncertainty relation posits that higher thermodynamic costs are essential for a system to function with greater precision. Recent discussions have expanded thermodynamic uncertainty relations beyond classical non-equilibrium systems, investigating how quantum characteristics can be utilized to improve precision. In this Letter, we explore how quantum feedback, a control technique used to manipulate quantum systems, can enhance the precision. Specifically, we derive a quantum thermodynamic uncertainty relation for feedback control under jump measurement, which provides the lower bound to the scaled variance of the number of jumps. We find that the presence of feedback control can increase the accuracy of continuous measured systems, which is verified with numerical simulations. Moreover, we derive a quantum thermodynamic uncertainty relation for feedback control under homodyne detection.
翻訳日:2023-12-13 15:13:12 公開日:2023-12-12
# ICLマークアップ: ソフトトークンタグを用いたコンテキスト内学習の構造化

ICL Markup: Structuring In-Context Learning using Soft-Token Tags ( http://arxiv.org/abs/2312.07405v1 )

ライセンス: Link先を確認
Marc-Etienne Brunet, Ashton Anderson, Richard Zemel(参考訳) 大規模事前学習型言語モデル(LLM)は、テキストからテキストへのアプローチによって、自然言語のモデルに命令と入力を供給し、幅広いタスクに迅速に適応することができる。 インコンテキスト学習(ICL)と組み合わせて、このパラダイムは驚くほど柔軟で強力です。 しかし、ユーザーが選択する選択肢は圧倒的に多く、その多くが任意だ。 HTMLのようなマークアップ言語にインスパイアされた我々は、プロンプトテンプレートを構成するためにソフトトークンタグを使用する方法に貢献する。 このアプローチは任意の決定を減らし、ICLの応用を合理化する。 提案手法はICLのメタラーニングの一種であり,パラメータ効率の良い「ウォームアップ」プロセス中に事前にこれらのタグを学習する。 タグはその後、追加の微調整なしで、新しい未処理タスクでiclのテンプレートとして使用できる。 提案手法による実験により,先進的な初歩的な成果が得られ,少数ショットやオープンワールドな意図検出などの重要なエンタープライズアプリケーション上でのLCM性能が向上し,ニュースや法律領域におけるテキストの分類が可能となった。

Large pretrained language models (LLMs) can be rapidly adapted to a wide variety of tasks via a text-to-text approach, where the instruction and input are fed to the model in natural language. Combined with in-context learning (ICL), this paradigm is impressively flexible and powerful. However, it also burdens users with an overwhelming number of choices, many of them arbitrary. Inspired by markup languages like HTML, we contribute a method of using soft-token tags to compose prompt templates. This approach reduces arbitrary decisions and streamlines the application of ICL. Our method is a form of meta-learning for ICL; it learns these tags in advance during a parameter-efficient fine-tuning ``warm-up'' process. The tags can subsequently be used in templates for ICL on new, unseen tasks without any additional fine-tuning. Our experiments with this approach yield promising initial results, improving LLM performance on important enterprise applications such as few-shot and open-world intent detection, as well as text classification in news and legal domains.
翻訳日:2023-12-13 15:12:59 公開日:2023-12-12
# 大規模言語モデルアライメントの多様な選好について

On Diverse Preferences for Large Language Model Alignment ( http://arxiv.org/abs/2312.07401v1 )

ライセンス: Link先を確認
Dun Zeng, Yong Dai, Pengyu Cheng, Tianhao Hu, Wanshun Chen, Nan Du, Zenglin Xu(参考訳) 大規模言語モデル(llm)と人間の価値観の整合は、人工知能(agi)の開発に不可欠である。 このアライメントを達成するための1つの有望なアプローチは、人間のフィードバックからの強化学習であり、人間の嗜好データセットから学んだ報酬モデル(RM)を用いて、人間の嗜好に沿ったテキストを生成する。 本稿では,報酬分布の集中的な実験と分析を通じて,選好データセットの多様性について考察する。 したがって、多様な人間の嗜好データセットを混ぜてデータサイズを増やし、報酬モデリングを強化することは失敗する可能性がある。 この問題に対処し、多様な選好から共有された人間価値を捉えるために、多様な選好にまたがる選好目標を適応的に調整することにより、選好バイアスを最小化する more と呼ばれる新しいトレーニングポリシーが導入された。 Pythia-1.4Bモデルと5つの混合嗜好データセットによる実験により、MOREはより優れた報奨精度と低いキャリブレーション誤差を達成し、多様な人の嗜好データを活用する能力を強調している。

The alignment of large language models (LLMs) with human values is crucial for the development of artificial general intelligence (AGI). One promising approach to achieve this alignment is reinforcement learning from human feedback, which employs a reward model (RM) learned from human preference datasets to guide LLMs in generating text that aligns with human preferences. Through intensive experiments and analysis of reward distribution, this paper finds that preference datasets are diverse from each other, even though they are all proposed to align human preference. Hence, mixing diverse human preference datasets to increase data size for enhancing reward modeling could fail. To address the issue and capture the shared human values from diverse preferences, a new training policy called MORE is introduced, which minimizes preference bias by adaptively adjusting the preference objective across diverse preferences. Experiments with the Pythia-1.4B model and five mixed preference datasets show that MORE achieves superior reward accuracy and lower calibration error, highlighting its ability to leverage diverse human preference data.
翻訳日:2023-12-13 15:12:39 公開日:2023-12-12
# 摂動多変量一般化ガウス分布の凸パラメータ推定

Convex Parameter Estimation of Perturbed Multivariate Generalized Gaussian Distributions ( http://arxiv.org/abs/2312.07479v1 )

ライセンス: Link先を確認
Nora Ouzir and Fr\'ed\'eric Pascal and Jean-Christophe Pesquet(参考訳) 多変量一般化ガウス分布(英: multivariate generalized Gaussian distribution、MGGD)は、信号処理や画像処理において広く用いられる。 しかしながら、実用上必要となるmggdパラメータの推定は、特定の理論上の課題に直面している。 特に、分布平均と散乱行列(または精度)が不明な場合の標準固定点法における収束特性の確立は、まだ未解決の問題である。 ロバストな推定では、sparsityのような精度行列に古典的な制約を課すことは、結果として得られるコスト関数の非凸性によって制限されている。 本稿では, 収束特性の確立した凸定式化を提案することにより, 最適化の観点からこれらの問題に取り組む。 乗法摂動をモデル化することでロバスト性が引き起こされる雑音のシナリオに解析を組み込む。 結果として得られるフレームワークは、精度行列、平均およびモデルの摂動に対する様々な正規化を組み合わせることで柔軟になる。 本稿では、所望の理論的性質の証明、各正則化選択のためにこれらの性質を保った条件の特定、および一般近位原始双対最適化戦略を設計する。 実験では,tylerのm推定器と比較して,平均ベクトルパラメータに類似する精度と共分散行列の推定精度を示した。 高次元設定では、提案手法は、その頑健な拡張の一つである古典的なGLASSOと、正規化されたタイラー推定器よりも優れる。

The multivariate generalized Gaussian distribution (MGGD), also known as the multivariate exponential power (MEP) distribution, is widely used in signal and image processing. However, estimating MGGD parameters, which is required in practical applications, still faces specific theoretical challenges. In particular, establishing convergence properties for the standard fixed-point approach when both the distribution mean and the scatter (or the precision) matrix are unknown is still an open problem. In robust estimation, imposing classical constraints on the precision matrix, such as sparsity, has been limited by the non-convexity of the resulting cost function. This paper tackles these issues from an optimization viewpoint by proposing a convex formulation with well-established convergence properties. We embed our analysis in a noisy scenario where robustness is induced by modelling multiplicative perturbations. The resulting framework is flexible as it combines a variety of regularizations for the precision matrix, the mean and model perturbations. This paper presents proof of the desired theoretical properties, specifies the conditions preserving these properties for different regularization choices and designs a general proximal primal-dual optimization strategy. The experiments show a more accurate precision and covariance matrix estimation with similar performance for the mean vector parameter compared to Tyler's M-estimator. In a high-dimensional setting, the proposed method outperforms the classical GLASSO, one of its robust extensions, and the regularized Tyler's estimator.
翻訳日:2023-12-13 15:04:44 公開日:2023-12-12
# 二重フローganモデルによる脳活動からの知覚的顔の再構成

Double-Flow GAN model for the reconstruction of perceived faces from brain activities ( http://arxiv.org/abs/2312.07478v1 )

ライセンス: Link先を確認
Zihao Wang, Jing Zhao and Hui Zhang(参考訳) 顔は人間の視覚知覚において重要な役割を担っており、脳活動からの知覚された顔の再構築は、高レベルの特徴の抽出が困難であり、表情、アイデンティティ、性別などの複数の顔属性の一貫性を維持するため困難である。 本研究では, 判別器の能力を向上し, 生成器に難易度の高い特定領域の画像の不均衡を解消する, 二重フローGANと呼ばれる新しい再構成フレームワークを提案する。 また,画像から抽出した特徴を条件として,fmriから条件的再構成モデルの事前学習を可能にするプリトレーニングプロセスも設計した。 さらに,fmriアライメントを行うための簡易事前学習モデルを開発し,各被験者の脳構造の変化によるクロスサブジェクト・リコンストラクションの問題を軽減した。 提案手法と最新の復元モデルを用いて実験を行った。 以上の結果から,本手法は優れた復元性能を示し,従来の復元モデルよりも優れ,良好な生成能を示した。

Face plays an important role in human's visual perception, and reconstructing perceived faces from brain activities is challenging because of its difficulty in extracting high-level features and maintaining consistency of multiple face attributes, such as expression, identity, gender, etc. In this study, we proposed a novel reconstruction framework, which we called Double-Flow GAN, that can enhance the capability of discriminator and handle imbalances in images from certain domains that are too easy for generators. We also designed a pretraining process that uses features extracted from images as conditions for making it possible to pretrain the conditional reconstruction model from fMRI in a larger pure image dataset. Moreover, we developed a simple pretrained model to perform fMRI alignment to alleviate the problem of cross-subject reconstruction due to the variations of brain structure among different subjects. We conducted experiments by using our proposed method and state-of-the-art reconstruction models. Our results demonstrated that our method showed significant reconstruction performance, outperformed the previous reconstruction models, and exhibited a good generation ability.
翻訳日:2023-12-13 15:04:17 公開日:2023-12-12
# 位置依存質量キャリアを持つ円筒型量子ヘテロ構造の3次元境界状態

Three-dimensional bound states of cylindrical quantum heterostructures with position-dependent mass carriers ( http://arxiv.org/abs/2312.07477v1 )

ライセンス: Link先を確認
H. R. Christiansen and R. M. Lima(参考訳) 本稿では,5つの異なる速度操作順序に対する位置依存質量を持つ有効電子キャリアを考慮し,円柱型量子ヘテロ構造の包括的スペクトル解析を行う。 三次元円筒形ナノワイヤ内の粒子の有界エネルギー固有状態は、半径方向と軸方向の開および閉境界条件の両方の閉双曲ポテンシャルの下で得られる。 本モデルでは, 種々の物質を接続する量子ドット内を移動しながら, 障壁に急激な質量不連続性を有する連続的な質量分布を持つキャリアを考察する。 外部層との界面における質量とポテンシャルの連続性は、特定の場合として生じる。 我々のアプローチは分析的であり、von roos順序付けクラスを正確に比較できる。

We present a comprehensive spectral analysis of cylindrical quantum heterostructures by considering effective electronic carriers with position-dependent mass for five different kinetic-operator orderings. We obtain the bound energy eigenstates of particles in a three-dimensional cylindrical nanowire under a confining hyperbolic potential with both open and closed boundary conditions in the radial and the axial directions. In the present model we consider carriers with continuous mass distributions within the dot with abrupt mass discontinuities at the barriers, moving in a quantum dot that connects different substances. Continuity of mass and potential at the interfaces with the external layers result as a particular case. Our approach is mostly analytical and allows a precise comparison among von Roos ordering classes.
翻訳日:2023-12-13 15:04:00 公開日:2023-12-12
# 文脈学習において比較可能な演目は重要である:演目選択の新しい視点

Comparable Demonstrations are Important in In-Context Learning: A Novel Perspective on Demonstration Selection ( http://arxiv.org/abs/2312.07476v1 )

ライセンス: Link先を確認
Caoyun Fan, Jidong Tian, Yitian Li, Hao He, Yaohui Jin(参考訳) In-Context Learning(ICL)は、大規模言語モデル(LLM)をダウンストリームタスクに適用するための重要なパラダイムである。 ICLの大きな成功にもかかわらず、デモ番号の制限は、デモバイアス、すなわちLSMによって誘導される入力ラベルマッピングがタスクの本質を誤解する可能性がある。 人的経験から着想を得た我々は,実証間関係の観点から,そのようなバイアスを緩和しようと試みる。 具体的には、テキストを最小限に編集して対応するラベルを反転させることで、タスクの本質を強調し、デモ間比較によって潜在的に刺激的な相関を排除し、比較可能なデモ(CD)を構築する。 一連の実験により,(1)LCMにはデモバイアスが存在し,(2)CDはICL,特にアウト・オブ・ディストリビューションのシナリオにおいて優れた性能を示す。 要約すると,本研究では新しい視点からicl機構を探索し,iclのデモンストレーション選択戦略について深い洞察を与える。

In-Context Learning (ICL) is an important paradigm for adapting Large Language Models (LLMs) to downstream tasks through a few demonstrations. Despite the great success of ICL, the limitation of the demonstration number may lead to demonstration bias, i.e. the input-label mapping induced by LLMs misunderstands the task's essence. Inspired by human experience, we attempt to mitigate such bias through the perspective of the inter-demonstration relationship. Specifically, we construct Comparable Demonstrations (CDs) by minimally editing the texts to flip the corresponding labels, in order to highlight the task's essence and eliminate potential spurious correlations through the inter-demonstration comparison. Through a series of experiments on CDs, we find that (1) demonstration bias does exist in LLMs, and CDs can significantly reduce such bias; (2) CDs exhibit good performance in ICL, especially in out-of-distribution scenarios. In summary, this study explores the ICL mechanisms from a novel perspective, providing a deeper insight into the demonstration selection strategy for ICL.
翻訳日:2023-12-13 15:03:49 公開日:2023-12-12
# MP5: アクティブ・パーセプションによるMinecraftのマルチモーダルなオープンエンド・エボダイドシステム

MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception ( http://arxiv.org/abs/2312.07472v1 )

ライセンス: Link先を確認
Yiran Qin, Enshen Zhou, Qichang Liu, Zhenfei Yin, Lu Sheng, Ruimao Zhang, Yu Qiao, Jing Shao(参考訳) 人間のような方法で、長期のオープンワールドタスクを解決できるエンボディシステムを設計することは、長年の目標である。 しかし、既存のアプローチは通常、これらのタスクの論理的分解と文脈的実行によって引き起こされる複雑な困難に悩まされる。 この目的のために我々は,課題のあるMinecraftシミュレータ上に構築されたオープンエンドマルチモーダル・エンボディドシステムMP5を紹介した。これは,実現可能なサブオブジェクトを分解し,高度な状況認識計画を作成し,目標条件付き能動認識スキームとの頻繁な通信により実施する。 具体的には、MP5はMLLM(Multimodal Large Language Models)の最近の進歩の上に開発されており、システムはスケジュールや協調が可能な機能モジュールに変調され、最終的に定義済みのコンテキスト依存タスクとプロセス依存タスクを解決する。 大規模な実験により、MP5は困難なプロセス依存タスクで22%の成功率、コンテキストに大きく依存するタスクで91%の成功率を達成した。 さらに、MP5は、全く新しい多くのオープンエンドタスクに対処する驚くべき能力を示す。

It is a long-lasting goal to design an embodied system that can solve long-horizon open-world tasks in human-like ways. However, existing approaches usually struggle with compound difficulties caused by the logic-aware decomposition and context-aware execution of these tasks. To this end, we introduce MP5, an open-ended multimodal embodied system built upon the challenging Minecraft simulator, which can decompose feasible sub-objectives, design sophisticated situation-aware plans, and perform embodied action control, with frequent communication with a goal-conditioned active perception scheme. Specifically, MP5 is developed on top of recent advances in Multimodal Large Language Models (MLLMs), and the system is modulated into functional modules that can be scheduled and collaborated to ultimately solve pre-defined context- and process-dependent tasks. Extensive experiments prove that MP5 can achieve a 22% success rate on difficult process-dependent tasks and a 91% success rate on tasks that heavily depend on the context. Moreover, MP5 exhibits a remarkable ability to address many open-ended tasks that are entirely novel.
翻訳日:2023-12-13 15:03:30 公開日:2023-12-12
# スパイクニューラルネットワークを用いた自律運転における効率的な物体検出:性能、エネルギー消費分析、オープンセット物体発見への洞察

Efficient Object Detection in Autonomous Driving using Spiking Neural Networks: Performance, Energy Consumption Analysis, and Insights into Open-set Object Discovery ( http://arxiv.org/abs/2312.07466v1 )

ライセンス: Link先を確認
Aitor Martinez Seras, Javier Del Ser, Pablo Garcia-Bringas(参考訳) 性能の他に、効率性は車両の知覚をサポートする技術の主要な設計要因である。 実際、性能とエネルギー消費のバランスのとれたトレードオフは、自動運転車の持続可能性に不可欠である。 この文脈では、自動運転車が操作できる現実世界のコンテキストの多様性は、新たに現れた物体を自分で検出、特徴付け、識別する能力を持つ知覚モデルに力を与える必要性を動機付ける。 本稿では,車載シナリオから収集した画像データ上でのオブジェクト検出モデリングタスクに対する,この3倍のコンダンラム(性能,効率,オープンワールド学習)について詳述する。 具体的には,スピーキングニューラルネットワーク(snn)により,良好なパフォーマンスと効率のよいモデルを実現すること,劇的なエネルギー消費削減(最大85%)や画像雑音に対するロバスト性がわずかに向上した非スピーキングモデルと比較して,検出性能の競争力レベルに達すること,などが示されている。 また,本実験では,撮像画像中の潜在的オブジェクト提案を識別するための簡単なアプローチの予備的な結果に基づいて,新しいオブジェクトを検出する複雑さを定性的に明らかにした。

Besides performance, efficiency is a key design driver of technologies supporting vehicular perception. Indeed, a well-balanced trade-off between performance and energy consumption is crucial for the sustainability of autonomous vehicles. In this context, the diversity of real-world contexts in which autonomous vehicles can operate motivates the need for empowering perception models with the capability to detect, characterize and identify newly appearing objects by themselves. In this manuscript we elaborate on this threefold conundrum (performance, efficiency and open-world learning) for object detection modeling tasks over image data collected from vehicular scenarios. Specifically, we show that well-performing and efficient models can be realized by virtue of Spiking Neural Networks (SNNs), reaching competitive levels of detection performance when compared to their non-spiking counterparts at dramatic energy consumption savings (up to 85%) and a slightly improved robustness against image noise. Our experiments herein offered also expose qualitatively the complexity of detecting new objects based on the preliminary results of a simple approach to discriminate potential object proposals in the captured image.
翻訳日:2023-12-13 15:03:06 公開日:2023-12-12
# 信頼できる皮膚病変分類のためのコンフォーマル予測の実証検証

Empirical Validation of Conformal Prediction for Trustworthy Skin Lesions Classification ( http://arxiv.org/abs/2312.07460v1 )

ライセンス: Link先を確認
Jamil Fayyad, Shadi Alijani, Homayoun Najjaran(参考訳) 不確実性定量化は信頼性と堅牢性の実現に寄与する重要な分野である。 補完的な情報を提供することで、特にリスクの高いアプリケーションにおいて、安全な決定の強化に役立ちます。 それにもかかわらず、医療画像分野における様々な方法に固有の利点と限界を包括的に理解するためには、さらなる研究と深い分析が必要である。 本稿では,モンテカルロ・ドロップアウトやエビデンシャル・ディープ・ラーニング(Evidential Deep Learning)手法とともに,分布自由不確実性定量化手法であるコンフォーマル予測について検討する。 包括的実験により,3つの定量法において皮膚病変分類タスクの比較性能解析を行った。 さらに、ドメインシフトデータセットからの分散サンプルの処理における各メソッドの有効性について考察する。 実験結果から,多種多様な条件にまたがる共形予測の堅牢性と一貫した性能について考察した。 これにより、安全クリティカルなアプリケーションにおける意思決定の選択肢として好まれる。

Uncertainty quantification is a pivotal field that contributes to the realization of reliable and robust systems. By providing complementary information, it becomes instrumental in fortifying safe decisions, particularly within high-risk applications. Nevertheless, a comprehensive understanding of the advantages and limitations inherent in various methods within the medical imaging field necessitates further research coupled with in-depth analysis. In this paper, we explore Conformal Prediction, an emerging distribution-free uncertainty quantification technique, along with Monte Carlo Dropout and Evidential Deep Learning methods. Our comprehensive experiments provide a comparative performance analysis for skin lesion classification tasks across the three quantification methods. Furthermore, We present insights into the effectiveness of each method in handling Out-of-Distribution samples from domain-shifted datasets. Based on our experimental findings, our conclusion highlights the robustness and consistent performance of conformal prediction across diverse conditions. This positions it as the preferred choice for decision-making in safety-critical applications.
翻訳日:2023-12-13 15:02:47 公開日:2023-12-12
# ベルはカヴェンディッシュと出会う:重力の量子的記号?

Bell meets Cavendish: a quantum signature of gravity? ( http://arxiv.org/abs/2312.07458v1 )

ライセンス: Link先を確認
Bin Yan(参考訳) 量子論の枠組みにおける重力の包含は、物理学における最も顕著なオープン問題の1つである。 現在まで、経験的証拠の欠如は、重力の基本的な性質に関する結論 -- 量子原理に固執しているか、あるいは古典的な場がマクロ領域にのみ現れるのか -- を妨げている。 この記事では、マクロな非局所性のレンズを通して重力の量子シグネチャを識別することを目的とした実験を示す。 この実験は標準的なベル試験と古典的なカヴェンディッシュ実験を統合している。 ベル実験で用いられる測定装置は, 絡み合いに欠けるが, 古典的記述に欠けるが, 統計的挙動は局所的な隠れ変数モデルによる説明に抵抗する。 この議論を拡張してキャヴェンディッシュ実験で巨大な物体を包含することで、重力場の古典的モデルをさらに説明することができる。 最近の抜け穴のないベル実験の証拠を裏付ける好ましい条件の下では、重力の量子特性は本質的に証明される。

The inclusion of gravitation within the framework of quantum theory remains one of the most prominent open problem in physics. To date, the absence of empirical evidence hampers conclusions regarding the fundamental nature of gravity -- whether it adheres to quantum principles or remains a classical field manifests solely in the macroscopic domain. This article presents a though experiment aimed at discerning the quantum signature of gravity through the lens of macroscopic nonlocality. The experiment integrates a standard Bell test with a classical Cavendish experiment. We illustrate that the measurement apparatuses employed in a Bell experiment, despite lacking entanglement, defy classical descriptions; their statistical behaviors resist explanations through local hidden variable models. Extending this argument to encompass the massive objects in the Cavendish experiment allows for further disputing classical models of the gravitational field. Under favorable conditions and in light of corroborating evidence from the recent loophole-free Bell experiments, the quantum character of gravity is essentially substantiated.
翻訳日:2023-12-13 15:02:33 公開日:2023-12-12
# ロボットシステムのダイナミクス調和解析:データ駆動koopmanモデリングへの応用

Dynamics Harmonic Analysis of Robotic Systems: Application in Data-Driven Koopman Modelling ( http://arxiv.org/abs/2312.07457v1 )

ライセンス: Link先を確認
Daniel Ordo\~nez-Apraez, Vladimir Kostic, Giulio Turrisi, Pietro Novelli, Carlos Mastalli, Claudio Semini, Massimiliano Pontil(参考訳) 対称ロボットシステムの状態空間を直交同型部分空間に分解するために調和解析を導入する。 これらは、差分、対称、および相乗運動を捉える低次元空間である。 線形力学では、この分解が各部分空間上の独立線型系への力学の分割にどのように寄与するかを特徴付け、力学調和解析(DHA)と呼ぶ。 この性質を利用するために、koopman演算子理論を用いて、dhaの特性を利用してシステムダイナミクスの大域的線形モデルを学ぶ同変深層学習アーキテクチャを提案する。 本アーキテクチャは, 四足歩行ロボットの運動力学と合成システムを用いて, 一般化, サンプル効率, 解釈性の向上を図り, 学習パラメータや計算コストの低減を図っている。

We introduce the use of harmonic analysis to decompose the state space of symmetric robotic systems into orthogonal isotypic subspaces. These are lower-dimensional spaces that capture distinct, symmetric, and synergistic motions. For linear dynamics, we characterize how this decomposition leads to a subdivision of the dynamics into independent linear systems on each subspace, a property we term dynamics harmonic analysis (DHA). To exploit this property, we use Koopman operator theory to propose an equivariant deep-learning architecture that leverages the properties of DHA to learn a global linear model of system dynamics. Our architecture, validated on synthetic systems and the dynamics of locomotion of a quadrupedal robot, demonstrates enhanced generalization, sample efficiency, and interpretability, with less trainable parameters and computational costs.
翻訳日:2023-12-13 15:02:14 公開日:2023-12-12
# birb:バイオ音響における情報検索の一般化ベンチマーク

BIRB: A Generalization Benchmark for Information Retrieval in Bioacoustics ( http://arxiv.org/abs/2312.07439v1 )

ライセンス: Link先を確認
Jenny Hamer, Eleni Triantafillou, Bart van Merrienboer, Stefan Kahl, Holger Klinck, Tom Denton, Vincent Dumoulin(参考訳) 機械学習モデルがトレーニングと展開条件の相違に対処できる能力(例えば、分布シフトや新しいクラスへの完全に一般化が存在する場合)は、現実世界のユースケースにとって不可欠である。 しかし、この分野の実証研究のほとんどは、一般化の個々の側面を測定するために構築された人工ベンチマークによる画像領域に焦点を当てている。 本研究では,受動的に記録されたデータセットから鳥の鳴き声の検索を目的とした複雑なベンチマークであるBIRBについて述べる。 本稿では,表象学習と最近中心探索を用いたタスク集合のためのベースラインシステムを提案する。 我々の徹底的な経験的評価と分析は、BIRBがより現実的で複雑なベンチマークの必要性を埋め、分散シフトへの堅牢性やMLモデルの一般化を促進することを示唆している。

The ability for a machine learning model to cope with differences in training and deployment conditions--e.g. in the presence of distribution shift or the generalization to new classes altogether--is crucial for real-world use cases. However, most empirical work in this area has focused on the image domain with artificial benchmarks constructed to measure individual aspects of generalization. We present BIRB, a complex benchmark centered on the retrieval of bird vocalizations from passively-recorded datasets given focal recordings from a large citizen science corpus available for training. We propose a baseline system for this collection of tasks using representation learning and a nearest-centroid search. Our thorough empirical evaluation and analysis surfaces open research directions, suggesting that BIRB fills the need for a more realistic and complex benchmark to drive progress on robustness to distribution shifts and generalization of ML models.
翻訳日:2023-12-13 15:02:00 公開日:2023-12-12
# 量子相対エントロピーのための内部点法の効率的な実装

Efficient Implementation of Interior-Point Methods for Quantum Relative Entropy ( http://arxiv.org/abs/2312.07438v1 )

ライセンス: Link先を確認
Mehdi Karimi and Levent Tuncel(参考訳) 量子相対エントロピー (quantum relative entropy, qre) プログラミングは、量子コンピューティングや量子情報理論において重要な応用を持つ凸最適化問題の、最近普及し、挑戦的なクラスである。 我々はQREコーンの最適自己協和障壁に基づく近代的内部点法(IP)に興味を持っている。 このような障壁関数やQREコーンに関連する理論的および数値的な課題は、IPメソッドのスケーラビリティを妨げている。 これらの課題に対処するために,線形系を解き,行列ベクトル積を演算する自己協和障壁関数に対する勾配とヘッセンの計算効率の向上を目的とした,数値的および線形代数的手法とヒューリスティックスを提案する。 また、対称量子相対エントロピー(SQRE)など、QREに関連する興味深い概念を紹介し、検討する。 また,QREプログラムの性能を大幅に向上させる2段階の顔認識手法を提案する。 我々の新しい技術はソフトウェアパッケージDDSの最新版(DDS 2.2)で実装されている。 QRE制約の処理に加えて、DDSはいくつかの他の円錐および非円錐凸制約の組み合わせを受け入れている。 包括的数値実験はいくつかの部分を含む。 1)最も近い相関行列問題に対するDDS 2.2とHypatiaの比較。 2)QRE制約を他の制約タイプと組み合わせるためにDDSを使用し、 3)量子鍵分布(QKD)チャネルの鍵レートを計算し,いくつかのQKDプロトコルの結果を示す。

Quantum Relative Entropy (QRE) programming is a recently popular and challenging class of convex optimization problems with significant applications in quantum computing and quantum information theory. We are interested in modern interior point (IP) methods based on optimal self-concordant barriers for the QRE cone. A range of theoretical and numerical challenges associated with such barrier functions and the QRE cones have hindered the scalability of IP methods. To address these challenges, we propose a series of numerical and linear algebraic techniques and heuristics aimed at enhancing the efficiency of gradient and Hessian computations for the self-concordant barrier function, solving linear systems, and performing matrix-vector products. We also introduce and deliberate about some interesting concepts related to QRE such as symmetric quantum relative entropy (SQRE). We also introduce a two-phase method for performing facial reduction that can significantly improve the performance of QRE programming. Our new techniques have been implemented in the latest version (DDS 2.2) of the software package DDS. In addition to handling QRE constraints, DDS accepts any combination of several other conic and non-conic convex constraints. Our comprehensive numerical experiments encompass several parts including 1) a comparison of DDS 2.2 with Hypatia for the nearest correlation matrix problem, 2) using DDS for combining QRE constraints with various other constraint types, and 3) calculating the key rate for quantum key distribution (QKD) channels and presenting results for several QKD protocols.
翻訳日:2023-12-13 15:01:47 公開日:2023-12-12
# 医療物のインターネット上での移動学習とカオスゲーム最適化を用いた医用画像分類

Medical Image Classification Using Transfer Learning and Chaos Game Optimization on the Internet of Medical Things ( http://arxiv.org/abs/2312.07437v1 )

ライセンス: Link先を確認
Alhassan Mabrouk and Abdelghani Dahou and Mohamed Abd Elaziz and Rebeca P. D\'iaz Redondo and Mohammed Kayed(参考訳) internet of medical things(iomt)は、患者や医師があらゆる地域からアクセスできる医療専門家に、劇的に利益をもたらしている。 悪性黒色腫や白血病などの疾患の自動検出と予測はいまだにiomtで研究され研究されているが、既存の手法は高い効率を達成することができない。 したがって、より良い結果をもたらす新しいアプローチによって、患者は適切な治療に早くアクセスでき、死亡率が低下する。 そこで本稿では,医療画像分類のための医用画像分類のためのIoMTの提案を紹介する。 まず,MobileNetV3 を用いた特徴抽出にTransfer Learning (TL) を用いた手法を用いて,不必要な特徴を排除し,IoMT の鍵となる性能向上を目的として,特徴選択に Chaos Game Optimization (CGO) を用いる。 本手法はisic-2016, ph2, blood-cell datasetを用いて評価した。 実験の結果,ISIC-2016では88.39%,PH2では97.52%,血液細胞では88.79%であった。 さらに,本手法は既存の手法と比較して,測定値の性能が向上した。

The Internet of Medical Things (IoMT) has dramatically benefited medical professionals that patients and physicians can access from all regions. Although the automatic detection and prediction of diseases such as melanoma and leukemia is still being researched and studied in IoMT, existing approaches are not able to achieve a high degree of efficiency. Thus, with a new approach that provides better results, patients would access the adequate treatments earlier and the death rate would be reduced. Therefore, this paper introduces an IoMT proposal for medical images classification that may be used anywhere, i.e. it is an ubiquitous approach. It was design in two stages: first, we employ a Transfer Learning (TL)-based method for feature extraction, which is carried out using MobileNetV3; second, we use the Chaos Game Optimization (CGO) for feature selection, with the aim of excluding unnecessary features and improving the performance, which is key in IoMT. Our methodology was evaluated using ISIC-2016, PH2, and Blood-Cell datasets. The experimental results indicated that the proposed approach obtained an accuracy of 88.39% on ISIC-2016, 97.52% on PH2, and 88.79% on Blood-cell. Moreover, our approach had successful performances for the metrics employed compared to other existing methods.
翻訳日:2023-12-13 15:01:27 公開日:2023-12-12
# ビデオモーメント検索のための非対称コアテンションネットワークを用いたクロスモーダルコントラスト学習

Cross-modal Contrastive Learning with Asymmetric Co-attention Network for Video Moment Retrieval ( http://arxiv.org/abs/2312.07435v1 )

ライセンス: Link先を確認
Love Panta, Prashant Shrestha, Brabeem Sapkota, Amrita Bhattarai, Suresh Manandhar, Anand Kumar Sah(参考訳) ビデオモーメント検索は、ビデオとテキストのモーメント間のきめ細かいインタラクションを必要とする課題である。 画像テキスト事前学習における最近の研究は、既存の事前学習モデルのほとんどは、視覚的シーケンスとテキストシーケンスの長さの違いにより、情報非対称性に悩まされていることを示した。 我々は,空間的情報と時間的情報の両方を保持する補助的必要のあるビデオテキスト領域にも,同じ問題が存在するかどうかを疑問視する。 そこで本研究では,映像の接地作業に非対称なコアテンションネットワークを付加する手法を提案する。 さらに,両様相におけるロバストな識別表現学習のための運動量コントラスト損失も取り入れた。 これらの補足モジュールの統合は、TACoSデータセットの最先端モデルやActivityNet Captionsの同等の結果よりもパフォーマンスが向上し、ベースラインに対するパラメータが大幅に少ないことに留意する。

Video moment retrieval is a challenging task requiring fine-grained interactions between video and text modalities. Recent work in image-text pretraining has demonstrated that most existing pretrained models suffer from information asymmetry due to the difference in length between visual and textual sequences. We question whether the same problem also exists in the video-text domain with an auxiliary need to preserve both spatial and temporal information. Thus, we evaluate a recently proposed solution involving the addition of an asymmetric co-attention network for video grounding tasks. Additionally, we incorporate momentum contrastive loss for robust, discriminative representation learning in both modalities. We note that the integration of these supplementary modules yields better performance compared to state-of-the-art models on the TACoS dataset and comparable results on ActivityNet Captions, all while utilizing significantly fewer parameters with respect to baseline.
翻訳日:2023-12-13 15:01:05 公開日:2023-12-12
# 凸形状テンプレートの最適化による多モード等角予測領域

Multi-Modal Conformal Prediction Regions by Optimizing Convex Shape Templates ( http://arxiv.org/abs/2312.07434v1 )

ライセンス: Link先を確認
Renukanandan Tumu, Matthew Cleaveland, Rahul Mangharam, George J. Pappas, Lars Lindemann(参考訳) コンフォーマル予測は、高い確率で有効な機械学習モデルの予測領域を生成する統計ツールである。 共形予測アルゴリズムの重要な構成要素は、モデルの予測が未知の基底真理値とどの程度異なるかを測定する非整合スコア関数である。 本質的に、これらの関数は共形予測領域の形状と大きさを決定する。 しかし、工学的応用において効率的に使用できる多モードかつ実践的な予測領域を生成する非整合スコア関数の発見にはほとんど取り組んでいない。 キャリブレーションデータよりもパラメータ化された形状テンプレート関数を最適化し,最小体積の予測領域を生成する非整合スコア関数を提案する。 提案手法では,マルチモーダルな予測領域を実現することにより,複数のモードを持つ分布の残差を適切に捉えることができ,実用的であり,各領域は凸であり,コンフォーメーショナル予測領域を用いたモーションプランナーなどの下流タスクに容易に組み込むことができる。 本手法は一般的な教師付き学習タスクに適用できるが,時系列予測での利用例を示す。 本研究では,F16戦闘機と自律走行車について,最大6,8\%の予測領域の縮小を示すツールボックスと実例を提示する。

Conformal prediction is a statistical tool for producing prediction regions for machine learning models that are valid with high probability. A key component of conformal prediction algorithms is a non-conformity score function that quantifies how different a model's prediction is from the unknown ground truth value. Essentially, these functions determine the shape and the size of the conformal prediction regions. However, little work has gone into finding non-conformity score functions that produce prediction regions that are multi-modal and practical, i.e., that can efficiently be used in engineering applications. We propose a method that optimizes parameterized shape template functions over calibration data, which results in non-conformity score functions that produce prediction regions with minimum volume. Our approach results in prediction regions that are multi-modal, so they can properly capture residuals of distributions that have multiple modes, and practical, so each region is convex and can be easily incorporated into downstream tasks, such as a motion planner using conformal prediction regions. Our method applies to general supervised learning tasks, while we illustrate its use in time-series prediction. We provide a toolbox and present illustrative case studies of F16 fighter jets and autonomous vehicles, showing an up to $68\%$ reduction in prediction region area.
翻訳日:2023-12-13 15:00:50 公開日:2023-12-12
# 有限相関状態の学習:スペクトル再構成の安定性

Learning finitely correlated states: stability of the spectral reconstruction ( http://arxiv.org/abs/2312.07516v1 )

ライセンス: Link先を確認
Marco Fanizza, Niklas Galke, Josep Lumbreras, Cambyse Rouz\'e, Andreas Winter(参考訳) 鎖上の有限相関な変換不変状態のうち、長さ$t$のサブチェーンの辺辺は、その状態から構築されたある写像の局所次元、メモリ次元、スペクトル特性に明示的に依存した$O(t^2)$コピーと、$t$の計算複雑性多項式によって、トレース距離で学習できることが示される。 このアルゴリズムは、最小結合次元の倍数で区切られた最悪の場合において、制御されたサイズの限界の推定のみを必要とし、そこから変換不変行列積作用素を再構成する。 解析において、中心的な役割は作用素系の理論によって演じられる。 洗練されたエラー境界は、メモリシステムに適用される逐次量子チャネルの観点で操作的解釈を持つ$c^*$-finitely correlationd状態に対して証明することができる。 また、局所境界によって再構成可能な行列積密度作用素のクラスに対する類似誤差を得ることもできる。 この場合、限界数の線形数は推定され、サンプル複雑性は$\tilde{o}(t^3)$となる。 学習アルゴリズムは、有限相関状態にしか近づかない状態に対しても有効であり、他の興味深い状態の族に対して競合アルゴリズムを提供する可能性がある。

We show that marginals of subchains of length $t$ of any finitely correlated translation invariant state on a chain can be learned, in trace distance, with $O(t^2)$ copies -- with an explicit dependence on local dimension, memory dimension and spectral properties of a certain map constructed from the state -- and computational complexity polynomial in $t$. The algorithm requires only the estimation of a marginal of a controlled size, in the worst case bounded by a multiple of the minimum bond dimension, from which it reconstructs a translation invariant matrix product operator. In the analysis, a central role is played by the theory of operator systems. A refined error bound can be proven for $C^*$-finitely correlated states, which have an operational interpretation in terms of sequential quantum channels applied to the memory system. We can also obtain an analogous error bound for a class of matrix product density operators reconstructible by local marginals. In this case, a linear number of marginals must be estimated, obtaining a sample complexity of $\tilde{O}(t^3)$. The learning algorithm also works for states that are only close to a finitely correlated state, with the potential of providing competitive algorithms for other interesting families of states.
翻訳日:2023-12-13 14:54:17 公開日:2023-12-12
# クーロン封鎖下でのイオン化によるアンドレエフレベルのオンデマンド人口

On-demand population of Andreev levels by their ionization in the presence of Coulomb blockade ( http://arxiv.org/abs/2312.07512v1 )

ライセンス: Link先を確認
Pavel D. Kurilovich, Vladislav D. Kurilovich, Aleksandr E. Svetogorov, Wolfgang Belzig, Michel H. Devoret, Leonid I. Glazman(参考訳) ナノワイヤジョセフソン接合を奇異なパリティ状態に決定的に形成する機構を提案する。 この機構は、共振マイクロ波駆動でクーパー対を破る2つのアンドレエフ準位と、それに続く1つの準位を同じ駆動でイオン化するものである。 奇形状態のロバストな調製は、接合部に残留するクーロン反発によって許される。 同様の共振過程は偶数状態の接合を準備するためにも用いられる。 我々の理論は最近の実験(J. J. Wesdorp, et al., Phys. Rev. 131, 117001 (2023))を説明している。

A mechanism to deterministically prepare a nanowire Josephson junction in an odd parity state is proposed. The mechanism involves population of two Andreev levels by a resonant microwave drive breaking a Cooper pair, and a subsequent ionization of one of the levels by the same drive. Robust preparation of the odd state is allowed by a residual Coulomb repulsion in the junction. A similar resonant process can also be used to prepare the junction in the even state. Our theory explains a recent experiment [J. J. Wesdorp, et al., Phys. Rev. Lett. 131, 117001 (2023)].
翻訳日:2023-12-13 14:53:53 公開日:2023-12-12
# 3次元原子システムのための幾何学的GNNのヒッチハイカーガイド

A Hitchhiker's Guide to Geometric GNNs for 3D Atomic Systems ( http://arxiv.org/abs/2312.07511v1 )

ライセンス: Link先を確認
Alexandre Duval, Simon V. Mathis, Chaitanya K. Joshi, Victor Schmidt, Santiago Miret, Fragkiskos D. Malliaros, Taco Cohen, Pietro Lio, Yoshua Bengio and Michael Bronstein(参考訳) 分子、タンパク質、材料にまたがる原子系の計算モデルにおける最近の進歩は、それらを3次元ユークリッド空間のノードとして原子が埋め込まれた幾何学グラフとして表現している。 これらのグラフでは、幾何学的属性は、ユークリッド空間における回転や変換やノード置換を含む3次元原子系の固有の物理対称性に従って変換される。 近年,タンパク質構造予測から分子シミュレーションや材料生成に至るまで,機械学習アーキテクチャとして好まれる幾何グラフニューラルネットワークが登場している。 その特異性は、これらの幾何学グラフの情報表現を学ぶために、それらが利用する帰納的バイアス(物理対称性や化学的性質など)にある。 本稿では,3次元原子系における幾何gnnの分野を包括的かつ自己完結的に概観する。 基礎的背景資料を取り上げ,幾何学的gnnアーキテクチャの教育的分類法を紹介する:(1)不変ネットワーク,(2)直交基底の同変ネットワーク,(3)球面基底の同変ネットワーク,(4)非拘束ネットワーク。 さらに、キーデータセットとアプリケーション領域を概説し、今後の研究の方向性を示唆する。 この研究の目的は、この分野の構造化された視点を示し、新参者や実践者が数学的な抽象化の直観を得るのを助けることである。

Recent advances in computational modelling of atomic systems, spanning molecules, proteins, and materials, represent them as geometric graphs with atoms embedded as nodes in 3D Euclidean space. In these graphs, the geometric attributes transform according to the inherent physical symmetries of 3D atomic systems, including rotations and translations in Euclidean space, as well as node permutations. In recent years, Geometric Graph Neural Networks have emerged as the preferred machine learning architecture powering applications ranging from protein structure prediction to molecular simulations and material generation. Their specificity lies in the inductive biases they leverage -- such as physical symmetries and chemical properties -- to learn informative representations of these geometric graphs. In this opinionated paper, we provide a comprehensive and self-contained overview of the field of Geometric GNNs for 3D atomic systems. We cover fundamental background material and introduce a pedagogical taxonomy of Geometric GNN architectures:(1) invariant networks, (2) equivariant networks in Cartesian basis, (3) equivariant networks in spherical basis, and (4) unconstrained networks. Additionally, we outline key datasets and application areas and suggest future research directions. The objective of this work is to present a structured perspective on the field, making it accessible to newcomers and aiding practitioners in gaining an intuition for its mathematical abstractions.
翻訳日:2023-12-13 14:53:39 公開日:2023-12-12
# PEEKABOO:masked-Diffusionによるインタラクティブビデオ生成

PEEKABOO: Interactive Video Generation via Masked-Diffusion ( http://arxiv.org/abs/2312.07509v1 )

ライセンス: Link先を確認
Yash Jain, Anshul Nasery, Vibhav Vineet, Harkirat Behl(参考訳) 近年,高品質でリアルな映像を生成できる最先端のモデルが登場し,テキスト対ビデオ生成が盛んに進んでいる。 しかし、これらのモデルにはユーザーがインタラクティブに動画をコントロールして生成する機能がないため、新しいアプリケーション領域をアンロックする可能性がある。 この目標に向けた第一歩として,対話型時空間制御による拡散型ビデオ生成モデルの実現という課題に取り組む。 この目的のために,セグメンテーション文学の最近の進歩から着想を得て,新しい時空間マスク付注意モジュールであるpeekabooを提案する。 このモジュールは、時空間制御を可能にするオフザシェルフビデオ生成モデルに対して、トレーニング不要で非推論オーバーヘッドの追加である。 また,対話型ビデオ生成タスクの評価ベンチマークを提案する。 定性的かつ定量的な評価により、Peekabooは制御ビデオ生成を可能にし、mIoUのベースラインモデルよりも最大3.8倍のゲインを得る。

Recently there has been a lot of progress in text-to-video generation, with state-of-the-art models being capable of generating high quality, realistic videos. However, these models lack the capability for users to interactively control and generate videos, which can potentially unlock new areas of application. As a first step towards this goal, we tackle the problem of endowing diffusion-based video generation models with interactive spatio-temporal control over their output. To this end, we take inspiration from the recent advances in segmentation literature to propose a novel spatio-temporal masked attention module - Peekaboo. This module is a training-free, no-inference-overhead addition to off-the-shelf video generation models which enables spatio-temporal control. We also propose an evaluation benchmark for the interactive video generation task. Through extensive qualitative and quantitative evaluation, we establish that Peekaboo enables control video generation and even obtains a gain of upto 3.8x in mIoU over baseline models.
翻訳日:2023-12-13 14:53:18 公開日:2023-12-12
# NAC-TCN:感情理解のための因果拡散近傍注意を伴う時間的畳み込みネットワーク

NAC-TCN: Temporal Convolutional Networks with Causal Dilated Neighborhood Attention for Emotion Understanding ( http://arxiv.org/abs/2312.07507v1 )

ライセンス: Link先を確認
Alexander Mehta and William Yang(参考訳) ビデオからの感情認識のタスクにおいて、重要な改善は、単一のフレームではなく、時間とともに感情に焦点を当てることである。 gru, lstms, self-attention, transformers, and temporal convolutional networks (tcns) など,このタスクに対処するためのアーキテクチャが数多く存在する。 しかし、これらの手法は高いメモリ使用量、大量の操作、あるいは低い勾配に悩まされる。 本稿では,注意と時間的畳み込みネットワークの利点を取り入れつつ,因果関係が理解され,結果として計算コストとメモリコストが低減する畳み込みtcn(nac-tcn)と呼ばれる手法を提案する。 これを実現するために、Dilated Neighborhood Attentionの因果バージョンを導入し、畳み込みを組み込んだ。 我々のモデルは、標準感情認識データセットのパラメータを少なくしながら、TCN、TCL、LSTM、GRUに匹敵する、より優れた、あるいは最先端のパフォーマンスを実現する。 他のプロジェクトで簡単に再現できるようにコードをオンラインで公開しています。

In the task of emotion recognition from videos, a key improvement has been to focus on emotions over time rather than a single frame. There are many architectures to address this task such as GRUs, LSTMs, Self-Attention, Transformers, and Temporal Convolutional Networks (TCNs). However, these methods suffer from high memory usage, large amounts of operations, or poor gradients. We propose a method known as Neighborhood Attention with Convolutions TCN (NAC-TCN) which incorporates the benefits of attention and Temporal Convolutional Networks while ensuring that causal relationships are understood which results in a reduction in computation and memory cost. We accomplish this by introducing a causal version of Dilated Neighborhood Attention while incorporating it with convolutions. Our model achieves comparable, better, or state-of-the-art performance over TCNs, TCAN, LSTMs, and GRUs while requiring fewer parameters on standard emotion recognition datasets. We publish our code online for easy reproducibility and use in other projects.
翻訳日:2023-12-13 14:53:00 公開日:2023-12-12
# COLMAPフリー3次元ガウス平滑化

COLMAP-Free 3D Gaussian Splatting ( http://arxiv.org/abs/2312.07504v1 )

ライセンス: Link先を確認
Yang Fu, Sifei Liu, Amey Kulkarni, Jan Kautz, Alexei A. Efros, Xiaolong Wang(参考訳) ニューラルレンダリングはシーンの再構築や新しいビュー合成に顕著な進歩をもたらしたが、正確に計算されたカメラのポーズに大きく依存している。 この制約を緩和するために、予め処理されたカメラポーズを使わずにNeural Radiance Fields(NeRF)をトレーニングするための複数の取り組みが行われた。 しかし、NeRFの暗黙的な表現は、3D構造とカメラのポーズを同時に最適化する余分な課題をもたらす。 一方、最近提案された3D Gaussian Splattingは、その明示的なポイントクラウド表現を考えると、新たな機会を提供する。 本稿では,入力映像ストリームの明示的な幾何表現と連続性を利用して,sfm前処理を行わずに新たなビュー合成を行う。 入力フレームを順次処理し、カメラのポーズを事前に計算することなく、一度に1つの入力フレームを取ることで、3dガウスを徐々に成長させる。 画像合成とカメラポーズ推定における従来手法に比べて,大きな動き変化下での精度が大幅に向上した。 私たちのプロジェクトページはhttps://oasisyang.github.io/colmap-free-3dgsです。

While neural rendering has led to impressive advances in scene reconstruction and novel view synthesis, it relies heavily on accurately pre-computed camera poses. To relax this constraint, multiple efforts have been made to train Neural Radiance Fields (NeRFs) without pre-processed camera poses. However, the implicit representations of NeRFs provide extra challenges to optimize the 3D structure and camera poses at the same time. On the other hand, the recently proposed 3D Gaussian Splatting provides new opportunities given its explicit point cloud representations. This paper leverages both the explicit geometric representation and the continuity of the input video stream to perform novel view synthesis without any SfM preprocessing. We process the input frames in a sequential manner and progressively grow the 3D Gaussians set by taking one input frame at a time, without the need to pre-compute the camera poses. Our method significantly improves over previous approaches in view synthesis and camera pose estimation under large motion changes. Our project page is https://oasisyang.github.io/colmap-free-3dgs
翻訳日:2023-12-13 14:52:38 公開日:2023-12-12
# 画像感情予測のためのマルチブランチネットワーク

Multi-Branch Network for Imagery Emotion Prediction ( http://arxiv.org/abs/2312.07500v1 )

ライセンス: Link先を確認
Quoc-Bao Ninh, Hai-Chan Nguyen, Triet Huynh, Trung-Nghia Le(参考訳) 画像は長い間、リッチセマンティクス、特に人間の感情の保存と伝達の両方に完璧であることが証明されてきた。 人々の写真に感情を認識できるマシンを提供するために、多くの研究がなされている。 以前の手法は主に表情に焦点を当てていたが、シーンコンテキストを考慮せず、シーンコンテキストは感情を予測する上で重要な役割を果たし、より正確な結果をもたらす。 さらに、Valence-Arousal-Dominance(VAD)の値は、連続的な感情をより正確に定量的に理解するが、離散的な感情カテゴリーと比較して、それらを予測することにはあまり重点を置いていない。 本稿では,顔,体,シーンコンテキストなどの様々な情報源情報を用いて,画像中の離散的感情と連続的感情の両方を予測する,新しいマルチブランチネットワーク(MBN)を提案する。 EMOTICデータセットは,26の個別の感情カテゴリとVAD値をラベル付けした制約のない状況下での人々の大規模な画像を含む実験結果から,提案手法は28.4%のmAP,0.93のMAEで最先端の手法を著しく上回ることを示した。 その結果、感情予測に複数の文脈情報を活用することの重要性を強調し、効率的な計算、人間とコンピュータの相互作用、社会ロボティクスなど、幅広い分野で提案手法の可能性を示す。 ソースコード:https://github.com/BaoNinh2808/Multi-Branch-Network-for-Imagery-Emotion-Prediction

For a long time, images have proved perfect at both storing and conveying rich semantics, especially human emotions. A lot of research has been conducted to provide machines with the ability to recognize emotions in photos of people. Previous methods mostly focus on facial expressions but fail to consider the scene context, meanwhile scene context plays an important role in predicting emotions, leading to more accurate results. In addition, Valence-Arousal-Dominance (VAD) values offer a more precise quantitative understanding of continuous emotions, yet there has been less emphasis on predicting them compared to discrete emotional categories. In this paper, we present a novel Multi-Branch Network (MBN), which utilizes various source information, including faces, bodies, and scene contexts to predict both discrete and continuous emotions in an image. Experimental results on EMOTIC dataset, which contains large-scale images of people in unconstrained situations labeled with 26 discrete categories of emotions and VAD values, show that our proposed method significantly outperforms state-of-the-art methods with 28.4% in mAP and 0.93 in MAE. The results highlight the importance of utilizing multiple contextual information in emotion prediction and illustrate the potential of our proposed method in a wide range of applications, such as effective computing, human-computer interaction, and social robotics. Source code: https://github.com/BaoNinh2808/Multi-Branch-Network-for-Imagery-Emotion-Prediction
翻訳日:2023-12-13 14:52:19 公開日:2023-12-12
# 大距離でのBell-CHSH不等式の無暴力化

No Violation of Bell-CHSH Inequalities at Large Distances ( http://arxiv.org/abs/2312.07499v1 )

ライセンス: Link先を確認
Timofei Rusalev, Daniil Stepanenko and Igor Volovich(参考訳) ベル型不等式違反の通常の導出は、検出器間の小さな距離にのみ適用することができる。 これは時空変数に対する量子力学的波動関数の依存性を考慮していない。 本研究では,自然パラメトリックダウンコンバージョン(SPDC)実験で得られた絡み合った光子の挙動について検討し,広い範囲でベル-CHSH不等式に違反することはないことを示した。 初期絡み合った状態が大きな空間的距離で乱れてしまうことを示す。 これは検出器間の小さな距離で観測されるベルの不等式違反と矛盾しない。 本研究では,検出器間距離の増大に対する量子相関関数とベル値の依存性について検討する。 これらの量は検出器間の距離の増加に比例して減少すると予想する。

The usual derivation of the violation of Bell-type inequalities can be applied actually only for small distances between detectors. It does not take into account the dependence of the quantum mechanical wave function on space-time variables. We study the behavior of entangled photons obtained in spontaneous parametric down-conversion (SPDC) experiments and show that at large distances there is in fact no violation of the Bell-CHSH inequalities. We show that the initial entangled states become disentangled at large space-like distances. This does not contradict the violation of Bell inequalities observed at small distances between detectors. We propose an experiment to study the dependence of the quantum correlation function and Bell value on increasing distance between detectors. We predict that these quantities decrease inversely proportional to the increase of the distance between the detectors.
翻訳日:2023-12-13 14:51:53 公開日:2023-12-12
# 量子化学ハミルトニアンのためのランダム化測定法の実際的ベンチマーク

Practical Benchmarking of Randomized Measurement Methods for Quantum Chemistry Hamiltonians ( http://arxiv.org/abs/2312.07497v1 )

ライセンス: Link先を確認
Arkopal Dutt, William Kirby, Rudy Raymond, Charles Hadfield, Sarah Sheldon, Isaac L. Chuang, Antonio Mezzacapo(参考訳) 量子化学における基底状態エネルギー推定の応用のための多くのハイブリッド量子古典アルゴリズムは、量子デバイス上の測定による量子状態に対する分子ハミルトニアンの期待値の推定を含む。 この可観測推定問題のために設計された測定方法の選択を導くために, ハイブリッド量子古典アルゴリズムの実行中に発生する分子ハミルトニアンと共通状態に対して, これらの手法の性能を評価するcshorebench (common states and hamiltonian for observable estimation benchmark) というベンチマークを提案する。 cshorebenchでは、準備状態の測定による量子コンピュータの資源利用と、取得した測定結果の計測と後処理に費やされた計算ランタイムによる古典コンピュータの資源利用について説明する。 16キュービットまでの大きさのハミルトニアンの様々な測定方法を考慮したcshorebenchを適用する。 本稿では,様々なランダム化手法に対して効率的なデータ構造を提供する決定図の枠組みを用いて,決定図上の分布をデランドマイズする方法を説明する。 数値シミュレーションでは、決定ダイアグラムと非ランダム化の方法が最も好ましいことが分かる。 ibmの量子デバイスにおける小さな分子に対する実験において、決定ダイアグラムは、局所偏りのある古典的シャドウによって作られた、古典的シャドウによる測定回数を80%以上減少させ、一貫して量子的測定と、非ランダム化よりも低い古典的計算実行量を要求することを観測した。 さらに、CSHOREBenchは、固定深さのランダム量子アンサッツの状態を考えると、経験的に効率が良い。

Many hybrid quantum-classical algorithms for the application of ground state energy estimation in quantum chemistry involve estimating the expectation value of a molecular Hamiltonian with respect to a quantum state through measurements on a quantum device. To guide the selection of measurement methods designed for this observable estimation problem, we propose a benchmark called CSHOREBench (Common States and Hamiltonians for ObseRvable Estimation Benchmark) that assesses the performance of these methods against a set of common molecular Hamiltonians and common states encountered during the runtime of hybrid quantum-classical algorithms. In CSHOREBench, we account for resource utilization of a quantum computer through measurements of a prepared state, and a classical computer through computational runtime spent in proposing measurements and classical post-processing of acquired measurement outcomes. We apply CSHOREBench considering a variety of measurement methods on Hamiltonians of size up to 16 qubits. Our discussion is aided by using the framework of decision diagrams which provides an efficient data structure for various randomized methods and illustrate how to derandomize distributions on decision diagrams. In numerical simulations, we find that the methods of decision diagrams and derandomization are the most preferable. In experiments on IBM quantum devices against small molecules, we observe that decision diagrams reduces the number of measurements made by classical shadows by more than 80%, that made by locally biased classical shadows by around 57%, and consistently require fewer quantum measurements along with lower classical computational runtime than derandomization. Furthermore, CSHOREBench is empirically efficient to run when considering states of random quantum ansatz with fixed depth.
翻訳日:2023-12-13 14:51:42 公開日:2023-12-12
# マルチクラス非教師付き異常検出のためのプレーンVIT再構成の検討

Exploring Plain ViT Reconstruction for Multi-class Unsupervised Anomaly Detection ( http://arxiv.org/abs/2312.07495v1 )

ライセンス: Link先を確認
Jiangning Zhang, Xuhai Chen, Yabiao Wang, Chengjie Wang, Yong Liu, Xiangtai Li, Ming-Hsuan Yang, Dacheng Tao(参考訳) 本研究は,複数のクラスに対して正常な画像と異常な画像の両方を同時にテストしながら,トレーニングに通常の画像のみを必要とする,課題で実用的なMulti-class Unsupervised Anomaly Detection (MUAD)タスクについて検討する。 既存のレコンストラクションベースの手法では、マルチレゾリューション機能を得るためにピラミッドネットワークをエンコーダ/デコーダとして採用することが多い。 対照的に、シンプルなアーキテクチャを持つ平易な視覚変換器(ViT)は、よりシンプルで、より効果的でエレガントな複数のドメインで有効であることが示されている。 本稿では,MUADのための平易なViTアーキテクチャについて検討する。 具体的には,メタADの概念を,現在の再構築手法によって抽象化する。 そして、3つのマクロと4つのマイクロ視点からステップバイステップで設計した、新しいエレガントでエレガントな ViT ベースの対称 ViTAD 構造をインスタンス化する。 さらに本論文では,さらなる探索のための興味深い知見について述べる。 最後に,muadタスクのための8つの指標に関する包括的かつ公正な評価ベンチマークを提案する。 ナイーブなトレーニングレシピに基づいて、VTADはMVTec ADとVisAデータセットに対して、ベルやホイッスルを使わずに、最新技術(SoTA)の結果と効率を達成し、SoTA UniADを+3.0で上回り、単一のV100 GPUでモデルトレーニングを完了するのに1.1時間2.3GのGPUメモリしか必要としない85.4mADを得る。 ソースコード、モデル、その他の結果はhttps://zhangzjn.github.io/projects/ViTADで公開されている。

This work studies the recently proposed challenging and practical Multi-class Unsupervised Anomaly Detection (MUAD) task, which only requires normal images for training while simultaneously testing both normal/anomaly images for multiple classes. Existing reconstruction-based methods typically adopt pyramid networks as encoders/decoders to obtain multi-resolution features, accompanied by elaborate sub-modules with heavier handcraft engineering designs for more precise localization. In contrast, a plain Vision Transformer (ViT) with simple architecture has been shown effective in multiple domains, which is simpler, more effective, and elegant. Following this spirit, this paper explores plain ViT architecture for MUAD. Specifically, we abstract a Meta-AD concept by inducing current reconstruction-based methods. Then, we instantiate a novel and elegant plain ViT-based symmetric ViTAD structure, effectively designed step by step from three macro and four micro perspectives. In addition, this paper reveals several interesting findings for further exploration. Finally, we propose a comprehensive and fair evaluation benchmark on eight metrics for the MUAD task. Based on a naive training recipe, ViTAD achieves state-of-the-art (SoTA) results and efficiency on the MVTec AD and VisA datasets without bells and whistles, obtaining 85.4 mAD that surpasses SoTA UniAD by +3.0, and only requiring 1.1 hours and 2.3G GPU memory to complete model training by a single V100 GPU. Source code, models, and more results are available at https://zhangzjn.github.io/projects/ViTAD.
翻訳日:2023-12-13 14:51:12 公開日:2023-12-12
# socialstigmaqa: 生成言語モデルにおけるstigmaの増幅を示すベンチマーク

SocialStigmaQA: A Benchmark to Uncover Stigma Amplification in Generative Language Models ( http://arxiv.org/abs/2312.07492v1 )

ライセンス: Link先を確認
Manish Nagireddy, Lamogha Chiazor, Moninder Singh, Ioana Baldini(参考訳) 望ましくない社会的偏見監査のための現在のデータセットは、人種や性別などの保護された人口動態の研究に限られている。 本研究では,遺伝的言語モデルにおけるシュティグマを通して,社会的偏見の増幅を捉えるための総合的なベンチマークを導入する。 まず、社会科学文献に記録された93のスティグマの総合リストから始め、単純な社会的状況を含む質問回答データセット(QA)をキュレートする。 私たちのベンチマークであるSocialStigmaQAには、ソーシャルバイアスとモデルロバストネスの両方を体系的にテストするために、さまざまなプロンプトスタイルの約10Kプロンプトが含まれています。 本稿では,2つのオープンソース生成言語モデルを用いたSocialStigmaQAの結果について述べる。 具体的には,様々なデコーディング戦略とプロンプトスタイルにおいて,社会的に偏ったアウトプットの割合は45%から59%であることがわかった。 ベンチマークのテンプレートの意図的な設計(例えば、プロンプトにバイアステキストを追加したり、バイアスを示す回答を変更)が、社会的に偏った出力を生成するためのモデル傾向に影響を与えることを発見した。 さらに,生成した思考連鎖アウトプットのパターンについて報告し,微妙なバイアスから推論の欠如の証拠に至るまで,様々な問題を見出した。 警告: 本論文は、有害で偏見があり、有害なテキストの例を含む。

Current datasets for unwanted social bias auditing are limited to studying protected demographic features such as race and gender. In this work, we introduce a comprehensive benchmark that is meant to capture the amplification of social bias, via stigmas, in generative language models. We start with a comprehensive list of 93 stigmas documented in social science literature and curate a question-answering (QA) dataset which involves simple social situations. Our benchmark, SocialStigmaQA, contains roughly 10K prompts, with a variety of prompt styles, carefully constructed to systematically test for both social bias and model robustness. We present results for SocialStigmaQA with two widely used open source generative language models and we demonstrate that the output generated by these models considerably amplifies existing social bias against stigmatized groups. Specifically, we find that the proportion of socially biased output ranges from 45% to 59% across a variety of decoding strategies and prompting styles. We discover that the deliberate design of the templates in our benchmark (e.g., by adding biasing text to the prompt or varying the answer that indicates bias) impact the model tendencies to generate socially biased output. Additionally, we report on patterns in the generated chain-of-thought output, finding a variety of problems from subtle bias to evidence of a lack of reasoning. Warning: This paper contains examples of text which is toxic, biased, and harmful.
翻訳日:2023-12-13 14:50:39 公開日:2023-12-12
# NearbyPatchCL:全スライディング画像における自己監督型パッチレベルマルチクラス分類のための近接パッチの活用

NearbyPatchCL: Leveraging Nearby Patches for Self-Supervised Patch-Level Multi-Class Classification in Whole-Slide Images ( http://arxiv.org/abs/2312.07489v1 )

ライセンス: Link先を確認
Gia-Bao Le, Van-Tien Nguyen, Trung-Nghia Le, Minh-Triet Tran(参考訳) 全スライディング画像(WSI)解析は、がんの診断と治療において重要な役割を果たす。 このクリティカルなタスクの要求に対処するために、自己教師付き学習(ssl)メソッドは貴重なリソースとして登場し、教師付きメソッドをデプロイするのにコストと時間の両方がかかる多くのアノテーションの必要性を回避するのにその効率を生かしています。 それでも、パッチワイズ表現は、主にWSI内のパッチ選択に起因するクラスの不均衡によって、パフォーマンスの不安定さを示す可能性がある。 本稿では,近くにあるパッチを正のサンプルとして活用し,頑健な表現学習のための非結合的なコントラスト損失を解消する,新しい自己教師型学習手法であるNearby Patch Contrastive Learning(NearbyPatchCL)を紹介する。 本手法は,パッチレベルのマルチクラス分類を含む下流タスクの性能向上を示す。 さらに,イヌ癌組織学から得られたWSIsから得られた新たなデータセットをキュレートし,パッチレベルの多クラス分類手法の厳密な評価のためのベンチマークを作成する。 集中的な実験により,トップ1分類精度87.56%で教師付きベースライン法と最先端SSL法を著しく上回った。 また,他の手法の100%ラベルデータ要件とは対照的に,ラベルデータの1%のみを利用して比較結果を得る。 ソースコード: https://github.com/nvtien457/nearbypatchcl

Whole-slide image (WSI) analysis plays a crucial role in cancer diagnosis and treatment. In addressing the demands of this critical task, self-supervised learning (SSL) methods have emerged as a valuable resource, leveraging their efficiency in circumventing the need for a large number of annotations, which can be both costly and time-consuming to deploy supervised methods. Nevertheless, patch-wise representation may exhibit instability in performance, primarily due to class imbalances stemming from patch selection within WSIs. In this paper, we introduce Nearby Patch Contrastive Learning (NearbyPatchCL), a novel self-supervised learning method that leverages nearby patches as positive samples and a decoupled contrastive loss for robust representation learning. Our method demonstrates a tangible enhancement in performance for downstream tasks involving patch-level multi-class classification. Additionally, we curate a new dataset derived from WSIs sourced from the Canine Cutaneous Cancer Histology, thus establishing a benchmark for the rigorous evaluation of patch-level multi-class classification methodologies. Intensive experiments show that our method significantly outperforms the supervised baseline and state-of-the-art SSL methods with top-1 classification accuracy of 87.56%. Our method also achieves comparable results while utilizing a mere 1% of labeled data, a stark contrast to the 100% labeled data requirement of other approaches. Source code: https://github.com/nvtien457/NearbyPatchCL
翻訳日:2023-12-13 14:50:14 公開日:2023-12-12
# LMDrive: 大規模言語モデルによるエンドツーエンド運転

LMDrive: Closed-Loop End-to-End Driving with Large Language Models ( http://arxiv.org/abs/2312.07488v1 )

ライセンス: Link先を確認
Hao Shao, Yuxuan Hu, Letian Wang, Steven L. Waslander, Yu Liu, Hongsheng Li(参考訳) 自動運転の分野における最近の大きな進歩にもかかわらず、現代の手法は依然として苦戦し、長期にわたる予期せぬ出来事や都市シナリオに遭遇した場合に深刻な事故を引き起こす可能性がある。 一方、大規模言語モデル(LLM)は、"Artificial General Intelligence"にアプローチする印象的な推論能力を示している。 一方、従来の自律運転法は限定的な入力(センサデータやナビゲーションの経路ポイントなど)に依存し、車両が言語情報を理解し人間と対話する能力を制限する傾向にある。 そこで本研究では,新しい言語誘導,エンドツーエンド,クローズドループ自動運転フレームワークLMDriveを紹介する。 LMDriveは、マルチモーダルセンサーデータを自然言語命令と一意に処理し統合し、現実的な命令設定で人間やナビゲーションソフトウェアとの対話を可能にする。 言語ベースのクローズドループ自動運転のさらなる研究を促進するために、約64Kの命令追従データクリップを含む対応するデータセットと、複雑な命令を処理するシステムの能力と運転シナリオの課題をテストするLangAutoベンチマークも公開しています。 LMDriveの有効性を示す大規模なクローズドループ実験を行った。 私たちの知る限りでは、私たちはLLMをクローズドループのエンドツーエンド自動運転に活用する最初の取り組みです。 コードはhttps://github.com/opendilab/LMDriveにある。

Despite significant recent progress in the field of autonomous driving, modern methods still struggle and can incur serious accidents when encountering long-tail unforeseen events and challenging urban scenarios. On the one hand, large language models (LLM) have shown impressive reasoning capabilities that approach "Artificial General Intelligence". On the other hand, previous autonomous driving methods tend to rely on limited-format inputs (e.g. sensor data and navigation waypoints), restricting the vehicle's ability to understand language information and interact with humans. To this end, this paper introduces LMDrive, a novel language-guided, end-to-end, closed-loop autonomous driving framework. LMDrive uniquely processes and integrates multi-modal sensor data with natural language instructions, enabling interaction with humans and navigation software in realistic instructional settings. To facilitate further research in language-based closed-loop autonomous driving, we also publicly release the corresponding dataset which includes approximately 64K instruction-following data clips, and the LangAuto benchmark that tests the system's ability to handle complex instructions and challenging driving scenarios. Extensive closed-loop experiments are conducted to demonstrate LMDrive's effectiveness. To the best of our knowledge, we're the very first work to leverage LLMs for closed-loop end-to-end autonomous driving. Codes can be found at https://github.com/opendilab/LMDrive
翻訳日:2023-12-13 14:49:48 公開日:2023-12-12
# MinD-3D:人間の脳における高品質な3Dオブジェクトの再構築

MinD-3D: Reconstruct High-quality 3D objects in Human Brain ( http://arxiv.org/abs/2312.07485v1 )

ライセンス: Link先を確認
Jianxiong Gao, Yuqian Fu, Yun Wang, Xuelin Qian, Jianfeng Feng, Yanwei Fu(参考訳) 本稿では,fMRI(Functional Magnetic Resonance Imaging)信号から3次元映像を再構成する作業であるRecon3DMindを紹介する。 これは認知神経科学とコンピュータビジョンの大きな進歩を表している。 この課題を支援するために,3Dオブジェクトの360度映像を利用したfMRI-Shapeデータセットを提案する。 日常生活の共通対象の55のカテゴリを含むこのデータセットは、将来の研究努力を強化するだろう。 また,fMRI信号から脳の3次元視覚情報をデコードし,再構成する新しい3段階フレームワークMinD-3Dを提案する。 神経融合エンコーダを用いてfMRIフレームから特徴を抽出・集約し、次に特徴ブリッジ拡散モデルを用いて対応する視覚特徴を生成し、最終的に生成トランスフォーマーデコーダを介して3Dオブジェクトを復元する。 本研究では,fMRI信号の視覚的関心領域(ROI)と有効かつ高い相関関係を持つ特徴を効果的に抽出することを示した。 特に、意味的関連性と空間的類似性が高い3Dオブジェクトを再構築するだけでなく、人間の脳の3D視覚処理能力に対する理解を深めます。 プロジェクトページ: https://jianxgao.github.io/MinD-3D。

In this paper, we introduce Recon3DMind, a groundbreaking task focused on reconstructing 3D visuals from Functional Magnetic Resonance Imaging (fMRI) signals. This represents a major step forward in cognitive neuroscience and computer vision. To support this task, we present the fMRI-Shape dataset, utilizing 360-degree view videos of 3D objects for comprehensive fMRI signal capture. Containing 55 categories of common objects from daily life, this dataset will bolster future research endeavors. We also propose MinD-3D, a novel and effective three-stage framework that decodes and reconstructs the brain's 3D visual information from fMRI signals. This method starts by extracting and aggregating features from fMRI frames using a neuro-fusion encoder, then employs a feature bridge diffusion model to generate corresponding visual features, and ultimately recovers the 3D object through a generative transformer decoder. Our experiments demonstrate that this method effectively extracts features that are valid and highly correlated with visual regions of interest (ROIs) in fMRI signals. Notably, it not only reconstructs 3D objects with high semantic relevance and spatial similarity but also significantly deepens our understanding of the human brain's 3D visual processing capabilities. Project page at: https://jianxgao.github.io/MinD-3D.
翻訳日:2023-12-13 14:49:26 公開日:2023-12-12
# 小売商品の分類:確率的ランキングからニューラルネットワークへ

Classification of retail products: From probabilistic ranking to neural networks ( http://arxiv.org/abs/2312.07482v1 )

ライセンス: Link先を確認
Manar Mohamed Hafez, Rebeca P. D\'iaz Redondo, Ana Fern\'andez-Vilas, H\'ector Olivera Paz\'o(参考訳) 食品小売業は、消費者の意思決定プロセスのあらゆる段階における価値創造の新たな方法によって、デジタル市場への浸透を加速させている。 この経路で最も重要なインペラティブの1つは、デジタルトランスフォーメーションのすべてのプロセスに対して、品質データを提供することです。 しかし、食料品市場のさまざまな製品やサプライヤーを考えると、データの品質はそれほど明確ではない。 食料品産業のデジタルトランスフォーメーションのこの文脈の中で、 \textit{Midiadia} はスペインのデータプロバイダ企業であり、小売店の製品からのデータから、製品ラベルの属性や洞察による知識、すなわち、製品の分散度の高い動的市場における品質データを維持することに取り組んでいる。 現在、製品ラベルや包装から抽出された情報(テキスト処理)に従って、手動で製品(食料品)を分類している。 本稿では, 常に変化する食品カタログを3段階の食品分類に自動的に分類する手法を提案する。 本稿では,スコアベースランキング法,従来の機械学習アルゴリズム,ディープニューラルネットワークの3つのアプローチについて検討する。 そこで,当社の主な資産である食料品カタログのより効率的でエラーやすい保守を支援する4つの分類器を提供する。 最後に、これらの3つの選択肢のパフォーマンスを比較し、従来の機械学習アルゴリズムはより良いパフォーマンスを保ちながら、スコアベースのアプローチに密接に従っていると結論付けた。

Food retailing is now on an accelerated path to a success penetration into the digital market by new ways of value creation at all stages of the consumer decision process. One of the most important imperatives in this path is the availability of quality data to feed all the process in digital transformation. But the quality of data is not so obvious if we consider the variety of products and suppliers in the grocery market. Within this context of digital transformation of grocery industry, \textit{Midiadia} is Spanish data provider company that works on converting data from the retailers' products into knowledge with attributes and insights from the product labels, that is, maintaining quality data in a dynamic market with a high dispersion of products. Currently, they manually categorize products (groceries) according to the information extracted directly (text processing) from the product labelling and packaging. This paper introduces a solution to automatically categorize the constantly changing product catalogue into a 3-level food taxonomy. Our proposal studies three different approaches: a score-based ranking method, traditional machine learning algorithms, and deep neural networks. Thus, we provide four different classifiers that support a more efficient and less error-prone maintenance of groceries catalogues, the main asset of the company. Finally, we have compared the performance of these three alternatives, concluding that traditional machine learning algorithms perform better, but closely followed by the score-based approach.
翻訳日:2023-12-13 14:49:04 公開日:2023-12-12
# smerf:リアルタイム大規模探索のための効率的なラミアンスフィールド

SMERF: Streamable Memory Efficient Radiance Fields for Real-Time Large-Scene Exploration ( http://arxiv.org/abs/2312.07541v1 )

ライセンス: Link先を確認
Daniel Duckworth, Peter Hedman, Christian Reiser, Peter Zhizhin, Jean-Fran\c{c}ois Thibert, Mario Lu\v{c}i\'c, Richard Szeliski, Jonathan T. Barron(参考訳) 近年のリアルタイムビュー合成技術は, 忠実度と速度が急速に向上し, インタラクティブなフレームレートで近光写実的シーンをレンダリングすることができる。 同時に、ラスタ化に寄与する明示的なシーン表現と、レイマーチング上に構築されたニューラルフィールドとの間に緊張が生じ、後者の最先端のインスタンスは、リアルタイムアプリケーションでは違法に高価であると同時に、前者の品質を上回っている。 本研究では,最大300 m$^2$ 3.5 mm$^3$ の体積分解能で,大規模シーンにおけるリアルタイム手法の最先端精度を実現するビュー合成手法であるsmerfを提案する。 本手法は,計算量とメモリ消費を制約しながらモデル容量を増加させる階層的モデル分割方式と,高忠実度と内部整合性を同時に生成する蒸留訓練戦略の2つの主要な貢献に基づいて構築されている。 当社のアプローチは,Webブラウザ内での6自由度ナビゲーションを可能にし,コモディティスマートフォンやラップトップ上でリアルタイムにレンダリングする。 大規模実験により,本手法は,標準ベンチマークで0.78db,大シーンで1.78db,最先端のラミアンスフィールドモデルより3桁早くフレームを描画し,スマートフォンを含む多種多様なコモディティデバイスでリアルタイム性能を実現する。 プロジェクトのWebサイトでは,これらのモデルを実際に調査することを推奨しています。

Recent techniques for real-time view synthesis have rapidly advanced in fidelity and speed, and modern methods are capable of rendering near-photorealistic scenes at interactive frame rates. At the same time, a tension has arisen between explicit scene representations amenable to rasterization and neural fields built on ray marching, with state-of-the-art instances of the latter surpassing the former in quality while being prohibitively expensive for real-time applications. In this work, we introduce SMERF, a view synthesis approach that achieves state-of-the-art accuracy among real-time methods on large scenes with footprints up to 300 m$^2$ at a volumetric resolution of 3.5 mm$^3$. Our method is built upon two primary contributions: a hierarchical model partitioning scheme, which increases model capacity while constraining compute and memory consumption, and a distillation training strategy that simultaneously yields high fidelity and internal consistency. Our approach enables full six degrees of freedom (6DOF) navigation within a web browser and renders in real-time on commodity smartphones and laptops. Extensive experiments show that our method exceeds the current state-of-the-art in real-time novel view synthesis by 0.78 dB on standard benchmarks and 1.78 dB on large scenes, renders frames three orders of magnitude faster than state-of-the-art radiance field models, and achieves real-time performance across a wide variety of commodity devices, including smartphones. We encourage the reader to explore these models in person at our project website: https://smerf-3d.github.io.
翻訳日:2023-12-13 14:42:59 公開日:2023-12-12
# 長期文脈言語エージェントの差分履歴

diff History for Long-Context Language Agents ( http://arxiv.org/abs/2312.07540v1 )

ライセンス: Link先を確認
Ulyana Piterbarg, Lerrel Pinto, Rob Fergus(参考訳) 言語モデル(LM)は汎用的な具体化制御のためのエキサイティングなソリューションを提供する。 しかし、lmベースのコントローラを使用すると、重要な技術的問題が発生する。 環境観察は、履歴と結合したテキストに変換されなければならず、禁止的に大きなテキストプロンプトに繋がる。 その結果、LMエージェントの先行処理は、観測サイズが小さいか、相互作用履歴に必要な最小限の領域に制限される。 本稿では,これらの問題に対して,シンプルかつ高効率な解決策を提案する。 連続するテキスト観察は類似度が高く,unix diff コマンドで圧縮することを提案している。 我々は、複雑なローグライクなビデオゲームであるNetHackにおける我々のアプローチを実証する。 diff historyは、lmで利用可能なテキストベースの対話履歴の長さを平均4倍増加させる。 この観察圧縮と抽象化の利点は、最先端のベースラインよりもホールドアウト環境インスタンスでのゲームスコアが7倍向上する。 また、視覚的観察を使用する先行エージェントの40%以上を上回ります。

Language Models (LMs) offer an exciting solution for general-purpose embodied control. However, a key technical issue arises when using an LM-based controller: environment observations must be converted to text, which coupled with history, leads to prohibitively large textual prompts. As a result, prior work in LM agents is limited to restricted domains with either small observation size or minimal needs for interaction history. In this paper, we introduce a simple and highly effective solution to these issues. We exploit the fact that consecutive text observations have high similarity and propose to compress them via the Unix diff command. We demonstrate our approach in NetHack, a complex rogue-like video game, that requires long-horizon reasoning for decision-making and is far from solved, particularly for neural agents. Diff history offers an average of 4x increase in the length of the text-based interaction history available to the LM. This observational compression along with the benefits of abstraction yields a 7x improvement in game score on held-out environment instances over state-of-the-art baselines. It also outperforms prior agents that use visual observations by over 40%.
翻訳日:2023-12-13 14:42:30 公開日:2023-12-12
# HeadArtist: セルフスコア蒸留によるテキスト調和型3Dヘッドジェネレーション

HeadArtist: Text-conditioned 3D Head Generation with Self Score Distillation ( http://arxiv.org/abs/2312.07539v1 )

ライセンス: Link先を確認
Hongyu Liu, Xuan Wang, Ziyu Wan, Yujun Shen, Yibing Song, Jing Liao, Qifeng Chen(参考訳) 本研究はテキスト記述から3次元ヘッド生成のためのHeadArtistを提案する。 生成前処理としてランドマーク誘導制御網が機能するので、先行蒸留自体の監督下でパラメータ化された3dヘッドモデルを最適化する効率的なパイプラインを考案する。 このようなプロセスを自己スコア蒸留(SSD)と呼ぶ。 詳しくは、サンプルカメラのポーズを考慮すれば、まず画像とその対応するランドマークをヘッドモデルからレンダリングし、特定のレベルのノイズを画像に追加する。 ノイズ画像、ランドマーク、およびテキスト条件は、ノイズ予測のために2回凍結制御網に供給される。 これら2つの予測の間に2つの異なる分類器フリーガイダンス(CFG)の重みが適用され、予測差は、レンダリングされた画像が関心のテキストにどのようにマッチするかを示す。 実験結果から,良好な形状とフォトリアリスティックな外観を持つ高品質な3d頭部彫刻が,最先端の手法を著しく上回っていることが示唆された。 また,同じパイプラインが,形状変形と外観変化の両方を含む生成したヘッドの編集を良好にサポートしていることも示している。

This work presents HeadArtist for 3D head generation from text descriptions. With a landmark-guided ControlNet serving as the generative prior, we come up with an efficient pipeline that optimizes a parameterized 3D head model under the supervision of the prior distillation itself. We call such a process self score distillation (SSD). In detail, given a sampled camera pose, we first render an image and its corresponding landmarks from the head model, and add some particular level of noise onto the image. The noisy image, landmarks, and text condition are then fed into the frozen ControlNet twice for noise prediction. Two different classifier-free guidance (CFG) weights are applied during these two predictions, and the prediction difference offers a direction on how the rendered image can better match the text of interest. Experimental results suggest that our approach delivers high-quality 3D head sculptures with adequate geometry and photorealistic appearance, significantly outperforming state-ofthe-art methods. We also show that the same pipeline well supports editing the generated heads, including both geometry deformation and appearance change.
翻訳日:2023-12-13 14:42:14 公開日:2023-12-12
# 解剖学的に制約された不規則顔モデル

Anatomically Constrained Implicit Face Models ( http://arxiv.org/abs/2312.07538v1 )

ライセンス: Link先を確認
Prashanth Chandran and Gaspard Zoss(参考訳) 座標に基づく暗黙的表現は、画像、幾何学、シーンモデリングのタスクでうまく使われているため、近年急速に人気を集めている。 本研究では,解剖学的に制約された顔モデル学習の文脈において,このような暗黙表現の新たなユースケースを提案する。 アクタ特有の解剖学的制約のある顔モデルは、顔のパフォーマンスキャプチャとパフォーマンス再ターゲティングの両方における最先端の技術である。 実際の成功にもかかわらず、これらの解剖学的モデルは評価が遅く、しばしば大規模なデータキャプチャーを構築する必要がある。 本稿では,顔の解剖学と皮膚表面を高い忠実度でモデル化し,従来のブレンド形状モデルに置き換えることのできる暗黙的ニューラルネットワークのアンサンブルである解剖学的暗黙的顔モデルを提案する。 アクターの皮膚表面メッシュの任意のセットと頭蓋骨と顎骨を推定した中性形状が与えられた場合、顔表面上のすべての点を拘束する密度の高い解剖学的サブ構造を復元できる。 提案手法は,形状調整,形状編集,性能再ターゲティングなど,様々なタスクにおいて有用であることを示す。

Coordinate based implicit neural representations have gained rapid popularity in recent years as they have been successfully used in image, geometry and scene modeling tasks. In this work, we present a novel use case for such implicit representations in the context of learning anatomically constrained face models. Actor specific anatomically constrained face models are the state of the art in both facial performance capture and performance retargeting. Despite their practical success, these anatomical models are slow to evaluate and often require extensive data capture to be built. We propose the anatomical implicit face model; an ensemble of implicit neural networks that jointly learn to model the facial anatomy and the skin surface with high-fidelity, and can readily be used as a drop in replacement to conventional blendshape models. Given an arbitrary set of skin surface meshes of an actor and only a neutral shape with estimated skull and jaw bones, our method can recover a dense anatomical substructure which constrains every point on the facial surface. We demonstrate the usefulness of our approach in several tasks ranging from shape fitting, shape editing, and performance retargeting.
翻訳日:2023-12-13 14:41:54 公開日:2023-12-12
# FreeInit:ビデオ拡散モデルにおける初期化ギャップを埋める

FreeInit: Bridging Initialization Gap in Video Diffusion Models ( http://arxiv.org/abs/2312.07537v1 )

ライセンス: Link先を確認
Tianxing Wu, Chenyang Si, Yuming Jiang, Ziqi Huang, Ziwei Liu(参考訳) 拡散に基づくビデオ生成は急速に進歩してきたが、既存のモデルの推論結果は相容れない時間的一貫性と不自然なダイナミクスを示している。 本稿では,映像拡散モデルのノイズ初期化を深く掘り下げ,不満足な推論品質に起因した暗黙のトレーニングと推論のギャップを発見する。 私たちの重要な発見は 1) 推定における初期潜伏者の空間-時間周波数分布は, 訓練用と本質的に異なる。 2) 消音過程は, 初期雑音の低周波成分の影響を強く受けている。 これらの観測により、拡散モデルにより生成されたビデオの時間的一貫性を大幅に改善する、簡潔で効果的な推論サンプリング戦略FreeInitを提案する。 推論中に初期潜伏者の空間的時間的低周波成分を反復的に精製することにより、FreeInitはトレーニングと推論の間の初期化ギャップを補償し、生成結果の主観的外観と時間的一貫性を効果的に改善することができる。 大規模な実験により、FreeInitは、追加のトレーニングなしで様々なテキスト・ビデオ生成モデルの生成結果を継続的に強化することを示した。

Though diffusion-based video generation has witnessed rapid progress, the inference results of existing models still exhibit unsatisfactory temporal consistency and unnatural dynamics. In this paper, we delve deep into the noise initialization of video diffusion models, and discover an implicit training-inference gap that attributes to the unsatisfactory inference quality. Our key findings are: 1) the spatial-temporal frequency distribution of the initial latent at inference is intrinsically different from that for training, and 2) the denoising process is significantly influenced by the low-frequency components of the initial noise. Motivated by these observations, we propose a concise yet effective inference sampling strategy, FreeInit, which significantly improves temporal consistency of videos generated by diffusion models. Through iteratively refining the spatial-temporal low-frequency components of the initial latent during inference, FreeInit is able to compensate the initialization gap between training and inference, thus effectively improving the subject appearance and temporal consistency of generation results. Extensive experiments demonstrate that FreeInit consistently enhances the generation results of various text-to-video generation models without additional training.
翻訳日:2023-12-13 14:41:34 公開日:2023-12-12
# FreeControl:任意の条件による任意のテキスト・画像拡散モデルの学習自由空間制御

FreeControl: Training-Free Spatial Control of Any Text-to-Image Diffusion Model with Any Condition ( http://arxiv.org/abs/2312.07536v1 )

ライセンス: Link先を確認
Sicheng Mo, Fangzhou Mu, Kuan Heng Lin, Yanli Liu, Bochen Guan, Yin Li, Bolei Zhou(参考訳) controlnetのような最近のアプローチは、テキスト・ツー・イメージ(t2i)拡散モデルに対するきめ細かい空間制御を提供する。 しかし、補助モジュールは、各タイプの空間的条件、モデルアーキテクチャ、チェックポイントのために訓練されなければならず、コンテンツ作成プロセス中に人間のデザイナーがaiモデルに伝えたい様々な意図や好みと相反する。 本稿では,複数の条件,アーキテクチャ,チェックポイントを同時にサポートする,制御可能なt2i生成のためのトレーニングフリーなアプローチであるfreecontrolを提案する。 フリーコントロールは、誘導画像と構造アライメントを容易にする構造ガイダンスと、同一種を用いて生成された画像間の外観共有を可能にする外観ガイダンスとをデザインする。 大規模定性的および定量的実験は、様々な事前訓練されたT2IモデルにまたがるFreeControlの優れた性能を示す。 特にfreecontrolは、多くの異なるアーキテクチャやチェックポイントに対するトレーニングフリーな制御を容易にし、既存のトレーニングフリーメソッドのほとんどが失敗する難しい入力条件を可能にし、トレーニングベースのアプローチで競争力のある合成品質を達成する。

Recent approaches such as ControlNet offer users fine-grained spatial control over text-to-image (T2I) diffusion models. However, auxiliary modules have to be trained for each type of spatial condition, model architecture, and checkpoint, putting them at odds with the diverse intents and preferences a human designer would like to convey to the AI models during the content creation process. In this work, we present FreeControl, a training-free approach for controllable T2I generation that supports multiple conditions, architectures, and checkpoints simultaneously. FreeControl designs structure guidance to facilitate the structure alignment with a guidance image, and appearance guidance to enable the appearance sharing between images generated using the same seed. Extensive qualitative and quantitative experiments demonstrate the superior performance of FreeControl across a variety of pre-trained T2I models. In particular, FreeControl facilitates convenient training-free control over many different architectures and checkpoints, allows the challenging input conditions on which most of the existing training-free methods fail, and achieves competitive synthesis quality with training-based approaches.
翻訳日:2023-12-13 14:40:25 公開日:2023-12-12
# 予測を伴わない周波数推定アルゴリズムの改良

Improved Frequency Estimation Algorithms with and without Predictions ( http://arxiv.org/abs/2312.07535v1 )

ライセンス: Link先を確認
Anders Aamand, Justin Y. Chen, Huy L\^e Nguyen, Sandeep Silwal, Ali Vakilian(参考訳) データストリームに現れる要素の頻度を推定することは、大規模データ分析において重要なタスクである。 この問題に対する一般的なスケッチ手法(例えば、CountMinとCountSketch)は、最悪のケースで、推定周波数の誤差を任意の入力に対して確率的に制限することを保証する。 Hsu et al. (2019) の作業は、機械学習を使用して、実行中の特定のデータ分布に合わせてスケッチアルゴリズムをカスタマイズするアイデアを導入した。 特に、彼らの学習による周波数推定アルゴリズムは、学習されたヘビーヒットのオラクルを使用して、ストリームに何度も出現する要素を予測する。 いくつかのパラメータレジームでは、理論上はhsuなどの学習ベースのアルゴリズムを上回っており、予測を使わずに新しいアルゴリズムを与える。 重み付け予測によるアルゴリズムの強化は誤りをさらに減らし、技術状況を改善する。 実験により,本アルゴリズムは従来の手法と比較して,全ての実験において優れた性能を発揮する。

Estimating frequencies of elements appearing in a data stream is a key task in large-scale data analysis. Popular sketching approaches to this problem (e.g., CountMin and CountSketch) come with worst-case guarantees that probabilistically bound the error of the estimated frequencies for any possible input. The work of Hsu et al. (2019) introduced the idea of using machine learning to tailor sketching algorithms to the specific data distribution they are being run on. In particular, their learning-augmented frequency estimation algorithm uses a learned heavy-hitter oracle which predicts which elements will appear many times in the stream. We give a novel algorithm, which in some parameter regimes, already theoretically outperforms the learning based algorithm of Hsu et al. without the use of any predictions. Augmenting our algorithm with heavy-hitter predictions further reduces the error and improves upon the state of the art. Empirically, our algorithms achieve superior performance in all experiments compared to prior approaches.
翻訳日:2023-12-13 14:39:31 公開日:2023-12-12
# 拡散モデルによる宇宙場のエミュレーションとパラメータ推定

Cosmological Field Emulation and Parameter Inference with Diffusion Models ( http://arxiv.org/abs/2312.07534v1 )

ライセンス: Link先を確認
Nayantara Mudur, Carolina Cuesta-Lazaro and Douglas P. Finkbeiner(参考訳) 宇宙シミュレーションは、密度場に関する情報が与えられたフィールドの統計や制約パラメータに与える影響を解明する上で重要な役割を果たす。 我々は拡散生成モデルを利用して宇宙論に重要な2つのタスク -- 入力宇宙論パラメータ$\omega_m$と$\sigma_8$の条件付き冷暗黒物質密度場のエミュレータとして、そして入力フィールドの宇宙論パラメータの制約を返すパラメータ推論モデルとして。 シミュレーション対象分布と整合したパワースペクトルを持つフィールドを生成し,パワースペクトルの変調に対する各パラメータの微妙な効果を捉えることができることを示す。 さらに,パラメータ推論モデルとしての有用性を探求し,宇宙論的パラメータの厳密な制約を求める。

Cosmological simulations play a crucial role in elucidating the effect of physical parameters on the statistics of fields and on constraining parameters given information on density fields. We leverage diffusion generative models to address two tasks of importance to cosmology -- as an emulator for cold dark matter density fields conditional on input cosmological parameters $\Omega_m$ and $\sigma_8$, and as a parameter inference model that can return constraints on the cosmological parameters of an input field. We show that the model is able to generate fields with power spectra that are consistent with those of the simulated target distribution, and capture the subtle effect of each parameter on modulations in the power spectrum. We additionally explore their utility as parameter inference models and find that we can obtain tight constraints on cosmological parameters.
翻訳日:2023-12-13 14:39:14 公開日:2023-12-12
# VILA:ビジュアル言語モデルの事前トレーニングについて

VILA: On Pre-training for Visual Language Models ( http://arxiv.org/abs/2312.07533v1 )

ライセンス: Link先を確認
Ji Lin, Hongxu Yin, Wei Ping, Yao Lu, Pavlo Molchanov, Andrew Tao, Huizi Mao, Jan Kautz, Mohammad Shoeybi, Song Han(参考訳) ビジュアル言語モデル(vlms)は、最近大きな言語モデルの成功とともに急速に進歩した。 視覚的インプットでLLMを拡張するための視覚的インストラクションチューニングへの取り組みが増えているが、両モードで共同モデリングを行うことを学ぶ視覚言語事前学習プロセスの詳細な研究は欠如している。 本研究では, ステップバイステップ制御可能な比較により, LLM を VLM へ拡張することで, VLM の事前学習のための設計オプションを検討する。 1) 事前学習中のLLMの凍結は,ゼロショット性能が向上するが,LLMの凍結を必要とする非コンテキスト学習能力が欠如していること,(2) インターリーブされた事前学習データが有用であるのに対して,画像とテキストのペアだけでは最適ではないこと,(3) 微調整時に画像テキストデータにテキストのみの命令データを再解釈することで,テキストのみのタスクの劣化を軽減できるだけでなく,VLMタスクの精度も向上する,という3つの主な結果を紹介した。 強化された事前トレーニングレシピでは、Visual LanguageモデルファミリであるVILAを構築し、ベルやホイッスルを使わずに主要なベンチマークで最先端のモデル、例えばLLaVA-1.5を一貫して上回ります。 マルチモーダル事前学習は、マルチイメージ推論、強化されたコンテキスト内学習、より良い世界知識を含む、VILAの魅力的な特性を明らかにするのに役立つ。

Visual language models (VLMs) rapidly progressed with the recent success of large language models. There have been growing efforts on visual instruction tuning to extend the LLM with visual inputs, but lacks an in-depth study of the visual language pre-training process, where the model learns to perform joint modeling on both modalities. In this work, we examine the design options for VLM pre-training by augmenting LLM towards VLM through step-by-step controllable comparisons. We introduce three main findings: (1) freezing LLMs during pre-training can achieve decent zero-shot performance, but lack in-context learning capability, which requires unfreezing the LLM; (2) interleaved pre-training data is beneficial whereas image-text pairs alone are not optimal; (3) re-blending text-only instruction data to image-text data during instruction fine-tuning not only remedies the degradation of text-only tasks, but also boosts VLM task accuracy. With an enhanced pre-training recipe we build VILA, a Visual Language model family that consistently outperforms the state-of-the-art models, e.g., LLaVA-1.5, across main benchmarks without bells and whistles. Multi-modal pre-training also helps unveil appealing properties of VILA, including multi-image reasoning, enhanced in-context learning, and better world knowledge.
翻訳日:2023-12-13 14:38:58 公開日:2023-12-12
# ファウンデーションモデルの埋め込み

Interfacing Foundation Models' Embeddings ( http://arxiv.org/abs/2312.07532v1 )

ライセンス: Link先を確認
Xueyan Zou, Linjie Li, Jianfeng Wang, Jianwei Yang, Mingyu Ding, Zhengyuan Yang, Feng Li, Hao Zhang, Shilong Liu, Arul Aravinthan, Yong Jae Lee, Lijuan Wang(参考訳) 基礎モデルの埋め込みを整合させる汎用インターフェースであるFINDを提案する。 ティーザー図に示すように、基礎モデルの重みをチューニングしない軽量トランスフォーマーインターフェースは、統一されたイメージ(セグメンテーション)とデータセットレベルの理解に十分である。 提案するインタフェースは,(1) 一般化可能な属性を持つ。 これは、検索、セグメンテーション、 \textit{etc} にまたがる様々なタスクに適用できる。 アーキテクチャと重みは同じです。 2)プロトタイパブル。 異なるタスクは、注意マスクと埋め込みタイプをプロトタイピングすることで実装できる。 (3)拡張可能。 提案したインタフェースは、新しいタスクと新しいモデルに適応する。 (4) インターリーブ可能。 マルチタスクマルチモーダルトレーニングの利点により、提案したインタフェースはインターリーブされた共有埋め込み空間を生成する。 インターリーブ埋め込み空間を考慮したFIND-Benchを導入し,COCOデータセットに新たなトレーニングと評価アノテーションを導入し,セグメンテーションと検索を行う。 提案手法は、FIND-Benchにおける最先端性能と、標準検索およびセグメンテーション設定における競合性能を実現する。 トレーニング、評価、およびデモコードとデータセットはhttps://github.com/UX-Decoder/FINDでリリースされた。

We present FIND, a generalized interface for aligning foundation models' embeddings. As shown in teaser figure, a lightweight transformer interface without tuning any foundation model weights is enough for a unified image (segmentation) and dataset-level (retrieval) understanding. The proposed interface has the following favorable attributes: (1) Generalizable. It applies to various tasks spanning retrieval, segmentation, \textit{etc.}, under the same architecture and weights. (2) Prototypable. Different tasks are able to be implemented through prototyping attention masks and embedding types. (3) Extendable. The proposed interface is adaptive to new tasks, and new models. (4) Interleavable. With the benefit of multi-task multi-modal training, the proposed interface creates an interleaved shared embedding space. In light of the interleaved embedding space, we introduce the FIND-Bench, which introduces new training and evaluation annotations to the COCO dataset for interleave segmentation and retrieval. Our approach achieves state-of-the-art performance on FIND-Bench and competitive performance on standard retrieval and segmentation settings. The training, evaluation, and demo code as well as the dataset have been released at https://github.com/UX-Decoder/FIND.
翻訳日:2023-12-13 14:38:24 公開日:2023-12-12
# WHAM:正確な3Dモーションで世界の人間を再構築

WHAM: Reconstructing World-grounded Humans with Accurate 3D Motion ( http://arxiv.org/abs/2312.07531v1 )

ライセンス: Link先を確認
Soyong Shin, Juyong Kim, Eni Halilaj, Michael J. Black(参考訳) 映像からの3次元人間の動きの推定は急速に進んでいるが、現在の手法にはいくつかの重要な制限がある。 第一に、ほとんどの方法は、カメラ座標中の人間を推定する。 第二に、地球座標で人間を推定する先行研究は、しばしば平らな地面平面を仮定し、足の滑りを発生させる。 第三に、最も正確な方法は計算コストのかかる最適化パイプラインに依存し、オフラインアプリケーションでの使用を制限する。 最後に、既存のビデオベースメソッドは、シングルフレームメソッドよりも驚くほど正確ではない。 この制限をWHAM(World-grounded Humans with Accurate Motion)で解決し,映像から3次元人間の動きを高精度かつ効率的に再現する。 WHAMはモーションキャプチャデータを使用して2Dキーポイントシーケンスを3Dに引き上げることを学び、動画機能と融合し、モーションコンテキストと視覚情報を統合する。 WHAMは、SLAM法から推定されるカメラ角速度と人間の動きを利用して、身体のグローバルな軌道を推定する。 我々はこれを、WHAMが階段を登るなど様々な条件で人間の動きを捉えることのできる接触認識軌道修正法と組み合わせる。 WHAMは、既存の3Dモーションリカバリ手法を、複数のWildベンチマークで上回っている。 コードはhttp://wham.is.tue.mpg.de/で研究目的に利用できる。

The estimation of 3D human motion from video has progressed rapidly but current methods still have several key limitations. First, most methods estimate the human in camera coordinates. Second, prior work on estimating humans in global coordinates often assumes a flat ground plane and produces foot sliding. Third, the most accurate methods rely on computationally expensive optimization pipelines, limiting their use to offline applications. Finally, existing video-based methods are surprisingly less accurate than single-frame methods. We address these limitations with WHAM (World-grounded Humans with Accurate Motion), which accurately and efficiently reconstructs 3D human motion in a global coordinate system from video. WHAM learns to lift 2D keypoint sequences to 3D using motion capture data and fuses this with video features, integrating motion context and visual information. WHAM exploits camera angular velocity estimated from a SLAM method together with human motion to estimate the body's global trajectory. We combine this with a contact-aware trajectory refinement method that lets WHAM capture human motion in diverse conditions, such as climbing stairs. WHAM outperforms all existing 3D human motion recovery methods across multiple in-the-wild benchmarks. Code will be available for research purposes at http://wham.is.tue.mpg.de/
翻訳日:2023-12-13 14:38:07 公開日:2023-12-12
# 多層視覚誘導による弱めの3次元物体検出

Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance ( http://arxiv.org/abs/2312.07530v1 )

ライセンス: Link先を確認
Kuan-Chih Huang, Yi-Hsuan Tsai, Ming-Hsuan Yang(参考訳) 弱教師付き3Dオブジェクト検出は、アノテーションコストの低い3D検出器を学習することを目的としている。 正確な3Dアノテーションをほとんど依存していない従来の作業とは異なり、我々は3Dラベルを必要とせずに2Dドメインと3Dドメイン間の制約をどのように活用するかを研究するフレームワークを提案する。 具体的には、3つの視点から視覚データを用いて2Dドメインと3Dドメインの接続を確立する。 まず、LiDARと画像の特徴をオブジェクト認識領域に基づいて調整する特徴レベルの制約を設計する。 次に、出力レベル制約を開発し、2dと投影された3dボックス推定の重複を強制する。 最後に、トレーニングレベルの制約を利用して、視覚データと整合した正確で一貫性のある3D擬似ラベルを生成する。 提案した3つの制約の有効性を検証するため,KITTIデータセットの広範な実験を行った。 提案手法は,500フレームの3Dアノテーションを使用する手法と競合し,最先端のアプローチに対して良好な性能を発揮する。 コードとモデルはhttps://github.com/kuanchihhuang/VG-W3D.comで公開される。

Weakly supervised 3D object detection aims to learn a 3D detector with lower annotation cost, e.g., 2D labels. Unlike prior work which still relies on few accurate 3D annotations, we propose a framework to study how to leverage constraints between 2D and 3D domains without requiring any 3D labels. Specifically, we employ visual data from three perspectives to establish connections between 2D and 3D domains. First, we design a feature-level constraint to align LiDAR and image features based on object-aware regions. Second, the output-level constraint is developed to enforce the overlap between 2D and projected 3D box estimations. Finally, the training-level constraint is utilized by producing accurate and consistent 3D pseudo-labels that align with the visual data. We conduct extensive experiments on the KITTI dataset to validate the effectiveness of the proposed three constraints. Without using any 3D labels, our method achieves favorable performance against state-of-the-art approaches and is competitive with the method that uses 500-frame 3D annotations. Code and models will be made publicly available at https://github.com/kuanchihhuang/VG-W3D.
翻訳日:2023-12-13 14:37:46 公開日:2023-12-12
# トポロジカル障害とその回避方法

Topological Obstructions and How to Avoid Them ( http://arxiv.org/abs/2312.07529v1 )

ライセンス: Link先を確認
Babak Esmaeili, Robin Walters, Heiko Zimmermann, Jan-Willem van de Meent(参考訳) 幾何学的帰納的バイアスをモデルに組み込むことは解釈可能性や一般化に役立つが、特定の幾何学的構造へのエンコーディングは位相的制約が課されるため困難である。 本稿では,幾何学的潜在空間を持つエンコーダの訓練に対する障害を理論的に経験的に特徴付ける。 局所最適性は特異点(例えば自己切断)や不正確な次数や巻数によって生じる可能性があることを示す。 次に,多モード変動分布の定義により,フローの正規化がこれらの障害を回避できる可能性について論じる。 この観察に触発されて,データポイントを幾何学空間上のマルチモーダル分布にマッピングし,実験的に2つの領域でモデルを評価するフローベースモデルを提案する。 トレーニング中の安定性の向上と,同相エンコーダに収束する確率の向上を観察した。

Incorporating geometric inductive biases into models can aid interpretability and generalization, but encoding to a specific geometric structure can be challenging due to the imposed topological constraints. In this paper, we theoretically and empirically characterize obstructions to training encoders with geometric latent spaces. We show that local optima can arise due to singularities (e.g. self-intersection) or due to an incorrect degree or winding number. We then discuss how normalizing flows can potentially circumvent these obstructions by defining multimodal variational distributions. Inspired by this observation, we propose a new flow-based model that maps data points to multimodal distributions over geometric spaces and empirically evaluate our model on 2 domains. We observe improved stability during training and a higher chance of converging to a homeomorphic encoder.
翻訳日:2023-12-13 14:37:26 公開日:2023-12-12
# BaRDa: 事実の正確性と推論能力を分離した信念と推論データセット

BaRDa: A Belief and Reasoning Dataset that Separates Factual Accuracy and Reasoning Ability ( http://arxiv.org/abs/2312.07527v1 )

ライセンス: Link先を確認
Peter Clark, Bhavana Dalvi Mishra, Oyvind Tafjord(参考訳) 現代の言語モデル(LM)のパフォーマンスを比較するベンチマークは数多くあるが、エンドタスク評価では*現実的正確性*(真実)と*推論能力*(信念の含意を正しく報告する意味での「合理性」または「正直」)の概念を説明できることが多い。 私たちの目標は、これらの2つの概念を明確に区別するデータセットです。 我々のアプローチは、人間に注釈された *entailment tree* のコレクションを活用し、拡張することであり、善と悪の両方の推論の連鎖を表現し、真と偽の事実、特に偽の例を含む混合を使用して、信念バイアス(「コンテンツ効果」とも呼ばれる)を避ける。 BaRDaと呼ばれるデータセットには、6681の真と2319の偽の文を使用して3000のentailments(1787の有効、1213の無効)が含まれている。 GPT3(curie)/GPT3(davinici)/3.5/4の4つのGPTシリーズモデルでテストしたところ、実際の精度(真実)スコアは74.1/80.6/82.6/87.1、推論精度スコアは63.1/78.0/71.8/79.2である。 これは、事実の正確性と関連する推論を改善するためのモデルの明確な進歩を示し、データセットは、これらの2つの概念をよりきれいに分離し、定量化する新しいベンチマークを提供する。

While there are numerous benchmarks comparing the performance of modern language models (LMs), end-task evaluations often conflate notions of *factual accuracy* ("truth") and *reasoning ability* ("rationality", or "honesty" in the sense of correctly reporting implications of beliefs). Our goal is a dataset that clearly distinguishes these two notions. Our approach is to leverage and extend a collection of human-annotated *entailment trees*, engineered to express both good and bad chains of reasoning, and using a mixture of true and false facts, in particular including counterfactual examples, to avoid belief bias (also known as the "content effect"). The resulting dataset, called BaRDa, contains 3000 entailments (1787 valid, 1213 invalid), using 6681 true and 2319 false statements. Testing on four GPT-series models, GPT3(curie)/GPT3(davinici)/3.5/4, we find factual accuracy (truth) scores of 74.1/80.6/82.6/87.1 and reasoning accuracy scores of 63.1/78.0/71.8/79.2. This shows the clear progression of models towards improved factual accuracy and entailment reasoning, and the dataset provides a new benchmark that more cleanly separates and quantifies these two notions.
翻訳日:2023-12-13 14:37:11 公開日:2023-12-12
# RTMO:高性能一段階実時間マルチパーソンポーズ推定を目指して

RTMO: Towards High-Performance One-Stage Real-Time Multi-Person Pose Estimation ( http://arxiv.org/abs/2312.07526v1 )

ライセンス: Link先を確認
Peng Lu, Tao Jiang, Yining Li, Xiangtai Li, Kai Chen, Wenming Yang(参考訳) リアルタイム多人数ポーズ推定は,速度と精度のバランスにおいて大きな課題を呈する。 画像中の人の数が増えるにつれて2段階のトップダウンの手法は遅くなるが、既存の1段階の手法は高い精度とリアルタイムのパフォーマンスを同時に提供できないことが多い。 本稿では,一段階のポーズ推定フレームワークRTMOを紹介する。このフレームワークは,YOLOアーキテクチャ内の2つの1次元ヒートマップを用いてキーポイントを表現することで,座標分類をシームレスに統合する。 本研究では、座標分類と密度予測モデルの不整合に対処するために、動的座標分類器と熱マップ学習のための調整された損失関数を提案する。 RTMOは最先端のワンステージポーズ推定器より優れており、COCO上のAPは1.1%高く、同じバックボーンで約9倍速く動作している。 我々の最大のモデルであるRTMO-lは、COCO val2017で74.8%AP、単一のV100 GPUで141FPSに達し、その効率と精度を示している。 コードとモデルはhttps://github.com/open-mmlab/mmpose/tree/dev-1.x/projects/rtmoで入手できる。

Real-time multi-person pose estimation presents significant challenges in balancing speed and precision. While two-stage top-down methods slow down as the number of people in the image increases, existing one-stage methods often fail to simultaneously deliver high accuracy and real-time performance. This paper introduces RTMO, a one-stage pose estimation framework that seamlessly integrates coordinate classification by representing keypoints using dual 1-D heatmaps within the YOLO architecture, achieving accuracy comparable to top-down methods while maintaining high speed. We propose a dynamic coordinate classifier and a tailored loss function for heatmap learning, specifically designed to address the incompatibilities between coordinate classification and dense prediction models. RTMO outperforms state-of-the-art one-stage pose estimators, achieving 1.1% higher AP on COCO while operating about 9 times faster with the same backbone. Our largest model, RTMO-l, attains 74.8% AP on COCO val2017 and 141 FPS on a single V100 GPU, demonstrating its efficiency and accuracy. The code and models are available at https://github.com/open-mmlab/mmpose/tree/dev-1.x/projects/rtmo.
翻訳日:2023-12-13 14:36:40 公開日:2023-12-12
# すべての否定が参加に値するわけではない: リンク予測のためのメタブートストラップネガティブサンプリングフレームワーク

Not All Negatives Are Worth Attending to: Meta-Bootstrapping Negative Sampling Framework for Link Prediction ( http://arxiv.org/abs/2312.04815v2 )

ライセンス: Link先を確認
Yakun Wang, Binbin Hu, Shuo Yang, Meiqi Zhu, Zhiqiang Zhang, Qiyang Zhang, Jun Zhou, Guo Ye, Huimei He(参考訳) グラフニューラルネットワーク(GNN)の急速な開発はリンク予測の増大を促し、様々なアプリケーションで有望なパフォーマンスを達成する。 残念ながら、包括的な分析によって、動的負のサンプル(DNS)を持つ現在のリンク予測器が、"easy" と "hard" のサンプル間の移行現象に悩まされていることがわかりました。 そこで本研究では,現在の負サンプリングベースリンク予測器を改善するための汎用プラグインとして,MeBNSフレームワークを提案する。 特に,メタラーニング支援型教員-学生GNN(MST-GNN)を精巧に考案し,教師-学生アーキテクチャ上に構築した「易しい」サンプルと「堅い」サンプルの移動を緩和するだけでなく,GNNが「堅い」サンプルをきめ細かな方法で識別するのを支援するメタラーニングベースサンプル再重みモジュールも備えた。 MST-GNNの学習を効果的に指導するために,教師と学生のGNNを支援するためのStructure enhanced Training Data Generator (STD-Generator)とUncertainty based Meta Data Collector (UMD-Collector)を用意した。 大規模な実験により、MeBNSは6つのリンク予測ベンチマークデータセットで顕著な性能を達成した。

The rapid development of graph neural networks (GNNs) encourages the rising of link prediction, achieving promising performance with various applications. Unfortunately, through a comprehensive analysis, we surprisingly find that current link predictors with dynamic negative samplers (DNSs) suffer from the migration phenomenon between "easy" and "hard" samples, which goes against the preference of DNS of choosing "hard" negatives, thus severely hindering capability. Towards this end, we propose the MeBNS framework, serving as a general plugin that can potentially improve current negative sampling based link predictors. In particular, we elaborately devise a Meta-learning Supported Teacher-student GNN (MST-GNN) that is not only built upon teacher-student architecture for alleviating the migration between "easy" and "hard" samples but also equipped with a meta learning based sample re-weighting module for helping the student GNN distinguish "hard" samples in a fine-grained manner. To effectively guide the learning of MST-GNN, we prepare a Structure enhanced Training Data Generator (STD-Generator) and an Uncertainty based Meta Data Collector (UMD-Collector) for supporting the teacher and student GNN, respectively. Extensive experiments show that the MeBNS achieves remarkable performance across six link prediction benchmark datasets.
翻訳日:2023-12-13 12:51:50 公開日:2023-12-12
# dreamvideo: 画像保持とテキストガイダンスを備えた高忠実度画像対ビデオ生成

DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance ( http://arxiv.org/abs/2312.03018v3 )

ライセンス: Link先を確認
Cong Wang, Jiaxi Gu, Panwen Hu, Songcen Xu, Hang Xu, Xiaodan Liang(参考訳) 参照画像からビデオを生成することを目的とした画像対ビデオ生成が注目されている。 既存の方法は、事前訓練されたテキスト誘導画像拡散モデルから画像誘導映像生成モデルへの拡張を試みる。 それにもかかわらず、これらの手法は、浅い画像誘導と時間的一貫性の欠如により、低い忠実度または時間の経過とともに点滅する。 これらの問題に対処するために,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。 参照画像をセマンティックレベルで拡散処理に統合する代わりに、DreamVideoはコンボリューション層を通じて参照画像を認識し、ノイズの多いラテントをモデル入力として特徴を結合する。 これにより、参照画像の詳細を最大限に保存することができる。 さらに、ダブルコンディショナライザフリーのガイダンスを組み込むことで、さまざまなプロンプトテキストを提供することで、異なるアクションの動画に単一のイメージを向けることができる。 これは制御可能なビデオ生成に重要な意味を持ち、幅広い応用可能性を持っている。 我々は,公開データセットの総合的な実験を行い,定量的および定性的な結果から,本手法が最先端の手法より優れていることを示す。 特に忠実度では,このモデルには強力な画像保持能力があり,他の画像から映像までのモデルと比較して,UCF101で最高の結果が得られる。 また、異なるテキストプロンプトを与えることで、正確な制御が可能となる。 このモデルのさらなる詳細と包括的な結果はhttps://anonymous0769.github.io/dreamvideo/で示されます。

Image-to-video generation, which aims to generate a video starting from a given reference image, has drawn great attention. Existing methods try to extend pre-trained text-guided image diffusion models to image-guided video generation models. Nevertheless, these methods often result in either low fidelity or flickering over time due to their limitation to shallow image guidance and poor temporal consistency. To tackle these problems, we propose a high-fidelity image-to-video generation method by devising a frame retention branch based on a pre-trained video diffusion model, named DreamVideo. Instead of integrating the reference image into the diffusion process at a semantic level, our DreamVideo perceives the reference image via convolution layers and concatenates the features with the noisy latents as model input. By this means, the details of the reference image can be preserved to the greatest extent. In addition, by incorporating double-condition classifier-free guidance, a single image can be directed to videos of different actions by providing varying prompt texts. This has significant implications for controllable video generation and holds broad application prospects. We conduct comprehensive experiments on the public dataset, and both quantitative and qualitative results indicate that our method outperforms the state-of-the-art method. Especially for fidelity, our model has a powerful image retention ability and delivers the best results in UCF101 compared to other image-to-video models to our best knowledge. Also, precise control can be achieved by giving different text prompts. Further details and comprehensive results of our model will be presented in https://anonymous0769.github.io/DreamVideo/.
翻訳日:2023-12-13 12:51:19 公開日:2023-12-12
# スパース精密行列の圧縮回復

Compressive Recovery of Sparse Precision Matrices ( http://arxiv.org/abs/2311.04673v3 )

ライセンス: Link先を確認
Titouan Vayer, Etienne Lasalle, R\'emi Gribonval and Paulo Gon\c{c}alves(参考訳) 我々は、$d$変数の統計的関係をデータセットからモデル化するグラフを、$n$サンプル$X \in \mathbb{R}^{n \times d}$で学習する問題を考える。 標準的アプローチは、データを適切に説明するガウスのグラフィカルモデルの精度行列 $\theta$ を探索する量である。 しかし、ほとんどの最大確率に基づく推定値は、通常経験的共分散行列の$d^{2}$の値を保存する必要がある。 本研究では, 圧縮的視点を採用し, 非線形乱数特徴を用いた$X$ から低次元ベクトル $m \ll d^{2}$ を慎重に設計し, データの \emph{sketch} からスパース $\Theta$ を推定することを目的とする。 例えば、$\Theta$(あるいは条件番号)のスペクトル上の特定の仮定の下で、$m=\Omega\left((d+2k)\log(d)\right)$のスケッチから、$k$が基礎となるグラフのエッジの最大数であることを示す。 これらの情報理論的な保証は圧縮センシング理論に触発され、制限された等長性とインスタンス最適デコーダを含む。 本研究では,グラフィカルラッソに基づく反復アルゴリズムを具体的デノイザーとして,実用的リカバリを実現する可能性について検討する。 合成データセットに対する我々のアプローチとグラフィカルラッソを比較し、データセットを圧縮しても良好な性能を示す。

We consider the problem of learning a graph modeling the statistical relations of the $d$ variables from a dataset with $n$ samples $X \in \mathbb{R}^{n \times d}$. Standard approaches amount to searching for a precision matrix $\Theta$ representative of a Gaussian graphical model that adequately explains the data. However, most maximum likelihood-based estimators usually require storing the $d^{2}$ values of the empirical covariance matrix, which can become prohibitive in a high-dimensional setting. In this work, we adopt a compressive viewpoint and aim to estimate a sparse $\Theta$ from a \emph{sketch} of the data, i.e. a low-dimensional vector of size $m \ll d^{2}$ carefully designed from $X$ using non-linear random features. Under certain assumptions on the spectrum of $\Theta$ (or its condition number), we show that it is possible to estimate it from a sketch of size $m=\Omega\left((d+2k)\log(d)\right)$ where $k$ is the maximal number of edges of the underlying graph. These information-theoretic guarantees are inspired by compressed sensing theory and involve restricted isometry properties and instance optimal decoders. We investigate the possibility of achieving practical recovery with an iterative algorithm based on the graphical lasso, viewed as a specific denoiser. We compare our approach and graphical lasso on synthetic datasets, demonstrating its favorable performance even when the dataset is compressed.
翻訳日:2023-12-13 12:50:54 公開日:2023-12-12
# factoformer:自己教師付き事前学習による因子化ハイパースペクトルトランスフォーマ

FactoFormer: Factorized Hyperspectral Transformers with Self-Supervised Pre-Training ( http://arxiv.org/abs/2309.09431v3 )

ライセンス: Link先を確認
Shaheer Mohamed, Maryam Haghighat, Tharindu Fernando, Sridha Sridharan, Clinton Fookes, Peyman Moghadam(参考訳) ハイパースペクトル画像(HSI)は、豊富なスペクトルと空間情報を含む。 自然言語処理やコンピュータビジョンの分野でのトランスフォーマーの成功により、入力データ内の長距離依存を学習する能力が示され、最近の研究は、HSIのためのトランスフォーマーの使用に焦点を当てている。 しかし、現在最先端のハイパースペクトル変換器は、入力されたHSIサンプルをスペクトル次元に沿ってトークン化するだけで、空間情報の未利用をもたらす。 さらに、トランスはデータハングリーであることが知られており、その性能は大規模な事前トレーニングに大きく依存している。 したがって、hsiトランスフォーマのポテンシャルは十分に実現されていない。 これらの限界を克服するために, 自己教師付き事前学習手順を組み込んだ新しい因子化スペクトル空間トランスを提案する。 入力の分解により、スペクトル変換器と空間変換器はハイパースペクトルデータキューブ内の相互作用をよりよく捉えることができる。 マスク画像モデリングの事前学習に着想を得て,スペクトルおよび空間トランスフォーマーを事前学習するための効率的なマスク戦略を考案する。 我々は、HSI分類タスクのための6つの公開データセットの実験を行い、我々のモデルがすべてのデータセットで最先端のパフォーマンスを達成することを示す。 私たちのモデルのコードは、https://github.com/csiro-robotics/factoformerで利用可能になります。

Hyperspectral images (HSIs) contain rich spectral and spatial information. Motivated by the success of transformers in the field of natural language processing and computer vision where they have shown the ability to learn long range dependencies within input data, recent research has focused on using transformers for HSIs. However, current state-of-the-art hyperspectral transformers only tokenize the input HSI sample along the spectral dimension, resulting in the under-utilization of spatial information. Moreover, transformers are known to be data-hungry and their performance relies heavily on large-scale pre-training, which is challenging due to limited annotated hyperspectral data. Therefore, the full potential of HSI transformers has not been fully realized. To overcome these limitations, we propose a novel factorized spectral-spatial transformer that incorporates factorized self-supervised pre-training procedures, leading to significant improvements in performance. The factorization of the inputs allows the spectral and spatial transformers to better capture the interactions within the hyperspectral data cubes. Inspired by masked image modeling pre-training, we also devise efficient masking strategies for pre-training each of the spectral and spatial transformers. We conduct experiments on six publicly available datasets for HSI classification task and demonstrate that our model achieves state-of-the-art performance in all the datasets. The code for our model will be made available at https://github.com/csiro-robotics/factoformer.
翻訳日:2023-12-13 12:50:26 公開日:2023-12-12
# ジョセフソンパラメトリック発振器を用いたイジングマシン

A Josephson Parametric Oscillator-Based Ising Machine ( http://arxiv.org/abs/2309.03407v3 )

ライセンス: Link先を確認
Sasan Razmkhah, Mehdi Kamal, Nobuyuki Yoshikawa, Massoud Pedram(参考訳) イジングマシンはNP完全組合せ最適化問題を高速に解くための有望なソリューションとして登場し、従来の計算手法の能力を超越している。 加熱過程におけるハミルトン基底状態の効率的な決定により、Isingマシンは最適化問題に対処するためにCPUを効率的に補完することができる。 これらのイジングマシンを実現するために、二安定発振器はイジングモデルの原子スピンと相互作用をエミュレートするために必須である。 本研究では,スケーラブルな超伝導イジングマシンの基本単位として,ジョセフソンパラメトリック振動子(jpo)を用いたタイル構造を提案する。 超伝導体ベースの発振器であるJPOの双安定特性を利用して、提案機は7.5GHzの周波数で動作でき、CMOSベースのシステムに比べて消費電力は大幅に少ない(3桁)。 さらに、提案したタイル構造とLHZアーキテクチャとの互換性により、大規模統合の実現性が保証される。 騒音環境下でのタイルのシミュレーションを行い,その機能検証を行った。 その結果をハミルトニアンモデルの解析解と比較し,その動作特性を検証した。 この検証は、Isingマシンの実装におけるJPOベースのタイルの有効性と有効性を示し、量子コンピューティングにおける効率的でスケーラブルな組合せ最適化のための新しい道を開く。

Ising machines have emerged as a promising solution for rapidly solving NP-complete combinatorial optimization problems, surpassing the capabilities of traditional computing methods. By efficiently determining the ground state of the Hamiltonian during the annealing process, Ising machines can effectively complement CPUs in tackling optimization challenges. To realize these Ising machines, a bi-stable oscillator is essential to emulate the atomic spins and interactions of the Ising model. This study introduces a Josephson parametric oscillator (JPO)-based tile structure, serving as a fundamental unit for scalable superconductor-based Ising machines. Leveraging the bi-stable nature of JPOs, which are superconductor-based oscillators, the proposed machine can operate at frequencies of 7.5GHz while consuming significantly less power (by three orders of magnitude) than CMOS-based systems. Furthermore, the compatibility of the proposed tile structure with the Lechner-Hauke-Zoller (LHZ) architecture ensures its viability for large-scale integration. We conducted simulations of the tile in a noisy environment to validate its functionality. We verified its operational characteristics by comparing the results with the analytical solution of its Hamiltonian model. This verification demonstrates the feasibility and effectiveness of the JPO-based tile in implementing Ising machines, opening new avenues for efficient and scalable combinatorial optimization in quantum computing.
翻訳日:2023-12-13 12:50:00 公開日:2023-12-12
# MedShapeNet - コンピュータビジョンのための3D医療形状の大規模データセット

MedShapeNet -- A Large-Scale Dataset of 3D Medical Shapes for Computer Vision ( http://arxiv.org/abs/2308.16139v5 )

ライセンス: Link先を確認
Jianning Li, Zongwei Zhou, Jiancheng Yang, Antonio Pepe, Christina Gsaxner, Gijs Luijten, Chongyu Qu, Tiezheng Zhang, Xiaoxi Chen, Wenxuan Li, Marek Wodzinski, Paul Friedrich, Kangxian Xie, Yuan Jin, Narmada Ambigapathy, Enrico Nasca, Naida Solak, Gian Marco Melito, Viet Duc Vu, Afaque R. Memon, Christopher Schlachta, Sandrine De Ribaupierre, Rajnikant Patel, Roy Eagleson, Xiaojun Chen, Heinrich M\"achler, Jan Stefan Kirschke, Ezequiel de la Rosa, Patrick Ferdinand Christ, Hongwei Bran Li, David G. Ellis, Michele R. Aizenberg, Sergios Gatidis, Thomas K\"ustner, Nadya Shusharina, Nicholas Heller, Vincent Andrearczyk, Adrien Depeursinge, Mathieu Hatt, Anjany Sekuboyina, Maximilian L\"offler, Hans Liebl, Reuben Dorent, Tom Vercauteren, Jonathan Shapey, Aaron Kujawa, Stefan Cornelissen, Patrick Langenhuizen, Achraf Ben-Hamadou, Ahmed Rekik, Sergi Pujades, Edmond Boyer, Federico Bolelli, Costantino Grana, Luca Lumetti, Hamidreza Salehi, Jun Ma, Yao Zhang, Ramtin Gharleghi, Susann Beier, Arcot Sowmya, Eduardo A. Garza-Villarreal, Thania Balducci, Diego Angeles-Valdez, Roberto Souza, Leticia Rittner, Richard Frayne, Yuanfeng Ji, Vincenzo Ferrari, Soumick Chatterjee, Florian Dubost, Stefanie Schreiber, Hendrik Mattern, Oliver Speck, Daniel Haehn, Christoph John, Andreas N\"urnberger, Jo\~ao Pedrosa, Carlos Ferreira, Guilherme Aresta, Ant\'onio Cunha, Aur\'elio Campilho, Yannick Suter, Jose Garcia, Alain Lalande, Vicky Vandenbossche, Aline Van Oevelen, Kate Duquesne, Hamza Mekhzoum, Jef Vandemeulebroucke, Emmanuel Audenaert, Claudia Krebs, Timo van Leeuwen, Evie Vereecke, Hauke Heidemeyer, Rainer R\"ohrig, Frank H\"olzle, Vahid Badeli, Kathrin Krieger, Matthias Gunzer, Jianxu Chen, Timo van Meegdenburg, Amin Dada, Miriam Balzer, Jana Fragemann, Frederic Jonske, Moritz Rempe, Stanislav Malorodov, Fin H. Bahnsen, Constantin Seibold, Alexander Jaus, Zdravko Marinov, Paul F. Jaeger, Rainer Stiefelhagen, Ana Sofia Santos, Mariana Lindo, Andr\'e Ferreira, Victor Alves, Michael Kamp, Amr Abourayya, Felix Nensa, Fabian H\"orst, Alexander Brehmer, Lukas Heine, Yannik Hanusrichter, Martin We{\ss}ling, Marcel Dudda, Lars E. Podleska, Matthias A. Fink, Julius Keyl, Konstantinos Tserpes, Moon-Sung Kim, Shireen Elhabian, Hans Lamecker, D\v{z}enan Zuki\'c, Beatriz Paniagua, Christian Wachinger, Martin Urschler, Luc Duong, Jakob Wasserthal, Peter F. Hoyer, Oliver Basu, Thomas Maal, Max J. H. Witjes, Gregor Schiele, Ti-chiun Chang, Seyed-Ahmad Ahmadi, Ping Luo, Bjoern Menze, Mauricio Reyes, Thomas M. Deserno, Christos Davatzikos, Behrus Puladi, Pascal Fua, Alan L. Yuille, Jens Kleesiek, Jan Egger(参考訳) 深層学習以前は、形状は物体を記述するのによく用いられていた。 今日では、医療画像における最先端のSOTAアルゴリズムは、主にボクセルグリッド、メッシュ、ポイントクラウド、暗黙の表面モデルを使用するコンピュータビジョンから分岐している。 これは、プレミアビジョンカンファレンスにおける多くの形状関連出版物や、ShapeNet(約51,300モデル)やプリンストンモデルNet(127,915モデル)の人気が高まっている。 医療領域では, 解剖学的形状(骨, 臓器, 血管など)の膨大なコレクションと, medshapenetと呼ばれる手術器具の3dモデルを提案し, 医療応用へのデータ駆動型視覚アルゴリズムの変換を容易にし, sota視覚アルゴリズムを医療問題に適用する。 特異な特徴として,実際の患者の画像データから形状のほとんどを直接モデル化する。 現在、MedShapeNetには23のデータセットがあり、10万以上の形状がアノテーション(地上真実)と組み合わせられている。 私たちのデータは、webインターフェースとpython application programming interface(api)を介して自由にアクセスでき、判別、再構成、変動ベンチマーク、仮想、拡張、混合現実、および3dプリンティングの様々なアプリケーションで使用できます。 例として,脳腫瘍の分類,顔面と頭蓋骨の再建,マルチクラス解剖学の完成,教育,3Dプリンティングの分野での応用例を挙げる。 将来的には、データを拡張し、インターフェースを改善します。 プロジェクトページは以下の通りである。 https://medshapenet.ikim.nrw/ and https://github.com/Jianningli/medshapenet-feedback

Prior to the deep learning era, shape was commonly used to describe the objects. Nowadays, state-of-the-art (SOTA) algorithms in medical imaging are predominantly diverging from computer vision, where voxel grids, meshes, point clouds, and implicit surface models are used. This is seen from numerous shape-related publications in premier vision conferences as well as the growing popularity of ShapeNet (about 51,300 models) and Princeton ModelNet (127,915 models). For the medical domain, we present a large collection of anatomical shapes (e.g., bones, organs, vessels) and 3D models of surgical instrument, called MedShapeNet, created to facilitate the translation of data-driven vision algorithms to medical applications and to adapt SOTA vision algorithms to medical problems. As a unique feature, we directly model the majority of shapes on the imaging data of real patients. As of today, MedShapeNet includes 23 dataset with more than 100,000 shapes that are paired with annotations (ground truth). Our data is freely accessible via a web interface and a Python application programming interface (API) and can be used for discriminative, reconstructive, and variational benchmarks as well as various applications in virtual, augmented, or mixed reality, and 3D printing. Exemplary, we present use cases in the fields of classification of brain tumors, facial and skull reconstructions, multi-class anatomy completion, education, and 3D printing. In future, we will extend the data and improve the interfaces. The project pages are: https://medshapenet.ikim.nrw/ and https://github.com/Jianningli/medshapenet-feedback
翻訳日:2023-12-13 12:49:38 公開日:2023-12-12
# コードLLMのための高リソースから低リソースプログラミング言語への知識伝達

Knowledge Transfer from High-Resource to Low-Resource Programming Languages for Code LLMs ( http://arxiv.org/abs/2308.09895v4 )

ライセンス: Link先を確認
Federico Cassano, John Gouwar, Francesca Lucchetti, Claire Schlesinger, Carolyn Jane Anderson, Michael Greenberg, Abhinav Jangda, Arjun Guha(参考訳) ここ数年、Large Language Models of Code (Code LLM) はプログラミングの実践に大きな影響を与え始めています。 プログラミング言語やソフトウェア工学の研究のためのビルディングブロックとして、コードLLMが登場している。 しかし、Code LLMはトレーニングデータ(例えば、Java、Python、JavaScript)でよく表現されているが、トレーニングデータに制限のある低リソースの言語では苦労しているプログラミング言語に対して印象的な結果をもたらす。 低リソース言語にはOCaml、Racket、その他いくつかのものがある。 本稿では,半合成データを用いた低リソース言語におけるコードLLMの性能向上に有効な手法を提案する。 我々のアプローチであるMultiPL-Tは、ハイソース言語からのトレーニングデータを、以下の方法で低リソース言語のトレーニングデータに変換する。 1) Code LLMを使用して、高ソース言語からのコメント付きコードのテストを合成し、テストカバレッジの低い欠陥テストとコードをフィルタリングします。 2) コードLLMを使用してPythonコードをターゲットとする低リソース言語に翻訳し,テストを使用して翻訳を検証する。 このアプローチを適用して,Julia,Lua,OCaml,R,Racketの各トレーニング項目を数万個生成する。 さらに、オープンモデル(starcoderbase)とオープントレーニングデータ(スタック)を使用して、ベンチマークを廃止し、ライセンスに違反することなくモデルをトレーニングし、さもなければできない実験を実行します。 MultiPL-T 生成データを用いて,Julia,Lua,OCaml,R,Racket 用の StarCoderBase と Code Llama の微調整版を提示する。 確立されたベンチマーク(MultiPL-E)では、これらのモデルは他のオープンコードLLMよりも優れている。 MultiPL-Tアプローチは、新しい言語に簡単に適用でき、トレーニングのような代替手段よりもはるかに効率的で効果的である。

Over the past few years, Large Language Models of Code (Code LLMs) have started to have a significant impact on programming practice. Code LLMs are also emerging as building blocks for research in programming languages and software engineering. However, Code LLMs produce impressive results on programming languages that are well represented in their training data (e.g., Java, Python, or JavaScript), but struggle with low-resource languages that have limited training data available. Low resource languages include OCaml, Racket, and several others. This paper presents an effective approach for boosting the performance of Code LLMs on low-resource languages using semi-synthetic data. Our approach, MultiPL-T, translates training data from high-resource languages into training data for low-resource languages in the following way. 1) We use a Code LLM to synthesize tests for commented code from a high-resource language, filtering out faulty tests and code with low test coverage. 2) We use a Code LLM to translate Python code to a target low-resource language, and use tests to validate the translation. We apply this approach to generate tens of thousands of validated training items for Julia, Lua, OCaml, R, and Racket. Furthermore, we use an open model (StarCoderBase) with open training data (The Stack), which allows us to decontaminate benchmarks, train models without violating licenses, and run experiments that could not otherwise be done. With MultiPL-T generated data, we present fine-tuned versions of StarCoderBase and Code Llama for Julia, Lua, OCaml, R, and Racket. On established benchmarks (MultiPL-E), these models outperform other open Code LLMs. The MultiPL-T approach is easy to apply to new languages, and is significantly more efficient and effective than alternatives such as training longer.
翻訳日:2023-12-13 12:49:09 公開日:2023-12-12
# particle swarm optimization-back propagation neural network と multivariate gaussian-hidden markov model に基づくストックピッキングとタイミングの定量的融合戦略

A quantitative fusion strategy of stock picking and timing based on Particle Swarm Optimized-Back Propagation Neural Network and Multivariate Gaussian-Hidden Markov Model ( http://arxiv.org/abs/2312.05756v2 )

ライセンス: Link先を確認
Huajian Li, Longjian Li, Jiajian Liang, Weinan Dai(参考訳) 近年、機械学習(ml)は経済的意思決定、投資予測、リスク管理などに効果的なアプローチと新しい技術をもたらし、経済・金融環境の可変かつ複雑な性質に対処している。 本研究は,多変量ガウス・ハイデンマルコフモデル (MGHMM) とParticle Swarm (PSO-BPNN) に最適化されたバックプロパゲーションニューラルネットワークを活用することで,株価タイミングとピッキング戦略を組み合わせた定量的融合モデルを提案する。 利得化、中和、標準化、CSI300指数の戻りを含む52の因子間の情報係数(IC)が算出された後、主成分分析(PCA)による次元減少後のPSO-BPNNの入力に向かう候補因子として、上位にランクインする要因の所定の量を選択し、次いで一定量の成分在庫を出力する。 その後,過去4年間の卓越したパフォーマンスを示すBox-Cox変換後のCSI300インデックスデータを入力して訓練したMGHMMが出力するスクリーニング株と株式市場の状態に基づいて,予測と取引を行う。 最終的に、従来の予測と取引の方法は、中国株式市場の戦略と比較される。 本論文で提示する株式の選定とタイミングを取り入れた融合戦略は、金融分析の革新的な技術である。

In recent years, machine learning (ML) has brought effective approaches and novel techniques to economic decision, investment forecasting, and risk management, etc., coping the variable and intricate nature of economic and financial environments. For the investment in stock market, this research introduces a pioneering quantitative fusion model combining stock timing and picking strategy by leveraging the Multivariate Gaussian-Hidden Markov Model (MGHMM) and Back Propagation Neural Network optimized by Particle Swarm (PSO-BPNN). After the information coefficients (IC) between fifty-two factors that have been winsorized, neutralized and standardized and the return of CSI 300 index are calculated, a given amount of factors that rank ahead are choose to be candidate factors heading for the input of PSO-BPNN after dimension reduction by Principal Component Analysis (PCA), followed by a certain amount of constituent stocks outputted. Subsequently, we conduct the prediction and trading on the basis of the screening stocks and stock market state outputted by MGHMM trained using inputting CSI 300 index data after Box-Cox transformation, bespeaking eximious performance during the period of past four years. Ultimately, some conventional forecast and trading methods are compared with our strategy in Chinese stock market. Our fusion strategy incorporating stock picking and timing presented in this article provide a innovative technique for financial analysis.
翻訳日:2023-12-13 12:45:57 公開日:2023-12-12
# Learngene Poolによる可変サイズモデルの構築

Building Variable-sized Models via Learngene Pool ( http://arxiv.org/abs/2312.05743v2 )

ライセンス: Link先を確認
Boyu Shi, Shiyu Xia, Xu Yang, Haokun Chen, Zhiqiang Kou, Xin Geng(参考訳) 近年、ステッチ可能なニューラルネットワーク(sn-net)が、いくつかの事前学習されたネットワークを縫い合わせて、複雑さとパフォーマンスのトレードオフが異なる多数のネットワークを迅速に構築するために提案されている。 このようにして、さまざまなリソース制約のあるアプリケーションシナリオで使用できる可変サイズのネットワークの設計やトレーニングの負担を軽減することができる。 しかし、SN-Netはまだいくつかの課題に直面している。 1) 独立に訓練された複数のアンカーからのスティッチは、高いストレージリソース消費をもたらす。 2) SN-Netはリソース制約の少ないモデルを構築するための課題に直面している。 3). SN-Netは縫い目層に未学習の初期化法を使用し、最終的な性能を制限している。 最近提案されたlearnergeneフレームワークに動機づけられたこれらの課題を克服するために,learnergene poolと呼ばれる新しい手法を提案する。 簡単に言うと、learnergeneは、大きな事前学習されたモデルから重要な知識を小さな部分(learnergeneと呼ばれる)に蒸留し、その小さな部分をいくつかの可変サイズのモデルに拡張する。 提案手法では,ネットワークブロックを学習ジェネレーションインスタンスとして使用して学習ジェネレーションプールを構築する複数の小モデルに事前学習した大モデルを蒸留する。 1つの大きなモデルしか使われないので、SN-Netとしてもっと大きなモデルを格納する必要はなく、蒸留後、低いリソース制約を満たすために小さなモデルを構築するために小さな学習遺伝子インスタンスを作成できる。 また、インスタンス間で学習可能な変換行列を挿入して可変サイズのモデルに縫い付け、これらのモデルの性能を向上させる。 その結果, SN-Netと比較して, 提案したLeargen Poolの有効性が検証された。

Recently, Stitchable Neural Networks (SN-Net) is proposed to stitch some pre-trained networks for quickly building numerous networks with different complexity and performance trade-offs. In this way, the burdens of designing or training the variable-sized networks, which can be used in application scenarios with diverse resource constraints, are alleviated. However, SN-Net still faces a few challenges. 1) Stitching from multiple independently pre-trained anchors introduces high storage resource consumption. 2) SN-Net faces challenges to build smaller models for low resource constraints. 3). SN-Net uses an unlearned initialization method for stitch layers, limiting the final performance. To overcome these challenges, motivated by the recently proposed Learngene framework, we propose a novel method called Learngene Pool. Briefly, Learngene distills the critical knowledge from a large pre-trained model into a small part (termed as learngene) and then expands this small part into a few variable-sized models. In our proposed method, we distill one pretrained large model into multiple small models whose network blocks are used as learngene instances to construct the learngene pool. Since only one large model is used, we do not need to store more large models as SN-Net and after distilling, smaller learngene instances can be created to build small models to satisfy low resource constraints. We also insert learnable transformation matrices between the instances to stitch them into variable-sized models to improve the performance of these models. Exhaustive experiments have been implemented and the results validate the effectiveness of the proposed Learngene Pool compared with SN-Net.
翻訳日:2023-12-13 12:45:27 公開日:2023-12-12
# FP8-BERT:変圧器の後の量子化

FP8-BERT: Post-Training Quantization for Transformer ( http://arxiv.org/abs/2312.05725v2 )

ライセンス: Link先を確認
Jianwei Li, Tianchi Zhang, Ian En-Hsu Yen, Dongkuan Xu(参考訳) BERTのようなトランスフォーマーベースのモデルは、幅広い自然言語処理タスクに広く応用されている。 しかし、避けられない副作用は、大規模なメモリストレージと本番環境にデプロイする際の推論コストである。 量子化はコストを緩和する一般的な方法の1つである。 しかし、INT8データフォーマットに基づく以前の8ビット量子化戦略は、PTQ(Post-Training Quantization)方式の精度の低下に悩まされるか、高価な量子化アウェアトレーニング(QAT)プロセスを必要とする。 近年、H100のような商用AIコンピューティングプラットフォームにおいて、新しい数値形式FP8(すなわち浮動小数点8ビット)が提案されサポートされている。 本稿では,簡単なキャリブレーションとフォーマット変換プロセスを用いて,精度を損なうことなく後トレーニング量子化を行う方法としてのfp8の有効性を実証的に検証した。 我々は NVIDIA Corp. (2022) が提案した FP8 標準を GLUE と SQuAD v1.1 データセットのBERT 変種に関する広範な実験に採用し、FP8 を用いた PTQ が INT8 の精度を大幅に向上できることを示す。

Transformer-based models, such as BERT, have been widely applied in a wide range of natural language processing tasks. However, one inevitable side effect is that they require massive memory storage and inference cost when deployed in production. Quantization is one of the popularized ways to alleviate the cost. However, the previous 8-bit quantization strategy based on INT8 data format either suffers from the degradation of accuracy in a Post-Training Quantization (PTQ) fashion or requires an expensive Quantization-Aware Training (QAT) process. Recently, a new numeric format FP8 (i.e. floating-point of 8-bits) has been proposed and supported in commercial AI computing platforms such as H100. In this paper, we empirically validate the effectiveness of FP8 as a way to do Post-Training Quantization without significant loss of accuracy, with a simple calibration and format conversion process. We adopt the FP8 standard proposed by NVIDIA Corp. (2022) in our extensive experiments of BERT variants on GLUE and SQuAD v1.1 datasets, and show that PTQ with FP8 can significantly improve the accuracy upon that with INT8, to the extent of the full-precision model.
翻訳日:2023-12-13 12:44:59 公開日:2023-12-12
# 自己監視型学習におけるCNNの反撃:より大きいカーネルサイズは必要なもの

The Counterattack of CNNs in Self-Supervised Learning: Larger Kernel Size might be All You Need ( http://arxiv.org/abs/2312.05695v2 )

ライセンス: Link先を確認
Tianjin Huang, Tianlong Chen, Zhangyang Wang and Shiwei Liu(参考訳) ビジョントランスフォーマーは、その優れたスケーリングトレンドのおかげで、コンピュータビジョンにおいて急速に蜂起し、徐々に畳み込みニューラルネットワーク(cnns)を置き換える。 自己教師付き学習(SSL)に関する最近の研究は、トランスフォーマーのバックボーンがCNNよりもはるかに強力な結果を示し続けているシム事前学習タスクを導入している。 SSLの文脈では、トランスフォーマーやセルフアテンションモジュールは本質的にCNNよりも適していると考えるようになった。 しかし、cnnによるsslの以前の技術が標準のresnetsをバックボーンとして選んだとしても、そのアーキテクチャの有効性は先進的なビジョントランスフォーマーに遅れをとっていることが知られていることは注目に値する。 したがって、SSLの最近の進歩に自己注意操作が不可欠なのか、それともCNNがより高度な設計で同じ卓越性を提供できるのか、まだ不明である。 TransformerとCNN間のSSLパフォーマンスギャップを埋めることができますか? これらの興味深い質問に答えるために、最近提案されたより強力なラガーカーネルCNNアーキテクチャに自己教師付き事前トレーニングを適用し、SSL性能においてトランスフォーマーとリンゴ対アップルの比較を行う。 以上の結果から,畳み込みカーネルサイズをスケールアップするだけでなく,小さな変更を加えるだけで,最高のSSLトレーニングトランスフォーマーと同程度に動作する純粋なCNN SSLアーキテクチャを構築できることが示唆された。 驚くべきことに、ダウンストリームタスク \textt{ms coco}検出とセグメンテーションに転送すると、sslプリトレーニングcnnモデル(100epochsでトレーニング)は、300epochプリトレーニングトランスフォーマーと同等の性能を実現します。 この研究が、自己監督学習バックボーンに必要な(あるいはそうでない)ものを理解する上で有効であることを願っています。

Vision Transformers have been rapidly uprising in computer vision thanks to their outstanding scaling trends, and gradually replacing convolutional neural networks (CNNs). Recent works on self-supervised learning (SSL) introduce siamese pre-training tasks, on which Transformer backbones continue to demonstrate ever stronger results than CNNs. People come to believe that Transformers or self-attention modules are inherently more suitable than CNNs in the context of SSL. However, it is noteworthy that most if not all prior arts of SSL with CNNs chose the standard ResNets as their backbones, whose architecture effectiveness is known to already lag behind advanced Vision Transformers. Therefore, it remains unclear whether the self-attention operation is crucial for the recent advances in SSL - or CNNs can deliver the same excellence with more advanced designs, too? Can we close the SSL performance gap between Transformers and CNNs? To answer these intriguing questions, we apply self-supervised pre-training to the recently proposed, stronger lager-kernel CNN architecture and conduct an apple-to-apple comparison with Transformers, in their SSL performance. Our results show that we are able to build pure CNN SSL architectures that perform on par with or better than the best SSL-trained Transformers, by just scaling up convolutional kernel sizes besides other small tweaks. Impressively, when transferring to the downstream tasks \texttt{MS COCO} detection and segmentation, our SSL pre-trained CNN model (trained in 100 epochs) achieves the same good performance as the 300-epoch pre-trained Transformer counterpart. We hope this work can help to better understand what is essential (or not) for self-supervised learning backbones.
翻訳日:2023-12-13 12:44:33 公開日:2023-12-12
# 大規模言語モデルにおけるモデル圧縮が社会バイアスに及ぼす影響の理解

Understanding the Effect of Model Compression on Social Bias in Large Language Models ( http://arxiv.org/abs/2312.05662v2 )

ライセンス: Link先を確認
Gustavo Gon\c{c}alves and Emma Strubell(参考訳) 大規模言語モデル(LLM)は、そのテキストの社会的バイアスに適合する膨大なウェブテキストのコーパスを自己監督で訓練する。 介入がなければ、これらの社会的偏見は下流のタスクにおけるモデルの予測に留まり、表現的害をもたらす。 事前訓練中に学習した不適切な社会バイアスの影響を軽減するために、多くの戦略が提案されている。 同時に, LLMの計算負担を軽減するため, モデル圧縮法がますます普及している。 両方のアプローチの人気と必要性にもかかわらず、この2つの間の相互作用を探求する作業はほとんど行われていない。 我々は, LLMの社会的バイアス測定における量化と知識蒸留によるモデル圧縮の影響について, 慎重に検討した。 より長い事前訓練とより大きなモデルにより、社会的偏見が高まり、量子化は、最初の事前訓練時間の20%のトレードオフで正則化効果を示した。

Large Language Models (LLMs) trained with self-supervision on vast corpora of web text fit to the social biases of that text. Without intervention, these social biases persist in the model's predictions in downstream tasks, leading to representational harm. Many strategies have been proposed to mitigate the effects of inappropriate social biases learned during pretraining. Simultaneously, methods for model compression have become increasingly popular to reduce the computational burden of LLMs. Despite the popularity and need for both approaches, little work has been done to explore the interplay between these two. We perform a carefully controlled study of the impact of model compression via quantization and knowledge distillation on measures of social bias in LLMs. Longer pretraining and larger models led to higher social bias, and quantization showed a regularizer effect with its best trade-off around 20% of the original pretraining time.
翻訳日:2023-12-13 12:43:58 公開日:2023-12-12
# Sim-GPT: GPTアノテートデータによるテキスト類似性

Sim-GPT: Text Similarity via GPT Annotated Data ( http://arxiv.org/abs/2312.05603v2 )

ライセンス: Link先を確認
Shuhe Wang, Beiming Cao, Shengyu Zhang, Xiaoya Li, Jiwei Li, Fei Wu, Guoyin Wang, Eduard Hovy(参考訳) テキスト類似度スコアを持つ高品質なラベル付き文対の大規模なコレクションがないため、Semantic Textual similarity (STS) の既存のアプローチは、主に教師なしの技法や、NLIベースのデータセットのようなテキスト類似度に部分的に相関した信号に頼っている。 本稿では,GPTアノテートデータ(略してSim-GPT)を用いてテキスト類似度を測定する手法を提案する。 Sim-GPTの中核となる考え方は、STSモデルがトレーニングされていることに基づいて、GPT-4を使用してSTSラベルでデータを生成することである。 Sim-GPT フレームワークは LLM を利用して,STS のトレーニング信号の欠如のギャップを埋める,相当量の信頼できるアノテートデータを提供する。 Sim-GPTはBERTやRoBERTaをバックボーンとして1回生成したデータセットでトレーニングされている。 GPT-4 (371K)の例に基づいて訓練されたSim-GPTは、広く使用されている7つのSTSベンチマークでSOTAのパフォーマンスを出力する:+0.99 over supervised-SimCSE、+0.42 over the current SOTA PromCSEモデル。 フィールドのさらなる進歩を促進するため、GPT-4からモデルと371Kの注釈付きサンプルをそれぞれリリースする。 コード、モデル、注釈付きデータは、https://github.com/ShuheWang1998/Sim-GPTで入手できる。

Due to the lack of a large collection of high-quality labeled sentence pairs with textual similarity scores, existing approaches for Semantic Textual Similarity (STS) mostly rely on unsupervised techniques or training signals that are only partially correlated with textual similarity, e.g., NLI-based datasets. To tackle this issue, in this paper, we propose the strategy of measuring text similarity via GPT annotated data (Sim-GPT for short). The core idea of Sim-GPT is to generate data with STS labels using GPT-4, based on which an STS model is trained. Sim-GPT framework utilizes LLMs to provide a substantial amount of reliable annotated data filling the gap of the lack of training signals for STS. Sim-GPT is trained on a one-time generated dataset using BERT or RoBERTa as the backbone, which offers long-term savings in cost and speed compared to repeatedly invoking LLMs for each sentence pair. Trained on the examples from GPT-4 (371K), Sim-GPT yields SOTA performances on the widely-used seven STS benchmarks: +0.99 over supervised-SimCSE, and +0.42 over the current SOTA PromCSE model. To encourage further advancements of the field, we release both models and the 371K annotated examples from GPT-4. Code, models and annotated data are available at: https://github.com/ShuheWang1998/Sim-GPT.
翻訳日:2023-12-13 12:43:43 公開日:2023-12-12
# 多粒度因果構造学習

Multi-granularity Causal Structure Learning ( http://arxiv.org/abs/2312.05549v2 )

ライセンス: Link先を確認
Jiaxuan Liang, Jun Wang, Guoxian Yu, Shuyin Xia, Guoyin Wang(参考訳) 自然現象の根底にある因果的メカニズムを解き明かし、モデル化し、理解することは、無数の科学分野にまたがる基本的な取り組みである。 一方、データから因果関係を発見すると、新たな知識が生まれる。 既存の因果学習アルゴリズムは主に変数の孤立した効果に注目し、複数の変数の複雑な相互作用とその集団行動パターンを見落としている。 さらに、高次元データの有用性は因果アルゴリズムの時間的コストをかなり正確に表す。 本稿では,まずスパースオートエンコーダを利用したMgCSL(Multi-granularity Causal Structure Learning)と呼ばれる新しい手法を開発し,粗粒化戦略と微粒化からマクロ化への因果的抽象化について検討する。 MgCSLはマルチグラニュラリティ変数を入力として、多層パーセプトロンを訓練し、変数間の因果関係を探索する。 高次元データに対する有効性を高めるため、MgCSLは変数間の有向非巡回グラフを積極的に探索する単純化された非循環性制約を導入する。 実験の結果,MgCSLは競争ベースラインより優れており,fMRIデータセット上の因果関係が説明できることがわかった。

Unveil, model, and comprehend the causal mechanisms underpinning natural phenomena stand as fundamental endeavors across myriad scientific disciplines. Meanwhile, new knowledge emerges when discovering causal relationships from data. Existing causal learning algorithms predominantly focus on the isolated effects of variables, overlook the intricate interplay of multiple variables and their collective behavioral patterns. Furthermore, the ubiquity of high-dimensional data exacts a substantial temporal cost for causal algorithms. In this paper, we develop a novel method called MgCSL (Multi-granularity Causal Structure Learning), which first leverages sparse auto-encoder to explore coarse-graining strategies and causal abstractions from micro-variables to macro-ones. MgCSL then takes multi-granularity variables as inputs to train multilayer perceptrons and to delve the causality between variables. To enhance the efficacy on high-dimensional data, MgCSL introduces a simplified acyclicity constraint to adeptly search the directed acyclic graph among variables. Experimental results show that MgCSL outperforms competitive baselines, and finds out explainable causal connections on fMRI datasets.
翻訳日:2023-12-13 12:43:13 公開日:2023-12-12
# 歴史問題:大規模言語モデルにおける時間的知識編集

History Matters: Temporal Knowledge Editing in Large Language Model ( http://arxiv.org/abs/2312.05497v2 )

ライセンス: Link先を確認
Xunjian Yin, Jin Jiang, Liming Yang, Xiaojun Wan(参考訳) 大規模な言語モデルに格納されている知識を修正または更新するという命令的なタスクは、2つの異なるソースから生じます。 モデル編集における主要な取り組みは、異なる理由から生じる2つの異なるカテゴリの編集を詳述し、モデルの本来の知識を直接新しい知識に修正する。 しかし,モデルの本来の知識の保存は依然として適切である。 特に、世界力学の進化によってモデルの知識が時代遅れになった場合、新しい知識を統合しつつ、歴史的知識の記憶を保たなければならない。 本稿では,時間的知識編集(TKE)の課題を紹介し,現在のモデル編集手法を評価するためのベンチマークATOKe(Assessment of Temporal Knowledge Editing)を確立する。 既存のモデル編集手法はモデルに新しい知識を思い出させるのに有効であるが、そのモデル編集は歴史的知識を壊滅的に忘れてしまう。 そこで,本稿では,歴史的知識と新たな知識を同時に編集し,各事実の時間に対するモデルの予測を最適化する既存の編集モデルを強化するための,時間目標付きマルチ編集(meto)という,単純で汎用的なフレームワークを提案する。 評価の結果、ATOKeはまだ難しいが、METOは新たな知識の学習の有効性を維持し、また、履歴知識の活用における編集モデルの性能を大幅に向上させる。

The imperative task of revising or updating the knowledge stored within large language models arises from two distinct sources: intrinsic errors inherent in the model which should be corrected and outdated knowledge due to external shifts in the real world which should be updated. Prevailing efforts in model editing conflate these two distinct categories of edits arising from distinct reasons and directly modify the original knowledge in models into new knowledge. However, we argue that preserving the model's original knowledge remains pertinent. Specifically, if a model's knowledge becomes outdated due to evolving worldly dynamics, it should retain recollection of the historical knowledge while integrating the newfound knowledge. In this work, we introduce the task of Temporal Knowledge Editing (TKE) and establish a benchmark AToKe (Assessment of TempOral Knowledge Editing) to evaluate current model editing methods. We find that while existing model editing methods are effective at making models remember new knowledge, the edited model catastrophically forgets historical knowledge. To address this gap, we propose a simple and general framework termed Multi-Editing with Time Objective (METO) for enhancing existing editing models, which edits both historical and new knowledge concurrently and optimizes the model's prediction for the time of each fact. Our assessments demonstrate that while AToKe is still difficult, METO maintains the effectiveness of learning new knowledge and meanwhile substantially improves the performance of edited models on utilizing historical knowledge.
翻訳日:2023-12-13 12:42:34 公開日:2023-12-12
# 命令表現によるフレキシブル・クロスモーダル・ステガノグラフィ

Flexible Cross-Modal Steganography via Implicit Representations ( http://arxiv.org/abs/2312.05496v2 )

ライセンス: Link先を確認
Seoyun Yang, Sojeong Song, Chang D. Yoo, Junmo Kim(参考訳) Inlicit Neural Representation (INR) という, モーダル非依存な新しいデータ形式に基づく, 革新的な無損失ステガノグラフィーフレームワーク INRSteg を提案する。 我々のフレームワークは、高品質なステゴデータを保証するために、元のINRを変更することなく、複数のデータを効果的に隠蔽すると考えられる。 秘密データの神経表現は、まず、重複しない独立した経路を有するように連結され、次いで、連結されたネットワークの重み行列の対角ブロックに重み凍結技術を適用して秘密データの重みを保存するとともに、重み行列の対角ブロックの余剰自由重量をカバーデータに取付ける。 本フレームワークは,画像,音声,映像,3次元形状など,さまざまなモードに対して,探索されていないクロスモーダルステガノグラフィを動作させることができる。

We present INRSteg, an innovative lossless steganography framework based on a novel data form Implicit Neural Representations (INR) that is modal-agnostic. Our framework is considered for effectively hiding multiple data without altering the original INR ensuring high-quality stego data. The neural representations of secret data are first concatenated to have independent paths that do not overlap, then weight freezing techniques are applied to the diagonal blocks of the weight matrices for the concatenated network to preserve the weights of secret data while additional free weights in the off-diagonal blocks of weight matrices are fitted to the cover data. Our framework can perform unexplored cross-modal steganography for various modalities including image, audio, video, and 3D shapes, and it achieves state-of-the-art performance compared to previous intra-modal steganographic methods.
翻訳日:2023-12-13 12:42:08 公開日:2023-12-12
# 大規模言語モデルはゲーム理論において合理的プレイヤーとして生き残るか? 系統解析

Can Large Language Models Serve as Rational Players in Game Theory? A Systematic Analysis ( http://arxiv.org/abs/2312.05488v2 )

ライセンス: Link先を確認
Caoyun Fan, Jindou Chen, Yaohui Jin, Hao He(参考訳) 分析ツールとしてのゲーム理論は、社会科学研究において人間の行動を分析するために頻繁に用いられる。 LLM(Large Language Models)と人間(Human)の行動の整合性が高いことから,ゲーム実験における人間の代用としてLLMを採用することが期待できる。 しかし、LLMとゲーム理論の組み合わせに関する多くの実証的研究にもかかわらず、ゲーム理論におけるLLMの能力境界は未だ不明である。 本研究では,ゲーム理論の文脈でLLMを体系的に解析する。 具体的には、合理性はゲーム理論の基本原理として、プレイヤーの行動を評価する指標として機能し、明確な欲求を構築し、不確実性に対する信念を洗練し、最適な行動を取る。 そこで,従来の3つのゲーム(ディクターゲーム,ロックペーパーシッサ,リングネットワークゲーム)を選択し,これら3つの側面においてllmがどの程度合理性を達成できるかを分析する。 実験結果から,現在最先端のLDM (GPT-4) でさえ,ゲーム理論における人間とはかなり異なることが示唆された。 例えば、llmは一般的でない好みに基づいて欲望を構築するのに苦労し、多くの単純なパターンからの信条の洗練に失敗し、アクションを取るときに洗練された信条を見落としたり修正したりする。 したがって,社会科学の分野でのゲーム実験にLSMを導入するには,より注意が必要である。

Game theory, as an analytical tool, is frequently utilized to analyze human behavior in social science research. With the high alignment between the behavior of Large Language Models (LLMs) and humans, a promising research direction is to employ LLMs as substitutes for humans in game experiments, enabling social science research. However, despite numerous empirical researches on the combination of LLMs and game theory, the capability boundaries of LLMs in game theory remain unclear. In this research, we endeavor to systematically analyze LLMs in the context of game theory. Specifically, rationality, as the fundamental principle of game theory, serves as the metric for evaluating players' behavior -- building a clear desire, refining belief about uncertainty, and taking optimal actions. Accordingly, we select three classical games (dictator game, Rock-Paper-Scissors, and ring-network game) to analyze to what extent LLMs can achieve rationality in these three aspects. The experimental results indicate that even the current state-of-the-art LLM (GPT-4) exhibits substantial disparities compared to humans in game theory. For instance, LLMs struggle to build desires based on uncommon preferences, fail to refine belief from many simple patterns, and may overlook or modify refined belief when taking actions. Therefore, we consider that introducing LLMs into game experiments in the field of social science should be approached with greater caution.
翻訳日:2023-12-13 12:41:48 公開日:2023-12-12
# 悪い生徒が優れた教師を作る: アクティブラーニングは大規模視覚理解を加速する

Bad Students Make Great Teachers: Active Learning Accelerates Large-Scale Visual Understanding ( http://arxiv.org/abs/2312.05328v2 )

ライセンス: Link先を確認
Talfan Evans, Shreya Pathak, Hamza Merzic, Jonathan Schwarz, Ryutaro Tanno, Olivier J. Henaff(参考訳) オンラインデータ選択ポリシーを用いた大規模事前学習の高速化手法を提案する。 モデルに基づくデータ選択は、一様サンプリングで訓練されたモデルの性能に到達するのに必要な計算量を削減できることを示す。 この「計算陽性」体制を可能にする重要な洞察は、小さなモデルは、スコアデータに費やされた計算を劇的にスケールダウンできるが、学習者のトレーニングを著しく加速させるような、はるかに大きなモデルを失うための良いプロキシを提供するということである。 . これらのデータ選択ポリシーは、データセットやタスクをまたいで強く一般化し、オフザシェルフモデルとトレーニングシーケンスを再利用することによって、データのスコアリングのオーバーヘッドをさらに減らすための道を開く。 JFTの視覚分類器とALIGNのマルチモーダルモデルの視覚分類器の学習には,46%,51%のトレーニング更新が必要であり,最大25%の総計算量が必要であった。 最後に、我々のパラダイムは、大規模な画像テキストデータセットのキュレーションにシームレスに適用し、複数のマルチモーダル転送タスクと事前トレーニングレジームにおいて、新たな最先端技術を生み出します。

We propose a method for accelerating large-scale pre-training with online data selection policies. For the first time, we demonstrate that model-based data selection can reduce the total computation needed to reach the performance of models trained with uniform sampling. The key insight which enables this "compute-positive" regime is that small models provide good proxies for the loss of much larger models, such that computation spent on scoring data can be drastically scaled down but still significantly accelerate training of the learner.. These data selection policies also strongly generalize across datasets and tasks, opening an avenue for further amortizing the overhead of data scoring by re-using off-the-shelf models and training sequences. Our methods, ClassAct and ActiveCLIP, require 46% and 51% fewer training updates and up to 25% less total computation when training visual classifiers on JFT and multimodal models on ALIGN, respectively. Finally, our paradigm seamlessly applies to the curation of large-scale image-text datasets, yielding a new state-of-the-art in several multimodal transfer tasks and pre-training regimes.
翻訳日:2023-12-13 12:41:23 公開日:2023-12-12
# PathFinder:マルチステップ推論パスに関するガイド付き検索

PathFinder: Guided Search over Multi-Step Reasoning Paths ( http://arxiv.org/abs/2312.05180v2 )

ライセンス: Link先を確認
Olga Golovneva, Sean O'Brien, Ramakanth Pasunuru, Tianlu Wang, Luke Zettlemoyer, Maryam Fazel-Zarandi, Asli Celikyilmaz(参考訳) 近年の大規模言語モデルの発展に伴い、思考の連鎖のような手法が推論の連鎖を誘発し、推論タスクの結果を改善することが示されている。 しかし、複数の推論ステップを必要とするタスクは、まだ最先端のモデルに重大な課題をもたらしている。 ビーム探索アルゴリズムからインスピレーションを得て,木探索に基づく推論経路生成手法であるPathFinderを提案する。 様々なサンプリング方法とパラメータによって実現される動的デコードの統合により、多様な分岐とマルチホップ推論が強化される。 PathFinderは制約付き推論を使用して、新しい品質制約、刈り取り、探索手法を統合して、生成の効率性と品質を向上させる。 さらに、候補選択を改善するためのスコアとランキング機能も備えている。 提案手法は,3つの複雑な算術および常識推論タスクの競合ベースラインを平均6%向上させる。 モデルでは, 長い未知の推論連鎖によく一般化し, 大きな分岐因子を持つビーム探索に類似した複雑さを反映している。

With recent advancements in large language models, methods like chain-of-thought prompting to elicit reasoning chains have been shown to improve results on reasoning tasks. However, tasks that require multiple steps of reasoning still pose significant challenges to state-of-the-art models. Drawing inspiration from the beam search algorithm, we propose PathFinder, a tree-search-based reasoning path generation approach. It enhances diverse branching and multi-hop reasoning through the integration of dynamic decoding, enabled by varying sampling methods and parameters. Using constrained reasoning, PathFinder integrates novel quality constraints, pruning, and exploration methods to enhance the efficiency and the quality of generation. Moreover, it includes scoring and ranking features to improve candidate selection. Our approach outperforms competitive baselines on three complex arithmetic and commonsense reasoning tasks by 6% on average. Our model generalizes well to longer, unseen reasoning chains, reflecting similar complexities to beam search with large branching factors.
翻訳日:2023-12-13 12:41:01 公開日:2023-12-12
# 異常点におけるセンサ感度のパラメトリック向上

Parametrically enhancing sensor sensitivity at an exceptional point ( http://arxiv.org/abs/2312.05057v2 )

ライセンス: Link先を確認
P. Djorw\'e, M. Asjad, Y. Pennec, D. Dutykh, and B. Djafari-Rouhani(参考訳) 本研究では,非エルミート光学質量センサの感度を高める手法を提案する。 ベンチマークシステムは、メカニカル共振器が機械的に結合された2つの結合光メカニカルシステムで構成されている。 光キャビティは青色または赤色のデチューンレーザーによって駆動され、それぞれ利得と損失を生成する。 さらに、メカニカル共振器はバネ定数の変調によりパラメトリック駆動される。 光駆動場の特定の強度とパラメトリック駆動がなければ、システムは例外点(EP)を特徴とする。 機械的周波数への摂動(散逸)はepの分割(シフト)を誘発し、摂動強度の平方根としてスケールし、従来の光機械センサと比較して感度-因子の強化をもたらす。 シフトシナリオによって引き起こされる感度向上は、分裂現象に基づくものに比べて弱い。 パラメトリック駆動を切り替えることで、両方のセンシング方式の感度が大幅に向上し、センサの性能が向上する。 また,光共振器の出力スペクトルと透過特性の解析により,これらの結果を確認した。 また,EP感度の向上に加えて,分割・シフトシナリオ下でのセンシングに対する非線形効果も明らかにした。 この研究は、非エルミート質量センサの感度を高める新しいメカニズムに光を当て、ナノ粒子や汚染物質の検出や水処理のセンサー性能を向上させる方法に光を当てている。

We propose a scheme to enhance the sensitivity of Non-Hermitian optomechanical mass-sensors. The benchmark system consists of two coupled optomechanical systems where the mechanical resonators are mechanically coupled. The optical cavities are driven either by a blue or red detuned laser to produce gain and loss, respectively. Moreover, the mechanical resonators are parametrically driven through the modulation of their spring constant. For a specific strength of the optical driving field and without parametric driving, the system features an Exceptional Point (EP). Any perturbation to the mechanical frequency (dissipation) induces a splitting (shifting) of the EP, which scales as the square root of the perturbation strength, resulting in a sensitivity-factor enhancement compared with conventional optomechanical sensors. The sensitivity enhancement induced by the shifting scenario is weak as compared to the one based on the splitting phenomenon. By switching on parametric driving, the sensitivity of both sensing schemes is greatly improved, yielding to a better performance of the sensor. We have also confirmed these results through an analysis of the output spectra and the transmissions of the optical cavities. In addition to enhancing EP sensitivity, our scheme also reveals nonlinear effects on sensing under splitting and shifting scenarios. This work sheds light on new mechanisms of enhancing the sensitivity of Non-Hermitian mass sensors, paving a way to improve sensors performance for better nanoparticles or pollutants detection, and for water treatment.
翻訳日:2023-12-13 12:40:46 公開日:2023-12-12
# キャビティマグノニクスにおける結合相を通したエンジニアリング合成ゲージ場

Engineering synthetic gauge fields through the coupling phases in cavity magnonics ( http://arxiv.org/abs/2312.04915v2 )

ライセンス: Link先を確認
Alan Gardin and Guillaume Bourcin and Jeremy Bourhill and Vincent Vlaminck and Christian Person and Christophe Fumeaux and Giuseppe C. Tettamanzi and Vincent Castel(参考訳) キャビティ・マグノニクスは、光とキャビティ内の磁気システムとの相互作用を研究するもので、量子トランスデューサ、量子メモリ、非相互挙動を持つデバイスにとって有望なプラットフォームである。 マイクロ波周波数では、キャビティ光子とマグノンのカップリング(スピン波励起の準粒子)は、キャビティの磁場と磁石のマクロスピンとの間のゼーマン相互作用の結果である。 それぞれの光子/マグノン相互作用には結合相因子が存在するが、単純な系では無視されることが多い。 しかし、モードとして少なくとも多くのカップリングが存在する「ループ結合系」では、結合相は物理学に関係し、合成ゲージ場につながる。 イットリウム-鉄-ガーネットからなる2つの球体と2つの異なる再入射キャビティを考慮し、このようなカップリング相の存在を実験的に証明する。 我々は結合相の値を数値的に予測し、理論と実験データの間に良い一致を見出す。 これらの結果は、空洞磁気学において、非相互デバイスを構築するのに有用な合成ゲージ場を設計できることを示している。

Cavity magnonics, which studies the interaction of light with magnetic systems in a cavity, is a promising platform for quantum transducers, quantum memories, and devices with non-reciprocal behaviour. At microwave frequencies, the coupling between a cavity photon and a magnon, the quasi-particle of a spin wave excitation, is a consequence of the Zeeman interaction between the cavity's magnetic field and the magnet's macroscopic spin. For each photon/magnon interaction, a coupling phase factor exists, but is often neglected in simple systems. However, in "loop-coupled" systems, where there are at least as many couplings as modes, the coupling phases become relevant for the physics and lead to synthetic gauge fields. We present experimental evidence of the existence of such coupling phases by considering two spheres made of Yttrium-Iron-Garnet and two different re-entrant cavities. We predict numerically the values of the coupling phases, and we find good agreement between theory and the experimental data. Theses results show that in cavity magnonics, one can engineer synthetic gauge fields, which can be useful for building nonreciprocal devices.
翻訳日:2023-12-13 12:40:24 公開日:2023-12-12
# 視覚コモンセンスモデルのための局所化記号知識蒸留

Localized Symbolic Knowledge Distillation for Visual Commonsense Models ( http://arxiv.org/abs/2312.04837v2 )

ライセンス: Link先を確認
Jae Sung Park, Jack Hessel, Khyathi Raghavi Chandu, Paul Pu Liang, Ximing Lu, Peter West, Youngjae Yu, Qiuyuan Huang, Jianfeng Gao, Ali Farhadi, Yejin Choi(参考訳) 視覚言語(VL)モデルに従う命令は、ゼロショット方式で幅広いマルチモーダルタスクをサポートする柔軟なインタフェースを提供する。 しかし、フルイメージで動作するインターフェースは、ユーザーが画像内の特定の領域を直接「指差す」ことができません。 この機能は、基準基底のVLベンチマークをサポートするだけでなく、正確な画像内推論を必要とする実用的なアプリケーションにも重要である。 ローカル化されたVisual Commonsenseモデルを構築し、ユーザが入力として(複数の)リージョンを指定できるようにします。 我々は,大言語モデル (LLM) から局所化コモンセンス知識をサンプリングすることによってモデルを訓練する。具体的には,大域的リテラル画像記述と,VLモデルの集合によって自動生成される局所リテラル領域記述から,LLMにコモンセンス知識を収集するよう促す。 高品質な例を選択するための個別に訓練された批評家モデルにより、局所化されたコモンセンスコーパスのトレーニングが既存のVLモデルを蒸留し、参照・アズ・インプットインターフェースをサポートすることができることがわかった。 ゼロショット装置における実験結果と人的評価から, 蒸留法は, 生成した参照式をLLMに渡すベースラインと比較して, 推論の精度の高いVLモデルが得られることが示された。

Instruction following vision-language (VL) models offer a flexible interface that supports a broad range of multimodal tasks in a zero-shot fashion. However, interfaces that operate on full images do not directly enable the user to "point to" and access specific regions within images. This capability is important not only to support reference-grounded VL benchmarks, but also, for practical applications that require precise within-image reasoning. We build Localized Visual Commonsense models, which allow users to specify (multiple) regions as input. We train our model by sampling localized commonsense knowledge from a large language model (LLM): specifically, we prompt an LLM to collect commonsense knowledge given a global literal image description and a local literal region description automatically generated by a set of VL models. With a separately trained critic model that selects high-quality examples, we find that training on the localized commonsense corpus can successfully distill existing VL models to support a reference-as-input interface. Empirical results and human evaluations in a zero-shot setup demonstrate that our distillation method results in more precise VL models of reasoning compared to a baseline of passing a generated referring expression to an LLM.
翻訳日:2023-12-13 12:40:00 公開日:2023-12-12
# Dense X Retrieval:どの検索粒度を使うべきか?

Dense X Retrieval: What Retrieval Granularity Should We Use? ( http://arxiv.org/abs/2312.06648v2 )

ライセンス: Link先を確認
Tong Chen, Hongwei Wang, Sihao Chen, Wenhao Yu, Kaixin Ma, Xinran Zhao, Hongming Zhang, Dong Yu(参考訳) 密検索は、オープンドメインnlpタスクで関連する文脈や世界知識を得るための顕著な方法となっている。 推定時に検索コーパス上で学習された高密度検索器を使用する場合、しばしば見過ごされる設計選択は、文書、文、文などのコーパスをインデックス化する検索ユニットである。 検索ユニットの選択が検索タスクと下流タスクの両方のパフォーマンスに大きく影響することを発見した。 文や文を用いる典型的な手法とは別として,新しい検索単位である命題を導入し,密検索を行う。 命題はテキスト内のアトミック表現として定義され、それぞれ異なるファクトイドをカプセル化し、簡潔で自己完結した自然言語形式で示される。 我々は異なる検索粒度の実証的な比較を行う。 その結果, 提案に基づく検索は, 従来手法や文単位の検索方法を大きく上回ることがわかった。 さらに、提案による検索は、検索されたテキストが質問関連情報に凝縮されやすくなり、長い入力トークンの必要が減り、不要な情報を最小化するため、下流QAタスクの性能も向上する。

Dense retrieval has become a prominent method to obtain relevant context or world knowledge in open-domain NLP tasks. When we use a learned dense retriever on a retrieval corpus at inference time, an often-overlooked design choice is the retrieval unit in which the corpus is indexed, e.g. document, passage, or sentence. We discover that the retrieval unit choice significantly impacts the performance of both retrieval and downstream tasks. Distinct from the typical approach of using passages or sentences, we introduce a novel retrieval unit, proposition, for dense retrieval. Propositions are defined as atomic expressions within text, each encapsulating a distinct factoid and presented in a concise, self-contained natural language format. We conduct an empirical comparison of different retrieval granularity. Our results reveal that proposition-based retrieval significantly outperforms traditional passage or sentence-based methods in dense retrieval. Moreover, retrieval by proposition also enhances the performance of downstream QA tasks, since the retrieved texts are more condensed with question-relevant information, reducing the need for lengthy input tokens and minimizing the inclusion of extraneous, irrelevant information.
翻訳日:2023-12-13 12:34:51 公開日:2023-12-12
# 産業用ロボット協調作業における共同活動開始時の視線検出と分析

Gaze Detection and Analysis for Initiating Joint Activity in Industrial Human-Robot Collaboration ( http://arxiv.org/abs/2312.06643v2 )

ライセンス: Link先を確認
Pooja Prajod, Matteo Lavit Nicora, Marta Mondellini, Giovanni Tauro, Rocco Vertechy, Matteo Malosio, Elisabeth Andr\'e(参考訳) コラボレーティブなロボット(コボット)は産業用途で広く使われているが、人間とロボットのコラボレーションやオペレーターの体験を高めるためにはまだ広範な研究が必要である。 コラボレーション体験を改善するための潜在的なアプローチは、オペレータからの自然なヒントに基づいてcobotの動作を適応させることである。 ヒトとヒトの相互作用に関する文献に触発され,コボットの視線が協調活動開始の引き金となるかどうかを検討するために,ウィザード・オブ・オズ研究を行った。 本研究では,37人の参加者が視線行動解析中に組み立て作業に従事した。 視線に基づく注意認識モデルを用いて,参加者がコボットを見るタイミングを識別する。 その結果,ほとんどの場合 (84.88\%) において, 関節活動はコボットの視線に先行することが明らかとなった。 さらに, 組立サイクル全体において, 参加者は共同作業の前後でコボットを見る傾向にある。 本研究は,ロボットとの共同作業を行う参加者の自然な視線行動を分析するための最初の研究である。

Collaborative robots (cobots) are widely used in industrial applications, yet extensive research is still needed to enhance human-robot collaborations and operator experience. A potential approach to improve the collaboration experience involves adapting cobot behavior based on natural cues from the operator. Inspired by the literature on human-human interactions, we conducted a wizard-of-oz study to examine whether a gaze towards the cobot can serve as a trigger for initiating joint activities in collaborative sessions. In this study, 37 participants engaged in an assembly task while their gaze behavior was analyzed. We employ a gaze-based attention recognition model to identify when the participants look at the cobot. Our results indicate that in most cases (84.88\%), the joint activity is preceded by a gaze towards the cobot. Furthermore, during the entire assembly cycle, the participants tend to look at the cobot around the time of the joint activity. To the best of our knowledge, this is the first study to analyze the natural gaze behavior of participants working on a joint activity with a robot during a collaborative assembly task.
翻訳日:2023-12-13 12:34:31 公開日:2023-12-12
# ハードウェア効率トレーニングによるゲートリニアアテンショントランス

Gated Linear Attention Transformers with Hardware-Efficient Training ( http://arxiv.org/abs/2312.06635v2 )

ライセンス: Link先を確認
Songlin Yang, Bailin Wang, Yikang Shen, Rameswar Panda, Yoon Kim(参考訳) 線形アテンションを持つ変換器は効率的な並列トレーニングを可能にするが、同時に2D隠れ状態を持つRNNとして定式化できるため、(出力長に関して)線形推論の複雑さを享受できる。 RetNet (Sun et al., 2023) やTransNormerLLM (Qin et al., 2023a) のような最近の研究は、付加的なRNN更新規則に大域的な減衰項を加えることで性能が大幅に向上し、スケールで訓練するとソフトマックスの注意を払って標準のトランスフォーマーを上回ることがあることを観察している。 本研究では,データ依存型ゲーティング機構の追加によりパフォーマンスがさらに向上することを示す。 効率的なトレーニングを可能にするこのゲート付き線形注意層の並列形式を導出する。 しかし、この並列形式の単純で数値的に安定な実装では、数値安定性のためにログ空間における一般化された行列の乗算が必要となるため、標準行列の乗算に最適化された現代のgpuではテンソルコアを活用できない。 並列形式のハードウェア効率の良いバージョンを開発し、シーケンスチャンク上でのブロック並列計算によりテンソルコアを引き続き活用する。 15Bトークンでトレーニングされた中規模言語モデリング(340Mパラメータモデル、100Bトークンでトレーニングされた1.3Bパラメータモデル)の実験では、ゲート型線形アテンション(GLA)トランスフォーマーが、データ依存状態遷移機構を備えた最近導入された状態空間モデルであるMamba(Gu & Dao, 2023)と同様に、強力なLLaMAアーキテクチャトランスフォーマーベースライン(Touvron et al., 2023)と競合して動作することを示した。 トレーニング速度では, CUDA最適化FlashAttention-2(Dao, 2023)に対して, 通常の2048トレーニング長設定で比較して, 4096以上の長いシーケンスでのトレーニングでは, FlashAttention-2よりも優れていた。

Transformers with linear attention allow for efficient parallel training but can simultaneously be formulated as an RNN with 2D (matrix-valued) hidden states, thus enjoying linear (with respect to output length) inference complexity. Recent works such as RetNet (Sun et al., 2023) and TransNormerLLM (Qin et al., 2023a) observe that adding a global decay term to the additive RNN update rule greatly improves performance, sometimes outperforming standard Transformers with softmax attention when trained at scale. In this work we show that adding a data-dependent gating mechanism further improves performance. We derive a parallel form of this gated linear attention layer that enables efficient training. However, a straightforward, numerically stable implementation of this parallel form requires generalized matrix multiplications in log-space for numerical stability, and thus cannot take advantage of tensor cores on modern GPUs which are optimized for standard matrix multiplications. We develop a hardware-efficient version of the parallel form that can still make use of tensor cores through block-parallel computations over sequence chunks. Experiments on moderate-scale language modeling (340M-parameter models trained on 15B tokens, 1.3B-parameter models trained on 100B tokens) show that gated linear attention (GLA) Transformers perform competitively against a strong LLaMA-architecture Transformer baseline (Touvron et al., 2023) as well as Mamba (Gu & Dao, 2023), a recently introduced state-space model with a data-dependent state transition mechanism. For training speed, our Triton-based implementation performs comparably to CUDA-optimized FlashAttention-2 (Dao, 2023) under the regular 2048 training length setting, while outperforming FlashAttention-2 when training on longer sequences beyond 4096.
翻訳日:2023-12-13 12:34:12 公開日:2023-12-12
# tmt-vis:ビデオインスタンスセグメンテーションのための分類学アウェアマルチデータセット合同トレーニング

TMT-VIS: Taxonomy-aware Multi-dataset Joint Training for Video Instance Segmentation ( http://arxiv.org/abs/2312.06630v2 )

ライセンス: Link先を確認
Rongkun Zheng, Lu Qi, Xi Chen, Yi Wang, Kun Wang, Yu Qiao, Hengshuang Zhao(参考訳) 大規模データセットのトレーニングは、ビデオインスタンスセグメンテーションのパフォーマンスを向上すると同時に、VIS用の注釈付きデータセットは、高い労働コストのためにスケールアップが難しい。 当社が保有しているデータセットは,独立した多数のデータセットであり,データボリュームと多様性を高めるために,データセットの集約全体にわたってモデルを共同でトレーニングすることが望ましいのです。 しかし、カテゴリ空間の多様性のため、データボリュームによってマスク精度が増加するため、複数のデータセットを単純に利用すれば、異なる分類に関するモデルの注意を薄めることができる。 したがって,分類精度を高めつつ,データスケールの増大と分類空間の充実が重要である。 本研究では,追加の分類情報を提供することが,モデルが特定の分類に集中するのに役立つことを分析し,ビデオインスタンスセグメンテーション(tmt-vis)のための分類アウェアマルチデータセット合同トレーニングモデルを提案する。 具体的には、2段階の分類集計モジュールを設計し、まず最初に入力ビデオから分類情報をコンパイルし、これらの分類先行情報を変換器デコーダの前にインスタンスクエリに集約する。 我々は、YouTube-VIS 2019、YouTube-VIS 2021、OVIS、UVOの4つの人気かつ挑戦的なベンチマークに対して、広範な実験的評価を行う。 本モデルでは,ベースラインソリューションよりも大幅に改善され,すべてのベンチマークで新たな最先端レコードが設定される。 これらの魅力的で奨励的な結果は、我々のアプローチの有効性と一般化を示している。 コードはhttps://github.com/rkzheng99/TMT-VIS(https://github.com/rkzheng99/TMT-VIS)で入手できる。

Training on large-scale datasets can boost the performance of video instance segmentation while the annotated datasets for VIS are hard to scale up due to the high labor cost. What we possess are numerous isolated filed-specific datasets, thus, it is appealing to jointly train models across the aggregation of datasets to enhance data volume and diversity. However, due to the heterogeneity in category space, as mask precision increases with the data volume, simply utilizing multiple datasets will dilute the attention of models on different taxonomies. Thus, increasing the data scale and enriching taxonomy space while improving classification precision is important. In this work, we analyze that providing extra taxonomy information can help models concentrate on specific taxonomy, and propose our model named Taxonomy-aware Multi-dataset Joint Training for Video Instance Segmentation (TMT-VIS) to address this vital challenge. Specifically, we design a two-stage taxonomy aggregation module that first compiles taxonomy information from input videos and then aggregates these taxonomy priors into instance queries before the transformer decoder. We conduct extensive experimental evaluations on four popular and challenging benchmarks, including YouTube-VIS 2019, YouTube-VIS 2021, OVIS, and UVO. Our model shows significant improvement over the baseline solutions, and sets new state-of-the-art records on all benchmarks. These appealing and encouraging results demonstrate the effectiveness and generality of our approach. The code is available at https://github.com/rkzheng99/TMT-VIS(https://github.com/rkzheng99/TMT-VIS)
翻訳日:2023-12-13 12:33:27 公開日:2023-12-12
# 多様性による対物ロバスト性の促進

Promoting Counterfactual Robustness through Diversity ( http://arxiv.org/abs/2312.06564v2 )

ライセンス: Link先を確認
Francesco Leofante and Nico Potyka(参考訳) ブラックボックスモデルの決定は、入力をどのように変更してモデルから好意的な決定(例えば、ローン申請が拒否された場合)を得るかを説明することで明らかにされる。 しかし、最近述べたように、インプットの微妙な変更が説明に大きな変化をもたらすという意味で、反事実的説明には堅牢性がない可能性がある。 これはユーザ側で混乱を引き起こし、敵の攻撃のドアを開く可能性がある。 本稿では,非ロバスト性の原因について検討する。 単一の反ファクトを返却する説明者がすべてのインスタンスで堅牢でないことには根本的な理由があるが、ある興味深い堅牢性保証は、単一の反ファクトを複数報告することで得られることを示す。 残念なことに、保持する理論的な保証のために報告されるべき反事実の数は、禁止的に大きい。 そこで本研究では,多様性基準を用いて,最も関係の深い説明の可能な数を選択し,その堅牢性を実証的に研究する近似アルゴリズムを提案する。 実験の結果,本手法はロバストな説明を生成できるが,他の望ましい特性を保ちながら計算性能を競うことができることがわかった。

Counterfactual explanations shed light on the decisions of black-box models by explaining how an input can be altered to obtain a favourable decision from the model (e.g., when a loan application has been rejected). However, as noted recently, counterfactual explainers may lack robustness in the sense that a minor change in the input can cause a major change in the explanation. This can cause confusion on the user side and open the door for adversarial attacks. In this paper, we study some sources of non-robustness. While there are fundamental reasons for why an explainer that returns a single counterfactual cannot be robust in all instances, we show that some interesting robustness guarantees can be given by reporting multiple rather than a single counterfactual. Unfortunately, the number of counterfactuals that need to be reported for the theoretical guarantees to hold can be prohibitively large. We therefore propose an approximation algorithm that uses a diversity criterion to select a feasible number of most relevant explanations and study its robustness empirically. Our experiments indicate that our method improves the state-of-the-art in generating robust explanations, while maintaining other desirable properties and providing competitive computational performance.
翻訳日:2023-12-13 12:32:59 公開日:2023-12-12
# 政策平滑化強化学習のためのリワード認定

Reward Certification for Policy Smoothed Reinforcement Learning ( http://arxiv.org/abs/2312.06436v2 )

ライセンス: Link先を確認
Ronghui Mu, Leandro Soriano Marcolino, Tianle Zhang, Yanghao Zhang, Xiaowei Huang, Wenjie Ruan(参考訳) 強化学習(rl)は安全クリティカルな分野において顕著な成功を収めてきたが、敵の攻撃によって弱められる可能性がある。 近年の研究では、その堅牢性を高めるために「スムースド・ポリシー」を導入した。 しかし、その全報酬の範囲を認定する証明可能な保証を確立することは依然として困難である。 以前の手法は、主にリプシッツ連続性を用いた境界計算や、特定の閾値を超える累積報酬の確率の計算に頼っていた。 しかしながら、これらの手法はRLエージェントの観測における連続摂動にのみ適しており、$l_2$-normで束縛された摂動に制限されている。 これらの制約に対処するために,様々な$l_p$-norm境界摂動の下でスムーズなポリシーの累積報酬を直接証明できる一般的なブラックボックス認証手法を提案する。 さらに,行動空間上の摂動を認証する手法を拡張した。 提案手法は,f偏差を利用して元の分布と摂動分布の区別を計測し,凸最適化問題の解法により証明境界を決定する。 総合的な理論解析を行い,複数の環境で十分な実験を行う。 その結果,本手法は平均累積報酬の認定下限を改善できるだけでなく,最先端技術よりも優れた効率を示すことが示された。

Reinforcement Learning (RL) has achieved remarkable success in safety-critical areas, but it can be weakened by adversarial attacks. Recent studies have introduced "smoothed policies" in order to enhance its robustness. Yet, it is still challenging to establish a provable guarantee to certify the bound of its total reward. Prior methods relied primarily on computing bounds using Lipschitz continuity or calculating the probability of cumulative reward above specific thresholds. However, these techniques are only suited for continuous perturbations on the RL agent's observations and are restricted to perturbations bounded by the $l_2$-norm. To address these limitations, this paper proposes a general black-box certification method capable of directly certifying the cumulative reward of the smoothed policy under various $l_p$-norm bounded perturbations. Furthermore, we extend our methodology to certify perturbations on action spaces. Our approach leverages f-divergence to measure the distinction between the original distribution and the perturbed distribution, subsequently determining the certification bound by solving a convex optimisation problem. We provide a comprehensive theoretical analysis and run sufficient experiments in multiple environments. Our results show that our method not only improves the certified lower bound of mean cumulative reward but also demonstrates better efficiency than state-of-the-art techniques.
翻訳日:2023-12-13 12:32:38 公開日:2023-12-12
# PointVoxel: マルチビューマルチモーダル3次元人物位置推定のためのシンプルで効果的なパイプライン

PointVoxel: A Simple and Effective Pipeline for Multi-View Multi-Modal 3D Human Pose Estimation ( http://arxiv.org/abs/2312.06409v2 )

ライセンス: Link先を確認
Zhiyu Pan, Zhicheng Zhong, Wenxuan Guo, Yifan Chen, Jianjiang Feng, Jie Zhou(参考訳) 近年,マルチビュー画像から3次元人物像を推定する手法がいくつか提案されている。 しかし、複数のモーダル入力(rgbやpointcloudなど)から3d人間の骨格を抽出するアプローチは限られており、困難な状況下での3dポーズの予測精度を高めることができる。 このギャップを埋めるために、マルチビューRGBとポイントクラウド入力を融合して3D人間のポーズを得るPointVoxelというパイプラインを導入する。 体積表現はこれらの異なるモダリティを統合するのに有効なアーキテクチャであることを示す。 さらに,難しいシナリオで3次元人間のポーズラベルに注釈を付けるという課題を克服するために,教師なしのドメイン適応戦略を事前学習し設計するための合成データセットジェネレータを開発し,手作業のアノテーションを使わずに十分に訓練された3次元人物ポーズ推定器を得る。 我々は,4つのデータセット(公開データセット2つ,合成データセット1つ,BasketBallという名前の挑戦データセット1つ)に対するアプローチを評価し,有望な結果を示した。 コードとデータセットは間もなくリリースされる。

Recently, several methods have been proposed to estimate 3D human pose from multi-view images and achieved impressive performance on public datasets collected in relatively easy scenarios. However, there are limited approaches for extracting 3D human skeletons from multimodal inputs (e.g., RGB and pointcloud) that can enhance the accuracy of predicting 3D poses in challenging situations. We fill this gap by introducing a pipeline called PointVoxel that fuses multi-view RGB and pointcloud inputs to obtain 3D human poses. We demonstrate that volumetric representation is an effective architecture for integrating these different modalities. Moreover, in order to overcome the challenges of annotating 3D human pose labels in difficult scenarios, we develop a synthetic dataset generator for pretraining and design an unsupervised domain adaptation strategy so that we can obtain a well-trained 3D human pose estimator without using any manual annotations. We evaluate our approach on four datasets (two public datasets, one synthetic dataset, and one challenging dataset named BasketBall collected by ourselves), showing promising results. The code and dataset will be released soon.
翻訳日:2023-12-13 12:31:29 公開日:2023-12-12
# MMICT: インコンテキスト例によるマルチモーダルファインチューニングの強化

MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples ( http://arxiv.org/abs/2312.06363v2 )

ライセンス: Link先を確認
Tao Chen, Enwei Zhang, Yuting Gao, Ke Li, Xing Sun, Yan Zhang and Hui Li(参考訳) In-Context Learning(ICL)は、Large Language Models(LLM)に顕著なパフォーマンス向上をもたらすが、下流タスクの微調整よりも改善は低いままである。 本稿では,マルチモーダル LLM (MM-LLMs) の有望な ICL 機能を完全に活用することにより,マルチモーダル微調整を促進する新しいマルチモーダル微調整パラダイムであるMMICTを提案する。 様々な入力や目的に応じて様々なマルチモーダル機能をキャプチャする統合モジュールであるマルチモーダルハブ(m-hub)を提案する。 m-hub に基づいて mmict は、mm-llm がコンテキスト内ビジュアルガイド付きテキスト特徴から学習し、その後、テキストガイド付きビジュアル特徴に基づく出力を生成することができる。 さらに、M-Hubの柔軟性を活用して、さまざまなコンテキスト内デモを設計する。 多様な下流マルチモーダルタスクに対する広範囲な実験により、MMICTは従来の微調整戦略と、異なるモーダルからの全ての情報を入力として直接結合するバニラICT法を著しく上回ることを示した。

Although In-Context Learning (ICL) brings remarkable performance gains to Large Language Models (LLMs), the improvements remain lower than fine-tuning on downstream tasks. This paper introduces Multi-Modal In-Context Tuning (MMICT), a novel multi-modal fine-tuning paradigm that boosts multi-modal fine-tuning by fully leveraging the promising ICL capability of multi-modal LLMs (MM-LLMs). We propose the Multi-Modal Hub (M-Hub), a unified module that captures various multi-modal features according to different inputs and objectives. Based on M-Hub, MMICT enables MM-LLMs to learn from in-context visual-guided textual features and subsequently generate outputs conditioned on the textual-guided visual features. Moreover, leveraging the flexibility of M-Hub, we design a variety of in-context demonstrations. Extensive experiments on a diverse range of downstream multi-modal tasks demonstrate that MMICT significantly outperforms traditional fine-tuning strategy and the vanilla ICT method that directly takes the concatenation of all information from different modalities as input.
翻訳日:2023-12-13 12:30:30 公開日:2023-12-12
# DiffAIL:拡散反転模倣学習

DiffAIL: Diffusion Adversarial Imitation Learning ( http://arxiv.org/abs/2312.06348v2 )

ライセンス: Link先を確認
Bingzheng Wang, Guoqiang Wu, Teng Pang, Yan Zhang, Yilong Yin(参考訳) 模倣学習は、現実世界の意思決定タスクにおける報酬関数の定義問題を解決することを目的としている。 現在の一般的なアプローチは、adversarial imitation learning(ail)フレームワークで、専門家のステートアクション占有手段をマッチングして、前方強化学習のための代理報酬を得る。 しかし、従来の判別器は単純なバイナリ分類器であり、正確な分布を学習しないため、環境と相互作用するポリシーによって引き起こされるエキスパートレベルの状態-アクションペアを識別できない可能性がある。 そこで本研究では, ailフレームワークに拡散モデルを導入するために, diffusion adversarial imitation learning (diffail) という手法を提案する。 具体的には、diffailは状態-作用対を無条件拡散モデルとしてモデル化し、識別者の学習目標の一部として拡散損失を利用する。 実験により,本手法は最先端性能を達成し,標準状態動作設定と状態のみ設定を含む2つのベンチマークタスクのエキスパートデモンストレーションを大幅に上回ることを示した。 私たちのコードはhttps://github.com/ML-Group-SDU/DiffAIL.comのリンクで利用できます。

Imitation learning aims to solve the problem of defining reward functions in real-world decision-making tasks. The current popular approach is the Adversarial Imitation Learning (AIL) framework, which matches expert state-action occupancy measures to obtain a surrogate reward for forward reinforcement learning. However, the traditional discriminator is a simple binary classifier and doesn't learn an accurate distribution, which may result in failing to identify expert-level state-action pairs induced by the policy interacting with the environment. To address this issue, we propose a method named diffusion adversarial imitation learning (DiffAIL), which introduces the diffusion model into the AIL framework. Specifically, DiffAIL models the state-action pairs as unconditional diffusion models and uses diffusion loss as part of the discriminator's learning objective, which enables the discriminator to capture better expert demonstrations and improve generalization. Experimentally, the results show that our method achieves state-of-the-art performance and significantly surpasses expert demonstration on two benchmark tasks, including the standard state-action setting and state-only settings. Our code can be available at the link https://github.com/ML-Group-SDU/DiffAIL.
翻訳日:2023-12-13 12:30:08 公開日:2023-12-12
# コンピュータ支援診断に向けたコントラスト学習のためのマイニングゲーズ

Mining Gaze for Contrastive Learning toward Computer-Assisted Diagnosis ( http://arxiv.org/abs/2312.06069v2 )

ライセンス: Link先を確認
Zihao Zhao, Sheng Wang, Qian Wang, Dinggang Shen(参考訳) 医用画像領域における対比的事前訓練の有効性を制限し, 代替方法の必要性を強調するなど, 様々な理由から, 医用画像に対する大規模放射線検査の入手は困難である。 本稿では,放射線技師の日常診断プロセスに支障を来すことなく視線信号の受動的収集を可能にするため,テキストレポートの代替としてアイトラッキングを提案する。 医用画像の読解と診断を行う放射線科医の視線を追跡することで,その視覚的注意と臨床推論を理解することができる。 放射線医が2つの医用画像に類似した視線を持つ場合、診断に意味的類似性を示す可能性があり、コンピュータ支援診断(CAD)ネットワークを事前学習する際には、これらの画像は正のペアとして扱われるべきである。 そこで本研究では,コントラスト学習フレームワークのためのプラグアンドプレイモジュールとして,mcgip(medical contrastive gaze image pre-training)を導入する。 McGIPは放射線技師の視線を使って、対照的な事前訓練をガイドする。 2種類の医用画像と2種類の一般的な視線データを用いて評価を行った。 実験の結果,McGIPの実用性を示し,様々な臨床シナリオや応用の可能性を示している。

Obtaining large-scale radiology reports can be difficult for medical images due to various reasons, limiting the effectiveness of contrastive pre-training in the medical image domain and underscoring the need for alternative methods. In this paper, we propose eye-tracking as an alternative to text reports, as it allows for the passive collection of gaze signals without disturbing radiologist's routine diagnosis process. By tracking the gaze of radiologists as they read and diagnose medical images, we can understand their visual attention and clinical reasoning. When a radiologist has similar gazes for two medical images, it may indicate semantic similarity for diagnosis, and these images should be treated as positive pairs when pre-training a computer-assisted diagnosis (CAD) network through contrastive learning. Accordingly, we introduce the Medical contrastive Gaze Image Pre-training (McGIP) as a plug-and-play module for contrastive learning frameworks. McGIP uses radiologist's gaze to guide contrastive pre-training. We evaluate our method using two representative types of medical images and two common types of gaze data. The experimental results demonstrate the practicality of McGIP, indicating its high potential for various clinical scenarios and applications.
翻訳日:2023-12-13 12:29:46 公開日:2023-12-12
# 教育用AIのマルチモーダリティ : 汎用人工知能を目指して

Multimodality of AI for Education: Towards Artificial General Intelligence ( http://arxiv.org/abs/2312.06037v2 )

ライセンス: Link先を確認
Gyeong-Geon Lee, Lehong Shi, Ehsan Latif, Yizhu Gao, Arne Bewersdorff, Matthew Nyaaba, Shuchen Guo, Zihao Wu, Zhengliang Liu, Hui Wang, Gengchen Mai, Tiaming Liu, and Xiaoming Zhai(参考訳) 本稿では,マルチモーダル人工知能(AI)アプローチが,教育的文脈における人工知能(AGI)の実現に向けてどのように進んでいるのかを包括的に検討する。 教育システムにおけるAIの進化と統合を精査し、聴覚、視覚、審美、言語的な学習様式を含むマルチモーダルの重要な役割を強調している。 この研究は、認知フレームワーク、高度な知識表現、適応学習機構、戦略的計画、洗練された言語処理、多様なマルチモーダルデータソースの統合など、AGIの重要な側面を深く掘り下げている。 教育パラダイムの改革におけるAGIの変革的ポテンシャルを批判的に評価し、教育と学習の有効性の向上、既存の方法論のギャップを埋めること、教育環境における倫理的配慮とAGIの責任ある利用に対処することに焦点を当てている。 本稿は、AGI開発における今後の方向性と課題に関する洞察を提供する、教育におけるマルチモーダルAIの役割の意味についても論じる。 この調査は、AIとマルチモダリティ、教育の交わりの微妙な理解を提供することを目的としており、AGIにおける将来の研究と開発の基礎を確立している。

This paper presents a comprehensive examination of how multimodal artificial intelligence (AI) approaches are paving the way towards the realization of Artificial General Intelligence (AGI) in educational contexts. It scrutinizes the evolution and integration of AI in educational systems, emphasizing the crucial role of multimodality, which encompasses auditory, visual, kinesthetic, and linguistic modes of learning. This research delves deeply into the key facets of AGI, including cognitive frameworks, advanced knowledge representation, adaptive learning mechanisms, strategic planning, sophisticated language processing, and the integration of diverse multimodal data sources. It critically assesses AGI's transformative potential in reshaping educational paradigms, focusing on enhancing teaching and learning effectiveness, filling gaps in existing methodologies, and addressing ethical considerations and responsible usage of AGI in educational settings. The paper also discusses the implications of multimodal AI's role in education, offering insights into future directions and challenges in AGI development. This exploration aims to provide a nuanced understanding of the intersection between AI, multimodality, and education, setting a foundation for future research and development in AGI.
翻訳日:2023-12-13 12:29:23 公開日:2023-12-12
# 高速ブラッグピーク解析のためのニューラルアーキテクチャ符号符号

Neural Architecture Codesign for Fast Bragg Peak Analysis ( http://arxiv.org/abs/2312.05978v2 )

ライセンス: Link先を確認
Luke McDermott, Jason Weitz, Dmitri Demler, Daniel Cummings, Nhan Tran, Javier Duarte(参考訳) 高エネルギー回折顕微鏡で高速かつリアルタイムブラッグピーク解析を行うために,ニューラルネットワークのコード署名を合理化する自動パイプラインを開発した。 従来のアプローチ、特に擬似Voigtフィッティングは重要な計算資源を必要とし、より効率的なソリューションのためのディープラーニングモデルへの関心を喚起した。 我々の手法では、ハードウェアコストを含むこれらのモデルを強化するためにニューラルアーキテクチャ検索とAutoMLを使用し、よりハードウェア効率の良いニューラルアーキテクチャの発見に繋がる。 その結果,従来の最先端技術と比較して,ビット演算の13$\times$削減を実現した。 量子化・アウェアトレーニングやニューラルネットワークのプルーニングといったモデル圧縮技術により、さらなるスピードアップを示す。 さらに、階層的な検索空間は最適化の柔軟性を高め、他のタスクやドメインにも簡単に拡張できます。

We develop an automated pipeline to streamline neural architecture codesign for fast, real-time Bragg peak analysis in high-energy diffraction microscopy. Traditional approaches, notably pseudo-Voigt fitting, demand significant computational resources, prompting interest in deep learning models for more efficient solutions. Our method employs neural architecture search and AutoML to enhance these models, including hardware costs, leading to the discovery of more hardware-efficient neural architectures. Our results match the performance, while achieving a 13$\times$ reduction in bit operations compared to the previous state-of-the-art. We show further speedup through model compression techniques such as quantization-aware-training and neural network pruning. Additionally, our hierarchical search space provides greater flexibility in optimization, which can easily extend to other tasks and domains.
翻訳日:2023-12-13 12:29:04 公開日:2023-12-12
# 静的黒孔の熱力学における非摂動補正の探索

Exploring Non-perturbative Corrections in Thermodynamics of Static Dirty Black Holes ( http://arxiv.org/abs/2312.05948v2 )

ライセンス: Link先を確認
Saheb Soroushfar, Behnam Pourhassan, and \.Izzet Sakall{\i}(参考訳) 本研究は、アインシュタイン-非線形電気力学(ene)-ディラトン理論の枠組みにおける一様電場に浸漬された汚れたブラックホールの熱力学的性質についての研究である。 解析は熱容量、ヘルムホルツ自由エネルギー、内部エネルギーを含む様々な熱力学的側面に分解され、電場の影響下でのブラックホールの挙動についての洞察を与える。 さらに、量子補正エントロピーの検証を通じて、量子効果と熱力学的挙動の間の複雑な相互作用を探求する。 この研究は、この複雑なシステムで発生する非摂動的補正に光を当てることを目的としており、特定の理論枠組みの中で汚れたブラックホールの修正熱力学を包括的に理解することを目的としている。

This study presents an investigation into the thermodynamic properties of a dirty black hole immersed in a uniform electric field within the framework of the Einstein-Nonlinear Electrodynamics (ENE)-dilaton theory. The analysis delves into various thermodynamic aspects, including heat capacity, Helmholtz free energy, and internal energy, providing insights into the behavior of the black hole under the influence of the electric field. Furthermore, the article explores the intricate interplay between quantum effects and thermodynamic behavior through the examination of quantum-corrected entropy. The study aims to shed light on the non-perturbative corrections that arise in this complex system, offering a comprehensive understanding of the modified thermodynamics of dirty black holes within the specified theoretical framework.
翻訳日:2023-12-13 12:28:50 公開日:2023-12-12
# データフリーハードラベルロバストネス盗み攻撃

Data-Free Hard-Label Robustness Stealing Attack ( http://arxiv.org/abs/2312.05924v2 )

ライセンス: Link先を確認
Xiaojian Yuan, Kejiang Chen, Wen Huang, Jie Zhang, Weiming Zhang, Nenghai Yu(参考訳) MLaaS(Machine Learning as a Service)の人気は、MLaaSをクエリすることでクローンモデルを構築することを目的とした、モデルステアリングアタック(MSA)に対する懸念の高まりにつながっている。 現在、MLaaSに関するほとんどの研究は、MLaaSがソフトラベルを提供し、攻撃者は同様の分布を持つプロキシデータセットを持つと仮定している。 しかし、ハードラベルだけがMLaaSによって返却され、データの分散が未解決のままである、より現実的なシナリオをカプセル化できない。 さらに、既存の仕事の多くはモデルの正確さを盗み、モデルの堅牢さを怠り、セキュリティに敏感なシナリオ、例えばフェイススキャンの支払いにおいて堅牢性が不可欠である。 特に、モデルのロバスト性を改善するには、しばしば、敵対的なトレーニングのような高価な技術を使う必要があるため、ロバスト性を盗む方がより有益である。 そこで本研究では,これらのギャップに応答して,対象モデルのハードラベルを自然データを用いずに簡単にクエリすることで,モデル精度とロバスト性の両方を盗むことが可能な,データフリーなハードラベルロバストネス盗み (dfhl-rs) 攻撃を提案する。 包括的実験により本手法の有効性が実証された。 クローンモデルは77.86%のクリーンな精度と39.51%のロバストな精度を実現し、cifar-10データセットのターゲットモデルよりわずか4.71%と8.40%低く、ベースラインを大幅に上回っている。 私たちのコードは、https://github.com/LetheSec/DFHL-RS-Attack.comで利用可能です。

The popularity of Machine Learning as a Service (MLaaS) has led to increased concerns about Model Stealing Attacks (MSA), which aim to craft a clone model by querying MLaaS. Currently, most research on MSA assumes that MLaaS can provide soft labels and that the attacker has a proxy dataset with a similar distribution. However, this fails to encapsulate the more practical scenario where only hard labels are returned by MLaaS and the data distribution remains elusive. Furthermore, most existing work focuses solely on stealing the model accuracy, neglecting the model robustness, while robustness is essential in security-sensitive scenarios, e.g., face-scan payment. Notably, improving model robustness often necessitates the use of expensive techniques such as adversarial training, thereby further making stealing robustness a more lucrative prospect. In response to these identified gaps, we introduce a novel Data-Free Hard-Label Robustness Stealing (DFHL-RS) attack in this paper, which enables the stealing of both model accuracy and robustness by simply querying hard labels of the target model without the help of any natural data. Comprehensive experiments demonstrate the effectiveness of our method. The clone model achieves a clean accuracy of 77.86% and a robust accuracy of 39.51% against AutoAttack, which are only 4.71% and 8.40% lower than the target model on the CIFAR-10 dataset, significantly exceeding the baselines. Our code is available at: https://github.com/LetheSec/DFHL-RS-Attack.
翻訳日:2023-12-13 12:28:39 公開日:2023-12-12
# SGNet:Depth Map Super-Resolutionのための勾配周波数認識による構造案内ネットワーク

SGNet: Structure Guided Network via Gradient-Frequency Awareness for Depth Map Super-Resolution ( http://arxiv.org/abs/2312.05799v2 )

ライセンス: Link先を確認
Zhengxue Wang and Zhiqiang Yan and Jian Yang(参考訳) 深度超解像(DSR)は、高分解能(HR)深度を低分解能(LR)深度から復元することを目的としており、RGB画像がこの課題を促進するためにしばしば使用される。 最近の画像誘導型DSRアプローチは主に深度構造を再構築するための空間領域に焦点を当てている。 しかし、LR深度の構造は通常曖昧であるため、空間領域のみを考えると十分な結果を得るには不十分である。 本稿では、高次構造を捕捉する固有の能力を有する勾配領域と周波数領域により注意を払う構造ガイドネットワーク(SGNet)を提案する。 具体的には,まず,lr深度構造を研削するために,rgb前の正確な勾配を用いた勾配キャリブレーションモジュール(gcm)を導入する。 次に、複数のスペクトル差分ブロック(SDB)を再帰的に実行し、RGBの正確な高周波成分をLR深さに伝播する周波数認識モジュール(FAM)を提案する。 実データと合成データの両方に関する広範な実験結果は、sgnetの優位性を示し、最先端に到達しています。 コードと事前学習されたモデルはhttps://github.com/yanzq95/sgnetで入手できる。

Depth super-resolution (DSR) aims to restore high-resolution (HR) depth from low-resolution (LR) one, where RGB image is often used to promote this task. Recent image guided DSR approaches mainly focus on spatial domain to rebuild depth structure. However, since the structure of LR depth is usually blurry, only considering spatial domain is not very sufficient to acquire satisfactory results. In this paper, we propose structure guided network (SGNet), a method that pays more attention to gradient and frequency domains, both of which have the inherent ability to capture high-frequency structure. Specifically, we first introduce the gradient calibration module (GCM), which employs the accurate gradient prior of RGB to sharpen the LR depth structure. Then we present the Frequency Awareness Module (FAM) that recursively conducts multiple spectrum differencing blocks (SDB), each of which propagates the precise high-frequency components of RGB into the LR depth. Extensive experimental results on both real and synthetic datasets demonstrate the superiority of our SGNet, reaching the state-of-the-art. Codes and pre-trained models are available at https://github.com/yanzq95/SGNet.
翻訳日:2023-12-13 12:28:08 公開日:2023-12-12