このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240303となっている論文です。

PDF登録状況(公開日: 20240303)

TitleAuthorsAbstract論文公表日・翻訳日
# SyllabusQA: データセットに回答するコースの論理的質問

SyllabusQA: A Course Logistics Question Answering Dataset ( http://arxiv.org/abs/2403.14666v1 )

ライセンス: Link先を確認
Nigel Fernandez, Alexander Scarlatos, Andrew Lan, (参考訳) 自動教示アシスタントとチャットボットは、特に物流関連質問応答において、人間のインストラクターの作業量を減少させる大きな可能性を秘めている。 しかし、プライバシー上の懸念から、公開データセットが不足している。 今回紹介するSyllabusQAは,36のメジャーを対象とする63のリアルコースサイラビを持つオープンソースデータセットで,質問タイプと回答形式の両方で多種多様である5,078のオープンエンドコース関連質問応答ペアを含む。 多くの物流関連質問には、試験の日付などの重要な情報が含まれているため、回答の事実性を評価することが重要である。 我々は,大規模言語モデルから検索拡張生成まで,このタスクのいくつかの強力なベースラインをベンチマークする。 従来のテキスト類似性の指標で人間に近づいたとしても、事実の正確さという点では、自動化アプローチと人間の間には大きなギャップが残っていることが分かっています。

Automated teaching assistants and chatbots have significant potential to reduce the workload of human instructors, especially for logistics-related question answering, which is important to students yet repetitive for instructors. However, due to privacy concerns, there is a lack of publicly available datasets. We introduce SyllabusQA, an open-source dataset with 63 real course syllabi covering 36 majors, containing 5,078 open-ended course logistics-related question-answer pairs that are diverse in both question types and answer formats. Since many logistics-related questions contain critical information like the date of an exam, it is important to evaluate the factuality of answers. We benchmark several strong baselines on this task, from large language model prompting to retrieval-augmented generation. We find that despite performing close to humans on traditional metrics of textual similarity, there remains a significant gap between automated approaches and humans in terms of fact precision.
翻訳日:2024-04-01 03:43:10 公開日:2024-03-03
# どんなアーキテクチャでも、どんなフレームワークでも、どんな時でも。

Structurally Prune Anything: Any Architecture, Any Framework, Any Time ( http://arxiv.org/abs/2403.18955v1 )

ライセンス: Link先を確認
Xun Wang, John Rachwan, Stephan Günnemann, Bertrand Charpentier, (参考訳) ニューラルネットワークのプルーニングは、ディープラーニングモデルの効率を高める重要なテクニックである。 特定のパラメータを0に設定する非構造化プルーニングとは異なり、構造化プルーニングはチャネル全体を排除し、直接計算とストレージの利点をもたらす。 しかし、残差接続やグループ畳み込み、多種多様なディープラーニングフレームワーク、そして刈り込みを行う様々な時間段階といった結合パラメータに対する多様なパターンは、既存の刈り込み手法を異なるアーキテクチャ、フレームワーク、刈り込み基準に適応しにくくする。 これを解決するために、どんなアーキテクチャでも、どんなフレームワークでも、どんな段階のトレーニングでも、ニューラルネットワークをプーンできる汎用的な構造化プルーニングフレームワークであるStructurely Prune Anything(SPA)を紹介します。 SPAは標準化された計算グラフとONNX表現を活用して、手作業による介入を必要とせずに、多様なニューラルネットワークアーキテクチャを創出する。 SPAはグループレベルの重要度推定手法を採用しており、計算演算子に依存し、その重要性を推定し、重要でない結合チャネルを創出する。 これにより、既存のプルーニング基準を構造化グループスタイルに移行することができる。 結果として、SPAは、トレーニング前、微調整後のトレーニング後、微調整なしのトレーニング後のいずれにおいても、いつでもプルーニングをサポートする。 後者の文脈では、微調整も校正も不要な最先端の刈り取り結果を実現するアルゴリズムであるOBSPA(Optimal Brain SPA)を導入する。 大規模な実験では、SPAは一般的なフレームワークから様々なアーキテクチャにわたる最先端のプルーニング性能と異なるプルーニング時間で競合することを示した。

Neural network pruning serves as a critical technique for enhancing the efficiency of deep learning models. Unlike unstructured pruning, which only sets specific parameters to zero, structured pruning eliminates entire channels, thus yielding direct computational and storage benefits. However, the diverse patterns for coupling parameters, such as residual connections and group convolutions, the diverse deep learning frameworks, and the various time stages at which pruning can be performed make existing pruning methods less adaptable to different architectures, frameworks, and pruning criteria. To address this, we introduce Structurally Prune Anything (SPA), a versatile structured pruning framework that can prune neural networks with any architecture, from any framework, and at any stage of training. SPA leverages a standardized computational graph and ONNX representation to prune diverse neural network architectures without the need for manual intervention. SPA employs a group-level importance estimation method, which groups dependent computational operators, estimates their importance, and prunes unimportant coupled channels. This enables the transfer of various existing pruning criteria into a structured group style. As a result, SPA supports pruning at any time, either before training, after training with fine-tuning, or after training without fine-tuning. In the context of the latter, we introduce Optimal Brain SPA (OBSPA), an algorithm that achieves state-of-the-art pruning results needing neither fine-tuning nor calibration data. In extensive experiments, SPA shows competitive to state-of-the-art pruning performance across various architectures, from popular frameworks, at different pruning times.
翻訳日:2024-04-01 02:25:04 公開日:2024-03-03
# 効率的なユーザ中心型プライバシフレンドリーでフレキシブルなデータアグリゲーションと共有

Efficient User-Centric Privacy-Friendly and Flexible Wearable Data Aggregation and Sharing ( http://arxiv.org/abs/2203.00465v3 )

ライセンス: Link先を確認
Khlood Jastaniah, Ning Zhang, Mustafa A. Mustafa, (参考訳) ウェアラブルデバイスは個人や一般大衆にサービスを提供することができる。 しかし、クラウドプロバイダが収集するウェアラブルデータは、プライバシのリスクを引き起こす可能性がある。 完全な機能を維持しながらこれらのリスクを軽減するためには、プライバシフレンドリーなデータ処理と共有のためのソリューションが必要である。 一 自己データの処理を請求するデータ所有者及びデータ処理を請求する複数のデータ要求者 (ii)単体または単体 (iii)複数のデータ所有者。 既存の作業にはデータ所有者アクセス制御がなく、これらのケースを効率的にサポートしていないため、ウェアラブルデバイスには適さない。 これらの制約に対処するために,SAMAという新しい,効率的で,ユーザ中心で,プライバシーに配慮した,フレキシブルなデータアグリゲーションと共有方式を提案する。 SAMAはマルチキー部分同型暗号化方式を使用して、単一または複数のデータ所有者から派生したデータのアグリゲーションを調整し、処理中にプライバシを保存する柔軟性を実現する。 また、暗号文による属性ベースの暗号化スキームを使用して、ユーザ中心のアクセス制御に基づく複数のデータ要求者との微粒な共有をサポートする。 形式的セキュリティ分析は、SAMAがデータの機密性と承認をサポートすることを示している。 SAMAは計算と通信のオーバーヘッドについても分析されている。 実験の結果、SAMAは関連する最先端ソリューションよりも、より効率的にプライバシー保護可能なフレキシブルデータアグリゲーションをサポートすることが示された。

Wearable devices can offer services to individuals and the public. However, wearable data collected by cloud providers may pose privacy risks. To reduce these risks while maintaining full functionality, healthcare systems require solutions for privacy-friendly data processing and sharing that can accommodate three main use cases: (i) data owners requesting processing of their own data, and multiple data requesters requesting data processing of (ii) a single or (iii) multiple data owners. Existing work lacks data owner access control and does not efficiently support these cases, making them unsuitable for wearable devices. To address these limitations, we propose a novel, efficient, user-centric, privacy-friendly, and flexible data aggregation and sharing scheme, named SAMA. SAMA uses a multi-key partial homomorphic encryption scheme to allow flexibility in accommodating the aggregation of data originating from a single or multiple data owners while preserving privacy during the processing. It also uses ciphertext-policy attribute-based encryption scheme to support fine-grain sharing with multiple data requesters based on user-centric access control. Formal security analysis shows that SAMA supports data confidentiality and authorisation. SAMA has also been analysed in terms of computational and communication overheads. Our experimental results demonstrate that SAMA supports privacy-preserving flexible data aggregation more efficiently than the relevant state-of-the-art solutions.
翻訳日:2024-03-26 00:17:07 公開日:2024-03-03
# サイバーセキュリティ:過去、現在、未来

Cybersecurity: Past, Present and Future ( http://arxiv.org/abs/2207.01227v3 )

ライセンス: Link先を確認
Shahid Alam, (参考訳) デジタルトランスフォーメーションはサイバースペースと呼ばれる新しいデジタル空間を生み出した。 この新しいサイバースペースは、企業、組織、政府、社会全体の仕事と個人の日々の生活を改善しました。 これらの改善によって、新しい課題が生まれ、大きな課題の1つはセキュリティである。 新しいサイバースペースのセキュリティはサイバーセキュリティと呼ばれる。 Cyberspaceは、クラウドコンピューティング、スマートデバイス、IoTなど、いくつかの新しいテクノロジと環境を作成している。 サイバー技術におけるこれらの進歩に追随するためには、研究を拡張し、これらの領域と環境を確保するための新しいサイバーセキュリティ手法とツールを開発する必要がある。 この本は、読者をサイバーセキュリティの分野に紹介し、現在の問題と課題を強調し、それらを緩和または解決するための今後の方向性を提供するためのものである。 この本で取り上げられるサイバーセキュリティの主な専門分野は、ソフトウェアセキュリティ、ハードウェアセキュリティ、マルウェアの進化、バイオメトリックス、サイバーインテリジェンス、サイバー法医学である。 私たちは過去から学び、現在を進化させ、未来を改善する必要がある。 この目的に基づき、この本はサイバーセキュリティの主要な専門分野の過去、現在、そして未来をカバーしている。 この本は、ハイブリッド拡張現実や説明可能な人工知能(AI)など、サイバーインテリジェンスにおける今後の研究分野についても検討している。 人間とAIのコラボレーションは、サイバーセキュリティシステムの性能を大幅に向上させることができる。 機械学習モデルの解釈と説明、すなわち、説明可能なAIは、新たな研究分野であり、サイバーセキュリティにおけるAIの役割を改善する可能性がある。

The digital transformation has created a new digital space known as cyberspace. This new cyberspace has improved the workings of businesses, organizations, governments, society as a whole, and day to day life of an individual. With these improvements come new challenges, and one of the main challenges is security. The security of the new cyberspace is called cybersecurity. Cyberspace has created new technologies and environments such as cloud computing, smart devices, IoTs, and several others. To keep pace with these advancements in cyber technologies there is a need to expand research and develop new cybersecurity methods and tools to secure these domains and environments. This book is an effort to introduce the reader to the field of cybersecurity, highlight current issues and challenges, and provide future directions to mitigate or resolve them. The main specializations of cybersecurity covered in this book are software security, hardware security, the evolution of malware, biometrics, cyber intelligence, and cyber forensics. We must learn from the past, evolve our present and improve the future. Based on this objective, the book covers the past, present, and future of these main specializations of cybersecurity. The book also examines the upcoming areas of research in cyber intelligence, such as hybrid augmented and explainable artificial intelligence (AI). Human and AI collaboration can significantly increase the performance of a cybersecurity system. Interpreting and explaining machine learning models, i.e., explainable AI is an emerging field of study and has a lot of potentials to improve the role of AI in cybersecurity.
翻訳日:2024-03-26 00:08:10 公開日:2024-03-03
# MATADOR:エッジアプリケーションのためのシステム・オン・チップ・テセリンマシン設計生成

MATADOR: Automated System-on-Chip Tsetlin Machine Design Generation for Edge Applications ( http://arxiv.org/abs/2403.10538v1 )

ライセンス: Link先を確認
Tousif Rahman, Gang Mao, Sidharth Maheshwari, Rishad Shafik, Alex Yakovlev, (参考訳) System-on-Chip Field-Programmable Gate Arrays (SoC-FPGAs) は、機械学習(ML)エッジ推論アプリケーションにおいて、コプロセッサアクセラレータシステムの設計を通じて大きなスループット向上を提供する。 しかし、MLモデルをSoC-FPGAソリューションにトレーニングし、翻訳するための設計努力は相当なもので、モデル性能、消費電力、レイテンシ、リソース利用のトレードオフを意識した専門知識が必要である。 他のMLアルゴリズムとは対照的に、Tsetlin Machine(TM)は、Tsetlin Automata(学習要素)からのブール作用とブール入力特徴の間の論理命題を形成することによって分類を行う。 訓練されたTMモデルは、通常、クラス内およびクラス内の両方において、これらの論理命題の高い疎度とかなりの重複を示す。 したがって、モデルは最小のANDゲートとNOTゲートを使ってRTLレベルの設計に変換することができる。 本稿では, TMモデルの最適化アクセラレーション設計を, エッジでの推論のためにSoC-FPGAに実装可能なGUIインタフェースを備えた自動ブール・シリコンツールであるMATADORを提案する。 モデルトレーニング、システムレベルの設計生成、設計検証、デプロイメントという、完全な開発パイプラインの自動化を提供する。 これは命題重なりから引き起こされる論理的共有を利用し、TMモデルの疎さを効果的に活用してコンパクトな設計を作成する。 MATADOR加速器の設計は、最先端の量子化およびバイナリディープニューラルネットワークの実装と比較して最大13.4倍、最大7倍、最大2倍の電力効率を持つことが示されている。

System-on-Chip Field-Programmable Gate Arrays (SoC-FPGAs) offer significant throughput gains for machine learning (ML) edge inference applications via the design of co-processor accelerator systems. However, the design effort for training and translating ML models into SoC-FPGA solutions can be substantial and requires specialist knowledge aware trade-offs between model performance, power consumption, latency and resource utilization. Contrary to other ML algorithms, Tsetlin Machine (TM) performs classification by forming logic proposition between boolean actions from the Tsetlin Automata (the learning elements) and boolean input features. A trained TM model, usually, exhibits high sparsity and considerable overlapping of these logic propositions both within and among the classes. The model, thus, can be translated to RTL-level design using a miniscule number of AND and NOT gates. This paper presents MATADOR, an automated boolean-to-silicon tool with GUI interface capable of implementing optimized accelerator design of the TM model onto SoC-FPGA for inference at the edge. It offers automation of the full development pipeline: model training, system level design generation, design verification and deployment. It makes use of the logic sharing that ensues from propositional overlap and creates a compact design by effectively utilizing the TM model's sparsity. MATADOR accelerator designs are shown to be up to 13.4x faster, up to 7x more resource frugal and up to 2x more power efficient when compared to the state-of-the-art Quantized and Binary Deep Neural Network implementations.
翻訳日:2024-03-25 07:56:27 公開日:2024-03-03
# SMILESが言語を持つとき:薬物SMILES文字列のテキスト分類法による薬物分類

When SMILES have Language: Drug Classification using Text Classification Methods on Drug SMILES Strings ( http://arxiv.org/abs/2403.12984v1 )

ライセンス: Link先を確認
Azmine Toushik Wasi, Šerbetar Karlo, Raima Islam, Taki Hasan Rafi, Dong-Kyu Chae, (参考訳) 薬物のような複雑な化学構造は、通常SMILES文字列によって分子と結合の配列として定義される。 これらのSMILES文字列は、複雑な機械学習に基づく薬物関連の研究や表現に使われている。 薬物のSMILESを従来の文章として扱い、薬物分類のためのテキスト分類に関わった場合はどうでしょう? 我々の実験は、非常に競争力のあるスコアでその可能性を実証した。 この研究は、各原子と結合を文成分と見なすという概念を探求し、薬物の種類を分類するための基本的なNLP法を用いて、複雑な問題がより単純な視点で解決可能であることを証明した。 データとコードは、https://github.com/azminewasi/Drug-Classification-NLP.comで入手できる。

Complex chemical structures, like drugs, are usually defined by SMILES strings as a sequence of molecules and bonds. These SMILES strings are used in different complex machine learning-based drug-related research and representation works. Escaping from complex representation, in this work, we pose a single question: What if we treat drug SMILES as conventional sentences and engage in text classification for drug classification? Our experiments affirm the possibility with very competitive scores. The study explores the notion of viewing each atom and bond as sentence components, employing basic NLP methods to categorize drug types, proving that complex problems can also be solved with simpler perspectives. The data and code are available here: https://github.com/azminewasi/Drug-Classification-NLP.
翻訳日:2024-03-25 07:27:10 公開日:2024-03-03
# 匿名監査によるブロックチェーンベースのIoT環境のセキュリティとプライバシ向上

Security and Privacy Enhancing in Blockchain-based IoT Environments via Anonym Auditing ( http://arxiv.org/abs/2403.01356v1 )

ライセンス: Link先を確認
Peyman Khordadpour, Saeed Ahmadi, (参考訳) IoT(Internet of Things)環境におけるブロックチェーンテクノロジの統合は、堅牢なセキュリティと強化されたプライバシを保証するための画期的なステップである。 本稿は、ブロックチェーンベースのIoTシステムを保護するための、ユニークな課題とソリューションについて、特にプライバシーとセキュリティを強化するための匿名監査に焦点を当てる。 ブロックチェーンの分散性とIoTコンテキストに適した高度なセキュリティプロトコルを組み合わせた,新たなフレームワークを提案する。 当社のアプローチの中心は、監査プロセスにおける匿名化技術の実装であり、ブロックチェーントランザクションの整合性と透明性を維持しながら、ユーザのプライバシを確保します。 IoT環境でのブロックチェーンのアーキテクチャを概説し、ワークフローと使用する特定のセキュリティメカニズムを強調します。 さらに,プライバシー保護ツールと匿名監査手法を統合したセキュリティプロトコルを導入する。 また、本研究では、提案したフレームワークをドメイン内の既存モデルに対して比較分析する。 私たちの研究は、ブロックチェーンベースのIoT環境におけるセキュリティとプライバシを強化し、よりセキュアでプライベートなデジタルエコシステムを実現するための、包括的な青写真を提供することを目的としています。

The integration of blockchain technology in Internet of Things (IoT) environments is a revolutionary step towards ensuring robust security and enhanced privacy. This paper delves into the unique challenges and solutions associated with securing blockchain-based IoT systems, with a specific focus on anonymous auditing to reinforce privacy and security. We propose a novel framework that combines the decentralized nature of blockchain with advanced security protocols tailored for IoT contexts. Central to our approach is the implementation of anonymization techniques in auditing processes, ensuring user privacy while maintaining the integrity and transparency of blockchain transactions. We outline the architecture of blockchain in IoT environments, emphasizing the workflow and specific security mechanisms employed. Additionally, we introduce a security protocol that integrates privacy-enhancing tools and anonymous auditing methods, including the use of advanced cryptographic techniques for anonymity. This study also includes a comparative analysis of our proposed framework against existing models in the domain. Our work aims to provide a comprehensive blueprint for enhancing security and privacy in blockchain-based IoT environments, paving the way for more secure and private digital ecosystems.
翻訳日:2024-03-18 06:29:47 公開日:2024-03-03
# ISSF: クラウドネイティブ運用のためのインテリジェントセキュリティサービスフレームワーク

ISSF: The Intelligent Security Service Framework for Cloud-Native Operation ( http://arxiv.org/abs/2403.01507v1 )

ライセンス: Link先を確認
Yikuan Yan, Keman Huang, Michael Siegel, (参考訳) マイクロサービスアーキテクチャからのシステム複雑性の増大と、攻撃者とディフェンダーの両方にとって、人工知能(AI)の両側的な拡張は、クラウドネイティブな運用におけるセキュリティ上の課題の増加を示している。 特にクラウドネイティブなオペレータは、防衛的な側面から、クラウドネイティブな環境に対する動的セキュリティ姿勢の全体像を必要とします。 さらに、アタッカーとディフェンダーの両方が高度なAI技術を採用することができる。 これにより、異なる知的犯罪と防衛戦略の動的相互作用とベンチマークがより重要になる。 したがって、マルチエージェントディープ強化学習(RL)パラダイムに従って、クラウドネイティブ操作のためのエージェントベースのインテリジェントセキュリティサービスフレームワーク(ISSF)を開発する。 これには、クラウドネイティブ環境を表現する動的アクセスグラフモデルと、攻撃と防御のアクションを表現するアクションモデルが含まれている。 そして、多様な深層RLアルゴリズムとトレーニング戦略を用いて、インテリジェントなセキュリティサービスのトレーニング、公開、評価を可能にするアプローチを開発し、その体系的な開発とベンチマークを容易にする。 実験により、当社のフレームワークは、ディフェンダーのためのクラウドネイティブシステムのセキュリティ姿勢を十分にモデル化し、アタッカーとディフェンダーの両方の異なるサービスを効果的に開発し、定量的にベンチマークし、さらなるサービス最適化を導くことができることを示した。

The growing system complexity from microservice architectures and the bilateral enhancement of artificial intelligence (AI) for both attackers and defenders presents increasing security challenges for cloud-native operations. In particular, cloud-native operators require a holistic view of the dynamic security posture for the cloud-native environment from a defense aspect. Additionally, both attackers and defenders can adopt advanced AI technologies. This makes the dynamic interaction and benchmark among different intelligent offense and defense strategies more crucial. Hence, following the multi-agent deep reinforcement learning (RL) paradigm, this research develops an agent-based intelligent security service framework (ISSF) for cloud-native operation. It includes a dynamic access graph model to represent the cloud-native environment and an action model to represent offense and defense actions. Then we develop an approach to enable the training, publishing, and evaluating of intelligent security services using diverse deep RL algorithms and training strategies, facilitating their systematic development and benchmark. The experiments demonstrate that our framework can sufficiently model the security posture of a cloud-native system for defenders, effectively develop and quantitatively benchmark different services for both attackers and defenders and guide further service optimization.
翻訳日:2024-03-18 06:29:47 公開日:2024-03-03
# データリンクネットワークにおける階層アクセスのための制御シーケンスセットの構成

Constructions of Control Sequence Set for Hierarchical Access in Data Link Network ( http://arxiv.org/abs/2403.01547v1 )

ライセンス: Link先を確認
Niu Xianhua, Ma Jiabei, Zhou Enzhi, Wang Yaoxuan, Zeng Bosen, Li Zhiping, (参考訳) タイムスロットは、時間分割多重アクセスアーキテクチャを備えたデータリンクネットワークにおいて、貴重なチャネルリソースである。 本稿では,データリンクネットワークにおける大規模アクセス能力,差分アクセス,タイムスロット資源の最大利用,強力なアンチ・イーブドロップ能力の要件を満たすための,セキュアかつ効率的な方法を見つけることの必要性について述べる。この記事では,ノードの異なるニーズやレベルに対して,異なるタイムスロット割り当てを実現するだけでなく,データリンクネットワークにおけるランダム性やアンチ・インターセプション性能を向上させる制御シーケンスに基づく階層型アクセス制御方式を提案する。 さらに、最適階層制御シーケンスセットの柔軟な2つのクラスを構築し、この構成により、データリンクの端末ユーザは、階層的にランダムにアクセスでき、連続フレームの独自のホッピング時間スロット中にデータパケットを送信でき、高いスループットを維持しながら盗聴を防止することができる。

Time slots are a valuable channel resource in the data link network with time division multiple access architecture. The need for finding a secure and efficient way to meet the requirements of large access capacity, differentiated access, maximum utilization of time slot resource and strong anti-eavesdropping ability in data link networks is well motivated.In this paper, a control sequence-based hierarchical access control scheme is proposed, which not only achieves differentiated time slots allocation for the different needs and levels of nodes, but also enhances randomness and anti-interception performance in data link networks.Based on the scheme, a new theoretical bound is derived to characterize parameter relationships for designing optimal hierarchical control sequence(HCS) set. Moreover, two flexible classes of optimal hierarchical control sequence sets are constructed.By our construction, the terminal user in the data link can access hierarchically and randomly and transmit data packets during its own hopping time slots of the successive frames to prevent eavesdropping while maintaining high throughput.
翻訳日:2024-03-18 06:29:47 公開日:2024-03-03
# 大規模言語モデルを用いたIoTデバイスラベリング

IoT Device Labeling Using Large Language Models ( http://arxiv.org/abs/2403.01586v1 )

ライセンス: Link先を確認
Bar Meyuhas, Anat Bremler-Barr, Tal Shapira, (参考訳) IoT市場は多様で、さまざまなデバイス機能(スピーカー、カメラ、掃除機など)をサポートする多数のベンダーによって特徴づけられている。 この市場において、IoTセキュリティと可観測性システムは、これらのデバイスを効果的に管理するためにリアルタイム識別技術を使用する。 既存のIoT識別ソリューションのほとんどは、ベンダーとファンクションの両方がラベル付けしたIoTデバイスを、トレーニングフェーズで観察するマシンラーニング技術を採用している。 AIソリューションは、これまで見たことがなく、ラベルが不明なIoTデバイスにラベルを付けることができるのか? 提案ソリューションでは,ネットワークトラフィックからドメイン名やホスト名などのテキスト機能を抽出し,ベンダやデバイス機能のカタログと並行してGoogle検索データを用いて,これらの機能を充実させる。 このソリューションは、Large Language Models(LLM)を使用して、これらのカタログを新しいデバイスタイプで更新する自動更新メカニズムも統合している。 収集された情報に基づいて、デバイスのベンダーは、リッチな機能と文字列マッチングによって識別される。 関数はLLMによって推論され、事前に定義されたIoT関数のカタログからゼロショット分類される。 97個のIoTデバイス上でのソリューションの評価では,HIT1とHIT2のスコアが0.7と0.77であった。 われわれが知る限りでは、AI自動化IoTラベリングに取り組む最初の研究だ。

The IoT market is diverse and characterized by a multitude of vendors that support different device functions (e.g., speaker, camera, vacuum cleaner, etc.). Within this market, IoT security and observability systems use real-time identification techniques to manage these devices effectively. Most existing IoT identification solutions employ machine learning techniques that assume the IoT device, labeled by both its vendor and function, was observed during their training phase. We tackle a key challenge in IoT labeling: how can an AI solution label an IoT device that has never been seen before and whose label is unknown? Our solution extracts textual features such as domain names and hostnames from network traffic, and then enriches these features using Google search data alongside catalog of vendors and device functions. The solution also integrates an auto-update mechanism that uses Large Language Models (LLMs) to update these catalogs with emerging device types. Based on the information gathered, the device's vendor is identified through string matching with the enriched features. The function is then deduced by LLMs and zero-shot classification from a predefined catalog of IoT functions. In an evaluation of our solution on 97 unique IoT devices, our function labeling approach achieved HIT1 and HIT2 scores of 0.7 and 0.77, respectively. As far as we know, this is the first research to tackle AI-automated IoT labeling.
翻訳日:2024-03-18 06:29:47 公開日:2024-03-03
# セキュリティ領域におけるテーブルトップ演習におけるLCMの使用

Using LLMs for Tabletop Exercises within the Security Domain ( http://arxiv.org/abs/2403.01626v1 )

ライセンス: Link先を確認
Sam Hays, Dr. Jules White, (参考訳) テーブルトップエクササイズは、現実的な方法でセキュリティインシデントの準備をテストし、評価する多くの企業の戦略の重要な要素である。 伝統的に、サイバーセキュリティを専門とする外部企業によって主導され、これらのエクササイズはコストがかかり、時間がかかり、クライアントの特定のニーズと正確に一致するとは限らない。 ChatGPTのような大きな言語モデル(LLM)は魅力的な代替手段を提供する。 より高速なイテレーションを可能にし、リッチで適応可能なシミュレーションを提供し、フィードバックやレコメンデーションの処理において無限の忍耐を提供する。 このアプローチは、セキュリティの準備作業の効率性と関連性を高めることができる。

Tabletop exercises are a crucial component of many company's strategy to test and evaluate its preparedness for security incidents in a realistic way. Traditionally led by external firms specializing in cybersecurity, these exercises can be costly, time-consuming, and may not always align precisely with the client's specific needs. Large Language Models (LLMs) like ChatGPT offer a compelling alternative. They enable faster iteration, provide rich and adaptable simulations, and offer infinite patience in handling feedback and recommendations. This approach can enhances the efficiency and relevance of security preparedness exercises.
翻訳日:2024-03-18 06:29:47 公開日:2024-03-03
# 防衛を打破する - 大規模言語モデルに対する攻撃の比較調査

Breaking Down the Defenses: A Comparative Survey of Attacks on Large Language Models ( http://arxiv.org/abs/2403.04786v1 )

ライセンス: Link先を確認
Arijit Ghosh Chowdhury, Md Mofijul Islam, Vaibhav Kumar, Faysal Hossain Shezan, Vaibhav Kumar, Vinija Jain, Aman Chadha, (参考訳) 大規模言語モデル(LLM)は自然言語処理(NLP)の分野の基盤となり、人間のようなテキストを理解して生成する変換機能を提供する。 しかし、その人気が高まり、これらのモデルのセキュリティと脆弱性の側面は大きな注目を集めている。 本稿では、LSMを標的とした様々な攻撃形態の包括的調査を行い、これらの攻撃の性質とメカニズム、その影響の可能性、現在の防衛戦略について論じる。 モデルアウトプットを操作するための敵攻撃、モデルトレーニングに影響を与えるデータ中毒、データエクスプロイトのトレーニングに関連するプライバシー上の懸念などについて調べる。 また,これらの攻撃に対するLDMのレジリエンス,モデル整合性およびユーザ信頼の意義についても検討した。 最新の研究から,LLMの脆弱性と防御機構の現況について考察する。 我々の目標は、LLM攻撃の微妙な理解を提供し、AIコミュニティ内での認識を高め、将来の開発においてこれらのリスクを緩和するための堅牢なソリューションを刺激することです。

Large Language Models (LLMs) have become a cornerstone in the field of Natural Language Processing (NLP), offering transformative capabilities in understanding and generating human-like text. However, with their rising prominence, the security and vulnerability aspects of these models have garnered significant attention. This paper presents a comprehensive survey of the various forms of attacks targeting LLMs, discussing the nature and mechanisms of these attacks, their potential impacts, and current defense strategies. We delve into topics such as adversarial attacks that aim to manipulate model outputs, data poisoning that affects model training, and privacy concerns related to training data exploitation. The paper also explores the effectiveness of different attack methodologies, the resilience of LLMs against these attacks, and the implications for model integrity and user trust. By examining the latest research, we provide insights into the current landscape of LLM vulnerabilities and defense mechanisms. Our objective is to offer a nuanced understanding of LLM attacks, foster awareness within the AI community, and inspire robust solutions to mitigate these risks in future developments.
翻訳日:2024-03-18 06:19:57 公開日:2024-03-03
# 過去をブレンディング・リファインディングした記憶の進化

Ever-Evolving Memory by Blending and Refining the Past ( http://arxiv.org/abs/2403.04787v1 )

ライセンス: Link先を確認
Seo Hyun Kim, Keummin Ka, Yohan Jo, Seung-won Hwang, Dongha Lee, Jinyoung Yeo, (参考訳) 人間のようなチャットボットでは、長期記憶の構築が不可欠である。 メモリを作るための単純なアプローチは、単に要約された対話をリストアップするだけである。 しかし、これは話者の状態が時間とともに変化し、矛盾する情報が蓄積された場合に問題を引き起こす可能性がある。 応答ジェネレータの混乱を低減するために、メモリが組織化されることが重要です。 本稿では,長期会話のための新しい記憶方式 CREEM を提案する。 現在のセッションのみに基づいてメモリを構築する既存のアプローチとは異なり、メモリ形成中に過去のメモリをブレンドするモデルを提案する。 さらに、冗長または時代遅れの情報を扱うための精錬プロセスを導入します。 この革新的なアプローチは、より情報があり、動的に進化する長期記憶を確実にすることで、チャットボット応答の全体的な改善とコヒーレンスを目指している。

For a human-like chatbot, constructing a long-term memory is crucial. A naive approach for making a memory could be simply listing the summarized dialogue. However, this can lead to problems when the speaker's status change over time and contradictory information gets accumulated. It is important that the memory stays organized to lower the confusion for the response generator. In this paper, we propose a novel memory scheme for long-term conversation, CREEM. Unlike existing approaches that construct memory based solely on current sessions, our proposed model blending past memories during memory formation. Additionally, we introduce refining process to handle redundant or outdated information. This innovative approach seeks for overall improvement and coherence of chatbot responses by ensuring a more informed and dynamically evolving long-term memory.
翻訳日:2024-03-18 06:19:57 公開日:2024-03-03
# Time2Stop: スマートフォンの過剰使用防止のための適応的で説明可能なヒューマンAIループ

Time2Stop: Adaptive and Explainable Human-AI Loop for Smartphone Overuse Intervention ( http://arxiv.org/abs/2403.05584v1 )

ライセンス: Link先を確認
Adiba Orzikulova, Han Xiao, Zhipeng Li, Yukang Yan, Yuntao Wang, Yuanchun Shi, Marzyeh Ghassemi, Sung-Ju Lee, Anind K Dey, Xuhai "Orson" Xu, (参考訳) スマートフォンの過剰使用介入技術の調査の豊富な歴史にもかかわらず、過剰使用削減のためのAIベースのJust-in-time Adaptive intervention(JITAI)メソッドは欠落している。 我々は、機械学習を利用して最適な介入タイミングを識別し、透明なAI説明による介入を導入し、ユーザーフィードバックを収集し、人間のAIループを確立し、介入モデルに時間をかけて適応する、インテリジェントで適応的で説明可能なJITAIシステムであるTime2Stopを開発した。 我々は8週間のフィールド実験(N=71)を行い、Time2Stopの適応と説明の両面の有効性を評価した。 その結果,我々の適応モデルは介入精度 (>32.8\%) と受容率 (>8.0\%) において, ベースライン法よりも有意に優れていた。 さらに、説明を取り入れることで、それぞれ精度と受容率において53.8\%と11.4\%の効率が向上する。 さらに、Time2Stopは過剰使用を著しく減らし、アプリ訪問頻度を7.0$\sim$8.9\%削減する。 我々の主観的データもこれらの量的尺度を反映した。 参加者は適応的な介入を好み、介入時間の正確さ、有効性、信頼度を高く評価した。 我々は,ユーザとともに進化する人間-AIループを用いたJITAIシステムに関する今後の研究をインスピレーションできることを期待している。

Despite a rich history of investigating smartphone overuse intervention techniques, AI-based just-in-time adaptive intervention (JITAI) methods for overuse reduction are lacking. We develop Time2Stop, an intelligent, adaptive, and explainable JITAI system that leverages machine learning to identify optimal intervention timings, introduces interventions with transparent AI explanations, and collects user feedback to establish a human-AI loop and adapt the intervention model over time. We conducted an 8-week field experiment (N=71) to evaluate the effectiveness of both the adaptation and explanation aspects of Time2Stop. Our results indicate that our adaptive models significantly outperform the baseline methods on intervention accuracy (>32.8\% relatively) and receptivity (>8.0\%). In addition, incorporating explanations further enhances the effectiveness by 53.8\% and 11.4\% on accuracy and receptivity, respectively. Moreover, Time2Stop significantly reduces overuse, decreasing app visit frequency by 7.0$\sim$8.9\%. Our subjective data also echoed these quantitative measures. Participants preferred the adaptive interventions and rated the system highly on intervention time accuracy, effectiveness, and level of trust. We envision our work can inspire future research on JITAI systems with a human-AI loop to evolve with users.
翻訳日:2024-03-18 06:10:13 公開日:2024-03-03
# プラズモン共鳴モデル:繰り返しジレンマ条件下でのソリトン溶液を用いたフェイクニュース拡散モデルの解析

Plasmon Resonance Model: Investigation of Analysis of Fake News Diffusion Model with Third Mover Intervention Using Soliton Solution in Non-Complete Information Game under Repeated Dilemma Condition ( http://arxiv.org/abs/2403.05585v1 )

ライセンス: Link先を確認
Yasuko Kawahata, (参考訳) 本稿では,不完全情報ゲームの枠組みにおいて,フェイクニュース拡散過程をモデル化するための新しいアプローチを提案する。 特に、非線形偏微分方程式を用いてプラズモン共鳴の現象を表現し、特定の社会グループや通信ネットワーク内で偽ニュースの拡散を急速に増幅し、ソリトン解法によりそのダイナミクスを解析する。 さらに、この非線形システムにおいて、第1の移動者、第2の移動者、第3の移動者戦略がどのように相互作用するかを検討し、偽ニュース拡散の増幅や抑制に寄与する。 このモデルは、偽ニュース拡散のメカニズムを理解し、その防止や対処方法に関する洞察を提供することを目的としている。 本研究は, 社会科学と物理科学の概念を組み合わせることで, 偽ニュースの現代的問題に対する新たな理論的枠組みを構築しようとするものである。

In this research note, we propose a new approach to model the fake news diffusion process within the framework of incomplete information games. In particular, we use nonlinear partial differential equations to represent the phenomenon of plasmon resonance, in which the diffusion of fake news is rapidly amplified within a particular social group or communication network, and analyze its dynamics through a soliton solution approach. In addition, we consider how first mover, second mover, and third mover strategies interact within this nonlinear system and contribute to the amplification or suppression of fake news diffusion. The model aims to understand the mechanisms of fake news proliferation and provide insights into how to prevent or combat it. By combining concepts from the social sciences and the physical sciences, this study attempts to develop a new theoretical framework for the contemporary problem of fake news.
翻訳日:2024-03-18 06:10:13 公開日:2024-03-03
# セールスマン問題の容量化のための厳密なアルゴリズムとヒューリスティックス

Exact algorithms and heuristics for capacitated covering salesman problems ( http://arxiv.org/abs/2403.06995v1 )

ライセンス: Link先を確認
Lucas Porto Maziero, Fábio Luiz Usberti, Celso Cavellucci, (参考訳) 本稿では,静電容量被覆セールスマン問題 (CCSP) を紹介する。 CCSPでは、車両の移動が可能な場所が提供されており、一部には需要のある顧客がいる。 目的は、車両が横断する距離を最小化し、補給所をベースとした車両群を通じて顧客にサービスを提供することである。 CCSPは、顧客がサービスを受けるためには、車両を訪問する必要がなくなるという意味でユニークである。 代わりに、車両のカバー範囲内であればサービスを行うことができる。 この仮定は、一部の顧客が到達不可能な(例えば、車両へのアクセスを禁止している)アプリケーションや、すべての顧客を訪問するアプリケーションによって動機付けられている。 Integer Linear Programming(ICP)とBRKGA(Biased Random-Key Genetic Algorithm)のメタヒューリスティックに基づくCCSPの最適化手法を提案する。 CCSPのインスタンスのベンチマークで行った計算実験は、原始境界に対する方法論の性能を評価する。 さらに, MDCTVRP(Multi-Depot Covering Tour Vehicle Routing Problem)のためのMILP(Mixed Integer Linear Programming)を新たに作成するために, ILPの定式化を拡張した。 計算実験により、拡張MILPの定式化は、最適性ギャップに対する従来の最先端の正確なアプローチよりも優れていることが示された。 特に、未解決のいくつかのインスタンスに対して最適解が得られた。

This paper introduces the Capacitated Covering Salesman Problem (CCSP), approaching the notion of service by coverage in capacitated vehicle routing problems. In CCSP, locations where vehicles can transit are provided, some of which have customers with demands. The objective is to service customers through a fleet of vehicles based in a depot, minimizing the total distance traversed by the vehicles. CCSP is unique in the sense that customers, to be serviced, do not need to be visited by a vehicle. Instead, they can be serviced if they are within a coverage area of the vehicle. This assumption is motivated by applications in which some customers are unreachable (e.g., forbidden access to vehicles) or visiting every customer is impractical. In this work, optimization methodologies are proposed for the CCSP based on ILP (Integer Linear Programming) and BRKGA (Biased Random-Key Genetic Algorithm) metaheuristic. Computational experiments conducted on a benchmark of instances for the CCSP evaluate the performance of the methodologies with respect to primal bounds. Furthermore, our ILP formulation is extended in order to create a novel MILP (Mixed Integer Linear Programming) for the Multi-Depot Covering Tour Vehicle Routing Problem (MDCTVRP). Computational experiments show that the extended MILP formulation outperformed the previous state-of-the-art exact approach with respect to optimality gaps. In particular, optimal solutions were obtained for several previously unsolved instances.
翻訳日:2024-03-18 06:00:28 公開日:2024-03-03
# 人間と人工創造の確率論について

On the stochastics of human and artificial creativity ( http://arxiv.org/abs/2403.06996v1 )

ライセンス: Link先を確認
Solve Sæbø, Helge Brovold, (参考訳) 人間の創造性を構成するものは何であり、コンピュータが真の創造性を示すことは可能か? 我々は、コンピュータで人間レベルの知性を達成すること、いわゆる人工知能は、人間レベルの創造性も必要であると主張している。 我々は、確率論、心理学、哲学、神経科学、カオス理論からの事前の洞察を取り入れ、人間の創造性を統計的に表現することで、この議論に貢献する。 これは、バイアスガイドされたランダムな提案ステップと、フレキシブルまたは変換可能なバイアス構造に依存する評価ステップの両方を含む、人間の創造的プロセスの確率的な性質を強調します。 人間の創造性の獲得された表現は、その後、様々な現代のAIシステムの創造性レベルを評価するために使用される。 私たちの分析には、強化学習や拡散モデル、大規模言語モデルといった最新のAIアルゴリズムが含まれています。 これらの技術は現在、人間レベルでの自律的な創造的行動の能力が欠如していると結論付けている。

What constitutes human creativity, and is it possible for computers to exhibit genuine creativity? We argue that achieving human-level intelligence in computers, or so-called Artificial General Intelligence, necessitates attaining also human-level creativity. We contribute to this discussion by developing a statistical representation of human creativity, incorporating prior insights from stochastic theory, psychology, philosophy, neuroscience, and chaos theory. This highlights the stochastic nature of the human creative process, which includes both a bias guided, random proposal step, and an evaluation step depending on a flexible or transformable bias structure. The acquired representation of human creativity is subsequently used to assess the creativity levels of various contemporary AI systems. Our analysis includes modern AI algorithms such as reinforcement learning, diffusion models, and large language models, addressing to what extent they measure up to human level creativity. We conclude that these technologies currently lack the capability for autonomous creative action at a human level.
翻訳日:2024-03-18 06:00:28 公開日:2024-03-03
# 3次元経直腸超音波における前立腺切開の深部的特徴

Deep Attentive Features for Prostate Segmentation in 3D Transrectal Ultrasound ( http://arxiv.org/abs/1907.01743v2 )

ライセンス: Link先を確認
Yi Wang, Haoran Dou, Xiaowei Hu, Lei Zhu, Xin Yang, Ming Xu, Jing Qin, Pheng-Ann Heng, Tianfu Wang, and Dong Ni(参考訳) 経直腸超音波(TRUS)画像の自動前立腺分画は、画像誘導前立腺介入と治療計画において重要である。 しかし、TRUSにおける前立腺の境界の欠如や不均一な強度分布、および前立腺形態の大きな変動により、そのような自動解の開発は非常に困難である。 本稿では,畳み込みニューラルネットワーク(CNN)の異なる層に符号化された補完情報を完全に活用することにより,TRUSにおける前立腺のセグメンテーションを改善するための注意モジュールを備えた新しい3次元ディープニューラルネットワークを開発する。 我々の注目モジュールは、注目機構を利用して、異なる層から統合された多層的特徴を選択的に活用し、各層における特徴を洗練させ、CNNの浅い層における非前立腺ノイズを抑制し、深い層における特徴により多くの前立腺の詳細を増大させる。 3次元TRUSボリュームに対する実験結果から,本手法は良好なセグメンテーション性能が得られることが示された。 提案するアテンションメカニズムは,多段階の深い特徴を集約する一般的な戦略であり,他の医用画像セグメンテーションタスクに使用することができる。 コードはhttps://github.com/wulalago/DAF3Dで公開されている。

Automatic prostate segmentation in transrectal ultrasound (TRUS) images is of essential importance for image-guided prostate interventions and treatment planning. However, developing such automatic solutions remains very challenging due to the missing/ambiguous boundary and inhomogeneous intensity distribution of the prostate in TRUS, as well as the large variability in prostate shapes. This paper develops a novel 3D deep neural network equipped with attention modules for better prostate segmentation in TRUS by fully exploiting the complementary information encoded in different layers of the convolutional neural network (CNN). Our attention module utilizes the attention mechanism to selectively leverage the multilevel features integrated from different layers to refine the features at each individual layer, suppressing the non-prostate noise at shallow layers of the CNN and increasing more prostate details into features at deep layers. Experimental results on challenging 3D TRUS volumes show that our method attains satisfactory segmentation performance. The proposed attention mechanism is a general strategy to aggregate multi-level deep features and has the potential to be used for other medical image segmentation tasks. The code is publicly available at https://github.com/wulalago/DAF3D.
翻訳日:2024-03-08 18:40:57 公開日:2024-03-03
# 3次元超音波による平面定位のためのウォームスタート・アクティブターミネーション剤

Agent with Warm Start and Active Termination for Plane Localization in 3D Ultrasound ( http://arxiv.org/abs/1910.04331v2 )

ライセンス: Link先を確認
Haoran Dou, Xin Yang, Jikuan Qian, Wufeng Xue, Hao Qin, Xu Wang, Lequan Yu, Shujun Wang, Yi Xiong, Pheng-Ann Heng, Dong Ni(参考訳) 超音波診断には標準平面定位が不可欠である。 米国では、数十機の標準機が手動で2Dプローブで取得される。 時間とオペレータに依存します。 対照的に、複数の標準平面を1ショットに含む3D USは、ユーザ依存性の低減と効率の向上に固有の利点がある。 しかし,大検索空間と胎児姿勢の変化により,米国における手動平面定位は困難である。 本研究では,3次元usにおける胎児脳標準平面の自動ローカライズを行う新しい強化学習(rl)フレームワークを提案する。 私たちの貢献は2倍です。 まず、RLフレームワークにランドマーク対応アライメントモジュールを装備し、エージェントアクションの温かい開始と強い空間境界を提供し、その有効性を保証する。 第2に、エージェント推論を受動的かつ経験的に終了させる代わりに、エージェントの相互作用手順のアクティブ終了のための繰り返しニューラルネットワークベースの戦略を提案する。 これにより、ローカライズシステムの精度と効率が向上する。 社内の大規模データセットで広く検証されたこのアプローチは、視床面と視床面の局在に対して、それぞれ3.4mm/9.6{\deg}と2.7mm/9.1{\deg}の精度を達成している。 提案するRLフレームワークは汎用的で,USスキャンの効率化と標準化の可能性を秘めている。

Standard plane localization is crucial for ultrasound (US) diagnosis. In prenatal US, dozens of standard planes are manually acquired with a 2D probe. It is time-consuming and operator-dependent. In comparison, 3D US containing multiple standard planes in one shot has the inherent advantages of less user-dependency and more efficiency. However, manual plane localization in US volume is challenging due to the huge search space and large fetal posture variation. In this study, we propose a novel reinforcement learning (RL) framework to automatically localize fetal brain standard planes in 3D US. Our contribution is two-fold. First, we equip the RL framework with a landmark-aware alignment module to provide warm start and strong spatial bounds for the agent actions, thus ensuring its effectiveness. Second, instead of passively and empirically terminating the agent inference, we propose a recurrent neural network based strategy for active termination of the agent's interaction procedure. This improves both the accuracy and efficiency of the localization system. Extensively validated on our in-house large dataset, our approach achieves the accuracy of 3.4mm/9.6{\deg} and 2.7mm/9.1{\deg} for the transcerebellar and transthalamic plane localization, respectively. Ourproposed RL framework is general and has the potential to improve the efficiency and standardization of US scanning.
翻訳日:2024-03-07 04:43:27 公開日:2024-03-03
# プライベート予測セット

Private Prediction Sets ( http://arxiv.org/abs/2102.06202v3 )

ライセンス: Link先を確認
Anastasios N. Angelopoulos and Stephen Bates and Tijana Zrnic and Michael I. Jordan(参考訳) 一連の意思決定を含む現実の環境では、機械学習システムの導入は一般的に信頼性の高い不確実性定量化と個人のプライバシー保護の両方を必要とする。 これら2つのデシラタを共同で扱う枠組みを提案する。 我々のフレームワークは、予測モデルを拡張して不確実な定量化を提供する予測セットを返す手法である共形予測に基づいており、90%のようなユーザ特定確率で真の応答を確実にカバーしている。 プライベートにトレーニングされたモデルを使用する場合、コンフォーマル予測が結果の予測セットに対するプライバシー保証をもたらすことを期待するかもしれない。 この問題を解決するために,事前学習された予測モデルを取り込んで,微分プライベートな予測集合を出力する手法を開発した。 提案手法は分割共形予測の一般的な手法に準じており,予測集合のサイズを定式化するためにホールドアウトデータを用いるが,民営化された分位分位子サブルーチンを用いてプライバシを保留する。 このサブルーチンは、適切なカバレッジを保証するためにプライバシーを保護するために導入されたノイズを補償する。 本手法を大規模コンピュータビジョンデータセット上で評価する。

In real-world settings involving consequential decision-making, the deployment of machine learning systems generally requires both reliable uncertainty quantification and protection of individuals' privacy. We present a framework that treats these two desiderata jointly. Our framework is based on conformal prediction, a methodology that augments predictive models to return prediction sets that provide uncertainty quantification -- they provably cover the true response with a user-specified probability, such as 90%. One might hope that when used with privately-trained models, conformal prediction would yield privacy guarantees for the resulting prediction sets; unfortunately, this is not the case. To remedy this key problem, we develop a method that takes any pre-trained predictive model and outputs differentially private prediction sets. Our method follows the general approach of split conformal prediction; we use holdout data to calibrate the size of the prediction sets but preserve privacy by using a privatized quantile subroutine. This subroutine compensates for the noise introduced to preserve privacy in order to guarantee correct coverage. We evaluate the method on large-scale computer vision datasets.
翻訳日:2024-03-07 04:38:55 公開日:2024-03-03
# UCB帯域における最適対外攻撃

Near Optimal Adversarial Attack on UCB Bandits ( http://arxiv.org/abs/2008.09312v7 )

ライセンス: Link先を確認
Shiliang Zuo(参考訳) 確率的バンディットアルゴリズムに対する敵対的攻撃について研究する。 各ラウンドで、学習者は腕を選択し、確率的な報酬を生成する。 敵は戦略的に報酬に汚職を加え、学習者は各ラウンドで腐敗した報酬を観察することができる。 本論文では2つの結果を示す。 第1セットは、敵に対する最適な攻撃戦略を研究する。 敵は、彼が宣伝したいターゲットアームを持ち、彼のゴールは、学習者を操り、このターゲットアームを$T - o(T)$ timesを選択することである。 私はUPBとThompson Samplingに対する攻撃戦略を設計し、$\widehat{O}(\sqrt{\log T})$コストしか使っていません。 一致した下界を示し、UPB、トンプソンサンプリング、および$\varepsilon$-greedyの脆弱性を正確に特徴づける。 第2セットは、学習者が敵に対してどのように防御できるかを研究する。 スムーズな分析と行動経済学に関する文献に触発されて、私は2つの単純なアルゴリズムを示し、任意の比を1。

I study adversarial attacks against stochastic bandit algorithms. At each round, the learner chooses an arm, and a stochastic reward is generated. The adversary strategically adds corruption to the reward, and the learner is only able to observe the corrupted reward at each round. Two sets of results are presented in this paper. The first set studies the optimal attack strategies for the adversary. The adversary has a target arm he wishes to promote, and his goal is to manipulate the learner into choosing this target arm $T - o(T)$ times. I design attack strategies against UCB and Thompson Sampling that only spends $\widehat{O}(\sqrt{\log T})$ cost. Matching lower bounds are presented, and the vulnerability of UCB, Thompson sampling and $\varepsilon$-greedy are exactly characterized. The second set studies how the learner can defend against the adversary. Inspired by literature on smoothed analysis and behavioral economics, I present two simple algorithms that achieve a competitive ratio arbitrarily close to 1.
翻訳日:2024-03-07 04:38:37 公開日:2024-03-03
# 3次元超音波による胎児のポーズ推定

FetusMap: Fetal Pose Estimation in 3D Ultrasound ( http://arxiv.org/abs/1910.04935v2 )

ライセンス: Link先を確認
Xin Yang, Wenlong Shi, Haoran Dou, Jikuan Qian, Yi Wang, Wufeng Xue, Shengli Li, Dong Ni, Pheng-Ann Heng(参考訳) 3D超音波(US)の入り口は、多数の自動出生前検査を刺激する。 しかし、3D USにおける胎児全体の構造的記述に関する研究は稀である。 本稿では,米国における胎児の3次元ポーズを推定し,世界規模および地域規模での定量的分析を容易にすることを提案する。 高次元、低画質、解剖学的構造における対称な曖昧さ、胎児のポーズのバリエーションなど、3d usの大きな課題を考えると、私たちの貢献は3倍です。 (i)文献における胎児の3次元姿勢推定に関する最初の研究である。 胎児全体の骨格を抽出し、異なるセグメント/ジョイントを正しいtorso/limbラベルで割り当てることを目的としている。 (II)深層ネットワークを微調整して視覚的に妥当なポーズ予測を行うための自己教師型学習(SSL)フレームワークを提案する。 具体的には、ランドマークベースの登録を利用して、ケース適応型解剖学的前処理を効果的にエンコードし、監視のための進化するラベルプロキシを生成する。 (iii) 限られた計算資源で高い解像度の入力を持つコンテクストキューを認識できるように,gpuメモリを節約し,予測を改善するために,グラデーション・チェックポイント(gcp)戦略も採用した。 大規模な3d usデータセット上で広く検証されたこの方法は,胎児のさまざまなポーズに取り組み,有望な結果を得る。 胎児の3次元ポーズ推定は、多くの先進的な研究のためにナビゲーションを提供する地図として機能する可能性がある。

The 3D ultrasound (US) entrance inspires a multitude of automated prenatal examinations. However, studies about the structuralized description of the whole fetus in 3D US are still rare. In this paper, we propose to estimate the 3D pose of fetus in US volumes to facilitate its quantitative analyses in global and local scales. Given the great challenges in 3D US, including the high volume dimension, poor image quality, symmetric ambiguity in anatomical structures and large variations of fetal pose, our contribution is three-fold. (i) This is the first work about 3D pose estimation of fetus in the literature. We aim to extract the skeleton of whole fetus and assign different segments/joints with correct torso/limb labels. (ii) We propose a self-supervised learning (SSL) framework to finetune the deep network to form visually plausible pose predictions. Specifically, we leverage the landmark-based registration to effectively encode case-adaptive anatomical priors and generate evolving label proxy for supervision. (iii) To enable our 3D network perceive better contextual cues with higher resolution input under limited computing resource, we further adopt the gradient check-pointing (GCP) strategy to save GPU memory and improve the prediction. Extensively validated on a large 3D US dataset, our method tackles varying fetal poses and achieves promising results. 3D pose estimation of fetus has potentials in serving as a map to provide navigation for many advanced studies.
翻訳日:2024-03-07 04:37:25 公開日:2024-03-03
# エルミートおよび非エルミート量子力学における創発的並列輸送と曲率

Emergent parallel transport and curvature in Hermitian and non-Hermitian quantum mechanics ( http://arxiv.org/abs/2204.05657v3 )

ライセンス: Link先を確認
Chia-Yi Ju, Adam Miranowicz, Yueh-Nan Chen, Guang-Yin Chen, Franco Nori(参考訳) 研究により、非エルミート系のヒルベルト空間は非自明な計量を必要とすることが示されている。 ここでは、時間に加えて、進化次元が幾何学的形式から自然に現れることを実証する。 具体的には、この形式論において、ハミルトニアンはクリストッフェル記号のような作用素として解釈でき、シュレーディンガー方程式はこの形式論における平行輸送として解釈できる。 次に、創発次元に沿った状態と計量の進化方程式を導出し、任意の閉系に対するヒルベルト空間バンドルの曲率が局所平坦であることを見出す。 最後に、状態の忠実度感受性とベリー曲率がこれらの創発的並列輸送と関連していることを示す。

Studies have shown that the Hilbert spaces of non-Hermitian systems require nontrivial metrics. Here, we demonstrate how evolution dimensions, in addition to time, can emerge naturally from a geometric formalism. Specifically, in this formalism, Hamiltonians can be interpreted as a Christoffel symbol-like operators, and the Schroedinger equation as a parallel transport in this formalism. We then derive the evolution equations for the states and metrics along the emergent dimensions and find that the curvature of the Hilbert space bundle for any given closed system is locally flat. Finally, we show that the fidelity susceptibilities and the Berry curvatures of states are related to these emergent parallel transports.
翻訳日:2024-03-07 04:29:10 公開日:2024-03-03
# モデルベースオフライン強化学習のサンプル複雑性の解消

Settling the Sample Complexity of Model-Based Offline Reinforcement Learning ( http://arxiv.org/abs/2204.05275v3 )

ライセンス: Link先を確認
Gen Li and Laixi Shi and Yuxin Chen and Yuejie Chi and Yuting Wei(参考訳) 本稿では,事前収集データを用いて学習するオフライン強化学習(RL)について検討する。 効果的なオフラインRLは、分散シフトと限られたデータカバレッジに対応できる。 しかしながら、以前のアルゴリズムや解析では、サンプルの最適性に到達するために、サブオプティカルなサンプルの複雑さや高いバーンインコストが伴うため、サンプルが飢えたアプリケーションでは、効率的なオフラインrlの障害となる。 モデルベース(もしくは「プラグイン」)アプローチは,表型マルコフ決定プロセス(MDP)のバーンインコストを伴わずに,最小限のサンプル複雑性を実現する。 具体的には有限水平(resp)を考える。 $\gamma$-discounted infinite-horizon) mdpには$s$ statesとhorizon $h$ (resp.com)がある。 有効地平線$\frac{1}{1-\gamma}$) と仮定すると、データの分散シフトは、ある単一ポリスクリッピングされた集中係数$C^{\star}_{\text{clipped}}$によって反映される。 モデルベースオフライン RL は \[ \begin{cases} \frac{H^{4}SC_{\text{clipped}}^{\star}}{\varepsilon^{2}} & (\text{finite-horizon MDPs}) \frac{SC_{\text{clipped}}^{\star}}{(1-\gamma)^{3}\varepsilon^{2}} & (\text{infinite-horizon MDPs}) \end{cases} \] のサンプル複雑性で $\varepsilon$-accuracy を得る。 提案アルゴリズムは, ベルンシュタイン型ペナルティを用いた値反復の「悲観的」変種であり, 高度な分散還元を必要としない。 我々の分析フレームワークは、MDPに合わせた慎重な自己拘束技術とともに、微妙な脱結合論に基づく。

This paper is concerned with offline reinforcement learning (RL), which learns using pre-collected data without further exploration. Effective offline RL would be able to accommodate distribution shift and limited data coverage. However, prior algorithms or analyses either suffer from suboptimal sample complexities or incur high burn-in cost to reach sample optimality, thus posing an impediment to efficient offline RL in sample-starved applications. We demonstrate that the model-based (or "plug-in") approach achieves minimax-optimal sample complexity without burn-in cost for tabular Markov decision processes (MDPs). Concretely, consider a finite-horizon (resp. $\gamma$-discounted infinite-horizon) MDP with $S$ states and horizon $H$ (resp. effective horizon $\frac{1}{1-\gamma}$), and suppose the distribution shift of data is reflected by some single-policy clipped concentrability coefficient $C^{\star}_{\text{clipped}}$. We prove that model-based offline RL yields $\varepsilon$-accuracy with a sample complexity of \[ \begin{cases} \frac{H^{4}SC_{\text{clipped}}^{\star}}{\varepsilon^{2}} & (\text{finite-horizon MDPs}) \frac{SC_{\text{clipped}}^{\star}}{(1-\gamma)^{3}\varepsilon^{2}} & (\text{infinite-horizon MDPs}) \end{cases} \] up to log factor, which is minimax optimal for the entire $\varepsilon$-range. The proposed algorithms are ``pessimistic'' variants of value iteration with Bernstein-style penalties, and do not require sophisticated variance reduction. Our analysis framework is established upon delicate leave-one-out decoupling arguments in conjunction with careful self-bounding techniques tailored to MDPs.
翻訳日:2024-03-07 04:28:56 公開日:2024-03-03
# CMGAN:音声強調のためのコンバータベースメトリックGAN

CMGAN: Conformer-based Metric GAN for Speech Enhancement ( http://arxiv.org/abs/2203.15149v4 )

ライセンス: Link先を確認
Ruizhe Cao, Sherif Abdulatif, Bin Yang(参考訳) 近年,畳み込み拡張変換器(Conformer)は,音声信号の局所的および大域的依存関係を捕捉し,音声認識(ASR)と時間領域音声強調(SE)において有望な性能を実現している。 本稿では、時間周波数(TF)領域におけるSEのためのコンバータベース計量生成逆ネットワーク(CMGAN)を提案する。 生成器では2段コンバータブロックを用いて時間と周波数の双方の依存性をモデル化し,全等級および複雑なスペクトログラム情報を集約する。 マグニチュードと複素スペクトログラムの推定はデコーダの段階でデカップリングされ、統合されて拡張音声を再構築する。 さらに、対応する評価スコアに対してジェネレータを最適化することにより、拡張推定音声の品質をさらに向上させるために、計量判別器を用いる。 Voice Bank+DEMANDデータセットの定量的分析は、CMGANが、マージン3.41のPSSQと11.10dBのSSNRといった、様々な過去のモデルを上回る能力を示している。

Recently, convolution-augmented transformer (Conformer) has achieved promising performance in automatic speech recognition (ASR) and time-domain speech enhancement (SE), as it can capture both local and global dependencies in the speech signal. In this paper, we propose a conformer-based metric generative adversarial network (CMGAN) for SE in the time-frequency (TF) domain. In the generator, we utilize two-stage conformer blocks to aggregate all magnitude and complex spectrogram information by modeling both time and frequency dependencies. The estimation of magnitude and complex spectrogram is decoupled in the decoder stage and then jointly incorporated to reconstruct the enhanced speech. In addition, a metric discriminator is employed to further improve the quality of the enhanced estimated speech by optimizing the generator with respect to a corresponding evaluation score. Quantitative analysis on Voice Bank+DEMAND dataset indicates the capability of CMGAN in outperforming various previous models with a margin, i.e., PESQ of 3.41 and SSNR of 11.10 dB.
翻訳日:2024-03-07 04:27:49 公開日:2024-03-03
# スピンプロセッサによるダイヤモンド中の量子異常検出

Quantum Anomaly Detection with a Spin Processor in Diamond ( http://arxiv.org/abs/2201.10263v2 )

ライセンス: Link先を確認
Zihua Chai, Ying Liu, Mengqi Wang, Yuhang Guo, Fazhan Shi, Zhaokai Li, Ya Wang, Jiangfeng Du(参考訳) 量子計算の処理において、量子データのパターンの解析と学習は多くのタスクに不可欠である。 量子機械学習アルゴリズムは、前述した量子手続きで生成された量子状態だけでなく、古典的な問題をエンコードする量子レジスタも扱うことができる。 本研究では,ダイヤモンド中の固体スピンからなる3量子量子プロセッサを用いて,オーディオサンプルを符号化する量子状態の異常検出を実験的に実証する。 数個の通常のサンプルで量子マシンを訓練することにより、最小エラー率15.4%で異常サンプルを検出することができる。 これらの結果は、機械学習タスクの処理における量子異常検出のパワーと、量子デバイスの異常出力を検出する能力を示している。

In the processing of quantum computation, analyzing and learning the pattern of the quantum data are essential for many tasks. Quantum machine learning algorithms can not only deal with the quantum states generated in the preceding quantum procedures, but also the quantum registers encoding classical problems. In this work, we experimentally demonstrate the anomaly detection of quantum states encoding audio samples with a three-qubit quantum processor consisting of solid-state spins in diamond. By training the quantum machine with a few normal samples, the quantum machine can detect the anomaly samples with a minimum error rate of 15.4%. These results show the power of quantum anomaly detection in dealing with machine learning tasks and the potential to detect abnormal output of quantum devices.
翻訳日:2024-03-07 04:26:24 公開日:2024-03-03
# PIP: 位置エンコード画像

PIP: Positional-encoding Image Prior ( http://arxiv.org/abs/2211.14298v3 )

ライセンス: Link先を確認
Nimrod Shabtay, Eli Schwartz and Raja Giryes(参考訳) 深部画像先行(dip)では、畳み込みニューラルネットワーク(cnn)を装着して、潜在空間を劣化した(例えばノイズの多い)画像にマッピングするが、その過程でクリーン画像の再構築を学習する。 この現象はCNNの内部イメージ優先によるものである。 我々は、神経の暗黙的な表現の観点から、ディップフレームワークを再検討する。 この観点から、ランダムもしくは学習済みの潜伏語をフーリエ・フィーチャース (Positional Encoding) に置き換える。 本稿では,Fourierの機能特性により,単純なピクセルレベルのMPPで畳み込み層を置き換えることができることを示す。 我々は、このスキームを ``positional encoding image prior" (pip) と命名し、パラメータの少ない様々な画像再構成タスクのディップと非常によく似た性能を示す。 さらに,PIPは3D-DIPが苦労して不安定なビデオに容易に拡張できることを示した。 ビデオを含むすべてのタスクのコードと追加の例は、プロジェクトページhttps://nimrodshabtay.github.io/pip/で見ることができる。

In Deep Image Prior (DIP), a Convolutional Neural Network (CNN) is fitted to map a latent space to a degraded (e.g. noisy) image but in the process learns to reconstruct the clean image. This phenomenon is attributed to CNN's internal image-prior. We revisit the DIP framework, examining it from the perspective of a neural implicit representation. Motivated by this perspective, we replace the random or learned latent with Fourier-Features (Positional Encoding). We show that thanks to the Fourier features properties, we can replace the convolution layers with simple pixel-level MLPs. We name this scheme ``Positional Encoding Image Prior" (PIP) and exhibit that it performs very similarly to DIP on various image-reconstruction tasks with much less parameters required. Additionally, we demonstrate that PIP can be easily extended to videos, where 3D-DIP struggles and suffers from instability. Code and additional examples for all tasks, including videos, are available on the project page https://nimrodshabtay.github.io/PIP/
翻訳日:2024-03-07 04:21:41 公開日:2024-03-03
# camanet: 放射線レポート生成のためのクラスアクティベーションマップ誘導注意ネットワーク

CAMANet: Class Activation Map Guided Attention Network for Radiology Report Generation ( http://arxiv.org/abs/2211.01412v2 )

ライセンス: Link先を確認
Jun Wang, Abhir Bhalerao, Terry Yin, Simon See, Yulan He(参考訳) 放射線医学報告生成(RRG)は、医療資源不足を緩和し、放射線技師による疾患決定のプロセスを支援する大きな可能性から、研究の注目を集めている。 近年のrrgの進歩は、画像領域と単語間のクロスモーダルアライメントを明示的に検討する研究は少ないが、単一モーダル特徴表現のエンコーディングにおけるモデルの能力向上に大きく寄与している。 放射線学者は通常、対応するテキスト記述を構成する前に画像領域の異常に焦点を合わせ、画像の異常を認識するRRGモデルを学ぶことが非常に重要である。 そこで本研究では,クラスアクティベーションマップを用いてクロスモーダル注意学習を監督し,同時に識別情報を充実させることにより,クロスモーダルアライメントを明示的に促進するクラスアクティベーションマップ誘導注意ネットワーク(camanet)を提案する。 camanetには3つの補完的なモジュールが含まれている: 各視覚的トークンの重要/帰属を生成する視覚的識別マップ生成モジュール、識別表現を学習し識別情報を豊かにするための視覚的識別マップ支援エンコーダ、視覚とテキスト間の注意一貫性を確保するビジュアルテクスト的注意一貫性モジュール、および、クロスモーダルアライメントを実現する。 実験の結果,CAMANetは2つのRRGベンチマークにおいて,従来のSOTA法よりも優れていた。

Radiology report generation (RRG) has gained increasing research attention because of its huge potential to mitigate medical resource shortages and aid the process of disease decision making by radiologists. Recent advancements in RRG are largely driven by improving a model's capabilities in encoding single-modal feature representations, while few studies explicitly explore the cross-modal alignment between image regions and words. Radiologists typically focus first on abnormal image regions before composing the corresponding text descriptions, thus cross-modal alignment is of great importance to learn a RRG model which is aware of abnormalities in the image. Motivated by this, we propose a Class Activation Map guided Attention Network (CAMANet) which explicitly promotes crossmodal alignment by employing aggregated class activation maps to supervise cross-modal attention learning, and simultaneously enrich the discriminative information. CAMANet contains three complementary modules: a Visual Discriminative Map Generation module to generate the importance/contribution of each visual token; Visual Discriminative Map Assisted Encoder to learn the discriminative representation and enrich the discriminative information; and a Visual Textual Attention Consistency module to ensure the attention consistency between the visual and textual tokens, to achieve the cross-modal alignment. Experimental results demonstrate that CAMANet outperforms previous SOTA methods on two commonly used RRG benchmarks.
翻訳日:2024-03-07 04:20:06 公開日:2024-03-03
# FIMP: グラフニューラルネットワークのための基礎モデルインフォームドメッセージパッシング

FIMP: Foundation Model-Informed Message Passing for Graph Neural Networks ( http://arxiv.org/abs/2210.09475v3 )

ライセンス: Link先を確認
Syed Asad Rizvi, Nhi Nguyen, Haoran Lyu, Benjamin Christensen, Josue Ortega Caro, Antonio H. O. Fonseca, Emanuele Zappala, Maryam Bagherian, Christopher Averill, Chadi G. Abdallah, Amin Karbasi, Rex Ying, Maria Brbic, Rahul Madhav Dhodapkar, David van Dijk(参考訳) ファンデーションモデルは、幅広い下流タスクに適応可能な汎用プラットフォームとして機能する、ディープラーニング(DL)のランドスケープに革命をもたらした。 その適応性にもかかわらず、ダウンストリームグラフベースのタスクへの基礎モデルの応用は限られており、グラフ構造設定で大規模非グラフプリトレーニングモデルを活用するための便利な方法はない。 本稿では、基礎モデルとGNNの分野を単純な概念で橋渡しするFIMP(Foundation-Informed Message Passing)と呼ばれる新しいフレームワークを提案する。 提案手法により,複数のデータ領域におけるグラフベースタスクの性能が向上し,基礎モデルの知識をグラフニューラルネットワークで活用できることが示唆された。

Foundation models have revolutionized the landscape of Deep Learning (DL), serving as a versatile platform which can be adapted to a wide range of downstream tasks. Despite their adaptability, applications of foundation models to downstream graph-based tasks have been limited, and there remains no convenient way to leverage large-scale non-graph pretrained models in graph-structured settings. In this work, we present a new framework which we term Foundation-Informed Message Passing (FIMP) to bridge the fields of foundational models and GNNs through a simple concept: constructing message-passing operators from pretrained foundation model weights. We show that this approach results in improved performance for graph-based tasks in a number of data domains, allowing graph neural networks to leverage the knowledge of foundation models.
翻訳日:2024-03-07 04:19:38 公開日:2024-03-03
# 低リソース言語における教師なし翻訳品質推定

Mismatching-Aware Unsupervised Translation Quality Estimation For Low-Resource Languages ( http://arxiv.org/abs/2208.00463v3 )

ライセンス: Link先を確認
Fatemeh Azadi, Heshaam Faili, Mohammad Javad Dousti(参考訳) 翻訳品質推定(QE)は、機械翻訳(MT)出力の品質を基準なしに予測するタスクである。 本稿ではまず,XLM-RoBERTa(XLMR)モデルを用いて計算されたBERTScoreの言語間対応であるXLMRScoreを提案する。 このメトリクスは単純な教師なしQE手法として利用することができるが、まず、予期せぬ高い翻訳スコアにつながる未翻訳トークンと、XLMRScoreのgreedyマッチングを適用する際のソーストークンと仮説トークンの誤りマッチングの問題の2つに直面している。 これらの問題を緩和するために,未翻訳の単語を未知のトークンに置き換えることと,事前学習されたモデルの言語間アライメントをそれぞれ互いに親密に表現することを提案する。 本稿では、wmt21 qe共有タスクの4つの低リソース言語ペアと、本論文で導入された新しい英語$\rightarrow$persian (en-fa) テストデータセットについて提案手法を評価する。 実験の結果,Pearsonの相関は0.01以下であり,低リソースの言語ペアでは平均8%以上で,教師なしの競合よりも優れていた。

Translation Quality Estimation (QE) is the task of predicting the quality of machine translation (MT) output without any reference. This task has gained increasing attention as an important component in the practical applications of MT. In this paper, we first propose XLMRScore, which is a cross-lingual counterpart of BERTScore computed via the XLM-RoBERTa (XLMR) model. This metric can be used as a simple unsupervised QE method, nevertheless facing two issues: firstly, the untranslated tokens leading to unexpectedly high translation scores, and secondly, the issue of mismatching errors between source and hypothesis tokens when applying the greedy matching in XLMRScore. To mitigate these issues, we suggest replacing untranslated words with the unknown token and the cross-lingual alignment of the pre-trained model to represent aligned words closer to each other, respectively. We evaluate the proposed method on four low-resource language pairs of the WMT21 QE shared task, as well as a new English$\rightarrow$Persian (En-Fa) test dataset introduced in this paper. Experiments show that our method could get comparable results with the supervised baseline for two zero-shot scenarios, i.e., with less than 0.01 difference in Pearson correlation, while outperforming unsupervised rivals in all the low-resource language pairs for above 8%, on average.
翻訳日:2024-03-07 04:17:07 公開日:2024-03-03
# 幾何学的グラフニューラルネットワークの表現力について

On the Expressive Power of Geometric Graph Neural Networks ( http://arxiv.org/abs/2301.09308v3 )

ライセンス: Link先を確認
Chaitanya K. Joshi, Cristian Bodnar, Simon V. Mathis, Taco Cohen, Pietro Li\`o(参考訳) グラフニューラルネットワーク(GNN)の表現力はWeisfeiler-Leman(WL)グラフ同型テストを通じて広く研究されている。 しかし、標準GNNとWLフレームワークは、生体分子、材料、その他の物理系などのユークリッド空間に埋め込まれた幾何学グラフには適用できない。 本研究では,幾何学的グラフを識別するための幾何版WLテスト(GWL)を提案し,その基礎となる物理対称性(置換,回転,反射,変換)を尊重する。 我々はGWLを用いて、幾何学グラフの区別の観点から、物理対称性に不変または同変である幾何学的GNNの表現力を特徴づける。 GWLは, 鍵設計選択が幾何的GNN表現性にどのように影響するかを解き明かす。(1) 不変層は, 1ホップの同一幾何グラフを区別できないため, 有限表現性を持つ; (2) 等変層は, 局所的に幾何学情報を伝播させることにより, グラフのより大きなクラスを区別する; (3) 高次テンソルとスカラー化により, 最大で強力な幾何的GNNを可能にする;(4) GWLの識別に基づく視点は普遍近似と等価である。 我々の結果を補う合成実験は \url{https://github.com/chaitjo/geometric-gnn-dojo} で利用可能である。

The expressive power of Graph Neural Networks (GNNs) has been studied extensively through the Weisfeiler-Leman (WL) graph isomorphism test. However, standard GNNs and the WL framework are inapplicable for geometric graphs embedded in Euclidean space, such as biomolecules, materials, and other physical systems. In this work, we propose a geometric version of the WL test (GWL) for discriminating geometric graphs while respecting the underlying physical symmetries: permutations, rotation, reflection, and translation. We use GWL to characterise the expressive power of geometric GNNs that are invariant or equivariant to physical symmetries in terms of distinguishing geometric graphs. GWL unpacks how key design choices influence geometric GNN expressivity: (1) Invariant layers have limited expressivity as they cannot distinguish one-hop identical geometric graphs; (2) Equivariant layers distinguish a larger class of graphs by propagating geometric information beyond local neighbourhoods; (3) Higher order tensors and scalarisation enable maximally powerful geometric GNNs; and (4) GWL's discrimination-based perspective is equivalent to universal approximation. Synthetic experiments supplementing our results are available at \url{https://github.com/chaitjo/geometric-gnn-dojo}
翻訳日:2024-03-07 04:12:08 公開日:2024-03-03
# プライバシ保護をカスタマイズしたソーシャルアウェアクラスタ型連合学習

Social-Aware Clustered Federated Learning with Customized Privacy Preservation ( http://arxiv.org/abs/2212.13992v2 )

ライセンス: Link先を確認
Yuntao Wang, Zhou Su, Yanghe Pan, Tom H Luan, Ruidong Li, and Shui Yu(参考訳) federated learning(fl)の重要な特徴は、エンドユーザのデータプライバシを保護することだ。 しかし、FLの下で勾配を交換する際の潜在的なプライバシー漏洩が存在する。 その結果、近年の研究は、低オーバーヘッドのプライバシ問題に対処するために、コンピューティング結果にノイズを追加するための差分プライバシー(dp)アプローチをしばしば探究している。 本稿では,ユーザ間のソーシャルな関係を利用して,データのプライバシーと効率のバランスをとる。 具体的には,ソーシャル・アウェア・クラスタ・フェデレーテッド・ラーニング(SCFL)を提案し,信頼関係のある個人が自由にソーシャル・クラスタを形成し,各クラスタ内で生モデル更新(勾配など)を集約し,クラウドにアップロードしてグローバル・アグリゲーションを行う。 モデル更新をソーシャルグループに混ぜ合わせることで、敵はソーシャル層を組み合わせた結果のみを盗むことができる。 scflの設計を3つのステップで展開する。i)安定した社会クラスター形成。 ユーザの不均一なトレーニングサンプルやデータ分布を考慮すると、最適なソーシャルクラスタ形成問題をフェデレーションゲームとして定式化し、フリーライダーに対する公正な収益配分機構を考案する。 二 信頼-プライバシーマッピングを区別すること。 相互信頼度が低いクラスタに対しては,社会的信頼度に応じて参加者のモデル更新を適応的に衛生化する,カスタマイズ可能なプライバシ保護機構を設計する。 iii)分散収束。 分散二面マッチングアルゴリズムは, Nash-stable の収束に最適化された解離分割を実現するために考案された。 FacebookネットワークとMNIST/CIFAR-10データセットの実験は、SCFLが学習ユーティリティを効果的に強化し、ユーザの支払いを改善し、カスタマイズ可能なプライバシ保護を強制できることを検証する。

A key feature of federated learning (FL) is to preserve the data privacy of end users. However, there still exist potential privacy leakage in exchanging gradients under FL. As a result, recent research often explores the differential privacy (DP) approaches to add noises to the computing results to address privacy concerns with low overheads, which however degrade the model performance. In this paper, we strike the balance of data privacy and efficiency by utilizing the pervasive social connections between users. Specifically, we propose SCFL, a novel Social-aware Clustered Federated Learning scheme, where mutually trusted individuals can freely form a social cluster and aggregate their raw model updates (e.g., gradients) inside each cluster before uploading to the cloud for global aggregation. By mixing model updates in a social group, adversaries can only eavesdrop the social-layer combined results, but not the privacy of individuals. We unfold the design of SCFL in three steps.i) Stable social cluster formation. Considering users' heterogeneous training samples and data distributions, we formulate the optimal social cluster formation problem as a federation game and devise a fair revenue allocation mechanism to resist free-riders. ii) Differentiated trust-privacy mapping}. For the clusters with low mutual trust, we design a customizable privacy preservation mechanism to adaptively sanitize participants' model updates depending on social trust degrees. iii) Distributed convergence}. A distributed two-sided matching algorithm is devised to attain an optimized disjoint partition with Nash-stable convergence. Experiments on Facebook network and MNIST/CIFAR-10 datasets validate that our SCFL can effectively enhance learning utility, improve user payoff, and enforce customizable privacy protection.
翻訳日:2024-03-07 04:10:54 公開日:2024-03-03
# アクセサリーのチューナブル障害は原子時計の精度を高める

Tunable disorder in accessories can enhance precision of atomic clocks ( http://arxiv.org/abs/2212.08523v3 )

ライセンス: Link先を確認
Aparajita Bhattacharyya, Ahana Ghoshal, Ujjwal Sen(参考訳) 精密測定を含むアクセサリーを有する量子デバイスは、ガラス障害、偶発的または工学的な挿入により、量子システムの未知のパラメータを推定する際に、その気象学的精度を高めることができる。 乱れた状況下でも、偏りのない推定器がどのように特定され、その精度が量子クレーマー・ラオ不等式によって境界づけられるかを明確に述べる。 非偏差推定器の最小標準偏差に対するフィッシャー情報に基づく下限を, 理想的な無秩序な状況と同等に, システム内のガラス性障害の存在下で比較した。 この現象は原子時計のような特定の測定装置の効率を高めることができる。 これらの時計の精度は、時間を測定するとき、2レベル原子の周波数の正確な決定に依存する。 不純物が原子内に存在し、障害パラメータとしてモデル化できる場合、理想的な無秩序なシナリオよりも周波数の測定がより正確になる可能性がある。 さらに、障害挿入は、2量子ビット状態のコピーである初期プローブの絡み合い内容の必要性を低減し、障害誘発強調を提供する。

We find that a quantum device having an accessory involving precision measurement can have an enhancement of its metrological precision in estimating an unknown parameter of the quantum system by insertion of glassy disorder, accidental or engineered. We clearly mention how an unbiased estimator can also be identified in a disordered situation, and how the precision thereof can be bounded by the quantum Cramer-Rao inequality. We compare the Fisher information-based lower bound of the minimum standard deviation of an unbiased estimator, in presence of glassy disorder in the system, with the same of an ideal, viz. disorder-free, situation. The phenomenon can boost the efficiency of certain measuring devices, such as atomic clocks. The precision of these clocks, when measuring time, hinges on the precise determination of the frequency of a two-level atom. In cases where impurities are present in the atom, and can be modeled as a disorder parameter, it is possible for the measurement of frequency to be more accurate than in an ideal, disorder-free scenario. Moreover, disorder insertion can reduce the requirement of entanglement content of the initial probes, which are copies of two-qubit states, along with providing a disorder-induced enhancement.
翻訳日:2024-03-07 04:08:40 公開日:2024-03-03
# 結合線形制約を持つ非滑らかな非凸ミニマックス問題に対する原始双対交互近勾配アルゴリズム

Primal Dual Alternating Proximal Gradient Algorithms for Nonsmooth Nonconvex Minimax Problems with Coupled Linear Constraints ( http://arxiv.org/abs/2212.04672v3 )

ライセンス: Link先を確認
Huiling Zhang, Junlin Wang, Zi Xu, Yu-Hong Dai(参考訳) 非凸ミニマックス問題は近年、機械学習、信号処理など多くの分野で注目されている。 本稿では,線形制約を結合した非凸-(強い)凹凸問題と非凸-線形極小問題をそれぞれ解くために,原始二重交互近位勾配(PDAPG)アルゴリズムと原始二重近位勾配(PDPG-L)アルゴリズムを提案する。 2つのアルゴリズムの反復複雑性は$\mathcal{O}\left( \varepsilon ^{-2} \right)$ (resp)であることが証明される。 unconvex-strongly concave (resp. nonconvex-concave) set と $\mathcal{o}\left( \varepsilon ^{-3} \right)$ それぞれ $\varepsilon$-stationary point となるように非凸線形条件下では$\mathcal{o}\left( \varepsilon ^{-4} \right)$ となる。 我々の知る限り、これらは線形制約を結合した非凸ミニマックス問題を解くために、反復複雑性を保証する最初の2つのアルゴリズムである。

Nonconvex minimax problems have attracted wide attention in machine learning, signal processing and many other fields in recent years. In this paper, we propose a primal-dual alternating proximal gradient (PDAPG) algorithm and a primal-dual proximal gradient (PDPG-L) algorithm for solving nonsmooth nonconvex-(strongly) concave and nonconvex-linear minimax problems with coupled linear constraints, respectively. The iteration complexity of the two algorithms are proved to be $\mathcal{O}\left( \varepsilon ^{-2} \right)$ (resp. $\mathcal{O}\left( \varepsilon ^{-4} \right)$) under nonconvex-strongly concave (resp. nonconvex-concave) setting and $\mathcal{O}\left( \varepsilon ^{-3} \right)$ under nonconvex-linear setting to reach an $\varepsilon$-stationary point, respectively. To our knowledge, they are the first two algorithms with iteration complexity guarantees for solving the nonconvex minimax problems with coupled linear constraints.
翻訳日:2024-03-07 04:07:32 公開日:2024-03-03
# 条件付き生成モデルによる量子系の予測特性

Predicting Properties of Quantum Systems with Conditional Generative Models ( http://arxiv.org/abs/2211.16943v3 )

ライセンス: Link先を確認
Haoxiang Wang, Maurice Weber, Josh Izaac, Cedric Yen-Yu Lin(参考訳) 機械学習は、量子多体システムの特性を予測する強力なツールとして最近登場した。 ガッピングハミルトニアンの多くの基底状態について、生成モデルは単一の量子状態の測定から学び、局所観測可能性を予測するのに十分な正確な状態を再構築することができる。 あるいは、分類と回帰モデルは、異なるが関連する状態の測定から学習することで、局所観測可能性を予測することができる。 本研究では,両手法の利点を統合し,条件付き生成モデルを用いて状態の族を同時に表現し,異なる量子状態の共有構造を計測から学習することを提案する。 トレーニングデータに含まれない状態であっても,新たな観測対象のさらなる訓練を必要とせず,任意の地中状態の局所特性を予測することができる。 まず,45キュービットまでのシミュレーションを用いて2次元ランダムハイゼンベルクモデルに対するアプローチを数値的に検証した。 さらに、中性原子量子コンピュータ上で量子シミュレーションを行い、この手法が13$\times$13 Rydbergの2乗格子の量子位相を正確に予測できることを実証する。

Machine learning has emerged recently as a powerful tool for predicting properties of quantum many-body systems. For many ground states of gapped Hamiltonians, generative models can learn from measurements of a single quantum state to reconstruct the state accurately enough to predict local observables. Alternatively, classification and regression models can predict local observables by learning from measurements on different but related states. In this work, we combine the benefits of both approaches and propose the use of conditional generative models to simultaneously represent a family of states, learning shared structures of different quantum states from measurements. The trained model enables us to predict arbitrary local properties of ground states, even for states not included in the training data, without necessitating further training for new observables. We first numerically validate our approach on 2D random Heisenberg models using simulations of up to 45 qubits. Furthermore, we conduct quantum simulations on a neutral-atom quantum computer and demonstrate that our method can accurately predict the quantum phases of square lattices of 13$\times$13 Rydberg atoms.
翻訳日:2024-03-07 04:06:42 公開日:2024-03-03
# ガウス過程による専門家の階層的混合

Gaussian Process-Gated Hierarchical Mixtures of Experts ( http://arxiv.org/abs/2302.04947v2 )

ライセンス: Link先を確認
Yuhao Liu, Marzieh Ajirak, Petar Djuric(参考訳) 本稿では,新しいガウス過程を持つ専門家の階層的混合(GPHME)を提案する。 入力に線形なゲーティングモデルを持つ他の専門家の混合物とは異なり、本モデルはガウス過程(gps)を組み込んだゲーティング関数を用いる。 これらのプロセスは入力の非線形関数であるランダムな特徴に基づいている。 さらに,本モデルのエキスパートもGPを用いて構成する。 GPHMEの最適化は変分推論によって行われる。 提案されたGPHMEにはいくつかの利点がある。 彼らは、入力空間にデータを分割するツリーベースのHMEベンチマークを上回り、複雑さを減らして優れたパフォーマンスを達成する。 もうひとつの利点は、深いgps、より一般的には深いベイズ型ニューラルネットワークのための解釈能力である。 我々のGPHMEは、非常に控えめなサイズであっても、大規模データセットに対して優れた性能を示す。

In this paper, we propose novel Gaussian process-gated hierarchical mixtures of experts (GPHMEs). Unlike other mixtures of experts with gating models linear in the input, our model employs gating functions built with Gaussian processes (GPs). These processes are based on random features that are non-linear functions of the inputs. Furthermore, the experts in our model are also constructed with GPs. The optimization of the GPHMEs is performed by variational inference. The proposed GPHMEs have several advantages. They outperform tree-based HME benchmarks that partition the data in the input space, and they achieve good performance with reduced complexity. Another advantage is the interpretability they provide for deep GPs, and more generally, for deep Bayesian neural networks. Our GPHMEs demonstrate excellent performance for large-scale data sets, even with quite modest sizes.
翻訳日:2024-03-07 03:59:02 公開日:2024-03-03
# デュアルバリューネットワークによる再合成計画

Retrosynthetic Planning with Dual Value Networks ( http://arxiv.org/abs/2301.13755v3 )

ライセンス: Link先を確認
Guoqing Liu, Di Xue, Shufang Xie, Yingce Xia, Austin Tripp, Krzysztof Maziarz, Marwin Segler, Tao Qin, Zongzhang Zhang, Tie-Yan Liu(参考訳) 市販の開始物質から標的分子を合成する経路を見つけることを目的とした再合成は、薬物発見と材料設計において重要な課題である。 近年,MLに基づく単段階反応予測器と多段階計画器の組み合わせにより,有望な結果が得られた。 しかしながら、シングルステップ予測器は、完全なルートを考慮せずに、主にオフラインでトレーニングされ、シングルステップ精度を最適化する。 ここでは,木形MDPを用いて完全経路を最適化することにより,強化学習(RL)を活用して単段階予測を改善する。 具体的には,計画段階と更新段階を交互に行う2値ネットワークを用いたオンライン学習アルゴリズム,planning with dual value networks (pdvn)を提案する。 pdvnでは,分子の合成可能性とコストを予測するために2つの値ネットワークを構築した。 単段精度を維持するため,単段予測器のための2分岐ネットワーク構造を設計する。 広く使われているUSPTOデータセットでは、PDVNアルゴリズムは既存のマルチステッププランナの検索成功率を改善する(Retro*では85.79%から98.95%に増加し、RetroGraphでは99.47%の分子を解きながらモデルの呼び出し回数を半分に減らす)。 さらにpdvnは、より短い合成経路(例えば、レトロ*では5.76から4.83、レトログラフでは5.63から4.78)を見つけるのに役立つ。 我々のコードは \url{https://github.com/DiXue98/PDVN} で入手できる。

Retrosynthesis, which aims to find a route to synthesize a target molecule from commercially available starting materials, is a critical task in drug discovery and materials design. Recently, the combination of ML-based single-step reaction predictors with multi-step planners has led to promising results. However, the single-step predictors are mostly trained offline to optimize the single-step accuracy, without considering complete routes. Here, we leverage reinforcement learning (RL) to improve the single-step predictor, by using a tree-shaped MDP to optimize complete routes. Specifically, we propose a novel online training algorithm, called Planning with Dual Value Networks (PDVN), which alternates between the planning phase and updating phase. In PDVN, we construct two separate value networks to predict the synthesizability and cost of molecules, respectively. To maintain the single-step accuracy, we design a two-branch network structure for the single-step predictor. On the widely-used USPTO dataset, our PDVN algorithm improves the search success rate of existing multi-step planners (e.g., increasing the success rate from 85.79% to 98.95% for Retro*, and reducing the number of model calls by half while solving 99.47% molecules for RetroGraph). Additionally, PDVN helps find shorter synthesis routes (e.g., reducing the average route length from 5.76 to 4.83 for Retro*, and from 5.63 to 4.78 for RetroGraph). Our code is available at \url{https://github.com/DiXue98/PDVN}.
翻訳日:2024-03-07 03:58:43 公開日:2024-03-03
# voxel または pillar: 3dオブジェクト検出のための効率的なポイントクラウド表現の探索

Voxel or Pillar: Exploring Efficient Point Cloud Representation for 3D Object Detection ( http://arxiv.org/abs/2304.02867v2 )

ライセンス: Link先を確認
Yuhao Huang, Sanping Zhou, Junjie Zhang, Jinpeng Dong, Nanning Zheng(参考訳) 点雲の効率的な表現は、LiDARベースの3Dオブジェクト検出に基本となる。 最近のグリッドベースの検出器は、しばしば点雲をボクセルまたは柱にエンコードするが、これらのアプローチの区別は未解明のままである。 本稿では,現在の符号化パラダイムの違いを定量化し,内部で制限された垂直学習を強調する。 これらの制約に対処するために,voxel-pillar fusion network (vpf) というハイブリッドシステムを導入する。 具体的には、3dと2dのスパース畳み込みによって点雲をボクセルと柱にエンコードするスパースボクセル・ピラーエンコーダを開発し、スパース融合層(sfl)を導入し、スパースボクセルと柱の特徴の双方向相互作用を容易にする。 我々の効率的で完全なスパース法は、密度検出器とスパース検出器の両方にシームレスに統合できる。 この強力で簡単なフレームワークを活用して、VPFは、nuScenesとWaymo Open Dataset上でリアルタイムの推論速度を達成する、競争力のあるパフォーマンスを提供する。 コードは利用可能だ。

Efficient representation of point clouds is fundamental for LiDAR-based 3D object detection. While recent grid-based detectors often encode point clouds into either voxels or pillars, the distinctions between these approaches remain underexplored. In this paper, we quantify the differences between the current encoding paradigms and highlight the limited vertical learning within. To tackle these limitations, we introduce a hybrid Voxel-Pillar Fusion network (VPF), which synergistically combines the unique strengths of both voxels and pillars. Specifically, we first develop a sparse voxel-pillar encoder that encodes point clouds into voxel and pillar features through 3D and 2D sparse convolutions respectively, and then introduce the Sparse Fusion Layer (SFL), facilitating bidirectional interaction between sparse voxel and pillar features. Our efficient, fully sparse method can be seamlessly integrated into both dense and sparse detectors. Leveraging this powerful yet straightforward framework, VPF delivers competitive performance, achieving real-time inference speeds on the nuScenes and Waymo Open Dataset. The code will be available.
翻訳日:2024-03-07 03:47:45 公開日:2024-03-03
# フェルミオン行列式を持たないゲージ場および物質に対する量子モンテカルロ

Quantum Monte Carlo for Gauge Fields and Matter without the Fermion Determinant ( http://arxiv.org/abs/2305.08917v2 )

ライセンス: Link先を確認
Debasish Banerjee and Emilie Huffman(参考訳) 強相互作用するフェルミオン系のab-initioモンテカルロシミュレーションはフェルミオンサイン問題に苦しめられ、密度の高い量子物質の多くの興味深いレジーム、あるいは奇数のフェルミオンフレーバーの理論の非摂動的研究が困難である。 さらに、典型的なフェルミオンアルゴリズムはフェルミオン決定式の計算(またはサンプリング)を必要とする。 代わりに、行列式を含まずにモデルクラス内のフェルミオン符号問題を解決できるメロンクラスターアルゴリズムに焦点をあてる。 我々は,適切な4-フェルミ相互作用が存在する場合に,$\mathbb{Z}_2$および$U(1)$ゲージ場に結合したフェルミオンをシミュレートする新しいメロンアルゴリズムを開発し,ベンチマークする。 このようなアルゴリズムは、物質の潜在的なエキゾチックな性質を明らかにするために、特に量子シミュレータ実験に関係している。 低温におけるガウスの法則の出現を、1+1-$dで$U(1)$モデルで示す。

Ab-initio Monte Carlo simulations of strongly-interacting fermionic systems are plagued by the fermion sign problem, making the non-perturbative study of many interesting regimes of dense quantum matter, or of theories of odd numbers of fermion flavors, challenging. Moreover, typical fermion algorithms require the computation (or sampling) of the fermion determinant. We focus instead on the meron cluster algorithm, which can solve the fermion sign problem in a class of models without involving the determinant. We develop and benchmark new meron algorithms to simulate fermions coupled to $\mathbb{Z}_2$ and $U(1)$ gauge fields in the presence of appropriate four-fermi interactions. Such algorithms can be used to uncover potential exotic properties of matter, particularly relevant for quantum simulator experiments. We demonstrate the emergence of the Gauss' Law at low temperatures for a $U(1)$ model in $(1+1)-$d.
翻訳日:2024-03-07 03:38:55 公開日:2024-03-03
# SGDにおけるカタパルト:訓練損失のスパイクと特徴学習による一般化への影響

Catapults in SGD: spikes in the training loss and their impact on generalization through feature learning ( http://arxiv.org/abs/2306.04815v2 )

ライセンス: Link先を確認
Libin Zhu, Chaoyue Liu, Adityanarayanan Radhakrishnan, Mikhail Belkin(参考訳) 本稿ではまず,ニューラルネットワークを確率勾配降下法(SGD)でトレーニングした場合のトレーニング損失におけるスパイクの共通発生について説明する。 sgdのトレーニング損失のスパイクが「カタパルト」であることを示す。これはもともとgdで観測された最適化現象であり,学習率が高い[lewkowycz et al. 2020]。 これらのカタパルトはgdとsgdの両方において、接核の最上位固有ベクトルにまたがる低次元部分空間に存在することが実証的に示されている。 第2に,カタパルトが,真の予測器の平均勾配外積(AGOP)との整合性を高めて特徴学習を促進することを示すことによって,カタパルトがより一般化に寄与することを示す。 さらに、SGDのバッチサイズが小さくなれば、より多くのカタパルトが発生し、AGOPアライメントとテスト性能が向上することを示した。

In this paper, we first present an explanation regarding the common occurrence of spikes in the training loss when neural networks are trained with stochastic gradient descent (SGD). We provide evidence that the spikes in the training loss of SGD are "catapults", an optimization phenomenon originally observed in GD with large learning rates in [Lewkowycz et al. 2020]. We empirically show that these catapults occur in a low-dimensional subspace spanned by the top eigenvectors of the tangent kernel, for both GD and SGD. Second, we posit an explanation for how catapults lead to better generalization by demonstrating that catapults promote feature learning by increasing alignment with the Average Gradient Outer Product (AGOP) of the true predictor. Furthermore, we demonstrate that a smaller batch size in SGD induces a larger number of catapults, thereby improving AGOP alignment and test performance.
翻訳日:2024-03-07 03:32:18 公開日:2024-03-03
# 対実予測セットを用いた意思決定支援システムの設計

Designing Decision Support Systems Using Counterfactual Prediction Sets ( http://arxiv.org/abs/2306.03928v2 )

ライセンス: Link先を確認
Eleni Straitouri and Manuel Gomez Rodriguez(参考訳) 分類タスクの意思決定支援システムは主に、基底真理ラベルの価値を予測するために設計されている。 しかし、予測が完璧ではないため、これらのシステムは、いつどのように予測を更新するかを人間の専門家に理解させる必要がある。 残念ながら、これは挑戦的だった。 この文脈では最近、代替的な意思決定支援システムがこの課題を回避できるかもしれないと論じられている。 これらのシステムは、単一のラベル予測を提供するのではなく、共形予測器、すなわち予測セットを用いて構築されたラベル予測値セットを提供し、予測セットから専門家にラベル値を予測するよう強制的に要求する。 しかしながら、これらのシステムの設計と評価は、これまでのところ、形式化された専門家モデルに依存しており、彼らの約束に疑問を呈している。 本稿では,オンライン学習の観点から,このタイプのシステムの設計を再考し,専門家モデルを必要としない,あるいは想定しない方法論を開発する。 提案手法は,任意の共形予測器によって提供される予測集合の入れ子構造と自然反事実的単調性仮定を活用し,バニラバンディットアルゴリズムと比較し,後悔の指数関数的改善を実現する。 我々は、我々の方法論をいくつかの競争基準と比較するために、大規模な人体研究(n = 2{,}751$)を行う。 その結果, 予測セットに基づく意思決定支援システムにおいて, 専門家のエージェントレベルを制限することは, 専門家が常に自分自身のエージェンシーを行使することよりも, 高いパフォーマンスをもたらすことがわかった。 我々は、人間の主題研究に集められたデータと、我々のシステムのオープンソース実装をhttps://github.com/Networks-Learning/counterfactual-prediction-setsで公開しました。

Decision support systems for classification tasks are predominantly designed to predict the value of the ground truth labels. However, since their predictions are not perfect, these systems also need to make human experts understand when and how to use these predictions to update their own predictions. Unfortunately, this has been proven challenging. In this context, it has been recently argued that an alternative type of decision support systems may circumvent this challenge. Rather than providing a single label prediction, these systems provide a set of label prediction values constructed using a conformal predictor, namely a prediction set, and forcefully ask experts to predict a label value from the prediction set. However, the design and evaluation of these systems have so far relied on stylized expert models, questioning their promise. In this paper, we revisit the design of this type of systems from the perspective of online learning and develop a methodology that does not require, nor assumes, an expert model. Our methodology leverages the nested structure of the prediction sets provided by any conformal predictor and a natural counterfactual monotonicity assumption to achieve an exponential improvement in regret in comparison to vanilla bandit algorithms. We conduct a large-scale human subject study ($n = 2{,}751$) to compare our methodology to several competitive baselines. The results show that, for decision support systems based on prediction sets, limiting experts' level of agency leads to greater performance than allowing experts to always exercise their own agency. We have made available the data gathered in our human subject study as well as an open source implementation of our system at https://github.com/Networks-Learning/counterfactual-prediction-sets.
翻訳日:2024-03-07 03:31:39 公開日:2024-03-03
# エージェントとllmのインテリジェントなインタラクションの実現:強化学習アプローチ

Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach ( http://arxiv.org/abs/2306.03604v5 )

ライセンス: Link先を確認
Bin Hu, Chenyang Zhao, Pu Zhang, Zihao Zhou, Yuanhang Yang, Zenglin Xu, Bin Liu(参考訳) 大規模言語モデル(llms)は、膨大なテキストデータセットから得られる膨大な量の知識を符号化する。 近年の研究では、LLMは高レベルの指示を提供することで複雑なシーケンシャルな意思決定タスクを解決するために、エンボディエージェントを補助できることが示されている。 しかし、LLMとの相互作用には時間がかかる。 多くの実用的なシナリオでは、リモートのクラウドサーバノードにのみデプロイ可能な、かなりの量のストレージスペースが必要です。 加えて、商用のLCMは使用頻度に応じて課金できるため、コストがかかる。 本稿では,エージェントとLLMのインテリジェントなコスト効率な相互作用を実現する方法について検討する。 我々は,この問題をマルコフ決定プロセス(MDP)によって自然に定式化することができ,目標タスクを達成するためにLLMに問い合わせる必要があるときに学習する強化学習ベースのアプローチであるWhen2Askを提案する。 計画サブゴールを含むMiniGrid環境とHabitat環境の実験では、When2AskはLLMとほんの少しだけ必要なインタラクションでターゲットタスクを解くことを学習し、ベースライン手法と比較してテスト環境におけるインタラクションコストを大幅に削減する。 また, LLMと相互作用するメディエータモデルを学習することにより, エージェントの性能が環境の部分的可観測性に対してより堅牢になることが示唆された。 私たちのコードはhttps://github.com/ZJLAB-AMMI/LLM4RLで利用可能です。

Large language models (LLMs) encode a vast amount of world knowledge acquired from massive text datasets. Recent studies have demonstrated that LLMs can assist an embodied agent in solving complex sequential decision making tasks by providing high-level instructions. However, interactions with LLMs can be time-consuming. In many practical scenarios, they require a significant amount of storage space that can only be deployed on remote cloud server nodes. Additionally, using commercial LLMs can be costly since they may charge based on usage frequency. In this paper, we explore how to enable intelligent cost-effective interactions between the agent and an LLM. We find that this problem can be naturally formulated by a Markov decision process (MDP), and propose When2Ask, a reinforcement learning based approach that learns when it is necessary to query LLMs for high-level instructions to accomplish a target task. Experiments on MiniGrid and Habitat environments that entail planning sub-goals demonstrate that When2Ask learns to solve target tasks with only a few necessary interactions with an LLM, and significantly reduces interaction costs in testing environments compared with baseline methods. Experiment results also suggest that by learning a mediator model to interact with the LLM, the agent's performance becomes more robust against partial observability of the environment. Our code is available at https://github.com/ZJLAB-AMMI/LLM4RL.
翻訳日:2024-03-07 03:31:12 公開日:2024-03-03
# 開量子中心スピン系における量子揺らぎと平均場限界の非ゲージ力学

Non-Gaussian dynamics of quantum fluctuations and mean-field limit in open quantum central spin systems ( http://arxiv.org/abs/2305.15547v2 )

ライセンス: Link先を確認
Federico Carollo(参考訳) 中心スピン系(英語版)(central spin systems)は、窒素空洞中心と量子ドットのパラダイムモデルである。 それらは複雑な創発的ダイナミクスと定常現象を示し、それらの相互作用の集団的性質にもかかわらず、いまだにほとんど理解されていない。 ここでは、開量子中心スピン系の創発的挙動に関する正確な結果を得る。 後者は、相互作用強度と浴槽の大きさのスケーリングに大きく依存する。 浴の大きさの逆2乗根(典型的には1対多の相互作用)を持つスケーリングの場合、このシステムは熱力学の極限において開量子Jaynes-Cummingsモデルとして振る舞い、ボソニックモードは浴槽スピンの量子ゆらぎを符号化する。 この場合、非ガウス相関は動的に生成され、定常で持続する。 逆浴サイズのスケーリングでは、創発ダイナミクスは平均場型ではなく、平均場型である。 本研究は、中心スピン系の異なる動的レジームの基本的な理解と、それらの非平衡挙動を効率的に探究するための単純な理論を提供する。 本研究は多体固体デバイスとその応用に関する完全な量子記述の開発に有用であると考えられる。

Central spin systems, in which a {\it central} spin is singled out and interacts nonlocally with several {\it bath} spins, are paradigmatic models for nitrogen-vacancy centers and quantum dots. They show complex emergent dynamics and stationary phenomena which, despite the collective nature of their interaction, are still largely not understood. Here, we derive exact results on the emergent behavior of open quantum central spin systems. The latter crucially depends on the scaling of the interaction strength with the bath size. For scalings with the inverse square root of the bath size (typical of one-to-many interactions), the system behaves, in the thermodynamic limit, as an open quantum Jaynes-Cummings model, whose bosonic mode encodes the quantum fluctuations of the bath spins. In this case, non-Gaussian correlations are dynamically generated and persist at stationarity. For scalings with the inverse bath size, the emergent dynamics is instead of mean-field type. Our work provides a fundamental understanding of the different dynamical regimes of central spin systems and a simple theory for efficiently exploring their nonequilibrium behavior. Our findings may become relevant for developing fully quantum descriptions of many-body solid-state devices and their applications.
翻訳日:2024-03-07 03:27:46 公開日:2024-03-03
# マルチチャンネルカラー画像復調のための新しいノーム正規化法

A Novel Truncated Norm Regularization Method for Multi-channel Color Image Denoising ( http://arxiv.org/abs/2307.07932v2 )

ライセンス: Link先を確認
Yiwen Shan, Dong Hu, Zhi Wang(参考訳) 高い柔軟性と顕著な性能のため、低位近似法はカラー画像のノイズ化のために広く研究されている。 しかし、これらの手法は、実世界のカラー画像のノイズの容量を制限するクロスチャネル差やノイズの空間的変動をほとんど無視する。 これらの欠点を克服するために,二重重み付き核ノルムminus truncated frobenius norm minimization (dtnfm) 法によるカラー画像のノイズ除去を提案する。 ノイズ画像の非局所的自己相似性を利用して類似した構造を収集し、類似したパッチ行列を構築する。 各グループについて、dtnfmモデルを実行し、その分別バージョンを推定する。 切り離された画像は、全ての切り離されたパッチ行列を連結することで得られる。 DtNFMモデルには2つの利点がある。 まず、チャネル間差とノイズの空間的変動の両方をモデル化し、活用する。 これにより、現実世界の画像におけるノイズの複雑な分布を扱うのに十分な柔軟性が得られる。 第二に、提案したDtNFMモデルは、異なるランク成分を柔軟に扱うことができるため、基礎となるクリーンマトリックスに近似を与える。 DtNFMモデルから得られた問題を解決するために,乗算器の交互方向法(ADMM)の枠組みを利用して,高精度かつ効率的なアルゴリズムを提案する。 生成された部分問題について詳細に論じる。 そして、それらのグローバルオプティマは、クローズドフォームで簡単に得ることができる。 厳密な数学的導出は、アルゴリズムによって生成された解列が一つの臨界点に収束することを証明する。 合成および実ノイズデータセットに関する広範囲な実験により,提案手法が最先端のカラー画像デノイジング法よりも優れていることが示された。

Due to the high flexibility and remarkable performance, low-rank approximation methods has been widely studied for color image denoising. However, those methods mostly ignore either the cross-channel difference or the spatial variation of noise, which limits their capacity in real world color image denoising. To overcome those drawbacks, this paper is proposed to denoise color images with a double-weighted truncated nuclear norm minus truncated Frobenius norm minimization (DtNFM) method. Through exploiting the nonlocal self-similarity of the noisy image, the similar structures are gathered and a series of similar patch matrices are constructed. For each group, the DtNFM model is conducted for estimating its denoised version. The denoised image would be obtained by concatenating all the denoised patch matrices. The proposed DtNFM model has two merits. First, it models and utilizes both the cross-channel difference and the spatial variation of noise. This provides sufficient flexibility for handling the complex distribution of noise in real world images. Second, the proposed DtNFM model provides a close approximation to the underlying clean matrix since it can treat different rank components flexibly. To solve the problem resulted from DtNFM model, an accurate and effective algorithm is proposed by exploiting the framework of the alternating direction method of multipliers (ADMM). The generated subproblems are discussed in detail. And their global optima can be easily obtained in closed-form. Rigorous mathematical derivation proves that the solution sequences generated by the algorithm converge to a single critical point. Extensive experiments on synthetic and real noise datasets demonstrate that the proposed method outperforms many state-of-the-art color image denoising methods.
翻訳日:2024-03-07 03:08:35 公開日:2024-03-03
# 対人視線パターンに基づく数発パーソナライズされた塩分予測

Few-shot Personalized Saliency Prediction Based on Inter-personnel Gaze Patterns ( http://arxiv.org/abs/2307.02799v3 )

ライセンス: Link先を確認
Yuya Moroto, Keisuke Maeda, Takahiro Ogawa and Miki Haseyama(参考訳) 本稿では,対人的視線パターンに基づく個人性予測について述べる。 一般的なサリエンシーマップとは対照的に、パーソナライズされたサリエンシーマップ(psm)は、個別の視覚嗜好を得るのに有用な人物固有の視覚注意を示すため、大きな可能性を秘めている。 PSM予測は、見えない画像のPSMを取得するために必要であるが、個々の視線パターンの複雑さのため、その予測は依然として難しい課題である。 また、各個人から得られた視線追跡データはpsmの構築と予測に必要であるが、膨大な量のデータを取得することは困難である。 限られた量のデータからPSM予測を実現する方法の1つは、他人から得られた視線追跡データの有効利用である。 他人のPSMを効率的に扱うためには、視線追跡データを取得するための画像の選択と、他人のPSMの構造情報の保存に焦点を当てる。 提案手法では、より多様な視線パターンを人にもたらすように、そのような画像を選択し、テンソルベース回帰法を用いて構造情報を保存する。 実験結果から,上記の2点がPSM予測に有用であることが示唆された。

This paper presents few-shot personalized saliency prediction based on inter-personnel gaze patterns. In contrast to general saliency maps, personalized saliecny maps (PSMs) have been great potential since PSMs indicate the person-specific visual attention useful for obtaining individual visual preferences. The PSM prediction is needed for acquiring the PSMs for unseen images, but its prediction is still a challenging task due to the complexity of individual gaze patterns. Moreover, the eye-tracking data obtained from each person is necessary to construct and predict PSMs, but it is difficult to acquire the massive amounts of such data. One solution for realizing PSM prediction from the limited amount of data is the effective use of eye-tracking data obtained from other persons. To efficiently treat the PSMs of other persons, this paper focuses on the selection of images to acquire eye-tracking data and the preservation of structural information of PSMs of other persons. In the proposed method, such images are selected such that they bring more diverse gaze patterns to persons, and the structural information is preserved by adopting the tensor-based regression method. Experimental results demonstrate that the above two points are beneficial for the few-shot PSM prediction.
翻訳日:2024-03-07 03:07:02 公開日:2024-03-03
# スムーズド・フィットネス・ランドスケープによるタンパク質最適化の改善

Improving Protein Optimization with Smoothed Fitness Landscapes ( http://arxiv.org/abs/2307.00494v3 )

ライセンス: Link先を確認
Andrew Kirjner, Jason Yim, Raman Samusevich, Shahar Bracha, Tommi Jaakkola, Regina Barzilay, Ila Fiete(参考訳) 望ましい性質のために高い適合性を持つ新規なタンパク質を設計する能力は、バイオテクノロジーと医学にとって革命的であろう。 配列の組合せ的に大きな空間をモデル化することは不可能であり、以前の手法はしばしば小さな突然変異半径に最適化を制約するが、これは設計空間を著しく制限する。 ヒューリスティックスの代わりに,タンパク質の最適化を容易にするために,適応環境の円滑化を提案する。 まず、タンパク質の適合性をグラフ信号として定式化し、次にTikunov正則化を用いてフィットネスのランドスケープを円滑にする。 このスムーズなランドスケープを最適化することで、GFPとAAVベンチマークの複数のメソッドのパフォーマンスが向上する。 第2に、スムーズな景観における離散エネルギーモデルとMCMCを用いた最先端の成果を得る。 提案手法はGibs sample with Graph-based Smoothing (GGS) と呼ばれ, トレーニングセットに対して2.5倍の適合性向上(シリコン内評価)を達成可能であることを示す。 GGSは、限られたデータ構造でタンパク質を最適化する可能性を実証している。 コード: https://github.com/kirjner/ggs

The ability to engineer novel proteins with higher fitness for a desired property would be revolutionary for biotechnology and medicine. Modeling the combinatorially large space of sequences is infeasible; prior methods often constrain optimization to a small mutational radius, but this drastically limits the design space. Instead of heuristics, we propose smoothing the fitness landscape to facilitate protein optimization. First, we formulate protein fitness as a graph signal then use Tikunov regularization to smooth the fitness landscape. We find optimizing in this smoothed landscape leads to improved performance across multiple methods in the GFP and AAV benchmarks. Second, we achieve state-of-the-art results utilizing discrete energy-based models and MCMC in the smoothed landscape. Our method, called Gibbs sampling with Graph-based Smoothing (GGS), demonstrates a unique ability to achieve 2.5 fold fitness improvement (with in-silico evaluation) over its training set. GGS demonstrates potential to optimize proteins in the limited data regime. Code: https://github.com/kirjner/GGS
翻訳日:2024-03-07 03:06:20 公開日:2024-03-03
# 非コンパクト一様普遍近似

Noncompact uniform universal approximation ( http://arxiv.org/abs/2308.03812v2 )

ライセンス: Link先を確認
Teun D. H. van Nuland(参考訳) 普遍近似定理は、(コンパクトでない)入力空間 $\mathbb{R}^n$ 上の一様収束に一般化される。 無限大で消えるすべての連続函数は、すべての活性化関数 $\varphi$ に対して、1つの隠れた層を持つニューラルネットワークによって一様近似することができる。 さらに$\varphi$が有界である場合、ニューラルネットワークによってどの関数を均一に近似できるかを正確に決定する。 $\overline{\mathcal{N}_\varphi^l(\mathbb{R}^n)}$ は、$l$隠れ層と$n$入力を持つニューラルネットワークで一様近似可能な関数のベクトル空間を表す。 すべての$n$とすべての$l\geq2$, $\overline{\mathcal{N}_\varphi^l(\mathbb{R}^n)}$に対して、点積の下で代数であることが分かる。 もし$\varphi$ の左極限が右極限(例えば $\varphi$ が sigmoidal であるとき)と異なる場合、代数 $\overline{\mathcal{n}_\varphi^l(\mathbb{r}^n)}$ (l\geq2$) は$\varphi$ と $l$ とは独立であり、一次元射影からなる sigmoids の積の閉域に等しい。 もし$\varphi$ の左極限がその右極限に等しいなら、$\overline{\mathcal{n}_\varphi^l(\mathbb{r}^n)}$ (l\geq1$) は、量子論への数学的アプローチで使われるc*-代数である可換解決代数(英語版)の(実部分)に等しい。 後者の場合、代数は$l\geq1$とは独立であるが、前者は$\overline{\mathcal{N}_\varphi^2(\mathbb{R}^n)}$は$\overline{\mathcal{N}_\varphi^1(\mathbb{R}^n)}$より厳密に大きい。

The universal approximation theorem is generalised to uniform convergence on the (noncompact) input space $\mathbb{R}^n$. All continuous functions that vanish at infinity can be uniformly approximated by neural networks with one hidden layer, for all activation functions $\varphi$ that are continuous, nonpolynomial, and asymptotically polynomial at $\pm\infty$. When $\varphi$ is moreover bounded, we exactly determine which functions can be uniformly approximated by neural networks, with the following unexpected results. Let $\overline{\mathcal{N}_\varphi^l(\mathbb{R}^n)}$ denote the vector space of functions that are uniformly approximable by neural networks with $l$ hidden layers and $n$ inputs. For all $n$ and all $l\geq2$, $\overline{\mathcal{N}_\varphi^l(\mathbb{R}^n)}$ turns out to be an algebra under the pointwise product. If the left limit of $\varphi$ differs from its right limit (for instance, when $\varphi$ is sigmoidal) the algebra $\overline{\mathcal{N}_\varphi^l(\mathbb{R}^n)}$ ($l\geq2$) is independent of $\varphi$ and $l$, and equals the closed span of products of sigmoids composed with one-dimensional projections. If the left limit of $\varphi$ equals its right limit, $\overline{\mathcal{N}_\varphi^l(\mathbb{R}^n)}$ ($l\geq1$) equals the (real part of the) commutative resolvent algebra, a C*-algebra which is used in mathematical approaches to quantum theory. In the latter case, the algebra is independent of $l\geq1$, whereas in the former case $\overline{\mathcal{N}_\varphi^2(\mathbb{R}^n)}$ is strictly bigger than $\overline{\mathcal{N}_\varphi^1(\mathbb{R}^n)}$.
翻訳日:2024-03-07 03:01:36 公開日:2024-03-03
# 演算子制約付き補助粒子によるオープン量子系の非マルコフダイナミクス

Non-Markovian Dynamics of Open Quantum Systems via Auxiliary Particles with Exact Operator Constraint ( http://arxiv.org/abs/2308.00968v2 )

ライセンス: Link先を確認
Tim Bode, Michael Kajan, Francisco Meirinhos, Johann Kroha(参考訳) 我々は、Jaynes-Cummings型の駆動散逸量子系の非マルコフ力学を扱う補助粒子場理論を導入する。 個々の量子場をそれぞれの貯水池の状態に割り当て、結合系-バス力学の解析的かつ忠実な表現を提供する。 本手法は, 電子およびビブロニック励起を用いた色素分子の貯留層に結合した光子Bose-Einstein Condensate (BEC) に応用する。 この系の全位相図は、BEC内の双指数的に崩壊する光子密度相関から時間的振動を分離する非エルミタン相転移を示す。 一方、これは熱光子BECとレーザーとの質的な区別を与える。 一方、臨界点を回避してBECからラシングフェーズへ連続的にチューニングできることを示す。 この助粒子法は一般に開非マルコフ量子系の力学に適用できる。

We introduce an auxiliary-particle field theory to treat the non-Markovian dynamics of driven-dissipative quantum systems of the Jaynes-Cummings type. It assigns an individual quantum field to each reservoir state and provides an analytic, faithful representation of the coupled system-bath dynamics. We apply the method to a driven-dissipative photon Bose-Einstein condensate (BEC) coupled to a reservoir of dye molecules with electronic and vibronic excitations. The complete phase diagram of this system exhibits a hidden, non-Hermitian phase transition separating temporally oscillating from biexponentially decaying photon density correlations within the BEC. On one hand, this provides a qualitative distinction of the thermal photon BEC from a laser. On the other hand, it shows that one may continuously tune from the BEC to the lasing phase by circumventing a critical point. This auxiliary-particle method is generally applicable to the dynamics of open, non-Markovian quantum systems.
翻訳日:2024-03-07 02:59:56 公開日:2024-03-03
# W$ボソン対生成におけるベル不等式試験のための新しい観測器

New observables for testing Bell inequalities in $W$ boson pair production ( http://arxiv.org/abs/2307.14895v2 )

ライセンス: Link先を確認
Qi Bi, Qing-Hong Cao, Kun Cheng, Hao Zhang(参考訳) W^\pm$ペア系のベル不等式を角相関で測定すると, ディレプトン崩壊モードの運動的再構成のあいまいさに悩まされることがわかった。 さらに,$w^\pm$ 対系のベル不等式を初めてテストするための現実的な可観測性を提供するため,w$ ボソンの線形偏極の測定に基づくベル観測器の新たなセットを提案する。

We show that testing Bell inequalities in $W^\pm$ pair systems by measuring their angular correlation suffers from the ambiguity in kinetical reconstruction of the di-lepton decay mode. We further propose a new set of Bell observables based on the measurement of the linear polarization of the $W$ bosons, providing a realistic observable to test Bell inequalities in $W^\pm$ pair systems for the first time.
翻訳日:2024-03-07 02:59:02 公開日:2024-03-03
# オンライン強化学習のサンプル複雑性の解決

Settling the Sample Complexity of Online Reinforcement Learning ( http://arxiv.org/abs/2307.13586v2 )

ライセンス: Link先を確認
Zihan Zhang, Yuxin Chen, Jason D. Lee, Simon S. Du(参考訳) オンライン強化学習(rl)の中心にある中心的な問題は、データ効率である。 オンラインRLにおいて、最近の多くの研究は漸近的に最小限の後悔を達成したが、これらの結果の最適性は 'large-sample'' 体制でのみ保証され、アルゴリズムが最適に動作するために膨大なバーンインコストが課される。 バーンインコストを発生させることなく、最小極最適後悔を実現する方法は、RL理論において未解決の問題である。 この問題を有限水平不均一マルコフ決定過程の文脈で解決する。 具体的には、単調値伝播 (mvp) の修正版が (modulo log factors) \begin{equation*} \min\big\{ \sqrt{sah^3k}, \,hk \big\}, \end{equation*} ここで$s$ は状態の数、$a$ はアクションの数、$h$ は計画の地平線、$k$ はエピソードの総数である。 この後悔は、サンプルサイズの全範囲で$K\geq 1$のminimaxローバウンドと一致し、本質的にはバーンイン要件を排除している。 また、pacサンプルの複雑さ(つまり$\varepsilon$-accuracy)、$\frac{sah^3}{\varepsilon^2}$ up to log factor($\varepsilon$-rangeの最大最適数)も意味する。 さらに,本理論を拡張して,最適値/コストや一定の分散といった問題依存量の影響を明らかにする。 重要な技術的革新は、新しい後悔の分解戦略と、複雑な統計的依存を分離するための新しい分析パラダイムの開発にある。

A central issue lying at the heart of online reinforcement learning (RL) is data efficiency. While a number of recent works achieved asymptotically minimal regret in online RL, the optimality of these results is only guaranteed in a ``large-sample'' regime, imposing enormous burn-in cost in order for their algorithms to operate optimally. How to achieve minimax-optimal regret without incurring any burn-in cost has been an open problem in RL theory. We settle this problem for the context of finite-horizon inhomogeneous Markov decision processes. Specifically, we prove that a modified version of Monotonic Value Propagation (MVP), a model-based algorithm proposed by \cite{zhang2020reinforcement}, achieves a regret on the order of (modulo log factors) \begin{equation*} \min\big\{ \sqrt{SAH^3K}, \,HK \big\}, \end{equation*} where $S$ is the number of states, $A$ is the number of actions, $H$ is the planning horizon, and $K$ is the total number of episodes. This regret matches the minimax lower bound for the entire range of sample size $K\geq 1$, essentially eliminating any burn-in requirement. It also translates to a PAC sample complexity (i.e., the number of episodes needed to yield $\varepsilon$-accuracy) of $\frac{SAH^3}{\varepsilon^2}$ up to log factor, which is minimax-optimal for the full $\varepsilon$-range. Further, we extend our theory to unveil the influences of problem-dependent quantities like the optimal value/cost and certain variances. The key technical innovation lies in the development of a new regret decomposition strategy and a novel analysis paradigm to decouple complicated statistical dependency -- a long-standing challenge facing the analysis of online RL in the sample-hungry regime.
翻訳日:2024-03-07 02:58:15 公開日:2024-03-03
# 物理インフォームドニューラルネットワークによる次元の呪いへの取り組み

Tackling the Curse of Dimensionality with Physics-Informed Neural Networks ( http://arxiv.org/abs/2307.12306v5 )

ライセンス: Link先を確認
Zheyuan Hu, Khemraj Shukla, George Em Karniadakis, Kenji Kawaguchi(参考訳) 次元の呪いは計算資源に重きを置き、次元が大きくなるにつれて計算コストが指数関数的に増加する。 これは60年以上前にRichard E. Bellman氏が指摘したように、高次元PDEを解決する上で大きな課題となる。 近年、数値偏微分方程式(PDE)を高次元で解くことに成功したが、そのような計算は違法に高価であり、一般的な非線形PDEの高次元への真のスケーリングは達成されていない。 我々は、任意の高次元PDEを解決するために、物理情報ニューラルネットワーク(PINN)をスケールアップする新しい方法を開発した。 新たな手法はStochastic Dimension Gradient Descent (SDGD)と呼ばれ、PDEの勾配を異なる次元に対応するピースに分解し、トレーニングPINNの各イテレーションでこれらの次元のサブセットをランダムにサンプリングする。 提案手法の収束とその他の望ましい性質を理論的に証明する。 提案手法は,数万次元のハミルトン・ヤコビ・ベルマン方程式やschr\"{o}dinger方程式など,多くの悪名高い高次元psdを,ピンスメッシュフリーアプローチを用いて単一のgpu上で高速に解くことができることを示す。 特に,非自明,異方性,分離不能な非線形PDEを1個のGPU上で12時間で10万の有効次元で解いた。 SDGD は PINN の一般的な訓練手法であるため、任意の高次元 PDE に対してスケールアップするために、現在および将来の PINN の変種に適用することができる。

The curse-of-dimensionality taxes computational resources heavily with exponentially increasing computational cost as the dimension increases. This poses great challenges in solving high-dimensional PDEs, as Richard E. Bellman first pointed out over 60 years ago. While there has been some recent success in solving numerically partial differential equations (PDEs) in high dimensions, such computations are prohibitively expensive, and true scaling of general nonlinear PDEs to high dimensions has never been achieved. We develop a new method of scaling up physics-informed neural networks (PINNs) to solve arbitrary high-dimensional PDEs. The new method, called Stochastic Dimension Gradient Descent (SDGD), decomposes a gradient of PDEs into pieces corresponding to different dimensions and randomly samples a subset of these dimensional pieces in each iteration of training PINNs. We prove theoretically the convergence and other desired properties of the proposed method. We demonstrate in various diverse tests that the proposed method can solve many notoriously hard high-dimensional PDEs, including the Hamilton-Jacobi-Bellman (HJB) and the Schr\"{o}dinger equations in tens of thousands of dimensions very fast on a single GPU using the PINNs mesh-free approach. Notably, we solve nonlinear PDEs with nontrivial, anisotropic, and inseparable solutions in 100,000 effective dimensions in 12 hours on a single GPU using SDGD with PINNs. Since SDGD is a general training methodology of PINNs, it can be applied to any current and future variants of PINNs to scale them up for arbitrary high-dimensional PDEs.
翻訳日:2024-03-07 02:56:34 公開日:2024-03-03
# 量子畳み込みニューラルネットワークにおけるオーバーフィッティング緩和のためのトレーニング後アプローチ

A Post-Training Approach for Mitigating Overfitting in Quantum Convolutional Neural Networks ( http://arxiv.org/abs/2309.01829v2 )

ライセンス: Link先を確認
Aakash Ravindra Shinde, Charu Jain, and Amir Kalev(参考訳) NISQ時代の量子コンピュータの初期の応用である量子畳み込みニューラルネットワーク(QCNN)は、いくつかのタスクに対する機械学習(ML)アルゴリズムとして一貫して成功している。 従来のQCNNから派生したQCNNは、過度に適合する傾向にある。 オーバーフィッティング(overfitting)は、マシンラーニングモデルの典型的な欠点であり、使用済みのトレーニングデータセットにあまりにも親密にトレーニングされ、同様の問題に対して、未認識のデータセットに対して比較的性能が低下する。 本研究では,QCNNにおけるオーバーフィッティング軽減のためのポストトレーニング手法について検討する。 古典的ポストトレーニング法であるニューロンドロップアウト法(英語版)を量子環境へ直接適応させることは、qcnnの成功確率を大幅に低下させるという、重要かつ望ましくない結果をもたらすことが判明した。 我々は、この効果がQCNNにおける絡み合いの重要な役割と、QCNNの絡み合い損失に対する脆弱性を明らかにすることを論じる。 そこで本研究では代替手法としてパラメータ適応法を提案する。 本手法は計算効率が高く,テストケースでのオーバーフィッティングをうまく処理できる。

Quantum convolutional neural network (QCNN), an early application for quantum computers in the NISQ era, has been consistently proven successful as a machine learning (ML) algorithm for several tasks with significant accuracy. Derived from its classical counterpart, QCNN is prone to overfitting. Overfitting is a typical shortcoming of ML models that are trained too closely to the availed training dataset and perform relatively poorly on unseen datasets for a similar problem. In this work we study post-training approaches for mitigating overfitting in QCNNs. We find that a straightforward adaptation of a classical post-training method, known as neuron dropout, to the quantum setting leads to a significant and undesirable consequence: a substantial decrease in success probability of the QCNN. We argue that this effect exposes the crucial role of entanglement in QCNNs and the vulnerability of QCNNs to entanglement loss. Hence, we propose a parameter adaptation method as an alternative method. Our method is computationally efficient and is found to successfully handle overfitting in the test cases.
翻訳日:2024-03-07 02:51:06 公開日:2024-03-03
# sortednet - あらゆるネットワークとその場所のネットワークのための場所 - マルチインワンニューラルネットワークをトレーニングするための汎用ソリューションを目指して

SortedNet, a Place for Every Network and Every Network in its Place: Towards a Generalized Solution for Training Many-in-One Neural Networks ( http://arxiv.org/abs/2309.00255v2 )

ライセンス: Link先を確認
Mojtaba Valipour, Mehdi Rezagholizadeh, Hossein Rajabzadeh, Parsa Kavehzadeh, Marzieh Tahaei, Boxing Chen, and Ali Ghodsi(参考訳) ディープニューラルネットワーク(DNN)は、さまざまなパフォーマンスニーズと予算を持つさまざまなユーザに対して、トレーニングや保存、多数の特定のモデルのメンテナンスといったコストを要する。 文献には、多くの個別のネットワークではなく、単一の動的または多元的モデルを扱うソリューションがあるが、それらは通常、アーキテクチャ固有の重いモデル探索要求に苦しめられ、限られた数の次元(例えば、深さのみまたは幅のみ)またはサブモデルでのみ動作する。 これらの問題に対処するために、DNNの固有のモジュラリティを活用するために、一般化されたスケーラブルなトレーニングソリューションであるSortedNetを提案する。 共有パラメータを持つ一般的なネストアーキテクチャ(この論文では \textit{sorted} アーキテクチャ)と、ランダムなサブモデルサンプリングと勾配の蓄積を組み合わせた新しい更新スキームのおかげで、sortednetは多数のサブモデルのトレーニングを同時に可能にし、推論中に動的モデルの選択と配置を単純化し、モデルストレージ要件を大幅に削減します。 SortedNetの汎用性とスケーラビリティは、LLaMA、BERT、RoBERTa(NLPタスク)、ResNet、MobileNet(画像分類)といった様々なアーキテクチャやタスクを通じて検証され、既存の動的トレーニング手法よりも優れていることを示す。 sortednetは160のサブモデルを一度にトレーニングでき、元のモデルのパフォーマンスの少なくとも96\%を達成した。

Deep neural networks (DNNs) must cater to a variety of users with different performance needs and budgets, leading to the costly practice of training, storing, and maintaining numerous specific models. There are solutions in the literature to deal with single dynamic or many-in-one models instead of many individual networks; however, they usually suffer from heavy model search requirements, being architecture-specific, working only on a limited number of dimensions (e.g. depth only or width only) or sub-models. To address these problems, we propose SortedNet, a generalized and scalable training solution to harness the inherent modularity of DNNs. Thanks to a generalized nested architecture (which we refer to as \textit{sorted} architecture in this paper) with shared parameters and its novel update scheme combining random sub-model sampling and gradient accumulation, SortedNet enables the training of numerous sub-models simultaneously, simplifies dynamic model selection and deployment during inference, and reduces the model storage requirement significantly. The versatility and scalability of SortedNet are validated through various architectures and tasks including LLaMA, BERT, RoBERTa (NLP tasks), ResNet and MobileNet (image classification) demonstrating its superiority over existing dynamic training methods. SortedNet is able to train up to 160 sub-models at once, achieving at least 96\% of the original model's performance.
翻訳日:2024-03-07 02:50:24 公開日:2024-03-03
# laplace-likeプロセスによる機能要約の純粋微分プライバシー

Pure Differential Privacy for Functional Summaries via a Laplace-like Process ( http://arxiv.org/abs/2309.00125v2 )

ライセンス: Link先を確認
Haotian Lin, Matthew Reimherr(参考訳) 無限次元機能的サマリー上の微分プライバシー(DP)を達成するための多くの既存のメカニズムは、これらのサマリーを有限次元部分空間に埋め込み、従来のDP技術を適用することを含む。 このようなメカニズムは一般に各次元を均一に扱い、複雑で構造化された要約と格闘する。 本研究は,DP機能概要リリースの新たなメカニズムとして,独立コンポーネントラプラスプロセス(ICLP)機構を紹介する。 このメカニズムは興味の要約を真に無限次元のオブジェクトとして扱い、既存のメカニズムのいくつかの制限に対処する。 複数の関数空間における提案機構の実現可能性を確立する。 統計的な推定問題をいくつか検討し,非プライベートなサマリーを過小評価することで,サニタイズされたサマリーの有用性を高めることを実証する。 合成および実データセットに関する数値実験により,提案手法の有効性が示された。

Many existing mechanisms to achieve differential privacy (DP) on infinite-dimensional functional summaries often involve embedding these summaries into finite-dimensional subspaces and applying traditional DP techniques. Such mechanisms generally treat each dimension uniformly and struggle with complex, structured summaries. This work introduces a novel mechanism for DP functional summary release: the Independent Component Laplace Process (ICLP) mechanism. This mechanism treats the summaries of interest as truly infinite-dimensional objects, thereby addressing several limitations of existing mechanisms. We establish the feasibility of the proposed mechanism in multiple function spaces. Several statistical estimation problems are considered, and we demonstrate one can enhance the utility of sanitized summaries by oversmoothing their non-private counterpart. Numerical experiments on synthetic and real datasets demonstrate the efficacy of the proposed mechanism.
翻訳日:2024-03-07 02:49:56 公開日:2024-03-03
# ガッピンググラフェン被覆ナノ粒子と基板との非平衡カシミール-ポルダー相互作用

Nonequilibrium Casimir-Polder Interaction Between Nanoparticles and Substrates Coated with Gapped Graphene ( http://arxiv.org/abs/2308.11306v2 )

ライセンス: Link先を確認
Galina L. Klimchitskaya, Constantine C. Korikov, Vladimir M. Mostepanenko and Oleg Yu. Tsybin(参考訳) ナノ粒子とガッピンググラフェンを被覆した誘電体基板との間の熱平衡カシミール-ポルダー力は、偏光テンソルの形式を用いてディラック模型の枠組みで考慮される。 これは時間反転対称性に反する物理現象の例である。 使用法の主なポイントを提示した後、ガッピンググラフェンでコーティングされた溶融シリカガラス基板の原料側にあるナノ粒子に作用するカシミール・ポルダー力に対する2つの寄与を計算した。 総非平衡力等級はエネルギーギャップの異なる値の分離関数として計算され、未被覆板およびグラフェンコーティングの存在下での平衡力と比較される。 その結果, 基板の存在は非平衡力の大きさを増加させることがわかった。 環境温度における平衡力と比較して, グラフェン被覆基板の温度が低くなるほど, 力の大きさは大きくなる。 エネルギーギャップが大きくなると非平衡力の大きさが小さくなり、グラフェンコーティングは非被覆基板からナノ粒子に作用する力により少ない影響を与えることが示されている。 得られた結果の応用可能性について論じる。

The out-of-thermal-equilibrium Casimir-Polder force between nanoparticles and dielectric substrates coated with gapped graphene is considered in the framework of the Dirac model using the formalism of the polarization tensor. This is an example of physical phenomena violating the time-reversal symmetry. After presenting the main points of the used formalism, we calculate two contributions to the Casimir-Polder force acting on a nanoparticle on the source side of a fused silica glass substrate coated with gapped graphene, which is either cooler or hotter than the environment. The total nonequilibrium force magnitudes are computed as a function of separation for different values of the energy gap and compared with those from an uncoated plate and with the equilibrium force in the presence of graphene coating. According to our results, the presence of a substrate increases the magnitude of the nonequlibrium force. The force magnitude becomes larger with higher and smaller with lower temperature of the graphene-coated substrate as compared to the equilibrium force at the environmental temperature. It is shown that with increasing energy gap the magnitude of the nonequilibrium force becomes smaller, and the graphene coating makes a lesser impact on the force acting on a nanoparticle from the uncoated substrate. Possible applications of the obtained results are discussed.
翻訳日:2024-03-07 02:49:22 公開日:2024-03-03
# LLMによるEHRからの証拠の回収:可能性と課題

Retrieving Evidence from EHRs with LLMs: Possibilities and Challenges ( http://arxiv.org/abs/2309.04550v2 )

ライセンス: Link先を確認
Hiba Ahsan, Denis Jered McInerney, Jisoo Kim, Christopher Potter, Geoffrey Young, Silvio Amir, Byron C. Wallace(参考訳) 電子健康記録(ehrs)の非構造化データには、放射線科医の診断を知らせる重要な情報が含まれていることが多い。 しかし、時間的制約を伴って患者に関連付けられた大量のメモは、実際に不可能な証拠を手作業で特定する。 本研究では, あるクエリに関連する患者EMHの非構造的証拠を効率よく検索し, 要約するメカニズムとして, LLMを用いたゼロショット戦略を提案し, 評価する。 本手法では,患者が関連するノートに基づいて特定の状態を持っているか,あるいはそのリスクがあるかを判断するために,llmのタスクを伴い,モデルに支援証拠の要約を依頼する。 専門家評価では,このllmベースアプローチは,llm前情報検索ベースラインに一貫して好まれる出力を提供する。 手作業による評価は高価であり,LLMを用いた(他の)LLM出力の評価手法の提案と検証により,評価のスケールアップが可能となる。 以上の結果から,ELHのインターフェースとしてLLMが期待できることに加えて,「幻覚」によって引き起こされる顕著な課題も浮き彫りにされている。 しかし、この設定では、出力のモデル信頼度は忠実な要約と強く相関し、信頼度を制限する実用的な手段を提供する。

Unstructured data in Electronic Health Records (EHRs) often contains critical information -- complementary to imaging -- that could inform radiologists' diagnoses. But the large volume of notes often associated with patients together with time constraints renders manually identifying relevant evidence practically infeasible. In this work we propose and evaluate a zero-shot strategy for using LLMs as a mechanism to efficiently retrieve and summarize unstructured evidence in patient EHR relevant to a given query. Our method entails tasking an LLM to infer whether a patient has, or is at risk of, a particular condition on the basis of associated notes; if so, we ask the model to summarize the supporting evidence. Under expert evaluation, we find that this LLM-based approach provides outputs consistently preferred to a pre-LLM information retrieval baseline. Manual evaluation is expensive, so we also propose and validate a method using an LLM to evaluate (other) LLM outputs for this task, allowing us to scale up evaluation. Our findings indicate the promise of LLMs as interfaces to EHR, but also highlight the outstanding challenge posed by "hallucinations". In this setting, however, we show that model confidence in outputs strongly correlates with faithful summaries, offering a practical means to limit confabulations.
翻訳日:2024-03-07 02:36:46 公開日:2024-03-03
# ArtiGrasp: バイマニュアルデキスタラスグラフプとアーティキュレーションの物理的に可塑性な合成

ArtiGrasp: Physically Plausible Synthesis of Bi-Manual Dexterous Grasping and Articulation ( http://arxiv.org/abs/2309.03891v2 )

ライセンス: Link先を確認
Hui Zhang, Sammy Christen, Zicong Fan, Luocheng Zheng, Jemin Hwangbo, Jie Song, Otmar Hilliges(参考訳) そこで本研究では,把持と調音を含む2次元ハンドオブジェクトインタラクションを合成する新しい手法であるartigraspを提案する。 この課題は、大域的な手首の動きの多様性と、物体の明瞭化に必要な精密な指制御のためである。 ArtiGraspは、強化学習と物理シミュレーションを利用して、グローバルおよびローカルハンドポーズを制御するポリシーをトレーニングする。 提案手法は,単一姿勢参照によって導かれる単一方針における把握と明瞭化を統一する。 さらに,調音に必要な正確な指制御の訓練を容易にするために,難易度を増す学習カリキュラムを提案する。 静止オブジェクトの片手操作から始まり、手と非静止オブジェクトの両方を含むマルチエージェントトレーニングへと続く。 提案手法を評価するために,対象物を対象のポーズに投入する作業である動的オブジェクトグラスピングとArticulationを導入する。 このタスクには、把持、転位、調音が必要です。 我々はこの課題に対する我々の方法の有効性を示す。 さらに,本手法は,市販画像ベース回帰器からノイズの多い手動ポーズ推定を行うことができることを示す。

We present ArtiGrasp, a novel method to synthesize bi-manual hand-object interactions that include grasping and articulation. This task is challenging due to the diversity of the global wrist motions and the precise finger control that are necessary to articulate objects. ArtiGrasp leverages reinforcement learning and physics simulations to train a policy that controls the global and local hand pose. Our framework unifies grasping and articulation within a single policy guided by a single hand pose reference. Moreover, to facilitate the training of the precise finger control required for articulation, we present a learning curriculum with increasing difficulty. It starts with single-hand manipulation of stationary objects and continues with multi-agent training including both hands and non-stationary objects. To evaluate our method, we introduce Dynamic Object Grasping and Articulation, a task that involves bringing an object into a target articulated pose. This task requires grasping, relocation, and articulation. We show our method's efficacy towards this task. We further demonstrate that our method can generate motions with noisy hand-object pose estimates from an off-the-shelf image-based regressor.
翻訳日:2024-03-07 02:36:22 公開日:2024-03-03
# tbd歩行者データ収集 : リッチ・ポータブル・大規模自然歩行者データを目指して

TBD Pedestrian Data Collection: Towards Rich, Portable, and Large-Scale Natural Pedestrian Data ( http://arxiv.org/abs/2309.17187v2 )

ライセンス: Link先を確認
Allan Wang, Daisuke Sato, Yasser Corzo, Sonya Simkin, Abhijat Biswas, Aaron Steinfeld(参考訳) ソーシャルナビゲーションと歩行者行動研究は、機械学習に基づく手法へとシフトし、ペデストリアン間の相互作用と歩行者とロボットの相互作用のモデリングの話題に収束した。 そのためには、豊富な情報を含む大規模データセットが必要である。 本稿では,半自動ラベリングパイプラインと組み合わせた携帯型データ収集システムについて述べる。 パイプラインの一部として、自動歩行者追跡結果の人間による検証を容易にするラベル補正ウェブアプリを設計した。 本システムでは,多様な環境における大規模データ収集と高速軌道ラベル生成を実現する。 既存の歩行者データ収集手法と比較して,本システムは,トップダウン視点とエゴ中心視点の組み合わせ,社会的に適切な「ロボット」の存在下での自然な人間の行動,計量空間に接する人間検証ラベルの3つの構成要素を含む。 私たちの知る限りでは、以前のデータ収集システムには3つのコンポーネントが組み合わさっていません。 TBD Pedestrian Dataset(TBD Pedestrian Dataset)は、収集したデータが大規模で、人間が検証したラベルを持つ以前のデータセットと比較して豊富な情報を含んでいることを示し、新しい研究機会をサポートする。

Social navigation and pedestrian behavior research has shifted towards machine learning-based methods and converged on the topic of modeling inter-pedestrian interactions and pedestrian-robot interactions. For this, large-scale datasets that contain rich information are needed. We describe a portable data collection system, coupled with a semi-autonomous labeling pipeline. As part of the pipeline, we designed a label correction web app that facilitates human verification of automated pedestrian tracking outcomes. Our system enables large-scale data collection in diverse environments and fast trajectory label production. Compared with existing pedestrian data collection methods, our system contains three components: a combination of top-down and ego-centric views, natural human behavior in the presence of a socially appropriate "robot", and human-verified labels grounded in the metric space. To the best of our knowledge, no prior data collection system has a combination of all three components. We further introduce our ever-expanding dataset from the ongoing data collection effort -- the TBD Pedestrian Dataset and show that our collected data is larger in scale, contains richer information when compared to prior datasets with human-verified labels, and supports new research opportunities.
翻訳日:2024-03-07 02:30:23 公開日:2024-03-03
# ビーム列挙: 自己調和型分子設計における確率的説明可能性

Beam Enumeration: Probabilistic Explainability For Sample Efficient Self-conditioned Molecular Design ( http://arxiv.org/abs/2309.13957v2 )

ライセンス: Link先を確認
Jeff Guo, Philippe Schwaller(参考訳) 生成的分子設計は概念実証から実世界に適用可能へと移行しており、実験検証を報告した最近の論文の急増が特徴である。 説明可能性とサンプル効率における重要な課題は、高価な高忠実度オラクルを直接最適化し、ドメインエキスパートに実行可能な洞察を提供する生成設計を強化する機会を提供する。 本稿では、言語に基づく分子生成モデルから最も確率の高いサブシーケンスを包括的に列挙し、分子サブ構造を抽出できることを示すビーム列挙法を提案する。 強化学習と組み合わせると、抽出されたサブ構造が意味を持ち、説明可能性の源となり、自己条件生成によるサンプル効率を向上させる。 ビーム列挙法は一般に任意の言語に基づく分子生成モデルに適用でき、特に最近報告されたAugmented Memoryアルゴリズムの性能を向上させる。 この組み合わせアルゴリズムは、oracleの予算を固定することで、より高い報酬分子とより高速なものを生成する。 ビーム列挙は分子設計のための説明可能性とサンプル効率の改善を相乗的にすることができることを示した。

Generative molecular design has moved from proof-of-concept to real-world applicability, as marked by the surge in very recent papers reporting experimental validation. Key challenges in explainability and sample efficiency present opportunities to enhance generative design to directly optimize expensive high-fidelity oracles and provide actionable insights to domain experts. Here, we propose Beam Enumeration to exhaustively enumerate the most probable sub-sequences from language-based molecular generative models and show that molecular substructures can be extracted. When coupled with reinforcement learning, extracted substructures become meaningful, providing a source of explainability and improving sample efficiency through self-conditioned generation. Beam Enumeration is generally applicable to any language-based molecular generative model and notably further improves the performance of the recently reported Augmented Memory algorithm, which achieved the new state-of-the-art on the Practical Molecular Optimization benchmark for sample efficiency. The combined algorithm generates more high reward molecules and faster, given a fixed oracle budget. Beam Enumeration shows that improvements to explainability and sample efficiency for molecular design can be made synergistic.
翻訳日:2024-03-07 02:28:11 公開日:2024-03-03
# カメラ動作障害に対する認証ロバストネスのための画素ワイズ平滑化

Pixel-wise Smoothing for Certified Robustness against Camera Motion Perturbations ( http://arxiv.org/abs/2309.13150v2 )

ライセンス: Link先を確認
Hanjiang Hu, Zuxin Liu, Linyi Li, Jiacheng Zhu, Ding Zhao(参考訳) 深層学習に基づく視覚知覚モデルは、実際にカメラモーションの摂動に直面したときの堅牢性に欠ける。 現在、ロバスト性を評価するための認証プロセスは、モンテカルロの3Dカメラモーション空間でのサンプリングに必要な画像投影の膨大な数のためにコストと時間を要する。 これらの課題に対処するために,3d-2d投影変換のロバスト性を検証するための新しい,効率的かつ実用的な枠組みを提案する。 提案手法では,3次元空間ではなく2次元画素空間上の平滑化分布を活用し,高コストのカメラモーションサンプリングを不要とし,ロバスト性認証の効率を大幅に向上させる。 画素単位の平滑化分類器では、カメラの動き空間の均一なパーティショニング技術を用いて投影誤差を完全に上界できる。 さらに私たちは認証フレームワークを,oracleのプロジェクションに単一フレームのポイントクラウドのみが必要な,より一般的なシナリオに拡張しています。 実験により,提案手法の有効性と効率のトレードオフを検証した。 また,提案手法は画像フレームの30%しか利用せず,約80%の精度を達成している。 コードはhttps://github.com/hanjianghu/pixel-wise-smoothingで入手できる。

Deep learning-based visual perception models lack robustness when faced with camera motion perturbations in practice. The current certification process for assessing robustness is costly and time-consuming due to the extensive number of image projections required for Monte Carlo sampling in the 3D camera motion space. To address these challenges, we present a novel, efficient, and practical framework for certifying the robustness of 3D-2D projective transformations against camera motion perturbations. Our approach leverages a smoothing distribution over the 2D pixel space instead of in the 3D physical space, eliminating the need for costly camera motion sampling and significantly enhancing the efficiency of robustness certifications. With the pixel-wise smoothed classifier, we are able to fully upper bound the projection errors using a technique of uniform partitioning in camera motion space. Additionally, we extend our certification framework to a more general scenario where only a single-frame point cloud is required in the projection oracle. Through extensive experimentation, we validate the trade-off between effectiveness and efficiency enabled by our proposed method. Remarkably, our approach achieves approximately 80% certified accuracy while utilizing only 30% of the projected image frames. The code is available at https://github.com/HanjiangHu/pixel-wise-smoothing.
翻訳日:2024-03-07 02:27:29 公開日:2024-03-03
# 雑音量子力学におけるディック状態によるハイゼンベルク極限の実現

Achieving the Heisenberg limit with Dicke states in noisy quantum metrology ( http://arxiv.org/abs/2309.12411v3 )

ライセンス: Link先を確認
Zain H. Saleem, Michael Perlin, Anil Shaji, Stephen K. Gray(参考訳) ノイズ量子メトロロジーにおける標準量子限界を超えることは重要かつ困難な課題である。 ここでは、ディッケ状態を用いて標準量子極限を超え、開量子系においてハイゼンベルク極限を達成する方法を示す。 本研究では, 共振器と共振器を対称に結合し, 共振器と共振器の結合を推定するシステムを提案する。 結合に関する時間依存的な量子フィッシャー情報は、全ての量子ビット上で同じ減衰率が仮定されるオープン量子系に対して研究される。 系が最適励起数でディック状態に初期化されると、標準量子極限を超え、量子ビットと共振器上の崩壊の有限値に対してもハイゼンベルク極限を達成することができ、特に量子ビットと共振器が強く結合されているときである。 我々は、高絡み合いのGHZ状態と完全に分離可能な状態を比較し、GHZ状態は、特定の雑音条件下では、共振器とのその後の相互作用により、分離可能な状態が標準量子限界を超えることができるのに対して、非常に低い性能を示す。

Going beyond the standard quantum limit in noisy quantum metrology is an important and challenging task. Here we show how Dicke states can be used to surpass the standard quantum limit and achieve the Heisenberg limit in open quantum systems. The system we study has qubits symmetrically coupled to a resonator and our objective is to estimate the coupling between the qubits and the resonator. The time-dependent quantum Fisher information with respect to the coupling is studied for this open quantum system where the same decay rates are assumed on all qubits. We show that when the system is initialized to a Dicke state with an optimal excitation number one can go beyond the standard quantum limit and achieve the Heisenberg limit even for finite values of the decays on the qubit and the resonator, particularly when the qubits and resonator are strongly coupled. We compare our results against the highly entangled GHZ state and a completely separable state and show that the GHZ state performs quite poorly whereas under certain noise conditions the separable state is able to go beyond the standard quantum limit due to subsequent interactions with a resonator.
翻訳日:2024-03-07 02:26:54 公開日:2024-03-03
# 相対位置の関数補間による長所変圧器の改良

Functional Interpolation for Relative Positions Improves Long Context Transformers ( http://arxiv.org/abs/2310.04418v2 )

ライセンス: Link先を確認
Shanda Li, Chong You, Guru Guruganesh, Joshua Ainslie, Santiago Ontanon, Manzil Zaheer, Sumit Sanghai, Yiming Yang, Sanjiv Kumar, Srinadh Bhojanapalli(参考訳) 入力におけるトランスフォーマーの性能低下の防止は、これらのモデルのコンテキスト長を延ばす上で重要な課題であった。 トランスフォーマーアーキテクチャは基本的に処理可能な入力シーケンスの長さに制限がないが、トレーニング中に使用される位置エンコーディングの選択は、より長い入力でこれらのモデルの性能を制限できる。 本稿では,より長い文脈における変圧器の一般化を改善するために,プログレッシブ補間による関数相対位置符号化手法fireを提案する。 理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングの一部を表すことができる。 次に、ゼロショット言語モデリングと長文ベンチマークの両方において、FIREモデルはより長い文脈での一般化より優れていることを実証的に示す。

Preventing the performance decay of Transformers on inputs longer than those used for training has been an important challenge in extending the context length of these models. Though the Transformer architecture has fundamentally no limits on the input sequence lengths it can process, the choice of position encoding used during training can limit the performance of these models on longer inputs. We propose a novel functional relative position encoding with progressive interpolation, FIRE, to improve Transformer generalization to longer contexts. We theoretically prove that this can represent some of the popular relative position encodings, such as T5's RPE, Alibi, and Kerple. We next empirically show that FIRE models have better generalization to longer contexts on both zero-shot language modeling and long text benchmarks.
翻訳日:2024-03-07 02:20:58 公開日:2024-03-03
# 測定値の限定アクセスによるパラメータ推定

Parameter estimation with limited access of measurements ( http://arxiv.org/abs/2310.04026v2 )

ライセンス: Link先を確認
Jianning Li, Dianzhen Cui, and X. X. Yi(参考訳) 量子パラメータ推定は、物理パラメータを古典的技術で達成したものよりもはるかに高精度に測定できる量子技術に期待されている。 しかし、最適測定がアクセスできない場合に最適な精度を得る方法はまだ未解決の問題である。 本研究では,非最適測定が推定精度に与える影響を分析することにより,パラメータ推定を限られたアクセスで行う理論的枠組みを提案する。 我々は,その効果を特徴付ける量を定義し,可観測物の限られたアクセス可能性で限界に達するために可観測物の最適化方法を説明する。 一方,フロベニウスノルムの観点から観測可能距離と最適値との差を定量化するために最小ユークリッド距離を導入し,最適値とより短い距離の計測が推定に有用であることを見出した。 我々の理論を示す2つの例を示す。 第一に、駆動量子ビットの遷移周波数の推定精度に対する非最適測定の影響を分析する。 第2の例では、その1つが測定不能である二成分系を考える。 具体的には、ダイヤモンド中のNV中心を双極子系とし、NV中心電子スピンは双極子-双極子相互作用を介して単一核と相互作用する。 電子スピンの観測値のみを最適化することにより,核ラーモア周波数の正確な推定を実現する。 この2つの例では,可観測値と最適値との間の最小ユークリッド距離を解析し,最適値に閉じた可観測値の方が推定精度が優れていることを示す。

Quantum parameter estimation holds the promise of quantum technologies, in which physical parameters can be measured with much greater precision than what is achieved with classical technologies. However, how to obtain a best precision when the optimal measurement is not accessible is still an open problem. In this work, we present a theoretical framework to explore the parameter estimation with limited access of measurements by analyzing the effect of non-optimal measurement on the estimation precision. We define a quantity to characterize the effect and illustrate how to optimize observables to attain a bound with limited accessibility of observables. On the other side, we introduce the minimum Euclidean distance to quantify the difference between an observable and the optimal ones in terms of Frobenius norm and find that the measurement with a shorter distance to the optimal ones benefits the estimation. Two examples are presented to show our theory. In the first, we analyze the effect of non-optimal measurement on the estimation precision of the transition frequency for a driven qubit. While in the second example, we consider a bipartite system, in which one of them is measurement inaccessible. To be specific, we take a toy model, the NV-center in diamond as the bipartite system, where the NV-center electronic spin interacts with a single nucleus via the dipole-dipole interaction. We achieve a precise estimation for the nuclear Larmor frequency by optimizing only the observables of the electronic spin. In these two examples, the minimum Euclidean distance between an observable and the optimal ones is analyzed and the results show that the observable closed to the optimal ones better the estimation precision.
翻訳日:2024-03-07 02:20:01 公開日:2024-03-03
# 非スムース弱凸有限サム結合合成最適化

Non-Smooth Weakly-Convex Finite-sum Coupled Compositional Optimization ( http://arxiv.org/abs/2310.03234v4 )

ライセンス: Link先を確認
Quanqi Hu, Dixian Zhu, Tianbao Yang(参考訳) 本稿では,新しい合成最適化問題である$\underline{\bf n}$on-$\underline{\bf s}$mooth $\underline{\bf w}$eakly-$\underline{\bf c}$onvex $\underline{\bf f}$inite-sum $\underline{\bf c}$oupled $\underline{\bf c}$ompositional $\underline{\bf o}$ptimization (NSWC FCCO)について検討する。 機械学習とAIの幅広い応用と、経験的リスク最小化に基づく確率的アルゴリズムの欠点に対処する能力により、FCCOへの関心が高まっている。 しかし、FCCOの最近の研究は、内部関数と外部関数の両方が滑らかであり、より多様な問題に取り組む可能性を制限すると仮定している。 本研究は,外関数が弱凸で非減少し,内関数が弱凸である非滑らかなFCCOを調べることにより,この領域を拡大する。 単一ループアルゴリズムを解析し、目的関数のモロー包絡の $\epsilon$-stationary point を見つけるための複雑さを確立する。 さらに,3つの関数の入れ子配置を特徴とする,新しい非スムース弱凸三レベル有限サム結合合成最適化問題にもアルゴリズムを拡張した。 最後に,2方向部分AUC最大化と多方向部分AUC最大化のためのディープラーニングにおけるアルゴリズムの適用について検討し,提案アルゴリズムの有効性を示す実験的検討を行った。

This paper investigates new families of compositional optimization problems, called $\underline{\bf n}$on-$\underline{\bf s}$mooth $\underline{\bf w}$eakly-$\underline{\bf c}$onvex $\underline{\bf f}$inite-sum $\underline{\bf c}$oupled $\underline{\bf c}$ompositional $\underline{\bf o}$ptimization (NSWC FCCO). There has been a growing interest in FCCO due to its wide-ranging applications in machine learning and AI, as well as its ability to address the shortcomings of stochastic algorithms based on empirical risk minimization. However, current research on FCCO presumes that both the inner and outer functions are smooth, limiting their potential to tackle a more diverse set of problems. Our research expands on this area by examining non-smooth weakly-convex FCCO, where the outer function is weakly convex and non-decreasing, and the inner function is weakly-convex. We analyze a single-loop algorithm and establish its complexity for finding an $\epsilon$-stationary point of the Moreau envelop of the objective function. Additionally, we also extend the algorithm to solving novel non-smooth weakly-convex tri-level finite-sum coupled compositional optimization problems, which feature a nested arrangement of three functions. Lastly, we explore the applications of our algorithms in deep learning for two-way partial AUC maximization and multi-instance two-way partial AUC maximization, using empirical studies to showcase the effectiveness of the proposed algorithms.
翻訳日:2024-03-07 02:19:34 公開日:2024-03-03
# Bongard-OpenWorld: 現実の世界における自由な視覚概念のためのFew-Shot Reasoning

Bongard-OpenWorld: Few-Shot Reasoning for Free-form Visual Concepts in the Real World ( http://arxiv.org/abs/2310.10207v2 )

ライセンス: Link先を確認
Rujie Wu, Xiaojian Ma, Zhenliang Zhang, Wei Wang, Qing Li, Song-Chun Zhu, Yizhou Wang(参考訳) Bongard-OpenWorldは、マシンビジョンのための実世界の数ショット推論を評価するための新しいベンチマークである。 古典的なボナード問題(BP)に由来する: 2つのイメージセット(正と負の)が与えられたモデルでは、クエリイメージが属する集合を正の集合からのみ描写される視覚概念を誘導することによって識別する必要がある。 我々のベンチマークは、最初のBPのいくつかの概念を継承し、新しい2つの課題を追加している。 1)bongard-openworldの視覚概念は,オブジェクトのカテゴリから抽象的な視覚属性,常識的な事実知識まで,オープンボキャブラリから用語のユニークな構成である。 2) 実世界の画像は,多くの対数で使用される合成図と対照的である。 私たちの調査では、bongard-openworldはすでに、現在の少数ショット推論アルゴリズムに重大な課題を課しています。 さらに,最近導入されたLarge Language Models (LLMs) とVision-Language Models (VLMs) が,VLMを直接探索し,VLMとLLMを対話型推論方式で組み合わせることで,その課題をどの程度解決できるかについても検討する。 ボナード問題に対する人間の問題解決過程をエミュレートするために,LLMとVLMを論理的推論で再現する神経象徴的推論手法も考案した。 しかし、最良の学習者は64%の精度を達成し、人間の参加者は91%に到達し易いため、これらのアプローチはいずれも人間と機械のギャップを埋めるには至らなかった。 bongard-openworldは、現在の視覚知能の限界をより深く理解し、より強力な少数ショットの視覚推論能力を持つ視覚エージェントに関する将来の研究を促進するのに役立つことを願っている。

We introduce Bongard-OpenWorld, a new benchmark for evaluating real-world few-shot reasoning for machine vision. It originates from the classical Bongard Problems (BPs): Given two sets of images (positive and negative), the model needs to identify the set that query images belong to by inducing the visual concepts, which is exclusively depicted by images from the positive set. Our benchmark inherits the few-shot concept induction of the original BPs while adding the two novel layers of challenge: 1) open-world free-form concepts, as the visual concepts in Bongard-OpenWorld are unique compositions of terms from an open vocabulary, ranging from object categories to abstract visual attributes and commonsense factual knowledge; 2) real-world images, as opposed to the synthetic diagrams used by many counterparts. In our exploration, Bongard-OpenWorld already imposes a significant challenge to current few-shot reasoning algorithms. We further investigate to which extent the recently introduced Large Language Models (LLMs) and Vision-Language Models (VLMs) can solve our task, by directly probing VLMs, and combining VLMs and LLMs in an interactive reasoning scheme. We even conceived a neuro-symbolic reasoning approach that reconciles LLMs & VLMs with logical reasoning to emulate the human problem-solving process for Bongard Problems. However, none of these approaches manage to close the human-machine gap, as the best learner achieves 64% accuracy while human participants easily reach 91%. We hope Bongard-OpenWorld can help us better understand the limitations of current visual intelligence and facilitate future research on visual agents with stronger few-shot visual reasoning capabilities.
翻訳日:2024-03-07 02:11:42 公開日:2024-03-03
# CrIBo: クロスイメージなオブジェクトレベルブートストラップによる自己監督型学習

CrIBo: Self-Supervised Learning via Cross-Image Object-Level Bootstrapping ( http://arxiv.org/abs/2310.07855v2 )

ライセンス: Link先を確認
Tim Lebailly, Thomas Stegm\"uller, Behzad Bozorgtabar, Jean-Philippe Thiran, Tinne Tuytelaars(参考訳) 自己教師付き表現学習における近接探索の活用は、対象中心の画像に対して有益であることが証明されている。 しかし、このアプローチはシーン中心のデータセットに適用した場合の制限に直面し、画像内の複数のオブジェクトは、グローバル表現の中で暗黙的にのみキャプチャされる。 このようなグローバルなブートストラッピングは、オブジェクト表現の望ましくない絡み合いにつながる可能性がある。 さらに、オブジェクト中心のデータセットでさえ、よりきめ細かいブートストラップアプローチの恩恵を受けている。 これらの課題に対応するために,高密度な視覚表現学習を実現するために,クロスイメージオブジェクトレベルブートストラップ方式を提案する。 CrIBoは、トレーニングを通じてオブジェクトレベルに近い隣人のブートストラップを採用することで、テスト時に最も近い隣人の検索を活用することで、コンテキスト内学習の特に強力で適切な候補として現れる。 CrIBoは、より標準的な下流セグメンテーションタスクにおいて高い競争力を持ちながら、後者のタスクで最先端のパフォーマンスを示す。 私たちのコードと事前訓練されたモデルはhttps://github.com/tileb1/CrIBo.comで公開されています。

Leveraging nearest neighbor retrieval for self-supervised representation learning has proven beneficial with object-centric images. However, this approach faces limitations when applied to scene-centric datasets, where multiple objects within an image are only implicitly captured in the global representation. Such global bootstrapping can lead to undesirable entanglement of object representations. Furthermore, even object-centric datasets stand to benefit from a finer-grained bootstrapping approach. In response to these challenges, we introduce a novel Cross-Image Object-Level Bootstrapping method tailored to enhance dense visual representation learning. By employing object-level nearest neighbor bootstrapping throughout the training, CrIBo emerges as a notably strong and adequate candidate for in-context learning, leveraging nearest neighbor retrieval at test time. CrIBo shows state-of-the-art performance on the latter task while being highly competitive in more standard downstream segmentation tasks. Our code and pretrained models are publicly available at https://github.com/tileb1/CrIBo.
翻訳日:2024-03-07 02:08:20 公開日:2024-03-03
# サイレントへのアドボケート:非参加型クライアントのためのフェデレーションの強化

Advocating for the Silent: Enhancing Federated Generalization for Non-Participating Clients ( http://arxiv.org/abs/2310.07171v4 )

ライセンス: Link先を確認
Zheshun Wu, Zenglin Xu, Dun Zeng, Qifan Wang, Jie Liu(参考訳) Federated Learning (FL)は、直接的なデータ共有を伴わない協調モデルトレーニングの能力により、人気が高まっている。 しかし、非独立分散(非iid)チャレンジとしばしば呼ばれるクライアント間のローカルなデータ分散の差は、flの一般化効果にとって大きな障害となっている。 このシナリオは、すべてのクライアントがトレーニングプロセスに参加していない場合、不安定なネットワーク接続や計算能力の制限などにより、さらに複雑になる。 これは、訓練されたモデルの一般化能力の評価を大幅に複雑にする。 最近の多くの研究は、多様な分布を持つ参加者のクライアントから取得したデータに関する一般化のギャップに焦点が当てられているが、参加者のトレーニング分布と非参加者のテスト分布の区別は、概ね見過ごされている。 そこで本稿では,FLのための情報理論の一般化フレームワークについて紹介する。 具体的には、局所分布の情報エントロピーを評価して一般化誤差を定量化し、これらの分布全体の不一致を識別する。 導出一般化境界に着想を得て、重み付け集約アプローチとクライアント選択戦略の二重化を導入する。 これらの革新は、flの一般化能力を強化し、より多様なクライアントデータ分布を組み込むことで、訓練されたモデルが非参加型クライアントでより良く機能することを保証するように設計されている。 提案手法の有効性を再確認し,理論的構成とシームレスに一致させた。

Federated Learning (FL) has surged in prominence due to its capability of collaborative model training without direct data sharing. However, the vast disparity in local data distributions among clients, often termed the Non-Independent Identically Distributed (Non-IID) challenge, poses a significant hurdle to FL's generalization efficacy. The scenario becomes even more complex when not all clients participate in the training process, a common occurrence due to unstable network connections or limited computational capacities. This can greatly complicate the assessment of the trained models' generalization abilities. While a plethora of recent studies has centered on the generalization gap pertaining to unseen data from participating clients with diverse distributions, the distinction between the training distributions of participating clients and the testing distributions of non-participating ones has been largely overlooked. In response, our paper unveils an information-theoretic generalization framework for FL. Specifically, it quantifies generalization errors by evaluating the information entropy of local distributions and discerning discrepancies across these distributions. Inspired by our deduced generalization bounds, we introduce a weighted aggregation approach and a duo of client selection strategies. These innovations are designed to strengthen FL's ability to generalize and thus ensure that trained models perform better on non-participating clients by incorporating a more diverse range of client data distributions. Our extensive empirical evaluations reaffirm the potency of our proposed methods, aligning seamlessly with our theoretical construct.
翻訳日:2024-03-07 02:08:05 公開日:2024-03-03
# ヒルベルト空間固有プロブレムによって生成される仮定公式

Summation formulas generated by Hilbert space eigenproblem ( http://arxiv.org/abs/2310.17210v4 )

ライセンス: Link先を確認
Petar Mali, Sonja Gombar, Slobodan Rado\v{s}evi\' c, Milica Rutonjski, Milan Panti\' c, Milica Pavkov-Hrvojevi\' c(参考訳) 一般化超幾何関数を含むschl\" omilch的無限級数と級数のあるクラスは、無限ポテンシャル井戸内に閉じ込められた粒子の単純な量子モデルと量子力学の原理から、閉じた形で計算できることを実証する。 我々は、ヒルベルト空間の固有プロブレムに基づく一般的なフレームワークを提供し、異なる正確な可解量子モデルに適用することができる。 明確に定義された量子問題における正規化条件から級数を取得することは、それらの収束を保証する。

We demonstrate that certain classes of Schl\" omilch-like infinite series and series that include generalized hypergeometric functions can be calculated in closed form starting from a simple quantum model of a particle trapped inside an infinite potential well and using principles of quantum mechanics. We provide a general framework based on the Hilbert space eigenproblem that can be applied to different exactly solvable quantum models. Obtaining series from normalization conditions in well-defined quantum problems secures their convergence.
翻訳日:2024-03-07 02:01:17 公開日:2024-03-03
# 負荷依存コストによる中国のポストマン問題を解決するためのグラフ注意に基づく深層強化学習

Graph Attention-based Deep Reinforcement Learning for solving the Chinese Postman Problem with Load-dependent costs ( http://arxiv.org/abs/2310.15516v4 )

ライセンス: Link先を確認
Truong Son Hy, Cong Dao Tran(参考訳) 近年,深い強化学習(DRL)モデルがルーティング問題を解く上で有望な結果を示している。 しかしながら、ほとんどのDRLソルバは、トラベリングセールスマン問題(TSP)のようなノードルーティング問題を解決するために一般的に提案されている。 一方、中国ポストマン問題(CPP)のようなアークルーティング問題に対するニューラルネットワークの適用については、TSPと比較して不規則で複雑な解空間がしばしばあるため、限定的な研究がなされている。 これらのギャップを埋めるために,負荷制約を伴う複雑なアークルーティング問題であるCPP-LC(Corberan et al., 2018)に対処する新しいDRLフレームワークを提案する。 この手法の目新しさは2つある。 まず、CPP-LCをマルコフ決定過程(MDP)シーケンシャルモデルとして定式化する。 次に、CPP-LC課題に効果的に対応するために、エンコーダとデコーダからなるDRL、すなわちArc-DRLに基づく自己回帰モデルを導入する。 このようなフレームワークにより、DRLモデルはルーティング問題に対して効率よく、かつ、辛抱強く動作する。 さらに,CPP-LCのための進化的アルゴリズム(EA)に基づくバイオインスパイアされた新しいメタヒューリスティックソリューションを提案する。 大規模な実験により、Arc-DRLは、(Corberanらによって提案された)CPP-LCの大規模なベンチマークデータセットにおいて、反復局所探索(ILS)や可変近傍探索(VNS)のような既存のメタヒューリスティックな手法よりも、ソリューションの品質と実行時間の両方に関して優れていることが示された。 EA、ILS、VNSといったメタヒューリスティクスのためのC++実装と、データ生成のためのコード、生成されたデータはhttps://github.com/HySonLab/ Chinese_Postman_Problemでリリースしています。

Recently, Deep reinforcement learning (DRL) models have shown promising results in solving routing problems. However, most DRL solvers are commonly proposed to solve node routing problems, such as the Traveling Salesman Problem (TSP). Meanwhile, there has been limited research on applying neural methods to arc routing problems, such as the Chinese Postman Problem (CPP), since they often feature irregular and complex solution spaces compared to TSP. To fill these gaps, this paper proposes a novel DRL framework to address the CPP with load-dependent costs (CPP-LC) (Corberan et al., 2018), which is a complex arc routing problem with load constraints. The novelty of our method is two-fold. First, we formulate the CPP-LC as a Markov Decision Process (MDP) sequential model. Subsequently, we introduce an autoregressive model based on DRL, namely Arc-DRL, consisting of an encoder and decoder to address the CPP-LC challenge effectively. Such a framework allows the DRL model to work efficiently and scalably to arc routing problems. Furthermore, we propose a new bio-inspired meta-heuristic solution based on Evolutionary Algorithm (EA) for CPP-LC. Extensive experiments show that Arc-DRL outperforms existing meta-heuristic methods such as Iterative Local Search (ILS) and Variable Neighborhood Search (VNS) proposed by (Corberan et al., 2018) on large benchmark datasets for CPP-LC regarding both solution quality and running time; while the EA gives the best solution quality with much more running time. We release our C++ implementations for metaheuristics such as EA, ILS and VNS along with the code for data generation and our generated data at https://github.com/HySonLab/Chinese_Postman_Problem
翻訳日:2024-03-07 02:00:39 公開日:2024-03-03
# グラフニューラルネットワークの公平性に対する逆攻撃

Adversarial Attacks on Fairness of Graph Neural Networks ( http://arxiv.org/abs/2310.13822v2 )

ライセンス: Link先を確認
Binchi Zhang, Yushun Dong, Chen Chen, Yada Zhu, Minnan Luo, Jundong Li(参考訳) フェアネスアウェアグラフニューラルネットワーク(gnns)は、グラフベースのアプリケーションにおいて、任意の人口統計グループ(女性など)の予測バイアスを低減できるため、注目を集めている。 これらの手法はGNNのアルゴリズム的公正性を大幅に改善するが、慎重に設計された敵攻撃によって容易に公正性を損なうことができる。 本稿では,GNNのフェアネスに対する敵対的攻撃の問題について検討し,予測ユーティリティに目立たない効果を伴って,さまざまなフェアネスを意識したGNNを攻撃するための汎用フレームワークであるG-FairAttackを提案する。 さらに,G-FairAttackの時間的複雑さを低減するための高速計算手法を提案する。 実験では、G-FairAttackが攻撃を無意味に保ちながら、異なるタイプのGNNの公平性を損なうことに成功した。 フェアネス攻撃に関する研究は、フェアネスを意識したGNNの潜在的な脆弱性に光を当て、フェアネスの観点からGNNの堅牢性に関するさらなる研究を導く。

Fairness-aware graph neural networks (GNNs) have gained a surge of attention as they can reduce the bias of predictions on any demographic group (e.g., female) in graph-based applications. Although these methods greatly improve the algorithmic fairness of GNNs, the fairness can be easily corrupted by carefully designed adversarial attacks. In this paper, we investigate the problem of adversarial attacks on fairness of GNNs and propose G-FairAttack, a general framework for attacking various types of fairness-aware GNNs in terms of fairness with an unnoticeable effect on prediction utility. In addition, we propose a fast computation technique to reduce the time complexity of G-FairAttack. The experimental study demonstrates that G-FairAttack successfully corrupts the fairness of different types of GNNs while keeping the attack unnoticeable. Our study on fairness attacks sheds light on potential vulnerabilities in fairness-aware GNNs and guides further research on the robustness of GNNs in terms of fairness.
翻訳日:2024-03-07 01:59:27 公開日:2024-03-03
# 補間から外挿へ:算数変換器の完全長一般化

From Interpolation to Extrapolation: Complete Length Generalization for Arithmetic Transformers ( http://arxiv.org/abs/2310.11984v2 )

ライセンス: Link先を確認
Shaoxiong Duan, Yining Shi, Wei Xu(参考訳) 本稿では,加法やパリティといった算術アルゴリズムの学習におけるトランスフォーマーモデルの本質的能力について検討する。 実験と注意分析を通じて,最適な長さ一般化を達成するための重要な要因を明らかにした。 対象の注意バイアスの助けを借りて,変圧器モデルを長大化することができることを示す。 特に, トランスフォーマーの故障モードとしてよく知られ, 理論的に証明されているparityタスクを解いた。 次に注意バイアスキャリブレーション(注意バイアスキャリブレーション、abc)を導入し、モデルが適切な注意バイアスを自動的に学習できるようにする。 我々は,ABCを用いて,ある算術課題に対して,前例のないほぼ完全長の一般化を達成できることを実証した。 私たちのコードはhttps: //github.com/shaoxiongduan/AttentionBiasCalibrationで利用可能です。

In this paper, we investigate the inherent capabilities of transformer models in learning arithmetic algorithms, such as addition and parity. Through experiments and attention analysis, we identify a number of crucial factors for achieving optimal length generalization. We show that transformer models are able to generalize to long lengths with the help of targeted attention biasing. In particular, our solution solves the Parity task, a well-known and theoretically proven failure mode for Transformers. We then introduce Attention Bias Calibration (ABC), a calibration stage that enables the model to automatically learn the proper attention biases, which we show to be connected to mechanisms in relative position encoding. We demonstrate that using ABC, the transformer model can achieve unprecedented near-perfect length generalization on certain arithmetic tasks. Our code is available at https: //github.com/shaoxiongduan/AttentionBiasCalibration.
翻訳日:2024-03-07 01:57:55 公開日:2024-03-03
# Tilted Exponential Layerによるロバストネスの向上:コミュニケーション理論の視点から

Improving Robustness via Tilted Exponential Layer: A Communication-Theoretic Perspective ( http://arxiv.org/abs/2311.01047v3 )

ライセンス: Link先を確認
Bhagyashree Puranik, Ahmad Beirami, Yao Qin, Upamanyu Madhow(参考訳) ディープネットワークの堅牢性を高める最先端技術は、主に適切なデータ拡張による経験的リスク最小化に依存している。 本稿では,学習と推論におけるニューラルネットワーク層の出力における信号と雑音の比を高めることを目的とした,コミュニケーション理論に基づく補完的アプローチを提案する。 標準経験的リスク最小化に加えて、ニューロンは層に対する傾斜指数関数(TEXP)の最大化により、層入力を疎結合に表現する。 TEXP学習は、データノイズに対するガウスモデルの下でのマッチングフィルタの最大推定として解釈できる。 TEXP層の推論は、各ニューロンで表される競合するシグナル仮説の後方確率の計算として解釈できる傾きソフトマックスによってバッチノルムを置き換えることにより達成される。 単純化されたモデルを用いて洞察を提供した後、標準画像データセットの実験により、TEXP学習と推論により、データ拡張を必要とせず、ノイズやその他の一般的な腐敗に対する堅牢性を高めることが示される。 この歪みに対するロバスト性のさらなる累積ゲインは、texpとデータ拡張技術を適切に組み合わせて得ることができる。 すべての実験のコードはhttps://github.com/bhagyapuranik/texp_for_robustnessで利用可能です。

State-of-the-art techniques for enhancing robustness of deep networks mostly rely on empirical risk minimization with suitable data augmentation. In this paper, we propose a complementary approach motivated by communication theory, aimed at enhancing the signal-to-noise ratio at the output of a neural network layer via neural competition during learning and inference. In addition to standard empirical risk minimization, neurons compete to sparsely represent layer inputs by maximization of a tilted exponential (TEXP) objective function for the layer. TEXP learning can be interpreted as maximum likelihood estimation of matched filters under a Gaussian model for data noise. Inference in a TEXP layer is accomplished by replacing batch norm by a tilted softmax, which can be interpreted as computation of posterior probabilities for the competing signaling hypotheses represented by each neuron. After providing insights via simplified models, we show, by experimentation on standard image datasets, that TEXP learning and inference enhances robustness against noise and other common corruptions, without requiring data augmentation. Further cumulative gains in robustness against this array of distortions can be obtained by appropriately combining TEXP with data augmentation techniques. The code for all our experiments is available at https://github.com/bhagyapuranik/texp_for_robustness.
翻訳日:2024-03-07 01:49:45 公開日:2024-03-03
# Syn3DWound: 3D描画層解析のための合成データセット

Syn3DWound: A Synthetic Dataset for 3D Wound Bed Analysis ( http://arxiv.org/abs/2311.15836v2 )

ライセンス: Link先を確認
L\'eo Lebrat, Rodrigo Santa Cruz, Remi Chierchia, Yulia Arzhaeva, Mohammad Ali Armin, Joshua Goldsmith, Jeremy Oorloff, Prithvi Reddy, Chuong Nguyen, Lars Petersson, Michelle Barakat-Johnson, Georgina Luscombe, Clinton Fookes, Olivier Salvado, David Ahmedt-Aristizabal(参考訳) 創傷管理は特に寝たきり患者や高齢者にとって大きな課題となる。 正確な診断と治療のモニタリングは、現代の画像分析から著しく恩恵を受け、傷の正確な測定を提供する。 既存のいくつかのテクニックにもかかわらず、拡張的で多様なトレーニングデータセットの不足は、機械学習ベースのフレームワークを構築する上で重要な障害である。 本稿では,2Dおよび3Dアノテーションを用いた高忠実度創傷のオープンソースデータセットであるSyn3DWoundを紹介する。 本稿では,3次元形態素解析と2D/3D創傷分割のためのベースライン法とベンチマークフレームワークを提案する。

Wound management poses a significant challenge, particularly for bedridden patients and the elderly. Accurate diagnostic and healing monitoring can significantly benefit from modern image analysis, providing accurate and precise measurements of wounds. Despite several existing techniques, the shortage of expansive and diverse training datasets remains a significant obstacle to constructing machine learning-based frameworks. This paper introduces Syn3DWound, an open-source dataset of high-fidelity simulated wounds with 2D and 3D annotations. We propose baseline methods and a benchmarking framework for automated 3D morphometry analysis and 2D/3D wound segmentation.
翻訳日:2024-03-07 01:41:37 公開日:2024-03-03
# MELA:言語学的アクセプティビリティの多言語評価

MELA: Multilingual Evaluation of Linguistic Acceptability ( http://arxiv.org/abs/2311.09033v2 )

ライセンス: Link先を確認
Ziyin Zhang and Yikang Liu and Weifang Huang and Junyu Mao and Rui Wang and Hai Hu(参考訳) 最近の大規模言語モデル(llm)のベンチマークは、主に複雑な推論やコード生成といったアプリケーション駆動のタスクに焦点が当てられている。 この背景に対して,言語受容性に関する多言語評価 - melaは,言語受容性に関する最初の多言語ベンチマークであり,多様な言語ファミリーから10言語をカバーする48kサンプルがある。 我々は、教師付きモデルとともによく使われるLLMのベースラインを確立し、XLM-Rを用いて言語間移動およびマルチタスク学習実験を行う。 言語間の伝達難易度を同定する可能性を探るために, 微調整xlm-rの重みを解析した。 GPT-4はゼロショット設定でも微調整されたXLM-Rに匹敵する性能を示した。 言語間およびマルチタスク学習実験は、意味的タスクとは異なり、言語内トレーニングデータが受容可能性判断に不可欠であることを示す。 層別調査の結果, xlm-rの上層層は多言語アクセシビリティ判断のタスク固有だが言語非依存領域となった。 また,言語間の言語間移動の困難さを示す指標として,競合重みの概念も導入する。 私たちのデータはhttps://github.com/sjtu-compling/melaで入手できます。

Recent benchmarks for Large Language Models (LLMs) have mostly focused on application-driven tasks such as complex reasoning and code generation, and this has led to a scarcity in purely linguistic evaluation of LLMs. Against this background, we introduce Multilingual Evaluation of Linguistic Acceptability -- MELA, the first multilingual benchmark on linguistic acceptability with 48K samples covering 10 languages from a diverse set of language families. We establish baselines of commonly used LLMs along with supervised models, and conduct cross-lingual transfer and multi-task learning experiments with XLM-R. In pursuit of multilingual interpretability, we analyze the weights of fine-tuned XLM-R to explore the possibility of identifying transfer difficulty between languages. Our results show that ChatGPT benefits much from in-context examples but still lags behind fine-tuned XLM-R, while the performance of GPT-4 is on par with fine-tuned XLM-R even in zero-shot setting. Cross-lingual and multi-task learning experiments show that unlike semantic tasks, in-language training data is crucial in acceptability judgements. Results in layerwise probing indicate that the upper layers of XLM-R become a task-specific but language-agnostic region for multilingual acceptability judgment. We also introduce the concept of conflicting weight, which could be a potential indicator for the difficulty of cross-lingual transfer between languages. Our data will be available at https://github.com/sjtu-compling/MELA.
翻訳日:2024-03-07 01:37:34 公開日:2024-03-03
# 大規模言語モデルに対する検索強化マルチモーダル・チェーン推論

Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large Language Models ( http://arxiv.org/abs/2312.01714v2 )

ライセンス: Link先を確認
Bingshuai Liu, Chenyang Lyu, Zijun Min, Zhanyu Wang, Jinsong Su, Longyue Wang(参考訳) LLM(Large Language Models)の進歩は、複雑な推論タスクにおいてLLMの能力を高める能力によって、CoT(Chain of Thought)アプローチに大きな注目を集めている。 さらに、CoT アプローチの重要性は、マルチモーダルタスクに対する LLM の適用にまで及ぶ。 しかし、マルチモーダル推論における最適なCoT実例の選択は、マルチモーダル実例固有の複雑さのため、LLMでは検討されていない。 本稿では,この課題に対処する新しい手法を提案する。探索機構を用いて,モーダル・イントラモーダル類似性に基づく実演例を動的かつ自動選択する。 さらに,実演例を種類別に分類し,それぞれ異なるグループの例を抽出し,実演例の多様性を促進する階層化サンプリング手法を採用する。 我々は,ScienceQAとMathVistaの2つのベンチマークデータセットに関する一連の実験を通じて,GPT-4の性能がScienceQAで6%,MathVistaで12.9%向上し,GPT-4Vが2.7%向上し,複雑なマルチモーダル推論タスクにおいて最も進んだLLMとLMMの性能が大幅に向上することが実証された。

The advancement of Large Language Models (LLMs) has brought substantial attention to the Chain of Thought (CoT) approach, primarily due to its ability to enhance the capability of LLMs on complex reasoning tasks. Moreover, the significance of CoT approaches extends to the application of LLMs for multi-modal tasks. However, the selection of optimal CoT demonstration examples in multi-modal reasoning remains less explored for LLMs due to the inherent complexity of multi-modal examples. In this paper, we introduce a novel approach that addresses this challenge by using retrieval mechanisms to dynamically and automatically select demonstration examples based on cross-modal and intra-modal similarities. Furthermore, we employ a Stratified Sampling method of categorising demonstration examples into groups based on their types and then retrieving examples from different groups respectively to promote the diversity of demonstration examples. Through a series of experiments on two popular benchmark datasets: ScienceQA and MathVista, we demonstrate that our approach significantly improves the performance of GPT-4 by 6% on ScienceQA and 12.9% on MathVista, and enhances the performance of GPT-4V on two datasets by 2.7%, substantially improving the performance of the most advanced LLMs and LMMs for complex multi-modal reasoning tasks.
翻訳日:2024-03-07 01:30:46 公開日:2024-03-03
# $t^3$-variational autoencoder: 生徒のtとパワーダイバージェンスを用いたヘビーテールデータ学習

$t^3$-Variational Autoencoder: Learning Heavy-tailed Data with Student's t and Power Divergence ( http://arxiv.org/abs/2312.01133v2 )

ライセンス: Link先を確認
Juno Kim, Jaehyuk Kwon, Mincheol Cho, Hyunjong Lee, Joong-Ho Won(参考訳) 変分オートエンコーダ(VAE)は通常、確率潜在エンコーダの正規化器として標準正規化される。 しかし、ガウス尾はしばしば、エンコードされた点に効果的に対応できないほど急速に崩壊し、データに隠された重要な構造を保存できない。 本稿では,オーバーレギュライゼーション対策における重み付きモデルの利用について検討する。 情報幾何学からの洞察に基づいて,学生のt分布を前者,エンコーダ,デコーダに組み込んだ改良型VAEフレームワークである$t^3$VAEを提案する。 これにより、実世界のデータセットに適合できると主張するパワーフォームの連成モデル分布が得られる。 我々は、2つの統計多様体間のKL分散を共同で最適化し、パワーファミリーの自然な代替である$\gamma$-power divergenceに置き換えることで、証拠を下限に修正することで新しい目的を導出する。 $t^3$VAEは、重み付き合成データで訓練された場合の低密度領域の優れた生成を示す。 さらに、$t^3$vaeはcelebaと不均衡なcifar-100データセットの他のモデルを大きく上回っている。

The variational autoencoder (VAE) typically employs a standard normal prior as a regularizer for the probabilistic latent encoder. However, the Gaussian tail often decays too quickly to effectively accommodate the encoded points, failing to preserve crucial structures hidden in the data. In this paper, we explore the use of heavy-tailed models to combat over-regularization. Drawing upon insights from information geometry, we propose $t^3$VAE, a modified VAE framework that incorporates Student's t-distributions for the prior, encoder, and decoder. This results in a joint model distribution of a power form which we argue can better fit real-world datasets. We derive a new objective by reformulating the evidence lower bound as joint optimization of KL divergence between two statistical manifolds and replacing with $\gamma$-power divergence, a natural alternative for power families. $t^3$VAE demonstrates superior generation of low-density regions when trained on heavy-tailed synthetic data. Furthermore, we show that $t^3$VAE significantly outperforms other models on CelebA and imbalanced CIFAR-100 datasets.
翻訳日:2024-03-07 01:30:06 公開日:2024-03-03
# 低オーバーヘッド耐故障性のための一般自転車符号と中性原子とのマッチング

Matching Generalized-Bicycle Codes to Neutral Atoms for Low-Overhead Fault-Tolerance ( http://arxiv.org/abs/2311.16980v2 )

ライセンス: Link先を確認
Joshua Viszlai, Willers Yang, Sophia Fuhui Lin, Junyu Liu, Natalia Nottingham, Jonathan M. Baker, Frederic T. Chong(参考訳) 誤り訂正符号に基づくフォールトトレラント量子sys-temの必要性にもかかわらず、表面符号のような多くの一般的な符号は、非常に大きな量子ビットコストを課している。 本研究では,原子配列内の量子誤り訂正(QEC)符号の制限セットを効率的に実装するためのプロトコルを提案する。 このプロトコルは、表面符号の最大10倍の物理量子ビットを必要とする一般化自転車符号を可能にする。 さらに,本プロトコルは,空間効率のよいQEC符号を原子配列に実装するよりも2~3倍高速な論理サイクルを実現する。 また,一般化自転車符号と一般計算のための曲面符号を併用した概念量子メモリハイアアーチの評価を行った。 詳細なコンパイル手法により、階層アーキテクチャにおける主要なフォールトトレラントベンチマークのコストを、最先端のサーフェスコードのみアーキテクチャと比較して見積もる。 全体として、一般化された二サイクル符号の空間的節約は、量子ビットのロードと保存のオーバーヘッドを上回っており、実際には量子メモリ階層の実現可能性を高めている。 センシティブな研究を通じて、階層アーキテクチャを使うための重要なプログラムレベルおよびハードウェアレベルの特徴を特定する。

Despite the necessity of fault-tolerant quantum sys- tems built on error correcting codes, many popular codes, such as the surface code, have prohibitively large qubit costs. In this work we present a protocol for efficiently implementing a restricted set of space-efficient quantum error correcting (QEC) codes in atom arrays. This protocol enables generalized-bicycle codes that require up to 10x fewer physical qubits than surface codes. Additionally, our protocol enables logical cycles that are 2-3x faster than more general solutions for implementing space- efficient QEC codes in atom arrays. We also evaluate a proof-of-concept quantum memory hier- archy where generalized-bicycle codes are used in conjunction with surface codes for general computation. Through a detailed compilation methodology, we estimate the costs of key fault- tolerant benchmarks in a hierarchical architecture versus a state-of-the-art surface code only architecture. Overall, we find the spatial savings of generalized-bicycle codes outweigh the overhead of loading and storing qubits, motivating the feasibility of a quantum memory hierarchy in practice. Through sensitivity studies, we also identify key program-level and hardware-level features for using a hierarchical architecture.
翻訳日:2024-03-07 01:27:15 公開日:2024-03-03
# 拡散に基づくブラインドテキスト画像の超解像

Diffusion-based Blind Text Image Super-Resolution ( http://arxiv.org/abs/2312.08886v2 )

ライセンス: Link先を確認
Yuzhe Zhang, Jiawei Zhang, Hao Li, Zhouxia Wang, Luwei Hou, Dongqing Zou, Liheng Bian(参考訳) 劣化した低解像度のテキスト画像の復元は、特に複雑なストロークと現実世界のシナリオの深刻な劣化を伴う中国語のテキスト画像では困難である。 高品質なテキスト画像の超高解像度化には,テキスト忠実性とスタイル現実性の両方を保証することが不可欠である。 近年の拡散モデルは、強力なデータ分散モデリング能力とデータ生成能力により、自然画像合成と復元において大きな成功を収めている。 本研究では,現実的なスタイルでテキストイメージを復元する画像拡散モデル(IDM)を提案する。 拡散モデルでは、現実的な画像分布のモデル化だけでなく、テキスト分布の学習にも適している。 そこで本研究では,テキスト認識のためのテキスト拡散モデル(TDM)を提案する。 さらに,これら2つの拡散モデルがすべての拡散ステップで相互に協調するマルチモダリティモジュール(mom)の混合を提案する。 合成および実世界のデータセットに関する大規模な実験により、我々の拡散に基づくBlind Text Image Super-Resolution (DiffTSR)は、より正確なテキスト構造とより現実的な外観でテキストイメージを復元できることを示した。

Recovering degraded low-resolution text images is challenging, especially for Chinese text images with complex strokes and severe degradation in real-world scenarios. Ensuring both text fidelity and style realness is crucial for high-quality text image super-resolution. Recently, diffusion models have achieved great success in natural image synthesis and restoration due to their powerful data distribution modeling abilities and data generation capabilities. In this work, we propose an Image Diffusion Model (IDM) to restore text images with realistic styles. For diffusion models, they are not only suitable for modeling realistic image distribution but also appropriate for learning text distribution. Since text prior is important to guarantee the correctness of the restored text structure according to existing arts, we also propose a Text Diffusion Model (TDM) for text recognition which can guide IDM to generate text images with correct structures. We further propose a Mixture of Multi-modality module (MoM) to make these two diffusion models cooperate with each other in all the diffusion steps. Extensive experiments on synthetic and real-world datasets demonstrate that our Diffusion-based Blind Text Image Super-Resolution (DiffTSR) can restore text images with more accurate text structures as well as more realistic appearances simultaneously.
翻訳日:2024-03-07 01:21:07 公開日:2024-03-03
# SPEAL: クロスソースポイントクラウド登録のための骨格的事前組込み注意学習

SPEAL: Skeletal Prior Embedded Attention Learning for Cross-Source Point Cloud Registration ( http://arxiv.org/abs/2312.08664v2 )

ライセンス: Link先を確認
Kezheng Xiong, Maoji Zheng, Qingshan Xu, Chenglu Wen, Siqi Shen, Cheng Wang(参考訳) 3dコンピュータビジョンの基本的なタスクであるポイントクラウド登録は、主にクロスソースなポイントクラウドや非構造化シーンで未調査のままである。 主な課題は、ノイズ、異常値、スケールや密度の変化である。 しかし、点雲の無視された幾何学的性質は、現在の方法の性能を制限する。 本稿では,点雲の固有トポロジーを効果的に学習するために骨格表現を活用するために,spealと呼ばれる新しい手法を提案する。 具体的には,骨格点と骨格特徴を教師なしに抽出するスケルトン抽出モジュールの設計を行った。 そこで我々はSkeleton-Aware GeoTransformerを提案する。 トポロジカルな性質と点-クラウド間の骨格間相関をノイズ・ロバストおよび密度-不変骨格表現と明示的に捉えている。 次に, 骨格対応による対応の強化により対応を容易にするために, 対応デュアルサンプラーを導入する。 さらに, クロスソースクラウド登録手法をベンチマークするために, KITTI CrossSource という新しい大規模クロスソースクラウドデータセットを構築した。 クロスソースデータセットと同ソースデータセットの両方において、我々のアプローチの優位性と堅牢性を示すために、広範囲にわたる定量的および定性的な実験を行った。 私たちの知る限りでは、私たちのアプローチは、骨格幾何学的優先順位でポイントクラウド登録を促進する最初の方法です。

Point cloud registration, a fundamental task in 3D computer vision, has remained largely unexplored in cross-source point clouds and unstructured scenes. The primary challenges arise from noise, outliers, and variations in scale and density. However, neglected geometric natures of point clouds restricts the performance of current methods. In this paper, we propose a novel method termed SPEAL to leverage skeletal representations for effective learning of intrinsic topologies of point clouds, facilitating robust capture of geometric intricacy. Specifically, we design the Skeleton Extraction Module to extract skeleton points and skeletal features in an unsupervised manner, which is inherently robust to noise and density variances. Then, we propose the Skeleton-Aware GeoTransformer to encode high-level skeleton-aware features. It explicitly captures the topological natures and inter-point-cloud skeletal correlations with the noise-robust and density-invariant skeletal representations. Next, we introduce the Correspondence Dual-Sampler to facilitate correspondences by augmenting the correspondence set with skeletal correspondences. Furthermore, we construct a challenging novel large-scale cross-source point cloud dataset named KITTI CrossSource for benchmarking cross-source point cloud registration methods. Extensive quantitative and qualitative experiments are conducted to demonstrate our approach's superiority and robustness on both cross-source and same-source datasets. To the best of our knowledge, our approach is the first to facilitate point cloud registration with skeletal geometric priors.
翻訳日:2024-03-07 01:20:47 公開日:2024-03-03
# 量子計測エンジンの限界

Limits on quantum measurement engines ( http://arxiv.org/abs/2312.08148v2 )

ライセンス: Link先を確認
Guillermo Perna and Esteban Calzetta(参考訳) 量子測定は、測定対象のシステムと測定装置との間のエネルギー交換を含む。 例えば、エネルギーは環境に放出されるか、測定結果を記録するのに費やされるためである。 さらに、これらのプロセスには時間がかかる。 このため、これらの交換は量子測定エンジンの解析において考慮され、その効率とパワーに限界を設定する必要がある。 磁場中のスピン1/2粒子に基づく量子エンジンを提案し,進化の量子的性質による基本的な限界について検討する。 電磁真空とのカップリングを考慮に入れ、測定装置の役割を果たす。 我々はその力学、仕事、力、効率を完全に研究する。

A quantum measurement involves energy exchanges between the system to be measured and the measuring apparatus. Some of them involve energy losses, for example because energy is dissipated into the environment or is spent in recording the measurement outcome. Moreover, these processes take time. For this reason, these exchanges must be taken into account in the analysis of a quantum measurement engine, and set limits to its efficiency and power. We propose a quantum engine based on a spin 1/2 particle in a magnetic field and study its fundamental limitations due to the quantum nature of the evolution. The coupling with the electromagnetic vacuum is taken into account and plays the role of a measurement apparatus. We fully study its dynamics, work, power and efficiency.
翻訳日:2024-03-07 01:19:59 公開日:2024-03-03
# 言語支援ビジョンモデルデバッガ: バグの発見と修正のためのサンプルフリーアプローチ

Language-assisted Vision Model Debugger: A Sample-Free Approach to Finding and Fixing Bugs ( http://arxiv.org/abs/2312.05588v2 )

ライセンス: Link先を確認
Chaoquan Jiang, Jinqiang Wang, Rui Hu, Jitao Sang(参考訳) 総合的精度の高い視覚モデルは、しばしば特定のシナリオにおいて体系的な誤りを示し、深刻な安全上の懸念を生じさせる。 視覚モデルのバグの診断は注目を集めているが、従来の診断アプローチではアノテーション(celebaの各サンプルに伴うリッチなメタデータなど)が必要となる。 この問題に対処するために,多モードモデル(eg CLIP)に基づく視覚モデルにおけるバグの診断に画像の代わりにテキストを使用する言語支援診断手法を提案する。 提案手法は,CLIPの埋め込み空間と診断対象のバギー視覚モデルとを関連付けるとともに,共有分類器とCLIPからの埋め込み空間のクロスモーダル転送性を利用して,CLIPのテキストブランチがプロキシモデルとなり,バギーモデルにバグを見つける。 プロキシモデルは、画像とペアのテキストを分類することができる。 診断中、タスク関連コーパスを得るために大きな言語モデル(llm)が用いられ、このコーパスはキーワードを抽出するために使用される。 これらのキーワードを含むテンプレートで構築された記述は、プロキシモデルのエラーを調べる入力テキストとして機能する。 最後に、ウォーターバードとセロバデータセット上の言語を使って既存のビジュアルモデルを診断する能力を検証することで、人間の専門家に理解できるバグを識別し、既知のバグだけでなく、これまで知られていないバグも発見する。

Vision models with high overall accuracy often exhibit systematic errors in specific scenarios, posing potential serious safety concerns. Diagnosing bugs of vision models is gaining increased attention, however traditional diagnostic approaches require annotation efforts (eg rich metadata accompanying each samples of CelebA). To address this issue,We propose a language-assisted diagnostic method that uses texts instead of images to diagnose bugs in vision models based on multi-modal models (eg CLIP). Our approach connects the embedding space of CLIP with the buggy vision model to be diagnosed; meanwhile, utilizing a shared classifier and the cross-modal transferability of embedding space from CLIP, the text-branch of CLIP become a proxy model to find bugs in the buggy model. The proxy model can classify texts paired with images. During the diagnosis, a Large Language Model (LLM) is employed to obtain task-relevant corpora, and this corpora is used to extract keywords. Descriptions constructed with templates containing these keywords serve as input text to probe errors in the proxy model. Finally, we validate the ability to diagnose existing visual models using language on the Waterbirds and CelebA datasets, we can identify bugs comprehensible to human experts, uncovering not only known bugs but also previously unknown ones.
翻訳日:2024-03-07 01:18:13 公開日:2024-03-03
# 高速・高次物理インフォームドニューラルネットワークのハッチンソントレース推定

Hutchinson Trace Estimation for High-Dimensional and High-Order Physics-Informed Neural Networks ( http://arxiv.org/abs/2312.14499v2 )

ライセンス: Link先を確認
Zheyuan Hu, Zekun Shi, George Em Karniadakis, Kenji Kawaguchi(参考訳) 物理学に変形したニューラルネットワーク(pinns)は偏微分方程式(pdes)の解法として有効であることが証明されている。 しかし, PINNを高次元かつ高次元のPDEに拡張することは, 残留損失の自動微分に伴う計算コストが大きな課題となる。 本稿では,Hutchinson Trace Estimation (HTE)を導入し,高次元・高次PDE処理におけるPINNの限界に対処する。 科学計算においてユビキタスな2階高次元PDEから始め、HTEはヘッセン行列全体の計算をヘッセンベクトル積(HVP)に変換する。 このアプローチはテイラーモードの自動微分による計算ボトルネックを緩和し、ヘッセン行列からHVPへのメモリ消費を大幅に削減する。 我々はさらに,hteのオリジナルのピン損失への収束と,その偏りのない挙動を特定の条件下で示す。 Stochastic Dimension Gradient Descent (SDGD)との比較は、特に次元間で大きな差異があるシナリオにおいて、HTEの明確な利点を強調している。 さらにHTEを高次および高次元PDEに拡張し、特にバイハーモニック方程式に対処する。 テンソルベクトル積(TVP)を用いることで、HTEは、4階高次元バイハーモニック方程式に関連する余剰テンソルを効率的に計算し、メモリを節約し、高速な計算を可能にする。 HTEの有効性は実験的な設定を通じて説明され、メモリと速度制約の下でSDGDと同等の収束率を示す。 さらに、HTEは、グラディエント強化PINN(gPINN)バージョンとバイハーモニック方程式の加速に有用である。 全体として、HTEは高次および高次元PDEに対処する科学的機械学習の新たな能力を開く。

Physics-Informed Neural Networks (PINNs) have proven effective in solving partial differential equations (PDEs), especially when some data are available by seamlessly blending data and physics. However, extending PINNs to high-dimensional and even high-order PDEs encounters significant challenges due to the computational cost associated with automatic differentiation in the residual loss. Herein, we address the limitations of PINNs in handling high-dimensional and high-order PDEs by introducing Hutchinson Trace Estimation (HTE). Starting with the second-order high-dimensional PDEs ubiquitous in scientific computing, HTE transforms the calculation of the entire Hessian matrix into a Hessian vector product (HVP). This approach alleviates the computational bottleneck via Taylor-mode automatic differentiation and significantly reduces memory consumption from the Hessian matrix to HVP. We further showcase HTE's convergence to the original PINN loss and its unbiased behavior under specific conditions. Comparisons with Stochastic Dimension Gradient Descent (SDGD) highlight the distinct advantages of HTE, particularly in scenarios with significant variance among dimensions. We further extend HTE to higher-order and higher-dimensional PDEs, specifically addressing the biharmonic equation. By employing tensor-vector products (TVP), HTE efficiently computes the colossal tensor associated with the fourth-order high-dimensional biharmonic equation, saving memory and enabling rapid computation. The effectiveness of HTE is illustrated through experimental setups, demonstrating comparable convergence rates with SDGD under memory and speed constraints. Additionally, HTE proves valuable in accelerating the Gradient-Enhanced PINN (gPINN) version as well as the Biharmonic equation. Overall, HTE opens up a new capability in scientific machine learning for tackling high-order and high-dimensional PDEs.
翻訳日:2024-03-07 01:10:42 公開日:2024-03-03
# 放射線診断のためのマルチモーダル大規模言語モデルの検討

Exploring Multimodal Large Language Models for Radiology Report Error-checking ( http://arxiv.org/abs/2312.13103v2 )

ライセンス: Link先を確認
Jinge Wu, Yunsoo Kim, Eva C. Keller, Jamie Chow, Adam P. Levine, Nikolas Pontikos, Zina Ibrahim, Paul Taylor, Michelle C. Williams, Honghan Wu(参考訳) 本稿では, 放射線技師が報告の誤りを確認するための補助として, マルチモーダル大言語モデル (LLMs) を用いた最初の臨床応用の1つを提案する。 実世界の放射線データ(x線やctスキャンを含む)から評価データセットを作成した。 オリジナルのレポートのサブセットは、"insert"、"remove"、"substitute"の3種類のミスを導入することで、合成エラーを含むように修正された。 評価には2つの難易度がある: SIMPLE for binary error-checking と COMPLEX for identify error type。 SIMPLEレベルでは,MIMIC-CXRとIU X線データでそれぞれ47.4%,25.4%向上した。 この性能向上は、ベースラインモデルよりも19.46%向上したCTスキャンにおいても観察される。 このモデルはMIMIC-CXRデータセットのドメインエキスパートの精度を1.67%上回った。 特に、臨床医が正しい結論を得られなかったテストセットのサブセット(N=21)のうち、LLaVAアンサンブルモードは71.4%を正しく同定した。 しかし、全てのモデルは誤りのタイプを特定するのに不適格であり、複雑なレベルの難しさを強調する。 本研究は, 放射線学における診断精度を高めるため, マルチモーダルLCMの利用に向けた有望なステップである。 アンサンブルモデルは臨床医に匹敵するパフォーマンスを示し、人間に見過ごされたエラーを捉えさえした。

This paper proposes one of the first clinical applications of multimodal large language models (LLMs) as an assistant for radiologists to check errors in their reports. We created an evaluation dataset from real-world radiology datasets (including X-rays and CT scans). A subset of original reports was modified to contain synthetic errors by introducing three types of mistakes: "insert", "remove", and "substitute". The evaluation contained two difficulty levels: SIMPLE for binary error-checking and COMPLEX for identifying error types. At the SIMPLE level, our fine-tuned model significantly enhanced performance by 47.4% and 25.4% on MIMIC-CXR and IU X-ray data, respectively. This performance boost is also observed in unseen modality, CT scans, as the model performed 19.46% better than the baseline model. The model also surpassed the domain expert's accuracy in the MIMIC-CXR dataset by 1.67%. Notably, among the subsets (N=21) of the test set where a clinician did not achieve the correct conclusion, the LLaVA ensemble mode correctly identified 71.4% of these cases. However, all models performed poorly in identifying mistake types, underscoring the difficulty of the COMPLEX level. This study marks a promising step toward utilizing multimodal LLMs to enhance diagnostic accuracy in radiology. The ensemble model demonstrated comparable performance to clinicians, even capturing errors overlooked by humans.
翻訳日:2024-03-07 01:09:03 公開日:2024-03-03
# 階層的複雑性マッチング学習は皮質領域V2の改良モデルをもたらす

Layerwise complexity-matched learning yields an improved model of cortical area V2 ( http://arxiv.org/abs/2312.11436v2 )

ライセンス: Link先を確認
Nikhil Parthasarathy, Olivier J. H\'enaff, Eero P. Simoncelli(参考訳) 複雑な視覚パターンを認識する人間の能力は、腹側視覚野の連続した領域によって行われる変換によって生じる。 ディープニューラルネットワークは、オブジェクト認識のためのエンドツーエンドを人間の能力に訓練し、階層の後期における神経応答の現在までの最良の記述を提供する。 しかしこれらのネットワークは、従来の手作りのモデルや、コーディングの効率や予測に最適化されたモデルと比べて、初期の段階をうまく説明していない。 さらに、エンド・ツー・エンド学習で使われる勾配バックプロパゲーションは、一般的に生物学的に有意義であると考えられている。 ここでは,これらの制約を克服するために,ボトムアップ型自己監督型学習手法を開発し,各層を独立して運用する。 具体的には,局所的に変形した1対の自然画像パッチ間の特徴の類似性を最大化し,他の画像からサンプリングされたパッチ間で特徴を関連付ける。 重要なことに、変形振幅は各層の受容磁場サイズに比例して調整され、処理の各段階でのタスク複雑性とキャパシティとが一致する。 先行モデルのアーキテクチャマッチング版との比較により,我々は2段階モデル(lcl-v2)を作成し,霊長類領域v2における選択性特性と神経活動との整合性が向上することを示した。 複雑性にマッチした学習パラダイムが,生物的アライメントの改善に不可欠であることを実証する。 最後に、オブジェクト認識を行うために訓練されたディープネットワークの固定フロントエンドとして2段階モデルを使用する場合、結果モデル(LCL-V2Net)は、分布外タスクへの一般化と人間の行動との整合性の観点から、標準のエンドツーエンドの自己監督モデル、教師付きモデル、対角訓練モデルよりも大幅に優れている。

Human ability to recognize complex visual patterns arises through transformations performed by successive areas in the ventral visual cortex. Deep neural networks trained end-to-end for object recognition approach human capabilities, and offer the best descriptions to date of neural responses in the late stages of the hierarchy. But these networks provide a poor account of the early stages, compared to traditional hand-engineered models, or models optimized for coding efficiency or prediction. Moreover, the gradient backpropagation used in end-to-end learning is generally considered to be biologically implausible. Here, we overcome both of these limitations by developing a bottom-up self-supervised training methodology that operates independently on successive layers. Specifically, we maximize feature similarity between pairs of locally-deformed natural image patches, while decorrelating features across patches sampled from other images. Crucially, the deformation amplitudes are adjusted proportionally to receptive field sizes in each layer, thus matching the task complexity to the capacity at each stage of processing. In comparison with architecture-matched versions of previous models, we demonstrate that our layerwise complexity-matched learning (LCL) formulation produces a two-stage model (LCL-V2) that is better aligned with selectivity properties and neural activity in primate area V2. We demonstrate that the complexity-matched learning paradigm is critical for the emergence of the improved biological alignment. Finally, when the two-stage model is used as a fixed front-end for a deep network trained to perform object recognition, the resultant model (LCL-V2Net) is significantly better than standard end-to-end self-supervised, supervised, and adversarially-trained models in terms of generalization to out-of-distribution tasks and alignment with human behavior.
翻訳日:2024-03-07 01:08:22 公開日:2024-03-03
# facebookの個人モデレーション構成:fomo、ソーシャルメディア依存、規範、プラットフォーム信頼の役割を探る

Personal Moderation Configurations on Facebook: Exploring the Role of FoMO, Social Media Addiction, Norms, and Platform Trust ( http://arxiv.org/abs/2401.05603v2 )

ライセンス: Link先を確認
Shagun Jhaver(参考訳) ソーシャルメディアプラットフォーム上のパーソナルモデレーションツールは、フィードコンテンツに対する許容毒性閾値を設定したり、不適切なアカウントをミュートすることで、ニュースフィードを制御できる。 本研究では,fomo(fear of missing out),ソーシャルメディア依存,主観的規範,モデレーションシステムへの信頼という4つの重要な心理社会的要因が,facebookユーザのこれらのツールの構成をどのように形成するかを検討した。 1,061人の全国代表者のサンプルから得られた調査結果によると、fomoとソーシャルメディア中毒は、facebookユーザーが不適切な投稿を隠すために個人モデレーションツールを採用する可能性を減らすことによって、コンテンツベースの危害に対してより脆弱になる。 対照的に、記述的および断続的規範はこれらのツールの使用に肯定的に影響を及ぼす。 さらに、Facebookのモデレーションシステムに対する信頼は、個人のモデレーションに対するユーザのエンゲージメントに大きく影響する。 この分析は、FoMOとソーシャルメディア中毒がユーザーに不適切な安全を与え、この課題に対処するための設計とポリシーのソリューションを提供する、質的に異なる経路を強調している。

Personal moderation tools on social media platforms let users control their news feeds by configuring acceptable toxicity thresholds for their feed content or muting inappropriate accounts. This research examines how four critical psychosocial factors - fear of missing out (FoMO), social media addiction, subjective norms, and trust in moderation systems - shape Facebook users' configuration of these tools. Findings from a nationally representative sample of 1,061 participants show that FoMO and social media addiction make Facebook users more vulnerable to content-based harms by reducing their likelihood of adopting personal moderation tools to hide inappropriate posts. In contrast, descriptive and injunctive norms positively influence the use of these tools. Further, trust in Facebook's moderation systems also significantly affects users' engagement with personal moderation. This analysis highlights qualitatively different pathways through which FoMO and social media addiction make affected users disproportionately unsafe and offers design and policy solutions to address this challenge.
翻訳日:2024-03-07 01:00:28 公開日:2024-03-03
# BD-MSA:マルチスケール特徴情報集約によるVHRリモートセンシング画像変化検出方法

BD-MSA: Body decouple VHR Remote Sensing Image Change Detection method guided by multi-scale feature information aggregation ( http://arxiv.org/abs/2401.04330v2 )

ライセンス: Link先を確認
Yonghui Tan, Xiaolong Li, Yishu Chen and Jinquan Ai(参考訳) リモートセンシング画像変化検出(RSCD)の目的は、同じ場所で撮影された両時間画像の違いを検出することである。 深層学習はRSCDタスクに広く使われており、結果認識の点で重要な結果をもたらしている。 しかし, 衛星の撮影角度, 薄い雲の影響, 特定の照明条件により, リモートセンシング画像の撮影領域におけるファジィエッジの問題は, 現在のRSCDアルゴリズムでは適切に扱えない。 この問題を解決するため、我々は、トレーニングおよび予測フェーズにおいて、チャネル内のグローバルおよびローカルの特徴マップ情報と特徴マップの空間次元の両方を収集する新しいモデルであるBD-MSA(Body Deouple Multi-Scale by fearure Aggregation Change Detection)を提案した。 このアプローチにより,変化領域の境界情報を抽出すると同時に,変化領域の本体を境界から切り離すことができる。 DSIFN-CD, S2Looking, WHU-CDが他のモデルと比較すると, モデルの評価指標と評価効果が最良であることが多くの研究で示されている。

The purpose of remote sensing image change detection (RSCD) is to detect differences between bi-temporal images taken at the same place. Deep learning has been extensively used to RSCD tasks, yielding significant results in terms of result recognition. However, due to the shooting angle of the satellite, the impacts of thin clouds, and certain lighting conditions, the problem of fuzzy edges in the change region in some remote sensing photographs cannot be properly handled using current RSCD algorithms. To solve this issue, we proposed a Body Decouple Multi-Scale by fearure Aggregation change detection (BD-MSA), a novel model that collects both global and local feature map information in the channel and space dimensions of the feature map during the training and prediction phases. This approach allows us to successfully extract the change region's boundary information while also divorcing the change region's main body from its boundary. Numerous studies have shown that the assessment metrics and evaluation effects of the model described in this paper on the publicly available datasets DSIFN-CD, S2Looking and WHU-CD are the best when compared to other models.
翻訳日:2024-03-07 00:58:49 公開日:2024-03-03
# 構築した測地表面からの情報伝達による少数撮影画像生成

Few-shot Image Generation via Information Transfer from the Built Geodesic Surface ( http://arxiv.org/abs/2401.01749v2 )

ライセンス: Link先を確認
Yuexing Han and Liheng Ruan and Bing Wang(参考訳) 限られたデータで訓練されたほとんどの生成モデルで生成された画像は、忠実性、多様性、またはその両方に欠陥があることが多い。 この制限に対処する効果的な解決策の1つは、少数ショット生成モデル適応である。 しかし、アプローチのタイプは通常、ターゲットドメインへの情報転送を容易にするために、ソースドメインとして機能する大規模な事前訓練モデルに依存します。 本稿では,組込み測地表面からの情報伝達(itbgs)と呼ばれる2つのモジュール,すなわち測地表面上の特徴拡張(fags),補間と正規化(i\&r)を含む手法を提案する。 FAGSモジュールでは、トレーニングデータセットからPre-Shape Spaceにイメージ機能を投影して擬似ソースドメインを生成し、その後、Geodesic表面で新機能を生成する。 したがって、FAGSを用いた生成モデルのトレーニングにおいて、適応過程に事前訓練されたモデルは必要ない。 I\&Rモジュールは補間画像の監視と相対距離の調整のために導入され、生成画像の品質をさらに向上する。 定性的かつ定量的な実験を通じて,提案手法は,極めて少ないシナリオであっても,様々な意味論的に異なるデータセットにおいて,最適あるいは同等の結果を一貫して達成できることを実証する。

Images generated by most of generative models trained with limited data often exhibit deficiencies in either fidelity, diversity, or both. One effective solution to address the limitation is few-shot generative model adaption. However, the type of approaches typically rely on a large-scale pre-trained model, serving as a source domain, to facilitate information transfer to the target domain. In this paper, we propose a method called Information Transfer from the Built Geodesic Surface (ITBGS), which contains two module: Feature Augmentation on Geodesic Surface (FAGS); Interpolation and Regularization (I\&R). With the FAGS module, a pseudo-source domain is created by projecting image features from the training dataset into the Pre-Shape Space, subsequently generating new features on the Geodesic surface. Thus, no pre-trained models is needed for the adaption process during the training of generative models with FAGS. I\&R module are introduced for supervising the interpolated images and regularizing their relative distances, respectively, to further enhance the quality of generated images. Through qualitative and quantitative experiments, we demonstrate that the proposed method consistently achieves optimal or comparable results across a diverse range of semantically distinct datasets, even in extremely few-shot scenarios.
翻訳日:2024-03-07 00:57:59 公開日:2024-03-03
# 量子コンピュータにおける確率的ボラティリティ下でのオプション価格

Option pricing under stochastic volatility on a quantum computer ( http://arxiv.org/abs/2312.15871v2 )

ライセンス: Link先を確認
Guoming Wang, Angus Kan(参考訳) 我々は,一般的な確率的ボラティリティモデルであるヘストンモデルの下で,アジアおよびバリアオプションの価格設定のための量子アルゴリズムを開発し,典型的な市場条件下でのT数,T深度,論理量子ビット数の観点から,それらのコストを見積もる。 これらのアルゴリズムは、確率微分方程式のよく確立された数値法と量子振幅推定法を組み合わせたものである。 特に,その単純さにもかかわらず,弱オイラー法は,このタスクでよく知られた強オイラー法と同じレベルの精度が得られることを実証的に示す。 さらに、ガウス状態を作成するための高価な手順をなくすことで、弱いオイラースキームに基づく量子アルゴリズムは強いオイラースキームに基づくものよりも劇的に効率が良い。 我々の資源分析によれば、確率的変動性の下でのオプション価格設定は量子コンピュータの有望な応用であり、我々のアルゴリズムは、金融アプリケーションにおける実用的な量子優位性を達成するためのハードウェア要件を以前の技術よりも厳密に表現している。

We develop quantum algorithms for pricing Asian and barrier options under the Heston model, a popular stochastic volatility model, and estimate their costs, in terms of T-count, T-depth and number of logical qubits, on instances under typical market conditions. These algorithms are based on combining well-established numerical methods for stochastic differential equations and quantum amplitude estimation technique. In particular, we empirically show that, despite its simplicity, weak Euler method achieves the same level of accuracy as the better-known strong Euler method in this task. Furthermore, by eliminating the expensive procedure of preparing Gaussian states, the quantum algorithm based on weak Euler scheme achieves drastically better efficiency than the one based on strong Euler scheme. Our resource analysis suggests that option pricing under stochastic volatility is a promising application of quantum computers, and that our algorithms render the hardware requirement for reaching practical quantum advantage in financial applications less stringent than prior art.
翻訳日:2024-03-07 00:56:28 公開日:2024-03-03
# 引用へのツイート:ソーシャルメディアインフルエンサーがai研究の可視性に与える影響を明らかに

Tweets to Citations: Unveiling the Impact of Social Media Influencers on AI Research Visibility ( http://arxiv.org/abs/2401.13782v2 )

ライセンス: Link先を確認
Iain Xie Weissburg, Mehir Arora, Xinyi Wang, Liangming Pan, William Yang Wang(参考訳) AIとMLカンファレンスの受理論文の数が数千にも達するにつれ、研究者が研究論文にアクセスして読む方法が明確になってきています。 本稿では,機械学習研究の可視性向上におけるソーシャルメディアインフルエンサーの役割,特に共有論文の引用数について検討する。 我々は、2018年12月から2023年10月までのツイートにまたがる8000以上の論文の包括的なデータセットをまとめた。 統計的および因果推論分析により,これらのインフルエンサーが支持する論文の引用が有意に増加し,中央値の引用回数はコントロール群よりも2~3倍になった。 さらに、この研究は、強調された著者の地理的、性別、制度的な多様性を掘り下げている。 これらの知見を踏まえ、我々はキュレーションに対する責任あるアプローチを提唱し、インフルエンサーが様々な研究トピック、著者、機関を展示するジャーナリズム標準を支持するよう奨励する。

As the number of accepted papers at AI and ML conferences reaches into the thousands, it has become unclear how researchers access and read research publications. In this paper, we investigate the role of social media influencers in enhancing the visibility of machine learning research, particularly the citation counts of papers they share. We have compiled a comprehensive dataset of over 8,000 papers, spanning tweets from December 2018 to October 2023, alongside controls precisely matched by 9 key covariates. Our statistical and causal inference analysis reveals a significant increase in citations for papers endorsed by these influencers, with median citation counts 2-3 times higher than those of the control group. Additionally, the study delves into the geographic, gender, and institutional diversity of highlighted authors. Given these findings, we advocate for a responsible approach to curation, encouraging influencers to uphold the journalistic standard that includes showcasing diverse research topics, authors, and institutions.
翻訳日:2024-03-07 00:50:19 公開日:2024-03-03
# マルチエージェント遠隔制御のための言語指向から創発的コミュニケーションへの知識蒸留

Knowledge Distillation from Language-Oriented to Emergent Communication for Multi-Agent Remote Control ( http://arxiv.org/abs/2401.12624v2 )

ライセンス: Link先を確認
Yongjun Kim, Sejin Seo, Jihong Park, Mehdi Bennis, Seong-Lyun Kim, Junil Choi(参考訳) 本研究では,マルチエージェント・ディープ・強化学習(MADRL)に基づく創発的コミュニケーション(EC)と,事前訓練された大規模言語モデル(LLM)によって強化された言語指向意味コミュニケーション(LSC)を比較した。 マルチエージェント・リモートナビゲーションタスクでは,複数モードの入力データに位置マップとチャネルマップが組み合わされ,ecは多モードデータを使用する際に高いトレーニングコストと苦労を生じさせるが,lccはllmのサイズが大きいため高い推論計算コストをもたらすことが示されている。 それぞれのボトルネックに対処するため,知識蒸留(KD)を用いたECトレーニングを指導し,言語誘導EC(LEC)の新たな枠組みを提案する。 シミュレーションでは、LECはチャネル条件の悪い地域を避けながら移動時間を短縮し、ECと比較してMADRLのトレーニングコンバージェンスを最大61.8%高速化する。

In this work, we compare emergent communication (EC) built upon multi-agent deep reinforcement learning (MADRL) and language-oriented semantic communication (LSC) empowered by a pre-trained large language model (LLM) using human language. In a multi-agent remote navigation task, with multimodal input data comprising location and channel maps, it is shown that EC incurs high training cost and struggles when using multimodal data, whereas LSC yields high inference computing cost due to the LLM's large size. To address their respective bottlenecks, we propose a novel framework of language-guided EC (LEC) by guiding the EC training using LSC via knowledge distillation (KD). Simulations corroborate that LEC achieves faster travel time while avoiding areas with poor channel conditions, as well as speeding up the MADRL training convergence by up to 61.8% compared to EC.
翻訳日:2024-03-07 00:49:11 公開日:2024-03-03
# 機械学習ライブラリを用いた構造格子上の界面キャプチャによる離散多相流方程式の解法

Solving the Discretised Multiphase Flow Equations with Interface Capturing on Structured Grids Using Machine Learning Libraries ( http://arxiv.org/abs/2401.06755v2 )

ライセンス: Link先を確認
Boyang Chen, Claire E. Heaney, Jefferson L. M. A. Gomes, Omar K. Matar, Christopher C. Pain(参考訳) 本稿では,機械学習ライブラリのツールと手法を用いて,離散化多相流方程式を解く。 畳み込み層は、トレーニングではなく数値的手法によって重みが決定されるニューラルネットワークとして、離散化を表現するために用いられるため、このアプローチをPDEのためのニューラルネットワーク(NN4PDE)と呼ぶ。 離散化多相流方程式を解くために、u-netアーキテクチャを持つ畳み込みニューラルネットワークを介してマルチグリッドソルバを実装する。 既約二相流は3次元非圧縮性ナビエ・ストークス方程式によってモデル化され、流体間の界面を記述する体積分数場の面張力と対流を持つ。 nn4pdesを念頭に置いて,petrov-galerkinを用いた残差定式化に基づく新しい圧縮代数的流体体積法を提案する。 高次有限要素に基づくスキームは、崩壊する水柱と上昇する気泡をモデル化するために選択される。 その結果、実験データや他の文献の数値結果とよく比較し、(訓練されていない)畳み込みニューラルネットワークに基づくアプローチを用いて、初めて多相流の有限要素の判別が解けることを示した。 ニューラルネットワークとして数値的離散化を表現する利点は、コードが修正なしで、特にaiコードを実行するために設計されたcpu、gpu、最新のアクセラレータ上で実行できることだ。

This paper solves the discretised multiphase flow equations using tools and methods from machine-learning libraries. The idea comes from the observation that convolutional layers can be used to express a discretisation as a neural network whose weights are determined by the numerical method, rather than by training, and hence, we refer to this approach as Neural Networks for PDEs (NN4PDEs). To solve the discretised multiphase flow equations, a multigrid solver is implemented through a convolutional neural network with a U-Net architecture. Immiscible two-phase flow is modelled by the 3D incompressible Navier-Stokes equations with surface tension and advection of a volume fraction field, which describes the interface between the fluids. A new compressive algebraic volume-of-fluids method is introduced, based on a residual formulation using Petrov-Galerkin for accuracy and designed with NN4PDEs in mind. High-order finite-element based schemes are chosen to model a collapsing water column and a rising bubble. Results compare well with experimental data and other numerical results from the literature, demonstrating that, for the first time, finite element discretisations of multiphase flows can be solved using an approach based on (untrained) convolutional neural networks. A benefit of expressing numerical discretisations as neural networks is that the code can run, without modification, on CPUs, GPUs or the latest accelerators designed especially to run AI codes.
翻訳日:2024-03-07 00:47:32 公開日:2024-03-03
# 量子幾何テンソルの光による神経量子状態の効率性

Efficiency of neural quantum states in light of the quantum geometric tensor ( http://arxiv.org/abs/2402.01565v2 )

ライセンス: Link先を確認
Sidhartha Dash, Filippo Vicentini, Michel Ferrero and Antoine Georges(参考訳) ニューラル量子状態 (nqs) ans\"atzeは変分モンテカルロアルゴリズムにおいて、任意の量子状態を表現する理論的能力によって期待できることを示した。 しかし、パラメータ数の増加による性能の実際的な改善の背景は、完全には理解されていない。 本研究では,隠蔽層密度$\alpha$が増大するにつれて,制限ボルツマンマシン(RBMs)のスピン-1双線型双立方体モデルの異なる相における基底状態を表現するための効率を体系的に研究する。 2つの異なる損失関数を最小化することで ansatz を訓練します。 1)エネルギー,及び 2) 正確な基底状態のNQSアンサッツ w.r.t.の不忠実性。 どちらのケースでも、ansatzの精度は$\alpha$で飽和しています。 量子幾何テンソル(qgt)のスペクトルを見ることにより、このことが説明できることを示す。 qgt の階数は特定の $\alpha$ を超えて飽和し、最適化された nqs に対して関連する多様体の \textit{dimension of the relevant manifold} に対応することを強調する。 これにより、NQSアンサッツの実用的な表現力の診断に有用である。

Neural quantum state (NQS) ans\"atze have shown promise in variational Monte Carlo algorithms by their theoretical capability of representing any quantum state. However, the reason behind the practical improvement in their performance with an increase in the number of parameters is not fully understood. In this work, we systematically study the efficiency of restricted Boltzmann Machines (RBMs) to represent the ground states in different phases of the spin-1 bilinear-biquadratic model, as the hidden layer density $\alpha$ increases. We train our ansatz by minimizing two different loss functions: 1) energy, and 2) infidelity of the NQS ansatz w.r.t. that of the exact ground state. We observe that the accuracy of our ansatz saturates with $\alpha$ in both cases. We demonstrate that this can be explained by looking at the spectrum of the quantum geometric tensor (QGT). We find that the rank of the QGT saturates beyond a certain $\alpha$, and we emphasize that it corresponds to the \textit{dimension of the relevant manifold} for an optimized NQS. This provides a useful diagnostics for the practical representation power of an NQS ansatz.
翻訳日:2024-03-07 00:41:23 公開日:2024-03-03
# ゲージ理論におけるハドロンの散乱波パケット:量子コンピュータへの準備

Scattering wave packets of hadrons in gauge theories: Preparation on a quantum computer ( http://arxiv.org/abs/2402.00840v2 )

ライセンス: Link先を確認
Zohreh Davoudi, Chung-Chun Hsieh, Saurabh V. Kadam(参考訳) 量子シミュレーションは標準模型のゲージ理論に根ざした高エネルギー散乱過程の完全な記述を可能にすることを約束している。 このようなシミュレーションの最初のステップは相互作用するハドロン波パケットの作成である。 波のパケットを作成するには、自由理論の波のパケットと相互作用理論の波の間の橋渡しを断熱的に進化させ、シミュレーションの資源を集中させるのが一般的である。 本研究では, 変動量子固有解法などの地中準備のための資源効率の高いスキームを利用して, 相互作用理論を直接構築し, 断熱進化を回避する。 次に古典的あるいは量子的な手法で最適化されたゲージ理論における境界メソニック励起に対するアンサッツを用いて、我々が開発するデジタル量子アルゴリズムを用いて、相互作用メソニック波パケットを効率的に正確に作成できることを示す。 具体的には、1+1次元のフェルミオン物質に結合したZ_2$およびU(1)$の格子ゲージ理論において、高忠実メソニック波パケットを得る。 本手法は摂動法と非摂動法の両方に適用できる。 z_2$格子ゲージ理論のウェーブパック生成回路は、13量子ビットと最大308エンタングリングゲートを用いた量子量子コンピュータ h1-1 上に構築、実装されている。 これらの忠実度は、単純な対称性に基づくノイズ緩和技術を用いて古典的なベンチマーク計算とよく一致する。 この研究は量子色力学における量子コンピューティング散乱プロセスへのステップとして機能する。

Quantum simulation holds promise of enabling a complete description of high-energy scattering processes rooted in gauge theories of the Standard Model. A first step in such simulations is preparation of interacting hadronic wave packets. To create the wave packets, one typically resorts to adiabatic evolution to bridge between wave packets in the free theory and those in the interacting theory, rendering the simulation resource intensive. In this work, we construct a wave-packet creation operator directly in the interacting theory to circumvent adiabatic evolution, taking advantage of resource-efficient schemes for ground-state preparation, such as variational quantum eigensolvers. By means of an ansatz for bound mesonic excitations in confining gauge theories, which is subsequently optimized using classical or quantum methods, we show that interacting mesonic wave packets can be created efficiently and accurately using digital quantum algorithms that we develop. Specifically, we obtain high-fidelity mesonic wave packets in the $Z_2$ and $U(1)$ lattice gauge theories coupled to fermionic matter in 1+1 dimensions. Our method is applicable to both perturbative and non-perturbative regimes of couplings. The wave-packet creation circuit for the case of the $Z_2$ lattice gauge theory is built and implemented on the Quantinuum H1-1 trapped-ion quantum computer using 13 qubits and up to 308 entangling gates. The fidelities agree well with classical benchmark calculations after employing a simple symmetry-based noise-mitigation technique. This work serves as a step toward quantum computing scattering processes in quantum chromodynamics.
翻訳日:2024-03-07 00:40:06 公開日:2024-03-03
# マルチラベル学習のためのディープラーニング:包括的調査

Deep Learning for Multi-Label Learning: A Comprehensive Survey ( http://arxiv.org/abs/2401.16549v2 )

ライセンス: Link先を確認
Adane Nega Tarekegn, Mohib Ullah, Faouzi Alaya Cheikh(参考訳) マルチラベル学習は、単一の入力データポイントから複数のラベルを予測することを目的とした、急速に成長する研究分野である。 ビッグデータの時代において、マルチラベル分類(MLC)やランク付けを含むタスクは重要かつ複雑な課題を呈し、多様な領域でかなりの注目を集めている。 MLCでは、高次元データを扱うこと、ラベル相関に対処すること、そして従来の手法では効果が低い部分ラベルを扱うことが含まれる。 近年,MDCにおけるこれらの課題をより効果的に解決するために,ディープラーニング(DL)技術の採用が顕著に増加している。 特に、DLの堅牢な学習能力を活用してラベル依存のモデリングやMLCにおけるその他の課題を改善する努力が盛んである。 しかし、多段学習のためのdlに特化した総合的な研究が限られていることは注目に値する。 そこで本研究では,マルチラベル学習におけるdlの最近の進歩と,mlcにおけるオープンリサーチ問題の概要を概観する。 このレビューは、深層ニューラルネットワーク、トランスフォーマー、オートエンコーダ、畳み込みおよび繰り返しアーキテクチャを含む、MDCのためのDLの既存の研究活動を統合する。 最後に、本研究は、この領域における今後の研究の方向性を示唆し、洞察に富む観察を提供する既存の手法の比較分析を行う。

Multi-label learning is a rapidly growing research area that aims to predict multiple labels from a single input data point. In the era of big data, tasks involving multi-label classification (MLC) or ranking present significant and intricate challenges, capturing considerable attention in diverse domains. Inherent difficulties in MLC include dealing with high-dimensional data, addressing label correlations, and handling partial labels, for which conventional methods prove ineffective. Recent years have witnessed a notable increase in adopting deep learning (DL) techniques to address these challenges more effectively in MLC. Notably, there is a burgeoning effort to harness the robust learning capabilities of DL for improved modelling of label dependencies and other challenges in MLC. However, it is noteworthy that comprehensive studies specifically dedicated to DL for multi-label learning are limited. Thus, this survey aims to thoroughly review recent progress in DL for multi-label learning, along with a summary of open research problems in MLC. The review consolidates existing research efforts in DL for MLC,including deep neural networks, transformers, autoencoders, and convolutional and recurrent architectures. Finally, the study presents a comparative analysis of the existing methods to provide insightful observations and stimulate future research directions in this domain.
翻訳日:2024-03-07 00:37:41 公開日:2024-03-03
# 低光度画像強調のためのトラブルメーカ学習

Troublemaker Learning for Low-Light Image Enhancement ( http://arxiv.org/abs/2402.04584v2 )

ライセンス: Link先を確認
Yinghao Song, Zhiyuan Cao, Wanhong Xiang, Sifan Long, Bo Yang, Hongwei Ge, Yanchun Liang, Chunguo Wu(参考訳) 低光度画像強調(llie)は、露出不足の画像の色と明るさを復元する。 教師付き手法は、低/常光画像ペアの収集に高いコストがかかる。 教師なしの手法は複雑な損失関数の作成に多大な労力を費やす。 我々は,この2つの課題を,通常の光画像を入力としてトレーニングを行うtml(tml)戦略を通じて解決する。 TMLは単純で、まず入力を減らし、その明るさを上げる。 TMLは2つのコアコンポーネントに基づいている。 まず、トラブルメーカーモデル(tm)は、通常画像からの擬似低照度画像を構築し、ペアワイズデータのコストを緩和する。 第二に、予測モデル(PM)は擬似低照度画像の明るさを高める。 さらに,PM出力の視覚的性能を向上させるために,拡張モデル(EM)を組み込んだ。 さらに、LLIEタスクでは、同じオブジェクトに関するより多くの情報をキャプチャできるため、グローバルな要素相関を特徴付けることが重要である。 CNNは、これをうまく達成することができず、自己注意は、高い時間的複雑さを持つ。 そこで本研究では,O(n)時間複雑性を伴うグローバル動的畳み込み(GDC)を提案する。 GDCモジュールをベースとして,UGDCモデルを構築した。 TMLでトレーニングされたUGDCが、公開データセットの最先端アプローチと競合するパフォーマンスを達成できることを、大規模に定量化および定性的な実験が示している。 コードはhttps://github.com/Rainbowman0/TML_LLIEで公開されている。

Low-light image enhancement (LLIE) restores the color and brightness of underexposed images. Supervised methods suffer from high costs in collecting low/normal-light image pairs. Unsupervised methods invest substantial effort in crafting complex loss functions. We address these two challenges through the proposed TroubleMaker Learning (TML) strategy, which employs normal-light images as inputs for training. TML is simple: we first dim the input and then increase its brightness. TML is based on two core components. First, the troublemaker model (TM) constructs pseudo low-light images from normal images to relieve the cost of pairwise data. Second, the predicting model (PM) enhances the brightness of pseudo low-light images. Additionally, we incorporate an enhancing model (EM) to further improve the visual performance of PM outputs. Moreover, in LLIE tasks, characterizing global element correlations is important because more information on the same object can be captured. CNN cannot achieve this well, and self-attention has high time complexity. Accordingly, we propose Global Dynamic Convolution (GDC) with O(n) time complexity, which essentially imitates the partial calculation process of self-attention to formulate elementwise correlations. Based on the GDC module, we build the UGDC model. Extensive quantitative and qualitative experiments demonstrate that UGDC trained with TML can achieve competitive performance against state-of-the-art approaches on public datasets. The code is available at https://github.com/Rainbowman0/TML_LLIE.
翻訳日:2024-03-07 00:30:55 公開日:2024-03-03
# C-RAG:Retrieval-Augmented Language Models の生成リスク認定

C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models ( http://arxiv.org/abs/2402.03181v3 )

ライセンス: Link先を確認
Mintong Kang, Nezihe Merve G\"urel, Ning Yu, Dawn Song, Bo Li(参考訳) 様々なアプリケーションにまたがる大きな言語モデル(LLM)の印象的な機能にもかかわらず、幻覚や誤認識といった信頼性の問題に悩まされている。 探索型言語モデル(rag)は、外部知識を基礎にして世代の信頼性を高めるために提案されているが、その生成リスクの理論的な理解は未定である。 この論文ではこう答えています 1)RAGが実際に低世代リスクにつながるかどうか。 2)ragおよびvanilla llmの発生リスクの証明可能な保証の方法、及び 3)RAGモデルで生成リスクを低減できる十分な条件は何か。 RAGモデルの生成リスクを認証する最初のフレームワークであるC-RAGを提案する。 具体的には、ragモデルのコンフォーメーショナルリスク分析を行い、コンフォーメーショナルジェネレーションリスク(conformal generation risk)と呼ぶ、ジェネレーションリスクの上位信頼度を証明します。 また,テスト分布シフトにおける一般有界リスク関数の共形生成リスクに関する理論的保証も提供する。 検索モデルと変圧器の品質が非自明な場合, RAG は単一の LLM よりも低い共形生成リスクを達成できることを示す。 実験の結果,4つの最先端検索モデル上で広く使用されている4つのNLPデータセットに対して,共形生成リスク保証の健全性と厳密性を示した。

Despite the impressive capabilities of large language models (LLMs) across diverse applications, they still suffer from trustworthiness issues, such as hallucinations and misalignments. Retrieval-augmented language models (RAG) have been proposed to enhance the credibility of generations by grounding external knowledge, but the theoretical understandings of their generation risks remains unexplored. In this paper, we answer: 1) whether RAG can indeed lead to low generation risks, 2) how to provide provable guarantees on the generation risks of RAG and vanilla LLMs, and 3) what sufficient conditions enable RAG models to reduce generation risks. We propose C-RAG, the first framework to certify generation risks for RAG models. Specifically, we provide conformal risk analysis for RAG models and certify an upper confidence bound of generation risks, which we refer to as conformal generation risk. We also provide theoretical guarantees on conformal generation risks for general bounded risk functions under test distribution shifts. We prove that RAG achieves a lower conformal generation risk than that of a single LLM when the quality of the retrieval model and transformer is non-trivial. Our intensive empirical results demonstrate the soundness and tightness of our conformal generation risk guarantees across four widely-used NLP datasets on four state-of-the-art retrieval models.
翻訳日:2024-03-07 00:29:09 公開日:2024-03-03
# 基本二元法勾配アルゴリズムによる無限水平平均逆数制約MDPの一般パラメータ化法学習

Learning General Parameterized Policies for Infinite Horizon Average Reward Constrained MDPs via Primal-Dual Policy Gradient Algorithm ( http://arxiv.org/abs/2402.02042v2 )

ライセンス: Link先を確認
Qinbo Bai, Washim Uddin Mondal, Vaneet Aggarwal(参考訳) 本稿では、無限水平平均報酬制約マルコフ決定過程(CMDP)の領域を考察する。 我々の知る限り、この研究は、一般的な政策パラメトリゼーションによる平均報酬CMDPの後悔と制約違反の分析を初めて調べるものである。 この課題に対処するために,グローバルな最適政策を達成するための低い後悔の保証を確保しつつ,制約を適切に管理するプライマリデュアルベースポリシー勾配アルゴリズムを提案する。 特に、提案アルゴリズムは、目的的後悔と制約違反境界を$\tilde{\mathcal{O}}({T}^{4/5})$\tilde{\mathcal{O}}({T}^{4/5})$とすることを示した。

This paper explores the realm of infinite horizon average reward Constrained Markov Decision Processes (CMDP). To the best of our knowledge, this work is the first to delve into the regret and constraint violation analysis of average reward CMDPs with a general policy parametrization. To address this challenge, we propose a primal dual based policy gradient algorithm that adeptly manages the constraints while ensuring a low regret guarantee toward achieving a global optimal policy. In particular, we demonstrate that our proposed algorithm achieves $\tilde{\mathcal{O}}({T}^{4/5})$ objective regret and $\tilde{\mathcal{O}}({T}^{4/5})$ constraint violation bounds.
翻訳日:2024-03-07 00:26:26 公開日:2024-03-03
# 知識グラフの進化に関する機械学習によるハイインパクト研究の予測

Forecasting high-impact research topics via machine learning on evolving knowledge graphs ( http://arxiv.org/abs/2402.08640v2 )

ライセンス: Link先を確認
Xuemei Gu, Mario Krenn(参考訳) 科学出版物の指数関数的な成長は、人間の研究者にとって厳しい課題となる。 より狭いサブフィールドに注意を向け、自分自身のフィールド外で新しいインパクトのある研究のアイデアやコラボレーションを発見するのが困難になる。 科学論文の将来的な引用数を予測する方法は存在するが、彼らは研究を終える必要があり、論文を書く必要がある。 ここでは、研究者によって発表されたことのないアイデアの出現が与える影響を予測する方法を示す。 そのため、2100万以上の科学論文から構築された大規模な知識グラフを開発しました。 論文の内容から生成されたセマンティックネットワークと、論文の歴史的引用から生成されたインパクトネットワークを組み合わせる。 機械学習を用いて、進化するネットワークの未来のダイナミクスを高精度に予測し、その結果、新たな研究方向の影響を予測できる。 我々は、新しいアイデアの影響を予測できる能力が、新しい影響力を持ち興味深い科学的アイデアを刺激する未来の人工ミューズの重要な要素となることを想定している。

The exponential growth in scientific publications poses a severe challenge for human researchers. It forces attention to more narrow sub-fields, which makes it challenging to discover new impactful research ideas and collaborations outside one's own field. While there are ways to predict a scientific paper's future citation counts, they need the research to be finished and the paper written, usually assessing impact long after the idea was conceived. Here we show how to predict the impact of onsets of ideas that have never been published by researchers. For that, we developed a large evolving knowledge graph built from more than 21 million scientific papers. It combines a semantic network created from the content of the papers and an impact network created from the historic citations of papers. Using machine learning, we can predict the dynamic of the evolving network into the future with high accuracy, and thereby the impact of new research directions. We envision that the ability to predict the impact of new ideas will be a crucial component of future artificial muses that can inspire new impactful and interesting scientific ideas.
翻訳日:2024-03-07 00:20:57 公開日:2024-03-03
# 関数アライメント回帰:データから関数微分を明示的に学習する手法

Function Aligned Regression: A Method Explicitly Learns Functional Derivatives from Data ( http://arxiv.org/abs/2402.06104v2 )

ライセンス: Link先を確認
Dixian Zhu and Livnat Jerby(参考訳) 回帰は機械学習の基本的なタスクであり、過去数十年にわたって大きな注目を集めてきた。 回帰の従来のアプローチでは、各データサンプルのモデル予測と基底真理の整合に集中する損失関数を採用しており、その結果、異なるサンプル間の関係を最適に予測することができる。 近年,ラベル類似性情報をレグレッションに組み込むことにより,新たな視点を導入している。 しかし、基礎となる基底真理関数の複雑さを完全に把握する上では、これらのアプローチに顕著なギャップが持続する。 本研究では,FAR(Function Aligned Regression)を,関数微分を捉えることにより,基底的真理関数に適合するより優れた,より効率的な解として提案する。 提案手法は,2つの合成データセットと,他の8つの競合ベースラインを持つ6つのベンチマークデータセットからの8つの広範囲な実世界のタスクに対して実効性を示す。 コードは \url{https://github.com/DixianZhu/FAR} でオープンソース化されている。

Regression is a fundamental task in machine learning that has garnered extensive attention over the past decades. The conventional approach for regression involves employing loss functions that primarily concentrate on aligning model prediction with the ground truth for each individual data sample, which, as we show, can result in sub-optimal prediction of the relationships between the different samples. Recent research endeavors have introduced novel perspectives by incorporating label similarity information to regression. However, a notable gap persists in these approaches when it comes to fully capturing the intricacies of the underlying ground truth function. In this work, we propose FAR (Function Aligned Regression) as a arguably better and more efficient solution to fit the underlying function of ground truth by capturing functional derivatives. We demonstrate the effectiveness of the proposed method practically on 2 synthetic datasets and on 8 extensive real-world tasks from 6 benchmark datasets with other 8 competitive baselines. The code is open-sourced at \url{https://github.com/DixianZhu/FAR}.
翻訳日:2024-03-07 00:18:14 公開日:2024-03-03
# Minecraft-ify:ゲーム内アプリケーションのためのテキスト誘導画像編集によるMinecraftスタイルの画像生成

Minecraft-ify: Minecraft Style Image Generation with Text-guided Image Editing for In-Game Application ( http://arxiv.org/abs/2402.05448v2 )

ライセンス: Link先を確認
Bumsoo Kim, Sanghyun Byun, Yonghoon Jung, Wonseop Shin, Sareer UI Amin, Sanghyun Seo(参考訳) 本稿ではまず,Minecraft ゲームに指定された文字テクスチャ生成システム \textit{Minecraft-ify} をゲーム内アプリケーションに向けて提示する。 キューブ多様体を持つ3d仮想キャラクタに合わせたテクスチャマッピングのための顔中心画像を生成することができる。 既存のプロジェクトや作業はテクスチャのみを生成するが、提案システムはユーザが提供する実際のイメージを逆転したり、学習した分布から平均/ランダムな外観を生成することができる。 さらに、StyleGANとStyleCLIPを使ってテキストガイダンスで操作することもできる。 これらの機能は、ユーザーフレンドリーなAIツールとして、より拡張されたユーザーエクスペリエンスを提供する。 プロジェクトページはhttps://gh-bumsookim.github.io/Minecraft-ify/にある。

In this paper, we first present the character texture generation system \textit{Minecraft-ify}, specified to Minecraft video game toward in-game application. Ours can generate face-focused image for texture mapping tailored to 3D virtual character having cube manifold. While existing projects or works only generate texture, proposed system can inverse the user-provided real image, or generate average/random appearance from learned distribution. Moreover, it can be manipulated with text-guidance using StyleGAN and StyleCLIP. These features provide a more extended user experience with enlarged freedom as a user-friendly AI-tool. Project page can be found at https://gh-bumsookim.github.io/Minecraft-ify/
翻訳日:2024-03-07 00:17:25 公開日:2024-03-03
# リアルタイムマルチモーダル複合事象検出におけるニューラルおよびニューロシンボリックアプローチの実証的評価

An Empirical Evaluation of Neural and Neuro-symbolic Approaches to Real-time Multimodal Complex Event Detection ( http://arxiv.org/abs/2402.11403v2 )

ライセンス: Link先を確認
Liying Han, Mani B. Srivastava(参考訳) ロボットと自律システムは、センサーデータから複雑な事象(CE)を理解して、環境や人間と効果的に対話する必要がある。 従来のエンドツーエンドのニューラルネットワークは、センサーデータを効率的に処理するが、コンテキストサイズや推論能力の制限のため、長期にわたるイベントに苦しむ。 人間の知識を活用したニューラルモデルとシンボリックモデルを統合するニューロシンボリック手法の最近の進歩は、少ないデータでパフォーマンスを改善することを約束している。 本研究では,複合事象検出(CED)におけるこれらのアプローチの有効性の理解のギャップについて考察する。 マルチモーダルCEDタスクにおけるニューラルネットワークおよびニューラルシンボリックアーキテクチャの性能について検討し,IMUおよび音響データストリームを分析してCEパターンを認識する。 私たちの方法論には i)センサー埋め込みからの直接CE検出のためのエンドツーエンドニューラルネットワークアーキテクチャ 二 CE検出前の原子イベント(AE)にセンサ埋め込みをマッピングする二段階概念に基づくニューラルモデル 3)AEsからのCE検出のためのシンボル有限状態マシンを用いたニューロシンボリックアプローチ。 経験的に、ニューロシンボリックアーキテクチャは純粋に神経モデルを大幅に上回っており、広範なトレーニングデータや神経アプローチのための十分な時間的文脈においても、ce認識において優れた性能を示している。

Robots and autonomous systems require an understanding of complex events (CEs) from sensor data to interact with their environments and humans effectively. Traditional end-to-end neural architectures, despite processing sensor data efficiently, struggle with long-duration events due to limited context sizes and reasoning capabilities. Recent advances in neuro-symbolic methods, which integrate neural and symbolic models leveraging human knowledge, promise improved performance with less data. This study addresses the gap in understanding these approaches' effectiveness in complex event detection (CED), especially in temporal reasoning. We investigate neural and neuro-symbolic architectures' performance in a multimodal CED task, analyzing IMU and acoustic data streams to recognize CE patterns. Our methodology includes (i) end-to-end neural architectures for direct CE detection from sensor embeddings, (ii) two-stage concept-based neural models mapping sensor embeddings to atomic events (AEs) before CE detection, and (iii) a neuro-symbolic approach using a symbolic finite-state machine for CE detection from AEs. Empirically, the neuro-symbolic architecture significantly surpasses purely neural models, demonstrating superior performance in CE recognition, even with extensive training data and ample temporal context for neural approaches.
翻訳日:2024-03-07 00:12:23 公開日:2024-03-03
# オンライン自己判断による大規模言語モデルの調整

Aligning Large Language Models by On-Policy Self-Judgment ( http://arxiv.org/abs/2402.11253v2 )

ライセンス: Link先を確認
Sangkyu Lee, Sungdong Kim, Ashkan Yousefpour, Minjoon Seo, Kang Min Yoo, Youngjae Yu(参考訳) 大規模言語モデルと人間の好みを整合させるための既存のアプローチは、オンポリシー学習に別個の報酬モデル(rm)を必要とするトレードオフに直面している。 本稿では,(1)オンポリシー学習を行うための新しいアライメントフレームワークである \method{} を提案する。 2) パラメータ効率は高く, オンポリシー学習のためのサンプル評価のための追加のrmは不要である。 そこで本研究では,単一モデルを政策と裁判官の両方として機能させるために,審査強化細管(JSFT)を提案する。 具体的には、命令追従タスクの特別な場合として、応答ペアからより良い応答を選択するペアワイズ判断タスクを見る。 結果として得られるモデルは、オンザフライ応答の好みを、それ自体から初期化された現在のポリシーから判断することができる。 実験結果から,プレファレンスベンチマークのベースラインを上回って,<method{}の有効性が示された。 また,リジェクションサンプリング自体が,追加評価器を使わずにさらに性能を向上させることができることを示した。

Existing approaches for aligning large language models with human preferences face a trade-off that requires a separate reward model (RM) for on-policy learning. In this paper, we present a novel alignment framework, \method{} that (1) does on-policy learning and 2) is parameter efficient, as it does not require an additional RM for evaluating the samples for on-policy learning. To this end, we propose Judge-augmented Supervised Fine-Tuning (JSFT) to train a single model to act as both a policy and a judge. Specifically, we view the pairwise judgment task, choosing the better response from a response pair, as a special case of the instruction-following task. The resulting model can judge preferences of on-the-fly responses from current policy initialized from itself. Experimental results show the efficacy of \method{}, outperforming baselines in preference benchmarks. We also show that the rejecting sampling by itself can improve performance further without an additional evaluator.
翻訳日:2024-03-07 00:12:00 公開日:2024-03-03
# なぜトランスフォーマーに敏感な機能が難しいのか?

Why are Sensitive Functions Hard for Transformers? ( http://arxiv.org/abs/2402.09963v3 )

ライセンス: Link先を確認
Michael Hahn, Mark Rofin(参考訳) 実証的研究は、PARITYのような単純な形式言語を計算することの難しさや、低次関数に対するバイアスなど、トランスフォーマーの学習可能性バイアスと制限の幅を特定している。 しかし、理論的な理解は限られており、既存の表現力理論は現実的な学習能力を過大に予測または過小に予測している。 入力文字列の多くの部分に敏感な出力を持つトランスは、パラメータ空間内の孤立した点に存在し、一般化において低感度のバイアスをもたらす。 本研究では, この理論が, 低感度・低度への一般化バイアス, PARITYにおける長さ一般化の難しさなど, 変圧器の学習能力とバイアスに関する幅広い経験的観察を統一することを示す。 これは、トランスフォーマーの帰納的バイアスを理解するには、原理的な表現性だけでなく、損失の風景も研究する必要があることを示している。

Empirical studies have identified a range of learnability biases and limitations of transformers, such as a persistent difficulty in learning to compute simple formal languages such as PARITY, and a bias towards low-degree functions. However, theoretical understanding remains limited, with existing expressiveness theory either overpredicting or underpredicting realistic learning abilities. We prove that, under the transformer architecture, the loss landscape is constrained by the input-space sensitivity: Transformers whose output is sensitive to many parts of the input string inhabit isolated points in parameter space, leading to a low-sensitivity bias in generalization. We show theoretically and empirically that this theory unifies a broad array of empirical observations about the learning abilities and biases of transformers, such as their generalization bias towards low sensitivity and low degree, and difficulty in length generalization for PARITY. This shows that understanding transformers' inductive biases requires studying not just their in-principle expressivity, but also their loss landscape.
翻訳日:2024-03-07 00:08:57 公開日:2024-03-03
# 名前付きエンティティ認識のための大言語モデルをTinyモデルに拡張する

Distilling Large Language Models into Tiny Models for Named Entity Recognition ( http://arxiv.org/abs/2402.09282v2 )

ライセンス: Link先を確認
Yining Huang(参考訳) GPT-4のような新しい大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらし、名前付きエンティティ認識 (NER) のような従来のタスクにも可能性を示している。 本研究は, BERTモデルの性能向上を図るため, GPT-4の能力を活用した3段階学習戦略を提案する。 当初、GPT-4はCONLL2003と追加のBBCデータセットのサブセットを微調整なしで注釈付けしていた。 BERT は,従来の LLM アノテーションと LLM アノテーションを混合して学習し,従来の手法に対する LLM アノテーションの有効性を解析する。 第2フェーズでは、異なるトレーニングレギュレータで比較実験を行い、蒸留データとオリジナルデータの相乗効果を評価する。 逐次的戦略,特に蒸留データを含む単純なトレーニングとオリジナルデータとの混合が,パフォーマンスを著しく向上させるのを観察した。 第3フェーズでは,sgmoid と power decay function を含む様々なデータブレンディング手法を調査し,さらにトレーニングプロセスを最適化した。 以上の結果から,蒸留とオリジナルデータの戦略的混合がBERTのNER能力を著しく高めていることが示唆された。 提案手法は,手動アノテーションコストを削減し,効率を向上し,特にリソース制限とクローズドネットワーク環境において,スケーラブルな手法を提案する。 この研究は、"Simple Mix"戦略が最良の結果をもたらす一方で、その基盤となるメカニズムを理解するにはさらなる研究が必要であると結論付けている。 今後の作業は、様々なNLPタスクに方法論を拡張することを目的として、プロンプトデザインの洗練とアノテーション選択プロセスの強化にも焦点をあてる。

Emerging Large Language Models (LLMs) like GPT-4 have revolutionized Natural Language Processing (NLP), showing potential in traditional tasks such as Named Entity Recognition (NER). Our study explores a three-phase training strategy that harnesses GPT-4's capabilities to enhance the BERT model's performance on NER. Initially, GPT-4 annotates a subset of the CONLL2003 and additional BBC dataset without fine-tuning. We then train BERT using a mix of original and LLM-annotated data, analyzing the efficacy of LLM annotations against traditional methods. The second phase involves comparative experiments with different training regimens, assessing the synergy between distilled and original data. We observe that sequential strategies, particularly a simple mix of training first with distilled data followed by original data, significantly boost performance. In the third phase, we investigate various data blending techniques, including sigmoid and power decay functions, to optimize the training process further. Our results indicate that a strategic mix of distilled and original data markedly elevates the NER capabilities of BERT. Our approach presents a scalable methodology that reduces manual annotation costs and increases efficiency, making it especially pertinent in resource-limited and closed-network environments. The study concludes that while the 'Simple Mix' strategy yields the best results, understanding its underlying mechanisms requires further research. Future work will also focus on refining prompt designs and enhancing annotation selection processes, aiming to extend our methodology to diverse NLP tasks.
翻訳日:2024-03-07 00:08:03 公開日:2024-03-03
# dslr:リハーサルベースグラフ連続学習のための多様性向上と構造学習

DSLR: Diversity Enhancement and Structure Learning for Rehearsal-based Graph Continual Learning ( http://arxiv.org/abs/2402.13711v4 )

ライセンス: Link先を確認
Seungyoon Choi, Wonjoong Kim, Sungwon Kim, Yeonjun In, Sein Kim, Chanyoung Park(参考訳) グラフ連続学習法(GCL)におけるリハーサルベースアプローチにおけるリプレイバッファの検討を行った。 既存のリハーサルベースのGCLメソッドは、各クラスの最も代表的なノードを選択し、後続のタスクをトレーニングするためにリプレイバッファに保存する。 しかし,各リプレイノードのクラス代表性のみを考慮すれば,リプレイノードが各クラスの中心に集中することになり,その領域に存在するノードに過度に適合する可能性があり,破滅的な忘れが悪化することがわかった。 さらに、リハーサルベースのアプローチは、過去のタスクから得られた知識を保持するために、いくつかのリプレイノードに大きく依存しているため、モデルトレーニングに非関連な隣人を持つリプレイノードは、モデルパフォーマンスに重大な有害な影響を及ぼす可能性がある。 本稿では,dslrと呼ばれるgclモデルを提案する。具体的には,各ノードのクラスにおけるクラス代表性と多様性を検討するためのカバレッジベース多様性(cd)アプローチを考案する。 さらに, グラフ構造学習(GSL)を用いて, 再生ノードが真に情報のある隣人に接続されていることを保証する。 実験の結果,DSLRの有効性と有効性を示した。 ソースコードはhttps://github.com/seungyoon-choi/dslr_officialで入手できます。

We investigate the replay buffer in rehearsal-based approaches for graph continual learning (GCL) methods. Existing rehearsal-based GCL methods select the most representative nodes for each class and store them in a replay buffer for later use in training subsequent tasks. However, we discovered that considering only the class representativeness of each replayed node makes the replayed nodes to be concentrated around the center of each class, incurring a potential risk of overfitting to nodes residing in those regions, which aggravates catastrophic forgetting. Moreover, as the rehearsal-based approach heavily relies on a few replayed nodes to retain knowledge obtained from previous tasks, involving the replayed nodes that have irrelevant neighbors in the model training may have a significant detrimental impact on model performance. In this paper, we propose a GCL model named DSLR, specifically, we devise a coverage-based diversity (CD) approach to consider both the class representativeness and the diversity within each class of the replayed nodes. Moreover, we adopt graph structure learning (GSL) to ensure that the replayed nodes are connected to truly informative neighbors. Extensive experimental results demonstrate the effectiveness and efficiency of DSLR. Our source code is available at https://github.com/seungyoon-Choi/DSLR_official.
翻訳日:2024-03-07 00:02:18 公開日:2024-03-03
# 知識に基づく視覚的質問応答のための大規模言語モデルとのモダリティ・アウェア統合

Modality-Aware Integration with Large Language Models for Knowledge-based Visual Question Answering ( http://arxiv.org/abs/2402.12728v2 )

ライセンス: Link先を確認
Junnan Dong, Qinggang Zhang, Huachi Zhou, Daochen Zha, Pai Zheng, Xiao Huang(参考訳) 知識に基づく視覚的質問応答(KVQA)は、外部知識(例えば知識グラフ(KG))で視覚的質問に答えるために広く研究されている。 大型言語モデル(LLM)を暗黙の知識源として活用する試みがいくつか提案されているが、LLMは幻覚を発生させる可能性があるため、依然として難しい。 さらに、画像、KG、LLMなどの複数の知識ソースは、複雑なシナリオに対して容易に整列できない。 これらの課題に対処するために,KVQA (MAIL) のための LLM との新たなモダリティ対応統合を提案する。 画像理解と知識推論の両方にマルチモーダル知識を慎重に活用する。 具体的には (i)LLMを用いた2段階のプロンプト戦略を提案し,映像をシーングラフに密に具現化し,視覚的特徴を詳述する。 (II) 上記のエンティティと外部事実をリンクして結合した概念グラフを構築する。 (iii) 十分なマルチモーダル核融合のための擬似シアムグラフ媒体融合を設計する。 本稿では,2つのグラフの共有エンティティを媒体として,媒体内での融合を制限し,洞察に富んだモーダル内学習を最大限に保存しつつ,密接なモーダル間交換をブリッジする。 2つのベンチマークデータセットに対する大規模な実験は、リソースが24倍少ないMAILの優位性を示している。

Knowledge-based visual question answering (KVQA) has been extensively studied to answer visual questions with external knowledge, e.g., knowledge graphs (KGs). While several attempts have been proposed to leverage large language models (LLMs) as an implicit knowledge source, it remains challenging since LLMs may generate hallucinations. Moreover, multiple knowledge sources, e.g., images, KGs and LLMs, cannot be readily aligned for complex scenarios. To tackle these, we present a novel modality-aware integration with LLMs for KVQA (MAIL). It carefully leverages multimodal knowledge for both image understanding and knowledge reasoning. Specifically, (i) we propose a two-stage prompting strategy with LLMs to densely embody the image into a scene graph with detailed visual features; (ii) We construct a coupled concept graph by linking the mentioned entities with external facts. (iii) A tailored pseudo-siamese graph medium fusion is designed for sufficient multimodal fusion. We utilize the shared mentioned entities in two graphs as mediums to bridge a tight inter-modal exchange, while maximally preserving insightful intra-modal learning by constraining the fusion within mediums. Extensive experiments on two benchmark datasets show the superiority of MAIL with 24x less resources.
翻訳日:2024-03-07 00:00:56 公開日:2024-03-03
# 変圧器に基づく因果言語モデルによるクラスタリング

Transformer-based Causal Language Models Perform Clustering ( http://arxiv.org/abs/2402.12151v2 )

ライセンス: Link先を確認
Xinbo Wu, Lav R. Varshney(参考訳) 大きな言語モデル(LLM)は、様々な自然言語タスクを解く際、顕著な能力を示してきたが、LLMが人間の指示に従う能力は依然として懸念されている。 最近の研究は、命令追従タスクの追加トレーニングを通じて、命令追従能力を大幅に改善している。 しかし、効果的な指示追従能力のメカニズムはいまだに不十分である。 本稿では、簡易な命令追従タスクを導入し、合成データセットを用いてトランスフォーマーに基づく因果言語モデルを分析する。 以上の結果から,このクラスタリングプロセスは学習中に動的に進化し,隠れた空間内でデータをクラスタリングすることでタスク固有の情報を学習することが示唆された。 また、この現象が未確認のインスタンスを扱うモデルにどのように役立つかを示し、その結果をより現実的な環境で検証する。 さらに,事前学習やアライメントに関するアプリケーションについても紹介する。

Even though large language models (LLMs) have demonstrated remarkable capability in solving various natural language tasks, the capability of an LLM to follow human instructions is still a concern. Recent works have shown great improvements in the instruction-following capability via additional training for instruction-following tasks. However, the mechanisms responsible for effective instruction-following capabilities remain inadequately understood. Here, we introduce a simplified instruction-following task and use synthetic datasets to analyze a Transformer-based causal language model. Our findings suggest that the model learns task-specific information by clustering data within its hidden space, with this clustering process evolving dynamically during learning. We also demonstrate how this phenomenon assists the model in handling unseen instances, and validate our results in a more realistic setting. Furthermore, we present inspired applications regarding pre-training and alignment.
翻訳日:2024-03-06 23:59:16 公開日:2024-03-03
# MRKE:知識版によるLLMのマルチホップ推論評価

MRKE: The Multi-hop Reasoning Evaluation of LLMs by Knowledge Edition ( http://arxiv.org/abs/2402.11924v2 )

ライセンス: Link先を確認
Jian Wu, Linyi Yang, Manabu Okumura, Yue Zhang(参考訳) 大規模言語モデル(LLM)はMHQA(Multi-hop Question Answering)タスクにおいて高いパフォーマンスを示しているが、真の推論能力はいまだ探索中である。 現在のllm qa評価ベンチマークには、制限がある。 1) データの汚染, 評価データは, 事前訓練期間中に LLM に暴露される可能性がある。 2) 推論連鎖評価の無視 そこで,本研究では,市販のHotpotQAデータセットを編集し,前例のない知識に基づく最初のQAベンチマークであるLLM MHQA評価ベンチマークを導入する。 具体的には、観察に基づいて。 1) LLMは, 従来のHotpotQAと編集したデータの間に性能差を示し, 現在のMHQAベンチマークでは, LLMの性能を客観的かつ科学的に評価することが困難なデータ汚染のリスクがあると考えられた。 2) LLM は正しい推論鎖のごく一部しか得られず、例えば GPT-4 は正しい推論鎖の36.3 %しか得られない。 我々は,新しいマルチホップQA評価ベンチマークと新しい評価手法により,MHQAタスクにおける信頼性の高いLCM評価の開発が容易になると考えている。

Although Large Language Models (LLMs) have shown strong performance in Multi-hop Question Answering (MHQA) tasks, their real reasoning ability remains exploration. Current LLM QA evaluation benchmarks have shown limitations, including 1) data contamination, the evaluation data are potentially exposed to LLMs during the pretraining stage; and 2) ignoration of the reasoning chain evaluation. Thus we introduce an LLM MHQA evaluation benchmark, the first QA benchmark based on the new, unprecedented knowledge by editing the off-the-shelf HotpotQA dataset; Besides, we also annotate and evaluate the reasoning chain in the form of sub-questions and intermediate answers corresponding to the multi-hop questions. Specifically, based on the observation, 1) LLMs show a performance gap between the original HotpotQA and our edited data, deeming that current MHQA benchmarks have the potential risk of data contamination that hard to evaluate LLMs' performance objectively and scientifically; 2) LLMs only get a small percentage of the right reasoning chain, e.g. GPT-4 only gets 36.3\% right reasoning chain. We believe this new Multi-hop QA evaluation benchmark and novel evaluation methods will facilitate the development of trustworthy LLM evaluation on the MHQA task.
翻訳日:2024-03-06 23:59:02 公開日:2024-03-03
# 単一コピーレベルでのマルチパラメータ量子推定における量子Cram\'{e}r-Rao境界の飽和性

Saturability of the Quantum Cram\'{e}r-Rao Bound in Multiparameter Quantum Estimation at the Single-Copy Level ( http://arxiv.org/abs/2402.11567v2 )

ライセンス: Link先を確認
Hendra I. Nurdin(参考訳) 量子パラメータ推定における精度の究極の下界としての量子クローズ(qcrb)は、パラメータに付随する対称対数微分(sld)の完全または平均可換性のような条件下では、特別な場合において、マルチパラメータ設定において飽和可能であることが知られている。 さらに、一般の混合状態の場合、量子状態の無限に多くの同一のコピーに対する集合的測定は一般にqcrbを達成するために必要となる。 重要かつ実験的な単一コピーシナリオでは、一般混合状態のマルチパラメータ設定においてQCRBを飽和させるために必要な条件は、SLDにおけるいわゆる部分可換性条件である。 しかし、この条件が十分かどうかは不明である。 本稿では, 部分可換性を示し, ほぼ十分である新しい条件を導出する。 マルチパラメータ単一コピーの場合,QCRBの飽和度は,他の条件とともに十分であることがわかった。 また、十分な条件が満たされると、qcrbを飽和させる最適な測定を投影的かつ明示的に特徴付けることができる。 例として、この条件が満たされ、明確に検証できるマルチパラメータ量子状態の例を示す。

The quantum Cram\'{e}r-Rao bound (QCRB) as the ultimate lower bound for precision in quantum parameter estimation is only known to be saturable in the multiparameter setting in special cases and under conditions such as full or average commutavity of the symmetric logarithmic derivatives (SLDs) associated with the parameters. Moreover, for general mixed states, collective measurements over infinitely many identical copies of the quantum state are generally required to attain the QCRB. In the important and experimentally relevant single-copy scenario, a necessary condition for saturating the QCRB in the multiparameter setting for general mixed states is the so-called partial commutativity condition on the SLDs. However, it is not known if this condition is also sufficient. This paper derives new necessary conditions that imply partial commutativity and are almost sufficient. It is shown that together with another condition they become sufficient for saturability of the QCRB in the multiparameter single-copy case. Moreover, when the sufficient conditions are satisfied an optimal measurement saturating the QCRB can be chosen to be projective and explicitly characterized. An example is developed to illustrate the case of a multiparameter quantum state where the conditions derived herein are satisfied and can be explicitly verified.
翻訳日:2024-03-06 23:58:16 公開日:2024-03-03
# 脳信号からのセマンティクスの復号によるクエリ拡張

Query Augmentation by Decoding Semantics from Brain Signals ( http://arxiv.org/abs/2402.15708v2 )

ライセンス: Link先を確認
Ziyi Ye, Jingtao Zhan, Qingyao Ai, Yiqun Liu, Maarten de Rijke, Christina Lioma, Tuukka Ruotsalo(参考訳) クエリ拡張は意味的に不正確なクエリを精査するための重要なテクニックである。 伝統的に、クエリ拡張は、最初に検索された、潜在的に関連のあるドキュメントから情報を抽出することに依存する。 検索した文書の品質が低い場合、クエリ拡張の有効性も制限される。 本稿では,脳信号からデコードされた意味情報を組み込んでクエリを強化するBrain-Augを提案する。 BrainAugは、脳信号情報とランキング指向推論アプローチを備えたプロンプトで、元のクエリの継続を生成する。 fMRI(機能的磁気共鳴イメージング)データセットの実験結果から、Brain-Augは意味的により正確なクエリを生成し、文書のランク付け性能が改善された。 脳信号によるこのような改善は、特にあいまいなクエリで顕著である。

Query augmentation is a crucial technique for refining semantically imprecise queries. Traditionally, query augmentation relies on extracting information from initially retrieved, potentially relevant documents. If the quality of the initially retrieved documents is low, then the effectiveness of query augmentation would be limited as well. We propose Brain-Aug, which enhances a query by incorporating semantic information decoded from brain signals. BrainAug generates the continuation of the original query with a prompt constructed with brain signal information and a ranking-oriented inference approach. Experimental results on fMRI (functional magnetic resonance imaging) datasets show that Brain-Aug produces semantically more accurate queries, leading to improved document ranking performance. Such improvement brought by brain signals is particularly notable for ambiguous queries.
翻訳日:2024-03-06 23:51:15 公開日:2024-03-03
# FuseChat: チャットモデルの知識融合

FuseChat: Knowledge Fusion of Chat Models ( http://arxiv.org/abs/2402.16107v3 )

ライセンス: Link先を確認
Fanqi Wan, Ziyi Yang, Longguang Zhong, Xiaojun Quan, Xinting Huang, Wei Bi(参考訳) 大きな言語モデル(LLM)をスクラッチからトレーニングすることは、機能と強みの異なるモデルにつながるが、このアプローチは相当なコストを発生させ、能力の冗長性をもたらす可能性がある。 代替戦略として、既存のLLMをより堅牢なLLMに組み込むことで、高価な事前訓練の必要性を軽減できる。 しかし、llmsの多様なアーキテクチャにより、直接パラメータブレンディングは実現不可能であることが証明される。 近年,複数の構造変化 LLM の集合的知識を,軽量な連続学習により目標 LLM に伝達する知識融合の概念を導入している。 本稿では、チャットLLMの融合を実現するために、textsc{FuseLLM}フレームワークのスケーラビリティと柔軟性を拡張し、その結果、textsc{FuseChat}を実現する。 \textsc{fusechat} は2つの主要なステージからなる。 まず,軽量な微調整による同一構造と大きさの複数のターゲットllmを導出するために,構造的およびスケール変数のソースllmに対する知識融合を行う。 次に,これらのLLMをパラメータ空間内にマージし,微調整前後のパラメータ行列の変動率に基づいてマージ重みを決定する手法を提案する。 アーキテクチャとスケールが多様である3つの著名なチャットLLM,すなわち \texttt{NH2-Mixtral-8x7B}, \texttt{NH2-Solar-10.7B}, \texttt{OpenChat-3.5-7B} を用いたアプローチを検証する。 様々なチャットドメインにまたがる実験結果は、7B と 34B スケールのチャット LLM の幅広い範囲における \texttt{\textsc{FuseChat}-7B} の優位性を示し、さらに \texttt{GPT-3.5 ( March)} を超え、 \texttt{Mixtral-8x7B-Instruct} に近づいた。 私たちのコード、モデルウェイト、データは、 \url{https://github.com/fanqiwan/FuseLLM}で公開アクセスできます。

While training large language models (LLMs) from scratch can indeed lead to models with distinct capabilities and strengths, this approach incurs substantial costs and may lead to potential redundancy in competencies. An alternative strategy is to combine existing LLMs into a more robust LLM, thereby diminishing the necessity for expensive pre-training. However, due to the diverse architectures of LLMs, direct parameter blending proves to be unfeasible. Recently, \textsc{FuseLLM} introduced the concept of knowledge fusion to transfer the collective knowledge of multiple structurally varied LLMs into a target LLM through lightweight continual training. In this report, we extend the scalability and flexibility of the \textsc{FuseLLM} framework to realize the fusion of chat LLMs, resulting in \textsc{FuseChat}. \textsc{FuseChat} comprises two main stages. Firstly, we undertake knowledge fusion for structurally and scale-varied source LLMs to derive multiple target LLMs of identical structure and size via lightweight fine-tuning. Then, these target LLMs are merged within the parameter space, wherein we propose a novel method for determining the merging weights based on the variation ratio of parameter matrices before and after fine-tuning. We validate our approach using three prominent chat LLMs with diverse architectures and scales, namely \texttt{NH2-Mixtral-8x7B}, \texttt{NH2-Solar-10.7B}, and \texttt{OpenChat-3.5-7B}. Experimental results spanning various chat domains demonstrate the superiority of \texttt{\textsc{FuseChat}-7B} across a broad spectrum of chat LLMs at 7B and 34B scales, even surpassing \texttt{GPT-3.5 (March)} and approaching \texttt{Mixtral-8x7B-Instruct}. Our code, model weights, and data are openly accessible at \url{https://github.com/fanqiwan/FuseLLM}.
翻訳日:2024-03-06 23:38:24 公開日:2024-03-03
# 一般確率論における量子チャネルの不整合

The incompatibility of quantum channels in general probabilistic theories ( http://arxiv.org/abs/2403.01392v1 )

ライセンス: Link先を確認
Masataka Yamada, Takayuki Miyadera(参考訳) 量子論において、同時に実行できない操作の集合が存在する。 これらの操作の集合は非互換と呼ばれる。 この非可換性の定義は一般確率論にまで及ぶが、複合系の定義に対する可換集合の集合の依存性は十分に研究されていない。 量子チャネルの文脈では、互換性はヒルベルト空間のテンソル積を用いて定義され、通常の合成系を用いる。 しかし、一般確率論の文脈では、合成系は一意に決定されず、状態の集合は min テンソル から max テンソル まで、様々な凸集合を形成することができる。 本稿では、通常の合成系を用いた量子互換に加えて、効果空間の合成系におけるmin-tensorを用いたmin-tensor-compatibilityを導入し、量子ビット上のノイズのあるアイデンティティチャネルを用いてそれらの関係について検討する。 その結果、min-tensor互換チャネル対の集合は、量子互換チャネル対の集合よりも厳密に広いことがわかった。 さらに,運用の観点から,ほぼ量子互換なチャネルペアの概念を導入する。 この概念は、互換性の検証に現れる相関関数がチャネルと局所的な効果の再解釈によって実現される場合に対応する。 ほぼ量子互換なチャネル対の集合は、すべての min-テンソル互換なチャネル対の集合よりも厳密に狭いことを実証する。

In quantum theory, there exist sets of operations that cannot be performed simultaneously. These sets of operations are referred to as incompatible. While this definition of incompatibility extends to general probabilistic theories, the dependency of the set of compatible sets on the definition of composite systems has not been thoroughly investigated. In the context of quantum channels, compatibility is defined using the tensor product of Hilbert spaces, employing the usual composite system. However, in the context of general probabilistic theories, composite systems are not uniquely determined, and the set of states can range from min tensor to max tensor, forming various convex sets. In this paper, in addition to quantum compatibility using the usual composite system, we introduce min-tensor-compatibility using the min-tensor on the composite system of effect spaces and investigate their relationship using noisy identity channels on qubits. As a result, we found that the set of min-tensor-compatible channel pairs is strictly broader than the set of quantum-compatible channel pairs. Furthermore, we introduce the concept of almost quantum compatible channel pairs from an operational perspective. This concept corresponds to cases where the correlation functions appearing in the verification of compatibility can be realized through a channel and local reinterpretation of effects. We demonstrate that the set of all almost quantum compatible channel pairs is strictly narrower than the set of all min-tensor-compatible channel pairs.
翻訳日:2024-03-06 21:49:08 公開日:2024-03-03
# 平面2領域多成分最大絡み合い状態

Planar two-region multi-partite maximally entangled states ( http://arxiv.org/abs/2403.01391v1 )

ライセンス: Link先を確認
Yanwen Liang, Fengli Yan, Ting Gao(参考訳) 絡み合い理論では、ある状態が他の状態よりも絡み合っていると考える方法は異なる。 多部系における「最大」絡み合った状態は公理的観点から定義することができる。 選択の基準によっては、絶対極大絡み状態、平面極大絡み状態など、多くの特定の量子最大絡み状態が存在する。 本稿では,平面2領域の最大絡み合い状態という,新しいタイプの極大絡み合い状態を提案する。 この最大絡み状態の要件条件は、絶対最大絡み状態の要件よりも弱く、平面最大絡み状態の要件条件とは異なる。 4量子および7量子平面系には2つの領域の四部分交絡状態が存在するが、これらの系には極大交絡状態は存在しない。 偶数量子系と奇数粒子量子系の両方において、平面的な2領域の四分割状態が存在することが証明された。 さらに、いくつかの平面2領域の四分極最大絡み状態に基づいて、新しい平面2領域の四分極最大絡み状態を生成する。 また、平面二領域多部多部交絡状態の重要な例を示す。

In entanglement theory, there are different methods to consider one state being more entangled than another. The "maximally" entangled states in a multipartite system can be defined from an axiomatic perspective. According to different criteria for selection, there are many specific types of quantum maximally entangled states, such as absolutely maximally entangled state, planar maximally entangled state and so on. In this paper we propose a new type of maximally entangled states, the planar two-region multipartite maximally entangled state. The requirement condition of this maximally entangled state is weak than that of the absolutely maximally entangled state and different from that of the planar maximally entangled state. We show that there are the two-region four-partite maximally entangled states in 4-qubit and 7-qubit planar systems, although there is no absolutely maximally entangled state in these systems. It is proved that there are the planar two-region four-partite maximally entangled states in both even particle quantum systems and odd particle quantum systems. Additionally, based on some planar two-region four-partite maximally entangled states, the new planar two-region four-partite maximally entangled states are generated. We also provide some important examples of the planar two-region multi-partite maximally entangled states.
翻訳日:2024-03-06 21:48:48 公開日:2024-03-03
# 正しい理由: 検証可能なコモンセンス知識グラフ質問に対する大規模言語モデル

Right for Right Reasons: Large Language Models for Verifiable Commonsense Knowledge Graph Question Answering ( http://arxiv.org/abs/2403.01390v1 )

ライセンス: Link先を確認
Armin Toroghi, Willis Guo, Mohammad Mahdi Abdollah Pour, Scott Sanner(参考訳) 知識グラフ質問回答法(KGQA)は,知識グラフに格納された関係情報を用いて自然言語の質問に答えようとする手法である。 近年のLarge Language Models(LLM)の進歩と、その顕著な推論能力により、KGQAにそれらを活用する傾向が高まっている。 しかし、既存の方法論は「シルヴィオ・ベルルスコーニ(silvio berlusconi)の最初の妻はどの都市で生まれたのか?」といった事実的な問いにのみ答えることに焦点を当てており、コモンセンスに関する質問は、現実世界の利用者がより頻繁にポーズを取る可能性があることを示唆している。 本稿では,KGQA の既存の LLM ベースの手法が,特にロングテールエンティティ(例えば,非メインストリームや最近のエンティティ)をターゲットとしたクエリにおいて,このような質問に対する幻覚に苦しむのを最初に観察する。 そこで我々は,LLMの内在的コモンセンス知識を公理的に覆い,KG三重項上のすべての事実的推論ステップを根拠にすることで,検証可能な推論手順を可能にする共通感覚KGQA手法であるRight for Right Reasons (R3)を提案する。 質問応答,クレーム検証,選好マッチングという3つのタスクに対する実験的な評価により,R3は優れたアプローチであり,既存の手法よりも優れ,幻覚や推論エラーの事例が顕著に減少していることが明らかになった。

Knowledge Graph Question Answering (KGQA) methods seek to answer Natural Language questions using the relational information stored in Knowledge Graphs (KGs). With the recent advancements of Large Language Models (LLMs) and their remarkable reasoning abilities, there is a growing trend to leverage them for KGQA. However, existing methodologies have only focused on answering factual questions, e.g., "In which city was Silvio Berlusconi's first wife born?", leaving questions involving commonsense reasoning that real-world users may pose more often, e.g., "Do I need separate visas to see the Venus of Willendorf and attend the Olympics this summer?" unaddressed. In this work, we first observe that existing LLM-based methods for KGQA struggle with hallucination on such questions, especially on queries targeting long-tail entities (e.g., non-mainstream and recent entities), thus hindering their applicability in real-world applications especially since their reasoning processes are not easily verifiable. In response, we propose Right for Right Reasons (R3), a commonsense KGQA methodology that allows for a verifiable reasoning procedure by axiomatically surfacing intrinsic commonsense knowledge of LLMs and grounding every factual reasoning step on KG triples. Through experimental evaluations across three different tasks--question answering, claim verification, and preference matching--our findings showcase R3 as a superior approach, outperforming existing methodologies and notably reducing instances of hallucination and reasoning errors.
翻訳日:2024-03-06 21:48:26 公開日:2024-03-03
# モンテカルロサンプリングによるガウス過程予測の融合

Fusion of Gaussian Processes Predictions with Monte Carlo Sampling ( http://arxiv.org/abs/2403.01389v1 )

ライセンス: Link先を確認
Marzieh Ajirak, Daniel Waxman, Fernando Llorente, Petar M. Djuric(参考訳) 科学や工学では、興味のある変数を正確に予測するために設計されたモデルにしばしば取り組んでいます。 これらのモデルが現実の近似であることを認識し、複数のモデルを同じデータに適用し、結果を統合することが望ましい。 本稿では,モデルとしてのガウス過程に依拠して,ベイズパラダイム内で活動する。 これらのモデルは予測確率密度関数(pdfs)を生成し、その目的は線形および対数線形プールの両方を用いてそれらを体系的に統合することである。 本稿では,ガウス過程の予測 pdf に対する入力依存重み決定という,対数線形プールの新しい手法を提案する。 pdfsの凝集はモンテカルロサンプリングによって実現され、後部から重量のサンプルが引き出される。 合成データセットを用いて,これらの手法と線形プーリングに基づく手法の性能を実証した。

In science and engineering, we often work with models designed for accurate prediction of variables of interest. Recognizing that these models are approximations of reality, it becomes desirable to apply multiple models to the same data and integrate their outcomes. In this paper, we operate within the Bayesian paradigm, relying on Gaussian processes as our models. These models generate predictive probability density functions (pdfs), and the objective is to integrate them systematically, employing both linear and log-linear pooling. We introduce novel approaches for log-linear pooling, determining input-dependent weights for the predictive pdfs of the Gaussian processes. The aggregation of the pdfs is realized through Monte Carlo sampling, drawing samples of weights from their posterior. The performance of these methods, as well as those based on linear pooling, is demonstrated using a synthetic dataset.
翻訳日:2024-03-06 21:47:52 公開日:2024-03-03
# フェデレーション・トランスファー学習に関する包括的調査--課題・方法・応用

A Comprehensive Survey of Federated Transfer Learning: Challenges, Methods and Applications ( http://arxiv.org/abs/2403.01387v1 )

ライセンス: Link先を確認
Wei Guo, Fuzhen Zhuang, Xiao Zhang, Yiqi Tong, Jin Dong(参考訳) フェデレーテッド・ラーニング(FL)は、データ共有の必要をなくすことで、参加者がプライバシー保護を伴う集中型モデルを協調的にトレーニングすることを可能にする、新しい分散機械学習パラダイムである。 実際には、FLは複数の参加者を巻き込み、対象者の更新を導くために、第三者がグローバル情報を集約する必要がある。 したがって、各参加者のトレーニングやテストデータのために多くのFLメソッドがうまく動作しないため、同じ特徴空間と基礎となる分布からサンプルを採取することはできない。 一方、ローカルデバイスの違い(システム不均一性)、オンラインデータの継続的な流入(インクリメンタルデータ)、ラベル付きデータの不足は、これらの手法の性能にさらに影響を及ぼす可能性がある。 この問題を解決するために、転送学習(tl)をflに統合したフェデレート転送学習(ftl)が多くの研究者の注目を集めている。 しかし、flは各通信ラウンドの参加者間の継続的な知識共有を可能にし、他の参加者によるローカルデータへのアクセスを許可していないため、tlにはない多くのユニークな課題に直面している。 本研究では,フェデレーション・トランスファー・ラーニングの現在の進展を分類・レビューし,対応するソリューションとアプリケーションを概説する。 さらに、FTLシナリオの共通設定、利用可能なデータセット、および重要な関連研究について、本調査で要約する。

Federated learning (FL) is a novel distributed machine learning paradigm that enables participants to collaboratively train a centralized model with privacy preservation by eliminating the requirement of data sharing. In practice, FL often involves multiple participants and requires the third party to aggregate global information to guide the update of the target participant. Therefore, many FL methods do not work well due to the training and test data of each participant may not be sampled from the same feature space and the same underlying distribution. Meanwhile, the differences in their local devices (system heterogeneity), the continuous influx of online data (incremental data), and labeled data scarcity may further influence the performance of these methods. To solve this problem, federated transfer learning (FTL), which integrates transfer learning (TL) into FL, has attracted the attention of numerous researchers. However, since FL enables a continuous share of knowledge among participants with each communication round while not allowing local data to be accessed by other participants, FTL faces many unique challenges that are not present in TL. In this survey, we focus on categorizing and reviewing the current progress on federated transfer learning, and outlining corresponding solutions and applications. Furthermore, the common setting of FTL scenarios, available datasets, and significant related research are summarized in this survey.
翻訳日:2024-03-06 21:47:38 公開日:2024-03-03
# 量子化大型言語モデルの圧縮性について

On the Compressibility of Quantized Large Language Models ( http://arxiv.org/abs/2403.01384v1 )

ライセンス: Link先を確認
Yu Mao, Weilan Wang, Hongchao Du, Nan Guan, and Chun Jason Xue(参考訳) エッジやモバイルデバイスにLLM(Large Language Models)をデプロイすることは、データプライバシの強化やリアルタイム処理機能など、大きなメリットを提供する。 しかし、LLMのメモリ要求がかなり大きいため、重大な問題に直面している。 量子化は、優れた性能を維持しながらモデルサイズを減らす効果的な方法である。 しかし、量子化後も、LLMはエッジやモバイルデバイスの限られたメモリに完全に収まるには大きすぎるため、推論を完了するには部分的にストレージからロードする必要がある。 この場合、モデルローディングのI/OレイテンシはLLM推論遅延のボトルネックとなる。 本研究では,データ圧縮技術を適用してデータ移動を減らし,メモリに制約のあるデバイス上での量子化LDMの推論を高速化する。 特に,量子化llmの圧縮性,量子化llmの圧縮性と性能のトレードオフ,両者を共同で最適化する機会について論じた。

Deploying Large Language Models (LLMs) on edge or mobile devices offers significant benefits, such as enhanced data privacy and real-time processing capabilities. However, it also faces critical challenges due to the substantial memory requirement of LLMs. Quantization is an effective way of reducing the model size while maintaining good performance. However, even after quantization, LLMs may still be too big to fit entirely into the limited memory of edge or mobile devices and have to be partially loaded from the storage to complete the inference. In this case, the I/O latency of model loading becomes the bottleneck of the LLM inference latency. In this work, we take a preliminary step of studying applying data compression techniques to reduce data movement and thus speed up the inference of quantized LLM on memory-constrained devices. In particular, we discussed the compressibility of quantized LLMs, the trade-off between the compressibility and performance of quantized LLMs, and opportunities to optimize both of them jointly.
翻訳日:2024-03-06 21:47:09 公開日:2024-03-03
# ロングテール知識のための質問応答自動生成

Automatic Question-Answer Generation for Long-Tail Knowledge ( http://arxiv.org/abs/2403.01382v1 )

ライセンス: Link先を確認
Rohan Kumar, Youngmin Kim, Sunitha Ravi, Haitian Sun, Christos Faloutsos, Ruslan Salakhutdinov, Minji Yoon(参考訳) 事前訓練された大規模言語モデル (LLM) は、オープンドメイン質問回答 (QA) に対処するために大きな注目を集めている。 共通知識に関する質問に対して高い精度で答える一方で、LLMは珍しいロングテール知識(テールエンティティ)について学ぶのに困難に直面する。 手動でQAデータセットを構築するには、かなりの人的リソースを必要とするため、既存のQAデータセットの種類は限られており、テールエンティティ上でのLLMのパフォーマンスを研究するためのデータセットが不足しています。 本稿では、テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案し、関連する研究課題を示す。 我々は、新たに生成された長尾QAデータセットに事前学習されたLLMを用いて、ウィキペディアやウィキデータ知識グラフを含む外部リソースとの性能を比較し、広範な実験を行う。

Pretrained Large Language Models (LLMs) have gained significant attention for addressing open-domain Question Answering (QA). While they exhibit high accuracy in answering questions related to common knowledge, LLMs encounter difficulties in learning about uncommon long-tail knowledge (tail entities). Since manually constructing QA datasets demands substantial human resources, the types of existing QA datasets are limited, leaving us with a scarcity of datasets to study the performance of LLMs on tail entities. In this paper, we propose an automatic approach to generate specialized QA datasets for tail entities and present the associated research challenges. We conduct extensive experiments by employing pretrained LLMs on our newly generated long-tail QA datasets, comparing their performance with and without external resources including Wikipedia and Wikidata knowledge graphs.
翻訳日:2024-03-06 21:46:53 公開日:2024-03-03
# SA-MixNet:リモートセンシング画像におけるスクリブル制御道路抽出のための構造認識混合と不変学習

SA-MixNet: Structure-aware Mixup and Invariance Learning for Scribble-supervised Road Extraction in Remote Sensing Images ( http://arxiv.org/abs/2403.01381v1 )

ライセンス: Link先を確認
Jie Feng, Hao Huang, Junpeng Zhang, Weisheng Dong, Dingwen Zhang, Licheng Jiao(参考訳) 主流の弱い道路抽出機は、スクリブルから伝播する自信の強い擬似ラベルに依存しており、画像シーンが多様になるにつれて、その性能は徐々に低下する。 このような劣化は、異なる複雑さを持つシーンに対するモデルの不均一性に起因すると論じる一方で、既存の解は、スクリブルから導出できない工芸品の先行に基づくのが一般的である。 そこで本研究では,データ駆動方式のモデル不変性を改善するために,弱教師付き道路抽出のための構造認識型混和・不分散学習フレームワーク(sa-mixnet)を提案する。 具体的には,道路の構造的完全性を維持しつつ,複雑な画像シーンを作成するために,道路領域を画像から別の画像に貼り付ける構造認識ミックスアップスキームを設計する。 次に、構築された画像と原点画像の予測に分散正規化を課し、衝突を最小限に抑え、モデルが様々な場面で一貫して振る舞うことを強いる。 さらに,道路構造を保全しつつ接続性を高めるために,識別器に基づく正規化を設計する。 これらの設計を組み合わせることで、私たちのフレームワークは、DeepGlobe、Wuhan、およびマサチューセッツのデータセットにおいて、IoUメトリクスのそれぞれ1.47%、2.12%、4.09%の最先端技術よりも優れたパフォーマンスを示し、プラグアンドプレイの可能性を示している。 コードは公開される予定だ。

Mainstreamed weakly supervised road extractors rely on highly confident pseudo-labels propagated from scribbles, and their performance often degrades gradually as the image scenes tend various. We argue that such degradation is due to the poor model's invariance to scenes with different complexities, whereas existing solutions to this problem are commonly based on crafted priors that cannot be derived from scribbles. To eliminate the reliance on such priors, we propose a novel Structure-aware Mixup and Invariance Learning framework (SA-MixNet) for weakly supervised road extraction that improves the model invariance in a data-driven manner. Specifically, we design a structure-aware Mixup scheme to paste road regions from one image onto another for creating an image scene with increased complexity while preserving the road's structural integrity. Then an invariance regularization is imposed on the predictions of constructed and origin images to minimize their conflicts, which thus forces the model to behave consistently on various scenes. Moreover, a discriminator-based regularization is designed for enhancing the connectivity meanwhile preserving the structure of roads. Combining these designs, our framework demonstrates superior performance on the DeepGlobe, Wuhan, and Massachusetts datasets outperforming the state-of-the-art techniques by 1.47%, 2.12%, 4.09% respectively in IoU metrics, and showing its potential of plug-and-play. The code will be made publicly available.
翻訳日:2024-03-06 21:46:37 公開日:2024-03-03
# エミッタの線形配列を用いたフォールトトレラント量子誤差補正

Fault-tolerant Quantum Error Correction Using a Linear Array of Emitters ( http://arxiv.org/abs/2403.01376v1 )

ライセンス: Link先を確認
Jintae Kim, Jung Hoon Han, Isaac H. Kim(参考訳) エミッタと遅延ラインの線形配列からなるフォールトトレラントな量子誤り訂正アーキテクチャを提案する。 本手法では,光子のストリームと近隣のエミッタを相互作用させることにより,フォールトトレラント量子計算のためのリソース状態を生成する。 遅延線誤差がない場合、標準回路レベルの非分極誤差モデルに対するしきい値が0.32%から0.39%の範囲となる。 n_e が順序単位の小さな定数である場合と、n_e が符号距離でスケールする場合の2つの状態における遅延線誤差の影響について検討する。 これら2つの状態の間、論理誤差率は、eta^{-1/2} の指数減衰から eta^{-1} の指数崩壊まで、n_e の増加とともに着実に減少する。 また,故障点と耐故障性オーバーヘッドについても詳細に検討した。 これらの結果から, 誤りの発生源が十分小さいと仮定して, 最先端の遅延線を用いたマルチエミッタアーキテクチャを用いて誤りの抑制を実証できることが示唆された。

We propose a fault-tolerant quantum error correction architecture consisting of a linear array of emitters and delay lines. In our scheme, a resource state for fault-tolerant quantum computation is generated by letting the emitters interact with a stream of photons and their neighboring emitters. In the absence of delay line errors, our schemes have thresholds ranging between 0.32% and 0.39% against the standard circuit-level depolarizing error model. Depending on the number of emitters n_e, we study the effect of delay line errors in two regimes: when n_e is a small constant of order unity and when n_e scales with the code distance. Between these two regimes, the logical error rate steadily decreases as n_e increases, from an exponential decay in eta^{-1/2} to an exponential decay in eta^{-1}. We also carry out a detailed study of the break-even point and the fault-tolerance overhead. These studies suggest that the multi-emitter architecture, using the state-of-the-art delay lines, can be used to demonstrate error suppression, assuming other sources of errors are sufficiently small.
翻訳日:2024-03-06 21:46:09 公開日:2024-03-03
# ロバストでスケーラブルな量子計測のための全パス読み出し

All-Pass Readout for Robust and Scalable Quantum Measurement ( http://arxiv.org/abs/2403.01375v1 )

ライセンス: Link先を確認
Alec Yen, Yufeng Ye, Kaidong Peng, Jennifer Wang, Gregory Cunningham, Michael Gingras, Bethany M. Niedzielski, Hannah Stickler, Kyle Serniak, Mollie E. Schwartz, Kevin P. O'Brien(参考訳) 堅牢でスケーラブルな多重量子ビット読み出しは、フォールトトレラントな量子コンピュータの実現に不可欠である。 そこで本研究では,光子を優先的に1方向に出力する全パス共振器を用いて,超伝導量子ビットの伝送ベースの分散可読化を提案する。 これは、一端のフィードラインを意図的にミスマッチさせ、読み出し信号が優先的に出力に向かって減衰する典型的な読み出し方式とは対照的である。 この意図的なミスマッチは、非理想インピーダンス環境による効果的な共振器線路幅の拡大やインピーダンスマッチングのためのインフラストラクチャの追加など、スケーリングの課題を生じさせる。 提案する"all-pass readout"アーキテクチャは,意図的なミスマッチを回避し,多重量子ビット読み出しの信頼性とモジュール設計の実現を目的としている。 我々は、全帯域にわたって1.17dB未満の挿入損失と1.53dBの最大挿入損失を示す全パス読み出し共振器を、トランスモン量子ビットの最低3つの状態に対して設計・製造する。 我々は,600 nsで平均98.1%のシングルショット忠実度でqubit読み出しを行い,分散シフトの効果を評価するため,シェルビングプロトコルを実装し,300 nsで99.0%の忠実性を達成する。

Robust and scalable multiplexed qubit readout will be essential to the realization of a fault-tolerant quantum computer. To this end, we propose and demonstrate transmission-based dispersive readout of a superconducting qubit using an all-pass resonator that preferentially emits readout photons in one direction. This is in contrast to typical readout schemes, which intentionally mismatch the feedline at one end so that the readout signal preferentially decays toward the output. We show that this intentional mismatch creates scaling challenges, including larger spread of effective resonator linewidths due to non-ideal impedance environments and added infrastructure for impedance matching. Our proposed "all-pass readout" architecture avoids the need for intentional mismatch and aims to enable reliable, modular design of multiplexed qubit readout, thus improving the scaling prospects of quantum computers. We design and fabricate an all-pass readout resonator that demonstrates insertion loss below 1.17 dB at the readout frequency and a maximum insertion loss of 1.53 dB across its full bandwidth for the lowest three states of a transmon qubit. We demonstrate qubit readout with an average single-shot fidelity of 98.1% in 600 ns; to assess the effect of larger dispersive shift, we implement a shelving protocol and achieve a fidelity of 99.0% in 300 ns.
翻訳日:2024-03-06 21:45:49 公開日:2024-03-03
# 大規模視覚言語モデルにおける数幻覚の評価と緩和:一貫性の観点から

Evaluating and Mitigating Number Hallucinations in Large Vision-Language Models: A Consistency Perspective ( http://arxiv.org/abs/2403.01373v1 )

ライセンス: Link先を確認
Huixuan Zhang, Junzhe Zhang, Xiaojun Wan(参考訳) 大きな視覚言語モデルは、テキストコンテンツと視覚コンテンツの両方に関連する課題に対処する上で、顕著な効果を示した。 しかしながら、これらのモデルは様々な幻覚に影響を受けやすい。 本稿では,モデルが画像中の物体の量を正確に識別できない場合を例として,特に数幻覚と呼ぶ新しい形態の幻覚に焦点を当てる。 我々は,データセットを確立し,評価指標を用いて数幻覚を評価することにより,この問題が主流の大規模視覚言語モデル(lvlms)において顕著に広まることを明らかにする。 さらに,数幻覚の徹底的な分析を行い,二つの関連点から内外矛盾問題を考察した。 この矛盾は幻覚の1つの原因であると主張し、そのような幻覚を和らげる手段として一貫性の訓練法を提案し、直接微調整法と比較して平均8\%の改善を達成している。

Large vision language models have demonstrated remarkable efficacy in addressing challenges related to both textual and visual content. Nevertheless, these models are susceptible to various hallucinations. In this paper, we focus on a new form of hallucination, specifically termed as number hallucination, which denotes instances where models fail to accurately identify the quantity of objects in an image. We establish a dataset and employ evaluation metrics to assess number hallucination, revealing a pronounced prevalence of this issue across mainstream large vision language models (LVLMs). Additionally, we delve into a thorough analysis of number hallucination, examining inner and outer inconsistency problem from two related perspectives. We assert that this inconsistency is one cause of number hallucination and propose a consistency training method as a means to alleviate such hallucination, which achieves an average improvement of 8\% compared with direct finetuning method.
翻訳日:2024-03-06 21:45:25 公開日:2024-03-03
# 大規模変分ガウス状態空間モデル

Large-scale variational Gaussian state-space models ( http://arxiv.org/abs/2403.01371v1 )

ライセンス: Link先を確認
Matthew Dowling, Yuan Zhao, Il Memming Park(参考訳) ガウス雑音によって駆動される非線形動力学を持つ状態空間モデルに対して,不定形変分推論アルゴリズムと構造化変分近似を導入する。 提案手法は, 対角ガウス近似を用いることなく, エルボおよび低分散確率勾配推定の効率的な評価を可能にする。 (i)モンテカルロ近似の低ランク構造を動力学を通じて潜在状態を限界化する (ii)低ランク精度行列更新による更新ステップを近似する推論ネットワーク (iii)現在及び将来の観測を疑似観測に符号化する -- 近似平滑化問題を(より簡単な)近似フィルタリング問題に変換する。 全体として、必要な統計とelboは$o(tl(sr + s^2 + r^2))$$t$が級数の長さ、$l$は状態空間次元、$s$は予測ステップの統計を近似するために使われるサンプル数、$r$は更新ステップにおける近似精度行列更新のランク($l$よりはるかに低い次元で作成できる)で計算できる。

We introduce an amortized variational inference algorithm and structured variational approximation for state-space models with nonlinear dynamics driven by Gaussian noise. Importantly, the proposed framework allows for efficient evaluation of the ELBO and low-variance stochastic gradient estimates without resorting to diagonal Gaussian approximations by exploiting (i) the low-rank structure of Monte-Carlo approximations to marginalize the latent state through the dynamics (ii) an inference network that approximates the update step with low-rank precision matrix updates (iii) encoding current and future observations into pseudo observations -- transforming the approximate smoothing problem into an (easier) approximate filtering problem. Overall, the necessary statistics and ELBO can be computed in $O(TL(Sr + S^2 + r^2))$ time where $T$ is the series length, $L$ is the state-space dimensionality, $S$ are the number of samples used to approximate the predict step statistics, and $r$ is the rank of the approximate precision matrix update in the update step (which can be made of much lower dimension than $L$).
翻訳日:2024-03-06 21:45:08 公開日:2024-03-03
# 変圧器エンコーダと特徴融合に基づく深さ推定アルゴリズム

Depth Estimation Algorithm Based on Transformer-Encoder and Feature Fusion ( http://arxiv.org/abs/2403.01370v1 )

ライセンス: Link先を確認
Linhan Xia, Junbang Liu, Tong Wu(参考訳) 本研究では,NYUとKITTIの深度データセットに適したトランスフォーマーエンコーダアーキテクチャに基づく新しい深度推定アルゴリズムを提案する。 この研究は、自然言語処理の成功で有名なトランスフォーマーモデルを採用し、深度推定タスクのための視覚データにおける複雑な空間関係を捉える。 この研究の重要な革新は、構造類似度指標尺度(SSIM)と平均正方形誤差(MSE)を組み合わせた複合損失関数の統合である。 この複合損失関数は、(SSIMによる)原画像に対する予測深度マップの構造的整合性を確保するとともに、(MSEによる)画素推定誤差を最小限に抑えるように設計されている。 本研究は,MSEに基づく損失によく見られる過度な平滑化の課題に対処し,精度だけでなく,入力画像との整合性も維持する深度マップの予測能力を向上させる。 NYU深度データセットを用いた厳密なトレーニングと評価を通じて、このモデルは優れた性能を示し、特に複雑な屋内および交通環境において、単一画像深度推定の大幅な進歩を示す。

This research presents a novel depth estimation algorithm based on a Transformer-encoder architecture, tailored for the NYU and KITTI Depth Dataset. This research adopts a transformer model, initially renowned for its success in natural language processing, to capture intricate spatial relationships in visual data for depth estimation tasks. A significant innovation of the research is the integration of a composite loss function that combines Structural Similarity Index Measure (SSIM) with Mean Squared Error (MSE). This combined loss function is designed to ensure the structural integrity of the predicted depth maps relative to the original images (via SSIM) while minimizing pixel-wise estimation errors (via MSE). This research approach addresses the challenges of over-smoothing often seen in MSE-based losses and enhances the model's ability to predict depth maps that are not only accurate but also maintain structural coherence with the input images. Through rigorous training and evaluation using the NYU Depth Dataset, the model demonstrates superior performance, marking a significant advancement in single-image depth estimation, particularly in complex indoor and traffic environments.
翻訳日:2024-03-06 21:44:44 公開日:2024-03-03
# グラフインジェクション攻撃に対する集団認証ロバスト性

Collective Certified Robustness against Graph Injection Attacks ( http://arxiv.org/abs/2403.01423v1 )

ライセンス: Link先を確認
Yuni Lai, Bailin Pan, Kaihuang Chen, Yancheng Yuan, Kai Zhou(参考訳) グラフインジェクション攻撃によるGNNのロバスト性について検討した。 既存の研究は、各ノードを独立して検証することで、サンプル単位の証明書のみを提供し、非常に限定的な認証性能をもたらす。 本稿では,対象ノードの集合を同時に認証する最初の集合証明書を提案する。 これを実現するために、二進整数2次制約線形プログラミング(BQCLP)として問題を定式化する。 さらに,BQCLPを線形プログラミング(LP)に緩和し,効率よく解けるようにしたリニア化手法を開発した。 包括的実験により,我々の集団認証方式は,計算オーバーヘッドを最小に抑え,認証性能を大幅に向上させることを実証した。 例えば、citeseerデータセット上でlpを1分以内に解くことで、注入されたノード数がグラフサイズの5%である場合、認証比率が0.0%から81.2%に大幅に向上する。 私たちのステップは、証明可能な防御をより実用的なものにするための重要なステップです。

We investigate certified robustness for GNNs under graph injection attacks. Existing research only provides sample-wise certificates by verifying each node independently, leading to very limited certifying performance. In this paper, we present the first collective certificate, which certifies a set of target nodes simultaneously. To achieve it, we formulate the problem as a binary integer quadratic constrained linear programming (BQCLP). We further develop a customized linearization technique that allows us to relax the BQCLP into linear programming (LP) that can be efficiently solved. Through comprehensive experiments, we demonstrate that our collective certification scheme significantly improves certification performance with minimal computational overhead. For instance, by solving the LP within 1 minute on the Citeseer dataset, we achieve a significant increase in the certified ratio from 0.0% to 81.2% when the injected node number is 5% of the graph size. Our step marks a crucial step towards making provable defense more practical.
翻訳日:2024-03-06 21:39:05 公開日:2024-03-03
# moviellm:ai映画によるロングビデオ理解の強化

MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies ( http://arxiv.org/abs/2403.01422v1 )

ライセンス: Link先を確認
Zhende Song, Chenchen Wang, Jiamu Sheng, Chi Zhang, Gang Yu, Jiayuan Fan, Tao Chen(参考訳) マルチモーダルモデルの開発は、マシンがビデオを理解する方法において大きな一歩を踏み出した。 これらのモデルは短いビデオクリップの分析に有望である。 しかし、映画のような長いフォーマットの場合、それらはしばしば不足する。 主なハードルは、高品質で多様なビデオデータの欠如と、そのようなデータの収集や注釈付けに必要な集中的な作業である。 これらの課題に直面して、長編ビデオのための合成高品質なデータを作成するための新しいフレームワーク、MovieLLMを提案する。 このフレームワークはGPT-4とテキスト・ツー・イメージ・モデルのパワーを活用して詳細なスクリプトと対応するビジュアルを生成する。 私たちのアプローチは柔軟性とスケーラビリティに際し、従来のデータ収集メソッドよりも優れた選択肢となります。 以上の結果から,MovieLLMが生成したデータにより,複雑な映像の物語を理解する上でのマルチモーダルモデルの性能が著しく向上することが確認された。

The development of multimodal models has marked a significant step forward in how machines understand videos. These models have shown promise in analyzing short video clips. However, when it comes to longer formats like movies, they often fall short. The main hurdles are the lack of high-quality, diverse video data and the intensive work required to collect or annotate such data. In the face of these challenges, we propose MovieLLM, a novel framework designed to create synthetic, high-quality data for long videos. This framework leverages the power of GPT-4 and text-to-image models to generate detailed scripts and corresponding visuals. Our approach stands out for its flexibility and scalability, making it a superior alternative to traditional data collection methods. Our extensive experiments validate that the data produced by MovieLLM significantly improves the performance of multimodal models in understanding complex video narratives, overcoming the limitations of existing datasets regarding scarcity and bias.
翻訳日:2024-03-06 21:38:47 公開日:2024-03-03
# 不変性と因果性に対する不均一性の暗黙のバイアス

The Implicit Bias of Heterogeneity towards Invariance and Causality ( http://arxiv.org/abs/2403.01420v1 )

ライセンス: Link先を確認
Yang Xu, Yihong Gu, Cong Fang(参考訳) 大規模な言語モデル(LLM)は,インターネット上の多数のコーパスを用いて回帰損失の変種を訓練することにより,ある程度の因果関係を明らかにすることができる。 これは「連想は因果ではない」という従来の知恵や、先行する因果知識をメソッドの設計に慎重に組み込むべき伝統的な因果推論のパラダイムとは対照的である。 因果関係が、より高い理解層において、因果関係を追求する回帰タスクから現れる理由は、謎である。 本稿では,相関指向トレーニングからの因果関係の出現は,ソースデータの多様性,トレーニングアルゴリズムの確率性,学習モデルの過剰パラメータ化による結合効果に起因していると主張する。 このような直観を、回帰損失を用いて準因果性である不変性を学ぶ単純だが洞察力に富んだモデルを用いて示す。 具体的には、未知のr-ランク基底d*d行列が環境に分散するが、下位不変な因果部分を含むマルチ環境低ランクマトリクスセンシング問題を考える。 この場合、プールされた勾配降下は、一般に関連のみを学ぶバイアス付きソリューションをもたらす。 本研究では,ある環境からランダムに選択された線形測定サンプルである大規模確率勾配 Descent の実行が,ある条件下での不変因果解への解の駆動に成功していることを示す。 このステップは、環境の相対的に強い不均一性、最適化アルゴリズムにおける大きなステップサイズとノイズ、モデルの過剰パラメータ化に関連している。 要約すると、我々は、データの不均一性と現代のアルゴリズムの共生の結果である別の暗黙バイアスを、まず文献において、私たちの知識の最も良いところへと明らかにした。

It is observed empirically that the large language models (LLM), trained with a variant of regression loss using numerous corpus from the Internet, can unveil causal associations to some extent. This is contrary to the traditional wisdom that ``association is not causation'' and the paradigm of traditional causal inference in which prior causal knowledge should be carefully incorporated into the design of methods. It is a mystery why causality, in a higher layer of understanding, can emerge from the regression task that pursues associations. In this paper, we claim the emergence of causality from association-oriented training can be attributed to the coupling effects from the heterogeneity of the source data, stochasticity of training algorithms, and over-parameterization of the learning models. We illustrate such an intuition using a simple but insightful model that learns invariance, a quasi-causality, using regression loss. To be specific, we consider multi-environment low-rank matrix sensing problems where the unknown r-rank ground-truth d*d matrices diverge across the environments but contain a lower-rank invariant, causal part. In this case, running pooled gradient descent will result in biased solutions that only learn associations in general. We show that running large-batch Stochastic Gradient Descent, whose each batch being linear measurement samples randomly selected from a certain environment, can successfully drive the solution towards the invariant, causal solution under certain conditions. This step is related to the relatively strong heterogeneity of the environments, the large step size and noises in the optimization algorithm, and the over-parameterization of the model. In summary, we unveil another implicit bias that is a result of the symbiosis between the heterogeneity of data and modern algorithms, which is, to the best of our knowledge, first in the literature.
翻訳日:2024-03-06 21:38:31 公開日:2024-03-03
# フォン・ノイマン型相互作用ハミルトニアンのスペクトル放送構造

Spectrum Broadcast Structures from von Neumann type interaction Hamiltonians ( http://arxiv.org/abs/2403.01419v1 )

ライセンス: Link先を確認
Alberto Acevedo, Janek Wehr, Jarek Korbicz(参考訳) 本稿では,最近確立されたスペクトル放送構造理論(SBS)の数学的基礎に貢献する。 これらは多部量子状態であり、目的性の操作的概念を符号化し、より高度なデコヒーレンスを示す。 我々は、自由量子系理論において、フォン・ノイマン型測定相互作用を介してN環境と相互作用する中心系においてSBSを研究する。 我々はSBSが有限次元系に対して動的に発生するような新しい条件を述べ、証明する。 この条件は、以前使われたKnill-Barnum誤差推定ではなく、Gram-Schmidt直交化に基づいている。

In this paper, we contribute to the mathematical foundations of the recently established theory of Spectrum Broadcast Structures (SBS). These are multipartite quantum states, encoding an operational notion of objectivity and exhibiting a more advanced form of decoherence. We study SBS in the case of a central system interacting with N environments via the von Neumann-type measurement interactions, ubiquitous in the theory of open quantum systems. We state and prove a novel sufficient condition for SBS to arise dynamically for finite-dimensional systems. The condition is based on the Gram-Schmidt orthogonalization rather than on the Knill-Barnum error estimation used before.
翻訳日:2024-03-06 21:37:57 公開日:2024-03-03
# トレーニングフリークラス非依存カウントのための単純だが効果的なベースライン

A Simple-but-effective Baseline for Training-free Class-Agnostic Counting ( http://arxiv.org/abs/2403.01418v1 )

ライセンス: Link先を確認
Yuhao Lin, Haiming Xu, Lingqiao Liu, Javen Qinfeng Shi(参考訳) CAC(Class-Agnostic Counting)は、いくつかの参照例だけで、与えられた画像内のオブジェクトを正確にカウントする。 これまでの方法は追加のトレーニングに頼っていたが、近年の取り組みは、既存の基礎モデル、特にSAM(Segment Anything Model)を利用して、インスタンスレベルのセグメンテーションを通じてカウントすることで、トレーニングなしでこれを達成することができることを示した。 有望ではあるが、現在のトレーニングフリーメソッドは、パフォーマンスという点ではトレーニングベースのメソッドよりも遅れている。 本研究では,このパフォーマンスギャップを効果的に橋渡しし,強力なベースラインとして機能する,簡単なトレーニングフリーなソリューションを提案する。 私たちの仕事の主な貢献は、パフォーマンスを向上させる4つの重要な技術の発見にあります。 具体的には、より正確な初期点プロンプトを生成するためにスーパーピクセルアルゴリズムを使用し、より豊かな意味知識を持つイメージエンコーダを使用して候補オブジェクトを表すsamエンコーダを置き換えることを提案し、参照例の表現を更新するためにマルチスケール機構とトランスダクティブプロトタイプスキームを採用する。 これら4つの技術を組み合わせることで、既存のトレーニングフリーメソッドよりも大幅な改善を達成し、トレーニングベースの手法と同等のパフォーマンスを実現します。

Class-Agnostic Counting (CAC) seeks to accurately count objects in a given image with only a few reference examples. While previous methods achieving this relied on additional training, recent efforts have shown that it's possible to accomplish this without training by utilizing pre-existing foundation models, particularly the Segment Anything Model (SAM), for counting via instance-level segmentation. Although promising, current training-free methods still lag behind their training-based counterparts in terms of performance. In this research, we present a straightforward training-free solution that effectively bridges this performance gap, serving as a strong baseline. The primary contribution of our work lies in the discovery of four key technologies that can enhance performance. Specifically, we suggest employing a superpixel algorithm to generate more precise initial point prompts, utilizing an image encoder with richer semantic knowledge to replace the SAM encoder for representing candidate objects, and adopting a multiscale mechanism and a transductive prototype scheme to update the representation of reference examples. By combining these four technologies, our approach achieves significant improvements over existing training-free methods and delivers performance on par with training-based ones.
翻訳日:2024-03-06 21:37:46 公開日:2024-03-03
# Asyn2F: 双方向モデル集約による非同期フェデレーション学習フレームワーク

Asyn2F: An Asynchronous Federated Learning Framework with Bidirectional Model Aggregation ( http://arxiv.org/abs/2403.01417v1 )

ライセンス: Link先を確認
Tien-Dung Cao, Nguyen T. Vuong, Thai Q. Le, Hoang V.N. Dao, Tram Truong-Huu(参考訳) フェデレーション学習では、モデルを同期あるいは非同期にトレーニングすることができる。 多くの研究は、サーバが複数のローカルモデルをグローバルモデルに集約し、性能を向上させるアグリゲーション手法の開発に注力してきた。 彼らはトレーニングワーカーの多様性を無視し、ローカルモデルのトレーニングが遅れる原因となり、時代遅れの情報問題に繋がる。 本稿では,双方向モデル集約型非同期フェデレーション学習フレームワークasyn2fの設計と開発を行う。 双方向モデルアグリゲーションにより、Asyn2Fはサーバが複数のローカルモデルを非同期に集約し、結果として新しいグローバルモデルが得られる。 一方で、トレーニングワーカーがグローバルモデルの新バージョンをローカルモデルに集約することも可能だ。 本稿では,クラウドサービスをモデルストレージに,メッセージキュープロトコルを通信に使用するなど,実用的な実装要件を考慮したAsyn2Fを開発した。 異なるデータセットを用いた広範囲な実験により、asyn2fがトレーニングしたモデルは最先端の技術よりも高いパフォーマンスを達成していることが示された。 実験はまた、asyn2fの有効性、実用性、スケーラビリティを実証し、実際のシナリオでのデプロイの準備を整えた。

In federated learning, the models can be trained synchronously or asynchronously. Many research works have focused on developing an aggregation method for the server to aggregate multiple local models into the global model with improved performance. They ignore the heterogeneity of the training workers, which causes the delay in the training of the local models, leading to the obsolete information issue. In this paper, we design and develop Asyn2F, an Asynchronous Federated learning Framework with bidirectional model aggregation. By bidirectional model aggregation, Asyn2F, on one hand, allows the server to asynchronously aggregate multiple local models and results in a new global model. On the other hand, it allows the training workers to aggregate the new version of the global model into the local model, which is being trained even in the middle of a training epoch. We develop Asyn2F considering the practical implementation requirements such as using cloud services for model storage and message queuing protocols for communications. Extensive experiments with different datasets show that the models trained by Asyn2F achieve higher performance compared to the state-of-the-art techniques. The experiments also demonstrate the effectiveness, practicality, and scalability of Asyn2F, making it ready for deployment in real scenarios.
翻訳日:2024-03-06 21:37:22 公開日:2024-03-03
# 非符号直交距離場:横3次元形状の正確なニューラルインプシット表現

Unsigned Orthogonal Distance Fields: An Accurate Neural Implicit Representation for Diverse 3D Shapes ( http://arxiv.org/abs/2403.01414v1 )

ライセンス: Link先を確認
Yujie Lu, Long Wan, Nayu Ding, Yulong Wang, Shuhan Shen, Shen Cai, Lin Gao(参考訳) 幾何学的形状の神経的暗黙的表現は近年かなり進歩している。 しかし、共通距離場に基づく暗黙的表現、特に水密形状の符号付き距離場(SDF)や任意の形状の符号なし距離場(UDF)は、明示的な表面点やメッシュに変換する際に、通常、再構成精度の低下に悩まされる。 本稿では,符号なし直交距離場(uodfs)に基づくニューラル暗黙表現を提案する。 UODFでは、任意の空間点から形状面までの最小符号なし距離は、SDFとUDFの多方向決定と対比して、1つの直交方向のみに定義される。 したがって、3d uodfの全ての点が3つの直交方向に沿ってその最寄りの表面点に直接アクセスすることができる。 この特徴は補間誤差のない表面点の正確な再構成を利用する。 簡単な水密形状や非水密形状から,ホロウ,内装構造,組立構造を含む複雑な形状まで,様々な再構築例を通してUODFの有効性を検証する。

Neural implicit representation of geometric shapes has witnessed considerable advancements in recent years. However, common distance field based implicit representations, specifically signed distance field (SDF) for watertight shapes or unsigned distance field (UDF) for arbitrary shapes, routinely suffer from degradation of reconstruction accuracy when converting to explicit surface points and meshes. In this paper, we introduce a novel neural implicit representation based on unsigned orthogonal distance fields (UODFs). In UODFs, the minimal unsigned distance from any spatial point to the shape surface is defined solely in one orthogonal direction, contrasting with the multi-directional determination made by SDF and UDF. Consequently, every point in the 3D UODFs can directly access its closest surface points along three orthogonal directions. This distinctive feature leverages the accurate reconstruction of surface points without interpolation errors. We verify the effectiveness of UODFs through a range of reconstruction examples, extending from simple watertight or non-watertight shapes to complex shapes that include hollows, internal or assembling structures.
翻訳日:2024-03-06 21:37:03 公開日:2024-03-03
# 音楽に基づく高齢者の思い出を支援するジェネレーティブAI設計の探求

Exploring the Design of Generative AI in Supporting Music-based Reminiscence for Older Adults ( http://arxiv.org/abs/2403.01413v1 )

ライセンス: Link先を確認
Yucheng Jin, Wanling Cai, Li Chen, Yizhe Zhang, Gavin Doherty, Tonglin Jiang(参考訳) 音楽に基づく思い出は、高齢者の心理的幸福に肯定的な影響を与える可能性がある。 しかし、老化過程や記憶の低下や言語コミュニケーションの制限といった生理的変化は、高齢者が記憶や生活経験を思い出す能力を妨げる可能性がある。 生成的人工知能(AI)システムの高度な機能、例えば、生成された会話や画像、そしてその思い出のプロセスを促進する可能性を踏まえ、本研究は、高齢者における音楽に基づく思い出を支援するための生成的AIの設計を探求することを目的とする。 本研究は,ソーシャルワーカー2名とデザインワークショップ2名(高齢者10名)の詳細なインタビューを含む,様々な段階を包含したユーザ中心のデザインアプローチである。 本研究は,音楽に基づく思い出を支援するための生成ai活用に対する高齢者の態度の深い理解に寄与し,高齢者の思い出体験向上のための生成aiの今後の設計に向けた具体的な設計上の考察を明らかにする。

Music-based reminiscence has the potential to positively impact the psychological well-being of older adults. However, the aging process and physiological changes, such as memory decline and limited verbal communication, may impede the ability of older adults to recall their memories and life experiences. Given the advanced capabilities of generative artificial intelligence (AI) systems, such as generated conversations and images, and their potential to facilitate the reminiscing process, this study aims to explore the design of generative AI to support music-based reminiscence in older adults. This study follows a user-centered design approach incorporating various stages, including detailed interviews with two social workers and two design workshops (involving ten older adults). Our work contributes to an in-depth understanding of older adults' attitudes toward utilizing generative AI for supporting music-based reminiscence and identifies concrete design considerations for the future design of generative AI to enhance the reminiscence experience of older adults.
翻訳日:2024-03-06 21:36:43 公開日:2024-03-03
# LUM-ViT:帯域限定光信号取得用アンダーサンプリングマスクビジョン変換器

LUM-ViT: Learnable Under-sampling Mask Vision Transformer for Bandwidth Limited Optical Signal Acquisition ( http://arxiv.org/abs/2403.01412v1 )

ライセンス: Link先を確認
Lingfeng Liu, Dong Ni, Hangjie Yuan(参考訳) 信号取得時の帯域制限はリアルタイム検出をしばしば阻害する。 ハイパースペクトルデータ(hyperspectral data)は、リアルタイムのハイパースペクトル検出を損なう膨大な量の例である。 このハードルに取り組むために,我々は,獲得前の変調を利用して獲得量を減らす新しいアプローチを提案する。 この変調プロセスは、事前情報を利用してディープラーニングモデルによって制御される。 私たちのアプローチの中心は、Vision Transformerの亜種であるLUM-ViTです。 同様に、LUM-ViTは事前取得の調整に適した学習可能なアンダーサンプリングマスクを組み込んでいる。 さらに光学計算を最適化するために,カーネルレベルの重み2値化手法と3段階の微調整戦略を提案する。 評価の結果,LUM-ViTは画像画像の10%をサンプリングすることで,画像ネット分類タスクにおいて1.8%以内の精度低下を維持できることがわかった。 この手法は、実世界の光学ハードウェアに実装した場合の原初の精度を維持し、実用性を示す。 コードはhttps://github.com/MaxLLF/LUM-ViT.comから入手できる。

Bandwidth constraints during signal acquisition frequently impede real-time detection applications. Hyperspectral data is a notable example, whose vast volume compromises real-time hyperspectral detection. To tackle this hurdle, we introduce a novel approach leveraging pre-acquisition modulation to reduce the acquisition volume. This modulation process is governed by a deep learning model, utilizing prior information. Central to our approach is LUM-ViT, a Vision Transformer variant. Uniquely, LUM-ViT incorporates a learnable under-sampling mask tailored for pre-acquisition modulation. To further optimize for optical calculations, we propose a kernel-level weight binarization technique and a three-stage fine-tuning strategy. Our evaluations reveal that, by sampling a mere 10% of the original image pixels, LUM-ViT maintains the accuracy loss within 1.8% on the ImageNet classification task. The method sustains near-original accuracy when implemented on real-world optical hardware, demonstrating its practicality. Code will be available at https://github.com/MaxLLF/LUM-ViT.
翻訳日:2024-03-06 21:36:26 公開日:2024-03-03
# OVEL: オンラインビデオエンティティリンクのためのメモリマネージャとしての大規模言語モデル

OVEL: Large Language Model as Memory Manager for Online Video Entity Linking ( http://arxiv.org/abs/2403.01411v1 )

ライセンス: Link先を確認
Haiquan Zhao and Xuwu Wang and Shisong Chen and Zhixu Li and Xin Zheng and Yanghua Xiao(参考訳) 近年、マルチモーダル・エンティティ・リンク (MEL) は、多数のマルチモーダル・アプリケーションにおいてその重要性から、研究コミュニティの注目を集めている。 ビデオは、情報伝達の一般的な手段として、人々の日常生活で普及している。 しかし、既存のMEL手法のほとんどは、主にテキストや視覚的な言及やオフラインビデオの言及をマルチモーダルな知識ベースのエンティティにリンクすることに焦点を当てており、オンラインビデオコンテンツ内での言及のリンクに限定している。 本稿では,オンラインビデオにおける参照と,高精度かつ時系列の知識ベースとの接続を確立することを目的とした,オンラインビデオエンティティリンクOVELというタスクを提案する。 OVELの研究を容易にするために、我々は特にライブ配信シナリオに集中し、LIVEと呼ばれるライブ配信エンティティリンクデータセットを構築します。 さらに,無期限,頑健性,正確性を考慮した評価指標を提案する。 さらに,ovelタスクを効果的に処理するために,大規模言語モデルが管理するメモリブロックを活用し,知識ベースからエンティティ候補を取得し,メモリ管理におけるllm性能を向上させる。 実験の結果,本手法の有効性と有効性が確認された。

In recent years, multi-modal entity linking (MEL) has garnered increasing attention in the research community due to its significance in numerous multi-modal applications. Video, as a popular means of information transmission, has become prevalent in people's daily lives. However, most existing MEL methods primarily focus on linking textual and visual mentions or offline videos's mentions to entities in multi-modal knowledge bases, with limited efforts devoted to linking mentions within online video content. In this paper, we propose a task called Online Video Entity Linking OVEL, aiming to establish connections between mentions in online videos and a knowledge base with high accuracy and timeliness. To facilitate the research works of OVEL, we specifically concentrate on live delivery scenarios and construct a live delivery entity linking dataset called LIVE. Besides, we propose an evaluation metric that considers timelessness, robustness, and accuracy. Furthermore, to effectively handle OVEL task, we leverage a memory block managed by a Large Language Model and retrieve entity candidates from the knowledge base to augment LLM performance on memory management. The experimental results prove the effectiveness and efficiency of our method.
翻訳日:2024-03-06 21:36:10 公開日:2024-03-03
# region-transformer: セルフアテンションリージョンベースのクラス非依存なポイントクラウドセグメンテーション

Region-Transformer: Self-Attention Region Based Class-Agnostic Point Cloud Segmentation ( http://arxiv.org/abs/2403.01407v1 )

ライセンス: Link先を確認
Dipesh Gyawali, Jian Zhang, BB Karki(参考訳) 特定の構造やオブジェクトの環境を理解するのに役立つポイントクラウドセグメンテーションは、クラス固有の、クラスに依存しない方法で実行できます。 本稿では,クラス非依存なポイントクラウドセグメンテーションを行うための,リージョントランスフォーマと呼ばれる新しい領域ベーストランスフォーマモデルを提案する。 このモデルは、地域成長アプローチと自己認識機構を利用して、ポイントの追加や削除によって、地域を反復的に拡大または縮小する。 インスタンスラベルのみのシミュレーションポイントクラウドでトレーニングされており、セマンティックラベルは避けられている。 注意に基づくネットワークは、ポイントクラウドセグメンテーションを実行する多くの手法で成功している。 しかし、注意に基づくネットワークによる地域成長アプローチは、そのパフォーマンス向上を探求するためにはまだ使われていない。 私たちの知る限りでは、私たちは最初に、地域成長アプローチで自己認識メカニズムを使用します。 近傍点の局所的文脈情報を活用可能な領域成長への自己注意の導入により,地域変換モデルが,屋内データセットにおけるクラスタリングメトリクスに関する従来のクラス非依存およびクラス固有の手法よりも優れていることを実証する。 モデルは大規模なシーンによく当てはまる。 主な利点は、自己注意による長距離依存関係のキャプチャ、トレーニング中のセマンティックラベルの必要性回避、さまざまなオブジェクトの適用性である。 Region-Transformerモデルは、ロボット工学、デジタルツインニング、自動運転車などの応用で柔軟なポイントクラウドセグメンテーションを実現するための有望なアプローチである。

Point cloud segmentation, which helps us understand the environment of specific structures and objects, can be performed in class-specific and class-agnostic ways. We propose a novel region-based transformer model called Region-Transformer for performing class-agnostic point cloud segmentation. The model utilizes a region-growth approach and self-attention mechanism to iteratively expand or contract a region by adding or removing points. It is trained on simulated point clouds with instance labels only, avoiding semantic labels. Attention-based networks have succeeded in many previous methods of performing point cloud segmentation. However, a region-growth approach with attention-based networks has yet to be used to explore its performance gain. To our knowledge, we are the first to use a self-attention mechanism in a region-growth approach. With the introduction of self-attention to region-growth that can utilize local contextual information of neighborhood points, our experiments demonstrate that the Region-Transformer model outperforms previous class-agnostic and class-specific methods on indoor datasets regarding clustering metrics. The model generalizes well to large-scale scenes. Key advantages include capturing long-range dependencies through self-attention, avoiding the need for semantic labels during training, and applicability to a variable number of objects. The Region-Transformer model represents a promising approach for flexible point cloud segmentation with applications in robotics, digital twinning, and autonomous vehicles.
翻訳日:2024-03-06 21:35:52 公開日:2024-03-03
# 多言語視覚推論に欠けているものとその修正方法

What Is Missing in Multilingual Visual Reasoning and How to Fix It ( http://arxiv.org/abs/2403.01404v1 )

ライセンス: Link先を確認
Yueqi Song, Simran Khanuja, Graham Neubig(参考訳) 現在、NLPモデルは複数の言語とモダリティをサポートし、多様なユーザのアクセシビリティを改善しようとしている。 本稿では,視覚的推論タスクのテストにより,多言語・多モーダル機能の評価を行う。 GPT-4Vのようなプロプライエタリなシステムは、現在このタスクで最高のパフォーマンスを得るが、オープンモデルは比較に遅れている。 驚くべきことに、gpt-4vは英語と他の言語で同様の性能を示しており、言語間の同等なシステム開発の可能性を示している。 モデル失敗に関する我々の分析では、このタスクを難しくする3つの重要な側面が明らかになっている。 これらの課題に対処するために,多言語性に取り組むための翻訳-テストアプローチ,複雑な推論を分解するビジュアルプログラミングアプローチ,多言語性に対処するために画像キャプションを利用する新しい方法の3つを提案する。 我々の介入は、ゼロショット設定でこのタスク上で最高のオープンパフォーマンスを実現し、オープンモデルLLaVAを13.4%向上させ、GPT-4Vの性能も若干改善した。

NLP models today strive for supporting multiple languages and modalities, improving accessibility for diverse users. In this paper, we evaluate their multilingual, multimodal capabilities by testing on a visual reasoning task. We observe that proprietary systems like GPT-4V obtain the best performance on this task now, but open models lag in comparison. Surprisingly, GPT-4V exhibits similar performance between English and other languages, indicating the potential for equitable system development across languages. Our analysis on model failures reveals three key aspects that make this task challenging: multilinguality, complex reasoning, and multimodality. To address these challenges, we propose three targeted interventions including a translate-test approach to tackle multilinguality, a visual programming approach to break down complex reasoning, and a novel method that leverages image captioning to address multimodality. Our interventions achieve the best open performance on this task in a zero-shot setting, boosting open model LLaVA by 13.4%, while also minorly improving GPT-4V's performance.
翻訳日:2024-03-06 21:35:27 公開日:2024-03-03
# 複数のグラフ事前学習タスクの統合のための解離と選択

Decoupling Weighing and Selecting for Integrating Multiple Graph Pre-training Tasks ( http://arxiv.org/abs/2403.01400v1 )

ライセンス: Link先を確認
Tianyu Fan, Lirong Wu, Yufei Huang, Haitao Lin, Cheng Tan, Zhangyang Gao, Stan Z. Li(参考訳) 近年,グラフ表現学習におけるグラフ事前学習が大きな成功を収めている。 数百のグラフ事前学習タスクが提案され、複数の事前学習タスクから得られた知識の統合が一般的な研究テーマとなっている。 本稿では,(1)課題プールから最適なタスクの組み合わせをどのように選択するか,(2)重要度に応じたタスクの重み付けを行うか,という2つの重要な協調プロセスを明らかにする。 現在、重量に重点を置いた作業が数多く行われているが、選択に費やす労力は比較的少ない。 本稿では,重み付けと選択という2つの協調プロセスが分離されたsiameseネットワークによって結合される,複数のグラフ事前学習タスクである weigh and select (was) を統合するための新しいインスタンスレベルフレームワークを提案する。 具体的には、カスタマイズされたインスタンスレベルのタスク重み付け戦略に基づいて、与えられたタスクプールから各インスタンスのタスクの最適な組み合わせを適応的に学習する。 ノードレベルおよびグラフレベルのダウンストリームタスクにわたる16のグラフデータセットに関する大規模な実験は、いくつかの単純だが古典的なタスクを組み合わせることで、WASは他の主要なタスクと同等のパフォーマンスを達成できることを示した。 コードはhttps://github.com/tianyufan0504/wasで入手できる。

Recent years have witnessed the great success of graph pre-training for graph representation learning. With hundreds of graph pre-training tasks proposed, integrating knowledge acquired from multiple pre-training tasks has become a popular research topic. In this paper, we identify two important collaborative processes for this topic: (1) select: how to select an optimal task combination from a given task pool based on their compatibility, and (2) weigh: how to weigh the selected tasks based on their importance. While there currently has been a lot of work focused on weighing, comparatively little effort has been devoted to selecting. This paper proposes a novel instance-level framework for integrating multiple graph pre-training tasks, Weigh And Select (WAS), where the two collaborative processes, weighing and selecting, are combined by decoupled siamese networks. Specifically, it first adaptively learns an optimal combination of tasks for each instance from a given task pool, based on which a customized instance-level task weighing strategy is learned. Extensive experiments on 16 graph datasets across node-level and graph-level downstream tasks have demonstrated that by combining a few simple but classical tasks, WAS can achieve comparable performance to other leading counterparts. The code is available at https://github.com/TianyuFan0504/WAS.
翻訳日:2024-03-06 21:35:07 公開日:2024-03-03
# cr-lt-kgqa:コモンセンス推論とロングテール知識を必要とするナレッジグラフ質問応答データセット

CR-LT-KGQA: A Knowledge Graph Question Answering Dataset Requiring Commonsense Reasoning and Long-Tail Knowledge ( http://arxiv.org/abs/2403.01395v1 )

ライセンス: Link先を確認
Willis Guo, Armin Toroghi, Scott Sanner(参考訳) 知識グラフ質問応答 (KGQA) は、知識グラフ(KGs)を活用して、自然言語(NL)質問に対する現実的な回答を提供するための、確立された分野である。 しかし,既存のKGQAデータセットには,(1)既存のKGQAデータセットが存在しないこと,(2)既存のKGQAデータセットは,幻覚なく,かつKGを活用せずに直接答えられるような一般的なエンティティに焦点を当てていること,の2つの大きな制限がある。 本研究では,コモンセンス推論をサポートする新しいkgqaデータセットを求め,llmが頻繁に幻覚を呈するロングテールエンティティ(非メインストリームや最近のエンティティなど)に焦点を当て,事実的かつ帰属的コモンセンス推論にkgを利用する新しい方法論の必要性を生んでいる。 我々は,2つのサブタスク – 質問応答とクレーム検証 – を備えた新しいCommonsense Reasoning(CR)とLong-Tail(LT)KGQAデータセットを作成し,制限(1)と(2)の両方に対処する。 既存の推論データセットであるStrategyQAとCREAKをWikidata上に拡張してCR-LT-KGQAを構築する。 既存のKGQA法は、コモンセンス推論サポートの欠如により適用できないが、CR-LT KGQA上のLCMのベースライン評価は幻覚の頻度が高いことを示している。 したがって、CR-LT KGQAは幻覚を誘発するLLMにとって重要な課題であり、LLMの時代における長い尾の実体に対する正確かつ現実的な答えを提供するための将来の常識KGQA研究の道を開いた。

Knowledge graph question answering (KGQA) is a well-established field that seeks to provide factual answers to natural language (NL) questions by leveraging knowledge graphs (KGs). However, existing KGQA datasets suffer from two significant limitations: (1) no existing KGQA dataset requires commonsense reasoning to arrive at an answer and (2) existing KGQA datasets focus on popular entities for which large language models (LLMs) can directly answer without hallucinating and without leveraging the KG. In this work, we seek a novel KGQA dataset that supports commonsense reasoning and focuses on long-tail entities (e.g., non-mainstream and recent entities) where LLMs frequently hallucinate, and thus create the need for novel methodologies that leverage the KG for factual and attributable commonsense inference. We create a novel Commonsense Reasoning (CR) and Long-Tail (LT) KGQA dataset with two subtasks -- question answering and claim verification -- that address both limitations (1) and (2). We construct CR-LT-KGQA by building extensions to existing reasoning datasets StrategyQA and CREAK over Wikidata. While existing KGQA methods are not applicable due to their lack of commonsense inference support, baseline evaluation of LLMs on CR-LT KGQA demonstrate a high rate of hallucination. Thus, CR-LT KGQA poses significant challenges for hallucination-prone LLMs, hence paving the way for future commonsense KGQA research to provide accurate and factual answers for long-tail entities in the era of LLMs.
翻訳日:2024-03-06 21:34:36 公開日:2024-03-03
# フェデレーション学習システムにおけるデータプロヴァンス向上とモデルの透明性 - データベースアプローチ

Enhancing Data Provenance and Model Transparency in Federated Learning Systems -- A Database Approach ( http://arxiv.org/abs/2403.01451v1 )

ライセンス: Link先を確認
Michael Gu, Ramasoumya Naraparaju, Dongfang Zhao(参考訳) Federated Learning(FL)は、データプライバシを保持しながら、分散型エッジデバイス間で機械学習モデルをトレーニングするための有望なパラダイムを提供する。 しかし、これらの分散環境におけるデータの完全性とトレーサビリティを保証することは、依然として重要な課題である。 機械学習モデルのトレーニングプロセスを詳細に記述するなど、透明な人工知能を作成する能力は、それが使用する多くの機密(ハイパー)パラメータによって、ますます注目されるようになり、オープンネスと機密情報を保護する必要性の間に合理的なバランスを取ることが不可欠になっている。 本稿では,フェデレート学習システムにおけるデータ証明とモデルの透明性を高めるための最初のアプローチの1つを提案する。 本手法は,暗号手法と効率的なモデル管理を組み合わせて,flプロセス全体のデータ変換を追跡し,訓練されたflモデルの再現性と信頼性を高めることを目的としている。 本手法の有効性は,様々なFLシナリオに対する実験的評価を通じて実証し,説明責任と説明責任に対処する能力を示す。 提案するデータ分離型flの設計では,連鎖暗号ハッシュとクライアントモデルスナップショットを格納することで,様々なfl環境におけるデータ透過性を大幅に向上できることを示す。 これはまた、かなりの計算負荷を伴わずに包括的データ証明を可能にする複数の最適化手法を採用することで可能となる。 大規模な実験結果から,データベースサブシステムをフェデレーション学習システムに統合することで,データのプロファイランスを効率よく向上し,プライバシに敏感なアプリケーションへのセキュアなFL導入を促進し,FL透過性とセキュリティ機能の将来的な進歩の道を開くことが示唆された。

Federated Learning (FL) presents a promising paradigm for training machine learning models across decentralized edge devices while preserving data privacy. Ensuring the integrity and traceability of data across these distributed environments, however, remains a critical challenge. The ability to create transparent artificial intelligence, such as detailing the training process of a machine learning model, has become an increasingly prominent concern due to the large number of sensitive (hyper)parameters it utilizes; thus, it is imperative to strike a reasonable balance between openness and the need to protect sensitive information. In this paper, we propose one of the first approaches to enhance data provenance and model transparency in federated learning systems. Our methodology leverages a combination of cryptographic techniques and efficient model management to track the transformation of data throughout the FL process, and seeks to increase the reproducibility and trustworthiness of a trained FL model. We demonstrate the effectiveness of our approach through experimental evaluations on diverse FL scenarios, showcasing its ability to tackle accountability and explainability across the board. Our findings show that our system can greatly enhance data transparency in various FL environments by storing chained cryptographic hashes and client model snapshots in our proposed design for data decoupled FL. This is made possible by also employing multiple optimization techniques which enables comprehensive data provenance without imposing substantial computational loads. Extensive experimental results suggest that integrating a database subsystem into federated learning systems can improve data provenance in an efficient manner, encouraging secure FL adoption in privacy-sensitive applications and paving the way for future advancements in FL transparency and security features.
翻訳日:2024-03-06 21:30:29 公開日:2024-03-03
# DUFOMap: 効率的なダイナミックアウェアネスマッピング

DUFOMap: Efficient Dynamic Awareness Mapping ( http://arxiv.org/abs/2403.01449v1 )

ライセンス: Link先を確認
Daniel Duberg, Qingwen Zhang, MingKai Jia, Patric Jensfelt(参考訳) 現実世界のダイナミックな性質は、ロボット工学の主要な課題の1つである。 それを扱う最初のステップは、世界のどの部分がダイナミックかを検出することです。 典型的なベンチマークタスクは、例えばローカライゼーションとプランニングをサポートする、世界の静的部分のみを含むマップを作成することである。 現在のソリューションは、パラメータチューニングによって特定のデータセットの設定を調整できる後処理によく適用される。 本稿では,効率的なオンライン処理を目的とした動的認識マッピングフレームワークであるDUFOMapを提案する。 すべてのシナリオで同じパラメータ設定を持つにもかかわらず、パフォーマンスは良く、最先端のメソッドと同等である。 レイキャスティングは、完全に観察された空の領域を識別し分類するために用いられる。 これらの領域は空で観測されているため、その中の任意の領域は動的でなければならない。 評価はkittiとargoverse 2の屋外環境,kthキャンパスのオープンエリア,センサタイプの違いなど,さまざまなシナリオで実施されている。 DUFOMapは精度と計算効率の点で最先端の技術である。 使用するデータセットのソースコード、ベンチマーク、およびリンクを提供する。 詳細はhttps://kin-zhang.github.io/dufomapを参照。

The dynamic nature of the real world is one of the main challenges in robotics. The first step in dealing with it is to detect which parts of the world are dynamic. A typical benchmark task is to create a map that contains only the static part of the world to support, for example, localization and planning. Current solutions are often applied in post-processing, where parameter tuning allows the user to adjust the setting for a specific dataset. In this paper, we propose DUFOMap, a novel dynamic awareness mapping framework designed for efficient online processing. Despite having the same parameter settings for all scenarios, it performs better or is on par with state-of-the-art methods. Ray casting is utilized to identify and classify fully observed empty regions. Since these regions have been observed empty, it follows that anything inside them at another time must be dynamic. Evaluation is carried out in various scenarios, including outdoor environments in KITTI and Argoverse 2, open areas on the KTH campus, and with different sensor types. DUFOMap outperforms the state of the art in terms of accuracy and computational efficiency. The source code, benchmarks, and links to the datasets utilized are provided. See https://kin-zhang.github.io/dufomap for more details.
翻訳日:2024-03-06 21:29:59 公開日:2024-03-03
# GuardT2I: 敵対的プロンプトからテキストから画像モデルを守る

GuardT2I: Defending Text-to-Image Models from Adversarial Prompts ( http://arxiv.org/abs/2403.01446v1 )

ライセンス: Link先を確認
Yijun Yang, Ruiyuan Gao, Xiao Yang, Jianyuan Zhong, Qiang Xu(参考訳) 最近のtext-to-image(t2i)モデルの進歩は、nsfw(nsfw分類器)や不適切な概念除去のためのモデルの微調整といった既存の対策にもかかわらず、不適切なまたは不適切な作業のためのコンテンツを生成する際の潜在的な誤用に関する重大な安全上の懸念を引き起こした。 この課題に対処するため,本研究では,T2Iモデルの対向的プロンプトに対する堅牢性を高めるために,新たなモデレーションフレームワークであるGuardT2Iを公表した。 バイナリ分類を行う代わりに、GardageT2IはLarge Language Model(LLM)を使用して、T2Iモデル内のテキストガイダンスの埋め込みを、モデル固有の性能を損なうことなく、効果的な敵の迅速な検出のために自然言語に変換する。 大規模な実験の結果、GardetT2IはOpenAI-ModerationやMicrosoft Azure Moderatorといった主要な商用ソリューションよりも、さまざまな敵のシナリオで大きな差があります。

Recent advancements in Text-to-Image (T2I) models have raised significant safety concerns about their potential misuse for generating inappropriate or Not-Safe-For-Work (NSFW) contents, despite existing countermeasures such as NSFW classifiers or model fine-tuning for inappropriate concept removal. Addressing this challenge, our study unveils GuardT2I, a novel moderation framework that adopts a generative approach to enhance T2I models' robustness against adversarial prompts. Instead of making a binary classification, GuardT2I utilizes a Large Language Model (LLM) to conditionally transform text guidance embeddings within the T2I models into natural language for effective adversarial prompt detection, without compromising the models' inherent performance. Our extensive experiments reveal that GuardT2I outperforms leading commercial solutions like OpenAI-Moderation and Microsoft Azure Moderator by a significant margin across diverse adversarial scenarios.
翻訳日:2024-03-06 21:29:42 公開日:2024-03-03
# 電解質溶液中のカシミール力により制御されるfabry-p\'{e}rotナノキャビティ

Fabry-P\'{e}rot nanocavities controlled by Casimir forces in electrolyte solutions ( http://arxiv.org/abs/2403.01443v1 )

ライセンス: Link先を確認
Lixin Ge, Kaipeng Liu, Ke Gong and Rudolf Podgornik(参考訳) 本稿では,カシミール力によるFabry-P\'{e}rotナノキャビティの共振スペクトルの調整法を提案する。 このシステムは、一価電解質溶液中の誘電体被覆金基板に近づく懸濁金ナノプレートを含む。 金ナノプレートは、カシミール力の反発力と魅力的な成分の微妙なバランスのために安定して吊り下げることができる。 電解質溶液では、イオン電荷ゆらぎの存在は熱的n$=0の松原項を部分的にあるいは完全に遮蔽し、強い相互作用を引き起こす。 その結果, 基板と金ナノプレートの分離は, 塩濃度の変動に反応して著しく変化した。 適切な条件下では、電解質のデバイ長が1000nmから10nmに減少すると、カシミール力の変調が光周波数におけるファブリー-P\'{e} ナノキャビティの共鳴を強くシフトすることがわかった。 最後に、熱カシミール力の温度依存性は、ファブリー-P\'{e} ナノキャビティ共鳴を最終的に微調整するために追加の変調を与える。 これらの結果は、再構成可能なマイクロ流体ナノフォトニクスにおける光共鳴の一般的なチューニングの場となりうる。

We propose a design for tuning the resonant spectra of Fabry-P\'{e}rot nanocavities mediated by the Casimir force. The system involves a suspended gold nanoplate approaching to a dielectric-coated gold substrate in a univalent electrolyte solution. The gold nanoplate can be stably suspended due to the delicate balance between repulsive and attractive components of the Casimir forces. In an electrolyte solution, the presence of ionic-charge fluctuations can partially or totally screen the thermal $n$=0 Matsubara term, resulting in strongly modified interactions. As a result, the separation between the gold nanoplate and the substrate experiences a significant modulation in response to variations in salt concentration. Under proper conditions, we find that the modulation of the Casimir force would strongly shift the resonances of Fabry-P\'{e}rot nanocavities at the optical frequencies, when the Debye length of the electrolyte decreases from 1000 nm to 10 nm. Finally, the temperature dependence of the thermal Casimir force would provide an additional modulation of Fabry-P\'{e}rot nanocavity resonances for their eventual fine tuning. These results open up a promising venue for general tuning of the optical resonances with potential applications in re-configurable microfluidic nanophotonics.
翻訳日:2024-03-06 21:29:00 公開日:2024-03-03
# 単眼深度予測のためのピラミッド特徴注意ネットワーク

Pyramid Feature Attention Network for Monocular Depth Prediction ( http://arxiv.org/abs/2403.01440v1 )

ライセンス: Link先を確認
Yifang Xu, Chenglei Peng, Ming Li, Yang Li, and Sidan Du(参考訳) 深層畳み込みニューラルネットワーク(dcnn)は単眼深度推定(mde)において大きな成功を収めている。 しかし、異なるレベルの特徴写像のMDEへの貢献を考慮に入れた既存の研究はほとんどなく、不正確な空間配置、曖昧な境界、不連続な物体表面が予測される。 そこで本研究では,高レベルな文脈特徴と低レベルな空間特徴を改善するために,ピラミッド型特徴注目ネットワーク (pfanet) を提案する。 提案するPFANetでは,高レベルの特徴マップからグローバルなコンテキストとローカル情報を集約する,異なるスケールのチャネルアテンションを利用するためのDual-scale Channel Attention Module (DCAM)を設計する。 視覚的特徴の空間的関係を生かして,低レベル特徴マップのマルチスケールの詳細情報にネットワークの注意を誘導する空間ピラミッド注意モジュール(SPAM)を設計する。 最後に,不連続領域の誤りに対するペナルティを高めるために,スケール不変勾配損失を導入する。 実験の結果,本手法はKITTIデータセットの最先端手法よりも優れていた。

Deep convolutional neural networks (DCNNs) have achieved great success in monocular depth estimation (MDE). However, few existing works take the contributions for MDE of different levels feature maps into account, leading to inaccurate spatial layout, ambiguous boundaries and discontinuous object surface in the prediction. To better tackle these problems, we propose a Pyramid Feature Attention Network (PFANet) to improve the high-level context features and low-level spatial features. In the proposed PFANet, we design a Dual-scale Channel Attention Module (DCAM) to employ channel attention in different scales, which aggregate global context and local information from the high-level feature maps. To exploit the spatial relationship of visual features, we design a Spatial Pyramid Attention Module (SPAM) which can guide the network attention to multi-scale detailed information in the low-level feature maps. Finally, we introduce scale-invariant gradient loss to increase the penalty on errors in depth-wise discontinuous regions. Experimental results show that our method outperforms state-of-the-art methods on the KITTI dataset.
翻訳日:2024-03-06 21:28:38 公開日:2024-03-03
# Dynamic AdapterがPrompt Tuningと出会う: ポイントクラウド分析のためのパラメータ効率のよいトランスファー学習

Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis ( http://arxiv.org/abs/2403.01439v1 )

ライセンス: Link先を確認
Xin Zhou, Dingkang Liang, Wei Xu, Xingkui Zhu, Yihan Xu, Zhikang Zou, Xiang Bai(参考訳) ポイントクラウド分析は、事前訓練されたモデルの転送によって、優れたパフォーマンスを実現している。 しかし、モデル適応のための既存の方法は通常、すべてのモデルパラメータ、すなわち完全な微調整パラダイムを更新するが、高い計算コスト(例えば、gpuメモリのトレーニング)と巨大なストレージ空間に依存するため、非効率である。 本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。 この目標を達成するために、デフォルトの事前学習モデルのパラメータを凍結し、ダウンストリームタスクに対するトークンの重要性を考慮して各トークンの動的スケールを生成するDynamic Adapterを提案する。 さらに、動的アダプタとPrompt Tuning(DAPT)をシームレスに統合し、内部のPromptを構築し、対話のためのインスタンス固有の特徴をキャプチャします。 5つの挑戦的なデータセットで実施された大規模な実験により、提案されたDAPTは、トレーニング可能なパラメータを著しく削減し、それぞれ95%と35%のGPUメモリをトレーニングしながら、フルチューニングしたデータセットよりも優れたパフォーマンスを実現していることが示された。 コードはhttps://github.com/LMD0311/DAPTで入手できる。

Point cloud analysis has achieved outstanding performance by transferring point cloud pre-trained models. However, existing methods for model adaptation usually update all model parameters, i.e., full fine-tuning paradigm, which is inefficient as it relies on high computational costs (e.g., training GPU memory) and massive storage space. In this paper, we aim to study parameter-efficient transfer learning for point cloud analysis with an ideal trade-off between task performance and parameter efficiency. To achieve this goal, we freeze the parameters of the default pre-trained models and then propose the Dynamic Adapter, which generates a dynamic scale for each token, considering the token significance to the downstream task. We further seamlessly integrate Dynamic Adapter with Prompt Tuning (DAPT) by constructing Internal Prompts, capturing the instance-specific features for interaction. Extensive experiments conducted on five challenging datasets demonstrate that the proposed DAPT achieves superior performance compared to the full fine-tuning counterparts while significantly reducing the trainable parameters and training GPU memory by 95% and 35%, respectively. Code is available at https://github.com/LMD0311/DAPT.
翻訳日:2024-03-06 21:28:19 公開日:2024-03-03
# スマートグリッド負荷予測のためのプライバシー保護協調型分散学習フレームワーク

Privacy-Preserving Collaborative Split Learning Framework for Smart Grid Load Forecasting ( http://arxiv.org/abs/2403.01438v1 )

ライセンス: Link先を確認
Asif Iqbal, Prosanta Gope, Biplab Sikdar(参考訳) 正確な負荷予測は、エネルギー管理、インフラ計画、需要供給バランスに不可欠である。 スマートメータのデータ可用性は、センサベースの負荷予測の需要につながった。 従来のMLでは、中央サーバにデータ転送を必要とする複数のスマートメーターのデータを使用して、単一のグローバルモデルをトレーニングすることが可能で、ネットワーク要件やプライバシ、セキュリティに対する懸念が高まる。 本稿では,負荷予測のための分割学習に基づくフレームワークを提案する。 ディープニューラルネットワークモデルを,各グリッドステーション(gs)に対して,近隣のスマートメータ全体に対して,サービスプロバイダ(sp)に対してそれぞれ2つに分割した。 データを共有する代わりに、クライアントスマートメーターは各GSのモデルを分割してフォワードパスを生成し、GSとのみアクティベーションを共有する。 この枠組みの下では、各gsは各地域向けにパーソナライズされたモデル分割を訓練する責任を負うが、spは各gsのために単一のグローバルまたはパーソナライズされたモデルを訓練することができる。 実験により,提案モデルが中心的に訓練されたモデルの性能と一致しているか,あるいは超えた結果が得られた。 GSモデルの分割したデータと共有アクティベーション間の情報漏洩を評価することにより、プライバシを分析する。 さらに、差分プライバシーは、パフォーマンスへの影響を調べながら、ローカルデータのプライバシを高める。 ベース学習者はトランスフォーマーモデルを用いる。

Accurate load forecasting is crucial for energy management, infrastructure planning, and demand-supply balancing. Smart meter data availability has led to the demand for sensor-based load forecasting. Conventional ML allows training a single global model using data from multiple smart meters requiring data transfer to a central server, raising concerns for network requirements, privacy, and security. We propose a split learning-based framework for load forecasting to alleviate this issue. We split a deep neural network model into two parts, one for each Grid Station (GS) responsible for an entire neighbourhood's smart meters and the other for the Service Provider (SP). Instead of sharing their data, client smart meters use their respective GSs' model split for forward pass and only share their activations with the GS. Under this framework, each GS is responsible for training a personalized model split for their respective neighbourhoods, whereas the SP can train a single global or personalized model for each GS. Experiments show that the proposed models match or exceed a centrally trained model's performance and generalize well. Privacy is analyzed by assessing information leakage between data and shared activations of the GS model split. Additionally, differential privacy enhances local data privacy while examining its impact on performance. A transformer model is used as our base learner.
翻訳日:2024-03-06 21:27:59 公開日:2024-03-03
# GPTSee: 記述に基づく類似機能によるモーメント検索とハイライト検出の強化

GPTSee: Enhancing Moment Retrieval and Highlight Detection via Description-Based Similarity Features ( http://arxiv.org/abs/2403.01437v1 )

ライセンス: Link先を確認
Yunzhuo Sun, Yifang Xu, Zien Xie, Yukun Shu, and Sidan Du(参考訳) モーメント検索(MR)とハイライト検出(HD)は、対応する自然言語クエリからビデオ中の関連モーメントとハイライトを特定することを目的としている。 大型言語モデル (LLM) は様々なコンピュータビジョンタスクに習熟性を示す。 しかし、MR\&HDの既存の手法はまだLLMと統合されていない。 本稿では,llmsの出力を第2段トランスコーダ・デコーダへの入力とする,新しい2段モデルを提案する。 まず、MiniGPT-4を用いてビデオフレームの詳細な記述を生成し、エンコーダに入力されたクエリ文を新しい機能として書き直す。 そして、生成された記述と書き直されたクエリの間で意味的類似性が計算される。 最後に、連続的な高相似性映像フレームをスパンアンカーに変換し、デコーダの位置情報として機能させる。 また,スパンアンカーと類似度スコアのみを出力として用いることにより,モーメントデトルのような従来の手法よりも位置決め精度が優れていることを示す実験を行った。

Moment retrieval (MR) and highlight detection (HD) aim to identify relevant moments and highlights in video from corresponding natural language query. Large language models (LLMs) have demonstrated proficiency in various computer vision tasks. However, existing methods for MR\&HD have not yet been integrated with LLMs. In this letter, we propose a novel two-stage model that takes the output of LLMs as the input to the second-stage transformer encoder-decoder. First, MiniGPT-4 is employed to generate the detailed description of the video frame and rewrite the query statement, fed into the encoder as new features. Then, semantic similarity is computed between the generated description and the rewritten queries. Finally, continuous high-similarity video frames are converted into span anchors, serving as prior position information for the decoder. Experiments demonstrate that our approach achieves a state-of-the-art result, and by using only span anchors and similarity scores as outputs, positioning accuracy outperforms traditional methods, like Moment-DETR.
翻訳日:2024-03-06 21:27:37 公開日:2024-03-03
# あまり普及しない知識のためのファインチューニング vs. 検索拡張生成

Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge ( http://arxiv.org/abs/2403.01432v1 )

ライセンス: Link先を確認
Heydar Soudani, Evangelos Kanoulas, Faegheh Hasibi(参考訳) 大規模言語モデル(LLM)は膨大な量の事実知識を記憶し、多様なタスクやドメイン間で強力なパフォーマンスを示す。 しかし、例えばドメイン固有のアプリケーションにおいて、あまり人気のない概念や低周波の概念や実体を扱う場合、性能は低下する。 低頻度トピックにおけるLLMの性能向上のための2つの顕著なアプローチは、検索型拡張生成(RAG)と合成データに対する微調整(FT)である。 本稿では,RAGとFTが低周波エンティティの問合せ処理におけるLLMのカスタマイズに与える影響について検討し,評価する。 以上の結果から,FTは,最も人気の高いグループ,特に最も人気の高いグループにおいて,パフォーマンスを著しく向上させる一方,RAGは他のメソッドを上回ります。 さらに、RAGおよびFTアプローチの成功は、検索およびデータ拡張技術の進歩によって増幅される。 データとコードをhttps://github.com/heydarsoudani/ragvsftでリリースします。

Large language models (LLMs) memorize a vast amount of factual knowledge, exhibiting strong performance across diverse tasks and domains. However, it has been observed that the performance diminishes when dealing with less-popular or low-frequency concepts and entities, for example in domain specific applications. The two prominent approaches to enhance the performance of LLMs on low-frequent topics are: Retrieval Augmented Generation (RAG) and fine-tuning (FT) over synthetic data. This paper explores and evaluates the impact of RAG and FT on customizing LLMs in handling low-frequency entities on question answering task. Our findings indicate that FT significantly boosts the performance across entities of varying popularity, especially in the most and least popular groups, while RAG surpasses other methods. Additionally, the success of both RAG and FT approaches is amplified by advancements in retrieval and data augmentation techniques. We release our data and code at https://github.com/HeydarSoudani/RAGvsFT.
翻訳日:2024-03-06 21:27:18 公開日:2024-03-03
# image2sentenceに基づく非対称ゼロショット合成画像検索

Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval ( http://arxiv.org/abs/2403.01431v1 )

ライセンス: Link先を確認
Yongchao Du, Min Wang, Wengang Zhou, Shuping Hui, Houqiang Li(参考訳) 合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。 既存の手法では、cirタスクの先進的な大規模ビジョン言語(vl)モデルで大きな進歩を遂げているが、一般的にはモデルトレーニングのためのラベル付きトリプレットの欠如と、大規模ビジョン言語モデルのデプロイ時のリソース制限された環境へのデプロイの困難という2つの大きな問題に苦しめられている。 上記の問題に対処するために、VLモデルを利用した画像合成学習のためのラベルなし画像のみに依存する画像2センスに基づく非対称ゼロショット合成画像検索(ISA)を提案する。 本稿では,VLモデルの単語埋め込み空間内の文に画像をマッピングする適応トークン学習手法を提案する。 文は、識別視覚情報を適応的にキャプチャし、さらにテキスト修飾子と統合する。 非対称構造はフレキシブルな配置のために考案され、クエリ側では軽量モデルが採用され、ギャラリー側では大きなVLモデルがデプロイされる。 CIRタスクの光モデルとVLモデルとのアライメントには,グローバルコントラスト蒸留と局所アライメント正則化が採用されている。 実験により,提案したISAが実際の検索シナリオに対処し,検索精度と効率をより向上できることを示した。

The task of composed image retrieval (CIR) aims to retrieve images based on the query image and the text describing the users' intent. Existing methods have made great progress with the advanced large vision-language (VL) model in CIR task, however, they generally suffer from two main issues: lack of labeled triplets for model training and difficulty of deployment on resource-restricted environments when deploying the large vision-language model. To tackle the above problems, we propose Image2Sentence based Asymmetric zero-shot composed image retrieval (ISA), which takes advantage of the VL model and only relies on unlabeled images for composition learning. In the framework, we propose a new adaptive token learner that maps an image to a sentence in the word embedding space of VL model. The sentence adaptively captures discriminative visual information and is further integrated with the text modifier. An asymmetric structure is devised for flexible deployment, in which the lightweight model is adopted for the query side while the large VL model is deployed on the gallery side. The global contrastive distillation and the local alignment regularization are adopted for the alignment between the light model and the VL model for CIR task. Our experiments demonstrate that the proposed ISA could better cope with the real retrieval scenarios and further improve retrieval accuracy and efficiency.
翻訳日:2024-03-06 21:27:00 公開日:2024-03-03
# SE(3)不変空間における拡散過程について

On Diffusion Process in SE(3)-invariant Space ( http://arxiv.org/abs/2403.01430v1 )

ライセンス: Link先を確認
Zihan Zhou, Ruiying Liu, Jiachen Zheng, Xiaoxue Wang, Tianshu Yu(参考訳) 拡散モデルを用いたSE(3)-不変性を持つ実行可能な3次元構造(分子や点雲など)のサンプリングは、様々な実世界の応用において有望であることが証明され、SE(3)-不変性は点間距離多様体によって自然に特徴づけられる。 しかし、非自明な幾何学のため、そのような se(3)-不変空間内の拡散機構の包括的理解はいまだに欠けている。 本研究は、微分幾何学のレンズを通して座標と点間距離多様体間の相互作用挙動をズームすることで、SE(3)-不変の下で拡散機構を数学的に記述することで、このギャップに対処する。 そこで本研究では,高精度かつプロジェクションフリーな拡散SDEとODEを提案する。 このような定式化は、生成経路の性能と速度の向上を可能にする一方で、SE(3)不変性を含む他のシステムに対する貴重な洞察を提供する。

Sampling viable 3D structures (e.g., molecules and point clouds) with SE(3)-invariance using diffusion-based models proved promising in a variety of real-world applications, wherein SE(3)-invariant properties can be naturally characterized by the inter-point distance manifold. However, due to the non-trivial geometry, we still lack a comprehensive understanding of the diffusion mechanism within such SE(3)-invariant space. This study addresses this gap by mathematically delineating the diffusion mechanism under SE(3)-invariance, via zooming into the interaction behavior between coordinates and the inter-point distance manifold through the lens of differential geometry. Upon this analysis, we propose accurate and projection-free diffusion SDE and ODE accordingly. Such formulations enable enhancing the performance and the speed of generation pathways; meanwhile offering valuable insights into other systems incorporating SE(3)-invariance.
翻訳日:2024-03-06 21:26:17 公開日:2024-03-03
# 知識蒸留におけるログ標準化

Logit Standardization in Knowledge Distillation ( http://arxiv.org/abs/2403.01427v1 )

ライセンス: Link先を確認
Shangquan Sun, Wenqi Ren, Jingzhi Li, Rui Wang and Xiaochun Cao(参考訳) 知識蒸留は、教師から学生に共有温度ベースのソフトマックス関数を使ってソフトラベルを転送する。 しかし、教師と生徒の共用温度の仮定は、ロジット範囲と分散の点で、ロジット間の厳密な一致を暗示している。 この副作用は、生徒の能力格差と教師の生来のロジット関係が学習に十分であることを考慮し、生徒のパフォーマンスを制限している。 そこで本研究では,ロジットの重み付け標準偏差として温度を設定するとともに,ソフトマックスとクルバック・リブラーの偏差を適用する前に,ロジット標準化のプラグアンドプレイZスコア前処理を行うことを提案する。 この前処理により,生徒はマグニチュードマッチングを必要とせず,教師から本質的なロジット関係に集中でき,既存のロジットベースの蒸留法の性能を向上させることができる。 また, 従来の教師と生徒の共用温度設定では, 真の蒸留評価が確実に得られず, にもかかわらず, この課題はZスコアによって緩和される。 CIFAR-100 と ImageNet の様々な学生・教師モデルに対して,本手法を広範囲に評価し,その優位性を示した。 この前処理によるバニラ知識蒸留は最先端法に対して良好な性能を得ることができ,他の蒸留変種は前処理の助けを借りてかなりの利益を得ることができる。

Knowledge distillation involves transferring soft labels from a teacher to a student using a shared temperature-based softmax function. However, the assumption of a shared temperature between teacher and student implies a mandatory exact match between their logits in terms of logit range and variance. This side-effect limits the performance of student, considering the capacity discrepancy between them and the finding that the innate logit relations of teacher are sufficient for student to learn. To address this issue, we propose setting the temperature as the weighted standard deviation of logit and performing a plug-and-play Z-score pre-process of logit standardization before applying softmax and Kullback-Leibler divergence. Our pre-process enables student to focus on essential logit relations from teacher rather than requiring a magnitude match, and can improve the performance of existing logit-based distillation methods. We also show a typical case where the conventional setting of sharing temperature between teacher and student cannot reliably yield the authentic distillation evaluation; nonetheless, this challenge is successfully alleviated by our Z-score. We extensively evaluate our method for various student and teacher models on CIFAR-100 and ImageNet, showing its significant superiority. The vanilla knowledge distillation powered by our pre-process can achieve favorable performance against state-of-the-art methods, and other distillation variants can obtain considerable gain with the assistance of our pre-process.
翻訳日:2024-03-06 21:25:54 公開日:2024-03-03
# アルゴゲンの紹介

Introduction to Algogens ( http://arxiv.org/abs/2403.01426v1 )

ライセンス: Link先を確認
Amir Shachar(参考訳) この本は、様々な分野における問題解決技術の改善を目的とした、生成AIと従来のアルゴリズムとの有望な統合であるAlgogensの概念を紹介する。 AIのイノベーティブなポテンシャルとアルゴリズムの信頼性を組み合わせることで、どちらよりも複雑な課題に効果的に取り組む上での、Algogensの理解しやすい概要を提供する。 このテキストは、アルゴゲンの基礎、それらの開発、アプリケーション、そしてより良い適応性と効率といった利点を探求している。 事例とケーススタディを通じて、読者は今日のAlgogensの実用的利用と将来のサイバーセキュリティ、医療、環境科学革新の可能性について学ぶ。 新しい技術の課題と倫理的考察を認め、本書はアルゴゲンが直面している展望と障害をバランスよく見ていく。 専門家や新参者を含む幅広いオーディエンスを招き、このトピックに関わり、問題解決能力向上におけるalgogensの役割について検討する。 この研究は、aiとアルゴリズムの交点に関心のある人なら誰でも出発点として提示され、この新興分野に関するさらなる調査と議論を促す。 それは好奇心を喚起し、AI時代の複雑な要求を満たすためにテクノロジーがどのように進化するかという継続的な議論に貢献することを目的としている。

This book introduces the concept of Algogens, a promising integration of generative AI with traditional algorithms aimed at improving problem-solving techniques across various fields. It provides an accessible overview of how Algogens combine AI's innovative potential with algorithms' reliability to tackle complex challenges more effectively than either could alone. The text explores the basics of Algogens, their development, applications, and advantages, such as better adaptability and efficiency. Through examples and case studies, readers will learn about Algogens' practical uses today and their potential for future cybersecurity, healthcare, and environmental science innovation. Acknowledging new technologies' challenges and ethical considerations, the book offers a balanced look at the prospects and obstacles facing Algogens. It invites a broad audience, including experts and newcomers, to engage with the topic and consider Algogens' role in advancing our problem-solving capabilities. This work is presented as a starting point for anyone interested in the intersection of AI and algorithms, encouraging further exploration and discussion on this emerging field. It aims to spark curiosity and contribute to the ongoing conversation about how technology can evolve to meet the complex demands of the AI era.
翻訳日:2024-03-06 21:25:09 公開日:2024-03-03
# CRPWarner:DeFiスマートコントラクトにおける契約関連ラグビープルのリスク警告

CRPWarner: Warning the Risk of Contract-related Rug Pull in DeFi Smart Contracts ( http://arxiv.org/abs/2403.01425v1 )

ライセンス: Link先を確認
Zewei Lin, Jiachi Chen, Zibin Zheng, Jiajing Wu, Weizhe Zhang, Yongjuan Wang(参考訳) 近年、ブロックチェーン技術とスマートコントラクトの開発により、分散ファイナンス(DeFi)は急速に成長している。 2023年3月時点で、世界の仮想通貨市場は949億ドルに達している。 しかし、セキュリティインシデントはDeFiエコシステムに悩まされ続けており、最も悪名高い例の1つは『Rug Pull』詐欺である。 このタイプの暗号通貨詐欺は、特定のトークンプロジェクトの開発者が故意にプロジェクトを放棄し、投資家の資金で消滅したときに発生する。 近年は始まったばかりだが、悪質な引き金事件はすでに大きな損失をもたらしている。 本研究では,実世界のrugプルイベント103を手作業で収集・分析し,詐欺手法に基づいて分類した。 主なカテゴリは、契約関連rugプル(スマートコントラクトにおける悪意のある機能経由)と取引関連rugプル(悪意のある機能を利用することなく暗号通貨取引経由)の2つであった。 そこで本研究では,rugプルイベントの分析に基づいて,スマートコントラクトにおける悪意のある機能を特定し,潜在的なrugプルに関する警告を発するCRPWarner(契約関連ラグビープルリスクワーナーの略)を提案する。 CRPWarnerを69のオープンソーススマートコントラクトで評価し,91.8%の精度,85.9%のリコール,88.7%のF1スコアを達成した。 さらに、Ethereum上で13,484の実際のトークンコントラクトに対するCRPWarnerの評価では、ゼロデイ例を含む悪意のある関数による4168のスマートコントラクトの検出に成功した。 大規模実験の精度は84.9%に達した。

In recent years, Decentralized Finance (DeFi) grows rapidly due to the development of blockchain technology and smart contracts. As of March 2023, the estimated global cryptocurrency market cap has reached approximately $949 billion. However, security incidents continue to plague the DeFi ecosystem, and one of the most notorious examples is the ``Rug Pull" scam. This type of cryptocurrency scam occurs when the developer of a particular token project intentionally abandons the project and disappears with investors' funds. Despite it only emerging in recent years, Rug Pull events have already caused significant financial losses. In this work, we manually collected and analyzed 103 real-world rug pull events, categorizing them based on their scam methods. Two primary categories were identified: Contract-related Rug Pull (through malicious functions in smart contracts) and Transaction-related Rug Pull (through cryptocurrency trading without utilizing malicious functions). Based on the analysis of rug pull events, we propose CRPWarner (short for Contract-related Rug Pull Risk Warner) to identify malicious functions in smart contracts and issue warnings regarding potential rug pulls. We evaluated CRPWarner on 69 open-source smart contracts related to rug pull events and achieved a 91.8% precision, 85.9% recall and 88.7% F1-score. Additionally, when evaluating CRPWarner on 13,484 real token contracts on Ethereum, it successfully detected 4168 smart contracts with malicious functions, including zero-day examples. The precision of large-scale experiment reach 84.9%.
翻訳日:2024-03-06 21:24:31 公開日:2024-03-03
# 文脈プロンプトを用いた大規模言語モデルへの知識注入

Infusing Knowledge into Large Language Models with Contextual Prompts ( http://arxiv.org/abs/2403.01481v1 )

ライセンス: Link先を確認
Kinshuk Vasisht, Balaji Ganesan, Vikas Kumar, Vasudha Bhatnagar(参考訳) 知識注入は、大きなデータをスクラッチから事前学習するのではなく、ドメイン固有のNLPタスクのために大規模言語モデルを拡張するための有望な方法である。 これらの拡張LDMは、通常、既存の知識グラフから追加の事前学習や知識プロンプトに依存するが、多くのアプリケーションでは実用的ではない。 対照的に、関連する文書から直接知識を注入することはより一般化可能であり、構造化された知識グラフの必要性を軽減すると同時に、通常知識グラフにないエンティティにも有用である。 そこで本研究では,入力テキストの文脈からプロンプトを生成することにより,知識注入に対する単純かつ汎用的なアプローチを提案する。 本実験は, 微調整LDMを用いて評価する手法の有効性を示す。

Knowledge infusion is a promising method for enhancing Large Language Models for domain-specific NLP tasks rather than pre-training models over large data from scratch. These augmented LLMs typically depend on additional pre-training or knowledge prompts from an existing knowledge graph, which is impractical in many applications. In contrast, knowledge infusion directly from relevant documents is more generalisable and alleviates the need for structured knowledge graphs while also being useful for entities that are usually not found in any knowledge graph. With this motivation, we propose a simple yet generalisable approach for knowledge infusion by generating prompts from the context in the input text. Our experiments show the effectiveness of our approach which we evaluate by probing the fine-tuned LLMs.
翻訳日:2024-03-06 21:18:29 公開日:2024-03-03
# align-to-distill:ニューラルネットワーク翻訳における知識蒸留のための訓練可能な注意アライメント

Align-to-Distill: Trainable Attention Alignment for Knowledge Distillation in Neural Machine Translation ( http://arxiv.org/abs/2403.01479v1 )

ライセンス: Link先を確認
Heegon Jin, Seonil Son, Jemin Park, Youngseok Kim, Hyungjong Noh, Yeonsoo Lee(参考訳) スケーラブルな深層モデルと大規模データセットの出現により、ニューラルネットワークの翻訳性能が向上した。 知識蒸留(kd)は教師モデルからよりコンパクトな学生モデルに知識を移すことで効率を高める。 しかしながら、トランスフォーマーアーキテクチャへのKDアプローチは、特にどの教師層を蒸留するかを決めるとき、ヒューリスティックに依存していることが多い。 本稿では,学生の注意を教師と適応的にアライメントすることで特徴マッピング問題に対処する「A2D(Align-to-Distill)」戦略を提案する。 A2Dのアテンションアライメントモジュールは、階層にわたって生徒と教師の注意を集中的に比較し、組合せマッピングヒューリスティックスを学習問題に変換する。 実験の結果, トランスフォーマーベースラインと比較して, WMT-2022 De->Dsb と WMT-2014 En->De に対して, 最大 3.61 と +0.63 BLEU の値が得られた。

The advent of scalable deep models and large datasets has improved the performance of Neural Machine Translation. Knowledge Distillation (KD) enhances efficiency by transferring knowledge from a teacher model to a more compact student model. However, KD approaches to Transformer architecture often rely on heuristics, particularly when deciding which teacher layers to distill from. In this paper, we introduce the 'Align-to-Distill' (A2D) strategy, designed to address the feature mapping problem by adaptively aligning student attention heads with their teacher counterparts during training. The Attention Alignment Module in A2D performs a dense head-by-head comparison between student and teacher attention heads across layers, turning the combinatorial mapping heuristics into a learning problem. Our experiments show the efficacy of A2D, demonstrating gains of up to +3.61 and +0.63 BLEU points for WMT-2022 De->Dsb and WMT-2014 En->De, respectively, compared to Transformer baselines.
翻訳日:2024-03-06 21:18:16 公開日:2024-03-03
# CCC:カラー分類カラー化

CCC: Color Classified Colorization ( http://arxiv.org/abs/2403.01476v1 )

ライセンス: Link先を確認
Mrityunjoy Gain, Avi Deb Raha and Rameswar Debnath(参考訳) 異なる色や大きさの物体による灰色画像の自動着色は、物体間の色の変化と背景の広さによる主物体の小さい領域のために困難である。 学習プロセスは、しばしば支配的な特徴を好み、偏りのあるモデルとなる。 本稿では,カラー化問題を多項分類問題に定式化し,重み付き関数をクラスに適用する。 色値を色クラスに変換する式の集合を提案し,その逆も提案する。 クラスの最適化と機能の分散がパフォーマンス向上の鍵となる。 様々な大規模リアルタイム画像のクラス外観を実際に観察し、着色作業のための215種類のカラークラスを提案する。 トレーニング中,各バッチにおける真のクラス外観に基づくクラス重み付き関数を提案し,個々のオブジェクトの適切な彩度を確保する。 我々は,メジャークラスとマイナークラスのトレードオフを確立し,マイクラスに対するメジャークラスの優位性を排除し,正統派クラスの予測を行う。 マイナークラスの安定性を高めるために正規化を適用すると、時折オブジェクトの端にマイナーノイズが現れることがある。 本稿では,これらのエッジを洗練・拡張するためにSAMによって強化された新しいオブジェクト選択色調和法を提案する。 色成分の豊かさを定量化するために,新しい色画像評価指標であるクロマティック数比(CNR)を提案する。 提案モデルと,ADE,Celeba,COCO,Oxford 102 Flower,ImageNetの5つの異なるデータセットを用いた最先端モデルとの比較を行った。 実験結果から,本モデルでは,回帰性能(MSE,PSNR),類似性(SSIM,LPIPS,UIQI),生成基準(FID)を維持しつつ,可視性およびCNR測定基準の他のモデルよりも優れていることが示された。

Automatic colorization of gray images with objects of different colors and sizes is challenging due to inter- and intra-object color variation and the small area of the main objects due to extensive backgrounds. The learning process often favors dominant features, resulting in a biased model. In this paper, we formulate the colorization problem into a multinomial classification problem and then apply a weighted function to classes. We propose a set of formulas to transform color values into color classes and vice versa. Class optimization and balancing feature distribution are the keys for good performance. Observing class appearance on various extremely large-scale real-time images in practice, we propose 215 color classes for our colorization task. During training, we propose a class-weighted function based on true class appearance in each batch to ensure proper color saturation of individual objects. We establish a trade-off between major and minor classes to provide orthodox class prediction by eliminating major classes' dominance over minor classes. As we apply regularization to enhance the stability of the minor class, occasional minor noise may appear at the object's edges. We propose a novel object-selective color harmonization method empowered by the SAM to refine and enhance these edges. We propose a new color image evaluation metric, the Chromatic Number Ratio (CNR), to quantify the richness of color components. We compare our proposed model with state-of-the-art models using five different datasets: ADE, Celeba, COCO, Oxford 102 Flower, and ImageNet, in both qualitative and quantitative approaches. The experimental results show that our proposed model outstrips other models in visualization and CNR measurement criteria while maintaining satisfactory performance in regression (MSE, PSNR), similarity (SSIM, LPIPS, UIQI), and generative criteria (FID).
翻訳日:2024-03-06 21:17:58 公開日:2024-03-03
# 方向的隣り合いを考慮したヘテロ親和性グラフの表現学習

Representation Learning on Heterophilic Graph with Directional Neighborhood Attention ( http://arxiv.org/abs/2403.01475v1 )

ライセンス: Link先を確認
Qincheng Lu, Jiaqi Zhu, Sitao Luan, Xiao-Wen Chang(参考訳) グラフアテンションネットワーク(GAT)は、エッジウェイトを学習するためのアテンションメカニズムを採用し、様々なアプリケーションで有望なパフォーマンスを示す、最も人気のあるグラフニューラルネットワーク(GNN)アーキテクチャの1つである。 しかし、近辺の情報のみを組み込むため、長距離およびグローバルグラフ情報をキャプチャする能力に欠けており、一部のデータセット、特に異種グラフでは不満足なパフォーマンスをもたらす。 本稿では,この制限に対処するため,DGAT(Directional Graph Attention Network)を提案する。 dgatは、特徴ベースの注意をグラフトポロジーから抽出したグローバル指向情報と組み合わせることができる。 この目的のために、ノード間の拡散距離を確実に低減できる新しいラプラシア行列のクラスを提案する。 新しいラプラシアンに基づき, トポロジー誘導型近傍プルーニングおよびエッジ加算機構を提案し, 雑音を除去し, 有用な長距離近傍情報を取得する。 さらに、トポロジカルな情報伝達を可能にするために、グローバルな方向性の注意が設計されている。 ベースラインGATよりも提案されたDGATの優位性も、実世界のベンチマークや合成データセットの実験を通じて検証されている。 また、7つの実世界のベンチマークデータセットのうち6つで最先端(sota)モデルを上回る。

Graph Attention Network (GAT) is one of the most popular Graph Neural Network (GNN) architecture, which employs the attention mechanism to learn edge weights and has demonstrated promising performance in various applications. However, since it only incorporates information from immediate neighborhood, it lacks the ability to capture long-range and global graph information, leading to unsatisfactory performance on some datasets, particularly on heterophilic graphs. To address this limitation, we propose the Directional Graph Attention Network (DGAT) in this paper. DGAT is able to combine the feature-based attention with the global directional information extracted from the graph topology. To this end, a new class of Laplacian matrices is proposed which can provably reduce the diffusion distance between nodes. Based on the new Laplacian, topology-guided neighbour pruning and edge adding mechanisms are proposed to remove the noisy and capture the helpful long-range neighborhood information. Besides, a global directional attention is designed to enable a topological-aware information propagation. The superiority of the proposed DGAT over the baseline GAT has also been verified through experiments on real-world benchmarks and synthetic data sets. It also outperforms the state-of-the-art (SOTA) models on 6 out of 7 real-world benchmark datasets.
翻訳日:2024-03-06 21:17:25 公開日:2024-03-03
# WARDEN: エンベッド・アズ・ア・サービス保護のための多方向バックドア透かし

WARDEN: Multi-Directional Backdoor Watermarks for Embedding-as-a-Service Copyright Protection ( http://arxiv.org/abs/2403.01472v1 )

ライセンス: Link先を確認
Anudeex Shetty, Yue Teng, Ke He, Qiongkai Xu(参考訳) 組み込み・アズ・ア・サービス(EaaS)は、自然言語処理(NLP)におけるさまざまな下流タスクに対処する機能抽出機能を提供する、広く採用されているソリューションである。 しかしながら、この懸念は、テキスト埋め込みにバックドアの透かしを追加し、その後に公開後の攻撃モデルを検証することで緩和される可能性がある。 eaasの最近の透かし戦略であるembmarkerの分析を通じて、我々は、埋め込みの高ユーティリティを維持しながらバックドアの透かしを取り除く新しいcse攻撃(クラスタ化、選択、削除)を設計し、以前の透かしアプローチを破ることができることを示す。 この新たな脅威に対応して,複数のウォーターマーク方向を組み込むことで,ウォーターマークの除去をより困難にするための新しいプロトコルを提案する。 我々の防衛アプローチであるWARDENは、特に透かしのステルスネスを高め、CSE攻撃に対して実証的に有効であることが示されている。

Embedding as a Service (EaaS) has become a widely adopted solution, which offers feature extraction capabilities for addressing various downstream tasks in Natural Language Processing (NLP). Prior studies have shown that EaaS can be prone to model extraction attacks; nevertheless, this concern could be mitigated by adding backdoor watermarks to the text embeddings and subsequently verifying the attack models post-publication. Through the analysis of the recent watermarking strategy for EaaS, EmbMarker, we design a novel CSE (Clustering, Selection, Elimination) attack that removes the backdoor watermark while maintaining the high utility of embeddings, indicating that the previous watermarking approach can be breached. In response to this new threat, we propose a new protocol to make the removal of watermarks more challenging by incorporating multiple possible watermark directions. Our defense approach, WARDEN, notably increases the stealthiness of watermarks and empirically has been shown effective against CSE attack.
翻訳日:2024-03-06 21:17:06 公開日:2024-03-03
# 相関を保存する:合成データを生成する統計的方法

Preserving correlations: A statistical method for generating synthetic data ( http://arxiv.org/abs/2403.01471v1 )

ライセンス: Link先を確認
Nicklas J\"averg{\aa}rd, Rainey Lyons, Adrian Muntean and Jonas Forsman(参考訳) 統計的に代表される合成データを生成する手法を提案する。 主な目標は、元のデータセットにある機能の相関関係を合成データセットで維持し、適切なプライバシーレベルを提供し、最終的には特定の顧客の要求に合わせて調整できるようにすることだ。 本稿では,本アルゴリズムを原データセットの解析と合成データ点の生成に用いたアルゴリズムについて詳述する。 このアプローチは、大きなエネルギー関連データセットを使ってテストされる。 評価指標として使われる$\ell^1$型エラーノルムを用いて、定性的に(例えば相関写像のビズアル化)も量的にも良い結果が得られる。 提案手法は, 使用済みテストデータセットに依存しないという意味で一般的である。 ここで示されるよりもはるかに広い文脈で適用できると期待しています。

We propose a method to generate statistically representative synthetic data. The main goal is to be able to maintain in the synthetic dataset the correlations of the features present in the original one, while offering a comfortable privacy level that can be eventually tailored on specific customer demands. We describe in detail our algorithm used both for the analysis of the original dataset and for the generation of the synthetic data points. The approach is tested using a large energy-related dataset. We obtain good results both qualitatively (e.g. via vizualizing correlation maps) and quantitatively (in terms of suitable $\ell^1$-type error norms used as evaluation metrics). The proposed methodology is general in the sense that it does not rely on the used test dataset. We expect it to be applicable in a much broader context than indicated here.
翻訳日:2024-03-06 21:16:47 公開日:2024-03-03
# 領域内データはx線画像におけるランドマーク検出のための転送学習に有用か?

Is in-domain data beneficial in transfer learning for landmarks detection in x-ray images? ( http://arxiv.org/abs/2403.01470v1 )

ライセンス: Link先を確認
Roberto Di Via, Matteo Santacesaria, Francesca Odone, Vito Paolo Pastore(参考訳) 近年,深層学習が医用画像解析の有望な手法として登場している。 しかしながら、このアプリケーションドメインは、大規模な公開データセットとアノテーションの可用性の制限に悩まされる可能性が高い。 ディープラーニングにおけるこれらの課題に対する一般的な解決策は、移行学習フレームワーク(典型的には微調整プロトコル)の使用であり、大規模なソースデータセットを使用してモデルを事前トレーニングし、さらにターゲットデータセットに微調整する。 本稿では,大規模な自然画像データセットのみに事前学習したモデルに対して,小規模領域内X線画像データセットの使用がランドマーク検出に有効であるかどうかを系統的研究する。 胸部,頭部,手のx線画像を含む3つのデータセットのマルチランドマークローカライズタスクに注目した。 その結果、ドメイン内ソースデータセットを使うことは、imagenetのドメイン外事前トレーニングに関して、限界的あるいは全くメリットがないことがわかった。 医用画像におけるロバストランドマーク検出システムの開発には,大規模な注釈付きデータセットが存在しない場合の適応性が期待できる。

In recent years, deep learning has emerged as a promising technique for medical image analysis. However, this application domain is likely to suffer from a limited availability of large public datasets and annotations. A common solution to these challenges in deep learning is the usage of a transfer learning framework, typically with a fine-tuning protocol, where a large-scale source dataset is used to pre-train a model, further fine-tuned on the target dataset. In this paper, we present a systematic study analyzing whether the usage of small-scale in-domain x-ray image datasets may provide any improvement for landmark detection over models pre-trained on large natural image datasets only. We focus on the multi-landmark localization task for three datasets, including chest, head, and hand x-ray images. Our results show that using in-domain source datasets brings marginal or no benefit with respect to an ImageNet out-of-domain pre-training. Our findings can provide an indication for the development of robust landmark detection systems in medical images when no large annotated dataset is available.
翻訳日:2024-03-06 21:16:33 公開日:2024-03-03
# Collaborate to Adapt: 双方向適応によるソースフリーグラフドメイン適応

Collaborate to Adapt: Source-Free Graph Domain Adaptation via Bi-directional Adaptation ( http://arxiv.org/abs/2403.01467v1 )

ライセンス: Link先を確認
Zhen Zhang, Meihan Liu, Anhui Wang, Hongyang Chen, Zhao Li, Jiajun Bu, Bingsheng He(参考訳) unsupervised graph domain adaptation (ugda) はラベルの多いソースグラフから完全にラベルなしのターゲットグラフへ知識を転送するための実用的なソリューションとして登場した。 しかし、ほとんどの方法は、規制やプライバシー上の懸念から現実世界ではアクセスできない監視信号を提供するためにラベル付きソースグラフを必要とする。 本稿では,ラベル付きソースグラフにアクセスせずにドメイン適応問題に対処しようとする,ソースフリーな教師なしグラフドメイン適応のシナリオについて検討する。 Specifically, we present a novel paradigm called GraphCTA, which performs model adaptation and graph adaptation collaboratively through a series of procedures: (1) conduct model adaptation based on node's neighborhood predictions in target graph considering both local and global information; (2) perform graph adaptation by updating graph structure and node attributes via neighborhood contrastive learning; and (3) the updated graph serves as an input to facilitate the subsequent iteration of model adaptation, thereby establishing a collaborative loop between model adaptation and graph adaptation. 様々な公開データセットに対して総合的な実験を行う。 実験結果から,提案モデルが近年のソースフリーベースラインを大きなマージンで上回ることを示す。

Unsupervised Graph Domain Adaptation (UGDA) has emerged as a practical solution to transfer knowledge from a label-rich source graph to a completely unlabelled target graph. However, most methods require a labelled source graph to provide supervision signals, which might not be accessible in the real-world settings due to regulations and privacy concerns. In this paper, we explore the scenario of source-free unsupervised graph domain adaptation, which tries to address the domain adaptation problem without accessing the labelled source graph. Specifically, we present a novel paradigm called GraphCTA, which performs model adaptation and graph adaptation collaboratively through a series of procedures: (1) conduct model adaptation based on node's neighborhood predictions in target graph considering both local and global information; (2) perform graph adaptation by updating graph structure and node attributes via neighborhood contrastive learning; and (3) the updated graph serves as an input to facilitate the subsequent iteration of model adaptation, thereby establishing a collaborative loop between model adaptation and graph adaptation. Comprehensive experiments are conducted on various public datasets. The experimental results demonstrate that our proposed model outperforms recent source-free baselines by large margins.
翻訳日:2024-03-06 21:15:59 公開日:2024-03-03
# グラフ畳み込みネットワークに基づくハイパースペクトル画像のマルチビューサブスペースクラスタリング

Multiview Subspace Clustering of Hyperspectral Images based on Graph Convolutional Networks ( http://arxiv.org/abs/2403.01465v1 )

ライセンス: Link先を確認
Xianju Li and Renxiang Guan and Zihao Li and Hao Liu and Jing Yang(参考訳) 高次元および複雑なスペクトル構造は、ハイスペクトル画像(HSI)のクラスタリングを困難な課題にする。 サブスペースクラスタリングはこの問題に対処するための効果的なアプローチであることが示されている。 しかし、現在のサブスペースクラスタリングアルゴリズムは主に単一ビュー用に設計されており、HSIの空間的特徴情報やテクスチャ的特徴情報を十分に活用していない。 本研究では,グラフ畳み込みネットワークに基づくHSIのマルチビューサブスペースクラスタリングを提案する。 1)グラフ畳み込みネットワークの強力な分類能力と,ノード間のtopologi-cal関係の学習能力を用いて,hsiの空間的関係性を分析し,表現する。 2)2つのグラフ畳み込み部分空間を構築するために,画素テクスチャと画素近傍の空間スペクトルインフォメーションが送られた。 3)より識別的な特徴マップを適応的に構築するために注意に基づく融合モジュールが用いられた。 このモデルはインドパインズ、パヴィア大学、ヒューストンの3つのhsiデータセットで評価された。 全体の精度は92.38%、93.43%、83.82%で、最先端のクラスタリング法を大きく上回った。 結論として,提案モデルはHSIのクラスタリング精度を効果的に向上させることができる。

High-dimensional and complex spectral structures make clustering of hy-perspectral images (HSI) a challenging task. Subspace clustering has been shown to be an effective approach for addressing this problem. However, current subspace clustering algorithms are mainly designed for a single view and do not fully exploit spatial or texture feature information in HSI. This study proposed a multiview subspace clustering of HSI based on graph convolutional networks. (1) This paper uses the powerful classification ability of graph convolutional network and the learning ability of topologi-cal relationships between nodes to analyze and express the spatial relation-ship of HSI. (2) Pixel texture and pixel neighbor spatial-spectral infor-mation were sent to construct two graph convolutional subspaces. (3) An attention-based fusion module was used to adaptively construct a more discriminative feature map. The model was evaluated on three popular HSI datasets, including Indian Pines, Pavia University, and Houston. It achieved overall accuracies of 92.38%, 93.43%, and 83.82%, respectively and significantly outperformed the state-of-the-art clustering methods. In conclusion, the proposed model can effectively improve the clustering ac-curacy of HSI.
翻訳日:2024-03-06 21:15:43 公開日:2024-03-03
# 検索型オープンドメイン質問応答の解答可能性

Answerability in Retrieval-Augmented Open-Domain Question Answering ( http://arxiv.org/abs/2403.01461v1 )

ライセンス: Link先を確認
Rustam Abdumalikov, Pasquale Minervini and Yova Kementchedjhieva(参考訳) Open-Domain Question Answering (ODQA) 検索システムの性能は準最適動作を示し,無関係な文章の抜粋を提供する。 残念なことに、既存のODQAデータセットの多くは、無関係なテキストの抜粋の特定を特に対象とする例を欠いている。 このギャップに対処する以前の試みは、ランダムテキストの抜粋とペアリングする単純なアプローチに頼っていた。 本稿では,このランダム化戦略を用いて訓練されたモデルの有効性について検討し,意味的重複度の高い無関係テキスト抽出に一般化する上で重要な限界を明らかにすることを目的とする。 その結果,予測精度は98%から1%に大幅に低下した。 この制限に対処するために,このような抜粋を認識するためのトレーニングモデルの効率的なアプローチを見出した。 SQuAD 2.0データセットからの解決不可能なペアを活用することで、これらの難解なテキストの抜粋に直面すると、我々のモデルはほぼ完璧(~100%)の精度を達成する。

The performance of Open-Domain Question Answering (ODQA) retrieval systems can exhibit sub-optimal behavior, providing text excerpts with varying degrees of irrelevance. Unfortunately, many existing ODQA datasets lack examples specifically targeting the identification of irrelevant text excerpts. Previous attempts to address this gap have relied on a simplistic approach of pairing questions with random text excerpts. This paper aims to investigate the effectiveness of models trained using this randomized strategy, uncovering an important limitation in their ability to generalize to irrelevant text excerpts with high semantic overlap. As a result, we observed a substantial decrease in predictive accuracy, from 98% to 1%. To address this limitation, we discovered an efficient approach for training models to recognize such excerpts. By leveraging unanswerable pairs from the SQuAD 2.0 dataset, our models achieve a nearly perfect (~100%) accuracy when confronted with these challenging text excerpts.
翻訳日:2024-03-06 21:15:25 公開日:2024-03-03
# 遷移確率に基づくワンステップマルチビュークラスタリング

One-Step Multi-View Clustering Based on Transition Probability ( http://arxiv.org/abs/2403.01460v1 )

ライセンス: Link先を確認
Wenhui Zhao, Quanxue Gao, Guangfei Li, Cheng Deng, Ming Yang(参考訳) アンカーグラフに基づく大規模マルチビュークラスタリングアルゴリズムは、期待できる性能と効率を示し、近年広く研究されている。 その成功にもかかわらず、現在の手法はクラスタリングプロセスにおいて解釈可能性に欠けており、異なるビュー間の補完的な情報を十分に考慮していない。 これらの欠点に対処するために、遷移確率に基づくワンステップマルチビュークラスタリング(OSMVC-TP)を導入する。 この方法は、アンカーグラフを利用する確率的アプローチを採用し、サンプルからアンカー点への遷移確率を表す。 本手法は,アンカー点からカテゴリへの遷移確率を直接学習し,サンプルからカテゴリへの遷移確率を算出し,サンプルとアンカー点のソフトラベル行列を取得し,クラスタリングの解釈可能性を高める。 さらに,異なるビューにまたがるラベルの一貫性を維持するために,ソフトラベルからなるテンソルにシャッテンpノルム制約を適用する。 このアプローチは、ビュー間の補完情報を効果的に活用する。 大規模な実験によりOSMVC-TPの有効性と堅牢性が確認された。

The large-scale multi-view clustering algorithms, based on the anchor graph, have shown promising performance and efficiency and have been extensively explored in recent years. Despite their successes, current methods lack interpretability in the clustering process and do not sufficiently consider the complementary information across different views. To address these shortcomings, we introduce the One-Step Multi-View Clustering Based on Transition Probability (OSMVC-TP). This method adopts a probabilistic approach, which leverages the anchor graph, representing the transition probabilities from samples to anchor points. Our method directly learns the transition probabilities from anchor points to categories, and calculates the transition probabilities from samples to categories, thus obtaining soft label matrices for samples and anchor points, enhancing the interpretability of clustering. Furthermore, to maintain consistency in labels across different views, we apply a Schatten p-norm constraint on the tensor composed of the soft labels. This approach effectively harnesses the complementary information among the views. Extensive experiments have confirmed the effectiveness and robustness of OSMVC-TP.
翻訳日:2024-03-06 21:15:10 公開日:2024-03-03
# スピン軌道結合二元ボソニック凝縮体における半渦ソリトンとその励起状態

Semi-vortex solitons and their excited states in spin-orbit-coupled binary bosonic condensates ( http://arxiv.org/abs/2403.01458v1 )

ライセンス: Link先を確認
Haiming Deng, Jinqing Li, Zhaopin Chen, Yaohui Liu, Dong Liu, Chunzhi Jiang, Chao Kong, and Boris A. Malomed(参考訳) 半渦(SV)型の2次元2成分基本ソリトンは、その成分の渦率$(s_{+},s_{-})=(0,1)$で、スピン軌道結合(SOC)二元系における安定基底状態(GS)であり、系の臨界崩壊の可能性にもかかわらず、両成分で作用する接触自己誘引と凝縮することが知られている。 しかし、SVソリトン(英語版)の励起状態(ESs)は、(s_{+},s_{-})=(S_{+},S_{+}+1)$と$S_{+}=1,2,3,...$が同じ系で不安定である。 本研究では,SOC系におけるSVソリトンESを2成分の自己相互作用の反対の符号で構成する。 主な発見はES-SVソリトンの安定性であり、追加の渦度は(少なくとも)$S_{+}=6$である。 臨界崩壊の開始のノルムのしきい値である$N_{\mathrm{thr}}$は、一般的に知られている臨界値より高く、$N_{c}\approx 5.85$は単成分タウンズソリトンと結びつき、$N_{\mathrm{thr}}$は$S_{+}$の成長とともに増加する。 gs-svソリトンの安定運動のための速度間隔も見いだされる。 その結果、高位相電荷を持つ安定な渦ソリトンの生成という難題の解決法が示唆された。

It is known that two-dimensional two-component fundamental solitons of the semi-vortex (SV) type, with vorticities $(s_{+},s_{-})=(0,1)$ in their components, are stable ground states (GSs) in the spin-orbit-coupled (SOC) binary Bose-Einstein condensate with the contact self-attraction acting in both components, in spite of the possibility of the critical collapse in the system. However, excited states(ESs) of the SV solitons, with the vorticity set $(s_{+},s_{-})=( S_{+},S_{+}+1)$ and $S_{+}=1,2,3,...$, are unstable in the same system. We construct ESs of SV solitons in the SOC system with opposite signs of the self-interaction in the two components. The main finding is stability of the ES-SV solitons, with the extra vorticity (at least) up to $S_{+}=6$. The threshold value of the norm for the onset of the critical collapse, $N_{\mathrm{thr}}$, in these excited states is higher than the commonly known critical value, $N_{c}\approx 5.85$,associated with the single-component Townes solitons, $N_{\mathrm{thr}}$ increasing with the growth of $S_{+}$. A velocity interval for stable motion of the GS-SV solitons is found too. The results suggest a solution for the challenging problem of the creation of stable vortex solitons with high topological charges.
翻訳日:2024-03-06 21:14:51 公開日:2024-03-03
# 判例検索の解説としての論理規則

Logic Rules as Explanations for Legal Case Retrieval ( http://arxiv.org/abs/2403.01457v1 )

ライセンス: Link先を確認
Zhongxiang Sun, Kepu Zhang, Weijie Yu, Haoyu Wang, Jun Xu(参考訳) 本稿では,判例検索の結果を説明するために,論理規則を用いるという問題に対処する。 このタスクは、ユーザー(弁護士や裁判官など)が高度に専門化されており、法的決定を行う前に論理的で忠実で解釈可能な説明を提供する必要があるため、訴訟検索にとって重要である。 近年,説明可能な判例検索モデルを学ぶための研究が進められている。 しかしながら、これらの方法は通常、法的ケースから理性(キー文)を説明として選択し、忠実で論理的に正しい説明を提供しない。 本稿では, ケースレベルおよび法レベルの論理ルールを学習することで, 訴訟のマッチングを明示的に推論する枠組みであるNS-LCR(Neural-Symbolic enhanced Legal Case Retrieval)を提案する。 学習されたルールは、神経シンボリックな方法で検索プロセスに統合される。 論理規則の論理性と解釈性に相応しいNS-LCRは、忠実な説明性を備えている。 また、NS-LCRは複数の法的検索モデルに接続可能なモデルに依存しないフレームワークであることを示す。 NS-LCRの優位性を示すために,手動で注釈付き論理ルールを追加し,Large Language Models (LLMs) を用いた新しい説明可能性指標を導入することにより,既存のベンチマークを強化する。 包括的実験により, ns-lcrの有効性が示され, 判例検索の信頼性の高い説明が得られた。

In this paper, we address the issue of using logic rules to explain the results from legal case retrieval. The task is critical to legal case retrieval because the users (e.g., lawyers or judges) are highly specialized and require the system to provide logical, faithful, and interpretable explanations before making legal decisions. Recently, research efforts have been made to learn explainable legal case retrieval models. However, these methods usually select rationales (key sentences) from the legal cases as explanations, failing to provide faithful and logically correct explanations. In this paper, we propose Neural-Symbolic enhanced Legal Case Retrieval (NS-LCR), a framework that explicitly conducts reasoning on the matching of legal cases through learning case-level and law-level logic rules. The learned rules are then integrated into the retrieval process in a neuro-symbolic manner. Benefiting from the logic and interpretable nature of the logic rules, NS-LCR is equipped with built-in faithful explainability. We also show that NS-LCR is a model-agnostic framework that can be plugged in for multiple legal retrieval models. To showcase NS-LCR's superiority, we enhance existing benchmarks by adding manually annotated logic rules and introducing a novel explainability metric using Large Language Models (LLMs). Our comprehensive experiments reveal NS-LCR's effectiveness for ranking, alongside its proficiency in delivering reliable explanations for legal case retrieval.
翻訳日:2024-03-06 21:14:08 公開日:2024-03-03
# IRT評価のための PLM に基づくサーロゲートモデルによるクローズテスト質問項目の制御

Controlling Cloze-test Question Item Difficulty with PLM-based Surrogate Models for IRT Assessment ( http://arxiv.org/abs/2403.01456v1 )

ライセンス: Link先を確認
Jingshen Zhang and Jiajun Xie and Xinying Qiu(参考訳) アイテムの難しさは適応テストにおいて重要な役割を果たす。 しかし、特にマルチチョイス(MC)クローゼテストにおいて、様々な難易度を問うことに焦点を当てた研究はほとんどない。 本稿では,課題応答理論(irt)評価を可能にするためのサロゲートモデルとして,事前学習型言語モデル(plms)を提案する。 また,不正な邪魔者を減らすためのランキングルールを用いて,ギャップと邪魔者の両方の難易度を制御するための2つの戦略を提案する。 ベンチマークデータセットを用いた実験により,提案手法はMCクローゼテストの難易度を効果的に制御し,評価できることを示した。

Item difficulty plays a crucial role in adaptive testing. However, few works have focused on generating questions of varying difficulty levels, especially for multiple-choice (MC) cloze tests. We propose training pre-trained language models (PLMs) as surrogate models to enable item response theory (IRT) assessment, avoiding the need for human test subjects. We also propose two strategies to control the difficulty levels of both the gaps and the distractors using ranking rules to reduce invalid distractors. Experimentation on a benchmark dataset demonstrates that our proposed framework and methods can effectively control and evaluate the difficulty levels of MC cloze tests.
翻訳日:2024-03-06 21:13:42 公開日:2024-03-03
# 動的評価の再考:大規模言語モデルのオンライン適応

Revisiting Dynamic Evaluation: Online Adaptation for Large Language Models ( http://arxiv.org/abs/2403.01518v1 )

ライセンス: Link先を確認
Amal Rannen-Triki, Jorg Bornschein, Razvan Pascanu, Marcus Hutter, Andras Gy\"orgy, Alexandre Galashov, Yee Whye Teh, Michalis K. Titsias(参考訳) 動的評価(動的評価)としても知られる,テスト時の言語モデルのパラメータをオンラインで微調整する問題を考察する。 このアプローチが全体的な予測性能を向上させることは一般的に知られているが、特にトレーニングデータと評価データの間の分布シフトを考慮する場合、オンライン適応はパラメータを時間変化状態に変換し、重み付き記憶を伴うコンテキスト長拡張の形式を提供し、神経科学における記憶の概念とより一致している。 我々は、適応の速度(サンプル効率の観点から)、全体の分布のドリフトに対する感度、勾配計算とパラメータ更新を行う計算オーバーヘッドに特に注意を払う。 私たちの実証研究は、オンライン適応が特に興味深い時期についての洞察を与えます。 オンライン適応では、文脈内学習と微調整の曖昧さという概念的な区別が強調される。

We consider the problem of online fine tuning the parameters of a language model at test time, also known as dynamic evaluation. While it is generally known that this approach improves the overall predictive performance, especially when considering distributional shift between training and evaluation data, we here emphasize the perspective that online adaptation turns parameters into temporally changing states and provides a form of context-length extension with memory in weights, more in line with the concept of memory in neuroscience. We pay particular attention to the speed of adaptation (in terms of sample efficiency),sensitivity to the overall distributional drift, and the computational overhead for performing gradient computations and parameter updates. Our empirical study provides insights on when online adaptation is particularly interesting. We highlight that with online adaptation the conceptual distinction between in-context learning and fine tuning blurs: both are methods to condition the model on previously observed tokens.
翻訳日:2024-03-06 21:08:56 公開日:2024-03-03
# MatchU:RGB-D画像からの6次元空間推定のための見えない物体のマッチング

MatchU: Matching Unseen Objects for 6D Pose Estimation from RGB-D Images ( http://arxiv.org/abs/2403.01517v1 )

ライセンス: Link先を確認
Junwen Huang, Hao Yu, Kuan-Ting Yu, Nassir Navab, Slobodan Ilic, Benjamin Busam(参考訳) オブジェクトポーズ推定のための最近の学習方法は、個々のオブジェクトインスタンスやカテゴリに対するリソース集約的なトレーニングを必要とする。 本稿では,rgb-d画像から6次元ポーズ推定のためのfuse-describe-match戦略であるmatchuを提案する。 MatchUは、2Dテクスチャと6Dポーズ予測のための3D幾何学的手がかりを融合する汎用的なアプローチである。 設計によって回転不変となる幾何学的3次元ディスクリプタの学習に依拠する。 ポーズに依存しない幾何学を符号化することにより、学習された記述子は自然に見えない対象に一般化し、対称性を捉える。 3dジオメトリのみを使用して曖昧な関連に取り組むため、ディスクリプタに追加のrgb情報を注入します。 これは、クロスモーダルな情報を融合する新しい注意に基づくメカニズムと、rgbデータから学習した潜在空間を利用してディスクリプタ学習プロセスを導くマッチング損失によって達成される。 広範な実験により、rgb-d核融合戦略とディスクリプタの有効性の両方の一般化性が明らかになった。 新たな設計の恩恵を受け、matchuは高価な再トレーニングやレンダリングの必要がなくても、精度とスピードの両面で既存の手法をはるかに上回っている。

Recent learning methods for object pose estimation require resource-intensive training for each individual object instance or category, hampering their scalability in real applications when confronted with previously unseen objects. In this paper, we propose MatchU, a Fuse-Describe-Match strategy for 6D pose estimation from RGB-D images. MatchU is a generic approach that fuses 2D texture and 3D geometric cues for 6D pose prediction of unseen objects. We rely on learning geometric 3D descriptors that are rotation-invariant by design. By encoding pose-agnostic geometry, the learned descriptors naturally generalize to unseen objects and capture symmetries. To tackle ambiguous associations using 3D geometry only, we fuse additional RGB information into our descriptor. This is achieved through a novel attention-based mechanism that fuses cross-modal information, together with a matching loss that leverages the latent space learned from RGB data to guide the descriptor learning process. Extensive experiments reveal the generalizability of both the RGB-D fusion strategy as well as the descriptor efficacy. Benefiting from the novel designs, MatchU surpasses all existing methods by a significant margin in terms of both accuracy and speed, even without the requirement of expensive re-training or rendering.
翻訳日:2024-03-06 21:08:38 公開日:2024-03-03
# CDSE-UNet: Canny Edge Detection と Dual-Path SENet Feature Fusion による COVID-19 CT 画像分割の強化

CDSE-UNet: Enhancing COVID-19 CT Image Segmentation with Canny Edge Detection and Dual-Path SENet Feature Fusion ( http://arxiv.org/abs/2403.01513v1 )

ライセンス: Link先を確認
Jiao Ding, Jie Chang, Renrui Han, Li Yang(参考訳) 新型コロナウイルスのCT画像の正確なセグメンテーションは、重症度と死亡率の低下に不可欠である。 新型コロナウイルスのct画像における病変領域のぼやけた境界と高い変動特性に対応するために,cdse-unetという,カニー演算子エッジ検出とデュアルパスセネット特徴融合機構を統合した,新しいunetベースのセグメンテーションモデルを導入する。 このモデルは、サンプル画像のエッジ検出にCanny演算子を使用し、類似のネットワーク構造を用いてセマンティック特徴抽出を行うことにより、標準UNetアーキテクチャを強化する。 主要なイノベーションはDouble SENet Feature Fusion Blockで、両方のイメージパスの機能を効果的に組み合わせるために対応するネットワーク層に適用される。 さらに, unetの標準畳み込みに代えて, 各種病変の大きさや形状に適応するマルチスケール畳み込み法を開発した。 この追加は、病変のエッジピクセルを正確に分類するだけでなく、チャネルの分化を著しく改善し、モデルの容量を拡大する。 我々は,cdse-unetが他の先行モデル,特に大小の病変領域を区分し,病変エッジを高精度に区切り,ノイズを効果的に抑制することを示す。

Accurate segmentation of COVID-19 CT images is crucial for reducing the severity and mortality rates associated with COVID-19 infections. In response to blurred boundaries and high variability characteristic of lesion areas in COVID-19 CT images, we introduce CDSE-UNet: a novel UNet-based segmentation model that integrates Canny operator edge detection and a dual-path SENet feature fusion mechanism. This model enhances the standard UNet architecture by employing the Canny operator for edge detection in sample images, paralleling this with a similar network structure for semantic feature extraction. A key innovation is the Double SENet Feature Fusion Block, applied across corresponding network layers to effectively combine features from both image paths. Moreover, we have developed a Multiscale Convolution approach, replacing the standard Convolution in UNet, to adapt to the varied lesion sizes and shapes. This addition not only aids in accurately classifying lesion edge pixels but also significantly improves channel differentiation and expands the capacity of the model. Our evaluations on public datasets demonstrate CDSE-UNet's superior performance over other leading models, particularly in segmenting large and small lesion areas, accurately delineating lesion edges, and effectively suppressing noise
翻訳日:2024-03-06 21:08:18 公開日:2024-03-03
# エンド・ツー・エンドのヒューマン・インスタンス・マッティング

End-to-End Human Instance Matting ( http://arxiv.org/abs/2403.01510v1 )

ライセンス: Link先を確認
Qinglin Liu, Shengping Zhang, Quanling Meng, Bineng Zhong, Peiqiang Liu, Hongxun Yao(参考訳) human instance mattingは、画像内の各人間のインスタンスのアルファマットを推定することを目的としている。 インスタンスのセグメンテーションを使用して各インスタンスのトリマップを生成し、トリマップベースのマッティングメソッドを適用する努力にもかかわらず、結果のアルファ行列は不正確なセグメンテーションのために不正確な場合が多い。 さらに、このアプローチは、マットングメソッドの複数の実行によって計算効率が低下する。 これらの問題に対処するため,本研究では,複数インスタンスの同時マッチングをより効率的に行うための新しいエンド・ツー・エンドヒューマン・インスタンス・マッティング(E2E-HIM)フレームワークを提案する。 具体的には、一般的な知覚ネットワークがまず画像の特徴を抽出し、インスタンスコンテキストを潜在コードにデコードする。 そして、統合誘導ネットワークは、空間的注意とセマンティクスの埋め込みを利用して、すべてのインスタンスの位置とセマンティクスをエンコードする統合セマンティクスガイダンスを生成する。 最後に、インスタンスマッチングネットワークは、イメージ機能と統合セマンティクスガイダンスをデコードして、すべてのインスタンスレベルのアルファ行列を予測する。 さらに,人間の10万以上の画像とアルファマットラベルを含む大規模ヒトインスタンスマットングデータセット(him-100k)を構築した。 HIM-100Kの実験では、提案されたE2E-HIMは、50%低いエラーと5倍速いスピード(640X640画像の6つのインスタンス)で、既存の方法よりも優れていることを示した。 PPM-100、RWP-636、およびP3Mデータセットの実験は、E2E-HIMが従来のヒトの交尾において競争力を発揮することを示した。

Human instance matting aims to estimate an alpha matte for each human instance in an image, which is extremely challenging and has rarely been studied so far. Despite some efforts to use instance segmentation to generate a trimap for each instance and apply trimap-based matting methods, the resulting alpha mattes are often inaccurate due to inaccurate segmentation. In addition, this approach is computationally inefficient due to multiple executions of the matting method. To address these problems, this paper proposes a novel End-to-End Human Instance Matting (E2E-HIM) framework for simultaneous multiple instance matting in a more efficient manner. Specifically, a general perception network first extracts image features and decodes instance contexts into latent codes. Then, a united guidance network exploits spatial attention and semantics embedding to generate united semantics guidance, which encodes the locations and semantic correspondences of all instances. Finally, an instance matting network decodes the image features and united semantics guidance to predict all instance-level alpha mattes. In addition, we construct a large-scale human instance matting dataset (HIM-100K) comprising over 100,000 human images with instance alpha matte labels. Experiments on HIM-100K demonstrate the proposed E2E-HIM outperforms the existing methods on human instance matting with 50% lower errors and 5X faster speed (6 instances in a 640X640 image). Experiments on the PPM-100, RWP-636, and P3M datasets demonstrate that E2E-HIM also achieves competitive performance on traditional human matting.
翻訳日:2024-03-06 21:07:54 公開日:2024-03-03
# 素晴らしい意味論とそれを見つける場所--生成的llmのどの層が語彙的意味論を反映しているかの検討

Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics ( http://arxiv.org/abs/2403.01509v1 )

ライセンス: Link先を確認
Zhu Liu, Cunliang Kong, Ying Liu and Maosong Sun(参考訳) 大規模言語モデルは、一般的な言語理解タスクで著しく成功した。 しかし、次のトークン予測を目的とした生成手法のファミリーとして、これらのモデルの深さによる意味進化は、BERTのような先駆的なアーキテクチャとは異なり、完全には解明されていない。 本稿では,Llama2という一般的なLLMの語彙的意味論のボトムアップ進化を,文脈化された単語識別タスクを用いて各層の末尾に隠された状態を探索することによって詳細に検討する。 実験により,下位層における表現は語彙的意味論を符号化し,上位層はより弱い意味的帰納法を持ち,予測の責任を負うことが示された。 これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。 この結論は、プロンプト戦略における最後の無意味な記号(句読点など)の隠れ状態による単調な性能向上によってさらに支持される。

Large language models have achieved remarkable success in general language understanding tasks. However, as a family of generative methods with the objective of next token prediction, the semantic evolution with the depth of these models are not fully explored, unlike their predecessors, such as BERT-like architectures. In this paper, we specifically investigate the bottom-up evolution of lexical semantics for a popular LLM, namely Llama2, by probing its hidden states at the end of each layer using a contextualized word identification task. Our experiments show that the representations in lower layers encode lexical semantics, while the higher layers, with weaker semantic induction, are responsible for prediction. This is in contrast to models with discriminative objectives, such as mask language modeling, where the higher layers obtain better lexical semantics. The conclusion is further supported by the monotonic increase in performance via the hidden states for the last meaningless symbols, such as punctuation, in the prompting strategy.
翻訳日:2024-03-06 21:07:26 公開日:2024-03-03
# 不確かな知識グラフに対するソフト推論

Soft Reasoning on Uncertain Knowledge Graphs ( http://arxiv.org/abs/2403.01508v1 )

ライセンス: Link先を確認
Weizhi Fei, Zihao Wang, Hang Yin, Yang Duan, Hanghang Tong, Yangqiu Song(参考訳) 機械学習に基づく論理クエリー探索の研究は、大規模かつ不完全な知識グラフによる推論を可能にする。 本稿では,知識の不確実性を考慮した研究をさらに進める。 知識の不確実性は現実世界で広く観測されているが、既存の研究を支える一階述語論理とシームレスに一致している。 このギャップを埋めるために,ソフト制約プログラミングの確立を動機とする不確定な知識に対するソフトクエリの設定について検討する。 さらに,大規模,不完全,不確実な知識グラフ上でのソフトクエリに応答する,前方推論と後方校正を併用したMLベースのアプローチを提案する。 理論的議論は,本手法が1次クエリの最先端推論アルゴリズムと同じ複雑さを持つことを示している。 実験結果は、数値埋め込み拡張を用いた従来のmlベースメソッドに対するアプローチの優れた性能を正当化する。

The study of machine learning-based logical query-answering enables reasoning with large-scale and incomplete knowledge graphs. This paper further advances this line of research by considering the uncertainty in the knowledge. The uncertain nature of knowledge is widely observed in the real world, but \textit{does not} align seamlessly with the first-order logic underpinning existing studies. To bridge this gap, we study the setting of soft queries on uncertain knowledge, which is motivated by the establishment of soft constraint programming. We further propose an ML-based approach with both forward inference and backward calibration to answer soft queries on large-scale, incomplete, and uncertain knowledge graphs. Theoretical discussions present that our methods share the same complexity as state-of-the-art inference algorithms for first-order queries. Empirical results justify the superior performance of our approach against previous ML-based methods with number embedding extensions.
翻訳日:2024-03-06 21:07:04 公開日:2024-03-03
# SCott:確率整合蒸留による拡散モデルの高速化

SCott: Accelerating Diffusion Models with Stochastic Consistency Distillation ( http://arxiv.org/abs/2403.01505v1 )

ライセンス: Link先を確認
Hongjian Liu, Qingsong Xie, Zhijie Deng, Chen Chen, Shixiang Tang, Fueyang Fu, Zheng-jun Zha, Haonan Lu(参考訳) 拡散モデル(DM)による反復サンプリング手順は、しばしば大きな推論遅延を引き起こす。 そこで本研究では,1~2ステップのサンプリングで高品質な世代を達成でき,さらに追加のステップを追加することで,さらなる改善が期待できる確率的一貫性蒸留(SCott)を提案する。 教師モデルの通常の微分方程式に基づくサンプリング過程を学生に蒸留するバニラ整合蒸留(CD)とは対照的に、SCottは確率微分方程式(SDE)ソルバをCDに統合して教師のポテンシャルを完全に解き放つ可能性を探究し、有効性を検証する。 SCottは、SDEソルバのノイズ強度とサンプリング過程を制御するための精巧な戦略で拡張されている。 さらに対向損失が組み込まれ、希少なサンプリング工程で試料品質が向上する。 MSCOCO-2017 5Kデータセットと安定拡散V1.5の教師を用いて、SCottは22.1のFID(Frechet Inceptio Distance)を達成し、1段階のInstaFlow(Liu et al., 2023)の23.4パーセントを超え、4段階のUFOGen(Xue et al., 2023b)と一致する。 さらに、SCottは高解像度画像生成のための他の整合性モデル(Luo et al., 2023a)よりも多種多様なサンプルを得られる。 コードとチェックポイントはもうすぐやってくる。

The iterative sampling procedure employed by diffusion models (DMs) often leads to significant inference latency. To address this, we propose Stochastic Consistency Distillation (SCott) to enable accelerated text-to-image generation, where high-quality generations can be achieved with just 1-2 sampling steps, and further improvements can be obtained by adding additional steps. In contrast to vanilla consistency distillation (CD) which distills the ordinary differential equation solvers-based sampling process of a pretrained teacher model into a student, SCott explores the possibility and validates the efficacy of integrating stochastic differential equation (SDE) solvers into CD to fully unleash the potential of the teacher. SCott is augmented with elaborate strategies to control the noise strength and sampling process of the SDE solver. An adversarial loss is further incorporated to strengthen the sample quality with rare sampling steps. Empirically, on the MSCOCO-2017 5K dataset with a Stable Diffusion-V1.5 teacher, SCott achieves an FID (Frechet Inceptio Distance) of 22.1, surpassing that (23.4) of the 1-step InstaFlow (Liu et al., 2023) and matching that of 4-step UFOGen (Xue et al., 2023b). Moreover, SCott can yield more diverse samples than other consistency models for high-resolution image generation (Luo et al., 2023a), with up to 16% improvement in a qualified metric. The code and checkpoints are coming soon.
翻訳日:2024-03-06 21:06:49 公開日:2024-03-03
# グラフニューラルネットワークを用いたネットワーク流れのネットワーク侵入検出への自己教師あり学習の適用

Applying Self-supervised Learning to Network Intrusion Detection for Network Flows with Graph Neural Network ( http://arxiv.org/abs/2403.01501v1 )

ライセンス: Link先を確認
Renjie Xu, Guangwei Wu, Weiping Wang, Xing Gao, An He, Zhengpeng Zhang(参考訳) グラフニューラルネットワーク(gnns)は,ネットワークトラフィックフローの表現に適しているため,ネットワーク侵入検出システム(nid)に対して集中的に注目されている。 しかしながら, NIDS の GNN ベースの手法のほとんどは, 教師付きあるいは半教師付きである。 ネットワークフローは、特に大規模な実世界のシナリオにおいて、NIDSが潜在的に複雑な攻撃に適応することを難しくする、時間を要する、あるいは不可能なプロセスである監視ラベルとして手動でアノテートする必要がある。 既存のGNNベースの自己監視手法は、ネットワークフローを良否のバイナリ分類に重点を置いており、実際には攻撃の種類を明らかにしていない。 本稿では,教師なし型ネットワークフローの特定のためのGNNの適用について検討する。 まず,グラフの埋め込みを実現するエンコーダを設計し,グラフの注意機構を導入し,エッジ情報を唯一の必須要素とみなす。 そこで,グラフコントラスト学習に基づく自己教師型手法を提案する。 この方法は中心ノードをサンプリングし、各中心ノードがそれとその直接隣接ノードによってサブグラフを生成し、補間されたグラフから対応する対比サブグラフを生成し、最終的にサブグラフから正と負のサンプルを生成する。 さらに,エッジ特徴とグラフ局所トポロジに基づく構造的コントラスト損失関数を導入する。 我々の知る限り、NIDSにおけるネットワークフローのマルチクラス分類のための最初のGNNベースの自己教師方式である。 実世界の4つのデータベース(NF-Bot-IoT、NF-Bot-IoT-v2、NF-CSE-CIC-IDS2018、NF-CSE-CIC-IDS2018-v2)で実施された詳細な実験は、我々のモデルを最先端の教師付きおよび自己教師付きモデルと体系的に比較し、我々の方法のかなりの可能性を示している。 私たちのコードはhttps://github.com/renj-xu/NEGSCからアクセスできます。

Graph Neural Networks (GNNs) have garnered intensive attention for Network Intrusion Detection System (NIDS) due to their suitability for representing the network traffic flows. However, most present GNN-based methods for NIDS are supervised or semi-supervised. Network flows need to be manually annotated as supervisory labels, a process that is time-consuming or even impossible, making NIDS difficult to adapt to potentially complex attacks, especially in large-scale real-world scenarios. The existing GNN-based self-supervised methods focus on the binary classification of network flow as benign or not, and thus fail to reveal the types of attack in practice. This paper studies the application of GNNs to identify the specific types of network flows in an unsupervised manner. We first design an encoder to obtain graph embedding, that introduces the graph attention mechanism and considers the edge information as the only essential factor. Then, a self-supervised method based on graph contrastive learning is proposed. The method samples center nodes, and for each center node, generates subgraph by it and its direct neighbor nodes, and corresponding contrastive subgraph from the interpolated graph, and finally constructs positive and negative samples from subgraphs. Furthermore, a structured contrastive loss function based on edge features and graph local topology is introduced. To the best of our knowledge, it is the first GNN-based self-supervised method for the multiclass classification of network flows in NIDS. Detailed experiments conducted on four real-world databases (NF-Bot-IoT, NF-Bot-IoT-v2, NF-CSE-CIC-IDS2018, and NF-CSE-CIC-IDS2018-v2) systematically compare our model with the state-of-the-art supervised and self-supervised models, illustrating the considerable potential of our method. Our code is accessible through https://github.com/renj-xu/NEGSC.
翻訳日:2024-03-06 21:06:14 公開日:2024-03-03
# 流動型微分可能な粒子フィルタの正規化

Normalising Flow-based Differentiable Particle Filters ( http://arxiv.org/abs/2403.01499v1 )

ライセンス: Link先を確認
Xiongjie Chen, Yunpeng Li(参考訳) 近年,複雑な環境下での非線形非ガウス状態空間モデルに対する連続的状態推定とモデル学習を行うために,ニューラルネットワークを粒子フィルタに組み込むことへの関心が高まっている。 既存の微分可能な粒子フィルタは主に密度推定を許さないバニラニューラルネットワークで構築されている。 結果として、それらはブートストラップ粒子フィルタリングフレームワークに制限されるか、より複雑な実世界のシナリオで性能を制限する(ガウス分布など)事前定義された分散ファミリを採用するかのどちらかである。 本稿では,(条件付き)正規化フローを用いて動的モデル,提案分布,計測モデルを構築するための微分可能な粒子フィルタリングフレームワークを提案する。 これにより、有効確率密度が可能であるだけでなく、事前に定義された分布列に制限されることなく、これらのモジュールを柔軟な方法で適応的に学習することができる。 提案するフィルタの理論的性質を導出し, 数値実験により, 流動型微分性粒子フィルタの性能評価を行った。

Recently, there has been a surge of interest in incorporating neural networks into particle filters, e.g. differentiable particle filters, to perform joint sequential state estimation and model learning for non-linear non-Gaussian state-space models in complex environments. Existing differentiable particle filters are mostly constructed with vanilla neural networks that do not allow density estimation. As a result, they are either restricted to a bootstrap particle filtering framework or employ predefined distribution families (e.g. Gaussian distributions), limiting their performance in more complex real-world scenarios. In this paper we present a differentiable particle filtering framework that uses (conditional) normalising flows to build its dynamic model, proposal distribution, and measurement model. This not only enables valid probability densities but also allows the proposed method to adaptively learn these modules in a flexible way, without being restricted to predefined distribution families. We derive the theoretical properties of the proposed filters and evaluate the proposed normalising flow-based differentiable particle filters' performance through a series of numerical experiments.
翻訳日:2024-03-06 21:05:37 公開日:2024-03-03
# 水中画像強調のための変圧器を用いた物理認識拡散モデル学習

Learning A Physical-aware Diffusion Model Based on Transformer for Underwater Image Enhancement ( http://arxiv.org/abs/2403.01497v1 )

ライセンス: Link先を確認
Chen Zhao, Chenyu Dong, Weiling Cai(参考訳) 水中視覚は様々な複雑な劣化を受け、必然的に水中視覚タスクの効率に影響を及ぼす。 近年,水中画像強調(UIE)タスクに拡散モデルが採用され,SOTA性能が向上した。 しかし、これらの手法は拡散過程における物理的特性や水中イメージング機構を考慮せず、拡散モデルの情報完成能力を制限する。 本稿では,拡散過程の導出に物理知識を活用するための新しいUIEフレームワークであるPA-Diffを紹介する。 PA-Diffは物理優先生成(PPG)ブランチと物理対応拡散変換(PDT)ブランチで構成される。 我々の設計したPSGブランチは、物理を事前に生成するためのプラグアンドプレイネットワークであり、どんなディープフレームワークにも組み込める。 拡散過程の指導に物理事前知識を利用することで、pdtブランチは水中認識能力を獲得し、実世界の水中シーンにおける複雑な分布をモデル化することができる。 広範な実験により,本手法がuieタスクで最高の性能を発揮することを証明した。

Underwater visuals undergo various complex degradations, inevitably influencing the efficiency of underwater vision tasks. Recently, diffusion models were employed to underwater image enhancement (UIE) tasks, and gained SOTA performance. However, these methods fail to consider the physical properties and underwater imaging mechanisms in the diffusion process, limiting information completion capacity of diffusion models. In this paper, we introduce a novel UIE framework, named PA-Diff, designed to exploiting the knowledge of physics to guide the diffusion process. PA-Diff consists of Physics Prior Generation (PPG) Branch and Physics-aware Diffusion Transformer (PDT) Branch. Our designed PPG branch is a plug-and-play network to produce the physics prior, which can be integrated into any deep framework. With utilizing the physics prior knowledge to guide the diffusion process, PDT branch can obtain underwater-aware ability and model the complex distribution in real-world underwater scenes. Extensive experiments prove that our method achieves best performance on UIE tasks.
翻訳日:2024-03-06 21:05:22 公開日:2024-03-03
# ConvTimeNet:多変量時系列解析のための階層的完全畳み込みモデル

ConvTimeNet: A Deep Hierarchical Fully Convolutional Model for Multivariate Time Series Analysis ( http://arxiv.org/abs/2403.01493v1 )

ライセンス: Link先を確認
Mingyue Cheng, Jiqian Yang, Tingyue Pan, Qi Liu, Zhi Li(参考訳) 本稿では,時系列解析のための汎用モデルとして設計された,新しい階層型完全畳み込みネットワークであるConvTimeNetを紹介する。 このネットワークの鍵となる設計は、従来の畳み込みネットワークの限界を克服するために設計された2つある。 まず,時系列のサブシリーズレベルパッチへの適応的なセグメンテーションを提案し,それらを基本的なモデリングユニットとして扱う。 この設定は、生のポイントレベルの時間ステップに関連するスパーシティセマンティクスを避ける。 第2に,Transformerエンコーダで使用される高度なビルディングブロックスタイルに従って,深部およびポイントワイドの畳み込み操作を巧みに統合して,完全な畳み込みブロックを設計する。 このバックボーンネットワークは、Transformerアーキテクチャの進歩を取り入れただけでなく、畳み込みの性質を継承するため、グローバルシーケンスとクロス変数依存の両方を効果的にキャプチャすることができる。 さらに、カーネルサイズを柔軟に制御することで、与えられた時系列インスタンスのマルチスケール表現を学習することができる。 時系列予測と分類の両面で広範な実験が行われている。 結果は、ほとんどの状況において、有効性という点で一貫して強力なベースラインを上回り、コードが公開されている。

This paper introduces ConvTimeNet, a novel deep hierarchical fully convolutional network designed to serve as a general-purpose model for time series analysis. The key design of this network is twofold, designed to overcome the limitations of traditional convolutional networks. Firstly, we propose an adaptive segmentation of time series into sub-series level patches, treating these as fundamental modeling units. This setting avoids the sparsity semantics associated with raw point-level time steps. Secondly, we design a fully convolutional block by skillfully integrating deepwise and pointwise convolution operations, following the advanced building block style employed in Transformer encoders. This backbone network allows for the effective capture of both global sequence and cross-variable dependence, as it not only incorporates the advancements of Transformer architecture but also inherits the inherent properties of convolution. Furthermore, multi-scale representations of given time series instances can be learned by controlling the kernel size flexibly. Extensive experiments are conducted on both time series forecasting and classification tasks. The results consistently outperformed strong baselines in most situations in terms of effectiveness.The code is publicly available.
翻訳日:2024-03-06 21:05:05 公開日:2024-03-03
# テキストから画像への生成モデルから生成した偽画像のトレーニングフリー帰属

Regeneration Based Training-free Attribution of Fake Images Generated by Text-to-Image Generative Models ( http://arxiv.org/abs/2403.01489v1 )

ライセンス: Link先を確認
Meiling Li, Zhenxing Qian, Xinpeng Zhang(参考訳) テキスト・ツー・イメージ生成モデルは最近, 素早い記述に基づく画像生成能力に注目が集まっている。 これらのモデルは有望な性能を示したが、生成された偽画像の潜在的な誤用に関する懸念が持ち上がった。 そこで本研究では,テキスト対画像モデルから生成した偽画像をソースモデルに分類する,単純かつ効果的なトレーニングフリーな手法を提案する。 原因となるテスト画像が与えられた場合、まず画像のテキスト的プロンプトを反転させ、その後、再構成されたプロンプトを異なる候補モデルに挿入して、候補の偽画像を再生します。 テスト画像と候補画像の類似度を計算してランク付けすることにより、画像のソースを決定することができる。 この属性により、モデル所有者はモデルの誤用に対して責任を負うことができる。 提案手法は,候補となるテキスト・ツー・イメージ生成モデルの数を制限するものではない。 総合的な実験により,(1)偽画像をソースモデルに効果的にアトリビュートし,最先端の手法と同等のアトリビューション性能を実現すること,(2)実世界のアトリビューションシナリオによく適合した高いスケーラビリティ能力を有すること,などが明らかになった。 (3)提案手法は,ガウス的ぼかし,JPEG圧縮,リサイズなど,一般的な攻撃に対して良好なロバスト性が得られる。 また, 帰属性能に影響を与える要因を分析し, 提案手法がプラグインとしてもたらした向上要因を検討し, 既存のsomaの性能を向上させる。 われわれの研究は、AI生成画像のソースに対処するソリューションに光を当て、テキストから画像への生成モデルの誤用を防ぐことを願っている。

Text-to-image generative models have recently garnered significant attention due to their ability to generate images based on prompt descriptions. While these models have shown promising performance, concerns have been raised regarding the potential misuse of the generated fake images. In response to this, we have presented a simple yet effective training-free method to attribute fake images generated by text-to-image models to their source models. Given a test image to be attributed, we first inverse the textual prompt of the image, and then put the reconstructed prompt into different candidate models to regenerate candidate fake images. By calculating and ranking the similarity of the test image and the candidate images, we can determine the source of the image. This attribution allows model owners to be held accountable for any misuse of their models. Note that our approach does not limit the number of candidate text-to-image generative models. Comprehensive experiments reveal that (1) Our method can effectively attribute fake images to their source models, achieving comparable attribution performance with the state-of-the-art method; (2) Our method has high scalability ability, which is well adapted to real-world attribution scenarios. (3) The proposed method yields satisfactory robustness to common attacks, such as Gaussian blurring, JPEG compression, and Resizing. We also analyze the factors that influence the attribution performance, and explore the boost brought by the proposed method as a plug-in to improve the performance of existing SOTA. We hope our work can shed some light on the solutions to addressing the source of AI-generated images, as well as to prevent the misuse of text-to-image generative models.
翻訳日:2024-03-06 21:04:47 公開日:2024-03-03
# InfiMM-HD:高分解能マルチモーダル理解の飛躍

InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding ( http://arxiv.org/abs/2403.01487v1 )

ライセンス: Link先を確認
Haogeng Liu, Quanzeng You, Xiaotian Han, Yiqi Wang, Bohan Zhai, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang(参考訳) MLLM(Multimodal Large Language Models)は近年大きな進歩を遂げている。 しかし、課題は高解像度画像内の複雑な詳細を正確に認識し理解することにある。 堅固なMLLMの開発には欠かせないが、まだ未調査である。 InfiMM-HDは、計算オーバーヘッドの少ない様々な解像度の画像を処理するために特別に設計された新しいアーキテクチャである。 この革新はMLLMの高解像度化を促進する。 infimm-hdはクロスアテンションモジュールとビジュアルウィンドウを組み込んで計算コストを削減している。 このアーキテクチャ設計を4段階のトレーニングパイプラインに統合することにより,視覚知覚の効率とコスト効率が向上する。 実証的研究は、InfiMM-HDのロバスト性と有効性を強調し、関連する領域での探索のための新たな道を開く。 コードとモデルはhttps://huggingface.co/infi-mm/infimm-hdにある。

Multimodal Large Language Models (MLLMs) have experienced significant advancements recently. Nevertheless, challenges persist in the accurate recognition and comprehension of intricate details within high-resolution images. Despite being indispensable for the development of robust MLLMs, this area remains underinvestigated. To tackle this challenge, our work introduces InfiMM-HD, a novel architecture specifically designed for processing images of different resolutions with low computational overhead. This innovation facilitates the enlargement of MLLMs to higher-resolution capabilities. InfiMM-HD incorporates a cross-attention module and visual windows to reduce computation costs. By integrating this architectural design with a four-stage training pipeline, our model attains improved visual perception efficiently and cost-effectively. Empirical study underscores the robustness and effectiveness of InfiMM-HD, opening new avenues for exploration in related areas. Codes and models can be found at https://huggingface.co/Infi-MM/infimm-hd
翻訳日:2024-03-06 21:04:18 公開日:2024-03-03
# 分布外検出のための深部生成モデルのフィッシャー情報指標への近似

Approximations to the Fisher Information Metric of Deep Generative Models for Out-Of-Distribution Detection ( http://arxiv.org/abs/2403.01485v1 )

ライセンス: Link先を確認
Sam Dauncey, Chris Holmes, Christopher Williams and Fabian Falck(参考訳) スコアベースの拡散モデルや変分オートエンコーダといった確率に基づく深層生成モデルは、画像、テキスト、音声などのデータの高次元分布を近似する最先端の機械学習モデルである。 自然に適用できる多くの下流タスクの1つは、アウト・オブ・ディストリビューション(OOD)検出である。 しかし,Nalisnickらによる初歩的な研究により,OODデータに対する深い生成モデルは,トレーニングしたデータよりも高いログ類似度を常に推論し,オープンな問題を示すことを示した。 本研究は,OODデータにトレーニングデータよりも勾配基準が大きくなるという単純な直観に基づいて,OOD検出のための深部生成モデルのパラメータに対するデータ点の勾配を用いて解析する。 勾配の大きさをフィッシャー情報量計の近似として定式化する。 本研究では,フィッシャー情報行列 (FIM) が絶対対角値が大きいことを示し,その特徴としてカイ二乗分布層次勾配ノルムを用いる。 これらの特徴を組み合わせることで、ood検出のための単純でモデル非依存でハイパーパラメータフリーな手法を構築し、与えられたデータポイントの層別勾配ノルムの結合密度を推定する。 これらの層次勾配ノルムは弱い相関関係にあり、それらの組み合わせの利用を情報化し、層次勾配ノルムが(データ表現)不変性の原理を満たすことを証明する。 実験結果から,この手法は,多くの深層生成モデルと画像データセットのペアリングにおいて,典型的テストよりも優れていることが示唆された。

Likelihood-based deep generative models such as score-based diffusion models and variational autoencoders are state-of-the-art machine learning models approximating high-dimensional distributions of data such as images, text, or audio. One of many downstream tasks they can be naturally applied to is out-of-distribution (OOD) detection. However, seminal work by Nalisnick et al. which we reproduce showed that deep generative models consistently infer higher log-likelihoods for OOD data than data they were trained on, marking an open problem. In this work, we analyse using the gradient of a data point with respect to the parameters of the deep generative model for OOD detection, based on the simple intuition that OOD data should have larger gradient norms than training data. We formalise measuring the size of the gradient as approximating the Fisher information metric. We show that the Fisher information matrix (FIM) has large absolute diagonal values, motivating the use of chi-square distributed, layer-wise gradient norms as features. We combine these features to make a simple, model-agnostic and hyperparameter-free method for OOD detection which estimates the joint density of the layer-wise gradient norms for a given data point. We find that these layer-wise gradient norms are weakly correlated, rendering their combined usage informative, and prove that the layer-wise gradient norms satisfy the principle of (data representation) invariance. Our empirical results indicate that this method outperforms the Typicality test for most deep generative models and image dataset pairings.
翻訳日:2024-03-06 21:04:05 公開日:2024-03-03
# EAGLE: オブジェクト中心の教師なしセマンティックセグメンテーションのための固有集約学習

EAGLE: Eigen Aggregation Learning for Object-Centric Unsupervised Semantic Segmentation ( http://arxiv.org/abs/2403.01482v1 )

ライセンス: Link先を確認
Chanyoung Kim, Woojung Han, Dayun Ju, Seong Jae Hwang(参考訳) セマンティクスのセグメンテーションは、ピクセルレベルのラベル付きアノテートデータに本質的に依存しており、教師なしの方法論が出現した。 その中では、教師なしセマンティックセグメンテーション(USS)に自己教師付きビジョントランスフォーマーを活用することで、表現力のある深い特徴で着実に進歩している。 しかし、複雑なオブジェクトでイメージをセグメンテーションする際、重要な課題は、パッチレベルの機能に明示的なオブジェクトレベルのセマンティックエンコーディングがないことである。 この技術的な制限は、しばしば多様な構造を持つ複雑なオブジェクトを不適切なセグメンテーションに導く。 このギャップに対処するために、教師なしセマンティックセグメンテーションのためのオブジェクト指向表現学習を強調する新しいアプローチであるEAGLEを提案する。 具体的には、深部画像の特徴と色親和性のセマンティック類似性行列から導かれる固有ベイジを通じて意味的および構造的手がかりを提供するスペクトル技術であるEiCueを紹介する。 さらに,EiCueにオブジェクト中心のコントラスト損失を組み込むことで,画像内および画像間のオブジェクト間整合性でオブジェクトレベルの表現を学習し,セマンティックな精度を向上させる。 COCO-Stuff、Cityscapes、Potsdam-3データセットに関する大規模な実験は、複雑なシーンにわたる正確で一貫したセマンティックセグメンテーションを備えたEAGLEの最先端のUSS結果を示している。

Semantic segmentation has innately relied on extensive pixel-level labeled annotated data, leading to the emergence of unsupervised methodologies. Among them, leveraging self-supervised Vision Transformers for unsupervised semantic segmentation (USS) has been making steady progress with expressive deep features. Yet, for semantically segmenting images with complex objects, a predominant challenge remains: the lack of explicit object-level semantic encoding in patch-level features. This technical limitation often leads to inadequate segmentation of complex objects with diverse structures. To address this gap, we present a novel approach, EAGLE, which emphasizes object-centric representation learning for unsupervised semantic segmentation. Specifically, we introduce EiCue, a spectral technique providing semantic and structural cues through an eigenbasis derived from the semantic similarity matrix of deep image features and color affinity from an image. Further, by incorporating our object-centric contrastive loss with EiCue, we guide our model to learn object-level representations with intra- and inter-image object-feature consistency, thereby enhancing semantic accuracy. Extensive experiments on COCO-Stuff, Cityscapes, and Potsdam-3 datasets demonstrate the state-of-the-art USS results of EAGLE with accurate and consistent semantic segmentation across complex scenes.
翻訳日:2024-03-06 21:03:38 公開日:2024-03-03
# クロスドメインオープン語彙行動認識におけるCLIPに基づくビデオ学習者の再考

Rethinking CLIP-based Video Learners in Cross-Domain Open-Vocabulary Action Recognition ( http://arxiv.org/abs/2403.01560v1 )

ライセンス: Link先を確認
Kun-Yu Lin, Henghui Ding, Jiaming Zhou, Yi-Xing Peng, Zhilin Zhao, Chen Change Loy, Wei-Shi Zheng(参考訳) Contrastive Language-Image Pretraining (CLIP) は、様々な画像理解タスクにおいて顕著な開語彙能力を示している。 この驚くべき成功を生かして、近年の先駆的な研究は、強力なCLIPをビデオデータに適用し、オープン語彙のアクション認識に効率的かつ効果的なビデオ学習者を生み出すことを提案した。 CLIPベースのビデオ学習者は、トレーニング中に遭遇していないビデオドメインに効果的に一般化できるだろうか? そこで我々は,CROSS- domain Open-Vocabulary Action Recognition ベンチマーク XOV-Action を構築し,最先端のCLIPベースのビデオ学習者5名を対象に,様々なドメインギャップ下で包括的な評価を行う。 評価の結果,従来手法では未確認ビデオ領域での動作認識性能が制限されていたことが確認された。 この課題に対処するため,我々はシーンバイアスという重要な課題に焦点を合わせ,新たなシーン対応ビデオテキストアライメント手法を提案する。 我々のキーとなる考え方は、映像表現とシーン符号化されたテキスト表現とを区別し、シーンに依存しないビデオ表現を学習し、ドメイン間のアクションを認識することである。 本手法の有効性を実験的に検証した。 ベンチマークとコードはhttps://github.com/KunyuLin/XOV-Action/.comで公開される。

Contrastive Language-Image Pretraining (CLIP) has shown remarkable open-vocabulary abilities across various image understanding tasks. Building upon this impressive success, recent pioneer works have proposed to adapt the powerful CLIP to video data, leading to efficient and effective video learners for open-vocabulary action recognition. Inspired by the fact that humans perform actions in diverse environments, our work delves into an intriguing question: Can CLIP-based video learners effectively generalize to video domains they have not encountered during training? To answer this, we establish a CROSS-domain Open-Vocabulary Action recognition benchmark named XOV-Action, and conduct a comprehensive evaluation of five state-of-the-art CLIP-based video learners under various types of domain gaps. Our evaluation demonstrates that previous methods exhibit limited action recognition performance in unseen video domains, revealing potential challenges of the cross-domain open-vocabulary action recognition task. To address this task, our work focuses on a critical challenge, namely scene bias, and we accordingly contribute a novel scene-aware video-text alignment method. Our key idea is to distinguish video representations apart from scene-encoded text representations, aiming to learn scene-agnostic video representations for recognizing actions across domains. Extensive experimental results demonstrate the effectiveness of our method. The benchmark and code will be available at https://github.com/KunyuLin/XOV-Action/.
翻訳日:2024-03-06 21:00:43 公開日:2024-03-03
# オンライン継続学習のための変圧器

Transformers for Supervised Online Continual Learning ( http://arxiv.org/abs/2403.01554v1 )

ライセンス: Link先を確認
Jorg Bornschein, Yazhe Li, Amal Rannen-Triki(参考訳) トランスフォーマーは自然言語処理や音声処理といったシーケンスモデリングタスクにおいて支配的なアーキテクチャとなり、画像分類のような自然にシーケンシャルでないタスクでも考慮されるようになった。 トークンセットにコンテクストとして参加し、処理する能力は、コンテキスト内少数ショット学習能力の開発を可能にする。 しかし、オンライン連続学習の可能性は比較的未解明のままである。 オンライン連続学習では、モデルは非定常データストリームに適応し、累積的なnextstep予測損失を最小化しなければならない。 教師付きオンライン連続学習設定に焦点をあて、例の列に$(x_t, y_t)$の予測子$x_t \rightarrow y_t$を学習する。 トランスフォーマーの文脈内学習能力とメタラーニングとの関係に着想を得て,これらの強みをオンライン連続学習に活用する手法を提案する。 提案手法は,transformer-xlで導入した手順に従って,オンライン上で確率的勾配降下訓練を行うと同時に,近年の観測では,トランスフォーマを明示的に条件付ける。 我々は、シーケンシャルプロトコルに固執しながらマルチエピックトレーニングの利点を維持するためにreplayを組み込む。 この組み合わせは、文脈内学習による迅速な適応と、パラメトリック学習による長期的改善を可能にすると仮定する。 画像の局所化に挑戦する大規模実世界ベンチマークであるclocでは,従来より大幅に改善が見られた。

Transformers have become the dominant architecture for sequence modeling tasks such as natural language processing or audio processing, and they are now even considered for tasks that are not naturally sequential such as image classification. Their ability to attend to and to process a set of tokens as context enables them to develop in-context few-shot learning abilities. However, their potential for online continual learning remains relatively unexplored. In online continual learning, a model must adapt to a non-stationary stream of data, minimizing the cumulative nextstep prediction loss. We focus on the supervised online continual learning setting, where we learn a predictor $x_t \rightarrow y_t$ for a sequence of examples $(x_t, y_t)$. Inspired by the in-context learning capabilities of transformers and their connection to meta-learning, we propose a method that leverages these strengths for online continual learning. Our approach explicitly conditions a transformer on recent observations, while at the same time online training it with stochastic gradient descent, following the procedure introduced with Transformer-XL. We incorporate replay to maintain the benefits of multi-epoch training while adhering to the sequential protocol. We hypothesize that this combination enables fast adaptation through in-context learning and sustained longterm improvement via parametric learning. Our method demonstrates significant improvements over previous state-of-the-art results on CLOC, a challenging large-scale real-world benchmark for image geo-localization.
翻訳日:2024-03-06 21:00:16 公開日:2024-03-03
# 熱原子の波動数ミスマッチによる電磁誘導透過性の非逆回復

Nonreciprocal recovery of electromagnetically induced transparency by wavenumber mismatch in hot atoms ( http://arxiv.org/abs/2403.01553v1 )

ライセンス: Link先を確認
Lida Zhang, Nina Stiesdal, Hannes Busche, Mikkel Gaard Hansen, Thomas Pohl, Sebastian Hofferberth(参考訳) 高温原子蒸気中の多レベル系では、原子速度によるドップラーシフトと駆動レーザフィールド間のウェーブナバマーミスマッチとの相互作用は、原子媒体の透過と吸収特性に強く影響する。 3段階の原子はしご系では、プローブと制御フィールドが共伝播する場合、ドップラーは電磁誘導透過(EIT)の可視性を制限し、EITは逆伝播幾何学の反対条件下で、$k_{p} <k_{c}$は$k_{p}$、$k_{c}$はプローブと制御フィールドの波数である。 この効果は、非相互プローブ光伝送を実現するための効率的なメカニズムとして研究され、例えば磁場自由光アイオレータの実現のための有望な道を開いた。 このチュートリアルでは、この効果の理論的導出について論じ、k_{p}<k_{c}$ のときに結合レーザーが原子速度の関数として配置した状態の交差を避けるメカニズムを示す。 熱ルビジウム原子を用いた簡単なRydberg-EIT系において、非相互性は波長ミスマッチによってどのようにスケールするかを実験的に示す。

For multi-level systems in hot atomic vapors the interplay between the Doppler shift due to atom velocity and the wavenubmer mismatch between driving laser fields strongly influences transmission and absorption properties of the atomic medium. In a three-level atomic ladder-system, Doppler broadening limits the visibility of electromagnetically-induced transparency (EIT) when the probe and control fields are co-propagating, while EIT is recovered under the opposite condition of counter-propagating geometry and $k_{p} < k_{c}$, with $k_{p}$ and $k_{c}$ being the wavenumbers of the probe and control fields, respectively. This effect has been studied and experimentally demonstrated as an efficient mechanism to realize non-reciprocal probe light transmission, opening promising avenues for example for realization of magnetic-field free optical isolators. In this tutorial we discuss the theoretical derivation of this effect and show the underlying mechanism to be an avoided crossing of the states dressed by the coupling laser as a function of atomic velocities when $k_{p}<k_{c}$. We investigate how the non-reciprocity scales with wavelength mismatch and show how to experimentally demonstrate the effect in a simple Rydberg-EIT system using thermal Rubidium atoms.
翻訳日:2024-03-06 20:59:32 公開日:2024-03-03
# メタ包括正規化による自己教師付き表現学習

Self-Supervised Representation Learning with Meta Comprehensive Regularization ( http://arxiv.org/abs/2403.01549v1 )

ライセンス: Link先を確認
Huijie Guo, Ying Ba, Jie Hu, Lingyu Si, Wenwen Qiang, Lei Shi(参考訳) 自己監督学習(SSL)手法は、データ拡張戦略を利用して意味不変性の概念を利用して、同じ入力の異なる変形に対して同様の表現を生成する。 基本的に、モデルはサンプルの複数の拡張ビュー間で共有情報をキャプチャし、下流タスクに有益な非共有情報を無視する。 この問題に対処するため,既存の自己組織化フレームワークに組み込まれたCompMod with Meta Comprehensive Regularization (MCR)というモジュールを導入し,学習した表現をより包括的にする。 具体的には,2段階最適化機構を用いて提案モデルを更新し,包括的特徴を捉える。 さらに、最大エントロピー符号化を用いた機能の制約抽出により、自己教師付き学習モデルは、一貫した特徴を学習する上でより包括的な機能を学ぶ。 さらに,情報理論と因果対実的視点から提案手法の理論的支援を行う。 実験の結果,複数のベンチマークデータセットにおける分類,オブジェクト検出,インスタンスセグメンテーションタスクにおいて有意な改善が得られた。

Self-Supervised Learning (SSL) methods harness the concept of semantic invariance by utilizing data augmentation strategies to produce similar representations for different deformations of the same input. Essentially, the model captures the shared information among multiple augmented views of samples, while disregarding the non-shared information that may be beneficial for downstream tasks. To address this issue, we introduce a module called CompMod with Meta Comprehensive Regularization (MCR), embedded into existing self-supervised frameworks, to make the learned representations more comprehensive. Specifically, we update our proposed model through a bi-level optimization mechanism, enabling it to capture comprehensive features. Additionally, guided by the constrained extraction of features using maximum entropy coding, the self-supervised learning model learns more comprehensive features on top of learning consistent features. In addition, we provide theoretical support for our proposed method from information theory and causal counterfactual perspective. Experimental results show that our method achieves significant improvement in classification, object detection and instance segmentation tasks on multiple benchmark datasets.
翻訳日:2024-03-06 20:58:49 公開日:2024-03-03
# 深層学習技術を用いた単一モード・マルチモーダル設定におけるハイパースペクトル画像解析

Hyperspectral Image Analysis in Single-Modal and Multimodal setting using Deep Learning Techniques ( http://arxiv.org/abs/2403.01546v1 )

ライセンス: Link先を確認
Shivam Pande(参考訳) ハイパースペクトルイメージングは、その例外的なスペクトル分解能のため、土地利用とカバーの正確な分類を提供する。 しかし、高次元化と空間分解能の制限による課題は、その効果を妨げている。 本研究では,深層学習技術を用いて特徴を効率的に処理し,抽出し,データを統合的に分類することで,これらの課題に対処する。 空間分解能を高めるため,マルチモーダル学習を通じて,LiDARやSARデータなどの相補的モダリティからの情報を統合する。 さらに, ドメインの格差やモダリティの欠如から生じる問題を克服するために, 逆学習と知識蒸留を利用する。 また、1次元畳み込みおよび繰り返しニューラルネットワークを用いて、HSIデータのユニークな特性に適合するディープラーニングアーキテクチャを調整し、その連続スペクトル次元を処理する。 視覚的な注意とアーキテクチャ内のフィードバック接続のようなテクニックは、機能抽出の堅牢性を強化します。 さらに,自己教師あり学習手法による限定的な学習サンプル問題,次元低減のためのオートエンコーダの活用,ラベルなしデータを活用した半教師なし学習手法の検討を行った。 提案手法は様々なHSIデータセットで評価され,既存の最先端技術よりも一貫して優れている。

Hyperspectral imaging provides precise classification for land use and cover due to its exceptional spectral resolution. However, the challenges of high dimensionality and limited spatial resolution hinder its effectiveness. This study addresses these challenges by employing deep learning techniques to efficiently process, extract features, and classify data in an integrated manner. To enhance spatial resolution, we integrate information from complementary modalities such as LiDAR and SAR data through multimodal learning. Moreover, adversarial learning and knowledge distillation are utilized to overcome issues stemming from domain disparities and missing modalities. We also tailor deep learning architectures to suit the unique characteristics of HSI data, utilizing 1D convolutional and recurrent neural networks to handle its continuous spectral dimension. Techniques like visual attention and feedback connections within the architecture bolster the robustness of feature extraction. Additionally, we tackle the issue of limited training samples through self-supervised learning methods, employing autoencoders for dimensionality reduction and exploring semi-supervised learning techniques that leverage unlabeled data. Our proposed approaches are evaluated across various HSI datasets, consistently outperforming existing state-of-the-art techniques.
翻訳日:2024-03-06 20:57:47 公開日:2024-03-03
# 量子階層的フェデレーション学習 : 統計的不均一性に対するロバストなアプローチ

Quantized Hierarchical Federated Learning: A Robust Approach to Statistical Heterogeneity ( http://arxiv.org/abs/2403.01540v1 )

ライセンス: Link先を確認
Seyed Mohammad Azimi-Abarghouyi, Viktoria Fodor(参考訳) 本稿では,通信効率の量子化を取り入れ,統計的不均一性に対するレジリエンスを示す,新しい階層型フェデレーション学習アルゴリズムを提案する。 従来の階層型フェデレーション学習アルゴリズムとは異なり,本手法では,集合内反復における勾配アグリゲーションと集合間反復におけるモデルアグリゲーションを組み合わせる。 我々は,その最適性ギャップと収束率を評価するための包括的解析フレームワークを提案し,従来のアルゴリズムと比較した。 さらに、閉形式解における最適システムパラメータを導出する問題定式化を開発する。 以上の結果から,本アルゴリズムは他の階層型アルゴリズム,特に異種データ分布のシナリオよりも高い学習精度を一貫して達成していることが判明した。

This paper presents a novel hierarchical federated learning algorithm within multiple sets that incorporates quantization for communication-efficiency and demonstrates resilience to statistical heterogeneity. Unlike conventional hierarchical federated learning algorithms, our approach combines gradient aggregation in intra-set iterations with model aggregation in inter-set iterations. We offer a comprehensive analytical framework to evaluate its optimality gap and convergence rate, comparing these aspects with those of conventional algorithms. Additionally, we develop a problem formulation to derive optimal system parameters in a closed-form solution. Our findings reveal that our algorithm consistently achieves high learning accuracy over a range of parameters and significantly outperforms other hierarchical algorithms, particularly in scenarios with heterogeneous data distributions.
翻訳日:2024-03-06 20:56:31 公開日:2024-03-03
# カーネル関数を用いた高速エルゴード探索

Fast Ergodic Search with Kernel Functions ( http://arxiv.org/abs/2403.01536v1 )

ライセンス: Link先を確認
Muchen Sun, Ayush Gaggar, Peter Trautman, Todd Murphey(参考訳) エルゴード探索は,検索空間の漸近的カバレッジを確保しつつ,情報分布の最適探索を可能にする。 しかし、現在の方法は通常、探索空間次元において指数計算複雑性を持ち、ユークリッド空間に制限される。 計算効率の良いエルゴード探索手法を提案する。 私たちの貢献は2倍です。 まず、カーネルベースのエルゴード計量を開発し、ユークリッド空間からリー群へ一般化する。 提案した計量は、探索空間次元の線形複雑性を保証しながら、標準エルゴード計量と一致することを正式に証明する。 次に、非線形システムに対するカーネルエルゴード計量の1次最適条件を導出し、効率的な軌道最適化を実現する。 包括的数値ベンチマークにより,提案手法は最先端アルゴリズムよりも少なくとも2桁高速であることが示された。 最後に,peg-in-hole挿入タスクを用いて提案アルゴリズムを示す。 本稿では,SE(3)の空間におけるカバレッジタスクとして問題を定式化し,エルゴディックカバレッジの事前分布として30秒の人間によるデモを使用する。 エルゴディシティは、その解が100\%の成功率に見られる先行情報分布内に存在する限り、peg-in-hole問題の漸近解を保証する。

Ergodic search enables optimal exploration of an information distribution while guaranteeing the asymptotic coverage of the search space. However, current methods typically have exponential computation complexity in the search space dimension and are restricted to Euclidean space. We introduce a computationally efficient ergodic search method. Our contributions are two-fold. First, we develop a kernel-based ergodic metric and generalize it from Euclidean space to Lie groups. We formally prove the proposed metric is consistent with the standard ergodic metric while guaranteeing linear complexity in the search space dimension. Secondly, we derive the first-order optimality condition of the kernel ergodic metric for nonlinear systems, which enables efficient trajectory optimization. Comprehensive numerical benchmarks show that the proposed method is at least two orders of magnitude faster than the state-of-the-art algorithm. Finally, we demonstrate the proposed algorithm with a peg-in-hole insertion task. We formulate the problem as a coverage task in the space of SE(3) and use a 30-second-long human demonstration as the prior distribution for ergodic coverage. Ergodicity guarantees the asymptotic solution of the peg-in-hole problem so long as the solution resides within the prior information distribution, which is seen in the 100\% success rate.
翻訳日:2024-03-06 20:55:59 公開日:2024-03-03
# ニューラルグラフ生成:潜在拡散モデルを用いた特徴量付きグラフ生成

Neural Graph Generator: Feature-Conditioned Graph Generation using Latent Diffusion Models ( http://arxiv.org/abs/2403.01535v1 )

ライセンス: Link先を確認
Iakovos Evdaimon, Giannis Nikolentzos, Michail Chatzianastasis, Hadi Abdine, Michalis Vazirgiannis(参考訳) グラフ生成は機械学習において重要なタスクとして現れており、特定の特性を正確に反映するグラフを生成する上で大きな課題がある。 既存の手法はしばしば、高次元の複雑さとグラフ特性の様々な性質に苦しむため、このニーズに効率的に対処するのに不足する。 本稿では,グラフ生成のための条件付き潜伏拡散モデルを用いたニューラルグラフ生成器(NGG)を提案する。 nggは複雑なグラフパターンをモデル化する驚くべき能力を示し、グラフ生成プロセスを制御する。 NGGはグラフ圧縮のための変分グラフオートエンコーダと、グラフ統計を要約するベクトルによって導かれる潜在ベクトル空間における拡散過程を用いる。 様々なグラフ生成タスクにおけるNGGの汎用性を実証し、所望のグラフ特性を捕捉し、目に見えないグラフに一般化する能力を示す。 この研究はグラフ生成手法の大幅な変化を示し、特定の特性を持つ多種多様なグラフを生成するためのより実用的で効率的なソリューションを提供する。

Graph generation has emerged as a crucial task in machine learning, with significant challenges in generating graphs that accurately reflect specific properties. Existing methods often fall short in efficiently addressing this need as they struggle with the high-dimensional complexity and varied nature of graph properties. In this paper, we introduce the Neural Graph Generator (NGG), a novel approach which utilizes conditioned latent diffusion models for graph generation. NGG demonstrates a remarkable capacity to model complex graph patterns, offering control over the graph generation process. NGG employs a variational graph autoencoder for graph compression and a diffusion process in the latent vector space, guided by vectors summarizing graph statistics. We demonstrate NGG's versatility across various graph generation tasks, showing its capability to capture desired graph properties and generalize to unseen graphs. This work signifies a significant shift in graph generation methodologies, offering a more practical and efficient solution for generating diverse types of graphs with specific characteristics.
翻訳日:2024-03-06 20:55:40 公開日:2024-03-03
# 機械学習は収縮期間隔と定期的な臨床データを用いて急性心筋梗塞後の長期死亡を予測する

Machine learning predicts long-term mortality after acute myocardial infarction using systolic time intervals and routinely collected clinical data ( http://arxiv.org/abs/2403.01533v1 )

ライセンス: Link先を確認
Bijan Roudini, Boshra Khajehpiri, Hamid Abrishami Moghaddam, and Mohamad Forouzanfar(参考訳) 連続的生理的モニタリングと新しい治療法の優先順位付けには, 心臓患者の現在と今後の合併症の正確な評価が重要である。 MLモデルは、心臓疾患患者の短期死亡予測において良好な性能を示す一方で、長期予後におけるそれらの有用性は限定的である。 本研究では,木質MLモデルの性能が長期死亡予測に及ぼす影響と,最近導入された2つのバイオマーカーが長期死亡に与える影響について検討する。 本研究は,中国台湾の厚生労働省におけるcchiaの公開データを活用した。 年齢,性別,BMI,経皮的冠動脈インターベンション(PCI)状態,高血圧,ジスリピド血症,ST-segment elevation myocardial infarction(STEMI),非STEMIなどの合併症など,人口統計や臨床データを収集するために医療記録が用いられた。 急性心筋梗塞患者139名を対象に,最近導入した2つのバイオマーカー,bpep(brachial pre-ejection period)とbet(brachial ejection time)を用いて,14年以内に全死亡率を予測するための高度アンサンブル・ツリー型mlアルゴリズム(random forest, adaboost, xgboost)の性能を検討した。 開発されたMLモデルは、ベースラインLR(C-Statistic、ランダムフォレスト0.80、AdaBoost0.79、XGBoost0.77、LR0.77、P-RF<0.001、PAdaBoost0.001、PXGBoost<0.05)と比較して、大幅に性能が向上した。 特徴セットに bPEP と bET を追加することでアルゴリズムの性能が大幅に向上し,C-Statistic は 0.03 (C-Statistic は 0.83,AdaBoost は 0.82,XGBoost は 0.74) となる(P-RF<0.001,PAdaBoost<0.001,PXGBoost<0.05)。 この進歩は、リスクの高い個人に対するより良い治療優先順位付けを可能にする。

Precise estimation of cardiac patients' current and future comorbidities is an important factor in prioritizing continuous physiological monitoring and new therapies. ML models have shown satisfactory performance in short-term mortality prediction of patients with heart disease, while their utility in long-term predictions is limited. This study aims to investigate the performance of tree-based ML models on long-term mortality prediction and the effect of two recently introduced biomarkers on long-term mortality. This study utilized publicly available data from CCHIA at the Ministry of Health and Welfare, Taiwan, China. Medical records were used to gather demographic and clinical data, including age, gender, BMI, percutaneous coronary intervention (PCI) status, and comorbidities such as hypertension, dyslipidemia, ST-segment elevation myocardial infarction (STEMI), and non-STEMI. Using medical and demographic records as well as two recently introduced biomarkers, brachial pre-ejection period (bPEP) and brachial ejection time (bET), collected from 139 patients with acute myocardial infarction, we investigated the performance of advanced ensemble tree-based ML algorithms (random forest, AdaBoost, and XGBoost) to predict all-cause mortality within 14 years. The developed ML models achieved significantly better performance compared to the baseline LR (C-Statistic, 0.80 for random forest, 0.79 for AdaBoost, and 0.78 for XGBoost, vs 0.77 for LR) (P-RF<0.001, PAdaBoost<0.001, PXGBoost<0.05). Adding bPEP and bET to our feature set significantly improved the algorithms' performance, leading to an absolute increase in C-Statistic of up to 0.03 (C-Statistic, 0.83 for random forest, 0.82 for AdaBoost, and 0.80 for XGBoost, vs 0.74 for LR) (P-RF<0.001, PAdaBoost<0.001, PXGBoost<0.05). This advancement may enable better treatment prioritization for high-risk individuals.
翻訳日:2024-03-06 20:55:23 公開日:2024-03-03
# プラズマ系の低次モデリングのためのデータ駆動型局所演算子:II パラメトリックダイナミクスへの応用

Data-driven local operator finding for reduced-order modelling of plasma systems: II. Application to parametric dynamics ( http://arxiv.org/abs/2403.01532v1 )

ライセンス: Link先を確認
Farbod Faraji, Maryam Reza, Aaron Knoll, J. Nathan Kutz(参考訳) 現実世界のシステムは、固有または外部制御可能な様々なパラメータの影響を受け、これらのパラメトリックな振る舞いを確実に捉えることができるモデルを必要とする。 プラズマ技術はこのようなシステムを例示する。 例えば、ホールスラスタ(宇宙船の推進技術)における大域的なダイナミクスを司る現象は、「自己維持電場」のような様々なパラメータによって異なる。 このパートIIでは、新しいデータ駆動ローカル演算子探索アルゴリズムであるPhi Methodの導入に続いて、パラメータ空間をまたいだシステム挙動を予測するパラメトリックダイナミクスの学習における手法の有効性を示す。 2次元流体-流れ-パスト-a-シリンダーと1次元ホール-スラスター-プラズマ-放電問題による「パラメトリックPhi法」と「アンサンブルPhi法」の2つの適応法を提案する。 流体中におけるパラメトリックPT-DMDの比較評価は,パラメトリックPhi法において優れた予測性能を示した。 パラメトリックとアンサンブルの両方のテストケースにおいて、PhiメソッドはパラメトリックPDEの管理を確実に回復し、テストパラメータを正確に予測する。 Ensemble ROM解析は、Phi Methodの高信頼な支配的動的係数の堅牢な学習を裏付ける。

Real-world systems often exhibit dynamics influenced by various parameters, either inherent or externally controllable, necessitating models capable of reliably capturing these parametric behaviors. Plasma technologies exemplify such systems. For example, phenomena governing global dynamics in Hall thrusters (a spacecraft propulsion technology) vary with various parameters, such as the "self-sustained electric field". In this Part II, following on the introduction of our novel data-driven local operator finding algorithm, Phi Method, in Part I, we showcase the method's effectiveness in learning parametric dynamics to predict system behavior across unseen parameter spaces. We present two adaptations: the "parametric Phi Method" and the "ensemble Phi Method", which are demonstrated through 2D fluid-flow-past-a-cylinder and 1D Hall-thruster-plasma-discharge problems. Comparative evaluation against parametric OPT-DMD in the fluid case demonstrates superior predictive performance of the parametric Phi Method. Across both test cases, parametric and ensemble Phi Method reliably recover governing parametric PDEs and offer accurate predictions over test parameters. Ensemble ROM analysis underscores Phi Method's robust learning of dominant dynamic coefficients with high confidence.
翻訳日:2024-03-06 20:54:31 公開日:2024-03-03
# プラズマ系の低次モデリングのためのデータ駆動型局所演算子:I. 概念と検証

Data-driven local operator finding for reduced-order modelling of plasma systems: I. Concept and verifications ( http://arxiv.org/abs/2403.01523v1 )

ライセンス: Link先を確認
Farbod Faraji, Maryam Reza, Aaron Knoll, and J. Nathan Kutz(参考訳) 様々な設定や構成にまたがって効率的にプラズマの挙動を予測できる低次プラズマモデルを求める。 このようなモデルの需要は、科学研究の促進とプラズマ技術の開発の迅速化により、過去10年間に急増している。 本稿では,計算能力とデータ駆動手法の進歩に合わせて,この2つの論文に「Phi法」を紹介する。 第1部は、微分方程式の離散化系を発見するために、数値的離散化スキームから情報を得た候補項ライブラリ上の制約付き回帰を用いる。 我々は,ロレンツアトラクタ,シリンダー通過流,および1次元ホールスルースター提示プラズマの3つのテストケースに対して,信頼性とロバストな還元次モデル(roms)を導出するphi法の有効性を示す。 パートIIは、パラメトリックダイナミクス発見のためのメソッドの応用を掘り下げる。 以上の結果から,Phi法から派生したROMは,定常状態データや過渡状態データから,システムの挙動を著しく正確に予測できることがわかった。 これは、プラズマシステムのモデリングを変換するための方法の可能性を強調する。

Reduced-order plasma models that can efficiently predict plasma behavior across various settings and configurations are highly sought after yet elusive. The demand for such models has surged in the past decade due to their potential to facilitate scientific research and expedite the development of plasma technologies. In line with the advancements in computational power and data-driven methods, we introduce the "Phi Method" in this two-part article. Part I presents this novel algorithm, which employs constrained regression on a candidate term library informed by numerical discretization schemes to discover discretized systems of differential equations. We demonstrate Phi Method's efficacy in deriving reliable and robust reduced-order models (ROMs) for three test cases: the Lorenz attractor, flow past a cylinder, and a 1D Hall-thruster-representative plasma. Part II will delve into the method's application for parametric dynamics discovery. Our results show that ROMs derived from the Phi Method provide remarkably accurate predictions of systems' behavior, whether derived from steady-state or transient-state data. This underscores the method's potential for transforming plasma system modeling.
翻訳日:2024-03-06 20:53:45 公開日:2024-03-03
# 差別行為による貧困削減は可能か? 政策立案のためのエージェントベースモデル

Can Poverty Be Reduced by Acting on Discrimination? An Agent-based Model for Policy Making ( http://arxiv.org/abs/2403.01600v1 )

ライセンス: Link先を確認
Alba Aguilera, Nieves Montes, Georgina Curto, Carles Sierra and Nardine Osman(参考訳) 過去数十年間、貧困削減の速度が低下しており、従来の貧困軽減への再分配アプローチは効果を損なう可能性があり、国連持続可能な開発目標の第1位を推し進めるための代替の洞察が必要であることを示唆している。 貧しい人々の犯罪は、いくつかのNGOによって非難され、貧困に対する差別(「emph{aporophobia}」と呼ばれる現象)は貧困を緩和する障害である可能性が示唆される声が増えている。 本稿では,aporophobia agent-based model (aabm) を考案し,aporophobiaと貧困の相関性を示す。 我々は,バルセロナ市において,実世界の人口統計データと貧困軽減政策(強制的・議会的議論による)を組み込んだユースケースを提案する。 我々は、貧困者に対する差別的・非差別的政策を専門のngoの支持を得て分類し、aabmの結果を富の不平等への影響の観点から観察する。 このシミュレーションは、アポロフォビアと富の格差レベルの増加の関係の証拠を提供し、差別に作用し、社会問題(貧困の問題だけでなく)として貧困に取り組む新しい世代の貧困削減政策への道を開く。

In the last decades, there has been a deceleration in the rates of poverty reduction, suggesting that traditional redistributive approaches to poverty mitigation could be losing effectiveness, and alternative insights to advance the number one UN Sustainable Development Goal are required. The criminalization of poor people has been denounced by several NGOs, and an increasing number of voices suggest that discrimination against the poor (a phenomenon known as \emph{aporophobia}) could be an impediment to mitigating poverty. In this paper, we present the novel Aporophobia Agent-Based Model (AABM) to provide evidence of the correlation between aporophobia and poverty computationally. We present our use case built with real-world demographic data and poverty-mitigation public policies (either enforced or under parliamentary discussion) for the city of Barcelona. We classify policies as discriminatory or non-discriminatory against the poor, with the support of specialized NGOs, and we observe the results in the AABM in terms of the impact on wealth inequality. The simulation provides evidence of the relationship between aporophobia and the increase of wealth inequality levels, paving the way for a new generation of poverty reduction policies that act on discrimination and tackle poverty as a societal problem (not only a problem of the poor).
翻訳日:2024-03-06 20:49:50 公開日:2024-03-03
# SCHEMA: 教育ビデオのプロシージャプランニングのための州立CangEsマッター

SCHEMA: State CHangEs MAtter for Procedure Planning in Instructional Videos ( http://arxiv.org/abs/2403.01599v1 )

ライセンス: Link先を確認
Yulei Niu, Wenliang Guo, Long Chen, Xudong Lin, Shih-Fu Chang(参考訳) 本研究では,視覚状態の部分的な観察を目標とする行動手順を目標とする指導ビデオにおけるプロシージャ計画の課題について検討する。 この問題の動機は、構造化され計画可能な状態と行動空間を学ぶことである。 最近の研究は、トレーニング中にシーケンシャルレベルのアノテーションしかアクセスできないステップのシーケンスモデリングに成功し、手順における状態の役割を見落としている。 本研究では,教示ビデオにおけるプロシージャ計画のためのSCHEMA(State CHangEs MAtter)について述べる。 我々は,手順におけるステップと状態の因果関係を調査し,より構造化された状態空間を確立することを目指している。 具体的には、各ステップを状態変化として明示的に表現し、プロシージャの状態変化を追跡する。 ステップ表現では、大きな言語モデル(LLM)における常識知識を利用して、設計したチェーン・オブ・シークレットによるステップの状態変化を記述しました。 状態変化追跡では,視覚状態と言語状態記述とを相互に比較学習し,LCM生成状態記述を用いた手続きの中間状態を明示的にモデル化する。 CrossTask, COIN, NIVベンチマークデータセットの実験により, 提案したSCHEMAモデルが最先端の性能を達成し, 説明可能な可視化が得られることを示した。

We study the problem of procedure planning in instructional videos, which aims to make a goal-oriented sequence of action steps given partial visual state observations. The motivation of this problem is to learn a structured and plannable state and action space. Recent works succeeded in sequence modeling of steps with only sequence-level annotations accessible during training, which overlooked the roles of states in the procedures. In this work, we point out that State CHangEs MAtter (SCHEMA) for procedure planning in instructional videos. We aim to establish a more structured state space by investigating the causal relations between steps and states in procedures. Specifically, we explicitly represent each step as state changes and track the state changes in procedures. For step representation, we leveraged the commonsense knowledge in large language models (LLMs) to describe the state changes of steps via our designed chain-of-thought prompting. For state change tracking, we align visual state observations with language state descriptions via cross-modal contrastive learning, and explicitly model the intermediate states of the procedure using LLM-generated state descriptions. Experiments on CrossTask, COIN, and NIV benchmark datasets demonstrate that our proposed SCHEMA model achieves state-of-the-art performance and obtains explainable visualizations.
翻訳日:2024-03-06 20:49:29 公開日:2024-03-03
# APISR:アニメ制作にインスパイアされた現実世界のアニメのスーパーリゾリューション

APISR: Anime Production Inspired Real-World Anime Super-Resolution ( http://arxiv.org/abs/2403.01598v1 )

ライセンス: Link先を確認
Boyang Wang, Fengyu Yang, Xihang Yu, Chao Zhang, Hanbin Zhao(参考訳) リアル・ワールド・アニメ・スーパーレゾリューション (SR) は、SRコミュニティで注目されているが、既存の手法は依然としてフォトリアリスティック領域の技法を取り入れている。 本稿では,アニメ制作のワークフローを分析し,その特徴を現実のアニメSRのために活用する方法を再考する。 まず,手書きフレームの繰り返し使用により,アニメsrではビデオネットワークやデータセットは不要であると主張する。 代わりに,ビデオソースから最も圧縮され,最も情報に富んだフレームを選択することにより,アニメ画像収集パイプラインを提案する。 このパイプラインに基づいて,アニメ生産指向画像(api)データセットを導入する。 さらに,手描き線を歪ませるアニメ特有の課題と,不要なカラーアーティファクトの2つを同定した。 画像劣化モデルに予測指向圧縮モジュールを導入し,手書き線を拡張した擬似地下真実作成を行うことで,最初の課題に対処する。 さらに,アニメとフォトリアリスティックな高レベルの特徴を組み合わせることで,望ましくないカラーアーティファクトを緩和し,視覚的明瞭度を高める。 提案手法は,公開ベンチマークによる広範な実験により評価され,最先端の手法よりも高い性能を示す。

While real-world anime super-resolution (SR) has gained increasing attention in the SR community, existing methods still adopt techniques from the photorealistic domain. In this paper, we analyze the anime production workflow and rethink how to use characteristics of it for the sake of the real-world anime SR. First, we argue that video networks and datasets are not necessary for anime SR due to the repetition use of hand-drawing frames. Instead, we propose an anime image collection pipeline by choosing the least compressed and the most informative frames from the video sources. Based on this pipeline, we introduce the Anime Production-oriented Image (API) dataset. In addition, we identify two anime-specific challenges of distorted and faint hand-drawn lines and unwanted color artifacts. We address the first issue by introducing a prediction-oriented compression module in the image degradation model and a pseudo-ground truth preparation with enhanced hand-drawn lines. In addition, we introduce the balanced twin perceptual loss combining both anime and photorealistic high-level features to mitigate unwanted color artifacts and increase visual clarity. We evaluate our method through extensive experiments on the public benchmark, showing our method outperforms state-of-the-art approaches by a large margin.
翻訳日:2024-03-06 20:49:07 公開日:2024-03-03
# mambaモデルの隠れた注意

The Hidden Attention of Mamba Models ( http://arxiv.org/abs/2403.01590v1 )

ライセンス: Link先を確認
Ameen Ali, Itamar Zimerman, Lior Wolf(参考訳) mamba層は、nlp、長距離シーケンス処理、コンピュータビジョンを含む複数のドメインのモデリングに非常に効果的である効率的な選択的状態空間モデル(ssm)を提供する。 選択的なSSMはデュアルモデルと見なされ、IO対応の並列スキャンによってシーケンス全体を並列にトレーニングし、自動回帰的にデプロイする。 3つ目のビューを加えて、そのようなモデルを注目駆動モデルとみなすことができることを示す。 この新しい視点により、トランスフォーマの自己着脱層と基礎となるメカニズムを比較することができ、説明可能性法を用いてmambaモデルの内部動作を覗き込むことができる。 私たちのコードは公開されています。

The Mamba layer offers an efficient selective state space model (SSM) that is highly effective in modeling multiple domains including NLP, long-range sequences processing, and computer vision. Selective SSMs are viewed as dual models, in which one trains in parallel on the entire sequence via IO-aware parallel scan, and deploys in an autoregressive manner. We add a third view and show that such models can be viewed as attention-driven models. This new perspective enables us to compare the underlying mechanisms to that of the self-attention layers in transformers and allows us to peer inside the inner workings of the Mamba model with explainability methods. Our code is publicly available.
翻訳日:2024-03-06 20:48:46 公開日:2024-03-03
# 北エフ環近傍におけるマヨラナ境界状態の検出と漏洩

Detecting and leaking a Majorana bound state through proximity to a Kitaev ring ( http://arxiv.org/abs/2403.01588v1 )

ライセンス: Link先を確認
Mariana Malard, David S. Brand\~ao(参考訳) 北エフ鎖の一端におけるマヨラナ束縛状態の存在は、近傍の北エフ環の観測可能な量によって明らかに示される。 キタエフ鎖が位相相にあるとき、キタエフ環のバンド構造はキラル対称性を破り、環のスペクトル関数は運動量とエネルギーの関数であり、後者は時間反転および粒子ホール対称な占有数を持ち、したがって環内のゼロ電流となる。 北エフ鎖の相転移(例えば、バックゲートを用いてその臨界値を通じて鎖の化学的ポテンシャルを変化させる)を誘導すると、自明なフェルミオンによるマヨナ境界状態の置換は、環のバンド構造に再び現れるキラル対称性と、環マヨラナのスペクトル関数によるパリティの損失、占領数と環の自発電流に発生する時間反転と粒子ホール対称性によって現れる。 共鳴エネルギーにおけるエネルギー共鳴と最大スペクトル重量は、リングマヨラナス状態とマヨラナ境界状態の間の高いリーク確率に正確に一致するが、エネルギー共鳴の欠如は、リングマヨラナス状態と自明なフェルミオン状態の間のリークの可能性が低い。 提案されたセットアップは、検出機構と量子コンピューティングの目的の両方のために、Majorana状態のブレイディングおよび/または融合の文脈におけるさらなる調査を招待する。

We show that the existence of a Majorana bound state at one end of a Kitaev chain is unambiguously signaled by observable quantities in a nearby Kitaev ring. When the Kitaev chain is in the topological phase, the band structure of the Kitaev ring breaks chiral symmetry and the ring-Majoranas' spectral functions are even functions of momentum and energy, the latter wielding time-reversal and particle-hole symmetric occupation numbers and, hence, zero current in the ring. Driving a phase transition in the Kitaev chain (e.g., using a backgate to vary the chemical potential of the chain through its critical value), the replacement of the Majorana bound state by a trivial fermion is manifest by chiral symmetry reappearing in the band structure of the ring and by the ring-Majoranas' spectral functions loss of parity, wielding time-reversal and particle-hole symmetry breaking in the occupation numbers and a spontaneous current in the ring. Energy resonance and maximum spectral weight exactly at the resonance energy concur for a high leakage probability between ring-Majoranas' states and the Majorana bound state, whereas the lack of energy resonance makes unlikely any leakage between ring-Majoranas' states and the trivial fermion states. The proposed setup also invites further investigations in the context of braiding and/or fusion of Majorana states, both as detection mechanisms and for quantum computing purposes.
翻訳日:2024-03-06 20:48:32 公開日:2024-03-03
# 不均衡処理を施した2次ロバスト推定器の校正

Calibrating doubly-robust estimators with unbalanced treatment assignment ( http://arxiv.org/abs/2403.01585v1 )

ライセンス: Link先を確認
Daniele Ballinari(参考訳) 機械学習手法、特にDouble Machine Learning (DML) 推定器 (Chernozhukov et al., 2018) は平均治療効果(ATE)の推定でますます人気がある。 しかし、データセットは、わずかな観察しか処理されない不均衡な治療課題をしばしば示しており、不安定な傾向スコアの推定に繋がる。 そこで本研究では,DML推定器の簡易拡張法を提案する。 本論文は,DML推定器の漸近特性が維持されていることを示す理論的結果を提供する。 シミュレーション研究は、推定器の有限サンプル性能を例示する。

Machine learning methods, particularly the double machine learning (DML) estimator (Chernozhukov et al., 2018), are increasingly popular for the estimation of the average treatment effect (ATE). However, datasets often exhibit unbalanced treatment assignments where only a few observations are treated, leading to unstable propensity score estimations. We propose a simple extension of the DML estimator which undersamples data for propensity score modeling and calibrates scores to match the original distribution. The paper provides theoretical results showing that the estimator retains the DML estimator's asymptotic properties. A simulation study illustrates the finite sample performance of the estimator.
翻訳日:2024-03-06 20:48:00 公開日:2024-03-03
# モデル非依存多元無教師領域適応について

On the Model-Agnostic Multi-Source-Free Unsupervised Domain Adaptation ( http://arxiv.org/abs/2403.01582v1 )

ライセンス: Link先を確認
Jiangbo Pei, Ruizhe Li, Qingchao Chen(参考訳) Multi-Source-Free Unsupervised Domain Adaptation (MSFDA)は、複数の well-labeled ソースドメインからの知識を、ソースデータの代わりにソースモデルを使用して、未ラベルのターゲットドメインに転送することを目的としている。 既存のMSFDAメソッドは、各ソースドメインが一様構造を持つ単一のモデルのみを提供するように制限されている。 本稿では,新しいmsfda設定であるmmda(model-agnostic multi-source-free unsupervised domain adaptation)を提案する。 mmdaは有望な可能性を持っているが、多数のソースモデルを統合することは、望ましくないモデルを含めるリスクが高い。 この問題に対処するため、我々はまずこの問題に関する理論的分析を行う。 我々は,伝達可能性原理と多様性原理という2つの基本選択原理を明らかにし,それらを統合するための選択アルゴリズムを提案する。 そこで,トランスファー可能性の測定は困難であると考え,sute(source-free unsupervised transferability estimation)を提案する。 この新たな定式化により、ターゲットラベルやソースデータにアクセスすることなく、ドメインシフトの文脈で異なるアーキテクチャを持つ複数のソースモデル間の転送可能性の評価と比較が可能になる。 以上に基づいて,MMDAに対応する新しいフレームワークを提案する。 具体的には,提案する選択原理に基づき,まずソースモデル選択を行う。 その後, 2つのモジュールを設計, 対象モデルからの知識を集約し, 排除されたモデルから有用な知識を再利用する。 これらのモジュールにより,ソース知識を効率的に効果的に活用し,適応による識別対象モデルの学習を支援する。 提案手法の有効性を実験により検証し,本手法が最先端性能を実現することを示す。

Multi-Source-Free Unsupervised Domain Adaptation (MSFDA) aims to transfer knowledge from multiple well-labeled source domains to an unlabeled target domain, using source models instead of source data. Existing MSFDA methods limited that each source domain provides only a single model, with a uniform structure. This paper introduces a new MSFDA setting: Model-Agnostic Multi-Source-Free Unsupervised Domain Adaptation (MMDA), allowing diverse source models with varying architectures, without quantitative restrictions. While MMDA holds promising potential, incorporating numerous source models poses a high risk of including undesired models, which highlights the source model selection problem. To address it, we first provide a theoretical analysis of this problem. We reveal two fundamental selection principles: transferability principle and diversity principle, and introduce a selection algorithm to integrate them. Then, considering the measure of transferability is challenging, we propose a novel Source-Free Unsupervised Transferability Estimation (SUTE). This novel formulation enables the assessment and comparison of transferability across multiple source models with different architectures in the context of domain shift, without requiring access to any target labels or source data. Based on the above, we introduce a new framework to address MMDA. Specifically, we first conduct source model selection based on the proposed selection principles. Subsequently, we design two modules to aggregate knowledge from included models and recycle useful knowledge from excluded models. These modules enable us to leverage source knowledge efficiently and effectively, thereby supporting us in learning a discriminative target model via adaptation. We validate the effectiveness of our method through numerous experimental results, and demonstrate that our approach achieves state-of-the-art performance.
翻訳日:2024-03-06 20:47:46 公開日:2024-03-03
# 低リソース言語のニューラルネットワーク翻訳の強化:コーパス開発、人的評価、説明可能なAIアーキテクチャ

Enhancing Neural Machine Translation of Low-Resource Languages: Corpus Development, Human Evaluation and Explainable AI Architectures ( http://arxiv.org/abs/2403.01580v1 )

ライセンス: Link先を確認
S\'eamus Lankford(参考訳) 現在の機械翻訳(MT)の世界では、トランスフォーマーアーキテクチャは特に高リソース言語ペアにとって、金の標準として際立っている。 この研究は、英語の$\leftrightarrow$irishと英語の$\leftrightarrow$marathiという2つの言語ペアを含む、低リソースの言語ペアにその効果をもたらす。 特に,低リソース言語ペアのトランスフォーマーモデルの翻訳品質を著しく向上させるために,ハイパーパラメータとサブワードモデルタイプが最適であることを示す。 低リソース言語のための並列データセットの不足は、MT開発を妨げる可能性がある。 これを解決するため、アイルランド語の健康データの最初のバイリンガルコーパスであるgaHealthを開発した。 健康領域に着目して、このドメイン内のデータセットを使用して開発されたモデルは、LoResMT2021共有タスクのモデルと比較して、BLEUスコアを大幅に改善した。 その後の多次元品質指標を用いた人為評価では、トランスフォーマーシステムの優れた性能を示し、RNNベースの手法と比較して精度と流速誤差を低減した。 さらに、本論文では、ニューラルネットワーク翻訳モデルの開発、微調整、デプロイを効率化した2つのオープンソースアプリケーションであるadaptnmtとadaptmllmを導入している。 これらのツールはセットアップと評価のプロセスをかなり単純化し、開発者と翻訳者の両方にmtをよりアクセスしやすくする。 特に、OpenNMTエコシステムに根ざしたAdaptNMTは、モデル開発の環境フットプリントを強調することで、エコフレンドリーな自然言語処理の研究を促進する。 AdaptMLLMによるMLLMの微調整は、LoResMT2021の共有タスクのベースラインと比較して、低リソースの2つの言語ペアである English$\leftrightarrow$Irish と English$\leftrightarrow$Marathi の翻訳性能の進歩を示した。

In the current machine translation (MT) landscape, the Transformer architecture stands out as the gold standard, especially for high-resource language pairs. This research delves into its efficacy for low-resource language pairs including both the English$\leftrightarrow$Irish and English$\leftrightarrow$Marathi language pairs. Notably, the study identifies the optimal hyperparameters and subword model type to significantly improve the translation quality of Transformer models for low-resource language pairs. The scarcity of parallel datasets for low-resource languages can hinder MT development. To address this, gaHealth was developed, the first bilingual corpus of health data for the Irish language. Focusing on the health domain, models developed using this in-domain dataset exhibited very significant improvements in BLEU score when compared with models from the LoResMT2021 Shared Task. A subsequent human evaluation using the multidimensional quality metrics error taxonomy showcased the superior performance of the Transformer system in reducing both accuracy and fluency errors compared to an RNN-based counterpart. Furthermore, this thesis introduces adaptNMT and adaptMLLM, two open-source applications streamlined for the development, fine-tuning, and deployment of neural machine translation models. These tools considerably simplify the setup and evaluation process, making MT more accessible to both developers and translators. Notably, adaptNMT, grounded in the OpenNMT ecosystem, promotes eco-friendly natural language processing research by highlighting the environmental footprint of model development. Fine-tuning of MLLMs by adaptMLLM demonstrated advancements in translation performance for two low-resource language pairs: English$\leftrightarrow$Irish and English$\leftrightarrow$Marathi, compared to baselines from the LoResMT2021 Shared Task.
翻訳日:2024-03-06 20:47:15 公開日:2024-03-03
# SARD: 人間とAIのコラボレーションによるストーリージェネレーション

SARD: A Human-AI Collaborative Story Generation ( http://arxiv.org/abs/2403.01575v1 )

ライセンス: Link先を確認
Ahmed Y. Radwan, Khaled M. Alasmari, Omar A. Abdulbagi, Emad A. Alghamdi(参考訳) 創造的人工知能(GenAI)は、ストーリーテラーにとって新たな時代を迎え、創造性を啓発し、未知の物語領域を探索する強力なツールを提供する。 テクノロジーが進歩を続けるにつれて、人間の創造性とAI生成コンテンツとのシナジーは、ストーリーテリングの風景を再定義する可能性を持っている。 本研究では,大規模言語モデルを用いたマルチキャプタストーリー生成のためのドラッグアンドドロップビジュアルインタフェースであるsardを提案する。 SARDのユーザビリティとその創造性に対する評価は、物語のノードベースの可視化は、著者がメンタルモデルを構築するのに役立つかもしれないが、著者に不要な精神的オーバーヘッドを課し、物語がより精巧になるにつれて、気晴らしの源となることを示している。 また、AIはストーリーの複雑さに関係なく、語彙的に多様性の低いストーリーを生成することもわかりました。 我々は、将来の人間とAIの共筆ツールの開発をガイドできるツールのパターンと制限を特定した。

Generative artificial intelligence (GenAI) has ushered in a new era for storytellers, providing a powerful tool to ignite creativity and explore uncharted narrative territories. As technology continues to advance, the synergy between human creativity and AI-generated content holds the potential to redefine the landscape of storytelling. In this work, we propose SARD, a drag-and-drop visual interface for generating a multi-chapter story using large language models. Our evaluation of the usability of SARD and its creativity support shows that while node-based visualization of the narrative may help writers build a mental model, it exerts unnecessary mental overhead to the writer and becomes a source of distraction as the story becomes more elaborated. We also found that AI generates stories that are less lexically diverse, irrespective of the complexity of the story. We identified some patterns and limitations of our tool that can guide the development of future human-AI co-writing tools.
翻訳日:2024-03-06 20:46:42 公開日:2024-03-03
# 深く埋め込まれた賃金: データワークにおけるデジタル支払いのナビゲート

Deeply Embedded Wages: Navigating Digital Payments in Data Work ( http://arxiv.org/abs/2403.01572v1 )

ライセンス: Link先を確認
Julian Posada(参考訳) 世界の労働者の多くは収入のためにデジタルプラットフォームに依存している。 ベネズエラでは、極端なインフレと労働力の大半が自営業している国で、機械学習のためのデータ生産プラットフォームが、多くの人々がドルで柔軟な収入を得るための有効な機会として浮上している。 プラットフォームワーカーは、デジタル通貨の賃金支払いとそれに続く通貨ボリバルへの転換の仲介者として働く、巨大な企業や団体のネットワークの中で深く相互につながっている。 組込み性に関する過去の研究は、企業や個人の多層社会経済ネットワークに絡み合っていることは、社会的参加者に大きな報奨を与えるだけでなく、特定の制約も含んでいることを指摘している。 本稿は,ベネズエラのプラットフォームワーカーにこの深い埋め込み性が与える影響について,定性的な証拠を提供する。 国家的危機と高インフレの背景を考えると、様々な金融プラットフォームを通じて賃金を受け取ることのリスクには、より安定した通貨へのアクセスと国家金融システム外での貯蓄と投資の能力が含まれる。 しかし、多くのデジタルおよびローカル仲介業者に依存すると、取引手数料によって収入が減少することが多い。 さらに、特に投資としての暗号通貨の予測不可能な性質のため、金融リスクの増大も引き起こされる。 外部金融プラットフォームへの過度な依存は、取引ルールと価格を設定するプラットフォームを支持するパワーダイナミクスを通じて、労働者の自律性を損なう。 これらの知見は、不安定な状況下での労働者の金銭的介入の報酬が、経済的リスクの増大に苦しむ労働者にとって重大なコストとなる場合が多いことを明らかにする。

Many of the world's workers rely on digital platforms for their income. In Venezuela, a nation grappling with extreme inflation and where most of the workforce is self-employed, data production platforms for machine learning have emerged as a viable opportunity for many to earn a flexible income in US dollars. Platform workers are deeply interconnected within a vast network of firms and entities that act as intermediaries for wage payments in digital currencies and its subsequent conversion to the national currency, the bolivar. Past research on embeddedness has noted that being intertwined in multi-tiered socioeconomic networks of companies and individuals can offer significant rewards to social participants, while also connoting a particular set of limitations. This paper furnishes qualitative evidence regarding how this deep embeddedness impacts platform workers in Venezuela. Given the backdrop of a national crisis and rampant hyperinflation, the perks of receiving wages through various financial platforms include access to a more stable currency and the ability to save and invest outside the national financial system. However, relying on numerous digital and local intermediaries often diminishes income due to transaction fees. Moreover, this introduces heightened financial risks, particularly due to the unpredictable nature of cryptocurrencies as an investment. The over-reliance on external financial platforms erodes worker autonomy through power dynamics that lean in favor of the platforms that set the transaction rules and prices. These findings present a multifaceted perspective on deep embeddedness in platform labor, highlighting how the rewards of financial intermediation often come at a substantial cost for the workers in unstable situations, who are saddled with escalating financial risks.
翻訳日:2024-03-06 20:46:24 公開日:2024-03-03
# Kullback-Leibler の発散と Cohen の Kappa との関連による分類性能の限界

Limits to classification performance by relating Kullback-Leibler divergence to Cohen's Kappa ( http://arxiv.org/abs/2403.01571v1 )

ライセンス: Link先を確認
L. Crow and S. J. Watts(参考訳) 機械学習分類アルゴリズムの性能は、しばしば混乱行列からメトリクスを推定し、トレーニングデータとクロスバリデーションを用いて評価される。 しかし、これらは最高のパフォーマンスが達成されたことを証明していない。 情報距離測定により誤差率の基本的な限界を推定できる。 この目的のために、混乱行列はチェルノフ・シュタイン補題に従うように定式化されている。 これは2つのクラスを記述する確率密度関数の間で誤差率とkullback-leiblerの発散を関連付けている。 これはコーエンのカッパと2つのクルバック・リーブルの分岐の平行抵抗結合である抵抗平均距離を関連付ける重要な結果をもたらす。 抵抗平均距離はビット単位を持ち、kullback-leibler divergencesのkn推定値を用いて分類アルゴリズムが使用する同じトレーニングデータから推定される。 分類アルゴリズムは、混乱行列とカッパを与える。 理論と手法は詳細に議論され、モンテカルロのデータと実際のデータセットに適用される。 4つの非常に異なる実際のデータセット Breast Cancer, Coronary Heart Disease, Bankruptcy, Particle Identification は、連続値と離散値の両方で分析され、その分類性能は予想される理論限界と比較される。 いずれの場合も、この分析は、2つのクラスに対する基礎となる確率密度関数のために、アルゴリズムがこれ以上うまく機能しなかったことを示している。 重要な教訓は、ほぼバランスの取れたトレーニングデータセットを使用して、不均衡データに対するアルゴリズムのパフォーマンスを予測する方法を学ぶことである。 機械学習は非常に強力だが、分類のパフォーマンスは究極的にはデータの質と問題に対する変数の関連性に依存する。

The performance of machine learning classification algorithms are evaluated by estimating metrics, often from the confusion matrix, using training data and cross-validation. However, these do not prove that the best possible performance has been achieved. Fundamental limits to error rates can be estimated using information distance measures. To this end, the confusion matrix has been formulated to comply with the Chernoff-Stein Lemma. This links the error rates to the Kullback-Leibler divergences between the probability density functions describing the two classes. This leads to a key result that relates Cohen's Kappa to the Resistor Average Distance which is the parallel resistor combination of the two Kullback-Leibler divergences. The Resistor Average Distance has units of bits and is estimated from the same training data used by the classification algorithm, using kNN estimates of the KullBack-Leibler divergences. The classification algorithm gives the confusion matrix and Kappa. Theory and methods are discussed in detail and then applied to Monte Carlo data and real datasets. Four very different real datasets - Breast Cancer, Coronary Heart Disease, Bankruptcy, and Particle Identification - are analysed, with both continuous and discrete values, and their classification performance compared to the expected theoretical limit. In all cases this analysis shows that the algorithms could not have performed any better due to the underlying probability density functions for the two classes. Important lessons are learnt on how to predict the performance of algorithms for imbalanced data using training datasets that are approximately balanced. Machine learning is very powerful but classification performance ultimately depends on the quality of the data and the relevance of the variables to the problem.
翻訳日:2024-03-06 20:45:55 公開日:2024-03-03
# SERVAL: Oracle-Level ゼロショット医療予測に向けた垂直モデルと LLM のシナジー学習

SERVAL: Synergy Learning between Vertical Models and LLMs towards Oracle-Level Zero-shot Medical Prediction ( http://arxiv.org/abs/2403.01570v1 )

ライセンス: Link先を確認
Jiahuan Yan, Jintai Chen, Chaowen Hu, Bo Zheng, Yaojun Hu, Jimeng Sun, Jian Wu(参考訳) 近年の大規模言語モデル (LLM) の開発は, 汎用的, 常識的質問に対して, 目覚ましいゼロショット能力を示した。 しかし、LLMのドメイン固有の垂直質問への応用は、主に垂直知識の屈辱問題と欠陥のため、まだ遅れている。 さらに、垂直データアノテーションプロセスは、しばしば労働集約的な専門家の関与を必要とするため、モデルの垂直能力を高めるためのさらなる課題が提示される。 本稿では,LLMと小型モデルの両方において,相互強化による教師なしの垂直機能開発を目的とした相乗学習パイプラインSERVALを提案する。 具体的には、SERVALはLDMのゼロショット出力をアノテーションとして利用し、信頼性を活用して、スクラッチから堅牢な垂直モデルを教える。 逆に、訓練された垂直モデルはLLMファインチューニングをガイドし、ゼロショット能力を向上し、反復的なプロセスを通じて両方のモデルを改善する。 複雑な垂直的な知識と高価なアノテーションで知られている医学領域において、包括的な実験は、金のラベルにアクセスせずに、SERVALはOpenAI GPT-3.5のシナジー学習と単純なモデルにより、10の広く使用されている医療データセットで完全に監督された競争性能が得られることを示した。 これらのデータセットは、垂直に専門化された診断シナリオ(糖尿病、心臓病、COVID-19など)を表現し、LEMの垂直能力を洗練し、垂直モデルをスクラッチから訓練するSERVALの可能性を強調している。

Recent development of large language models (LLMs) has exhibited impressive zero-shot proficiency on generic and common sense questions. However, LLMs' application on domain-specific vertical questions still lags behind, primarily due to the humiliation problems and deficiencies in vertical knowledge. Furthermore, the vertical data annotation process often requires labor-intensive expert involvement, thereby presenting an additional challenge in enhancing the model's vertical capabilities. In this paper, we propose SERVAL, a synergy learning pipeline designed for unsupervised development of vertical capabilities in both LLMs and small models by mutual enhancement. Specifically, SERVAL utilizes the LLM's zero-shot outputs as annotations, leveraging its confidence to teach a robust vertical model from scratch. Reversely, the trained vertical model guides the LLM fine-tuning to enhance its zero-shot capability, progressively improving both models through an iterative process. In medical domain, known for complex vertical knowledge and costly annotations, comprehensive experiments show that, without access to any gold labels, SERVAL with the synergy learning of OpenAI GPT-3.5 and a simple model attains fully-supervised competitive performance across ten widely used medical datasets. These datasets represent vertically specialized medical diagnostic scenarios (e.g., diabetes, heart diseases, COVID-19), highlighting the potential of SERVAL in refining the vertical capabilities of LLMs and training vertical models from scratch, all achieved without the need for annotations.
翻訳日:2024-03-06 20:45:26 公開日:2024-03-03
# kick back & relax++: slowtvとcribstvによる地上深度のスケーリング

Kick Back & Relax++: Scaling Beyond Ground-Truth Depth with SlowTV & CribsTV ( http://arxiv.org/abs/2403.01569v1 )

ライセンス: Link先を確認
Jaime Spencer, Chris Russell, Simon Hadfield, Richard Bowden(参考訳) 自己教師型学習は汎用コンピュータビジョンシステムの鍵となる。 接地アノテーションへの依存をなくすことで、はるかに大きなデータ量へのスケーリングが可能になる。 残念ながら、ss-mde (self-supervised monocular depth estimation) は多様な訓練データがないため制限されている。 既存のデータセットは人口密度の高い都市における都市運転に特化しており、結果としてこの領域を超えて一般化できないモデルとなっている。 本稿では,これらの制約に対処するため,SlowTV と CribsTV の2つの新しいデータセットを提案する。 これらは、公開されているyoutubeビデオから収集された大規模なデータセットで、合計200万のトレーニングフレームを含んでいる。 雪の森から海岸道路、豪華な邸宅、さらには水中のサンゴ礁まで、非常に多様な環境を提供している。 これらのデータセットを利用してゼロショット一般化の難題に取り組み、既存のSS-MDEアプローチや最先端の教師付き手法よりも優れています。 私たちのモデルの一般化能力は、様々なコンポーネントやコントリビューションによってさらに強化されます。 1)カメラの本質を学習する。 2)アスペクト比の変化を目標とした強化体制の強化。 3)フレームランダム化のサポート。 4) 柔軟な動き推定。 5) 現代的なトランスベースのアーキテクチャ。 広範囲のアブレーション実験において,各成分の有効性を示す。 将来の研究を容易にするため、データセット、コード、事前訓練されたモデルをhttps://github.com/jspenmar/slowtv_monodepth.comで公開しています。

Self-supervised learning is the key to unlocking generic computer vision systems. By eliminating the reliance on ground-truth annotations, it allows scaling to much larger data quantities. Unfortunately, self-supervised monocular depth estimation (SS-MDE) has been limited by the absence of diverse training data. Existing datasets have focused exclusively on urban driving in densely populated cities, resulting in models that fail to generalize beyond this domain. To address these limitations, this paper proposes two novel datasets: SlowTV and CribsTV. These are large-scale datasets curated from publicly available YouTube videos, containing a total of 2M training frames. They offer an incredibly diverse set of environments, ranging from snowy forests to coastal roads, luxury mansions and even underwater coral reefs. We leverage these datasets to tackle the challenging task of zero-shot generalization, outperforming every existing SS-MDE approach and even some state-of-the-art supervised methods. The generalization capabilities of our models are further enhanced by a range of components and contributions: 1) learning the camera intrinsics, 2) a stronger augmentation regime targeting aspect ratio changes, 3) support frame randomization, 4) flexible motion estimation, 5) a modern transformer-based architecture. We demonstrate the effectiveness of each component in extensive ablation experiments. To facilitate the development of future research, we make the datasets, code and pretrained models available to the public at https://github.com/jspenmar/slowtv_monodepth.
翻訳日:2024-03-06 20:44:59 公開日:2024-03-03
# ReMatch: LLMとの検索強化スキーママッチング

ReMatch: Retrieval Enhanced Schema Matching with LLMs ( http://arxiv.org/abs/2403.01567v1 )

ライセンス: Link先を確認
Eitam Sheetrit, Menachem Brief, Moshik Mishaeli, Oren Elisha(参考訳) データ統合においてスキーママッチングは重要なタスクであり、ソースデータベーススキーマとターゲットスキーマをアライメントすることで、要素間の対応を確立する。 このタスクは、テキストとセマンティックな異質性、およびスキーマサイズの違いによって困難である。 機械学習ベースのソリューションは多くの研究で研究されてきたが、精度が低く、モデルトレーニングのためにスキーマの手動マッピングを必要とする場合や、プライバシ上の懸念から利用できない可能性のあるソーススキーマデータへのアクセスを必要とする場合が多い。 本稿では,検索強調型大規模言語モデル(llms)を用いたスキーママッチングのためのrematchという新しい手法を提案する。 提案手法は,事前定義されたマッピング,モデルトレーニング,あるいはソースデータベースのデータアクセスの必要性を回避する。 rematchメソッドでは、ターゲットスキーマのテーブルとソーススキーマの属性が最初に構造化されたパッセージベースのドキュメントとして表現される。 各ソース属性文書について、それらの意味的関連性に応じて、ターゲットスキーマテーブルを表す$J$ドキュメントを検索する。 その後、すべてのソーステーブルに対してプロンプトを作成し、その属性とその記述と、以前に検索したトップ$J$ターゲットテーブルのセットから得られるすべての属性から構成される。 我々は、このプロンプトをマッチングタスクに使用し、各ソース属性に対して$K$の潜在的なマッチのランクリストを得る。 大規模な実世界のスキーマに関する実験結果から、ReMatchはマッチング機能を大幅に改善し、他の機械学習アプローチよりも優れています。 データトレーニングの要件をなくすことで、ReMatchは現実のシナリオで実行可能なソリューションになります。

Schema matching is a crucial task in data integration, involving the alignment of a source database schema with a target schema to establish correspondence between their elements. This task is challenging due to textual and semantic heterogeneity, as well as differences in schema sizes. Although machine-learning-based solutions have been explored in numerous studies, they often suffer from low accuracy, require manual mapping of the schemas for model training, or need access to source schema data which might be unavailable due to privacy concerns. In this paper we present a novel method, named ReMatch, for matching schemas using retrieval-enhanced Large Language Models (LLMs). Our method avoids the need for predefined mapping, any model training, or access to data in the source database. In the ReMatch method the tables of the target schema and the attributes of the source schema are first represented as structured passage-based documents. For each source attribute document, we retrieve $J$ documents, representing target schema tables, according to their semantic relevance. Subsequently, we create a prompt for every source table, comprising all its attributes and their descriptions, alongside all attributes from the set of top $J$ target tables retrieved previously. We employ LLMs using this prompt for the matching task, yielding a ranked list of $K$ potential matches for each source attribute. Our experimental results on large real-world schemas demonstrate that ReMatch significantly improves matching capabilities and outperforms other machine learning approaches. By eliminating the requirement for training data, ReMatch becomes a viable solution for real-world scenarios.
翻訳日:2024-03-06 20:44:35 公開日:2024-03-03
# ComTraQ-MPC: 限定アクティブローカライゼーション更新による軌跡追跡のためのメタトレーニングDQN-MPC統合

ComTraQ-MPC: Meta-Trained DQN-MPC Integration for Trajectory Tracking with Limited Active Localization Updates ( http://arxiv.org/abs/2403.01564v1 )

ライセンス: Link先を確認
Gokul Puthumanaillam, Manav Vora and Melkior Ornik(参考訳) エージェントがセンサーから真の状態情報を取得するプロセスである、アクティブなローカライゼーション更新の回数が制限された部分的に観測可能な確率的な環境での軌道追跡の最適決定は、重大な課題である。 伝統的な手法は、しばしば資源保存、正確な状態推定、正確な追跡のバランスをとるのに苦労する。 この問題は、頻繁に正確な状態データを必要とする環境において特に顕著であるが、アクティブなローカライゼーション更新の能力は外部の制限によって制限されている。 本稿では,DQN(Deep Q-Networks)とモデル予測制御(Model Predictive Control,MPC)を組み合わせた新しいフレームワークであるComTraQ-MPCを紹介する。 メタトレーニングされたDQNは適応的なアクティブなローカライゼーションスケジューリングを保証し、MPCは利用可能な状態情報を活用してトラッキングを改善する。 DQNの更新決定はMPCのコントロール戦略を知らせ、MPCの結果はDQNの学習を洗練させ、結合的で適応的なシステムを作り出す。 シミュレーションおよび実世界の環境における経験的評価は、comtraq-mpcが運用効率と精度を大幅に向上させ、複雑な部分観測可能な環境での軌道追跡の一般化と近似的最適解を提供することを示している。

Optimal decision-making for trajectory tracking in partially observable, stochastic environments where the number of active localization updates -- the process by which the agent obtains its true state information from the sensors -- are limited, presents a significant challenge. Traditional methods often struggle to balance resource conservation, accurate state estimation and precise tracking, resulting in suboptimal performance. This problem is particularly pronounced in environments with large action spaces, where the need for frequent, accurate state data is paramount, yet the capacity for active localization updates is restricted by external limitations. This paper introduces ComTraQ-MPC, a novel framework that combines Deep Q-Networks (DQN) and Model Predictive Control (MPC) to optimize trajectory tracking with constrained active localization updates. The meta-trained DQN ensures adaptive active localization scheduling, while the MPC leverages available state information to improve tracking. The central contribution of this work is their reciprocal interaction: DQN's update decisions inform MPC's control strategy, and MPC's outcomes refine DQN's learning, creating a cohesive, adaptive system. Empirical evaluations in simulated and real-world settings demonstrate that ComTraQ-MPC significantly enhances operational efficiency and accuracy, providing a generalizable and approximately optimal solution for trajectory tracking in complex partially observable environments.
翻訳日:2024-03-06 20:44:09 公開日:2024-03-03
# 複数タスクを用いたマルチタスク強化学習による筋電図探索

Sample Efficient Myopic Exploration Through Multitask Reinforcement Learning with Diverse Tasks ( http://arxiv.org/abs/2403.01636v1 )

ライセンス: Link先を確認
Ziping Xu, Zifan Xu, Runxuan Jiang, Peter Stone, Ambuj Tewari(参考訳) マルチタスク強化学習(MTRL)アプローチは、多くの重要な強化学習(RL)タスクにおいて幅広い応用に注目が集まっている。 しかし、近年のMTRL理論の進歩は、タスク間の共有構造を仮定することで、統計効率の向上に焦点が当てられているが、RLの重要な側面である探索は、ほとんど見過ごされてきた。 本稿では, エージェントが十分に多様なタスクのセットで訓練された場合, 一般に非効率な$\epsilon$-greedyのような筋電図探索設計の一般的なポリシー共有アルゴリズムは, MTRLに対してサンプル効率がよいことを示す。 我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。 また、実際的なミオピック探索の幅広い応用の謎的な成功にも光を当てるかもしれない。 多様なタスクセットが自動カリキュラム学習によるタスク選択と整合し, サンプル効率の向上を実証的に示す合成ロボット制御環境において, 多様性の役割を検証する。

Multitask Reinforcement Learning (MTRL) approaches have gained increasing attention for its wide applications in many important Reinforcement Learning (RL) tasks. However, while recent advancements in MTRL theory have focused on the improved statistical efficiency by assuming a shared structure across tasks, exploration--a crucial aspect of RL--has been largely overlooked. This paper addresses this gap by showing that when an agent is trained on a sufficiently diverse set of tasks, a generic policy-sharing algorithm with myopic exploration design like $\epsilon$-greedy that are inefficient in general can be sample-efficient for MTRL. To the best of our knowledge, this is the first theoretical demonstration of the "exploration benefits" of MTRL. It may also shed light on the enigmatic success of the wide applications of myopic exploration in practice. To validate the role of diversity, we conduct experiments on synthetic robotic control environments, where the diverse task set aligns with the task selection by automatic curriculum learning, which is empirically shown to improve sample-efficiency.
翻訳日:2024-03-06 20:39:11 公開日:2024-03-03
# トカマクプラズマダイナミクス解析へのニューラル正規微分方程式の適用

Application of Neural Ordinary Differential Equations for Tokamak Plasma Dynamics Analysis ( http://arxiv.org/abs/2403.01635v1 )

ライセンス: Link先を確認
Zefang Liu, Weston M. Stacey(参考訳) 制御熱核融合の探求において、トカマクはプラズマ力学の燃焼を理解するための複雑な課題を提示する。 本研究では,トカマク内の複雑なエネルギー伝達過程をシミュレートするためにニューラル正規微分方程式(Neural ODE)を用いたマルチリージョンのマルチスケール輸送モデルを提案する。 提案手法は,DIII-Dトカマク実験データから拡散係数の数値的導出にニューラルODEを応用し,コア,エッジ,スクラップオフ層を含む各領域における電子とイオン間のエネルギー相互作用の精密なモデリングを可能にする。 これらの領域は異なるノードとして概念化され、効率的なトカマク操作に必要な放射線および輸送過程の重要な時間スケールを捉えている。 種々の補助加熱条件下でのDIII-Dプラズマに対するバリデーションはモデルの有効性を示し、最終的にディープラーニングによるトカマク性能の向上に光を当てる。

In the quest for controlled thermonuclear fusion, tokamaks present complex challenges in understanding burning plasma dynamics. This study introduces a multi-region multi-timescale transport model, employing Neural Ordinary Differential Equations (Neural ODEs) to simulate the intricate energy transfer processes within tokamaks. Our methodology leverages Neural ODEs for the numerical derivation of diffusivity parameters from DIII-D tokamak experimental data, enabling the precise modeling of energy interactions between electrons and ions across various regions, including the core, edge, and scrape-off layer. These regions are conceptualized as distinct nodes, capturing the critical timescales of radiation and transport processes essential for efficient tokamak operation. Validation against DIII-D plasmas under various auxiliary heating conditions demonstrates the model's effectiveness, ultimately shedding light on ways to enhance tokamak performance with deep learning.
翻訳日:2024-03-06 20:38:51 公開日:2024-03-03
# 臨界窓:拡散モデルにおける特徴の出現に関する非漸近理論

Critical windows: non-asymptotic theory for feature emergence in diffusion models ( http://arxiv.org/abs/2403.01633v1 )

ライセンス: Link先を確認
Marvin Li and Sitan Chen(参考訳) 我々は,重要なウィンドウと呼ぶ画像生成のための拡散モデルの興味深い性質を理解するための理論を開発する。 実験的に、最終像の特定の特徴(例えば、Ho et al., 2020b; Georgiev et al., 2023; Raya & Ambrogioni, 2023; Sclocchi et al., 2024; Biroli et al., 2024)が出現する時間間隔が狭いことが観察されている。 これは、生成のプロパティを軌道の小さなセグメントにローカライズできることを意味するため、解釈可能性に有利であるが、拡散の連続的な性質とは相反するように見える。 本稿では,これらのウィンドウを解析するための公式な枠組みを提案し,強対数凹凸密度の混合から得られるデータに対して,グループ間およびグループ間分離の特定の尺度で,これらのウィンドウを証明可能な有界性を示す。 また、これらの境界を、よく条件付けられたガウス混合のような具体例にインスタンス化する。 最後に, 拡散モデルの厳密な解釈に境界を用い, 離散的な時間列の出力特徴を漸進的に"決定"する階層的スプライマーを与える。 我々は合成実験で限界を検証する。 さらに、安定拡散に関する予備実験は、実世界の拡散モデルにおける公平性とプライバシー侵害を診断するための有用なツールとして重要な窓を示唆している。

We develop theory to understand an intriguing property of diffusion models for image generation that we term critical windows. Empirically, it has been observed that there are narrow time intervals in sampling during which particular features of the final image emerge, e.g. the image class or background color (Ho et al., 2020b; Georgiev et al., 2023; Raya & Ambrogioni, 2023; Sclocchi et al., 2024; Biroli et al., 2024). While this is advantageous for interpretability as it implies one can localize properties of the generation to a small segment of the trajectory, it seems at odds with the continuous nature of the diffusion. We propose a formal framework for studying these windows and show that for data coming from a mixture of strongly log-concave densities, these windows can be provably bounded in terms of certain measures of inter- and intra-group separation. We also instantiate these bounds for concrete examples like well-conditioned Gaussian mixtures. Finally, we use our bounds to give a rigorous interpretation of diffusion models as hierarchical samplers that progressively "decide" output features over a discrete sequence of times. We validate our bounds with synthetic experiments. Additionally, preliminary experiments on Stable Diffusion suggest critical windows may serve as a useful tool for diagnosing fairness and privacy violations in real-world diffusion models.
翻訳日:2024-03-06 20:38:34 公開日:2024-03-03
# 文法拡張によるLLMコード生成の改善

Improving LLM Code Generation with Grammar Augmentation ( http://arxiv.org/abs/2403.01632v1 )

ライセンス: Link先を確認
Shubham Ugare, Tarun Suresh, Hangoo Kang, Sasa Misailovic, Gagandeep Singh(参考訳) 我々は,大規模言語モデル(LLM)を用いたコードの効率的で汎用的なデコードのための新しいフレームワークSynCodeを提案する。 syncodeは、言語文法端末に基づくdfa mask storeと呼ばれるオフラインで構築された効率的なルックアップテーブルを利用して、プログラミング言語の文法を活用する。 プログラミング言語の文脈自由文法(CFG)を考慮に入れたSynCodeの健全性と完全性を実証し,無効なトークンを拒否しながら,構文的に有効なトークンを保持する能力を示す。 このフレームワークは、pythonとgoのcfgsの実験で証明されているように、cfgで定義された任意の言語とシームレスに統合される。 結果は、SynCodeと最先端のLLMを組み合わせることで達成された構文エラーの96.07%を大幅に削減し、コード生成における構文精度の向上に対するその大きな影響を示している。 私たちのコードはhttps://github.com/uiuc-focal-lab/syncodeで利用可能です。

We present SynCode a novel framework for efficient and general syntactical decoding of code with large language models (LLMs). SynCode leverages the grammar of a programming language, utilizing an offline-constructed efficient lookup table called DFA mask store based on language grammar terminals. We demonstrate SynCode's soundness and completeness given the context-free grammar (CFG) of the programming language, presenting its ability to retain syntactically valid tokens while rejecting invalid ones. The framework seamlessly integrates with any language defined by CFG, as evidenced by experiments on CFGs for Python and Go. The results underscore the significant reduction of 96.07% of syntax errors achieved when SynCode is combined with state-of-the-art LLMs, showcasing its substantial impact on enhancing syntactical precision in code generation. Our code is available at https://github.com/uiuc-focal-lab/syncode.
翻訳日:2024-03-06 20:38:07 公開日:2024-03-03
# 健康のための機械学習の最近の進歩、応用、オープンチャレンジ:ML4H 2023 Symposiumにおける研究総括からの考察

Recent Advances, Applications, and Open Challenges in Machine Learning for Health: Reflections from Research Roundtables at ML4H 2023 Symposium ( http://arxiv.org/abs/2403.01628v1 )

ライセンス: Link先を確認
Hyewon Jeong, Sarah Jabbour, Yuzhe Yang, Rahul Thapta, Hussein Mozannar, William Jongwon Han, Nikita Mehandru, Michael Wornow, Vladislav Lialin, Xin Liu, Alejandro Lozano, Jiacheng Zhu, Rafal Dariusz Kocielnik, Keith Harrigian, Haoran Zhang, Edward Lee, Milos Vukadinovic, Aparna Balagopalan, Vincent Jeanselme, Katherine Matton, Ilker Demirel, Jason Fries, Parisa Rashidi, Brett Beaulieu-Jones, Xuhai Orson Xu, Matthew McDermott, Tristan Naumann, Monica Agrawal, Marinka Zitnik, Berk Ustun, Edward Choi, Kristen Yeom, Gamze Gursoy, Marzyeh Ghassemi, Emma Pierson, George Chen, Sanjat Kanjilal, Michael Oberst, Linying Zhang, Harvineet Singh, Tom Hartvigsen, Helen Zhou, Chinasa T. Okolo(参考訳) 第3回ml4hシンポジウムは2023年12月10日にアメリカ合衆国ルイジアナ州ニューオーリンズで開催された。 シンポジウムには、参加者と上級研究者の議論を促進するための研究ラウンドテーブルセッションが含まれていた。 ML4H 2022では、昨年の仮想ラウンドテーブルの成功によって、11の個人ラウンドテーブルと4の仮想ラウンドテーブルを編成しました。 会議のラウンドテーブルは、11のテーブルに17のシニアチェアと19のジュニアチェアで構成された。 各ラウンドテーブルセッションには、招待されたシニアチェア(フィールドでかなりの経験を持つ)、ジュニアチェア(議論を促進する責任がある)、セッションのトピックに関心のあるさまざまなバックグラウンドからの参加者が含まれていた。 以下では、各トピックに対する最近の進歩、アプリケーション、オープンチャレンジなどを含む、これらのラウンドテーブルディスカッションのまとめと組織プロセスについて詳述する。 すべてのラウンドテーブルで学んだ要約と教訓で締めくくります。 この文書は総合的なレビュー論文として機能し、この分野の研究者が貢献した医療のための機械学習の最近の進歩を要約する。

The third ML4H symposium was held in person on December 10, 2023, in New Orleans, Louisiana, USA. The symposium included research roundtable sessions to foster discussions between participants and senior researchers on timely and relevant topics for the \ac{ML4H} community. Encouraged by the successful virtual roundtables in the previous year, we organized eleven in-person roundtables and four virtual roundtables at ML4H 2022. The organization of the research roundtables at the conference involved 17 Senior Chairs and 19 Junior Chairs across 11 tables. Each roundtable session included invited senior chairs (with substantial experience in the field), junior chairs (responsible for facilitating the discussion), and attendees from diverse backgrounds with interest in the session's topic. Herein we detail the organization process and compile takeaways from these roundtable discussions, including recent advances, applications, and open challenges for each topic. We conclude with a summary and lessons learned across all roundtables. This document serves as a comprehensive review paper, summarizing the recent advancements in machine learning for healthcare as contributed by foremost researchers in the field.
翻訳日:2024-03-06 20:37:52 公開日:2024-03-03
# ML4PhySim : 物理シミュレーションのための機械学習(翼設計)

ML4PhySim : Machine Learning for Physical Simulations Challenge (The airfoil design) ( http://arxiv.org/abs/2403.01623v1 )

ライセンス: Link先を確認
Mouadh Yagoubi, Milad Leyli-Abadi, David Danan, Jean-Patrick Brunet, Jocelyn Ahmed Mazari, Florent Bonnet, Asma Farjallah, Marc Schoenauer, Patrick Gallinari(参考訳) 複雑な物理的問題を解決するための機械学習(ML)技術の使用は、近年、有望なアプローチと考えられている。 しかし,このような物理モデルの評価は,産業利用において重要な課題である。 このコンペティションの目的は、最近提案されたLearning Industrial Physical Simulations (LIPS) と呼ばれる統合評価フレームワークを用いて、物理問題を解決する新しいML技術の開発を促進することである。 本研究では,AirfRANSというデータセットを用いて,エアフォイル設計シミュレーションという,よく知られた物理ユースケースを表すタスクの学習を提案する。 提出された各ソリューションで算出されたグローバルスコアは、ml関連、アウトオブディストリビューション、物理的コンプライアンス基準という3つの主要な基準に基づいています。 我々の知る限り、このコンペティションは、MLベースのサロゲートアプローチを使用して物理シミュレーションのトレードオフ計算コスト/精度を向上させるための最初のコンペティションであり、Codabenchプラットフォームがオンライントレーニングと全ての提案されたソリューションの評価を行っている。

The use of machine learning (ML) techniques to solve complex physical problems has been considered recently as a promising approach. However, the evaluation of such learned physical models remains an important issue for industrial use. The aim of this competition is to encourage the development of new ML techniques to solve physical problems using a unified evaluation framework proposed recently, called Learning Industrial Physical Simulations (LIPS). We propose learning a task representing a well-known physical use case: the airfoil design simulation, using a dataset called AirfRANS. The global score calculated for each submitted solution is based on three main categories of criteria covering different aspects, namely: ML-related, Out-Of-Distribution, and physical compliance criteria. To the best of our knowledge, this is the first competition addressing the use of ML-based surrogate approaches to improve the trade-off computational cost/accuracy of physical simulation.The competition is hosted by the Codabench platform with online training and evaluation of all submitted solutions.
翻訳日:2024-03-06 20:37:30 公開日:2024-03-03
# 機械学習とディープラーニング: 一般化問題

Machine Learning vs Deep Learning: The Generalization Problem ( http://arxiv.org/abs/2403.01621v1 )

ライセンス: Link先を確認
Yong Yi Bay and Kathleen A. Yearick(参考訳) トレーニングデータの範囲を超えて一般化する能力は重要な課題であり、しばしばモデルの実用性と堅牢性と同義である。 本研究では、従来の機械学習(ML)モデルとディープラーニング(DL)アルゴリズムの比較能力について、外挿(extrapolation)の観点から検討する。 本稿では,MLモデルとDLモデルの両方が指数関数で学習され,学習領域外の値でテストされる経験的分析を提案する。 この関数の選択により、トレーニングデータの範囲を超えてモデルを予測する必要がある場合、パフォーマンスのばらつきを明確に示すことができます。 この結果から,ディープラーニングモデルには,学習範囲を超えて一般化する固有の能力があることが示唆された。 本稿では、mlモデルとdlモデルの構造的差異を微妙に理解し、理論的研究と実用的な展開の両方に影響を及ぼすことを強調する。

The capacity to generalize beyond the range of training data is a pivotal challenge, often synonymous with a model's utility and robustness. This study investigates the comparative abilities of traditional machine learning (ML) models and deep learning (DL) algorithms in terms of extrapolation -- a more challenging aspect of generalization because it requires the model to make inferences about data points that lie outside the domain it has been trained on. We present an empirical analysis where both ML and DL models are trained on an exponentially growing function and then tested on values outside the training domain. The choice of this function allows us to distinctly showcase the divergence in performance when models are required to predict beyond the scope of their training data. Our findings suggest that deep learning models possess inherent capabilities to generalize beyond the training scope, an essential feature for real-world applications where data is often incomplete or extends beyond the observed range. This paper argues for a nuanced understanding of the structural differences between ML and DL models, with an emphasis on the implications for both theoretical research and practical deployment.
翻訳日:2024-03-06 20:37:11 公開日:2024-03-03
# スペクトルAUC差分(SAUCD):人間の3次元形状評価

Spectrum AUC Difference (SAUCD): Human-aligned 3D Shape Evaluation ( http://arxiv.org/abs/2403.01619v1 )

ライセンス: Link先を確認
Tianyu Luan, Zhong Li, Lele Chen, Xuan Gong, Lichang Chen, Yi Xu, and Junsong Yuan(参考訳) 既存の3Dメッシュ形状評価メトリクスは主に全体形状に焦点を当てるが、通常は局所的な詳細に敏感ではない。 これは、人間の知覚が全体像と詳細な形状の両方に注意を払っているため、人間の評価と矛盾する。 本稿では,人間の評価との整合性を示すスペクトル領域(SAUCD)という分析指標を提案する。 2つの形状の違いを比較するために、3Dメッシュを離散ラプラス・ベルトラミ作用素とフーリエ変換を用いてスペクトル領域に変換する。 次に、2つのスペクトル間のAUC(Area Under the Curve)差を計算し、全体または詳細な形状を捕捉する各周波数帯域を等しく考慮する。 周波数帯域にまたがる人間の感度を考慮に入れ、人間の知覚によく適合する周波数帯域毎の適切な重みを学習することによって、メトリックをさらに拡張する。 SAUCDの性能を測定するために、800人以上の被験者による手動アノテーションとともに、Shape Gradingと呼ばれる3Dメッシュ評価データセットを構築した。 測定値と人的評価値の相関を測定した結果,SAUCDは人間の評価値とよく一致しており,従来の3Dメッシュの指標よりも優れていた。

Existing 3D mesh shape evaluation metrics mainly focus on the overall shape but are usually less sensitive to local details. This makes them inconsistent with human evaluation, as human perception cares about both overall and detailed shape. In this paper, we propose an analytic metric named Spectrum Area Under the Curve Difference (SAUCD) that demonstrates better consistency with human evaluation. To compare the difference between two shapes, we first transform the 3D mesh to the spectrum domain using the discrete Laplace-Beltrami operator and Fourier transform. Then, we calculate the Area Under the Curve (AUC) difference between the two spectrums, so that each frequency band that captures either the overall or detailed shape is equitably considered. Taking human sensitivity across frequency bands into account, we further extend our metric by learning suitable weights for each frequency band which better aligns with human perception. To measure the performance of SAUCD, we build a 3D mesh evaluation dataset called Shape Grading, along with manual annotations from more than 800 subjects. By measuring the correlation between our metric and human evaluation, we demonstrate that SAUCD is well aligned with human evaluation, and outperforms previous 3D mesh metrics.
翻訳日:2024-03-06 20:36:54 公開日:2024-03-03
# 部分的フェデレーション学習

Partial Federated Learning ( http://arxiv.org/abs/2403.01615v1 )

ライセンス: Link先を確認
Tiantian Feng, Anil Ramakrishna, Jimit Majmudar, Charith Peris, Jixuan Wang, Clement Chung, Richard Zemel, Morteza Ziyadi, Rahul Gupta(参考訳) Federated Learning(FL)は、プライバシー上の懸念からエッジデバイス(携帯電話など)に制約されたユーザデータに基づいて機械学習モデルをトレーニングする一般的なアルゴリズムである。 通常、FLはユーザーデータの一部をエッジから外すことができないという仮定で訓練される。 しかし、多くのプロダクション環境では、特定のデータモダリティ/ミータデータはデバイスに限られている。 例えば、商用sluシステムでは、一般的には、生体計測信号(入力プロンプトの音声記録など)がクラウドに送信されることを防止することが望まれるが、ローカルに(エッジデバイス上で)転写されたテキストをクラウドに転送することは可能である。 本研究では、機械学習モデルに、データモダリティのサブセットやその中間表現をサーバに提供可能なデータを用いてトレーニングする部分フェデレーション学習(PartialFL)と呼ばれる新しいアルゴリズムを提案する。 さらに,プライバシ向上のためにデータラベルのクラウドへの離脱を防止し,対照的な学習ベースのモデル目標を使用することで,モデルのトレーニングをさらに制限します。 2つの異なるマルチモーダルデータセットに対するアプローチを評価し,提案手法で有望な結果を示す。

Federated Learning (FL) is a popular algorithm to train machine learning models on user data constrained to edge devices (for example, mobile phones) due to privacy concerns. Typically, FL is trained with the assumption that no part of the user data can be egressed from the edge. However, in many production settings, specific data-modalities/meta-data are limited to be on device while others are not. For example, in commercial SLU systems, it is typically desired to prevent transmission of biometric signals (such as audio recordings of the input prompt) to the cloud, but egress of locally (i.e. on the edge device) transcribed text to the cloud may be possible. In this work, we propose a new algorithm called Partial Federated Learning (PartialFL), where a machine learning model is trained using data where a subset of data modalities or their intermediate representations can be made available to the server. We further restrict our model training by preventing the egress of data labels to the cloud for better privacy, and instead use a contrastive learning based model objective. We evaluate our approach on two different multi-modal datasets and show promising results with our proposed approach.
翻訳日:2024-03-06 20:36:26 公開日:2024-03-03
# 量子ゲート誤差軽減のための逆回路ゼロノイズ外挿法

Inverted-circuit zero-noise extrapolation for quantum gate error mitigation ( http://arxiv.org/abs/2403.01608v1 )

ライセンス: Link先を確認
Kathrin F. Koenig, Finn Reinecke, Walter Hahn and Thomas Wellens(参考訳) 現代の量子コンピューティングハードウェアにおけるゲートエラーに対処する一般的なアプローチはゼロノイズ外挿である。 誤差を人工的に増幅し、異なる誤差強度で得られた期待値をゼロエラー(ゼロノイズ)限界に向けて外挿することにより、ノイズ量子コンピューティングシステムにおける誤差の修正を目標とする。 正確な外挿を行うためには、ノイズ増幅の正確な要因を知ることが不可欠である。 本稿では,量子回路において発生する誤差の強度を簡易に推定する手法を提案する。 逆回路を付加し、初期状態の確率を測定することにより、回路の誤差強度を決定する。 誤差強度の推定は任意の回路の実装が容易であり、ノイズ特性の以前の特徴付けを必要としない。 本手法を従来のゼロノイズ外挿法と比較し,新しい手法が期待値のより正確な計算につながることを示す。 提案手法は,現在のハードウェアにおいて特に有効であることが証明され,その短期量子コンピューティングアプリケーションへの適用性を示す。

A common approach to deal with gate errors in modern quantum-computing hardware is zero-noise extrapolation. By artificially amplifying errors and extrapolating the expectation values obtained with different error strengths towards the zero-error (zero-noise) limit, the technique aims at rectifying errors in noisy quantum computing systems. For an accurate extrapolation, it is essential to know the exact factors of the noise amplification. In this article, we propose a simple method for estimating the strength of errors occurring in a quantum circuit and demonstrate improved extrapolation results. The method determines the error strength for a circuit by appending to it the inverted circuit and measuring the probability of the initial state. The estimation of error strengths is easy to implement for arbitrary circuits and does not require a previous characterisation of noise properties. We compare this method with the conventional zero-noise extrapolation method and show that the novel method leads to a more accurate calculation of expectation values. Our method proves to be particularly effective on current hardware, showcasing its suitability for near-term quantum computing applications.
翻訳日:2024-03-06 20:36:05 公開日:2024-03-03
# 再発神経回路のオンライン学習による呼吸運動予測による放射線治療の安全性向上

Respiratory motion forecasting with online learning of recurrent neural networks for safety enhancement in externally guided radiotherapy ( http://arxiv.org/abs/2403.01607v1 )

ライセンス: Link先を確認
Michel Pohl, Mitsuru Uesaka, Hiroyuki Takahashi, Kazuyuki Demachi, and Ritu Bhusal Chhatkuli(参考訳) 肺放射線療法では、赤外線カメラは胸部の反射物体の位置を記録し、呼吸による腫瘍の移動位置を推定するが、治療システムは放射線ビームの精度を低下させる。 リアルタイムリカレント学習(rtrl)は、非定常呼吸データ内のパターンを学習できるが、複雑性が高いため、潜在的な解決策である。 本研究は, 資源効率の高いオンラインRNNアルゴリズム, 未バイアスオンラインリカレント最適化 (UORO), スパース-1ステップ近似 (SnAp-1), 脱カップリング神経インタフェース (DNI) の有効性を評価し, 放射線治療中の呼吸運動を正確に予測する。 健常者の胸部における外部マーカーの3次元位置を含む時系列を用いた。 SnAp-1 と DNI の効率的な実装は,影響行列と即時ジャコビアン行列の圧縮と,クレジット割当推定に使用される線形係数の正確な更新に基づいて提案する。 サンプリング周波数は10Hzで,3.33Hz,30Hzで再サンプリングを行った。 uoro, snap-1, dniを用いて各マーカーの3次元位置を水平線(予測を行う前の時間間隔)h<=2.1sと予測し,rtrl,最小平均2乗,線形回帰と比較した。 rnnsのオンライントレーニングは、より大規模なトレーニングデータベースとディープラーニングを使用して、これまでのほとんどの作業と同じような、あるいは優れた精度を達成しました。 SnAp-1 は、それぞれ0.335 と0.157 であり、それぞれ 3.33Hz と 10.0Hz の水平値に対して最小の正規化根平均二乗誤差 (nRMSE) を有していた。 同様に、UOROの最高精度は30Hzで、nRMSEは0.0897である。 dniの推論時間は、30hz(intel core i7-13700 cpu)の時間ステップあたり6.8ミリ秒と同等であり、rnn法の中で最も低かった。

In lung radiotherapy, infrared cameras can record the location of reflective objects on the chest to infer the position of the tumor moving due to breathing, but treatment system latencies hinder radiation beam precision. Real-time recurrent learning (RTRL), is a potential solution as it can learn patterns within non-stationary respiratory data but has high complexity. This study assesses the capabilities of resource-efficient online RNN algorithms, namely unbiased online recurrent optimization (UORO), sparse-1 step approximation (SnAp-1), and decoupled neural interfaces (DNI) to forecast respiratory motion during radiotherapy treatment accurately. We use time series containing the 3D position of external markers on the chest of healthy subjects. We propose efficient implementations for SnAp-1 and DNI based on compression of the influence and immediate Jacobian matrices and an accurate update of the linear coefficients used in credit assignment estimation, respectively. The original sampling frequency was 10Hz; we performed resampling at 3.33Hz and 30Hz. We use UORO, SnAp-1, and DNI to forecast each marker's 3D position with horizons (the time interval in advance for which the prediction is made) h<=2.1s and compare them with RTRL, least mean squares, and linear regression. RNNs trained online achieved similar or better accuracy than most previous works using larger training databases and deep learning, even though we used only the first minute of each sequence to predict motion within that exact sequence. SnAp-1 had the lowest normalized root mean square errors (nRMSE) averaged over the horizon values considered, equal to 0.335 and 0.157, at 3.33Hz and 10.0Hz, respectively. Similarly, UORO had the highest accuracy at 30Hz, with an nRMSE of 0.0897. DNI's inference time, equal to 6.8ms per time step at 30Hz (Intel Core i7-13700 CPU), was the lowest among the RNN methods examined.
翻訳日:2024-03-06 20:35:48 公開日:2024-03-03
# スペクトルクラスタリングに基づく動き分割のための統一モデル選択手法

A Unified Model Selection Technique for Spectral Clustering Based Motion Segmentation ( http://arxiv.org/abs/2403.01606v1 )

ライセンス: Link先を確認
Yuxiang Huang, John Zelek(参考訳) モーションセグメンテーションはコンピュータビジョンの基本的な問題であり、ロボット工学、自律運転、行動認識などの様々な応用において重要である。 近年,スペクトルクラスタリング法は動的環境における運動のセグメンテーションにおいて顕著な結果を示している。 これらの手法は、移動親和性行列のスペクトルクラスタリングを行い、シーン内の物体や点軌道を異なる運動群に分類する。 しかし、既存の手法では、シーンに存在する動きの数を知る必要がしばしばあり、現実性が著しく低下する。 本稿では,既存のモデル選択手法を組み合わせることにより,スペクトルクラスタリングに基づく動き分割法において,動き群数を自動的に推定する統一モデル選択手法を提案する。 提案手法をKT3DMoSegデータセット上で評価し,クラスタ数が基底真理情報として与えられる基準値と比較した。

Motion segmentation is a fundamental problem in computer vision and is crucial in various applications such as robotics, autonomous driving and action recognition. Recently, spectral clustering based methods have shown impressive results on motion segmentation in dynamic environments. These methods perform spectral clustering on motion affinity matrices to cluster objects or point trajectories in the scene into different motion groups. However, existing methods often need the number of motions present in the scene to be known, which significantly reduces their practicality. In this paper, we propose a unified model selection technique to automatically infer the number of motion groups for spectral clustering based motion segmentation methods by combining different existing model selection techniques together. We evaluate our method on the KT3DMoSeg dataset and achieve competitve results comparing to the baseline where the number of clusters is given as ground truth information.
翻訳日:2024-03-06 20:35:09 公開日:2024-03-03
# ログ密度ポリシーのグラディエント化に向けて

Towards Provable Log Density Policy Gradient ( http://arxiv.org/abs/2403.01605v1 )

ライセンス: Link先を確認
Pulkit Katdare, Anant Joshi and Katherine Driggs-Campbell(参考訳) 政策勾配法は現代の強化学習の成功を支える重要な要素である。 現代の政策勾配法は成功したが、勾配推定に残差誤差を導入する。 本研究では,この残余項が重要であり,強化学習法のサンプル複雑度が向上する可能性を示唆する。 そこで我々は,この残差項を補正したポリシ勾配を推定するために,ログ密度勾配を提案する。 ログ密度勾配法は、状態-作用割引分布の定式化を利用して政策勾配を計算する。 まず,表層マルコフ決定過程(MDP)のログ密度勾配を正確に求めるために必要な方程式を提示する。 より複雑な環境では,逆向きのオンポリシーサンプルを用いてログ密度勾配を近似する時間差法(td法)を提案する。 マルコフ連鎖からの逆サンプリングは非常に制限的であるため、オンポリシーサンプルのみを使用してログ密度勾配を近似できるmin-max最適化も提案する。 また、このmin-max最適化のために、一意性および線形関数近似下での収束も証明する。 最後に、min-max最適化のサンプル複雑性が$m^{-1/2}$のオーダーであることを示し、ここで$m$はオンポリシーサンプルの数である。 また,グリッドワールド環境におけるログ密度勾配法の概念実証を行い,提案手法が従来の政策勾配法を明確なマージンで改善できることを示すとともに,より少ないサンプルを必要とする強化学習アルゴリズムを開発するための新たな方向性を示す。

Policy gradient methods are a vital ingredient behind the success of modern reinforcement learning. Modern policy gradient methods, although successful, introduce a residual error in gradient estimation. In this work, we argue that this residual term is significant and correcting for it could potentially improve sample-complexity of reinforcement learning methods. To that end, we propose log density gradient to estimate the policy gradient, which corrects for this residual error term. Log density gradient method computes policy gradient by utilising the state-action discounted distributional formulation. We first present the equations needed to exactly find the log density gradient for a tabular Markov Decision Processes (MDPs). For more complex environments, we propose a temporal difference (TD) method that approximates log density gradient by utilizing backward on-policy samples. Since backward sampling from a Markov chain is highly restrictive we also propose a min-max optimization that can approximate log density gradient using just on-policy samples. We also prove uniqueness, and convergence under linear function approximation, for this min-max optimization. Finally, we show that the sample complexity of our min-max optimization to be of the order of $m^{-1/2}$, where $m$ is the number of on-policy samples. We also demonstrate a proof-of-concept for our log density gradient method on gridworld environment, and observe that our method is able to improve upon the classical policy gradient method by a clear margin, thus indicating a promising novel direction to develop reinforcement learning algorithms that require fewer samples.
翻訳日:2024-03-06 20:34:57 公開日:2024-03-03
# 近接インデックスを用いた暗号技術における技術収束の測定:openalexを用いたテキストマイニングと書誌分析

Measuring Technological Convergence in Encryption Technologies with Proximity Indices: A Text Mining and Bibliometric Analysis using OpenAlex ( http://arxiv.org/abs/2403.01601v1 )

ライセンス: Link先を確認
Alessandro Tavazzi and Dimitri Percia David and Julian Jang-Jaccard and Alain Mermoud(参考訳) サイバーセキュリティにおける新興技術間の技術的収束の特定は、科学の進歩とイノベーションの育成に不可欠である。 従来の論文と技術に特化する概念のバイナリ関係に着目した研究とは違い,本手法では属性スコアを用いて研究論文の関連性を高め,キーワード,引用率,コラボレーションステータスを特定の技術概念と組み合わせた。 提案手法は,テキストマイニングと書誌分析を統合し,"openalex"カタログを用いた暗号技術のための技術近接指数を定式化し,予測する。 我々のケーススタディでは、ブロックチェーンと公開鍵暗号の間に大きな収束があることが示されています。 これらの結果は、これらのドメインへの投資を検討する人々にとって貴重な戦略的洞察を提供する。

Identifying technological convergence among emerging technologies in cybersecurity is crucial for advancing science and fostering innovation. Unlike previous studies focusing on the binary relationship between a paper and the concept it attributes to technology, our approach utilizes attribution scores to enhance the relationships between research papers, combining keywords, citation rates, and collaboration status with specific technological concepts. The proposed method integrates text mining and bibliometric analyses to formulate and predict technological proximity indices for encryption technologies using the "OpenAlex" catalog. Our case study findings highlight a significant convergence between blockchain and public-key cryptography, evidenced by the increasing proximity indices. These results offer valuable strategic insights for those contemplating investments in these domains.
翻訳日:2024-03-06 20:34:34 公開日:2024-03-03
# OccFusion: 3次元動作予測のためのストレートフォワードおよび有効マルチセンサフュージョンフレームワーク

OccFusion: A Straightforward and Effective Multi-Sensor Fusion Framework for 3D Occupancy Prediction ( http://arxiv.org/abs/2403.01644v1 )

ライセンス: Link先を確認
Zhenxing Ming, Julie Stephany Berrio, Mao Shan, and Stewart Worrall(参考訳) 本稿では,3次元占有予測のための簡易かつ効率的なセンサ融合フレームワークであるOccFusionを紹介する。 3Dシーンの包括的理解は自動運転において不可欠であり、近年の3Dセマンティック占有予測モデルでは、様々な形状やクラスを持つ現実世界のオブジェクトを記述するという課題に対処している。 しかし、既存の3D占有率予測法は周囲のカメラ画像に大きく依存しており、照明や気象条件の変化の影響を受けやすい。 ライダーやサラウンドビューレーダなどの付加センサの機能を統合することで、我々のフレームワークは占有率予測の精度と堅牢性を向上し、nuScenesベンチマークの上位層の性能向上を実現した。 さらに,nascenesデータセットにおいて,夜間および雨のシナリオに対する挑戦を含む広範な実験を行い,様々な知覚範囲におけるセンサ融合戦略の優れた性能を確認した。 このフレームワークのコードはhttps://github.com/DanielMing123/OCCFusionで公開される。

This paper introduces OccFusion, a straightforward and efficient sensor fusion framework for predicting 3D occupancy. A comprehensive understanding of 3D scenes is crucial in autonomous driving, and recent models for 3D semantic occupancy prediction have successfully addressed the challenge of describing real-world objects with varied shapes and classes. However, existing methods for 3D occupancy prediction heavily rely on surround-view camera images, making them susceptible to changes in lighting and weather conditions. By integrating features from additional sensors, such as lidar and surround view radars, our framework enhances the accuracy and robustness of occupancy prediction, resulting in top-tier performance on the nuScenes benchmark. Furthermore, extensive experiments conducted on the nuScenes dataset, including challenging night and rainy scenarios, confirm the superior performance of our sensor fusion strategy across various perception ranges. The code for this framework will be made available at https://github.com/DanielMing123/OCCFusion.
翻訳日:2024-03-06 20:25:43 公開日:2024-03-03
# もっと注意を払う必要がある

You Need to Pay Better Attention ( http://arxiv.org/abs/2403.01643v1 )

ライセンス: Link先を確認
Mehran Hosseini, Peyman Hosseini(参考訳) 本稿では,トランスフォーマーモデルの性能向上とより広い展開性を実現するため,効率と学習能力の観点から,標準マルチヘッドアテンションを上回る3つの新しいアテンション機構を提案する。 私たちの最初の貢献は最適化された注意力で、標準的な注意力と同様に機能しますが、3/4のパラメータと1頭あたりの行列の乗算は少なくなります。 次に,多くのパラメータの1/2のパラメータと2つの行列乗算が頭部あたりの乗算を少なくし,標準の注意の2倍の速さで,標準の注意力に匹敵する効率の注意力を導入する。 最後に,視覚処理タスクと自然言語処理タスクの両方において,パラメータや行列の乗算を少なくしながら,標準的な注目度を大幅に超えるスーパーアテンションを導入する。 厳密な数学的比較に加えて、MNIST、CIFAR100、IMDB Movie Reviews、およびAmazon Reviewsデータセットに提示された注意機構の評価を行った。

We introduce three new attention mechanisms that outperform standard multi-head attention in terms of efficiency and learning capabilities, thereby improving the performance and broader deployability of Transformer models. Our first contribution is Optimised Attention, which performs similarly to standard attention, but has 3/4 as many parameters and one matrix multiplication fewer per head. Next, we introduce Efficient Attention, which performs on par with standard attention with only 1/2 as many parameters as many parameters and two matrix multiplications fewer per head and is up to twice as fast as standard attention. Lastly, we introduce Super Attention, which surpasses standard attention by a significant margin in both vision and natural language processing tasks while having fewer parameters and matrix multiplications. In addition to providing rigorous mathematical comparisons, we evaluate the presented attention mechanisms on MNIST, CIFAR100, IMDB Movie Reviews, and Amazon Reviews datasets.
翻訳日:2024-03-06 20:25:23 公開日:2024-03-03
# 高速アンサンブル学習による青・緑モード高効率ケミレシスト型センサアレイ

Blue and Green-Mode Energy-Efficient Chemiresistive Sensor Array Realized by Rapid Ensemble Learning ( http://arxiv.org/abs/2403.01642v1 )

ライセンス: Link先を確認
Zeheng Wang, James Cooper, Muhammad Usman, and Timothy van der Laan(参考訳) IoT(Internet of Things)の急速な進歩は、エネルギー効率と能力の両方に最適化されたCRSアレイの開発を必要とする。 本研究は,これらの目標を達成するために,迅速な学習に基づくモデル委員会アプローチを用いた新しい最適化戦略を提案する。 Elastic Net Regression、Random Forests、XGBoostといった機械学習モデルを利用することで、正確な分類のためにCRSアレイで最も影響のあるセンサーを特定する。 ブルーモードは最大検出能力のために全てのセンサーで動作し、グリーンモードはキーセンサーのみを選択的に起動し、検出精度を損なうことなくエネルギー消費を大幅に削減する。 この戦略は理論計算とモンテカルロシミュレーションによって検証され、その効果と正確性を示している。 提案した最適化戦略は、CRSアレイの検出能力を高めるだけでなく、理論上の限界に近づき、低コストで簡単に製造可能な次世代IoTセンサー端末の開発に重要な意味を持つ。

The rapid advancement of Internet of Things (IoT) necessitates the development of optimized Chemiresistive Sensor (CRS) arrays that are both energy-efficient and capable. This study introduces a novel optimization strategy that employs a rapid ensemble learning-based model committee approach to achieve these goals. Utilizing machine learning models such as Elastic Net Regression, Random Forests, and XGBoost, among others, the strategy identifies the most impactful sensors in a CRS array for accurate classification: A weighted voting mechanism is introduced to aggregate the models' opinions in sensor selection, thereby setting up wo distinct working modes, termed "Blue" and "Green". The Blue mode operates with all sensors for maximum detection capability, while the Green mode selectively activates only key sensors, significantly reducing energy consumption without compromising detection accuracy. The strategy is validated through theoretical calculations and Monte Carlo simulations, demonstrating its effectiveness and accuracy. The proposed optimization strategy not only elevates the detection capability of CRS arrays but also brings it closer to theoretical limits, promising significant implications for the development of low-cost, easily fabricable next-generation IoT sensor terminals.
翻訳日:2024-03-06 20:25:05 公開日:2024-03-03
# aio2: リモートセンシング画像セグメンテーションにおける不完全アノテーションを用いたディープラーニング用オブジェクトラベルのオンライン補正

AIO2: Online Correction of Object Labels for Deep Learning with Incomplete Annotation in Remote Sensing Image Segmentation ( http://arxiv.org/abs/2403.01641v1 )

ライセンス: Link先を確認
Chenying Liu and Conrad M Albrecht and Yi Wang and Qingyu Li and Xiao Xiang Zhu(参考訳) リモートセンシングデータの量は毎日増えているが、地球観測における深層学習には教師あり最適化のための正確なアノテーションが欠けている。 OpenStreetMapのようなクラウドソーシングプロジェクトは、アノテーションの負荷をコミュニティに分散させる。 しかし、このようなアノテーションは、必然的に、ラベル品質の制御不足、注釈の欠如、自然災害や都市開発の結果、地球表面の頻繁な変化、その他多くの要因によりノイズを発生させる。 不完全なラベルセットによって誘導されるアノテーションノイズに対処するため、適応的trIggered Online Object-wise correct (AIO2)を提案する。 aio2は適応補正トリガー(act)モジュールを備えており、モデルトレーニングが過度に適合している場合のラベル修正を回避し、自動ラベル修正のために空間情報を利用するオンラインオブジェクトワイズ補正(o2c)方法論も備えている。 AIO2は、平均教師モデルを用いて、ノイズラベルによるトレーニングロバスト性を向上し、ACTにおけるトレーニング精度曲線を安定化させ、O2Cにおける修正のための擬似ラベルを提供する。 さらに、O2Cはトレーニングのたびに更新されたラベルを保存することなくオンラインに実装されている。 空間分解能の異なる2つの構造フットプリントセグメンテーションデータセットに対するアプローチを検証する。 AIO2のロバスト性を示す建物ラベルノイズの程度が異なる実験結果を得た。 ソースコードはhttps://github.com/zhu-xlab/AIO2.gitで入手できる。

While the volume of remote sensing data is increasing daily, deep learning in Earth Observation faces lack of accurate annotations for supervised optimization. Crowdsourcing projects such as OpenStreetMap distribute the annotation load to their community. However, such annotation inevitably generates noise due to insufficient control of the label quality, lack of annotators, frequent changes of the Earth's surface as a result of natural disasters and urban development, among many other factors. We present Adaptively trIggered Online Object-wise correction (AIO2) to address annotation noise induced by incomplete label sets. AIO2 features an Adaptive Correction Trigger (ACT) module that avoids label correction when the model training under- or overfits, and an Online Object-wise Correction (O2C) methodology that employs spatial information for automated label modification. AIO2 utilizes a mean teacher model to enhance training robustness with noisy labels to both stabilize the training accuracy curve for fitting in ACT and provide pseudo labels for correction in O2C. Moreover, O2C is implemented online without the need to store updated labels every training epoch. We validate our approach on two building footprint segmentation datasets with different spatial resolutions. Experimental results with varying degrees of building label noise demonstrate the robustness of AIO2. Source code will be available at https://github.com/zhu-xlab/AIO2.git.
翻訳日:2024-03-06 20:24:43 公開日:2024-03-03
# 拡散指導のための理論的洞察--ガウス混合モデルのケーススタディ

Theoretical Insights for Diffusion Guidance: A Case Study for Gaussian Mixture Models ( http://arxiv.org/abs/2403.01639v1 )

ライセンス: Link先を確認
Yuchen Wu, Minshuo Chen, Zihao Li, Mengdi Wang, Yuting Wei(参考訳) 拡散モデルでは、スコア関数にタスク固有の情報を注入することで、サンプル生成を望ましい特性に向ける。 そのような情報は指導として表される。 例えば、テキストから画像への合成では、テキスト入力は意味的に整合した画像を生成するためのガイダンスとしてエンコードされる。 適切なガイダンス入力は拡散モデルの性能と密接に関連している。 一般的な観察では、強いガイダンスは、生成されたサンプルの多様性を減らしながら、タスク固有の情報との密接な整合を促進する。 本稿では,ガウス混合モデルの文脈における拡散モデルに対する指導の影響を理解するための最初の理論的研究を行う。 軽度条件下では,拡散誘導を取り入れることで分類信頼性が向上するだけでなく,分布の多様性も低下し,出力分布の微分エントロピーが低下することを示す。 本分析では, DDPM や DDIM など広く採用されているサンプリング手法を取り上げ, 微分方程式の比較不等式と, 独立な理論的関心を持つ確率密度関数の進化を特徴付けるFokker-Planck 方程式を利用する。

Diffusion models benefit from instillation of task-specific information into the score function to steer the sample generation towards desired properties. Such information is coined as guidance. For example, in text-to-image synthesis, text input is encoded as guidance to generate semantically aligned images. Proper guidance inputs are closely tied to the performance of diffusion models. A common observation is that strong guidance promotes a tight alignment to the task-specific information, while reducing the diversity of the generated samples. In this paper, we provide the first theoretical study towards understanding the influence of guidance on diffusion models in the context of Gaussian mixture models. Under mild conditions, we prove that incorporating diffusion guidance not only boosts classification confidence but also diminishes distribution diversity, leading to a reduction in the differential entropy of the output distribution. Our analysis covers the widely adopted sampling schemes including DDPM and DDIM, and leverages comparison inequalities for differential equations as well as the Fokker-Planck equation that characterizes the evolution of probability density function, which may be of independent theoretical interest.
翻訳日:2024-03-06 20:24:18 公開日:2024-03-03
# テキスト分類による多レベル製品カテゴリー予測

Multi-level Product Category Prediction through Text Classification ( http://arxiv.org/abs/2403.01638v1 )

ライセンス: Link先を確認
Wesley Ferreira Maia, Angelo Carmignani, Gabriel Bortoli, Lucas Maretti, David Luz, Daniel Camilo Fuentes Guzman, Marcos Jardel Henriques, Francisco Louzada Neto(参考訳) 本稿では、テキスト分類における高度な機械学習モデル、特にLSTMとBERTを適用し、小売業における複数のカテゴリを予測する。 本研究は,ブラジルのロバストなリテールデータセットを用いた製品分類において,データ拡張手法と焦点損失関数の適用により,製品分類精度が著しく向上することを示す。 ブラジル語の単語埋め込みに富んだLSTMモデルと、複雑な文脈を理解する上での有効性で知られるBERTが適応され、このタスクに最適化された。 その結果,F1マクロスコアが99 %,カテゴリとサブカテゴリが9,6 %,ネーム製品が9,3 %であったようなBERTモデルは,より詳細なカテゴリではLSTMよりも優れていた。 しかし、LSTMは特にデータ拡張と焦点損失技術を適用した後、高い性能を実現した。 これらの結果は,小売業におけるNLP技術の有効性を浮き彫りにし,モデリングおよび前処理戦略の慎重に選択することの重要性を強調した。 この研究は小売業におけるNLPの分野に大きく貢献し、将来の研究や実用化に貴重な洞察を与えている。

This article investigates applying advanced machine learning models, specifically LSTM and BERT, for text classification to predict multiple categories in the retail sector. The study demonstrates how applying data augmentation techniques and the focal loss function can significantly enhance accuracy in classifying products into multiple categories using a robust Brazilian retail dataset. The LSTM model, enriched with Brazilian word embedding, and BERT, known for its effectiveness in understanding complex contexts, were adapted and optimized for this specific task. The results showed that the BERT model, with an F1 Macro Score of up to $99\%$ for segments, $96\%$ for categories and subcategories and $93\%$ for name products, outperformed LSTM in more detailed categories. However, LSTM also achieved high performance, especially after applying data augmentation and focal loss techniques. These results underscore the effectiveness of NLP techniques in retail and highlight the importance of the careful selection of modelling and preprocessing strategies. This work contributes significantly to the field of NLP in retail, providing valuable insights for future research and practical applications.
翻訳日:2024-03-06 20:24:00 公開日:2024-03-03
# 任意シュロディンガー猫コヒーレント状態のベルコヒーレント状態による一方向周期量子テレポーテーション

Unidirectional Cyclic Quantum Teleportation of Arbitrary Schrodinger Cat Coherent-states via Bell Coherent-States ( http://arxiv.org/abs/2403.02357v1 )

ライセンス: Link先を確認
Ankita Pathak and Ravi S. Singh(参考訳) 3つのベルコヒーレント状態のクラスターを量子チャネルとして展開し、任意の重畳された3つのコヒーレント状態、すなわちシュロディンガー・キャットコヒーレント状態が、理想的なビームスプリッタ、位相シフタ、光子数分解検出器などの線形光学ガジェットの使用を誘導することにより、一方向の環状配列で同時に伝送されるスキームを提示した。 提案する一方向巡回量子テレポーテーションは18%の成功確率に忠実である。 さらに、全ての検出事象が忠実なスキームを提供するわけではなく、従って、ほぼファシフルな巡回量子テレポーテーションの成功の忠実性と確率が評価され、数値的に解釈される。

Exploiting the cluster of three Bell coherent-states as quantum channel, we presented a scheme wherein quantum-informations encoded in three arbitrary superposed coherent states, i.e., Schrodinger Cat coherent-states are simultaneously transmitted in unidirectional cyclic sequence among three parties by invoking usage of linear optical gadgets such as ideal beam-splitters, phase shifters and photon-number-resolving detectors. Proposed simultaneous unidirectional Cyclic Quantum Teleportation is faithful with one-eighth probability of success. Furthermore, it is seen that not every detection-events provides faithful scheme and, hence, fidelity and probability of success of near-faithful Cyclic Quantum Teleportation is evaluated and numerically interpreted.
翻訳日:2024-03-06 17:29:23 公開日:2024-03-03
# 画像クラス増分学習のための一般化可能な2分岐フレームワーク

Generalizable Two-Branch Framework for Image Class-Incremental Learning ( http://arxiv.org/abs/2402.18086v2 )

ライセンス: Link先を確認
Chao Wu, Xiaobin Chang, Ruixuan Wang(参考訳) 深層ニューラルネットワークは、新しい知識を学ぶとき、事前学習した知識をひどく忘れてしまう。 種々の連続学習(CL)手法は, 様々な視点から, 破滅的な忘れの問題に対処し, 大幅な改善を実現し, 既存のCL手法をさらに強化するために, 新たな2分岐連続学習フレームワークを提案する。 具体的には、メインブランチは既存のCLモデルであり、新しく導入されたサイドブランチは軽量な畳み込みネットワークである。 各主分岐ブロックの出力は、対応する側分岐ブロックの出力によって変調される。 このような単純な2分岐モデルを簡単に実装し、ホイッスルやベルを使わずにバニラ最適化設定で学習し、複数の画像データセットに様々な設定を組み込んだ実験により、提案手法は最先端の手法よりも一貫した改善をもたらすことを示した。

Deep neural networks often severely forget previously learned knowledge when learning new knowledge. Various continual learning (CL) methods have been proposed to handle such a catastrophic forgetting issue from different perspectives and achieved substantial improvements.In this paper, a novel two-branch continual learning framework is proposed to further enhance most existing CL methods. Specifically, the main branch can be any existing CL model and the newly introduced side branch is a lightweight convolutional network. The output of each main branch block is modulated by the output of the corresponding side branch block. Such a simple two-branch model can then be easily implemented and learned with the vanilla optimization setting without whistles and bells.Extensive experiments with various settings on multiple image datasets show that the proposed framework yields consistent improvements over state-of-the-art methods.
翻訳日:2024-03-06 01:05:38 公開日:2024-03-03
# 言語モデルの最適学習に向けて

Towards Optimal Learning of Language Models ( http://arxiv.org/abs/2402.17759v2 )

ライセンス: Link先を確認
Yuxian Gu, Li Dong, Yaru Hao, Qingxiu Dong, Minlie Huang, Furu Wei(参考訳) 本研究は、優れたパフォーマンスを達成するために必要なトレーニングステップを減らすことを目的とした、言語モデルの学習(lms)を改善する一般的な原則について研究する。 具体的には,LMの最適学習の理論について述べる。 まず,「LM-training-as-lossless-compression」の観点から,データ圧縮比を最大化し,LM学習を最適化する目的を提案する。 そこで我々は,学習法則(Learning Law)という定理を導出し,最適学習過程における力学の性質を明らかにする。 この定理は線形分類と実世界の言語モデリングタスクの実験によって検証される。 最後に,lmsの最適学習は,lmsのスケーリング則における係数の改善に本質的に起因していることを実証的に検証し,実用的な学習促進法を設計する上で大きな期待と意義を示した。 私たちのコードはhttps://aka.ms/LearningLaw.orgにある。

This work studies the general principles of improving the learning of language models (LMs), which aims at reducing the necessary training steps for achieving superior performance. Specifically, we present a theory for the optimal learning of LMs. We first propose an objective that optimizes LM learning by maximizing the data compression ratio in an "LM-training-as-lossless-compression" view. Then, we derive a theorem, named Learning Law, to reveal the properties of the dynamics in the optimal learning process under our objective. The theorem is then validated by experiments on a linear classification and a real-world language modeling task. Finally, we empirically verify that the optimal learning of LMs essentially stems from the improvement of the coefficients in the scaling law of LMs, indicating great promise and significance for designing practical learning acceleration methods. Our code can be found at https://aka.ms/LearningLaw.
翻訳日:2024-03-05 23:27:03 公開日:2024-03-03
# AIがあなたを欺くとき:リワード学習における人間評価者の部分観察可能性への挑戦

When Your AIs Deceive You: Challenges with Partial Observability of Human Evaluators in Reward Learning ( http://arxiv.org/abs/2402.17747v2 )

ライセンス: Link先を確認
Leon Lang, Davis Foote, Stuart Russell, Anca Dragan, Erik Jenner, Scott Emmons(参考訳) 人間のフィードバック(RLHF)からの強化学習の過去の分析は、人間が環境を完全に観察していると仮定している。 人間のフィードバックが部分的な観察に基づく場合、どうなるか? 正式に2つの障害ケースを定義します。 人間をボルツマン・レーショナル・w.r.t.としてモデル化し、RLHFが保証される条件を証明し、その条件は、その性能を欺くか、その振る舞いを過度に調整して印象を与えるか、あるいは両方を与える。 これらの問題に対処するために,我々は,環境の部分的可観測性が学習戻り関数の曖昧性(曖昧さ)にどのように変換されるかを数学的に特徴付ける。 部分観測可能性の計算は、理論上は回帰関数と最適方針を回復することができるが、他の場合では既約な曖昧さが存在する。 我々は、部分的に観測可能な環境にRLHFを盲目的に適用しないことに注意し、これらの課題に対処するための研究指針を提案する。

Past analyses of reinforcement learning from human feedback (RLHF) assume that the human fully observes the environment. What happens when human feedback is based only on partial observations? We formally define two failure cases: deception and overjustification. Modeling the human as Boltzmann-rational w.r.t. a belief over trajectories, we prove conditions under which RLHF is guaranteed to result in policies that deceptively inflate their performance, overjustify their behavior to make an impression, or both. To help address these issues, we mathematically characterize how partial observability of the environment translates into (lack of) ambiguity in the learned return function. In some cases, accounting for partial observability makes it theoretically possible to recover the return function and thus the optimal policy, while in other cases, there is irreducible ambiguity. We caution against blindly applying RLHF in partially observable settings and propose research directions to help tackle these challenges.
翻訳日:2024-03-05 23:26:48 公開日:2024-03-03
# CPSDBench:中国の公開セキュリティドメインのための大規模言語モデル評価ベンチマークとベースライン

CPSDBench: A Large Language Model Evaluation Benchmark and Baseline for Chinese Public Security Domain ( http://arxiv.org/abs/2402.07234v2 )

ライセンス: Link先を確認
Xin Tong, Bo Jin, Zhi Lin, Binjun Wang, Ting Yu and Qiang Cheng(参考訳) 大規模言語モデル(LLM)は、複数のアプリケーションドメインにまたがる大きな可能性と効果を示している。 公安業務におけるLLMの性能を評価するため,中国公安ドメイン-CPSDbenchに合わせた特別評価ベンチマークを構築することを目的とした。 CPSDbenchは、現実のシナリオから収集された公開セキュリティに関連するデータセットを統合し、テキスト分類、情報抽出、質問応答、テキスト生成の4つの主要な側面にわたるLCMの包括的な評価をサポートする。 さらに,公安に関わるタスクの実行において,LLMの有効性をより正確に定量化するための,革新的な評価指標を提案する。 本研究は,本研究で実施した詳細な分析と評価を通じて,セキュリティ問題に対する既存モデルのパフォーマンスの強みと限界の理解を深めるだけでなく,この分野のアプリケーションを対象としたより正確でカスタマイズされたllmモデルの将来の発展に向けた参考となるものを提供する。

Large Language Models (LLMs) have demonstrated significant potential and effectiveness across multiple application domains. To assess the performance of mainstream LLMs in public security tasks, this study aims to construct a specialized evaluation benchmark tailored to the Chinese public security domain--CPSDbench. CPSDbench integrates datasets related to public security collected from real-world scenarios, supporting a comprehensive assessment of LLMs across four key dimensions: text classification, information extraction, question answering, and text generation. Furthermore, this study introduces a set of innovative evaluation metrics designed to more precisely quantify the efficacy of LLMs in executing tasks related to public security. Through the in-depth analysis and evaluation conducted in this research, we not only enhance our understanding of the performance strengths and limitations of existing models in addressing public security issues but also provide references for the future development of more accurate and customized LLM models targeted at applications in this field.
翻訳日:2024-03-05 23:25:25 公開日:2024-03-03
# 医学における大規模言語モデルに関する調査 : 進歩、応用、挑戦

A Survey of Large Language Models in Medicine: Progress, Application, and Challenge ( http://arxiv.org/abs/2311.05112v4 )

ライセンス: Link先を確認
Hongjian Zhou, Fenglin Liu, Boyang Gu, Xinyu Zou, Jinfa Huang, Jinge Wu, Yiru Li, Sam S. Chen, Peilin Zhou, Junling Liu, Yining Hua, Chengfeng Mao, Chenyu You, Xian Wu, Yefeng Zheng, Lei Clifton, Zheng Li, Jiebo Luo, David A. Clifton(参考訳) ChatGPTのような大規模言語モデル(LLM)は、人間の言語を理解して生成する能力のために、かなりの注目を集めている。 異なる医療タスク(例えば、臨床診断の強化と医療教育の提供)におけるLSMの使用に焦点を当てた研究が盛んに行われているが、これらの取り組み、特にその開発、実践的応用、医学における成果のレビューは乏しいままである。 そこで本報告では,医学におけるLSMの開発と展開について,それらが直面する課題や機会を概観する。 開発に関しては,基礎的なモデル構造,パラメータの数,モデル開発に使用されるデータソースとスケールなど,既存の医療用LCMの原理を詳細に紹介する。 特定のニーズに合わせて医療用LLMを開発する実践者のためのガイドとして機能する。 展開の面では、様々な医療タスクにおける異なるLSMの性能の比較を行い、さらに医学におけるLSMの利点と限界を理解することを目的として、最先端の軽量モデルと比較する。 全体として、このレビューでは、以下の質問を取り上げます。 1)医療用LSMの開発における実践 2) 医療現場におけるLCMの医療タスクパフォーマンスの測定方法 3)医療用LLMはどのようにして現実の実践に採用されたか? 4) 医療用LSMの使用による課題は何か。 そして 5)医療用LLMをより効果的に開発・展開する方法 これらの疑問に答えることで、医学におけるLSMの機会についての洞察を提供し、実践的な資源として機能することを目的としている。 また、医療用LCMの実践的ガイドを定期的に更新したリストを、https://github.com/AI-in-Health/MedLLMsPracticalGuideで維持しています。

Large language models (LLMs), such as ChatGPT, have received substantial attention due to their capabilities for understanding and generating human language. While there has been a burgeoning trend in research focusing on the employment of LLMs in supporting different medical tasks (e.g., enhancing clinical diagnostics and providing medical education), a review of these efforts, particularly their development, practical applications, and outcomes in medicine, remains scarce. Therefore, this review aims to provide a detailed overview of the development and deployment of LLMs in medicine, including the challenges and opportunities they face. In terms of development, we provide a detailed introduction to the principles of existing medical LLMs, including their basic model structures, number of parameters, and sources and scales of data used for model development. It serves as a guide for practitioners in developing medical LLMs tailored to their specific needs. In terms of deployment, we offer a comparison of the performance of different LLMs across various medical tasks, and further compare them with state-of-the-art lightweight models, aiming to provide an understanding of the advantages and limitations of LLMs in medicine. Overall, in this review, we address the following questions: 1) What are the practices for developing medical LLMs 2) How to measure the medical task performance of LLMs in a medical setting? 3) How have medical LLMs been employed in real-world practice? 4) What challenges arise from the use of medical LLMs? and 5) How to more effectively develop and deploy medical LLMs? By answering these questions, this review aims to provide insights into the opportunities for LLMs in medicine and serve as a practical resource. We also maintain a regularly updated list of practical guides on medical LLMs at: https://github.com/AI-in-Health/MedLLMsPracticalGuide.
翻訳日:2024-03-05 23:24:42 公開日:2024-03-03
# アクティブトランスファー学習による空間依存型環境仮説の自動テスト

Automated Testing of Spatially-Dependent Environmental Hypotheses through Active Transfer Learning ( http://arxiv.org/abs/2402.18064v2 )

ライセンス: Link先を確認
Nicholas Harrison, Nathan Wallace, Salah Sukkarieh(参考訳) サンプルの効率的な収集は、時間、エネルギー、環境破壊の可能性といった高いサンプリングコストを考慮した屋外情報収集アプリケーションにおいて重要な要素である。 利用可能なa-prioriデータの利用は、効率を上げるための強力なツールである。 しかし、このデータと関心の量との関係は、しばしば事前に分かっておらず、計画効率を向上させるためにこの知識を活用する能力を制限する。 この目的のために,多タスクガウス過程と情報に基づく客観関数による伝達学習と能動的学習を組み合わせる。 この組み合わせにより、仮説間量関係の空間を探索し、これらの仮説をリアルタイムで評価し、この新しい知識をすぐに将来の計画に活用することができる。 提案手法の性能を合成データに対して評価し,複数の仮説を正しく評価した。 その効果は実際のデータセットにも示される。 この手法は、中間相関または強い相関を示す仮説を同定し、最初の5サンプル中の1.5〜6の因子で予測誤差を減少させ、不良仮説を迅速に同定して拒絶し、約3サンプル後の計画に悪影響を与えない。

The efficient collection of samples is an important factor in outdoor information gathering applications on account of high sampling costs such as time, energy, and potential destruction to the environment. Utilization of available a-priori data can be a powerful tool for increasing efficiency. However, the relationships of this data with the quantity of interest are often not known ahead of time, limiting the ability to leverage this knowledge for improved planning efficiency. To this end, this work combines transfer learning and active learning through a Multi-Task Gaussian Process and an information-based objective function. Through this combination it can explore the space of hypothetical inter-quantity relationships and evaluate these hypotheses in real-time, allowing this new knowledge to be immediately exploited for future plans. The performance of the proposed method is evaluated against synthetic data and is shown to evaluate multiple hypotheses correctly. Its effectiveness is also demonstrated on real datasets. The technique is able to identify and leverage hypotheses which show a medium or strong correlation to reduce prediction error by a factor of 1.5--6 within the first 5 samples, and poor hypotheses are quickly identified and rejected, having no adverse effect on planning after around 3 samples.
翻訳日:2024-03-05 23:15:04 公開日:2024-03-03
# オンデバイス単チャンネル音声強調のためのWav2Vec2埋め込みについて

A Closer Look at Wav2Vec2 Embeddings for On-Device Single-Channel Speech Enhancement ( http://arxiv.org/abs/2403.01369v1 )

ライセンス: Link先を確認
Ravi Shankar, Ke Tan, Buye Xu, Anurag Kumar(参考訳) 自己教師付き学習モデルは、自動音声認識、話者識別、キーワードスポッティングなど、特定の音声タスクに非常に有効であることが示されている。 これらの特徴は、音声認識や関連するタスクにおいて不確実に有用であるが、音声強調システムにおけるそれらの有用性はまだ確立されていない。 本稿では,課題条件下での単一チャネル音声強調のためのssl表現の利用について検討し,その拡張タスクにほとんど価値がないことを示す。 私たちの制約はデバイス上のリアルタイム音声強調を中心に設計されています -- モデルは因果関係であり、計算フットプリントは小さいのです。 さらに、そのようなモデルが優れた向上に苦しむ低SNR条件に焦点を当てる。 SSL表現がこれらの拡張モデルの性能にどのように影響するかを体系的に検討するために,知識蒸留と事前学習の異なる形態の埋め込みを利用するための様々な手法を提案する。

Self-supervised learned models have been found to be very effective for certain speech tasks such as automatic speech recognition, speaker identification, keyword spotting and others. While the features are undeniably useful in speech recognition and associated tasks, their utility in speech enhancement systems is yet to be firmly established, and perhaps not properly understood. In this paper, we investigate the uses of SSL representations for single-channel speech enhancement in challenging conditions and find that they add very little value for the enhancement task. Our constraints are designed around on-device real-time speech enhancement -- model is causal, the compute footprint is small. Additionally, we focus on low SNR conditions where such models struggle to provide good enhancement. In order to systematically examine how SSL representations impact performance of such enhancement models, we propose a variety of techniques to utilize these embeddings which include different forms of knowledge-distillation and pre-training.
翻訳日:2024-03-05 23:10:46 公開日:2024-03-03
# レインボー重力の文脈における宇宙弦時空におけるディラックフェルミオンの相対論的、非相対論的ランダウ準位

Relativistic and nonrelativistic Landau levels for Dirac fermions in the cosmic string spacetime in the context of rainbow gravity ( http://arxiv.org/abs/2403.01366v1 )

ライセンス: Link先を確認
R. R. S. Oliveira(参考訳) 本稿では,(3+1)$-dimensions のレインボー重力の文脈において,宇宙弦時空におけるディラックフェルミオンに対する相対論的かつ非相対論的ランダウ準位について検討する。 一般相対性理論の四元数形式を使い、2階微分方程式を得る。 Solving this differential equation, we obtain a generalized Laguerre equation as well as the relativistic Landau levels for the fermion and antifermion, where such energy levels are quantized in terms of the quantum numbers $n$, $m_j$ and $m_s$, and explicitly depends on the rainbow functions $f(\varepsilon)$ and $g(\varepsilon)$, charge parameter $\sigma$, cyclotron frequency $\omega_c$, curvature parameter $\alpha$, and on the square rest energy $m^2_0$ and square $z$-momentum $k^2_z$, respectively. 後述,非相対論的ランダウレベルを求めるシステムの非相対論的限界について検討した。 どちらの場合(相対論的および非相対論的)も、磁場$B$と曲率パラメータ$\alpha$の関数として3つのレインボー重力シナリオに対するランダウレベルの挙動をグラフィカルに解析する。 また,本研究の問題点を他の著作と比較し,本研究の結果が文献上のいくつかの特定の事例を一般化していることを確認した。

In this paper, we study the relativistic and nonrelativistic Landau levels for Dirac fermions in the cosmic string spacetime in the context of rainbow gravity in $(3+1)$-dimensions, where we work with the curved Dirac equation with minimal coupling in cylindrical coordinates. Using the tetrads formalism of General Relativity, we obtain a second-order differential equation. Solving this differential equation, we obtain a generalized Laguerre equation as well as the relativistic Landau levels for the fermion and antifermion, where such energy levels are quantized in terms of the quantum numbers $n$, $m_j$ and $m_s$, and explicitly depends on the rainbow functions $f(\varepsilon)$ and $g(\varepsilon)$, charge parameter $\sigma$, cyclotron frequency $\omega_c$, curvature parameter $\alpha$, and on the square rest energy $m^2_0$ and square $z$-momentum $k^2_z$, respectively. Posteriorly, we study the nonrelativistic limit of the system, where we obtain the nonrelativistic Landau levels. In both cases (relativistic and nonrelativistic), we graphically analyze the behavior of Landau levels for the three rainbow gravity scenarios as a function of the magnetic field $B$ and of the curvature parameter $\alpha$. In addition, we also compared our problem with other works, where we verified that our results generalize several particular cases in the literature.
翻訳日:2024-03-05 23:10:12 公開日:2024-03-03
# コードスイッチングによる意味検索のための言語間表現の改善

Improving Cross-lingual Representation for Semantic Retrieval with Code-switching ( http://arxiv.org/abs/2403.01364v1 )

ライセンス: Link先を確認
Mieradilijiang Maimaiti, Yuanhang Zheng, Ji Zhang, Fei Huang, Yue Zhang, Wenpei Luo, Kaiyu Huang(参考訳) Semantic Retrieval (SR) はタスク指向質問応答 (QA) 対話シナリオにおいてFAQシステムに不可欠な部分となっている。 eコマースプラットフォームのための言語横断型スマートカスタマーサービスシステムや、特定のビジネス条件に対する要求が近年増加している。 従来の研究では、多言語知識の直接検索には言語間事前学習モデル(PTM)が用いられており、ダウンストリームタスクでは微調整前の継続事前学習も活用されている。 しかしながら、どのスキーマを使っても、以前の作業は、ダウンストリームタスクのいくつかの機能、すなわち、SRに関連する信号を提供することなく、PTMをトレーニングするということをPTMに通知することを無視する。 そこで本研究では,コードスイッチングによるSRのための代替言語PSMを提案する。 私たちは、コードスイッチングアプローチを言語間SRに初めて利用しました。 また,SRタスク上で直接 PTM を使用する代わりに,コードスイッチ付き連続事前学習を導入する。 実験の結果,提案手法はSRにおける従来のSOTA手法と意味的テキスト類似性(STS)タスクを,20以上の言語で3つのビジネスコーパスと4つのオープンデータセットで一貫して上回ることがわかった。

Semantic Retrieval (SR) has become an indispensable part of the FAQ system in the task-oriented question-answering (QA) dialogue scenario. The demands for a cross-lingual smart-customer-service system for an e-commerce platform or some particular business conditions have been increasing recently. Most previous studies exploit cross-lingual pre-trained models (PTMs) for multi-lingual knowledge retrieval directly, while some others also leverage the continual pre-training before fine-tuning PTMs on the downstream tasks. However, no matter which schema is used, the previous work ignores to inform PTMs of some features of the downstream task, i.e. train their PTMs without providing any signals related to SR. To this end, in this work, we propose an Alternative Cross-lingual PTM for SR via code-switching. We are the first to utilize the code-switching approach for cross-lingual SR. Besides, we introduce the novel code-switched continual pre-training instead of directly using the PTMs on the SR tasks. The experimental results show that our proposed approach consistently outperforms the previous SOTA methods on SR and semantic textual similarity (STS) tasks with three business corpora and four open datasets in 20+ languages.
翻訳日:2024-03-05 23:09:23 公開日:2024-03-03
# ロボット操作のための物理的接地視覚言語モデル

Physically Grounded Vision-Language Models for Robotic Manipulation ( http://arxiv.org/abs/2309.02561v4 )

ライセンス: Link先を確認
Jensen Gao, Bidipta Sarkar, Fei Xia, Ted Xiao, Jiajun Wu, Brian Ichter, Anirudha Majumdar, Dorsa Sadigh(参考訳) 視覚言語モデル(vlms)の最近の進歩は、視覚質問応答や画像キャプションといったタスクのパフォーマンス向上につながった。 その結果、これらのモデルは現在、特にロボット操作のような領域において、物理的世界に関する推論に適している。 しかしながら、現在のVLMは、一般的な物体の物理的概念(材料、脆弱性など)に対する理解に限られており、そのような物体に対する相互作用や物理的推論を含むロボット操作タスクにおいて有用性を制限する。 この制限に対処するために、39.6Kのクラウドソースと417Kの自動物理概念アノテーションからなるオブジェクト中心のデータセットであるPhysObjectsを提案する。 physobjects 上の vlm の微調整は、視覚から人間の先行概念を捉えることにより、保持された概念への一般化を含む物理的対象概念の理解を改善することを実証する。 我々は、この物理接地VLMを、大規模言語モデルに基づくロボットプランナーと対話的なフレームワークに組み込んで、物理接地VLMを活用できないベースラインと比較して、物理対象概念の推論を必要とするタスクにおける計画性能の向上を示す。 さらに、実際のロボットに物理的に接地したVLMの利点を説明し、タスク成功率を向上させる。 私たちはデータセットをリリースし、結果のさらなる詳細と可視化をhttps://iliad.stanford.edu/pg-vlm/で発表します。

Recent advances in vision-language models (VLMs) have led to improved performance on tasks such as visual question answering and image captioning. Consequently, these models are now well-positioned to reason about the physical world, particularly within domains such as robotic manipulation. However, current VLMs are limited in their understanding of the physical concepts (e.g., material, fragility) of common objects, which restricts their usefulness for robotic manipulation tasks that involve interaction and physical reasoning about such objects. To address this limitation, we propose PhysObjects, an object-centric dataset of 39.6K crowd-sourced and 417K automated physical concept annotations of common household objects. We demonstrate that fine-tuning a VLM on PhysObjects improves its understanding of physical object concepts, including generalization to held-out concepts, by capturing human priors of these concepts from visual appearance. We incorporate this physically grounded VLM in an interactive framework with a large language model-based robotic planner, and show improved planning performance on tasks that require reasoning about physical object concepts, compared to baselines that do not leverage physically grounded VLMs. We additionally illustrate the benefits of our physically grounded VLM on a real robot, where it improves task success rates. We release our dataset and provide further details and visualizations of our results at https://iliad.stanford.edu/pg-vlm/.
翻訳日:2024-03-05 20:45:27 公開日:2024-03-03
# このタイトルを無視してhackaprompt:グローバル・スケール・プロンプト・ハッキング・コンペティションを通じてllmのシステム的脆弱性を暴露する

Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of LLMs through a Global Scale Prompt Hacking Competition ( http://arxiv.org/abs/2311.16119v3 )

ライセンス: Link先を確認
Sander Schulhoff, Jeremy Pinto, Anaum Khan, Louis-Fran\c{c}ois Bouchard, Chenglei Si, Svetlina Anati, Valen Tagliabue, Anson Liu Kost, Christopher Carnahan, Jordan Boyd-Graber(参考訳) 大規模言語モデル(LLM)は、チャットボットやライティングアシスタントなど、直接的なユーザエンゲージメントを備えたインタラクティブなコンテキストにデプロイされる。 これらのデプロイメントは、インジェクションとジェイルブレイク(まとめると、プロンプトハック)に対して脆弱で、モデルが元の命令を無視し、潜在的に悪意のある命令に従うように操作される。 セキュリティ上の重大な脅威として広く認識されているが、大規模なリソースや迅速なハッキングに関する定量的研究が多数存在する。 このラグナに対処するため、我々は、自由形式の人間の入力攻撃を可能にするグローバルなプロンプトハッキングコンペティションを立ち上げた。 我々は,600K以上の逆のプロンプトを,最先端の3つのLDMに対して提案する。 本稿では,現在のLSMが即時ハッキングによって実際に操作可能であることを実証的に検証したデータセットについて述べる。 また,敵対的プロンプトの種類に関する包括的分類学的オントロジーも提示する。

Large Language Models (LLMs) are deployed in interactive contexts with direct user engagement, such as chatbots and writing assistants. These deployments are vulnerable to prompt injection and jailbreaking (collectively, prompt hacking), in which models are manipulated to ignore their original instructions and follow potentially malicious ones. Although widely acknowledged as a significant security threat, there is a dearth of large-scale resources and quantitative studies on prompt hacking. To address this lacuna, we launch a global prompt hacking competition, which allows for free-form human input attacks. We elicit 600K+ adversarial prompts against three state-of-the-art LLMs. We describe the dataset, which empirically verifies that current LLMs can indeed be manipulated via prompt hacking. We also present a comprehensive taxonomical ontology of the types of adversarial prompts.
翻訳日:2024-03-05 20:13:16 公開日:2024-03-03
# スピン鎖の有限温度における電荷揺らぎに対する普遍的貢献

Universal contributions to charge fluctuations in spin chains at finite temperature ( http://arxiv.org/abs/2401.09548v2 )

ライセンス: Link先を確認
Kang-Le Cai and Meng Cheng(参考訳) 有限温度では、保存電荷はグランドカノニカルアンサンブルの量子多体系における熱揺らぎを受ける。 総 U(1) 電荷$Q$ のゆらぎの完全な構造は、生成関数 $G(\theta)=\left\langle e^{i \theta Q}\right\rangle$ によって簡潔に捉えることができる。 1次元翻訳不変スピン鎖の場合、熱力学的極限において、等級$|G(\theta)|$はシステムサイズ$L$として$\ln |G(\theta)|=-\alpha(\theta)L+\gamma(\theta)$であり、$\gamma(\theta)$はスケール不変コントリビューションであり、基礎システムに関する普遍的な情報を符号化することができる。 本研究では、システムが周期的であるときの$\gamma(\theta)$の振る舞いと物理的意味を調べる。 我々は、$\gamma(\theta)$が、すべての例に対して$\theta=\pi$の孤立点においてのみ 0 でない値を取ることを発見した。 2つの例の格子系において、u(1)対称性が他の対称性と特定のタイプの「t hooft anomaly」を示すとき、$\gamma(\pi)$ は量子化された値を取る。 他のケースでは、$\gamma(\theta)$ が場理論と正確に可解な格子モデルにおける微視的条件(充填因子など)に依存するかを調べる。

At finite temperature, conserved charges undergo thermal fluctuations in a quantum many-body system in the grand canonical ensemble. The full structure of the fluctuations of the total U(1) charge $Q$ can be succinctly captured by the generating function $G(\theta)=\left\langle e^{i \theta Q}\right\rangle$. For a 1D translation-invariant spin chain, in the thermodynamic limit the magnitude $|G(\theta)|$ scales with the system size $L$ as $\ln |G(\theta)|=-\alpha(\theta)L+\gamma(\theta)$, where $\gamma(\theta)$ is the scale-invariant contribution and may encode universal information about the underlying system. In this work we investigate the behavior and physical meaning of $\gamma(\theta)$ when the system is periodic. We find that $\gamma(\theta)$ only takes non-zero values at isolated points of $\theta$, which is $\theta=\pi$ for all our examples. In two exemplary lattice systems we show that $\gamma(\pi)$ takes quantized values when the U(1) symmetry exhibits a specific type of 't Hooft anomaly with other symmetries. In other cases, we investigate how $\gamma(\theta)$ depends on microscopic conditions (such as the filling factor) in field theory and exactly solvable lattice models.
翻訳日:2024-03-05 20:06:34 公開日:2024-03-03
# 空洞内の2モード場と相互作用する3レベル原子の絡み合い

Entanglement of a three-level atom interacting with two-modes field in a cavity ( http://arxiv.org/abs/2401.04892v2 )

ライセンス: Link先を確認
A. del Rio-Lima and F. J. Poveda-Cuevas and O. Casta\~nos(参考訳) 空洞内の2つのモードの量子化場と相互作用する3つのレベルの原子間の相互作用のダイナミクスを、アルカリ原子の超微粒子レベルの実験値を考慮して、回転波近似の中で研究する。 等しいデチューニングは、物質-磁場の絡み合い、光子の統計的性質、原子の占有確率を決定すると考えられている。 大きなデチューニングまたは弱い双極子強度の場合、ラマン条件、すなわち原子遷移の1つの抑制が現れる。 時間発展演算子の解析式は、フィールドとmatter observablesに対する明示的な閉表現も持つことができる。

The dynamics of the interaction between an atom of three levels interacting with a quantized field of two modes in a cavity is studied within the rotating wave approximation, by taking into account experimental values of the accessible hyperfine levels of alkaline atoms. An equal detuning is considered to determine the matter-field entanglement, the statistical properties of the photons, and the occupation probabilities of the atom. For a large detuning or weak dipolar strength appear the Raman condition, that is, the suppression of one of his atomic transitions. Analytic expression for the time evolution operator allows to have also explicit closed expressions for the field and matter observables.
翻訳日:2024-03-05 20:04:06 公開日:2024-03-03
# 意図しない活動の推論のための幻覚の誘導

Navigating Hallucinations for Reasoning of Unintentional Activities ( http://arxiv.org/abs/2402.19405v2 )

ライセンス: Link先を確認
Shresth Grover, Vibhav Vineet, Yogesh S Rawat(参考訳) 本稿では,意図しない人間の行動をビデオで理解する新しいタスクを提案する。 我々はこの問題をゼロショットシナリオの下での推論タスクとして定式化しており、意図しない活動の動画を見て、なぜ意図的から意図的へ移行したのかを知りたい。 まず,この推論課題に対する最先端の大規模マルチモーダルモデルの有効性を評価し,幻覚に苦しむことを観察する。 さらに,より優れた推論を実現するために,モデルが幻覚的思考をナビゲートできる新たなプロンプト手法であるdream of thoughts (dot)を提案する。 このタスクの性能を評価するために,モデル推論能力の定量化を目的とした3つの専門指標を導入する。 我々は、oopsとutf-crimesという2つの異なるデータセットで実験を行い、dotプロンプト技術が標準プロンプトよりも優れ、幻覚を最小化できることを示した。

In this work we present a novel task of understanding unintentional human activities in videos. We formalize this problem as a reasoning task under zero-shot scenario, where given a video of an unintentional activity we want to know why it transitioned from intentional to unintentional. We first evaluate the effectiveness of current state-of-the-art Large Multimodal Models on this reasoning task and observe that they suffer from hallucination. We further propose a novel prompting technique,termed as Dream of Thoughts (DoT), which allows the model to navigate through hallucinated thoughts to achieve better reasoning. To evaluate the performance on this task, we also introduce three different specialized metrics designed to quantify the models reasoning capability. We perform our experiments on two different datasets, OOPs and UCF-Crimes, and our findings show that DOT prompting technique is able to outperform standard prompting, while minimizing hallucinations.
翻訳日:2024-03-05 19:24:56 公開日:2024-03-03
# roadrunner - 自律オフロード運転のための学習トラバーサビリティ推定

RoadRunner - Learning Traversability Estimation for Autonomous Off-road Driving ( http://arxiv.org/abs/2402.19341v2 )

ライセンス: Link先を確認
Jonas Frey and Shehryar Khattak and Manthan Patel and Deegan Atha and Julian Nubert and Curtis Padgett and Marco Hutter and Patrick Spieler(参考訳) オフロード環境での高速での自律ナビゲーションは、オンボードセンシングのみを使用して、ロボットが周囲を包括的に理解する必要がある。 オフロード設定によって引き起こされる極端な条件は、ライティングや動きのぼやけによる画質低下や、高速運転時のLiDARセンシングから得られる限られた幾何学的情報を引き起こす可能性がある。 本研究では,カメラとlidarセンサの入力から直接,地形トラバーサビリティと標高マップを予測できる新しいフレームワーク roadrunnerを提案する。 RoadRunnerは、センサ情報を融合し、不確実性の扱い、低レイテンシで動作しながら地形の幾何学的およびトラバーサビリティに関するコンテキスト情報予測を生成することにより、信頼性の高い自律ナビゲーションを可能にする。 本手法は,手作りのセマンティッククラスを分類し,ヒューリスティックを用いてトラバーサビリティコストを予測する既存の手法とは対照的に,自己管理型でエンドツーエンドに学習する。 RoadRunnerネットワークアーキテクチャは、LiDARとカメラ情報を共通のBird’s Eye Viewの視点に埋め込む自動運転ドメインから、一般的なセンサーフュージョンネットワークアーキテクチャの上に構築されている。 既存のトラバーサビリティ推定スタックを利用して、実世界のオフロード駆動データセットからスケーラブルな方法でトレーニングデータを生成することで、トレーニングを可能にする。 さらに、RoadRunnerは、500msから140msまでの約4倍のシステムレイテンシを改善し、トラバーサビリティコストと標高マップ予測の精度を改善している。 我々は,非構造砂漠環境を通した複数の現実の運転シナリオにおいて,安全かつ信頼性の高いオフロードナビゲーションを実現する上で,ロードランナーの有効性を実証する。

Autonomous navigation at high speeds in off-road environments necessitates robots to comprehensively understand their surroundings using onboard sensing only. The extreme conditions posed by the off-road setting can cause degraded camera image quality due to poor lighting and motion blur, as well as limited sparse geometric information available from LiDAR sensing when driving at high speeds. In this work, we present RoadRunner, a novel framework capable of predicting terrain traversability and an elevation map directly from camera and LiDAR sensor inputs. RoadRunner enables reliable autonomous navigation, by fusing sensory information, handling of uncertainty, and generation of contextually informed predictions about the geometry and traversability of the terrain while operating at low latency. In contrast to existing methods relying on classifying handcrafted semantic classes and using heuristics to predict traversability costs, our method is trained end-to-end in a self-supervised fashion. The RoadRunner network architecture builds upon popular sensor fusion network architectures from the autonomous driving domain, which embed LiDAR and camera information into a common Bird's Eye View perspective. Training is enabled by utilizing an existing traversability estimation stack to generate training data in hindsight in a scalable manner from real-world off-road driving datasets. Furthermore, RoadRunner improves the system latency by a factor of roughly 4, from 500 ms to 140 ms, while improving the accuracy for traversability costs and elevation map predictions. We demonstrate the effectiveness of RoadRunner in enabling safe and reliable off-road navigation at high speeds in multiple real-world driving scenarios through unstructured desert environments.
翻訳日:2024-03-05 19:24:38 公開日:2024-03-03
# 拡張フローマッチング:一般化連続性方程式を用いた条件付き生成法

Extended Flow Matching: a Method of Conditional Generation with Generalized Continuity Equation ( http://arxiv.org/abs/2402.18839v2 )

ライセンス: Link先を確認
Noboru Isobe, Masanori Koyama, Kohei Hayashi and Kenji Fukumizu(参考訳) 条件生成の課題は生成モデルの最も重要な応用の1つであり、指導に基づく分類器フリーな手法が先導する、祝福された拡散モデルに基づく多くの手法が開発されている。 しかし、誘導法の理論は「誘導強度」を微調整するだけでなく、目標ベクトル場が必ずしも訓練で使用する条件分布に対応しているとは限らない。 本稿では,現在の拡散法候補であるフローマッチングに基づく条件生成の理論を考案する。 確率経路を経路空間上の分布として解釈することで、フローマッチングにおける連続性方程式の代わりに一般化連続性方程式の数学的枠組みを用いて、流れに基づく条件分布の生成の新しい理論を確立する。 この理論は、ベクトル場とは対照的に行列場に一致することを目的とする手法を自然に導出する。 本フレームワークは,条件分布間の流れの存在を通じて生成した条件分布の連続性を保証する。 我々は実験と数学的結果を通して理論を提示する。

The task of conditional generation is one of the most important applications of generative models, and numerous methods have been developed to date based on the celebrated diffusion models, with the guidance-based classifier-free method taking the lead. However, the theory of the guidance-based method not only requires the user to fine-tune the "guidance strength," but its target vector field does not necessarily correspond to the conditional distribution used in training. In this paper, we develop the theory of conditional generation based on Flow Matching, a current strong contender of diffusion methods. Motivated by the interpretation of a probability path as a distribution on path space, we establish a novel theory of flow-based generation of conditional distribution by employing the mathematical framework of generalized continuity equation instead of the continuity equation in flow matching. This theory naturally derives a method that aims to match the matrix field as opposed to the vector field. Our framework ensures the continuity of the generated conditional distribution through the existence of flow between conditional distributions. We will present our theory through experiments and mathematical results.
翻訳日:2024-03-05 19:24:08 公開日:2024-03-03
# ニューデザイン2パスインタラクティブ融合モジュールモデルによる網膜血管構造の分節化の促進

Enhancing Retinal Vascular Structure Segmentation in Images With a Novel Design Two-Path Interactive Fusion Module Model ( http://arxiv.org/abs/2403.01362v1 )

ライセンス: Link先を確認
Rui Yang and Shunpu Zhang(参考訳) 網膜における微小血管とマクロ血管の同定と識別の精度は網膜疾患の診断に不可欠であるが、これは重要な課題である。 現在のオートエンコーディングベースのセグメンテーションアプローチは、エンコーダによって制約されるため制限に遭遇し、エンコーダの段階で解像度が低下する。 復号フェーズで失われた情報を復元できないことは、これらのアプローチをさらに阻害する。 これにより、網膜微小血管構造を抽出する能力が制限される。 この問題に対処するため,我々は,網膜血管分割の精度を高めるために設計された専用モジュール swin-res-net を紹介する。 Swin-Res-Netはパーティショニングにシフトウィンドウを用いるSwin変換器を用いて、ネットワークの複雑さを低減し、モデル収束を加速する。 さらに、このモデルはres2netアーキテクチャにインタラクティブな融合と機能モジュールを組み込んでいる。 Res2Netはマルチスケール技術を利用して畳み込みカーネルの受容領域を拡大し、画像から追加の意味情報を抽出する。 この組み合わせは、網膜内の微小血管の局在と分離を強化する新しいモジュールを生成する。 血管情報処理の効率を向上させるため,エンコードとデコードの間の冗長な情報を排除するモジュールを追加した。 提案するアーキテクチャは,他の公開モデルのミーティングや超越など,優れた結果をもたらします。 AUCは、広く利用されている3つのデータセット(CHASE-DB1、DRIVE、STARE)にわたる網膜血管のピクセルワイドセグメンテーションにおいて、0.9956、0.9931、0.9946の値を達成している。 さらに、Swin-Res-Netは代替アーキテクチャよりも優れており、IOUとF1の測定の両方で優れたパフォーマンスを示している。

Precision in identifying and differentiating micro and macro blood vessels in the retina is crucial for the diagnosis of retinal diseases, although it poses a significant challenge. Current autoencoding-based segmentation approaches encounter limitations as they are constrained by the encoder and undergo a reduction in resolution during the encoding stage. The inability to recover lost information in the decoding phase further impedes these approaches. Consequently, their capacity to extract the retinal microvascular structure is restricted. To address this issue, we introduce Swin-Res-Net, a specialized module designed to enhance the precision of retinal vessel segmentation. Swin-Res-Net utilizes the Swin transformer which uses shifted windows with displacement for partitioning, to reduce network complexity and accelerate model convergence. Additionally, the model incorporates interactive fusion with a functional module in the Res2Net architecture. The Res2Net leverages multi-scale techniques to enlarge the receptive field of the convolutional kernel, enabling the extraction of additional semantic information from the image. This combination creates a new module that enhances the localization and separation of micro vessels in the retina. To improve the efficiency of processing vascular information, we've added a module to eliminate redundant information between the encoding and decoding steps. Our proposed architecture produces outstanding results, either meeting or surpassing those of other published models. The AUC reflects significant enhancements, achieving values of 0.9956, 0.9931, and 0.9946 in pixel-wise segmentation of retinal vessels across three widely utilized datasets: CHASE-DB1, DRIVE, and STARE, respectively. Moreover, Swin-Res-Net outperforms alternative architectures, demonstrating superior performance in both IOU and F1 measure metrics.
翻訳日:2024-03-05 14:13:08 公開日:2024-03-03
# ターゲットマーケティングにおけるbandit利益の最大化

Bandit Profit-maximization for Targeted Marketing ( http://arxiv.org/abs/2403.01361v1 )

ライセンス: Link先を確認
Joon Suk Huh, Ellen Vitercik, Kirthevasan Kandasamy(参考訳) 利益の最大化問題を逐次検討し、マーケティング費などの価格と補助変数の両方に最適化する。 具体的には、複数の需要曲線の任意の列に対して利益を最大化することを目的としており、それぞれが異なる補助変数に依存するが、同じ価格を共有する。 原型的な例としてターゲットマーケティングがあり、企業(販売業者)が製品を複数の市場で販売することを望んでいる。 同社は、顧客獲得を最適化するために異なる市場向けに異なるマーケティング支出を投資する可能性があるが、すべての市場にわたって同じ価格を維持する必要がある。 さらに、市場は不均一な需要曲線を持ち、それぞれが価格やマーケティング支出が異なる。 同社の目標は利益を最大化し、総収益はマーケティングコストを抑えることである。 提案手法は, 需要曲線が任意の非適応シーケンスであり, 需要曲線上の選択点のノイズ評価のみを観測する, 逆バンディット設定におけるこの問題に対する近似最適アルゴリズムである。 我々は、単調な需要曲線に対して、$\widetilde{\mathcal{O}}\big(nT^{3/4}\big)$と$\Omega\big((nT)^{3/4}\big)$と、単調な需要曲線に対して$\widetilde{\Theta}\big(nT^{2/3}\big)$の後悔の上限を、単調な価格で単調な需要曲線に対して$とする。

We study a sequential profit-maximization problem, optimizing for both price and ancillary variables like marketing expenditures. Specifically, we aim to maximize profit over an arbitrary sequence of multiple demand curves, each dependent on a distinct ancillary variable, but sharing the same price. A prototypical example is targeted marketing, where a firm (seller) wishes to sell a product over multiple markets. The firm may invest different marketing expenditures for different markets to optimize customer acquisition, but must maintain the same price across all markets. Moreover, markets may have heterogeneous demand curves, each responding to prices and marketing expenditures differently. The firm's objective is to maximize its gross profit, the total revenue minus marketing costs. Our results are near-optimal algorithms for this class of problems in an adversarial bandit setting, where demand curves are arbitrary non-adaptive sequences, and the firm observes only noisy evaluations of chosen points on the demand curves. We prove a regret upper bound of $\widetilde{\mathcal{O}}\big(nT^{3/4}\big)$ and a lower bound of $\Omega\big((nT)^{3/4}\big)$ for monotonic demand curves, and a regret bound of $\widetilde{\Theta}\big(nT^{2/3}\big)$ for demands curves that are monotonic in price and concave in the ancillary variables.
翻訳日:2024-03-05 14:12:34 公開日:2024-03-03
# ModelWriter: テキストとモデル同期ドキュメントエンジニアリングプラットフォーム

ModelWriter: Text & Model-Synchronized Document Engineering Platform ( http://arxiv.org/abs/2403.01359v1 )

ライセンス: Link先を確認
Ferhat Erata, Claire Gardent, Bikash Gyawali, Anastasia Shimorina, Yvan Lussaud, Bedir Tekinerdogan, Geylani Kardas, Anne Monceaux(参考訳) ModelWriterプラットフォームは、自動トレーサビリティ分析のための一般的なフレームワークを提供する。 本稿では,エアバスが航空機システム設置の正しさを確保するために使用するシステムインストール設計原則の集合からなる技術文書の整合性と完全性を,この枠組みを用いて追跡する方法を実証する。 具体的には、意味解析と記述論理定理を用いたテキストの意味の推論と、一階関係論理を用いた文書構造の推論と、トレーサビリティ解析のための有限モデル探索の2つのタイプの推論を統合する方法を示す。

The ModelWriter platform provides a generic framework for automated traceability analysis. In this paper, we demonstrate how this framework can be used to trace the consistency and completeness of technical documents that consist of a set of System Installation Design Principles used by Airbus to ensure the correctness of aircraft system installation. We show in particular, how the platform allows the integration of two types of reasoning: reasoning about the meaning of text using semantic parsing and description logic theorem proving; and reasoning about document structure using first-order relational logic and finite model finding for traceability analysis.
翻訳日:2024-03-05 14:12:02 公開日:2024-03-03
# a-DCF: Spoofing-robust Speaker Validationに応用したアーキテクチャ非依存メトリック

a-DCF: an architecture agnostic metric with application to spoofing-robust speaker verification ( http://arxiv.org/abs/2403.01355v1 )

ライセンス: Link先を確認
Hye-jin Shim, Jee-weon Jung, Tomi Kinnunen, Nicholas Evans, Jean-Francois Bonastre, Itshak Lapidot(参考訳) 現在、スプーフィング検出は主要な研究テーマである。 分離されたスプーフィング検出ソリューションの性能評価に標準指標を適用し,話者検出と組み合わせて評価する手法が提案されている。 これらはよく知られた欠陥を持つか、スピーカーとspoof検出器を組み合わせるためのアーキテクチャアプローチを制限するかのどちらかである。 本稿では,アーキテクチャ非依存検出コスト関数(a-dcf)を提案する。 自動話者検証 (ASV) の評価に広く用いられている元のDCFの一般化として、a-DCFはスプーフィングローバスト ASV の評価のために設計されている。 DCFと同様に、a-DCFは明確に定義されたクラス事前と検出コストモデルによってベイズリスクセンスにおける決定のコストを反映している。 アーキテクチャ上不均一なスプーフィング・ロバスト ASV ソリューションのベンチマーク評価により,a-DCF の利点を実証する。

Spoofing detection is today a mainstream research topic. Standard metrics can be applied to evaluate the performance of isolated spoofing detection solutions and others have been proposed to support their evaluation when they are combined with speaker detection. These either have well-known deficiencies or restrict the architectural approach to combine speaker and spoof detectors. In this paper, we propose an architecture-agnostic detection cost function (a-DCF). A generalisation of the original DCF used widely for the assessment of automatic speaker verification (ASV), the a-DCF is designed for the evaluation of spoofing-robust ASV. Like the DCF, the a-DCF reflects the cost of decisions in a Bayes risk sense, with explicitly defined class priors and detection cost model. We demonstrate the merit of the a-DCF through the benchmarking evaluation of architecturally-heterogeneous spoofing-robust ASV solutions.
翻訳日:2024-03-05 14:11:51 公開日:2024-03-03
# マルチキュービット格子手術のための空間並列復号法

Spatially parallel decoding for multi-qubit lattice surgery ( http://arxiv.org/abs/2403.01353v1 )

ライセンス: Link先を確認
Sophia Fuhui Lin, Eric C. Peterson, Krishanu Sankar, Prasahnt Sivarajah(参考訳) 量子エラー訂正によって保護される量子アルゴリズムの実行には、リアルタイム、古典的なデコーダが必要である。 バックログの蓄積を防止するために、このデコーダは、生成されたよりも速い速度で量子デバイスからシンドロームを処理しなければならない。 リアルタイムデコードに関するほとんどの以前の作業は、表面コードにエンコードされた独立した論理キュービットに焦点を当てている。 しかし、表面コードでは、ユーティリティの量子プログラムは格子手術によって実行されるマルチ量子ビットの相互作用を必要とする。 大きなマージパッチは、格子手術(おそらくデバイス全体と同じ大きさ)中に発生する。 これにより、リアルタイムデコーダに大きな負担がかかり、このマージされたパッチでエラーをデコードし、分離された論理キュービットで達成されるフォールトトレランスのレベルを維持する必要がある。 これらの要件は、デバイス上の物理量子ビットを複数の重なり合うグループに分割し、デコーダモジュールを各グループに割り当てることで達成できる空間並列復号を用いて緩和される。 このアプローチを空間的に平行なウィンドウと呼ぶ。 これまでも同様のアイデアを探求してきたが、タスクやハードウェアアクセラレーションの使用による制約に関連するシステム固有の考慮事項には対処していない。 本研究では,(1)がハードウェアアクセラレータと互換性があり,(2)一般的な格子手術操作をサポートし,(3)論理量子ビットの忠実性を維持し,(4)リアルタイム復号化のスループット要件を満たすように,空間並列ウィンドウの設定方法を示す。 さらに,精度とスループットのバランスを図るためにバッファ幅を最適に選択することの重要性を明らかにした。

Running quantum algorithms protected by quantum error correction requires a real time, classical decoder. To prevent the accumulation of a backlog, this decoder must process syndromes from the quantum device at a faster rate than they are generated. Most prior work on real time decoding has focused on an isolated logical qubit encoded in the surface code. However, for surface code, quantum programs of utility will require multi-qubit interactions performed via lattice surgery. A large merged patch can arise during lattice surgery -- possibly as large as the entire device. This puts a significant strain on a real time decoder, which must decode errors on this merged patch and maintain the level of fault-tolerance that it achieves on isolated logical qubits. These requirements are relaxed by using spatially parallel decoding, which can be accomplished by dividing the physical qubits on the device into multiple overlapping groups and assigning a decoder module to each. We refer to this approach as spatially parallel windows. While previous work has explored similar ideas, none have addressed system-specific considerations pertinent to the task or the constraints from using hardware accelerators. In this work, we demonstrate how to configure spatially parallel windows, so that the scheme (1) is compatible with hardware accelerators, (2) supports general lattice surgery operations, (3) maintains the fidelity of the logical qubits, and (4) meets the throughput requirement for real time decoding. Furthermore, our results reveal the importance of optimally choosing the buffer width to achieve a balance between accuracy and throughput -- a decision that should be influenced by the device's physical noise.
翻訳日:2024-03-05 14:11:36 公開日:2024-03-03
# ベル曲線重み関数による不確かさサンプリングの改善

Improving Uncertainty Sampling with Bell Curve Weight Function ( http://arxiv.org/abs/2403.01352v1 )

ライセンス: Link先を確認
Zan-Kai Chong, Hiroyuki Ohsaki, and Bok-Min Goi(参考訳) 通常、教師付き学習モデルは、無記名インスタンスをランダムに選択して注釈付けすることにより、受動的学習を用いて訓練される。 このアプローチはモデルを学ぶのに効果的ですが、ラベル付きインスタンスを取得するのにコストがかかります。 例えば、初期データ収集中に受信箱に溢れる何千ものメール(ラベル付きインスタンス)からスパムメール(ラベル付きインスタンス)を手動で識別するのに時間がかかる。 一般に, 受動的学習よりもラベル付きインスタンスが少なく, 教師付き学習の効率を向上させるアクティブ学習手法である不確実性サンプリングを用いて, 上記のシナリオに答える。 ラベルのないデータプールが与えられた場合、不確実性サンプリングは予測された確率 p が不確実性領域、すなわち$p \approx 0.5$に該当するインスタンスのラベルをクエリする。 新たに取得したラベルは、既存のラベル付きデータプールに追加され、新しいモデルが学習される。 それにもかかわらず、不確実サンプリングの性能は予測不能応答(AUR)の領域とデータセットの性質に左右される。 新しいデータセットの事前知識を使わずに受動的学習や不確実性サンプリングを使うかどうかを判断することは困難である。 この問題に対処するために,ベル曲線重み関数を用いて新しいラベルを取得するベル曲線サンプリングを提案する。 p=0.5中心のベル曲線により、ベル曲線サンプリングは、予測値が不確実な領域にあるインスタンスを、残りを無視せずに選択する。 シミュレーションの結果,ベル曲線のサンプリングは不確実性サンプリングや受動的学習をaurと異なる性質のデータセットで超えていることがわかった。

Typically, a supervised learning model is trained using passive learning by randomly selecting unlabelled instances to annotate. This approach is effective for learning a model, but can be costly in cases where acquiring labelled instances is expensive. For example, it can be time-consuming to manually identify spam mails (labelled instances) from thousands of emails (unlabelled instances) flooding an inbox during initial data collection. Generally, we answer the above scenario with uncertainty sampling, an active learning method that improves the efficiency of supervised learning by using fewer labelled instances than passive learning. Given an unlabelled data pool, uncertainty sampling queries the labels of instances where the predicted probabilities, p, fall into the uncertainty region, i.e., $p \approx 0.5$. The newly acquired labels are then added to the existing labelled data pool to learn a new model. Nonetheless, the performance of uncertainty sampling is susceptible to the area of unpredictable responses (AUR) and the nature of the dataset. It is difficult to determine whether to use passive learning or uncertainty sampling without prior knowledge of a new dataset. To address this issue, we propose bell curve sampling, which employs a bell curve weight function to acquire new labels. With the bell curve centred at p=0.5, bell curve sampling selects instances whose predicted values are in the uncertainty area most of the time without neglecting the rest. Simulation results show that, most of the time bell curve sampling outperforms uncertainty sampling and passive learning in datasets of different natures and with AUR.
翻訳日:2024-03-05 14:11:10 公開日:2024-03-03
# OSM:アスペクト指向アプリケーションにおける動的1動作監視のためのモデルチェックの活用

OSM: Leveraging Model Checking for Observing Dynamic 1 behaviors in Aspect-Oriented Applications ( http://arxiv.org/abs/2403.01349v1 )

ライセンス: Link先を確認
Anas AlSobeh(参考訳) 複雑なソフトウェアシステム検証の領域では、動的モデルチェックによる多面システム特性の検証が依然として最重要でありながら困難である。 本研究は,基本システムコードから直接実行可能な形式モデルを構築するために考案された,高度な観測ベース統計モデルチェック(OSM)フレームワークを提案する。 モデルチェックの述語を活用することで、フレームワークはアスペクト指向のプログラミングパラダイムとシームレスに融合し、さまざまな行動属性の分析的検証のための強力な方法をもたらす。 OSMフレームワークの変換能力の爆発により、一次システムは多面解析構造への体系的変態を行う。 これはモデル検証プロセスを単純化するだけでなく、革新的な観察ジョインポイント抽象化メカニズムを使って機能インタラクションをオーケストレーションする。 このフレームワーク内では、解析、形式検証、計算分析、厳密な検証を含むコンポーネントが本質的に織り込まれている。 アスペクト指向(AO)モジュール化によるモデルチェックの原則を反映して、OSMフレームワークはパラゴンであり、十分に精査し、システム仕様を確認します。 これにより、プレコンディションシフト中の電子健康記録システムの未収量性能が保証される。 OSMフレームワークは、オブジェクト指向とAOの両方のデプロイメントのランタイム検証を提供し、システムパフォーマンスとスケーラビリティの強化を自動化するために、自分自身を必須のオープンソースリソースとして位置づける。

In the intricate domain of software systems verification, dynamically model checking multifaceted system characteristics remains paramount, yet challenging. This research proposes the advanced observe-based statistical model-checking (OSM) framework, devised to craft executable formal models directly from foundational system code. Leveraging model checking predicates, the framework melds seamlessly with aspect-oriented programming paradigms, yielding a potent method for the analytical verification of varied behavioral attributes. Exploiting the transformative capacity of OSM framework, primary system code undergoes a systematic metamorphosis into multifaceted analysis constructs. This not only simplifies the model verification process but also orchestrates feature interactions using an innovative observing join point abstraction mechanism. Within this framework, components encompassing parsing, formal verification, computational analytics, and rigorous validation are intrinsically interwoven. Marrying the principles of model checking with aspect-oriented (AO) modularization, OSM framework stands as a paragon, proficiently scrutinizing and affirming system specifications. This ensures the unyielding performance of electronic health record systems amidst shifting preconditions. OSM framework offers runtime verification of both object-oriented and AO deployments, positioning itself as an indispensable open-source resource, poised to automate the enhancement of system performance and scalability.
翻訳日:2024-03-05 14:10:48 公開日:2024-03-03
# SANGRIA: 屋内ローカライゼーションのためのグラディエントブースティングを備えたスタック型オートエンコーダニューラルネットワーク

SANGRIA: Stacked Autoencoder Neural Networks with Gradient Boosting for Indoor Localization ( http://arxiv.org/abs/2403.01348v1 )

ライセンス: Link先を確認
Danish Gufran, Saideep Tiku, Sudeep Pasricha(参考訳) 屋内ローカライゼーションは、アセットトラッキング、緊急応答、リアルタイムナビゲーションなど、多くの組み込みアプリケーションにおいて重要なタスクである。 本稿では,グラデーションブーストツリーを用いたスタック型自動エンコーダニューラルネットワークを用いた,屋内ローカライズのための新しいフィンガープリントベースフレームワークsangriaを提案する。 当社のアプローチは,無線信号計測における不確実性を,ローカライゼーションに使用する組込みデバイス間で克服するものである。 SANGRIAをいくつかの最先端フレームワークと比較し、様々な屋内ローカライズおよび異種デバイスにおける平均ローカライズ誤差を42.96%低減した。

Indoor localization is a critical task in many embedded applications, such as asset tracking, emergency response, and realtime navigation. In this article, we propose a novel fingerprintingbased framework for indoor localization called SANGRIA that uses stacked autoencoder neural networks with gradient boosted trees. Our approach is designed to overcome the device heterogeneity challenge that can create uncertainty in wireless signal measurements across embedded devices used for localization. We compare SANGRIA to several state-of-the-art frameworks and demonstrate 42.96% lower average localization error across diverse indoor locales and heterogeneous devices.
翻訳日:2024-03-05 14:10:02 公開日:2024-03-03