このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20241010となっている論文です。

PDF登録状況(公開日: 20241010)

TitleAuthorsAbstract論文公表日・翻訳日
# 複素数を持つ論理ゲートについて

On Logic Gates with Complex Numbers ( http://arxiv.org/abs/2307.12905v6 )

ライセンス: Link先を確認
M. W. AlMasri, (参考訳) 論理ゲートは複素微分作用素の言葉で書くことができ、入力と出力は複数の変数を持つ正則函数である。 複素数の極表現を用いて、系の振動挙動と論理ゲートの間の即時接続に到達する。 様々な計算システムにおけるこの形式主義の普遍性について論じる。

Logic gates can be written in terms of complex differential operators, where the inputs and outputs are holomorphic functions with several variables. Using the polar representation of complex numbers, we arrive at an immediate connection between the oscillatory behavior of the system and logic gates. We discuss the universality of this formalism in a variety of computing systems.
翻訳日:2024-11-09 14:51:04 公開日:2024-10-10
# 医用画像解析における継続的な学習 : 最近の進歩と今後の展望

Continual Learning in Medical Image Analysis: A Comprehensive Review of Recent Advancements and Future Prospects ( http://arxiv.org/abs/2312.17004v3 )

ライセンス: Link先を確認
Pratibha Kumari, Joohi Chauhan, Afshin Bozorgpour, Boqiang Huang, Reza Azad, Dorit Merhof, (参考訳) 近年の医療画像解析は、高度なディープラーニングアルゴリズムの急速な発展を契機に、人間のレベルのパフォーマンスをはるかに上回っている。 しかし、推論データセットが1回のトレーニングでモデルが見たものとわずかに異なる場合、モデルのパフォーマンスは大幅に損なわれる。 この状況では、古いデータと新しいデータの両方を使ってトレーニングプロセスを再開し、計算コストがかかり、人間の学習プロセスと一致せず、ストレージの制約やプライバシーの懸念を課す必要がある。 あるいは、持続的学習は、新しいクラス、タスク、および様々なアプリケーション領域の非定常環境におけるデータの漂流性を扱うために、統一的で持続可能な深層モデルを開発するための重要なアプローチとして現れてきた。 継続的な学習技術は、モデルを時間とともに適応し、知識を蓄積することを可能にする。 本稿では,医用画像解析に応用した継続的学習技術の現状を概観する。 本稿では, 破滅的忘れ, データドリフト, 安定性, 可塑性要件などのトピックについて, 既存研究の広範な調査を行う。 さらに,連続学習シナリオ,テクニック,評価スキーム,メトリクスなど,連続学習フレームワークの重要なコンポーネントについて,詳細な議論を行う。 継続的な学習技術には、リハーサル、正規化、アーキテクチャ、ハイブリッド戦略など、さまざまなカテゴリが含まれる。 放射線学や病理学などの様々な医学分野における連続的な学習カテゴリーの人気と適用性を評価する。

Medical imaging analysis has witnessed remarkable advancements even surpassing human-level performance in recent years, driven by the rapid development of advanced deep-learning algorithms. However, when the inference dataset slightly differs from what the model has seen during one-time training, the model performance is greatly compromised. The situation requires restarting the training process using both the old and the new data which is computationally costly, does not align with the human learning process, and imposes storage constraints and privacy concerns. Alternatively, continual learning has emerged as a crucial approach for developing unified and sustainable deep models to deal with new classes, tasks, and the drifting nature of data in non-stationary environments for various application areas. Continual learning techniques enable models to adapt and accumulate knowledge over time, which is essential for maintaining performance on evolving datasets and novel tasks. This systematic review paper provides a comprehensive overview of the state-of-the-art in continual learning techniques applied to medical imaging analysis. We present an extensive survey of existing research, covering topics including catastrophic forgetting, data drifts, stability, and plasticity requirements. Further, an in-depth discussion of key components of a continual learning framework such as continual learning scenarios, techniques, evaluation schemes, and metrics is provided. Continual learning techniques encompass various categories, including rehearsal, regularization, architectural, and hybrid strategies. We assess the popularity and applicability of continual learning categories in various medical sub-fields like radiology and histopathology...
翻訳日:2024-11-09 05:28:28 公開日:2024-10-10
# 多言語インストラクション・チューニングの探求:多言語インストラクションに対するポリグロットモデルは要求されるか?

Investigating Multilingual Instruction-Tuning: Do Polyglot Models Demand for Multilingual Instructions? ( http://arxiv.org/abs/2402.13703v2 )

ライセンス: Link先を確認
Alexander Arno Weber, Klaudia Thellmann, Jan Ebert, Nicolas Flores-Herr, Jens Lehmann, Michael Fromm, Mehdi Ali, (参考訳) 多言語事前学習LLMの雄弁で補助的なアシスタントへの適応は、異なる言語領域での使用を促進するために不可欠である。 その精神の中で、我々は、最も話されているインド・ヨーロッパ諸言語の中から選択された並列命令チューニングベンチマーク上で、異なる言語構成に基づいて訓練された多言語モデルの性能について、広範囲にわたる研究を行った最初の人である。 我々は,言語と命令データセットのサイズが中規模および多言語 LLM に与える影響を,並列的な命令チューニングデータセット上での命令チューニングにより体系的に検討した。 本結果から,単言語コーパスの代わりに並列で命令チューニングを行うことで,最大9.9%の言語間命令処理が可能であることが示唆された。 さらに, マルチリンガル 7B パラメータモデルでは, 大規模な命令調整データセットを必要とする反例を示すため, 表向きアライメント仮説は一般的には成立しないことを示す。 最後に,多言語チャットシナリオにおけるヒューマンベースとGPT-4に基づく評価の整合性を理解するために,人間のアノテーション研究を行う。

The adaption of multilingual pre-trained LLMs into eloquent and helpful assistants is essential to facilitate their use across different language regions. In that spirit, we are the first to conduct an extensive study of the performance of multilingual models instruction-tuned on different language compositions on parallel instruction-tuning benchmarks across a selection of the most spoken Indo-European languages. We systematically examine the effects of language and instruction dataset size on a mid-sized and a large, multilingual LLMs by instruction-tuning them on parallel instruction-tuning datasets. Our results demonstrate that instruction-tuning on parallel instead of monolingual corpora benefits cross-lingual instruction following capabilities by up to 9.9%. Furthermore, we show that the Superficial Alignment Hypothesis does not hold in general, as the investigated multilingual 7B parameter model presents a counter-example requiring large-scale instruction-tuning datasets. Finally, we conduct a human annotation study to understand the alignment between human-based and GPT-4-based evaluation within multilingual chat scenarios.
翻訳日:2024-11-09 04:32:42 公開日:2024-10-10
# 意思決定のための校正誤差

Calibration Error for Decision Making ( http://arxiv.org/abs/2404.13503v4 )

ライセンス: Link先を確認
Lunjia Hu, Yifan Wu, (参考訳) キャリブレーションにより、予測は意思決定者による確率として確実に解釈できる。 本稿では,決定理論による判定誤差である校正決定損失(CDL)を提案する。 CDLの無効化は、下流のすべての意思決定タスクに対して、誤校正による支払い損失が同時に消失することを保証します。 本稿では,CDLと既存の校正誤差指標の分離について述べる。 我々の主な技術的貢献は、Qiao と Valiant (2021) による ECE に対する $\Omega(T^{-0.472})$ lower bound をバイパスして、ほぼ最適の $O(\frac{\log T}{\sqrt{T}})$ expected CDL を達成する、オンラインキャリブレーションのための新しい効率的なアルゴリズムである。

Calibration allows predictions to be reliably interpreted as probabilities by decision makers. We propose a decision-theoretic calibration error, the Calibration Decision Loss (CDL), defined as the maximum improvement in decision payoff obtained by calibrating the predictions, where the maximum is over all payoff-bounded decision tasks. Vanishing CDL guarantees the payoff loss from miscalibration vanishes simultaneously for all downstream decision tasks. We show separations between CDL and existing calibration error metrics, including the most well-studied metric Expected Calibration Error (ECE). Our main technical contribution is a new efficient algorithm for online calibration that achieves near-optimal $O(\frac{\log T}{\sqrt{T}})$ expected CDL, bypassing the $\Omega(T^{-0.472})$ lower bound for ECE by Qiao and Valiant (2021).
翻訳日:2024-11-09 03:03:34 公開日:2024-10-10
# AnySR:イメージの超解像をあらゆる規模、あらゆるソースとして実現

AnySR: Realizing Image Super-Resolution as Any-Scale, Any-Resource ( http://arxiv.org/abs/2407.04241v2 )

ライセンス: Link先を確認
Wengyi Zhan, Mingbao Lin, Chia-Wen Lin, Rongrong Ji, (参考訳) 単一画像超解像(SISR)アプリケーションの効率性とスケーラビリティを向上させるため,既存の任意のスケールのSRメソッドを任意のソース実装に再構築するAnySRを導入する。 同じ計算コストで様々なスケールでSRタスクを解くオフザシェルフの手法とは対照的に、AnySRは次のように革新しています。 1)任意の規模のタスクを任意のリソース実装として構築し、より小さなスケールのリソース要件を追加パラメータなしで削減する。 2) 機能インターウィービング方式で任意のスケール性能を向上し, 一定間隔で機能にスケールペアを挿入し, 適切な機能/スケール処理を実現する。 私たちのAnySRの有効性は、既存の任意の規模のSISRメソッドを再構築し、5つの人気のあるSISRテストデータセットを検証することで完全に実証されています。 その結果,AnySR は SISR タスクをより効率的な計算方式で実装し,既存の任意のスケール SISR メソッドに匹敵する性能を示した。 SISRのタスクは文学におけるあらゆるスケールだけでなく、リソースとしても初めて実現しました。 コードはhttps://github.com/CrispyFeSo4/AnySRで入手できる。

In an effort to improve the efficiency and scalability of single-image super-resolution (SISR) applications, we introduce AnySR, to rebuild existing arbitrary-scale SR methods into any-scale, any-resource implementation. As a contrast to off-the-shelf methods that solve SR tasks across various scales with the same computing costs, our AnySR innovates in: 1) building arbitrary-scale tasks as any-resource implementation, reducing resource requirements for smaller scales without additional parameters; 2) enhancing any-scale performance in a feature-interweaving fashion, inserting scale pairs into features at regular intervals and ensuring correct feature/scale processing. The efficacy of our AnySR is fully demonstrated by rebuilding most existing arbitrary-scale SISR methods and validating on five popular SISR test datasets. The results show that our AnySR implements SISR tasks in a computing-more-efficient fashion, and performs on par with existing arbitrary-scale SISR methods. For the first time, we realize SISR tasks as not only any-scale in literature, but also as any-resource. Code is available at https://github.com/CrispyFeSo4/AnySR.
翻訳日:2024-11-08 23:57:53 公開日:2024-10-10
# サポートセットから判断する: 分割再分別プロセスにFew-Shotセグメンテーションを利用する新しい方法

Judging from Support-set: A New Way to Utilize Few-Shot Segmentation for Segmentation Refinement Process ( http://arxiv.org/abs/2407.04519v2 )

ライセンス: Link先を確認
Seonghyeon Moon, Qingze, Liu, Haein Kong, Muhammad Haris Khan, (参考訳) セグメンテーションの改良は、セグメンテーションアルゴリズムによって生成された初期粗いマスクを強化することを目的としている。 改良されたマスクは、より詳細と、ターゲットの物体の輪郭をよりよく捉えることが期待されている。 セグメンテーションの洗練に関する研究は、高品質な画像セグメンテーションの必要性に応えて発展してきた。 しかし,我々の知る限り,セグメンテーション改良の成功を判断できる手法は開発されていない。 このような手法は、セグメンテーションの結果が重要であるアプリケーションにおけるセグメンテーションの信頼性を確保し、画像処理技術の革新を促進する。 本研究のギャップに対処するため,本研究では,FSSモデルを用いたセグメント分割改良の成功を判断する手法であるJFS(Judging From Support-set)を提案する。 FSSの従来の目標は、サポートセットから与えられたターゲット情報を利用して、クエリ画像中の対象物を見つけることである。 しかし, セグメント化精細化のための評価パイプラインにおいて, FSSモデルの新たな適用法を提案する。 粗いマスクを入力として与えると、分割精製法は洗練されたマスクを生成し、これら2つのマスクはFSSモデルのための新しい支持マスクとなる。 既存のサポートマスクは,FSSモデルの試験セットとしてセグメンテーションの精細化法を用いて精細化の質を評価する。我々は,PASCALデータセット上でのFSSモデルの選択としてSegGPTを用いてSAM拡張Pseduo-Labels (SEPL)を評価することにより,提案するJSSフレームワークの有効性を実証する。 その結果, JFSはセグメンテーション精錬プロセスが成功するかどうかを判断できる可能性が示唆された。

Segmentation refinement aims to enhance the initial coarse masks generated by segmentation algorithms. The refined masks are expected to capture more details and better contours of the target objects. Research on segmentation refinement has developed as a response to the need for high-quality image segmentations. However, to our knowledge, no method has been developed that can determine the success of segmentation refinement. Such a method could ensure the reliability of segmentation in applications where the outcome of the segmentation is important and fosters innovation in image processing technologies. To address this research gap, we propose Judging From Support-set (JFS), a method to judge the success of segmentation refinement leveraging an off-the-shelf few-shot segmentation (FSS) model. The traditional goal of the problem in FSS is to find a target object in a query image utilizing target information given by a support set. However, we propose a novel application of the FSS model in our evaluation pipeline for segmentation refinement methods. Given a coarse mask as input, segmentation refinement methods produce a refined mask; these two masks become new support masks for the FSS model. The existing support mask then serves as the test set for the FSS model to evaluate the quality of the refined segmentation by the segmentation refinement methods.We demonstrate the effectiveness of our proposed JFS framework by evaluating the SAM Enhanced Pseduo-Labels (SEPL) using SegGPT as the choice of FSS model on the PASCAL dataset. The results showed that JFS has the potential to determine whether the segmentation refinement process is successful.
翻訳日:2024-11-08 23:46:45 公開日:2024-10-10
# InsightBench: マルチステップインサイト生成によるビジネス分析エージェントの評価

InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation ( http://arxiv.org/abs/2407.06423v2 )

ライセンス: Link先を確認
Gaurav Sahu, Abhay Puri, Juan Rodriguez, Amirhossein Abaskohi, Mohammad Chegini, Alexandre Drouin, Perouz Taslakian, Valentina Zantedeschi, Alexandre Lacoste, David Vazquez, Nicolas Chapados, Christopher Pal, Sai Rajeswar Mudumba, Issam Hadj Laradji, (参考訳) データ分析は、組織が効果的な意思決定を行うのに役立つデータから貴重な洞察を抽出するために不可欠である。 3つの重要な特徴を持つベンチマークデータセットであるInsightBenchを紹介します。 まず、金融やインシデント管理といったさまざまなビジネスユースケースを表す100のデータセットで構成され、それぞれにデータセットに植えられた、慎重にキュレートされた洞察セットが付属する。 第二に、単一のクエリへの回答に焦点を当てた既存のベンチマークとは異なり、InsightBenchは、質問の定式化、回答の解釈、洞察と実行可能なステップの要約生成を含むエンドツーエンドのデータ分析を実行する能力に基づいて、エージェントを評価する。 第3に、ベンチマークの各データセットが明確な目標を持ち、関連する意味のある質問や分析を含むように、包括的な品質保証を実施しました。 さらに,LLaMA-3を用いた双方向評価機構を実装し,エージェントのインサイト抽出能力を評価する。 また,エンド・ツー・エンドのデータ分析が可能なベースラインデータ解析エージェントであるAgentPoirotを提案する。 InsightBenchの評価は、AgentPoirotが単一クエリの解決にフォーカスした既存のアプローチ(Pandas Agentなど)より優れていることを示している。 また,オープンソース LLM とクローズドソース LLM の性能および各種評価戦略を比較した。 全体として、このベンチマークは包括的な自動データ分析のさらなる開発を動機付けるためのテストベッドとして機能する。

Data analytics is essential for extracting valuable insights from data that can assist organizations in making effective decisions. We introduce InsightBench, a benchmark dataset with three key features. First, it consists of 100 datasets representing diverse business use cases such as finance and incident management, each accompanied by a carefully curated set of insights planted in the datasets. Second, unlike existing benchmarks focusing on answering single queries, InsightBench evaluates agents based on their ability to perform end-to-end data analytics, including formulating questions, interpreting answers, and generating a summary of insights and actionable steps. Third, we conducted comprehensive quality assurance to ensure that each dataset in the benchmark had clear goals and included relevant and meaningful questions and analysis. Furthermore, we implement a two-way evaluation mechanism using LLaMA-3 as an effective, open-source evaluator to assess agents' ability to extract insights. We also propose AgentPoirot, our baseline data analysis agent capable of performing end-to-end data analytics. Our evaluation on InsightBench shows that AgentPoirot outperforms existing approaches (such as Pandas Agent) that focus on resolving single queries. We also compare the performance of open- and closed-source LLMs and various evaluation strategies. Overall, this benchmark serves as a testbed to motivate further development in comprehensive automated data analytics.
翻訳日:2024-11-08 23:13:33 公開日:2024-10-10
# LLM vs. 人間によって認可された文書の弁護士の選好について

It Cannot Be Right If It Was Written by AI: On Lawyers' Preferences of Documents Perceived as Authored by an LLM vs a Human ( http://arxiv.org/abs/2407.06798v2 )

ライセンス: Link先を確認
Jakub Harasta, Tereza Novotná, Jaromir Savelka, (参考訳) 大きな言語モデル(LLM)は、ある種類の法律文書を自動的に生成する未来を可能にする。 これは、法的なプロセスを合理化し、法的なサービスのコストを下げ、司法へのアクセスを劇的に増やす大きな可能性を秘めている。 多くの研究者は、法的領域におけるタスクをサポートするLLMベースのアプリケーションの提案と評価に重点を置いているが、法律専門家がLLMがそれを生成したと信じている場合、どのようにコンテンツが知覚されるかについて、注目すべき調査が欠如している。 しかし、過信や根拠のない懐疑論が、そのような文書が適切な法的結果をもたらすかどうかに影響を及ぼす可能性があるため、これは重要なポイントである。 この研究は、成熟した生成AIシステムへの継続的な移行の必要な分析である。 具体的には,弁護士や法学部生(n=75)による「法的文書の認識」が,その起源(人間工法とAI生成法)によって異なるかを検討した。 参加者は、その正しさと言語質に焦点をあてて、文書を評価した。 我々の分析では、AIによって生成されたと考えられるものよりも、人間によって作成されたと考えられる文書が明らかに好まれていた。 同時に、ほとんどの参加者は、ドキュメントが自動的に生成される未来を期待しています。 これらの知見は、法律実務者、政策立案者、立法者が法的文書生成技術の実装と採用を責任を持って行い、最近の技術発展を反映して法プロセスの更新を行うために必要な議論を促進するために活用することができる。

Large Language Models (LLMs) enable a future in which certain types of legal documents may be generated automatically. This has a great potential to streamline legal processes, lower the cost of legal services, and dramatically increase access to justice. While many researchers focus on proposing and evaluating LLM-based applications supporting tasks in the legal domain, there is a notable lack of investigations into how legal professionals perceive content if they believe an LLM has generated it. Yet, this is a critical point as over-reliance or unfounded scepticism may influence whether such documents bring about appropriate legal consequences. This study is the necessary analysis of the ongoing transition towards mature generative AI systems. Specifically, we examined whether the perception of legal documents' by lawyers and law students (n=75) varies based on their assumed origin (human-crafted vs AI-generated). The participants evaluated the documents, focusing on their correctness and language quality. Our analysis revealed a clear preference for documents perceived as crafted by a human over those believed to be generated by AI. At the same time, most participants expect the future in which documents will be generated automatically. These findings could be leveraged by legal practitioners, policymakers, and legislators to implement and adopt legal document generation technology responsibly and to fuel the necessary discussions on how legal processes should be updated to reflect recent technological developments.
翻訳日:2024-11-08 23:02:19 公開日:2024-10-10
# 言語モデルにおける自己認識

Self-Recognition in Language Models ( http://arxiv.org/abs/2407.06946v2 )

ライセンス: Link先を確認
Tim R. Davidson, Viacheslav Surkov, Veniamin Veselovsky, Giuseppe Russo, Robert West, Caglar Gulcehre, (参考訳) 急速に増加するアプリケーションの数は、少数のクローズドソース言語モデル(LM)に依存している。 この依存は、LMが自己認識能力を発達させる場合、新たなセキュリティリスクをもたらす可能性がある。 人間の身元認証手法に着想を得て,モデル生成した「セキュリティ問題」を用いてLMの自己認識を評価する新しい手法を提案する。 我々のテストは、内部モデルパラメータや出力確率へのアクセスを必要としないため、フロンティアモデルを監視するために外部的に管理することができる。 現在公開されている最も有能なオープンソースかつクローズドなLMのうち10つにおいて、私たちのテストを使って自己認識を検証しています。 広範囲な実験で、検査されたLMでは、一般的な自己認識や一貫した自己認識の実証的証拠は見つからなかった。 代わりに、我々の結果は、一組の代替案が与えられた場合、LMはその起源に関係なく「ベスト」な答えを選択しようとすることを示唆している。 さらに,どのモデルが最適な解答を生成するかという選好が,LM間で一致していることを示す。 また,複数選択条件下でのLMの位置偏差に関する新たな知見も明らかにした。

A rapidly growing number of applications rely on a small set of closed-source language models (LMs). This dependency might introduce novel security risks if LMs develop self-recognition capabilities. Inspired by human identity verification methods, we propose a novel approach for assessing self-recognition in LMs using model-generated "security questions". Our test can be externally administered to monitor frontier models as it does not require access to internal model parameters or output probabilities. We use our test to examine self-recognition in ten of the most capable open- and closed-source LMs currently publicly available. Our extensive experiments found no empirical evidence of general or consistent self-recognition in any examined LM. Instead, our results suggest that given a set of alternatives, LMs seek to pick the "best" answer, regardless of its origin. Moreover, we find indications that preferences about which models produce the best answers are consistent across LMs. We additionally uncover novel insights on position bias considerations for LMs in multiple-choice settings.
翻訳日:2024-11-08 22:51:20 公開日:2024-10-10
# 3次元ガウス線トレーシング:粒子シーンの高速トレーシング

3D Gaussian Ray Tracing: Fast Tracing of Particle Scenes ( http://arxiv.org/abs/2407.07090v3 )

ライセンス: Link先を確認
Nicolas Moenne-Loccoz, Ashkan Mirzaei, Or Perel, Riccardo de Lutio, Janick Martinez Esturo, Gavriel State, Sanja Fidler, Nicholas Sharp, Zan Gojcic, (参考訳) 3次元ガウススプラッティングのような粒子に基づく放射場表現は、複雑なシーンの再構成と再レンダリングにおいて大きな成功を収めている。 既存のほとんどの方法は、ラスタ化によって粒子を描画し、それらを選別順序で処理する空間タイルに投影する。 この研究は代わりに粒子をトレースし、境界体積階層を構築し、高性能なGPUレイトレーシングハードウェアを使用して各ピクセルにレイをキャストする。 半透明な粒子を多量に効率的に処理するために,高速な光線三角形の交点を利用するために境界メッシュで粒子をカプセル化し,深度順に交点のバッチをシェードする特殊なレンダリングアルゴリズムについて述べる。 レイトレーシングの利点はコンピュータグラフィックスでよく知られており、影や反射のような二次的な照明効果のための非コヒーレントな光線を処理すること、ロボット工学に共通する高度に歪んだカメラのレンダリング、統計的に光線をサンプリングすることなどである。 我々のレンダラでは、この柔軟性はラスタ化に比べてほとんどコストがかからない。 実験は、我々のアプローチの速度と精度、およびコンピュータグラフィックスとビジョンにおけるいくつかの応用を実証する。 さらに、粒子ヒット数を大幅に削減する一般化されたカーネル関数の簡単な使用を含む、基本ガウス表現に関する関連する改善を提案する。

Particle-based representations of radiance fields such as 3D Gaussian Splatting have found great success for reconstructing and re-rendering of complex scenes. Most existing methods render particles via rasterization, projecting them to screen space tiles for processing in a sorted order. This work instead considers ray tracing the particles, building a bounding volume hierarchy and casting a ray for each pixel using high-performance GPU ray tracing hardware. To efficiently handle large numbers of semi-transparent particles, we describe a specialized rendering algorithm which encapsulates particles with bounding meshes to leverage fast ray-triangle intersections, and shades batches of intersections in depth-order. The benefits of ray tracing are well-known in computer graphics: processing incoherent rays for secondary lighting effects such as shadows and reflections, rendering from highly-distorted cameras common in robotics, stochastically sampling rays, and more. With our renderer, this flexibility comes at little cost compared to rasterization. Experiments demonstrate the speed and accuracy of our approach, as well as several applications in computer graphics and vision. We further propose related improvements to the basic Gaussian representation, including a simple use of generalized kernel functions which significantly reduces particle hit counts.
翻訳日:2024-11-08 22:51:19 公開日:2024-10-10
# オンライン連続学習における破滅的予測不確実性評価の活用

How to Leverage Predictive Uncertainty Estimates for Reducing Catastrophic Forgetting in Online Continual Learning ( http://arxiv.org/abs/2407.07668v2 )

ライセンス: Link先を確認
Giuseppe Serra, Ben Werner, Florian Buettner, (参考訳) 多くの現実世界のアプリケーションは、非定常的なデータ分散を扱うために機械学習モデルを必要とし、多くの場合、オンライン環境で、長期間にわたって自律的に学習する。 このシナリオの主な課題の1つは、学習モデルが最新のタスクに集中する一方で、古いタスクに対する予測的劣化を経験する、いわゆる破滅的な忘れ(CF)である。 オンライン環境では、最も効果的なソリューションは、新しいタスクのトレーニングに使用される古いサンプルを格納するために、固定サイズのメモリバッファを使用する。 この問題に対処するための多くのアプローチが提示されている。 しかし、メモリ管理のための予測不確実性情報を最も効果的に活用する方法は明らかではなく、メモリを投入するための競合戦略が提案されている。 CFと戦うのに最も簡単か、最も簡単に記録できるサンプルは、より効果的か? 予測の不確実性は、決定空間におけるサンプルの位置のアイデアを提供するという直感から始まり、この研究は異なる不確実性推定の詳細な分析とメモリの投入戦略を示す。 この調査は、CFを緩和するためにデータポイントが持つべき特性をよりよく理解します。 そこで本研究では,負の対数類似度によって誘導される一般化分散を用いて予測の不確かさを推定する手法を提案する。 最後に、予測不確実性対策を用いることで、異なる設定でのCFの削減に役立つことを実証する。

Many real-world applications require machine-learning models to be able to deal with non-stationary data distributions and thus learn autonomously over an extended period of time, often in an online setting. One of the main challenges in this scenario is the so-called catastrophic forgetting (CF) for which the learning model tends to focus on the most recent tasks while experiencing predictive degradation on older ones. In the online setting, the most effective solutions employ a fixed-size memory buffer to store old samples used for replay when training on new tasks. Many approaches have been presented to tackle this problem. However, it is not clear how predictive uncertainty information for memory management can be leveraged in the most effective manner and conflicting strategies are proposed to populate the memory. Are the easiest-to-forget or the easiest-to-remember samples more effective in combating CF? Starting from the intuition that predictive uncertainty provides an idea of the samples' location in the decision space, this work presents an in-depth analysis of different uncertainty estimates and strategies for populating the memory. The investigation provides a better understanding of the characteristics data points should have for alleviating CF. Then, we propose an alternative method for estimating predictive uncertainty via the generalised variance induced by the negative log-likelihood. Finally, we demonstrate that the use of predictive uncertainty measures helps in reducing CF in different settings.
翻訳日:2024-11-08 22:40:08 公開日:2024-10-10
# PaliGemma: 転送のための多用途3B VLM

PaliGemma: A versatile 3B VLM for transfer ( http://arxiv.org/abs/2407.07726v2 )

ライセンス: Link先を確認
Lucas Beyer, Andreas Steiner, André Susano Pinto, Alexander Kolesnikov, Xiao Wang, Daniel Salz, Maxim Neumann, Ibrahim Alabdulmohsin, Michael Tschannen, Emanuele Bugliarello, Thomas Unterthiner, Daniel Keysers, Skanda Koppula, Fangyu Liu, Adam Grycner, Alexey Gritsenko, Neil Houlsby, Manoj Kumar, Keran Rong, Julian Eisenschlos, Rishabh Kabra, Matthias Bauer, Matko Bošnjak, Xi Chen, Matthias Minderer, Paul Voigtlaender, Ioana Bica, Ivana Balazevic, Joan Puigcerver, Pinelopi Papalampidi, Olivier Henaff, Xi Xiong, Radu Soricut, Jeremiah Harmsen, Xiaohua Zhai, (参考訳) PaliGemmaはオープンビジョン言語モデル(VLM)であり、SigLIP-So400mビジョンエンコーダとGemma-2B言語モデルに基づいている。 移動に有効な多目的で広く理解可能なベースモデルであるように訓練されている。 さまざまなオープンワールドタスクにおいて、強力なパフォーマンスを実現している。 我々は、標準的なVLMベンチマークを含む約40のタスクに対して、PaliGemmaを評価するとともに、リモートセンシングやセグメンテーションといった専門的なタスクも評価する。

PaliGemma is an open Vision-Language Model (VLM) that is based on the SigLIP-So400m vision encoder and the Gemma-2B language model. It is trained to be a versatile and broadly knowledgeable base model that is effective to transfer. It achieves strong performance on a wide variety of open-world tasks. We evaluate PaliGemma on almost 40 diverse tasks including standard VLM benchmarks, but also more specialized tasks such as remote-sensing and segmentation.
翻訳日:2024-11-08 22:40:08 公開日:2024-10-10
# キーポイント駆動数理推論による大言語モデルの蒸留

Key-Point-Driven Mathematical Reasoning Distillation of Large Language Model ( http://arxiv.org/abs/2407.10167v4 )

ライセンス: Link先を確認
Xunyu Zhu, Jian Li, Can Ma, Weiping Wang, (参考訳) 大規模言語モデル(LLM)は、広範囲なパラメータ数と膨大なデータセットのトレーニングのため、数学的推論タスクにおいて例外的な習熟度を示してきた。 これらの機能にもかかわらず、LSMのデプロイは計算上の要求によって妨げられる。 LLMの数学的推論をSmaller Language Models (SLM) に拡張することはこの問題の解決法として現れてきたが、これらの小さなモデルは計算や意味理解の誤りに悩まされることが多い。 従来の研究では計算誤差を避けるためにPoTD(Program-of-Thought Distillation)が提案されていた。 意味理解の誤りに対処するため,キーポイント駆動型数学的推論蒸留(KPDD)を提案する。 KPDDは、問題解決プロセスを3段階に分割することで、SLMの推論性能を向上させる。 さらに、この手法を KPDD-CoT と KPDD-PoT に分割し、プログラム・オブ・ソート・論理を生成する。 実験の結果, KPDD-CoTは推論能力を大幅に向上する一方, KPDD-PoTは数学的推論タスクの最先端性能を達成することがわかった。 提案手法は, 誤りを効果的に軽減し, 効率的かつ有能なSLMの展開を推し進める。

Large Language Models (LLMs) have demonstrated exceptional proficiency in mathematical reasoning tasks due to their extensive parameter counts and training on vast datasets. Despite these capabilities, deploying LLMs is hindered by their computational demands. Distilling LLM mathematical reasoning into Smaller Language Models (SLMs) has emerged as a solution to this challenge, although these smaller models often suffer from errors in calculation and semantic understanding. Prior work has proposed Program-of-Thought Distillation (PoTD) to avoid calculation error. To further address semantic understanding errors, we propose Key-Point-Driven Mathematical Reasoning Distillation (KPDD). KPDD enhances the reasoning performance of SLMs by breaking down the problem-solving process into three stages: Core Question Extraction, Problem-Solving Information Extraction, and Step-by-Step Solution. This method is further divided into KPDD-CoT, which generates Chain-of-Thought rationales, and KPDD-PoT, which creates Program-of-Thought rationales. The experiment results show that KPDD-CoT significantly improves reasoning abilities, while KPDD-PoT achieves state-of-the-art performance in mathematical reasoning tasks. Our approach effectively mitigates misunderstanding errors, advancing the deployment of efficient and capable SLMs.
翻訳日:2024-11-08 21:43:45 公開日:2024-10-10
# 圧縮フォック状態の生成のための制御Z動作とビームスプリッタ変換の比較

Comparison of Controlled-Z operation and beam-splitter transformation for generation of squeezed Fock states by measurement ( http://arxiv.org/abs/2407.11193v2 )

ライセンス: Link先を確認
E. N. Bashmakova, S. B. Korolev, T. Yu. Golubeva, (参考訳) ビームスプリッタと制御Z演算を用いた2モード絡み合ったガウス状態からの1つ以上の光子サブトラクションによる圧縮フォック状態の生成に対処する。 2つの異なる観点から、プロトコル内の2つの絡み合い変換を解析した。 分析手法のエネルギーコストと資源要件について検討した。 さらに, 粒子数の測定により生成した非ガウス状態に対する実験欠陥の影響について検討した。 我々は,光子損失と不完全な検出器がFock状態発生プロトコルに及ぼす影響を調べた。

The generation of squeezed Fock states by the one or more photon subtraction from a two-mode entangled Gaussian state using a beam splitter and a controlled-Z operation is addressed. From two different perspectives, we analyzed two entanglement transformations in the protocol. We evaluated the energy costs and resource requirements of the analyzed schemes. Furthermore, we studied the impact of experimental imperfections on the non-Gaussian states generated by measuring the number of particles. We explored the effects of photon loss and imperfect detectors on the squeezed Fock state generation protocol.
翻訳日:2024-11-08 21:21:36 公開日:2024-10-10
# dS, AdS, Minkowski空間の重力的に支配されるインスタントンと不安定性

Gravitationally dominated instantons and instability of dS, AdS and Minkowski spaces ( http://arxiv.org/abs/2407.11221v2 )

ライセンス: Link先を確認
Viatcheslav F. Mukhanov, Yaron Oz, Alexander S. Sorin, (参考訳) 量子場理論解析が有効でない状態において、重力効果が重要になるため、偽真空の崩壊を研究する。 これは、偽と真真空を分離する障壁の高さが大きいときに起こり、デ・シッター、ミンコフスキーおよび反デ・シッター真空の不安定性に影響を及ぼす。 我々は重力に結合したポテンシャルを持つスカラー場の計算を行い、気泡壁が気泡の大きさよりも薄いような薄い壁近似の中で作業する。 擬似ド・ジッター真空は、擬似真空と比較して電位の高さと真真空の相対深さとは無関係に不安定であることを示す。 偽ミンコフスキーと反ド・ジッター真空は、より低いエネルギー真真空が存在するにもかかわらず安定である。 しかし、真と偽の真空の相対的な深さが、偽真空のポテンシャルと障壁の高さに依存する臨界値を超えると、偽のミンコフスキーと反ド・ジッターの真空は不安定になる。 我々は、場ポテンシャルを特徴づけるパラメータの関数として、偽ド・ジッター、ミンコフスキー、反ド・ジッター真空の崩壊確率を計算する。

We study the decay of the false vacuum in the regime where the quantum field theory analysis is not valid, since gravitational effects become important. This happens when the height of the barrier separating the false and the true vacuum is large, and it has implications for the instability of de Sitter, Minkowski and anti-de Sitter vacua. We carry out the calculations for a scalar field with a potential coupled to gravity, and work within the thin-wall approximation, where the bubble wall is thin compared to the size of the bubble. We show that the false de Sitter vacuum is unstable, independently of the height of the potential and the relative depth of the true vacuum compared to the false vacuum. The false Minkowski and anti-de Sitter vacua can be stable despite the existence of a lower energy true vacuum. However, when the relative depth of the true and false vacua exceeds a critical value, which depends on the potential of the false vacuum and the height of the barrier, then the false Minkowski and anti-de Sitter vacua become unstable. We calculate the probability for the decay of the false de Sitter, Minkowski and anti-de Sitter vacua, as a function of the parameters characterizing the field potential.
翻訳日:2024-11-08 21:21:36 公開日:2024-10-10
# Visual Haystacks: ビジョン中心のニードルイン・ア・ヘイスタックベンチマーク

Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark ( http://arxiv.org/abs/2407.13766v2 )

ライセンス: Link先を確認
Tsung-Han Wu, Giscard Biamby, Jerome Quenum, Ritwik Gupta, Joseph E. Gonzalez, Trevor Darrell, David M. Chan, (参考訳) 大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。 長文LMMのような最近の進歩により、より大きく、あるいは複数の画像を取り込むことが可能になった。 しかし、多数の視覚トークンを処理できることは、特に写真アルバム検索や衛星画像解析のような現実世界のアプリケーションにおいて、MIQA(Multi-image Question answering)の効果的な検索と推論を保証するものではない。 本研究では,長文LMMに対する現在のベンチマークの限界をまず評価する。 これらの制限に対処するため、視覚中心の長文ベンチマーク"Visual Haystacks (VHs)"を導入する。 我々は、VHs上でのオープンソースモデルとプロプライエタリモデルの両方を総合的に評価し、これらのモデルが、潜在的に無関係な画像を推論する際に苦戦し、クロスイメージ推論では性能が悪く、コンテキストウィンドウ内のキー情報の配置に基づくバイアスを示すことを実証した。 MIRAGE(Multi-Image Retrieval Augmented Generation)は、オープンソースの軽量ビジュアルRAGフレームワークで、単一の40G A100 GPU上で最大10Kイメージを処理する。 MIRAGEは、VHs上の既存のオープンソースLMMよりも最大13%の性能向上を示し、RetVQAマルチイメージQAベンチマークに新しい最先端の技術をセットし、最先端のLMMを持つシングルイメージQA上での競争性能を達成する。

Large Multimodal Models (LMMs) have made significant strides in visual question-answering for single images. Recent advancements like long-context LMMs have allowed them to ingest larger, or even multiple, images. However, the ability to process a large number of visual tokens does not guarantee effective retrieval and reasoning for multi-image question answering (MIQA), especially in real-world applications like photo album searches or satellite imagery analysis. In this work, we first assess the limitations of current benchmarks for long-context LMMs. We address these limitations by introducing a new vision-centric, long-context benchmark, "Visual Haystacks (VHs)". We comprehensively evaluate both open-source and proprietary models on VHs, and demonstrate that these models struggle when reasoning across potentially unrelated images, perform poorly on cross-image reasoning, as well as exhibit biases based on the placement of key information within the context window. Towards a solution, we introduce MIRAGE (Multi-Image Retrieval Augmented Generation), an open-source, lightweight visual-RAG framework that processes up to 10k images on a single 40G A100 GPU -- far surpassing the 1k-image limit of contemporary models. MIRAGE demonstrates up to 13% performance improvement over existing open-source LMMs on VHs, sets a new state-of-the-art on the RetVQA multi-image QA benchmark, and achieves competitive performance on single-image QA with state-of-the-art LMMs.
翻訳日:2024-11-08 20:01:00 公開日:2024-10-10
# 光行列乗算による量子コンピューティングのシミュレーション

Emulating quantum computing with optical matrix multiplication ( http://arxiv.org/abs/2407.14178v3 )

ライセンス: Link先を確認
Mwezi Koni, Hadrian Bezuidenhout, Isaac Nape, (参考訳) 光コンピューティングは光の速度を利用してベクトル行列演算を効率的に行う。 並列計算を可能にするために、量子コンピューティングアルゴリズムの基盤である干渉を利用する。 本研究では、状態重畳などの量子力学的原理を用いてフォトニック行列乗法(英語版)の過程を定式化し、量子コンピューティングと古典的構造光を織り交ぜ、次いでよく知られたアルゴリズム、すなわちDeutsch-Jozsaのアルゴリズムを実証する。 これは、光学ベクトル行列乗法の主要な資源である光の自由度(英語版)における固有のテンソル積構造を解明することで達成される。 この目的のために、格子状に配置された局所ガウスモードを用いて離散基底を確立し、アダマール門の動作を実証する。 空間光変調器の再生可能およびデジタル機能を活用し、レンズによるフーリエ変換と組み合わせることで、我々は様々なアルゴリズムに適応できることを証明した。 そこで本研究は,量子情報処理における構造化光の利用を推し進める。

Optical computing harnesses the speed of light to perform vector-matrix operations efficiently. It leverages interference, a cornerstone of quantum computing algorithms, to enable parallel computations. In this work, we interweave quantum computing with classical structured light by formulating the process of photonic matrix multiplication using quantum mechanical principles such as state superposition and subsequently demonstrate a well known algorithm, namely the Deutsch-Jozsa's algorithm. This is accomplished by elucidating the inherent tensor product structure within the Cartesian transverse degrees of freedom of light, which is the main resource for optical vector-matrix multiplication. To this end, we establish a discrete basis using localized Gaussian modes arranged in a lattice formation and demonstrate the operation of a Hadamard Gate. Leveraging the reprogrammable and digital capabilities of spatial light modulators, coupled with Fourier transforms by lenses, our approach proves adaptable to various algorithms. Therefore our work advances the use of structured light for quantum information processing.
翻訳日:2024-11-08 19:38:31 公開日:2024-10-10
# 光行列乗算による量子コンピューティングのシミュレーション

Emulating quantum computing with optical matrix multiplication ( http://arxiv.org/abs/2407.14178v4 )

ライセンス: Link先を確認
Mwezi Koni, Hadrian Bezuidenhout, Isaac Nape, (参考訳) 光コンピューティングは光の速度を利用してベクトル行列演算を効率的に行う。 並列計算を可能にするために、量子コンピューティングアルゴリズムの基盤である干渉を利用する。 本研究では、状態重畳などの量子力学的原理を用いてフォトニック行列乗法(英語版)の過程を定式化し、量子コンピューティングと古典的構造光を織り交ぜ、次いでよく知られたアルゴリズム、すなわちDeutsch-Jozsaのアルゴリズムを実証する。 これは、光学ベクトル行列乗法の主要な資源である光の自由度(英語版)における固有のテンソル積構造を解明することで達成される。 この目的のために、格子状に配置された局所ガウスモードを用いて離散基底を確立し、アダマール門の動作を実証する。 空間光変調器の再生可能およびデジタル機能を活用し、レンズによるフーリエ変換と組み合わせることで、我々は様々なアルゴリズムに適応できることを証明した。 そこで本研究は,量子情報処理における構造化光の利用を推し進める。

Optical computing harnesses the speed of light to perform vector-matrix operations efficiently. It leverages interference, a cornerstone of quantum computing algorithms, to enable parallel computations. In this work, we interweave quantum computing with classical structured light by formulating the process of photonic matrix multiplication using quantum mechanical principles such as state superposition and subsequently demonstrate a well known algorithm, namely the Deutsch-Jozsa's algorithm. This is accomplished by elucidating the inherent tensor product structure within the Cartesian transverse degrees of freedom of light, which is the main resource for optical vector-matrix multiplication. To this end, we establish a discrete basis using localized Gaussian modes arranged in a lattice formation and demonstrate the operation of a Hadamard Gate. Leveraging the reprogrammable and digital capabilities of spatial light modulators, coupled with Fourier transforms by lenses, our approach proves adaptable to various algorithms. Therefore our work advances the use of structured light for quantum information processing.
翻訳日:2024-11-08 19:38:31 公開日:2024-10-10
# 大規模言語モデルを用いたマルチエージェント因果探索

Multi-Agent Causal Discovery Using Large Language Models ( http://arxiv.org/abs/2407.15073v2 )

ライセンス: Link先を確認
Hao Duong Le, Xin Xia, Zhang Chen, (参考訳) 大規模言語モデル(LLM)は、広範囲なテキストコーパスからの膨大な知識を活用することにより、因果発見タスクにおいて有意義な可能性を証明している。 しかし、因果発見におけるLLMのマルチエージェント能力はいまだ未解明のままである。 本稿では,この可能性を検討するための一般的な枠組みを紹介する。 第一にメタエージェントモデル(Meta Agents Model)は、因果発見を行うためのLSMエージェント間の推論と議論にのみ依存している。 2つ目は、エージェントの計画、書き込み、実行能力を活用し、高度な統計ライブラリを使用して因果発見を行うコーディングエージェントモデルである。 3つ目はHybrid Modelで、Meta Agents ModelとCodingAgents Modelのアプローチを統合し、複数のエージェントの統計分析と推論スキルを組み合わせる。 提案フレームワークは,LSMの専門知識,推論能力,マルチエージェント協調,統計的因果的手法を効果的に活用することで,有望な結果を示す。 LLMのマルチエージェントの可能性を探ることにより、因果関係の問題を解決するためにLLMのマルチエージェントを活用するためのさらなる研究の基盤を確立することを目指している。

Large Language Models (LLMs) have demonstrated significant potential in causal discovery tasks by utilizing their vast expert knowledge from extensive text corpora. However, the multi-agent capabilities of LLMs in causal discovery remain underexplored. This paper introduces a general framework to investigate this potential. The first is the Meta Agents Model, which relies exclusively on reasoning and discussions among LLM agents to conduct causal discovery. The second is the Coding Agents Model, which leverages the agents' ability to plan, write, and execute code, utilizing advanced statistical libraries for causal discovery. The third is the Hybrid Model, which integrates both the Meta Agents Model and CodingAgents Model approaches, combining the statistical analysis and reasoning skills of multiple agents. Our proposed framework shows promising results by effectively utilizing LLMs expert knowledge, reasoning capabilities, multi-agent cooperation, and statistical causal methods. By exploring the multi-agent potential of LLMs, we aim to establish a foundation for further research in utilizing LLMs multi-agent for solving causal-related problems.
翻訳日:2024-11-08 15:56:37 公開日:2024-10-10
# シャープはアグリゲートエキスパートエラーに縛られる

Sharp bounds on aggregate expert error ( http://arxiv.org/abs/2407.16642v3 )

ライセンス: Link先を確認
Aryeh Kontorovich, (参考訳) 我々は、条件に依存しない専門家からのバイナリアドバイスを集約する古典的な問題を再考する。 我々の関心事は、最適決定規則の誤り確率である。 対称誤差(感度 = 特異性)の場合、最適誤差確率の厳密な境界が知られている。 一般の非対称の場合、この量に関する非自明な推定を意識していない。 我々の貢献は、一般の場合における最適誤差確率の鋭い上と下の境界から成り、対称特殊の場合において最もよく知られた結果を回復し、鋭くする。 これは2つの積分布間の総変動距離を推定するのと等価であることが判明したので、この重要かつ挑戦的な問題にも関係している。

We revisit the classic problem of aggregating binary advice from conditionally independent experts, also known as the Naive Bayes setting. Our quantity of interest is the error probability of the optimal decision rule. In the case of symmetric errors (sensitivity = specificity), reasonably tight bounds on the optimal error probability are known. In the general asymmetric case, we are not aware of any nontrivial estimates on this quantity. Our contribution consists of sharp upper and lower bounds on the optimal error probability in the general case, which recover and sharpen the best known results in the symmetric special case. Since this turns out to be equivalent to estimating the total variation distance between two product distributions, our results also have bearing on this important and challenging problem.
翻訳日:2024-11-08 15:34:26 公開日:2024-10-10
# インテリジェンスを形作る:なぜ生成的人工知能は教育を弱める必要がないのか

Shaping Integrity: Why Generative Artificial Intelligence Does Not Have to Undermine Education ( http://arxiv.org/abs/2407.19088v2 )

ライセンス: Link先を確認
Myles Joshua Toledo Tan, Nicholle Mae Amor Tan Maravilla, (参考訳) 本稿では,学習環境における学術的整合性向上における生成人工知能(GAI)の役割について検討する。 それは、AIが教室に倫理的に統合され、学習経験を高め、本質的なモチベーションを育み、学生の自発的な行動変化をサポートする方法を探求する。 この論文は、非オントロジー倫理、コンセクチュリズム、構成主義学習、自己決定理論(SDT)のような確立された倫理的枠組みや教育理論を分析することによって、GAIは、責任を持って使用されるとデジタルリテラシーを高め、真の知識構築を促進し、教育における倫理的基準を守れると論じている。 この研究は、生徒が現代世界の複雑さを倫理的かつ効果的にナビゲートするための、豊かでパーソナライズされた学習環境を構築するための、GAIの可能性を強調している。

This paper examines the role of generative artificial intelligence (GAI) in promoting academic integrity within educational settings. It explores how AI can be ethically integrated into classrooms to enhance learning experiences, foster intrinsic motivation, and support voluntary behavior change among students. By analyzing established ethical frameworks and educational theories such as deontological ethics, consequentialism, constructivist learning, and Self-Determination Theory (SDT), the paper argues that GAI, when used responsibly, can enhance digital literacy, encourage genuine knowledge construction, and uphold ethical standards in education. This research highlights the potential of GAI to create enriching, personalized learning environments that prepare students to navigate the complexities of the modern world ethically and effectively.
翻訳日:2024-11-08 14:38:53 公開日:2024-10-10
# 大規模言語モデルの記憶効率向上のためのミニバッチコアセット

Mini-batch Coresets for Memory-efficient Training of Large Language Models ( http://arxiv.org/abs/2407.19580v2 )

ライセンス: Link先を確認
Dang Nguyen, Wenhan Yang, Rathul Anand, Yu Yang, Baharan Mirzasoleiman, (参考訳) より大型のミニバッチによるトレーニングは収束率を向上し、優れたパフォーマンスが得られる。 しかし、大きなGPUメモリを必要とするため、大規模言語モデル(LLM)では、大規模なミニバッチによるトレーニングが禁止される。 この問題に対処する効果的なアプローチは、より大きなミニバッチの勾配によく一致する小さなミニバッチコアセットを見つけることである。 しかし、言語データのソースの高度に不均衡な性質、アダム・オプティマイザの使用、およびLLMの非常に大きな勾配次元性により、このアプローチはLLMにとって実現不可能で効果の低いものとなる。 本研究では,コアセットを用いたLLM(Coresets for Training LLM)を提案することで,上記の課題に対処する。 まず、勾配マッチングによって発見されたミニバッチコアセットは、小さなソースw.h.p.の代表的な例を含まないので、ミニバッチコアセット内の小さなソースのすべての例を含むことは、最適なパフォーマンスに不可欠であることを示す。 第2に、アダムのトレーニングのためのミニバッチコアセットを見つけるために、歴史的指数関数による勾配の正規化を行う。 最後に、ゼロ階法を利用して、最後のV-射影行列の滑らかな勾配を見つけ、その次元を最大正規化勾配等級で維持する。 We apply CoLM to fine-tuning Phi-2, Phi-3, Zephyr with LoRA on Math Instruct and SuperGLUE benchmark。 注目すべきは、CoLMは微調整のメモリ要件を2倍に減らし、さらに4倍大きなミニバッチでトレーニングを上回ります。 特に、CoLMはLoRAのような既存のメモリ効率のトレーニング手法で簡単にスタックできる。

Training with larger mini-batches improves the convergence rate and can yield superior performance. However, training with large mini-batches becomes prohibitive for Large Language Models (LLMs), due to the large GPU memory requirement. To address this problem, an effective approach is finding small mini-batch coresets that closely match the gradient of larger mini-batches. However, this approach becomes infeasible and ineffective for LLMs, due to the highly imbalanced nature of the sources in language data, use of the Adam optimizer, and the very large gradient dimensionality of LLMs. In this work, we address the above challenges by proposing Coresets for Training LLMs (CoLM). First, we show that mini-batch coresets found by gradient matching do not contain representative examples of the small sources w.h.p., and thus including all examples of the small sources in the mini-batch coresets is crucial for optimal performance. Second, we normalize the gradients by their historical exponential to find mini-batch coresets for training with Adam. Finally, we leverage zeroth-order methods to find smooth gradient of the last V -projection matrix and sparsify it to keep the dimensions with the largest normalized gradient magnitude. We apply CoLM to fine-tuning Phi-2, Phi-3, and Zephyr with LoRA on MathInstruct and SuperGLUE benchmark. Remarkably, CoLM reduces the memory requirement of fine-tuning by 2x and even outperforms training with 4x larger mini-batches. Notably, CoLM easily stack with existing memory-efficient training methods, such as LoRA.
翻訳日:2024-11-08 14:27:29 公開日:2024-10-10
# 因果効果マップを用いた低レベル視覚モデルの解析

Interpreting Low-level Vision Models with Causal Effect Maps ( http://arxiv.org/abs/2407.19789v2 )

ライセンス: Link先を確認
Jinfan Hu, Jinjin Gu, Shiyao Yu, Fanghua Yu, Zheyuan Li, Zhiyuan You, Chaochao Lu, Chao Dong, (参考訳) ディープニューラルネットワークは低レベルの視覚タスクの性能を大幅に向上させたが、解釈の難しさも増した。 ディープモデルに対する深い理解は、ネットワーク設計と実用的な信頼性の両方に有益である。 この課題を克服するために、低レベル視覚モデルを理解するために因果理論を導入し、因果効果マップ(CEM)と呼ばれるモデル/タスクに依存しない手法を提案する。 CEMでは、正か負かのいずれかの効果で入力と出力の関係を可視化し、定量化することができる。 CEMを用いて様々な低レベル視覚タスクを分析した後、(1)入力画像(例えば、より大きな受容野)のより多くの情報を使用することで、必ずしも肯定的な結果が得られない、といった興味深い知見を得た。 2)大域的受容野(例えばチャネルアテンション)に機構を組み込もうとする試みは,画像のデノナイジングに無駄である可能性が示唆された。 (3) 汎用モデルを訓練するために複数のタスクを統合することで,グローバルなコンテキストよりもローカル情報を優先するネットワークが促進される可能性がある。 因果効果理論に基づいて、提案した診断ツールは、私たちの共通知識をリフレッシュし、低レベルの視覚モデルについてより深い理解をもたらすことができる。 コードはhttps://github.com/J-FHu/CEMで入手できる。

Deep neural networks have significantly improved the performance of low-level vision tasks but also increased the difficulty of interpretability. A deep understanding of deep models is beneficial for both network design and practical reliability. To take up this challenge, we introduce causality theory to interpret low-level vision models and propose a model-/task-agnostic method called Causal Effect Map (CEM). With CEM, we can visualize and quantify the input-output relationships on either positive or negative effects. After analyzing various low-level vision tasks with CEM, we have reached several interesting insights, such as: (1) Using more information of input images (e.g., larger receptive field) does NOT always yield positive outcomes. (2) Attempting to incorporate mechanisms with a global receptive field (e.g., channel attention) into image denoising may prove futile. (3) Integrating multiple tasks to train a general model could encourage the network to prioritize local information over global context. Based on the causal effect theory, the proposed diagnostic tool can refresh our common knowledge and bring a deeper understanding of low-level vision models. Codes are available at https://github.com/J-FHu/CEM.
翻訳日:2024-11-08 14:27:29 公開日:2024-10-10
# シエルピエスキーガスケット上のハルデンモデル

Haldane model on the Sierpiński gasket ( http://arxiv.org/abs/2407.20075v2 )

ライセンス: Link先を確認
Zebedeus Osseweijer, Lumen Eek, Anouar Moustaj, Mikael Fremling, Cristiane Morais Smith, (参考訳) Sierpi\nskiガスケット上のHaldaneモデルの位相位相について検討する。 フラクタル幾何学の結果、複数のフラクタルギャップが生じる。 さらに、平らなバンドが出現し、複雑な隣のアレストホッピングのため、このバンドは分裂し、複数のトポロジカルフラックスによって引き起こされるギャップが出現する。 モデルのフラクタル性のため、従来の運動量空間の位相不変式は使用できない。 したがって、実空間チャーン数の観点からシステムのトポロジーを特徴づける。 さらに、トポロジカル状態の障害に対する堅牢性を検証する。 最後にフラクタルギャップとフラックス誘起ギャップの相図を示す。 同様のシステムに関する以前の研究は、フラクタル性はよく知られたハルデン相図を「スクイーズ」すると主張している。 しかし、この結果は2つのSierpi\nskiガスケットを接着した二重系が検討されたためである。 我々は、Sierpi\'nskiガスケットのコピーを一つだけ考え、グローバルな自己相似性を維持している。 これらの結果とは対照的に、この単一フラクタルの位相図では複雑で複雑なパターンが見つかる。 我々の研究は、モデルのフラクタル性がこれらの構造の位相空間に大きな影響を与え、フラクタルとフラックスによって引き起こされるギャップの多さで位相位相を駆動できることを示し、従来の整数次元幾何学よりもリッチなプラットフォームを提供する。

We investigate the topological phases of the Haldane model on the Sierpi\'nski gasket. As a consequence of the fractal geometry, multiple fractal gaps arise. Additionally, a flat band appears, and due to a complex next-nearest neighbour hopping, this band splits and multiple topological flux-induced gaps emerge. Owing to the fractal nature of the model, conventional momentum-space topological invariants cannot be used. Therefore, we characterise the system's topology in terms of a real-space Chern number. In addition, we verify the robustness of the topological states to disorder. Finally, we present phase diagrams for both a fractal gap and a flux-induced gap. Previous work on a similar system claims that fractality "squeezes" the well-known Haldane phase diagram. However, this result arises because a doubled system was considered with two Sierpi\'nski gaskets glued together. We consider only a single copy of the Sierpi\'nski gasket, keeping global self-similarity. In contrast with these previous results, we find intricate and complex patterns in the phase diagram of this single fractal. Our work shows that the fractality of the model greatly influences the phase space of these structures, and can drive topological phases in the multitude of fractal and flux-induced gaps, providing a richer platform than a conventional integer dimensional geometry.
翻訳日:2024-11-08 14:16:02 公開日:2024-10-10
# ByteCheckpoint: 大規模基盤モデル開発のための統合チェックポイントシステム

ByteCheckpoint: A Unified Checkpointing System for Large Foundation Model Development ( http://arxiv.org/abs/2407.20143v2 )

ライセンス: Link先を確認
Borui Wan, Mingji Han, Yiyao Sheng, Yanghua Peng, Haibin Lin, Mofan Zhang, Zhichao Lai, Menghan Yu, Junda Zhang, Zuquan Song, Xin Liu, Chuan Wu, (参考訳) トレーニング状態を保存するためのチェックポイントは、大規模ファンデーションモデル(LFM)の開発において不可欠である。 さらに、保存されたチェックポイントを評価タスクに送信するか、異なるトレーニングステージ(例えば、事前トレーニングから後トレーニングまで)に転送する。 これらのシナリオはすべて、ひとつの並列性から別の並列性への分散チェックポイントのリシャーディングを必要とします。 実運用環境では,さまざまなフレームワークやストレージバックエンドで,モデルサイズやトレーニングスケールに応じて,さまざまな LFM をトレーニングする。 大規模に効率的なチェックポイント管理を実現するためには,高性能なチェックポイントシステムが必要である。 本稿では,大規模LPM訓練のための産業用チェックポイントシステムByteCheckpointを提案する。 ByteCheckpointは並列性に依存しないチェックポイント表現を採用しており、効率的なロード時チェックポイント再シャーディングを可能にする。 ByteCheckpointは、複数のトレーニングフレームワークに対応し、異なるストレージバックエンドをサポートする、一般的なチェックポイントの保存/ロードワークフローを提唱している。 高いI/O効率を確保するため、我々は、貯蓄計画生成、チェックポインティングパイプラインのクリティカルステージ、再シャーディングに必要な不規則なテンソル処理を最適化するためのフルスタックアプローチを採っている。 大規模なトレーニングにおいてByteCheckpointのスケーラビリティを保証するため,大量のI/Oリクエストを効率的に処理するストレージシステムを強化し,チェックポイントワークフロー内で通信最適化を考案し,パフォーマンスを分析しボトルネックを検出するための監視ツールスイートを導入する。 既存のオープンソースのチェックポイントシステム [40, 46] と比較して、ByteCheckpoint は実行時のチェックポイントストールを著しく削減し、平均54.20倍の削減を実現している。 ByteCheckpointは、保存時間とロード時間を最大9.96倍と8.80倍に改善した。

Checkpointing to preserve training states is crucial during the development of Large Foundation Models (LFMs), for training resumption upon various failures or changes in GPU resources and parallelism configurations. In addition, saved checkpoints are dispatched to evaluation tasks or transferred across different training stages (e.g., from pre-training to post-training). All these scenarios require resharding distributed checkpoints from one parallelism to another. In production, different LFMs are trained with various frameworks and storage backends, depending on model sizes and training scales. A high-performance checkpointing system is needed to enable efficient checkpoint management at scale. This paper presents ByteCheckpoint, an industrial-grade checkpointing system for large-scale LFM training. ByteCheckpoint employs a parallelism-agnostic checkpoint representation that enables efficient load-time checkpoint resharding. ByteCheckpoint advocates a generic checkpoint saving/loading workflow to accommodate multiple training frameworks and support different storage backends. To ensure high I/O efficiency, we take a full-stack approach to optimize saving/loading plan generation, critical stages of checkpointing pipelines, and irregular tensor processing required by resharding. To guarantee the scalability of ByteCheckpoint in large-scale training, we enhance the storage system to efficiently handle high volumes of checkpointing I/O requests, devise communication optimizations within the checkpointing workflow, and introduce a suite of monitoring tools to analyze performance and detect bottlenecks. Compared to existing open-source checkpointing systems [40, 46], ByteCheckpoint significantly reduces runtime checkpoint stalls, achieving an average reduction of 54.20x. For saving and loading times, ByteCheckpoint achieves improvements of up to 9.96x and 8.80x, respectively.
翻訳日:2024-11-08 14:16:02 公開日:2024-10-10
# Theia: ロボット学習のためのディバイス・ビジョン・ファンデーション・モデル

Theia: Distilling Diverse Vision Foundation Models for Robot Learning ( http://arxiv.org/abs/2407.20179v2 )

ライセンス: Link先を確認
Jinghuan Shang, Karl Schmeckpeper, Brandon B. May, Maria Vittoria Minniti, Tarik Kelestemur, David Watkins, Laura Herlant, (参考訳) 視覚に基づくロボットポリシー学習は、視覚的な入力をアクションにマッピングする。 そこで我々は,ロボット学習のための視覚基礎モデルであるTheiaを紹介した。 テアの豊かな視覚表現は多様な視覚知識をエンコードし、下流のロボット学習を強化する。 大規模な実験により、Theiaは、より少ないトレーニングデータとより小さなモデルサイズを使用して、教師モデルとそれ以前のロボット学習モデルより優れていることが示された。 さらに,事前学習した視覚表現の品質を定量化し,特徴ノルム分布のエントロピーの向上がロボット学習性能の向上につながると仮定する。 コード、モデル、デモはhttps://theia.theaiinstitute.comで公開されている。

Vision-based robot policy learning, which maps visual inputs to actions, necessitates a holistic understanding of diverse visual tasks beyond single-task needs like classification or segmentation. Inspired by this, we introduce Theia, a vision foundation model for robot learning that distills multiple off-the-shelf vision foundation models trained on varied vision tasks. Theia's rich visual representations encode diverse visual knowledge, enhancing downstream robot learning. Extensive experiments demonstrate that Theia outperforms its teacher models and prior robot learning models using less training data and smaller model sizes. Additionally, we quantify the quality of pre-trained visual representations and hypothesize that higher entropy in feature norm distributions leads to improved robot learning performance. Code, models, and demo are available at https://theia.theaiinstitute.com.
翻訳日:2024-11-08 14:16:02 公開日:2024-10-10
# 少数のショットを含む高品質QAOAパラメータのエンドツーエンドプロトコル

End-to-End Protocol for High-Quality QAOA Parameters with Few Shots ( http://arxiv.org/abs/2408.00557v3 )

ライセンス: Link先を確認
Tianyi Hao, Zichang He, Ruslan Shaydulin, Jeffrey Larson, Marco Pistoia, (参考訳) 量子近似最適化アルゴリズム (QAOA) は組合せ最適化のための量子ヒューリスティックであり、いくつかの問題に対して最先端の古典的解法よりも優れたスケールを証明されている。 ある問題の場合、QAOAのパフォーマンスはパラメータの選択に大きく依存します。 平均ケース最適パラメータは多くのケースで利用可能であるが、特定のインスタンスに対してこれらのパラメータを微調整することで有意義な性能向上が得られる。 しかし、このタスクは、回路実行数(ショット)が限られている場合、特に困難である。 本研究では,複数のパラメータ設定と微調整技術を組み合わせたエンドツーエンドプロトコルを開発する。 大規模数値実験を用いて、ショット制限設定のためのプロトコルを最適化し、最も単純な内部モデル(線形)を持つオプティマイザが最適であることを示す。 最大32キュービットと5QAOAレイヤを使用して、トラップイオンプロセッサ上に最適化されたパイプラインを実装し、このパイプラインが少量のハードウェアノイズに対して堅牢であることを示す。 我々の知る限り、これらは2量子ゲート数という観点で、トラップイオンプロセッサ上でのQAOAパラメータの微調整の最大の実証である。

The quantum approximate optimization algorithm (QAOA) is a quantum heuristic for combinatorial optimization that has been demonstrated to scale better than state-of-the-art classical solvers for some problems. For a given problem instance, QAOA performance depends crucially on the choice of the parameters. While average-case optimal parameters are available in many cases, meaningful performance gains can be obtained by fine-tuning these parameters for a given instance. This task is especially challenging, however, when the number of circuit executions (shots) is limited. In this work, we develop an end-to-end protocol that combines multiple parameter settings and fine-tuning techniques. We use large-scale numerical experiments to optimize the protocol for the shot-limited setting and observe that optimizers with the simplest internal model (linear) perform best. We implement the optimized pipeline on a trapped-ion processor using up to 32 qubits and 5 QAOA layers, and we demonstrate that the pipeline is robust to small amounts of hardware noise. To the best of our knowledge, these are the largest demonstrations of QAOA parameter fine-tuning on a trapped-ion processor in terms of 2-qubit gate count.
翻訳日:2024-11-08 13:29:21 公開日:2024-10-10
# エラーによる学習におけるベンチマークアタック

Benchmarking Attacks on Learning with Errors ( http://arxiv.org/abs/2408.00882v2 )

ライセンス: Link先を確認
Emily Wenger, Eshika Saxena, Mohamed Malhou, Ellie Thieu, Kristin Lauter, (参考訳) 誤りを伴う学習(LWE)に基づく格子暗号スキームは、後量子暗号システムとして使われるためにNISTによって標準化され、機密データを暗号化するためのHomomorphicEncryption.orgによって標準化された。 そのため、具体的なセキュリティを理解することが重要である。 LWEセキュリティに関するほとんどの研究は、攻撃性能の理論的推定に重点を置いている。 現存する唯一の具体的なベンチマークの取り組みであるDarmstadt Lattice Challengeは、小さな秘密や小さなエラー分布のような標準LWEパラメータの選択に関連するベンチマークや、Ring-LWE(RLWE)とModule-LWE(MLWE)の亜種を含まない。 具体的なLWEセキュリティの理解を深めるために、LWEの秘密回復のためのベンチマークを標準化されたパラメータに対して提供します。 検索-LWEはuSVP, SALSA, Cool & Cruel, Decision-LWE攻撃はDual Hybrid Meet-in-the-Middle (MitM)である。 SALSAとCool & Cruelの攻撃を大きな形で拡張し、MitM攻撃の実装とスケールアップを初めて行います。 例えば、KYBER(\kappa=2$)パラメータのハミングウェイト9-11ドルのバイナリシークレットを、SALSAとCool\&Cruelで28-36ドルの時間で回収していますが、MitMは、Kyberパラメータのハミングウェイト最大最大4ドルまで、USVP攻撃は、100ドル以上走った後、シークレットを回復できません。 また, 実測値と実測値との比較を行った。 最後に、将来の研究を可能にするために、コードをオープンソース化します。

Lattice cryptography schemes based on the learning with errors (LWE) hardness assumption have been standardized by NIST for use as post-quantum cryptosystems, and by HomomorphicEncryption.org for encrypted compute on sensitive data. Thus, understanding their concrete security is critical. Most work on LWE security focuses on theoretical estimates of attack performance, which is important but may overlook attack nuances arising in real-world implementations. The sole existing concrete benchmarking effort, the Darmstadt Lattice Challenge, does not include benchmarks relevant to the standardized LWE parameter choices - such as small secret and small error distributions, and Ring-LWE (RLWE) and Module-LWE (MLWE) variants. To improve our understanding of concrete LWE security, we provide the first benchmarks for LWE secret recovery on standardized parameters, for small and low-weight (sparse) secrets. We evaluate four LWE attacks in these settings to serve as a baseline: the Search-LWE attacks uSVP, SALSA, and Cool & Cruel, and the Decision-LWE attack: Dual Hybrid Meet-in-the-Middle (MitM). We extend the SALSA and Cool & Cruel attacks in significant ways, and implement and scale up MitM attacks for the first time. For example, we recover hamming weight $9-11$ binomial secrets for KYBER ($\kappa=2$) parameters in $28-36$ hours with SALSA and Cool\&Cruel, while we find that MitM can solve Decision-LWE instances for hamming weights up to $4$ in under an hour for Kyber parameters, while uSVP attacks do not recover any secrets after running for more than $1100$ hours. We also compare concrete performance against theoretical estimates. Finally, we open source the code to enable future research.
翻訳日:2024-11-08 13:18:17 公開日:2024-10-10
# リンドープダイヤモンドショットキーダイオードにおける色中心の電気励起

Electrical excitation of color centers in phosphorus-doped diamond Schottky diodes ( http://arxiv.org/abs/2408.01572v2 )

ライセンス: Link先を確認
Florian Sledz, Igor A. Khramtsov, Assegid M. Flatae, Stefano Lagomarsino, Silvio Sciortino, Shannon S. Nicley, Rozita Rouzbahani, Paulius Pobedinskas, Tianxiao Guo, Xin Jiang, Paul Kienitz, Peter Haring Bolivar, Ken Haenen, Dmitry Yu. Fedyanin, Mario Agio, (参考訳) 環境条件下で電気注入を行う堅牢な量子光源は、量子鍵分布やメトロジーのような量子技術の実用化に望ましい。 ダイヤモンドのカラーセンターは、室温と高温で撮影可能なエミッターであるため、有望な候補となっている。 それらの電気励起の可能性は既にp-i-nダイオード内で実証されている。 しかし、これは複雑なダイヤモンド構造の成長を必要とする。 これらの従来手法とは対照的に, ダイヤモンド中の色中心をベースとした単一光子発光デバイスの実現を約束する, 水素を透過したn型ダイヤモンドをベースとした新しいショットキーダイオード構成において, 電気ポンプによる色中心の放出を実証する。

A robust quantum light source operating upon electrical injection at ambient conditions is desirable for practical implementation of quantum technologies, such as quantum key distribution or metrology. Color centers in diamond are promising candidates as they are photostable emitters at room and elevated temperatures. The possibility of their electrical excitation has already been demonstrated within p-i-n diodes. However, this requires the growth of complex diamond structures. In contrast to these conventional approaches, we demonstrate the emission of color centers under electrical pumping in a novel Schottky diode configuration based on hydrogen passivated n-type diamond, which holds promise for integrated single-photon emitting devices based on color centers in diamond.
翻訳日:2024-11-08 13:18:17 公開日:2024-10-10
# クロージャモデルを超えて:物理インフォームドニューラルネットワークによるカオスシステム学習

Beyond Closure Models: Learning Chaotic-Systems via Physics-Informed Neural Operators ( http://arxiv.org/abs/2408.05177v2 )

ライセンス: Link先を確認
Chuwei Wang, Julius Berner, Zongyi Li, Di Zhou, Jiayun Wang, Jane Bae, Anima Anandkumar, (参考訳) カオスシステムの長期的挙動を正確に予測することは、気候モデリングなどの様々な応用に不可欠である。 しかし、このような予測を達成するには、多くの現実の状況において高価で非現実的なカオスシステムの不安定な性質を考慮するために、高密度の時空間格子上で反復的な計算が必要である。 このような完全解法シミュレーションに対する別のアプローチは、粗いグリッドを使用して、粗いグリッドシミュレーションでは取得されない微細スケールからの全体的な情報を近似する \textit{closure model} を通じてエラーを修正することである。 近年、MLアプローチはクロージャモデリングに使われてきたが、一般的には高価な完全解法シミュレーション(FRS)から多くのトレーニングサンプルを必要とする。 この研究において、閉包モデルを学習するための標準的なアプローチは、モデルのサイズがどの程度であっても、一般的な問題に対する大きな近似誤差に悩まされ、それは写像の非特異性に由来する、というより、より基本的な制限を証明します。 本稿では,この制限を克服する物理インフォームド・ニューラル演算子(PINO)を用いて,クロージャモデルや粗いグリッド解法を使わずにエンド・ツー・エンドの学習手法を提案する。 まず、粗いグリッドソルバからのデータに基づいてPINOモデルをトレーニングし、それを(少量の)FRSと物理ベースの損失で微調整する。 ニューラル作用素の離散化のない性質は、閉包モデルが直面する粗い格子の制限に苦しめられず、カオスシステムの長期的な統計を確実に近似することができることを意味する。 我々のPINOモデルは、相対誤差が$\sim 5\%$のFRSと比較して120倍のスピードアップを達成する。 対照的に、粗いグリッドソルバと結合したクロージャモデルは、同じFRSデータセットでトレーニングされた場合、PINOよりも58ドル遅いが、エラーはより高い$\sim205\%である。

Accurately predicting the long-term behavior of chaotic systems is crucial for various applications such as climate modeling. However, achieving such predictions typically requires iterative computations over a dense spatiotemporal grid to account for the unstable nature of chaotic systems, which is expensive and impractical in many real-world situations. An alternative approach to such a full-resolved simulation is using a coarse grid and then correcting its errors through a \textit{closure model}, which approximates the overall information from fine scales not captured in the coarse-grid simulation. Recently, ML approaches have been used for closure modeling, but they typically require a large number of training samples from expensive fully-resolved simulations (FRS). In this work, we prove an even more fundamental limitation, i.e., the standard approach to learning closure models suffers from a large approximation error for generic problems, no matter how large the model is, and it stems from the non-uniqueness of the mapping. We propose an alternative end-to-end learning approach using a physics-informed neural operator (PINO) that overcomes this limitation by not using a closure model or a coarse-grid solver. We first train the PINO model on data from a coarse-grid solver and then fine-tune it with (a small amount of) FRS and physics-based losses on a fine grid. The discretization-free nature of neural operators means that they do not suffer from the restriction of a coarse grid that closure models face, and they can provably approximate the long-term statistics of chaotic systems. In our experiments, our PINO model achieves a 120x speedup compared to FRS with a relative error $\sim 5\%$. In contrast, the closure model coupled with a coarse-grid solver is $58$x slower than PINO while having a much higher error $\sim205\%$ when the closure model is trained on the same FRS dataset.
翻訳日:2024-11-08 12:00:36 公開日:2024-10-10
# クロージャモデルを超えて:物理インフォームドニューラルネットワークによるカオスシステム学習

Beyond Closure Models: Learning Chaotic-Systems via Physics-Informed Neural Operators ( http://arxiv.org/abs/2408.05177v3 )

ライセンス: Link先を確認
Chuwei Wang, Julius Berner, Zongyi Li, Di Zhou, Jiayun Wang, Jane Bae, Anima Anandkumar, (参考訳) カオスシステムの長期的挙動を正確に予測することは、気候モデリングなどの様々な応用に不可欠である。 しかし、このような予測を達成するには、多くの現実の状況において高価で非現実的なカオスシステムの不安定な性質を考慮するために、高密度の時空間格子上で反復的な計算が必要である。 このような完全解法シミュレーションに対する別のアプローチは、粗いグリッドを使用して、粗いグリッドシミュレーションでは取得されない微細スケールからの全体的な情報を近似する \textit{closure model} を通じてエラーを修正することである。 近年、MLアプローチはクロージャモデリングに使われてきたが、一般的には高価な完全解法シミュレーション(FRS)から多くのトレーニングサンプルを必要とする。 この研究において、閉包モデルを学習するための標準的なアプローチは、モデルのサイズがどの程度であっても、一般的な問題に対する大きな近似誤差に悩まされ、それは写像の非特異性に由来する、というより、より基本的な制限を証明します。 本稿では,この制限を克服する物理インフォームド・ニューラル演算子(PINO)を用いて,クロージャモデルや粗いグリッド解法を使わずにエンド・ツー・エンドの学習手法を提案する。 まず、粗いグリッドソルバからのデータに基づいてPINOモデルをトレーニングし、それを(少量の)FRSと物理ベースの損失で微調整する。 ニューラル作用素の離散化のない性質は、閉包モデルが直面する粗い格子の制限に苦しめられず、カオスシステムの長期的な統計を確実に近似することができることを意味する。 我々のPINOモデルは相対誤差$\sim 10\%$のFRSと比較して330倍の高速化を実現している。 対照的に、粗いグリッドソルバと結合したクロージャモデルは、PINOよりも60$x遅いが、同じFRSデータセット上でクロージャモデルをトレーニングすると、より高いエラーが$\sim186\%である。

Accurately predicting the long-term behavior of chaotic systems is crucial for various applications such as climate modeling. However, achieving such predictions typically requires iterative computations over a dense spatiotemporal grid to account for the unstable nature of chaotic systems, which is expensive and impractical in many real-world situations. An alternative approach to such a full-resolved simulation is using a coarse grid and then correcting its errors through a \textit{closure model}, which approximates the overall information from fine scales not captured in the coarse-grid simulation. Recently, ML approaches have been used for closure modeling, but they typically require a large number of training samples from expensive fully-resolved simulations (FRS). In this work, we prove an even more fundamental limitation, i.e., the standard approach to learning closure models suffers from a large approximation error for generic problems, no matter how large the model is, and it stems from the non-uniqueness of the mapping. We propose an alternative end-to-end learning approach using a physics-informed neural operator (PINO) that overcomes this limitation by not using a closure model or a coarse-grid solver. We first train the PINO model on data from a coarse-grid solver and then fine-tune it with (a small amount of) FRS and physics-based losses on a fine grid. The discretization-free nature of neural operators means that they do not suffer from the restriction of a coarse grid that closure models face, and they can provably approximate the long-term statistics of chaotic systems. In our experiments, our PINO model achieves a 330x speedup compared to FRS with a relative error $\sim 10\%$. In contrast, the closure model coupled with a coarse-grid solver is $60$x slower than PINO while having a much higher error $\sim186\%$ when the closure model is trained on the same FRS dataset.
翻訳日:2024-11-08 12:00:36 公開日:2024-10-10
# EqNIO: 準同変神経慣性オドメトリー

EqNIO: Subequivariant Neural Inertial Odometry ( http://arxiv.org/abs/2408.06321v3 )

ライセンス: Link先を確認
Royina Karegoudra Jayanth, Yinshuang Xu, Ziyun Wang, Evangelos Chatzipantazis, Daniel Gehrig, Kostas Daniilidis, (参考訳) ニューラルネットワークは純粋に慣性オドメトリーにおいて急速に普及しており、商品慣性測定ユニット(IMU)からの加速度計とジャイロスコープの測定は変位や関連する不確実性を抑制するために用いられる。 情報偏差の先行を学習し、オフザシェルの非線形フィルタで生データと直接融合することができる。 しかしながら、これらのネットワークはIMUデータに固有の物理ロト反射対称性を考慮せず、一般化を妨げるあらゆる運動方向について同じ先行を記憶する必要がある。 本研究では、これらの対称性を特徴付け、重力ベクトルの周囲を回転させ、重力に平行な任意の平面に対して反射する際に、IMUデータと結果の変位と共分散が等しく変化することを示す。 まず、IMUデータから導出される等変ベクトルと不変スカラーから等変重力整列フレームを推定し、基礎となる対称性変換と共起するように調整された表現線形および非線形層を利用する。 そして、IMUデータをこのフレームにマッピングし、既製の慣性オドメトリーネットワークで直接使用できる不変な正準化を実現する。 最後に、これらのネットワーク出力を元のフレームにマッピングし、同変の共分散と変位を求める。 我々は、TLIOに基づくフィルタベースのアプローチとエンドツーエンドのRONINアーキテクチャに適用することで、フレームワークの汎用性を実証し、TLIO、Aria、RIDI、OxIODデータセットにおいて既存の手法よりも優れた性能を示す。

Neural networks are seeing rapid adoption in purely inertial odometry, where accelerometer and gyroscope measurements from commodity inertial measurement units (IMU) are used to regress displacements and associated uncertainties. They can learn informative displacement priors, which can be directly fused with the raw data with off-the-shelf non-linear filters. Nevertheless, these networks do not consider the physical roto-reflective symmetries inherent in IMU data, leading to the need to memorize the same priors for every possible motion direction, which hinders generalization. In this work, we characterize these symmetries and show that the IMU data and the resulting displacement and covariance transform equivariantly, when rotated around the gravity vector and reflected with respect to arbitrary planes parallel to gravity. We design a neural network that respects these symmetries by design through equivariant processing in three steps: First, it estimates an equivariant gravity-aligned frame from equivariant vectors and invariant scalars derived from IMU data, leveraging expressive linear and non-linear layers tailored to commute with the underlying symmetry transformation. We then map the IMU data into this frame, thereby achieving an invariant canonicalization that can be directly used with off-the-shelf inertial odometry networks. Finally, we map these network outputs back into the original frame, thereby obtaining equivariant covariances and displacements. We demonstrate the generality of our framework by applying it to the filter-based approach based on TLIO, and the end-to-end RONIN architecture, and show better performance on the TLIO, Aria, RIDI and OxIOD datasets than existing methods.
翻訳日:2024-11-08 11:26:46 公開日:2024-10-10
# 平面ジョーンズ・ロバーツ・ソリトンの熱劣化

Thermal Decay of Planar Jones-Roberts Solitons ( http://arxiv.org/abs/2408.06532v2 )

ライセンス: Link先を確認
Nils A. Krause, Ashton S. Bradley, (参考訳) 均一な平面超流動は、超流動乱流のような非常に励起性の高い状態にも現れる様々な低エネルギー励起を示す。 希薄ガスボース・アインシュタイン凝縮では、ジョーンズ・ロバーツ・ソリトン族は、それぞれ低速と高速の条件下で渦双極子と希土類のパルスを含む。 これらの励起はエネルギーと線形運動量の両方を持ち、その崩壊特性は超流動力学を理解するために重要である。 本研究では,貯水池相互作用の確率射影Gross-Pitaevskii理論で説明されるように,熱影響による平面ソリトン崩壊の理論を発展させる。 我々は、凝縮物と非凝縮物貯水池の間の移動を伴う2つの異なる減衰項を解析した。 我々は,低速度と高速度の両方で解析処理を行い,いずれの機構が支配的な条件を同定する。 以上の結果から,高相空間密度でエネルギー減衰が進行することが示唆された。 これらの理論結果は、渦双極子からレアファクションパルスまでの全速度範囲をカバーする数値的な研究によって支持されている。 相互作用エネルギーを用いて、ボース=アインシュタイン凝縮体における有限温度理論の実験的なテストを行い、渦双極子内の渦間距離に類似したレアファクションパルスを特徴づける。

Homogeneous planar superfluids exhibit a range of low-energy excitations that also appear in highly excited states like superfluid turbulence. In dilute gas Bose-Einstein condensates, the Jones- Roberts soliton family includes vortex dipoles and rarefaction pulses in the low and high velocity regimes, respectively. These excitations carry both energy and linear momentum, making their decay characteristics crucial for understanding superfluid dynamics. In this work, we develop the theory of planar soliton decay due to thermal effects, as described by the stochastic projected Gross-Pitaevskii theory of reservoir interactions. We analyze two distinct damping terms involving transfer between the condensate and the non-condensate reservoir: particle transfer that also involves energy and usually drives condensate growth, and number-conserving energy transfer. We provide analytical treatments for both the low and high velocity regimes and identify conditions under which either mechanism dominates. Our findings indicate that energy damping prevails at high phase space density. These theoretical results are supported by numerical studies covering the entire velocity range from vortex dipole to rarefaction pulse. We use interaction energy to characterize rarefaction pulses, analogous to the distance between vortices in vortex dipoles, offering an experimentally accessible test for finite temperature theory in Bose-Einstein condensates.
翻訳日:2024-11-08 11:26:46 公開日:2024-10-10
# 高次相互作用のための格子情報理論

Information-Theoretic Measures on Lattices for High-Order Interactions ( http://arxiv.org/abs/2408.07533v2 )

ライセンス: Link先を確認
Zhaolu Liu, Mauricio Barahona, Robert L. Peach, (参考訳) 対関係のみに基づく伝統的なモデルは、多変量データの複雑な統計構造を捉えるのに失敗することが多い。 既存の$d>3$変数のグループ間で共有される情報を識別するためのアプローチは、しばしば計算的に抽出可能であり、対象変数に対して非対称であり、結合確率分布のすべての因数分解を考慮できない。 格子と作用素関数対を用いた高次情報理論測度を導出する体系的枠組みを提案し、格子上の測度を計算する演算関数を持つ変数間の代数的関係を表す格子について述べる。 このフレームワークでよく使われる測度の多くは導出可能であるが、分割格子の部分格子に制限されることがしばしばあり、$d>3$のときにすべての相互作用をキャプチャできない。 また、KLの発散が演算関数として使われると、$d>3$の相互作用が不要になることを示した。 $d$変数間の全ての相互作用をフルに特徴付けるために、KL発散を演算関数として一般化したStreitberg Informationを導入し、完全なパーティション格子上で定義する。 合成データに基づいてStreitberg Informationを数値的に検証し、ストック間の複雑な相互作用を分析し、ニューラルネットワークをデコードし、機械学習における特徴選択を行う。

Traditional models based solely on pairwise associations often fail to capture the complex statistical structure of multivariate data. Existing approaches for identifying information shared among groups of $d>3$ variables are frequently computationally intractable, asymmetric with respect to a target variable, or unable to account for all factorisations of the joint probability distribution. We present a systematic framework that derives higher-order information-theoretic measures using lattice and operator function pairs, whereby the lattice representing the algebraic relationships among variables, with operator functions that compute the measures over the lattice. We show that many commonly used measures can be derived within this framework, however they are often restricted to sublattices of the partition lattice, which prevents them from capturing all interactions when $d>3$. We also demonstrate that KL divergence, when used as an operator function, leads to unwanted cancellation of interactions for $d>3$. To fully characterise all interactions among $d$ variables, we introduce the Streitberg Information, using generalisations of KL divergence as an operator function, and defined over the full partition lattice. We validate Streitberg Information numerically on synthetic data, and illustrate its application in analysing complex interactions among stocks, decoding neural signals, and performing feature selection in machine learning.
翻訳日:2024-11-08 07:40:14 公開日:2024-10-10
# スケーラブルで認証可能なグラフアンラーニング - 近似エラーバリアの克服

Scalable and Certifiable Graph Unlearning: Overcoming the Approximation Error Barrier ( http://arxiv.org/abs/2408.09212v2 )

ライセンス: Link先を確認
Lu Yi, Zhewei Wei, (参考訳) 機密性の高いユーザデータに関わるアプリケーションにグラフニューラルネットワーク(GNN)が広く採用されていることを考えると、グラフアンラーニングはプライバシ保護を確実にするための重要な研究領域として現れている。 既存の研究の中で、認定されたグラフアンラーニングは、堅牢なプライバシー保証を提供することによって区別される。 しかし,現在認定されているグラフアンラーニング手法は,各未学習要求に対するグラフの計算に費用がかかるため,大規模グラフでは実用的ではない。 GNNのグラフ伝播を促進するために、多くのスケーラブルな技術が開発されているが、これらのスケーラブルなアプローチがノード埋め込みに近似誤差を導入しているため、認定グラフへの統合は不確実である。 これとは対照的に、認定されたグラフアンラーニングは、認証された保証を維持するために、正確なノード埋め込みに対する境界付きモデルエラーを要求する。 この課題に対処するために、認定されたグラフを10億のエッジグラフにスケールする最初のアプローチであるScaleGUNを紹介します。 ScaleGUNは、近似グラフ伝搬テクニックを認定グラフアンラーニングに統合し、ノード機能、エッジ、ノードアンラーニングという3つの未学習シナリオの保証を提供する。 実世界のデータセットに関する大規模な実験は、ScaleGUNの効率性と未学習の有効性を示している。 注目すべきは、ScaleGUNが5,000のランダムエッジ削除要求に対して、数十億のエッジグラフogbn-papers100Mで20秒で認定された未学習を達成していることだ。 私たちのコードはhttps://github.com/luyi256/ScaleGUNで利用可能です。

Graph unlearning has emerged as a pivotal research area for ensuring privacy protection, given the widespread adoption of Graph Neural Networks (GNNs) in applications involving sensitive user data. Among existing studies, certified graph unlearning is distinguished by providing robust privacy guarantees. However, current certified graph unlearning methods are impractical for large-scale graphs because they necessitate the costly re-computation of graph propagation for each unlearning request. Although numerous scalable techniques have been developed to accelerate graph propagation for GNNs, their integration into certified graph unlearning remains uncertain as these scalable approaches introduce approximation errors into node embeddings. In contrast, certified graph unlearning demands bounded model error on exact node embeddings to maintain its certified guarantee. To address this challenge, we present ScaleGUN, the first approach to scale certified graph unlearning to billion-edge graphs. ScaleGUN integrates the approximate graph propagation technique into certified graph unlearning, offering certified guarantees for three unlearning scenarios: node feature, edge, and node unlearning. Extensive experiments on real-world datasets demonstrate the efficiency and unlearning efficacy of ScaleGUN. Remarkably, ScaleGUN accomplishes $(\epsilon,\delta)=(1,10^{-4})$ certified unlearning on the billion-edge graph ogbn-papers100M in 20 seconds for a 5,000 random edge removal request -- of which only 5 seconds are required for updating the node embeddings -- compared to 1.91 hours for retraining and 1.89 hours for re-propagation. Our code is available at https://github.com/luyi256/ScaleGUN.
翻訳日:2024-11-08 07:07:05 公開日:2024-10-10
# カスタマイズ拡散モデルのためのプロンプト非依存的対向摂動

Prompt-Agnostic Adversarial Perturbation for Customized Diffusion Models ( http://arxiv.org/abs/2408.10571v3 )

ライセンス: Link先を確認
Cong Wan, Yuhang He, Xiang Song, Yihong Gong, (参考訳) 拡散モデルは、カスタマイズされたテキスト・ツー・イメージ生成に革命をもたらし、テキスト記述による個人データからの写真の効率的な合成を可能にした。 しかし、これらの進歩は、プライバシー侵害や芸術作品の無許可複製などのリスクを引き起こす。 従来の研究は主に、個人画像を保護するための敵対的な例を生成するために、プロンプト固有の手法を主に用いていたが、既存の手法の有効性は、異なるプロンプトに対する制約付き適応性によって妨げられている。 本稿では,カスタマイズした拡散モデルのためのPR法を提案する。 PAPはまず、ラプラス近似を用いてプロンプト分布をモデル化し、その後、モデル化された分布に基づいて外乱期待を最大化することにより、急激な摂動を発生させる。 このアプローチは、即時無敵攻撃に効果的に取り組み、防御安定性を向上させる。 顔のプライバシと芸術的スタイルの保護に関する広範な実験は、既存の技術と比較して、PAPの優れた一般化を実証している。 私たちのプロジェクトページはhttps://github.com/vancyland/Prompt-Agnostic-Adversarial-Perturbation-for-Customized-Diffusion-Model s.github.ioで公開されています。

Diffusion models have revolutionized customized text-to-image generation, allowing for efficient synthesis of photos from personal data with textual descriptions. However, these advancements bring forth risks including privacy breaches and unauthorized replication of artworks. Previous researches primarily center around using prompt-specific methods to generate adversarial examples to protect personal images, yet the effectiveness of existing methods is hindered by constrained adaptability to different prompts. In this paper, we introduce a Prompt-Agnostic Adversarial Perturbation (PAP) method for customized diffusion models. PAP first models the prompt distribution using a Laplace Approximation, and then produces prompt-agnostic perturbations by maximizing a disturbance expectation based on the modeled distribution. This approach effectively tackles the prompt-agnostic attacks, leading to improved defense stability. Extensive experiments in face privacy and artistic style protection, demonstrate the superior generalization of PAP in comparison to existing techniques. Our project page is available at https://github.com/vancyland/Prompt-Agnostic-Adversarial-Perturbation-for-Customized-Diffusion-Model s.github.io.
翻訳日:2024-11-08 06:33:42 公開日:2024-10-10
# カスタマイズ拡散モデルのためのプロンプト非依存的対向摂動

Prompt-Agnostic Adversarial Perturbation for Customized Diffusion Models ( http://arxiv.org/abs/2408.10571v4 )

ライセンス: Link先を確認
Cong Wan, Yuhang He, Xiang Song, Yihong Gong, (参考訳) 拡散モデルは、カスタマイズされたテキスト・ツー・イメージ生成に革命をもたらし、テキスト記述による個人データからの写真の効率的な合成を可能にした。 しかし、これらの進歩は、プライバシー侵害や芸術作品の無許可複製などのリスクを引き起こす。 従来の研究は主に、個人画像を保護するための敵対的な例を生成するために、プロンプト固有の手法を主に用いていたが、既存の手法の有効性は、異なるプロンプトに対する制約付き適応性によって妨げられている。 本稿では,カスタマイズした拡散モデルのためのPR法を提案する。 PAPはまず、ラプラス近似を用いてプロンプト分布をモデル化し、その後、モデル化された分布に基づいて外乱期待を最大化することにより、急激な摂動を発生させる。 このアプローチは、即時無敵攻撃に効果的に取り組み、防御安定性を向上させる。 顔のプライバシと芸術的スタイルの保護に関する広範な実験は、既存の技術と比較して、PAPの優れた一般化を実証している。 私たちのプロジェクトページはhttps://github.com/vancyland/Prompt-Agnostic-Adversarial-Perturbation-for-Customized-Diffusion-Model s.github.ioで公開されています。

Diffusion models have revolutionized customized text-to-image generation, allowing for efficient synthesis of photos from personal data with textual descriptions. However, these advancements bring forth risks including privacy breaches and unauthorized replication of artworks. Previous researches primarily center around using prompt-specific methods to generate adversarial examples to protect personal images, yet the effectiveness of existing methods is hindered by constrained adaptability to different prompts. In this paper, we introduce a Prompt-Agnostic Adversarial Perturbation (PAP) method for customized diffusion models. PAP first models the prompt distribution using a Laplace Approximation, and then produces prompt-agnostic perturbations by maximizing a disturbance expectation based on the modeled distribution. This approach effectively tackles the prompt-agnostic attacks, leading to improved defense stability. Extensive experiments in face privacy and artistic style protection, demonstrate the superior generalization of PAP in comparison to existing techniques. Our project page is available at https://github.com/vancyland/Prompt-Agnostic-Adversarial-Perturbation-for-Customized-Diffusion-Model s.github.io.
翻訳日:2024-11-08 06:33:42 公開日:2024-10-10
# MUSES:マルチモーダルエージェントによる3次元制御可能な画像生成

MUSES: 3D-Controllable Image Generation via Multi-Modal Agent Collaboration ( http://arxiv.org/abs/2408.10605v3 )

ライセンス: Link先を確認
Yanbo Ding, Shaobin Zhuang, Kunchang Li, Zhengrong Yue, Yu Qiao, Yali Wang, (参考訳) 近年のテキスト・画像生成の進歩にもかかわらず、既存の手法のほとんどは、複数のオブジェクトと複雑な空間的関係を持つ画像を作成するのに苦労している。 この制限に対処するために、ユーザクエリから3D制御可能な画像生成のための汎用AIシステムであるMUSESを導入する。 具体的には,(1)2次元から3次元のレイアウトリフトのためのレイアウトマネージャ,(2)3次元のオブジェクト取得とキャリブレーションのためのモデルエンジニア,(3)3次元から2次元のイメージレンダリングのためのイメージアーティストなど,3つの重要なコンポーネントからなるプログレッシブワークフローを開発することで,この課題に対処する。 このマルチモーダルエージェントパイプラインは、人間のプロフェッショナルのコラボレーションを模倣することにより、トップダウン計画とボトムアップ生成の説明可能な統合を通じて、3D制御可能なオブジェクトによる画像の有効かつ自動生成を容易にする。 さらに、既存のベンチマークでは、複数のオブジェクトの複雑な3次元空間関係の詳細な記述が欠如していることが判明した。 このギャップを埋めるために、我々はさらにT2I-3DisBench (3D画像シーン)の新しいベンチマークを構築し、50の詳細なプロンプトを持つ多様な3D画像シーンを記述した。 T2I-CompBenchとT2I-3DisBenchは、DALL-E 3やStable Diffusion 3といった最近の強力なライバルよりも優れている。 これらの結果は,自然言語,2次元画像生成,3次元世界におけるMUSESの前進の重要なステップを示している。 コードとモデルも間もなくリリースされる予定です。

Despite recent advancements in text-to-image generation, most existing methods struggle to create images with multiple objects and complex spatial relationships in 3D world. To tackle this limitation, we introduce a generic AI system, namely MUSES, for 3D-controllable image generation from user queries. Specifically, our MUSES addresses this challenging task by developing a progressive workflow with three key components, including (1) Layout Manager for 2D-to-3D layout lifting, (2) Model Engineer for 3D object acquisition and calibration, (3) Image Artist for 3D-to-2D image rendering. By mimicking the collaboration of human professionals, this multi-modal agent pipeline facilitates the effective and automatic creation of images with 3D-controllable objects, through an explainable integration of top-down planning and bottom-up generation. Additionally, we find that existing benchmarks lack detailed descriptions of complex 3D spatial relationships of multiple objects. To fill this gap, we further construct a new benchmark of T2I-3DisBench (3D image scene), which describes diverse 3D image scenes with 50 detailed prompts. Extensive experiments show the state-of-the-art performance of MUSES on both T2I-CompBench and T2I-3DisBench, outperforming recent strong competitors such as DALL-E 3 and Stable Diffusion 3. These results demonstrate a significant step of MUSES forward in bridging natural language, 2D image generation, and 3D world. Our codes and models will be released soon.
翻訳日:2024-11-08 06:33:42 公開日:2024-10-10
# MUSES:マルチモーダルエージェントによる3次元制御可能な画像生成

MUSES: 3D-Controllable Image Generation via Multi-Modal Agent Collaboration ( http://arxiv.org/abs/2408.10605v4 )

ライセンス: Link先を確認
Yanbo Ding, Shaobin Zhuang, Kunchang Li, Zhengrong Yue, Yu Qiao, Yali Wang, (参考訳) 近年のテキスト・画像生成の進歩にもかかわらず、既存の手法のほとんどは、複数のオブジェクトと複雑な空間的関係を持つ画像を作成するのに苦労している。 この制限に対処するために、ユーザクエリから3D制御可能な画像生成のための汎用AIシステムであるMUSESを導入する。 具体的には,(1)2次元から3次元のレイアウトリフトのためのレイアウトマネージャ,(2)3次元のオブジェクト取得とキャリブレーションのためのモデルエンジニア,(3)3次元から2次元のイメージレンダリングのためのイメージアーティストなど,3つの重要なコンポーネントからなるプログレッシブワークフローを開発することで,この課題に対処する。 このマルチモーダルエージェントパイプラインは、人間のプロフェッショナルのコラボレーションを模倣することにより、トップダウン計画とボトムアップ生成の説明可能な統合を通じて、3D制御可能なオブジェクトによる画像の有効かつ自動生成を容易にする。 さらに、既存のベンチマークでは、複数のオブジェクトの複雑な3次元空間関係の詳細な記述が欠如していることが判明した。 このギャップを埋めるために、我々はさらにT2I-3DisBench (3D画像シーン)の新しいベンチマークを構築し、50の詳細なプロンプトを持つ多様な3D画像シーンを記述した。 T2I-CompBenchとT2I-3DisBenchは、DALL-E 3やStable Diffusion 3といった最近の強力なライバルよりも優れている。 これらの結果は,自然言語,2次元画像生成,3次元世界におけるMUSESの前進の重要なステップを示している。 私たちのコードは以下のリンクで利用可能です。

Despite recent advancements in text-to-image generation, most existing methods struggle to create images with multiple objects and complex spatial relationships in the 3D world. To tackle this limitation, we introduce a generic AI system, namely MUSES, for 3D-controllable image generation from user queries. Specifically, our MUSES addresses this challenging task by developing a progressive workflow with three key components, including (1) Layout Manager for 2D-to-3D layout lifting, (2) Model Engineer for 3D object acquisition and calibration, (3) Image Artist for 3D-to-2D image rendering. By mimicking the collaboration of human professionals, this multi-modal agent pipeline facilitates the effective and automatic creation of images with 3D-controllable objects, through an explainable integration of top-down planning and bottom-up generation. Additionally, we find that existing benchmarks lack detailed descriptions of complex 3D spatial relationships of multiple objects. To fill this gap, we further construct a new benchmark of T2I-3DisBench (3D image scene), which describes diverse 3D image scenes with 50 detailed prompts. Extensive experiments show the state-of-the-art performance of MUSES on both T2I-CompBench and T2I-3DisBench, outperforming recent strong competitors such as DALL-E 3 and Stable Diffusion 3. These results demonstrate a significant step of MUSES forward in bridging natural language, 2D image generation, and 3D world. Our codes are available at the following link: https://github.com/DINGYANB/MUSES.
翻訳日:2024-11-08 06:33:42 公開日:2024-10-10
# 光ISAC:基本性能限界とトランシーバ設計

Optical ISAC: Fundamental Performance Limits and Transceiver Design ( http://arxiv.org/abs/2408.11792v4 )

ライセンス: Link先を確認
Alireza Ghazavi Khorasgani, Mahtab Mirmohseni, Ahmed Elzanaty, (参考訳) 本稿では,通信用シングルインプット・シングルインプット・シングルインプット・シングルインプット・シングルインプット・マルチインプット・マルチインプット・マルチインプット・シングルインプット・マルチインプット(SIMO)を用いた光ポイント・ツー・ポイントシステムにおける最適容量・歪み(C-D)トレードオフを特徴付ける。 最適率歪み(R-D)領域を考察し,複数の内界(IB)領域と外界(OB)領域を探索する。 本稿では,非共役前と非共役前との非線形な関係に対処するため,実用的で漸近的に最適な最大Aポストエリオリ(MAP)と最大類似度推定器(MLE)を導入する。 検知アンテナの数が増加するにつれて、これらの推定器はベイズクラム・ラオ境界(BCRB)に収束する。 また、達成可能なR-Cram\'er-Rao境界(R-CRB)が最適C-D領域のOBとして機能し、非バイアス推定器と漸近的に多数の受信アンテナの両方に有効であることを示す。 入力分布がC-D領域のパレート境界のトレードオフを決定することを明らかにするために,2つのアルゴリズムを提案する。 一 反復的ブラフット・アリモトアルゴリズム(BAA)方式及び方法 ii) メモリ効率のクローズドフォーム(CF)アプローチ。 CFアプローチは、高い光信号対雑音比(O-SNR)条件に対するCF最適分布を含む。 さらに、この光学ISACコンテキストにDRT(Deterministic-Random Tradeoff)を適用し、洗練する。

This paper characterizes the optimal Capacity-Distortion (C-D) tradeoff in an optical point-to-point system with Single-Input Single-Output (SISO) for communication and Single-Input Multiple-Output (SIMO) for sensing within an Integrated Sensing and Communication (ISAC) framework. We consider the optimal Rate-Distortion (R-D) region and explore several Inner (IB) and Outer Bounds (OB). We introduce practical, asymptotically optimal Maximum A Posteriori (MAP) and Maximum Likelihood Estimators (MLE) for target distance, addressing nonlinear measurement-to-state relationships and non-conjugate priors. As the number of sensing antennas increases, these estimators converge to the Bayesian Cram\'er-Rao Bound (BCRB). We also establish that the achievable Rate-Cram\'er-Rao Bound (R-CRB) serves as an OB for the optimal C-D region, valid for both unbiased estimators and asymptotically large numbers of receive antennas. To clarify that the input distribution determines the tradeoff across the Pareto boundary of the C-D region, we propose two algorithms: i) an iterative Blahut-Arimoto Algorithm (BAA)-type method, and ii) a memory-efficient Closed-Form (CF) approach. The CF approach includes a CF optimal distribution for high Optical Signal-to-Noise Ratio (O-SNR) conditions. Additionally, we adapt and refine the Deterministic-Random Tradeoff (DRT) to this optical ISAC context.
翻訳日:2024-11-08 06:00:04 公開日:2024-10-10
# 光ISAC:基本性能限界とトランシーバ設計

Optical ISAC: Fundamental Performance Limits and Transceiver Design ( http://arxiv.org/abs/2408.11792v5 )

ライセンス: Link先を確認
Alireza Ghazavi Khorasgani, Mahtab Mirmohseni, Ahmed Elzanaty, (参考訳) 本稿では、通信用シングルインプット・シングルアウトプット(SISO)と統合センシング・通信(ISAC)フレームワーク内でのセンシング用シングルインプット・マルチアウトプット(SIMO)を用いた光学的ポイント・ツー・ポイントシステムにおける最適容量歪み(C-D)トレードオフを特徴付ける。 最適速度歪み(R-D)領域を考察し,いくつかの内界(IB)および外界(OB)を探索する。 本稿では,非共役前と非共役前との非線形計測・状態関係に対処するため,実践的,漸近的に最適最大距離推定器 (MAP) と目標距離推定器 (MLE) を導入する。 検知アンテナの数が増加するにつれて、これらの推定器はベイズクラム・ラオ境界(BCRB)に収束する。 また、達成可能なレートCram\'er-Rao境界(R-CRB)が最適C-D領域のOBとして機能し、非バイアス推定器と漸近的に多数の受信アンテナの両方に有効であることを示す。 入力分布がC-D領域のパレート境界のトレードオフを決定することを明らかにするために,2つのアルゴリズムを提案する。 一 反復的ブラフト・アリモトアルゴリズム(BAA)方式及び方法 二 メモリ効率の良いクローズドフォーム(CF)アプローチ CFアプローチは、高光信号-雑音比(O-SNR)条件に対するCF最適分布を含む。 さらに、この光学ISACコンテキストに決定論的ランダムトレードオフ(DRT)を適用し、洗練する。

This paper characterizes the optimal capacity-distortion (C-D) tradeoff in an optical point-to-point system with single-input single-output (SISO) for communication and single-input multiple-output (SIMO) for sensing within an integrated sensing and communication (ISAC) framework. We consider the optimal rate-distortion (R-D) region and explore several inner (IB) and outer bounds (OB). We introduce practical, asymptotically optimal maximum a posteriori (MAP) and maximum likelihood estimators (MLE) for target distance, addressing nonlinear measurement-to-state relationships and non-conjugate priors. As the number of sensing antennas increases, these estimators converge to the Bayesian Cram\'er-Rao bound (BCRB). We also establish that the achievable rate-Cram\'er-Rao bound (R-CRB) serves as an OB for the optimal C-D region, valid for both unbiased estimators and asymptotically large numbers of receive antennas. To clarify that the input distribution determines the tradeoff across the Pareto boundary of the C-D region, we propose two algorithms: i) an iterative Blahut-Arimoto algorithm (BAA)-type method, and ii) a memory-efficient closed-form (CF) approach. The CF approach includes a CF optimal distribution for high optical signal-to-noise ratio (O-SNR) conditions. Additionally, we adapt and refine the deterministic-random tradeoff (DRT) to this optical ISAC context.
翻訳日:2024-11-08 06:00:04 公開日:2024-10-10
# AppAgent v2: 柔軟なモバイルインタラクションのための高度なエージェント

AppAgent v2: Advanced Agent for Flexible Mobile Interactions ( http://arxiv.org/abs/2408.11824v3 )

ライセンス: Link先を確認
Yanda Li, Chi Zhang, Wanqi Yang, Bin Fu, Pei Cheng, Xin Chen, Ling Chen, Yunchao Wei, (参考訳) MLLM(Multimodal Large Language Models)の進歩に伴い、LLM駆動の視覚エージェントはソフトウェアインターフェース、特にグラフィカルユーザインタフェースにますます影響を与えている。 本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。 モバイルデバイスをナビゲートできるこのフレームワークは、人間のようなインタラクションをエミュレートする。 エージェントはフレキシブルなアクション空間を構築し,パーサやテキスト,ビジョン記述など,さまざまなアプリケーションに適用性を高める。 エージェントは、探索と展開の2つの主要なフェーズを通して運用される。 探索段階において、ユーザインターフェイス要素の機能については、エージェント駆動または手動で、カスタマイズされた構造化された知識ベースへの探索を通じて文書化される。 展開段階において、RAG技術は、この知識ベースからの効率的な検索と更新を可能にし、エージェントが効率的にかつ正確にタスクを実行することを可能にする。 これには、さまざまなアプリケーションにわたる複雑なマルチステップ操作の実行が含まれており、カスタマイズされたタスクワークフローの処理におけるフレームワークの適応性と正確性を示す。 各種ベンチマークによる実験結果から,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。 私たちのコードはまもなくオープンソースになります。

With the advancement of Multimodal Large Language Models (MLLM), LLM-driven visual agents are increasingly impacting software interfaces, particularly those with graphical user interfaces. This work introduces a novel LLM-based multimodal agent framework for mobile devices. This framework, capable of navigating mobile devices, emulates human-like interactions. Our agent constructs a flexible action space that enhances adaptability across various applications including parser, text and vision descriptions. The agent operates through two main phases: exploration and deployment. During the exploration phase, functionalities of user interface elements are documented either through agent-driven or manual explorations into a customized structured knowledge base. In the deployment phase, RAG technology enables efficient retrieval and update from this knowledge base, thereby empowering the agent to perform tasks effectively and accurately. This includes performing complex, multi-step operations across various applications, thereby demonstrating the framework's adaptability and precision in handling customized task workflows. Our experimental results across various benchmarks demonstrate the framework's superior performance, confirming its effectiveness in real-world scenarios. Our code will be open source soon.
翻訳日:2024-11-08 06:00:04 公開日:2024-10-10
# 時系列分類のためのディープラーニングモデルにおける非現実的解釈可能性のベンチマーク

Benchmarking Counterfactual Interpretability in Deep Learning Models for Time Series Classification ( http://arxiv.org/abs/2408.12666v2 )

ライセンス: Link先を確認
Ziwen Kan, Shahbaz Rezaei, Xin Liu, (参考訳) 時系列領域におけるディープラーニング手法の人気は、対実的(CF)手法を含む解釈可能性研究への関心を高めている。 CFメソッドは、モデル予測を変更するインスタンスの最小限の変更を識別する。 大規模な研究にもかかわらず、時系列領域におけるCFメソッドの既存のベンチマークは存在しない。 さらに、論文で報告された結果は、データセットの数が限られており、メトリクスが不十分であるため、決定的ではない。 本研究では,CFの望ましい特性を正確に把握するために,定量的なメトリクスを再設計する。 特に、疎度と可視性のためにメトリクスを再設計し、一貫性のための新しいメトリクスを導入します。 妥当性,生成時間,近接性が組み合わさって総合的な計量集合を形成する。 我々は、20の単変量データセットと10の多変量データセットに3つの異なる分類器を持つ6つの異なるCF手法を体系的にベンチマークした。 その結果、CFメソッドのパフォーマンスはメトリクスや異なるモデルによって異なります。 最後に,ケーススタディと実践的利用指針について述べる。

The popularity of deep learning methods in the time series domain boosts interest in interpretability studies, including counterfactual (CF) methods. CF methods identify minimal changes in instances to alter the model predictions. Despite extensive research, no existing work benchmarks CF methods in the time series domain. Additionally, the results reported in the literature are inconclusive due to the limited number of datasets and inadequate metrics. In this work, we redesign quantitative metrics to accurately capture desirable characteristics in CFs. We specifically redesign the metrics for sparsity and plausibility and introduce a new metric for consistency. Combined with validity, generation time, and proximity, we form a comprehensive metric set. We systematically benchmark 6 different CF methods on 20 univariate datasets and 10 multivariate datasets with 3 different classifiers. Results indicate that the performance of CF methods varies across metrics and among different models. Finally, we provide case studies and a guideline for practical usage.
翻訳日:2024-11-08 05:37:29 公開日:2024-10-10
# Kerr-cat量子ビット初期化におけるポンプ誘起周波数シフトの動的補償

Dynamic compensation for pump-induced frequency shift in Kerr-cat qubit initialization ( http://arxiv.org/abs/2408.14112v3 )

ライセンス: Link先を確認
Yifang Xu, Ziyue Hua, Weiting Wang, Yuwei Ma, Ming Li, Jiajun Chen, Jie Zhou, Xiaoxuan Pan, Lintao Xiao, Hongwei Huang, Weizhou Cai, Hao Ai, Yu-xi Liu, Chang-Ling Zou, Luyan Sun, (参考訳) ノイズバイアスのKerr-cat量子ビットはフォールトトレラント量子計算の魅力的な候補であるが、その初期化はポンプ誘起周波数シフト(PIFS)による問題に直面している。 本稿では,Kerr-cat量子ビット初期化におけるPIFSの効果を軽減するための動的補償法を提案する。 非線形設計による新しい三重ループSQUID装置を用いて, 安定化Kerr-cat量子ビットを実現し, 初期化忠実度を57%から78%に向上させ, 動的補償法の利点を検証した。 我々の結果は、Kerr-cat量子ビットの実践的な実装を前進させるだけでなく、これらのシステムの基本断熱力学に関する貴重な洞察を提供する。 この研究は、Kerr-cat量子ビットのバイアス保存特性を利用するスケーラブル量子プロセッサの道を開いた。

The noise-biased Kerr-cat qubit is an attractive candidate for fault-tolerant quantum computation; however, its initialization faces challenges due to the squeezing pump-induced frequency shift (PIFS). Here, we propose and demonstrate a dynamic compensation method to mitigate the effect of PIFS during the Kerr-cat qubit initialization. Utilizing a novel nonlinearity-engineered triple-loop SQUID device, we realize a stabilized Kerr-cat qubit and validate the advantages of the dynamic compensation method by improving the initialization fidelity from 57% to 78%, with a projected fidelity of 91% after excluding state preparation and measurement errors. Our results not only advance the practical implementation of Kerr-cat qubits, but also provide valuable insights into the fundamental adiabatic dynamics of these systems. This work paves the way for scalable quantum processors that leverage the bias-preserving properties of Kerr-cat qubits.
翻訳日:2024-11-08 05:04:12 公開日:2024-10-10
# RAIN:数値気象・気候モデルの改善のための強化アルゴリズム

RAIN: Reinforcement Algorithms for Improving Numerical Weather and Climate Models ( http://arxiv.org/abs/2408.16118v2 )

ライセンス: Link先を確認
Pritthijit Nath, Henry Moss, Emily Shuckburgh, Mark Webb, (参考訳) 本研究では、気候科学における重要なパラメータ化問題に対処するために、RLと理想的な気候モデルを統合することを検討する。 現在の気候モデルは、サブグリッドスケールのプロセスを表現するために複雑な数学的パラメータ化に依存しており、かなりの不確実性をもたらす可能性がある。 RLは、直接的なインタラクション、スパースや遅延フィードバックの処理、継続的なオンライン学習、長期最適化など、これらのパラメータ化スキームを強化する機能を提供する。 実世界の計算制約を模倣した温度バイアス補正と放射対流平衡(RCE)の2つの理想的な環境における8つのRLアルゴリズムの性能を評価する。 その結果、異なる気候シナリオにおいて異なるRLアプローチが優れており、探索アルゴリズムはバイアス補正に優れており、エクスプロイトアルゴリズムはRCEに対してより効果的であることがわかった。 これらの知見は、RLに基づくパラメータ化スキームが地球規模の気候モデルに統合される可能性を支持し、複雑な気候力学を捉える際の精度と効率を向上させる。 全体として、この研究は気候モデル精度を高めるためにRLを活用するための重要な第一歩であり、気候の理解と予測を改善するために重要である。 コードアクセスはhttps://github.com/p3jitnath/climate-rl。

This study explores integrating reinforcement learning (RL) with idealised climate models to address key parameterisation challenges in climate science. Current climate models rely on complex mathematical parameterisations to represent sub-grid scale processes, which can introduce substantial uncertainties. RL offers capabilities to enhance these parameterisation schemes, including direct interaction, handling sparse or delayed feedback, continuous online learning, and long-term optimisation. We evaluate the performance of eight RL algorithms on two idealised environments: one for temperature bias correction, another for radiative-convective equilibrium (RCE) imitating real-world computational constraints. Results show different RL approaches excel in different climate scenarios with exploration algorithms performing better in bias correction, while exploitation algorithms proving more effective for RCE. These findings support the potential of RL-based parameterisation schemes to be integrated into global climate models, improving accuracy and efficiency in capturing complex climate dynamics. Overall, this work represents an important first step towards leveraging RL to enhance climate model accuracy, critical for improving climate understanding and predictions. Code accessible at https://github.com/p3jitnath/climate-rl.
翻訳日:2024-11-08 04:19:50 公開日:2024-10-10
# Critic-CoT: Chain-of-thinkts Criticによる大規模言語モデルの推論能力向上

Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic ( http://arxiv.org/abs/2408.16326v2 )

ライセンス: Link先を確認
Xin Zheng, Jie Lou, Boxi Cao, Xueru Wen, Yuqiu Ji, Hongyu Lin, Yaojie Lu, Xianpei Han, Debing Zhang, Le Sun, (参考訳) 自己批判はLLMの推論性能を高める重要なメカニズムとなっている。 しかしながら、現在のアプローチは主に、System-1プロセスに類似し、推論能力を制限する直感的なインスタンスレベルのフィードバックのための基本的なプロンプトを含んでいる。 さらに,LLMの批判能力と課題解決性能との関係について,詳細な調査は行われていない。 これらの問題に対処するために,LLMをシステム2のような批判能力に向かわせる新しいフレームワークであるCritic-CoTを提案する。 ステップワイズなCoT推論パラダイムと人間のアノテーションを使わずに遠隔スーパービジョンデータの自動構築を通じて、Critic-CoTはLCMをゆっくりと分析的な自己批判と洗練に関与させ、推論能力を向上させる。 GSM8KとMATHの実験では、拡張モデルにより、無効解のフィルタリングや反復改善によりタスク解決性能が大幅に向上することを示した。 さらに,LLMにおける批判と課題解決能力の本質的相関を考察し,これらの能力が対立よりも相互に強化可能であることを明らかにする。

Self-critic has become a crucial mechanism for enhancing the reasoning performance of LLMs. However, current approaches mainly involve basic prompts for intuitive instance-level feedback, which resembles System-1 processes and limits the reasoning capabilities. Moreover, there is a lack of in-depth investigations into the relationship between LLM's ability to criticize and its task-solving performance. To address these issues, we propose Critic-CoT, a novel framework that pushes LLMs toward System-2-like critic capability. Through a step-wise CoT reasoning paradigm and the automatic construction of distant-supervision data without human annotation, Critic-CoT enables LLMs to engage in slow, analytic self-critique and refinement, thereby improving their reasoning abilities. Experiments on GSM8K and MATH demonstrate that our enhanced model significantly boosts task-solving performance by filtering out invalid solutions or iterative refinement. Furthermore, we investigate the intrinsic correlation between critique and task-solving abilities within LLMs, discovering that these abilities can mutually reinforce each other rather than conflict.
翻訳日:2024-11-08 04:19:50 公開日:2024-10-10
# デノイングと測地熱拡散によるUVフリーテクスチャ生成

UV-free Texture Generation with Denoising and Geodesic Heat Diffusions ( http://arxiv.org/abs/2408.16762v2 )

ライセンス: Link先を確認
Simone Foti, Stefanos Zafeiriou, Tolga Birdal, (参考訳) メッシュの標準UVベースのテクスチャにおいて、シーム、歪み、無駄なUV空間、頂点重複、および表面上の様々な解像度が最も顕著な問題である。 これらの問題は、自動UVアンラッピング技術を使用する場合、特に深刻である。 このため,ほとんどの最先端技術と同様に自動生成UV平面のテクスチャを生成する代わりに,3次元物体の表面での操作に制約された拡散確率モデルにより色が生じる色付き点雲としてテクスチャを表現することを提案する。 我々のサンプリングおよび分解能非依存生成モデルは,点間の空間的通信のためにメッシュ表面上の熱拡散に大きく依存している。 任意サンプリングした点雲テクスチャの処理と長距離テクスチャの整合性を確保するため,熱拡散時に使用するメッシュスペクトル特性の高速再サンプリングを導入し,新しい熱拡散型自己保持機構を導入する。 我々のコードと事前訓練されたモデルはgithub.com/simofoti/UV3-TeDで利用可能です。

Seams, distortions, wasted UV space, vertex-duplication, and varying resolution over the surface are the most prominent issues of the standard UV-based texturing of meshes. These issues are particularly acute when automatic UV-unwrapping techniques are used. For this reason, instead of generating textures in automatically generated UV-planes like most state-of-the-art methods, we propose to represent textures as coloured point-clouds whose colours are generated by a denoising diffusion probabilistic model constrained to operate on the surface of 3D objects. Our sampling and resolution agnostic generative model heavily relies on heat diffusion over the surface of the meshes for spatial communication between points. To enable processing of arbitrarily sampled point-cloud textures and ensure long-distance texture consistency we introduce a fast re-sampling of the mesh spectral properties used during the heat diffusion and introduce a novel heat-diffusion-based self-attention mechanism. Our code and pre-trained models are available at github.com/simofoti/UV3-TeD.
翻訳日:2024-11-08 04:08:49 公開日:2024-10-10
# ソフトウェア品質保証の因果推論:システムレビュー

Causal Reasoning in Software Quality Assurance: A Systematic Review ( http://arxiv.org/abs/2408.17183v2 )

ライセンス: Link先を確認
Luca Giamattei, Antonio Guerriero, Roberto Pietrantuono, Stefano Russo, (参考訳) コンテキスト:ソフトウェア品質保証(Software Quality Assurance, SQA)は、ソフトウェア製品のリリース後の期待通りに動作することを保証するソフトウェアエンジニアリングの基本的な部分である。 機械学習(ML)は、SQA活動を強化し、高品質なソフトウェアシステムの開発に貢献できることが証明されている。 この文脈では、より効果的なSQA戦略に因果関係を利用することによって、純粋にデータ駆動アプローチを超える方法論として、Causal Reasoningが関心を集めています。 目的:SQA活動における因果推論の利用について、研究者がこの研究分野にアクセスし、応用の場、主な課題、研究の機会を特定するために、広範かつ詳細な概要を提供する。 方法:SQAの因果推論に関する科学的文献の体系的レビュー。 ソフトウェア工学二次研究の確立されたガイドラインによると、この研究は86の論文を発見し、分類し、分析している。 結果: 因果推論が適用されたSQAの主要な領域, 使用方法, 提案手法の成熟度について検討した。 障害のローカライゼーションは、特にWebサービス/マイクロサービスドメインにおいて、因果推論をより活用するアクティビティですが、テストのような他のタスクが急速に人気を集めています。 因果推論と因果発見の両方が利用されており、パール図による因果関係の定式化が好まれている。 アプリケーションを好むツールは急速に現れており、そのほとんどが2021年以降である。 結論: 因果推論は、複数の品質特性、特にV&Vにおいて、信頼性を確保するための進化とメンテナンスにおいて、SQAタスクにとって価値のある手段であることを示している。

Context: Software Quality Assurance (SQA) is a fundamental part of software engineering to ensure stakeholders that software products work as expected after release in operation. Machine Learning (ML) has proven to be able to boost SQA activities and contribute to the development of quality software systems. In this context, Causal Reasoning is gaining increasing interest as a methodology to go beyond a purely data-driven approach by exploiting the use of causality for more effective SQA strategies. Objective: Provide a broad and detailed overview of the use of causal reasoning for SQA activities, in order to support researchers to access this research field, identifying room for application, main challenges and research opportunities. Methods: A systematic review of the scientific literature on causal reasoning for SQA. The study has found, classified, and analyzed 86 articles, according to established guidelines for software engineering secondary studies. Results: Results highlight the primary areas within SQA where causal reasoning has been applied, the predominant methodologies used, and the level of maturity of the proposed solutions. Fault localization is the activity where causal reasoning is more exploited, especially in the web services/microservices domain, but other tasks like testing are rapidly gaining popularity. Both causal inference and causal discovery are exploited, with the Pearl's graphical formulation of causality being preferred, likely due to its intuitiveness. Tools to favour their application are appearing at a fast pace - most of them after 2021. Conclusions: The findings show that causal reasoning is a valuable means for SQA tasks with respect to multiple quality attributes, especially during V&V, evolution and maintenance to ensure reliability, while it is not yet fully exploited for phases like ...
翻訳日:2024-11-08 03:57:28 公開日:2024-10-10
# 反復的視覚プロンプティングによるオープンボキャブラリ動作の定位

Open-Vocabulary Action Localization with Iterative Visual Prompting ( http://arxiv.org/abs/2408.17422v4 )

ライセンス: Link先を確認
Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi, (参考訳) ビデオアクションのローカライゼーションは、長いビデオから特定のアクションのタイミングを見つけることを目的としている。 既存の学習ベースのアプローチは成功したが、アノテートビデオが必要である。 本稿では,市販の視覚言語モデル(VLM)に基づく学習自由でオープンな語彙アプローチを提案する。 この課題は、VLMが長いビデオを処理するように設計されていないことと、アクションを見つけるために調整されていることに起因している。 我々は、反復的な視覚的プロンプト技術を拡張することで、これらの問題を克服する。 具体的には、ビデオフレームをサンプリングし、フレームインデックスラベルと連結した画像を作成し、VLMはアクションの開始と終了に最も近いと考えられるフレームを推測する。 このプロセスをサンプリング時間ウィンドウを絞り込むことで反復することで、アクションの開始と終了に対応する特定のフレームを見つけることができる。 我々は,この手法が,最先端のゼロショットアクションローカライゼーションに匹敵する結果が得られることを実証した。 これらの結果はビデオ理解のためのVLMの実践的拡張を示している。 サンプルコードはhttps://microsoft.github.io/VLM-Video-Action-Localization/で公開されている。

Video action localization aims to find the timings of specific actions from a long video. Although existing learning-based approaches have been successful, they require annotating videos, which comes with a considerable labor cost. This paper proposes a learning-free, open-vocabulary approach based on emerging off-the-shelf vision-language models (VLMs). The challenge stems from the fact that VLMs are neither designed to process long videos nor tailored for finding actions. We overcome these problems by extending an iterative visual prompting technique. Specifically, we sample video frames and create a concatenated image with frame index labels, making a VLM guess a frame that is considered to be closest to the start and end of the action. Iterating this process by narrowing a sampling time window results in finding the specific frames corresponding to the start and end of an action. We demonstrate that this technique yields reasonable performance, achieving results comparable to state-of-the-art zero-shot action localization. These results illustrate a practical extension of VLMs for understanding videos. A sample code is available at https://microsoft.github.io/VLM-Video-Action-Localization/.
翻訳日:2024-11-08 03:57:28 公開日:2024-10-10
# LLMs Robustness with Uncorrect Multiple-Choice Options

Wait, that's not an option: LLMs Robustness with Incorrect Multiple-Choice Options ( http://arxiv.org/abs/2409.00113v2 )

ライセンス: Link先を確認
Gracjan Góral, Emilia Wiśnios, Piotr Sankowski, Paweł Budzianowski, (参考訳) 完全な整合性の下での意思決定は、推論と忠実性のバランスを必要とする。 本研究は,「A や B にのみ応答する」というような「誤解を招く」命令を与えられた場合,LLM が推論や真理よりも次の命令を優先するかどうかを考察する。 本稿では,学習前アライメントと学習後アライメントの関連性に新たな光を当てる「反射判断」という新しい指標を提案する。 基本的な算術からドメイン固有の評価までのタスクでは、GPT-4o、o1-mini、Claude 3 Opusといったモデルが命令に正しく準拠したが、提供されたオプションの有効性を反映しなかった。 対照的に、Llama 3.1 ファミリー (8B, 70B, 405B) またはベースQwen2.5 (7B, 14B, 32B) ファミリーのモデルでは、スケール効果を示す。 また、アライメント技術は推論を強化することを意図しているが、時にモデルが誤った指示を拒否する能力を弱め、欠陥のあるプロンプトを不クリティカルに追従することも観察した。 最後に,人間の行動やアノテーションに類似したパターンを呈する並列人間の研究も行った。 我々は、RLHFデータセットがトレーニングまたは評価の両方を妨害する可能性があることを強調した。

Decision-making under full alignment requires balancing between reasoning and faithfulness - a challenge for large language models (LLMs). This study explores whether LLMs prioritize following instructions over reasoning and truth when given "misleading" instructions, such as "Respond solely with A or B", even when neither option is correct. We introduce a new metric called "reflective judgment", which sheds new light on the relationship between the pre-training and post-training alignment schemes. In tasks ranging from basic arithmetic to domain-specific assessments, models like GPT-4o, o1-mini, or Claude 3 Opus adhered to instructions correctly but failed to reflect on the validity of the provided options. Contrary, models from the Llama 3.1 family (8B, 70B, 405B) or base Qwen2.5 (7B, 14B, 32B) families exhibit improved refusal rates with size, indicating a scaling effect. We also observed that alignment techniques, though intended to enhance reasoning, sometimes weakened the models' ability to reject incorrect instructions, leading them to follow flawed prompts uncritically. Finally, we have also conducted a parallel human study revealing similar patterns in human behavior and annotations. We highlight how popular RLHF datasets might disrupt either training or evaluation due to annotations exhibiting poor reflective judgement.
翻訳日:2024-11-08 03:57:28 公開日:2024-10-10
# 認知モデルを用いた人間とGPT-4の主観的類似度の測定

Leveraging a Cognitive Model to Measure Subjective Similarity of Human and GPT-4 Written Content ( http://arxiv.org/abs/2409.00269v2 )

ライセンス: Link先を確認
Tyler Malloy, Maria José Ferreira, Fei Fang, Cleotilde Gonzalez, (参考訳) 2つの文書間のコサイン類似性は、GPT-4のような大規模言語モデル(LLM)によって形成されたトークン埋め込みを用いて計算でき、それらの文書を様々な用途で分類するのに使われる。 しかしながら、これらの類似性は最終的にこれらのLCMを訓練するために使用されるコーパスに依存しており、個人の主観的類似性や、それらのバイアスや制約が類似性指標にどのように影響するかを反映していない可能性がある。 類似度指標の認知的なパーソナライズが欠如していることは、カテゴリーや好みの個人的判断が限られている教育やレコメンデーションの設定において特に問題となり、バイアスは特に関係がある。 これを解決するために、インスタンスベース学習(IBL)認知モデルとLLM埋め込みを統合して、インスタンスベース個別類似度(IBIS)メトリクスを開発する。 この類似度尺度は、個人のバイアスと制約を、意思決定の認知メカニズムに根ざした方法で考慮するという点で有益である。 IBIS測定値を評価するために,メールの人的分類のデータセットを危険(フィッシング)か安全(ハム)のいずれかとして導入する。 このデータセットは、認知モデルを利用して、教育環境での人間の被験者の主観的類似度を測定する利点を示すために使用される。

Cosine similarity between two documents can be computed using token embeddings formed by Large Language Models (LLMs) such as GPT-4, and used to categorize those documents across a range of uses. However, these similarities are ultimately dependent on the corpora used to train these LLMs, and may not reflect subjective similarity of individuals or how their biases and constraints impact similarity metrics. This lack of cognitively-aware personalization of similarity metrics can be particularly problematic in educational and recommendation settings where there is a limited number of individual judgements of category or preference, and biases can be particularly relevant. To address this, we rely on an integration of an Instance-Based Learning (IBL) cognitive model with LLM embeddings to develop the Instance-Based Individualized Similarity (IBIS) metric. This similarity metric is beneficial in that it takes into account individual biases and constraints in a manner that is grounded in the cognitive mechanisms of decision making. To evaluate the IBIS metric, we also introduce a dataset of human categorizations of emails as being either dangerous (phishing) or safe (ham). This dataset is used to demonstrate the benefits of leveraging a cognitive model to measure the subjective similarity of human participants in an educational setting.
翻訳日:2024-11-08 03:46:25 公開日:2024-10-10
# テキスト・プロンプトの多角的解釈性は医療ビジョンのゼロショット・タスクにどのように影響するか?

How Does Diverse Interpretability of Textual Prompts Impact Medical Vision-Language Zero-Shot Tasks? ( http://arxiv.org/abs/2409.00543v2 )

ライセンス: Link先を確認
Sicheng Wang, Che Liu, Rossella Arcucci, (参考訳) 近年のMedVLP(MedVLP)は,大規模医用画像・テキスト・ペア・プレトレーニングを活用することで,画像分類などのゼロショット医療ビジョンタスクを大幅に強化している。 しかし、これらのタスクのパフォーマンスは、カテゴリを記述するテキストプロンプトの可変性に大きく影響され、MedVLPモデルのロバスト性は多様なプロンプトスタイルに必要となる。 しかし、この感度は未発見のままである。 本研究は、15の異なる疾患に対する3つの広く用いられているMedVLP法の感度を系統的に評価した最初のものである。 これを実現するために,実際の臨床シナリオを反映する6つのユニークなプロンプトスタイルを設計した。 以上の結果から,全てのMedVLPモデルは異なるプロンプトスタイルで不安定な性能を示し,ロバストさの欠如が示唆された。 さらに、モデルの性能は、迅速な解釈可能性の向上とともに変化し、複雑な医療概念の理解が困難であることが判明した。 本研究は,多種多様なゼロショットプロンプトに対するロバスト性を高めるため,MedVLP方法論のさらなる開発の必要性を浮き彫りにする。

Recent advancements in medical vision-language pre-training (MedVLP) have significantly enhanced zero-shot medical vision tasks such as image classification by leveraging large-scale medical image-text pair pre-training. However, the performance of these tasks can be heavily influenced by the variability in textual prompts describing the categories, necessitating robustness in MedVLP models to diverse prompt styles. Yet, this sensitivity remains underexplored. In this work, we are the first to systematically assess the sensitivity of three widely-used MedVLP methods to a variety of prompts across 15 different diseases. To achieve this, we designed six unique prompt styles to mirror real clinical scenarios, which were subsequently ranked by interpretability. Our findings indicate that all MedVLP models evaluated show unstable performance across different prompt styles, suggesting a lack of robustness. Additionally, the models' performance varied with increasing prompt interpretability, revealing difficulties in comprehending complex medical concepts. This study underscores the need for further development in MedVLP methodologies to enhance their robustness to diverse zero-shot prompts.
翻訳日:2024-11-08 03:46:24 公開日:2024-10-10
# CONDA:Co-Salient Object Detectionのためのディープアソシエーション学習

CONDA: Condensed Deep Association Learning for Co-Salient Object Detection ( http://arxiv.org/abs/2409.01021v3 )

ライセンス: Link先を確認
Long Li, Nian Liu, Dingwen Zhang, Zhongyu Li, Salman Khan, Rao Anwer, Hisham Cholakkal, Junwei Han, Fahad Shahbaz Khan, (参考訳) 画像間アソシエーションモデリングは、共塩性物体検出に不可欠である。 良好な性能にもかかわらず、以前の手法では十分な画像間関連モデリングに制限がある。 画像特徴の最適化は、画像間関係をヒューリスティックに計算し、画像特徴の最適化に焦点が当てられている。 複雑なシナリオでは信頼できない生のアソシエーションに直接依存しており、画像特徴最適化アプローチは画像間アソシエーションモデリングでは明確ではない。 これらの制約を緩和するため,本論文では,ディープ・ネットワークを生のアソシエーションに展開し,それらをディープ・アソシエーションに明示的に変換するディープ・アソシエーション・ラーニング・ストラテジーを提案する。 具体的には、まずハイパーアソシエーションを作成し、高密度なピクセル対の生のアソシエーションを収集し、その上にディープアグリゲーションネットワークを配置する。 我々は,この目的のために,ハイパーアソシエーション計算をさらに強化したプログレッシブ・アソシエーション・ジェネレーション・モジュールを設計する。 さらに,計算負荷の低減とノイズ除去のためのハイパーアソシエーションを凝縮させるために,意味的対応推定というテキストタスクを導入した対応型アソシエーション・コンデンサモジュールを提案する。 また、高品質な対応推定のためのオブジェクト認識サイクル整合性損失を設計する。 3つのベンチマークデータセットによる実験結果から,提案手法の各種トレーニング設定による顕著な効果が示された。

Inter-image association modeling is crucial for co-salient object detection. Despite satisfactory performance, previous methods still have limitations on sufficient inter-image association modeling. Because most of them focus on image feature optimization under the guidance of heuristically calculated raw inter-image associations. They directly rely on raw associations which are not reliable in complex scenarios, and their image feature optimization approach is not explicit for inter-image association modeling. To alleviate these limitations, this paper proposes a deep association learning strategy that deploys deep networks on raw associations to explicitly transform them into deep association features. Specifically, we first create hyperassociations to collect dense pixel-pair-wise raw associations and then deploys deep aggregation networks on them. We design a progressive association generation module for this purpose with additional enhancement of the hyperassociation calculation. More importantly, we propose a correspondence-induced association condensation module that introduces a pretext task, i.e. semantic correspondence estimation, to condense the hyperassociations for computational burden reduction and noise elimination. We also design an object-aware cycle consistency loss for high-quality correspondence estimations. Experimental results in three benchmark datasets demonstrate the remarkable effectiveness of our proposed method with various training settings.
翻訳日:2024-11-08 03:35:26 公開日:2024-10-10
# 4D-CAT:Systoleおよびdiastoleからの4D冠状動脈樹の合成

4D-CAT: Synthesis of 4D Coronary Artery Trees from Systole and Diastole ( http://arxiv.org/abs/2409.01725v2 )

ライセンス: Link先を確認
Daosong Hu, Ruomeng Wang, Liang Zhao, Mingyue Cui, Song Ding, Kai Huang, (参考訳) CT画像から再構成した3次元血管モデルが医学的診断に広く用いられている。 異なる段階において、心臓の鼓動は血管の変形を引き起こし、血管のイメージング状態と偽陽性の診断結果をもたらす。 4Dモデルは完全な心臓循環をシミュレートすることができる。 コントラスト剤注入の投与限界のため, 有限位相イメージングにより4次元冠状動脈木を合成することが重要である。 本稿では,4次元冠状動脈木を生成する方法を提案する。この方法では,シトールを変形場予測によってダイアストルにマッピングし,タイムライン上で補間し,点の運動軌跡を求める。 具体的には、中心線は容器を表現し、立方体に基づくソートとニューラルネットワークを用いて変形場を推論するために用いられる。 中心点の変形場に基づいて隣接容器点を集約補間し、異なる位相の変位ベクトルを得る。 最後に,非剛性血管点の登録と4次元冠状動脈の発生について実験により検証した。

The three-dimensional vascular model reconstructed from CT images is widely used in medical diagnosis. At different phases, the beating of the heart can cause deformation of vessels, resulting in different vascular imaging states and false positive diagnostic results. The 4D model can simulate a complete cardiac cycle. Due to the dose limitation of contrast agent injection in patients, it is valuable to synthesize a 4D coronary artery trees through finite phases imaging. In this paper, we propose a method for generating a 4D coronary artery trees, which maps the systole to the diastole through deformation field prediction, interpolates on the timeline, and the motion trajectory of points are obtained. Specifically, the centerline is used to represent vessels and to infer deformation fields using cube-based sorting and neural networks. Adjacent vessel points are aggregated and interpolated based on the deformation field of the centerline point to obtain displacement vectors of different phases. Finally, the proposed method is validated through experiments to achieve the registration of non-rigid vascular points and the generation of 4D coronary trees.
翻訳日:2024-11-08 03:23:46 公開日:2024-10-10
# Parallax: ハードウェア制約下での中性原子量子コンピュータ用コンパイラ

Parallax: A Compiler for Neutral Atom Quantum Computers under Hardware Constraints ( http://arxiv.org/abs/2409.04578v2 )

ライセンス: Link先を確認
Jason Ludmir, Tirthak Patel, (参考訳) 様々な量子コンピューティング技術の中で、中性原子量子コンピュータには、マルチキュービットゲート、アプリケーション固有のトポロジー、可動量子ビット、均質量子ビット、長距離相互作用など、いくつかの利点がある。 しかし、中性原子に対する既存のコンパイル技術は、実用的でスケーラブルな方法でこれらの利点を活用できない。 本稿では,非SWAPでスケーラブルで並列化可能なコンパイルおよび原子移動スケジューリング手法であるParallaxについて紹介する。

Among different quantum computing technologies, neutral atom quantum computers have several advantageous features, such as multi-qubit gates, application-specific topologies, movable qubits, homogenous qubits, and long-range interactions. However, existing compilation techniques for neutral atoms fall short of leveraging these advantages in a practical and scalable manner. This paper introduces Parallax, a zero-SWAP, scalable, and parallelizable compilation and atom movement scheduling method tailored for neutral atom systems, which reduces high-error operations by 25% and increases the success rate by 28% on average compared to the state-of-the-art technique.
翻訳日:2024-11-07 23:00:54 公開日:2024-10-10
# 多変量仮説テストによる統計的に妥当な情報ボトルネック

Statistically Valid Information Bottleneck via Multiple Hypothesis Testing ( http://arxiv.org/abs/2409.07325v2 )

ライセンス: Link先を確認
Amirmohammad Farzaneh, Osvaldo Simeone, (参考訳) 情報ボトルネック(IB)問題は、下流タスクに有用な圧縮された特徴を抽出する機械学習のフレームワークとして広く研究されている。 しかし、現在のIB問題に対するアプローチはハイパーパラメータのヒューリスティックなチューニングに依存しており、学習した特徴が情報理論上の制約を満たすという保証は提供されていない。 本研究では,複数の仮説テスト (IB-MHT) を用いて,この問題に対する統計的に有効な解を提案する。 提案手法はParetoテストとLearning-then-test(LTT)に基づいており、既存のIBソルバを包み込み、IB制約の統計的保証を提供する。 IB-MHTの古典的および決定論的IB定式化における性能を示す。 IB-MHTは, 統計的ロバスト性および信頼性の観点から, 従来の手法よりも優れていた。

The information bottleneck (IB) problem is a widely studied framework in machine learning for extracting compressed features that are informative for downstream tasks. However, current approaches to solving the IB problem rely on a heuristic tuning of hyperparameters, offering no guarantees that the learned features satisfy information-theoretic constraints. In this work, we introduce a statistically valid solution to this problem, referred to as IB via multiple hypothesis testing (IB-MHT), which ensures that the learned features meet the IB constraints with high probability, regardless of the size of the available dataset. The proposed methodology builds on Pareto testing and learn-then-test (LTT), and it wraps around existing IB solvers to provide statistical guarantees on the IB constraints. We demonstrate the performance of IB-MHT on classical and deterministic IB formulations, including experiments on distillation of language models. The results validate the effectiveness of IB-MHT in outperforming conventional methods in terms of statistical robustness and reliability.
翻訳日:2024-11-07 21:53:46 公開日:2024-10-10
# 階層型ハイパープレックスネットワークによるマルチモーダル感情認識

Hierarchical Hypercomplex Network for Multimodal Emotion Recognition ( http://arxiv.org/abs/2409.09194v2 )

ライセンス: Link先を確認
Eleonora Lopez, Aurelio Uncini, Danilo Comminiello, (参考訳) 感情認識は、医療から人間とコンピュータの相互作用まで、様々な領域で関係している。 自発的に制御できない生理学的信号は、自由に制御できる音声や表情とは異なり、この目的のために信頼できる情報を提供する。 真の感情反応を反映し、意識的な操作を欠き、感情認識システムの信頼性を高める。 それでも、深層学習モデルを用いたマルチモーダル感情認識は、まだ探索されていない分野である。 本稿では,階層的な学習構造を持つ完全超複素ネットワークを導入し,相関関係をフルキャプチャする。 具体的には、エンコーダレベルでは、各入力信号の異なるチャネル間のモード内関係を学習する。 そして、超複素核融合加群は、異なるモダリティの埋め込みの間のモーダル間関係を学習する。 主な特徴は、超複素代数のおかげで単一モード内でのチャネル間相互作用を捉えることができるパラメータ化超複素畳み込み(PHC)をエンコーダに与えることで、モーダル内関係を利用することである。 代わりに、融合モジュールはパラメータ化された超複素乗法(PHM)を含み、モーダル間相関をモデル化することができる。 提案アーキテクチャは、感情認識のためのMAHNOB-HCIデータセットの最先端モデル、特に脳波(EEG)と周辺生理学的信号からの原子価と覚醒の分類において超越している。 この研究のコードはhttps://github.com/ispamm/MHyEEG.comで公開されている。

Emotion recognition is relevant in various domains, ranging from healthcare to human-computer interaction. Physiological signals, being beyond voluntary control, offer reliable information for this purpose, unlike speech and facial expressions which can be controlled at will. They reflect genuine emotional responses, devoid of conscious manipulation, thereby enhancing the credibility of emotion recognition systems. Nonetheless, multimodal emotion recognition with deep learning models remains a relatively unexplored field. In this paper, we introduce a fully hypercomplex network with a hierarchical learning structure to fully capture correlations. Specifically, at the encoder level, the model learns intra-modal relations among the different channels of each input signal. Then, a hypercomplex fusion module learns inter-modal relations among the embeddings of the different modalities. The main novelty is in exploiting intra-modal relations by endowing the encoders with parameterized hypercomplex convolutions (PHCs) that thanks to hypercomplex algebra can capture inter-channel interactions within single modalities. Instead, the fusion module comprises parameterized hypercomplex multiplications (PHMs) that can model inter-modal correlations. The proposed architecture surpasses state-of-the-art models on the MAHNOB-HCI dataset for emotion recognition, specifically in classifying valence and arousal from electroencephalograms (EEGs) and peripheral physiological signals. The code of this study is available at https://github.com/ispamm/MHyEEG.
翻訳日:2024-11-07 20:57:42 公開日:2024-10-10
# 質問の難易度評価のための指導的学習

Active Learning to Guide Labeling Efforts for Question Difficulty Estimation ( http://arxiv.org/abs/2409.09258v2 )

ライセンス: Link先を確認
Arthur Thuy, Ekaterina Loginova, Dries F. Benoit, (参考訳) 近年,自然言語処理技術を用いた質問難読度推定(QDE)の研究が急増している。 トランスフォーマーベースのニューラルネットワークは、主に教師なしの手法ではなく、教師なし学習における独立した研究によって、最先端のパフォーマンスを達成する。 教師付き手法は予測性能に重点を置いているが、十分なラベル付きデータが必要である。 一方、教師なしの手法はラベル付きデータを必要としないが、実際には計算コストがかかる別の評価基準に依存している。 この研究は、最先端のモデルの性能に適合しながらラベル付け作業を最小化する、教師付き人間ループアプローチであるQDEのアクティブラーニングを探求することで、研究ギャップを埋める。 アクティブな学習プロセスはラベル付きサブセットを反復的にトレーニングし、最も有意義なラベル付きデータポイントに対してのみ、人間の専門家からラベルを取得する。 さらに,ラベル付き集合に最も情報性の高いサンプルを付加する新たな取得関数PowerVarianceを提案する。 筆者らはDistolBERTをQDEに使用し,モンテカルロ液滴法を用いて未ラベル試料の疫学的不確実性を把握し,情報的サンプルを同定した。 実験により、PowerVarianceの取得によるアクティブラーニングは、トレーニングデータの10%だけをラベル付けした後、完全に教師付きモデルに近いパフォーマンスを達成することが示された。 提案手法は、教育資源の責任ある利用を促進し、QDEツールをコースインストラクターに利用しやすくし、パーソナライズされたサポートシステムや質問応答ツールなど他のアプリケーションにも有望である。

In recent years, there has been a surge in research on Question Difficulty Estimation (QDE) using natural language processing techniques. Transformer-based neural networks achieve state-of-the-art performance, primarily through supervised methods but with an isolated study in unsupervised learning. While supervised methods focus on predictive performance, they require abundant labeled data. On the other hand, unsupervised methods do not require labeled data but rely on a different evaluation metric that is also computationally expensive in practice. This work bridges the research gap by exploring active learning for QDE, a supervised human-in-the-loop approach striving to minimize the labeling efforts while matching the performance of state-of-the-art models. The active learning process iteratively trains on a labeled subset, acquiring labels from human experts only for the most informative unlabeled data points. Furthermore, we propose a novel acquisition function PowerVariance to add the most informative samples to the labeled set, a regression extension to the PowerBALD function popular in classification. We employ DistilBERT for QDE and identify informative samples by applying Monte Carlo dropout to capture epistemic uncertainty in unlabeled samples. The experiments demonstrate that active learning with PowerVariance acquisition achieves a performance close to fully supervised models after labeling only 10% of the training data. The proposed methodology promotes the responsible use of educational resources, makes QDE tools more accessible to course instructors, and is promising for other applications such as personalized support systems and question-answering tools.
翻訳日:2024-11-07 20:57:42 公開日:2024-10-10
# BNEM:Bootstrapped Noised Energy Matchingに基づくボルツマンサンプリング器

BNEM: A Boltzmann Sampler Based on Bootstrapped Noised Energy Matching ( http://arxiv.org/abs/2409.09787v2 )

ライセンス: Link先を確認
RuiKang OuYang, Bo Qiang, José Miguel Hernández-Lobato, (参考訳) ボルツマン分布から独立で同一分布のIIDサンプルを生成することができる効率的なサンプリング器の開発は、例えば分子動力学などの科学的研究において重要な課題である。 本研究では,ボルツマン分布から得られたデータの代わりに,エネルギー関数を与えられたニューラルサンプリングを学習する。 ノイズデータからエネルギーを学習することにより,理論上より分散度が低く,関連する作業よりも複雑である拡散型サンプリング装置であるNossd Energy Matchingを提案する。 さらに, バイアスと分散のバランスをとるため, NEMに新しいブートストラップ技術を適用した。 2次元のガウス混合モデル(GMM)と4次元のダブルウェルポテンシャル(DW-4)を用いてNEMとBNEMを評価した。 実験の結果,BNEMはより堅牢でありながら最先端の性能を達成できることがわかった。

Developing an efficient sampler capable of generating independent and identically distributed (IID) samples from a Boltzmann distribution is a crucial challenge in scientific research, e.g. molecular dynamics. In this work, we intend to learn neural samplers given energy functions instead of data sampled from the Boltzmann distribution. By learning the energies of the noised data, we propose a diffusion-based sampler, Noised Energy Matching, which theoretically has lower variance and more complexity compared to related works. Furthermore, a novel bootstrapping technique is applied to NEM to balance between bias and variance. We evaluate NEM and BNEM on a 2-dimensional 40 Gaussian Mixture Model (GMM) and a 4-particle double-well potential (DW-4). The experimental results demonstrate that BNEM can achieve state-of-the-art performance while being more robust.
翻訳日:2024-11-07 20:46:36 公開日:2024-10-10
# 強い収束保証をもつ確率的非凸最適化のための可変化一階法

Variance-reduced first-order methods for deterministically constrained stochastic nonconvex optimization with strong convergence guarantees ( http://arxiv.org/abs/2409.09906v3 )

ライセンス: Link先を確認
Zhaosong Lu, Sanyou Mei, Yifeng Xiao, (参考訳) 本稿では,決定論的に制約された確率的最適化問題のクラスについて検討する。 既存の方法は、通常$\epsilon$-stochastic固定点を見つけることを目的としている。 しかし、多くの実践的応用において、制約がほぼ確実に満たされることが重要であり、そのような$\epsilon$-stochasticな定常点が、重大な制約違反のリスクのために望ましくない可能性がある。 そこで本研究では, 確率成分の確率勾配を, 確率成分の傾きを正確に計算しながら, 再帰的モーメントスキームか, 縮退的ポリアクモーメントスキームのいずれかを用いて計算する, 単一ループ分散帰納確率一階法を提案する。 パラメータ $\theta \geq 1$ などの適切な仮定で誤差境界条件の下では、これらの手法がそれぞれ$\widetilde O(\epsilon^{-\max\{\theta+2, 2\theta\}})$と$\widetilde O(\epsilon^{-\max\{4, 2\theta\}})$のサンプルと1次演算の複雑さを達成し、より強い$\epsilon$-stochastic定常点を見つけるための$\epsilon$-stochastic定常点(英語版)は$\epsilon$内であり、期待される1次定常性は$\epsilon$内である。 $\theta=1$の場合、これらの複雑さは、それぞれ$\widetilde O(\epsilon^{-3})$と$\widetilde O(\epsilon^{-4})$に減少する。

In this paper, we study a class of deterministically constrained stochastic optimization problems. Existing methods typically aim to find an $\epsilon$-stochastic stationary point, where the expected violations of both constraints and first-order stationarity are within a prescribed accuracy $\epsilon$. However, in many practical applications, it is crucial that the constraints be nearly satisfied with certainty, making such an $\epsilon$-stochastic stationary point potentially undesirable due to the risk of significant constraint violations. To address this issue, we propose single-loop variance-reduced stochastic first-order methods, where the stochastic gradient of the stochastic component is computed using either a truncated recursive momentum scheme or a truncated Polyak momentum scheme for variance reduction, while the gradient of the deterministic component is computed exactly. Under the error bound condition with a parameter $\theta \geq 1$ and other suitable assumptions, we establish that these methods respectively achieve a sample and first-order operation complexity of $\widetilde O(\epsilon^{-\max\{\theta+2, 2\theta\}})$ and $\widetilde O(\epsilon^{-\max\{4, 2\theta\}})$ for finding a stronger $\epsilon$-stochastic stationary point, where the constraint violation is within $\epsilon$ with certainty, and the expected violation of first-order stationarity is within $\epsilon$. For $\theta=1$, these complexities reduce to $\widetilde O(\epsilon^{-3})$ and $\widetilde O(\epsilon^{-4})$ respectively, which match, up to a logarithmic factor, the best-known complexities achieved by existing methods for finding an $\epsilon$-stochastic stationary point of unconstrained smooth stochastic optimization problems.
翻訳日:2024-11-07 20:46:36 公開日:2024-10-10
# アメリカにおける人工オピオイド危機の空間的ダイナミクスの追跡と解析のための移動型グラフ畳み込みネットワーク

Mobility-GCN: a human mobility-based graph convolutional network for tracking and analyzing the spatial dynamics of the synthetic opioid crisis in the USA, 2013-2020 ( http://arxiv.org/abs/2409.09945v4 )

ライセンス: Link先を確認
Zhiyue Xia, Kathleen Stewart, (参考訳) 合成オピオイド(英: Synthetic opioids)は、アメリカ合衆国で最も一般的な薬物である。 疾病予防管理センターは2018年、薬物過剰摂取死の約70%がオピオイド、オピオイド関連死亡の67%が合成オピオイドによるものであると報告した。 本研究では,米国における2013年から2020年にかけての合成オピオイドの拡散について検討した。 合成オピオイドが関与する死の時空間パターンと他の重要なオピオイド,ヘロインとの関係を解析し,この2種類の薬物による死亡パターンの比較を行った。 郡間の空間的つながりと人的移動性をグラフ畳み込みニューラルネットワークモデルに組み込んで,前回のヘロイン関連死パターンの文脈における合成オピオイド関連死の拡散を表現・解析した。

Synthetic opioids are the most common drugs involved in drug-involved overdose mortalities in the U.S. The Center for Disease Control and Prevention reported that in 2018, about 70% of all drug overdose deaths involved opioids and 67% of all opioid-involved deaths were accounted for by synthetic opioids. In this study, we investigated the spread of synthetic opioids between 2013 and 2020 in the U.S. We analyzed the relationship between the spatiotemporal pattern of synthetic opioid-involved deaths and another key opioid, heroin, and compared patterns of deaths involving these two types of drugs during this period. Spatial connections and human mobility between counties were incorporated into a graph convolutional neural network model to represent and analyze the spread of synthetic opioid-involved deaths in the context of previous heroin-involved death patterns.
翻訳日:2024-11-07 20:35:12 公開日:2024-10-10
# 説得的非定型画像に関するVLMのベンチマーク

Benchmarking VLMs' Reasoning About Persuasive Atypical Images ( http://arxiv.org/abs/2409.10719v2 )

ライセンス: Link先を確認
Sina Malakouti, Aysan Aghazadeh, Ashmit Khandelwal, Adriana Kovashka, (参考訳) 視覚言語モデル(VLM)は様々なタスク、特に大規模言語モデル(LLM)との統合において、強力なゼロショット一般化を示している。 しかし、広告などの修辞的・説得的な視覚メディアを理解する能力は、いまだ検討されていない。 広告は、しばしば非典型的なイメージを使用し、驚くべきオブジェクトの並置を使って共有プロパティを伝達する。 例えば、図1(e)は羽のような質感を持つビールを示している。 これは、この非定型表現がビールの軽さを表すと推測する高度な推論を必要とする。 本稿では, マルチラベル非定型分類, 非定型文検索, Aypical Object Recognitionの3つの新しいタスクを紹介し, 説得的画像における非定型性理解のベンチマークを行う。 我々は、VLMが非定型性を用いて広告のメッセージを推測し、意味論的に難解なネガティブを用いて推論能力をテストすることを評価する。 最後に,非定型的要素に敏感な包括的画像記述を抽出し,非定型性を考慮した言語化の先駆者となった。 その結果, 1) VLM は LLM と比較して高度な推論能力が欠如していること, (2) 単純で効果的な戦略は非定型的認識情報を抽出し, 包括的画像の言語化につながること,(3) 非定型性は説得力のある広告理解を支援すること,などが判明した。 コードとデータは利用可能になる。

Vision language models (VLMs) have shown strong zero-shot generalization across various tasks, especially when integrated with large language models (LLMs). However, their ability to comprehend rhetorical and persuasive visual media, such as advertisements, remains understudied. Ads often employ atypical imagery, using surprising object juxtapositions to convey shared properties. For example, Fig. 1 (e) shows a beer with a feather-like texture. This requires advanced reasoning to deduce that this atypical representation signifies the beer's lightness. We introduce three novel tasks, Multi-label Atypicality Classification, Atypicality Statement Retrieval, and Aypical Object Recognition, to benchmark VLMs' understanding of atypicality in persuasive images. We evaluate how well VLMs use atypicality to infer an ad's message and test their reasoning abilities by employing semantically challenging negatives. Finally, we pioneer atypicality-aware verbalization by extracting comprehensive image descriptions sensitive to atypical elements. Our findings reveal that: (1) VLMs lack advanced reasoning capabilities compared to LLMs; (2) simple, effective strategies can extract atypicality-aware information, leading to comprehensive image verbalization; (3) atypicality aids persuasive advertisement understanding. Code and data will be made available.
翻訳日:2024-11-07 20:24:11 公開日:2024-10-10
# Edu-Values:大規模言語モデルの中国語教育価値の評価に向けて

Edu-Values: Towards Evaluating the Chinese Education Values of Large Language Models ( http://arxiv.org/abs/2409.12739v1 )

ライセンス: Link先を確認
Peiyi Zhang, Yazhou Zhang, Bo Wang, Lu Rong, Jing Qin, (参考訳) 近年の大規模言語モデル(LLM)の発展に伴い、そのようなモデルと人間の価値の整合性への懸念が高まっている。 従来の研究は主に、ヘルプフル、正直、ハームレス(3H)の基本原理の観点からLLMのパフォーマンスを評価することに焦点を当ててきたが、中国の文脈における教育的価値観との整合性を見越すことが多かった。 このギャップを埋めるために、我々は、専門的イデオロギー、文化リテラシー、教育知識と技能、教育法と規制、教師の専門的倫理、基礎的能力、および主観的知識の7つの分野にわたるLLMのアライメント能力を測定するために設計された、最初の中国の教育価値評価ベンチマークであるEdu-Valuesを提示する。 我々は,複数の選択,多モーダルな質問応答,主観的分析,敵対的プロンプト,伝統的な中国文化に関する質問など,1,418の質問を慎重に設計・コンパイルする。 1)教育文化の違いにより、中国語のLLMは英語のLLMを著しく上回り、Qwen 2は81.37のスコアで第1位となり、(2)LLMは教科の知識と指導力に優れ、教師の専門的倫理と基礎的能力に苦しむ、(3)LLMは多分野の質問に優れ、主観的分析とマルチモーダルタスクに優れる、という3つの主な結果が浮き彫りにされた。 これは提案したベンチマークの有効性と可能性を示す。 データセットはhttps://github.com/zhangpeii/Edu-Values.git.comから入手可能です。

With the recent evolution of large language models (LLMs), concerns about aligning such models with human values have grown. Previous research has primarily focused on assessing LLMs' performance in terms of the Helpful, Honest, Harmless (3H) basic principles, while often overlooking their alignment with educational values in the Chinese context. To fill this gap, we present Edu-Values, the first Chinese education values evaluation benchmark designed to measure LLMs' alignment ability across seven dimensions: professional ideology, cultural literacy, educational knowledge and skills, education laws and regulations, teachers' professional ethics, basic competencies, and subject knowledge. We meticulously design and compile 1,418 questions, including multiple-choice, multi-modal question answering, subjective analysis, adversarial prompts, and questions on traditional Chinese culture. We conduct both human evaluation and automatic evaluation over 11 state-of-the-art (SoTA) LLMs, and highlight three main findings: (1) due to differences in educational culture, Chinese LLMs significantly outperform English LLMs, with Qwen 2 ranking the first with a score of 81.37; (2) LLMs perform well in subject knowledge and teaching skills but struggle with teachers' professional ethics and basic competencies; (3) LLMs excel at multiple-choice questions but perform poorly on subjective analysis and multi-modal tasks. This demonstrates the effectiveness and potential of the proposed benchmark. Our dataset is available at https://github.com/zhangpeii/Edu-Values.git.
翻訳日:2024-11-07 13:34:43 公開日:2024-10-10
# Edu-Values:大規模言語モデルの中国語教育価値の評価に向けて

Edu-Values: Towards Evaluating the Chinese Education Values of Large Language Models ( http://arxiv.org/abs/2409.12739v2 )

ライセンス: Link先を確認
Peiyi Zhang, Yazhou Zhang, Bo Wang, Lu Rong, Jing Qin, (参考訳) 近年の大規模言語モデル(LLM)の発展に伴い、そのようなモデルと人間の価値の整合性への懸念が高まっている。 従来の研究は主に、ヘルプフル、正直、ハームレス(3H)の基本原理の観点からLLMのパフォーマンスを評価することに焦点を当ててきたが、中国の文脈における教育的価値観との整合性を見越すことが多かった。 このギャップを埋めるために、我々は、専門的イデオロギー、文化リテラシー、教育知識と技能、教育法と規制、教師の専門的倫理、基礎的能力、および主観的知識の7つの分野にわたるLLMのアライメント能力を測定するために設計された、最初の中国の教育価値評価ベンチマークであるEdu-Valuesを提示する。 我々は,複数の選択,多モーダルな質問応答,主観的分析,敵対的プロンプト,伝統的な中国文化に関する質問など,1,418の質問を慎重に設計・コンパイルする。 1)教育文化の違いにより、中国語のLLMは英語のLLMを著しく上回り、Qwen 2は81.37のスコアで第1位となり、(2)LLMは教科の知識と指導力に優れ、教師の専門的倫理と基礎的能力に苦しむ、(3)LLMは多分野の質問に優れ、主観的分析とマルチモーダルタスクに優れる、という3つの主な結果が浮き彫りにされた。 これは提案したベンチマークの有効性と可能性を示す。 データセットはhttps://github.com/zhangpeii/Edu-Values.git.comから入手可能です。

With the recent evolution of large language models (LLMs), concerns about aligning such models with human values have grown. Previous research has primarily focused on assessing LLMs' performance in terms of the Helpful, Honest, Harmless (3H) basic principles, while often overlooking their alignment with educational values in the Chinese context. To fill this gap, we present Edu-Values, the first Chinese education values evaluation benchmark designed to measure LLMs' alignment ability across seven dimensions: professional ideology, cultural literacy, educational knowledge and skills, education laws and regulations, teachers' professional ethics, basic competencies, and subject knowledge. We meticulously design and compile 1,418 questions, including multiple-choice, multi-modal question answering, subjective analysis, adversarial prompts, and questions on traditional Chinese culture. We conduct both human evaluation and automatic evaluation over 11 state-of-the-art (SoTA) LLMs, and highlight three main findings: (1) due to differences in educational culture, Chinese LLMs significantly outperform English LLMs, with Qwen 2 ranking the first with a score of 81.37; (2) LLMs perform well in subject knowledge and teaching skills but struggle with teachers' professional ethics and basic competencies; (3) LLMs excel at multiple-choice questions but perform poorly on subjective analysis and multi-modal tasks. This demonstrates the effectiveness and potential of the proposed benchmark. Our dataset is available at https://github.com/zhangpeii/Edu-Values.git.
翻訳日:2024-11-07 13:34:43 公開日:2024-10-10
# 量子アドバンテージに基づく量子暗号の創出, あるいは$\mathsf{\#P}$-Hardnessの暗号を目指して

Founding Quantum Cryptography on Quantum Advantage, or, Towards Cryptography from $\mathsf{\#P}$-Hardness ( http://arxiv.org/abs/2409.15248v2 )

ライセンス: Link先を確認
Dakshita Khurana, Kabir Tomer, (参考訳) 最近のオラクル分離(Kretschmer, TQC'21, Kretschmer et al , STOC'23)は、多項式階層が崩壊しても持続する硬さの源から量子暗号を構築する可能性を高めている。 我々は、量子ビットのコミットメントを構築し、複雑なガウス行列の永続性を近似したり、ランダムな量子回路の出力確率を近似するなど、$\mathsf{P^{\#P}}$ -- では難しいと推測される、非相対的でよく研究された数学的問題からセキュアな計算を行うことによって、この可能性を実現する。 実際、サンプリングベースの量子優位性(例えば、BosonSampling, Random Circuit Sampling, IQPなど)が真である限り、量子暗号は$\mathsf{P^{\#P}} \not\subseteq \mathsf{(io)BQP/qpoly}$という非常に穏やかな仮定に基づいている。 以下の硬度仮定が等価であることを証明する。 1) ある効率的なサンプリング可能な分布(逆多項式乗算誤差まで)の支持において、ランダムに選択された文字列に割り当てられた確率を近似する難しさ。 2) 量子サンプリング器が一対の古典的な文字列(パズルとその鍵)を出力し、ランダムなパズルに対応する鍵を見つけるのに難しさがある一方向パズルの存在。 これらは量子ビットのコミットメントを暗示することが知られている[Khurana and Tomer, STOC'24]。 (3) 公的な古典的識別子が与えられた秘密量子状態の合成が困難である状態パズル(一方向状態合成)の存在。 これらは探索問題の難しさを量子入力(秘密)と古典出力(カオス)で捉えている。 これらは量子暗号プリミティブ(一方のパズル、量子ビットのコミットメント、状態のパズル)を、古典的な暗号の存在を暗示しない明確な数学的仮定から構築した最初のものである。

Recent oracle separations [Kretschmer, TQC'21, Kretschmer et. al., STOC'23] have raised the tantalizing possibility of building quantum cryptography from sources of hardness that persist even if the polynomial hierarchy collapses. We realize this possibility by building quantum bit commitments and secure computation from unrelativized, well-studied mathematical problems that are conjectured to be hard for $\mathsf{P^{\#P}}$ -- such as approximating the permanents of complex Gaussian matrices, or approximating the output probabilities of random quantum circuits. Indeed, we show that as long as any one of the conjectures underlying sampling-based quantum advantage (e.g., BosonSampling, Random Circuit Sampling, IQP, etc.) is true, quantum cryptography can be based on the extremely mild assumption that $\mathsf{P^{\#P}} \not\subseteq \mathsf{(io)BQP/qpoly}$. We prove that the following hardness assumptions are equivalent. (1) The hardness of approximating the probability assigned to a randomly chosen string in the support of certain efficiently sampleable distributions (upto inverse polynomial multiplicative error).(2) The existence of one-way puzzles, where a quantum sampler outputs a pair of classical strings -- a puzzle and its key -- and where the hardness lies in finding the key corresponding to a random puzzle. These are known to imply quantum bit commitments [Khurana and Tomer, STOC'24]. (3) The existence of state puzzles, or one-way state synthesis, where it is hard to synthesize a secret quantum state given a public classical identifier. These capture the hardness of search problems with quantum inputs (secrets) and classical outputs (challenges). These are the first constructions of quantum cryptographic primitives (one-way puzzles, quantum bit commitments, state puzzles) from concrete, well-founded mathematical assumptions that do not imply the existence of classical cryptography.
翻訳日:2024-11-06 20:16:59 公開日:2024-10-10
# FedRepOpt: フェデレーション学習におけるグラディエントな再パラメータ化最適化

FedRepOpt: Gradient Re-parametrized Optimizers in Federated Learning ( http://arxiv.org/abs/2409.15898v3 )

ライセンス: Link先を確認
Kin Wai Lau, Yasar Abbas Ur Rehman, Pedro Porto Buarque de Gusmão, Lai-Man Po, Lan Ma, Yuyang Xie, (参考訳) フェデレートラーニング(FL)は、エッジデバイス上で分散型に機械学習モデルをトレーニングするためのプライバシ保護手法として登場した。 しかし、オンデバイスモデルは本質的に計算能力とメモリ制限に直面するため、潜在的には勾配が制限される可能性がある。 モデルのサイズが大きくなるにつれて、エッジデバイス上の勾配更新の頻度は減少し、最終的に特定のFLラウンドにおいて最適以下のトレーニング結果をもたらす。 これにより、エッジデバイスに高度な大規模モデルをデプロイする可能性を制限することができ、パフォーマンス向上の可能性を妨げている。 この問題に対処するため、FLの勾配再パラメータ化オプティマイザであるFedRepOptを提案する。 勾配再パラメータ化法では、複雑なモデルから得られたモデル固有のハイパーパラメータのセットに従って最適化器の勾配を変更することで、複雑なモデルと類似した性能の単純な局所モデルを訓練することができる。 本研究では,FL環境におけるVGGスタイルとゴーストスタイルのモデルに着目した。 大規模な実験により、FedRepOptを用いたモデルは、RepGhostスタイルやRepVGGスタイルのネットワークと比較して16.7%と11.4%のパフォーマンスが大幅に向上し、複雑な構造に比べて11.7%と57.4%の収束時間を示した。

Federated Learning (FL) has emerged as a privacy-preserving method for training machine learning models in a distributed manner on edge devices. However, on-device models face inherent computational power and memory limitations, potentially resulting in constrained gradient updates. As the model's size increases, the frequency of gradient updates on edge devices decreases, ultimately leading to suboptimal training outcomes during any particular FL round. This limits the feasibility of deploying advanced and large-scale models on edge devices, hindering the potential for performance enhancements. To address this issue, we propose FedRepOpt, a gradient re-parameterized optimizer for FL. The gradient re-parameterized method allows training a simple local model with a similar performance as a complex model by modifying the optimizer's gradients according to a set of model-specific hyperparameters obtained from the complex models. In this work, we focus on VGG-style and Ghost-style models in the FL environment. Extensive experiments demonstrate that models using FedRepOpt obtain a significant boost in performance of 16.7% and 11.4% compared to the RepGhost-style and RepVGG-style networks, while also demonstrating a faster convergence time of 11.7% and 57.4% compared to their complex structure.
翻訳日:2024-11-06 19:21:13 公開日:2024-10-10
# FedRepOpt: フェデレーション学習におけるグラディエントな再パラメータ化最適化

FedRepOpt: Gradient Re-parametrized Optimizers in Federated Learning ( http://arxiv.org/abs/2409.15898v4 )

ライセンス: Link先を確認
Kin Wai Lau, Yasar Abbas Ur Rehman, Pedro Porto Buarque de Gusmão, Lai-Man Po, Lan Ma, Yuyang Xie, (参考訳) フェデレートラーニング(FL)は、エッジデバイス上で分散型に機械学習モデルをトレーニングするためのプライバシ保護手法として登場した。 しかし、オンデバイスモデルは本質的に計算能力とメモリ制限に直面するため、潜在的には勾配が制限される可能性がある。 モデルのサイズが大きくなるにつれて、エッジデバイス上の勾配更新の頻度は減少し、最終的に特定のFLラウンドにおいて最適以下のトレーニング結果をもたらす。 これにより、エッジデバイスに高度な大規模モデルをデプロイする可能性を制限することができ、パフォーマンス向上の可能性を妨げている。 この問題に対処するため、FLの勾配再パラメータ化オプティマイザであるFedRepOptを提案する。 勾配再パラメータ化法では、複雑なモデルから得られたモデル固有のハイパーパラメータのセットに従って最適化器の勾配を変更することで、複雑なモデルと類似した性能の単純な局所モデルを訓練することができる。 本研究では,FL環境におけるVGGスタイルとゴーストスタイルのモデルに着目した。 大規模な実験により、FedRepOptを用いたモデルは、RepGhostスタイルやRepVGGスタイルのネットワークと比較して16.7%と11.4%のパフォーマンスが大幅に向上し、複雑な構造に比べて11.7%と57.4%の収束時間を示した。

Federated Learning (FL) has emerged as a privacy-preserving method for training machine learning models in a distributed manner on edge devices. However, on-device models face inherent computational power and memory limitations, potentially resulting in constrained gradient updates. As the model's size increases, the frequency of gradient updates on edge devices decreases, ultimately leading to suboptimal training outcomes during any particular FL round. This limits the feasibility of deploying advanced and large-scale models on edge devices, hindering the potential for performance enhancements. To address this issue, we propose FedRepOpt, a gradient re-parameterized optimizer for FL. The gradient re-parameterized method allows training a simple local model with a similar performance as a complex model by modifying the optimizer's gradients according to a set of model-specific hyperparameters obtained from the complex models. In this work, we focus on VGG-style and Ghost-style models in the FL environment. Extensive experiments demonstrate that models using FedRepOpt obtain a significant boost in performance of 16.7% and 11.4% compared to the RepGhost-style and RepVGG-style networks, while also demonstrating a faster convergence time of 11.7% and 57.4% compared to their complex structure.
翻訳日:2024-11-06 19:21:13 公開日:2024-10-10
# ツール拡張LDMを対話型AIエージェントとして評価するための自動テスト生成

Automated test generation to evaluate tool-augmented LLMs as conversational AI agents ( http://arxiv.org/abs/2409.15934v2 )

ライセンス: Link先を確認
Samuel Arcadinho, David Aparicio, Mariana Almeida, (参考訳) ツール拡張LDMは、現実的な会話を行い、手順に従い、適切な機能を呼び出すことができるAIエージェントを作成するための有望なアプローチである。 既存のデータセットは単一のインタラクションと関数呼び出しにのみフォーカスする。 本稿では,LLMを対話型AIエージェントとして評価するためのテスト生成パイプラインを提案する。 当社のフレームワークでは,ユーザ定義の手順に基づいた多種多様なテストを生成するためにLLMを使用している。 そこで我々は,LLMテストジェネレータが入力手順に基づかないコンテンツを幻覚させる傾向を制限するために中間グラフを使用し,会話のハイカバレッジを強制する。 さらに、顧客サポートにおいてAIエージェントを評価するために手動でキュレートされたデータセットであるALMITAを提示し、既存のLCMを評価するために利用した。 ツール拡張LDMは単一のインタラクションでよく機能するが、完全な会話を扱うのに苦労することが多い。 カスタマーサポートに重点を置いているが、私たちの手法は汎用的で、異なるドメインに対してAIエージェントを利用できる。

Tool-augmented LLMs are a promising approach to create AI agents that can have realistic conversations, follow procedures, and call appropriate functions. However, evaluating them is challenging due to the diversity of possible conversations, and existing datasets focus only on single interactions and function-calling. We present a test generation pipeline to evaluate LLMs as conversational AI agents. Our framework uses LLMs to generate diverse tests grounded on user-defined procedures. For that, we use intermediate graphs to limit the LLM test generator's tendency to hallucinate content that is not grounded on input procedures, and enforces high coverage of the possible conversations. Additionally, we put forward ALMITA, a manually curated dataset for evaluating AI agents in customer support, and use it to evaluate existing LLMs. Our results show that while tool-augmented LLMs perform well in single interactions, they often struggle to handle complete conversations. While our focus is on customer support, our method is general and capable of AI agents for different domains.
翻訳日:2024-11-06 19:21:13 公開日:2024-10-10
# ベイズニューラルネットワークのための関数確率勾配MCMC

Functional Stochastic Gradient MCMC for Bayesian Neural Networks ( http://arxiv.org/abs/2409.16632v2 )

ライセンス: Link先を確認
Mengjing Wu, Junyu Xuan, Jie Lu, (参考訳) ベイジアンニューラルネットワーク(BNN)に対する古典的パラメータ空間ベイジアン推論(英語版)は、深層ネットワークにおける難読性や病理学的振る舞いを符号化する知識など、未解決のいくつかの問題に悩まされ、不適切な後部推論につながる可能性がある。 これらの問題に対処するために、機能的ベイズ推論は、最近、機能的変動推論のような機能的先行性を活用することが提案されている。 変分法に加えて、確率勾配マルコフ・チェイン・モンテカルロ(MCMC)は、連続力学をシミュレートすることで、BNNが真の後方からサンプルを漸近的に生成するスケーラブルで効果的な推論法である。 しかし、既存のMCMC法はパラメータ空間でのみ実行し、未解決の事前問題を継承する一方で、これらのダイナミクスを関数空間に拡張することは自明な作業ではない。 本稿では,より情報的機能的先行を組み込んだ拡散力学に基づく確率勾配バージョンを含む,新しい機能的MCMCスキームを提案する。 さらに、これらの機能的力学の定常測度が対象の後方関数であることを示す。 機能的MCMCスキームでは, パラメータ空間MCMCと関数的変動推論と比較して, 予測精度と不確かさの両面において, 性能が向上した。

Classical parameter-space Bayesian inference for Bayesian neural networks (BNNs) suffers from several unresolved prior issues, such as knowledge encoding intractability and pathological behaviours in deep networks, which can lead to improper posterior inference. To address these issues, functional Bayesian inference has recently been proposed leveraging functional priors, such as the emerging functional variational inference. In addition to variational methods, stochastic gradient Markov Chain Monte Carlo (MCMC) is another scalable and effective inference method for BNNs to asymptotically generate samples from the true posterior by simulating continuous dynamics. However, existing MCMC methods perform solely in parameter space and inherit the unresolved prior issues, while extending these dynamics to function space is a non-trivial undertaking. In this paper, we introduce novel functional MCMC schemes, including stochastic gradient versions, based on newly designed diffusion dynamics that can incorporate more informative functional priors. Moreover, we prove that the stationary measure of these functional dynamics is the target posterior over functions. Our functional MCMC schemes demonstrate improved performance in both predictive accuracy and uncertainty quantification on several tasks compared to naive parameter-space MCMC and functional variational inference.
翻訳日:2024-11-06 17:30:16 公開日:2024-10-10
# 眼窩部特徴を用いた眼窩周囲距離の予測と疾患分類

State-of-the-Art Periorbital Distance Prediction and Disease Classification Using Periorbital Features ( http://arxiv.org/abs/2409.18769v2 )

ライセンス: Link先を確認
George R. Nahass, Ghasem Yazdanpanah, Madison Cheung, Alex Palacios, Jeffery Peterson, Kevin Heinze, Sasha Hubschman, Chad A. Purnell, Pete Setabutr, Ann Q. Tran, Darvin Yi, (参考訳) 眼と蓋の周囲の眼窩間距離と特徴は、疾患の定量化と外科的および医学的介入のモニタリングに貴重な情報を保持する。 これらの距離は通常、主観的かつ非常に時間を要するプロセスである手動で測定される。 そこで我々は,3つの深層学習手法を考案し,疾患分類における周辺距離の有用性について検討した。 深層学習の予測した距離のMAEは、訓練されたヒトのアノテータ間の誤差よりも小さいか、非常に近いものだった。 我々は、我々のモデルと現在の近日軌道距離予測法(SOTA)を比較し、我々の手法が1つの遠日軌道測度を除く全てのデータセット上でSOTAより優れていることを発見した。 我々はまた、オープンソースの健康眼で訓練されたモデルを用いて、病気の眼で堅牢なセグメンテーションが達成できることを示し、下流分類モデルの高品質な特徴として、軌道周辺距離が利用できることを示した。 分類における中間段階としてのセグメンテーションネットワークの活用は、従来の畳み込みニューラルネットワークで観察される分布外問題を回避することにより、眼科プラスティックおよび頭蓋顔面手術における分類モデルの一般化可能性を高めるために幅広い意味を持つ。

Periorbital distances and features around the eyes and lids hold valuable information for disease quantification and monitoring of surgical and medical intervention. These distances are commonly measured manually, a process that is both subjective and highly time-consuming. Here, we set out to developed three deep-learning methods for segmentation and periorbital distance prediction, and also evaluate the utility of periorbital distances for disease classification. The MAE of our deep learning predicted distances was less than or very close to the error observed between trained human annotators. We compared our models to the current state-of-the-art (SOTA) method for periorbital distance prediction and found that our methods outperformed SOTA on all of our datasets on all but one periorbital measurement. We also show that robust segmentation can be achieved on diseased eyes using models trained on open-source, healthy eyes, and that periorbital distances have can be used as high-quality features in downstream classification models. Leveraging segmentation networks as intermediary steps in classification has broad implications for increasing the generalizability of classification models in ophthalmic plastic and craniofacial surgery by avoiding the out-of-distribution problem observed in traditional convolutional neural networks.
翻訳日:2024-11-06 05:32:49 公開日:2024-10-10
# 眼窩部特徴を用いた眼窩周囲距離の予測と疾患分類

State-of-the-Art Periorbital Distance Prediction and Disease Classification Using Periorbital Features ( http://arxiv.org/abs/2409.18769v3 )

ライセンス: Link先を確認
George R. Nahass, Ghasem Yazdanpanah, Madison Cheung, Alex Palacios, Jeffery Peterson, Kevin Heinze, Sasha Hubschman, Chad A. Purnell, Pete Setabutr, Ann Q. Tran, Darvin Yi, (参考訳) 眼と蓋の周囲の眼窩間距離と特徴は、疾患の定量化と外科的および医学的介入のモニタリングに貴重な情報を保持する。 これらの距離は通常、主観的かつ非常に時間を要するプロセスである手動で測定される。 そこで我々は,3つの深層学習手法を考案し,疾患分類における周辺距離の有用性について検討した。 深層学習の予測した距離のMAEは、訓練されたヒトのアノテータ間の誤差よりも小さいか、非常に近いものだった。 我々は、我々のモデルと現在の近日軌道距離予測法(SOTA)を比較し、我々の手法が1つの遠日軌道測度を除く全てのデータセット上でSOTAより優れていることを発見した。 我々はまた、オープンソースの健康眼で訓練されたモデルを用いて、病気の眼で堅牢なセグメンテーションが達成できることを示し、下流分類モデルの高品質な特徴として、軌道周辺距離が利用できることを示した。 分類における中間段階としてのセグメンテーションネットワークの活用は、従来の畳み込みニューラルネットワークで観察される分布外問題を回避することにより、眼科プラスティックおよび頭蓋顔面手術における分類モデルの一般化可能性を高めるために幅広い意味を持つ。

Periorbital distances and features around the eyes and lids hold valuable information for disease quantification and monitoring of surgical and medical intervention. These distances are commonly measured manually, a process that is both subjective and highly time-consuming. Here, we set out to developed three deep-learning methods for segmentation and periorbital distance prediction, and also evaluate the utility of periorbital distances for disease classification. The MAE of our deep learning predicted distances was less than or very close to the error observed between trained human annotators. We compared our models to the current state-of-the-art (SOTA) method for periorbital distance prediction and found that our methods outperformed SOTA on all of our datasets on all but one periorbital measurement. We also show that robust segmentation can be achieved on diseased eyes using models trained on open-source, healthy eyes, and that periorbital distances have can be used as high-quality features in downstream classification models. Leveraging segmentation networks as intermediary steps in classification has broad implications for increasing the generalizability of classification models in ophthalmic plastic and craniofacial surgery by avoiding the out-of-distribution problem observed in traditional convolutional neural networks.
翻訳日:2024-11-06 05:32:49 公開日:2024-10-10
# 間接プロンプトインジェクション攻撃に対するシステムレベル防御:情報フロー制御の観点から

System-Level Defense against Indirect Prompt Injection Attacks: An Information Flow Control Perspective ( http://arxiv.org/abs/2409.19091v1 )

ライセンス: Link先を確認
Fangzhou Wu, Ethan Cecchetti, Chaowei Xiao, (参考訳) LLMシステム(Large Language Model-based System)は、LLMを用いて自然言語プロンプトから操作を計画し、各ステップの出力をLLMに入力し、次のステップを計画する情報およびクエリ処理システムである。 この構造は、様々なソースから複雑な情報を処理できる強力なツールをもたらすが、重要なセキュリティ上の懸念を引き起こす。 任意のソースからの悪意のある情報は LLM によって処理され、クエリ処理を損なう可能性がある。 この問題に対処するため,情報フロー制御の原理に基づくシステムレベルの防衛システムについて述べる。 fセキュアLLMシステムは、LLMシステムのコンポーネントを動的に生成された構造化実行可能な計画でコンテキスト対応パイプラインに分解し、セキュリティモニタが信頼できない入力を計画プロセスにフィルタリングする。 この構造は柔軟性を最大化しながら妥協を防止する。 我々は、既存のLLMシステムとf-secure LLMシステムの両方に対して形式モデルを提供し、重要なセキュリティ保証の分析を可能にする。 さらに,f-secure LLMシステムが機能と効率を保ちつつ,堅牢なセキュリティを提供することを示すケーススタディとベンチマークを評価した。 私たちのコードはhttps://github.com/fzwark/Secure_LLM_Systemでリリースされています。

Large Language Model-based systems (LLM systems) are information and query processing systems that use LLMs to plan operations from natural-language prompts and feed the output of each successive step into the LLM to plan the next. This structure results in powerful tools that can process complex information from diverse sources but raises critical security concerns. Malicious information from any source may be processed by the LLM and can compromise the query processing, resulting in nearly arbitrary misbehavior. To tackle this problem, we present a system-level defense based on the principles of information flow control that we call an f-secure LLM system. An f-secure LLM system disaggregates the components of an LLM system into a context-aware pipeline with dynamically generated structured executable plans, and a security monitor filters out untrusted input into the planning process. This structure prevents compromise while maximizing flexibility. We provide formal models for both existing LLM systems and our f-secure LLM system, allowing analysis of critical security guarantees. We further evaluate case studies and benchmarks showing that f-secure LLM systems provide robust security while preserving functionality and efficiency. Our code is released at https://github.com/fzwark/Secure_LLM_System.
翻訳日:2024-11-06 04:30:57 公開日:2024-10-10
# 間接プロンプトインジェクション攻撃に対するシステムレベル防御:情報フロー制御の観点から

System-Level Defense against Indirect Prompt Injection Attacks: An Information Flow Control Perspective ( http://arxiv.org/abs/2409.19091v2 )

ライセンス: Link先を確認
Fangzhou Wu, Ethan Cecchetti, Chaowei Xiao, (参考訳) LLMシステム(Large Language Model-based System)は、LLMを用いて自然言語プロンプトから操作を計画し、各ステップの出力をLLMに入力し、次のステップを計画する情報およびクエリ処理システムである。 この構造は、様々なソースから複雑な情報を処理できる強力なツールをもたらすが、重要なセキュリティ上の懸念を引き起こす。 任意のソースからの悪意のある情報は LLM によって処理され、クエリ処理を損なう可能性がある。 この問題に対処するため,情報フロー制御の原理に基づくシステムレベルの防衛システムについて述べる。 fセキュアLLMシステムは、LLMシステムのコンポーネントを動的に生成された構造化実行可能な計画でコンテキスト対応パイプラインに分解し、セキュリティモニタが信頼できない入力を計画プロセスにフィルタリングする。 この構造は柔軟性を最大化しながら妥協を防止する。 我々は、既存のLLMシステムとf-secure LLMシステムの両方に対して形式モデルを提供し、重要なセキュリティ保証の分析を可能にする。 さらに,f-secure LLMシステムが機能と効率を保ちつつ,堅牢なセキュリティを提供することを示すケーススタディとベンチマークを評価した。 私たちのコードはhttps://github.com/fzwark/Secure_LLM_Systemでリリースされています。

Large Language Model-based systems (LLM systems) are information and query processing systems that use LLMs to plan operations from natural-language prompts and feed the output of each successive step into the LLM to plan the next. This structure results in powerful tools that can process complex information from diverse sources but raises critical security concerns. Malicious information from any source may be processed by the LLM and can compromise the query processing, resulting in nearly arbitrary misbehavior. To tackle this problem, we present a system-level defense based on the principles of information flow control that we call an f-secure LLM system. An f-secure LLM system disaggregates the components of an LLM system into a context-aware pipeline with dynamically generated structured executable plans, and a security monitor filters out untrusted input into the planning process. This structure prevents compromise while maximizing flexibility. We provide formal models for both existing LLM systems and our f-secure LLM system, allowing analysis of critical security guarantees. We further evaluate case studies and benchmarks showing that f-secure LLM systems provide robust security while preserving functionality and efficiency. Our code is released at https://github.com/fzwark/Secure_LLM_System.
翻訳日:2024-11-06 04:30:57 公開日:2024-10-10
# MedCLIP-SAMv2:Universal Text-Driven Medical Image Segmentationを目指して

MedCLIP-SAMv2: Towards Universal Text-Driven Medical Image Segmentation ( http://arxiv.org/abs/2409.19483v1 )

ライセンス: Link先を確認
Taha Koleilat, Hojat Asgariandehkordi, Hassan Rivaz, Yiming Xiao, (参考訳) 医学画像における解剖学的構造と病理領域の分離は, 近代臨床診断, 疾患研究, 治療計画に不可欠である。 深層学習に基づくセグメンテーション技術は大きな進歩を遂げているが、これらの手法の多くはデータ効率、一般化可能性、相互作用性の限界に悩まされている。 その結果、ラベル付きデータセットの少ない正確なセグメンテーション手法の開発は、医用画像解析において重要な課題である。 近年CLIPやSAM(Segment-Anything-Model)のような基盤モデルが登場し、堅牢なクロスドメイン表現が登場し、インタラクティブで普遍的なイメージセグメンテーションの道が開かれた。 しかし、医療画像におけるデータ効率のセグメンテーションのためのこれらのモデルのさらなる探索は依然として必要であり、非常に関連性が高い。 本稿では,CLIPモデルとSAMモデルを統合する新しいフレームワークであるMedCLIP-SAMv2を紹介し,テキストプロンプトを用いて臨床スキャンのセグメンテーションを行う。 提案手法では,新たにDHN-NCEの損失を除いたBiomedCLIPモデルを微調整し,M2IB(Multi-modal Information Bottleneck)を利用して,SAMからのセグメンテーションマスクをゼロショットで生成するための視覚的プロンプトを作成する。 また,ゼロショットセグメンテーションラベルを弱教師付きパラダイム内で使用することにより,セグメンテーション品質をさらに向上する。 脳腫瘍, 腫瘍MRI, 肺X線, 肺CTの4つの領域にまたがる広範囲な検査が, 提案手法の精度を実証している。 私たちのコードはhttps://github.com/HealthX-Lab/MedCLIP-SAMv2で公開されています。

Segmentation of anatomical structures and pathological regions in medical images is essential for modern clinical diagnosis, disease research, and treatment planning. While significant advancements have been made in deep learning-based segmentation techniques, many of these methods still suffer from limitations in data efficiency, generalizability, and interactivity. As a result, developing precise segmentation methods that require fewer labeled datasets remains a critical challenge in medical image analysis. Recently, the introduction of foundation models like CLIP and Segment-Anything-Model (SAM), with robust cross-domain representations, has paved the way for interactive and universal image segmentation. However, further exploration of these models for data-efficient segmentation in medical imaging is still needed and highly relevant. In this paper, we introduce MedCLIP-SAMv2, a novel framework that integrates the CLIP and SAM models to perform segmentation on clinical scans using text prompts, in both zero-shot and weakly supervised settings. Our approach includes fine-tuning the BiomedCLIP model with a new Decoupled Hard Negative Noise Contrastive Estimation (DHN-NCE) loss, and leveraging the Multi-modal Information Bottleneck (M2IB) to create visual prompts for generating segmentation masks from SAM in the zero-shot setting. We also investigate using zero-shot segmentation labels within a weakly supervised paradigm to enhance segmentation quality further. Extensive testing across four diverse segmentation tasks and medical imaging modalities (breast tumor ultrasound, brain tumor MRI, lung X-ray, and lung CT) demonstrates the high accuracy of our proposed framework. Our code is available at https://github.com/HealthX-Lab/MedCLIP-SAMv2.
翻訳日:2024-11-05 22:57:44 公開日:2024-10-10
# MedCLIP-SAMv2:Universal Text-Driven Medical Image Segmentationを目指して

MedCLIP-SAMv2: Towards Universal Text-Driven Medical Image Segmentation ( http://arxiv.org/abs/2409.19483v2 )

ライセンス: Link先を確認
Taha Koleilat, Hojat Asgariandehkordi, Hassan Rivaz, Yiming Xiao, (参考訳) 医学画像における解剖学的構造と病理領域の分離は, 近代臨床診断, 疾患研究, 治療計画に不可欠である。 深層学習に基づくセグメンテーション技術は大きな進歩を遂げているが、これらの手法の多くはデータ効率、一般化可能性、相互作用性の限界に悩まされている。 その結果、ラベル付きデータセットの少ない正確なセグメンテーション手法の開発は、医用画像解析において重要な課題である。 近年CLIPやSAM(Segment-Anything-Model)のような基盤モデルが登場し、堅牢なクロスドメイン表現が登場し、インタラクティブで普遍的なイメージセグメンテーションの道が開かれた。 しかし、医療画像におけるデータ効率のセグメンテーションのためのこれらのモデルのさらなる探索は依然として必要であり、非常に関連性が高い。 本稿では,CLIPモデルとSAMモデルを統合する新しいフレームワークであるMedCLIP-SAMv2を紹介し,テキストプロンプトを用いて臨床スキャンのセグメンテーションを行う。 提案手法では,新たにDHN-NCEの損失を除いたBiomedCLIPモデルを微調整し,M2IB(Multi-modal Information Bottleneck)を利用して,SAMからのセグメンテーションマスクをゼロショットで生成するための視覚的プロンプトを作成する。 また,ゼロショットセグメンテーションラベルを弱教師付きパラダイム内で使用することにより,セグメンテーション品質をさらに向上する。 脳腫瘍, 腫瘍MRI, 肺X線, 肺CTの4つの領域にまたがる広範囲な検査が, 提案手法の精度を実証している。 私たちのコードはhttps://github.com/HealthX-Lab/MedCLIP-SAMv2で公開されています。

Segmentation of anatomical structures and pathological regions in medical images is essential for modern clinical diagnosis, disease research, and treatment planning. While significant advancements have been made in deep learning-based segmentation techniques, many of these methods still suffer from limitations in data efficiency, generalizability, and interactivity. As a result, developing precise segmentation methods that require fewer labeled datasets remains a critical challenge in medical image analysis. Recently, the introduction of foundation models like CLIP and Segment-Anything-Model (SAM), with robust cross-domain representations, has paved the way for interactive and universal image segmentation. However, further exploration of these models for data-efficient segmentation in medical imaging is still needed and highly relevant. In this paper, we introduce MedCLIP-SAMv2, a novel framework that integrates the CLIP and SAM models to perform segmentation on clinical scans using text prompts, in both zero-shot and weakly supervised settings. Our approach includes fine-tuning the BiomedCLIP model with a new Decoupled Hard Negative Noise Contrastive Estimation (DHN-NCE) loss, and leveraging the Multi-modal Information Bottleneck (M2IB) to create visual prompts for generating segmentation masks from SAM in the zero-shot setting. We also investigate using zero-shot segmentation labels within a weakly supervised paradigm to enhance segmentation quality further. Extensive testing across four diverse segmentation tasks and medical imaging modalities (breast tumor ultrasound, brain tumor MRI, lung X-ray, and lung CT) demonstrates the high accuracy of our proposed framework. Our code is available at https://github.com/HealthX-Lab/MedCLIP-SAMv2.
翻訳日:2024-11-05 22:57:44 公開日:2024-10-10
# Beyond Scores: フィードバックによるショートアンサーの自動スコーリングのためのモジュールRAGベースシステム

Beyond Scores: A Modular RAG-Based System for Automatic Short Answer Scoring with Feedback ( http://arxiv.org/abs/2409.20042v2 )

ライセンス: Link先を確認
Menna Fateen, Bo Wang, Tsunenori Mine, (参考訳) 自動短解スコアリング(ASAS)は、教育者に対する格付け負担を軽減するのに役立つが、詳細で説明可能なフィードバックを欠いていることが多い。 フィードバック付きASAS(ASAS-F)の既存のメソッドは、限られたデータセットを持つ微調整言語モデルに依存しており、リソース集約であり、コンテキストをまたいだ一般化に苦慮している。 大規模言語モデル(LLM)を用いた最近のアプローチは、広範囲な微調整を伴わないスコアに重点を置いている。 しかし、彼らはしばしば急進的なエンジニアリングに大きく依存し、精巧なフィードバックが得られなかったり、適切に評価しなかったりする。 本稿では,厳密なゼロショットおよび少数ショット学習シナリオにおいて,回答を収集し,フィードバックを生成するモジュール型拡張生成システムASAS-Fを提案する。 我々は,自動プロンプト生成フレームワークを用いて,広範囲なプロンプトエンジニアリングを行うことなく,様々な教育課題に適応可能なシステムを設計する。 その結果、微調整に比べて、評価精度が9倍向上し、スケーラブルで費用対効果の高いソリューションが提供された。

Automatic short answer scoring (ASAS) helps reduce the grading burden on educators but often lacks detailed, explainable feedback. Existing methods in ASAS with feedback (ASAS-F) rely on fine-tuning language models with limited datasets, which is resource-intensive and struggles to generalize across contexts. Recent approaches using large language models (LLMs) have focused on scoring without extensive fine-tuning. However, they often rely heavily on prompt engineering and either fail to generate elaborated feedback or do not adequately evaluate it. In this paper, we propose a modular retrieval augmented generation based ASAS-F system that scores answers and generates feedback in strict zero-shot and few-shot learning scenarios. We design our system to be adaptable to various educational tasks without extensive prompt engineering using an automatic prompt generation framework. Results show an improvement in scoring accuracy by 9\% on unseen questions compared to fine-tuning, offering a scalable and cost-effective solution.
翻訳日:2024-11-05 16:08:18 公開日:2024-10-10
# OPONeRF:ロバストなニューラルレンダリングのための一点一点NeRF

OPONeRF: One-Point-One NeRF for Robust Neural Rendering ( http://arxiv.org/abs/2409.20043v2 )

ライセンス: Link先を確認
Yu Zheng, Yueqi Duan, Kangfu Zheng, Hongru Yan, Jiwen Lu, Jie Zhou, (参考訳) 本稿では,ロバストなシーンレンダリングのためのワンポイント・ワン・ネRF(OPONeRF)フレームワークを提案する。 既存のNeRFは、目標シーンがトレーニング時間とテスト時間の間に変化しないというキー前提に基づいて設計されている。 しかし、オブジェクトの動き、光の変化、データ汚染といった小さなが予測不可能な摂動は、現実の3Dシーンに広く存在し、最近の最先端の一般化可能な手法であっても、レンダリング結果が著しく欠陥または失敗した。 そこで本研究では,OPONeRFにおける分割・分散化フレームワークを提案する。このフレームワークは,テスト時の未確認変化に対して不活性な1組のNeRFパラメータを適合させるのではなく,適切なポイントワイズパラメータをパーソナライズすることで,局所的なシーン変動に適応的に応答する。 さらに,局所不確実性を明示的に把握するために,点表現を決定論的マッピングと確率論的推論に分解する。 このようにして、OPONeRFは共有可能な不変性を学び、トレーニングシーンとテストシーンの間の予期せぬシーンのバリエーションを教師なしでモデル化する。 提案手法の有効性を検証するため, 従来の一般化や時間的再構成のベンチマークよりも困難である前景動作, 照明変動, 多モード雑音など, 多様なテスト時間摂動を伴う実時間および合成データからベンチマークを構築した。 実験の結果,OPONeRFはベンチマーク実験やクロスシーン評価を通じて,各種評価指標における最先端のNeRFよりも優れていた。 さらに,既存の一般化ベースベンチマークを実験し,One-Point-One NeRFのアイデアを他の先進的ベースライン手法に取り入れることで,提案手法の有効性を示す。

In this paper, we propose a One-Point-One NeRF (OPONeRF) framework for robust scene rendering. Existing NeRFs are designed based on a key assumption that the target scene remains unchanged between the training and test time. However, small but unpredictable perturbations such as object movements, light changes and data contaminations broadly exist in real-life 3D scenes, which lead to significantly defective or failed rendering results even for the recent state-of-the-art generalizable methods. To address this, we propose a divide-and-conquer framework in OPONeRF that adaptively responds to local scene variations via personalizing appropriate point-wise parameters, instead of fitting a single set of NeRF parameters that are inactive to test-time unseen changes. Moreover, to explicitly capture the local uncertainty, we decompose the point representation into deterministic mapping and probabilistic inference. In this way, OPONeRF learns the sharable invariance and unsupervisedly models the unexpected scene variations between the training and testing scenes. To validate the effectiveness of the proposed method, we construct benchmarks from both realistic and synthetic data with diverse test-time perturbations including foreground motions, illumination variations and multi-modality noises, which are more challenging than conventional generalization and temporal reconstruction benchmarks. Experimental results show that our OPONeRF outperforms state-of-the-art NeRFs on various evaluation metrics through benchmark experiments and cross-scene evaluations. We further show the efficacy of the proposed method via experimenting on other existing generalization-based benchmarks and incorporating the idea of One-Point-One NeRF into other advanced baseline methods.
翻訳日:2024-11-05 16:08:18 公開日:2024-10-10
# RISE-SDF:Glossy Object Inverse Renderingのための再生可能な情報共有符号付き距離場

RISE-SDF: a Relightable Information-Shared Signed Distance Field for Glossy Object Inverse Rendering ( http://arxiv.org/abs/2409.20140v2 )

ライセンス: Link先を確認
Deheng Zhang, Jingyu Wang, Shaofei Wang, Marko Mihajlovic, Sergey Prokudin, Hendrik P. A. Lensch, Siyu Tang, (参考訳) 本稿では, 高品質な形状と材料特性の再構成を実現し, 高品質なリライトを実現する, エンド・ツー・エンドなニューラル・リバースレンダリングシステムを提案する。 本手法の基礎は,シーンパラメータのより優れた分解法を学習するための2段階のアプローチである。 第1段階では、形状表現としてニューラルサイン距離場(SDF)を用い、間接照明を推定するためにMLP(multilayer perceptron)を配置する反射型放射場を開発する。 第2段階では,新たな情報共有ネットワーク構造を導入し,ラディアンス場とシーンの物理的因子化を共同で学習する。 モンテカルロサンプリングによるノイズを低減するために,ディズニーBRDFと立方体ミップマップを簡易化した分割サム近似を環境光表現として適用した。 また,光沢オブジェクトの逆レンダリング性能を定量的に評価するためのデータセットやプロトコルは存在しない。 材料復元とリライティングの質を評価するため, BRDFパラメータとリライティング結果を用いた新しいデータセットを構築した。 実験により, 逆レンダリングとリライティングにおいて, 高い反射率を持つ物体の再構成に強い結果が得られた。

In this paper, we propose a novel end-to-end relightable neural inverse rendering system that achieves high-quality reconstruction of geometry and material properties, thus enabling high-quality relighting. The cornerstone of our method is a two-stage approach for learning a better factorization of scene parameters. In the first stage, we develop a reflection-aware radiance field using a neural signed distance field (SDF) as the geometry representation and deploy an MLP (multilayer perceptron) to estimate indirect illumination. In the second stage, we introduce a novel information-sharing network structure to jointly learn the radiance field and the physically based factorization of the scene. For the physically based factorization, to reduce the noise caused by Monte Carlo sampling, we apply a split-sum approximation with a simplified Disney BRDF and cube mipmap as the environment light representation. In the relighting phase, to enhance the quality of indirect illumination, we propose a second split-sum algorithm to trace secondary rays under the split-sum rendering framework.Furthermore, there is no dataset or protocol available to quantitatively evaluate the inverse rendering performance for glossy objects. To assess the quality of material reconstruction and relighting, we have created a new dataset with ground truth BRDF parameters and relighting results. Our experiments demonstrate that our algorithm achieves state-of-the-art performance in inverse rendering and relighting, with particularly strong results in the reconstruction of highly reflective objects.
翻訳日:2024-11-05 15:58:31 公開日:2024-10-10
# RISE-SDF:Glossy Object Inverse Renderingのための再生可能な情報共有符号付き距離場

RISE-SDF: a Relightable Information-Shared Signed Distance Field for Glossy Object Inverse Rendering ( http://arxiv.org/abs/2409.20140v3 )

ライセンス: Link先を確認
Deheng Zhang, Jingyu Wang, Shaofei Wang, Marko Mihajlovic, Sergey Prokudin, Hendrik P. A. Lensch, Siyu Tang, (参考訳) 本稿では, 高品質な形状と材料特性の再構成を実現し, 高品質なリライトを実現する, エンド・ツー・エンドなニューラル・リバースレンダリングシステムを提案する。 本手法の基礎は,シーンパラメータのより優れた分解法を学習するための2段階のアプローチである。 第1段階では、形状表現としてニューラルサイン距離場(SDF)を用い、間接照明を推定するためにMLP(multilayer perceptron)を配置する反射型放射場を開発する。 第2段階では,新たな情報共有ネットワーク構造を導入し,ラディアンス場とシーンの物理的因子化を共同で学習する。 モンテカルロサンプリングによるノイズを低減するために,ディズニーBRDFと立方体ミップマップを簡易化した分割サム近似を環境光表現として適用した。 ライティングフェーズでは、間接照明の質を高めるために、スプリットサムレンダリングフレームワークの下で二次光をトレースする2番目のスプリットサムアルゴリズムを提案する。 さらに、光沢のあるオブジェクトの逆レンダリング性能を定量的に評価するデータセットやプロトコルは存在しない。 材料復元とリライティングの質を評価するため, BRDFパラメータとリライティング結果を用いた新しいデータセットを構築した。 実験により, 逆レンダリングとリライティングにおいて, 高い反射率を持つ物体の再構成に強い結果が得られた。

In this paper, we propose a novel end-to-end relightable neural inverse rendering system that achieves high-quality reconstruction of geometry and material properties, thus enabling high-quality relighting. The cornerstone of our method is a two-stage approach for learning a better factorization of scene parameters. In the first stage, we develop a reflection-aware radiance field using a neural signed distance field (SDF) as the geometry representation and deploy an MLP (multilayer perceptron) to estimate indirect illumination. In the second stage, we introduce a novel information-sharing network structure to jointly learn the radiance field and the physically based factorization of the scene. For the physically based factorization, to reduce the noise caused by Monte Carlo sampling, we apply a split-sum approximation with a simplified Disney BRDF and cube mipmap as the environment light representation. In the relighting phase, to enhance the quality of indirect illumination, we propose a second split-sum algorithm to trace secondary rays under the split-sum rendering framework. Furthermore, there is no dataset or protocol available to quantitatively evaluate the inverse rendering performance for glossy objects. To assess the quality of material reconstruction and relighting, we have created a new dataset with ground truth BRDF parameters and relighting results. Our experiments demonstrate that our algorithm achieves state-of-the-art performance in inverse rendering and relighting, with particularly strong results in the reconstruction of highly reflective objects.
翻訳日:2024-11-05 15:58:31 公開日:2024-10-10
# AUCSeg: AUC指向のLong-tail Semantic Segmentation

AUCSeg: AUC-oriented Pixel-level Long-tail Semantic Segmentation ( http://arxiv.org/abs/2409.20398v2 )

ライセンス: Link先を確認
Boyu Han, Qianqian Xu, Zhiyong Yang, Shilong Bao, Peisong Wen, Yangbangyan Jiang, Qingming Huang, (参考訳) The Area Under the ROC Curve (AUC)は、インスタンスレベルのロングテール学習問題を評価するためのよく知られた指標である。 過去20年間に,長期分布下でのモデル性能向上のために,多くのAUC最適化手法が提案されてきた。 本稿では,より複雑なシナリオである画素レベルの長テールセマンティックセマンティックセマンティックセグメンテーションの文脈におけるAUC最適化手法について検討する。 この課題は、AUC最適化技術における2つの大きな課題を提起する。 一方、画素レベルのタスクにおけるAUC最適化は、構造的内像と対角的相互像の依存関係を持つ損失項間の複雑な結合を伴い、理論的解析を複雑化する。 一方,この場合のAUC損失の最小バッチ推定にはバッチサイズが大きすぎるため,スペースの複雑さが生じることが判明した。 これらの問題に対処するため,画素レベルのAUC損失関数を開発し,アルゴリズムの一般化能力に関する依存性グラフに基づく理論的解析を行う。 さらに,Tail-Classes Memory Bank (T-Memory Bank) を設計し,重要なメモリ需要を管理する。 最後に,AUCSeg法の有効性を様々なベンチマークで検証した。 コードはhttps://github.com/boyuh/AUCSegで入手できる。

The Area Under the ROC Curve (AUC) is a well-known metric for evaluating instance-level long-tail learning problems. In the past two decades, many AUC optimization methods have been proposed to improve model performance under long-tail distributions. In this paper, we explore AUC optimization methods in the context of pixel-level long-tail semantic segmentation, a much more complicated scenario. This task introduces two major challenges for AUC optimization techniques. On one hand, AUC optimization in a pixel-level task involves complex coupling across loss terms, with structured inner-image and pairwise inter-image dependencies, complicating theoretical analysis. On the other hand, we find that mini-batch estimation of AUC loss in this case requires a larger batch size, resulting in an unaffordable space complexity. To address these issues, we develop a pixel-level AUC loss function and conduct a dependency-graph-based theoretical analysis of the algorithm's generalization ability. Additionally, we design a Tail-Classes Memory Bank (T-Memory Bank) to manage the significant memory demand. Finally, comprehensive experiments across various benchmarks confirm the effectiveness of our proposed AUCSeg method. The code is available at https://github.com/boyuh/AUCSeg.
翻訳日:2024-11-05 15:48:47 公開日:2024-10-10
# 眼科応用のためのオープンソース周辺部セグメンテーションデータセット

Open-Source Periorbital Segmentation Dataset for Ophthalmic Applications ( http://arxiv.org/abs/2409.20407v2 )

ライセンス: Link先を確認
George R. Nahass, Emma Koehler, Nicholas Tomaras, Danny Lopez, Madison Cheung, Alexander Palacios, Jefferey Peterson, Sasha Hubschman, Kelsey Green, Chad A. Purnell, Pete Setabutr, Ann Q. Tran, Darvin Yi, (参考訳) 深層学習を用いた眼窩周囲のセグメンテーションと距離予測は、疾患状態の客観的定量化、治療モニタリング、遠隔医療を可能にする。 しかし、現在、深層学習モデルの訓練を目的としたセグメンテーションデータセットの報告は、目の周りの領域で、サブミリの精度で報告されていない。 すべての画像 (n=2842) には虹彩, 硬化, 蓋, 結節, 額が5つのアノテータで区切られていた。 本稿では,このデータセットをイントラグレータ内信頼性試験およびイントラグレータ間信頼性試験により検証し,軌道周辺セグメンテーションネットワークのトレーニングにおけるデータの有用性を示す。 すべてのアノテーションは、無料でダウンロードできる。 オキュロプラスティック手術用に設計されたセグメンテーションデータセットへのアクセスは、眼窩周辺距離の予測や疾患の分類に活用可能な、臨床的に有用なセグメンテーションネットワークのより迅速な開発を可能にする。 アノテーションに加えて,セグメンテーションマスクからの距離予測を行うオープンソースツールキットも提供する。 すべてのモデルの重みもオープンソースとして公開されており、コミュニティで使用することができる。

Periorbital segmentation and distance prediction using deep learning allows for the objective quantification of disease state, treatment monitoring, and remote medicine. However, there are currently no reports of segmentation datasets for the purposes of training deep learning models with sub mm accuracy on the regions around the eyes. All images (n=2842) had the iris, sclera, lid, caruncle, and brow segmented by five trained annotators. Here, we validate this dataset through intra and intergrader reliability tests and show the utility of the data in training periorbital segmentation networks. All the annotations are publicly available for free download. Having access to segmentation datasets designed specifically for oculoplastic surgery will permit more rapid development of clinically useful segmentation networks which can be leveraged for periorbital distance prediction and disease classification. In addition to the annotations, we also provide an open-source toolkit for periorbital distance prediction from segmentation masks. The weights of all models have also been open-sourced and are publicly available for use by the community.
翻訳日:2024-11-05 15:48:47 公開日:2024-10-10
# 内視鏡カメラ深度推定のための全パラメータとパラメータ効率の自己学習に向けて

Towards Full-parameter and Parameter-efficient Self-learning For Endoscopic Camera Depth Estimation ( http://arxiv.org/abs/2410.00979v1 )

ライセンス: Link先を確認
Shuting Zhao, Chenkang Du, Kristin Qi, Xinrong Chen, Xinhan Di, (参考訳) 近年,深度基礎モデルの内視鏡的深度推定に適応する手法が開発されている。 しかし、そのようなアプローチは、パラメータ探索を低ランクな部分空間に制限し、トレーニングのダイナミクスを変更するため、典型的には性能の低いトレーニングである。 そこで本研究では,内視鏡的深度推定のための全パラメータ・パラメータ効率学習フレームワークを提案する。 第1段階では、注意、畳み込み、多層知覚のサブ空間が異なるサブ空間内に同時に適応される。 第2段階では,部分空間合成におけるメモリ効率の最適化が提案され,統一された部分空間では性能がさらに向上する。 SCAREDデータセットの初期実験では、Sq Rel、Abs Rel、RMSE、RMSEログを最先端のモデルと比較すると、最初の段階での結果が10.2%から4.1%に改善された。

Adaptation methods are developed to adapt depth foundation models to endoscopic depth estimation recently. However, such approaches typically under-perform training since they limit the parameter search to a low-rank subspace and alter the training dynamics. Therefore, we propose a full-parameter and parameter-efficient learning framework for endoscopic depth estimation. At the first stage, the subspace of attention, convolution and multi-layer perception are adapted simultaneously within different sub-spaces. At the second stage, a memory-efficient optimization is proposed for subspace composition and the performance is further improved in the united sub-space. Initial experiments on the SCARED dataset demonstrate that results at the first stage improves the performance from 10.2% to 4.1% for Sq Rel, Abs Rel, RMSE and RMSE log in the comparison with the state-of-the-art models.
翻訳日:2024-11-05 00:00:02 公開日:2024-10-10
# 内視鏡カメラ深度推定のための全パラメータとパラメータ効率の自己学習に向けて

Towards Full-parameter and Parameter-efficient Self-learning For Endoscopic Camera Depth Estimation ( http://arxiv.org/abs/2410.00979v2 )

ライセンス: Link先を確認
Shuting Zhao, Chenkang Du, Kristin Qi, Xinrong Chen, Xinhan Di, (参考訳) 近年,深度基礎モデルの内視鏡的深度推定に適応する手法が開発されている。 しかし、そのようなアプローチは、パラメータ探索を低ランクな部分空間に制限し、トレーニングのダイナミクスを変更するため、典型的には性能の低いトレーニングである。 そこで本研究では,内視鏡的深度推定のための全パラメータ・パラメータ効率学習フレームワークを提案する。 第1段階では、注意、畳み込み、多層知覚のサブ空間が異なるサブ空間内に同時に適応される。 第2段階では,部分空間合成におけるメモリ効率の最適化が提案され,統一された部分空間では性能がさらに向上する。 SCAREDデータセットの初期実験では、Sq Rel、Abs Rel、RMSE、RMSEログを最先端のモデルと比較すると、最初の段階での結果が10.2%から4.1%に改善された。

Adaptation methods are developed to adapt depth foundation models to endoscopic depth estimation recently. However, such approaches typically under-perform training since they limit the parameter search to a low-rank subspace and alter the training dynamics. Therefore, we propose a full-parameter and parameter-efficient learning framework for endoscopic depth estimation. At the first stage, the subspace of attention, convolution and multi-layer perception are adapted simultaneously within different sub-spaces. At the second stage, a memory-efficient optimization is proposed for subspace composition and the performance is further improved in the united sub-space. Initial experiments on the SCARED dataset demonstrate that results at the first stage improves the performance from 10.2% to 4.1% for Sq Rel, Abs Rel, RMSE and RMSE log in the comparison with the state-of-the-art models.
翻訳日:2024-11-05 00:00:02 公開日:2024-10-10
# 位相同期で外観が変化する追跡対象

Tracking objects that change in appearance with phase synchrony ( http://arxiv.org/abs/2410.02094v1 )

ライセンス: Link先を確認
Sabine Muzellec, Drew Linsley, Alekh K. Ashok, Ennio Mingolla, Girik Malik, Rufin VanRullen, Thomas Serre, (参考訳) 私たちが遭遇するオブジェクトは、それらと対話するにつれて外観が変わることが多い。 照明(陰影)、オブジェクトポーズ、または非剛体物体の動きの変化は、利用可能な画像の特徴を劇的に変更することができる。 生物学的視覚システムは、変化するオブジェクトをどうやって追跡するのか? それは、その外見とは独立して物体の位置を推論するための特定の注意機構を含むかもしれない。 ニューラルシンクロニーによる視覚的注意の実施は、時間とともに変化する物体を追跡する生物学的視覚システムの能力の根底にあるという仮説を計算的に検証する。 まず、ニューラルネットワーク(CV-RNN)を用いて、世界の場所と異なる特徴への注意を正確に制御できる新しい深層学習回路を導入する。 次に、FeatureTrackerを使って、人間やCV-RNN、その他のディープニューラルネットワーク(DNN)のオブジェクト追跡を比較します。 人間は熱心にFeatureTrackerを解決したが、最先端のDNNは解決しなかった。 対照的に、CV-RNNは人間と同じような振る舞いをしており、相同期が神経基質としての役割を計算的に証明し、外見の変化を追跡する。

Objects we encounter often change appearance as we interact with them. Changes in illumination (shadows), object pose, or movement of nonrigid objects can drastically alter available image features. How do biological visual systems track objects as they change? It may involve specific attentional mechanisms for reasoning about the locations of objects independently of their appearances -- a capability that prominent neuroscientific theories have associated with computing through neural synchrony. We computationally test the hypothesis that the implementation of visual attention through neural synchrony underlies the ability of biological visual systems to track objects that change in appearance over time. We first introduce a novel deep learning circuit that can learn to precisely control attention to features separately from their location in the world through neural synchrony: the complex-valued recurrent neural network (CV-RNN). Next, we compare object tracking in humans, the CV-RNN, and other deep neural networks (DNNs), using FeatureTracker: a large-scale challenge that asks observers to track objects as their locations and appearances change in precisely controlled ways. While humans effortlessly solved FeatureTracker, state-of-the-art DNNs did not. In contrast, our CV-RNN behaved similarly to humans on the challenge, providing a computational proof-of-concept for the role of phase synchronization as a neural substrate for tracking appearance-morphing objects as they move about.
翻訳日:2024-11-04 08:55:37 公開日:2024-10-10
# 位相同期で外観が変化する追跡対象

Tracking objects that change in appearance with phase synchrony ( http://arxiv.org/abs/2410.02094v2 )

ライセンス: Link先を確認
Sabine Muzellec, Drew Linsley, Alekh K. Ashok, Ennio Mingolla, Girik Malik, Rufin VanRullen, Thomas Serre, (参考訳) 私たちが遭遇するオブジェクトは、それらと対話するにつれて外観が変わることが多い。 照明(陰影)、オブジェクトポーズ、または非剛体物体の動きの変化は、利用可能な画像の特徴を劇的に変更することができる。 生物学的視覚システムは、変化するオブジェクトをどうやって追跡するのか? それは、その外見とは独立して物体の位置を推論するための特定の注意機構を含むかもしれない。 ニューラルシンクロニーによる視覚的注意の実施は、時間とともに変化する物体を追跡する生物学的視覚システムの能力の根底にあるという仮説を計算的に検証する。 まず、ニューラルネットワーク(CV-RNN)を用いて、世界の場所と異なる特徴への注意を正確に制御できる新しい深層学習回路を導入する。 次に、FeatureTrackerを使って、人間やCV-RNN、その他のディープニューラルネットワーク(DNN)のオブジェクト追跡を比較します。 人間は熱心にFeatureTrackerを解決したが、最先端のDNNは解決しなかった。 対照的に、CV-RNNは人間と同じような振る舞いをしており、相同期が神経基質としての役割を計算的に証明し、外見の変化を追跡する。

Objects we encounter often change appearance as we interact with them. Changes in illumination (shadows), object pose, or movement of nonrigid objects can drastically alter available image features. How do biological visual systems track objects as they change? It may involve specific attentional mechanisms for reasoning about the locations of objects independently of their appearances -- a capability that prominent neuroscientific theories have associated with computing through neural synchrony. We computationally test the hypothesis that the implementation of visual attention through neural synchrony underlies the ability of biological visual systems to track objects that change in appearance over time. We first introduce a novel deep learning circuit that can learn to precisely control attention to features separately from their location in the world through neural synchrony: the complex-valued recurrent neural network (CV-RNN). Next, we compare object tracking in humans, the CV-RNN, and other deep neural networks (DNNs), using FeatureTracker: a large-scale challenge that asks observers to track objects as their locations and appearances change in precisely controlled ways. While humans effortlessly solved FeatureTracker, state-of-the-art DNNs did not. In contrast, our CV-RNN behaved similarly to humans on the challenge, providing a computational proof-of-concept for the role of phase synchronization as a neural substrate for tracking appearance-morphing objects as they move about.
翻訳日:2024-11-04 08:55:37 公開日:2024-10-10
# Dog-IQA:混合画質評価のための標準誘導ゼロショットMLLM

Dog-IQA: Standard-guided Zero-shot MLLM for Mix-grained Image Quality Assessment ( http://arxiv.org/abs/2410.02505v1 )

ライセンス: Link先を確認
Kai Liu, Ziqing Zhang, Wenbo Li, Renjing Pei, Fenglong Song, Xiaohong Liu, Linghe Kong, Yulun Zhang, (参考訳) 画像品質評価(IQA)は、ほぼ全てのコンピュータビジョン分野において、全てのモデルのパフォーマンスの黄金の標準となる。 しかしそれでも、流通外一般化能力の貧弱さと高価なトレーニングコストに悩まされている。 このような問題に対処するため,マルチモーダル大言語モデル (MLLM) の例外的事前知識を利用する標準誘導ゼロショット混合IQA法であるDog-IQAを提案する。 正確なIQAスコアを得るためには、人間の専門家を模倣したMLLMベースの推論パイプラインを設計する。 詳しくは、Dog-IQAが2つのテクニックを適用している。 第一に、Dog-IQAはMLLMの行動パターンを活用し、主観的要因の影響を最小限に抑える特定の基準で客観的に得点する。 第二に、Dog-IQAは局所的意味オブジェクトと全体像を総合的に入力として取り、そのスコアを集約し、局所的およびグローバルな情報を活用する。 提案したDog-IQAは,トレーニングフリー手法と比較して最先端(SOTA)性能を実現し,クロスデータセットシナリオにおけるトレーニングベース手法と比較して競合性能が向上した。 私たちのコードとモデルはhttps://github.com/Kai-Liu001/Dog-IQA.comで公開されます。

Image quality assessment (IQA) serves as the golden standard for all models' performance in nearly all computer vision fields. However, it still suffers from poor out-of-distribution generalization ability and expensive training costs. To address these problems, we propose Dog-IQA, a standard-guided zero-shot mix-grained IQA method, which is training-free and utilizes the exceptional prior knowledge of multimodal large language models (MLLMs). To obtain accurate IQA scores, namely scores consistent with humans, we design an MLLM-based inference pipeline that imitates human experts. In detail, Dog-IQA applies two techniques. First, Dog-IQA objectively scores with specific standards that utilize MLLM's behavior pattern and minimize the influence of subjective factors. Second, Dog-IQA comprehensively takes local semantic objects and the whole image as input and aggregates their scores, leveraging local and global information. Our proposed Dog-IQA achieves state-of-the-art (SOTA) performance compared with training-free methods, and competitive performance compared with training-based methods in cross-dataset scenarios. Our code and models will be available at https://github.com/Kai-Liu001/Dog-IQA.
翻訳日:2024-11-04 02:51:33 公開日:2024-10-10
# Dog-IQA:混合画質評価のための標準誘導ゼロショットMLLM

Dog-IQA: Standard-guided Zero-shot MLLM for Mix-grained Image Quality Assessment ( http://arxiv.org/abs/2410.02505v2 )

ライセンス: Link先を確認
Kai Liu, Ziqing Zhang, Wenbo Li, Renjing Pei, Fenglong Song, Xiaohong Liu, Linghe Kong, Yulun Zhang, (参考訳) 画像品質評価(IQA)は、ほぼ全てのコンピュータビジョン分野において、全てのモデルのパフォーマンスの黄金の標準となる。 しかしそれでも、流通外一般化能力の貧弱さと高価なトレーニングコストに悩まされている。 このような問題に対処するため,マルチモーダル大言語モデル (MLLM) の例外的事前知識を利用する標準誘導ゼロショット混合IQA法であるDog-IQAを提案する。 正確なIQAスコアを得るためには、人間の専門家を模倣したMLLMベースの推論パイプラインを設計する。 詳しくは、Dog-IQAが2つのテクニックを適用している。 第一に、Dog-IQAはMLLMの行動パターンを活用し、主観的要因の影響を最小限に抑える特定の基準で客観的に得点する。 第二に、Dog-IQAは局所的意味オブジェクトと全体像を総合的に入力として取り、そのスコアを集約し、局所的およびグローバルな情報を活用する。 提案したDog-IQAは,トレーニングフリー手法と比較して最先端(SOTA)性能を実現し,クロスデータセットシナリオにおけるトレーニングベース手法と比較して競合性能が向上した。 私たちのコードはhttps://github.com/Kai-Liu001/Dog-IQA.comで公開されます。

Image quality assessment (IQA) serves as the golden standard for all models' performance in nearly all computer vision fields. However, it still suffers from poor out-of-distribution generalization ability and expensive training costs. To address these problems, we propose Dog-IQA, a standard-guided zero-shot mix-grained IQA method, which is training-free and utilizes the exceptional prior knowledge of multimodal large language models (MLLMs). To obtain accurate IQA scores, namely scores consistent with humans, we design an MLLM-based inference pipeline that imitates human experts. In detail, Dog-IQA applies two techniques. First, Dog-IQA objectively scores with specific standards that utilize MLLM's behavior pattern and minimize the influence of subjective factors. Second, Dog-IQA comprehensively takes local semantic objects and the whole image as input and aggregates their scores, leveraging local and global information. Our proposed Dog-IQA achieves state-of-the-art (SOTA) performance compared with training-free methods, and competitive performance compared with training-based methods in cross-dataset scenarios. Our code will be available at https://github.com/Kai-Liu001/Dog-IQA.
翻訳日:2024-11-04 02:51:33 公開日:2024-10-10
# HiFiSeg: グローバルローカルビジョン変換器を用いた高周波情報強化ポリプセグメンテーション

HiFiSeg: High-Frequency Information Enhanced Polyp Segmentation with Global-Local Vision Transformer ( http://arxiv.org/abs/2410.02528v1 )

ライセンス: Link先を確認
Jingjing Ren, Xiaoyong Zhang, Lina Zhang, (参考訳) 様々なコンピュータビジョンタスクにまたがるビジョントランスフォーマー(ViT)ベースの手法の強い性能を示す研究が数多く行われている。 しかし、ViTモデルは、特に複雑なシナリオにおいて、小さなターゲットを検出し、エッジの詳細を保存するために不可欠である画像の高周波成分を効果的に捉えるのに苦労することが多い。 この制限は大腸ポリープのセグメンテーションにおいて特に困難であり、ポリープは構造、テクスチャ、形状に有意な変動を示す。 この文脈で正確なセマンティックセグメンテーションを達成するためには、境界詳細のような高周波情報が必要である。 これらの課題に対処するため、我々は、グローバルローカルなビジョントランスフォーマーフレームワークを通じて、高周波情報処理を強化する、大腸ポリープセグメンテーションのための新しいネットワークであるHiFiSegを提案する。 HiFiSegは、ピラミッド・ビジョン・トランスフォーマー(PVT)をエンコーダとして利用し、グローバル・ローカル・インタラクション・モジュール(GLIM)と選択的アグリゲーション・モジュール(SAM)という2つの重要なモジュールを導入している。 GLIMは並列構造を用いて、グローバルおよびローカル情報を複数のスケールで融合し、効果的にきめ細かい特徴をキャプチャする。 SAMは、高レベルの特徴からのセマンティック情報と低レベルの特徴から境界の詳細を選択的に統合し、ポリープを正確に検出し、セグメント化するモデルの能力を大幅に改善する。 広く認識されている5つのベンチマークデータセットに対する大規模な実験は、ポリプセグメンテーションにおけるHiFiSegの有効性を示している。 特に、挑戦的なCVC-ColonDBとETISデータセットのmDiceスコアは、それぞれ0.826と0.822に達した。

Numerous studies have demonstrated the strong performance of Vision Transformer (ViT)-based methods across various computer vision tasks. However, ViT models often struggle to effectively capture high-frequency components in images, which are crucial for detecting small targets and preserving edge details, especially in complex scenarios. This limitation is particularly challenging in colon polyp segmentation, where polyps exhibit significant variability in structure, texture, and shape. High-frequency information, such as boundary details, is essential for achieving precise semantic segmentation in this context. To address these challenges, we propose HiFiSeg, a novel network for colon polyp segmentation that enhances high-frequency information processing through a global-local vision transformer framework. HiFiSeg leverages the pyramid vision transformer (PVT) as its encoder and introduces two key modules: the global-local interaction module (GLIM) and the selective aggregation module (SAM). GLIM employs a parallel structure to fuse global and local information at multiple scales, effectively capturing fine-grained features. SAM selectively integrates boundary details from low-level features with semantic information from high-level features, significantly improving the model's ability to accurately detect and segment polyps. Extensive experiments on five widely recognized benchmark datasets demonstrate the effectiveness of HiFiSeg for polyp segmentation. Notably, the mDice scores on the challenging CVC-ColonDB and ETIS datasets reached 0.826 and 0.822, respectively, underscoring the superior performance of HiFiSeg in handling the specific complexities of this task.
翻訳日:2024-11-04 02:41:38 公開日:2024-10-10
# HiFiSeg: グローバルローカルビジョン変換器を用いた高周波情報強化ポリプセグメンテーション

HiFiSeg: High-Frequency Information Enhanced Polyp Segmentation with Global-Local Vision Transformer ( http://arxiv.org/abs/2410.02528v2 )

ライセンス: Link先を確認
Jingjing Ren, Xiaoyong Zhang, Lina Zhang, (参考訳) 様々なコンピュータビジョンタスクにまたがるビジョントランスフォーマー(ViT)ベースの手法の強い性能を示す研究が数多く行われている。 しかし、ViTモデルは、特に複雑なシナリオにおいて、小さなターゲットを検出し、エッジの詳細を保存するために不可欠である画像の高周波成分を効果的に捉えるのに苦労することが多い。 この制限は大腸ポリープのセグメンテーションにおいて特に困難であり、ポリープは構造、テクスチャ、形状に有意な変動を示す。 この文脈で正確なセマンティックセグメンテーションを達成するためには、境界詳細のような高周波情報が必要である。 これらの課題に対処するため、我々は、グローバルローカルなビジョントランスフォーマーフレームワークを通じて、高周波情報処理を強化する、大腸ポリープセグメンテーションのための新しいネットワークであるHiFiSegを提案する。 HiFiSegは、ピラミッド・ビジョン・トランスフォーマー(PVT)をエンコーダとして利用し、グローバル・ローカル・インタラクション・モジュール(GLIM)と選択的アグリゲーション・モジュール(SAM)という2つの重要なモジュールを導入している。 GLIMは並列構造を用いて、グローバルおよびローカル情報を複数のスケールで融合し、効果的にきめ細かい特徴をキャプチャする。 SAMは、高レベルの特徴からのセマンティック情報と低レベルの特徴から境界の詳細を選択的に統合し、ポリープを正確に検出し、セグメント化するモデルの能力を大幅に改善する。 広く認識されている5つのベンチマークデータセットに対する大規模な実験は、ポリプセグメンテーションにおけるHiFiSegの有効性を示している。 特に、挑戦的なCVC-ColonDBとETISデータセットのmDiceスコアは、それぞれ0.826と0.822に達した。

Numerous studies have demonstrated the strong performance of Vision Transformer (ViT)-based methods across various computer vision tasks. However, ViT models often struggle to effectively capture high-frequency components in images, which are crucial for detecting small targets and preserving edge details, especially in complex scenarios. This limitation is particularly challenging in colon polyp segmentation, where polyps exhibit significant variability in structure, texture, and shape. High-frequency information, such as boundary details, is essential for achieving precise semantic segmentation in this context. To address these challenges, we propose HiFiSeg, a novel network for colon polyp segmentation that enhances high-frequency information processing through a global-local vision transformer framework. HiFiSeg leverages the pyramid vision transformer (PVT) as its encoder and introduces two key modules: the global-local interaction module (GLIM) and the selective aggregation module (SAM). GLIM employs a parallel structure to fuse global and local information at multiple scales, effectively capturing fine-grained features. SAM selectively integrates boundary details from low-level features with semantic information from high-level features, significantly improving the model's ability to accurately detect and segment polyps. Extensive experiments on five widely recognized benchmark datasets demonstrate the effectiveness of HiFiSeg for polyp segmentation. Notably, the mDice scores on the challenging CVC-ColonDB and ETIS datasets reached 0.826 and 0.822, respectively, underscoring the superior performance of HiFiSeg in handling the specific complexities of this task.
翻訳日:2024-11-04 02:41:38 公開日:2024-10-10
# IC3M:車内マルチモーダルマルチオブジェクトモニタリングによる運転者・乗務員の異常状況の把握

IC3M: In-Car Multimodal Multi-object Monitoring for Abnormal Status of Both Driver and Passengers ( http://arxiv.org/abs/2410.02592v1 )

ライセンス: Link先を確認
Zihan Fang, Zheng Lin, Senkang Hu, Hangcheng Cao, Yiqin Deng, Xianhao Chen, Yuguang Fang, (参考訳) 近年,運転者の早期異常を検知し,交通事故防止のためのタイムリーアラートを提供する技術として,車内監視が注目されている。 マルチモーダルデータを用いたトレーニングモデルは異常検出の信頼性を高めるが、ラベル付きデータの不足とクラス分布の不均衡は、重大な異常状態の特徴の抽出を妨げ、トレーニング性能を著しく低下させる。 さらに、環境やハードウェアの制約によるモダリティの欠如は、異常な状態同定の課題をさらに悪化させる。 さらに重要なことは、特に高齢者ケアにおける乗客の異常な健康状態のモニタリングが最重要であるが、未調査のままであることだ。 これらの課題に対処するために、車内のドライバーと乗客の両方を監視するための効率的なカメラ回転ベースのマルチモーダルフレームワークであるIC3Mを紹介した。 IC3Mは,適応しきい値の擬似ラベル戦略とモダリティの欠如という2つの重要なモジュールから構成される。 前者は、クラス分布に基づいて異なるクラスに対する擬似ラベル閾値をカスタマイズし、クラスバランスの擬似ラベルを生成してモデルトレーニングを効果的にガイドする。 IC3Mは, 精度, 精度, リコールにおいて, 限られたラベル付きデータの下で優れた堅牢性を示し, 高度に欠落したモダリティを示した。

Recently, in-car monitoring has emerged as a promising technology for detecting early-stage abnormal status of the driver and providing timely alerts to prevent traffic accidents. Although training models with multimodal data enhances the reliability of abnormal status detection, the scarcity of labeled data and the imbalance of class distribution impede the extraction of critical abnormal state features, significantly deteriorating training performance. Furthermore, missing modalities due to environment and hardware limitations further exacerbate the challenge of abnormal status identification. More importantly, monitoring abnormal health conditions of passengers, particularly in elderly care, is of paramount importance but remains underexplored. To address these challenges, we introduce our IC3M, an efficient camera-rotation-based multimodal framework for monitoring both driver and passengers in a car. Our IC3M comprises two key modules: an adaptive threshold pseudo-labeling strategy and a missing modality reconstruction. The former customizes pseudo-labeling thresholds for different classes based on the class distribution, generating class-balanced pseudo labels to guide model training effectively, while the latter leverages crossmodality relationships learned from limited labels to accurately recover missing modalities by distribution transferring from available modalities. Extensive experimental results demonstrate that IC3M outperforms state-of-the-art benchmarks in accuracy, precision, and recall while exhibiting superior robustness under limited labeled data and severe missing modality.
翻訳日:2024-11-04 02:22:08 公開日:2024-10-10
# IC3M:車内マルチモーダルマルチオブジェクトモニタリングによる運転者・乗務員の異常状況の把握

IC3M: In-Car Multimodal Multi-object Monitoring for Abnormal Status of Both Driver and Passengers ( http://arxiv.org/abs/2410.02592v2 )

ライセンス: Link先を確認
Zihan Fang, Zheng Lin, Senkang Hu, Hangcheng Cao, Yiqin Deng, Xianhao Chen, Yuguang Fang, (参考訳) 近年,運転者の早期異常を検知し,交通事故防止のためのタイムリーアラートを提供する技術として,車内監視が注目されている。 マルチモーダルデータを用いたトレーニングモデルは異常検出の信頼性を高めるが、ラベル付きデータの不足とクラス分布の不均衡は、重大な異常状態の特徴の抽出を妨げ、トレーニング性能を著しく低下させる。 さらに、環境やハードウェアの制約によるモダリティの欠如は、異常な状態同定の課題をさらに悪化させる。 さらに重要なことは、特に高齢者ケアにおける乗客の異常な健康状態のモニタリングが最重要であるが、未調査のままであることだ。 これらの課題に対処するために、車内のドライバーと乗客の両方を監視するための効率的なカメラ回転ベースのマルチモーダルフレームワークであるIC3Mを紹介した。 IC3Mは,適応しきい値の擬似ラベル戦略とモダリティの欠如という2つの重要なモジュールから構成される。 前者は、クラス分布に基づいて異なるクラスに対する擬似ラベル閾値をカスタマイズし、クラスバランスの擬似ラベルを生成してモデルトレーニングを効果的にガイドする。 IC3Mは, 精度, 精度, リコールにおいて, 限られたラベル付きデータの下で優れた堅牢性を示し, 高度に欠落したモダリティを示した。

Recently, in-car monitoring has emerged as a promising technology for detecting early-stage abnormal status of the driver and providing timely alerts to prevent traffic accidents. Although training models with multimodal data enhances the reliability of abnormal status detection, the scarcity of labeled data and the imbalance of class distribution impede the extraction of critical abnormal state features, significantly deteriorating training performance. Furthermore, missing modalities due to environment and hardware limitations further exacerbate the challenge of abnormal status identification. More importantly, monitoring abnormal health conditions of passengers, particularly in elderly care, is of paramount importance but remains underexplored. To address these challenges, we introduce our IC3M, an efficient camera-rotation-based multimodal framework for monitoring both driver and passengers in a car. Our IC3M comprises two key modules: an adaptive threshold pseudo-labeling strategy and a missing modality reconstruction. The former customizes pseudo-labeling thresholds for different classes based on the class distribution, generating class-balanced pseudo labels to guide model training effectively, while the latter leverages crossmodality relationships learned from limited labels to accurately recover missing modalities by distribution transferring from available modalities. Extensive experimental results demonstrate that IC3M outperforms state-of-the-art benchmarks in accuracy, precision, and recall while exhibiting superior robustness under limited labeled data and severe missing modality.
翻訳日:2024-11-04 02:12:23 公開日:2024-10-10
# IC3M:車内マルチモーダルマルチオブジェクトモニタリングによる運転者・乗務員の異常状況の把握

IC3M: In-Car Multimodal Multi-object Monitoring for Abnormal Status of Both Driver and Passengers ( http://arxiv.org/abs/2410.02592v3 )

ライセンス: Link先を確認
Zihan Fang, Zheng Lin, Senkang Hu, Hangcheng Cao, Yiqin Deng, Xianhao Chen, Yuguang Fang, (参考訳) 近年,運転者の早期異常を検知し,交通事故防止のためのタイムリーアラートを提供する技術として,車内監視が注目されている。 マルチモーダルデータを用いたトレーニングモデルは異常検出の信頼性を高めるが、ラベル付きデータの不足とクラス分布の不均衡は、重大な異常状態の特徴の抽出を妨げ、トレーニング性能を著しく低下させる。 さらに、環境やハードウェアの制約によるモダリティの欠如は、異常な状態同定の課題をさらに悪化させる。 さらに重要なことは、特に高齢者ケアにおける乗客の異常な健康状態のモニタリングが最重要であるが、未調査のままであることだ。 これらの課題に対処するために、車内のドライバーと乗客の両方を監視するための効率的なカメラ回転ベースのマルチモーダルフレームワークであるIC3Mを紹介した。 IC3Mは,適応しきい値の擬似ラベル戦略とモダリティの欠如という2つの重要なモジュールから構成される。 前者は、クラス分布に基づいて異なるクラスに対する擬似ラベル閾値をカスタマイズし、クラスバランスの擬似ラベルを生成してモデルトレーニングを効果的にガイドする。 IC3Mは, 精度, 精度, リコールにおいて, 限られたラベル付きデータの下で優れた堅牢性を示し, 高度に欠落したモダリティを示した。

Recently, in-car monitoring has emerged as a promising technology for detecting early-stage abnormal status of the driver and providing timely alerts to prevent traffic accidents. Although training models with multimodal data enhances the reliability of abnormal status detection, the scarcity of labeled data and the imbalance of class distribution impede the extraction of critical abnormal state features, significantly deteriorating training performance. Furthermore, missing modalities due to environment and hardware limitations further exacerbate the challenge of abnormal status identification. More importantly, monitoring abnormal health conditions of passengers, particularly in elderly care, is of paramount importance but remains underexplored. To address these challenges, we introduce our IC3M, an efficient camera-rotation-based multimodal framework for monitoring both driver and passengers in a car. Our IC3M comprises two key modules: an adaptive threshold pseudo-labeling strategy and a missing modality reconstruction. The former customizes pseudo-labeling thresholds for different classes based on the class distribution, generating class-balanced pseudo labels to guide model training effectively, while the latter leverages crossmodality relationships learned from limited labels to accurately recover missing modalities by distribution transferring from available modalities. Extensive experimental results demonstrate that IC3M outperforms state-of-the-art benchmarks in accuracy, precision, and recall while exhibiting superior robustness under limited labeled data and severe missing modality.
翻訳日:2024-11-04 02:12:23 公開日:2024-10-10
# ニューラルネットワークを用いた量子多体解法とその強相関電子系への応用

Quantum many-body solver using artificial neural networks and its applications to strongly correlated electron systems ( http://arxiv.org/abs/2410.02633v1 )

ライセンス: Link先を確認
Yusuke Nomura, Masatoshi Imada, (参考訳) 数値的手法の進化により,量子多体現象の質的理解だけでなく,定量的な予測や設計も目指している。 新たな数値的アプローチとして、量子多体問題を分析する機械学習技術が2017年に導入された。 それ以来、様々な新しいアプローチが新しい時代を開拓し、機械学習手法によって物理学の難解で根本的な問題を解くことができるようになった。 特に, 精度の高い量子多体解法と第1原理計算を組み合わせることで, 強相関物質の物質依存物性の定量的かつ正確な推定が可能となった。 したがって、電子相関の定量的な記述は、次世代の材料科学の鍵となる要素となる。

With the evolution of numerical methods, we are now aiming at not only qualitative understanding but also quantitative prediction and design of quantum many-body phenomena. As a novel numerical approach, machine learning techniques have been introduced in 2017 to analyze quantum many-body problems. Since then, proposed various novel approaches have opened a new era, in which challenging and fundamental problems in physics can be solved by machine learning methods. Especially, quantitative and accurate estimates of material-dependent physical properties of strongly correlated matter have now become realized by combining first-principles calculations with highly accurate quantum many-body solvers developed with the help of machine learning methods. Thus developed quantitative description of electron correlations will constitute a key element of materials science in the next generation.
翻訳日:2024-11-04 02:02:21 公開日:2024-10-10
# ニューラルネットワークを用いた量子多体解法とその強相関電子系への応用

Quantum many-body solver using artificial neural networks and its applications to strongly correlated electron systems ( http://arxiv.org/abs/2410.02633v2 )

ライセンス: Link先を確認
Yusuke Nomura, Masatoshi Imada, (参考訳) 数値的手法の進化により,量子多体現象の質的理解だけでなく,定量的な予測や設計も目指している。 新たな数値的アプローチとして、量子多体問題を分析する機械学習技術が2017年に導入された。 それ以来、様々な新しいアプローチが新しい時代を開拓し、機械学習手法によって物理学の難解で根本的な問題を解くことができるようになった。 特に, 精度の高い量子多体解法と第1原理計算を組み合わせることで, 強相関物質の物質依存物性の定量的かつ正確な推定が可能となった。 したがって、電子相関の定量的な記述は、次世代の材料科学の鍵となる要素となる。

With the evolution of numerical methods, we are now aiming at not only qualitative understanding but also quantitative prediction and design of quantum many-body phenomena. As a novel numerical approach, machine learning techniques have been introduced in 2017 to analyze quantum many-body problems. Since then, proposed various novel approaches have opened a new era, in which challenging and fundamental problems in physics can be solved by machine learning methods. Especially, quantitative and accurate estimates of material-dependent physical properties of strongly correlated matter have now become realized by combining first-principles calculations with highly accurate quantum many-body solvers developed with the help of machine learning methods. Thus developed quantitative description of electron correlations will constitute a key element of materials science in the next generation.
翻訳日:2024-11-04 02:02:21 公開日:2024-10-10
# HELMET: 長期言語モデルを効果的かつ正確に評価する方法

HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly ( http://arxiv.org/abs/2410.02694v1 )

ライセンス: Link先を確認
Howard Yen, Tianyu Gao, Minmin Hou, Ke Ding, Daniel Fleischer, Peter Izasak, Moshe Wasserblat, Danqi Chen, (参考訳) 長いコンテキスト言語モデル(LCLM)の評価には多くのベンチマークがあるが、開発者は多くの場合、ニードル・イン・ア・ヘイスタック(NIAH)やタスクの任意のサブセットのような合成タスクに依存している。 LCLMの様々なダウンストリームアプリケーションに翻訳するかどうかは不明であり、矛盾はモデルの比較をさらに複雑にしている。 既存のベンチマークは、アプリケーションのカバレッジが低く、長さが不十分で、信頼性の低いメトリクスがあり、ベースモデルと互換性がないため、ノイズの多い信号を提供することが多い。 本研究は,アプリケーション中心の7つのカテゴリを網羅した総合ベンチマークであるHELMET(How to Evaluate Long-context Models Effectively and Thoroughly)を提案する。 従来のベンチマークでは,最大128万トークンのコントロール可能な長さの追加や,信頼性の高いメトリクスに対するモデルベース評価,ベースモデルを堅牢に評価するためのショットプロンプトなど,多くの問題にも対処しています。 その結果,HELMETはフロンティアLCLMの信頼性が高く一貫したランキングを提供することを示した。 51個のLCLMの総合的な研究を通して,(1) NIAHのような合成タスクは下流性能の予測に適さない,(2) HELMETの多様なカテゴリは異なる傾向と相関が低い,(3) ほとんどのLCLMは完全なNIAHスコアを達成する一方で, タスクが完全コンテキスト推論や複雑な指示に従う場合, オープンソースモデルはクローズドタスクよりも著しく遅れている,という結果を得た。 最後に、我々はRAGタスクを高速なモデル開発に使用することを推奨します。

There have been many benchmarks for evaluating long-context language models (LCLMs), but developers often rely on synthetic tasks like needle-in-a-haystack (NIAH) or arbitrary subsets of tasks. It remains unclear whether they translate to the diverse downstream applications of LCLMs, and the inconsistency further complicates model comparison. We investigate the underlying reasons behind current practices and find that existing benchmarks often provide noisy signals due to low coverage of applications, insufficient lengths, unreliable metrics, and incompatibility with base models. In this work, we present HELMET (How to Evaluate Long-context Models Effectively and Thoroughly), a comprehensive benchmark encompassing seven diverse, application-centric categories. We also address many issues in previous benchmarks by adding controllable lengths up to 128k tokens, model-based evaluation for reliable metrics, and few-shot prompting for robustly evaluating base models. Consequently, we demonstrate that HELMET offers more reliable and consistent rankings of frontier LCLMs. Through a comprehensive study of 51 LCLMs, we find that (1) synthetic tasks like NIAH are not good predictors of downstream performance; (2) the diverse categories in HELMET exhibit distinct trends and low correlation with each other; and (3) while most LCLMs achieve perfect NIAH scores, open-source models significantly lag behind closed ones when the task requires full-context reasoning or following complex instructions -- the gap widens with increased lengths. Finally, we recommend using our RAG tasks for fast model development, as they are easy to run and more predictive of other downstream performance; ultimately, we advocate for a holistic evaluation across diverse tasks.
翻訳日:2024-11-04 01:32:59 公開日:2024-10-10
# HELMET: 長期言語モデルを効果的かつ正確に評価する方法

HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly ( http://arxiv.org/abs/2410.02694v2 )

ライセンス: Link先を確認
Howard Yen, Tianyu Gao, Minmin Hou, Ke Ding, Daniel Fleischer, Peter Izsak, Moshe Wasserblat, Danqi Chen, (参考訳) 長いコンテキスト言語モデル(LCLM)の評価には多くのベンチマークがあるが、開発者は多くの場合、ニードル・イン・ア・ヘイスタック(NIAH)やタスクの任意のサブセットのような合成タスクに依存している。 LCLMの様々なダウンストリームアプリケーションに翻訳するかどうかは不明であり、矛盾はモデルの比較をさらに複雑にしている。 既存のベンチマークは、アプリケーションのカバレッジが低く、長さが不十分で、信頼性の低いメトリクスがあり、ベースモデルと互換性がないため、ノイズの多い信号を提供することが多い。 本研究は,アプリケーション中心の7つのカテゴリを網羅した総合ベンチマークであるHELMET(How to Evaluate Long-context Models Effectively and Thoroughly)を提案する。 従来のベンチマークでは,最大128万トークンのコントロール可能な長さの追加や,信頼性の高いメトリクスに対するモデルベース評価,ベースモデルを堅牢に評価するためのショットプロンプトなど,多くの問題にも対処しています。 その結果,HELMETはフロンティアLCLMの信頼性が高く一貫したランキングを提供することを示した。 51個のLCLMの総合的な研究を通して,(1) NIAHのような合成タスクは下流性能の予測に適さない,(2) HELMETの多様なカテゴリは異なる傾向と相関が低い,(3) ほとんどのLCLMは完全なNIAHスコアを達成する一方で, タスクが完全コンテキスト推論や複雑な指示に従う場合, オープンソースモデルはクローズドタスクよりも著しく遅れている,という結果を得た。 最後に、我々はRAGタスクを高速なモデル開発に使用することを推奨します。

There have been many benchmarks for evaluating long-context language models (LCLMs), but developers often rely on synthetic tasks like needle-in-a-haystack (NIAH) or arbitrary subsets of tasks. It remains unclear whether they translate to the diverse downstream applications of LCLMs, and the inconsistency further complicates model comparison. We investigate the underlying reasons behind current practices and find that existing benchmarks often provide noisy signals due to low coverage of applications, insufficient lengths, unreliable metrics, and incompatibility with base models. In this work, we present HELMET (How to Evaluate Long-context Models Effectively and Thoroughly), a comprehensive benchmark encompassing seven diverse, application-centric categories. We also address many issues in previous benchmarks by adding controllable lengths up to 128k tokens, model-based evaluation for reliable metrics, and few-shot prompting for robustly evaluating base models. Consequently, we demonstrate that HELMET offers more reliable and consistent rankings of frontier LCLMs. Through a comprehensive study of 51 LCLMs, we find that (1) synthetic tasks like NIAH are not good predictors of downstream performance; (2) the diverse categories in HELMET exhibit distinct trends and low correlation with each other; and (3) while most LCLMs achieve perfect NIAH scores, open-source models significantly lag behind closed ones when the task requires full-context reasoning or following complex instructions -- the gap widens with increased lengths. Finally, we recommend using our RAG tasks for fast model development, as they are easy to run and more predictive of other downstream performance; ultimately, we advocate for a holistic evaluation across diverse tasks.
翻訳日:2024-11-04 01:32:59 公開日:2024-10-10
# 生成ポリシの障害モードのアンパック:一貫性と進捗の監視

Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress ( http://arxiv.org/abs/2410.04640v2 )

ライセンス: Link先を確認
Christopher Agia, Rohan Sinha, Jingyun Yang, Zi-ang Cao, Rika Antonova, Marco Pavone, Jeannette Bohg, (参考訳) 模倣学習を通じて訓練されたロボットの行動ポリシーは、トレーニングデータから逸脱する条件下で失敗する傾向がある。 したがって、スケーラブルなデプロイメントを容易にするためには、学習したポリシをテスト時に監視し、失敗の早期警告を提供するアルゴリズムが必要である。 障害検出を補完する2つのカテゴリに分割する,ランタイム監視フレームワークであるSentinelを提案する。 1)時間的行動整合性の統計測度を用いて検出するエラー 2) タスク進行障害では、視覚言語モデル(VLM)を使用して、ポリシーがタスクを解決しないアクションを確実かつ一貫して行うことを検出する。 私たちのアプローチには2つの重要な長所があります。 第一に、学習されたポリシーは様々な障害モードを示すため、補完的な検出器を組み合わせることで、障害検出の精度が大幅に向上する。 第二に、統計的時間的行動整合性尺度を用いることで、多重モーダルな生成ポリシーが無視可能な計算コストで不規則な振る舞いを示すことを迅速に検出できる。 対照的に、VLMは時間に敏感でない障害モードを検出するためにのみ使用します。 シミュレーションと実世界の両方において、ロボット移動操作領域で訓練された拡散ポリシーの文脈において、我々のアプローチを実証する。 時間的整合性検出とVLMランタイム監視を統一することにより、Sentinelは2つの検出器を単独で使用するよりも18%の障害を検知し、ベースラインを大幅に上回る。 質的な結果はhttps://sites.google.com/stanford.edu/sentinel.comで公開されている。

Robot behavior policies trained via imitation learning are prone to failure under conditions that deviate from their training data. Thus, algorithms that monitor learned policies at test time and provide early warnings of failure are necessary to facilitate scalable deployment. We propose Sentinel, a runtime monitoring framework that splits the detection of failures into two complementary categories: 1) Erratic failures, which we detect using statistical measures of temporal action consistency, and 2) task progression failures, where we use Vision Language Models (VLMs) to detect when the policy confidently and consistently takes actions that do not solve the task. Our approach has two key strengths. First, because learned policies exhibit diverse failure modes, combining complementary detectors leads to significantly higher accuracy at failure detection. Second, using a statistical temporal action consistency measure ensures that we quickly detect when multimodal, generative policies exhibit erratic behavior at negligible computational cost. In contrast, we only use VLMs to detect failure modes that are less time-sensitive. We demonstrate our approach in the context of diffusion policies trained on robotic mobile manipulation domains in both simulation and the real world. By unifying temporal consistency detection and VLM runtime monitoring, Sentinel detects 18% more failures than using either of the two detectors alone and significantly outperforms baselines, thus highlighting the importance of assigning specialized detectors to complementary categories of failure. Qualitative results are made available at https://sites.google.com/stanford.edu/sentinel.
翻訳日:2024-11-04 01:03:22 公開日:2024-10-10
# LLMのための普遍的最適透かし方式:理論から実践へ

Universally Optimal Watermarking Schemes for LLMs: from Theory to Practice ( http://arxiv.org/abs/2410.02890v1 )

ライセンス: Link先を確認
Haiyun He, Yepeng Liu, Ziqiao Wang, Yongyi Mao, Yuheng Bu, (参考訳) 大規模言語モデル(LLM)は人間の効率を高めるが、誤用リスクも生じ、透かしはAI生成したコンテンツを人間の作成したテキストと区別するための信頼性の高い方法として機能する。 本研究では,LLMの透かしのための新しい理論的枠組みを提案する。 特に,電子透かし方式と検出器を併用して検出性能を最大化するとともに,透かしテキストの最悪のタイプI誤差と歪みを制御した。 フレームワーク内では,最小限のType-IIエラーを特徴付け,検出性能と歪みの基本的なトレードオフを示す。 さらに重要なことは、最適な検出器の種類と透かし方式を特定することである。 理論解析に基づいて,代用モデルとGumbel-maxトリックを起動する,実用的で,モデルに依存しない,かつ,計算的に効率的なトークンレベルの透かしアルゴリズムを導入する。 Llama-13BとMistral-8$\times$7Bの実証実験により,本手法の有効性が示された。 さらに,我々の理論的枠組みにロバスト性を組み込むことによって,敵攻撃に対するレジリエンスを改善した将来の透かしシステムを設計するための基盤を提供する。

Large Language Models (LLMs) boosts human efficiency but also poses misuse risks, with watermarking serving as a reliable method to differentiate AI-generated content from human-created text. In this work, we propose a novel theoretical framework for watermarking LLMs. Particularly, we jointly optimize both the watermarking scheme and detector to maximize detection performance, while controlling the worst-case Type-I error and distortion in the watermarked text. Within our framework, we characterize the universally minimum Type-II error, showing a fundamental trade-off between detection performance and distortion. More importantly, we identify the optimal type of detectors and watermarking schemes. Building upon our theoretical analysis, we introduce a practical, model-agnostic and computationally efficient token-level watermarking algorithm that invokes a surrogate model and the Gumbel-max trick. Empirical results on Llama-13B and Mistral-8$\times$7B demonstrate the effectiveness of our method. Furthermore, we also explore how robustness can be integrated into our theoretical framework, which provides a foundation for designing future watermarking systems with improved resilience to adversarial attacks.
翻訳日:2024-11-03 05:14:45 公開日:2024-10-10
# LLMのための普遍的最適透かし方式:理論から実践へ

Universally Optimal Watermarking Schemes for LLMs: from Theory to Practice ( http://arxiv.org/abs/2410.02890v2 )

ライセンス: Link先を確認
Haiyun He, Yepeng Liu, Ziqiao Wang, Yongyi Mao, Yuheng Bu, (参考訳) 大規模言語モデル(LLM)は人間の効率を高めるが、誤用リスクも生じ、透かしはAI生成したコンテンツを人間の作成したテキストと区別するための信頼性の高い方法として機能する。 本研究では,LLMの透かしのための新しい理論的枠組みを提案する。 特に,電子透かし方式と検出器を併用して検出性能を最大化するとともに,透かしテキストの最悪のタイプI誤差と歪みを制御した。 フレームワーク内では,最小限のType-IIエラーを特徴付け,検出性能と歪みの基本的なトレードオフを示す。 さらに重要なことは、最適な検出器の種類と透かし方式を特定することである。 理論解析に基づいて,代用モデルとGumbel-maxトリックを起動する,実用的で,モデルに依存しない,かつ,計算的に効率的なトークンレベルの透かしアルゴリズムを導入する。 Llama-13BとMistral-8$\times$7Bの実証実験により,本手法の有効性が示された。 さらに,我々の理論的枠組みにロバスト性を組み込むことによって,敵攻撃に対するレジリエンスを改善した将来の透かしシステムを設計するための基盤を提供する。

Large Language Models (LLMs) boosts human efficiency but also poses misuse risks, with watermarking serving as a reliable method to differentiate AI-generated content from human-created text. In this work, we propose a novel theoretical framework for watermarking LLMs. Particularly, we jointly optimize both the watermarking scheme and detector to maximize detection performance, while controlling the worst-case Type-I error and distortion in the watermarked text. Within our framework, we characterize the universally minimum Type-II error, showing a fundamental trade-off between detection performance and distortion. More importantly, we identify the optimal type of detectors and watermarking schemes. Building upon our theoretical analysis, we introduce a practical, model-agnostic and computationally efficient token-level watermarking algorithm that invokes a surrogate model and the Gumbel-max trick. Empirical results on Llama-13B and Mistral-8$\times$7B demonstrate the effectiveness of our method. Furthermore, we also explore how robustness can be integrated into our theoretical framework, which provides a foundation for designing future watermarking systems with improved resilience to adversarial attacks.
翻訳日:2024-11-03 05:14:45 公開日:2024-10-10
# LLMベースのツールチェインによるビジュアル編集:リアルタイムアプリケーションのための効率的な蒸留手法

Visual Editing with LLM-based Tool Chaining: An Efficient Distillation Approach for Real-Time Applications ( http://arxiv.org/abs/2410.02952v1 )

ライセンス: Link先を確認
Oren Sultan, Alex Khasin, Guy Shiran, Asnat Greenstein-Messica, Dafna Shahaf, (参考訳) 本稿では, リアルタイムアプリケーションにおけるツール起動のための微調整LDMの実用的蒸留手法を提案する。 視覚的な編集作業,特に自然言語で指定されたユーザスタイル要求(「黄金時」)を解釈して画像や動画を編集し,LLMを用いて適切なツールとそのパラメータを選択して視覚効果を達成する。 GPT-3.5-TurboのようなプロプライエタリなLCMは、このタスクに潜在的な可能性を示すが、そのコストとレイテンシが高いため、リアルタイムアプリケーションには適さない。 そこで本研究では,(より)小学生のLSMに,(より)教師のLSMと行動信号の指導を施して微調整を行った。 学生のLCMを評価するためにオフラインメトリクスを導入する。 オンラインとオフラインの両方の実験は、学生モデルが教師モデル(GPT-3.5-Turbo)のパフォーマンスにマッチしていることを示し、コストとレイテンシを大幅に削減した。 最後に, 微調整の精度を低データ方式で25%向上したことを示す。

We present a practical distillation approach to fine-tune LLMs for invoking tools in real-time applications. We focus on visual editing tasks; specifically, we modify images and videos by interpreting user stylistic requests, specified in natural language ("golden hour"), using an LLM to select the appropriate tools and their parameters to achieve the desired visual effect. We found that proprietary LLMs such as GPT-3.5-Turbo show potential in this task, but their high cost and latency make them unsuitable for real-time applications. In our approach, we fine-tune a (smaller) student LLM with guidance from a (larger) teacher LLM and behavioral signals. We introduce offline metrics to evaluate student LLMs. Both online and offline experiments show that our student models manage to match the performance of our teacher model (GPT-3.5-Turbo), significantly reducing costs and latency. Lastly, we show that fine-tuning was improved by 25% in low-data regimes using augmentation.
翻訳日:2024-11-03 04:55:13 公開日:2024-10-10
# LLMベースのツールチェインによるビジュアル編集:リアルタイムアプリケーションのための効率的な蒸留手法

Visual Editing with LLM-based Tool Chaining: An Efficient Distillation Approach for Real-Time Applications ( http://arxiv.org/abs/2410.02952v2 )

ライセンス: Link先を確認
Oren Sultan, Alex Khasin, Guy Shiran, Asnat Greenstein-Messica, Dafna Shahaf, (参考訳) 本稿では, リアルタイムアプリケーションにおけるツール起動のための微調整LDMの実用的蒸留手法を提案する。 視覚的な編集作業,特に自然言語で指定されたユーザスタイル要求(「黄金時」)を解釈して画像や動画を編集し,LLMを用いて適切なツールとそのパラメータを選択して視覚効果を達成する。 GPT-3.5-TurboのようなプロプライエタリなLCMは、このタスクに潜在的な可能性を示すが、そのコストとレイテンシが高いため、リアルタイムアプリケーションには適さない。 そこで本研究では,(より)小学生のLSMに,(より)教師のLSMと行動信号の指導を施して微調整を行った。 学生のLCMを評価するためにオフラインメトリクスを導入する。 オンラインとオフラインの両方の実験は、学生モデルが教師モデル(GPT-3.5-Turbo)のパフォーマンスにマッチしていることを示し、コストとレイテンシを大幅に削減した。 最後に, 微調整の精度を低データ方式で25%向上したことを示す。

We present a practical distillation approach to fine-tune LLMs for invoking tools in real-time applications. We focus on visual editing tasks; specifically, we modify images and videos by interpreting user stylistic requests, specified in natural language ("golden hour"), using an LLM to select the appropriate tools and their parameters to achieve the desired visual effect. We found that proprietary LLMs such as GPT-3.5-Turbo show potential in this task, but their high cost and latency make them unsuitable for real-time applications. In our approach, we fine-tune a (smaller) student LLM with guidance from a (larger) teacher LLM and behavioral signals. We introduce offline metrics to evaluate student LLMs. Both online and offline experiments show that our student models manage to match the performance of our teacher model (GPT-3.5-Turbo), significantly reducing costs and latency. Lastly, we show that fine-tuning was improved by 25% in low-data regimes using augmentation.
翻訳日:2024-11-03 04:55:13 公開日:2024-10-10
# LLMベースのツールチェインによるビジュアル編集:リアルタイムアプリケーションのための効率的な蒸留手法

Visual Editing with LLM-based Tool Chaining: An Efficient Distillation Approach for Real-Time Applications ( http://arxiv.org/abs/2410.02952v3 )

ライセンス: Link先を確認
Oren Sultan, Alex Khasin, Guy Shiran, Asnat Greenstein-Messica, Dafna Shahaf, (参考訳) 本稿では, リアルタイムアプリケーションにおけるツール起動のための微調整LDMの実用的蒸留手法を提案する。 視覚的な編集作業,特に自然言語で指定されたユーザスタイル要求(「黄金時」)を解釈して画像や動画を編集し,LLMを用いて適切なツールとそのパラメータを選択して視覚効果を達成する。 GPT-3.5-TurboのようなプロプライエタリなLCMは、このタスクに潜在的な可能性を示すが、そのコストとレイテンシが高いため、リアルタイムアプリケーションには適さない。 そこで本研究では,(より)小学生のLSMに,(より)教師のLSMと行動信号の指導を施して微調整を行った。 学生のLCMを評価するためにオフラインメトリクスを導入する。 オンラインとオフラインの両方の実験は、学生モデルが教師モデル(GPT-3.5-Turbo)のパフォーマンスにマッチしていることを示し、コストとレイテンシを大幅に削減した。 最後に, 微調整の精度を低データ方式で25%向上したことを示す。

We present a practical distillation approach to fine-tune LLMs for invoking tools in real-time applications. We focus on visual editing tasks; specifically, we modify images and videos by interpreting user stylistic requests, specified in natural language ("golden hour"), using an LLM to select the appropriate tools and their parameters to achieve the desired visual effect. We found that proprietary LLMs such as GPT-3.5-Turbo show potential in this task, but their high cost and latency make them unsuitable for real-time applications. In our approach, we fine-tune a (smaller) student LLM with guidance from a (larger) teacher LLM and behavioral signals. We introduce offline metrics to evaluate student LLMs. Both online and offline experiments show that our student models manage to match the performance of our teacher model (GPT-3.5-Turbo), significantly reducing costs and latency. Lastly, we show that fine-tuning was improved by 25% in low-data regimes using augmentation.
翻訳日:2024-11-03 04:45:27 公開日:2024-10-10
# ARB-LLM:大規模言語モデルのための置換精製バイナリ化

ARB-LLM: Alternating Refined Binarizations for Large Language Models ( http://arxiv.org/abs/2410.03129v1 )

ライセンス: Link先を確認
Zhiteng Li, Xianglong Yan, Tianao Zhang, Haotong Qin, Dong Xie, Jiang Tian, zhongchao shi, Linghe Kong, Yulun Zhang, Xiaokang Yang, (参考訳) 大規模言語モデル(LLM)は、自然言語処理の進歩を大いに推進してきたが、その高いメモリと計算要求は、実用的な展開を妨げている。 効果的な圧縮手法であるバイナリ化は、モデルの重みを1ビットに縮めることができ、計算とメモリに対する高い要求を著しく低減することができる。 しかし、現在の二項化法は、LLM重量分布における柱偏差を見越しながら、二項化と全精度化の間の分布ギャップを狭めるのに苦労している。 これらの問題に対処するために,LLMに適した新しい1ビットポストトレーニング量子化(PTQ)技術であるABB-LLMを提案する。 まず、二項化と全精度化の間の分布シフトを狭めるために、二項化パラメータを段階的に更新する修正二項化(ARB)アルゴリズムを設計し、量子化誤差を著しく低減する。 さらに, キャリブレーションデータとLLM重みのカラム偏差を考慮し, さらにABBをABB-X, ARB-RCに拡張する。 さらに,カラム群ビットマップ(CGB)を用いて重み分割戦略を改良し,性能をさらに向上する。 ARB-LLM$_\text{X}$ と ARB-LLM$_\text{RC}$ をそれぞれ取得し、LLMの最先端二値化法(SOTA)を著しく上回っている。 ARB-LLM$_\text{RC}$は同じサイズのFP16モデルを超えるのは初めてである。 コードとモデルはhttps://github.com/ZHITENGLI/ARB-LLM.comで入手できる。

Large Language Models (LLMs) have greatly pushed forward advancements in natural language processing, yet their high memory and computational demands hinder practical deployment. Binarization, as an effective compression technique, can shrink model weights to just 1 bit, significantly reducing the high demands on computation and memory. However, current binarization methods struggle to narrow the distribution gap between binarized and full-precision weights, while also overlooking the column deviation in LLM weight distribution. To tackle these issues, we propose ARB-LLM, a novel 1-bit post-training quantization (PTQ) technique tailored for LLMs. To narrow the distribution shift between binarized and full-precision weights, we first design an alternating refined binarization (ARB) algorithm to progressively update the binarization parameters, which significantly reduces the quantization error. Moreover, considering the pivot role of calibration data and the column deviation in LLM weights, we further extend ARB to ARB-X and ARB-RC. In addition, we refine the weight partition strategy with column-group bitmap (CGB), which further enhance performance. Equipping ARB-X and ARB-RC with CGB, we obtain ARB-LLM$_\text{X}$ and ARB-LLM$_\text{RC}$ respectively, which significantly outperform state-of-the-art (SOTA) binarization methods for LLMs. As a binary PTQ method, our ARB-LLM$_\text{RC}$ is the first to surpass FP16 models of the same size. The code and models will be available at https://github.com/ZHITENGLI/ARB-LLM.
翻訳日:2024-11-03 03:36:45 公開日:2024-10-10
# ARB-LLM:大規模言語モデルのための置換精製バイナリ化

ARB-LLM: Alternating Refined Binarizations for Large Language Models ( http://arxiv.org/abs/2410.03129v2 )

ライセンス: Link先を確認
Zhiteng Li, Xianglong Yan, Tianao Zhang, Haotong Qin, Dong Xie, Jiang Tian, zhongchao shi, Linghe Kong, Yulun Zhang, Xiaokang Yang, (参考訳) 大規模言語モデル(LLM)は、自然言語処理の進歩を大いに推進してきたが、その高いメモリと計算要求は、実用的な展開を妨げている。 効果的な圧縮手法であるバイナリ化は、モデルの重みを1ビットに縮めることができ、計算とメモリに対する高い要求を著しく低減することができる。 しかし、現在の二項化法は、LLM重量分布における柱偏差を見越しながら、二項化と全精度化の間の分布ギャップを狭めるのに苦労している。 これらの問題に対処するために,LLMに適した新しい1ビットポストトレーニング量子化(PTQ)技術であるABB-LLMを提案する。 まず、二項化と全精度化の間の分布シフトを狭めるために、二項化パラメータを段階的に更新する修正二項化(ARB)アルゴリズムを設計し、量子化誤差を著しく低減する。 さらに, キャリブレーションデータとLLM重みのカラム偏差を考慮し, さらにABBをABB-X, ARB-RCに拡張する。 さらに,カラム群ビットマップ(CGB)を用いて重み分割戦略を改良し,性能をさらに向上する。 ARB-LLM$_\text{X}$ と ARB-LLM$_\text{RC}$ をそれぞれ取得し、LLMの最先端二値化法(SOTA)を著しく上回っている。 ARB-LLM$_\text{RC}$は同じサイズのFP16モデルを超えるのは初めてである。 コードとモデルはhttps://github.com/ZHITENGLI/ARB-LLM.comで入手できる。

Large Language Models (LLMs) have greatly pushed forward advancements in natural language processing, yet their high memory and computational demands hinder practical deployment. Binarization, as an effective compression technique, can shrink model weights to just 1 bit, significantly reducing the high demands on computation and memory. However, current binarization methods struggle to narrow the distribution gap between binarized and full-precision weights, while also overlooking the column deviation in LLM weight distribution. To tackle these issues, we propose ARB-LLM, a novel 1-bit post-training quantization (PTQ) technique tailored for LLMs. To narrow the distribution shift between binarized and full-precision weights, we first design an alternating refined binarization (ARB) algorithm to progressively update the binarization parameters, which significantly reduces the quantization error. Moreover, considering the pivot role of calibration data and the column deviation in LLM weights, we further extend ARB to ARB-X and ARB-RC. In addition, we refine the weight partition strategy with column-group bitmap (CGB), which further enhance performance. Equipping ARB-X and ARB-RC with CGB, we obtain ARB-LLM$_\text{X}$ and ARB-LLM$_\text{RC}$ respectively, which significantly outperform state-of-the-art (SOTA) binarization methods for LLMs. As a binary PTQ method, our ARB-LLM$_\text{RC}$ is the first to surpass FP16 models of the same size. The code and models will be available at https://github.com/ZHITENGLI/ARB-LLM.
翻訳日:2024-11-03 03:36:45 公開日:2024-10-10
# Sm:医療画像分類のためのマルチインスタンス学習における局所化の強化

Sm: enhanced localization in Multiple Instance Learning for medical imaging classification ( http://arxiv.org/abs/2410.03276v1 )

ライセンス: Link先を確認
Francisco M. Castro-Macías, Pablo Morales-Álvarez, Yunan Wu, Rafael Molina, Aggelos K. Katsaggelos, (参考訳) マルチ・インスタンス・ラーニング(MIL)は医療画像分類において、ラベル付けの労力を減らすために広く用いられている。 トレーニングにはバッグラベルのみを使用するが、通常、バッグレベルとインスタンスレベル(それぞれ分類とローカライズタスク)の両方で予測を行う。 初期のMILメソッドは、バッグ内のインスタンスを独立して処理した。 近年の手法はインスタンス間のグローバルおよびローカル依存関係を考慮に入れている。 彼らは分類において優れた結果を得たが、その局所化の点での性能は比較的限られている。 これらのモデルが分類タスクをターゲットとして設計されているのに対し、インスタンスレベルでの含意は深く研究されていない。 近隣のインスタンスが同じラベルを持つ可能性が高いという単純な観察によって動機づけられた私たちは、ローカル依存関係をモデル化するための、新しく、原則化された、柔軟なメカニズムを提案しています。 これは、グローバルな依存関係(例えば、トランスフォーマー)をモデル化するメカニズムと単独または組み合わせて使用することができる。 徹底的な実証実験により,我々のモジュールは,分類において競争力や優位性を保ちながら,ローカライゼーションにおける最先端のパフォーマンスにつながることが示された。 私たちのコードはhttps://github.com/Franblueee/SmMILにあります。

Multiple Instance Learning (MIL) is widely used in medical imaging classification to reduce the labeling effort. While only bag labels are available for training, one typically seeks predictions at both bag and instance levels (classification and localization tasks, respectively). Early MIL methods treated the instances in a bag independently. Recent methods account for global and local dependencies among instances. Although they have yielded excellent results in classification, their performance in terms of localization is comparatively limited. We argue that these models have been designed to target the classification task, while implications at the instance level have not been deeply investigated. Motivated by a simple observation -- that neighboring instances are likely to have the same label -- we propose a novel, principled, and flexible mechanism to model local dependencies. It can be used alone or combined with any mechanism to model global dependencies (e.g., transformers). A thorough empirical validation shows that our module leads to state-of-the-art performance in localization while being competitive or superior in classification. Our code is at https://github.com/Franblueee/SmMIL.
翻訳日:2024-11-02 23:28:42 公開日:2024-10-10
# Sm:医療画像分類のためのマルチインスタンス学習における局所化の強化

Sm: enhanced localization in Multiple Instance Learning for medical imaging classification ( http://arxiv.org/abs/2410.03276v2 )

ライセンス: Link先を確認
Francisco M. Castro-Macías, Pablo Morales-Álvarez, Yunan Wu, Rafael Molina, Aggelos K. Katsaggelos, (参考訳) マルチ・インスタンス・ラーニング(MIL)は医療画像分類において、ラベル付けの労力を減らすために広く用いられている。 トレーニングにはバッグラベルのみを使用するが、通常、バッグレベルとインスタンスレベル(それぞれ分類とローカライズタスク)の両方で予測を行う。 初期のMILメソッドは、バッグ内のインスタンスを独立して処理した。 近年の手法はインスタンス間のグローバルおよびローカル依存関係を考慮に入れている。 彼らは分類において優れた結果を得たが、その局所化の点での性能は比較的限られている。 これらのモデルが分類タスクをターゲットとして設計されているのに対し、インスタンスレベルでの含意は深く研究されていない。 近隣のインスタンスが同じラベルを持つ可能性が高いという単純な観察によって動機づけられた私たちは、ローカル依存関係をモデル化するための、新しく、原則化された、柔軟なメカニズムを提案しています。 これは、グローバルな依存関係(例えば、トランスフォーマー)をモデル化するメカニズムと単独または組み合わせて使用することができる。 徹底的な実証実験により,我々のモジュールは,分類において競争力や優位性を保ちながら,ローカライゼーションにおける最先端のパフォーマンスにつながることが示された。 私たちのコードはhttps://github.com/Franblueee/SmMILにあります。

Multiple Instance Learning (MIL) is widely used in medical imaging classification to reduce the labeling effort. While only bag labels are available for training, one typically seeks predictions at both bag and instance levels (classification and localization tasks, respectively). Early MIL methods treated the instances in a bag independently. Recent methods account for global and local dependencies among instances. Although they have yielded excellent results in classification, their performance in terms of localization is comparatively limited. We argue that these models have been designed to target the classification task, while implications at the instance level have not been deeply investigated. Motivated by a simple observation -- that neighboring instances are likely to have the same label -- we propose a novel, principled, and flexible mechanism to model local dependencies. It can be used alone or combined with any mechanism to model global dependencies (e.g., transformers). A thorough empirical validation shows that our module leads to state-of-the-art performance in localization while being competitive or superior in classification. Our code is at https://github.com/Franblueee/SmMIL.
翻訳日:2024-11-02 23:18:36 公開日:2024-10-10
# ハイブリッドNeRFステレオビジョン:内視鏡におけるパイオニア深さ推定と3次元再構成

Hybrid NeRF-Stereo Vision: Pioneering Depth Estimation and 3D Reconstruction in Endoscopy ( http://arxiv.org/abs/2410.04041v1 )

ライセンス: Link先を確認
Pengcheng Chen, Wenhao Li, Nicole Gunderson, Jeremy Ruthberg, Randall Bly, Waleed M. Abuzeid, Zhenglong Sun, Eric J. Seibel, (参考訳) 低侵襲内視鏡手術における手術領域の3次元再構築は,従来の単眼内視鏡を用いた場合,大きな課題となった。 既存の3次元再構成手法は、最適下限の精度と限定的な一般化能力によってしばしば強化される。 本研究では,3次元再構成のためのNeural Radiance Fields (NeRF) を用いた革新的なパイプラインを提案する。 提案手法は、粗いモデルが得られる予備的なNeRF再構成を用いて、再建された環境内に双眼シーンを生成し、ステレオビジョンによる初期深度マップを導出する。 この初期深度マップは、その後のNeRFイテレーションの深度監視に役立ち、3D再構成の精度を向上して徐々に改善している。 両眼深度は反復的に再計算され、深度マップが収束するまで精製プロセスは継続され、無視可能な変動を示す。 この再帰的プロセスを通じて、現実的な脳ファントムの単眼内視鏡映像から高忠実度深度マップが生成される。 X線CTと比較し, 最終3次元再構成を繰り返すことで, 関連する臨床距離の差はすべて, サブミリ秒の精度に繋がることがわかった。

The 3D reconstruction of the surgical field in minimally invasive endoscopic surgery has posed a formidable challenge when using conventional monocular endoscopes. Existing 3D reconstruction methodologies are frequently encumbered by suboptimal accuracy and limited generalization capabilities. In this study, we introduce an innovative pipeline using Neural Radiance Fields (NeRF) for 3D reconstruction. Our approach utilizes a preliminary NeRF reconstruction that yields a coarse model, then creates a binocular scene within the reconstructed environment, which derives an initial depth map via stereo vision. This initial depth map serves as depth supervision for subsequent NeRF iterations, progressively refining the 3D reconstruction with enhanced accuracy. The binocular depth is iteratively recalculated, with the refinement process continuing until the depth map converges, and exhibits negligible variations. Through this recursive process, high-fidelity depth maps are generated from monocular endoscopic video of a realistic cranial phantom. By repeated measures of the final 3D reconstruction compared to X-ray computed tomography, all differences of relevant clinical distances result in sub-millimeter accuracy.
翻訳日:2024-11-02 14:30:41 公開日:2024-10-10
# ハイブリッドNeRFステレオビジョン:内視鏡におけるパイオニア深さ推定と3次元再構成

Hybrid NeRF-Stereo Vision: Pioneering Depth Estimation and 3D Reconstruction in Endoscopy ( http://arxiv.org/abs/2410.04041v2 )

ライセンス: Link先を確認
Pengcheng Chen, Wenhao Li, Nicole Gunderson, Jeremy Ruthberg, Randall Bly, Waleed M. Abuzeid, Zhenglong Sun, Eric J. Seibel, (参考訳) 低侵襲内視鏡手術における手術領域の3次元再構築は,従来の単眼内視鏡を用いた場合,大きな課題となった。 既存の3次元再構成手法は、最適下限の精度と限定的な一般化能力によってしばしば強化される。 本研究では,3次元再構成のためのNeural Radiance Fields (NeRF) を用いた革新的なパイプラインを提案する。 提案手法は、粗いモデルが得られる予備的なNeRF再構成を用いて、再建された環境内に双眼シーンを生成し、ステレオビジョンによる初期深度マップを導出する。 この初期深度マップは、その後のNeRFイテレーションの深度監視に役立ち、3D再構成の精度を向上して徐々に改善している。 両眼深度は反復的に再計算され、深度マップが収束するまで精製プロセスは継続され、無視可能な変動を示す。 この再帰的プロセスを通じて、現実的な脳ファントムの単眼内視鏡映像から高忠実度深度マップが生成される。 X線CTと比較し, 最終3次元再構成を繰り返すことで, 関連する臨床距離の差はすべて, サブミリ秒の精度に繋がることがわかった。

The 3D reconstruction of the surgical field in minimally invasive endoscopic surgery has posed a formidable challenge when using conventional monocular endoscopes. Existing 3D reconstruction methodologies are frequently encumbered by suboptimal accuracy and limited generalization capabilities. In this study, we introduce an innovative pipeline using Neural Radiance Fields (NeRF) for 3D reconstruction. Our approach utilizes a preliminary NeRF reconstruction that yields a coarse model, then creates a binocular scene within the reconstructed environment, which derives an initial depth map via stereo vision. This initial depth map serves as depth supervision for subsequent NeRF iterations, progressively refining the 3D reconstruction with enhanced accuracy. The binocular depth is iteratively recalculated, with the refinement process continuing until the depth map converges, and exhibits negligible variations. Through this recursive process, high-fidelity depth maps are generated from monocular endoscopic video of a realistic cranial phantom. By repeated measures of the final 3D reconstruction compared to X-ray computed tomography, all differences of relevant clinical distances result in sub-millimeter accuracy.
翻訳日:2024-11-02 14:30:41 公開日:2024-10-10
# 実世界の超解像のための蒸留フリーワンステップ拡散

Distillation-Free One-Step Diffusion for Real-World Image Super-Resolution ( http://arxiv.org/abs/2410.04224v1 )

ライセンス: Link先を確認
Jianze Li, Jiezhang Cao, Zichen Zou, Xiongfei Su, Xin Yuan, Yulun Zhang, Yong Guo, Xiaokang Yang, (参考訳) 拡散モデルは、計算コストの高い実世界の超解像(Real-ISR)に対して優れた性能を実現している。 現在のアプローチは、知識蒸留を通じて多段階の拡散モデルから一段階の拡散モデルを引き出そうとしている。 しかし,これらの手法は教育費を大幅に削減し,教師の制約によって生徒モデルの性能を制約する可能性がある。 これらの問題に対処するため,DFOSD (Distillation-Free One-Step Diffusion model) を提案する。 具体的には、敵対的訓練に参加するためのノイズ認識識別器(NAD)を提案し、生成したコンテンツの信頼性をさらに高めている。 さらに、エッジ対応disTS(EA-DISTS)による知覚損失を改善し、詳細な情報を生成するモデルの能力を向上させる。 実験の結果,従来の拡散法と比較すると,DFOSDは定量的評価と定性評価の両面で同等あるいはそれ以上の結果が得られることがわかった。 DFOSDは他の1ステップ拡散法と比較して高い性能と効率を達成できる。 コードとモデルは \url{https://github.com/JianzeLi-114/DFOSD} でリリースします。

Diffusion models have been achieving excellent performance for real-world image super-resolution (Real-ISR) with considerable computational costs. Current approaches are trying to derive one-step diffusion models from multi-step counterparts through knowledge distillation. However, these methods incur substantial training costs and may constrain the performance of the student model by the teacher's limitations. To tackle these issues, we propose DFOSD, a Distillation-Free One-Step Diffusion model. Specifically, we propose a noise-aware discriminator (NAD) to participate in adversarial training, further enhancing the authenticity of the generated content. Additionally, we improve the perceptual loss with edge-aware DISTS (EA-DISTS) to enhance the model's ability to generate fine details. Our experiments demonstrate that, compared with previous diffusion-based methods requiring dozens or even hundreds of steps, our DFOSD attains comparable or even superior results in both quantitative metrics and qualitative evaluations. Our DFOSD also abtains higher performance and efficiency compared with other one-step diffusion methods. We will release code and models at \url{https://github.com/JianzeLi-114/DFOSD}.
翻訳日:2024-11-02 09:11:41 公開日:2024-10-10
# 実世界の超解像のための蒸留フリーワンステップ拡散

Distillation-Free One-Step Diffusion for Real-World Image Super-Resolution ( http://arxiv.org/abs/2410.04224v2 )

ライセンス: Link先を確認
Jianze Li, Jiezhang Cao, Zichen Zou, Xiongfei Su, Xin Yuan, Yulun Zhang, Yong Guo, Xiaokang Yang, (参考訳) 拡散モデルは、計算コストの高い実世界の超解像(Real-ISR)に対して優れた性能を実現している。 現在のアプローチは、知識蒸留を通じて多段階の拡散モデルから一段階の拡散モデルを引き出そうとしている。 しかし,これらの手法は教育費を大幅に削減し,教師の制約によって生徒モデルの性能を制約する可能性がある。 これらの問題に対処するため,DFOSD (Distillation-Free One-Step Diffusion model) を提案する。 具体的には、敵対的訓練に参加するためのノイズ認識識別器(NAD)を提案し、生成したコンテンツの信頼性をさらに高めている。 さらに、エッジ対応disTS(EA-DISTS)による知覚損失を改善し、詳細な情報を生成するモデルの能力を向上させる。 実験の結果,従来の拡散法と比較すると,DFOSDは定量的評価と定性評価の両面で同等あるいはそれ以上の結果が得られることがわかった。 DFOSDは他の1ステップ拡散法と比較して高い性能と効率を達成できる。 コードとモデルはhttps://github.com/JianzeLi-114/DFOSDでリリースします。

Diffusion models have been achieving excellent performance for real-world image super-resolution (Real-ISR) with considerable computational costs. Current approaches are trying to derive one-step diffusion models from multi-step counterparts through knowledge distillation. However, these methods incur substantial training costs and may constrain the performance of the student model by the teacher's limitations. To tackle these issues, we propose DFOSD, a Distillation-Free One-Step Diffusion model. Specifically, we propose a noise-aware discriminator (NAD) to participate in adversarial training, further enhancing the authenticity of the generated content. Additionally, we improve the perceptual loss with edge-aware DISTS (EA-DISTS) to enhance the model's ability to generate fine details. Our experiments demonstrate that, compared with previous diffusion-based methods requiring dozens or even hundreds of steps, our DFOSD attains comparable or even superior results in both quantitative metrics and qualitative evaluations. Our DFOSD also abtains higher performance and efficiency compared with other one-step diffusion methods. We will release code and models at https://github.com/JianzeLi-114/DFOSD.
翻訳日:2024-11-02 09:11:41 公開日:2024-10-10
# SONAR:AI-Audio検出フレームワークとベンチマーク

SONAR: A Synthetic AI-Audio Detection Framework~and Benchmark ( http://arxiv.org/abs/2410.04324v1 )

ライセンス: Link先を確認
Xiang Li, Pin-Yu Chen, Wenqi Wei, (参考訳) 生成人工知能(AI)技術を用いたテキスト音声変換(TTS)と音声変換(VC)の最近の進歩により、高品質でリアルな人間のような音声を生成できるようになった。 このことは、AI合成音声と人間の声を区別する重要な課題を導入し、不正行為や詐欺、偽情報の拡散、ディープフェイク、詐欺といった悪意ある目的に対する誤用の潜在的な問題を提起する可能性がある。 しかし、AI合成オーディオの既存の検出技術はペースを保っておらず、多種多様なデータセットにまたがる一般化が不十分であることが多い。 本稿では,最先端のAI合成聴覚コンテンツを識別するための総合的な評価を目的とした,AI-Audio Detection FrameworkおよびBenchmarkであるSONARを紹介する。 SONARには、主要なTSプロバイダや最先端TSモデルを含む9つのオーディオ合成プラットフォームから得られた、新たな評価データセットが含まれている。 従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。 大規模な実験を通じて,既存の検出手法の一般化限界を明らかにし,基礎モデルがモデルサイズや事前学習データのスケールや品質に起因して,より強力な一般化能力を示すことを示す。 さらに,特定のエンティティや個人に対してパーソナライズされた検出システムなど,カスタマイズされたアプリケーションの可能性を強調し,汎用性を向上させるための数発の微調整の有効性と効率について検討する。 コードとデータセットはhttps://github.com/Jessegator/SONAR.comで入手できる。

Recent advances in Text-to-Speech (TTS) and Voice-Conversion (VC) using generative Artificial Intelligence (AI) technology have made it possible to generate high-quality and realistic human-like audio. This introduces significant challenges to distinguishing AI-synthesized speech from the authentic human voice and could raise potential issues of misuse for malicious purposes such as impersonation and fraud, spreading misinformation, deepfakes, and scams. However, existing detection techniques for AI-synthesized audio have not kept pace and often exhibit poor generalization across diverse datasets. In this paper, we introduce SONAR, a synthetic AI-Audio Detection Framework and Benchmark, aiming to provide a comprehensive evaluation for distinguishing cutting-edge AI-synthesized auditory content. SONAR includes a novel evaluation dataset sourced from 9 diverse audio synthesis platforms, including leading TTS providers and state-of-the-art TTS models. It is the first framework to uniformly benchmark AI-audio detection across both traditional and foundation model-based deepfake detection systems. Through extensive experiments, we reveal the generalization limitations of existing detection methods and demonstrate that foundation models exhibit stronger generalization capabilities, which can be attributed to their model size and the scale and quality of pretraining data. Additionally, we explore the effectiveness and efficiency of few-shot fine-tuning in improving generalization, highlighting its potential for tailored applications, such as personalized detection systems for specific entities or individuals. Code and dataset are available at https://github.com/Jessegator/SONAR.
翻訳日:2024-11-02 08:30:03 公開日:2024-10-10
# SONAR:AI-Audio検出フレームワークとベンチマーク

SONAR: A Synthetic AI-Audio Detection Framework and Benchmark ( http://arxiv.org/abs/2410.04324v2 )

ライセンス: Link先を確認
Xiang Li, Pin-Yu Chen, Wenqi Wei, (参考訳) 生成人工知能(AI)技術を用いたテキスト音声変換(TTS)と音声変換(VC)の最近の進歩により、高品質でリアルな人間のような音声を生成できるようになった。 このことは、AI合成音声と人間の声を区別する重要な課題を導入し、不正行為や詐欺、偽情報の拡散、ディープフェイク、詐欺といった悪意ある目的に対する誤用の潜在的な問題を提起する可能性がある。 しかし、AI合成オーディオの既存の検出技術はペースを保っておらず、多種多様なデータセットにまたがる一般化が不十分であることが多い。 本稿では,最先端のAI合成聴覚コンテンツを識別するための総合的な評価を目的とした,AI-Audio Detection FrameworkおよびBenchmarkであるSONARを紹介する。 SONARには、主要なTSプロバイダや最先端TSモデルを含む9つのオーディオ合成プラットフォームから得られた、新たな評価データセットが含まれている。 従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。 大規模な実験を通じて,既存の検出手法の一般化限界を明らかにし,基礎モデルがモデルサイズや事前学習データのスケールや品質に起因して,より強力な一般化能力を示すことを示す。 さらに,特定のエンティティや個人に対してパーソナライズされた検出システムなど,カスタマイズされたアプリケーションの可能性を強調し,汎用性を向上させるための数発の微調整の有効性と効率について検討する。 コードとデータセットはhttps://github.com/Jessegator/SONAR.comで入手できる。

Recent advances in Text-to-Speech (TTS) and Voice-Conversion (VC) using generative Artificial Intelligence (AI) technology have made it possible to generate high-quality and realistic human-like audio. This introduces significant challenges to distinguishing AI-synthesized speech from the authentic human voice and could raise potential issues of misuse for malicious purposes such as impersonation and fraud, spreading misinformation, deepfakes, and scams. However, existing detection techniques for AI-synthesized audio have not kept pace and often exhibit poor generalization across diverse datasets. In this paper, we introduce SONAR, a synthetic AI-Audio Detection Framework and Benchmark, aiming to provide a comprehensive evaluation for distinguishing cutting-edge AI-synthesized auditory content. SONAR includes a novel evaluation dataset sourced from 9 diverse audio synthesis platforms, including leading TTS providers and state-of-the-art TTS models. It is the first framework to uniformly benchmark AI-audio detection across both traditional and foundation model-based deepfake detection systems. Through extensive experiments, we reveal the generalization limitations of existing detection methods and demonstrate that foundation models exhibit stronger generalization capabilities, which can be attributed to their model size and the scale and quality of pretraining data. Additionally, we explore the effectiveness and efficiency of few-shot fine-tuning in improving generalization, highlighting its potential for tailored applications, such as personalized detection systems for specific entities or individuals. Code and dataset are available at https://github.com/Jessegator/SONAR.
翻訳日:2024-11-02 08:30:03 公開日:2024-10-10
# SONAR:AI-Audio検出フレームワークとベンチマーク

SONAR: A Synthetic AI-Audio Detection Framework and Benchmark ( http://arxiv.org/abs/2410.04324v3 )

ライセンス: Link先を確認
Xiang Li, Pin-Yu Chen, Wenqi Wei, (参考訳) 生成人工知能(AI)技術を用いたテキスト音声変換(TTS)と音声変換(VC)の最近の進歩により、高品質でリアルな人間のような音声を生成できるようになった。 このことは、AI合成音声と人間の声を区別する重要な課題を導入し、不正行為や詐欺、偽情報の拡散、ディープフェイク、詐欺といった悪意ある目的に対する誤用の潜在的な問題を提起する可能性がある。 しかし、AI合成オーディオの既存の検出技術はペースを保っておらず、多種多様なデータセットにまたがる一般化が不十分であることが多い。 本稿では,最先端のAI合成聴覚コンテンツを識別するための総合的な評価を目的とした,AI-Audio Detection FrameworkおよびBenchmarkであるSONARを紹介する。 SONARには、主要なTSプロバイダや最先端TSモデルを含む9つのオーディオ合成プラットフォームから得られた、新たな評価データセットが含まれている。 従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。 大規模な実験を通じて,既存の検出手法の一般化限界を明らかにし,基礎モデルがモデルサイズや事前学習データのスケールや品質に起因して,より強力な一般化能力を示すことを示す。 さらに,特定のエンティティや個人に対してパーソナライズされた検出システムなど,カスタマイズされたアプリケーションの可能性を強調し,汎用性を向上させるための数発の微調整の有効性と効率について検討する。 コードとデータセットはhttps://github.com/Jessegator/SONAR.comで入手できる。

Recent advances in Text-to-Speech (TTS) and Voice-Conversion (VC) using generative Artificial Intelligence (AI) technology have made it possible to generate high-quality and realistic human-like audio. This introduces significant challenges to distinguishing AI-synthesized speech from the authentic human voice and could raise potential issues of misuse for malicious purposes such as impersonation and fraud, spreading misinformation, deepfakes, and scams. However, existing detection techniques for AI-synthesized audio have not kept pace and often exhibit poor generalization across diverse datasets. In this paper, we introduce SONAR, a synthetic AI-Audio Detection Framework and Benchmark, aiming to provide a comprehensive evaluation for distinguishing cutting-edge AI-synthesized auditory content. SONAR includes a novel evaluation dataset sourced from 9 diverse audio synthesis platforms, including leading TTS providers and state-of-the-art TTS models. It is the first framework to uniformly benchmark AI-audio detection across both traditional and foundation model-based deepfake detection systems. Through extensive experiments, we reveal the generalization limitations of existing detection methods and demonstrate that foundation models exhibit stronger generalization capabilities, which can be attributed to their model size and the scale and quality of pretraining data. Additionally, we explore the effectiveness and efficiency of few-shot fine-tuning in improving generalization, highlighting its potential for tailored applications, such as personalized detection systems for specific entities or individuals. Code and dataset are available at https://github.com/Jessegator/SONAR.
翻訳日:2024-11-02 08:30:03 公開日:2024-10-10
# DNNモデルオーナシップ検証のための評価証明の理解と強化に向けて

Towards Understanding and Enhancing Security of Proof-of-Training for DNN Model Ownership Verification ( http://arxiv.org/abs/2410.04397v1 )

ライセンス: Link先を確認
Yijia Chang, Hanrui Jiang, Chao Lin, Xinyi Huang, Jian Weng, (参考訳) ディープニューラルネットワーク(DNN)の経済的価値は、AI企業に対して、これらのモデルに対する知的財産権(IP)を保護するように促している。 近年、AI企業がDNNトレーニングプロセスの記録をその所有権証明として利用できるDNNIP保護のための有望なソリューションとして、トレーニング証明(PoT)が提案されている。 攻撃者が所有権証明を偽造するのを防ぐため、セキュアなPoTスキームは攻撃者が偽造した訓練記録と区別できるべきである。 既存のPoTスキームは様々な区別基準を提供するが、これらの基準は直観や観察に基づいている。 これらの基準の有効性は明確で包括的な分析に欠けており、結果として既存のスキームは最初は単純なアイデアによって迅速に妥協されていると考えられていた。 本稿では,形式的手法のスタイルにおける識別基準の特定を初めて行い,その妥当性を明示する。 具体的には、幅広い攻撃をカバーするための体系的なモデリングを行い、その後、誠実な訓練記録と偽の訓練記録の区別を理論的に分析する。 この分析結果は, 普遍的な識別基準を導き出すだけでなく, モデルによってカバーされた攻撃に対する防御効果を示すための詳細な推論も提供する。 この基準に導かれ、具体的なスキームにインスタンス化できる汎用的なPoT構造を提案する。 この構造は、以前はデータ蒸留に用いられていた軌道整合アルゴリズムが、PoT構築において大きな利点を持つという認識に光を当てている。 実験結果から,既存のPoTスキームを侵害した攻撃に対して,セキュリティ上の優位性を損なうことが示唆された。

The great economic values of deep neural networks (DNNs) urge AI enterprises to protect their intellectual property (IP) for these models. Recently, proof-of-training (PoT) has been proposed as a promising solution to DNN IP protection, through which AI enterprises can utilize the record of DNN training process as their ownership proof. To prevent attackers from forging ownership proof, a secure PoT scheme should be able to distinguish honest training records from those forged by attackers. Although existing PoT schemes provide various distinction criteria, these criteria are based on intuitions or observations. The effectiveness of these criteria lacks clear and comprehensive analysis, resulting in existing schemes initially deemed secure being swiftly compromised by simple ideas. In this paper, we make the first move to identify distinction criteria in the style of formal methods, so that their effectiveness can be explicitly demonstrated. Specifically, we conduct systematic modeling to cover a wide range of attacks and then theoretically analyze the distinctions between honest and forged training records. The analysis results not only induce a universal distinction criterion, but also provide detailed reasoning to demonstrate its effectiveness in defending against attacks covered by our model. Guided by the criterion, we propose a generic PoT construction that can be instantiated into concrete schemes. This construction sheds light on the realization that trajectory matching algorithms, previously employed in data distillation, possess significant advantages in PoT construction. Experimental results demonstrate that our scheme can resist attacks that have compromised existing PoT schemes, which corroborates its superiority in security.
翻訳日:2024-11-02 08:00:46 公開日:2024-10-10
# DNNモデルオーナシップ検証のための評価証明の理解と強化に向けて

Towards Understanding and Enhancing Security of Proof-of-Training for DNN Model Ownership Verification ( http://arxiv.org/abs/2410.04397v2 )

ライセンス: Link先を確認
Yijia Chang, Hanrui Jiang, Chao Lin, Xinyi Huang, Jian Weng, (参考訳) ディープニューラルネットワーク(DNN)の経済的価値は、AI企業に対して、これらのモデルに対する知的財産権(IP)を保護するように促している。 近年、AI企業がDNNトレーニングプロセスの記録をその所有権証明として利用できるDNNIP保護のための有望なソリューションとして、トレーニング証明(PoT)が提案されている。 攻撃者が所有権証明を偽造するのを防ぐため、セキュアなPoTスキームは攻撃者が偽造した訓練記録と区別できるべきである。 既存のPoTスキームは様々な区別基準を提供するが、これらの基準は直観や観察に基づいている。 これらの基準の有効性は明確で包括的な分析に欠けており、結果として既存のスキームは最初は単純なアイデアによって迅速に妥協されていると考えられていた。 本稿では,形式的手法のスタイルにおける識別基準の特定を初めて行い,その妥当性を明示する。 具体的には、幅広い攻撃をカバーするための体系的なモデリングを行い、その後、誠実な訓練記録と偽の訓練記録の区別を理論的に分析する。 この分析結果は, 普遍的な識別基準を導き出すだけでなく, モデルによってカバーされた攻撃に対する防御効果を示すための詳細な推論も提供する。 この基準に導かれ、具体的なスキームにインスタンス化できる汎用的なPoT構造を提案する。 この構造は、以前はデータ蒸留に用いられていた軌道整合アルゴリズムが、PoT構築において大きな利点を持つという認識に光を当てている。 実験結果から,既存のPoTスキームを侵害した攻撃に対して,セキュリティ上の優位性を損なうことが示唆された。

The great economic values of deep neural networks (DNNs) urge AI enterprises to protect their intellectual property (IP) for these models. Recently, proof-of-training (PoT) has been proposed as a promising solution to DNN IP protection, through which AI enterprises can utilize the record of DNN training process as their ownership proof. To prevent attackers from forging ownership proof, a secure PoT scheme should be able to distinguish honest training records from those forged by attackers. Although existing PoT schemes provide various distinction criteria, these criteria are based on intuitions or observations. The effectiveness of these criteria lacks clear and comprehensive analysis, resulting in existing schemes initially deemed secure being swiftly compromised by simple ideas. In this paper, we make the first move to identify distinction criteria in the style of formal methods, so that their effectiveness can be explicitly demonstrated. Specifically, we conduct systematic modeling to cover a wide range of attacks and then theoretically analyze the distinctions between honest and forged training records. The analysis results not only induce a universal distinction criterion, but also provide detailed reasoning to demonstrate its effectiveness in defending against attacks covered by our model. Guided by the criterion, we propose a generic PoT construction that can be instantiated into concrete schemes. This construction sheds light on the realization that trajectory matching algorithms, previously employed in data distillation, possess significant advantages in PoT construction. Experimental results demonstrate that our scheme can resist attacks that have compromised existing PoT schemes, which corroborates its superiority in security.
翻訳日:2024-11-02 08:00:46 公開日:2024-10-10
# アップサンプルかアップウェイトか? 重大不均衡データセットのバランストレーニング

Upsample or Upweight? Balanced Training on Heavily Imbalanced Datasets ( http://arxiv.org/abs/2410.04579v1 )

ライセンス: Link先を確認
Tianjian Li, Haoran Xu, Weiting Tan, Dongwei Jiang, Kenton Murray, Daniel Khashabi, (参考訳) ドメイン間のデータ可用性は、多くの場合、長い尾の分布に従う: 少数のドメインは豊富なデータを持ち、ほとんどのドメインはデータ不足に直面している。 この不均衡は、すべてのドメインで一様に言語モデルをトレーニングする際の課題を生じさせる。 本研究では,高次言語と低次言語でデータサイズが大きく異なる多言語設定に着目した。 これに対処する一般的な戦略としては、低リソース言語(温度サンプリング)のアップサンプリングや、損失のアップウェイト化(Scalarization)などがある。 しばしば同値であると思われるが、この仮定は証明されておらず、これは我々の研究の動機となっている。 理論的および経験的分析の両方を通して、これらのアプローチが等価であり、いつ発散するかを同定する。 具体的には、これらの2つの手法は完全な勾配降下の下で等価であることを示すが、この等価性は確率勾配降下とともに崩壊する。 経験的に、温度サンプリングはより早く収束するが、過度に適合する傾向があることを観察する。 この高速収束は、理論的に示されているように、勾配推定のばらつきが低いためと考えられる。 これらの知見に基づき、トレーニング中のサンプリング温度を低減し、低リソース言語に過度に適合することなく収束を加速する戦略であるCooldownを提案する。 我々の手法は既存のデータ再重み付けと競合し、計算効率を提供する。

Data availability across domains often follows a long-tail distribution: a few domains have abundant data, while most face data scarcity. This imbalance poses challenges in training language models uniformly across all domains. In our study, we focus on multilingual settings, where data sizes vary significantly between high- and low-resource languages. Common strategies to address this include upsampling low-resource languages (Temperature Sampling) or upweighting their loss (Scalarization). Although often considered equivalent, this assumption has not been proven, which motivates our study. Through both theoretical and empirical analysis, we identify the conditions under which these approaches are equivalent and when they diverge. Specifically, we demonstrate that these two methods are equivalent under full gradient descent, but this equivalence breaks down with stochastic gradient descent. Empirically, we observe that Temperature Sampling converges more quickly but is prone to overfitting. We argue that this faster convergence is likely due to the lower variance in gradient estimations, as shown theoretically. Based on these insights, we propose Cooldown, a strategy that reduces sampling temperature during training, accelerating convergence without overfitting to low-resource languages. Our method is competitive with existing data re-weighting and offers computational efficiency.
翻訳日:2024-11-02 06:36:17 公開日:2024-10-10
# アップサンプルかアップウェイトか? 重大不均衡データセットのバランストレーニング

Upsample or Upweight? Balanced Training on Heavily Imbalanced Datasets ( http://arxiv.org/abs/2410.04579v2 )

ライセンス: Link先を確認
Tianjian Li, Haoran Xu, Weiting Tan, Kenton Murray, Daniel Khashabi, (参考訳) ドメイン間のデータ可用性は、長いテールの分布に従うことが多い。 希少さ この不均衡は、すべてのドメインで一様に言語モデルをトレーニングする際の課題を生じさせる。 本研究では,高次言語と低次言語でデータサイズが大きく異なる多言語設定に着目した。 これに対処する一般的な戦略としては、低リソース言語(温度サンプリング)のアップサンプリングや、損失のアップウェイト化(Scalarization)などがある。 しばしば同値であると思われるが、この仮定は証明されておらず、これは我々の研究の動機となっている。 理論的および経験的分析の両方を通して、これらのアプローチが等価であり、いつ発散するかを同定する。 具体的には、これらの2つの手法は完全な勾配降下の下で等価であることを示すが、この等価性は確率勾配降下とともに崩壊する。 経験的に、温度サンプリングはより早く収束するが、過度に適合する傾向があることを観察する。 この高速収束は、理論的に示されているように、勾配推定のばらつきが低いためと考えられる。 これらの知見に基づき、トレーニング中のサンプリング温度を低減し、低リソース言語に過度に適合することなく収束を加速する戦略であるCooldownを提案する。 我々の手法は既存のデータ再重み付けと競合し、計算効率を提供する。

Data availability across domains often follows a long-tail distribution: a few domains have abundant data, while most face dat . a scarcity. This imbalance poses challenges in training language models uniformly across all domains. In our study, we focus on multilingual settings, where data sizes vary significantly between high- and low-resource languages. Common strategies to address this include upsampling low-resource languages (Temperature Sampling) or upweighting their loss (Scalarization). Although often considered equivalent, this assumption has not been proven, which motivates our study. Through both theoretical and empirical analysis, we identify the conditions under which these approaches are equivalent and when they diverge. Specifically, we demonstrate that these two methods are equivalent under full gradient descent, but this equivalence breaks down with stochastic gradient descent. Empirically, we observe that Temperature Sampling converges more quickly but is prone to overfitting. We argue that this faster convergence is likely due to the lower variance in gradient estimations, as shown theoretically. Based on these insights, we propose Cooldown, a strategy that reduces sampling temperature during training, accelerating convergence without overfitting to low-resource languages. Our method is competitive with existing data re-weighting and offers computational efficiency.
翻訳日:2024-11-02 06:36:17 公開日:2024-10-10
# Hammer: 関数マスキングによるオンデバイス言語モデルのためのロバスト関数計算

Hammer: Robust Function-Calling for On-Device Language Models via Function Masking ( http://arxiv.org/abs/2410.04587v1 )

ライセンス: Link先を確認
Qiqiang Lin, Muning Wen, Qiuying Peng, Guanyu Nie, Junwei Liao, Jun Wang, Xiaoyun Mo, Jiamu Zhou, Cheng Cheng, Yin Zhao, Jun Wang, Weinan Zhang, (参考訳) 大規模な言語モデルは、外部ツールやAPI呼び出しを備えた場合、自律的なエージェントとして実行する上で、驚くべき価値を誇示している。 それでも、複雑なタスクの実行において、その潜在能力を効果的に活用することは、関数呼び出し機能の拡張に依存している。 本稿では,既存の関数呼び出しモデルにおいて,特定の命名規則で誤解される場合が多いため,ベンチマーク毎に性能が著しく異なる重要なギャップを指摘した。 このような問題に対処するために、デバイス上での関数呼び出し用に特別に設計された基礎モデルの新しいファウンデーションモデルであるHammerを紹介します。 Hammerは、無関係な関数に対するモデルの感度を高める拡張データセットを採用し、誤認を最小限にするために関数マスキング技術を取り入れている。 我々の経験的評価は、ハマーがより大きなモデルを上回るだけでなく、様々なベンチマークにまたがる堅牢な一般化を証明し、ソータ結果を達成していることを示している。 我々のオープンソースコントリビューションには、無関係検出のための特別なデータセット、一般化のためのチューニングフレームワーク、Hammerモデルが含まれており、関数呼び出し性能の新たな標準を確立しています。

Large language models have demonstrated impressive value in performing as autonomous agents when equipped with external tools and API calls. Nonetheless, effectively harnessing their potential for executing complex tasks crucially relies on enhancements in their function calling capabilities. This paper identifies a critical gap in existing function calling models, where performance varies significantly across benchmarks, often due to being misled by specific naming conventions. To address such an issue, we introduce Hammer, a novel family of foundation models specifically engineered for on-device function calling. Hammer employs an augmented dataset that enhances models' sensitivity to irrelevant functions and incorporates function masking techniques to minimize misleading. Our empirical evaluations reveal that Hammer not only outperforms larger models but also demonstrates robust generalization across diverse benchmarks, achieving sota results. Our open source contributions include a specialized dataset for irrelevance detection, a tuning framework for enhanced generalization, and the Hammer models, establishing a new standard for function calling performance.
翻訳日:2024-11-02 06:36:17 公開日:2024-10-10
# Hammer: 関数マスキングによるオンデバイス言語モデルのためのロバスト関数計算

Hammer: Robust Function-Calling for On-Device Language Models via Function Masking ( http://arxiv.org/abs/2410.04587v2 )

ライセンス: Link先を確認
Qiqiang Lin, Muning Wen, Qiuying Peng, Guanyu Nie, Junwei Liao, Jun Wang, Xiaoyun Mo, Jiamu Zhou, Cheng Cheng, Yin Zhao, Jun Wang, Weinan Zhang, (参考訳) 大規模な言語モデルは、外部ツールやAPI呼び出しを備えた場合、自律的なエージェントとして実行する上で、驚くべき価値を誇示している。 それでも、複雑なタスクの実行において、その潜在能力を効果的に活用することは、関数呼び出し機能の拡張に依存している。 本稿では,既存の関数呼び出しモデルにおいて,特定の命名規則で誤解される場合が多いため,ベンチマーク毎に性能が著しく異なる重要なギャップを指摘した。 このような問題に対処するために、デバイス上での関数呼び出し用に特別に設計された基礎モデルの新しいファウンデーションモデルであるHammerを紹介します。 Hammerは、無関係な関数に対するモデルの感度を高める拡張データセットを採用し、誤認を最小限にするために関数マスキング技術を取り入れている。 我々の経験的評価は、ハマーがより大きなモデルを上回るだけでなく、様々なベンチマークにまたがる堅牢な一般化を証明し、ソータ結果を達成していることを示している。 我々のオープンソースコントリビューションには、無関係検出のための特別なデータセット、一般化のためのチューニングフレームワーク、Hammerモデルが含まれており、関数呼び出し性能の新たな標準を確立しています。

Large language models have demonstrated impressive value in performing as autonomous agents when equipped with external tools and API calls. Nonetheless, effectively harnessing their potential for executing complex tasks crucially relies on enhancements in their function calling capabilities. This paper identifies a critical gap in existing function calling models, where performance varies significantly across benchmarks, often due to being misled by specific naming conventions. To address such an issue, we introduce Hammer, a novel family of foundation models specifically engineered for on-device function calling. Hammer employs an augmented dataset that enhances models' sensitivity to irrelevant functions and incorporates function masking techniques to minimize misleading. Our empirical evaluations reveal that Hammer not only outperforms larger models but also demonstrates robust generalization across diverse benchmarks, achieving sota results. Our open source contributions include a specialized dataset for irrelevance detection, a tuning framework for enhanced generalization, and the Hammer models, establishing a new standard for function calling performance.
翻訳日:2024-11-02 06:36:17 公開日:2024-10-10
# DAPE V2:長さ外挿の特徴マップとしてのプロセス注意スコア

DAPE V2: Process Attention Score as Feature Map for Length Extrapolation ( http://arxiv.org/abs/2410.04798v1 )

ライセンス: Link先を確認
Chuanyang Zheng, Yihang Gao, Han Shi, Jing Xiong, Jiankai Sun, Jingyao Li, Minbin Huang, Xiaozhe Ren, Michael Ng, Xin Jiang, Zhenguo Li, Yu Li, (参考訳) 注意機構はトランスフォーマーモデルの基本的な構成要素であり、以前のフィードフォワードニューラルネットワークとは対照的に、異なるトークン間の相互作用に寄与する。 一般に、注目スコアは単にキークエリ製品によって決定される。 しかし、この作品の時折の試行(DAPEとNoPEを組み合わせた)では、位置エンコーディングなしでアテンションスコアにMLPを追加することで、古典的なキークエリ乗算がトランスフォーマーの性能を制限する可能性があることを示している。 本研究では,特徴写像としての注意を概念化し,コンピュータビジョンにおける処理手法を模倣するために,畳み込み演算子(異なる頭部にまたがる注意点)を適用した。 具体的には,有意なクエリとキードット積の限られた表現性の結果,トランスフォーマー長外挿問題を特定し,解釈し,その長さ外挿問題をよく理解された特徴写像処理問題に変換することに成功している。 様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。 集中的な実験により、注目を特徴マップとして扱い、コンボリューションを処理方法として適用することで、トランスフォーマーの性能が著しく向上することが示された。

The attention mechanism is a fundamental component of the Transformer model, contributing to interactions among distinct tokens, in contrast to earlier feed-forward neural networks. In general, the attention scores are determined simply by the key-query products. However, this work's occasional trial (combining DAPE and NoPE) of including additional MLPs on attention scores without position encoding indicates that the classical key-query multiplication may limit the performance of Transformers. In this work, we conceptualize attention as a feature map and apply the convolution operator (for neighboring attention scores across different heads) to mimic the processing methods in computer vision. Specifically, the main contribution of this paper is identifying and interpreting the Transformer length extrapolation problem as a result of the limited expressiveness of the naive query and key dot product, and we successfully translate the length extrapolation issue into a well-understood feature map processing problem. The novel insight, which can be adapted to various attention-related models, reveals that the current Transformer architecture has the potential for further evolution. Extensive experiments demonstrate that treating attention as a feature map and applying convolution as a processing method significantly enhances Transformer performance.
翻訳日:2024-11-02 01:58:00 公開日:2024-10-10
# DAPE V2:長さ外挿の特徴マップとしてのプロセス注意スコア

DAPE V2: Process Attention Score as Feature Map for Length Extrapolation ( http://arxiv.org/abs/2410.04798v2 )

ライセンス: Link先を確認
Chuanyang Zheng, Yihang Gao, Han Shi, Jing Xiong, Jiankai Sun, Jingyao Li, Minbin Huang, Xiaozhe Ren, Michael Ng, Xin Jiang, Zhenguo Li, Yu Li, (参考訳) 注意機構はトランスフォーマーモデルの基本的な構成要素であり、以前のフィードフォワードニューラルネットワークとは対照的に、異なるトークン間の相互作用に寄与する。 一般に、注目スコアは単にキークエリ製品によって決定される。 しかし、この作品の時折の試行(DAPEとNoPEを組み合わせた)では、位置エンコーディングなしでアテンションスコアにMLPを追加することで、古典的なキークエリ乗算がトランスフォーマーの性能を制限する可能性があることを示している。 本研究では,特徴写像としての注意を概念化し,コンピュータビジョンにおける処理手法を模倣するために,畳み込み演算子(異なる頭部にまたがる注意点)を適用した。 具体的には,有意なクエリとキードット積の限られた表現性の結果,トランスフォーマー長外挿問題を特定し,解釈し,その長さ外挿問題をよく理解された特徴写像処理問題に変換することに成功している。 様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。 集中的な実験により、注目を特徴マップとして扱い、コンボリューションを処理方法として適用することで、トランスフォーマーの性能が著しく向上することが示された。

The attention mechanism is a fundamental component of the Transformer model, contributing to interactions among distinct tokens, in contrast to earlier feed-forward neural networks. In general, the attention scores are determined simply by the key-query products. However, this work's occasional trial (combining DAPE and NoPE) of including additional MLPs on attention scores without position encoding indicates that the classical key-query multiplication may limit the performance of Transformers. In this work, we conceptualize attention as a feature map and apply the convolution operator (for neighboring attention scores across different heads) to mimic the processing methods in computer vision. Specifically, the main contribution of this paper is identifying and interpreting the Transformer length extrapolation problem as a result of the limited expressiveness of the naive query and key dot product, and we successfully translate the length extrapolation issue into a well-understood feature map processing problem. The novel insight, which can be adapted to various attention-related models, reveals that the current Transformer architecture has the potential for further evolution. Extensive experiments demonstrate that treating attention as a feature map and applying convolution as a processing method significantly enhances Transformer performance.
翻訳日:2024-11-02 01:58:00 公開日:2024-10-10
# DAPE V2:長さ外挿の特徴マップとしてのプロセス注意スコア

DAPE V2: Process Attention Score as Feature Map for Length Extrapolation ( http://arxiv.org/abs/2410.04798v3 )

ライセンス: Link先を確認
Chuanyang Zheng, Yihang Gao, Han Shi, Jing Xiong, Jiankai Sun, Jingyao Li, Minbin Huang, Xiaozhe Ren, Michael Ng, Xin Jiang, Zhenguo Li, Yu Li, (参考訳) 注意機構はトランスフォーマーモデルの基本的な構成要素であり、以前のフィードフォワードニューラルネットワークとは対照的に、異なるトークン間の相互作用に寄与する。 一般に、注目スコアは単にキークエリ製品によって決定される。 しかし、この作品の時折の試行(DAPEとNoPEを組み合わせた)では、位置エンコーディングなしでアテンションスコアにMLPを追加することで、古典的なキークエリ乗算がトランスフォーマーの性能を制限する可能性があることを示している。 本研究では,特徴写像としての注意を概念化し,コンピュータビジョンにおける処理手法を模倣するために,畳み込み演算子(異なる頭部にまたがる注意点)を適用した。 具体的には,有意なクエリとキードット積の限られた表現性の結果,トランスフォーマー長外挿問題を特定し,解釈し,その長さ外挿問題をよく理解された特徴写像処理問題に変換することに成功している。 様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。 集中的な実験により、注目を特徴マップとして扱い、コンボリューションを処理方法として適用することで、トランスフォーマーの性能が著しく向上することが示された。

The attention mechanism is a fundamental component of the Transformer model, contributing to interactions among distinct tokens, in contrast to earlier feed-forward neural networks. In general, the attention scores are determined simply by the key-query products. However, this work's occasional trial (combining DAPE and NoPE) of including additional MLPs on attention scores without position encoding indicates that the classical key-query multiplication may limit the performance of Transformers. In this work, we conceptualize attention as a feature map and apply the convolution operator (for neighboring attention scores across different heads) to mimic the processing methods in computer vision. Specifically, the main contribution of this paper is identifying and interpreting the Transformer length extrapolation problem as a result of the limited expressiveness of the naive query and key dot product, and we successfully translate the length extrapolation issue into a well-understood feature map processing problem. The novel insight, which can be adapted to various attention-related models, reveals that the current Transformer architecture has the potential for further evolution. Extensive experiments demonstrate that treating attention as a feature map and applying convolution as a processing method significantly enhances Transformer performance.
翻訳日:2024-11-02 01:58:00 公開日:2024-10-10
# 6DGS: ボリュームレンダリングのための拡張方向対応ガウススプレイティング

6DGS: Enhanced Direction-Aware Gaussian Splatting for Volumetric Rendering ( http://arxiv.org/abs/2410.04974v1 )

ライセンス: Link先を確認
Zhongpai Gao, Benjamin Planche, Meng Zheng, Anwesa Choudhuri, Terrence Chen, Ziyan Wu, (参考訳) ニューラルレイディアンス場(NeRF)と3Dガウススプラッティング(DGS)の開発により、新しいビュー合成が著しく進歩した。 しかし、特にビュー依存効果を持つ物理ベースのレイトレーシングでは、リアルタイムレンダリングを損なうことなく高品質を実現することは依然として困難である。 近ごろ、N次元ガウス(N-DG)はビュー依存効果をよりうまく組み込むために6次元空間角表現を導入したが、ガウス表現と制御スキームは準最適である。 本稿では,6次元ガウス空間における色および不透明度表現を改良し,さらに6次元ガウス空間の方向情報を利用して最適化したガウス制御を行う6Dガウス分割法を提案する。 我々のアプローチは3DGSフレームワークと完全に互換性があり、ビュー依存効果と細部をモデル化することでリアルタイムのレーダランスフィールドレンダリングを大幅に改善する。 6DGSは3DGSとN-DGを大きく上回り、PSNRで最大15.73dBの改善を達成し、ガウス点の66.5%を3DGSと比較した。

Novel view synthesis has advanced significantly with the development of neural radiance fields (NeRF) and 3D Gaussian splatting (3DGS). However, achieving high quality without compromising real-time rendering remains challenging, particularly for physically-based ray tracing with view-dependent effects. Recently, N-dimensional Gaussians (N-DG) introduced a 6D spatial-angular representation to better incorporate view-dependent effects, but the Gaussian representation and control scheme are sub-optimal. In this paper, we revisit 6D Gaussians and introduce 6D Gaussian Splatting (6DGS), which enhances color and opacity representations and leverages the additional directional information in the 6D space for optimized Gaussian control. Our approach is fully compatible with the 3DGS framework and significantly improves real-time radiance field rendering by better modeling view-dependent effects and fine details. Experiments demonstrate that 6DGS significantly outperforms 3DGS and N-DG, achieving up to a 15.73 dB improvement in PSNR with a reduction of 66.5% Gaussian points compared to 3DGS.
翻訳日:2024-11-02 00:57:50 公開日:2024-10-10
# 6DGS: ボリュームレンダリングのための拡張方向対応ガウススプレイティング

6DGS: Enhanced Direction-Aware Gaussian Splatting for Volumetric Rendering ( http://arxiv.org/abs/2410.04974v2 )

ライセンス: Link先を確認
Zhongpai Gao, Benjamin Planche, Meng Zheng, Anwesa Choudhuri, Terrence Chen, Ziyan Wu, (参考訳) ニューラルレイディアンス場(NeRF)と3Dガウススプラッティング(DGS)の開発により、新しいビュー合成が著しく進歩した。 しかし、特にビュー依存効果を持つ物理ベースのレイトレーシングでは、リアルタイムレンダリングを損なうことなく高品質を実現することは依然として困難である。 近ごろ、N次元ガウス(N-DG)はビュー依存効果をよりうまく組み込むために6次元空間角表現を導入したが、ガウス表現と制御スキームは準最適である。 本稿では,6次元ガウス空間における色および不透明度表現を改良し,さらに6次元ガウス空間の方向情報を利用して最適化したガウス制御を行う6Dガウス分割法を提案する。 我々のアプローチは3DGSフレームワークと完全に互換性があり、ビュー依存効果と細部をモデル化することでリアルタイムのレーダランスフィールドレンダリングを大幅に改善する。 6DGSは3DGSとN-DGを大きく上回り、PSNRで最大15.73dBの改善を達成し、ガウス点の66.5%を3DGSと比較した。 プロジェクトページは以下のとおりである。

Novel view synthesis has advanced significantly with the development of neural radiance fields (NeRF) and 3D Gaussian splatting (3DGS). However, achieving high quality without compromising real-time rendering remains challenging, particularly for physically-based ray tracing with view-dependent effects. Recently, N-dimensional Gaussians (N-DG) introduced a 6D spatial-angular representation to better incorporate view-dependent effects, but the Gaussian representation and control scheme are sub-optimal. In this paper, we revisit 6D Gaussians and introduce 6D Gaussian Splatting (6DGS), which enhances color and opacity representations and leverages the additional directional information in the 6D space for optimized Gaussian control. Our approach is fully compatible with the 3DGS framework and significantly improves real-time radiance field rendering by better modeling view-dependent effects and fine details. Experiments demonstrate that 6DGS significantly outperforms 3DGS and N-DG, achieving up to a 15.73 dB improvement in PSNR with a reduction of 66.5% Gaussian points compared to 3DGS. The project page is: https://gaozhongpai.github.io/6dgs/
翻訳日:2024-11-02 00:57:50 公開日:2024-10-10
# ビデオ生成の夜明け:SORAライクなモデルによる予備探査

The Dawn of Video Generation: Preliminary Explorations with SORA-like Models ( http://arxiv.org/abs/2410.05227v1 )

ライセンス: Link先を確認
Ailing Zeng, Yuhang Yang, Weidong Chen, Wei Liu, (参考訳) テキスト・トゥ・ビデオ(T2V)、画像・トゥ・ビデオ(I2V)、ビデオ・トゥ・ビデオ(V2V)生成を含む高品質なビデオ生成は、新しい方法でその本質的な創造性を表現し、世界をモデリングし理解するための世界シミュレーションの恩恵を受けるために、コンテンツ創造においてかなりの重要性を持っている。 SORAのようなモデルでは、高解像度、より自然な動き、より良い視覚言語アライメント、制御性の向上、特に長いビデオシーケンスでビデオを生成する。 これらの改善は、大規模データ拡張と洗練されたトレーニング戦略とともに、UNetからよりスケーラブルでパラメータリッチなDiTモデルに移行したモデルアーキテクチャの進化によって推進されている。 しかし、DiTベースのクローズドソースおよびオープンソースモデルの出現にもかかわらず、その機能と制限に関する包括的な調査は依然として不十分である。 さらに、急速な開発により、最近のベンチマークでは、SORAのようなモデルを完全にカバーし、それらの重要な進歩を認識することが困難になっている。 さらに、評価指標は人間の好みと一致しないことが多い。

High-quality video generation, encompassing text-to-video (T2V), image-to-video (I2V), and video-to-video (V2V) generation, holds considerable significance in content creation to benefit anyone express their inherent creativity in new ways and world simulation to modeling and understanding the world. Models like SORA have advanced generating videos with higher resolution, more natural motion, better vision-language alignment, and increased controllability, particularly for long video sequences. These improvements have been driven by the evolution of model architectures, shifting from UNet to more scalable and parameter-rich DiT models, along with large-scale data expansion and refined training strategies. However, despite the emergence of DiT-based closed-source and open-source models, a comprehensive investigation into their capabilities and limitations remains lacking. Furthermore, the rapid development has made it challenging for recent benchmarks to fully cover SORA-like models and recognize their significant advancements. Additionally, evaluation metrics often fail to align with human preferences.
翻訳日:2024-11-01 23:39:03 公開日:2024-10-10
# ビデオ生成の夜明け:SORAライクなモデルによる予備探査

The Dawn of Video Generation: Preliminary Explorations with SORA-like Models ( http://arxiv.org/abs/2410.05227v2 )

ライセンス: Link先を確認
Ailing Zeng, Yuhang Yang, Weidong Chen, Wei Liu, (参考訳) テキスト・トゥ・ビデオ(T2V)、画像・トゥ・ビデオ(I2V)、ビデオ・トゥ・ビデオ(V2V)生成を含む高品質なビデオ生成は、新しい方法でその本質的な創造性を表現し、世界をモデリングし理解するための世界シミュレーションの恩恵を受けるために、コンテンツ創造においてかなりの重要性を持っている。 SORAのようなモデルでは、高解像度、より自然な動き、より良い視覚言語アライメント、制御性の向上、特に長いビデオシーケンスでビデオを生成する。 これらの改善は、大規模データ拡張と洗練されたトレーニング戦略とともに、UNetからよりスケーラブルでパラメータリッチなDiTモデルに移行したモデルアーキテクチャの進化によって推進されている。 しかし、DiTベースのクローズドソースおよびオープンソースモデルの出現にもかかわらず、その機能と制限に関する包括的な調査は依然として不十分である。 さらに、急速な開発により、最近のベンチマークでは、SORAのようなモデルを完全にカバーし、それらの重要な進歩を認識することが困難になっている。 さらに、評価指標は人間の好みと一致しないことが多い。

High-quality video generation, encompassing text-to-video (T2V), image-to-video (I2V), and video-to-video (V2V) generation, holds considerable significance in content creation to benefit anyone express their inherent creativity in new ways and world simulation to modeling and understanding the world. Models like SORA have advanced generating videos with higher resolution, more natural motion, better vision-language alignment, and increased controllability, particularly for long video sequences. These improvements have been driven by the evolution of model architectures, shifting from UNet to more scalable and parameter-rich DiT models, along with large-scale data expansion and refined training strategies. However, despite the emergence of DiT-based closed-source and open-source models, a comprehensive investigation into their capabilities and limitations remains lacking. Furthermore, the rapid development has made it challenging for recent benchmarks to fully cover SORA-like models and recognize their significant advancements. Additionally, evaluation metrics often fail to align with human preferences.
翻訳日:2024-11-01 20:07:08 公開日:2024-10-10
# 実験設計における適応性の力

The Power of Adaptivity in Experimental Design ( http://arxiv.org/abs/2410.05552v1 )

ライセンス: Link先を確認
Jiachun Li, David Simchi-Levi, Yunxiao Zhao, (参考訳) 本論文は,n種類の多種性共変体と2種類の治療,すなわち能動的治療と制御を併用した実験において,治療効果を推定する際の最適な精度を決定するための根本的な問題に対処するものである。 さらに、この最適精度にアプローチし、この基本的かつ未解決な疑問に対して(漸近的でない)答えを与える実験設計を提案する。 方法論的貢献は以下のとおりである。 まず、ベンチマークとして最小分散の理想的な最適推定器を確立し、次に、近似実験がほぼ最適推定精度を達成するために必要であることを示す。 第2に、二重頑健な手法の概念を逐次実験設計に組み込むことで、最適推定問題をオンライン帯域幅学習問題として枠組み化し、統計的推定と帯域幅学習の2つの分野をブリッジする。 本稿では,帯域幅アルゴリズム設計と適応統計的推定の両方のツールとアイデアを用いて,多種多様な適応実験設計のための汎用的な研究パラダイムである,汎用的な低スイッチ適応実験フレームワークを提案する。 ベイズリスク分析と組み合わされた情報理論的下界を通じて,提案実験の最適性を示す。 数値計算の結果,推定精度は2~3つのポリシー更新で最適であることが示唆された。

Given n experiment subjects with potentially heterogeneous covariates and two possible treatments, namely active treatment and control, this paper addresses the fundamental question of determining the optimal accuracy in estimating the treatment effect. Furthermore, we propose an experimental design that approaches this optimal accuracy, giving a (non-asymptotic) answer to this fundamental yet still open question. The methodological contribution is listed as following. First, we establish an idealized optimal estimator with minimal variance as benchmark, and then demonstrate that adaptive experiment is necessary to achieve near-optimal estimation accuracy. Secondly, by incorporating the concept of doubly robust method into sequential experimental design, we frame the optimal estimation problem as an online bandit learning problem, bridging the two fields of statistical estimation and bandit learning. Using tools and ideas from both bandit algorithm design and adaptive statistical estimation, we propose a general low switching adaptive experiment framework, which could be a generic research paradigm for a wide range of adaptive experimental design. Through information-theoretic lower bound combined with Bayes risk analysis, we demonstrate the optimality of our proposed experiment. Numerical result indicates that the estimation accuracy approaches optimal with as few as two or three policy updates.
翻訳日:2024-11-01 18:08:20 公開日:2024-10-10
# 実験設計における適応性の力

The Power of Adaptivity in Experimental Design ( http://arxiv.org/abs/2410.05552v2 )

ライセンス: Link先を確認
Jiachun Li, David Simchi-Levi, Yunxiao Zhao, (参考訳) 本論文は,n種類の多種性共変体と2種類の治療,すなわち能動的治療と制御を併用した実験において,治療効果を推定する際の最適な精度を決定するための根本的な問題に対処するものである。 さらに、この最適精度にアプローチし、この基本的かつ未解決な疑問に対して(漸近的でない)答えを与える実験設計を提案する。 方法論的貢献は以下のとおりである。 まず、ベンチマークとして最小分散の理想的な最適推定器を確立し、次に、近似実験がほぼ最適推定精度を達成するために必要であることを示す。 第2に、二重頑健な手法の概念を逐次実験設計に組み込むことで、最適推定問題をオンライン帯域幅学習問題として枠組み化し、統計的推定と帯域幅学習の2つの分野をブリッジする。 本稿では,帯域幅アルゴリズム設計と適応統計的推定の両方のツールとアイデアを用いて,多種多様な適応実験設計のための汎用的な研究パラダイムである,汎用的な低スイッチ適応実験フレームワークを提案する。 ベイズリスク分析と組み合わされた情報理論的下界を通じて,提案実験の最適性を示す。 数値計算の結果,推定精度は2~3つのポリシー更新で最適であることが示唆された。

Given n experiment subjects with potentially heterogeneous covariates and two possible treatments, namely active treatment and control, this paper addresses the fundamental question of determining the optimal accuracy in estimating the treatment effect. Furthermore, we propose an experimental design that approaches this optimal accuracy, giving a (non-asymptotic) answer to this fundamental yet still open question. The methodological contribution is listed as following. First, we establish an idealized optimal estimator with minimal variance as benchmark, and then demonstrate that adaptive experiment is necessary to achieve near-optimal estimation accuracy. Secondly, by incorporating the concept of doubly robust method into sequential experimental design, we frame the optimal estimation problem as an online bandit learning problem, bridging the two fields of statistical estimation and bandit learning. Using tools and ideas from both bandit algorithm design and adaptive statistical estimation, we propose a general low switching adaptive experiment framework, which could be a generic research paradigm for a wide range of adaptive experimental design. Through information-theoretic lower bound combined with Bayes risk analysis, we demonstrate the optimality of our proposed experiment. Numerical result indicates that the estimation accuracy approaches optimal with as few as two or three policy updates.
翻訳日:2024-11-01 17:58:21 公開日:2024-10-10
# ClaimBrush: 大規模言語モデルに基づく特許クレーム自動リファインメントのための新しいフレームワーク

ClaimBrush: A Novel Framework for Automated Patent Claim Refinement Based on Large Language Models ( http://arxiv.org/abs/2410.05575v1 )

ライセンス: Link先を確認
Seiya Kawano, Hirofumi Nonaka, Koichiro Yoshino, (参考訳) 特許出願における特許請求の自動改質は知的財産戦略の観点から極めて重要である。 本稿では,データセットと書き換えモデルを含む特許請求自動改定のための新しいフレームワークであるClimBrushを提案する。 我々は,特許審査プロセスから特許請求書書き換え事例を多数集めて,特許請求書書き換えモデルの訓練と評価のためのデータセットを構築した。 構築したデータセットを用いて,大規模言語モデルを微調整して特許請求書書き換えモデルを構築した。 さらに,特許審査員の事務所行動予測モデルに基づく優先最適化を適用することにより,自動特許請求書書き換えモデルの性能を向上させる。 実験の結果,提案した書き換えモデルは,最先端の大規模言語モデルにおけるヒューリスティックベースラインとゼロショット学習よりも優れていた。 さらに,特許審査官の選好に基づく選好最適化により,特許クレームの改質性能が向上した。

Automatic refinement of patent claims in patent applications is crucial from the perspective of intellectual property strategy. In this paper, we propose ClaimBrush, a novel framework for automated patent claim refinement that includes a dataset and a rewriting model. We constructed a dataset for training and evaluating patent claim rewriting models by collecting a large number of actual patent claim rewriting cases from the patent examination process. Using the constructed dataset, we built an automatic patent claim rewriting model by fine-tuning a large language model. Furthermore, we enhanced the performance of the automatic patent claim rewriting model by applying preference optimization based on a prediction model of patent examiners' Office Actions. The experimental results showed that our proposed rewriting model outperformed heuristic baselines and zero-shot learning in state-of-the-art large language models. Moreover, preference optimization based on patent examiners' preferences boosted the performance of patent claim refinement.
翻訳日:2024-11-01 17:58:21 公開日:2024-10-10
# ClaimBrush: 大規模言語モデルに基づく特許クレーム自動リファインメントのための新しいフレームワーク

ClaimBrush: A Novel Framework for Automated Patent Claim Refinement Based on Large Language Models ( http://arxiv.org/abs/2410.05575v2 )

ライセンス: Link先を確認
Seiya Kawano, Hirofumi Nonaka, Koichiro Yoshino, (参考訳) 特許出願における特許請求の自動改質は知的財産戦略の観点から極めて重要である。 本稿では,データセットと書き換えモデルを含む特許請求自動改定のための新しいフレームワークであるClimBrushを提案する。 我々は,特許審査プロセスから特許請求書書き換え事例を多数集めて,特許請求書書き換えモデルの訓練と評価のためのデータセットを構築した。 構築したデータセットを用いて,大規模言語モデルを微調整して特許請求書書き換えモデルを構築した。 さらに,特許審査員の事務所行動予測モデルに基づく優先最適化を適用することにより,自動特許請求書書き換えモデルの性能を向上させる。 実験の結果,提案した書き換えモデルは,最先端の大規模言語モデルにおけるヒューリスティックベースラインとゼロショット学習よりも優れていた。 さらに,特許審査官の選好に基づく選好最適化により,特許クレームの改質性能が向上した。

Automatic refinement of patent claims in patent applications is crucial from the perspective of intellectual property strategy. In this paper, we propose ClaimBrush, a novel framework for automated patent claim refinement that includes a dataset and a rewriting model. We constructed a dataset for training and evaluating patent claim rewriting models by collecting a large number of actual patent claim rewriting cases from the patent examination process. Using the constructed dataset, we built an automatic patent claim rewriting model by fine-tuning a large language model. Furthermore, we enhanced the performance of the automatic patent claim rewriting model by applying preference optimization based on a prediction model of patent examiners' Office Actions. The experimental results showed that our proposed rewriting model outperformed heuristic baselines and zero-shot learning in state-of-the-art large language models. Moreover, preference optimization based on patent examiners' preferences boosted the performance of patent claim refinement.
翻訳日:2024-11-01 17:58:21 公開日:2024-10-10
# 有能なコードはどの程度維持可能か? : 3つのPyPIライブラリを事例として

How Maintainable is Proficient Code? A Case Study of Three PyPI Libraries ( http://arxiv.org/abs/2410.05683v1 )

ライセンス: Link先を確認
Indira Febriyanti, Youmei Fan, Kazumasa Shimari, Kenichi Matsumoto, Raula Gaikovina Kula, (参考訳) Pythonは非常に人気があるのは、開発者やデータサイエンティスト、機械学習の専門家など、広く使用することができるからだ。 他のプログラミング言語と同様に、Pythonコードの記述には先進的なレベルがある。 しかし、他のソフトウェアと同様に、コードは常にバグとして維持され、新しい機能の必要性が生まれます。 Python の Zen では "Simple is better than complex" としている。 しかし、よりエレガントで熟練したコードは、開発者がメンテナンスするのが難しいかもしれないという仮説を立てています。 コード保守性とコード習熟度の関係を明らかにするため,3つのPythonライブラリ上でのPythonコードの複雑さに関する探索的研究を行った。 具体的には,ファイル内の有能なコードのリスクレベルについて検討する。 出発点として,3つのPyPIライブラリから3,003ファイルのコードをマイニング,収集した。 また, 単純なリスト理解, 列挙型呼び出し, ジェネレータ表現, 単純な辞書理解, スーパー関数など, 高いリスクが伴う高能率コードのいくつかの例を同定した。 初期の例では、ほとんどのコード習熟開発は保守性の低いリスクを示していましたが、熟練したコードもメンテナンスにリスクがあるケースもあります。 この研究は、開発者が有能なコードを使用することが将来のコードメンテナンス活動に有害なシナリオを特定するのに役立つと期待している。

Python is very popular because it can be used for a wider audience of developers, data scientists, machine learning experts and so on. Like other programming languages, there are beginner to advanced levels of writing Python code. However, like all software, code constantly needs to be maintained as bugs and the need for new features emerge. Although the Zen of Python states that "Simple is better than complex." However, we hypothesize that more elegant and proficient code might be harder for the developer to maintain. To study this relationship between the understanding of code maintainability and code proficiency, we present an exploratory study into the complexity of Python code on three Python libraries. Specifically, we investigate the risk level of proficient code inside a file. As a starting point, we mined and collected the proficiency of code from three PyPI libraries totaling 3,003 files. We identified several instances of high proficient code that was also high risk, with examples being simple list comprehensions, 'enumerate' calls, generator expressions, simple dictionary comprehensions, and the 'super' function. Our early examples revealed that most code-proficient development presented a low maintainability risk, yet there are some cases where proficient code is also risky to maintenance. We envision that the study should help developers identify scenarios where and when using proficient code might be detrimental to future code maintenance activities.
翻訳日:2024-11-01 17:09:37 公開日:2024-10-10
# 有能なコードはどの程度維持可能か? : 3つのPyPIライブラリを事例として

How Maintainable is Proficient Code? A Case Study of Three PyPI Libraries ( http://arxiv.org/abs/2410.05683v2 )

ライセンス: Link先を確認
Indira Febriyanti, Youmei Fan, Kazumasa Shimari, Kenichi Matsumoto, Raula Gaikovina Kula, (参考訳) Pythonは非常に人気があるのは、開発者やデータサイエンティスト、機械学習の専門家など、広く使用することができるからだ。 他のプログラミング言語と同様に、Pythonコードの記述には先進的なレベルがある。 しかし、他のソフトウェアと同様に、コードは常にバグとして維持され、新しい機能の必要性が生まれます。 PythonのZen氏は"Simpleは複雑よりも優れている"と述べているが、よりエレガントで熟練したコードは、開発者がメンテナンスするのが難しいかもしれないと仮定している。 コード保守性とコード習熟度の関係を明らかにするため,3つのPythonライブラリ上でのPythonコードの複雑さに関する探索的研究を行った。 具体的には,ファイル内の有能なコードのリスクレベルについて検討する。 出発点として,3つのPyPIライブラリから3,003ファイルのコードをマイニング,収集した。 また, 単純なリスト理解, 列挙型呼び出し, ジェネレータ表現, 単純な辞書理解, スーパー関数など, 高いリスクが伴う高能率コードのいくつかの例を同定した。 初期の例では、ほとんどのコード習熟開発は保守性の低いリスクを示していましたが、熟練したコードもメンテナンスにリスクがあるケースもあります。 この研究は、開発者が有能なコードを使用することが将来のコードメンテナンス活動に有害なシナリオを特定するのに役立つと期待している。

Python is very popular because it can be used for a wider audience of developers, data scientists, machine learning experts and so on. Like other programming languages, there are beginner to advanced levels of writing Python code. However, like all software, code constantly needs to be maintained as bugs and the need for new features emerge. Although the Zen of Python states that "Simple is better than complex," we hypothesize that more elegant and proficient code might be harder for the developer to maintain. To study this relationship between the understanding of code maintainability and code proficiency, we present an exploratory study into the complexity of Python code on three Python libraries. Specifically, we investigate the risk level of proficient code inside a file. As a starting point, we mined and collected the proficiency of code from three PyPI libraries totaling 3,003 files. We identified several instances of high proficient code that was also high risk, with examples being simple list comprehensions, 'enumerate' calls, generator expressions, simple dictionary comprehensions, and the 'super' function. Our early examples revealed that most code-proficient development presented a low maintainability risk, yet there are some cases where proficient code is also risky to maintenance. We envision that the study should help developers identify scenarios where and when using proficient code might be detrimental to future code maintenance activities.
翻訳日:2024-11-01 17:09:37 公開日:2024-10-10
# LLMを用いた臨床シナリオにおける自閉症のコパイロット診断

Copiloting Diagnosis of Autism in Real Clinical Scenarios via LLMs ( http://arxiv.org/abs/2410.05684v1 )

ライセンス: Link先を確認
Yi Jiang, Qingyang Shen, Shuzhong Lai, Shunyu Qi, Qian Zheng, Lin Yao, Yueming Wang, Gang Pan, (参考訳) 自閉症スペクトラム障害(Autism spectrum disorder、ASD)は、個人の日常生活機能や社会的関与に大きな影響を及ぼす広汎な発達障害である。 ASDの臨床診断を支援する研究が豊富にあるにもかかわらず、大規模言語モデル(LLMs)に基づく手法の分野、特に自閉症診断観察スケジュール(ADOS-2)に基づく現実的な臨床診断シナリオに関して、体系的かつ包括的な調査はいまだにない。 そこで我々は,ADOS-Copilotというフレームワークを提案し,評価と説明のバランスを保ち,LLMの性能に影響を及ぼす要因について検討した。 実験の結果,本フレームワークは臨床医の診断結果と競合し,最小値0.4643,二分法F1スコア81.79\%,三分法F1スコア78.37\%であった。 ADOS-2, LLMの能力, 言語, モデルスケールの観点から, この課題における現在のLSMの強みと限界を体系的に解明し, メンタルヘルス障害の幅広い分野におけるLSMの今後の応用を刺激し指導することを目的とした。 我々は、もっと多くの研究を実際の臨床実践に移行し、偏見のある子供たちに優しさの窓を開けることを望んでいる。

Autism spectrum disorder(ASD) is a pervasive developmental disorder that significantly impacts the daily functioning and social participation of individuals. Despite the abundance of research focused on supporting the clinical diagnosis of ASD, there is still a lack of systematic and comprehensive exploration in the field of methods based on Large Language Models (LLMs), particularly regarding the real-world clinical diagnostic scenarios based on Autism Diagnostic Observation Schedule, Second Edition (ADOS-2). Therefore, we have proposed a framework called ADOS-Copilot, which strikes a balance between scoring and explanation and explored the factors that influence the performance of LLMs in this task. The experimental results indicate that our proposed framework is competitive with the diagnostic results of clinicians, with a minimum MAE of 0.4643, binary classification F1-score of 81.79\%, and ternary classification F1-score of 78.37\%. Furthermore, we have systematically elucidated the strengths and limitations of current LLMs in this task from the perspectives of ADOS-2, LLMs' capabilities, language, and model scale aiming to inspire and guide the future application of LLMs in a broader fields of mental health disorders. We hope for more research to be transferred into real clinical practice, opening a window of kindness to the world for eccentric children.
翻訳日:2024-11-01 16:59:10 公開日:2024-10-10
# LLMを用いた臨床シナリオにおける自閉症のコパイロット診断

Copiloting Diagnosis of Autism in Real Clinical Scenarios via LLMs ( http://arxiv.org/abs/2410.05684v2 )

ライセンス: Link先を確認
Yi Jiang, Qingyang Shen, Shuzhong Lai, Shunyu Qi, Qian Zheng, Lin Yao, Yueming Wang, Gang Pan, (参考訳) 自閉症スペクトラム障害(Autism spectrum disorder、ASD)は、個人の日常生活機能や社会的関与に大きな影響を及ぼす広汎な発達障害である。 ASDの臨床診断を支援する研究が豊富にあるにもかかわらず、大規模言語モデル(LLMs)に基づく手法の分野、特に自閉症診断観察スケジュール(ADOS-2)に基づく現実的な臨床診断シナリオに関して、体系的かつ包括的な調査はいまだにない。 そこで我々は,ADOS-Copilotというフレームワークを提案し,評価と説明のバランスを保ち,LLMの性能に影響を及ぼす要因について検討した。 実験の結果,本フレームワークは臨床医の診断結果と競合し,最小値0.4643,二分法F1スコア81.79\%,三分法F1スコア78.37\%であった。 ADOS-2, LLMの能力, 言語, モデルスケールの観点から, この課題における現在のLSMの強みと限界を体系的に解明し, メンタルヘルス障害の幅広い分野におけるLSMの今後の応用を刺激し指導することを目的とした。 我々は、もっと多くの研究を実際の臨床実践に移行し、偏見のある子供たちに優しさの窓を開けることを望んでいる。

Autism spectrum disorder(ASD) is a pervasive developmental disorder that significantly impacts the daily functioning and social participation of individuals. Despite the abundance of research focused on supporting the clinical diagnosis of ASD, there is still a lack of systematic and comprehensive exploration in the field of methods based on Large Language Models (LLMs), particularly regarding the real-world clinical diagnostic scenarios based on Autism Diagnostic Observation Schedule, Second Edition (ADOS-2). Therefore, we have proposed a framework called ADOS-Copilot, which strikes a balance between scoring and explanation and explored the factors that influence the performance of LLMs in this task. The experimental results indicate that our proposed framework is competitive with the diagnostic results of clinicians, with a minimum MAE of 0.4643, binary classification F1-score of 81.79\%, and ternary classification F1-score of 78.37\%. Furthermore, we have systematically elucidated the strengths and limitations of current LLMs in this task from the perspectives of ADOS-2, LLMs' capabilities, language, and model scale aiming to inspire and guide the future application of LLMs in a broader fields of mental health disorders. We hope for more research to be transferred into real clinical practice, opening a window of kindness to the world for eccentric children.
翻訳日:2024-11-01 16:59:10 公開日:2024-10-10
# KnowledgeSG: サーバからの知識蒸留によるプライバシ保護型合成テキスト生成

KnowledgeSG: Privacy-Preserving Synthetic Text Generation with Knowledge Distillation from Server ( http://arxiv.org/abs/2410.05725v1 )

ライセンス: Link先を確認
Wenhao Wang, Xiaoyu Liang, Rui Ye, Jingyi Chai, Siheng Chen, Yanfeng Wang, (参考訳) 大規模言語モデル(LLM)の成功は、多くの当事者が自身のプライベートデータに基づいてLLMを微調整することを促進する。 しかし、この慣行はLLMの記憶のためにプライバシー上の懸念を提起する。 置換のために合成データを利用するような既存のソリューションは、同時にパフォーマンスを改善し、プライバシを保存するのに苦労している。 それらは生成のためにローカルモデルに依存しており、パフォーマンスが低下する結果になるか、APIを利用してデータをAPIサーバに直接公開する。 この問題に対処するために、合成データの品質を高め、プライバシを確保しつつモデル性能を向上させる新しいクライアントサーバフレームワークである \textit{KnowledgeSG} を提案する。 本研究では,DP(差分プライバシ)を用いてプライベートデータからローカル知識を学習し,サーバから専門知識を抽出することによってこれを実現している。 さらに、フェデレーション学習にインスパイアされた私たちは、プライバシの漏洩を防ぐために、クライアントとサーバ間でデータではなくモデルを送信します。 医療・金融分野における大規模な実験は、ナレッジSGの有効性を実証している。 私たちのコードはhttps://github.com/wwh0411/KnowledgeSG.comで公開されています。

The success of large language models (LLMs) facilitate many parties to fine-tune LLMs on their own private data. However, this practice raises privacy concerns due to the memorization of LLMs. Existing solutions, such as utilizing synthetic data for substitution, struggle to simultaneously improve performance and preserve privacy. They either rely on a local model for generation, resulting in a performance decline, or take advantage of APIs, directly exposing the data to API servers. To address this issue, we propose \textit{KnowledgeSG}, a novel client-server framework which enhances synthetic data quality and improves model performance while ensuring privacy. We achieve this by learning local knowledge from the private data with differential privacy (DP) and distilling professional knowledge from the server. Additionally, inspired by federated learning, we transmit models rather than data between the client and server to prevent privacy leakage. Extensive experiments in medical and financial domains demonstrate the effectiveness of KnowledgeSG. Our code is now publicly available at https://github.com/wwh0411/KnowledgeSG.
翻訳日:2024-11-01 13:19:50 公開日:2024-10-10
# KnowledgeSG: サーバからの知識蒸留によるプライバシ保護型合成テキスト生成

KnowledgeSG: Privacy-Preserving Synthetic Text Generation with Knowledge Distillation from Server ( http://arxiv.org/abs/2410.05725v2 )

ライセンス: Link先を確認
Wenhao Wang, Xiaoyu Liang, Rui Ye, Jingyi Chai, Siheng Chen, Yanfeng Wang, (参考訳) 大規模言語モデル(LLM)の成功は、多くの当事者が自身のプライベートデータに基づいてLLMを微調整することを促進する。 しかし、この慣行はLLMの記憶のためにプライバシー上の懸念を提起する。 置換のために合成データを利用するような既存のソリューションは、同時にパフォーマンスを改善し、プライバシを保存するのに苦労している。 それらは生成のためにローカルモデルに依存しており、パフォーマンスが低下する結果になるか、APIを利用してデータをAPIサーバに直接公開する。 この問題に対処するため、我々は、合成データ品質を高め、プライバシを確保しつつモデル性能を向上させる新しいクライアントサーバフレームワークであるKnowledgeSGを提案する。 本研究では,DP(差分プライバシ)を用いてプライベートデータからローカル知識を学習し,サーバから専門知識を抽出することによってこれを実現している。 さらに、フェデレーション学習にインスパイアされた私たちは、プライバシの漏洩を防ぐために、クライアントとサーバ間でデータではなくモデルを送信します。 医療・金融分野における大規模な実験は、ナレッジSGの有効性を実証している。 私たちのコードはhttps://github.com/wwh0411/KnowledgeSG.comで公開されています。

The success of large language models (LLMs) facilitate many parties to fine-tune LLMs on their own private data. However, this practice raises privacy concerns due to the memorization of LLMs. Existing solutions, such as utilizing synthetic data for substitution, struggle to simultaneously improve performance and preserve privacy. They either rely on a local model for generation, resulting in a performance decline, or take advantage of APIs, directly exposing the data to API servers. To address this issue, we propose KnowledgeSG, a novel client-server framework which enhances synthetic data quality and improves model performance while ensuring privacy. We achieve this by learning local knowledge from the private data with differential privacy (DP) and distilling professional knowledge from the server. Additionally, inspired by federated learning, we transmit models rather than data between the client and server to prevent privacy leakage. Extensive experiments in medical and financial domains demonstrate the effectiveness of KnowledgeSG. Our code is now publicly available at https://github.com/wwh0411/KnowledgeSG.
翻訳日:2024-11-01 13:19:50 公開日:2024-10-10
# 差分的私的スケッチに基づく私的・コミュニケーション効率の高いフェデレーションラーニング

Private and Communication-Efficient Federated Learning based on Differentially Private Sketches ( http://arxiv.org/abs/2410.05733v1 )

ライセンス: Link先を確認
Meifan Zhang, Zhanhong Xie, Lihua Yin, (参考訳) フェデレートラーニング(FL)は、パラメータ共有によるプライバシー漏洩のリスクとコミュニケーションの非効率の2つの主な課題に直面している。 これらの課題に対処するために,差分プライベートスケッチを利用したフェデレーション学習手法であるDPSFLを提案する。 DPSFLは、カウントスケッチを使用して各クライアントの局所勾配を圧縮し、それによって通信効率を向上させるとともに、スケッチにノイズを加えて差分プライバシー(DP)を確保する。 提案手法のプライバシーと収束に関する理論的解析を行う。 DP学習において、感度を抑え、ノイズの付加を制限するためにグラディエント・クリッピングが不可欠である。 しかし、クリッピングは勾配に偏りをもたらし、FL性能に悪影響を及ぼす。 クリッピングの影響を軽減するため,適応型クリッピング戦略を用いた拡張手法DPSFL-ACを提案する。 従来の手法と比較して,プライバシ保護,通信効率,モデル精度に関する手法が優れていることを示す。

Federated learning (FL) faces two primary challenges: the risk of privacy leakage due to parameter sharing and communication inefficiencies. To address these challenges, we propose DPSFL, a federated learning method that utilizes differentially private sketches. DPSFL compresses the local gradients of each client using a count sketch, thereby improving communication efficiency, while adding noise to the sketches to ensure differential privacy (DP). We provide a theoretical analysis of privacy and convergence for the proposed method. Gradient clipping is essential in DP learning to limit sensitivity and constrain the addition of noise. However, clipping introduces bias into the gradients, negatively impacting FL performance. To mitigate the impact of clipping, we propose an enhanced method, DPSFL-AC, which employs an adaptive clipping strategy. Experimental comparisons with existing techniques demonstrate the superiority of our methods concerning privacy preservation, communication efficiency, and model accuracy.
翻訳日:2024-11-01 13:19:50 公開日:2024-10-10
# 差分的私的スケッチに基づく私的・コミュニケーション効率の高いフェデレーションラーニング

Private and Communication-Efficient Federated Learning based on Differentially Private Sketches ( http://arxiv.org/abs/2410.05733v2 )

ライセンス: Link先を確認
Meifan Zhang, Zhanhong Xie, Lihua Yin, (参考訳) フェデレートラーニング(FL)は、パラメータ共有によるプライバシー漏洩のリスクとコミュニケーションの非効率の2つの主な課題に直面している。 これらの課題に対処するために,差分プライベートスケッチを利用したフェデレーション学習手法であるDPSFLを提案する。 DPSFLは、カウントスケッチを使用して各クライアントの局所勾配を圧縮し、それによって通信効率を向上させるとともに、スケッチにノイズを加えて差分プライバシー(DP)を確保する。 提案手法のプライバシーと収束に関する理論的解析を行う。 DP学習において、感度を抑え、ノイズの付加を制限するためにグラディエント・クリッピングが不可欠である。 しかし、クリッピングは勾配に偏りをもたらし、FL性能に悪影響を及ぼす。 クリッピングの影響を軽減するため,適応型クリッピング戦略を用いた拡張手法DPSFL-ACを提案する。 従来の手法と比較して,プライバシ保護,通信効率,モデル精度に関する手法が優れていることを示す。

Federated learning (FL) faces two primary challenges: the risk of privacy leakage due to parameter sharing and communication inefficiencies. To address these challenges, we propose DPSFL, a federated learning method that utilizes differentially private sketches. DPSFL compresses the local gradients of each client using a count sketch, thereby improving communication efficiency, while adding noise to the sketches to ensure differential privacy (DP). We provide a theoretical analysis of privacy and convergence for the proposed method. Gradient clipping is essential in DP learning to limit sensitivity and constrain the addition of noise. However, clipping introduces bias into the gradients, negatively impacting FL performance. To mitigate the impact of clipping, we propose an enhanced method, DPSFL-AC, which employs an adaptive clipping strategy. Experimental comparisons with existing techniques demonstrate the superiority of our methods concerning privacy preservation, communication efficiency, and model accuracy.
翻訳日:2024-11-01 13:19:50 公開日:2024-10-10
# トークンから言葉へ:LLMの内部語彙について

From Tokens to Words: on the inner lexicon of LLMs ( http://arxiv.org/abs/2410.05864v1 )

ライセンス: Link先を確認
Guy Kaplan, Matanel Oren, Yuval Reif, Roy Schwartz, (参考訳) 自然言語は単語から成り立っているが、現代のLLMはサブワードを入力として処理する。 この矛盾によって引き起こされる自然な疑問は、LLMが単語を内部的にエンコードするかどうか、そしてその方法である。 本稿では,LLMが単語列をコヒーレントな単語表現に結合する固有デトケン化過程に関与することを示す。 実験の結果、このプロセスはモデルの初期層と中期層で主に行われます。 また、入力ベクトルとしてモデルにそのような単語の内的表現を与えるとき、訓練中にその単語を見たことがなくとも「理解」することができる。 以上の結果から, LLMはトークン化のスコープを超えて, 潜在語彙を保っていることが示唆された。 これらの知見は、事前訓練されたモデルの語彙を拡張するための実用的で微調整のないアプリケーションを提供する。 新しい語彙語を追加することで、入力長と推論の繰り返しを減らし、空間とモデルの遅延を減らし、モデルの精度をほとんど、あるいは全く損なわない。

Natural language is composed of words, but modern LLMs process sub-words as input. A natural question raised by this discrepancy is whether LLMs encode words internally, and if so how. We present evidence that LLMs engage in an intrinsic detokenization process, where sub-word sequences are combined into coherent word representations. Our experiments show that this process takes place primarily within the early and middle layers of the model. They also show that it is robust to non-morphemic splits, typos and perhaps importantly-to out-of-vocabulary words: when feeding the inner representation of such words to the model as input vectors, it can "understand" them despite never seeing them during training. Our findings suggest that LLMs maintain a latent vocabulary beyond the tokenizer's scope. These insights provide a practical, finetuning-free application for expanding the vocabulary of pre-trained models. By enabling the addition of new vocabulary words, we reduce input length and inference iterations, which reduces both space and model latency, with little to no loss in model accuracy.
翻訳日:2024-11-01 12:30:00 公開日:2024-10-10
# トークンから言葉へ:LLMの内的語彙について

From Tokens to Words: On the Inner Lexicon of LLMs ( http://arxiv.org/abs/2410.05864v2 )

ライセンス: Link先を確認
Guy Kaplan, Matanel Oren, Yuval Reif, Roy Schwartz, (参考訳) 自然言語は単語から成り立っているが、現代のLLMはサブワードを入力として処理する。 この矛盾によって引き起こされる自然な疑問は、LLMが単語を内部的にエンコードするかどうか、そしてその方法である。 本稿では,LLMが単語列をコヒーレントな単語表現に結合する固有デトケン化過程に関与することを示す。 実験の結果、このプロセスはモデルの初期層と中期層で主に行われます。 また、入力ベクトルとしてモデルにそのような単語の内的表現を与えるとき、訓練中にその単語を見たことがなくとも「理解」することができる。 以上の結果から, LLMはトークン化のスコープを超えて, 潜在語彙を保っていることが示唆された。 これらの知見は、事前訓練されたモデルの語彙を拡張するための実用的で微調整のないアプリケーションを提供する。 新しい語彙語を追加することで、入力長と推論の繰り返しを減らし、空間とモデルの遅延を減らし、モデルの精度をほとんど、あるいは全く損なわない。

Natural language is composed of words, but modern LLMs process sub-words as input. A natural question raised by this discrepancy is whether LLMs encode words internally, and if so how. We present evidence that LLMs engage in an intrinsic detokenization process, where sub-word sequences are combined into coherent word representations. Our experiments show that this process takes place primarily within the early and middle layers of the model. They also show that it is robust to non-morphemic splits, typos and perhaps importantly-to out-of-vocabulary words: when feeding the inner representation of such words to the model as input vectors, it can "understand" them despite never seeing them during training. Our findings suggest that LLMs maintain a latent vocabulary beyond the tokenizer's scope. These insights provide a practical, finetuning-free application for expanding the vocabulary of pre-trained models. By enabling the addition of new vocabulary words, we reduce input length and inference iterations, which reduces both space and model latency, with little to no loss in model accuracy.
翻訳日:2024-11-01 12:30:00 公開日:2024-10-10
# テキスト・画像拡散モデルにおけるシールド生成のためのスパース抵抗性

Sparse Repellency for Shielded Generation in Text-to-image Diffusion Models ( http://arxiv.org/abs/2410.06025v1 )

ライセンス: Link先を確認
Michael Kirchhof, James Thornton, Pierre Ablin, Louis Béthune, Eugene Ndiaye, Marco Cuturi, (参考訳) テキスト・画像生成における拡散モデルの採用の増加は、その信頼性への懸念を引き起こしている。 このようなモデルは現在、キャリブレーション、公正性、計算効率など、様々なメトリクスのレンズの下で綿密に精査されている。 この研究は、これらのモデルをデプロイする際に生じる2つの問題、すなわち、画像のプロンプト時の多様性の欠如、トレーニングセットからイメージを再現する傾向、に焦点を当てている。 両問題を解決するために,事前学習した拡散モデルのサンプル軌跡を基準セット外にある画像に着陸させる手法を提案する。 我々は、生成軌道全体を通して拡散SDEに反発項を加えることでこれを実現する。これは、経路がシールドされた参照集合内の画像に近づきすぎると予測されるときにトリガーされる。 我々の手法は、これらの反発項が大抵の場合ゼロであり、不活性であり、さらに世代軌道の終端に向かっているという意味では疎い。 スパース・リペランシーのためのSPELLという名前の手法は,保護された画像を含む静的参照セット,あるいはバッチ内で同時に生成される期待画像で各タイムステップのセットを更新することにより動的に使用することができる。 一般的な拡散モデルにSPELLを追加することで、FIDにわずかに影響を与えながら多様性が向上し、最近のトレーニングフリーの多様性手法よりも比較的優れた性能を発揮することを示す。 また,イメージネットから1.2Mの画像をすべて保護セットとして考慮し,SPELLが保護された画像から保護された画像の集合から保護された世代を分離する方法を実証する。

The increased adoption of diffusion models in text-to-image generation has triggered concerns on their reliability. Such models are now closely scrutinized under the lens of various metrics, notably calibration, fairness, or compute efficiency. We focus in this work on two issues that arise when deploying these models: a lack of diversity when prompting images, and a tendency to recreate images from the training set. To solve both problems, we propose a method that coaxes the sampled trajectories of pretrained diffusion models to land on images that fall outside of a reference set. We achieve this by adding repellency terms to the diffusion SDE throughout the generation trajectory, which are triggered whenever the path is expected to land too closely to an image in the shielded reference set. Our method is sparse in the sense that these repellency terms are zero and inactive most of the time, and even more so towards the end of the generation trajectory. Our method, named SPELL for sparse repellency, can be used either with a static reference set that contains protected images, or dynamically, by updating the set at each timestep with the expected images concurrently generated within a batch. We show that adding SPELL to popular diffusion models improves their diversity while impacting their FID only marginally, and performs comparatively better than other recent training-free diversity methods. We also demonstrate how SPELL can ensure a shielded generation away from a very large set of protected images by considering all 1.2M images from ImageNet as the protected set.
翻訳日:2024-11-01 11:30:40 公開日:2024-10-10
# テキスト・画像拡散モデルにおけるシールド生成のためのスパース抵抗性

Sparse Repellency for Shielded Generation in Text-to-image Diffusion Models ( http://arxiv.org/abs/2410.06025v2 )

ライセンス: Link先を確認
Michael Kirchhof, James Thornton, Pierre Ablin, Louis Béthune, Eugene Ndiaye, Marco Cuturi, (参考訳) テキスト・画像生成における拡散モデルの採用の増加は、その信頼性への懸念を引き起こしている。 このようなモデルは現在、キャリブレーション、公正性、計算効率など、様々なメトリクスのレンズの下で綿密に精査されている。 この研究は、これらのモデルをデプロイする際に生じる2つの問題、すなわち、画像のプロンプト時の多様性の欠如、トレーニングセットからイメージを再現する傾向、に焦点を当てている。 両問題を解決するために,事前学習した拡散モデルのサンプル軌跡を基準セット外にある画像に着陸させる手法を提案する。 我々は、生成軌道全体を通して拡散SDEに反発項を加えることでこれを実現する。これは、経路がシールドされた参照集合内の画像に近づきすぎると予測されるときにトリガーされる。 我々の手法は、これらの反発項が大抵の場合ゼロであり、不活性であり、さらに世代軌道の終端に向かっているという意味では疎い。 スパース・リペランシーのためのSPELLという名前の手法は,保護された画像を含む静的参照セット,あるいはバッチ内で同時に生成される期待画像で各タイムステップのセットを更新することにより動的に使用することができる。 一般的な拡散モデルにSPELLを追加することで、FIDにわずかに影響を与えながら多様性が向上し、最近のトレーニングフリーの多様性手法よりも比較的優れた性能を発揮することを示す。 また,イメージネットから1.2Mの画像をすべて保護セットとして考慮し,SPELLが保護された画像から保護された画像の集合から保護された世代を分離する方法を実証する。

The increased adoption of diffusion models in text-to-image generation has triggered concerns on their reliability. Such models are now closely scrutinized under the lens of various metrics, notably calibration, fairness, or compute efficiency. We focus in this work on two issues that arise when deploying these models: a lack of diversity when prompting images, and a tendency to recreate images from the training set. To solve both problems, we propose a method that coaxes the sampled trajectories of pretrained diffusion models to land on images that fall outside of a reference set. We achieve this by adding repellency terms to the diffusion SDE throughout the generation trajectory, which are triggered whenever the path is expected to land too closely to an image in the shielded reference set. Our method is sparse in the sense that these repellency terms are zero and inactive most of the time, and even more so towards the end of the generation trajectory. Our method, named SPELL for sparse repellency, can be used either with a static reference set that contains protected images, or dynamically, by updating the set at each timestep with the expected images concurrently generated within a batch. We show that adding SPELL to popular diffusion models improves their diversity while impacting their FID only marginally, and performs comparatively better than other recent training-free diversity methods. We also demonstrate how SPELL can ensure a shielded generation away from a very large set of protected images by considering all 1.2M images from ImageNet as the protected set.
翻訳日:2024-11-01 11:30:40 公開日:2024-10-10
# 最後の反復的アドバンテージ:異なる私的SGDの実証的監査と原理的ヒューリスティック分析

The Last Iterate Advantage: Empirical Auditing and Principled Heuristic Analysis of Differentially Private SGD ( http://arxiv.org/abs/2410.06186v1 )

ライセンス: Link先を確認
Thomas Steinke, Milad Nasr, Arun Ganesh, Borja Balle, Christopher A. Choquette-Choo, Matthew Jagielski, Jamie Hayes, Abhradeep Guha Thakurta, Adam Smith, Andreas Terzis, (参考訳) 本稿では,最後のイテレーションのみを解放し,中間イテレーションのみを隠蔽する条件下で,ノイズの多いクリッピング確率勾配降下(DP-SGD)の単純ヒューリスティックなプライバシー解析を提案する。 すなわち、我々のヒューリスティックはモデルに対する線形構造を仮定する。 本研究では, 各種トレーニング手順に適用したプライバシー監査の結果を, ヒューリスティックに予測できることを実験的に示す。 したがって、トレーニングの前に、最終的なプライバシー漏洩を大まかに見積もることができる。 私たちはまた、プライバシー漏洩を過小評価する人工的な反例を提供することによって、ヒューリスティックの限界を調査します。 DP-SGDの標準構成に基づくプライバシ分析は、敵がすべての中間イテレートにアクセスできることを効果的に仮定する。 しかし、この分析はいまだに最先端のものである。 我々のヒューリスティックは厳密なプライバシー分析に取って代わるものではないが、最高の理論上の境界と低い境界を監査するプライバシーの間の大きなギャップを描いており、理論上のプライバシー分析を改善するためのさらなる作業の目標を設定している。 私たちはまた、ヒューリスティックを実証的にサポートし、既存のプライバシー監査攻撃が、視覚と言語の両方のタスクにおけるヒューリスティックな分析によって制限されていることを示す。

We propose a simple heuristic privacy analysis of noisy clipped stochastic gradient descent (DP-SGD) in the setting where only the last iterate is released and the intermediate iterates remain hidden. Namely, our heuristic assumes a linear structure for the model. We show experimentally that our heuristic is predictive of the outcome of privacy auditing applied to various training procedures. Thus it can be used prior to training as a rough estimate of the final privacy leakage. We also probe the limitations of our heuristic by providing some artificial counterexamples where it underestimates the privacy leakage. The standard composition-based privacy analysis of DP-SGD effectively assumes that the adversary has access to all intermediate iterates, which is often unrealistic. However, this analysis remains the state of the art in practice. While our heuristic does not replace a rigorous privacy analysis, it illustrates the large gap between the best theoretical upper bounds and the privacy auditing lower bounds and sets a target for further work to improve the theoretical privacy analyses. We also empirically support our heuristic and show existing privacy auditing attacks are bounded by our heuristic analysis in both vision and language tasks.
翻訳日:2024-11-01 10:50:51 公開日:2024-10-10
# 最後の反復的アドバンテージ:異なる私的SGDの実証的監査と原理的ヒューリスティック分析

The Last Iterate Advantage: Empirical Auditing and Principled Heuristic Analysis of Differentially Private SGD ( http://arxiv.org/abs/2410.06186v2 )

ライセンス: Link先を確認
Thomas Steinke, Milad Nasr, Arun Ganesh, Borja Balle, Christopher A. Choquette-Choo, Matthew Jagielski, Jamie Hayes, Abhradeep Guha Thakurta, Adam Smith, Andreas Terzis, (参考訳) 本稿では,最後のイテレーションのみを解放し,中間イテレーションのみを隠蔽する条件下で,ノイズの多いクリッピング確率勾配降下(DP-SGD)の単純ヒューリスティックなプライバシー解析を提案する。 すなわち、我々のヒューリスティックはモデルに対する線形構造を仮定する。 本研究では, 各種トレーニング手順に適用したプライバシー監査の結果を, ヒューリスティックに予測できることを実験的に示す。 したがって、トレーニングの前に、最終的なプライバシー漏洩を大まかに見積もることができる。 私たちはまた、プライバシー漏洩を過小評価する人工的な反例を提供することによって、ヒューリスティックの限界を調査します。 DP-SGDの標準構成に基づくプライバシ分析は、敵がすべての中間イテレートにアクセスできることを効果的に仮定する。 しかし、この分析はいまだに最先端のものである。 我々のヒューリスティックは厳密なプライバシー分析に取って代わるものではないが、最高の理論上の境界と低い境界を監査するプライバシーの間の大きなギャップを描いており、理論上のプライバシー分析を改善するためのさらなる作業の目標を設定している。 私たちはまた、ヒューリスティックを実証的にサポートし、既存のプライバシー監査攻撃が、視覚と言語の両方のタスクにおけるヒューリスティックな分析によって制限されていることを示す。

We propose a simple heuristic privacy analysis of noisy clipped stochastic gradient descent (DP-SGD) in the setting where only the last iterate is released and the intermediate iterates remain hidden. Namely, our heuristic assumes a linear structure for the model. We show experimentally that our heuristic is predictive of the outcome of privacy auditing applied to various training procedures. Thus it can be used prior to training as a rough estimate of the final privacy leakage. We also probe the limitations of our heuristic by providing some artificial counterexamples where it underestimates the privacy leakage. The standard composition-based privacy analysis of DP-SGD effectively assumes that the adversary has access to all intermediate iterates, which is often unrealistic. However, this analysis remains the state of the art in practice. While our heuristic does not replace a rigorous privacy analysis, it illustrates the large gap between the best theoretical upper bounds and the privacy auditing lower bounds and sets a target for further work to improve the theoretical privacy analyses. We also empirically support our heuristic and show existing privacy auditing attacks are bounded by our heuristic analysis in both vision and language tasks.
翻訳日:2024-11-01 10:50:51 公開日:2024-10-10
# RelitLRM:大規模再構成モデルのための生成可能放射能

RelitLRM: Generative Relightable Radiance for Large Reconstruction Models ( http://arxiv.org/abs/2410.06231v1 )

ライセンス: Link先を確認
Tianyuan Zhang, Zhengfei Kuang, Haian Jin, Zexiang Xu, Sai Bi, Hao Tan, He Zhang, Yiwei Hu, Milos Hasan, William T. Freeman, Kai Zhang, Fujun Luan, (参考訳) 本研究では, 未知の静的照明下で撮影したスパース (4-8) ポーズ画像から, 新たな照明下での3次元物体の高品位ガウススプラッティング表現を生成するための大再構成モデルRelitLRMを提案する。 複雑なキャプチャと遅い最適化を必要とする以前の逆レンダリング手法とは異なり、しばしば誤ったハイライトやシャドウベーキングのようなアーティファクトを引き起こすが、RelitLRMは、幾何学再構成器と拡散に基づく光沢のある外観生成器を組み合わせたフィードフォワードトランスフォーマーベースのモデルを採用する。 モデルは、既知の様々な照明下でのオブジェクトの合成多視点レンダリングに基づいて、エンドツーエンドで訓練される。 このアーキテクチャ設計により、幾何学と外観を効果的に分解し、材料と照明のあいまいさを解消し、依存した外観における影と特異性の多モード分布を捉えることができる。 スパースビューフィードフォワードRelitLRMは、最先端の高精細ビュー最適化ベースラインに対して、競争力のあるリライティング結果を提供すると同時に、大幅に高速であることを示す。 私たちのプロジェクトページは、https://relitlrm.github.io/.com/で公開されています。

We propose RelitLRM, a Large Reconstruction Model (LRM) for generating high-quality Gaussian splatting representations of 3D objects under novel illuminations from sparse (4-8) posed images captured under unknown static lighting. Unlike prior inverse rendering methods requiring dense captures and slow optimization, often causing artifacts like incorrect highlights or shadow baking, RelitLRM adopts a feed-forward transformer-based model with a novel combination of a geometry reconstructor and a relightable appearance generator based on diffusion. The model is trained end-to-end on synthetic multi-view renderings of objects under varying known illuminations. This architecture design enables to effectively decompose geometry and appearance, resolve the ambiguity between material and lighting, and capture the multi-modal distribution of shadows and specularity in the relit appearance. We show our sparse-view feed-forward RelitLRM offers competitive relighting results to state-of-the-art dense-view optimization-based baselines while being significantly faster. Our project page is available at: https://relitlrm.github.io/.
翻訳日:2024-11-01 10:31:16 公開日:2024-10-10
# RelitLRM:大規模再構成モデルのための生成可能放射能

RelitLRM: Generative Relightable Radiance for Large Reconstruction Models ( http://arxiv.org/abs/2410.06231v2 )

ライセンス: Link先を確認
Tianyuan Zhang, Zhengfei Kuang, Haian Jin, Zexiang Xu, Sai Bi, Hao Tan, He Zhang, Yiwei Hu, Milos Hasan, William T. Freeman, Kai Zhang, Fujun Luan, (参考訳) 本研究では, 未知の静的照明下で撮影したスパース (4-8) ポーズ画像から, 新たな照明下での3次元物体の高品位ガウススプラッティング表現を生成するための大再構成モデルRelitLRMを提案する。 複雑なキャプチャと遅い最適化を必要とする以前の逆レンダリング手法とは異なり、しばしば誤ったハイライトやシャドウベーキングのようなアーティファクトを引き起こすが、RelitLRMは、幾何学再構成器と拡散に基づく光沢のある外観生成器を組み合わせたフィードフォワードトランスフォーマーベースのモデルを採用する。 モデルは、既知の様々な照明下でのオブジェクトの合成多視点レンダリングに基づいて、エンドツーエンドで訓練される。 このアーキテクチャ設計により、幾何学と外観を効果的に分解し、材料と照明のあいまいさを解消し、依存した外観における影と特異性の多モード分布を捉えることができる。 スパースビューフィードフォワードRelitLRMは、最先端の高精細ビュー最適化ベースラインに対して、競争力のあるリライティング結果を提供すると同時に、大幅に高速であることを示す。 私たちのプロジェクトページは、https://relit-lrm.github.io/.com/で公開されています。

We propose RelitLRM, a Large Reconstruction Model (LRM) for generating high-quality Gaussian splatting representations of 3D objects under novel illuminations from sparse (4-8) posed images captured under unknown static lighting. Unlike prior inverse rendering methods requiring dense captures and slow optimization, often causing artifacts like incorrect highlights or shadow baking, RelitLRM adopts a feed-forward transformer-based model with a novel combination of a geometry reconstructor and a relightable appearance generator based on diffusion. The model is trained end-to-end on synthetic multi-view renderings of objects under varying known illuminations. This architecture design enables to effectively decompose geometry and appearance, resolve the ambiguity between material and lighting, and capture the multi-modal distribution of shadows and specularity in the relit appearance. We show our sparse-view feed-forward RelitLRM offers competitive relighting results to state-of-the-art dense-view optimization-based baselines while being significantly faster. Our project page is available at: https://relit-lrm.github.io/.
翻訳日:2024-11-01 10:31:16 公開日:2024-10-10
# ブラックボックス擬似計画解による微分

Differentiation Through Black-Box Quadratic Programming Solvers ( http://arxiv.org/abs/2410.06324v1 )

ライセンス: Link先を確認
Connor W. Magoon, Fengyu Yang, Noam Aigerman, Shahar Z. Kovalsky, (参考訳) 近年,多くのディープラーニング手法が最適化問題(線形プログラム,二次プログラム,半定値プログラムなど)を解くレイヤを組み込んでいる。 これらの最適化問題を微分可能な層として統合するには、その目的と制約に関して最適化問題の解の微分を計算する必要がある。 これまでのところ、ニューラルネットワーク内での最先端のブラックボックス数値解法の使用は、差別化可能なインターフェースが欠如しているため、禁止されている。 この問題に対処するため、最も一般的な凸最適化問題である2次プログラミング(QP)の1つに、ニューラルネットワークと双方向最適化タスクへのシームレスな統合を可能にする、任意のQPソルバに対してプラグインとプレイの差別化を可能にするモジュラーフレームワークであるdQPを紹介します。 我々の解は、QP最適化におけるアクティブ制約セットの知識が明示的な微分を可能にするというコア理論的知見に基づいている。 この知見は、解の計算と微分のユニークな関係を明らかにし、任意の解の効率的な微分を可能にし、原始解のみを必要とする。 我々の実装は公開され、15以上の最先端のQP解決ツールをサポートする既存のフレームワークとインターフェースされ、それぞれが学習設定における差別化レイヤとしてすぐに使える完全に差別化可能なバックボーンを提供する。 dQPのスケーラビリティと有効性を示すため,様々な構造を持つ大規模ベンチマークデータセットを用いて評価を行った。 我々はdQPを既存の微分可能QP法と比較し、小型で高密度な問題から新しい二段階幾何最適化問題を含む大規模なスパース問題まで、様々な問題にその利点を示す。

In recent years, many deep learning approaches have incorporated layers that solve optimization problems (e.g., linear, quadratic, and semidefinite programs). Integrating these optimization problems as differentiable layers requires computing the derivatives of the optimization problem's solution with respect to its objective and constraints. This has so far prevented the use of state-of-the-art black-box numerical solvers within neural networks, as they lack a differentiable interface. To address this issue for one of the most common convex optimization problems -- quadratic programming (QP) -- we introduce dQP, a modular framework that enables plug-and-play differentiation for any QP solver, allowing seamless integration into neural networks and bi-level optimization tasks. Our solution is based on the core theoretical insight that knowledge of the active constraint set at the QP optimum allows for explicit differentiation. This insight reveals a unique relationship between the computation of the solution and its derivative, enabling efficient differentiation of any solver, that only requires the primal solution. Our implementation, which will be made publicly available, interfaces with an existing framework that supports over 15 state-of-the-art QP solvers, providing each with a fully differentiable backbone for immediate use as a differentiable layer in learning setups. To demonstrate the scalability and effectiveness of dQP, we evaluate it on a large benchmark dataset of QPs with varying structures. We compare dQP with existing differentiable QP methods, demonstrating its advantages across a range of problems, from challenging small and dense problems to large-scale sparse ones, including a novel bi-level geometry optimization problem.
翻訳日:2024-11-01 06:29:16 公開日:2024-10-10
# ブラックボックス擬似計画解による微分

Differentiation Through Black-Box Quadratic Programming Solvers ( http://arxiv.org/abs/2410.06324v2 )

ライセンス: Link先を確認
Connor W. Magoon, Fengyu Yang, Noam Aigerman, Shahar Z. Kovalsky, (参考訳) 近年,多くのディープラーニング手法が最適化問題(線形プログラム,二次プログラム,半定値プログラムなど)を解くレイヤを組み込んでいる。 これらの最適化問題を微分可能な層として統合するには、その目的と制約に関して最適化問題の解の微分を計算する必要がある。 これまでのところ、ニューラルネットワーク内での最先端のブラックボックス数値解法の使用は、差別化可能なインターフェースが欠如しているため、禁止されている。 この問題に対処するため、最も一般的な凸最適化問題である2次プログラミング(QP)の1つに、ニューラルネットワークと双方向最適化タスクへのシームレスな統合を可能にする、任意のQPソルバに対してプラグインとプレイの差別化を可能にするモジュラーフレームワークであるdQPを紹介します。 我々の解は、QP最適化におけるアクティブ制約セットの知識が明示的な微分を可能にするというコア理論的知見に基づいている。 この知見は、解の計算と微分のユニークな関係を明らかにし、任意の解の効率的な微分を可能にし、原始解のみを必要とする。 我々の実装は公開され、15以上の最先端のQP解決ツールをサポートする既存のフレームワークとインターフェースされ、それぞれが学習設定における差別化レイヤとしてすぐに使える完全に差別化可能なバックボーンを提供する。 dQPのスケーラビリティと有効性を示すため,様々な構造を持つ大規模ベンチマークデータセットを用いて評価を行った。 我々はdQPを既存の微分可能QP法と比較し、小型で高密度な問題から新しい二段階幾何最適化問題を含む大規模なスパース問題まで、様々な問題にその利点を示す。

In recent years, many deep learning approaches have incorporated layers that solve optimization problems (e.g., linear, quadratic, and semidefinite programs). Integrating these optimization problems as differentiable layers requires computing the derivatives of the optimization problem's solution with respect to its objective and constraints. This has so far prevented the use of state-of-the-art black-box numerical solvers within neural networks, as they lack a differentiable interface. To address this issue for one of the most common convex optimization problems -- quadratic programming (QP) -- we introduce dQP, a modular framework that enables plug-and-play differentiation for any QP solver, allowing seamless integration into neural networks and bi-level optimization tasks. Our solution is based on the core theoretical insight that knowledge of the active constraint set at the QP optimum allows for explicit differentiation. This insight reveals a unique relationship between the computation of the solution and its derivative, enabling efficient differentiation of any solver, that only requires the primal solution. Our implementation, which will be made publicly available, interfaces with an existing framework that supports over 15 state-of-the-art QP solvers, providing each with a fully differentiable backbone for immediate use as a differentiable layer in learning setups. To demonstrate the scalability and effectiveness of dQP, we evaluate it on a large benchmark dataset of QPs with varying structures. We compare dQP with existing differentiable QP methods, demonstrating its advantages across a range of problems, from challenging small and dense problems to large-scale sparse ones, including a novel bi-level geometry optimization problem.
翻訳日:2024-11-01 06:29:16 公開日:2024-10-10
# テーブルトップシナリオのコンテキスト認識型コマンド理解

Context-Aware Command Understanding for Tabletop Scenarios ( http://arxiv.org/abs/2410.06355v1 )

ライセンス: Link先を確認
Paul Gajewski, Antonio Galiza Cerdeira Gonzalez, Bipin Indurkhya, (参考訳) 本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。 音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することで、システムはロボットに対して実行可能な指示を抽出し、関連するオブジェクトやアクションを識別する。 このシステムは、事前に定義されたオブジェクトモデルに頼ることなく、ゼロショット方式で動作し、様々な環境で柔軟で適応的な使用を可能にする。 我々は,複数のディープラーニングモデルの統合を評価し,実世界のロボット・セットアップにおけるデプロイの適性を評価する。 本アルゴリズムは,言語処理と視覚的グラウンド処理を併用して,様々なタスクに対して頑健に動作する。 さらに,システム評価に使用されるビデオ記録の小さなデータセットもリリースした。 このデータセットは、人間がロボットに自然言語で指示を与える現実世界のインタラクションをキャプチャします。 本稿では,マルチモーダルコマンド解釈の処理方法と,安全かつ説明可能な意思決定のための象徴的ロボットフレームワークへの統合能力を中心に,システムの強みと限界について論じる。

This paper presents a novel hybrid algorithm designed to interpret natural human commands in tabletop scenarios. By integrating multiple sources of information, including speech, gestures, and scene context, the system extracts actionable instructions for a robot, identifying relevant objects and actions. The system operates in a zero-shot fashion, without reliance on predefined object models, enabling flexible and adaptive use in various environments. We assess the integration of multiple deep learning models, evaluating their suitability for deployment in real-world robotic setups. Our algorithm performs robustly across different tasks, combining language processing with visual grounding. In addition, we release a small dataset of video recordings used to evaluate the system. This dataset captures real-world interactions in which a human provides instructions in natural language to a robot, a contribution to future research on human-robot interaction. We discuss the strengths and limitations of the system, with particular focus on how it handles multimodal command interpretation, and its ability to be integrated into symbolic robotic frameworks for safe and explainable decision-making.
翻訳日:2024-11-01 06:19:06 公開日:2024-10-10
# テーブルトップシナリオのコンテキスト認識型コマンド理解

Context-Aware Command Understanding for Tabletop Scenarios ( http://arxiv.org/abs/2410.06355v2 )

ライセンス: Link先を確認
Paul Gajewski, Antonio Galiza Cerdeira Gonzalez, Bipin Indurkhya, (参考訳) 本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。 音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することで、システムはロボットに対して実行可能な指示を抽出し、関連するオブジェクトやアクションを識別する。 このシステムは、事前に定義されたオブジェクトモデルに頼ることなく、ゼロショット方式で動作し、様々な環境で柔軟で適応的な使用を可能にする。 我々は,複数のディープラーニングモデルの統合を評価し,実世界のロボット・セットアップにおけるデプロイの適性を評価する。 本アルゴリズムは,言語処理と視覚的グラウンド処理を併用して,様々なタスクに対して頑健に動作する。 さらに,システム評価に使用されるビデオ記録の小さなデータセットもリリースした。 このデータセットは、人間がロボットに自然言語で指示を与える現実世界のインタラクションをキャプチャします。 本稿では,マルチモーダルコマンド解釈の処理方法と,安全かつ説明可能な意思決定のための象徴的ロボットフレームワークへの統合能力を中心に,システムの強みと限界について論じる。

This paper presents a novel hybrid algorithm designed to interpret natural human commands in tabletop scenarios. By integrating multiple sources of information, including speech, gestures, and scene context, the system extracts actionable instructions for a robot, identifying relevant objects and actions. The system operates in a zero-shot fashion, without reliance on predefined object models, enabling flexible and adaptive use in various environments. We assess the integration of multiple deep learning models, evaluating their suitability for deployment in real-world robotic setups. Our algorithm performs robustly across different tasks, combining language processing with visual grounding. In addition, we release a small dataset of video recordings used to evaluate the system. This dataset captures real-world interactions in which a human provides instructions in natural language to a robot, a contribution to future research on human-robot interaction. We discuss the strengths and limitations of the system, with particular focus on how it handles multimodal command interpretation, and its ability to be integrated into symbolic robotic frameworks for safe and explainable decision-making.
翻訳日:2024-11-01 06:09:19 公開日:2024-10-10
# Visuomotor Language Guidance を用いた接地ロボット政策

Grounding Robot Policies with Visuomotor Language Guidance ( http://arxiv.org/abs/2410.06473v1 )

ライセンス: Link先を確認
Arthur Bucker, Pablo Ortega, Jonathan Francis, Jean Oh, (参考訳) 自然言語処理とコンピュータビジョンの分野での最近の進歩は、大規模なインターネットデータから世界の基盤となるダイナミクスを理解する大きな可能性を示している。 しかし、人間とロボットの相互作用が不足し、現実世界のロボットデータの大規模なデータセットが不足していることを考えると、この知識をロボットシステムに翻訳することは依然としてオープンな課題である。 行動クローニングや強化学習といった従来のロボット学習アプローチは、人間のデモや特定の環境でのスクラッチからロボットスキルを学ぶ上で、優れた能力を示している。 しかしながら、これらのアプローチは、しばしばタスク固有のデモンストレーションや複雑なシミュレーション環境の設計を必要とし、新しい設定のための一般化可能で堅牢なポリシーの開発を制限する。 これらの制約に対処するために,現時点のロボットと環境の制約を考慮したロボットポリシーを基盤としたエージェントベースのフレームワークを提案する。 提案するフレームワークは,特定の役割,すなわちハイレベルアドバイザ,視覚的接地,監視,ロボットエージェント用に設計された,会話エージェントのセットで構成されている。 基本方針が与えられた場合、エージェントは実行時に一括してガイダンスを生成し、基本方針の行動分布をより望ましい将来の状態にシフトさせる。 提案手法は,シミュレーションと実世界の実験の両方において,人体実験や広範囲な探索を必要とせず,極めて高い成功率を達成するための操作ポリシーを効果的に導出できることを実証する。 プロジェクトビデオはhttps://sites.google.com/view/motorcortex/home.com。

Recent advances in the fields of natural language processing and computer vision have shown great potential in understanding the underlying dynamics of the world from large-scale internet data. However, translating this knowledge into robotic systems remains an open challenge, given the scarcity of human-robot interactions and the lack of large-scale datasets of real-world robotic data. Previous robot learning approaches such as behavior cloning and reinforcement learning have shown great capabilities in learning robotic skills from human demonstrations or from scratch in specific environments. However, these approaches often require task-specific demonstrations or designing complex simulation environments, which limits the development of generalizable and robust policies for new settings. Aiming to address these limitations, we propose an agent-based framework for grounding robot policies to the current context, considering the constraints of a current robot and its environment using visuomotor-grounded language guidance. The proposed framework is composed of a set of conversational agents designed for specific roles -- namely, high-level advisor, visual grounding, monitoring, and robotic agents. Given a base policy, the agents collectively generate guidance at run time to shift the action distribution of the base policy towards more desirable future states. We demonstrate that our approach can effectively guide manipulation policies to achieve significantly higher success rates both in simulation and in real-world experiments without the need for additional human demonstrations or extensive exploration. Project videos at https://sites.google.com/view/motorcortex/home.
翻訳日:2024-11-01 05:29:07 公開日:2024-10-10
# Visuomotor Language Guidance を用いた接地ロボット政策

Grounding Robot Policies with Visuomotor Language Guidance ( http://arxiv.org/abs/2410.06473v2 )

ライセンス: Link先を確認
Arthur Bucker, Pablo Ortega-Kral, Jonathan Francis, Jean Oh, (参考訳) 自然言語処理とコンピュータビジョンの分野での最近の進歩は、大規模なインターネットデータから世界の基盤となるダイナミクスを理解する大きな可能性を示している。 しかし、人間とロボットの相互作用が不足し、現実世界のロボットデータの大規模なデータセットが不足していることを考えると、この知識をロボットシステムに翻訳することは依然としてオープンな課題である。 行動クローニングや強化学習といった従来のロボット学習アプローチは、人間のデモや特定の環境でのスクラッチからロボットスキルを学ぶ上で、優れた能力を示している。 しかしながら、これらのアプローチは、しばしばタスク固有のデモンストレーションや複雑なシミュレーション環境の設計を必要とし、新しい設定のための一般化可能で堅牢なポリシーの開発を制限する。 これらの制約に対処するために,現時点のロボットと環境の制約を考慮したロボットポリシーを基盤としたエージェントベースのフレームワークを提案する。 提案するフレームワークは,特定の役割,すなわちハイレベルアドバイザ,視覚的接地,監視,ロボットエージェント用に設計された,会話エージェントのセットで構成されている。 基本方針が与えられた場合、エージェントは実行時に一括してガイダンスを生成し、基本方針の行動分布をより望ましい将来の状態にシフトさせる。 提案手法は,シミュレーションと実世界の実験の両方において,人体実験や広範囲な探索を必要とせず,極めて高い成功率を達成するための操作ポリシーを効果的に導出できることを実証する。 プロジェクトビデオはhttps://sites.google.com/view/motorcortex/home.com。

Recent advances in the fields of natural language processing and computer vision have shown great potential in understanding the underlying dynamics of the world from large-scale internet data. However, translating this knowledge into robotic systems remains an open challenge, given the scarcity of human-robot interactions and the lack of large-scale datasets of real-world robotic data. Previous robot learning approaches such as behavior cloning and reinforcement learning have shown great capabilities in learning robotic skills from human demonstrations or from scratch in specific environments. However, these approaches often require task-specific demonstrations or designing complex simulation environments, which limits the development of generalizable and robust policies for new settings. Aiming to address these limitations, we propose an agent-based framework for grounding robot policies to the current context, considering the constraints of a current robot and its environment using visuomotor-grounded language guidance. The proposed framework is composed of a set of conversational agents designed for specific roles -- namely, high-level advisor, visual grounding, monitoring, and robotic agents. Given a base policy, the agents collectively generate guidance at run time to shift the action distribution of the base policy towards more desirable future states. We demonstrate that our approach can effectively guide manipulation policies to achieve significantly higher success rates both in simulation and in real-world experiments without the need for additional human demonstrations or extensive exploration. Project videos at https://sites.google.com/view/motorcortex/home.
翻訳日:2024-11-01 05:29:07 公開日:2024-10-10
# Happy: 継続的に一般化されたカテゴリ発見のためのデバイアスドラーニングフレームワーク

Happy: A Debiased Learning Framework for Continual Generalized Category Discovery ( http://arxiv.org/abs/2410.06535v1 )

ライセンス: Link先を確認
Shijie Ma, Fei Zhu, Zhun Zhong, Wenzhuo Liu, Xu-Yao Zhang, Cheng-Lin Liu, (参考訳) 進化する環境において、新しい概念を常に発見することが不可欠である。 本稿では,学習済みのクラスを認識する能力を維持しつつ,ラベルのないデータから新たなクラスを段階的に発見することを目的としたC-GCD(Continuous Generalized Category Discovery)の課題について検討する。 C-GCDタスクを研究するためにいくつかの設定が提案されているが、現実のシナリオを反映しない制限がある。 そこで我々は,より実用的なC-GCD設定について検討し,過去のクラスサンプルを格納することなく,より長い期間にわたって発見される新しいクラスを含める。 C-GCDでは、モデルは当初、既知のクラスのラベル付きデータに基づいてトレーニングされ、その後、古いクラスと新しいクラスの両方を含むラベル付きデータでモデルが供給される複数の段階が続く。 主な課題は、新しいクラスを発見し、古いクラスを忘れないようにするという、2つの相反する目標である。 対立を掘り下げて、モデルが予測バイアスや硬度バイアスの影響を受けやすいと認識します。 これらの問題に対処するために、偏りのない学習フレームワークであるHappyを紹介した。 予測バイアスについて、まずクラスタリング誘導初期化を導入し、ロバストな特徴を提供する。 さらに,新しいクラスに適切な確率を割り当てるソフトエントロピー正規化を提案し,新しいクラスのクラスタリング性能を大幅に向上させることができる。 ハーネスバイアスに対しては,特に難解なクラスにおいて,これまで見てきたクラスを忘れる問題を効果的に軽減できる,難易度対応型プロトタイプサンプリングを提案する。 実験により,提案手法はC-GCDのコンフリクトを良好に管理し,ImageNet-100では7.5%のゲインを達成できた。 私たちのコードはhttps://github.com/mashijie1028/Happy-CGCDで公開されています。

Constantly discovering novel concepts is crucial in evolving environments. This paper explores the underexplored task of Continual Generalized Category Discovery (C-GCD), which aims to incrementally discover new classes from unlabeled data while maintaining the ability to recognize previously learned classes. Although several settings are proposed to study the C-GCD task, they have limitations that do not reflect real-world scenarios. We thus study a more practical C-GCD setting, which includes more new classes to be discovered over a longer period, without storing samples of past classes. In C-GCD, the model is initially trained on labeled data of known classes, followed by multiple incremental stages where the model is fed with unlabeled data containing both old and new classes. The core challenge involves two conflicting objectives: discover new classes and prevent forgetting old ones. We delve into the conflicts and identify that models are susceptible to prediction bias and hardness bias. To address these issues, we introduce a debiased learning framework namely Happy. For the prediction bias, we first introduce clustering-guided initialization to provide robust features. In addition, we propose soft entropy regularization to assign appropriate probabilities to new classes, which can significantly enhance the clustering performance of new classes. For the harness bias, we present the hardness-aware prototype sampling, which can effectively reduce the forgetting issue for previously seen classes, especially for difficult classes. Experimental results demonstrate our method proficiently manages the conflicts of C-GCD and achieves remarkable performance across various datasets, e.g., 7.5% overall gains on ImageNet-100. Our code is publicly available at https://github.com/mashijie1028/Happy-CGCD.
翻訳日:2024-11-01 05:09:09 公開日:2024-10-10
# Happy: 継続的に一般化されたカテゴリ発見のためのデバイアスドラーニングフレームワーク

Happy: A Debiased Learning Framework for Continual Generalized Category Discovery ( http://arxiv.org/abs/2410.06535v2 )

ライセンス: Link先を確認
Shijie Ma, Fei Zhu, Zhun Zhong, Wenzhuo Liu, Xu-Yao Zhang, Cheng-Lin Liu, (参考訳) 進化する環境において、新しい概念を常に発見することが不可欠である。 本稿では,学習済みのクラスを認識する能力を維持しつつ,ラベルのないデータから新たなクラスを段階的に発見することを目的としたC-GCD(Continuous Generalized Category Discovery)の課題について検討する。 C-GCDタスクを研究するためにいくつかの設定が提案されているが、現実のシナリオを反映しない制限がある。 そこで我々は,より実用的なC-GCD設定について検討し,過去のクラスサンプルを格納することなく,より長い期間にわたって発見される新しいクラスを含める。 C-GCDでは、モデルは当初、既知のクラスのラベル付きデータに基づいてトレーニングされ、その後、古いクラスと新しいクラスの両方を含むラベル付きデータでモデルが供給される複数の段階が続く。 主な課題は、新しいクラスを発見し、古いクラスを忘れないようにするという、2つの相反する目標である。 対立を掘り下げて、モデルが予測バイアスや硬度バイアスの影響を受けやすいと認識します。 これらの問題に対処するため,Happyという脱バイアス学習フレームワークを導入し,ハードネス対応のプロトタイプサンプリングとソフトエントロピー正規化を特徴とする。 予測バイアスについて、まずクラスタリング誘導初期化を導入し、ロバストな特徴を提供する。 さらに,新しいクラスに適切な確率を割り当てるソフトエントロピー正規化を提案し,新しいクラスのクラスタリング性能を大幅に向上させることができる。 ハーネスバイアスに対しては,特に難解なクラスにおいて,これまで見てきたクラスを忘れる問題を効果的に軽減できる,難易度対応型プロトタイプサンプリングを提案する。 実験により,提案手法はC-GCDのコンフリクトを良好に管理し,ImageNet-100では7.5%のゲインを達成できた。 私たちのコードはhttps://github.com/mashijie1028/Happy-CGCDで公開されています。

Constantly discovering novel concepts is crucial in evolving environments. This paper explores the underexplored task of Continual Generalized Category Discovery (C-GCD), which aims to incrementally discover new classes from unlabeled data while maintaining the ability to recognize previously learned classes. Although several settings are proposed to study the C-GCD task, they have limitations that do not reflect real-world scenarios. We thus study a more practical C-GCD setting, which includes more new classes to be discovered over a longer period, without storing samples of past classes. In C-GCD, the model is initially trained on labeled data of known classes, followed by multiple incremental stages where the model is fed with unlabeled data containing both old and new classes. The core challenge involves two conflicting objectives: discover new classes and prevent forgetting old ones. We delve into the conflicts and identify that models are susceptible to prediction bias and hardness bias. To address these issues, we introduce a debiased learning framework, namely Happy, characterized by Hardness-aware prototype sampling and soft entropy regularization. For the prediction bias, we first introduce clustering-guided initialization to provide robust features. In addition, we propose soft entropy regularization to assign appropriate probabilities to new classes, which can significantly enhance the clustering performance of new classes. For the harness bias, we present the hardness-aware prototype sampling, which can effectively reduce the forgetting issue for previously seen classes, especially for difficult classes. Experimental results demonstrate our method proficiently manages the conflicts of C-GCD and achieves remarkable performance across various datasets, e.g., 7.5% overall gains on ImageNet-100. Our code is publicly available at https://github.com/mashijie1028/Happy-CGCD.
翻訳日:2024-11-01 05:09:09 公開日:2024-10-10
# 一般化表現器によるタスク指向時系列インプット評価

Task-oriented Time Series Imputation Evaluation via Generalized Representers ( http://arxiv.org/abs/2410.06652v1 )

ライセンス: Link先を確認
Zhixian Wang, Linxiao Yang, Liang Sun, Qingsong Wen, Yi Wang, (参考訳) 時系列分析は、電力エネルギー、経済、輸送など多くの分野で広く使われており、予測、異常検出、分類など様々なタスクがある。 欠落値はこれらのタスクで広く見られ、しばしば既存のメソッドに予測不可能なネガティブな影響をもたらし、それらのさらなる適用を妨げる。 このような状況に対して、既存の時系列計算手法は、主にデータ特性に基づくシーケンスの復元に焦点を合わせ、下流タスクにおける復元シーケンスのパフォーマンスを無視する。 本稿では、下流タスクの異なる要件(例えば予測)を考慮して、効率的な下流タスク指向時系列計算手法を提案する。 下流タスクに使用される時系列計算とニューラルネットワークモデルを組み合わせることにより、下流タスクに対する異なる計算戦略のゲインを再トレーニングすることなく推定し、推定ゲインに応じて異なる計算戦略を組み合わせることにより、下流タスクに対する最も好ましい計算値を与える。

Time series analysis is widely used in many fields such as power energy, economics, and transportation, including different tasks such as forecasting, anomaly detection, classification, etc. Missing values are widely observed in these tasks, and often leading to unpredictable negative effects on existing methods, hindering their further application. In response to this situation, existing time series imputation methods mainly focus on restoring sequences based on their data characteristics, while ignoring the performance of the restored sequences in downstream tasks. Considering different requirements of downstream tasks (e.g., forecasting), this paper proposes an efficient downstream task-oriented time series imputation evaluation approach. By combining time series imputation with neural network models used for downstream tasks, the gain of different imputation strategies on downstream tasks is estimated without retraining, and the most favorable imputation value for downstream tasks is given by combining different imputation strategies according to the estimated gain.
翻訳日:2024-11-01 04:29:49 公開日:2024-10-10
# 一般化表現器によるタスク指向時系列インプット評価

Task-oriented Time Series Imputation Evaluation via Generalized Representers ( http://arxiv.org/abs/2410.06652v2 )

ライセンス: Link先を確認
Zhixian Wang, Linxiao Yang, Liang Sun, Qingsong Wen, Yi Wang, (参考訳) 時系列分析は、電力エネルギー、経済、輸送など多くの分野で広く使われており、予測、異常検出、分類など様々なタスクがある。 欠落値はこれらのタスクで広く見られ、しばしば既存のメソッドに予測不可能なネガティブな影響をもたらし、それらのさらなる適用を妨げる。 このような状況に対して、既存の時系列計算手法は、主にデータ特性に基づくシーケンスの復元に焦点を合わせ、下流タスクにおける復元シーケンスのパフォーマンスを無視する。 本稿では、下流タスクの異なる要件(例えば予測)を考慮して、効率的な下流タスク指向時系列計算手法を提案する。 下流タスクに使用される時系列計算とニューラルネットワークモデルを組み合わせることにより、下流タスクに対する異なる計算戦略のゲインを再トレーニングすることなく推定し、推定ゲインに応じて異なる計算戦略を組み合わせることにより、下流タスクに対する最も好ましい計算値を与える。

Time series analysis is widely used in many fields such as power energy, economics, and transportation, including different tasks such as forecasting, anomaly detection, classification, etc. Missing values are widely observed in these tasks, and often leading to unpredictable negative effects on existing methods, hindering their further application. In response to this situation, existing time series imputation methods mainly focus on restoring sequences based on their data characteristics, while ignoring the performance of the restored sequences in downstream tasks. Considering different requirements of downstream tasks (e.g., forecasting), this paper proposes an efficient downstream task-oriented time series imputation evaluation approach. By combining time series imputation with neural network models used for downstream tasks, the gain of different imputation strategies on downstream tasks is estimated without retraining, and the most favorable imputation value for downstream tasks is given by combining different imputation strategies according to the estimated gain.
翻訳日:2024-11-01 04:29:49 公開日:2024-10-10
# コードエグゼクタとしての大規模言語モデル:探索的研究

Large Language Models as Code Executors: An Exploratory Study ( http://arxiv.org/abs/2410.06667v1 )

ライセンス: Link先を確認
Chenyang Lyu, Lecheng Yan, Rui Xing, Wenxi Li, Younes Samih, Tianbo Ji, Longyue Wang, (参考訳) 大規模言語モデル(LLM)の能力は、自然言語処理からコード理解や生成といった複雑なタスクまで、大きく進化している。 LLMをコードスニペットで実行して出力を取得することで、LLMの機能の範囲をより広いコンテキストに広げる。 本稿では,LLMをコード実行子として探索し,コードスニペットをモデルに直接供給して実行し,出力を返す手法を提案する。 OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性について包括的に検証しています。 特に、o1モデルはコード実行で90%以上の精度を達成したが、他のモデルはより低い精度を示した。 さらに、コードスニペットを行単位で処理し、弱いモデルの精度を平均7.22%向上(最高18.96%)し、CoTのプロンプトに対して絶対平均3.86%改善(最高19.46%改善)するIIP(Iterative Instruction Prompting)技術を導入する。 我々の研究は、コーディングにおけるLLMの変換可能性だけでなく、自動化プログラミングの今後の進歩と複雑なタスクの完了の土台も示している。

The capabilities of Large Language Models (LLMs) have significantly evolved, extending from natural language processing to complex tasks like code understanding and generation. We expand the scope of LLMs' capabilities to a broader context, using LLMs to execute code snippets to obtain the output. This paper pioneers the exploration of LLMs as code executors, where code snippets are directly fed to the models for execution, and outputs are returned. We are the first to comprehensively examine this feasibility across various LLMs, including OpenAI's o1, GPT-4o, GPT-3.5, DeepSeek, and Qwen-Coder. Notably, the o1 model achieved over 90% accuracy in code execution, while others demonstrated lower accuracy levels. Furthermore, we introduce an Iterative Instruction Prompting (IIP) technique that processes code snippets line by line, enhancing the accuracy of weaker models by an average of 7.22% (with the highest improvement of 18.96%) and an absolute average improvement of 3.86% against CoT prompting (with the highest improvement of 19.46%). Our study not only highlights the transformative potential of LLMs in coding but also lays the groundwork for future advancements in automated programming and the completion of complex tasks.
翻訳日:2024-11-01 04:29:49 公開日:2024-10-10
# コードエグゼクタとしての大規模言語モデル:探索的研究

Large Language Models as Code Executors: An Exploratory Study ( http://arxiv.org/abs/2410.06667v2 )

ライセンス: Link先を確認
Chenyang Lyu, Lecheng Yan, Rui Xing, Wenxi Li, Younes Samih, Tianbo Ji, Longyue Wang, (参考訳) 大規模言語モデル(LLM)の能力は、自然言語処理からコード理解や生成といった複雑なタスクまで、大きく進化している。 LLMをコードスニペットで実行して出力を取得することで、LLMの機能の範囲をより広いコンテキストに広げる。 本稿では,LLMをコード実行子として探索し,コードスニペットをモデルに直接供給して実行し,出力を返す手法を提案する。 OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性について包括的に検証しています。 特に、o1モデルはコード実行で90%以上の精度を達成したが、他のモデルはより低い精度を示した。 さらに、コードスニペットを行単位で処理し、弱いモデルの精度を平均7.22%向上(最高18.96%)し、CoTのプロンプトに対して絶対平均3.86%改善(最高19.46%改善)するIIP(Iterative Instruction Prompting)技術を導入する。 我々の研究は、コーディングにおけるLLMの変換可能性だけでなく、自動化プログラミングの今後の進歩と複雑なタスクの完了の土台も示している。

The capabilities of Large Language Models (LLMs) have significantly evolved, extending from natural language processing to complex tasks like code understanding and generation. We expand the scope of LLMs' capabilities to a broader context, using LLMs to execute code snippets to obtain the output. This paper pioneers the exploration of LLMs as code executors, where code snippets are directly fed to the models for execution, and outputs are returned. We are the first to comprehensively examine this feasibility across various LLMs, including OpenAI's o1, GPT-4o, GPT-3.5, DeepSeek, and Qwen-Coder. Notably, the o1 model achieved over 90% accuracy in code execution, while others demonstrated lower accuracy levels. Furthermore, we introduce an Iterative Instruction Prompting (IIP) technique that processes code snippets line by line, enhancing the accuracy of weaker models by an average of 7.22% (with the highest improvement of 18.96%) and an absolute average improvement of 3.86% against CoT prompting (with the highest improvement of 19.46%). Our study not only highlights the transformative potential of LLMs in coding but also lays the groundwork for future advancements in automated programming and the completion of complex tasks.
翻訳日:2024-11-01 04:19:50 公開日:2024-10-10
# 普遍性に向けて:言語モデルアーキテクチャ全体にわたる機械的類似性の研究

Towards Universality: Studying Mechanistic Similarity Across Language Model Architectures ( http://arxiv.org/abs/2410.06672v1 )

ライセンス: Link先を確認
Junxuan Wang, Xuyang Ge, Wentao Shu, Qiong Tang, Yunhua Zhou, Zhengfu He, Xipeng Qiu, (参考訳) 解釈可能性における普遍性の仮説は、異なるニューラルネットワークが収束して同様のタスクに類似したアルゴリズムを実装することを示唆している。 本研究では,言語モデリングの主流となる2つのアーキテクチャ,すなわち Transformers と Mambas について検討し,その力学的類似性について検討する。 我々はこれらのモデルから解釈可能な特徴を分離するためにスパースオートエンコーダ(SAE)を用いることを提案し、これらの2つのモデルでほとんどの特徴が似ていることを示す。 また,特徴類似性と普遍性との相関性についても検証した。 次に、Mambaモデルの回路レベル解析を掘り下げ、Mambaの誘導回路がトランスフォーマーの回路と構造的に類似していることを見出した。 また、私たちが \emph{Off-by-One motif} と呼ぶニュアンスな違いも特定します: 1つのトークンの情報はその次の位置でSSM状態に書き込まれます。 トランスフォーマーにおけるトークン間の相互作用はそのような傾向を示すものではない。

The hypothesis of Universality in interpretability suggests that different neural networks may converge to implement similar algorithms on similar tasks. In this work, we investigate two mainstream architectures for language modeling, namely Transformers and Mambas, to explore the extent of their mechanistic similarity. We propose to use Sparse Autoencoders (SAEs) to isolate interpretable features from these models and show that most features are similar in these two models. We also validate the correlation between feature similarity and Universality. We then delve into the circuit-level analysis of Mamba models and find that the induction circuits in Mamba are structurally analogous to those in Transformers. We also identify a nuanced difference we call \emph{Off-by-One motif}: The information of one token is written into the SSM state in its next position. Whilst interaction between tokens in Transformers does not exhibit such trend.
翻訳日:2024-11-01 04:19:50 公開日:2024-10-10
# 普遍性に向けて:言語モデルアーキテクチャ全体にわたる機械的類似性の研究

Towards Universality: Studying Mechanistic Similarity Across Language Model Architectures ( http://arxiv.org/abs/2410.06672v2 )

ライセンス: Link先を確認
Junxuan Wang, Xuyang Ge, Wentao Shu, Qiong Tang, Yunhua Zhou, Zhengfu He, Xipeng Qiu, (参考訳) 解釈可能性における普遍性の仮説は、異なるニューラルネットワークが収束して同様のタスクに類似したアルゴリズムを実装することを示唆している。 本研究では,言語モデリングの主流となる2つのアーキテクチャ,すなわち Transformers と Mambas について検討し,その力学的類似性について検討する。 我々はこれらのモデルから解釈可能な特徴を分離するためにスパースオートエンコーダ(SAE)を用いることを提案し、これらの2つのモデルでほとんどの特徴が似ていることを示す。 また,特徴類似性と普遍性との相関性についても検証した。 次に、Mambaモデルの回路レベル解析を掘り下げ、Mambaの誘導回路がトランスフォーマーの回路と構造的に類似していることを見出した。 また、私たちが \emph{Off-by-One motif} と呼ぶニュアンスな違いも特定します: 1つのトークンの情報はその次の位置でSSM状態に書き込まれます。 トランスフォーマーにおけるトークン間の相互作用はそのような傾向を示すものではない。

The hypothesis of Universality in interpretability suggests that different neural networks may converge to implement similar algorithms on similar tasks. In this work, we investigate two mainstream architectures for language modeling, namely Transformers and Mambas, to explore the extent of their mechanistic similarity. We propose to use Sparse Autoencoders (SAEs) to isolate interpretable features from these models and show that most features are similar in these two models. We also validate the correlation between feature similarity and Universality. We then delve into the circuit-level analysis of Mamba models and find that the induction circuits in Mamba are structurally analogous to those in Transformers. We also identify a nuanced difference we call \emph{Off-by-One motif}: The information of one token is written into the SSM state in its next position. Whilst interaction between tokens in Transformers does not exhibit such trend.
翻訳日:2024-11-01 04:19:50 公開日:2024-10-10
# ST-WebAgentBench: Webエージェントの安全性と信頼性を評価するベンチマーク

ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents ( http://arxiv.org/abs/2410.06703v1 )

ライセンス: Link先を確認
Ido Levy, Ben Wiesel, Sami Marreed, Alon Oved, Avi Yaeli, Segev Shlomov, (参考訳) LLMベースのWebエージェントの最近の進歩は、自律的なWebナビゲーションとインタラクションの進歩を示す新しいアーキテクチャとベンチマークを導入している。 しかし、既存のベンチマークのほとんどは、エンタープライズ環境でWebエージェントをデプロイするのに不可欠な安全性や信頼性といった重要な要素を克服して、有効性と正確性を優先している。 本稿では, ユーザアカウントを誤って削除したり, 重要な業務で意図せぬ行動を行ったりするといった, 安全でないWebエージェントの行動のリスクについて, 企業におけるWebエージェントの安全性と信頼性を評価することを目的とした, 新たなオンラインベンチマークST-WebAgentBenchを提案する。 このベンチマークは、セーフで信頼できる(ST)エージェントの動作を定義する詳細なフレームワークに基づいており、STポリシーをどのように構成すべきかを概説し、エージェントのパフォーマンスを評価するためのCompletion Under Policiesメトリクスを紹介している。 我々の評価は、現在のSOTAエージェントが政策遵守に苦慮し、重要なビジネスアプリケーションにはまだ頼っていないことを示している。 さらに,Webエージェントのポリシー意識とコンプライアンス向上を目的としたアーキテクチャ原則を提案する。 私たちはこのベンチマークをオープンソース化し、新しい世代の安全で信頼性の高いAIエージェントを育成することを目的として、コミュニティにコントリビューションを呼びかけます。

Recent advancements in LLM-based web agents have introduced novel architectures and benchmarks showcasing progress in autonomous web navigation and interaction. However, most existing benchmarks prioritize effectiveness and accuracy, overlooking crucial factors like safety and trustworthiness which are essential for deploying web agents in enterprise settings. The risks of unsafe web agent behavior, such as accidentally deleting user accounts or performing unintended actions in critical business operations, pose significant barriers to widespread adoption.In this paper, we present ST-WebAgentBench, a new online benchmark specifically designed to evaluate the safety and trustworthiness of web agents in enterprise contexts. This benchmark is grounded in a detailed framework that defines safe and trustworthy (ST) agent behavior, outlines how ST policies should be structured and introduces the Completion under Policies metric to assess agent performance. Our evaluation reveals that current SOTA agents struggle with policy adherence and cannot yet be relied upon for critical business applications. Additionally, we propose architectural principles aimed at improving policy awareness and compliance in web agents. We open-source this benchmark and invite the community to contribute, with the goal of fostering a new generation of safer, more trustworthy AI agents.
翻訳日:2024-11-01 04:10:03 公開日:2024-10-10
# ST-WebAgentBench: Webエージェントの安全性と信頼性を評価するベンチマーク

ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents ( http://arxiv.org/abs/2410.06703v2 )

ライセンス: Link先を確認
Ido Levy, Ben Wiesel, Sami Marreed, Alon Oved, Avi Yaeli, Segev Shlomov, (参考訳) LLMベースのWebエージェントの最近の進歩は、自律的なWebナビゲーションとインタラクションの進歩を示す新しいアーキテクチャとベンチマークを導入している。 しかし、既存のベンチマークのほとんどは、エンタープライズ環境でWebエージェントをデプロイするのに不可欠な安全性や信頼性といった重要な要素を克服して、有効性と正確性を優先している。 ユーザアカウントを誤って削除したり、重要なビジネスオペレーションで意図しないアクションを実行したりするといった、安全でないWebエージェントの動作のリスクは、広く採用される上で大きな障壁となる。 本稿では,企業におけるWebエージェントの安全性と信頼性を評価するための新しいオンラインベンチマークST-WebAgentBenchを提案する。 このベンチマークは、セーフで信頼できる(ST)エージェントの動作を定義する詳細なフレームワークに基づいており、STポリシーをどのように構成すべきかを概説し、エージェントのパフォーマンスを評価するためのCompletion Under Policiesメトリクスを紹介している。 我々の評価は、現在のSOTAエージェントが政策遵守に苦慮し、重要なビジネスアプリケーションにはまだ頼っていないことを示している。 さらに,Webエージェントのポリシー意識とコンプライアンス向上を目的としたアーキテクチャ原則を提案する。 私たちはこのベンチマークをオープンソース化し、新しい世代の安全で信頼性の高いAIエージェントを育成することを目的として、コミュニティにコントリビューションを呼びかけます。 すべてのコード、データ、環境再生リソース、ビデオデモはhttps://sites.google.com/view/st-webagentbench/home.comで公開されている。

Recent advancements in LLM-based web agents have introduced novel architectures and benchmarks showcasing progress in autonomous web navigation and interaction. However, most existing benchmarks prioritize effectiveness and accuracy, overlooking crucial factors like safety and trustworthiness which are essential for deploying web agents in enterprise settings. The risks of unsafe web agent behavior, such as accidentally deleting user accounts or performing unintended actions in critical business operations, pose significant barriers to widespread adoption. In this paper, we present ST-WebAgentBench, a new online benchmark specifically designed to evaluate the safety and trustworthiness of web agents in enterprise contexts. This benchmark is grounded in a detailed framework that defines safe and trustworthy (ST) agent behavior, outlines how ST policies should be structured and introduces the Completion under Policies metric to assess agent performance. Our evaluation reveals that current SOTA agents struggle with policy adherence and cannot yet be relied upon for critical business applications. Additionally, we propose architectural principles aimed at improving policy awareness and compliance in web agents. We open-source this benchmark and invite the community to contribute, with the goal of fostering a new generation of safer, more trustworthy AI agents. All code, data, environment reproduction resources, and video demonstrations are available at https://sites.google.com/view/st-webagentbench/home.
翻訳日:2024-11-01 04:10:03 公開日:2024-10-10
# MERGE:遠隔地における投票の検証のための電子的結果とGenuine Evidenceとのマッチング

MERGE: Matching Electronic Results with Genuine Evidence for verifiable voting in person at remote locations ( http://arxiv.org/abs/2410.06705v1 )

ライセンス: Link先を確認
Ben Adida, John Caron, Arash Mirzaei, Vanessa Teague, (参考訳) 海外の軍人は、伝統的な郵便制度の緩やかなペースで選挙に参加することによる重大な課題に直面し、投票には決定的な期限が欠落する可能性がある。 インターネットベースの投票は、より高速な代替手段を提供するが、投票プロセスの完全性とプライバシーに深刻なリスクをもたらす。 我々は,電子投票の速さと紙返却の信頼性を組み合わせることで,これらの問題に対処するMERGEプロトコルを導入する。 このプロトコルにより、有権者は投票の電子的記録を迅速に提出し、同時に紙票を送信して検証を行うことができる。 電子記録は予備的な結果に使用することができるが、紙の投票は時間が経過した場合にはリスク限界監査(RLA)で使用され、選挙の完全性を保証する。 このアプローチは、投票数のセキュリティと精度を損なうことなく、投票到着の時間窓を広げる。

Overseas military personnel often face significant challenges in participating in elections due to the slow pace of traditional mail systems, which can result in ballots missing crucial deadlines. While internet-based voting offers a faster alternative, it introduces serious risks to the integrity and privacy of the voting process. We introduce the MERGE protocol to address these issues by combining the speed of electronic ballot delivery with the reliability of paper returns. This protocol allows voters to submit an electronic record of their vote quickly while simultaneously mailing a paper ballot for verification. The electronic record can be used for preliminary results, but the paper ballot is used in a Risk Limiting Audit (RLA) if received in time, ensuring the integrity of the election. This approach extends the time window for ballot arrival without undermining the security and accuracy of the vote count.
翻訳日:2024-11-01 04:10:03 公開日:2024-10-10
# MERGE:遠隔地における投票の検証のための電子的結果とGenuine Evidenceとのマッチング

MERGE: Matching Electronic Results with Genuine Evidence for verifiable voting in person at remote locations ( http://arxiv.org/abs/2410.06705v2 )

ライセンス: Link先を確認
Ben Adida, John Caron, Arash Mirzaei, Vanessa Teague, (参考訳) 海外の軍人は、伝統的な郵便制度の緩やかなペースで選挙に参加することによる重大な課題に直面し、投票には決定的な期限が欠落する可能性がある。 インターネットベースの投票は、より高速な代替手段を提供するが、投票プロセスの完全性とプライバシーに深刻なリスクをもたらす。 我々は,電子投票の速さと紙返却の信頼性を組み合わせることで,これらの問題に対処するMERGEプロトコルを導入する。 このプロトコルにより、有権者は投票の電子的記録を迅速に提出し、同時に紙票を送信して検証を行うことができる。 電子記録は予備的な結果に使用することができるが、紙の投票は時間が経過した場合にはリスク限界監査(RLA)で使用され、選挙の完全性を保証する。 このアプローチは、投票数のセキュリティと精度を損なうことなく、投票到着の時間窓を広げる。

Overseas military personnel often face significant challenges in participating in elections due to the slow pace of traditional mail systems, which can result in ballots missing crucial deadlines. While internet-based voting offers a faster alternative, it introduces serious risks to the integrity and privacy of the voting process. We introduce the MERGE protocol to address these issues by combining the speed of electronic ballot delivery with the reliability of paper returns. This protocol allows voters to submit an electronic record of their vote quickly while simultaneously mailing a paper ballot for verification. The electronic record can be used for preliminary results, but the paper ballot is used in a Risk Limiting Audit (RLA) if received in time, ensuring the integrity of the election. This approach extends the time window for ballot arrival without undermining the security and accuracy of the vote count.
翻訳日:2024-11-01 04:10:03 公開日:2024-10-10
# 大規模非構造時空間データのための格子型変圧器ニューラルプロセス

Gridded Transformer Neural Processes for Large Unstructured Spatio-Temporal Data ( http://arxiv.org/abs/2410.06731v1 )

ライセンス: Link先を確認
Matthew Ashman, Cristiana Diaconu, Eric Langezaal, Adrian Weller, Richard E. Turner, (参考訳) 多くの重要な問題は大規模な時空間データセットをモデル化することを必要とし、その一例が天気予報である。 近年, 気象予報問題において, 変圧器によるアプローチは大きな可能性を秘めている。 しかし、これらは主にグリッド化されたデータソースに焦点を合わせており、気象観測所などで観測された観測データから、構造化されていない、オフザグリッドなデータの富を無視している。 このようなタスクに適したモデルとしては、ニューラル・プロセス(NP)、特にトランスフォーマー・ニューラル・プロセス(TNP)がある。 TNPは、小さな時空間データセットに将来性を示すが、最先端の気象モデルや気候モデルで使用されるデータの量にはスケールできない。 この制限は、効率的な注意機構の欠如に起因する。 本稿では,非構造化観測の処理に特殊なエンコーダとデコーダを用いるグリッドド擬似トケンTNPを導入し,効率的な注意機構を活用するグリッドド擬似トケンを含むプロセッサを活用することで,この問題に対処する。 提案手法は,大規模データを含む様々な合成および実世界の回帰タスクにおいて,競争力のある計算効率を維持しつつ,強靭なベースラインを一貫して上回る。 実生活実験は気象データに基づいて行われ、気象モデルパイプラインで大規模に適用した場合の性能と計算上の利点をもたらすアプローチの可能性を示す。

Many important problems require modelling large-scale spatio-temporal datasets, with one prevalent example being weather forecasting. Recently, transformer-based approaches have shown great promise in a range of weather forecasting problems. However, these have mostly focused on gridded data sources, neglecting the wealth of unstructured, off-the-grid data from observational measurements such as those at weather stations. A promising family of models suitable for such tasks are neural processes (NPs), notably the family of transformer neural processes (TNPs). Although TNPs have shown promise on small spatio-temporal datasets, they are unable to scale to the quantities of data used by state-of-the-art weather and climate models. This limitation stems from their lack of efficient attention mechanisms. We address this shortcoming through the introduction of gridded pseudo-token TNPs which employ specialised encoders and decoders to handle unstructured observations and utilise a processor containing gridded pseudo-tokens that leverage efficient attention mechanisms. Our method consistently outperforms a range of strong baselines on various synthetic and real-world regression tasks involving large-scale data, while maintaining competitive computational efficiency. The real-life experiments are performed on weather data, demonstrating the potential of our approach to bring performance and computational benefits when applied at scale in a weather modelling pipeline.
翻訳日:2024-11-01 04:00:11 公開日:2024-10-10
# 大規模非構造時空間データのための格子型変圧器ニューラルプロセス

Gridded Transformer Neural Processes for Large Unstructured Spatio-Temporal Data ( http://arxiv.org/abs/2410.06731v2 )

ライセンス: Link先を確認
Matthew Ashman, Cristiana Diaconu, Eric Langezaal, Adrian Weller, Richard E. Turner, (参考訳) 多くの重要な問題は大規模な時空間データセットをモデル化することを必要とし、その一例が天気予報である。 近年, 気象予報問題において, 変圧器によるアプローチは大きな可能性を秘めている。 しかし、これらは主にグリッド化されたデータソースに焦点を合わせており、気象観測所などで観測された観測データから、構造化されていない、オフザグリッドなデータの富を無視している。 このようなタスクに適したモデルとしては、ニューラル・プロセス(NP)、特にトランスフォーマー・ニューラル・プロセス(TNP)がある。 TNPは、小さな時空間データセットに将来性を示すが、最先端の気象モデルや気候モデルで使用されるデータの量にはスケールできない。 この制限は、効率的な注意機構の欠如に起因する。 本稿では,非構造化観測の処理に特殊なエンコーダとデコーダを用いるグリッドド擬似トケンTNPを導入し,効率的な注意機構を活用するグリッドド擬似トケンを含むプロセッサを活用することで,この問題に対処する。 提案手法は,大規模データを含む様々な合成および実世界の回帰タスクにおいて,競争力のある計算効率を維持しつつ,強靭なベースラインを一貫して上回る。 実生活実験は気象データに基づいて行われ、気象モデルパイプラインで大規模に適用した場合の性能と計算上の利点をもたらすアプローチの可能性を示す。

Many important problems require modelling large-scale spatio-temporal datasets, with one prevalent example being weather forecasting. Recently, transformer-based approaches have shown great promise in a range of weather forecasting problems. However, these have mostly focused on gridded data sources, neglecting the wealth of unstructured, off-the-grid data from observational measurements such as those at weather stations. A promising family of models suitable for such tasks are neural processes (NPs), notably the family of transformer neural processes (TNPs). Although TNPs have shown promise on small spatio-temporal datasets, they are unable to scale to the quantities of data used by state-of-the-art weather and climate models. This limitation stems from their lack of efficient attention mechanisms. We address this shortcoming through the introduction of gridded pseudo-token TNPs which employ specialised encoders and decoders to handle unstructured observations and utilise a processor containing gridded pseudo-tokens that leverage efficient attention mechanisms. Our method consistently outperforms a range of strong baselines on various synthetic and real-world regression tasks involving large-scale data, while maintaining competitive computational efficiency. The real-life experiments are performed on weather data, demonstrating the potential of our approach to bring performance and computational benefits when applied at scale in a weather modelling pipeline.
翻訳日:2024-11-01 04:00:11 公開日:2024-10-10
# テキスト・ツー・ヴィジュアライゼーション・モデルにおけるバックドアアタックへの疑問

Mind Your Questions Towards Backdoor Attacks on Text-to-Visualization Models ( http://arxiv.org/abs/2410.06782v1 )

ライセンス: Link先を確認
Shuaimin Li, Yuanfeng Song, Xuanang Chen, Anni Peng, Zhuoyue Wan, Chen Jason Zhang, Raymond Chi-Wing Wong, (参考訳) テキスト・ツー・ビジュアライゼーション(text-to-visualization, テキスト・ツー・ビジュアライゼーション)モデルは,ビッグデータの時代において重要なツールとなり,ユーザがデータ視覚化を生成し,自然言語クエリ(NLQ)を通じて情報決定を行うことができるようになった。 広範囲にわたるアプリケーションにもかかわらず、これらのモデルのセキュリティ脆弱性はほとんど見過ごされてきました。 このギャップに対処するために,現行のテキスト・ツー・ビジター・モデルの脆弱性を体系的に識別する新しいフレームワークであるVisPoisonを提案する。 VisPoisonは3つの異なるバックドア攻撃を起動する2つのタイプのトリガーを導入している。 プロアクティブアタックは秘密データにアクセスするためにレアワードトリガーを利用するが、パッシブアタックはユーザによって意図せずトリガーされ、ファーストワードトリガーメソッドが利用され、視覚化におけるエラーやDoSイベントが発生する。 トレーニング可能およびインコンテキスト学習(ICL)ベースのテキスト・ツー・バイ・バイ・バイ・モデルに関する広範な実験を通じて、 \textit{VisPoison} は攻撃成功率 90 % を達成し、現在のテキスト・ツー・バイ・バイ・モデルのセキュリティ問題を浮き彫りにした。 さらに,これらの攻撃に対する2つの防御機構について検討するが,既存の対策は不十分であり,テキスト・ツー・バイ・システムにおいてより堅牢なセキュリティソリューションの必要性が強調されている。

Text-to-visualization (text-to-vis) models have become valuable tools in the era of big data, enabling users to generate data visualizations and make informed decisions through natural language queries (NLQs). Despite their widespread application, the security vulnerabilities of these models have been largely overlooked. To address this gap, we propose VisPoison, a novel framework designed to identify these vulnerabilities of current text-to-vis models systematically. VisPoison introduces two types of triggers that activate three distinct backdoor attacks, potentially leading to data exposure, misleading visualizations, or denial-of-service (DoS) incidents. The framework features both proactive and passive attack mechanisms: proactive attacks leverage rare-word triggers to access confidential data, while passive attacks, triggered unintentionally by users, exploit a first-word trigger method, causing errors or DoS events in visualizations. Through extensive experiments on both trainable and in-context learning (ICL)-based text-to-vis models, \textit{VisPoison} achieves attack success rates of over 90\%, highlighting the security problem of current text-to-vis models. Additionally, we explore two types of defense mechanisms against these attacks, but the results show that existing countermeasures are insufficient, underscoring the pressing need for more robust security solutions in text-to-vis systems.
翻訳日:2024-11-01 03:40:32 公開日:2024-10-10
# 質問を意識して! テキスト・ツー・ヴィジュアライゼーション・モデルにおけるバックドア攻撃に向けて

Mind Your Questions! Towards Backdoor Attacks on Text-to-Visualization Models ( http://arxiv.org/abs/2410.06782v2 )

ライセンス: Link先を確認
Shuaimin Li, Yuanfeng Song, Xuanang Chen, Anni Peng, Zhuoyue Wan, Chen Jason Zhang, Raymond Chi-Wing Wong, (参考訳) テキスト・ツー・ビジュアライゼーション(text-to-visualization, テキスト・ツー・ビジュアライゼーション)モデルは,ビッグデータの時代において重要なツールとなり,ユーザがデータ視覚化を生成し,自然言語クエリ(NLQ)を通じて情報決定を行うことができるようになった。 広範囲にわたるアプリケーションにもかかわらず、これらのモデルのセキュリティ脆弱性はほとんど見過ごされてきました。 このギャップに対処するために,現行のテキスト・ツー・ビジター・モデルの脆弱性を体系的に識別する新しいフレームワークであるVisPoisonを提案する。 VisPoisonは3つの異なるバックドア攻撃を起動する2つのタイプのトリガーを導入している。 プロアクティブアタックは秘密データにアクセスするためにレアワードトリガーを利用するが、パッシブアタックはユーザによって意図せずトリガーされ、ファーストワードトリガーメソッドが利用され、視覚化におけるエラーやDoSイベントが発生する。 トレーニング可能およびインコンテキスト学習(ICL)ベースのテキスト・ツー・バイ・バイ・バイ・モデルに関する広範な実験を通じて、 \textit{VisPoison} は攻撃成功率 90 % を達成し、現在のテキスト・ツー・バイ・バイ・モデルのセキュリティ問題を浮き彫りにした。 さらに,これらの攻撃に対する2つの防御機構について検討するが,既存の対策は不十分であり,テキスト・ツー・バイ・システムにおいてより堅牢なセキュリティソリューションの必要性が強調されている。

Text-to-visualization (text-to-vis) models have become valuable tools in the era of big data, enabling users to generate data visualizations and make informed decisions through natural language queries (NLQs). Despite their widespread application, the security vulnerabilities of these models have been largely overlooked. To address this gap, we propose VisPoison, a novel framework designed to identify these vulnerabilities of current text-to-vis models systematically. VisPoison introduces two types of triggers that activate three distinct backdoor attacks, potentially leading to data exposure, misleading visualizations, or denial-of-service (DoS) incidents. The framework features both proactive and passive attack mechanisms: proactive attacks leverage rare-word triggers to access confidential data, while passive attacks, triggered unintentionally by users, exploit a first-word trigger method, causing errors or DoS events in visualizations. Through extensive experiments on both trainable and in-context learning (ICL)-based text-to-vis models, \textit{VisPoison} achieves attack success rates of over 90\%, highlighting the security problem of current text-to-vis models. Additionally, we explore two types of defense mechanisms against these attacks, but the results show that existing countermeasures are insufficient, underscoring the pressing need for more robust security solutions in text-to-vis systems.
翻訳日:2024-11-01 03:40:32 公開日:2024-10-10
# QuadMamba: ビジュアルステートスペースモデルのためのQuadtreeベースの選択スキャン学習

QuadMamba: Learning Quadtree-based Selective Scan for Visual State Space Model ( http://arxiv.org/abs/2410.06806v1 )

ライセンス: Link先を確認
Fei Xie, Weijia Zhang, Zhongdao Wang, Chao Ma, (参考訳) 状態空間モデル(特にマンバ)の最近の進歩は、支配的なトランスフォーマーモデルよりも優れた性能を示しており、特に2次から線形への計算複雑性の低減に寄与している。 しかし、マンバを言語から視覚的タスクに適応させることの難しさは、画像内の空間的局所性や隣接性、視覚トークン間の情報粒度の大きなばらつきなど、視覚データの特徴の違いによって生じる。 既存のビジョンであるMambaは、ラスタスキャン方式でフラットなトークンをシーケンスにアプローチし、画像の局所的な隣接性を損なうか、あるいは手動でウィンドウにトークンを分割することで、長距離モデリングと一般化の能力を制限する。 これらの制限に対処するために、クアッドツリーベースのイメージパーティションとスキャンにより、様々な粒度の局所的依存関係を効果的にキャプチャする、QuadMambaと呼ばれる新しいビジョンMambaモデルを提案する。 具体的には、我々の軽量クアッドツリーベースのスキャンモジュールは、学習窓の四辺形内の空間領域の2次元的局所性を保存することを学習する。 モジュールは各トークンのローカリティスコアをそれぞれの特徴から推定し、その後、トークンをウィンドウ四分数に適応的に分割する。 また全方向のウィンドウシフト方式を導入し、各地域をまたがるより無傷で情報的な特徴を捉える。 離散化されたクアッドツリー分割をエンドツーエンドにトレーニングできるようにするため、Gumbel-Softmaxとその直線勾配推定器に基づくシーケンスマスキング戦略をさらに考案する。 広範囲にわたる実験により、QuadMambaは画像分類、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションなど、様々なビジョンタスクにおいて最先端のパフォーマンスを達成することが示された。 コードはhttps://github.com/VISIONSJTU/QuadMambaにある。

Recent advancements in State Space Models, notably Mamba, have demonstrated superior performance over the dominant Transformer models, particularly in reducing the computational complexity from quadratic to linear. Yet, difficulties in adapting Mamba from language to vision tasks arise due to the distinct characteristics of visual data, such as the spatial locality and adjacency within images and large variations in information granularity across visual tokens. Existing vision Mamba approaches either flatten tokens into sequences in a raster scan fashion, which breaks the local adjacency of images, or manually partition tokens into windows, which limits their long-range modeling and generalization capabilities. To address these limitations, we present a new vision Mamba model, coined QuadMamba, that effectively captures local dependencies of varying granularities via quadtree-based image partition and scan. Concretely, our lightweight quadtree-based scan module learns to preserve the 2D locality of spatial regions within learned window quadrants. The module estimates the locality score of each token from their features, before adaptively partitioning tokens into window quadrants. An omnidirectional window shifting scheme is also introduced to capture more intact and informative features across different local regions. To make the discretized quadtree partition end-to-end trainable, we further devise a sequence masking strategy based on Gumbel-Softmax and its straight-through gradient estimator. Extensive experiments demonstrate that QuadMamba achieves state-of-the-art performance in various vision tasks, including image classification, object detection, instance segmentation, and semantic segmentation. The code is in https://github.com/VISIONSJTU/QuadMamba.
翻訳日:2024-11-01 03:30:47 公開日:2024-10-10
# QuadMamba: ビジュアルステートスペースモデルのためのQuadtreeベースの選択スキャン学習

QuadMamba: Learning Quadtree-based Selective Scan for Visual State Space Model ( http://arxiv.org/abs/2410.06806v2 )

ライセンス: Link先を確認
Fei Xie, Weijia Zhang, Zhongdao Wang, Chao Ma, (参考訳) 状態空間モデル(特にマンバ)の最近の進歩は、支配的なトランスフォーマーモデルよりも優れた性能を示しており、特に2次から線形への計算複雑性の低減に寄与している。 しかし、マンバを言語から視覚的タスクに適応させることの難しさは、画像内の空間的局所性や隣接性、視覚トークン間の情報粒度の大きなばらつきなど、視覚データの特徴の違いによって生じる。 既存のビジョンであるMambaは、ラスタスキャン方式でフラットなトークンをシーケンスにアプローチし、画像の局所的な隣接性を損なうか、あるいは手動でウィンドウにトークンを分割することで、長距離モデリングと一般化の能力を制限する。 これらの制限に対処するために、クアッドツリーベースのイメージパーティションとスキャンにより、様々な粒度の局所的依存関係を効果的にキャプチャする、QuadMambaと呼ばれる新しいビジョンMambaモデルを提案する。 具体的には、我々の軽量クアッドツリーベースのスキャンモジュールは、学習窓の四辺形内の空間領域の2次元的局所性を保存することを学習する。 モジュールは各トークンのローカリティスコアをそれぞれの特徴から推定し、その後、トークンをウィンドウ四分数に適応的に分割する。 また全方向のウィンドウシフト方式を導入し、各地域をまたがるより無傷で情報的な特徴を捉える。 離散化されたクアッドツリー分割をエンドツーエンドにトレーニングできるようにするため、Gumbel-Softmaxとその直線勾配推定器に基づくシーケンスマスキング戦略をさらに考案する。 広範囲にわたる実験により、QuadMambaは画像分類、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションなど、様々なビジョンタスクにおいて最先端のパフォーマンスを達成することが示された。 コードはhttps://github.com/VISION-SJTU/QuadMambaにある。

Recent advancements in State Space Models, notably Mamba, have demonstrated superior performance over the dominant Transformer models, particularly in reducing the computational complexity from quadratic to linear. Yet, difficulties in adapting Mamba from language to vision tasks arise due to the distinct characteristics of visual data, such as the spatial locality and adjacency within images and large variations in information granularity across visual tokens. Existing vision Mamba approaches either flatten tokens into sequences in a raster scan fashion, which breaks the local adjacency of images, or manually partition tokens into windows, which limits their long-range modeling and generalization capabilities. To address these limitations, we present a new vision Mamba model, coined QuadMamba, that effectively captures local dependencies of varying granularities via quadtree-based image partition and scan. Concretely, our lightweight quadtree-based scan module learns to preserve the 2D locality of spatial regions within learned window quadrants. The module estimates the locality score of each token from their features, before adaptively partitioning tokens into window quadrants. An omnidirectional window shifting scheme is also introduced to capture more intact and informative features across different local regions. To make the discretized quadtree partition end-to-end trainable, we further devise a sequence masking strategy based on Gumbel-Softmax and its straight-through gradient estimator. Extensive experiments demonstrate that QuadMamba achieves state-of-the-art performance in various vision tasks, including image classification, object detection, instance segmentation, and semantic segmentation. The code is in https://github.com/VISION-SJTU/QuadMamba.
翻訳日:2024-11-01 03:30:47 公開日:2024-10-10
# 整数上のワグナーのk-Treeアルゴリズムについて

On Wagner's k-Tree Algorithm Over Integers ( http://arxiv.org/abs/2410.06856v1 )

ライセンス: Link先を確認
Haoxing Lin, Prashant Vasudevan, (参考訳) k-Tree アルゴリズム [Wagner 02] は、暗号解析において広く用いられている平均ケース k-SUM 問題に対する非自明なアルゴリズムである。 入力は k 個のリストで構成され、それぞれサイズ m の n 個の整数を含む。 ワグナーの元々のヒューリスティック解析は、このアルゴリズムが n = m^{1/(\log{k}+1)} であれば一定の確率で成功し、この場合時間 O(kn) で実行されることを示唆している。 その後のアルゴリズムの厳密な分析 (Lyubashevsky 05, Shallue 08, Joux-Kippen-Loss 24] により、入力リストのサイズがこれよりもかなり大きい場合、高い確率で成功することを示した。 我々は、k-Treeアルゴリズムのより厳密な解析を行い、入力リストの任意のサイズに対して、その成功確率と複雑性の上限を上下に示す。 我々の結果は、ワグナーのヒューリスティックな結論を確認し、既存の分析ではカバーされていない幅広いリストサイズに有意義な境界を与える。 本稿では, 漸近的に厳密な解析的境界と, 幅広い具体的パラメータ設定に対して(確実に正しい)境界を計算する効率的なアルゴリズムを提案する。 また、Z_m 上の k-Tree アルゴリズムも同様に行う。 最後に,実験結果の厳密さを実験的に評価した。

The k-Tree algorithm [Wagner 02] is a non-trivial algorithm for the average-case k-SUM problem that has found widespread use in cryptanalysis. Its input consists of k lists, each containing n integers from a range of size m. Wagner's original heuristic analysis suggested that this algorithm succeeds with constant probability if n = m^{1/(\log{k}+1)}, and that in this case it runs in time O(kn). Subsequent rigorous analysis of the algorithm [Lyubashevsky 05, Shallue 08, Joux-Kippen-Loss 24] has shown that it succeeds with high probability if the input list sizes are significantly larger than this. We present a broader rigorous analysis of the k-Tree algorithm, showing upper and lower bounds on its success probability and complexity for any size of the input lists. Our results confirm Wagner's heuristic conclusions, and also give meaningful bounds for a wide range of list sizes that are not covered by existing analyses. We present analytical bounds that are asymptotically tight, as well as an efficient algorithm that computes (provably correct) bounds for a wide range of concrete parameter settings. We also do the same for the k-Tree algorithm over Z_m. Finally, we present experimental evaluation of the tightness of our results.
翻訳日:2024-10-31 23:47:07 公開日:2024-10-10
# 整数上のワグナーのk-Treeアルゴリズムについて

On Wagner's k-Tree Algorithm Over Integers ( http://arxiv.org/abs/2410.06856v2 )

ライセンス: Link先を確認
Haoxing Lin, Prashant Nalini Vasudevan, (参考訳) k-Tree アルゴリズム [Wagner 02] は、暗号解析において広く用いられている平均ケース k-SUM 問題に対する非自明なアルゴリズムである。 入力は k 個のリストで構成され、それぞれサイズ m の n 個の整数を含む。 ワグナーの元々のヒューリスティック解析は、このアルゴリズムが n = m^{1/(\log{k}+1)} であれば一定の確率で成功し、この場合時間 O(kn) で実行されることを示唆している。 その後のアルゴリズムの厳密な分析 (Lyubashevsky 05, Shallue 08, Joux-Kippen-Loss 24] により、入力リストのサイズがこれよりもかなり大きい場合、高い確率で成功することを示した。 我々は、k-Treeアルゴリズムのより厳密な解析を行い、入力リストの任意のサイズに対して、その成功確率と複雑性の上限を上下に示す。 我々の結果は、ワグナーのヒューリスティックな結論を確認し、既存の分析ではカバーされていない幅広いリストサイズに有意義な境界を与える。 本稿では, 漸近的に厳密な解析的境界と, 幅広い具体的パラメータ設定に対して(確実に正しい)境界を計算する効率的なアルゴリズムを提案する。 また、Z_m 上の k-Tree アルゴリズムも同様に行う。 最後に,実験結果の厳密さを実験的に評価した。

The k-Tree algorithm [Wagner 02] is a non-trivial algorithm for the average-case k-SUM problem that has found widespread use in cryptanalysis. Its input consists of k lists, each containing n integers from a range of size m. Wagner's original heuristic analysis suggested that this algorithm succeeds with constant probability if n = m^{1/(\log{k}+1)}, and that in this case it runs in time O(kn). Subsequent rigorous analysis of the algorithm [Lyubashevsky 05, Shallue 08, Joux-Kippen-Loss 24] has shown that it succeeds with high probability if the input list sizes are significantly larger than this. We present a broader rigorous analysis of the k-Tree algorithm, showing upper and lower bounds on its success probability and complexity for any size of the input lists. Our results confirm Wagner's heuristic conclusions, and also give meaningful bounds for a wide range of list sizes that are not covered by existing analyses. We present analytical bounds that are asymptotically tight, as well as an efficient algorithm that computes (provably correct) bounds for a wide range of concrete parameter settings. We also do the same for the k-Tree algorithm over Z_m. Finally, we present experimental evaluation of the tightness of our results.
翻訳日:2024-10-31 23:47:07 公開日:2024-10-10
# ドメイン適応のための分散に基づくスパイキンググラフネットワーク

Degree Distribution based Spiking Graph Networks for Domain Adaptation ( http://arxiv.org/abs/2410.06883v1 )

ライセンス: Link先を確認
Yingxu Wang, Siwei Liu, Mengzhu Wang, Shangsong Liang, Nan Yin, (参考訳) Spiking Graph Networks (SGNs)は、グラフ分類におけるエネルギー消費の課題に対処する能力のために、研究者と業界双方から大きな注目を集めている。 しかし、SGNは分布内データにのみ有効であり、分布外データに対処できない。 本稿ではまず,SGNにおけるドメイン適応問題を提案し,Dreee-aware Spiking Graph Domain Adaptation for Classificationという新しいフレームワークを提案する。 The proposed DeSGDA address the spiking graph domain adapt problem by three aspects: node degree-aware Personal spiking representation, adversarial feature distribution alignment, pseudo-label distillation。 まず、次数依存のスパイキング信号を生成するためのパーソナライズされたスパイキング表現法を提案する。 具体的には、スパイクをトリガーする閾値はノード次数によって決定され、このパーソナライズされたアプローチは分類のためのより表現力のある情報を取得することができる。 そこで本研究では,膜電位をドメイン判別器に対して逆向きに訓練したグラフ特徴分布アライメントモジュールを提案する。 このようなアライメントモジュールは、不整合分布の場合、高性能かつ低エネルギー消費を効率的に維持することができる。 さらに、2つの空間にまたがる一貫した予測を抽出し、信頼性の高い擬似ラベルを作成し、グラフ分類性能を向上させるためにラベルのないデータを効果的に活用する。 ベンチマークデータセットの大規模な実験は、提案したDeSGDAの優位性を競合ベースラインと比較して検証する。

Spiking Graph Networks (SGNs) have garnered significant attraction from both researchers and industry due to their ability to address energy consumption challenges in graph classification. However, SGNs are only effective for in-distribution data and cannot tackle out-of-distribution data. In this paper, we first propose the domain adaptation problem in SGNs, and introduce a novel framework named Degree-aware Spiking Graph Domain Adaptation for Classification. The proposed DeSGDA addresses the spiking graph domain adaptation problem by three aspects: node degree-aware personalized spiking representation, adversarial feature distribution alignment, and pseudo-label distillation. First, we introduce the personalized spiking representation method for generating degree-dependent spiking signals. Specifically, the threshold of triggering a spike is determined by the node degree, allowing this personalized approach to capture more expressive information for classification. Then, we propose the graph feature distribution alignment module that is adversarially trained using membrane potential against a domain discriminator. Such an alignment module can efficiently maintain high performance and low energy consumption in the case of inconsistent distribution. Additionally, we extract consistent predictions across two spaces to create reliable pseudo-labels, effectively leveraging unlabeled data to enhance graph classification performance. Extensive experiments on benchmark datasets validate the superiority of the proposed DeSGDA compared with competitive baselines.
翻訳日:2024-10-31 23:47:07 公開日:2024-10-10
# ドメイン適応のための分散に基づくスパイキンググラフネットワーク

Degree Distribution based Spiking Graph Networks for Domain Adaptation ( http://arxiv.org/abs/2410.06883v2 )

ライセンス: Link先を確認
Yingxu Wang, Siwei Liu, Mengzhu Wang, Shangsong Liang, Nan Yin, (参考訳) Spiking Graph Networks (SGNs)は、グラフ分類におけるエネルギー消費の課題に対処する能力のために、研究者と業界双方から大きな注目を集めている。 しかし、SGNは分布内データにのみ有効であり、分布外データに対処できない。 本稿ではまず,SGNにおけるドメイン適応問題を提案し,Dreee-aware Spiking Graph Domain Adaptation for Classificationという新しいフレームワークを提案する。 The proposed DeSGDA address the spiking graph domain adapt problem by three aspects: node degree-aware Personal spiking representation, adversarial feature distribution alignment, pseudo-label distillation。 まず、次数依存のスパイキング信号を生成するためのパーソナライズされたスパイキング表現法を提案する。 具体的には、スパイクをトリガーする閾値はノード次数によって決定され、このパーソナライズされたアプローチは分類のためのより表現力のある情報を取得することができる。 そこで本研究では,膜電位をドメイン判別器に対して逆向きに訓練したグラフ特徴分布アライメントモジュールを提案する。 このようなアライメントモジュールは、不整合分布の場合、高性能かつ低エネルギー消費を効率的に維持することができる。 さらに、2つの空間にまたがる一貫した予測を抽出し、信頼性の高い擬似ラベルを作成し、グラフ分類性能を向上させるためにラベルのないデータを効果的に活用する。 ベンチマークデータセットの大規模な実験は、提案したDeSGDAの優位性を競合ベースラインと比較して検証する。

Spiking Graph Networks (SGNs) have garnered significant attraction from both researchers and industry due to their ability to address energy consumption challenges in graph classification. However, SGNs are only effective for in-distribution data and cannot tackle out-of-distribution data. In this paper, we first propose the domain adaptation problem in SGNs, and introduce a novel framework named Degree-aware Spiking Graph Domain Adaptation for Classification. The proposed DeSGDA addresses the spiking graph domain adaptation problem by three aspects: node degree-aware personalized spiking representation, adversarial feature distribution alignment, and pseudo-label distillation. First, we introduce the personalized spiking representation method for generating degree-dependent spiking signals. Specifically, the threshold of triggering a spike is determined by the node degree, allowing this personalized approach to capture more expressive information for classification. Then, we propose the graph feature distribution alignment module that is adversarially trained using membrane potential against a domain discriminator. Such an alignment module can efficiently maintain high performance and low energy consumption in the case of inconsistent distribution. Additionally, we extract consistent predictions across two spaces to create reliable pseudo-labels, effectively leveraging unlabeled data to enhance graph classification performance. Extensive experiments on benchmark datasets validate the superiority of the proposed DeSGDA compared with competitive baselines.
翻訳日:2024-10-31 23:47:07 公開日:2024-10-10
# 自律的応用のための信頼性の高い確率的人間軌道予測

Reliable Probabilistic Human Trajectory Prediction for Autonomous Applications ( http://arxiv.org/abs/2410.06905v1 )

ライセンス: Link先を確認
Manuel Hetzel, Hannes Reichert, Konrad Doll, Bernhard Sick, (参考訳) 車両やロボットのような自律システムは、安全で正確で、リソース効率が高く、スケーラブルで、低レイテンシな軌道予測を必要とする。 さらに、安全な経路計画を提供するためには、リスク評価の予測の不確実性を知る必要がある。 本稿では,これらの要求に対処する軽量な手法として,Long Short-Term Memory と Mixture Density Networks を提案する。 提案手法は,次のリスク管理アプリケーションをサポートするための位置不確実性に対する信頼度推定を含む確率分布を予測し,低消費電力の組込みプラットフォーム上で動作させる。 自動運転車アプリケーションにおける人体軌道予測の必須要件について検討し、複数の交通関連データセットを用いて本手法の性能を実証する。 さらに、信頼性と鋭さの指標を説明し、モデルの予測と不確実性評価の正確性と堅牢性を保証することがいかに重要であるかを示す。 これらの本質的な評価は、正当な理由からほとんど注目されていない。 私たちのアプローチは、実世界の適用性に重点を置いています。 予測の不確かさの検証とモデルの信頼性は、自律現実の応用の中心である。 私たちのフレームワークとコードは、https://github.com/kav-institute/mdn_trajectory_forecasting.comで利用可能です。

Autonomous systems, like vehicles or robots, require reliable, accurate, fast, resource-efficient, scalable, and low-latency trajectory predictions to get initial knowledge about future locations and movements of surrounding objects for safe human-machine interaction. Furthermore, they need to know the uncertainty of the predictions for risk assessment to provide safe path planning. This paper presents a lightweight method to address these requirements, combining Long Short-Term Memory and Mixture Density Networks. Our method predicts probability distributions, including confidence level estimations for positional uncertainty to support subsequent risk management applications and runs on a low-power embedded platform. We discuss essential requirements for human trajectory prediction in autonomous vehicle applications and demonstrate our method's performance using multiple traffic-related datasets. Furthermore, we explain reliability and sharpness metrics and show how important they are to guarantee the correctness and robustness of a model's predictions and uncertainty assessments. These essential evaluations have so far received little attention for no good reason. Our approach focuses entirely on real-world applicability. Verifying prediction uncertainties and a model's reliability are central to autonomous real-world applications. Our framework and code are available at: https://github.com/kav-institute/mdn_trajectory_forecasting.
翻訳日:2024-10-31 23:37:21 公開日:2024-10-10
# 自律的応用のための信頼性の高い確率的人間軌道予測

Reliable Probabilistic Human Trajectory Prediction for Autonomous Applications ( http://arxiv.org/abs/2410.06905v2 )

ライセンス: Link先を確認
Manuel Hetzel, Hannes Reichert, Konrad Doll, Bernhard Sick, (参考訳) 車両やロボットのような自律システムは、安全で正確で、リソース効率が高く、スケーラブルで、低レイテンシな軌道予測を必要とする。 さらに、安全な経路計画を提供するためには、リスク評価の予測の不確実性を知る必要がある。 本稿では,これらの要求に対処する軽量な手法として,Long Short-Term Memory と Mixture Density Networks を提案する。 提案手法は,次のリスク管理アプリケーションをサポートするための位置不確実性に対する信頼度推定を含む確率分布を予測し,低消費電力の組込みプラットフォーム上で動作させる。 自動運転車アプリケーションにおける人体軌道予測の必須要件について検討し、複数の交通関連データセットを用いて本手法の性能を実証する。 さらに、信頼性と鋭さの指標を説明し、モデルの予測と不確実性評価の正確性と堅牢性を保証することがいかに重要であるかを示す。 これらの本質的な評価は、正当な理由からほとんど注目されていない。 私たちのアプローチは、実世界の適用性に重点を置いています。 予測の不確かさの検証とモデルの信頼性は、自律現実の応用の中心である。 私たちのフレームワークとコードは、https://github.com/kav-institute/mdn_trajectory_forecasting.comで利用可能です。

Autonomous systems, like vehicles or robots, require reliable, accurate, fast, resource-efficient, scalable, and low-latency trajectory predictions to get initial knowledge about future locations and movements of surrounding objects for safe human-machine interaction. Furthermore, they need to know the uncertainty of the predictions for risk assessment to provide safe path planning. This paper presents a lightweight method to address these requirements, combining Long Short-Term Memory and Mixture Density Networks. Our method predicts probability distributions, including confidence level estimations for positional uncertainty to support subsequent risk management applications and runs on a low-power embedded platform. We discuss essential requirements for human trajectory prediction in autonomous vehicle applications and demonstrate our method's performance using multiple traffic-related datasets. Furthermore, we explain reliability and sharpness metrics and show how important they are to guarantee the correctness and robustness of a model's predictions and uncertainty assessments. These essential evaluations have so far received little attention for no good reason. Our approach focuses entirely on real-world applicability. Verifying prediction uncertainties and a model's reliability are central to autonomous real-world applications. Our framework and code are available at: https://github.com/kav-institute/mdn_trajectory_forecasting.
翻訳日:2024-10-31 23:37:21 公開日:2024-10-10
# EUで行うべきかどうか:クッキーペイウォールに現れる不一致の測定

To Be or Not to Be (in the EU): Measurement of Discrepancies Presented in Cookie Paywalls ( http://arxiv.org/abs/2410.06920v1 )

ライセンス: Link先を確認
Andreas Stenwreth, Simon Täng, Victor Morel, (参考訳) クッキーのペイウォールは、料金(支払いオプション)の支払いと追跡(クーキーオプション)のどちらかを選択した後のみ、訪問者がウェブサイトのコンテンツにアクセスできるようにする。 この実践は、その有病率と法的地位に関して以前の研究で研究されてきたが、クライアントのデバイスと地理的位置の影響は未解明のままである。 これらの疑問に対処するために,本研究では3つの要因について検討する。 1) クライアントのブラウザ。 2)デバイスタイプ(デスクトップまたはモバイル)、 3) クッキーペイウォールの存在と振舞いの地理的位置とユーザデータの扱いについて検討した。 クッキーペイウォールを提示する804のWebサイトで構成されたデータセット上の自動クローラを用いて,クッキーペイウォールの存在がユーザの地理的な位置に影響されていることを確認した。 さらに、クッキーペイウォールの動作とユーザデータの処理が3つの要因すべてに影響されていることも示しましたが、重要なパターンは見つからなかったのです。 最後に、調査対象ウェブサイトの約11%で使われる追加のペイウォールが発見され、追跡が受け入れられると、別のペイウォールが補完するクッキーペイウォールからなる「ダブルペイウォール」が作られた。

Cookie paywalls allow visitors to access the content of a website only after making a choice between paying a fee (paying option) or accepting tracking (cookie option). The practice has been studied in previous research in regard to its prevalence and legal standing, but the effects of the clients' device and geographic location remain unexplored. To address these questions, this study explores the effects of three factors: 1) the clients' browser, 2) the device type (desktop or mobile), and 3) the geographic location on the presence and behavior of cookie paywalls and the handling of users' data. Using an automatic crawler on our dataset composed of 804 websites that present a cookie paywall, we observed that the presence of a cookie paywall was most affected by the geographic location of the user. We further showed that both the behavior of a cookie paywall and the processing of user data are impacted by all three factors, but no patterns of significance could be found. Finally, an additional type of paywall was discovered to be used on approximately 11% of the studied websites, coined the "double paywall", which consists of a cookie paywall complemented by another paywall once tracking is accepted.
翻訳日:2024-10-31 23:37:21 公開日:2024-10-10
# EUで行うべきかどうか:クッキーペイウォールに現れる不一致の測定

To Be or Not to Be (in the EU): Measurement of Discrepancies Presented in Cookie Paywalls ( http://arxiv.org/abs/2410.06920v2 )

ライセンス: Link先を確認
Andreas Stenwreth, Simon Täng, Victor Morel, (参考訳) クッキーのペイウォールは、料金(支払いオプション)の支払いと追跡(クーキーオプション)のどちらかを選択した後のみ、訪問者がウェブサイトのコンテンツにアクセスできるようにする。 この実践は、その有病率と法的地位に関して以前の研究で研究されてきたが、クライアントのデバイスと地理的位置の影響は未解明のままである。 これらの疑問に対処するために,本研究では3つの要因について検討する。 1) クライアントのブラウザ。 2)デバイスタイプ(デスクトップまたはモバイル)、 3) クッキーペイウォールの存在と振舞いの地理的位置とユーザデータの扱いについて検討した。 クッキーペイウォールを提示する804のWebサイトで構成されたデータセット上の自動クローラを用いて,クッキーペイウォールの存在がユーザの地理的な位置に影響されていることを確認した。 さらに、クッキーペイウォールの動作とユーザデータの処理が3つの要因すべてに影響されていることも示しましたが、重要なパターンは見つからなかったのです。 最後に、調査対象ウェブサイトの約11%で使われる追加のペイウォールが発見され、追跡が受け入れられると、別のペイウォールが補完するクッキーペイウォールからなる「ダブルペイウォール」が作られた。

Cookie paywalls allow visitors to access the content of a website only after making a choice between paying a fee (paying option) or accepting tracking (cookie option). The practice has been studied in previous research in regard to its prevalence and legal standing, but the effects of the clients' device and geographic location remain unexplored. To address these questions, this study explores the effects of three factors: 1) the clients' browser, 2) the device type (desktop or mobile), and 3) the geographic location on the presence and behavior of cookie paywalls and the handling of users' data. Using an automatic crawler on our dataset composed of 804 websites that present a cookie paywall, we observed that the presence of a cookie paywall was most affected by the geographic location of the user. We further showed that both the behavior of a cookie paywall and the processing of user data are impacted by all three factors, but no patterns of significance could be found. Finally, an additional type of paywall was discovered to be used on approximately 11% of the studied websites, coined the "double paywall", which consists of a cookie paywall complemented by another paywall once tracking is accepted.
翻訳日:2024-10-31 23:37:21 公開日:2024-10-10
# SWE-Bench+: LLMの符号化ベンチマークの強化

SWE-Bench+: Enhanced Coding Benchmark for LLMs ( http://arxiv.org/abs/2410.06992v1 )

ライセンス: Link先を確認
Reem Aleithan, Haoran Xue, Mohammad Mahdi Mohajer, Elijah Nnorom, Gias Uddin, Song Wang, (参考訳) ソフトウェア工学(SE)のLLM(Large Language Models)は、コーディングの補助を提供する。 実用的なコーディングコンテキストにおけるLSMの厳密な評価を容易にするため、Carlosらは、SWE-benchデータセットを導入した。 LLMベースのツールキットが最近開発され、このデータセットで評価されている。 しかし,SWEベンチの品質の体系的評価はいまだに欠落している。 本稿では,SWE-benchデータセットの実証分析を行い,このギャップに対処する。 SWEAgent + GPT-4がモデル生成パッチと実際のプルリクエストを比較することで,問題の解決に成功したインスタンスを手動でスクリーニングした。 研究期間中,SWE-Agent+GPT-4はSWE-benchのリーダーボードの一番上にあった。 我々の分析は、SWE-benchデータセットにおけるいくつかの重要な問題を明らかにしている。 1) パッチの成功率の32.67%は、イシューレポートやコメントにソリューションが直接提供されているため、不正行為を伴っている。 解決策リーク問題と呼ぶ。 2) 通過したパッチの31.08%は, 弱いテストケースによる不審なパッチであり, パッチの正当性を検証するには不十分であった。 これらの問題をフィルタリングすると、SWE-Agent+GPT-4の分解率は12.47%から3.97%に低下した。 また,SWE-bench LiteとSWE-Bench Verifiedの2つの変種にデータ品質の問題が存在することも確認した。 加えて、LLMの知識の遮断日以前に94%以上の問題が作成され、潜在的なデータ漏洩の問題を引き起こした。

Large Language Models (LLMs) in Software Engineering (SE) can offer assistance for coding. To facilitate a rigorous evaluation of LLMs in practical coding contexts, Carlos et al. introduced the SWE-bench dataset, which comprises 2,294 real-world GitHub issues and their corresponding pull requests, collected from 12 widely used Python repositories. Several impressive LLM-based toolkits recently are developed and evaluated on this dataset. However, a systematic evaluation of the quality of SWE-bench remains missing. In this paper, we addressed this gap by presenting an empirical analysis of the SWE-bench dataset. We conducted a manual screening of instances where SWEAgent + GPT-4 successfully resolved issues by comparing the model-generated patches with the actual pull requests. SWE-Agent+GPT-4 was at the top of SWE-bench leaderboard during the time of our study. Our analysis reveals some critical issues with the SWE-bench dataset: 1) 32.67% of the successful patches involve cheating as the solutions were directly provided in the issue report or the comments. We refer to as solution leakage problem. 2) 31.08% of the passed patches are suspicious patches due to weak test cases, i.e., the tests were not adequate to verify the correctness of a patch. When we filtered out these problematic issues, the resolution rate of SWE-Agent+GPT-4 dropped from 12.47% to 3.97%. We also observed that the same data quality issues also exist in the two variants of SWE-bench, i.e., SWE-bench Lite and SWE-Bench Verified. In addition, over 94% of the issues were created before LLM's knowledge cutoff dates, posing potential data leakage issues.
翻訳日:2024-10-31 23:07:19 公開日:2024-10-10
# SWE-Bench+: LLMの符号化ベンチマークの強化

SWE-Bench+: Enhanced Coding Benchmark for LLMs ( http://arxiv.org/abs/2410.06992v2 )

ライセンス: Link先を確認
Reem Aleithan, Haoran Xue, Mohammad Mahdi Mohajer, Elijah Nnorom, Gias Uddin, Song Wang, (参考訳) ソフトウェア工学(SE)のLLM(Large Language Models)は、コーディングの補助を提供する。 実用的なコーディングコンテキストにおけるLSMの厳密な評価を容易にするため、Carlosらは、SWE-benchデータセットを導入した。 LLMベースのツールキットが最近開発され、このデータセットで評価されている。 しかし,SWEベンチの品質の体系的評価はいまだに欠落している。 本稿では,SWE-benchデータセットの実証分析を行い,このギャップに対処する。 SWEAgent + GPT-4がモデル生成パッチと実際のプルリクエストを比較することで,問題の解決に成功したインスタンスを手動でスクリーニングした。 研究期間中,SWE-Agent+GPT-4はSWE-benchのリーダーボードの一番上にあった。 我々の分析は、SWE-benchデータセットにおけるいくつかの重要な問題を明らかにしている。 1) パッチの成功率の32.67%は、イシューレポートやコメントにソリューションが直接提供されているため、不正行為を伴っている。 解決策リーク問題と呼ぶ。 2) 通過したパッチの31.08%は, 弱いテストケースによる不審なパッチであり, パッチの正当性を検証するには不十分であった。 これらの問題をフィルタリングすると、SWE-Agent+GPT-4の分解率は12.47%から3.97%に低下した。 また,SWE-bench LiteとSWE-Bench Verifiedの2つの変種にデータ品質の問題が存在することも確認した。 加えて、LLMの知識の遮断日以前に94%以上の問題が作成され、潜在的なデータ漏洩の問題を引き起こした。

Large Language Models (LLMs) in Software Engineering (SE) can offer assistance for coding. To facilitate a rigorous evaluation of LLMs in practical coding contexts, Carlos et al. introduced the SWE-bench dataset, which comprises 2,294 real-world GitHub issues and their corresponding pull requests, collected from 12 widely used Python repositories. Several impressive LLM-based toolkits recently are developed and evaluated on this dataset. However, a systematic evaluation of the quality of SWE-bench remains missing. In this paper, we addressed this gap by presenting an empirical analysis of the SWE-bench dataset. We conducted a manual screening of instances where SWEAgent + GPT-4 successfully resolved issues by comparing the model-generated patches with the actual pull requests. SWE-Agent+GPT-4 was at the top of SWE-bench leaderboard during the time of our study. Our analysis reveals some critical issues with the SWE-bench dataset: 1) 32.67% of the successful patches involve cheating as the solutions were directly provided in the issue report or the comments. We refer to as solution leakage problem. 2) 31.08% of the passed patches are suspicious patches due to weak test cases, i.e., the tests were not adequate to verify the correctness of a patch. When we filtered out these problematic issues, the resolution rate of SWE-Agent+GPT-4 dropped from 12.47% to 3.97%. We also observed that the same data quality issues also exist in the two variants of SWE-bench, i.e., SWE-bench Lite and SWE-Bench Verified. In addition, over 94% of the issues were created before LLM's knowledge cutoff dates, posing potential data leakage issues.
翻訳日:2024-10-31 23:07:19 公開日:2024-10-10
# 交通研究における深部生成モデル入門とチュートリアル

A Gentle Introduction and Tutorial on Deep Generative Models in Transportation Research ( http://arxiv.org/abs/2410.07066v1 )

ライセンス: Link先を確認
Seongjin Choi, Zhixiong Jin, Seungwoo Ham, Jiwon Kim, Lijun Sun, (参考訳) 近年, 深部生成モデル (DGM) は, 複雑なデータ分布を学習し, 合成データを生成する能力から, 様々な分野で重要なツールとなっている。 交通研究におけるその重要性は、特に交通データ生成、予測、特徴抽出といった応用において、ますます認識されている。 本稿では,DGMの総合的な紹介とチュートリアルについて紹介する。 これは生成モデルの概要から始まり、続いて基本モデルの詳細な説明、文献の体系的なレビュー、実装を支援するための実践的なチュートリアルコードなどが続く。 また,輸送研究においてこれらのモデルを効果的に活用し,さらに発展させる方法について,現状の課題と機会についても論じる。 本論文は, 基礎知識からDGMの先進的応用まで, 研究者や実践者を導く上で, 貴重な参考資料として機能する。

Deep Generative Models (DGMs) have rapidly advanced in recent years, becoming essential tools in various fields due to their ability to learn complex data distributions and generate synthetic data. Their importance in transportation research is increasingly recognized, particularly for applications like traffic data generation, prediction, and feature extraction. This paper offers a comprehensive introduction and tutorial on DGMs, with a focus on their applications in transportation. It begins with an overview of generative models, followed by detailed explanations of fundamental models, a systematic review of the literature, and practical tutorial code to aid implementation. The paper also discusses current challenges and opportunities, highlighting how these models can be effectively utilized and further developed in transportation research. This paper serves as a valuable reference, guiding researchers and practitioners from foundational knowledge to advanced applications of DGMs in transportation research.
翻訳日:2024-10-31 22:47:07 公開日:2024-10-10
# 交通研究における深部生成モデル入門とチュートリアル

A Gentle Introduction and Tutorial on Deep Generative Models in Transportation Research ( http://arxiv.org/abs/2410.07066v2 )

ライセンス: Link先を確認
Seongjin Choi, Zhixiong Jin, Seung Woo Ham, Jiwon Kim, Lijun Sun, (参考訳) 近年, 深部生成モデル (DGM) は, 複雑なデータ分布を学習し, 合成データを生成する能力から, 様々な分野で重要なツールとなっている。 交通研究におけるその重要性は、特に交通データ生成、予測、特徴抽出といった応用において、ますます認識されている。 本稿では,DGMの総合的な紹介とチュートリアルについて紹介する。 これは生成モデルの概要から始まり、続いて基本モデルの詳細な説明、文献の体系的なレビュー、実装を支援するための実践的なチュートリアルコードなどが続く。 また,輸送研究においてこれらのモデルを効果的に活用し,さらに発展させる方法について,現状の課題と機会についても論じる。 本論文は, 基礎知識からDGMの先進的応用まで, 研究者や実践者を導く上で, 貴重な参考資料として機能する。

Deep Generative Models (DGMs) have rapidly advanced in recent years, becoming essential tools in various fields due to their ability to learn complex data distributions and generate synthetic data. Their importance in transportation research is increasingly recognized, particularly for applications like traffic data generation, prediction, and feature extraction. This paper offers a comprehensive introduction and tutorial on DGMs, with a focus on their applications in transportation. It begins with an overview of generative models, followed by detailed explanations of fundamental models, a systematic review of the literature, and practical tutorial code to aid implementation. The paper also discusses current challenges and opportunities, highlighting how these models can be effectively utilized and further developed in transportation research. This paper serves as a valuable reference, guiding researchers and practitioners from foundational knowledge to advanced applications of DGMs in transportation research.
翻訳日:2024-10-31 22:47:07 公開日:2024-10-10
# Pixtral 12B

Pixtral 12B ( http://arxiv.org/abs/2410.07073v1 )

ライセンス: Link先を確認
Pravesh Agrawal, Szymon Antoniak, Emma Bou Hanna, Devendra Chaplot, Jessica Chudnovsky, Saurabh Garg, Theophile Gervet, Soham Ghosh, Amélie Héliou, Paul Jacob, Albert Q. Jiang, Timothée Lacroix, Guillaume Lample, Diego Las Casas, Thibaut Lavril, Teven Le Scao, Andy Lo, William Marshall, Louis Martin, Arthur Mensch, Pavankumar Muddireddy, Valera Nemychnikova, Marie Pellat, Patrick Von Platen, Nikhil Raghuraman, Baptiste Rozière, Alexandre Sablayrolles, Lucile Saulnier, Romain Sauvestre, Wendy Shang, Roman Soletskyi, Lawrence Stewart, Pierre Stock, Joachim Studnia, Sandeep Subramanian, Sagar Vaze, Thomas Wang, (参考訳) 12ビリオンパラメトリック言語モデルであるPixtral-12Bを導入する。 Pixtral-12Bは、自然画像とドキュメントの両方を理解するために訓練されており、様々なマルチモーダルベンチマークで主要なパフォーマンスを達成し、多くの大きなモデルを上回っている。 多くのオープンソースモデルとは異なり、Pixtralはそのサイズに対して最先端のテキストモデルであり、マルチモーダルタスクにおいて優れた自然言語性能を損なうことはない。 Pixtralは、スクラッチから訓練された新しい視覚エンコーダを使用して、自然な解像度とアスペクト比で画像を取り込みます。 これにより、ユーザーは画像を処理するために使用されるトークンの数に柔軟性を持つことができる。 Pixtralはまた、128Kトークンの長いコンテキストウィンドウで、任意の数の画像を処理できる。 Pixtral 12Bは同様の大きさのオープンモデル(Llama-3.2 11B \&Qwen-2-VL 7B)を上回っている。 また、Llama-3.2 90Bのようなより大型のオープンモデルよりも7倍小さい。 さらに,実践シナリオにおける視覚言語モデル評価のためのオープンソースベンチマークMM-MT-Benchを寄贈し,マルチモーダルLLMの標準化評価プロトコルに関する詳細な分析とコードを提供する。 Pixtral-12BはApache 2.0ライセンスでリリースされている。

We introduce Pixtral-12B, a 12--billion-parameter multimodal language model. Pixtral-12B is trained to understand both natural images and documents, achieving leading performance on various multimodal benchmarks, surpassing a number of larger models. Unlike many open-source models, Pixtral is also a cutting-edge text model for its size, and does not compromise on natural language performance to excel in multimodal tasks. Pixtral uses a new vision encoder trained from scratch, which allows it to ingest images at their natural resolution and aspect ratio. This gives users flexibility on the number of tokens used to process an image. Pixtral is also able to process any number of images in its long context window of 128K tokens. Pixtral 12B substanially outperforms other open models of similar sizes (Llama-3.2 11B \& Qwen-2-VL 7B). It also outperforms much larger open models like Llama-3.2 90B while being 7x smaller. We further contribute an open-source benchmark, MM-MT-Bench, for evaluating vision-language models in practical scenarios, and provide detailed analysis and code for standardized evaluation protocols for multimodal LLMs. Pixtral-12B is released under Apache 2.0 license.
翻訳日:2024-10-31 22:37:20 公開日:2024-10-10
# Pixtral 12B

Pixtral 12B ( http://arxiv.org/abs/2410.07073v2 )

ライセンス: Link先を確認
Pravesh Agrawal, Szymon Antoniak, Emma Bou Hanna, Baptiste Bout, Devendra Chaplot, Jessica Chudnovsky, Diogo Costa, Baudouin De Monicault, Saurabh Garg, Theophile Gervet, Soham Ghosh, Amélie Héliou, Paul Jacob, Albert Q. Jiang, Kartik Khandelwal, Timothée Lacroix, Guillaume Lample, Diego Las Casas, Thibaut Lavril, Teven Le Scao, Andy Lo, William Marshall, Louis Martin, Arthur Mensch, Pavankumar Muddireddy, Valera Nemychnikova, Marie Pellat, Patrick Von Platen, Nikhil Raghuraman, Baptiste Rozière, Alexandre Sablayrolles, Lucile Saulnier, Romain Sauvestre, Wendy Shang, Roman Soletskyi, Lawrence Stewart, Pierre Stock, Joachim Studnia, Sandeep Subramanian, Sagar Vaze, Thomas Wang, Sophia Yang, (参考訳) 12ビリオンパラメトリック言語モデルであるPixtral-12Bを導入する。 Pixtral-12Bは、自然画像とドキュメントの両方を理解するために訓練されており、様々なマルチモーダルベンチマークで主要なパフォーマンスを達成し、多くの大きなモデルを上回っている。 多くのオープンソースモデルとは異なり、Pixtralはそのサイズに対して最先端のテキストモデルであり、マルチモーダルタスクにおいて優れた自然言語性能を損なうことはない。 Pixtralは、スクラッチから訓練された新しい視覚エンコーダを使用して、自然な解像度とアスペクト比で画像を取り込みます。 これにより、ユーザーは画像を処理するために使用されるトークンの数に柔軟性を持つことができる。 Pixtralはまた、128Kトークンの長いコンテキストウィンドウで、任意の数の画像を処理できる。 Pixtral 12Bは同様の大きさのオープンモデル(Llama-3.2 11B \&Qwen-2-VL 7B)を上回っている。 また、Llama-3.2 90Bのようなより大型のオープンモデルよりも7倍小さい。 さらに,実践シナリオにおける視覚言語モデル評価のためのオープンソースベンチマークMM-MT-Benchを寄贈し,マルチモーダルLLMの標準化評価プロトコルに関する詳細な分析とコードを提供する。 Pixtral-12BはApache 2.0ライセンスでリリースされている。

We introduce Pixtral-12B, a 12--billion-parameter multimodal language model. Pixtral-12B is trained to understand both natural images and documents, achieving leading performance on various multimodal benchmarks, surpassing a number of larger models. Unlike many open-source models, Pixtral is also a cutting-edge text model for its size, and does not compromise on natural language performance to excel in multimodal tasks. Pixtral uses a new vision encoder trained from scratch, which allows it to ingest images at their natural resolution and aspect ratio. This gives users flexibility on the number of tokens used to process an image. Pixtral is also able to process any number of images in its long context window of 128K tokens. Pixtral 12B substanially outperforms other open models of similar sizes (Llama-3.2 11B \& Qwen-2-VL 7B). It also outperforms much larger open models like Llama-3.2 90B while being 7x smaller. We further contribute an open-source benchmark, MM-MT-Bench, for evaluating vision-language models in practical scenarios, and provide detailed analysis and code for standardized evaluation protocols for multimodal LLMs. Pixtral-12B is released under Apache 2.0 license.
翻訳日:2024-10-31 22:37:20 公開日:2024-10-10
# リアリスティックなUAVビジョンランゲージナビゲーションに向けて:プラットフォーム,ベンチマーク,方法論

Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology ( http://arxiv.org/abs/2410.07087v1 )

ライセンス: Link先を確認
Xiangyu Wang, Donglin Yang, Ziqin Wang, Hohin Kwan, Jinyu Chen, Wenjun Wu, Hongsheng Li, Yue Liao, Si Liu, (参考訳) 視覚言語ナビゲーション(VLN)として知られる言語指示や視覚情報に基づいて、目標地点へのナビゲートが可能な開発エージェントが広く関心を集めている。 ほとんどの研究は地上のエージェントに焦点をあてているが、UAVベースのVLNは比較的未調査である。 UAV視覚言語ナビゲーションにおける最近の取り組みは、主に地上ベースのVLN設定を採用しており、事前に定義された個別の行動空間に依存し、エージェントの運動力学における固有の相違や、地上環境と空中環境の間のナビゲーションタスクの複雑さを無視している。 これらの格差と課題に対処するために、プラットフォーム、ベンチマーク、方法論という3つの観点から解決策を提案する。 VLNタスクにおけるリアルなUAV軌道シミュレーションを実現するために,多様な環境,現実的な飛行制御,広範囲なアルゴリズム支援を備えたOpenUAVプラットフォームを提案する。 さらに、このプラットフォーム上で約12kの軌道からなる目標指向VLNデータセットを構築し、現実的なUAV VLNタスクに特化して設計された最初のデータセットとして機能する。 複雑な空域環境がもたらす課題に対処するため,UAV-Need-Helpと呼ばれる補助誘導型UAVオブジェクト探索ベンチマークを提案する。 また、マルチビュー画像、タスク記述、アシスタント命令を付与し、MLLMのマルチモーダル理解機能を利用して視覚情報とテキスト情報を共同処理し、階層的な軌道生成を行うUAVナビゲーションLLMを提案する。 評価結果は,UAV-Need-Helpタスクの課題を裏付けるものとして,評価結果と人的操作者の間には大きな差があるものの,ベースラインモデルよりも有意に優れていた。

Developing agents capable of navigating to a target location based on language instructions and visual information, known as vision-language navigation (VLN), has attracted widespread interest. Most research has focused on ground-based agents, while UAV-based VLN remains relatively underexplored. Recent efforts in UAV vision-language navigation predominantly adopt ground-based VLN settings, relying on predefined discrete action spaces and neglecting the inherent disparities in agent movement dynamics and the complexity of navigation tasks between ground and aerial environments. To address these disparities and challenges, we propose solutions from three perspectives: platform, benchmark, and methodology. To enable realistic UAV trajectory simulation in VLN tasks, we propose the OpenUAV platform, which features diverse environments, realistic flight control, and extensive algorithmic support. We further construct a target-oriented VLN dataset consisting of approximately 12k trajectories on this platform, serving as the first dataset specifically designed for realistic UAV VLN tasks. To tackle the challenges posed by complex aerial environments, we propose an assistant-guided UAV object search benchmark called UAV-Need-Help, which provides varying levels of guidance information to help UAVs better accomplish realistic VLN tasks. We also propose a UAV navigation LLM that, given multi-view images, task descriptions, and assistant instructions, leverages the multimodal understanding capabilities of the MLLM to jointly process visual and textual information, and performs hierarchical trajectory generation. The evaluation results of our method significantly outperform the baseline models, while there remains a considerable gap between our results and those achieved by human operators, underscoring the challenge presented by the UAV-Need-Help task.
翻訳日:2024-10-31 22:37:20 公開日:2024-10-10
# リアリスティックなUAVビジョンランゲージナビゲーションに向けて:プラットフォーム,ベンチマーク,方法論

Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology ( http://arxiv.org/abs/2410.07087v2 )

ライセンス: Link先を確認
Xiangyu Wang, Donglin Yang, Ziqin Wang, Hohin Kwan, Jinyu Chen, Wenjun Wu, Hongsheng Li, Yue Liao, Si Liu, (参考訳) 視覚言語ナビゲーション(VLN)として知られる言語指示や視覚情報に基づいて、目標地点へのナビゲートが可能な開発エージェントが広く関心を集めている。 ほとんどの研究は地上のエージェントに焦点をあてているが、UAVベースのVLNは比較的未調査である。 UAV視覚言語ナビゲーションにおける最近の取り組みは、主に地上ベースのVLN設定を採用しており、事前に定義された個別の行動空間に依存し、エージェントの運動力学における固有の相違や、地上環境と空中環境の間のナビゲーションタスクの複雑さを無視している。 これらの格差と課題に対処するために、プラットフォーム、ベンチマーク、方法論という3つの観点から解決策を提案する。 VLNタスクにおけるリアルなUAV軌道シミュレーションを実現するために,多様な環境,現実的な飛行制御,広範囲なアルゴリズム支援を備えたOpenUAVプラットフォームを提案する。 さらに、このプラットフォーム上で約12kの軌道からなる目標指向VLNデータセットを構築し、現実的なUAV VLNタスクに特化して設計された最初のデータセットとして機能する。 複雑な空域環境がもたらす課題に対処するため,UAV-Need-Helpと呼ばれる補助誘導型UAVオブジェクト探索ベンチマークを提案する。 また、マルチビュー画像、タスク記述、アシスタント命令を付与し、MLLMのマルチモーダル理解機能を利用して視覚情報とテキスト情報を共同処理し、階層的な軌道生成を行うUAVナビゲーションLLMを提案する。 評価結果は,UAV-Need-Helpタスクの課題を裏付けるものとして,評価結果と人的操作者の間には大きな差があるものの,ベースラインモデルよりも有意に優れていた。

Developing agents capable of navigating to a target location based on language instructions and visual information, known as vision-language navigation (VLN), has attracted widespread interest. Most research has focused on ground-based agents, while UAV-based VLN remains relatively underexplored. Recent efforts in UAV vision-language navigation predominantly adopt ground-based VLN settings, relying on predefined discrete action spaces and neglecting the inherent disparities in agent movement dynamics and the complexity of navigation tasks between ground and aerial environments. To address these disparities and challenges, we propose solutions from three perspectives: platform, benchmark, and methodology. To enable realistic UAV trajectory simulation in VLN tasks, we propose the OpenUAV platform, which features diverse environments, realistic flight control, and extensive algorithmic support. We further construct a target-oriented VLN dataset consisting of approximately 12k trajectories on this platform, serving as the first dataset specifically designed for realistic UAV VLN tasks. To tackle the challenges posed by complex aerial environments, we propose an assistant-guided UAV object search benchmark called UAV-Need-Help, which provides varying levels of guidance information to help UAVs better accomplish realistic VLN tasks. We also propose a UAV navigation LLM that, given multi-view images, task descriptions, and assistant instructions, leverages the multimodal understanding capabilities of the MLLM to jointly process visual and textual information, and performs hierarchical trajectory generation. The evaluation results of our method significantly outperform the baseline models, while there remains a considerable gap between our results and those achieved by human operators, underscoring the challenge presented by the UAV-Need-Help task.
翻訳日:2024-10-31 22:37:20 公開日:2024-10-10
# EvolveDirector:大規模視覚言語モデルによる高度なテキスト・画像生成へのアプローチ

EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models ( http://arxiv.org/abs/2410.07133v1 )

ライセンス: Link先を確認
Rui Zhao, Hangjie Yuan, Yujie Wei, Shiwei Zhang, Yuchao Gu, Lingmin Ran, Xiang Wang, Zhangjie Wu, Junhao Zhang, Yingya Zhang, Mike Zheng Shou, (参考訳) 世代モデルの最近の進歩は、素晴らしいコンテンツを生成する際、顕著な能力を示した。 しかし、そのほとんどはプロプライエタリな高品質なデータに基づいてトレーニングされており、いくつかのモデルはパラメータを保持せず、アクセス可能なアプリケーションプログラミングインターフェース(API)のみを提供し、下流タスクのメリットを制限している。 公開リソースを用いた高度なモデルに匹敵するテキスト・画像生成モデルのトレーニングの実現可能性を検討するため,EvolveDirectorを紹介した。 このフレームワークは、公開APIを通じて高度なモデルと対話して、ベースモデルをトレーニングするためのテキストイメージデータペアを取得する。 大規模データを用いた実験により,先進モデルの生成されたデータに基づいて学習したモデルが,その生成能力を近似できることが示唆された。 しかし、1000万以上の大規模なサンプルが必要である。 これにより、時間や計算リソース、特に料金ベースのAPIの呼び出しに伴うコストが大幅に削減される。 この問題に対処するために,事前学習された大規模視覚言語モデル(VLM)を活用し,基礎モデルの進化を導く。 VLMはトレーニング中にベースモデルを継続的に評価し、識別、拡張、削除、突然変異操作によってトレーニングデータセットを動的に更新し、洗練する。 実験結果から,このパラダイムは要求されるデータ量を大幅に削減することが示された。 さらに、複数の高度なモデルにアプローチする場合、EvolveDirectorはそれらによって生成された最高のサンプルを選択して、強力でバランスの取れた能力を学ぶことができる。 最終的な訓練されたモデルであるEdgenは、これらの先進的なモデルを上回るパフォーマンスを示す。 コードとモデルの重み付けはhttps://github.com/showlab/EvolveDirector.comで確認できる。

Recent advancements in generation models have showcased remarkable capabilities in generating fantastic content. However, most of them are trained on proprietary high-quality data, and some models withhold their parameters and only provide accessible application programming interfaces (APIs), limiting their benefits for downstream tasks. To explore the feasibility of training a text-to-image generation model comparable to advanced models using publicly available resources, we introduce EvolveDirector. This framework interacts with advanced models through their public APIs to obtain text-image data pairs to train a base model. Our experiments with extensive data indicate that the model trained on generated data of the advanced model can approximate its generation capability. However, it requires large-scale samples of 10 million or more. This incurs significant expenses in time, computational resources, and especially the costs associated with calling fee-based APIs. To address this problem, we leverage pre-trained large vision-language models (VLMs) to guide the evolution of the base model. VLM continuously evaluates the base model during training and dynamically updates and refines the training dataset by the discrimination, expansion, deletion, and mutation operations. Experimental results show that this paradigm significantly reduces the required data volume. Furthermore, when approaching multiple advanced models, EvolveDirector can select the best samples generated by them to learn powerful and balanced abilities. The final trained model Edgen is demonstrated to outperform these advanced models. The code and model weights are available at https://github.com/showlab/EvolveDirector.
翻訳日:2024-10-31 22:06:43 公開日:2024-10-10
# EvolveDirector:大規模視覚言語モデルによる高度なテキスト・画像生成へのアプローチ

EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models ( http://arxiv.org/abs/2410.07133v2 )

ライセンス: Link先を確認
Rui Zhao, Hangjie Yuan, Yujie Wei, Shiwei Zhang, Yuchao Gu, Lingmin Ran, Xiang Wang, Zhangjie Wu, Junhao Zhang, Yingya Zhang, Mike Zheng Shou, (参考訳) 世代モデルの最近の進歩は、素晴らしいコンテンツを生成する際、顕著な能力を示した。 しかし、そのほとんどはプロプライエタリな高品質なデータに基づいてトレーニングされており、いくつかのモデルはパラメータを保持せず、アクセス可能なアプリケーションプログラミングインターフェース(API)のみを提供し、下流タスクのメリットを制限している。 公開リソースを用いた高度なモデルに匹敵するテキスト・画像生成モデルのトレーニングの実現可能性を検討するため,EvolveDirectorを紹介した。 このフレームワークは、公開APIを通じて高度なモデルと対話して、ベースモデルをトレーニングするためのテキストイメージデータペアを取得する。 大規模データを用いた実験により,先進モデルの生成されたデータに基づいて学習したモデルが,その生成能力を近似できることが示唆された。 しかし、1000万以上の大規模なサンプルが必要である。 これにより、時間や計算リソース、特に料金ベースのAPIの呼び出しに伴うコストが大幅に削減される。 この問題に対処するために,事前学習された大規模視覚言語モデル(VLM)を活用し,基礎モデルの進化を導く。 VLMはトレーニング中にベースモデルを継続的に評価し、識別、拡張、削除、突然変異操作によってトレーニングデータセットを動的に更新し、洗練する。 実験結果から,このパラダイムは要求されるデータ量を大幅に削減することが示された。 さらに、複数の高度なモデルにアプローチする場合、EvolveDirectorはそれらによって生成された最高のサンプルを選択して、強力でバランスの取れた能力を学ぶことができる。 最終的な訓練されたモデルであるEdgenは、これらの先進的なモデルを上回るパフォーマンスを示す。 コードとモデルの重み付けはhttps://github.com/showlab/EvolveDirector.comで確認できる。

Recent advancements in generation models have showcased remarkable capabilities in generating fantastic content. However, most of them are trained on proprietary high-quality data, and some models withhold their parameters and only provide accessible application programming interfaces (APIs), limiting their benefits for downstream tasks. To explore the feasibility of training a text-to-image generation model comparable to advanced models using publicly available resources, we introduce EvolveDirector. This framework interacts with advanced models through their public APIs to obtain text-image data pairs to train a base model. Our experiments with extensive data indicate that the model trained on generated data of the advanced model can approximate its generation capability. However, it requires large-scale samples of 10 million or more. This incurs significant expenses in time, computational resources, and especially the costs associated with calling fee-based APIs. To address this problem, we leverage pre-trained large vision-language models (VLMs) to guide the evolution of the base model. VLM continuously evaluates the base model during training and dynamically updates and refines the training dataset by the discrimination, expansion, deletion, and mutation operations. Experimental results show that this paradigm significantly reduces the required data volume. Furthermore, when approaching multiple advanced models, EvolveDirector can select the best samples generated by them to learn powerful and balanced abilities. The final trained model Edgen is demonstrated to outperform these advanced models. The code and model weights are available at https://github.com/showlab/EvolveDirector.
翻訳日:2024-10-31 22:06:43 公開日:2024-10-10
# Quanda: データ属性評価をトレーニングするための解釈可能性ツールキット

Quanda: An Interpretability Toolkit for Training Data Attribution Evaluation and Beyond ( http://arxiv.org/abs/2410.07158v1 )

ライセンス: Link先を確認
Dilyara Bareeva, Galip Ümit Yolcu, Anna Hedström, Niklas Schmolenski, Thomas Wiegand, Wojciech Samek, Sebastian Lapuschkin, (参考訳) 近年,ニューラルネットワークの解釈可能性に期待できる方向として,トレーニングデータ属性(TDA)手法が登場している。 TDAに関する研究は盛んに行われているが、属性評価に限られた努力が注がれている。 従来の特徴帰属アプローチにおける評価指標の開発と同様に、様々な文脈におけるTDA手法の品質を評価するために、いくつかのスタンドアロンメトリクスが提案されている。 しかし、TDAメソッドに対する信頼を体系的に比較できる統一されたフレームワークが欠如しており、広く採用されていることを妨げている。 この研究ギャップに対処するために,我々は,TDA手法の評価を容易にするために設計されたPythonツールキットQuandaを紹介する。 包括的な評価指標を提供するだけでなく、Quandaはさまざまなリポジトリにまたがる既存のTDA実装とのシームレスな統合のための統一インターフェースを提供し、体系的なベンチマークを可能にする。 ツールキットはユーザフレンドリで、徹底的にテストされ、ドキュメント化されており、PyPi上でhttps://github.com/dilyabareeva/quanda.comでオープンソースライブラリとして利用できる。

In recent years, training data attribution (TDA) methods have emerged as a promising direction for the interpretability of neural networks. While research around TDA is thriving, limited effort has been dedicated to the evaluation of attributions. Similar to the development of evaluation metrics for traditional feature attribution approaches, several standalone metrics have been proposed to evaluate the quality of TDA methods across various contexts. However, the lack of a unified framework that allows for systematic comparison limits trust in TDA methods and stunts their widespread adoption. To address this research gap, we introduce Quanda, a Python toolkit designed to facilitate the evaluation of TDA methods. Beyond offering a comprehensive set of evaluation metrics, Quanda provides a uniform interface for seamless integration with existing TDA implementations across different repositories, thus enabling systematic benchmarking. The toolkit is user-friendly, thoroughly tested, well-documented, and available as an open-source library on PyPi and under https://github.com/dilyabareeva/quanda.
翻訳日:2024-10-31 21:56:57 公開日:2024-10-10
# Quanda: データ属性評価をトレーニングするための解釈可能性ツールキット

Quanda: An Interpretability Toolkit for Training Data Attribution Evaluation and Beyond ( http://arxiv.org/abs/2410.07158v2 )

ライセンス: Link先を確認
Dilyara Bareeva, Galip Ümit Yolcu, Anna Hedström, Niklas Schmolenski, Thomas Wiegand, Wojciech Samek, Sebastian Lapuschkin, (参考訳) 近年,ニューラルネットワークの解釈可能性に期待できる方向として,トレーニングデータ属性(TDA)手法が登場している。 TDAに関する研究は盛んに行われているが、属性評価に限られた努力が注がれている。 従来の特徴帰属アプローチにおける評価指標の開発と同様に、様々な文脈におけるTDA手法の品質を評価するために、いくつかのスタンドアロンメトリクスが提案されている。 しかし、TDAメソッドに対する信頼を体系的に比較できる統一されたフレームワークが欠如しており、広く採用されていることを妨げている。 この研究ギャップに対処するために,我々は,TDA手法の評価を容易にするために設計されたPythonツールキットQuandaを紹介する。 包括的な評価指標を提供するだけでなく、Quandaはさまざまなリポジトリにまたがる既存のTDA実装とのシームレスな統合のための統一インターフェースを提供し、体系的なベンチマークを可能にする。 ツールキットはユーザフレンドリで、徹底的にテストされ、ドキュメント化されており、PyPi上でhttps://github.com/dilyabareeva/quanda.comでオープンソースライブラリとして利用できる。

In recent years, training data attribution (TDA) methods have emerged as a promising direction for the interpretability of neural networks. While research around TDA is thriving, limited effort has been dedicated to the evaluation of attributions. Similar to the development of evaluation metrics for traditional feature attribution approaches, several standalone metrics have been proposed to evaluate the quality of TDA methods across various contexts. However, the lack of a unified framework that allows for systematic comparison limits trust in TDA methods and stunts their widespread adoption. To address this research gap, we introduce Quanda, a Python toolkit designed to facilitate the evaluation of TDA methods. Beyond offering a comprehensive set of evaluation metrics, Quanda provides a uniform interface for seamless integration with existing TDA implementations across different repositories, thus enabling systematic benchmarking. The toolkit is user-friendly, thoroughly tested, well-documented, and available as an open-source library on PyPi and under https://github.com/dilyabareeva/quanda.
翻訳日:2024-10-31 21:56:57 公開日:2024-10-10
# PublicHearingBR: 長い文書の要約のためのブラジルの聴取記録のブラジルのデータセット

PublicHearingBR: A Brazilian Portuguese Dataset of Public Hearing Transcripts for Summarization of Long Documents ( http://arxiv.org/abs/2410.07495v1 )

ライセンス: Link先を確認
Leandro Carísio Fernandes, Guilherme Zeferino Rodrigues Dobins, Roberto Lotufo, Jayr Alencar Pereira, (参考訳) 本稿では,長い文書を要約するためのブラジルのデータセットであるPublicHearingBRを紹介する。 このデータセットは、ブラジル下院が主催する公聴会の書き起こしからなり、ニュース記事と、聴聞会に参加している個人と彼らの発言や意見を含む構成された要約とが組み合わされている。 このデータセットは、ポルトガル語における長期文書要約システムの開発と評価を支援する。 我々の貢献は、データセット、将来の研究のベースラインを確立するためのハイブリッド要約システム、および大規模な言語モデルを含む要約評価指標に関する議論であり、生成された要約における幻覚の課題に対処するものである。 この議論の結果、データセットはまた、ポルトガル語の自然言語推論タスクで使用できる注釈付きデータも提供する。

This paper introduces PublicHearingBR, a Brazilian Portuguese dataset designed for summarizing long documents. The dataset consists of transcripts of public hearings held by the Brazilian Chamber of Deputies, paired with news articles and structured summaries containing the individuals participating in the hearing and their statements or opinions. The dataset supports the development and evaluation of long document summarization systems in Portuguese. Our contributions include the dataset, a hybrid summarization system to establish a baseline for future studies, and a discussion on evaluation metrics for summarization involving large language models, addressing the challenge of hallucination in the generated summaries. As a result of this discussion, the dataset also provides annotated data that can be used in Natural Language Inference tasks in Portuguese.
翻訳日:2024-10-31 16:46:37 公開日:2024-10-10
# Dense Optimizer : Dense-like Neural Network Designのための情報エントロピー誘導構造探索法

Dense Optimizer : An Information Entropy-Guided Structural Search Method for Dense-like Neural Network Design ( http://arxiv.org/abs/2410.07499v1 )

ライセンス: Link先を確認
Liu Tianyuan, Hou Libin, Wang Linyuan, Song Xiyu, Yan Bin, (参考訳) Dense Convolutional Networkは、その軽量で効率的な構造のため、高度に効率的でコンパクトなアーキテクチャを採用するように継続的に改良されている。 しかし、現在のDenseのようなアーキテクチャは主に手動で設計されており、過去の経験に基づいてチャネルや再利用レベルを調整することはますます困難になっている。 そこで本稿では,Dense Optimizerというアーキテクチャ検索手法を提案する。 Dense Optimizerでは,高密度ネットワークを階層的な情報システムとみなし,各段間のエントロピー分布を制約しながらネットワークの情報エントロピーを最大化し,最適化問題を構築する。 また,この最適化問題を効率的に解くために,探索空間のスケーリングとパワーロー原理を密に統合した分枝・分枝最適化アルゴリズムを提案する。 Dense Optimizerの優位性は、異なるコンピュータビジョンベンチマークデータセットで検証されている。 具体的には、Dense Optimizerは高品質な検索を完了するが、1CPUで4時間しかかからない。 我々のサーチモデルであるDenseNet-OPTは、CIFAR-100で84.3%の精度を達成しました。

Dense Convolutional Network has been continuously refined to adopt a highly efficient and compact architecture, owing to its lightweight and efficient structure. However, the current Dense-like architectures are mainly designed manually, it becomes increasingly difficult to adjust the channels and reuse level based on past experience. As such, we propose an architecture search method called Dense Optimizer that can search high-performance dense-like network automatically. In Dense Optimizer, we view the dense network as a hierarchical information system, maximize the network's information entropy while constraining the distribution of the entropy across each stage via a power law, thereby constructing an optimization problem. We also propose a branch-and-bound optimization algorithm, tightly integrates power-law principle with search space scaling to solve the optimization problem efficiently. The superiority of Dense Optimizer has been validated on different computer vision benchmark datasets. Specifically, Dense Optimizer completes high-quality search but only costs 4 hours with one CPU. Our searched model DenseNet-OPT achieved a top 1 accuracy of 84.3% on CIFAR-100, which is 5.97% higher than the original one.
翻訳日:2024-10-31 16:46:37 公開日:2024-10-10
# 雑音ラベル付きWebビデオから多様な歩行者運動を生成する学習

Learning to Generate Diverse Pedestrian Movements from Web Videos with Noisy Labels ( http://arxiv.org/abs/2410.07500v1 )

ライセンス: Link先を確認
Zhizheng Liu, Joe Lin, Wayne Wu, Bolei Zhou, (参考訳) 実世界における歩行者の動きの理解とモデル化は、動き予測やシーンシミュレーションといった応用に不可欠である。 多くの要因は、シーンコンテキスト、個々の特徴、目標などの歩行者の動きに影響を与えるが、既存の人間生成手法では無視されることが多い。 Webビデオには、自然の歩行者行動とリッチな動きのコンテキストが含まれているが、事前に訓練された予測器で注釈を付けると、ノイズの多いラベルが現れる。 本研究では,Webビデオから多様な歩行者運動の学習を提案する。 私たちはまずCityWalkersと呼ばれる大規模なデータセットをキュレートし、都市部のさまざまな現実世界の歩行者の動きを捉えます。 そこで,CityWalkersをベースとして,多様な歩行者運動生成のためのPedGenと呼ばれる生成モデルを提案する。 PedGenは、低品質なラベルを削除するために自動ラベルフィルタリングを導入し、部分的なラベルを持つ列車にマスクを埋め込む。 また、2Dシーンのコンテキストを3Dに引き上げる新しいコンテキストエンコーダも備えており、都市景観におけるリアルな歩行者の動きを生成するために様々なコンテキスト要素を組み込むことができる。 実験の結果,PedGenは,騒音ラベルから学習し,文脈要因を取り入れることで,既存の歩行者移動生成法よりも優れていた。 さらに、PedGenは現実世界とシミュレーション環境の両方においてゼロショットの一般化を実現している。 コード、モデル、データはhttps://genforce.github.io/PedGen/で公開されます。

Understanding and modeling pedestrian movements in the real world is crucial for applications like motion forecasting and scene simulation. Many factors influence pedestrian movements, such as scene context, individual characteristics, and goals, which are often ignored by the existing human generation methods. Web videos contain natural pedestrian behavior and rich motion context, but annotating them with pre-trained predictors leads to noisy labels. In this work, we propose learning diverse pedestrian movements from web videos. We first curate a large-scale dataset called CityWalkers that captures diverse real-world pedestrian movements in urban scenes. Then, based on CityWalkers, we propose a generative model called PedGen for diverse pedestrian movement generation. PedGen introduces automatic label filtering to remove the low-quality labels and a mask embedding to train with partial labels. It also contains a novel context encoder that lifts the 2D scene context to 3D and can incorporate various context factors in generating realistic pedestrian movements in urban scenes. Experiments show that PedGen outperforms existing baseline methods for pedestrian movement generation by learning from noisy labels and incorporating the context factors. In addition, PedGen achieves zero-shot generalization in both real-world and simulated environments. The code, model, and data will be made publicly available at https://genforce.github.io/PedGen/ .
翻訳日:2024-10-31 16:46:37 公開日:2024-10-10
# 断面データから固有の雑音を伴う生物学的過程を推定する

Inferring biological processes with intrinsic noise from cross-sectional data ( http://arxiv.org/abs/2410.07501v1 )

ライセンス: Link先を確認
Suryanarayana Maddu, Victor Chardès, Michael. J. Shelley, (参考訳) データから動的モデルを推定することは、特に多くの生物学的プロセスの確率的性質を考えると、計算生物学において重要な課題である。 統計学的に独立な断面積サンプルが数点で利用可能となるオミクスの一般的なシナリオについて検討し、その目的はデータを生成する拡散過程を推測することである。 既存の推論手法は、しばしばシステム固有のノイズを単純化または無視し、最適化を容易にするために精度を損なう。 この妥協を、基礎となる確率過程と同じ時間依存の限界分布を共有する位相空間確率フローを推定することによって回避する。 我々のアプローチである確率フロー推論(PFI)は、ODE推論のアルゴリズム的容易性を維持しながら、固有確率性から力を引き離す。 解析的に、Ornstein-Uhlenbeck 過程において正規化された PFI 形式は、よくサンプリングされた分布の極限において一意的な解が得られることを証明している。 実例では,PFIは高次元確率的反応ネットワークにおいて正確なパラメータと力の推定が可能であり,分子ノイズによる細胞分化ダイナミクスの推測が可能であり,最先端の手法よりも優れていることを示す。

Inferring dynamical models from data continues to be a significant challenge in computational biology, especially given the stochastic nature of many biological processes. We explore a common scenario in omics, where statistically independent cross-sectional samples are available at a few time points, and the goal is to infer the underlying diffusion process that generated the data. Existing inference approaches often simplify or ignore noise intrinsic to the system, compromising accuracy for the sake of optimization ease. We circumvent this compromise by inferring the phase-space probability flow that shares the same time-dependent marginal distributions as the underlying stochastic process. Our approach, probability flow inference (PFI), disentangles force from intrinsic stochasticity while retaining the algorithmic ease of ODE inference. Analytically, we prove that for Ornstein-Uhlenbeck processes the regularized PFI formalism yields a unique solution in the limit of well-sampled distributions. In practical applications, we show that PFI enables accurate parameter and force estimation in high-dimensional stochastic reaction networks, and that it allows inference of cell differentiation dynamics with molecular noise, outperforming state-of-the-art approaches.
翻訳日:2024-10-31 16:46:37 公開日:2024-10-10
# 2次定常点をプライベートに見つけるための適応バッチサイズ

Adaptive Batch Size for Privately Finding Second-Order Stationary Points ( http://arxiv.org/abs/2410.07502v1 )

ライセンス: Link先を確認
Daogao Liu, Kunal Talwar, (参考訳) 一階定常点(FOSP)と二階定常点(SOSP)との差があり、私的にSOSPを見つけることがFOSPを見つけることよりも難しいかどうかは不明である。 具体的には、Ganesh et al (2023)は$\alpha$-SOSPを$\alpha=O(\frac{1}{n^{1/3}}+(\frac{\sqrt{d}}{n\epsilon})^{3/7})$で見つけることができることを示した。 SpiderBoostアルゴリズムフレームワークをベースとして,適応的なバッチサイズを使用し,バイナリツリー機構を組み込んだ新しいアプローチを提案する。 我々の手法は、SOSPをプライベートに見つける結果を改善し、$\alpha=O(\frac{1}{n^{1/3}}+(\frac{\sqrt{d}}{n\epsilon})^{1/2})$を得る。 この改良された境界はFOSPを見つけるための最先端技術と一致し、SOSPをプライベートに見つけることは追加コストなしで達成可能であることを示唆している。

There is a gap between finding a first-order stationary point (FOSP) and a second-order stationary point (SOSP) under differential privacy constraints, and it remains unclear whether privately finding an SOSP is more challenging than finding an FOSP. Specifically, Ganesh et al. (2023) demonstrated that an $\alpha$-SOSP can be found with $\alpha=O(\frac{1}{n^{1/3}}+(\frac{\sqrt{d}}{n\epsilon})^{3/7})$, where $n$ is the dataset size, $d$ is the dimension, and $\epsilon$ is the differential privacy parameter. Building on the SpiderBoost algorithm framework, we propose a new approach that uses adaptive batch sizes and incorporates the binary tree mechanism. Our method improves the results for privately finding an SOSP, achieving $\alpha=O(\frac{1}{n^{1/3}}+(\frac{\sqrt{d}}{n\epsilon})^{1/2})$. This improved bound matches the state-of-the-art for finding an FOSP, suggesting that privately finding an SOSP may be achievable at no additional cost.
翻訳日:2024-10-31 16:46:37 公開日:2024-10-10
# アルツハイマー病のモデリング : 記憶喪失からプラーク&タングルス形成まで

Modeling Alzheimer's Disease: From Memory Loss to Plaque & Tangles Formation ( http://arxiv.org/abs/2410.07503v1 )

ライセンス: Link先を確認
Sai Nag Anurag Nangunoori, Akshara Karthic Mahadevan, (参考訳) 本稿では, ホップフィールドモデルを用いて, 記憶障害とアルツハイマー病特有の生化学的プロセスの両方を解明する。 記憶パターンの増大とシナプス重みへのノイズ導入を通じて神経死とシナプス劣化をシミュレートすることにより,記憶喪失,混乱,遅延検索時間を含む認知症の症状を示す。 ネットワークの容量を超えると、検索エラーが増加し、アルツハイマー病患者の認知的混乱が反映される。 さらに,重み行列の間隔の変化によるシナプス劣化の影響をシミュレートし,ノイズレベルの増加に伴って記憶障害が生じ,検索成功率が低下することを示した。 さらに、このモデルを拡張し、記憶喪失とアルツハイマー病に関連する生化学過程を結びつける。 経時的にインスリン感受性を低下させる役割をシミュレートすることにより、ミトコンドリアへのカルシウム流入が増加し、タンパク質が誤って折り畳み、アミロイドプラークが形成されることを示す。 これらの知見は、時間とともにモデル化され、神経細胞の劣化と代謝因子の両方がアルツハイマー病の進行性の低下に寄与していることを示唆している。 我々の研究は、神経変性疾患におけるシナプスと代謝障害の二重影響を理解するための計算フレームワークを提供する。

We employ the Hopfield model as a simplified framework to explore both the memory deficits and the biochemical processes characteristic of Alzheimer's disease. By simulating neuronal death and synaptic degradation through increasing the number of stored patterns and introducing noise into the synaptic weights, we demonstrate hallmark symptoms of dementia, including memory loss, confusion, and delayed retrieval times. As the network's capacity is exceeded, retrieval errors increase, mirroring the cognitive confusion observed in Alzheimer's patients. Additionally, we simulate the impact of synaptic degradation by varying the sparsity of the weight matrix, showing impaired memory recall and reduced retrieval success as noise levels increase. Furthermore, we extend our model to connect memory loss with biochemical processes linked to Alzheimer's. By simulating the role of reduced insulin sensitivity over time, we show how it can trigger increased calcium influx into mitochondria, leading to misfolded proteins and the formation of amyloid plaques. These findings, modeled over time, suggest that both neuronal degradation and metabolic factors contribute to the progressive decline seen in Alzheimer's disease. Our work offers a computational framework for understanding the dual impact of synaptic and metabolic dysfunction in neurodegenerative diseases.
翻訳日:2024-10-31 16:46:37 公開日:2024-10-10
# LLMによる法的要因の解明

Using LLMs to Discover Legal Factors ( http://arxiv.org/abs/2410.07504v1 )

ライセンス: Link先を確認
Morgan Gray, Jaromir Savelka, Wesley Oliver, Kevin Ashley, (参考訳) 因子は法的な分析と法的な推論の計算モデルの基礎的な構成要素である。 これらの因子に基づく表現は、弁護士、裁判官、AIおよび法研究者が訴訟を判断することを可能にする。 本稿では,大規模言語モデル(LLM)を活用して,法的領域を効果的に表現する要因のリストを探索する手法を提案する。 提案手法は, 原告の意見を入力として, 一連の要因と関連する定義を生成する。 人間の関与が最小限に抑えられた半自動的アプローチは、専門家が定義した要因と同等であっても、適度な成功率でケースアウトを予測できる因子表現を生成することを実証する。

Factors are a foundational component of legal analysis and computational models of legal reasoning. These factor-based representations enable lawyers, judges, and AI and Law researchers to reason about legal cases. In this paper, we introduce a methodology that leverages large language models (LLMs) to discover lists of factors that effectively represent a legal domain. Our method takes as input raw court opinions and produces a set of factors and associated definitions. We demonstrate that a semi-automated approach, incorporating minimal human involvement, produces factor representations that can predict case outcomes with moderate success, if not yet as well as expert-defined factors can.
翻訳日:2024-10-31 16:46:37 公開日:2024-10-10
# CrossQuant: 高精度大言語モデル圧縮のためのより小さな量子化カーネルを用いた学習後量子化手法

CrossQuant: A Post-Training Quantization Method with Smaller Quantization Kernel for Precise Large Language Model Compression ( http://arxiv.org/abs/2410.07505v1 )

ライセンス: Link先を確認
Wenyuan Liu, Xindian Ma, Peng Zhang, Yan Wang, (参考訳) PTQ(Post-Training Quantization)は、大規模言語モデル(LLM)を圧縮する有効な手法である。 多くの研究はウェイトとアクティベーションの両方を定量化することに重点を置いているが、量子化を活性化した後もLSMの精度を維持することは依然として困難である。 主な原因を調べるため、線形代数から量子化関数へカーネルの概念を拡張し、ゼロに量子化されるアクティベーションの要素の集合を指す新しい用語「量子化カーネル」を定義する。 量子化カーネルの定量的解析により、これらの要素は量子化LDMの精度を維持するために重要であることがわかった。 量子化カーネルの減少に伴い、量子化LDMの精度が向上する。 量子化核比がOPTモデルでは19%以下、LLaMAモデルでは1%以下であれば、量子化活性化からINT8への精度損失は無視できる。 小型量子化カーネルを用いた量子化法の開発を目標として,活性化を定量化するためのシンプルで効果的な方法であるCrossQuantを提案する。 CrossQuantは行数と列数の絶対最大ベクトルを用いて要素をクロス量子化し、OPTモデルでは約16%、LLaMAモデルでは0.1%未満の量子化カーネルを達成している。 LLM(LLaMA, OPT)の6.7Bから70Bのパラメータに対する実験結果から、CrossQuantは言語モデリング、ゼロショット、少数ショットタスクにおいて、難易度や精度を向上または維持することが示された。

Post-Training Quantization (PTQ) is an effective technique for compressing Large Language Models (LLMs). While many studies focus on quantizing both weights and activations, it is still a challenge to maintain the accuracy of LLM after activating quantization. To investigate the primary cause, we extend the concept of kernel from linear algebra to quantization functions to define a new term, "quantization kernel", which refers to the set of elements in activations that are quantized to zero. Through quantitative analysis of the quantization kernel, we find that these elements are crucial for maintaining the accuracy of quantized LLMs. With the decrease of quantization kernel, the precision of quantized LLMs increases. If the quantization kernel proportion is kept below 19% for OPT models and below 1% for LLaMA models, the precision loss from quantizing activations to INT8 becomes negligible. Motivated by the goal of developing a quantization method with small quantization kernel, we propose CrossQuant: a simple yet effective method for quantizing activations. CrossQuant cross-quantizes elements using row and column-wise absolute maximum vectors, achieving a quantization kernel of approximately 16% for OPT models and less than 0.1% for LLaMA models. Experimental results on LLMs (LLaMA, OPT) ranging from 6.7B to 70B parameters demonstrate that CrossQuant improves or maintains perplexity and accuracy in language modeling, zero-shot, and few-shot tasks.
翻訳日:2024-10-31 16:46:37 公開日:2024-10-10
# Thought2Text:大言語モデル(LLM)を用いた脳波からのテキスト生成

Thought2Text: Text Generation from EEG Signal using Large Language Models (LLMs) ( http://arxiv.org/abs/2410.07507v1 )

ライセンス: Link先を確認
Abhijit Mishra, Shreya Shukla, Jose Torres, Jacek Gwizdka, Shounak Roychowdhury, (参考訳) 理解可能な形で脳活動を復号し表現することは、AIにおける挑戦的なフロンティアである。 本稿では、この目的を達成するために、脳波データを微調整した命令調整大型言語モデル(LLM)を用いたThought2Textを提案する。 本手法は, 視覚的特徴抽出のための脳波エンコーダのトレーニング, 2) 画像およびテキストデータ上での微調整, マルチモーダル記述生成, (3) 脳波エンコーダのさらなる微調整により, 推論中に直接脳波からテキストを生成する。 画像刺激を伴う6名の被験者を対象に収集したパブリック脳波データセットを用いて,従来の言語生成評価指標,GPT-4に基づく評価,人手による評価を用いて,マルチモーダルLLM(LLaMa-v3,Mistral-v0.3,Qwen2.5)の有効性を実証した。 このアプローチは、ニューロサイエンスと自然言語処理(NLP)の両方に潜在的な応用が期待できる、ポータブルで低コストな「テキストへの思考」技術への大きな進歩を示す。

Decoding and expressing brain activity in a comprehensible form is a challenging frontier in AI. This paper presents Thought2Text, which uses instruction-tuned Large Language Models (LLMs) fine-tuned with EEG data to achieve this goal. The approach involves three stages: (1) training an EEG encoder for visual feature extraction, (2) fine-tuning LLMs on image and text data, enabling multimodal description generation, and (3) further fine-tuning on EEG embeddings to generate text directly from EEG during inference. Experiments on a public EEG dataset collected for six subjects with image stimuli demonstrate the efficacy of multimodal LLMs (LLaMa-v3, Mistral-v0.3, Qwen2.5), validated using traditional language generation evaluation metrics, GPT-4 based assessments, and evaluations by human expert. This approach marks a significant advancement towards portable, low-cost "thoughts-to-text" technology with potential applications in both neuroscience and natural language processing (NLP).
翻訳日:2024-10-31 16:46:37 公開日:2024-10-10
# MOLA:マルチブロック直交長短期記憶オートエンコーダを用いた産業プロセス監視の強化

MOLA: Enhancing Industrial Process Monitoring Using Multi-Block Orthogonal Long Short-Term Memory Autoencoder ( http://arxiv.org/abs/2410.07508v1 )

ライセンス: Link先を確認
Fangyuan Ma, Cheng Ji, Jingde Wang, Wei Sun, Xun Tang, Zheyu Jiang, (参考訳) 本研究では, 産業プロセスの高精度かつ信頼性の高い故障検出を行うために, MOLA: a Multi-block Orthogonal Long short-term memory Autoencoder パラダイムを導入する。 これを実現するため、MOLAは、遅延空間の出力を制限するために直交に基づく損失関数を導入することにより、動的直交特徴を効果的に抽出する。 これにより、特定された機能の冗長性を排除し、全体的な監視性能を改善することができる。 この上に、プロセス変数を複数のブロックに分類するマルチブロック監視構造が提案され、プロセス全体の関連性に関する専門家のプロセス知識を活用することで、プロセス変数を複数のブロックに分類する。 各ブロックは、その特定の直交長短期記憶(Orthogonal Long short-term memory)オートエンコーダモデルと関連付けられ、抽出された動的直交特性は、非パラメトリックで不均一な多変量データストリーム用に設計された距離ベースのHotellingの統計値と量子ベースの累積和(CUSUM)によって監視される。 全てのプロセス変数について単一のモデルを持つのに比べ、このようなマルチブロック構造は、特に大規模産業プロセスにおいて、プロセス全体の監視性能を大幅に改善する。 最後に,適応重みに基づくベイズ核融合(W-BF)フレームワークを提案し,アラームが上昇する順序に基づいて重みをブロックに割り当てることにより,異常検出速度を改善することを目的として,すべてのブロック単位の監視統計データをグローバルな統計に集約する。 我々は、テネシー・イーストマン・プロセスに適用し、その性能を様々なベンチマーク手法と比較することにより、MOLAフレームワークの有効性と効果を実証する。

In this work, we introduce MOLA: a Multi-block Orthogonal Long short-term memory Autoencoder paradigm, to conduct accurate, reliable fault detection of industrial processes. To achieve this, MOLA effectively extracts dynamic orthogonal features by introducing an orthogonality-based loss function to constrain the latent space output. This helps eliminate the redundancy in the features identified, thereby improving the overall monitoring performance. On top of this, a multi-block monitoring structure is proposed, which categorizes the process variables into multiple blocks by leveraging expert process knowledge about their associations with the overall process. Each block is associated with its specific Orthogonal Long short-term memory Autoencoder model, whose extracted dynamic orthogonal features are monitored by distance-based Hotelling's $T^2$ statistics and quantile-based cumulative sum (CUSUM) designed for multivariate data streams that are nonparametric, heterogeneous in nature. Compared to having a single model accounting for all process variables, such a multi-block structure improves the overall process monitoring performance significantly, especially for large-scale industrial processes. Finally, we propose an adaptive weight-based Bayesian fusion (W-BF) framework to aggregate all block-wise monitoring statistics into a global statistic that we monitor for faults, with the goal of improving fault detection speed by assigning weights to blocks based on the sequential order where alarms are raised. We demonstrate the efficiency and effectiveness of our MOLA framework by applying it to the Tennessee Eastman Process and comparing the performance with various benchmark methods.
翻訳日:2024-10-31 16:46:37 公開日:2024-10-10
# 言語モデルアライメントのための進化的コントラスト蒸留法

Evolutionary Contrastive Distillation for Language Model Alignment ( http://arxiv.org/abs/2410.07513v1 )

ライセンス: Link先を確認
Julian Katz-Samuels, Zheng Li, Hyokun Yun, Priyanka Nigam, Yi Xu, Vaclav Petricek, Bing Yin, Trishul Chilimbi, (参考訳) 大規模言語モデル(LLM)が複雑な命令を実行する能力は、現実のアプリケーションには不可欠である。 しかし、最近のいくつかの研究は、LSMは挑戦的な指示に苦しむことを示唆している。 本稿では,言語モデルの複雑な命令追従能力を高めるために設計された,高品質な合成選好データを生成するための新しい手法である進化コントラスト蒸留(ECD)を提案する。 ECDは、複雑な命令の集合にうまく従う応答と、高品質だが微妙なミスを犯す応答との差を具体的に示すデータを生成する。 これはLSMがより複雑な命令へと徐々に進化するように促すことによって実現される。 命令の複雑さが増加すると、元の命令に対する最初の成功した応答は、新しい命令に対する"強烈な"応答となり、ほとんどの場合、新しい命令の要求を満たすが、ほとんど1つか2つを欠いている。 このような強い負の応答と良い応答をペアリングし、DPOのような対照的な学習アルゴリズムを用いることで、複雑な命令に従う言語モデルの能力を向上させる。 実験により,提案手法は,既存のSOTA 7Bモデルの複雑な命令追従性能を超え,オープンソースの70Bモデルと競合する7Bモデルを生成する。

The ability of large language models (LLMs) to execute complex instructions is essential for their real-world applications. However, several recent studies indicate that LLMs struggle with challenging instructions. In this paper, we propose Evolutionary Contrastive Distillation (ECD), a novel method for generating high-quality synthetic preference data designed to enhance the complex instruction-following capability of language models. ECD generates data that specifically illustrates the difference between a response that successfully follows a set of complex instructions and a response that is high-quality, but nevertheless makes some subtle mistakes. This is done by prompting LLMs to progressively evolve simple instructions to more complex instructions. When the complexity of an instruction is increased, the original successful response to the original instruction becomes a "hard negative" response for the new instruction, mostly meeting requirements of the new instruction, but barely missing one or two. By pairing a good response with such a hard negative response, and employing contrastive learning algorithms such as DPO, we improve language models' ability to follow complex instructions. Empirically, we observe that our method yields a 7B model that exceeds the complex instruction-following performance of current SOTA 7B models and is competitive even with open-source 70B models.
翻訳日:2024-10-31 16:46:37 公開日:2024-10-10
# O1O: 未知のオブジェクトをOdd-One-Outとして識別するための既知のクラスのグループ化

O1O: Grouping of Known Classes to Identify Unknown Objects as Odd-One-Out ( http://arxiv.org/abs/2410.07514v1 )

ライセンス: Link先を確認
Mısra Yavuz, Fatma Güney, (参考訳) 固定された既知のクラスのセットで訓練されたオブジェクト検出方法は、オープンワールド環境で未知のクラスのオブジェクトを検出するのに苦労する。 現在の修正には、一般的にクラスに依存しない方法で得られる、オブジェクトの候補位置に対応する擬似ラベルによる近似的な監督を追加することが含まれる。 従来のアプローチは主にオブジェクトの出現に依存していたが、幾何学的手がかりが未知のリコールを改善することが判明した。 擬似ラベルからのさらなる監視は未知のオブジェクトを検出するのに役立つが、既知のクラスに対して混乱をもたらす。 ノイズのある擬似ラベルの存在下では、既知の物体を検出するためのモデルの性能が顕著に低下するのを観察した。 人間の認知に関する研究からインスピレーションを得て、既知のクラスをスーパークラスに分類することを提案する。 スーパークラス内のクラス間の類似性を識別することにより、奇数点のスコアリング機構によって未知のクラスを識別できる。 オープンワールド検出ベンチマークの実験では、すべてのタスクにおいて、未知のリコールが大幅に改善された。 重要なのは、スーパークラスによる機能空間のパーティショニングの改善により、既知のパフォーマンスを損なうことなく、これを実現することです。

Object detection methods trained on a fixed set of known classes struggle to detect objects of unknown classes in the open-world setting. Current fixes involve adding approximate supervision with pseudo-labels corresponding to candidate locations of objects, typically obtained in a class-agnostic manner. While previous approaches mainly rely on the appearance of objects, we find that geometric cues improve unknown recall. Although additional supervision from pseudo-labels helps to detect unknown objects, it also introduces confusion for known classes. We observed a notable decline in the model's performance for detecting known objects in the presence of noisy pseudo-labels. Drawing inspiration from studies on human cognition, we propose to group known classes into superclasses. By identifying similarities between classes within a superclass, we can identify unknown classes through an odd-one-out scoring mechanism. Our experiments on open-world detection benchmarks demonstrate significant improvements in unknown recall, consistently across all tasks. Crucially, we achieve this without compromising known performance, thanks to better partitioning of the feature space with superclasses.
翻訳日:2024-10-31 16:36:31 公開日:2024-10-10
# メタモルフィックテストによるLCMによる自動プログラム修復のロバストさの探索とリフティング

Exploring and Lifting the Robustness of LLM-powered Automated Program Repair with Metamorphic Testing ( http://arxiv.org/abs/2410.07516v1 )

ライセンス: Link先を確認
Pengyu Xue, Linhao Wu, Zhen Yang, Xinyi Li, Zhongxing Yu, Zhi Jin, Ge Li, Yan Xiao, Jingwen Wu, (参考訳) 近年,大規模言語モデルを用いた自動プログラム修復(LAPR)技術は最先端のバグ修正性能を達成し,産業と学術の両方で広く応用され研究されている。 にもかかわらず、LLMは入力プロンプトに非常に敏感であることが証明され、意味論的に等価なプログラムの表現に若干の違いがある。 そのため、実用展開前にLAPR技術による堅牢性試験を実施することが重要である。 しかし、関連する研究は乏しい。 そこで我々は, LAPR技術専用のメタモルフィックテストフレームワークMT-LAPRを提案する。このフレームワークは, トークン, ステートメント, ブロックという3つの摂動レベルにわたる開発者による, 広く認識されている9つのメタモルフィック関係(MR)を要約したものである。 その後,提案したMRは,LAPRの推論には影響しない意味論的に等価なテストケースを生成するために,バグコードに適用された。 Defect4J と QuixBugs という2つの広範囲に調査されたバグ修正データセットと、最近リリースされた4つのバグ修正可能な LLM に対して実験が行われ、テストケースの34.4%から48.5% が平均してLAPR技術の不安定さを明らかにし、MT-LAPRの有効性を示し、コード可読性とLAPR技術の堅牢性との間に正の相関関係を明らかにする。 以上の知見に触発されて,MT-LAPRが生成したテストケースをサンプルとして,コード可読性の向上を目的としたCodeT5ベースのコード編集モデルをトレーニングし,データ前処理ステップとしてLAPRワークフローに組み込む。 大規模な実験により、このアプローチはLAPRのロバスト性を大幅に49.32%向上させることが示された。

In recent years, Large language model-powered Automated Program Repair (LAPR) techniques have achieved state-of-the-art bug-fixing performance and have been pervasively applied and studied in both industry and academia. Nonetheless, LLMs were proved to be highly sensitive to input prompts, with slight differences in the expressions of semantically equivalent programs potentially causing repair failures. Therefore, it is crucial to conduct robustness testing on LAPR techniques before their practical deployment. However, related research is scarce. To this end, we propose MT-LAPR, a Metamorphic Testing framework exclusively for LAPR techniques, which summarizes nine widely-recognized Metamorphic Relations (MRs) by developers across three perturbation levels: token, statement, and block. Afterward, our proposed MRs are applied to buggy codes to generate test cases, which are semantically equivalent yet to affect the inference of LAPR. Experiments are carried out on two extensively examined bug-fixing datasets, i.e., Defect4J and QuixBugs, and four bug-fixing abled LLMs released recently, demonstrating that 34.4% - 48.5% of the test cases expose the instability of LAPR techniques on average, showing the effectiveness of MT-LAPR and uncovering a positive correlation between code readability and the robustness of LAPR techniques. Inspired by the above findings, this paper uses the test cases generated by MT-LAPR as samples to train a CodeT5-based code editing model aiming at improving code readability and then embeds it into the LAPR workflow as a data preprocessing step. Extensive experiments demonstrate that this approach significantly enhances the robustness of LAPR by 49.32% at most.
翻訳日:2024-10-31 16:36:31 公開日:2024-10-10
# 機械学習を用いたMEMSジャイロスコープ多機能校正

MEMS Gyroscope Multi-Feature Calibration Using Machine Learning Technique ( http://arxiv.org/abs/2410.07519v1 )

ライセンス: Link先を確認
Yaoyao Long, Zhenming Liu, Cong Hao, Farrokh Ayazi, (参考訳) ジャイロスコープは、ナビゲーション、安定化、制御システムにおける正確な角速度測定に不可欠である。 MEMSジャイロスコープはコンパクトサイズや低コストといった利点があるが、複雑で時間も異なるエラーや不正確さに悩まされている。 本研究では、機械学習(ML)を活用し、MEMS共振器ジャイロスコープの複数の信号を用いて校正を改善する。 XGBoostは複雑な非線形関係を扱える高い予測精度と能力で知られ、複数の層と隠された次元を通して複雑なパターンをモデル化できる能力があることを認識し、校正プロセスを強化するために使用される。 以上の結果から,XGBoostモデルとMLPモデルの両方がノイズを著しく低減し,精度と安定性が向上し,従来のキャリブレーション法よりも優れていた。 計算コストは高いが、DLモデルは高いスループットのアプリケーションに最適であり、MLモデルは消費者電子製品や環境モニタリングに最適である。 MLモデルとDLモデルの両方が、MEMSジャイロ性能とキャリブレーション効率を向上させるための高度なキャリブレーション技術の可能性を示している。

Gyroscopes are crucial for accurate angular velocity measurements in navigation, stabilization, and control systems. MEMS gyroscopes offer advantages like compact size and low cost but suffer from errors and inaccuracies that are complex and time varying. This study leverages machine learning (ML) and uses multiple signals of the MEMS resonator gyroscope to improve its calibration. XGBoost, known for its high predictive accuracy and ability to handle complex, non-linear relationships, and MLP, recognized for its capability to model intricate patterns through multiple layers and hidden dimensions, are employed to enhance the calibration process. Our findings show that both XGBoost and MLP models significantly reduce noise and enhance accuracy and stability, outperforming the traditional calibration techniques. Despite higher computational costs, DL models are ideal for high-stakes applications, while ML models are efficient for consumer electronics and environmental monitoring. Both ML and DL models demonstrate the potential of advanced calibration techniques in enhancing MEMS gyroscope performance and calibration efficiency.
翻訳日:2024-10-31 16:36:31 公開日:2024-10-10
# News Reporter: 放送T.Vニュースのための多言語LLMフレームワーク

News Reporter: A Multi-lingual LLM Framework for Broadcast T.V News ( http://arxiv.org/abs/2410.07520v1 )

ライセンス: Link先を確認
Tarun Jain, Yufei Gao, Sridhar Vanga, Karan Singla, (参考訳) 大規模言語モデル(LLM)は、さまざまなクエリに対して一貫性のある回答を提供する能力のため、多くの会話チャットボットにとって、急速に重要なツールになっている。 これらのLSMを訓練するために使われるデータセットは、しばしば一般的なサンプルと合成サンプルの混合であり、T.V.ニュースに対して正確で検証可能な答えを提供するのに必要な検証が欠如している。 我々は、米国中の様々なニュースチャンネルから、ニュース録音の書き起こしから抽出された大量のQAペアを収集し、共有する。 結果のQAペアを使用して、既製のLCMモデルを微調整する。 我々のモデルは、いくつかのオープン LLM ベンチマークにおいて、同様の大きさのベースモデルを上回る。 我々はさらに、回答の文脈化を改善するためのRAG手法の統合と提案を行い、それを検証可能なニュース記録に向ける。

Large Language Models (LLMs) have fast become an essential tools to many conversational chatbots due to their ability to provide coherent answers for varied queries. Datasets used to train these LLMs are often a mix of generic and synthetic samples, thus lacking the verification needed to provide correct and verifiable answers for T.V. News. We collect and share a large collection of QA pairs extracted from transcripts of news recordings from various news-channels across the United States. Resultant QA pairs are then used to fine-tune an off-the-shelf LLM model. Our model surpasses base models of similar size on several open LLM benchmarks. We further integrate and propose a RAG method to improve contextualization of our answers and also point it to a verifiable news recording.
翻訳日:2024-10-31 16:36:31 公開日:2024-10-10
# DemoShapley: インコンテキスト学習のためのデモの検証

DemoShapley: Valuation of Demonstrations for In-Context Learning ( http://arxiv.org/abs/2410.07523v1 )

ライセンス: Link先を確認
Shan Xie, Man Luo, Chadly Daniel Stern, Mengnan Du, Lu Cheng, (参考訳) インコンテキスト学習(ICL)を利用した大規模言語モデル(LLM)は、タスク固有の微調整を必要とせずに、様々なタスク間で数ショットの学習を行う新しいベンチマークを設定した。 しかし、広範囲にわたる研究により、ICLの有効性はデモンストレーションの選択と順序付けに大きく影響されていることが示されている。 ICLにおける実証選択の重要な役割を考慮し、データ共有評価定理にインスパイアされたDemoShapleyを紹介する。 このアプローチは、個々の実演インスタンスの影響を評価し、肯定的に貢献するインスタンスと、パフォーマンスを妨げる可能性のあるインスタンスとを区別する。 この結果から,DemoShapleyは精度と公平性の観点からモデル性能を向上するだけでなく,テキスト内デモとは異なる領域からのクエリを一般化し,ICLのデモ選択を最適化する汎用性と有効性を強調した。 最後に、DemoShapleyはデモセット内でノイズの多いデータを識別する機能を示している。

Large language models (LLMs) leveraging in-context learning (ICL) have set new benchmarks in few-shot learning across various tasks without needing task-specific fine-tuning. However, extensive research has demonstrated that the effectiveness of ICL is significantly influenced by the selection and ordering of demonstrations. Considering the critical role of demonstration selection in ICL, we introduce DemoShapley which is inspired by the Data Shapley valuation theorem. This approach assesses the influence of individual demonstration instances, distinguishing between those that contribute positively and those that may hinder performance. Our findings reveal that DemoShapley not only enhances model performance in terms of accuracy and fairness but also generalizes queries from domains distinct from those of the in-context demonstrations, highlighting its versatility and effectiveness in optimizing ICL demonstration selection. Last but not least, DemoShapley demonstrates its ability to aid in identifying noisy data within the demonstration set.
翻訳日:2024-10-31 16:36:31 公開日:2024-10-10
# 大規模言語モデルをエキスパートの混在にアップサイクルする

Upcycling Large Language Models into Mixture of Experts ( http://arxiv.org/abs/2410.07524v1 )

ライセンス: Link先を確認
Ethan He, Abhinav Khattar, Ryan Prenger, Vijay Korthikanti, Zijie Yan, Tong Liu, Shiqing Fan, Ashwath Aithal, Mohammad Shoeybi, Bryan Catanzaro, (参考訳) 事前学習された高密度言語モデルをスパース・ミックス・オブ・エキスパート(MoE)モデルにアップサイクリングすることは、既に訓練済みのモデルのキャパシティを向上させるための効率的なアプローチである。 しかし, 大規模なアップサイクリングに最適な手法はいまだ不明である。 本研究では,10億パラメータスケールの言語モデルに対するアップサイクリング手法とハイパーパラメータについて広範な研究を行う。 そこで我々は,MoEアーキテクチャの微細化を実現するために,新しい"仮想グループ"初期化手法とウェイトスケーリング手法を提案する。 アブレーションにより, 上昇サイクルは高密度モデルトレーニングを継続することがわかった。 さらに、ソフトマックス-then-topKエキスパートルーティングは、トップK-then-softmaxアプローチよりも改善され、より高い粒度 MoEs が精度の向上に役立つことを示す。 最後に、1Tトークン上でNemotron-4 15Bをリサイクルし、同じ1Tトークン上で継続的に訓練された同じモデルのモデルと比較した。 この結果から,MoE言語モデル構築のためのアップサイクリングを効果的に活用するための洞察とベストプラクティスが得られました。

Upcycling pre-trained dense language models into sparse mixture-of-experts (MoE) models is an efficient approach to increase the model capacity of already trained models. However, optimal techniques for upcycling at scale remain unclear. In this work, we conduct an extensive study of upcycling methods and hyperparameters for billion-parameter scale language models. We propose a novel "virtual group" initialization scheme and weight scaling approach to enable upcycling into fine-grained MoE architectures. Through ablations, we find that upcycling outperforms continued dense model training. In addition, we show that softmax-then-topK expert routing improves over topK-then-softmax approach and higher granularity MoEs can help improve accuracy. Finally, we upcycled Nemotron-4 15B on 1T tokens and compared it to a continuously trained version of the same model on the same 1T tokens: the continuous trained model achieved 65.3% MMLU, whereas the upcycled model achieved 67.6%. Our results offer insights and best practices to effectively leverage upcycling for building MoE language models.
翻訳日:2024-10-31 16:36:31 公開日:2024-10-10
# MKGL: 3語言語の習得

MKGL: Mastery of a Three-Word Language ( http://arxiv.org/abs/2410.07526v1 )

ライセンス: Link先を確認
Lingbing Guo, Zhongpu Bo, Zhuo Chen, Yichi Zhang, Jiaoyan Chen, Yarong Lan, Mengshu Sun, Zhiqiang Zhang, Yangyifei Luo, Qian Li, Qiang Zhang, Wen Zhang, Huajun Chen, (参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)タスクの範囲で大幅に性能が向上している。 しかし、三重項の形で事実を記述し、最小限の幻覚を許容する知識グラフ(KGs)へのそれらの応用は、未探索のフロンティアのままである。 本稿では,特定のKG言語(KGL)を導入し,LLMとKGの統合について検討する。 KGLのLLMへの不慣れな語彙にもかかわらず、我々は、その学習を調整された辞書とイラストレーション文を通して促進し、リアルタイムのKGコンテキスト検索とKGLトークンの埋め込みによる文脈理解を強化する。 以上の結果から,従来のKG埋込工法と比較して,LLMはKGLのフラレンシを著しく低減できることがわかった。 さらに,拡張LDMでは,初期エンティティから正確な3単語文を生成し,KGから新たな未知語文を解釈する能力に優れていた。

Large language models (LLMs) have significantly advanced performance across a spectrum of natural language processing (NLP) tasks. Yet, their application to knowledge graphs (KGs), which describe facts in the form of triplets and allow minimal hallucinations, remains an underexplored frontier. In this paper, we investigate the integration of LLMs with KGs by introducing a specialized KG Language (KGL), where a sentence precisely consists of an entity noun, a relation verb, and ends with another entity noun. Despite KGL's unfamiliar vocabulary to the LLM, we facilitate its learning through a tailored dictionary and illustrative sentences, and enhance context understanding via real-time KG context retrieval and KGL token embedding augmentation. Our results reveal that LLMs can achieve fluency in KGL, drastically reducing errors compared to conventional KG embedding methods on KG completion. Furthermore, our enhanced LLM shows exceptional competence in generating accurate three-word sentences from an initial entity and interpreting new unseen terms out of KGs.
翻訳日:2024-10-31 16:36:31 公開日:2024-10-10
# 高次電力グリッドダイナミクスのための拡張物理インフォームドニューラルネットワーク(PINN)

Enhanced physics-informed neural networks (PINNs) for high-order power grid dynamics ( http://arxiv.org/abs/2410.07527v1 )

ライセンス: Link先を確認
Vineet Jagadeesan Nair, (参考訳) 非線形常微分方程式により記述された高次・高次元電力系統モデルのための改良された物理インフォームドニューラルネットワーク(PINN)を開発した。 本稿では,PINNのトレーニングと精度向上のための新たな改良と,文献から最近提案されたいくつかのアイデアの実装について述べる。 我々はこれらを同期発電機の過渡的ダイナミクスの研究にうまく応用した。 また,先進インバータモデルへのPINNの適用も進めている。 このような拡張PINNは、安定で信頼性の高い再生可能エネルギーに富む将来のグリッドを確保するために必要な高忠実度シミュレーションを加速することができる。

We develop improved physics-informed neural networks (PINNs) for high-order and high-dimensional power system models described by nonlinear ordinary differential equations. We propose some novel enhancements to improve PINN training and accuracy and also implement several other recently proposed ideas from the literature. We successfully apply these to study the transient dynamics of synchronous generators. We also make progress towards applying PINNs to advanced inverter models. Such enhanced PINNs can allow us to accelerate high-fidelity simulations needed to ensure a stable and reliable renewables-rich future grid.
翻訳日:2024-10-31 16:36:31 公開日:2024-10-10
# CountMamba: プラントカウントのための多方向選択状態空間モデル

CountMamba: Exploring Multi-directional Selective State-Space Models for Plant Counting ( http://arxiv.org/abs/2410.07528v1 )

ライセンス: Link先を確認
Hulingxiao He, Yaqi Zhang, Jinglin Xu, Yuxin Peng, (参考訳) 植物カウントは、種子の育種、発芽、栽培、受精、受粉収量の推定、収穫など、農業のあらゆる段階において不可欠である。 逐次走査法により高分解能画像中の被写体を数えることに着想を得て, 状態空間モデル(SSM)を用いて植物計測タスクを処理し, 結果を生成する可能性を探る。 本稿では,複数のカウント専門家が同時に様々な方向からスキャンできるCountMambaという新しいカウント手法を提案する。 具体的には、複数の順序で画像パッチシーケンスを処理し、異なるカウントの専門家をシミュレートするために、多方向状態空間グループを設計する。 また,複数の方向から抽出したグローバルな特徴と,CNNブランチから抽出した局所的特徴を標本的に適応的に集約するグローバル局所適応融合を設計する。 大規模な実験により、提案されたCountMambaは、トウモロコシの房、小麦の耳、ソルガムの頭部計数など、様々な植物計数タスクで競争力を発揮することが示された。

Plant counting is essential in every stage of agriculture, including seed breeding, germination, cultivation, fertilization, pollination yield estimation, and harvesting. Inspired by the fact that humans count objects in high-resolution images by sequential scanning, we explore the potential of handling plant counting tasks via state space models (SSMs) for generating counting results. In this paper, we propose a new counting approach named CountMamba that constructs multiple counting experts to scan from various directions simultaneously. Specifically, we design a Multi-directional State-Space Group to process the image patch sequences in multiple orders and aim to simulate different counting experts. We also design Global-Local Adaptive Fusion to adaptively aggregate global features extracted from multiple directions and local features extracted from the CNN branch in a sample-wise manner. Extensive experiments demonstrate that the proposed CountMamba performs competitively on various plant counting tasks, including maize tassels, wheat ears, and sorghum head counting.
翻訳日:2024-10-31 16:36:31 公開日:2024-10-10
# 生成基礎モデルを用いた音声説明合成

Audio Explanation Synthesis with Generative Foundation Models ( http://arxiv.org/abs/2410.07530v1 )

ライセンス: Link先を確認
Alican Akman, Qiyang Sun, Björn W. Schuller, (参考訳) 様々なタスクにわたる音声基礎モデルの成功が増大し、より複雑な意思決定プロセスを理解するための解釈可能性の向上の必要性が高まっている。 既存の手法は主に、最終的な決定に対する影響に基づいて、入力空間内の要素に重要性をもたらすことによって、これらのモデルを説明することに重点を置いている。 本稿では,音声基礎モデルの生成能力を生かした新しい音声説明手法を提案する。 提案手法は,これらのモデルにおける埋め込み空間の内在的表現力を利用して,確立された特徴属性技術を統合することにより,この空間における重要な特徴を同定する。 そして、最も重要な特徴を優先して、聞きやすい音声説明を生成する。 キーワードスポッティングや音声感情認識など,標準データセットに対する厳密なベンチマークによって,本モデルは音声説明の作成に有効であることを示す。

The increasing success of audio foundation models across various tasks has led to a growing need for improved interpretability to understand their intricate decision-making processes better. Existing methods primarily focus on explaining these models by attributing importance to elements within the input space based on their influence on the final decision. In this paper, we introduce a novel audio explanation method that capitalises on the generative capacity of audio foundation models. Our method leverages the intrinsic representational power of the embedding space within these models by integrating established feature attribution techniques to identify significant features in this space. The method then generates listenable audio explanations by prioritising the most important features. Through rigorous benchmarking against standard datasets, including keyword spotting and speech emotion recognition, our model demonstrates its efficacy in producing audio explanations.
翻訳日:2024-10-31 16:36:31 公開日:2024-10-10
# GEMMを用いたRNGハイディングによるフラッシュアテンションにおけるドロップアウトコストの低減

Reducing the Cost of Dropout in Flash-Attention by Hiding RNG with GEMM ( http://arxiv.org/abs/2410.07531v1 )

ライセンス: Link先を確認
Haiyue Ma, Jian Liu, Ronny Krashinsky, (参考訳) ネットワークオペレータが有効になった場合、DropoutはFlash-Attentionのパフォーマンスに劇的に影響し、これによりLarge-Language-Models(LLMs)のエンドツーエンドのトレーニング時間が向上する。 このようなパフォーマンス劣化の主な要因は、伝統的にFlash-Attentionカーネルに融合したランダム数生成(RNG)フェーズである。 RNGとAttentionは同じハードウェアボトルネックを持つため、RNGレイテンシはAttentionカーネル内にはほとんど隠せない。 本稿では,RNG ランタイムを隠蔽し,エンドツーエンドの性能を向上させるため,従来の GEMM レイヤと重複する RNG を提案する。 RNGとGEMMは異なるリソース要件とハードウェアボトルネックを持ち、互いに性能を損なうことなく並列に実行できる。 Llama2の1つの変圧器ブロック(マルチヘッドアテンションやフィードフォワード層を含む)では1.14倍のスピードアップ、ワークロードサイズが変化すると最大1.23倍のスピードアップを、FP8精度のGH100 GPU上で実現しています。 さらに、我々の理論モデルを異なるRNG実装とハードウェアアーキテクチャに拡張し、GEMM層でRNGを重畳する利点について論じる。

Dropout, a network operator, when enabled is likely to dramatically impact the performance of Flash-Attention, which in turn increases the end-to-end training time of Large-Language-Models (LLMs). The main contributor to such performance degradation is the Random Number Generation (RNG) phase that is traditionally fused into the Flash-Attention kernel. As RNG and Attention have the same hardware bottlenecks, RNG latency can hardly be hidden within the Attention kernel. We propose overlapping RNG with previous GEMM layers in the network to hide RNG runtime and improve end-to-end performance. RNG and GEMM have distinct resource requirements and hardware bottlenecks, so they can run in parallel without compromising each other's performance. Our fine-grained performance model, cross-validated by silicon results, shows 1.14x speedup on one transformer block (including multi-head attention and feed-forward layers) for Llama2, and up to 1.23x speedup when varying workload sizes, on GH100 GPUs with FP8 precision. Further, we extend our theoretical model to different RNG implementations and hardware architectures, and discuss the widely applicable benefits for overlapping RNG with GEMM layers.
翻訳日:2024-10-31 16:36:31 公開日:2024-10-10
# AIによるバイナリコード類似性検出の理解

Understanding the AI-powered Binary Code Similarity Detection ( http://arxiv.org/abs/2410.07537v1 )

ライセンス: Link先を確認
Lirong Fu, Peiyu Liu, Wenlong Meng, Kangjie Lu, Shize Zhou, Xuhong Zhang, Wenzhi Chen, Shouling Ji, (参考訳) AIを利用したバイナリコード類似度検出(BinSD)は、ニューラルネットワークに埋め込まれたコードの距離測定と比較し、複雑なバイナリコードを変換し、プログラム分析に広く応用されている。 しかし, 組込み戦略, 評価手法, 実行環境, ベンチマークの多様性から, 特に実世界のアプリケーションにおいて, BinSD問題がどの程度解決されたのかを定量的に理解することは困難である。 さらに、ますます複雑な組み込みニューラルネットワークと様々な評価手法に関する詳細な調査が欠如していることが、AIによるBinSDの開発を妨げる重要な要因となっている。 このような研究ギャップを埋めるために,本稿では,BinSDシステムと2つの下流アプリケーション,すなわち脆弱性探索とライセンス違反検出を包括的に比較することにより,最先端のAIによるBinSDアプローチの体系的評価を行う。 この評価に基づいて,ニューラルネットワークの埋め込みと評価手法の最初の研究を行う。 実験結果から,(1)GNNベースのBinSDシステムは,現在同様の機能検出において最高の性能を達成しているが,まだ改善の余地が残っており,(2)AIによるBinSDアプローチの能力は,異なるダウンストリームアプリケーションに適用した場合に大きく変化する。 例えば、評価指標(例えば、広く採用されているROCやAUC)は、現実のシナリオにおける実用のモデル性能を正確に表現できない。 広範囲な実験と分析に基づいて、将来的な研究の方向性をさらに明らかにする。

AI-powered binary code similarity detection (BinSD), which transforms intricate binary code comparison to the distance measure of code embedding through neural networks, has been widely applied to program analysis. However, due to the diversity of the adopted embedding strategies, evaluation methodologies, running environments, and/or benchmarks, it is difficult to quantitatively understand to what extent the BinSD problem has been solved, especially in realworld applications. Moreover, the lack of an in-depth investigation of the increasingly complex embedding neural networks and various evaluation methodologies has become the key factor hindering the development of AI-powered BinSD. To fill these research gaps, in this paper, we present a systematic evaluation of state-of-the-art AI-powered BinSD approaches by conducting a comprehensive comparison of BinSD systems on similar function detection and two downstream applications, namely vulnerability search and license violation detection. Building upon this evaluation, we perform the first investigation of embedding neural networks and evaluation methodologies. The experimental results yield several findings, which provide valuable insights in the BinSD domain, including (1) despite the GNN-based BinSD systems currently achieving the best performance in similar function detection, there still exists considerable space for improvements;(2) the capability of AI-powered BinSD approaches exhibits significant variation when applied to different downstream applications;(3) existing evaluation methodologies still need substantial adjustments. For instance, the evaluation metrics (such as the widely adopted ROC and AUC) usually fall short of accurately representing the model performance of the practical use in realworld scenarios. Based on the extensive experiments and analysis, we further provide several promising future research directions.
翻訳日:2024-10-31 16:26:23 公開日:2024-10-10
# リストワイズアノテーションのためのクラウドソーシングにおけるランクアグリゲーション

Rank Aggregation in Crowdsourcing for Listwise Annotations ( http://arxiv.org/abs/2410.07538v1 )

ライセンス: Link先を確認
Wenshui Luo, Haoyu Liu, Yongliang Ding, Tao Zhou, Sheng wan, Runze Wu, Minmin Lin, Cong Zhang, Changjie Fan, Chen Gong, (参考訳) クラウドソーシングによるランクアグリゲーションは、特にリストワイドなランキングアノテーションの文脈において、近年大きな注目を集めている。 しかし、既存の手法は主に1つの問題と部分的なランクに焦点をあてるが、多くの問題にまたがるリストワイドの完全なランクの集合は、ほとんど探索されていない。 このシナリオは、モデル品質評価や人間からのフィードバックによる強化学習など、様々な応用に関連性を見出す。 本研究では,クラウドソーシングにおけるリストワイド・アグリゲーション手法であるLACを提案する。 本設計では,特にアノテーションの品質指標を用いて,注釈付きランクと真のランクとの差を計測する。 また、アノテータの性能に直接影響を与え、その結果、最終的な結果に影響を及ぼすため、ランキング問題自体の難しさも考慮に入れている。 我々の知る限り、LACは、リストワイドのクラウドソーシングにおいて、完全なランク集約問題に直接対処し、同時に問題の難易度、アノテータの能力、接地トラスを教師なしの方法で推定する最初の研究である。 提案手法を評価するために,段落ランキングのための実世界のビジネス指向データセットを収集する。 合成および実世界のベンチマークデータセットを用いた実験結果から,提案手法の有効性が示された。

Rank aggregation through crowdsourcing has recently gained significant attention, particularly in the context of listwise ranking annotations. However, existing methods primarily focus on a single problem and partial ranks, while the aggregation of listwise full ranks across numerous problems remains largely unexplored. This scenario finds relevance in various applications, such as model quality assessment and reinforcement learning with human feedback. In light of practical needs, we propose LAC, a Listwise rank Aggregation method in Crowdsourcing, where the global position information is carefully measured and included. In our design, an especially proposed annotation quality indicator is employed to measure the discrepancy between the annotated rank and the true rank. We also take the difficulty of the ranking problem itself into consideration, as it directly impacts the performance of annotators and consequently influences the final results. To our knowledge, LAC is the first work to directly deal with the full rank aggregation problem in listwise crowdsourcing, and simultaneously infer the difficulty of problems, the ability of annotators, and the ground-truth ranks in an unsupervised way. To evaluate our method, we collect a real-world business-oriented dataset for paragraph ranking. Experimental results on both synthetic and real-world benchmark datasets demonstrate the effectiveness of our proposed LAC method.
翻訳日:2024-10-31 16:26:23 公開日:2024-10-10
# 2次元等変流マッチングによる分子クラスターの効率的な生成

Efficient Generation of Molecular Clusters with Dual-Scale Equivariant Flow Matching ( http://arxiv.org/abs/2410.07539v1 )

ライセンス: Link先を確認
Akshay Subramanian, Shuhui Qu, Cheol Woo Park, Sulin Liu, Janghwan Lee, Rafael Gómez-Bombarelli, (参考訳) アモルファス分子固体は、機械的柔軟性と溶液処理性のため、無機半導体の代替として有望である。 これらの材料の包装構造は、有機太陽電池(OSC)などの装置の効率を高める鍵となる電子的・輸送的特性を決定する上で重要な役割を担っている。 しかしながら、これらの光電子特性を計算的に取得するには、コンフォメーションアンサンブルを生成するために分子動力学(MD)シミュレーションが必要である。 近年の進歩はジェネレーティブモデル、特にフローベースモデルをボルツマン・ジェネレータとして使用することに集中し、MDサンプリングの効率を改善している。 本研究では, トレーニングと推論を粗粒度と全原子ステージに分離し, 標準流量整合サンプリング器の精度と効率を両立させる2次元フローマッチング法を開発した。 MDシミュレーションにより得られたY6分子クラスターのデータセット上で,本手法の有効性を実証し,その効率と精度を単スケールフローマッチング法と比較した。

Amorphous molecular solids offer a promising alternative to inorganic semiconductors, owing to their mechanical flexibility and solution processability. The packing structure of these materials plays a crucial role in determining their electronic and transport properties, which are key to enhancing the efficiency of devices like organic solar cells (OSCs). However, obtaining these optoelectronic properties computationally requires molecular dynamics (MD) simulations to generate a conformational ensemble, a process that can be computationally expensive due to the large system sizes involved. Recent advances have focused on using generative models, particularly flow-based models as Boltzmann generators, to improve the efficiency of MD sampling. In this work, we developed a dual-scale flow matching method that separates training and inference into coarse-grained and all-atom stages and enhances both the accuracy and efficiency of standard flow matching samplers. We demonstrate the effectiveness of this method on a dataset of Y6 molecular clusters obtained through MD simulations, and we benchmark its efficiency and accuracy against single-scale flow matching methods.
翻訳日:2024-10-31 16:26:23 公開日:2024-10-10
# CoPESD : 内視鏡下粘膜切開術における大視領域モデルの訓練用多層手術運動データセット

CoPESD: A Multi-Level Surgical Motion Dataset for Training Large Vision-Language Models to Co-Pilot Endoscopic Submucosal Dissection ( http://arxiv.org/abs/2410.07540v1 )

ライセンス: Link先を確認
Guankun Wang, Han Xiao, Huxin Gao, Renrui Zhang, Long Bai, Xiaoxiao Yang, Zhen Li, Hongsheng Li, Hongliang Ren, (参考訳) 粘膜下解離(ESD)は、大規模な病変の迅速な切除、再発率の最小化、長期生存の改善を可能にする。 これらの利点にもかかわらず、ESDは技術的に困難であり、合併症のリスクが高く、熟練した外科医や精密な器具を必要とする。 近年のLVLM(Large Visual-Language Models)の進歩は,ESDの精度を向上し,手続き的リスクを低減するロボットシステムに対して,有望な意思決定支援と予測計画能力を提供する。 しかし、多段階の細粒度のESD手術動作理解のための既存のデータセットは乏しく、詳細なアノテーションが欠如している。 本稿では, ESD運動粒度の階層的分解を設計し, 多段階の手術用運動データセット (CoPESD) を導入し, LVLM をロボット型 \textbf{Co}-\textbf{P}ilot of \textbf{E}ndoscopic \textbf{S}ubmucosal \textbf{D}issection として訓練する。 CoPESDには17,679枚の画像と32,699個のバウンディングボックスと88,395個のマルチレベルモーションが含まれており、35時間以上のESDビデオがロボット支援と従来の手術の両方に使われている。 CoPESDは、粘膜下剥離の複雑なタスクに焦点を当てた、ESD運動のきめ細かい解析を可能にする。 LVLMの大規模な実験は、手術ロボットの動きを予測するためのLVLMの訓練におけるCoPESDの有効性を実証している。 最初のマルチモーダル ESD モーションデータセットとして、CoPESD は ESD 命令追従と外科的自動化の先進的な研究を支援する。 データセットは \href{https://github.com/gkw0010/CoPESD}{https://github.com/gkw0010/CoPESDで入手できる。 (3)

submucosal dissection (ESD) enables rapid resection of large lesions, minimizing recurrence rates and improving long-term overall survival. Despite these advantages, ESD is technically challenging and carries high risks of complications, necessitating skilled surgeons and precise instruments. Recent advancements in Large Visual-Language Models (LVLMs) offer promising decision support and predictive planning capabilities for robotic systems, which can augment the accuracy of ESD and reduce procedural risks. However, existing datasets for multi-level fine-grained ESD surgical motion understanding are scarce and lack detailed annotations. In this paper, we design a hierarchical decomposition of ESD motion granularity and introduce a multi-level surgical motion dataset (CoPESD) for training LVLMs as the robotic \textbf{Co}-\textbf{P}ilot of \textbf{E}ndoscopic \textbf{S}ubmucosal \textbf{D}issection. CoPESD includes 17,679 images with 32,699 bounding boxes and 88,395 multi-level motions, from over 35 hours of ESD videos for both robot-assisted and conventional surgeries. CoPESD enables granular analysis of ESD motions, focusing on the complex task of submucosal dissection. Extensive experiments on the LVLMs demonstrate the effectiveness of CoPESD in training LVLMs to predict following surgical robotic motions. As the first multimodal ESD motion dataset, CoPESD supports advanced research in ESD instruction-following and surgical automation. The dataset is available at \href{https://github.com/gkw0010/CoPESD}{https://github.com/gkw0010/CoPESD.}}
翻訳日:2024-10-31 16:26:23 公開日:2024-10-10
# マイクロドップラーコーナー点雲と動的グラフ学習を用いた室内活動認識法

Generalizable Indoor Human Activity Recognition Method Based on Micro-Doppler Corner Point Cloud and Dynamic Graph Learning ( http://arxiv.org/abs/2410.07542v1 )

ライセンス: Link先を確認
Xiaopeng Yang, Weicheng Gao, Xiaodong Qu, Haoyu Meng, (参考訳) マイクロドップラーシグネチャ抽出とインテリジェントな意思決定アルゴリズムを融合させることで、TWRによる人間の活動認識を実現することができる。 しかし、実際の屋内シナリオではテスタの優先順位が不足しているため、トレーニングされた1人のテスタのモデルは、他のテスタに対して適切に推測することが一般的に困難であり、一般化能力の低下を引き起こす。 そこで本研究では,マイクロドップラー角点雲と動的グラフ学習に基づく室内人間活動認識手法を提案する。 提案手法では, マイクロドップラー角抽出にDoG-{\mu}D-CornerDetを用いる。 そこで, 物理モデルの制約の下で特徴距離を最大化するために, 多項式フィッティング平滑化に基づくマイクロドップラーコーナーフィルタ法を提案する。 2種類のレーダープロファイルから抽出した角を3次元の点雲に結合する。 最後に,データからアクティブなラベルマッピングのための動的グラフニューラルネットワーク(DGNN)に基づく認識手法を提案する。 提案手法の有効性を検証するため, 可視化, 比較, アブレーション実験を行った。 提案手法は, 異なるテスタから収集したレーダデータに対して, 強い一般化能力を有することを示す。

Through-the-wall radar (TWR) human activity recognition can be achieved by fusing micro-Doppler signature extraction and intelligent decision-making algorithms. However, limited by the insufficient priori of tester in practical indoor scenarios, the trained models on one tester are commonly difficult to inference well on other testers, which causes poor generalization ability. To solve this problem, this paper proposes a generalizable indoor human activity recognition method based on micro-Doppler corner point cloud and dynamic graph learning. In the proposed method, DoG-{\mu}D-CornerDet is used for micro-Doppler corner extraction on two types of radar profiles. Then, a micro-Doppler corner filtering method based on polynomial fitting smoothing is proposed to maximize the feature distance under the constraints of the kinematic model. The extracted corners from the two types of radar profiles are concatenated together into three-dimensional point cloud. Finally, the paper proposes a dynamic graph neural network (DGNN)-based recognition method for data-to-activity label mapping. Visualization, comparison and ablation experiments are carried out to verify the effectiveness of the proposed method. The results prove that the proposed method has strong generalization ability on radar data collected from different testers.
翻訳日:2024-10-31 16:26:23 公開日:2024-10-10
# 壁面レーダーによる人間の活動認識の一般化能力解析

Generalization Ability Analysis of Through-the-Wall Radar Human Activity Recognition ( http://arxiv.org/abs/2410.07543v1 )

ライセンス: Link先を確認
Weicheng Gao, Xiaodong Qu, Xiaopeng Yang, (参考訳) through-the-Wall radar (TWR) Human Activity Recognition (HAR) は、低周波超広帯域(UWB)信号を用いて室内の人間の動きを検出し、分析する技術である。 しかし,既存のエンドツーエンド認識モデルのTWRトレーニングデータの分布への依存度が高いため,屋内試験者間での良好な一般化は困難である。 本稿では,TWR HARの一般化能力について述べる。 本稿では,TWR HARの終端線形ニューラルネットワーク法とその一般化誤差境界について論じる。 次に,マイクロドップラーコーナー表現法と次元減少前後の一般化誤差の変化を示す。 理論一般化誤差の妥当性は数値シミュレーションや実験によって証明される。 その結果, 特徴量削減は, 屋内試験者間での認識モデルの一般化に有効であることが示唆された。

Through-the-Wall radar (TWR) human activity recognition (HAR) is a technology that uses low-frequency ultra-wideband (UWB) signal to detect and analyze indoor human motion. However, the high dependence of existing end-to-end recognition models on the distribution of TWR training data makes it difficult to achieve good generalization across different indoor testers. In this regard, the generalization ability of TWR HAR is analyzed in this paper. In detail, an end-to-end linear neural network method for TWR HAR and its generalization error bound are first discussed. Second, a micro-Doppler corner representation method and the change of the generalization error before and after dimension reduction are presented. The appropriateness of the theoretical generalization errors is proved through numerical simulations and experiments. The results demonstrate that feature dimension reduction is effective in allowing recognition models to generalize across different indoor testers.
翻訳日:2024-10-31 16:26:23 公開日:2024-10-10
# 絡み合いを増強したNeyman-Pearsonターゲット検出

Entanglement-Enhanced Neyman-Pearson Target Detection ( http://arxiv.org/abs/2410.07544v1 )

ライセンス: Link先を確認
William Ward, Abdulkarim Hariri, Zheshen Zhang, (参考訳) 量子照明(QI)は、絡み込み破壊環境で動作しているにもかかわらず、絡み合いを許容する目標検出の強化を提供する。 既存のQI実験では、古典的目標検出に対する優位性を示すために、検出前に標的が存在または欠落する可能性が等しくあると仮定して、ベイズ的アプローチを用いている。 しかし、そのような前提は、事前の確率が不明な実際の運用シナリオにおいて破られ、QIが現実世界の目標検出シナリオに適用可能であることを妨げている。 本研究では,QIの有益性の指標として,ほぼ同程度の目標不在や存在を目標とする誤り確率の代わりに,ネイマン・ピアソン基準を採用する。 本稿では,既知の確率に頼らずに検出確率と偽アラーム確率を比較検討する受信機動作特性によってベンチマークされた,最適古典照度プロトコルに対する非条件量子優位性を実証する。 我々の研究は、量子化センシングを実用的な運用環境に適応させる上で、重要な進歩を示している。

Quantum illumination (QI) provides entanglement-enabled target-detection enhancement, despite operating in an entanglement-breaking environment. Existing experimental studies of QI have utilized a Bayesian approach, assuming that the target is equally likely to be present or absent before detection, to demonstrate an advantage over classical target detection. However, such a premise breaks down in practical operational scenarios in which the prior probability is unknown, thereby hindering QI's applicability to real-world target-detection scenarios. In this work, we adopt the Neyman-Pearson criterion in lieu of the error probability for equally likely target absence or presence as our figure of merit for QI. We demonstrate an unconditional quantum advantage over the optimal classical-illumination protocol as benchmarked by the receiver operating characteristic, which examines detection probability versus false-alarm probability without resorting to known prior probabilities. Our work represents a critical advancement in adapting quantum-enhanced sensing to practical operational settings.
翻訳日:2024-10-31 16:26:23 公開日:2024-10-10
# 校正場を有する3次元単画素イメージングシステムの校正

Calibration of 3D Single-pixel Imaging Systems with a Calibration Field ( http://arxiv.org/abs/2410.07545v1 )

ライセンス: Link先を確認
Xinyue Ma, Chenxing Wang, (参考訳) 3Dシングルピクセルイメージング(SPI)は、様々なウェーブバンドに適用できる有望なイメージング技術である。 3D SPIの主な課題は、キャリブレーションが基準として多くの標準点を必要とすることである。 従来のソリューションには、高度なデバイス展開と面倒な操作が含まれており、キャリブレーションに必要な数百の画像が生成される。 本研究では,1つの画像から標準点を効率よく生成するキャリブレーション場(CaliF)を構築した。 CaliFの高精度は、ディープラーニングとデジタルツインの技術によって保証される。 我々は新しい手法で実験を行い、その妥当性と精度を検証した。 私たちは、我々の研究が3D SPIシステムや一般的なイメージングシステムにおいて大きな可能性を秘めていると考えています。

3D single-pixel imaging (SPI) is a promising imaging technique that can be ffexibly applied to various wavebands. The main challenge in 3D SPI is that the calibration usually requires a large number of standard points as references, which are tricky to capture using single-pixel detectors. Conventional solutions involve sophisticated device deployment and cumbersome operations, resulting in hundreds of images needed for calibration. In our work, we construct a Calibration Field (CaliF) to efffciently generate the standard points from one single image. A high accuracy of the CaliF is guaranteed by the technique of deep learning and digital twin. We perform experiments with our new method to verify its validity and accuracy. We believe our work holds great potential in 3D SPI systems or even general imaging systems.
翻訳日:2024-10-31 16:26:23 公開日:2024-10-10
# スパイクニューラルネットワークの総合的オンライントレーニングと展開

Comprehensive Online Training and Deployment for Spiking Neural Networks ( http://arxiv.org/abs/2410.07547v1 )

ライセンス: Link先を確認
Zecheng Hao, Yifan Huang, Zijie Xu, Zhaofei Yu, Tiejun Huang, (参考訳) スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率の良い性質のために、人工知能(AI)の将来の発展に大きな可能性を秘めていると考えられている。 現在のSNNの教師付き学習領域では、バニラ空間時間バックプロパゲーション(STBP)トレーニングと比較して、オンライントレーニングはGPUメモリの爆発のリスクを効果的に克服することができ、広く学術的な注目を集めている。 しかし、現在提案されているオンライントレーニング手法は、時間依存勾配の不分離性問題に対処できず、単にトレーニングメモリの最適化を目的とせず、推論フェーズにおけるSTBPトレーニングモデルと比較して性能上の優位性はない。 上記の課題に対処するため,浮動小数点スパイクと二乗シナプス重みに基づく先進的なスパイクモデル群であるEM-PFモデルを提案する。 我々は,EM-PFモデルが時間勾配を効果的に分離し,計算速度とメモリフットプリントに対するフルステージ最適化を実現することを指摘した。 実験により,EM-PFモデルとランダムなバックプロパゲーション,並列計算,チャネルアテンション機構などの様々な手法を柔軟に組み合わせて,オンライン学習分野における計算オーバーヘッドを極端に低く抑えることができた。

Spiking Neural Networks (SNNs) are considered to have enormous potential in the future development of Artificial Intelligence (AI) due to their brain-inspired and energy-efficient properties. In the current supervised learning domain of SNNs, compared to vanilla Spatial-Temporal Back-propagation (STBP) training, online training can effectively overcome the risk of GPU memory explosion and has received widespread academic attention. However, the current proposed online training methods cannot tackle the inseparability problem of temporal dependent gradients and merely aim to optimize the training memory, resulting in no performance advantages compared to the STBP training models in the inference phase. To address the aforementioned challenges, we propose Efficient Multi-Precision Firing (EM-PF) model, which is a family of advanced spiking models based on floating-point spikes and binary synaptic weights. We point out that EM-PF model can effectively separate temporal gradients and achieve full-stage optimization towards computation speed and memory footprint. Experimental results have demonstrated that EM-PF model can be flexibly combined with various techniques including random back-propagation, parallel computation and channel attention mechanism, to achieve state-of-the-art performance with extremely low computational overhead in the field of online learning.
翻訳日:2024-10-31 16:26:23 公開日:2024-10-10
# ハイブリッド概要統計

Hybrid Summary Statistics ( http://arxiv.org/abs/2410.07548v1 )

ライセンス: Link先を確認
T. Lucas Makinen, Ce Sui, Benjamin D. Wandelt, Natalia Porqueres, Alan Heavens, (参考訳) 本稿では,厳密なシミュレーションに基づく推論のために,パラメータ空間上でスパースにサンプリングされたトレーニングセットから高情報後部を捕捉する方法を提案する。 物理推論問題では、従来の要約統計を定義するためにドメイン知識を適用して、データセット内の情報のいくつかをキャプチャすることができる。 これらの統計データをニューラルネットワーク出力で拡張することにより、相互情報の最大化が、ニューラルネットワーク単独や既存の要約との結合よりも情報抽出を改善し、トレーニングデータが少ない設定で推論を堅牢にすることを示す。 紹介 1)これを実現するための2つの損失形式 2) この手法を2つの異なる宇宙データセットに適用し,非ガウスパラメータ情報を抽出する。

We present a way to capture high-information posteriors from training sets that are sparsely sampled over the parameter space for robust simulation-based inference. In physical inference problems, we can often apply domain knowledge to define traditional summary statistics to capture some of the information in a dataset. We show that augmenting these statistics with neural network outputs to maximise the mutual information improves information extraction compared to neural summaries alone or their concatenation to existing summaries and makes inference robust in settings with low training data. We introduce 1) two loss formalisms to achieve this and 2) apply the technique to two different cosmological datasets to extract non-Gaussian parameter information.
翻訳日:2024-10-31 16:26:23 公開日:2024-10-10
# OneNet: 大規模言語モデルによるFew-Shotエンティティリンクのためのファインチューニングフリーフレームワーク

OneNet: A Fine-Tuning Free Framework for Few-Shot Entity Linking via Large Language Model Prompting ( http://arxiv.org/abs/2410.07549v1 )

ライセンス: Link先を確認
Xukai Liu, Ye Liu, Kai Zhang, Kehang Wang, Qi Liu, Enhong Chen, (参考訳) エンティティリンク(英: Entity Linking, EL)は、知識ベース内の特定のエンティティに曖昧なテキスト記述を関連付けるプロセスである。 従来のELメソッドは、大規模なデータセットに大きく依存してパフォーマンスを向上しています。 この課題に対処するために,大規模言語モデル(LLM)の少数ショット学習機能を利用した,微調整の必要なく革新的なフレームワークOneNetを提案する。 私たちの知る限りでは、これはLLMを少数のエンティティリンクタスクに適用するための先駆的なアプローチです。 1)無関係なエンティティを要約してフィルタリングすることで入力を単純化するエンティティリダクションプロセッサ,(2)コンテキスト的キューと事前知識を組み合わせて正確なエンティティリンクを行うデュアルパースペクティブエンティティリンカ,(3)エンティティリンク推論における幻覚を緩和するユニークな一貫性アルゴリズムを利用するエンティティコンセンサス判定器,である。 7つのベンチマークデータセットの総合的な評価によると、OneNetは現在の最先端エンティティリンクメソッドより優れている。

Entity Linking (EL) is the process of associating ambiguous textual mentions to specific entities in a knowledge base. Traditional EL methods heavily rely on large datasets to enhance their performance, a dependency that becomes problematic in the context of few-shot entity linking, where only a limited number of examples are available for training. To address this challenge, we present OneNet, an innovative framework that utilizes the few-shot learning capabilities of Large Language Models (LLMs) without the need for fine-tuning. To the best of our knowledge, this marks a pioneering approach to applying LLMs to few-shot entity linking tasks. OneNet is structured around three key components prompted by LLMs: (1) an entity reduction processor that simplifies inputs by summarizing and filtering out irrelevant entities, (2) a dual-perspective entity linker that combines contextual cues and prior knowledge for precise entity linking, and (3) an entity consensus judger that employs a unique consistency algorithm to alleviate the hallucination in the entity linking reasoning. Comprehensive evaluations across seven benchmark datasets reveal that OneNet outperforms current state-of-the-art entity linking methods.
翻訳日:2024-10-31 16:26:23 公開日:2024-10-10
# 時系列インプットのための条件付きラグランジアンワッサースタイン流

Conditional Lagrangian Wasserstein Flow for Time Series Imputation ( http://arxiv.org/abs/2410.07550v1 )

ライセンス: Link先を確認
Weizhu Qian, Dalin Zhang, Yan Zhao, (参考訳) 時系列計算は多くの実世界のアプリケーションにとって重要である。 拡散モデルに基づく数値計算法の限界を克服するために, 条件付きラグランジアン・ワッサースタイン流と呼ばれる, 時間列計算の新しい手法を提案する。 提案手法は(条件付き)最適輸送理論を利用して,初期雑音,欠落データ,観測情報をそれぞれソース分布,目標分布,条件情報として扱うシミュレーション自由な方法で確率フローを学習する。 ラグランジュ力学における最小作用の原理によれば、対応する運動エネルギーを最小化することで速度を学ぶ。 さらに,より先行的な情報をモデルに組み込むため,変分オートエンコーダを用いてタスク固有ポテンシャル関数の導関数をパラメータ化し,ベース推定器と組み合わせてRoo-Blackwellized samplerを定式化する。 提案モデルでは,既存の拡散法と比較して,推論のための高品質なサンプルを作成するための中間段階を小さくすることができる。 最後に, 実単語データセットを用いた実験結果から, 提案手法は, 最新手法と比較して, 時系列計算における競合性能が向上することを示した。

Time series imputation is important for numerous real-world applications. To overcome the limitations of diffusion model-based imputation methods, e.g., slow convergence in inference, we propose a novel method for time series imputation in this work, called Conditional Lagrangian Wasserstein Flow. The proposed method leverages the (conditional) optimal transport theory to learn the probability flow in a simulation-free manner, in which the initial noise, missing data, and observations are treated as the source distribution, target distribution, and conditional information, respectively. According to the principle of least action in Lagrangian mechanics, we learn the velocity by minimizing the corresponding kinetic energy. Moreover, to incorporate more prior information into the model, we parameterize the derivative of a task-specific potential function via a variational autoencoder, and combine it with the base estimator to formulate a Rao-Blackwellized sampler. The propose model allows us to take less intermediate steps to produce high-quality samples for inference compared to existing diffusion methods. Finally, the experimental results on the real-word datasets show that the proposed method achieves competitive performance on time series imputation compared to the state-of-the-art methods.
翻訳日:2024-10-31 16:26:23 公開日:2024-10-10
# 法律領域におけるLLMの強化のためのKRAGフレームワーク

KRAG Framework for Enhancing LLMs in the Legal Domain ( http://arxiv.org/abs/2410.07551v1 )

ライセンス: Link先を確認
Nguyen Ha Thanh, Ken Satoh, (参考訳) 本稿では,Large Language Models (LLM) の機能向上を目的とした新しいフレームワークであるKRAG(Knowledge Representation Augmented Generation)を紹介する。 KRAGは、標準データセットに通常欠落している重要な知識エンティティと関係の戦略的包含と、LLMが本質的に学ばないことを指摘している。 KRAGに基づく実装モデルであるSoft PROLEGは,構造化された法的推論,議論,ユーザからの問い合わせに適した説明の提供において,LLMを支援するために推論グラフを使用する。 KRAGの統合は、独立したフレームワークとして、あるいは、検索拡張生成(RAG)と共に、法的テキストや用語によって引き起こされる複雑な課題をナビゲートし解決する言語モデルの能力を大幅に改善する。 本稿では、KRAGの方法論、Soft PROLEGによる実装、および潜在的に広範な応用について詳述し、専門知識領域における自然言語理解と処理の促進における重要な役割について述べる。

This paper introduces Knowledge Representation Augmented Generation (KRAG), a novel framework designed to enhance the capabilities of Large Language Models (LLMs) within domain-specific applications. KRAG points to the strategic inclusion of critical knowledge entities and relationships that are typically absent in standard data sets and which LLMs do not inherently learn. In the context of legal applications, we present Soft PROLEG, an implementation model under KRAG, which uses inference graphs to aid LLMs in delivering structured legal reasoning, argumentation, and explanations tailored to user inquiries. The integration of KRAG, either as a standalone framework or in tandem with retrieval augmented generation (RAG), markedly improves the ability of language models to navigate and solve the intricate challenges posed by legal texts and terminologies. This paper details KRAG's methodology, its implementation through Soft PROLEG, and potential broader applications, underscoring its significant role in advancing natural language understanding and processing in specialized knowledge domains.
翻訳日:2024-10-31 16:16:17 公開日:2024-10-10
# COMMA: マルチモーダルマルチエージェントベンチマーク

COMMA: A Communicative Multimodal Multi-Agent Benchmark ( http://arxiv.org/abs/2410.07553v1 )

ライセンス: Link先を確認
Timothy Ossowski, Jixuan Chen, Danyal Maqbool, Zefan Cai, Tyler Bradshaw, Junjie Hu, (参考訳) 大規模基盤モデルに基づくマルチモーダルエージェントの急速な進歩は、協調作業におけるエージェント間の言語ベースのコミュニケーションの可能性を大きく見落としている。 この監視は、特に人間とのコミュニケーションにおいて、実世界のデプロイメントにおける有効性を理解する上で、重要なギャップを生じさせる。 既存のエージェントベンチマークは、エージェント間のコミュニケーションとコラボレーションの重要な側面、特にエージェントが情報へのアクセスに不平等であり、個々の能力の範囲を超えてタスクを達成するために協力する必要があるシナリオに対処できない。 このギャップを埋めるために,言語通信によるマルチモーダルマルチエージェントシステムの協調性能を評価するための新しいベンチマークを導入する。 我々のベンチマークは様々なシナリオを特徴とし、コミュニケーション・コラボレーション・セッティングにおけるエージェント能力の4つの重要なカテゴリを包括的に評価する。 オープンソースモデルとクローズドソースモデルを用いてエージェントエージェントとエージェント-ヒューマンのコラボレーションをテストすることにより、GPT-4oのようなプロプライエタリモデルを含む最先端モデルの驚くべき弱点が明らかとなった。 これらのモデルは、エージェントエージェントとエージェントのコラボレーションにおいて単純なランダムエージェントベースラインよりも優れており、人間が関わるときだけランダムベースラインを超えている。

The rapid advances of multi-modal agents built on large foundation models have largely overlooked their potential for language-based communication between agents in collaborative tasks. This oversight presents a critical gap in understanding their effectiveness in real-world deployments, particularly when communicating with humans. Existing agentic benchmarks fail to address key aspects of inter-agent communication and collaboration, particularly in scenarios where agents have unequal access to information and must work together to achieve tasks beyond the scope of individual capabilities. To fill this gap, we introduce a novel benchmark designed to evaluate the collaborative performance of multimodal multi-agent systems through language communication. Our benchmark features a variety of scenarios, providing a comprehensive evaluation across four key categories of agentic capability in a communicative collaboration setting. By testing both agent-agent and agent-human collaborations using open-source and closed-source models, our findings reveal surprising weaknesses in state-of-the-art models, including proprietary models like GPT-4o. These models struggle to outperform even a simple random agent baseline in agent-agent collaboration and only surpass the random baseline when a human is involved.
翻訳日:2024-10-31 16:16:17 公開日:2024-10-10
# 学生から職業職へ:大学院調査

From student to working professional: A graduate survey ( http://arxiv.org/abs/2410.07560v1 )

ライセンス: Link先を確認
Jacqueline Whalley, Asanthika Imbulpitiya, Tony Clear, Harley Ogier, (参考訳) 本稿では,最近のコンピュータサイエンス(CS)卒業生30名を対象に,WiL(Work Integrated Learning)の経験を探求する2023年の調査結果について報告する。 卒業生は全員、過去5年間に学部の学士号を修了し、現在はCS業界で雇用されている。 調査では、最終年度のキャップストーンプロジェクトからプロフェッショナル開発までのWiL経験の継続点における卒業生の認識について質問した。 ほとんどの回答者は、チームプロジェクトを含むキャップストーンコースを受講しました。 インターンシッププログラムに参加したのは2人だけだった。 以上の結果から,卒業生は,チームワークやクライアント関係の管理,テクノロジやメソッドへの露出,時間管理など,トランスファー可能なスキルを提供すると考えている。 最初の業界職に就くと、卒業生の50%以下がメンターとして割り当てられた。 これらの卒業生は、学生から労働者のプロフェッショナルへの移行において、これらのメンターの重要性に圧倒された。 調査対象の卒業生のうち、進行中のプロフェッショナルな開発機会を提供する者はごく少数であった。 リーダーシップスキルの成長やキャリアの進歩の加速など、大きな成果を挙げている人たち。 本調査は,第3次機関が産業界と連携して,初等・初等・初等・初級の専門的開発機会を提供するためのギャップと機会を浮き彫りにしたものである。

This paper reports on the results of a 2023 survey that explores the Work Integrated Learning (WiL) experiences of thirty recent Computer Science (CS) graduates. The graduates had all completed their undergraduate bachelors degree within the last five years and were currently employed in a CS industry role. The survey asked about the graduates' perceptions within a continuum of WiL experiences from final year capstone projects to professional development in their first industry-based role. Most respondents had taken a capstone course involving a team project. Only two respondents had participated in an internship program. Our results indicate that graduates value their capstone experiences and believe that they provide transferable skills including teamwork, managing client relations, exposure to technologies and methods, and time management. When entering their first industry role less than fifty percent of graduates were allocated a mentor. Overwhelmingly, these graduates noted the importance of those mentors in their transition from student to working professional. Very few of the surveyed graduates were provided with ongoing professional development opportunities. Those who did noted significant gains including growth of leadership skills and accelerated career progression. Our survey highlights a gap and an opportunity for tertiary institutions to work with industry to provide graduate onboarding and novice/early-career professional development opportunities.
翻訳日:2024-10-31 16:16:17 公開日:2024-10-10
# AI-Press: 大規模言語モデルを利用したマルチエージェントニュース生成とフィードバックシミュレーションシステム

AI-Press: A Multi-Agent News Generating and Feedback Simulation System Powered by Large Language Models ( http://arxiv.org/abs/2410.07561v1 )

ライセンス: Link先を確認
Xiawei Liu, Shiyue Yang, Xinnong Zhang, Haoyu Kuang, Libo Sun, Yihang Yang, Siming Chen, Xuanjing Huang, Zhongyu Wei, (参考訳) 様々な社会プラットフォームが台頭し、ジャーナリズムが変化した。 ニュースコンテンツの需要の増加は、その速さと費用対効果により、ニュース制作における大規模言語モデル(LLM)の利用の増加につながっている。 しかし、LLMはニュース生成におけるプロフェッショナル主義と倫理的判断の限界に直面している。 さらに、公開フィードバックの予測は通常、ニュースがリリースされる前に難しい。 これらの課題に対処するために、我々は、マルチエージェントコラボレーションとRetrieval-Augmented Generationに基づく自動ニュースドラフトおよび研磨システムであるAI-Pressを紹介する。 人口分布を考慮した公共フィードバックを生成するフィードバックシミュレーションシステムを開発した。 広範に定量的・質的な評価を行うことで,ニュース生成能力の大幅な向上と,公開フィードバックシミュレーションの有効性を検証した。

The rise of various social platforms has transformed journalism. The growing demand for news content has led to the increased use of large language models (LLMs) in news production due to their speed and cost-effectiveness. However, LLMs still encounter limitations in professionalism and ethical judgment in news generation. Additionally, predicting public feedback is usually difficult before news is released. To tackle these challenges, we introduce AI-Press, an automated news drafting and polishing system based on multi-agent collaboration and Retrieval-Augmented Generation. We develop a feedback simulation system that generates public feedback considering demographic distributions. Through extensive quantitative and qualitative evaluations, our system shows significant improvements in news-generating capabilities and verifies the effectiveness of public feedback simulation.
翻訳日:2024-10-31 16:16:17 公開日:2024-10-10
# 学習率チューニングによるディープアンサンブルの強化

Boosting Deep Ensembles with Learning Rate Tuning ( http://arxiv.org/abs/2410.07564v1 )

ライセンス: Link先を確認
Hongpeng Jin, Yanzhao Wu, (参考訳) 学習率(LR)は、ディープラーニングトレーニングのパフォーマンスに高い影響を与える。 一般的な実践は、異なるLRポリシーでDeep Neural Network (DNN) を複数回訓練して最適なLRポリシーを見つけることである。 さらに、DNNトレーニングの複数回は効果的に活用されていない。 実際には、しばしば最適なLRのみが採用され、ディープラーニングシステムの全体的な精度をさらに向上する機会を逃し、コンピュータリソースとトレーニング時間の両方を浪費する。 本稿では,効率的な学習率チューニングを効果的に活用し,深層アンサンブル性能を向上させるための新しいフレームワークであるLREnsembleを提案する。 私たちは3つのオリジナルコントリビューションを行います。 まず、異なるLRポリシーを用いたLRチューニングにより、非常に多様なDNNを生成でき、深層アンサンブルのベースモデルとして提供できることを示す。 第2に、異なるアンサンブル選択アルゴリズムを用いて、最高の単一ベースモデルに対して大幅な精度向上を図った大規模なベースモデルから高品質なディープアンサンブルを同定する。 第3に,LRチューニングと深層アンサンブル手法の相乗効果を利用してディープラーニング性能を向上させるフレームワークであるLREnsembleを提案する。 複数のベンチマークデータセットの実験では、LREnsembleの有効性が実証されており、最適化されたベースラインに対して最大2.34%の精度向上が達成されている。

The Learning Rate (LR) has a high impact on deep learning training performance. A common practice is to train a Deep Neural Network (DNN) multiple times with different LR policies to find the optimal LR policy, which has been widely recognized as a daunting and costly task. Moreover, multiple times of DNN training has not been effectively utilized. In practice, often only the optimal LR is adopted, which misses the opportunities to further enhance the overall accuracy of the deep learning system and results in a huge waste of both computing resources and training time. This paper presents a novel framework, LREnsemble, to effectively leverage effective learning rate tuning to boost deep ensemble performance. We make three original contributions. First, we show that the LR tuning with different LR policies can produce highly diverse DNNs, which can be supplied as base models for deep ensembles. Second, we leverage different ensemble selection algorithms to identify high-quality deep ensembles from the large pool of base models with significant accuracy improvements over the best single base model. Third, we propose LREnsemble, a framework that utilizes the synergy of LR tuning and deep ensemble techniques to enhance deep learning performance. The experiments on multiple benchmark datasets have demonstrated the effectiveness of LREnsemble, generating up to 2.34% accuracy improvements over well-optimized baselines.
翻訳日:2024-10-31 16:16:17 公開日:2024-10-10
# ビジョンランゲージ適応は視覚言語モデルの安全性にどのように影響するか?

How Does Vision-Language Adaptation Impact the Safety of Vision Language Models? ( http://arxiv.org/abs/2410.07571v1 )

ライセンス: Link先を確認
Seongyun Lee, Geewook Kim, Jiyeon Kim, Hyunji Lee, Hoyeon Chang, Sue Hyun Park, Minjoon Seo, (参考訳) 視覚言語適応(VL適応)は、大規模言語モデル(LLM)をマルチモーダルタスクのためのLVLM(Large Vision-Language Model)に変換するが、このプロセスは元のLLMに埋め込まれた固有の安全性能力を損なうことが多い。 安全性対策の弱さによる潜在的有害性にもかかわらず、VL適応の安全性への影響に関する詳細な分析は未調査のままである。 本研究では,VLの適応が安全性に与える影響について検討し,安全性の微調整方法の影響について検討した。 本分析の結果,トレーニングデータの安全性が低い場合でも,VL適応時に安全性が低下することが明らかとなった。 安全データセットによる教師付き微調整や人的フィードバックからの強化学習のような安全チューニング技術は、いくつかのリスクを軽減するが、それでもなお、過剰な拒絶問題による安全性の低下と利便性の低下につながる。 内部モデル重みのさらなる分析は、VL適応が特定の安全関連層に影響を及ぼし、全体的な安全性レベルが低下する可能性を示唆している。 さらに,VL適応と安全性チューニングの目的が相違していることが確認できた。 そこで本研究では, 有効性を維持しつつ, 安全性の低下を効果的に軽減する手法として, 重み付け方式を提案する。 これらの知見は、より信頼性が高くセキュアなLVLMの開発を現実世界のアプリケーションに導くのに役立つ。

Vision-Language adaptation (VL adaptation) transforms Large Language Models (LLMs) into Large Vision-Language Models (LVLMs) for multimodal tasks, but this process often compromises the inherent safety capabilities embedded in the original LLMs. Despite potential harmfulness due to weakened safety measures, in-depth analysis on the effects of VL adaptation on safety remains under-explored. This study examines how VL adaptation influences safety and evaluates the impact of safety fine-tuning methods. Our analysis reveals that safety degradation occurs during VL adaptation, even when the training data is safe. While safety tuning techniques like supervised fine-tuning with safety datasets or reinforcement learning from human feedback mitigate some risks, they still lead to safety degradation and a reduction in helpfulness due to over-rejection issues. Further analysis of internal model weights suggests that VL adaptation may impact certain safety-related layers, potentially lowering overall safety levels. Additionally, our findings demonstrate that the objectives of VL adaptation and safety tuning are divergent, which often results in their simultaneous application being suboptimal. To address this, we suggest the weight merging approach as an optimal solution effectively reducing safety degradation while maintaining helpfulness. These insights help guide the development of more reliable and secure LVLMs for real-world applications.
翻訳日:2024-10-31 16:16:17 公開日:2024-10-10
# RealVul: LLMを使ったWebアプリケーションの脆弱性検出は可能か?

RealVul: Can We Detect Vulnerabilities in Web Applications with LLM? ( http://arxiv.org/abs/2410.07573v1 )

ライセンス: Link先を確認
Di Cao, Yong Liao, Xiuwei Shang, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、ソフトウェア脆弱性検出の可能性への関心を喚起している。 しかし、現在PHP言語の脆弱性に特に焦点を絞った研究が不足しており、サンプルの抽出と処理の継続が課題となっているため、モデルが特定の脆弱性の特徴を効果的にキャプチャする能力を妨げている。 本稿では,PHP 脆弱性検出用に設計された最初の LLM ベースのフレームワークである RealVul について述べる。 脆弱性候補の検出方法や正規化などのテクニックを用いることで、コードの合理化と不要なセマンティック情報を排除しながら、潜在的な脆弱性トリガを分離することが可能になります。 また、データ合成法の改善により、PHPの脆弱性サンプルが不足している問題にも対処する。 我々はRealVulの性能を評価するために,180のPHPプロジェクトの脆弱性データに基づいて,5つの異なるコードLLMを用いて広範囲に解析を行った。 その結果,既存手法と比較して有効性と一般化の両面で有意な改善が見られ,これらのモデルの脆弱性検出能力を効果的に向上させることができた。

The latest advancements in large language models (LLMs) have sparked interest in their potential for software vulnerability detection. However, there is currently a lack of research specifically focused on vulnerabilities in the PHP language, and challenges in extracting samples and processing persist, hindering the model's ability to effectively capture the characteristics of specific vulnerabilities. In this paper, we present RealVul, the first LLM-based framework designed for PHP vulnerability detection, addressing these issues. By vulnerability candidate detection methods and employing techniques such as normalization, we can isolate potential vulnerability triggers while streamlining the code and eliminating unnecessary semantic information, enabling the model to better understand and learn from the generated vulnerability samples. We also address the issue of insufficient PHP vulnerability samples by improving data synthesis methods. To evaluate RealVul's performance, we conduct an extensive analysis using five distinct code LLMs on vulnerability data from 180 PHP projects. The results demonstrate a significant improvement in both effectiveness and generalization compared to existing methods, effectively boosting the vulnerability detection capabilities of these models.
翻訳日:2024-10-31 16:16:17 公開日:2024-10-10
# 参照アドバンテージ分解を用いたQ-Learningのためのギャップ依存境界

Gap-Dependent Bounds for Q-Learning using Reference-Advantage Decomposition ( http://arxiv.org/abs/2410.07574v1 )

ライセンス: Link先を確認
Zhong Zheng, Haochen Zhang, Lingzhou Xue, (参考訳) 有限水平表層型マルコフ決定過程(MDPs): UCB-Advantage (Zhang et al 2020)とQ-EarlySettled-Advantage (Li et al 2021)の2つの重要なQ-ラーニングアルゴリズムのギャップ依存境界について検討した。 UCB-AdvantageとQ-EarlySettled-Advantageは、Hoeffding型のボーナスに基づいて結果を改善し、最悪のシナリオでは、$T$がステップの総数であるようなほぼ最適な$\sqrt{T}$-typeの後悔を達成します。 しかし, 厳密な正の準最適ギャップなどのMDPの良質な構造は, 後悔を著しく改善する可能性がある。 Hoeffding型ボーナスを用いたQラーニングにおいて、ギャップ依存の後悔境界が得られたが、分散推定器を用いたQラーニングにおけるギャップ依存の後悔境界と、分散低減のための参照アドバンテージ分解を確立することは、未解決の問題である。 本稿では, UCB-Advantage と Q-EarlySettled-Advantage のギャップ依存的再帰境界を$T$で対数的に証明し, 既存のQ-ラーニングアルゴリズムの改良を目的とした新しい誤り分解フレームワークを開発した。 さらに, UCB-Advantage の政策切替コストのギャップ依存境界を確立し, 最悪の MDP でそれを改善する。 本稿では,分散推定器と参照アドバンテージ分解を用いたQ-ラーニングにおける最初のギャップ依存的後悔分析と,Q-ラーニングにおけるポリシー切替コストに関する最初のギャップ依存的分析を提案する。

We study the gap-dependent bounds of two important algorithms for on-policy Q-learning for finite-horizon episodic tabular Markov Decision Processes (MDPs): UCB-Advantage (Zhang et al. 2020) and Q-EarlySettled-Advantage (Li et al. 2021). UCB-Advantage and Q-EarlySettled-Advantage improve upon the results based on Hoeffding-type bonuses and achieve the almost optimal $\sqrt{T}$-type regret bound in the worst-case scenario, where $T$ is the total number of steps. However, the benign structures of the MDPs such as a strictly positive suboptimality gap can significantly improve the regret. While gap-dependent regret bounds have been obtained for Q-learning with Hoeffding-type bonuses, it remains an open question to establish gap-dependent regret bounds for Q-learning using variance estimators in their bonuses and reference-advantage decomposition for variance reduction. We develop a novel error decomposition framework to prove gap-dependent regret bounds of UCB-Advantage and Q-EarlySettled-Advantage that are logarithmic in $T$ and improve upon existing ones for Q-learning algorithms. Moreover, we establish the gap-dependent bound for the policy switching cost of UCB-Advantage and improve that under the worst-case MDPs. To our knowledge, this paper presents the first gap-dependent regret analysis for Q-learning using variance estimators and reference-advantage decomposition and also provides the first gap-dependent analysis on policy switching cost for Q-learning.
翻訳日:2024-10-31 16:16:17 公開日:2024-10-10
# 3次元視覚言語ガウススプラッティング

3D Vision-Language Gaussian Splatting ( http://arxiv.org/abs/2410.07577v1 )

ライセンス: Link先を確認
Qucheng Peng, Benjamin Planche, Zhongpai Gao, Meng Zheng, Anwesa Choudhuri, Terrence Chen, Chen Chen, Ziyan Wu, (参考訳) 近年の3D再構成手法と視覚言語モデルの発展により,ロボット工学,自律運転,バーチャル/拡張現実において重要な応用となる,マルチモーダルな3Dシーン理解の開発が進められている。 しかし、現在のマルチモーダルシーン理解手法では、視覚的・言語的モダリティのバランスを損なうことなく、3次元再構成法に意味表現をナビゲートし、半透明・反射的物体のセマンティックラスタライゼーションを不満足にし、色調に過度に適合させる。 これらの制約を緩和するために,視覚的・意味的モダリティの相違を適切に扱える3次元視覚言語ガウススプラッティングモデルを提案する。 本研究では,モダリティ融合とスムーズなセマンティックなラスタライゼーションを併用した新しいクロスモーダルラスタライザを提案する。 また、既存のビューと合成ビューのセマンティック一貫性を向上させるために、カメラビューブレンディング技術を用いて、オーバーフィットを効果的に軽減する。 オープン語彙セマンティックセマンティックセグメンテーションにおいて,本手法が従来の手法をはるかに上回り,最先端の性能を達成することを実証した。

Recent advancements in 3D reconstruction methods and vision-language models have propelled the development of multi-modal 3D scene understanding, which has vital applications in robotics, autonomous driving, and virtual/augmented reality. However, current multi-modal scene understanding approaches have naively embedded semantic representations into 3D reconstruction methods without striking a balance between visual and language modalities, which leads to unsatisfying semantic rasterization of translucent or reflective objects, as well as over-fitting on color modality. To alleviate these limitations, we propose a solution that adequately handles the distinct visual and semantic modalities, i.e., a 3D vision-language Gaussian splatting model for scene understanding, to put emphasis on the representation learning of language modality. We propose a novel cross-modal rasterizer, using modality fusion along with a smoothed semantic indicator for enhancing semantic rasterization. We also employ a camera-view blending technique to improve semantic consistency between existing and synthesized views, thereby effectively mitigating over-fitting. Extensive experiments demonstrate that our method achieves state-of-the-art performance in open-vocabulary semantic segmentation, surpassing existing methods by a significant margin.
翻訳日:2024-10-31 16:16:17 公開日:2024-10-10
# Teddy:Taylor近似マッチングによる効率的な大規模データセット蒸留

Teddy: Efficient Large-Scale Dataset Distillation via Taylor-Approximated Matching ( http://arxiv.org/abs/2410.07579v1 )

ライセンス: Link先を確認
Ruonan Yu, Songhua Liu, Jingwen Ye, Xinchao Wang, (参考訳) データセットの蒸留または凝縮は、大規模なデータセットをはるかに小さなデータセットに圧縮することであり、この合成データセットでトレーニングされたモデルにより、実際のデータに対して効果的に一般化することができる。 新たなモデルは、ネストしたループ内の各イテレーションでトレーニングされ、非ローリングな計算グラフを通じて勾配が伝播される。 しかし、このアプローチはメモリと時間の複雑さを伴い、ImageNetのような大規模なデータセットにスケールアップするのが困難である。 これらの問題に対処するために,大規模データセットの処理と効率向上を目的としたTaylor近似データセット蒸留フレームワークであるTeddyを紹介した。 一方, 理論解析により, 多段勾配に依存する原形を一階述語に変換するテイラー展開から導いたメモリ効率近似を提案する。 一方、各イテレーションで新しいモデルを繰り返し訓練するのではなく、単一ベースモデルから生成できる弱いモデルの事前キャッシュプールを利用することで、特に大規模データセットを扱う場合、時間効率と性能を同時に向上することを明らかにした。 広範な実験により、提案されたTeddyはTiny-ImageNetとオリジナルサイズのImageNet-1Kデータセットで最先端の効率とパフォーマンスを実現し、特に以前のメソッドを最大12.8%上回り、46.6%のランタイムを削減した。 私たちのコードはhttps://github.com/Lexie-YU/Teddy.comで公開されます。

Dataset distillation or condensation refers to compressing a large-scale dataset into a much smaller one, enabling models trained on this synthetic dataset to generalize effectively on real data. Tackling this challenge, as defined, relies on a bi-level optimization algorithm: a novel model is trained in each iteration within a nested loop, with gradients propagated through an unrolled computation graph. However, this approach incurs high memory and time complexity, posing difficulties in scaling up to large datasets such as ImageNet. Addressing these concerns, this paper introduces Teddy, a Taylor-approximated dataset distillation framework designed to handle large-scale dataset and enhance efficiency. On the one hand, backed up by theoretical analysis, we propose a memory-efficient approximation derived from Taylor expansion, which transforms the original form dependent on multi-step gradients to a first-order one. On the other hand, rather than repeatedly training a novel model in each iteration, we unveil that employing a pre-cached pool of weak models, which can be generated from a single base model, enhances both time efficiency and performance concurrently, particularly when dealing with large-scale datasets. Extensive experiments demonstrate that the proposed Teddy attains state-of-the-art efficiency and performance on the Tiny-ImageNet and original-sized ImageNet-1K dataset, notably surpassing prior methods by up to 12.8%, while reducing 46.6% runtime. Our code will be available at https://github.com/Lexie-YU/Teddy.
翻訳日:2024-10-31 16:16:17 公開日:2024-10-10
# 予測最大化による大規模言語モデルの学習データ検出

Detecting Training Data of Large Language Models via Expectation Maximization ( http://arxiv.org/abs/2410.07582v1 )

ライセンス: Link先を確認
Gyuwan Kim, Yang Li, Evangelia Spiliopoulou, Jie Ma, Miguel Ballesteros, William Yang Wang, (参考訳) 大規模言語モデル(LLM)の広範な展開は、目覚ましい進歩をもたらしたが、彼らのトレーニングデータに関する情報は、そのパフォーマンスの重要な要素である。 メンバーシップ推論攻撃(MIA)は、特定のインスタンスがターゲットモデルのトレーニングデータの一部であるかどうかを判断することを目的としている。 MIA は LLM 出力に関する洞察を提供し、データの汚染やプライバシや著作権基準の遵守といった問題を検出し、対処するのに役立つ。 しかし,MIA を LLM に適用することは,事前学習データの大規模化とメンバーシップのあいまいさにより,独特な課題を呈している。 さらに、MIAメソッドを評価するための適切なベンチマークを作成するのは簡単ではない。 本稿では,LCMの新たなMIA手法であるEM-MIAを紹介する。EM-MIAは,メンバーシップスコアとプレフィックススコアを期待最大化アルゴリズムにより反復的に洗練し,各スコアの推定値が互いに改善されるという双対性を活用する。 メンバーシップスコアとプレフィックススコアは、各インスタンスがどのようにメンバーになり、プレフィックスとして識別されるかを評価する。 本手法は,WikiMIAデータセットの最先端結果を実現する。 EM-MIAをさらに評価するために,OLMoリソースをベースとしたベンチマークOLMoMIAを提案する。 我々は,EM-MIAがLSMの堅牢なMIA手法であり,OLMoMIAがMIAアプローチを包括的に評価するための貴重な資源であり,この重要な領域における今後の研究を推進していると考えている。

The widespread deployment of large language models (LLMs) has led to impressive advancements, yet information about their training data, a critical factor in their performance, remains undisclosed. Membership inference attacks (MIAs) aim to determine whether a specific instance was part of a target model's training data. MIAs can offer insights into LLM outputs and help detect and address concerns such as data contamination and compliance with privacy and copyright standards. However, applying MIAs to LLMs presents unique challenges due to the massive scale of pre-training data and the ambiguous nature of membership. Additionally, creating appropriate benchmarks to evaluate MIA methods is not straightforward, as training and test data distributions are often unknown. In this paper, we introduce EM-MIA, a novel MIA method for LLMs that iteratively refines membership scores and prefix scores via an expectation-maximization algorithm, leveraging the duality that the estimates of these scores can be improved by each other. Membership scores and prefix scores assess how each instance is likely to be a member and discriminative as a prefix, respectively. Our method achieves state-of-the-art results on the WikiMIA dataset. To further evaluate EM-MIA, we present OLMoMIA, a benchmark built from OLMo resources, which allows us to control the difficulty of MIA tasks with varying degrees of overlap between training and test data distributions. We believe that EM-MIA serves as a robust MIA method for LLMs and that OLMoMIA provides a valuable resource for comprehensively evaluating MIA approaches, thereby driving future research in this critical area.
翻訳日:2024-10-31 16:16:17 公開日:2024-10-10
# 拡散プランナーとディープクープマン制御器による限定動作による模倣学習

Imitation Learning with Limited Actions via Diffusion Planners and Deep Koopman Controllers ( http://arxiv.org/abs/2410.07584v1 )

ライセンス: Link先を確認
Jianxin Bi, Kelvin Lim, Kaiqi Chen, Yifei Huang, Harold Soh, (参考訳) 拡散型ロボット政策の最近の進歩は、マルチモーダルな動作を模倣する大きな可能性を示している。 しかしながら、これらのアプローチは一般的に、対応するロボットアクションラベルと組み合わせた大量のデモデータを必要とし、かなりのデータ収集負担を発生させる。 本研究では,観測実証データを活用することで,逆動的制御器の動作データ効率を向上させるためのプランテイン制御フレームワークを提案する。 具体的には、Deep Koopman Operatorフレームワークを用いて力学系をモデル化し、観測のみの軌跡を用いて潜在動作表現を学習する。 この潜在表現は、線形アクションデコーダを用いて実の高次元連続的なアクションに効果的にマッピングすることができ、最小のアクションラベルデータを必要とする。 シミュレーションされたロボット操作タスクの実験と,マルチモーダルな専門家による実ロボット実験を通じて,本手法が行動データ効率を大幅に向上し,限られた行動データで高いタスク成功率を達成することを実証した。

Recent advances in diffusion-based robot policies have demonstrated significant potential in imitating multi-modal behaviors. However, these approaches typically require large quantities of demonstration data paired with corresponding robot action labels, creating a substantial data collection burden. In this work, we propose a plan-then-control framework aimed at improving the action-data efficiency of inverse dynamics controllers by leveraging observational demonstration data. Specifically, we adopt a Deep Koopman Operator framework to model the dynamical system and utilize observation-only trajectories to learn a latent action representation. This latent representation can then be effectively mapped to real high-dimensional continuous actions using a linear action decoder, requiring minimal action-labeled data. Through experiments on simulated robot manipulation tasks and a real robot experiment with multi-modal expert demonstrations, we demonstrate that our approach significantly enhances action-data efficiency and achieves high task success rates with limited action data.
翻訳日:2024-10-31 16:06:31 公開日:2024-10-10
# 曲がった時空における場の量子論の量子シミュレータとしてのスピン系

Spin systems as quantum simulators of quantum field theories in curved spacetimes ( http://arxiv.org/abs/2410.07587v1 )

ライセンス: Link先を確認
Shunichiro Kinoshita, Keiju Murata, Daisuke Yamamoto, Ryosuke Yoshii, (参考訳) 一般の2次元曲面時空における量子場理論(QFT)は、量子スピンあるいは量子ビットの系によって実現可能であることを実証する。 空間的かつ時間的に変化する交換結合と磁場を持つ一次元リング上のスピン-1/2モデルを考える。 このモデルは連続極限におけるマヨラナフェルミオンのQFTに還元される。 この対応から、スピンモデルの時空依存パラメータと、QFTが定義される一般的な計量とを翻訳するための辞書を確立する。 一般の場合に対処した後、Friedmann-Lema\^{\i}tre-Robertson-Walker(FLRW)計量を簡単な例と考える。 辞書によると、FLRW計量上のマヨラナフェルミオンのQFTは、時間依存の逆磁場を持つイジングモデルに対応する。 膨張する宇宙におけるマヨラナ粒子の生成は、磁場の強度を増大させることで、横磁場イジングモデルでシミュレートできることを実証した。 さらに, スピン系におけるエンタングルメント(あるいはモジュラー)ハミルトニアンとリンドラーハミルトニアンとの直接的な関係を示す。 このアプローチは、曲線化された時空内のQFTの様々な現象を探索する実験可能なシステムを提供すると同時に、曲線化された時空物理学にインスパイアされたスピン系の非自明な現象を明らかにするための扉を開く。 曲面時空におけるQFTと量子多体スピン系の両方に新たな視点を与え、これらの場間の深い関係を明らかにしている。

We demonstrate that a quantum field theory (QFT) in general two-dimensional curved spacetimes can be realized by a system of quantum spins or qubits. We consider a spin-1/2 model on a one-dimensional ring with spatially and temporally varying exchange couplings and magnetic fields. This model reduces to a QFT of Majorana fermions in the continuum limit. From this correspondence, we establish a dictionary for translating between the spacetime-dependent parameters of the spin model and the general metric on which the QFT is defined. After addressing the general case, we consider the Friedmann-Lema\^{\i}tre-Robertson-Walker (FLRW) metric as a simple example. According to the dictionary, the QFT of Majorana fermions on the FLRW metric corresponds to the Ising model with a time-dependent transverse magnetic field. We demonstrate that the production of Majorana particles in the expanding universe can be simulated with the transverse-field Ising model by increasing the strength of the magnetic field. Furthermore, we examine the Unruh effect through the spin system by using our prescription and show the direct relation between the entanglement (or modular) Hamiltonian in the spin system and the Rindler Hamiltonian. This approach provides an experimentally viable system for probing various phenomena in QFT within curved spacetime, while also opening the door to uncovering nontrivial phenomena in spin systems inspired by curved spacetime physics. It offers fresh perspectives on both QFT in curved spacetimes and quantum many-body spin systems, revealing profound connections between these fields.
翻訳日:2024-10-31 16:06:31 公開日:2024-10-10
# アプリプロモーション広告が推奨するものに注意! アプリプロモーショングラフによるマルウェアプロモーションの検出と説明

Careful About What App Promotion Ads Recommend! Detecting and Explaining Malware Promotion via App Promotion Graph ( http://arxiv.org/abs/2410.07588v1 )

ライセンス: Link先を確認
Shang Ma, Chaoran Chen, Shao Yang, Shifu Hou, Toby Jia-Jun Li, Xusheng Xiao, Tao Xie, Yanfang Ye, (参考訳) Androidアプリでは、開発者はアプリプロモーション広告、すなわち他のアプリを宣伝する広告を頻繁に配置する。 残念ながら、広告コンテンツの検証が不十分なため、悪意のある開発者は、マルウェアの配布チャネルとしてアプリのプロモーション広告を利用することができる。 本稿では,アプリプロモーション広告を介して配布されるマルウェアの検出を支援するために,アプリユーザインタフェース(UI)探索をグラフ学習と相乗的に統合し,アプリプロモーション広告を自動的に収集し,これらの広告によって誘導されるマルウェアを検出し,検出されたマルウェアが採用するプロモーションメカニズムを説明する,ADGPEという新しいアプローチを提案する。 627件のアプリプロモーション広告の評価は、アプリプロモーションエコシステムの重大なリスクを示している。

In Android apps, their developers frequently place app promotion ads, namely advertisements to promote other apps. Unfortunately, the inadequate vetting of ad content allows malicious developers to exploit app promotion ads as a new distribution channel for malware. To help detect malware distributed via app promotion ads, in this paper, we propose a novel approach, named ADGPE, that synergistically integrates app user interface (UI) exploration with graph learning to automatically collect app promotion ads, detect malware promoted by these ads, and explain the promotion mechanisms employed by the detected malware. Our evaluation on 18, 627 app promotion ads demonstrates the substantial risks in the app promotion ecosystem.
翻訳日:2024-10-31 16:06:31 公開日:2024-10-10
# フリーランチなし。LLMの「検索機能強化世代」は、自警団のユーザーでさえ公正さを損なう

No Free Lunch: Retrieval-Augmented Generation Undermines Fairness in LLMs, Even for Vigilant Users ( http://arxiv.org/abs/2410.07589v1 )

ライセンス: Link先を確認
Mengxuan Hu, Hongyi Wu, Zihan Guan, Ronghang Zhu, Dongliang Guo, Daiqing Qi, Sheng Li, (参考訳) Retrieval-Augmented Generation (RAG) は、幻覚を緩和し、大規模言語モデル(LLM)のドメイン固有生成能力を向上する効果とコスト効率に広く採用されている。 しかし、この効果とコスト効率は本当に無料ランチなのか? 本研究では,利用者の公正意識の観点から,現実的な3段階の脅威モデルを提案することにより,RAGに関連する公正性コストを包括的に検討する。 具体的には、ユーザフェアネス意識のレベルが異なるため、外部データセット上でのフェアネス検閲の度合いが異なる。 我々は,RAGの公正性について,検閲されていない,部分的に検閲された,完全に検閲されたデータセットを用いて検討した。 我々の実験は、微調整や再訓練を必要とせず、RAGを通して公平性アライメントを損なうことができることを示した。 完全に検閲された、おそらくバイアスのない外部データセットであっても、RAGはバイアスのある出力につながる可能性がある。 本研究は,RAGに基づくLCMの文脈におけるアライメント手法の限界を浮き彫りにし,公平性を確保するための新たな戦略の必要性を浮き彫りにした。 我々は,RAGをベースとしたLCMにおける堅牢な公平性保護を開発するために,潜在的な軽減策を提案し,さらなる研究を求める。

Retrieval-Augmented Generation (RAG) is widely adopted for its effectiveness and cost-efficiency in mitigating hallucinations and enhancing the domain-specific generation capabilities of large language models (LLMs). However, is this effectiveness and cost-efficiency truly a free lunch? In this study, we comprehensively investigate the fairness costs associated with RAG by proposing a practical three-level threat model from the perspective of user awareness of fairness. Specifically, varying levels of user fairness awareness result in different degrees of fairness censorship on the external dataset. We examine the fairness implications of RAG using uncensored, partially censored, and fully censored datasets. Our experiments demonstrate that fairness alignment can be easily undermined through RAG without the need for fine-tuning or retraining. Even with fully censored and supposedly unbiased external datasets, RAG can lead to biased outputs. Our findings underscore the limitations of current alignment methods in the context of RAG-based LLMs and highlight the urgent need for new strategies to ensure fairness. We propose potential mitigations and call for further research to develop robust fairness safeguards in RAG-based LLMs.
翻訳日:2024-10-31 16:06:31 公開日:2024-10-10
# TurboRAG: チャンクテキストのための事前計算KVキャッシュによる検索拡張生成の高速化

TurboRAG: Accelerating Retrieval-Augmented Generation with Precomputed KV Caches for Chunked Text ( http://arxiv.org/abs/2410.07590v1 )

ライセンス: Link先を確認
Songshuo Lu, Hua Wang, Yutian Rong, Zhi Chen, Yaohua Tang, (参考訳) 現在のRAG(Retrieval-Augmented Generation)システムは、大量の計算を必要とするプリフィルのために多数の検索された文書チャンクを結合処理するので、TTFT(Time-to-first-token)において大きな遅延が発生する。 TTFTと同様に計算オーバーヘッドを低減するため,文書のキー値(KV)キャッシュをオフラインにプリフィルして保存し,保存したKVキャッシュを直接検索することで,現在のRAGシステムの推論パラダイムを再設計する新しいRAGシステムであるTurboRAGを導入する。 したがって、KVキャッシュのオンライン計算は推論中に不要となる。 さらに,TurboRAGのモデル精度を維持するために,マスク行列と位置埋め込み機構,および事前学習言語モデルを微調整する。 我々のアプローチは、モデルや推論システムの変更を必要とせずに、既存の大言語モデルとそのアプリケーションに適用できる。 一連のRAGベンチマークによる実験結果によると、TurboRAGは従来のRAGシステム(平均8.6倍)と比較してTTFTを最大9.4倍削減するが、標準的なRAGシステムと同等の性能を維持している。

Current Retrieval-Augmented Generation (RAG) systems concatenate and process numerous retrieved document chunks for prefill which requires a large volume of computation, therefore leading to significant latency in time-to-first-token (TTFT). To reduce the computation overhead as well as TTFT, we introduce TurboRAG, a novel RAG system that redesigns the inference paradigm of the current RAG system by first pre-computing and storing the key-value (KV) caches of documents offline, and then directly retrieving the saved KV cache for prefill. Hence, online computation of KV caches is eliminated during inference. In addition, we provide a number of insights into the mask matrix and positional embedding mechanisms, plus fine-tune a pretrained language model to maintain model accuracy of TurboRAG. Our approach is applicable to most existing large language models and their applications without any requirement in modification of models and inference systems. Experimental results across a suite of RAG benchmarks demonstrate that TurboRAG reduces TTFT by up to 9.4x compared to the conventional RAG systems (on an average of 8.6x), but reserving comparable performance to the standard RAG systems.
翻訳日:2024-10-31 16:06:31 公開日:2024-10-10
# 知識グラフの多様化と適応的負サンプリング

Diversified and Adaptive Negative Sampling on Knowledge Graphs ( http://arxiv.org/abs/2410.07592v1 )

ライセンス: Link先を確認
Ran Liu, Zhongzhou Liu, Xiaoli Li, Hao Wu, Yuan Fang, (参考訳) 知識グラフの埋め込みでは、正の三つ子(すなわち知識グラフの事実)を除いて、トレーニングに使用される負の三つ子もモデルのパフォーマンスに直接的な影響を与える。 実際、知識グラフはスパースで不完全であるため、負の三重項は明示的なラベルを欠くことが多く、様々なサンプリング戦略(例えば正の三重項のエンティティをランダムに置き換える)から得られることが多い。 理想的なサンプルの正三重項は、モデルがより良く訓練するのに十分な情報を与えるべきである。 しかし、既存の手法はサンプリング過程における多様性や適応性を無視することが多く、これは負の三重項の情報を損なう。 そこで本研究では,知識グラフ上での多変量化および適応負値サンプリングDANSと呼ばれる生成逆アプローチを提案する。 DANSは、2つの経路を通してより多様な負の三重項を生成する双方向ジェネレータと、異なるエンティティと関係のためにグローバルジェネレータをローカライズすることでよりきめ細かい例を生成する適応メカニズムを備えている。 一方,2方向ジェネレータはより多様な負の例で全体の情報量を増加させる一方,適応機構はよりきめ細かなサンプリングによって個々の情報量を増加させる。 最後に,3つのベンチマーク知識グラフ上でのDANSの性能を評価し,定量的および定性的な実験によりその効果を実証する。

In knowledge graph embedding, aside from positive triplets (ie: facts in the knowledge graph), the negative triplets used for training also have a direct influence on the model performance. In reality, since knowledge graphs are sparse and incomplete, negative triplets often lack explicit labels, and thus they are often obtained from various sampling strategies (eg: randomly replacing an entity in a positive triplet). An ideal sampled negative triplet should be informative enough to help the model train better. However, existing methods often ignore diversity and adaptiveness in their sampling process, which harms the informativeness of negative triplets. As such, we propose a generative adversarial approach called Diversified and Adaptive Negative Sampling DANS on knowledge graphs. DANS is equipped with a two-way generator that generates more diverse negative triplets through two pathways, and an adaptive mechanism that produces more fine-grained examples by localizing the global generator for different entities and relations. On the one hand, the two-way generator increase the overall informativeness with more diverse negative examples; on the other hand, the adaptive mechanism increases the individual sample-wise informativeness with more fine-grained sampling. Finally, we evaluate the performance of DANS on three benchmark knowledge graphs to demonstrate its effectiveness through quantitative and qualitative experiments.
翻訳日:2024-10-31 16:06:31 公開日:2024-10-10
# 量子リード・ミュラー符号の幾何学的構造と超越論理

Geometric structure and transversal logic of quantum Reed-Muller codes ( http://arxiv.org/abs/2410.07595v1 )

ライセンス: Link先を確認
Alexander Barg, Nolan J. Coble, Dominik Hangleiter, Christopher Kang, (参考訳) 効率的で耐雑音性のある量子計算プロトコルの設計は、一般に量子エラー訂正符号とそのネイティブ論理演算の理解から始まる。 最も単純なネイティブ操作のクラスは、本質的にフォールトトレラントであるトランスバーサルゲートである。 本稿では,量子リード・ミュラー符号(RM)の逆ゲートを古典的特性を利用して特徴付けることを目的とする。 我々はブールハイパーキューブとその関連部分キューブ錯体を介して量子RM符号の幾何学的特徴を新たに確立することから作業を開始する。 より具体的には、量子RM符号のための安定化器生成器の集合は、特定の次元のサブキューブに作用する超逆の$X$と$Z$演算子によって記述することができる。 この特徴付けにより、与えられた次元のサブキューブに作用する単一キュービット $\pi/2^k$$Z$-回転からなる部分キューブ作用素を定義することができる。 サブキューブの次元によって、(1)コード空間上の論理的アイデンティティとして機能し、(2)非自明なロジックを実装し、(3)コード空間から状態が回転する。 第二に、より顕著に、これらの演算子によって実装された論理が、明示的で単純な組合せ記述を持つマルチコントロール-$Z$ゲートの回路に対応していることを明らかにする。 全体として、この一連の結果は量子RM符号に対する自然な超越作用素のクラスを包括的に理解する。

Designing efficient and noise-tolerant quantum computation protocols generally begins with an understanding of quantum error-correcting codes and their native logical operations. The simplest class of native operations are transversal gates, which are naturally fault-tolerant. In this paper, we aim to characterize the transversal gates of quantum Reed-Muller (RM) codes by exploiting the well-studied properties of their classical counterparts. We start our work by establishing a new geometric characterization of quantum RM codes via the Boolean hypercube and its associated subcube complex. More specifically, a set of stabilizer generators for a quantum RM code can be described via transversal $X$ and $Z$ operators acting on subcubes of particular dimensions. This characterization leads us to define subcube operators composed of single-qubit $\pi/2^k$ $Z$-rotations that act on subcubes of given dimensions. We first characterize the action of subcube operators on the code space: depending on the dimension of the subcube, these operators either (1) act as a logical identity on the code space, (2) implement non-trivial logic, or (3) rotate a state away from the code space. Second, and more remarkably, we uncover that the logic implemented by these operators corresponds to circuits of multi-controlled-$Z$ gates that have an explicit and simple combinatorial description. Overall, this suite of results yields a comprehensive understanding of a class of natural transversal operators for quantum RM codes.
翻訳日:2024-10-31 16:06:31 公開日:2024-10-10
# 多レベル重要度サンプリングと多視点整合性を用いた細部神経内シーン再構成

Fine-detailed Neural Indoor Scene Reconstruction using multi-level importance sampling and multi-view consistency ( http://arxiv.org/abs/2410.07597v1 )

ライセンス: Link先を確認
Xinghui Li, Yuchen Ji, Xiansong Lai, Wanting Zhang, (参考訳) 近年,室内シナリオにおけるニューラル暗黙的3次元再構成は,そのシンプルさと印象的な性能から人気を集めている。 それまでの研究は、通常のものや深さの単分子的な先行を活かした完全な結果を生み出す可能性がある。 しかし、アンバイアスドサンプリングと不正確な単分子前駆体により、過度に平滑な再構成と長時間の最適化に悩まされる可能性がある。 本稿では,FD-NeuSと呼ばれるニューラル暗黙的表面再構成手法を提案する。 具体的には,領域に基づくレイサンプリングの導出にセグメンテーションの先行を生かし,重み付けとして指数関数を使い,レイに沿ってサンプリングする3Dポイントを操縦し,重要な領域への注意を確実にする。 さらに,多視点特徴整合と多視点正規整合をそれぞれ監督と不確実性として導入し,詳細の再構築をさらに改善する。 FD-NeuSは様々な場面で既存の手法よりも優れていた。

Recently, neural implicit 3D reconstruction in indoor scenarios has become popular due to its simplicity and impressive performance. Previous works could produce complete results leveraging monocular priors of normal or depth. However, they may suffer from over-smoothed reconstructions and long-time optimization due to unbiased sampling and inaccurate monocular priors. In this paper, we propose a novel neural implicit surface reconstruction method, named FD-NeuS, to learn fine-detailed 3D models using multi-level importance sampling strategy and multi-view consistency methodology. Specifically, we leverage segmentation priors to guide region-based ray sampling, and use piecewise exponential functions as weights to pilot 3D points sampling along the rays, ensuring more attention on important regions. In addition, we introduce multi-view feature consistency and multi-view normal consistency as supervision and uncertainty respectively, which further improve the reconstruction of details. Extensive quantitative and qualitative results show that FD-NeuS outperforms existing methods in various scenes.
翻訳日:2024-10-31 16:06:31 公開日:2024-10-10
# 効率的な視覚理解のための因果画像モデリング

Causal Image Modeling for Efficient Visual Understanding ( http://arxiv.org/abs/2410.07599v1 )

ライセンス: Link先を確認
Feng Wang, Timing Yang, Yaodong Yu, Sucheng Ren, Guoyizhe Wei, Angtian Wang, Wei Shao, Yuyin Zhou, Alan Yuille, Cihang Xie, (参考訳) 本稿では、因果画像モデリングの包括的分析と、パッチトークンのシーケンスとしてイメージを扱い、一方向言語モデルを用いて視覚表現を学習するアドベンチャーシリーズモデルを提案する。 このモデリングパラダイムにより,高解像度で微細な画像によって引き起こされるメモリと計算の爆発問題に効果的に対処することができる。 本稿では,画像入力を因果推論フレームワークにシームレスに統合する2つの簡単な設計を紹介した。 この因果画像モデリングパラダイムの有効性と有効性について、広範囲にわたる実証的研究を行った。 例えば、私たちのベースサイズのアドベンチャーモデルは、216イメージ/秒のトレーニングスループットを持つ標準のImageNet-1kベンチマークで84.0%の競合テスト精度を実現しています。

In this work, we present a comprehensive analysis of causal image modeling and introduce the Adventurer series models where we treat images as sequences of patch tokens and employ uni-directional language models to learn visual representations. This modeling paradigm allows us to process images in a recurrent formulation with linear complexity relative to the sequence length, which can effectively address the memory and computation explosion issues posed by high-resolution and fine-grained images. In detail, we introduce two simple designs that seamlessly integrate image inputs into the causal inference framework: a global pooling token placed at the beginning of the sequence and a flipping operation between every two layers. Extensive empirical studies demonstrate the significant efficiency and effectiveness of this causal image modeling paradigm. For example, our base-sized Adventurer model attains a competitive test accuracy of 84.0% on the standard ImageNet-1k benchmark with 216 images/s training throughput, which is 5.3 times more efficient than vision transformers to achieve the same result.
翻訳日:2024-10-31 16:06:31 公開日:2024-10-10
# RNA:ROIベースのニューラルアトラスによるビデオ編集

RNA: Video Editing with ROI-based Neural Atlas ( http://arxiv.org/abs/2410.07600v1 )

ライセンス: Link先を確認
Jaekyeong Lee, Geonung Kim, Sunghyun Cho, (参考訳) 近年、ビデオベースのSNS(Social Network Service)プラットフォームが成長し、一般ユーザーの間でビデオ編集の需要が高まっている。 しかし,カメラの動きや移動物体などの時間的要因によって映像編集が困難になる場合がある。 現代のアトラスベースのビデオ編集手法はこれらの問題に対処しているが、複雑な動きや複数の移動物体を含むビデオの編集に失敗し、非常に単純な編集であっても過剰な計算コストを必要とすることが多い。 本稿では,新しい関心領域(ROI)ベースのビデオ編集フレームワークであるROIベースのニューラルアトラス(RNA)を提案する。 以前の作業とは異なり、RNAはユーザーが編集領域を指定できるようにし、前景分離や前景オブジェクトのアトラスモデリングの必要性を取り除くことで編集プロセスを簡素化する。 しかし、この単純化は、追加のセグメンテーションモデルに頼ることなく、移動物体によって生じる編集領域のオクルージョンを効果的に処理するマスクを取得するという、ユニークな課題を呈している。 そこで本研究では,この課題に対処する新しいマスク改良手法を提案する。 さらに,映像再構成のためのソフトニューラルネットワークモデルを導入し,高品質な編集結果を保証する。 大規模な実験により、RNAはより実用的で効率的な編集ソリューションを提供し、より広い範囲の動画に適用できることを示した。

With the recent growth of video-based Social Network Service (SNS) platforms, the demand for video editing among common users has increased. However, video editing can be challenging due to the temporally-varying factors such as camera movement and moving objects. While modern atlas-based video editing methods have addressed these issues, they often fail to edit videos including complex motion or multiple moving objects, and demand excessive computational cost, even for very simple edits. In this paper, we propose a novel region-of-interest (ROI)-based video editing framework: ROI-based Neural Atlas (RNA). Unlike prior work, RNA allows users to specify editing regions, simplifying the editing process by removing the need for foreground separation and atlas modeling for foreground objects. However, this simplification presents a unique challenge: acquiring a mask that effectively handles occlusions in the edited area caused by moving objects, without relying on an additional segmentation model. To tackle this, we propose a novel mask refinement approach designed for this specific challenge. Moreover, we introduce a soft neural atlas model for video reconstruction to ensure high-quality editing results. Extensive experiments show that RNA offers a more practical and efficient editing solution, applicable to a wider range of videos with superior quality compared to prior methods.
翻訳日:2024-10-31 16:06:31 公開日:2024-10-10
# CSA: 単モーダル特徴から多モーダル特徴へのデータ効率マッピング

CSA: Data-efficient Mapping of Unimodal Features to Multimodal Features ( http://arxiv.org/abs/2410.07610v1 )

ライセンス: Link先を確認
Po-han Li, Sandeep P. Chinchali, Ufuk Topcu, (参考訳) CLIPのようなマルチモーダルエンコーダは、ゼロショット画像分類やクロスモーダル検索といったタスクに優れている。 しかし、過剰なトレーニングデータが必要である。 そこで本研究では,2つのユニモーダルエンコーダを用いて,制限データを用いたマルチモーダルエンコーダを複製する正準類似性解析(CSA)を提案する。 CSAは、単一の特徴をマルチモーダル空間にマッピングし、新しい類似度スコアを使用して、マルチモーダル情報のみを保持する。 CSAは、ユニモーダルエンコーダと立方体複素行列分解の推論のみを伴い、GPUベースの広範囲なモデルトレーニングの必要性を排除している。 実験の結果、CSAはCLIPより優れており、マルチモーダルデータペアの削減に30万ドル、ImageNet分類と誤字ニュースキャプションの検出に6ドル、という結果が得られた。 CSAは、非モーダルな特徴をマルチモーダルな特徴にマッピングする最先端の手法を超越している。 また,画像やテキストを超えたモダリティを持つCSAの能力を実証し,リダやテキストのような多モーダルデータに制限があるが,多モーダルデータと将来のモダリティペアの道を開いた。

Multimodal encoders like CLIP excel in tasks such as zero-shot image classification and cross-modal retrieval. However, they require excessive training data. We propose canonical similarity analysis (CSA), which uses two unimodal encoders to replicate multimodal encoders using limited data. CSA maps unimodal features into a multimodal space, using a new similarity score to retain only the multimodal information. CSA only involves the inference of unimodal encoders and a cubic-complexity matrix decomposition, eliminating the need for extensive GPU-based model training. Experiments show that CSA outperforms CLIP while requiring $300,000\times$ fewer multimodal data pairs and $6\times$ fewer unimodal data for ImageNet classification and misinformative news captions detection. CSA surpasses the state-of-the-art method to map unimodal features to multimodal features. We also demonstrate the ability of CSA with modalities beyond image and text, paving the way for future modality pairs with limited paired multimodal data but abundant unpaired unimodal data, such as lidar and text.
翻訳日:2024-10-31 15:56:40 公開日:2024-10-10
# 動的無線ネットワークにおけるユーザアソシエーションとロードバランシングのための並列ディジタルツイン駆動型深層強化学習

Parallel Digital Twin-driven Deep Reinforcement Learning for User Association and Load Balancing in Dynamic Wireless Networks ( http://arxiv.org/abs/2410.07611v1 )

ライセンス: Link先を確認
Zhenyu Tao, Wei Xu, Xiaohu You, (参考訳) 密にデプロイされたヘテロジニアスセルネットワークにおけるユーザアソシエーションの最適化は、ユーザモビリティの動的な性質とユーザ数の変動のため、通常困難であり、さらに複雑である。 深層強化学習(DRL)は有望なソリューションとして現れるが、実際の応用は実世界での試行錯誤のコストが高く、トレーニング中に不満足な物理ネットワーク性能によって妨げられる。 さらに,既存のDRLベースのユーザアソシエーション手法は,コンバージェンスや互換性の問題から,一定数のユーザを持つシナリオにのみ適用可能である。 本稿では,動的ユーザ数,分散,モビリティの両パターンを持つネットワークにおいて,ユーザアソシエーションとロードバランシングのための並列ディジタルツイン(DT)駆動DRL法を提案する。 提案手法では,分散DRL戦略を用いて様々なユーザ数を処理するとともに,より高速な収束を実現するために改良されたニューラルネットワーク構造を利用する。 これらのDRLトレーニングに関わる課題に対処するため,拡散モデルに基づくゼロショット生成ユーザモビリティモデルであるMap2Trajを特徴とする高忠実DT構築手法を考案した。 Map2Trajは、ストリートマップのみから、ユーザの軌道パターンと空間分布を推定する。 このDT環境では、DRLエージェントは物理ネットワークとのインタラクションを必要とせずにトレーニングすることができる。 動的シナリオに対するDRLモデルの一般化能力を高めるため、単一環境トレーニングにおける強い相関と非定常性を緩和し、トレーニング効率を向上させるために並列DTフレームワークが確立された。 並列DT駆動DRL法は実環境訓練と同等の性能を示し, セルエッジユーザ性能の20%近く向上した実環境環境において, 訓練結果よりも優れていた。

Optimization of user association in a densely deployed heterogeneous cellular network is usually challenging and even more complicated due to the dynamic nature of user mobility and fluctuation in user counts. While deep reinforcement learning (DRL) emerges as a promising solution, its application in practice is hindered by high trial-and-error costs in real world and unsatisfactory physical network performance during training. In addition, existing DRL-based user association methods are usually only applicable to scenarios with a fixed number of users due to convergence and compatibility challenges. In this paper, we propose a parallel digital twin (DT)-driven DRL method for user association and load balancing in networks with both dynamic user counts, distribution, and mobility patterns. Our method employs a distributed DRL strategy to handle varying user numbers and exploits a refined neural network structure for faster convergence. To address these DRL training-related challenges, we devise a high-fidelity DT construction technique, featuring a zero-shot generative user mobility model, named Map2Traj, based on a diffusion model. Map2Traj estimates user trajectory patterns and spatial distributions solely from street maps. Armed with this DT environment, DRL agents are enabled to be trained without the need for interactions with the physical network. To enhance the generalization ability of DRL models for dynamic scenarios, a parallel DT framework is further established to alleviate strong correlation and non-stationarity in single-environment training and improve the training efficiency. Numerical results show that the proposed parallel DT-driven DRL method achieves closely comparable performance to real environment training, and even outperforms those trained in a single real-world environment with nearly 20% gain in terms of cell-edge user performance.
翻訳日:2024-10-31 15:56:40 公開日:2024-10-10
# 脳腫瘍検出のためのディープニューラルネットワークの説明可能性

Explainability of Deep Neural Networks for Brain Tumor Detection ( http://arxiv.org/abs/2410.07613v1 )

ライセンス: Link先を確認
S. Park, J. Kim, (参考訳) 医療画像分類は、意思決定とトレーニングにおいて医療専門家を支援するために不可欠である。 畳み込みニューラルネットワーク(CNN)は伝統的にこの分野を支配してきたが、トランスフォーマーベースのモデルは注目されている。 本研究では、実世界の医療データ上での様々なモデルの性能を評価し、改善すべき領域を特定するために、説明可能なAI(XAI)技術を適用した。 本稿では,VGG-16,ResNet-50,EfficientNetV2LなどのCNNモデルとTransformerモデルであるViT-Base-16を比較した。 以上の結果から,データ拡張の影響はほとんどないが,ハイパーパラメータチューニングと高度なモデリングにより性能が向上することがわかった。 CNN、特にVGG-16とResNet-50は、VT-Base-16とEfficientNetV2Lを上回っている。 LIMEやSHAPといったXAIの手法は、より良いパフォーマンスのモデルが腫瘍をより効果的に視覚化することを示している。 これらの結果から,より浅いアーキテクチャのCNNは小規模なデータセットに有効であり,医療的意思決定を支援することが示唆された。

Medical image classification is crucial for supporting healthcare professionals in decision-making and training. While Convolutional Neural Networks (CNNs) have traditionally dominated this field, Transformer-based models are gaining attention. In this study, we apply explainable AI (XAI) techniques to assess the performance of various models on real-world medical data and identify areas for improvement. We compare CNN models such as VGG-16, ResNet-50, and EfficientNetV2L with a Transformer model: ViT-Base-16. Our results show that data augmentation has little impact, but hyperparameter tuning and advanced modeling improve performance. CNNs, particularly VGG-16 and ResNet-50, outperform ViT-Base-16 and EfficientNetV2L, likely due to underfitting from limited data. XAI methods like LIME and SHAP further reveal that better-performing models visualize tumors more effectively. These findings suggest that CNNs with shallower architectures are more effective for small datasets and can support medical decision-making.
翻訳日:2024-10-31 15:56:40 公開日:2024-10-10
# 特異可解不均一フェルミオン系

Exactly solvable inhomogeneous fermion systems ( http://arxiv.org/abs/2410.07614v1 )

ライセンス: Link先を確認
Ryu Sasaki, (参考訳) アスキースキースキームの離散直交多項式、例えば、Krawtchouk, Hahn, Racah, Meixner, $q$-Racah 多項式の離散直交多項式に基づいて、1次元格子上の正確に解ける不均一(スピンレス)フェルミオン系が明示的に構成される。 Schr\\odinger と Heisenberg の方程式は、固有値と固有状態全体の集合が明示的に知られているため、明示的に解かれる。 基底状態2点相関関数を明示的に導出する。 多重点相関関数はウィックの定理によって得られる。 正確に解けるXXスピン系に対応する15も表示される。 彼らは皆、最も近い隣同士の相互作用を持っている。 Schr\'odinger 方程式の正確な可解性は、対応するフォッカー・プランク方程式の可解性を意味する。 これは、正確に解決可能なバース・アンド・デスのフェルミオン15個と、バース・アンド・デスのスピンモデル15個に繋がる。 これらは、興味深い量、例えば絡み合いエントロピーなどを計算するための多くの材料を提供する。

15 exactly solvable inhomogeneous (spinless) fermion systems on one-dimensional lattices are constructed explicitly based on the discrete orthogonal polynomials of Askey scheme, e.g. the Krawtchouk, Hahn, Racah, Meixner, $q$-Racah polynomials. The Schr\"odinger and Heisenberg equations are solved explicitly, as the entire set of the eigenvalues and eigenstates are known explicitly. The ground state two point correlation functions are derived explicitly. The multi point correlation functions are obtained by Wick's Theorem. Corresponding 15 exactly solvable XX spin systems are also displayed. They all have nearest neighbour interactions. The exact solvability of Schr\"odinger equation means that of the corresponding Fokker-Planck equation. This leads to 15 exactly solvable Birth and Death fermions and 15 Birth and Death spin models. These provide plenty of materials for calculating interesting quantities, e.g. entanglement entropy, etc.
翻訳日:2024-10-31 15:56:40 公開日:2024-10-10
# 平均逆・非カウントMDPに対するプラグインアプローチ: 最適サンプル複雑度解析

The Plug-in Approach for Average-Reward and Discounted MDPs: Optimal Sample Complexity Analysis ( http://arxiv.org/abs/2410.07616v1 )

ライセンス: Link先を確認
Matthew Zurek, Yudong Chen, (参考訳) 平均回帰マルコフ決定過程(MDP)における$\varepsilon$-optimal Policyを生成モデルで学習するためのプラグインアプローチのサンプル複雑性について検討した。 プラグインアプローチはモデル推定を構築し、推定モデルにおける平均回帰最適ポリシーを計算する。 この問題の最も単純なアルゴリズムであるにもかかわらず、プラグインのアプローチは理論上は分析されていない。 よりよく研究された割引MDP削減手法とは異なり、プラグイン方式では事前の問題情報やパラメータチューニングは不要である。 このギャップを埋めて,事前の知識を使わずに,いくつかのよく研究された環境でプラグインアプローチが最適であることを示すため,従来のアプローチの限界に対処する。 具体的には、$\widetilde{O}\left(SA \frac{D}{\varepsilon^2}\right)$と$\widetilde{O}\left(SA \frac{\tau_{\mathrm{unif}}}{\varepsilon^2}\right)$の最適な直径と混合に基づくサンプル複合体を、直径の$D$または均一混合時間$\tau_{\mathrm{unif}}$の知識なしでそれぞれ達成する。 また、プラグインアプローチのスパンベースバウンダリを取得し、アルゴリズム固有の下限を補完することで、そのバウンダリが改善不可能であることを示唆する。 提案手法は, 広範に有用であり, かつ, ディスカウントされたプラグインアプローチの結果の改善, 有効水平関連サンプルサイズ制限の除去, および, 報奨を伴わない全サンプルサイズに対する最初の最適複雑性境界の獲得を必要とする。

We study the sample complexity of the plug-in approach for learning $\varepsilon$-optimal policies in average-reward Markov decision processes (MDPs) with a generative model. The plug-in approach constructs a model estimate then computes an average-reward optimal policy in the estimated model. Despite representing arguably the simplest algorithm for this problem, the plug-in approach has never been theoretically analyzed. Unlike the more well-studied discounted MDP reduction method, the plug-in approach requires no prior problem information or parameter tuning. Our results fill this gap and address the limitations of prior approaches, as we show that the plug-in approach is optimal in several well-studied settings without using prior knowledge. Specifically it achieves the optimal diameter- and mixing-based sample complexities of $\widetilde{O}\left(SA \frac{D}{\varepsilon^2}\right)$ and $\widetilde{O}\left(SA \frac{\tau_{\mathrm{unif}}}{\varepsilon^2}\right)$, respectively, without knowledge of the diameter $D$ or uniform mixing time $\tau_{\mathrm{unif}}$. We also obtain span-based bounds for the plug-in approach, and complement them with algorithm-specific lower bounds suggesting that they are unimprovable. Our results require novel techniques for analyzing long-horizon problems which may be broadly useful and which also improve results for the discounted plug-in approach, removing effective-horizon-related sample size restrictions and obtaining the first optimal complexity bounds for the full range of sample sizes without reward perturbation.
翻訳日:2024-10-31 15:56:40 公開日:2024-10-10
# アウト・オブ・ディストリビューション検出のためのプロトタイプベース最適輸送

Prototype-based Optimal Transport for Out-of-Distribution Detection ( http://arxiv.org/abs/2410.07617v1 )

ライセンス: Link先を確認
Ao Ke, Wenlong Chen, Chuanwen Feng, Yukun Cao, Xike Xie, S. Kevin Zhou, Lei Feng, (参考訳) 現実世界のデプロイメントにおいて、ディープニューラルネットワークの信頼性を向上させるためには、OOD(Out-of-Distribution)入力の検出が不可欠である。 本稿では,ID と OOD データ間の固有分布シフトに着想を得て,テスト入力と ID プロトタイプ間の分布差を測定するために最適なトランスポートを利用する新しい手法を提案する。 結果として得られる輸送コストは、総合的な不一致に対する各テスト入力の個々のコントリビューションを定量化するために使用され、OOD検出の望ましい手段となる。 我々は,IDデータに近いOOD入力を識別するには,IDプロトタイプへの輸送コストのみに依存するという問題に対処するため,線形外挿によりOOD領域を近似する仮想外挿器を生成する。 トランスポートコストと仮想外れ値のコストを組み合わせることにより、IDデータ近傍のOODデータの検出が強調され、ID入力とOOD入力の区別が向上する。 提案手法が最先端手法よりも優れていることを示す実験を行った。

Detecting Out-of-Distribution (OOD) inputs is crucial for improving the reliability of deep neural networks in the real-world deployment. In this paper, inspired by the inherent distribution shift between ID and OOD data, we propose a novel method that leverages optimal transport to measure the distribution discrepancy between test inputs and ID prototypes. The resulting transport costs are used to quantify the individual contribution of each test input to the overall discrepancy, serving as a desirable measure for OOD detection. To address the issue that solely relying on the transport costs to ID prototypes is inadequate for identifying OOD inputs closer to ID data, we generate virtual outliers to approximate the OOD region via linear extrapolation. By combining the transport costs to ID prototypes with the costs to virtual outliers, the detection of OOD data near ID data is emphasized, thereby enhancing the distinction between ID and OOD inputs. Experiments demonstrate the superiority of our method over state-of-the-art methods.
翻訳日:2024-10-31 15:56:40 公開日:2024-10-10
# Moyun: スタイル特有な中国語書体生成のための拡散モデル

Moyun: A Diffusion-Based Model for Style-Specific Chinese Calligraphy Generation ( http://arxiv.org/abs/2410.07618v1 )

ライセンス: Link先を確認
Kaiyuan Liu, Jiahao Mei, Hengyu Zhang, Yihuai Zhang, Xingjiao Wu, Daoguo Dong, Liang He, (参考訳) 中国書道は書風の伝授を達成しているが、書家、フォント、文字スタイルを指定して書風を生成することは依然として困難である。 そこで我々は,DiffusionモデルにおけるUnetをVision Mambaに置き換えた新しい中国語書跡生成モデル"Moyun"を提案し,制御可能な書跡生成を実現するためのTripleLabel制御機構を提案する。 このモデルは,190万枚以上の画像からなる大規模データセット「モバオ」で検証した結果,「モユン」が生成過程を効果的に制御し,特定のスタイルで書体を作成できることが実証された。 書道においても「もゆん」は書道の様式にマッチした書風を書ける。

Although Chinese calligraphy generation has achieved style transfer, generating calligraphy by specifying the calligrapher, font, and character style remains challenging. To address this, we propose a new Chinese calligraphy generation model 'Moyun' , which replaces the Unet in the Diffusion model with Vision Mamba and introduces the TripleLabel control mechanism to achieve controllable calligraphy generation. The model was tested on our large-scale dataset 'Mobao' of over 1.9 million images, and the results demonstrate that 'Moyun' can effectively control the generation process and produce calligraphy in the specified style. Even for calligraphy the calligrapher has not written, 'Moyun' can generate calligraphy that matches the style of the calligrapher.
翻訳日:2024-10-31 15:56:40 公開日:2024-10-10
# MorCode: 生成コードブックを用いた顔モーフィング攻撃生成

MorCode: Face Morphing Attack Generation using Generative Codebooks ( http://arxiv.org/abs/2410.07625v1 )

ライセンス: Link先を確認
Aravinda Reddy PN, Raghavendra Ramachandra, Sushma Venkatesh, Krothapalli Sreenivasa Rao, Pabitra Mitra, Rakesh Krishna, (参考訳) 顔認識システム(FRS)は、複数の顔画像からテクスチャと幾何学的情報をブレンドする顔形態攻撃によって損なわれる可能性がある。 生成AIの急速な進化、特にGAN(Generative Adversarial Networks)や拡散モデルでは、符号化された画像を補間して高品質な顔形態画像を生成する。 そこで本研究では,コードブック学習に条件付き同時代のエンコーダ・デコーダアーキテクチャを活用し,高品質なモーフィング画像を生成する,自動顔形態生成手法 \textit{MorCode} を提案する。 デジタル・スキャン・データとプリント・スキャン・データの両方を用いて,5つの最先端のモーフィング生成技術を用いて,新たに構築したモーフィング・データセットに対して大規模な実験を行った。 提案手法である「textit{MorCode}」の攻撃電位を3種類の顔認識システムを用いてベンチマークした。 その結果,デジタルスキャンデータと印刷スキャンデータの両方において,最先端の5つのモーフィング生成手法と比較して,提案手法の攻撃可能性が最も高いことがわかった。

Face recognition systems (FRS) can be compromised by face morphing attacks, which blend textural and geometric information from multiple facial images. The rapid evolution of generative AI, especially Generative Adversarial Networks (GAN) or Diffusion models, where encoded images are interpolated to generate high-quality face morphing images. In this work, we present a novel method for the automatic face morphing generation method \textit{MorCode}, which leverages a contemporary encoder-decoder architecture conditioned on codebook learning to generate high-quality morphing images. Extensive experiments were performed on the newly constructed morphing dataset using five state-of-the-art morphing generation techniques using both digital and print-scan data. The attack potential of the proposed morphing generation technique, \textit{MorCode}, was benchmarked using three different face recognition systems. The obtained results indicate the highest attack potential of the proposed \textit{MorCode} when compared with five state-of-the-art morphing generation methods on both digital and print scan data.
翻訳日:2024-10-31 15:56:40 公開日:2024-10-10
# 信頼性LLM推論のためのカリキュラムエキスパート自動イテレーション

Automatic Curriculum Expert Iteration for Reliable LLM Reasoning ( http://arxiv.org/abs/2410.07627v1 )

ライセンス: Link先を確認
Zirui Zhao, Hanze Dong, Amrita Saha, Caiming Xiong, Doyen Sahoo, (参考訳) 幻覚(すなわち、可塑性だが不正確な内容を生成する)と怠慢(すなわち過剰な拒絶や「私は知らない」のデフォルト)は、LLM推論における主要な課題として残る。 幻覚を減らそうとする現在の取り組みは、主に知識に基づくタスクにおける事実的誤りに焦点を当てており、しばしば欠陥推論に関連する幻覚を無視している。 一方、いくつかのアプローチではLLMが過度に保守的になり、問題解決能力が制限される。 推論タスクにおける幻覚と怠慢を軽減するため,LLM推論を強化し,モデルの能力に応答する自動カリキュラムエキスパートイテレーション(Auto-CEI)を提案する。 提案手法では, LLM ポリシ付近の推論軌道を探索し, 誤った経路を軌道に戻すことにより, 複合的誤りの低減とロバスト性の向上を実現し, 十分な推論を試みた後, 適切な「知らない」応答を促進する。 このカリキュラムは報酬を自動的に調整し、障害を認める前に拡張推論をインセンティブ化し、LSM推論の限界を押し上げ、その振る舞いをこれらの制限に合わせる。 我々は,Auto-CEIを論理的推論,数学,計画タスクにまたがる様々なSOTAベースラインと比較する。

Hallucinations (i.e., generating plausible but inaccurate content) and laziness (i.e. excessive refusals or defaulting to "I don't know") persist as major challenges in LLM reasoning. Current efforts to reduce hallucinations primarily focus on factual errors in knowledge-grounded tasks, often neglecting hallucinations related to faulty reasoning. Meanwhile, some approaches render LLMs overly conservative, limiting their problem-solving capabilities. To mitigate hallucination and laziness in reasoning tasks, we propose Automatic Curriculum Expert Iteration (Auto-CEI) to enhance LLM reasoning and align responses to the model's capabilities--assertively answering within its limits and declining when tasks exceed them. In our method, Expert Iteration explores the reasoning trajectories near the LLM policy, guiding incorrect paths back on track to reduce compounding errors and improve robustness; it also promotes appropriate "I don't know" responses after sufficient reasoning attempts. The curriculum automatically adjusts rewards, incentivizing extended reasoning before acknowledging incapability, thereby pushing the limits of LLM reasoning and aligning its behaviour with these limits. We compare Auto-CEI with various SOTA baselines across logical reasoning, mathematics, and planning tasks, where Auto-CEI achieves superior alignment by effectively balancing assertiveness and conservativeness.
翻訳日:2024-10-31 15:56:40 公開日:2024-10-10
# 現代暗号による遠隔医療のための安全なウェアラブルアプリ

Secure Wearable Apps for Remote Healthcare Through Modern Cryptography ( http://arxiv.org/abs/2410.07629v1 )

ライセンス: Link先を確認
Andric Li, Grace Luo, Christopher Tao, Diego Zuluaga, (参考訳) スマートウォッチ、リストバンド、フィットネストラッカーなどのウェアラブルデバイスは、人体に装着するための軽量デバイスとして設計されている。 ウェアラブルデバイスの接続性の向上により、遠隔医療ソリューションに不可欠なものになるだろう。 例えば、スマートウォッチは、人工知能が支援するソフトウェアによって監視されるネットワークを通じて、患者のバイタルサインをクラウドに計測し、アップロードすることができる。 患者の異常が検出されると、適切な介入を医療専門家に警告する。 遠隔医療は、手術や医療提供者が限られた資源と人口増加の間の課題を解決することができるため、患者が自宅に滞在することの快適さを選択して、高価な入院医療を回避できるため、患者と医療提供者双方にとって大きな利益をもたらす。 ウェアラブルデバイスによる遠隔医療はユビキタスで手頃な価格だが、患者のプライバシーに対する懸念が高まる。 私のデータはクラウドに保存されていますか? 脅迫のために私のデータにアクセスして操作できる人はいますか? したがって、患者個人情報のエンドツーエンドの確保が重要となる。 本稿では、最新の暗号をウェアラブルアプリに応用し、患者データが、ウェアラブルエッジからクラウドへの機密性、完全性、信頼性で保護されていることを保証するための解決策を探る。

Wearable devices like smartwatches, wristbands, and fitness trackers are designed to be lightweight devices to be worn on the human body. With the increased connectivity of wearable devices, they will become integral to remote healthcare solutions. For example, a smartwatch can measure and upload a patient's vital signs to the cloud through a network which is monitored by software backed with Artificial Intelligence. When an anomaly of a patient is detected, it will be alerted to healthcare professionals for proper intervention. Remote healthcare offers substantial benefits for both patients and healthcare providers as patients may avoid expensive in-patient care by choosing the comfort of staying at home while being monitored after a surgery and healthcare providers can resolve challenges between limited resources and a growing population. While remote healthcare through wearable devices is ubiquitous and affordable, it raises concerns about patient privacy. Patients may wonder: Is my data stored in the cloud safe? Can anyone access and manipulate my data for blackmailing? Hence, securing patient private information end-to-end becomes crucial. This paper explores solutions for applying modern cryptography to secure wearable apps and ensure patient data is protected with confidentiality, integrity, and authenticity from wearable edge to cloud.
翻訳日:2024-10-31 15:56:40 公開日:2024-10-10
# 訓練された浅層ニューラルネットワークにおける確率的プライバシ攻撃

Provable Privacy Attacks on Trained Shallow Neural Networks ( http://arxiv.org/abs/2410.07632v1 )

ライセンス: Link先を確認
Guy Smorodinsky, Gal Vardi, Itay Safran, (参考訳) 我々は、トレーニングされた2層ReLUニューラルネットワーク上で、証明可能なプライバシ攻撃が示すものについて検討する。 データ再構成攻撃とメンバシップ推論攻撃の2種類の攻撃について検討する。 2層ニューラルネットワークの暗黙バイアスに関する理論的結果は、少なくとも1つの定数が単変量設定のトレーニングポイントである集合を確実に再構成することができ、また、与えられた点が高次元設定のトレーニングセットで使用されたかどうかを高い確率で特定することができることを証明した。 私たちの知る限りでは、この設定で証明可能な脆弱性を最初に示すのは私たちの仕事です。

We study what provable privacy attacks can be shown on trained, 2-layer ReLU neural networks. We explore two types of attacks; data reconstruction attacks, and membership inference attacks. We prove that theoretical results on the implicit bias of 2-layer neural networks can be used to provably reconstruct a set of which at least a constant fraction are training points in a univariate setting, and can also be used to identify with high probability whether a given point was used in the training set in a high dimensional setting. To the best of our knowledge, our work is the first to show provable vulnerabilities in this setting.
翻訳日:2024-10-31 15:56:40 公開日:2024-10-10
# DPL:デュアルプログレッシブラーニングによる高品質なディープフェイク検出

DPL: Cross-quality DeepFake Detection via Dual Progressive Learning ( http://arxiv.org/abs/2410.07633v1 )

ライセンス: Link先を確認
Dongliang Zhang, Yunfei Li, Jiaran Zhou, Yuezun Li, (参考訳) 現実世界のDeepFakeビデオは、様々な圧縮操作を受けており、様々なビデオ品質を生み出している。 これらの様々な性質は偽の痕跡のパターンを多様化させ、ディープフェイク検出の困難を著しく増大させる。 この課題に対処するために、我々は、クロスクオリティなDeepFake検出のための新しいデュアルプログレッシブラーニング(DPL)フレームワークを導入する。 私たちはこのタスクを、低品質のビデオが高品質のビデオよりも多くの労力を必要とする地下の水を徐々に掘り下げることに気に入っている。 そこで我々は,異なる努力で2つのシーケンシャル・ベース・ブランチを「ドリル・ウォーターズ」として開発する。 第1枝は、ビデオ品質、すなわち専用のCLIPベースの指標によって決定される時間ステップのレベルに応じて、フォージェリートレースを段階的に発掘する。 このブランチでは、フィーチャー選択モジュールは、適切な機能を対応する時間ステップに適応的に割り当てるように設計されている。 異なる手法が同じビデオ品質で様々な偽の痕跡をもたらす可能性があることを考慮し、偽の識別性を補完する第2のブランチを設計する。 このブランチも同様に動作し、機能選択モジュールを最初のブランチと共有する。 我々の設計は、計算ユニットが異なる時間ステップで重みを共有できるシーケンシャルモデルを利用しており、適切なメモリコストを維持しながら、先進的な学習をエレガントに達成し、過去の進歩を記憶することができる。 クロスクオリティなDeepFake検出手法の優位性を示す実験を行った。

Real-world DeepFake videos often undergo various compression operations, resulting in a range of video qualities. These varying qualities diversify the pattern of forgery traces, significantly increasing the difficulty of DeepFake detection. To address this challenge, we introduce a new Dual Progressive Learning (DPL) framework for cross-quality DeepFake detection. We liken this task to progressively drilling for underground water, where low-quality videos require more effort than high-quality ones. To achieve this, we develop two sequential-based branches to "drill waters" with different efforts. The first branch progressively excavates the forgery traces according to the levels of video quality, i.e., time steps, determined by a dedicated CLIP-based indicator. In this branch, a Feature Selection Module is designed to adaptively assign appropriate features to the corresponding time steps. Considering that different techniques may introduce varying forgery traces within the same video quality, we design a second branch targeting forgery identifiability as complementary. This branch operates similarly and shares the feature selection module with the first branch. Our design takes advantage of the sequential model where computational units share weights across different time steps and can memorize previous progress, elegantly achieving progressive learning while maintaining reasonable memory costs. Extensive experiments demonstrate the superiority of our method for cross-quality DeepFake detection.
翻訳日:2024-10-31 15:56:40 公開日:2024-10-10
# ビデオセマンティックセグメンテーションのためのシフトとマッチングクエリ

Shift and matching queries for video semantic segmentation ( http://arxiv.org/abs/2410.07635v1 )

ライセンス: Link先を確認
Tsubasa Mizuno, Toru Tamaki, (参考訳) ビデオセグメンテーションは一般的なタスクであるが、フレームごとのイメージセグメンテーションモデルをビデオに適用しても時間的一貫性は保たない。 本稿では,特徴シフトとクエリマッチングを用いて,問合せに基づく画像分割モデルをビデオに拡張する手法を提案する。 この方法はクエリベースのアーキテクチャを使用し、デコードされたクエリはセグメンテーションマスクを表す。 これらのクエリは機能シフトを実行する前に一致し、シフトしたクエリが異なるフレームで同じマスクを表すことを保証する必要がある。 CityScapes-VPS と VSPW の実験結果から,プレトレーニング重量を効率的に再利用し,セグメンテーション品質を向上させる方法の有効性が示された。

Video segmentation is a popular task, but applying image segmentation models frame-by-frame to videos does not preserve temporal consistency. In this paper, we propose a method to extend a query-based image segmentation model to video using feature shift and query matching. The method uses a query-based architecture, where decoded queries represent segmentation masks. These queries should be matched before performing the feature shift to ensure that the shifted queries represent the same mask across different frames. Experimental results on CityScapes-VPS and VSPW show significant improvements from the baselines, highlighting the method's effectiveness in enhancing segmentation quality while efficiently reusing pre-trained weights.
翻訳日:2024-10-31 15:56:40 公開日:2024-10-10
# 縦定置線形帯域におけるほぼ最小最適腕同定

Almost Minimax Optimal Best Arm Identification in Piecewise Stationary Linear Bandits ( http://arxiv.org/abs/2410.07638v1 )

ライセンス: Link先を確認
Yunlong Hou, Vincent Y. F. Tan, Zixin Zhong, (参考訳) 本稿では,各変更点における未知の確率分布から環境がランダムにコンテキストをサンプリングするPSLBモデルを提案する。 コンテキストとその分布、および変更点がエージェントに未知である。 We design {\em Piecewise-Stationary $\varepsilon$-Best Arm Identification$^+$} (PS$\varepsilon$BAI$^+$)。 PS$\varepsilon$BAI$+$は2つのサブルーチン、PS$\varepsilon$BAIと {\sc Na\"ive $\varepsilon$-BAI} (N$\varepsilon$BAI)で構成され、並列に実行される。 PS$\varepsilon$BAIは、変化点を積極的に検出し、コンテキストを調整して、腕の識別プロセスを容易にする。 PS$\varepsilon$BAI と N$\varepsilon$BAI が並列に使用されるとき、PS$\varepsilon$BAI$^+$ は有限個の標本複雑性を持つ。 下位境界を証明することにより、PS$\varepsilon$BAI$^+$が対数係数まで最適であることを示す。 我々はPS$\varepsilon$BAI$^+$を、その効率を示す数値実験を用いてベースラインアルゴリズムと比較する。 その結果,PS$\varepsilon$BAI$+$の有効性は,PS$\varepsilon$BAIに埋め込まれた微妙な変化検出とコンテキストアライメントが原因であることが示唆された。

We propose a {\em novel} piecewise stationary linear bandit (PSLB) model, where the environment randomly samples a context from an unknown probability distribution at each changepoint, and the quality of an arm is measured by its return averaged over all contexts. The contexts and their distribution, as well as the changepoints are unknown to the agent. We design {\em Piecewise-Stationary $\varepsilon$-Best Arm Identification$^+$} (PS$\varepsilon$BAI$^+$), an algorithm that is guaranteed to identify an $\varepsilon$-optimal arm with probability $\ge 1-\delta$ and with a minimal number of samples. PS$\varepsilon$BAI$^+$ consists of two subroutines, PS$\varepsilon$BAI and {\sc Na\"ive $\varepsilon$-BAI} (N$\varepsilon$BAI), which are executed in parallel. PS$\varepsilon$BAI actively detects changepoints and aligns contexts to facilitate the arm identification process. When PS$\varepsilon$BAI and N$\varepsilon$BAI are utilized judiciously in parallel, PS$\varepsilon$BAI$^+$ is shown to have a finite expected sample complexity. By proving a lower bound, we show the expected sample complexity of PS$\varepsilon$BAI$^+$ is optimal up to a logarithmic factor. We compare PS$\varepsilon$BAI$^+$ to baseline algorithms using numerical experiments which demonstrate its efficiency. Both our analytical and numerical results corroborate that the efficacy of PS$\varepsilon$BAI$^+$ is due to the delicate change detection and context alignment procedures embedded in PS$\varepsilon$BAI.
翻訳日:2024-10-31 15:46:26 公開日:2024-10-10
# 高次元における正規化相互情報推定器の数値安定性の向上

Improving Numerical Stability of Normalized Mutual Information Estimator on High Dimensions ( http://arxiv.org/abs/2410.07642v1 )

ライセンス: Link先を確認
Marko Tuononen, Ville Hautamäki, (参考訳) 相互情報は、変数間で共有される情報の量を定量化するための強力で汎用的なメトリクスを提供する。 k-Nearest Neighbor (k-NN) に基づく手法を用いて正規化された相互情報を推定するには、スケーリング不変なk-NN半径の計算が必要となる。 半径の計算は、典型的には数百次元の範囲で、データの関節次元が高くなると数値的なオーバーフローに悩まされる。 この問題に対処するため,高次元空間における半径計算の数値安定性を向上させる対数変換手法を提案する。 半径の計算中に提案した変換を適用することにより、数値オーバーフローが回避され、精度が維持される。 提案した変換は、理論解析と経験的評価の両方を通じて検証され、結果の精度を損なうことなく、計算を安定させる能力を示す。

Mutual information provides a powerful, general-purpose metric for quantifying the amount of shared information between variables. Estimating normalized mutual information using a k-Nearest Neighbor (k-NN) based approach involves the calculation of the scaling-invariant k-NN radius. Calculation of the radius suffers from numerical overflow when the joint dimensionality of the data becomes high, typically in the range of several hundred dimensions. To address this issue, we propose a logarithmic transformation technique that improves the numerical stability of the radius calculation in high-dimensional spaces. By applying the proposed transformation during the calculation of the radius, numerical overflow is avoided, and precision is maintained. Proposed transformation is validated through both theoretical analysis and empirical evaluation, demonstrating its ability to stabilize the calculation without compromizing the precision of the results.
翻訳日:2024-10-31 15:46:26 公開日:2024-10-10
# 逆逆強化学習の再考:政策模倣と移動可能なリワード回復の角度から

Rethinking Adversarial Inverse Reinforcement Learning: From the Angles of Policy Imitation and Transferable Reward Recovery ( http://arxiv.org/abs/2410.07643v1 )

ライセンス: Link先を確認
Yangchun Zhang, Wang Zhou, Yirui Zhou, (参考訳) 逆強化学習(IRL)と1人の専門家によるシナリオでは、逆補強学習(AIRL)は、報酬クラス(例えば報酬クラス)を州のみの報酬に制限することにより、包括的で伝達可能なタスク記述を提供するための基礎的なアプローチとして機能する。 しかしながら、AIRLは実際的な課題に直面しており、主に効果的な移行に必要な特定の条件下で観測不可能な遷移行列(実際はしばしば遭遇する)を検証することの難しさに起因している。 本稿では,AIRLの再検討を行う。 ランダム行列理論 (RMT) を適用することにより,AIRL は特定の条件によらず,高い確率で効率的に転送できることを示す。 この観点では、特定のコンテキストでの転送が不十分である。 具体的には,AIRLが採用した強化学習アルゴリズムの選択問題に起因する。 そこで本研究では,PPO(On-policy proximal Policy Optimization)とSAC(Off-policy soft actor-critic)を対象環境に統合したハイブリッドフレームワークを提案する。

In scenarios of inverse reinforcement learning (IRL) with a single expert, adversarial inverse reinforcement learning (AIRL) serves as a foundational approach to providing comprehensive and transferable task descriptions by restricting the reward class, e.g., to state-only rewards. However, AIRL faces practical challenges, primarily stemming from the difficulty of verifying the unobservable transition matrix - often encountered in practice - under the specific conditions necessary for effective transfer. This paper reexamines AIRL in light of the unobservable transition matrix or limited informative priors. By applying random matrix theory (RMT), we demonstrate that AIRL can disentangle rewards for effective transfer with high probability, irrespective of specific conditions. This perspective reframes inadequate transfer in certain contexts. Specifically, it is attributed to the selection problem of the reinforcement learning algorithm employed by AIRL, which is characterized by training variance. Based on this insight, we propose a hybrid framework that integrates on-policy proximal policy optimization (PPO) in the source environment with off-policy soft actor-critic (SAC) in the target environment, leading to significant improvements in reward transfer effectiveness.
翻訳日:2024-10-31 15:46:26 公開日:2024-10-10
# FLIER: 潜在表現を組み込んだ少数ショット言語画像モデル

FLIER: Few-shot Language Image Models Embedded with Latent Representations ( http://arxiv.org/abs/2410.07648v1 )

ライセンス: Link先を確認
Zhinuo Zhou, Peng Zhou, Xiaoyong Pan, (参考訳) Contrastive Language-Image Pre-training (CLIP)のような大きな視覚言語モデルの開発が加速するにつれ、多くのCLIPライクな手法が視覚認識、特に低データレシージャシーンにおいて顕著な能力を示している。 しかし、これらの手法のほとんどは、テキストと画像エンコーダに新しい修正を加えることに限定されていることに気づきました。 近年,遅延拡散モデル (LDM) は画像生成に優れた能力を示している。 LDMの強力な能力は、UNetによってサンプリングされた潜在表現に焦点を向けます。 既存の語彙を超えた意味をエンコードするプロンプトを学習したCoOpの予想に触発されて、深いモデルでは、潜伏表現は簡潔で正確なイメージ理解であり、高周波で知覚不能な詳細が抽象化されていると仮定する。 本稿では,CLIPのイメージエンコーダで訓練された潜時エンコーダを導入し,CLIPの事前学習された視覚言語知識と安定拡散からの潜時表現を組み込むことにより,画像認識に潜時表現(FLIER)を組み込んだFew-shot Language Image Modelを提案する。 まず、GPT-3からのテキスト入力で、安定拡散による画像とそれに対応する潜在表現を生成する。 潜在表現を「モデル理解可能なピクセル」として、2つの畳み込み層を持つ柔軟な畳み込みニューラルネットワークを導入する。 潜在エンコーダはCLIPのイメージエンコーダと共同でトレーニングされており、トレーニング済みの知識を下流タスクに転送する。 様々な視覚的分類タスクの実験と広範囲にわたるアブレーション研究は、FLIERが11のデータセットに対して最先端の処理を行い、ほとんど数発の分類を行うことを示した。

As the boosting development of large vision-language models like Contrastive Language-Image Pre-training (CLIP), many CLIP-like methods have shown impressive abilities on visual recognition, especially in low-data regimes scenes. However, we have noticed that most of these methods are limited to introducing new modifications on text and image encoder. Recently, latent diffusion models (LDMs) have shown good ability on image generation. The potent capabilities of LDMs direct our focus towards the latent representations sampled by UNet. Inspired by the conjecture in CoOp that learned prompts encode meanings beyond the existing vocabulary, we assume that, for deep models, the latent representations are concise and accurate understanding of images, in which high-frequency, imperceptible details are abstracted away. In this paper, we propose a Few-shot Language Image model Embedded with latent Representations (FLIER) for image recognition by introducing a latent encoder jointly trained with CLIP's image encoder, it incorporates pre-trained vision-language knowledge of CLIP and the latent representations from Stable Diffusion. We first generate images and corresponding latent representations via Stable Diffusion with the textual inputs from GPT-3. With latent representations as "models-understandable pixels", we introduce a flexible convolutional neural network with two convolutional layers to be the latent encoder, which is simpler than most encoders in vision-language models. The latent encoder is jointly trained with CLIP's image encoder, transferring pre-trained knowledge to downstream tasks better. Experiments and extensive ablation studies on various visual classification tasks demonstrate that FLIER performs state-of-the-art on 11 datasets for most few-shot classification.
翻訳日:2024-10-31 15:46:26 公開日:2024-10-10
# $\ell_0$ スパース回帰MLアルゴリズムの理論的限界

Theoretical limits of descending $\ell_0$ sparse-regression ML algorithms ( http://arxiv.org/abs/2410.07651v1 )

ライセンス: Link先を確認
Mihailo Stojnic, (参考訳) 古典的圧縮センシングやスパース回帰問題の解法において,$\ell_0$(quasi)ノルムに基づく最適化アルゴリズムの理論的限界について検討する。 決定論的信号と統計システムを用いた標準的な文脈を考慮し,Fl RDT(Femph{Fully lifted random duality theory})とML(ML)復号法の性能解析プログラムを開発した。 キーML性能パラメータである残留 \emph{root mean square error} ("\textbf{RMSE}$") が発見され、いわゆる \emph{phase-transition} (PT) 現象を示す。 emph{an} $\ell_0$ ベースのアルゴリズムが小さい(ノイズに匹敵する) ML の最適 $\textbf{RMSE}$ が正確に決定されるようなシステム次元の領域を分離する APT 曲線。 平行して、同じ分離を行う別の dPT 曲線の存在を明らかにするが、実際は実現可能な \emph{descending} $\ell_0$$$d\ell_0$) アルゴリズムに対してである。 Fl RDTの具体的実装と実用的妥当性は、Fl RDTを復号するMLが驚くほど速く収束し、推定量の補正が既に3段階のリフトで$\sim 0.1\%以上であることを示す、基礎となる数値評価のスケール可能なセットを実行する能力に依存するのが一般的である。 解析結果は、$d\ell_0$の単純な変種を実装し、その実用性能が理論的予測と非常に正確に一致していることを示す数値実験によって補足される。 完全に驚くべきことに、シミュレーションと理論の間の驚くほど正確な一致は、100のオーダーのかなり小さな次元に対して観察される。

We study the theoretical limits of the $\ell_0$ (quasi) norm based optimization algorithms when employed for solving classical compressed sensing or sparse regression problems. Considering standard contexts with deterministic signals and statistical systems, we utilize \emph{Fully lifted random duality theory} (Fl RDT) and develop a generic analytical program for studying performance of the \emph{maximum-likelihood} (ML) decoding. The key ML performance parameter, the residual \emph{root mean square error} ($\textbf{RMSE}$), is uncovered to exhibit the so-called \emph{phase-transition} (PT) phenomenon. The associated aPT curve, which separates the regions of systems dimensions where \emph{an} $\ell_0$ based algorithm succeeds or fails in achieving small (comparable to the noise) ML optimal $\textbf{RMSE}$ is precisely determined as well. In parallel, we uncover the existence of another dPT curve which does the same separation but for practically feasible \emph{descending} $\ell_0$ ($d\ell_0$) algorithms. Concrete implementation and practical relevance of the Fl RDT typically rely on the ability to conduct a sizeable set of the underlying numerical evaluations which reveal that for the ML decoding the Fl RDT converges astonishingly fast with corrections in the estimated quantities not exceeding $\sim 0.1\%$ already on the third level of lifting. Analytical results are supplemented by a sizeable set of numerical experiments where we implement a simple variant of $d\ell_0$ and demonstrate that its practical performance very accurately matches the theoretical predictions. Completely surprisingly, a remarkably precise agreement between the simulations and the theory is observed for fairly small dimensions of the order of 100.
翻訳日:2024-10-31 15:46:26 公開日:2024-10-10
# StablePrompt:大規模言語モデルのための強化学習を用いた自動プロンプトチューニング

StablePrompt: Automatic Prompt Tuning using Reinforcement Learning for Large Language Models ( http://arxiv.org/abs/2410.07652v1 )

ライセンス: Link先を確認
Minchan Kwon, Gaeun Kim, Jongsuk Kim, Haeil Lee, Junmo Kim, (参考訳) LLM(Large Language Models)の利用が拡大するにつれて、特定のタスクの適切なプロンプトを見つけることが重要な問題となっている。 強化学習(Reinforcement Learning, RL)は, 即時チューニングに広く用いられているが, その固有の不安定性と環境依存性は, 実際にの使用を困難にしている。 本稿では,学習安定性と探索空間のバランスを保ち,RLの不安定性を軽減し,高性能なプロンプトを生成するStablePromptを提案する。 本稿では,エージェントとターゲットLLM間のオンラインRL問題としてプロンプトチューニングを定式化し,Adaptive Proximal Policy Optimization (APPO)を導入する。 APPOはポリシー更新率を適応的に調整するLLMアンカーモデルを導入している。 これにより、事前訓練されたLLMの言語能力を維持しながら、柔軟なプロンプトサーチが可能となる。 StablePromptは、テキスト分類、質問応答、テキスト生成など、さまざまなタスクにおいて、以前のメソッドよりも優れています。 私たちのコードはgithubで見つけることができます。

Finding appropriate prompts for the specific task has become an important issue as the usage of Large Language Models (LLM) has expanded. Reinforcement Learning (RL) is widely used for prompt tuning, but its inherent instability and environmental dependency make it difficult to use in practice. In this paper, we propose StablePrompt, which strikes a balance between training stability and search space, mitigating the instability of RL and producing high-performance prompts. We formulate prompt tuning as an online RL problem between the agent and target LLM and introduce Adaptive Proximal Policy Optimization (APPO). APPO introduces an LLM anchor model to adaptively adjust the rate of policy updates. This allows for flexible prompt search while preserving the linguistic ability of the pre-trained LLM. StablePrompt outperforms previous methods on various tasks including text classification, question answering, and text generation. Our code can be found in github.
翻訳日:2024-10-31 15:46:26 公開日:2024-10-10
# SeMv-3D:Triplane プリミティブを用いた汎用テキスト・ツー・3D生成のためのセマンティック・ミューティビュー整合性の実現に向けて

SeMv-3D: Towards Semantic and Mutil-view Consistency simultaneously for General Text-to-3D Generation with Triplane Priors ( http://arxiv.org/abs/2410.07658v1 )

ライセンス: Link先を確認
Xiao Cai, Pengpeng Zeng, Lianli Gao, Junchen Zhu, Jiaxin Zhang, Sitong Su, Heng Tao Shen, Jingkuan Song, (参考訳) テキストプロンプトからの汎用的な3Dコンテンツ生成の進歩は、微調整によるテキスト・ツー・イメージ拡散(T2I)モデルや、一般的なテキスト・トゥ・3Dモデルを学ぶためにこれらのT2Iモデルを先行として採用することで顕著である。 微調整に基づく手法は、テキストと生成されたビュー、すなわち意味的な一貫性を保証するが、多視点一貫性を実現する能力は、限られたビューであっても3D制約が欠如していることによって妨げられる。 対照的に、先行する手法は、ビュー間の一様性とコヒーレンスを維持するあらゆるビュー、すなわち複数ビューの一貫性を保ちながら、3次元の形状を回帰することに焦点を当てるが、このようなアプローチは必然的に視覚的・テクスチュアルなアライメントを損なうため、生成されたオブジェクトのセマンティックな詳細が失われる。 セマンティックとマルチビューの一貫性を同時に達成するために,汎用テキスト・ツー・3d生成のための新しいフレームワークであるSeMv-3Dを提案する。 具体的には、3次元空間的特徴を持つ3次元平面先行学習を学習し、3次元の異なる視点、例えば幾何学やテクスチャの整合性を維持する三次元平面先行学習システム(TPL)を提案する。 さらに,3次元空間特徴とテキスト・セマンティック・セマンティック・セマンティック・ビュー・シンセサイザー(SVS)の設計を行った。 SVSでは、単一のフィードフォワード推論で任意のビューを生成することができる、単純で効果的なバッチサンプリングとレンダリング戦略を考案する。 総合的な実験により、セムブ3Dは、セマンティックとマルチビューの整合性を持つ最先端の性能よりも優れていることが示された。 私たちのコードとよりビジュアルな結果はhttps://anonymous.4open.science/r/SeMv-3D-6425で公開されています。

Recent advancements in generic 3D content generation from text prompts have been remarkable by fine-tuning text-to-image diffusion (T2I) models or employing these T2I models as priors to learn a general text-to-3D model. While fine-tuning-based methods ensure great alignment between text and generated views, i.e., semantic consistency, their ability to achieve multi-view consistency is hampered by the absence of 3D constraints, even in limited view. In contrast, prior-based methods focus on regressing 3D shapes with any view that maintains uniformity and coherence across views, i.e., multi-view consistency, but such approaches inevitably compromise visual-textual alignment, leading to a loss of semantic details in the generated objects. To achieve semantic and multi-view consistency simultaneously, we propose SeMv-3D, a novel framework for general text-to-3d generation. Specifically, we propose a Triplane Prior Learner (TPL) that learns triplane priors with 3D spatial features to maintain consistency among different views at the 3D level, e.g., geometry and texture. Moreover, we design a Semantic-aligned View Synthesizer (SVS) that preserves the alignment between 3D spatial features and textual semantics in latent space. In SVS, we devise a simple yet effective batch sampling and rendering strategy that can generate arbitrary views in a single feed-forward inference. Extensive experiments present our SeMv-3D's superiority over state-of-the-art performances with semantic and multi-view consistency in any view. Our code and more visual results are available at https://anonymous.4open.science/r/SeMv-3D-6425.
翻訳日:2024-10-31 15:46:26 公開日:2024-10-10
# MotionAura:離散拡散を用いた高精細・高精細映像の生成

MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion ( http://arxiv.org/abs/2410.07659v1 )

ライセンス: Link先を確認
Onkar Susladkar, Jishu Sen Gupta, Chirag Sehgal, Sparsh Mittal, Rekha Singhal, (参考訳) ビデオデータの時空間的複雑さは、圧縮、生成、塗装といったタスクにおいて大きな課題をもたらす。 時空間ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。 まず3D Mobile Inverted Vector-Quantization Variational Autoencoder (3D-MBQ-VAE)を紹介する。 本モデルは,フルフレームマスキングを用いた新しいトレーニング戦略を用いることで,時間的整合性とSOTA(State-of-the-art)復元品質を向上する。 第2に,ベクトル量子化拡散モデルを用いたテキスト・ビデオ生成フレームワークであるMotionAuraを提案する。 第3に、フーリエ変換を用いて周波数領域の映像データを処理するスペクトル変換器に基づく復調ネットワークを提案する。 この方法は,高品質な映像生成とデノーミングのために,グローバルなコンテキストと長距離依存関係を効果的にキャプチャする。 最後に,Sketch Guided Video Inpaintingのダウンストリームタスクを紹介する。 このタスクはパラメータ効率の良い微調整にLoRA(Lo-Rank Adaptation)を利用する。 我々のモデルは、様々なベンチマークでSOTA性能を達成する。 我々の研究は、時空間モデリングとユーザ主導のビデオコンテンツ操作のための堅牢なフレームワークを提供する。 コード、データセット、モデルをオープンソースでリリースします。

The spatio-temporal complexity of video data presents significant challenges in tasks such as compression, generation, and inpainting. We present four key contributions to address the challenges of spatiotemporal video processing. First, we introduce the 3D Mobile Inverted Vector-Quantization Variational Autoencoder (3D-MBQ-VAE), which combines Variational Autoencoders (VAEs) with masked token modeling to enhance spatiotemporal video compression. The model achieves superior temporal consistency and state-of-the-art (SOTA) reconstruction quality by employing a novel training strategy with full frame masking. Second, we present MotionAura, a text-to-video generation framework that utilizes vector-quantized diffusion models to discretize the latent space and capture complex motion dynamics, producing temporally coherent videos aligned with text prompts. Third, we propose a spectral transformer-based denoising network that processes video data in the frequency domain using the Fourier Transform. This method effectively captures global context and long-range dependencies for high-quality video generation and denoising. Lastly, we introduce a downstream task of Sketch Guided Video Inpainting. This task leverages Low-Rank Adaptation (LoRA) for parameter-efficient fine-tuning. Our models achieve SOTA performance on a range of benchmarks. Our work offers robust frameworks for spatiotemporal modeling and user-driven video content manipulation. We will release the code, datasets, and models in open-source.
翻訳日:2024-10-31 15:46:26 公開日:2024-10-10
# オーバー・ザ・エア・アグリゲーションによるスケーラブルでリソース効率の良い2次フェデレーションラーニング

Scalable and Resource-Efficient Second-Order Federated Learning via Over-the-Air Aggregation ( http://arxiv.org/abs/2410.07662v1 )

ライセンス: Link先を確認
Abdulmomen Ghalkha, Chaouki Ben Issaid, Mehdi Bennis, (参考訳) 2次連合学習(FL)アルゴリズムは、曲率情報を活用することにより、1次よりも高速な収束を提供する。 しかし、それらは特に大規模モデルにおいて、高い計算コストとストレージコストによって妨げられている。 さらに、大型モデルやデジタル伝送に伴う通信オーバーヘッドがこれらの課題を悪化させ、通信ボトルネックを引き起こす。 本研究では,スパースヘッセン推定を用いた拡張性のある2次FLアルゴリズムを提案する。 シミュレーションの結果,他の1次および2次ベースラインと比較して,通信資源と省エネの6,7 %以上を実証した。

Second-order federated learning (FL) algorithms offer faster convergence than their first-order counterparts by leveraging curvature information. However, they are hindered by high computational and storage costs, particularly for large-scale models. Furthermore, the communication overhead associated with large models and digital transmission exacerbates these challenges, causing communication bottlenecks. In this work, we propose a scalable second-order FL algorithm using a sparse Hessian estimate and leveraging over-the-air aggregation, making it feasible for larger models. Our simulation results demonstrate more than $67\%$ of communication resources and energy savings compared to other first and second-order baselines.
翻訳日:2024-10-31 15:46:26 公開日:2024-10-10
# TDDSR:スーパーレゾリューションのための2つの識別器を備えた単一ステップ拡散

TDDSR: Single-Step Diffusion with Two Discriminators for Super Resolution ( http://arxiv.org/abs/2410.07663v1 )

ライセンス: Link先を確認
Sohwi Kim, Tae-Kyun Kim, (参考訳) 超解像法は、現実のタスクと顔特有のタスクの両方に特化している。 しかし、既存の多くのアプローチは単純化された劣化モデルに依存しており、複雑で未知の劣化パターンを効果的に扱う能力を制限する。 拡散に基づく超解像法は近年は顕著な結果を示しているが、多くの推論ステップの必要性に制約されている。 これを解決するために,効率的な単一ステップ拡散に基づく超解像法であるTDDSRを提案する。 本手法は,教師の事前学習モデルから抽出し,拡散ネットワークに基づいて,単一ステップで超解像を行う。 学習可能なダウンサンプラーを統合して、さまざまな劣化パターンをキャプチャし、高解像度の画像と低解像度画像の2つの識別器を使用して、全体的なパフォーマンスを向上させる。 実験の結果、実世界のSRタスクと顔固有のSRタスクにまたがってその効果を示し、その性能は1段階の手法、過去の最先端モデル、教師モデルに匹敵する、あるいは超えている。

Super-resolution methods are increasingly being specialized for both real-world and face-specific tasks. However, many existing approaches rely on simplistic degradation models, which limits their ability to handle complex and unknown degradation patterns effectively. While diffusion-based super-resolution techniques have recently shown impressive results, they are still constrained by the need for numerous inference steps. To address this, we propose TDDSR, an efficient single-step diffusion-based super-resolution method. Our method, distilled from a pre-trained teacher model and based on a diffusion network, performs super-resolution in a single step. It integrates a learnable downsampler to capture diverse degradation patterns and employs two discriminators, one for high-resolution and one for low-resolution images, to enhance the overall performance. Experimental results demonstrate its effectiveness across real-world and face-specific SR tasks, achieving performance comparable to, or even surpassing, another single-step method, previous state-of-the-art models, and the teacher model.
翻訳日:2024-10-31 15:46:26 公開日:2024-10-10
# Invisibility Cloak: バックドアアタックによる人間の姿勢推定による失明

Invisibility Cloak: Disappearance under Human Pose Estimation via Backdoor Attacks ( http://arxiv.org/abs/2410.07670v1 )

ライセンス: Link先を確認
Minxing Zhang, Michael Backes, Xiao Zhang, (参考訳) HPE(Human Pose Estimation)は、自動運転車などの自律システムに広く応用されている。 しかし、HPEの敵対的攻撃に対する潜在的なリスクは、画像分類やセグメンテーションタスクと同等の注意を払っていない。 HPEのロバスト性に関する既存の研究は、HPEシステムの誤解を招くことに重点を置いている。 本稿では,特定のトリガを持つ任意の入力画像が人間のポーズを伴わないよう,バックドア技術を用いてHPEトレーニングプロセスを微妙に変更することを目的とした,消失攻撃に対するHPEシステムの脆弱性について検討する。 人間は通常、HPEシステムの中心にいるため、このような攻撃は深刻なセキュリティ上の危険を引き起こす可能性がある。 消失の逆の目標を達成するために,HPEドメインで視認性クロークを構築するための一般的なフレームワークであるIntCを提案する。 私たちの作業の中核は、人間のポーズを表現しないターゲットのHPEラベルの設計にあります。 特に,ラベルの異なるIntCフレームワークに基づく3つの特定のバックドア攻撃を提案する。 IntC-SとIntC-Eは、それぞれ回帰と熱マップに基づくHPE技術のために設計されており、トリガ画像のキーポイントを小さな非受容領域に集中させる。 さらに、攻撃のステルス性を改善するため、IntC-Lは標的の毒を設計し、人間の関与なしに典型的な風景画像のラベル出力を捕捉し、同時に消失と検出可能性の低下を図った。 IntC法の有効性と一般化性を示す実験を行った。 HPEの脆弱性を消失やバックドア攻撃で明らかにすることで、私たちの仕事が潜在的なリスクに対する認識を高めることを願っています。

Human Pose Estimation (HPE) has been widely applied in autonomous systems such as self-driving cars. However, the potential risks of HPE to adversarial attacks have not received comparable attention with image classification or segmentation tasks. Existing works on HPE robustness focus on misleading an HPE system to provide wrong predictions that still indicate some human poses. In this paper, we study the vulnerability of HPE systems to disappearance attacks, where the attacker aims to subtly alter the HPE training process via backdoor techniques so that any input image with some specific trigger will not be recognized as involving any human pose. As humans are typically at the center of HPE systems, such attacks can induce severe security hazards, e.g., pedestrians' lives will be threatened if a self-driving car incorrectly understands the front scene due to disappearance attacks. To achieve the adversarial goal of disappearance, we propose IntC, a general framework to craft Invisibility Cloak in the HPE domain. The core of our work lies in the design of target HPE labels that do not represent any human pose. In particular, we propose three specific backdoor attacks based on our IntC framework with different label designs. IntC-S and IntC-E, respectively designed for regression- and heatmap-based HPE techniques, concentrate the keypoints of triggered images in a tiny, imperceptible region. Further, to improve the attack's stealthiness, IntC-L designs the target poisons to capture the label outputs of typical landscape images without a human involved, achieving disappearance and reducing detectability simultaneously. Extensive experiments demonstrate the effectiveness and generalizability of our IntC methods in achieving the disappearance goal. By revealing the vulnerability of HPE to disappearance and backdoor attacks, we hope our work can raise awareness of the potential risks ...
翻訳日:2024-10-31 15:36:27 公開日:2024-10-10
# MACPO:マルチエージェントコントラスト参照最適化による弱-ストロングアライメント

MACPO: Weak-to-Strong Alignment via Multi-Agent Contrastive Preference Optimization ( http://arxiv.org/abs/2410.07672v1 )

ライセンス: Link先を確認
Yougang Lyu, Lingyong Yan, Zihan Wang, Dawei Yin, Pengjie Ren, Maarten de Rijke, Zhaochun Ren, (参考訳) 大規模言語モデル(LLM)が急速に進歩し、ほぼ人間に近い能力を達成するにつれ、それらと人間の価値を合わせることが、より緊急になってきている。 LLMが人間より優れるシナリオでは、弱い教師が生み出す弱い監督によって、強い学生のLLMを効果的に整合させる必要がある、弱直なアライメント問題に直面している。 既存のアライメント手法は主に強弱アライメントと自己アライメント設定に重点を置いており、より厳格な弱いアライメント設定に適応することは不可能である。 このギャップを埋めるために,マルチエージェントコントラスト優先最適化(MACPO)フレームワークを提案する。 MACPOは、慣れ親しんだネガティブな行動を反復的に強化し、弱い教師と強い学生が互いに学び合うのを促進する。 そこで我々は,弱い教師と強い生徒がお互いの肯定的な行動から学び,次のイテレーションでより高い品質の肯定的な行動を提供するための,相互肯定的な行動増強戦略を考案した。 さらに、弱い教師や強い生徒を誘導し、ネガティブな行動データを微調整して親しみやすいネガティブな行動を生成するための強硬なネガティブな行動構築戦略を提案する。 HH-RLHFデータセットとPKU-SafeRLHFデータセットを自動測定と人的判断の両方を用いて評価した結果,MACPOは強い生徒と弱い教師のアライメント性能を同時に向上することが示された。 さらに、弱い教師の数が増加するにつれて、MACPOはよりイテレーション最適化ラウンドにより、より弱い教師同士のアライメント性能が向上する。

As large language models (LLMs) are rapidly advancing and achieving near-human capabilities, aligning them with human values is becoming more urgent. In scenarios where LLMs outperform humans, we face a weak-to-strong alignment problem where we need to effectively align strong student LLMs through weak supervision generated by weak teachers. Existing alignment methods mainly focus on strong-to-weak alignment and self-alignment settings, and it is impractical to adapt them to the much harder weak-to-strong alignment setting. To fill this gap, we propose a multi-agent contrastive preference optimization (MACPO) framework. MACPO facilitates weak teachers and strong students to learn from each other by iteratively reinforcing unfamiliar positive behaviors while penalizing familiar negative ones. To get this, we devise a mutual positive behavior augmentation strategy to encourage weak teachers and strong students to learn from each other's positive behavior and further provide higher quality positive behavior for the next iteration. Additionally, we propose a hard negative behavior construction strategy to induce weak teachers and strong students to generate familiar negative behavior by fine-tuning on negative behavioral data. Experimental results on the HH-RLHF and PKU-SafeRLHF datasets, evaluated using both automatic metrics and human judgments, demonstrate that MACPO simultaneously improves the alignment performance of strong students and weak teachers. Moreover, as the number of weak teachers increases, MACPO achieves better weak-to-strong alignment performance through more iteration optimization rounds.
翻訳日:2024-10-31 15:36:27 公開日:2024-10-10
# 因果表現推論を用いた分解バイアスによるマルチモーダルクリックベイト検出

Multimodal Clickbait Detection by De-confounding Biases Using Causal Representation Inference ( http://arxiv.org/abs/2410.07673v1 )

ライセンス: Link先を確認
Jianxing Yu, Shiqi Wang, Han Yin, Zhenlong Sun, Ruobing Xie, Bo Zhang, Yanghui Rao, (参考訳) 本稿では,ウェブ上でのクリックベイト投稿の検出に焦点をあてる。 これらの投稿は、ユーザーが利益のためにクリックすることを誤解させるために、様々なモダリティで目を引く偽情報を使うことが多い。 これはユーザエクスペリエンスに影響するため、コンテンツプロバイダによってブロックされることになる。 悪質なクリエーターは、検出から逃れるために、無関係な非ベイトコンテンツを餌の投稿に追加するトリックを使って、検出を騙すために合法的な服装を施している。 この内容は、しばしば非ベイトラベルとの関係に偏りがあるが、従来の検出器は、悪意のある行動を引き起こす固有の要因を把握するのではなく、単純な共起に基づく予測を行う傾向にある。 この急激な偏見は容易に誤報を引き起こす。 そこで本研究では,因果推論に基づく新しい脱バイアス手法を提案する。 私たちはまず、ポストを特徴付けるために、複数のモダリティの一連の機能を使用します。 これらの特徴は、しばしば未知のバイアスと混同されるため、本質的な餌の意図を示す不変因子、特定のシナリオにおける欺くパターンを反映する因果因子、非因果雑音を含む3種類の潜伏因子を分離する。 バイアスを引き起こすノイズを除去することにより、不変および因果因子を用いて、優れた一般化能力を持つロバストモデルを構築することができる。 3つの一般的なデータセットの実験は、我々のアプローチの有効性を示している。

This paper focuses on detecting clickbait posts on the Web. These posts often use eye-catching disinformation in mixed modalities to mislead users to click for profit. That affects the user experience and thus would be blocked by content provider. To escape detection, malicious creators use tricks to add some irrelevant non-bait content into bait posts, dressing them up as legal to fool the detector. This content often has biased relations with non-bait labels, yet traditional detectors tend to make predictions based on simple co-occurrence rather than grasping inherent factors that lead to malicious behavior. This spurious bias would easily cause misjudgments. To address this problem, we propose a new debiased method based on causal inference. We first employ a set of features in multiple modalities to characterize the posts. Considering these features are often mixed up with unknown biases, we then disentangle three kinds of latent factors from them, including the invariant factor that indicates intrinsic bait intention; the causal factor which reflects deceptive patterns in a certain scenario, and non-causal noise. By eliminating the noise that causes bias, we can use invariant and causal factors to build a robust model with good generalization ability. Experiments on three popular datasets show the effectiveness of our approach.
翻訳日:2024-10-31 15:36:27 公開日:2024-10-10
# 四重項をもつ変分量子回路における不等式制約

Inequality constraints in variational quantum circuits with qudits ( http://arxiv.org/abs/2410.07674v1 )

ライセンス: Link先を確認
Alberto Bottarelli, Sebastian Schmitt, Philipp Hauke, (参考訳) 量子最適化は、短期量子デバイスの能力を利用するための重要な候補として浮上している。 多くのアプリケーション関連最適化タスクは不等式制約を含まなければならないが、通常はスラック変数の追加によってヒルベルト空間を拡大することによって処理される。 しかし、このアプローチは、特に複数の制約を考慮する場合、重要な追加リソースを必要とします。 そこで本研究では,qudit-SUMゲートを用いて実現したQAOAアルゴリズムにおいて,これらの制約の代替的な直接的実装について検討し,これをキューディットに一般化したスラック変数法と比較する。 3つのパラダイム最適化問題にこれらのアプローチをベンチマークする。 不平等な罰則の直接的実装はスラック変数法を著しく上回り、特に実世界において多くの制約を課した問題を研究する場合に顕著である。 直接ペナルティの実施において、不可能な状態に対する線形エネルギーペナルティは、正準二次ペナルティのような他の研究された機能形態よりも優れている。 したがって、提案手法は、多くの不等式制約を伴う現実的な産業規模および基礎科学問題へのアプローチを可能にするステップとなるかもしれない。

Quantum optimization is emerging as a prominent candidate for exploiting the capabilities of near-term quantum devices. Many application-relevant optimization tasks require the inclusion of inequality constraints, usually handled by enlarging the Hilbert space through the addition of slack variables. This approach, however, requires significant additional resources especially when considering multiple constraints. Here, we study an alternative direct implementation of these constraints within the QAOA algorithm, achieved using qudit-SUM gates, and compare it to the slack variable method generalized to qudits. We benchmark these approaches on three paradigmatic optimization problems. We find that the direct implementation of the inequality penalties vastly outperforms the slack variables method, especially when studying real-world inspired problems with many constraints. Within the direct penalty implementation, a linear energy penalty for unfeasible states outperforms other investigated functional forms, such as the canonical quadratic penalty. The proposed approach may thus be an enabling step for approaching realistic industry-scale and fundamental science problems with large numbers of inequality constraints.
翻訳日:2024-10-31 15:36:27 公開日:2024-10-10
# TRADESにおける対向ロバスト性過大評価と不安定性

Adversarial Robustness Overestimation and Instability in TRADES ( http://arxiv.org/abs/2410.07675v1 )

ライセンス: Link先を確認
Jonathan Weiping Li, Ren-Wei Liang, Cheng-Han Yeh, Cheng-Chang Tsai, Kuanchun Yu, Chun-Shien Lu, Shang-Tse Chen, (参考訳) 本稿では,TRADESにおける確率的ロバスト性過大評価(probabilistic robustness overestation)の現象について検討する。 本研究により,TRADES は多クラス分類タスクにおける AutoAttack テストの精度に比べ,PGD の検証精度が極めて高いことが判明した。 この矛盾は、勾配マスキングに結びつく可能性のある、これらのインスタンスに対するロバストネスのかなりの過大評価を浮き彫りにする。 さらに、過大評価につながる不安定なモデルに寄与するパラメータを解析する。 以上の結果から,より小さいバッチサイズ,低いベータ値(TRADESのロバスト損失項の重みを制御),より大きい学習率,高いクラス複雑性(CIFAR-100対CIFAR-10)は,強靭性過大評価の可能性が高くなることが示唆された。 第一次定常条件(FOSC)、内最大化、勾配情報などの指標を調べることにより、この現象の根本原因を勾配マスキングとして同定し、その知見を提供する。 さらに,実験結果から,不安定なトレーニングインスタンスが過大評価を伴わずに状態に戻る可能性を示し,ソリューションへの試みを刺激する。 FOSCスコアがしきい値を超えた場合,パラメータ設定を調整し,過大評価時の不安定性や再トレーニングを低減することに加えて,入力にガウスノイズを取り入れることを推奨する。 本手法は,TRADESと他の類似手法のソースにおけるロバスト性過大評価を緩和し,評価中の対向ロバスト性をより確実に表現することを目的としている。

This paper examines the phenomenon of probabilistic robustness overestimation in TRADES, a prominent adversarial training method. Our study reveals that TRADES sometimes yields disproportionately high PGD validation accuracy compared to the AutoAttack testing accuracy in the multiclass classification task. This discrepancy highlights a significant overestimation of robustness for these instances, potentially linked to gradient masking. We further analyze the parameters contributing to unstable models that lead to overestimation. Our findings indicate that smaller batch sizes, lower beta values (which control the weight of the robust loss term in TRADES), larger learning rates, and higher class complexity (e.g., CIFAR-100 versus CIFAR-10) are associated with an increased likelihood of robustness overestimation. By examining metrics such as the First-Order Stationary Condition (FOSC), inner-maximization, and gradient information, we identify the underlying cause of this phenomenon as gradient masking and provide insights into it. Furthermore, our experiments show that certain unstable training instances may return to a state without robust overestimation, inspiring our attempts at a solution. In addition to adjusting parameter settings to reduce instability or retraining when overestimation occurs, we recommend incorporating Gaussian noise in inputs when the FOSC score exceed the threshold. This method aims to mitigate robustness overestimation of TRADES and other similar methods at its source, ensuring more reliable representation of adversarial robustness during evaluation.
翻訳日:2024-10-31 15:36:27 公開日:2024-10-10
# LLMを利用したスマート監査システム

Smart Audit System Empowered by LLM ( http://arxiv.org/abs/2410.07677v1 )

ライセンス: Link先を確認
Xu Yao, Xiaoxu Wu, Xi Li, Huan Xu, Chenlei Li, Ping Huang, Si Li, Xiaoning Ma, Jiulong Shan, (参考訳) 製造品質監査は大量生産環境における高い製品基準の確保に不可欠である。 しかし、従来の監査プロセスは労働集約的で、人間の専門知識に依存しており、透明性、説明責任、複雑なグローバルサプライチェーン全体の継続的な改善を維持する上での課題を提起している。 これらの課題に対処するために,大規模言語モデル(LLM)によって強化されたスマート監査システムを提案する。 提案手法では, 監査手順の合理化と資源配分の最適化を行う動的リスク評価モデル, 自己進化型製造知識ベースのためのデータ処理, 検索, 評価を強化する製造コンプライアンスコミッション, リアルタイムでカスタマイズされた分析を提供するRe-actフレームワーク共通性分析エージェントの3つのイノベーションを紹介する。 これらの改善により、監査効率と効率が向上し、テストシナリオでは24%以上の改善が示されている。

Manufacturing quality audits are pivotal for ensuring high product standards in mass production environments. Traditional auditing processes, however, are labor-intensive and reliant on human expertise, posing challenges in maintaining transparency, accountability, and continuous improvement across complex global supply chains. To address these challenges, we propose a smart audit system empowered by large language models (LLMs). Our approach introduces three innovations: a dynamic risk assessment model that streamlines audit procedures and optimizes resource allocation; a manufacturing compliance copilot that enhances data processing, retrieval, and evaluation for a self-evolving manufacturing knowledge base; and a Re-act framework commonality analysis agent that provides real-time, customized analysis to empower engineers with insights for supplier improvement. These enhancements elevate audit efficiency and effectiveness, with testing scenarios demonstrating an improvement of over 24%.
翻訳日:2024-10-31 15:36:27 公開日:2024-10-10
# FedEP: 分散化フェデレーション学習のためのエントロピープールによる異種データ分散への注意

FedEP: Tailoring Attention to Heterogeneous Data Distribution with Entropy Pooling for Decentralized Federated Learning ( http://arxiv.org/abs/2410.07678v1 )

ライセンス: Link先を確認
Chao Feng, Hongjie Guan, Alberto Huertas Celdrán, Jan von der Assen, Gérôme Bovet, Burkhard Stiller, (参考訳) フェデレートラーニング(FL)のパフォーマンスは、クライアント間のデータ分散の影響を強く受けており、非独立性およびIdentically Distributed(非IID)は、グローバルモデルの緩やかな収束とモデルの有効性の低下につながる。 非IID問題を解決するための既存のアルゴリズムは、モデル集約に中央サーバを使用する従来の集中型FL(CFL)に焦点を当てている。 しかし、分散FL(DFL)では、ノードは連合の全体像を欠いている。 DFLにおける非IID問題に対処するために、新しいDFL集約アルゴリズムであるフェデレートエントロピープール(FedEP)を提案する。 FedEPは、実際のデータではなく、局所分布の統計特性を取り入れることで、クライアントのドリフト問題を緩和する。 訓練前,各クライアントはガウス混合モデル(GMM)を用いて局所分布フィッティングを行い,その統計特性を近隣のクライアントと共有する。 近隣住民が共有する統計特性を受信した後、各ノードはグローバルなデータ分布に適合させようとする。 集約フェーズでは、各ノードは、適合したグローバルデータ分布上のローカルデータ分布のKL(Kullback-Leibler)分散を計算し、集約されたモデルを生成する重みを与える。 大規模な実験により、FedEPはより高速な収束を実現し、最先端のアプローチよりも高いテスト性能を示すことが示されている。

Federated Learning (FL) performance is highly influenced by data distribution across clients, and non-Independent and Identically Distributed (non-IID) leads to a slower convergence of the global model and a decrease in model effectiveness. The existing algorithms for solving the non-IID problem are focused on the traditional centralized FL (CFL), where a central server is used for model aggregation. However, in decentralized FL (DFL), nodes lack the overall vision of the federation. To address the non-IID problem in DFL, this paper proposes a novel DFL aggregation algorithm, Federated Entropy Pooling (FedEP). FedEP mitigates the client drift problem by incorporating the statistical characteristics of local distributions instead of any actual data. Prior to training, each client conducts a local distribution fitting using a Gaussian Mixture Model (GMM) and shares the resulting statistical characteristics with its neighbors. After receiving the statistical characteristics shared by its neighbors, each node tries to fit the global data distribution. In the aggregation phase, each node calculates the Kullback-Leibler (KL) divergences of the local data distribution over the fitted global data distribution, giving the weights to generate the aggregated model. Extensive experiments have demonstrated that FedEP can achieve faster convergence and show higher test performance than state-of-the-art approaches.
翻訳日:2024-10-31 15:36:27 公開日:2024-10-10
# 構造密度推定における次元性の呪いを破る

Breaking the curse of dimensionality in structured density estimation ( http://arxiv.org/abs/2410.07685v1 )

ライセンス: Link先を確認
Robert A. Vandermeulen, Wai Ming Tai, Bryon Aragam, (参考訳) 我々は,無向グラフで示されるマルコフ条件の下で,構造化多変量密度を推定する問題を考察する。 最悪の場合、マルコフの仮定がなければ、この問題は次元の呪いに悩まされる。 我々の主な結果は、マルコフの性質の下で次元性の呪いが避けられるか、あるいは大幅に緩和されるかを示し、任意のグラフに適用する。 これらの線に沿った既存の結果は、空間性や多様体の仮定に焦点が当てられているが、我々は「グラフレジリエンス」と呼ばれる新しいグラフィカルな量を導入し、それがサンプルの複雑さを制御する方法を示している。 驚くべきことに、この問題のサンプルの複雑さは、度数などの局所グラフパラメータとスケールすると予想されるかもしれないが、そうではないことが判明した。 明示的な例を通して、均一な偏差境界を計算し、密度推定における次元性の呪いを回避できることを示す。 顕著な例としては、シーケンシャル、階層、空間データがある。

We consider the problem of estimating a structured multivariate density, subject to Markov conditions implied by an undirected graph. In the worst case, without Markovian assumptions, this problem suffers from the curse of dimensionality. Our main result shows how the curse of dimensionality can be avoided or greatly alleviated under the Markov property, and applies to arbitrary graphs. While existing results along these lines focus on sparsity or manifold assumptions, we introduce a new graphical quantity called "graph resilience" and show how it controls the sample complexity. Surprisingly, although one might expect the sample complexity of this problem to scale with local graph parameters such as the degree, this turns out not to be the case. Through explicit examples, we compute uniform deviation bounds and illustrate how the curse of dimensionality in density estimation can thus be circumvented. Notable examples where the rate improves substantially include sequential, hierarchical, and spatial data.
翻訳日:2024-10-31 15:36:27 公開日:2024-10-10
# 圧縮学習:ディープニューラルネットワークにおける局所ランクと情報圧縮

Learning to Compress: Local Rank and Information Compression in Deep Neural Networks ( http://arxiv.org/abs/2410.07687v1 )

ライセンス: Link先を確認
Niket Patel, Ravid Shwartz-Ziv, (参考訳) ディープニューラルネットワークは、トレーニング中に低次元の特徴表現を暗黙的に学習する、低ランクなソリューションに対するバイアスを示す傾向がある。 本稿では,これらの特徴多様体を多層パーセプトロン (MLP) でエンコードし,その挙動をインフォメーション・ボトルネック (IB) 理論に結びつける方法について検討する。 特徴多様体次元の尺度として局所階乗の概念を導入し、理論上も経験的にも、この階乗は訓練の最終段階の間に減少することを示した。 学習した表現のランクを下げるネットワークは、入力層と中間層の間の相互情報を圧縮する。 この研究は特徴多様体のランクと情報圧縮のギャップを埋め、情報ボトルネックと表現学習の間の相互作用に関する新たな洞察を提供する。

Deep neural networks tend to exhibit a bias toward low-rank solutions during training, implicitly learning low-dimensional feature representations. This paper investigates how deep multilayer perceptrons (MLPs) encode these feature manifolds and connects this behavior to the Information Bottleneck (IB) theory. We introduce the concept of local rank as a measure of feature manifold dimensionality and demonstrate, both theoretically and empirically, that this rank decreases during the final phase of training. We argue that networks that reduce the rank of their learned representations also compress mutual information between inputs and intermediate layers. This work bridges the gap between feature manifold rank and information compression, offering new insights into the interplay between information bottlenecks and representation learning.
翻訳日:2024-10-31 15:36:27 公開日:2024-10-10
# PokeFlex:ロボットのための変形可能なオブジェクトのリアルタイムデータセット

PokeFlex: A Real-World Dataset of Deformable Objects for Robotics ( http://arxiv.org/abs/2410.07688v1 )

ライセンス: Link先を確認
Jan Obrist, Miguel Zamora, Hehui Zheng, Ronan Hinchet, Firat Ozdemir, Juan Zarate, Robert K. Katzschmann, Stelian Coros, (参考訳) データ駆動の手法は、難しい操作タスクを解決する大きな可能性を示しているが、デフォルム可能なオブジェクトの領域におけるそれらの応用は、部分的にはデータの欠如によって制限されている。 これを解決するために,3次元テクスチャメッシュ,ポイントクラウド,RGBイメージ,奥行きマップを含む,実世界のペアと注釈付きマルチモーダルデータを備えたデータセットであるPokeFlexを提案する。 このようなデータは、オンライン3Dメッシュ再構成など、いくつかのダウンストリームタスクに利用することができ、メッシュシミュレーションに基づいた従来のコントロールメソッドの現実的なデプロイのような、未探索のアプリケーションを可能にする可能性がある。 実世界の3Dメッシュ再構築がもたらす課題に対処するために,360{\deg}の完全な再構築を可能にする,プロのボリュームキャプチャシステムを活用している。 PokeFlexは18個の変形可能なオブジェクトで構成されており、剛性や形状は様々である。 変形は、物体を平らな表面に落下させたり、ロボットアームで物体を突っ込んだりして起こる。 後者の場合、相互作用力とトルクも報告される。 異なるデータモダリティを用いて、オンライン3Dメッシュ再構築におけるPokeFlexデータセットのユースケースを実演した。 当社のデータセットのデモと例については、Webサイト(https://pokeflex-dataset.github.io/)を参照してください。

Data-driven methods have shown great potential in solving challenging manipulation tasks, however, their application in the domain of deformable objects has been constrained, in part, by the lack of data. To address this, we propose PokeFlex, a dataset featuring real-world paired and annotated multimodal data that includes 3D textured meshes, point clouds, RGB images, and depth maps. Such data can be leveraged for several downstream tasks such as online 3D mesh reconstruction, and it can potentially enable underexplored applications such as the real-world deployment of traditional control methods based on mesh simulations. To deal with the challenges posed by real-world 3D mesh reconstruction, we leverage a professional volumetric capture system that allows complete 360{\deg} reconstruction. PokeFlex consists of 18 deformable objects with varying stiffness and shapes. Deformations are generated by dropping objects onto a flat surface or by poking the objects with a robot arm. Interaction forces and torques are also reported for the latter case. Using different data modalities, we demonstrated a use case for the PokeFlex dataset in online 3D mesh reconstruction. We refer the reader to our website ( https://pokeflex-dataset.github.io/ ) for demos and examples of our dataset.
翻訳日:2024-10-31 15:36:27 公開日:2024-10-10
# 小型トラックが不十分な場合-CCTV下水道検査におけるノイズラベルを用いたマルチラベル画像分類

When the Small-Loss Trick is Not Enough: Multi-Label Image Classification with Noisy Labels Applied to CCTV Sewer Inspections ( http://arxiv.org/abs/2410.07689v1 )

ライセンス: Link先を確認
Keryan Chelouche, Marie Lachaize, Marine Bernard, Louise Olgiati, Remi Cuingnet, (参考訳) 下水道網の維持は、数百万キロのパイプで、効率的な閉鎖回路テレビ(CCTV)検査に大きく依存している。 多ラベル画像分類に基づく多くの有望なアプローチは、これらの検査を自動化するために、過去の検査レポートのデータベースを活用している。 しかし、これらのデータベースにラベルノイズが存在することは知られているが、未解決である。 シングルラベル分類(SLC)におけるラベルノイズの問題を広範囲に研究してきたが、マルチラベル分類(MLC)におけるラベルノイズにはほとんど注意が払われていない。 そこで我々はまず3つのサンプル選択SLC法(Co-Teaching, CoSELFIE, DISC)を適応させた。 以上の結果より,小さめのトリックのみに基づくサンプル選択は,複雑なラベルノイズを扱えるが,準最適であることがわかった。 混成試料選択法を雑音性LCCに適用することは, より有望なアプローチと考えられる。 そこで我々は,CoSELFIEに基づくMHSS(Multi-label Hybrid Sample Selection)という新しい手法を開発した。 本研究は, 合成複合雑音と実雑音の両面において, 本手法の優れた性能を実証し, CCTV下水道管検査を効果的に自動化するための継続的な取り組みに寄与した。

The maintenance of sewerage networks, with their millions of kilometers of pipe, heavily relies on efficient Closed-Circuit Television (CCTV) inspections. Many promising approaches based on multi-label image classification have leveraged databases of historical inspection reports to automate these inspections. However, the significant presence of label noise in these databases, although known, has not been addressed. While extensive research has explored the issue of label noise in singlelabel classification (SLC), little attention has been paid to label noise in multi-label classification (MLC). To address this, we first adapted three sample selection SLC methods (Co-teaching, CoSELFIE, and DISC) that have proven robust to label noise. Our findings revealed that sample selection based solely on the small-loss trick can handle complex label noise, but it is sub-optimal. Adapting hybrid sample selection methods to noisy MLC appeared to be a more promising approach. In light of this, we developed a novel method named MHSS (Multi-label Hybrid Sample Selection) based on CoSELFIE. Through an in-depth comparative study, we demonstrated the superior performance of our approach in dealing with both synthetic complex noise and real noise, thus contributing to the ongoing efforts towards effective automation of CCTV sewer pipe inspections.
翻訳日:2024-10-31 15:25:43 公開日:2024-10-10
# エッジ上の効率的な精度とロバストニューラルネットワークの育成

Growing Efficient Accurate and Robust Neural Networks on the Edge ( http://arxiv.org/abs/2410.07691v1 )

ライセンス: Link先を確認
Vignesh Sundaresha, Naresh Shanbhag, (参考訳) リソース制約のあるエッジデバイスへのディープラーニングシステムのユビキタス展開は、その脆弱さと、アウト・オブ・ディストリビューション(OOD)データ、特に自然に発生する一般的な汚職に結びついた高い計算複雑性によって妨げられている。 現在のソリューションは、Edgeにデプロイする前にモデルをトレーニングし、圧縮するためにCloudに依存しています。 これにより、ローカルに取得したフィールドデータをクラウドに送信する上で、高エネルギとレイテンシのコストが発生すると同時に、プライバシの懸念も高まる。 GEARnn(Growing Efficient, Accurate, Robust Neural Network)を提案する。 低複雑さの初期バックボーンネットワークから始めると、GEARnnはOne-Shot Growth (OSG)を使用して、クリーンデータを使用してエッジデバイスのメモリ制約を満たすネットワークを成長させ、効率的なロバスト拡張(ERA)を使用してネットワークを堅牢化し、最終的なネットワークを得る。 NVIDIA Jetson Xavier NXでの結果を示し、精度、堅牢性、モデルサイズ、エネルギー消費、トレーニング時間の間のトレードオフを分析する。 この結果から,Edgeデバイス上での効率的で正確で堅牢なネットワークの構築が実証された。

The ubiquitous deployment of deep learning systems on resource-constrained Edge devices is hindered by their high computational complexity coupled with their fragility to out-of-distribution (OOD) data, especially to naturally occurring common corruptions. Current solutions rely on the Cloud to train and compress models before deploying to the Edge. This incurs high energy and latency costs in transmitting locally acquired field data to the Cloud while also raising privacy concerns. We propose GEARnn (Growing Efficient, Accurate, and Robust neural networks) to grow and train robust networks in-situ, i.e., completely on the Edge device. Starting with a low-complexity initial backbone network, GEARnn employs One-Shot Growth (OSG) to grow a network satisfying the memory constraints of the Edge device using clean data, and robustifies the network using Efficient Robust Augmentation (ERA) to obtain the final network. We demonstrate results on a NVIDIA Jetson Xavier NX, and analyze the trade-offs between accuracy, robustness, model size, energy consumption, and training time. Our results demonstrate the construction of efficient, accurate, and robust networks entirely on an Edge device.
翻訳日:2024-10-31 15:25:43 公開日:2024-10-10
# コンテンツ品質評価のための多面対物学習

Multi-Facet Counterfactual Learning for Content Quality Evaluation ( http://arxiv.org/abs/2410.07693v1 )

ライセンス: Link先を確認
Jiasheng Zheng, Hongyu Lin, Boxi Cao, Meng Liao, Yaojie Lu, Xianpei Han, Le Sun, (参考訳) ドキュメントの品質を評価することは、現在の膨大な情報から貴重なコンテンツをフィルタリングするのに不可欠である。 従来のアプローチでは、コンテンツ品質評価器を訓練するための監督信号として、1つのスコアを頼りにしており、複数の面にわたる品質変化のある文書を区別するには不十分である。 本稿では,コンテンツ品質評価の複数の面を知覚する評価器を効率的に構築するフレームワークであるMOLE(Multi-facet cOunterfactual LEarning)を提案する。 特定のシナリオを前提として,我々は大規模言語モデルに対して,原文書と比較して重要な品質面のバリエーションを示す反事実コンテンツを生成するよう促す。 さらに、コントラスト学習と教師付き学習に基づく共同学習戦略を活用し、評価者が異なる品質の面を区別できるようにし、コンテンツ品質スコアをより正確に予測する。 異なるシナリオにまたがる2つのデータセットの実験結果から,提案するMOLEフレームワークは,文書品質評価と人的判断との相関性を効果的に改善し,効果的な情報取得のための有用なツールキットとして機能することを示した。

Evaluating the quality of documents is essential for filtering valuable content from the current massive amount of information. Conventional approaches typically rely on a single score as a supervision signal for training content quality evaluators, which is inadequate to differentiate documents with quality variations across multiple facets. In this paper, we propose Multi-facet cOunterfactual LEarning (MOLE), a framework for efficiently constructing evaluators that perceive multiple facets of content quality evaluation. Given a specific scenario, we prompt large language models to generate counterfactual content that exhibits variations in critical quality facets compared to the original document. Furthermore, we leverage a joint training strategy based on contrastive learning and supervised learning to enable the evaluator to distinguish between different quality facets, resulting in more accurate predictions of content quality scores. Experimental results on 2 datasets across different scenarios demonstrate that our proposed MOLE framework effectively improves the correlation of document content quality evaluations with human judgments, which serve as a valuable toolkit for effective information acquisition.
翻訳日:2024-10-31 15:25:43 公開日:2024-10-10
# 予算制限アルゴリズム選択のための学習曲線からのメタラーニング

Meta-Learning from Learning Curves for Budget-Limited Algorithm Selection ( http://arxiv.org/abs/2410.07696v1 )

ライセンス: Link先を確認
Manh Hung Nguyen, Lisheng Sun-Hosoya, Isabelle Guyon, (参考訳) データセットのベストパフォーマンスアルゴリズムを選択するために、機械学習アルゴリズムの大規模なセットを収束させる訓練は、計算的に無駄である。 さらに、予算限定のシナリオでは、アルゴリズム候補を慎重に選択し、訓練のための予算を割り当てることが重要であり、限られた予算が最適に分散され、最も有望な候補を優先することが保証される。 本稿では,この問題をマルコフ決定過程とみなして,エージェントが十分に訓練されるまで待たずに,最も有望なアルゴリズムを学習する過程において,エージェントが選択しなければならない新しい枠組みを提案する。 各ステップにおいて、アルゴリズムの部分的な学習曲線を観察すると、エージェントは最も有望なアルゴリズム(探索)をトレーニングするためにリソースを割り当てるか、以前睡眠にかけた別のアルゴリズムを起動するか、新しいアルゴリズム(探索)のトレーニングを開始するかを決定する必要がある。 さらに,我々のフレームワークは,過去のデータセットの学習曲線から,データセットのメタ機能やアルゴリズムのハイパーパラメータとともにメタ学習を可能にする。 メタラーニングを取り入れることで、手元にあるデータセットの未熟な学習曲線のみに基づく筋電図決定を避けることを目指している。 我々は、WCCI'22とAutoML-conf'22の国際競争で機能する学習曲線のベンチマークを2つ導入し、その結果を分析した。 以上の結果から,メタラーニングと学習曲線の進行は,アルゴリズムの選択過程を,ヒューリスティックベースラインやランダムサーチと比較して,勝利チームとDDQNベースラインの手法によって証明されているように促進することがわかった。 興味深いことに、学習曲線が頻繁に交わらない場合に、最小の予算で最高の性能のアルゴリズムを選択するコスト効率のベースラインを適切に実行することができる。

Training a large set of machine learning algorithms to convergence in order to select the best-performing algorithm for a dataset is computationally wasteful. Moreover, in a budget-limited scenario, it is crucial to carefully select an algorithm candidate and allocate a budget for training it, ensuring that the limited budget is optimally distributed to favor the most promising candidates. Casting this problem as a Markov Decision Process, we propose a novel framework in which an agent must select in the process of learning the most promising algorithm without waiting until it is fully trained. At each time step, given an observation of partial learning curves of algorithms, the agent must decide whether to allocate resources to further train the most promising algorithm (exploitation), to wake up another algorithm previously put to sleep, or to start training a new algorithm (exploration). In addition, our framework allows the agent to meta-learn from learning curves on past datasets along with dataset meta-features and algorithm hyperparameters. By incorporating meta-learning, we aim to avoid myopic decisions based solely on premature learning curves on the dataset at hand. We introduce two benchmarks of learning curves that served in international competitions at WCCI'22 and AutoML-conf'22, of which we analyze the results. Our findings show that both meta-learning and the progression of learning curves enhance the algorithm selection process, as evidenced by methods of winning teams and our DDQN baseline, compared to heuristic baselines or a random search. Interestingly, our cost-effective baseline, which selects the best-performing algorithm w.r.t. a small budget, can perform decently when learning curves do not intersect frequently.
翻訳日:2024-10-31 15:25:43 公開日:2024-10-10
# 低ランク構造をもつ言語モデルに対するゼロ階ファインチューニングの強化

Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures ( http://arxiv.org/abs/2410.07698v1 )

ライセンス: Link先を確認
Yiming Chen, Yuan Zhang, Liyuan Cao, Kun Yuan, Zaiwen Wen, (参考訳) パラメータ効率のよい微調整(PEFT)は、下流アプリケーションに大規模言語モデル(LLM)を適用する際のメモリコストを大幅に削減する。 しかし、従来の1次微調整アルゴリズムは、特に長いコンテキストの微調整タスクにおいて、勾配計算中にバックプロパゲーションのアクティベーション値を格納する必要があるため、かなりのメモリオーバーヘッドを引き起こす。 ゼロオーダー(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、アクティベーションストレージを不要にすることで、有望な代替手段を提供する。 それでも、既存のZO法は、LLM微調整に共通する低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。 本稿では、低ランクZO勾配推定器を提案し、この構造をLLMで効果的に捉える新しい低ランクZOアルゴリズム(LOZO)を提案する。 サブスペース最適化法としてフレーミングすることで,LOZOの収束保証を提供する。 さらに、ローランクな性質により、LOZOは、無視できる余分なメモリコストを発生させながら、運動量技術と統合することができる。 様々なモデルサイズおよび下流タスクにわたる大規模な実験により、LOZOとその運動量に基づく変種は既存のZO法より優れ、FOアルゴリズムの性能に近づいた。

Parameter-efficient fine-tuning (PEFT) significantly reduces memory costs when adapting large language models (LLMs) for downstream applications. However, traditional first-order (FO) fine-tuning algorithms incur substantial memory overhead due to the need to store activation values for back-propagation during gradient computation, particularly in long-context fine-tuning tasks. Zeroth-order (ZO) algorithms offer a promising alternative by approximating gradients using finite differences of function values, thus eliminating the need for activation storage. Nevertheless, existing ZO methods struggle to capture the low-rank gradient structure common in LLM fine-tuning, leading to suboptimal performance. This paper proposes a low-rank ZO gradient estimator and introduces a novel low-rank ZO algorithm (LOZO) that effectively captures this structure in LLMs. We provide convergence guarantees for LOZO by framing it as a subspace optimization method. Additionally, its low-rank nature enables LOZO to integrate with momentum techniques while incurring negligible extra memory costs. Extensive experiments across various model sizes and downstream tasks demonstrate that LOZO and its momentum-based variant outperform existing ZO methods and closely approach the performance of FO algorithms.
翻訳日:2024-10-31 15:25:43 公開日:2024-10-10
# 学習と最適化における収束の一般化結果

A Generalization Result for Convergence in Learning-to-Optimize ( http://arxiv.org/abs/2410.07704v1 )

ライセンス: Link先を確認
Michael Sucker, Peter Ochs, (参考訳) 従来の収束保証は幾何学的引数に基づいており、学習アルゴリズムに容易に適用できないため、学習と最適化の収束についてはほとんど研究されていない。 そこで我々は、決定論的最適化に類似した確率的フレームワークを開発し、幾何学的引数を学習から最適化へ転送することを可能にする。 我々の主定理は、潜在的に非滑らかで非凸な損失関数のパラメトリック類に対する一般化結果であり、学習された最適化アルゴリズムを高い確率で定常点に収束させる。 これは、収束を保証するための幾何学的安全ガードの使用と統計的に相反すると見なすことができる。 我々の知る限りでは、このような確率的フレームワークで最適化アルゴリズムの収束を証明するのはこれが初めてである。

Convergence in learning-to-optimize is hardly studied, because conventional convergence guarantees in optimization are based on geometric arguments, which cannot be applied easily to learned algorithms. Thus, we develop a probabilistic framework that resembles deterministic optimization and allows for transferring geometric arguments into learning-to-optimize. Our main theorem is a generalization result for parametric classes of potentially non-smooth, non-convex loss functions and establishes the convergence of learned optimization algorithms to stationary points with high probability. This can be seen as a statistical counterpart to the use of geometric safeguards to ensure convergence. To the best of our knowledge, we are the first to prove convergence of optimization algorithms in such a probabilistic framework.
翻訳日:2024-10-31 15:25:43 公開日:2024-10-10
# AgentBank:50000以上のインタラクショントラジェクトリのファインチューニングによる汎用LDMエージェントを目指して

AgentBank: Towards Generalized LLM Agents via Fine-Tuning on 50000+ Interaction Trajectories ( http://arxiv.org/abs/2410.07706v1 )

ライセンス: Link先を確認
Yifan Song, Weimin Xiong, Xiutian Zhao, Dawei Zhu, Wenhao Wu, Ke Wang, Cheng Li, Wei Peng, Sujian Li, (参考訳) エージェント-環境相互作用トラジェクトリデータの微調整は、オープンソースの大規模言語モデル(LLMs)において、汎用エージェント機能を克服する上で大きな可能性を秘めている。 本稿では,5つのエージェントスキル次元をカバーする16のタスクからなる50万以上の多種多様な対話トラジェクトリを特徴とする,これまでで最大のトラジェクトリチューニングデータ収集であるエージェントバンクを紹介する。 新たなアノテーションパイプラインを利用することで、注釈付きトラジェクトリをスケールし、難易度バイアスを最小限に抑えたトラジェクトリデータセットを生成することができる。 さらに、エージェントバンクにLSMを微調整して、一連のエージェントモデルを取得する、とSamoyed氏は言う。 比較実験では, 汎用エージェント能力を得るために, 相互作用軌跡データのスケーリングの有効性を実証した。 追加の研究では、軌道のチューニングとエージェントスキルの一般化に関する重要な観測も明らかにされている。

Fine-tuning on agent-environment interaction trajectory data holds significant promise for surfacing generalized agent capabilities in open-source large language models (LLMs). In this work, we introduce AgentBank, by far the largest trajectory tuning data collection featuring more than 50k diverse high-quality interaction trajectories which comprises 16 tasks covering five distinct agent skill dimensions. Leveraging a novel annotation pipeline, we are able to scale the annotated trajectories and generate a trajectory dataset with minimized difficulty bias. Furthermore, we fine-tune LLMs on AgentBank to get a series of agent models, Samoyed. Our comparative experiments demonstrate the effectiveness of scaling the interaction trajectory data to acquire generalized agent capabilities. Additional studies also reveal some key observations regarding trajectory tuning and agent skill generalization.
翻訳日:2024-10-31 15:25:43 公開日:2024-10-10
# MotionGS: 変形可能な3Dガウススプレイティングのための明示的なモーションガイダンス

MotionGS: Exploring Explicit Motion Guidance for Deformable 3D Gaussian Splatting ( http://arxiv.org/abs/2410.07707v1 )

ライセンス: Link先を確認
Ruijie Zhu, Yanzhe Liang, Hanzhi Chang, Jiacheng Deng, Jiahao Lu, Wenfei Yang, Tianzhu Zhang, Yongdong Zhang, (参考訳) 動的シーン再構築は3次元視覚の分野での長期的な課題である。 近年,3次元ガウス散乱の出現は,この問題に対する新たな洞察を与えている。 その後の取り組みは静的な3Dガウスをダイナミックなシーンに急速に拡張するが、オブジェクトの動きに対する明示的な制約を欠くことが多く、最適化の困難とパフォーマンスの低下につながった。 以上の課題に対処するために, 3次元ガウスの変形を導くために, 運動センサスと呼ばれる新しい変形可能な3次元ガウススプレイティングフレームワークを提案する。 具体的には、まず、カメラの動きと物体の動きに応じて、光学フローをカメラフローとモーションフローに分離する光フローデカップリングモジュールを導入する。 すると、運動フローは3次元ガウスの変形を効果的に抑制し、動的物体の運動をシミュレートすることができる。 さらに、3Dガウスとカメラポーズを交互に最適化し、不正確なカメラポーズの影響を軽減するために、カメラポーズリファインメントモジュールを提案する。 モノキュラーダイナミックシーンにおける大規模な実験は、MotionGSが最先端の手法を超越し、質的および定量的な結果の両方において大きな優位性を示すことを証明している。 プロジェクトページ:https://ruijiezhu94.github.io/MotionGS_page

Dynamic scene reconstruction is a long-term challenge in the field of 3D vision. Recently, the emergence of 3D Gaussian Splatting has provided new insights into this problem. Although subsequent efforts rapidly extend static 3D Gaussian to dynamic scenes, they often lack explicit constraints on object motion, leading to optimization difficulties and performance degradation. To address the above issues, we propose a novel deformable 3D Gaussian splatting framework called MotionGS, which explores explicit motion priors to guide the deformation of 3D Gaussians. Specifically, we first introduce an optical flow decoupling module that decouples optical flow into camera flow and motion flow, corresponding to camera movement and object motion respectively. Then the motion flow can effectively constrain the deformation of 3D Gaussians, thus simulating the motion of dynamic objects. Additionally, a camera pose refinement module is proposed to alternately optimize 3D Gaussians and camera poses, mitigating the impact of inaccurate camera poses. Extensive experiments in the monocular dynamic scenes validate that MotionGS surpasses state-of-the-art methods and exhibits significant superiority in both qualitative and quantitative results. Project page: https://ruijiezhu94.github.io/MotionGS_page
翻訳日:2024-10-31 15:25:43 公開日:2024-10-10
# 木パターン変換の学習

Learning Tree Pattern Transformations ( http://arxiv.org/abs/2410.07708v1 )

ライセンス: Link先を確認
Daniel Neider, Leif Sabellek, Johannes Schmidt, Fabian Vehlken, Thomas Zeume, (参考訳) ツリー$t$が他のツリー$t^*$と構造的に異なる理由と理由を説明することは、XMLやJSONデータなどのツリー構造化データを理解することを含む、コンピュータ科学で遭遇する問題である。 本稿では、サンプルデータから、一対の木の構造的差異に関する説明を学べる方法について考察する: 集合 $\{(t_1, t_1^*),\dots, (t_n, t_n^*)\} ラベル付き順序付けられた木の対の値が与えられたとき、すべてのペア間の構造的差異を説明するルールの小さなセットが存在するか? これは2つの研究課題を提起する。 (i)この文脈で「ルール」というよい概念は何か。 ;そして (ii)データセットを説明するルールの集合をアルゴリズム的に学習するにはどうすればよいのか? 本稿では,(1)木木変換のためのパターンベース仕様言語の導入,(2)アルゴリズム上の問題の変種に対する計算複雑性の探索,(3)高度に制限された変種に対するNP硬度を示す,(3)SATソルバを用いたCS教育研究のデータ問題の解法について議論する。

Explaining why and how a tree $t$ structurally differs from another tree $t^*$ is a question that is encountered throughout computer science, including in understanding tree-structured data such as XML or JSON data. In this article, we explore how to learn explanations for structural differences between pairs of trees from sample data: suppose we are given a set $\{(t_1, t_1^*),\dots, (t_n, t_n^*)\}$ of pairs of labelled, ordered trees; is there a small set of rules that explains the structural differences between all pairs $(t_i, t_i^*)$? This raises two research questions: (i) what is a good notion of "rule" in this context?; and (ii) how can sets of rules explaining a data set be learnt algorithmically? We explore these questions from the perspective of database theory by (1) introducing a pattern-based specification language for tree transformations; (2) exploring the computational complexity of variants of the above algorithmic problem, e.g. showing NP-hardness for very restricted variants; and (3) discussing how to solve the problem for data from CS education research using SAT solvers.
翻訳日:2024-10-31 15:25:43 公開日:2024-10-10
# バウンシングボールスカーの形成, 普及, 安定性

Formation, Prevalence and Stability of Bouncing-Ball Scars ( http://arxiv.org/abs/2410.07709v1 )

ライセンス: Link先を確認
Simo Selinummi, Joonas Keski-Rahkonen, Fartash Chalangari, Esa Räsänen, (参考訳) 量子傷は不安定な古典周期軌道に沿った高密度の確率密度に対応する。 近年、量子障害の研究は多体状態を含む様々なシステムに拡張されている。 本研究では,2次元(2次元)量子井戸における線形「バウンシングボール」(BB)傷の生成,有病率,安定性に焦点をあてる。 これらの傷痕は、量子輸送において効果的で制御可能なチャネルとして関係している。 虚時伝播を利用して、任意の外部収束ポテンシャル、特に外部摂動を持つ量子井戸モデルにおいて、2D Schr\「オーディンガー方程式」を解く。 帯電したナノチップの効果をシミュレートする、反発的なバンプや魅力的なディップなど、単一摂動ピークでBB傷が出現し始める様子を示す。 次に摂動ピークの最適サイズを特定し,これらの傷痕の出現率を最大化する。 最後に,外部騒音に対するBB傷跡の安定性について検討し,その一部が極めて堅牢であることを確認した。 これは、量子輸送におけるBB傷のさらなる応用の有望な機会を示唆している。

Quantum scars correspond to enhanced probability densities along unstable classical periodic orbits. In recent years, research on quantum scars has extended to various systems including the many-body regime. In this work we focus on the formation, prevalence, and stability of linear "bouncing-ball" (BB) scars in two-dimensional (2D) quantum wells. These scars have relevance as effective and controllable channels in quantum transport. We utilize imaginary time propagation to solve the 2D Schr\"odinger equation within an arbitrary external confining potential, specifically the quantum well model with external perturbations. We show how BB scars begin to emerge with a single perturbative peak, such as a repulsive bump or attractive dip that simulates the effect of a charged nanotip in the system. We then identify the optimal size of the perturbative peak to maximize the prevalence of these scars. Finally, we investigate the stability of BB scars against external noise and find that some of them are remarkably robust. This suggests promising opportunities for further applications of BB scars in quantum transport.
翻訳日:2024-10-31 15:25:43 公開日:2024-10-10
# モデル説明におけるグラディエント・スムース法の原理の再考

Rethinking the Principle of Gradient Smooth Methods in Model Explanation ( http://arxiv.org/abs/2410.07711v1 )

ライセンス: Link先を確認
Linjiang Zhou, Chao Ma, Zepeng Wang, Xiaochuan Shi, (参考訳) グラディエント・スムーシング(Gradient Smoothing)は、勾配モデル記述法における雑音の低減に有効な手法である。 SmoothGradは、これらのノイズの多くを軽減するためにガウスノイズを追加します。 しかし、この手法における重要なハイパーパラメータである、ガウス雑音の分散$\sigma$は、手動またはヒューリスティックなアプローチで設定される。 しかし、一定のノイズを含む滑らかな勾配が生じる。 本稿では,SmoothGradを畳み込みの集合体と解釈し,信頼度の観点から勾配雑音と$\sigma$の役割を再考する。 さらに,これらの知見に基づいて適応的な勾配平滑化手法AdaptGradを提案する。 総合的な実験を通じて、定性的および定量的な結果は、AdaptGradがベースライン法と比較してバニラ勾配のほとんど全てのノイズを効果的に低減できることを示した。 AdaptGradはシンプルで普遍的であり、グラデーションベースの解釈可能性メソッドを拡張して視覚化に利用できる。

Gradient Smoothing is an efficient approach to reducing noise in gradient-based model explanation method. SmoothGrad adds Gaussian noise to mitigate much of these noise. However, the crucial hyper-parameter in this method, the variance $\sigma$ of Gaussian noise, is set manually or with heuristic approach. However, it results in the smoothed gradients still containing a certain amount of noise. In this paper, we aim to interpret SmoothGrad as a corollary of convolution, thereby re-understanding the gradient noise and the role of $\sigma$ from the perspective of confidence level. Furthermore, we propose an adaptive gradient smoothing method, AdaptGrad, based on these insights. Through comprehensive experiments, both qualitative and quantitative results demonstrate that AdaptGrad could effectively reduce almost all the noise in vanilla gradients compared with baselines methods. AdaptGrad is simple and universal, making it applicable for enhancing gradient-based interpretability methods for better visualization.
翻訳日:2024-10-31 15:25:43 公開日:2024-10-10
# 六方晶窒化ホウ素の量子応用

Quantum applications of hexagonal boron nitride ( http://arxiv.org/abs/2410.07712v1 )

ライセンス: Link先を確認
Aslı Çakan, Chanaprom Cholsuk, Angus Gale, Mehran Kianinia, Serkan Paçal, Serkan Ateş, Igor Aharonovich, Milos Toth, Tobias Vogl, (参考訳) 六方晶窒化ホウ素(hBN)は、古典的および量子技術の双方にとって魅力的なプラットフォームとして出現している。 特に、過去10年間、新しいアイデアや開発が急増しているのを目撃してきた。 本稿では、量子センシング、量子鍵分布、量子コンピューティング、量子メモリなど、hBNの基本概念と重要な応用について概説する。 さらに,hBNの能力を拡張する重要な実験的および理論的進歩を,密着的でアクセスしやすい方法で強調する。 目的は、hBNの多様な応用に関する包括的理解を読者に提供し、進行中の研究活動に関する洞察を提供することである。

Hexagonal boron nitride (hBN) has emerged as a compelling platform for both classical and quantum technologies. In particular, the past decade has witnessed a surge of novel ideas and developments, which may be overwhelming for newcomers to the field. This review provides an overview of the fundamental concepts and key applications of hBN, including quantum sensing, quantum key distribution, quantum computing, and quantum memory. Additionally, we highlight critical experimental and theoretical advances that have expanded the capabilities of hBN, in a cohesive and accessible manner. The objective is to equip readers with a comprehensive understanding of the diverse applications of hBN, and provide insights into ongoing research efforts.
翻訳日:2024-10-31 15:15:56 公開日:2024-10-10
# ヘイトスピーチをモデレートしたチャットアプリケーション:GDPRとDSA準拠を事例として

A Hate Speech Moderated Chat Application: Use Case for GDPR and DSA Compliance ( http://arxiv.org/abs/2410.07713v1 )

ライセンス: Link先を確認
Jan Fillies, Theodoros Mitsikas, Ralph Schäfermeier, Adrian Paschke, (参考訳) ヘイトスピーチや有害コンテンツの検出は複雑でセンシティブな問題だ。 識別そのものは状況によって大きく依存するが、年齢、言語、国籍などの機密性の高い個人属性は、プライバシー上の懸念から利用されることは稀である。 さらに、プラットフォームは、オンラインヘイトスピーチと、その内部倫理規範に基づくコンテンツの評価に関して、幅広い地方司法権と格闘している。 本研究は、コンテンツモデレーションプロセスに法的および倫理的推論を実装可能なGDPR準拠のアプリケーションを示す新しいアプローチを提案する。 このアプリケーションは、ユーザ情報を利用することで、モデレーション決定の説明可能性を高める。 GPT-3.5やSolid Pods,ルール言語Provaといった技術を使って,オンラインコミュニケーションの基本となる2つのユースケースを提示し,実装する。 最初のユースケースは、未成年者がいるときに特定のコンテンツを投稿する能力を制限することで、青少年を潜在的に有害なコンテンツから保護することを目的としたプラットフォームのシナリオを示すものである。 第2のユースケースは、反ヘイトスピーチを提供することで、問題のある声明をオンラインで特定し、対処することを目的としている。 カウンターヘイトスピーチは、個人属性を用いて生成され、ユーザにアピールする。 本研究は,今後のオンラインプラットフォームにおけるDSAコンプライアンスの基盤となるものとなる。 この研究は、ヘイトスピーチの法的および倫理的定義の異なる範囲で推論するための新しいアプローチを提案し、ヘイトスピーチに適合するカウンターを計画する。 全体として、プラットフォームはユーザーに対して適切な保護を提供し、より説明しやすく個別化された応答を提供する。 ヘイトスピーチ検出サービス、チャットプラットフォーム、およびProvaにおける推論について論じ、コンテンツモデレーションとアルゴリズムによるヘイトスピーチ検出の潜在的な利点を概説する。 DSAコンプライアンスのための重要な側面の選定について概説する。

The detection of hate speech or toxic content online is a complex and sensitive issue. While the identification itself is highly dependent on the context of the situation, sensitive personal attributes such as age, language, and nationality are rarely available due to privacy concerns. Additionally, platforms struggle with a wide range of local jurisdictions regarding online hate speech and the evaluation of content based on their internal ethical norms. This research presents a novel approach that demonstrates a GDPR-compliant application capable of implementing legal and ethical reasoning into the content moderation process. The application increases the explainability of moderation decisions by utilizing user information. Two use cases fundamental to online communication are presented and implemented using technologies such as GPT-3.5, Solid Pods, and the rule language Prova. The first use case demonstrates the scenario of a platform aiming to protect adolescents from potentially harmful content by limiting the ability to post certain content when minors are present. The second use case aims to identify and counter problematic statements online by providing counter hate speech. The counter hate speech is generated using personal attributes to appeal to the user. This research lays the groundwork for future DSA compliance of online platforms. The work proposes a novel approach to reason within different legal and ethical definitions of hate speech and plan the fitting counter hate speech. Overall, the platform provides a fitted protection to users and a more explainable and individualized response. The hate speech detection service, the chat platform, and the reasoning in Prova are discussed, and the potential benefits for content moderation and algorithmic hate speech detection are outlined. A selection of important aspects for DSA compliance is outlined.
翻訳日:2024-10-31 15:15:56 公開日:2024-10-10
# 航空機燃料流量推定モデルにおけるディープラーニングの一般化特性について

On the Generalization Properties of Deep Learning for Aircraft Fuel Flow Estimation Models ( http://arxiv.org/abs/2410.07717v1 )

ライセンス: Link先を確認
Gabriel Jarry, Ramon Dalmau, Philippe Very, Junzi Sun, (参考訳) 航空機の燃料流量を正確に推定することは、新しい手順を評価し、次世代航空機を設計し、現在の航空慣行の環境影響を監視するために不可欠である。 本稿では, 深層学習モデルの燃料消費予測における一般化能力について検討し, 特に訓練データから欠落した航空機に対する性能に着目した。 本稿では,ニューラルネットワークアーキテクチャとドメイン一般化技術を融合して,幅広い航空機における堅牢性と信頼性を高める手法を提案する。 101種類の航空機を含む包括的データセットは、訓練と一般化セットに分離され、各航空機は1,000回の飛行を含む。 我々は, 燃料流量推定のための航空機データベース(BADA)モデルを用い, 航空機型類似性を評価するための擬似距離測定法を導入し, データ分散領域におけるモデル性能を最適化するための様々なサンプリング手法を探索した。 その結果,従来未確認の航空機では,航空機へのノイズ導入とエンジンパラメータの改善により,モデル一般化が改善された。 このモデルでは、既存の航空機に近い航空機では2\%から10\%の許容平均絶対パーセンテージ誤差で一般化でき、トレーニングセットで知られている航空機では1\%の誤差で性能が向上する。 この研究は、拡張性、正確性、一般化可能な燃料流量推定モデルを開発するために、ドメイン固有の洞察と高度な機械学習技術を組み合わせる可能性を強調した。

Accurately estimating aircraft fuel flow is essential for evaluating new procedures, designing next-generation aircraft, and monitoring the environmental impact of current aviation practices. This paper investigates the generalization capabilities of deep learning models in predicting fuel consumption, focusing particularly on their performance for aircraft types absent from the training data. We propose a novel methodology that integrates neural network architectures with domain generalization techniques to enhance robustness and reliability across a wide range of aircraft. A comprehensive dataset containing 101 different aircraft types, separated into training and generalization sets, with each aircraft type set containing 1,000 flights. We employed the base of aircraft data (BADA) model for fuel flow estimates, introduced a pseudo-distance metric to assess aircraft type similarity, and explored various sampling strategies to optimize model performance in data-sparse regions. Our results reveal that for previously unseen aircraft types, the introduction of noise into aircraft and engine parameters improved model generalization. The model is able to generalize with acceptable mean absolute percentage error between 2\% and 10\% for aircraft close to existing aircraft, while performance is below 1\% error for known aircraft in the training set. This study highlights the potential of combining domain-specific insights with advanced machine learning techniques to develop scalable, accurate, and generalizable fuel flow estimation models.
翻訳日:2024-10-31 15:15:56 公開日:2024-10-10
# 重心指数による逆ロバスト一般化の理解

Understanding Adversarially Robust Generalization via Weight-Curvature Index ( http://arxiv.org/abs/2410.07719v1 )

ライセンス: Link先を確認
Yuelin Xu, Xiao Zhang, (参考訳) 敵対的な例に関する広範な研究にもかかわらず、逆向きの堅牢な一般化のメカニズムは、ディープラーニングにとって決定的だが挑戦的な課題であり、ほとんど不明である。 本稿では,WCI(Weight-Curvature Index)のレンズを用いて,逆向きに頑健な一般化を解読する新しい視点を提案する。 提案したWCIは、重量行列のフロベニウスノルムとヘッセン行列のトレースを用いて、逆摂動に対するモデルの脆弱性を定量化する。 PAC-Bayesian理論と2次損失関数近似に基づいて一般化境界を証明し、ロバストな一般化ギャップ、モデルパラメータ、ロスランドスケープ曲率の間の相互作用を解明する。 我々の理論と実験により、WCIは、敵対的に訓練されたモデルの堅牢な一般化性能を効果的に捉えていることを示す。 モデルパラメータのスケールと損失ランドスケープの曲率に基づいて、敵対的ロバスト性の微妙な理解を提供することにより、よりレジリエントなディープラーニングモデルを設計し、信頼性とセキュリティを高める上で重要な洞察を提供する。

Despite extensive research on adversarial examples, the underlying mechanisms of adversarially robust generalization, a critical yet challenging task for deep learning, remain largely unknown. In this work, we propose a novel perspective to decipher adversarially robust generalization through the lens of the Weight-Curvature Index (WCI). The proposed WCI quantifies the vulnerability of models to adversarial perturbations using the Frobenius norm of weight matrices and the trace of Hessian matrices. We prove generalization bounds based on PAC-Bayesian theory and second-order loss function approximations to elucidate the interplay between robust generalization gap, model parameters, and loss landscape curvature. Our theory and experiments show that WCI effectively captures the robust generalization performance of adversarially trained models. By offering a nuanced understanding of adversarial robustness based on the scale of model parameters and the curvature of the loss landscape, our work provides crucial insights for designing more resilient deep learning models, enhancing their reliability and security.
翻訳日:2024-10-31 15:15:56 公開日:2024-10-10
# 信頼に値するWeb攻撃検出に向けて--深層カーネル学習モデルによる不確実性認識

Towards Trustworthy Web Attack Detection: An Uncertainty-Aware Ensemble Deep Kernel Learning Model ( http://arxiv.org/abs/2410.07725v1 )

ライセンス: Link先を確認
Yonghang Zhou, Hongyi Zhu, Yidong Chai, Yuanchun Jiang, Yezheng Liu, (参考訳) Web攻撃は、Webアプリケーションベースのビジネスに大きなコストと損失をもたらす、サイバー脅威の主要かつ最も永続的な形態の1つである。 署名ベース、機械学習ベース、ディープラーニングベースといった様々な検出手法が、Web攻撃を特定するために提案されている。 しかし,これらの手法は,(1)高速に進行する攻撃に適応できないような,正確かつ完全なルール設計と特徴工学に強く依存するか,(2)モデルによる予測の信頼性に不可欠なモデル不確実性を推定できないかのいずれかである。 本研究では,HTTP要求ペイロードデータからのWeb攻撃を,データ分散とモデルパラメータの両方の観点から捉えたモデル不確実性によって検出する,不確実性を考慮した深層カーネル学習(UEDKL)モデルを提案する。 提案したUEDKLは深層カーネル学習モデルを用いて,データ分散の観点から推定したモデル不確実性を用いて,異なるタイプのWeb攻撃から通常のHTTP要求を識別する。 複数の深層カーネル学習モデルをベースラーナーとして訓練し、モデルパラメータの観点からモデルの不確実性を捉える。 注意に基づくアンサンブル学習手法は,基礎学習者の予測を効果的に統合し,不確実性をモデル化する。 また,モデル不確実性評価を行うために,高不確かさ比Fスコア曲線という新しい指標を提案した。 BDCIとSRBHデータセットの実験により、提案したUEDKLフレームワークは、ベンチマークモデルと比較してWeb攻撃検出性能と不確実性推定品質の両方において、大幅な改善をもたらすことが示された。

Web attacks are one of the major and most persistent forms of cyber threats, which bring huge costs and losses to web application-based businesses. Various detection methods, such as signature-based, machine learning-based, and deep learning-based, have been proposed to identify web attacks. However, these methods either (1) heavily rely on accurate and complete rule design and feature engineering, which may not adapt to fast-evolving attacks, or (2) fail to estimate model uncertainty, which is essential to the trustworthiness of the prediction made by the model. In this study, we proposed an Uncertainty-aware Ensemble Deep Kernel Learning (UEDKL) model to detect web attacks from HTTP request payload data with the model uncertainty captured from the perspective of both data distribution and model parameters. The proposed UEDKL utilizes a deep kernel learning model to distinguish normal HTTP requests from different types of web attacks with model uncertainty estimated from data distribution perspective. Multiple deep kernel learning models were trained as base learners to capture the model uncertainty from model parameters perspective. An attention-based ensemble learning approach was designed to effectively integrate base learners' predictions and model uncertainty. We also proposed a new metric named High Uncertainty Ratio-F Score Curve to evaluate model uncertainty estimation. Experiments on BDCI and SRBH datasets demonstrated that the proposed UEDKL framework yields significant improvement in both web attack detection performance and uncertainty estimation quality compared to benchmark models.
翻訳日:2024-10-31 15:15:56 公開日:2024-10-10
# 深層学習モデルを用いた航空機単機関税の検出について

On the Detection of Aircraft Single Engine Taxi using Deep Learning Models ( http://arxiv.org/abs/2410.07727v1 )

ライセンス: Link先を確認
Gabriel Jarry, Philippe Very, Ramon Dalmau, Daniel Delahaye, Arthur Houdant, (参考訳) 航空産業はグローバル交通にとって不可欠であるが、特にタクシーなどの地上事業からのCO2排出など環境負荷を減らす圧力が高まっている。 SET(Single Engine Taxiing)は、燃料効率と持続可能性を高めるための有望な技術として登場した。 しかし、SETの利点を評価するには、SET固有のデータが限られており、通常は航空機のオペレーターにしかアクセスできない。 本稿では,地上軌跡データを用いたSET操作検出のための新しい深層学習手法を提案する。 本手法では,A320便のクイック・アクセス・レコーダ(QAR)データを用いて,タクシーの運行中における地上移動をSETや従来のタクシーのようにラベル付けすると同時に,ADS-B(Automatic Dependent Surveillance-Broadcast)や地上レーダーなどのオープンソースの監視システムで利用できるような軌道のみを使用する。 このことは、SETが地動パターンから推測できることを示し、非プロプライエタリなデータソースによる今後の作業の道を開いた。 以上の結果から,深層学習がSETの検出を改善し,より包括的な環境影響評価を支援する可能性が示唆された。

The aviation industry is vital for global transportation but faces increasing pressure to reduce its environmental footprint, particularly CO2 emissions from ground operations such as taxiing. Single Engine Taxiing (SET) has emerged as a promising technique to enhance fuel efficiency and sustainability. However, evaluating SET's benefits is hindered by the limited availability of SET-specific data, typically accessible only to aircraft operators. In this paper, we present a novel deep learning approach to detect SET operations using ground trajectory data. Our method involves using proprietary Quick Access Recorder (QAR) data of A320 flights to label ground movements as SET or conventional taxiing during taxi-in operations, while using only trajectory features equivalent to those available in open-source surveillance systems such as Automatic Dependent Surveillance-Broadcast (ADS-B) or ground radar. This demonstrates that SET can be inferred from ground movement patterns, paving the way for future work with non-proprietary data sources. Our results highlight the potential of deep learning to improve SET detection and support more comprehensive environmental impact assessments.
翻訳日:2024-10-31 15:15:56 公開日:2024-10-10
# MGMapNet: エンドツーエンドベクトル化HDマップ構築のための多粒度表現学習

MGMapNet: Multi-Granularity Representation Learning for End-to-End Vectorized HD Map Construction ( http://arxiv.org/abs/2410.07733v1 )

ライセンス: Link先を確認
Jing Yang, Minyue Jiang, Sen Yang, Xiao Tan, Yingying Li, Errui Ding, Hanli Wang, Jingdong Wang, (参考訳) Vectorized High-Definition (HD) マップの構築には、通常、地図要素のカテゴリ情報と幾何学情報の両方を取得する必要がある。 現在の最先端の手法は、しばしばポイントレベルまたはインスタンスレベルの表現のみを採用し、ポイントとインスタンス間の強い固有の関係を見下ろしている。 本研究では,MGMapNet(Multi-Granularity Map Network)というシンプルなフレームワークを提案する。 具体的には、これらの2つのクエリは、提案したマルチグラニュラリティアグリゲータを用いて、BEV(Multi-scale Bird's Eye View)特徴から生成される。 このモジュールでは、インスタンスレベルのクエリは、インスタンスがカバーするスコープ全体に機能を集約し、ポイントレベルのクエリは、機能をローカルに集約する。 さらに、ポイントインスタンスインタラクションモジュールは、インスタンスレベルとポイントレベルのクエリ間の情報交換を促進するように設計されている。 実験の結果,提案したMGMapNetは, nuScenesでは5.3mAP, Argoverse2では4.4mAP, MapTRv2を5.3mAP以上,最先端性能を実現していることがわかった。

The construction of Vectorized High-Definition (HD) map typically requires capturing both category and geometry information of map elements. Current state-of-the-art methods often adopt solely either point-level or instance-level representation, overlooking the strong intrinsic relationships between points and instances. In this work, we propose a simple yet efficient framework named MGMapNet (Multi-Granularity Map Network) to model map element with a multi-granularity representation, integrating both coarse-grained instance-level and fine-grained point-level queries. Specifically, these two granularities of queries are generated from the multi-scale bird's eye view (BEV) features using a proposed Multi-Granularity Aggregator. In this module, instance-level query aggregates features over the entire scope covered by an instance, and the point-level query aggregates features locally. Furthermore, a Point Instance Interaction module is designed to encourage information exchange between instance-level and point-level queries. Experimental results demonstrate that the proposed MGMapNet achieves state-of-the-art performance, surpassing MapTRv2 by 5.3 mAP on nuScenes and 4.4 mAP on Argoverse2 respectively.
翻訳日:2024-10-31 15:15:56 公開日:2024-10-10
# ラベル付きデータによるLLMサービスのプラグ・アンド・プレイ性能評価

Plug-and-Play Performance Estimation for LLM Services without Relying on Labeled Data ( http://arxiv.org/abs/2410.07737v1 )

ライセンス: Link先を確認
Can Wang, Dianbo Sui, Hongliang Sun, Hao Ding, Bolin Zhang, Zhiying Tu, (参考訳) 大規模言語モデル(LLM)サービスは、インコンテキスト学習(ICL)による少数の例を活用した、未学習のタスクに対して印象的な能力を示す。 しかし、ICLの成功はタスクやコンテキストによって異なり、不均一なサービス品質につながります。 各呼び出しにおけるLLMサービスのパフォーマンスを直接見積もることは、特にLLM内の豊富なラベル付きデータや内部情報を必要とする。 そこで本研究では,ICLのようなラベル付けされていないサンプルを「プラグ・アンド・プレイ(plug-and-play)」として利用し,異なるタスクやコンテキストにまたがるLLMサービスの性能を推定する手法を提案する。 以上の結果から, LLMサービス呼び出しから得られる陰性なログ類似度と難易度は, 有効かつ重要な特徴として機能することが示唆された。 これらの特徴に基づき、4つの異なるメタモデルを用いてLLMサービスの性能を推定する。 提案手法は,複数のLCMサービスおよびタスクを対象としたラベルなし推定ベースラインと比較する。 2つのシナリオに実験的に適用し、LLMサービスの選定とさらなる最適化の有効性を実証した。

Large Language Model (LLM) services exhibit impressive capability on unlearned tasks leveraging only a few examples by in-context learning (ICL). However, the success of ICL varies depending on the task and context, leading to heterogeneous service quality. Directly estimating the performance of LLM services at each invocation can be laborious, especially requiring abundant labeled data or internal information within the LLM. This paper introduces a novel method to estimate the performance of LLM services across different tasks and contexts, which can be "plug-and-play" utilizing only a few unlabeled samples like ICL. Our findings suggest that the negative log-likelihood and perplexity derived from LLM service invocation can function as effective and significant features. Based on these features, we utilize four distinct meta-models to estimate the performance of LLM services. Our proposed method is compared against unlabeled estimation baselines across multiple LLM services and tasks. And it is experimentally applied to two scenarios, demonstrating its effectiveness in the selection and further optimization of LLM services.
翻訳日:2024-10-31 15:15:56 公開日:2024-10-10
# マルチドメインプロトタイプに基づくフェデレーションファインチューニングによるフェデレーションドメイン適応の強化

Enhancing Federated Domain Adaptation with Multi-Domain Prototype-Based Federated Fine-Tuning ( http://arxiv.org/abs/2410.07738v1 )

ライセンス: Link先を確認
Jingyuan Zhang, Yiyang Duan, Shuaicheng Niu, Yang Cao, Wei Yang Bryan Lim, (参考訳) フェデレート・ドメイン適応(Federated Domain Adaptation, FDA)は、フェデレーション・ラーニング(FL)シナリオである。 FDAの最大の課題は、データ不均一性であり、これは、従来の平均的な集約手法を使用すると、勾配の更新が著しくばらつき、グローバルモデルの有効性が低下する。 これにより、ドメイン内とドメイン外の両方のパフォーマンスが損なわれます(同じフェデレーションシステムで、ローカルクライアント外で)。 そこで,本稿では,新しいフレームワークとして,textbf{M}ulti- domain \textbf{P}rototype-based \textbf{F}ederated Fine-\textbf{T}uning (MPFT)を提案する。 MPFTファインチューン(英: MPFT fine-tunes)は、マルチドメインのプロトタイプ、すなわち、カテゴリ固有のローカルデータから、ドメイン固有の情報に富んだ事前訓練された表現を用いた事前訓練されたモデルである。 これにより、サーバ上の教師あり学習は、データプライバシの侵入なしに、グローバルに最適化されたアダプタをローカルクライアントに配布することが可能になる。 実験の結果,MPFTは従来の方法よりもドメイン内精度とドメイン外精度を有意に改善し,FDAの知識保存と適応性を高めた。 特に、MPFTは単一の通信ラウンド内で収束し、計算と通信コストを大幅に削減する。 プライバシーを確保するために、MPFTはプロトタイプを保護するために差分プライバシーを適用している。 さらに,プロトタイプベースの特徴空間ハイジャック攻撃によるロバスト性の評価を行い,広範囲な訓練期間を経ても生データサンプルの回収が不可能であることを確認した。 MPFLの完全な実装は \url{https://anonymous.4open.science/r/DomainFL/} で利用可能である。

Federated Domain Adaptation (FDA) is a Federated Learning (FL) scenario where models are trained across multiple clients with unique data domains but a shared category space, without transmitting private data. The primary challenge in FDA is data heterogeneity, which causes significant divergences in gradient updates when using conventional averaging-based aggregation methods, reducing the efficacy of the global model. This further undermines both in-domain and out-of-domain performance (within the same federated system but outside the local client). To address this, we propose a novel framework called \textbf{M}ulti-domain \textbf{P}rototype-based \textbf{F}ederated Fine-\textbf{T}uning (MPFT). MPFT fine-tunes a pre-trained model using multi-domain prototypes, i.e., pretrained representations enriched with domain-specific information from category-specific local data. This enables supervised learning on the server to derive a globally optimized adapter that is subsequently distributed to local clients, without the intrusion of data privacy. Empirical results show that MPFT significantly improves both in-domain and out-of-domain accuracy over conventional methods, enhancing knowledge preservation and adaptation in FDA. Notably, MPFT achieves convergence within a single communication round, greatly reducing computation and communication costs. To ensure privacy, MPFT applies differential privacy to protect the prototypes. Additionally, we develop a prototype-based feature space hijacking attack to evaluate robustness, confirming that raw data samples remain unrecoverable even after extensive training epochs. The complete implementation of MPFL is available at \url{https://anonymous.4open.science/r/DomainFL/}.
翻訳日:2024-10-31 15:15:56 公開日:2024-10-10
# SLIM: LLMがSoft LoRAとIdentity Mixtureでより学習し、忘れられるようにする

SLIM: Let LLM Learn More and Forget Less with Soft LoRA and Identity Mixture ( http://arxiv.org/abs/2410.07739v1 )

ライセンス: Link先を確認
Jiayi Han, Liang Du, Hongwei Du, Xiangguo Zhou, Yiwen Wu, Weibo Zheng, Donghong Han, (参考訳) 多くの取り組みがなされているが、多くのアプリケーションにおいて、トレーニング予算、下流性能、LLMの一般的な能力のバランスをとることは依然として課題である。 下流タスクのためのモデル全体のトレーニングは費用がかかるため、破滅的な忘れ忘れをしがちです。 パラメータ効率の微調整(PEFT)を導入することで、トレーニングコストを削減できるが、依然として忘れられ、下流タスクでの学習が制限される。 本研究は,LLMのダウンストリーム性能を抑えながら効率よく微調整を行うため,Soft LoRA と Identity Mixture (SLIM) をベースとした新規な専門家(MoE) フレームワークを提案し,LoRA アダプタとスキップ接続間の動的ルーティングを実現し,忘れの抑制を可能にする。 我々は、スライディングクラスタリングによる重み付けを、ルーティングを強化するために、ドメイン外の区別を改善するために採用する。 また,低ランクアダプタの混合をモデルマージモデルに変換し,ベースモデルの汎用性を維持するために,LoRAアダプタの高速な動的マージを導入することを提案する。 大規模実験により,提案したSLIMは,ダウンストリームタスクにおける最先端のPEFTアプローチと同等であり,破滅的忘れを緩和する上での先進的な性能を実現していることがわかった。

Although many efforts have been made, it is still a challenge to balance the training budget, downstream performance, and the general capabilities of the LLMs in many applications. Training the whole model for downstream tasks is expensive, and could easily result in catastrophic forgetting. By introducing parameter-efficient fine-tuning (PEFT), the training cost could be reduced, but it still suffers from forgetting, and limits the learning on the downstream tasks. To efficiently fine-tune the LLMs with less limitation to their downstream performance while mitigating the forgetting of general capabilities, we propose a novel mixture of expert (MoE) framework based on Soft LoRA and Identity Mixture (SLIM), that allows dynamic routing between LoRA adapters and skipping connection, enables the suppression of forgetting. We adopt weight-yielding with sliding clustering for better out-of-domain distinguish to enhance the routing. We also propose to convert the mixture of low-rank adapters to the model merging formulation and introduce fast dynamic merging of LoRA adapters to keep the general capabilities of the base model. Extensive experiments demonstrate that the proposed SLIM is comparable to the state-of-the-art PEFT approaches on the downstream tasks while achieving the leading performance in mitigating catastrophic forgetting.
翻訳日:2024-10-31 15:15:56 公開日:2024-10-10
# StepTool: LLMにおけるツール学習のためのステップグレード強化学習フレームワーク

StepTool: A Step-grained Reinforcement Learning Framework for Tool Learning in LLMs ( http://arxiv.org/abs/2410.07745v1 )

ライセンス: Link先を確認
Yuanqing Yu, Zhefan Wang, Weizhi Ma, Zhicheng Guo, Jingtao Zhan, Shuai Wang, Chuhan Wu, Zhiqiang Guo, Min Zhang, (参考訳) 強力な推論機能と推論機能を備えているにもかかわらず、Large Language Models (LLM)は、ツール学習と呼ばれる複雑なタスクを解決するために、リアルタイム情報検索やドメイン固有の専門知識を取得するために、外部ツールが必要である。 既存のツール学習手法は主に専門家の軌跡のチューニングに頼っており、言語学的観点からトークンシーケンス学習に重点を置いている。 しかし、いくつかの課題がある。 1) 静的軌道の模倣は,新しいタスクに一般化する能力を制限する。 2) 専門家の軌跡でさえ最適以下であり, より良い解経路が存在する可能性がある。 本稿では,LSMにおけるツール学習を改善するための,段階的な強化学習フレームワークであるStepToolを紹介する。 ツールの実行の成功とタスクへのコントリビューションに基づいて、各ツールのインタラクションに報酬を割り当てるStep-grained Reward Shapingと、モデルを多段階的に最適化するためにポリシー勾配メソッドを使用するStep-grained Optimizationの2つのコンポーネントで構成されている。 実験の結果,StepToolはマルチステップのツールベースのタスクにおいて既存のメソッドを著しく上回り,複雑なタスク環境に対して堅牢なソリューションを提供することがわかった。 コードはhttps://github.com/yuyq18/StepTool.comで入手できる。

Despite having powerful reasoning and inference capabilities, Large Language Models (LLMs) still need external tools to acquire real-time information retrieval or domain-specific expertise to solve complex tasks, which is referred to as tool learning. Existing tool learning methods primarily rely on tuning with expert trajectories, focusing on token-sequence learning from a linguistic perspective. However, there are several challenges: 1) imitating static trajectories limits their ability to generalize to new tasks. 2) even expert trajectories can be suboptimal, and better solution paths may exist. In this work, we introduce StepTool, a novel step-grained reinforcement learning framework to improve tool learning in LLMs. It consists of two components: Step-grained Reward Shaping, which assigns rewards at each tool interaction based on tool invocation success and its contribution to the task, and Step-grained Optimization, which uses policy gradient methods to optimize the model in a multi-step manner. Experimental results demonstrate that StepTool significantly outperforms existing methods in multi-step, tool-based tasks, providing a robust solution for complex task environments. Codes are available at https://github.com/yuyq18/StepTool.
翻訳日:2024-10-31 15:15:56 公開日:2024-10-10
# 単頭注意におけるベニグマオーバーフィッティング

Benign Overfitting in Single-Head Attention ( http://arxiv.org/abs/2410.07746v1 )

ライセンス: Link先を確認
Roey Magen, Shuning Shang, Zhiwei Xu, Spencer Frei, Wei Hu, Gal Vardi, (参考訳) トレーニングされたニューラルネットワークがノイズの多いトレーニングデータに完全に適合するが、依然としてほぼ最適なテスト性能を達成している良性オーバーフィッティングの現象は、近年リニアモデルや完全接続/畳み込みネットワークにおいて広く研究されている。 本研究では,トランスフォーマーの基本構成ブロックであるシングルヘッドソフトマックスアテンションモデルにおけるベニグオーバーフィッティングについて検討する。 適切な条件下では、勾配降下の2段階の後に既に分類された設定において、モデルが良性過剰適合を示すことが証明される。 さらに、最小ノルム/最大マルジン補間器が良性オーバーフィッティングを示す条件を示す。 本研究では,データ分布の信号対雑音比(SNR),すなわち信号と雑音のトークンのノルムの比に依存するかを検討した。

The phenomenon of benign overfitting, where a trained neural network perfectly fits noisy training data but still achieves near-optimal test performance, has been extensively studied in recent years for linear models and fully-connected/convolutional networks. In this work, we study benign overfitting in a single-head softmax attention model, which is the fundamental building block of Transformers. We prove that under appropriate conditions, the model exhibits benign overfitting in a classification setting already after two steps of gradient descent. Moreover, we show conditions where a minimum-norm/maximum-margin interpolator exhibits benign overfitting. We study how the overfitting behavior depends on the signal-to-noise ratio (SNR) of the data distribution, namely, the ratio between norms of signal and noise tokens, and prove that a sufficiently large SNR is both necessary and sufficient for benign overfitting.
翻訳日:2024-10-31 15:15:56 公開日:2024-10-10
# 模擬ロボットアームを用いた低レベル因果関係の学習

Learning Low-Level Causal Relations using a Simulated Robotic Arm ( http://arxiv.org/abs/2410.07751v1 )

ライセンス: Link先を確認
Miroslav Cibula, Matthias Kerzel, Igor Farkaš, (参考訳) 因果学習は、人間の行動が既知の環境に与える影響を予測し、この知識を使ってより複雑な行動の実行を計画することができる。 このような知識は環境の振る舞いを捉え、その分析や行動の背後にある推論に利用することができる。 この種の知識は、知的なロボットシステムの設計において、常識を持つ上でも不可欠である。 本稿では,2つの感覚運動に関わるロボットアームが生成するデータに基づいて,前方モデルと逆モデルから因果関係を学習し,因果関係について検討する。 次のステップとして、腕関節と環境特徴の両方に関連する状態ベクトルの個々の特徴に対応する低レベル因果効果を明らかにするフォワードモデルの解析のための特徴属性法について検討する。 この種の分析は、状態表現の次元的還元と、より高いレベルの因果効果の説明可能性への知識の集約のための固い基盤を提供する。

Causal learning allows humans to predict the effect of their actions on the known environment and use this knowledge to plan the execution of more complex actions. Such knowledge also captures the behaviour of the environment and can be used for its analysis and the reasoning behind the behaviour. This type of knowledge is also crucial in the design of intelligent robotic systems with common sense. In this paper, we study causal relations by learning the forward and inverse models based on data generated by a simulated robotic arm involved in two sensorimotor tasks. As a next step, we investigate feature attribution methods for the analysis of the forward model, which reveals the low-level causal effects corresponding to individual features of the state vector related to both the arm joints and the environment features. This type of analysis provides solid ground for dimensionality reduction of the state representations, as well as for the aggregation of knowledge towards the explainability of causal effects at higher levels.
翻訳日:2024-10-31 15:15:56 公開日:2024-10-10
# TVBench:ビデオランゲージ評価を再設計

TVBench: Redesigning Video-Language Evaluation ( http://arxiv.org/abs/2410.07752v1 )

ライセンス: Link先を確認
Daniel Cores, Michael Dorkenwald, Manuel Mucientes, Cees G. M. Snoek, Yuki M. Asano, (参考訳) 大規模な言語モデルは、ビデオ理解を可能にするビジョンモデルと統合することで、印象的なパフォーマンスを示してきた。 しかし、これらのビデオモデルの評価には独自の課題があり、いくつかのベンチマークが提案されている。 本稿では,現在最も使われているビデオ言語ベンチマークを時間的推論を必要とせずに解くことができることを示す。 既存のデータセットの主な3つの問題を特定しました。 (i)単一フレームからの静的情報は、タスクを解くのに十分であることが多い (二)質問文及び候補者回答の文章は過度に情報的であり、視覚的な入力に頼らずにモデルが正しく答えられるようにする。 (三)世界知識だけでは、多くの質問に答えることができ、ベンチマークを視覚的推論よりも知識複製のテストにする。 さらに,LLMによる自動評価プロセスは信頼性に欠ける上に,映像理解のためのオープンな質問応答ベンチマークも同様の問題に悩まされていることがわかった。 提案手法として, 提案するTVBenchは, 高レベルの時間的理解を必要とすることを広く評価し, 提案手法を提案する。 意外なことに、最新の最先端のビデオ言語モデルは、TVBenchのランダムなパフォーマンスと同じで、Gemini-ProとTarsierだけが明らかにこのベースラインを上回っている。

Large language models have demonstrated impressive performance when integrated with vision models even enabling video understanding. However, evaluating these video models presents its own unique challenges, for which several benchmarks have been proposed. In this paper, we show that the currently most used video-language benchmarks can be solved without requiring much temporal reasoning. We identified three main issues in existing datasets: (i) static information from single frames is often sufficient to solve the tasks (ii) the text of the questions and candidate answers is overly informative, allowing models to answer correctly without relying on any visual input (iii) world knowledge alone can answer many of the questions, making the benchmarks a test of knowledge replication rather than visual reasoning. In addition, we found that open-ended question-answering benchmarks for video understanding suffer from similar issues while the automatic evaluation process with LLMs is unreliable, making it an unsuitable alternative. As a solution, we propose TVBench, a novel open-source video multiple-choice question-answering benchmark, and demonstrate through extensive evaluations that it requires a high level of temporal understanding. Surprisingly, we find that most recent state-of-the-art video-language models perform similarly to random performance on TVBench, with only Gemini-Pro and Tarsier clearly surpassing this baseline.
翻訳日:2024-10-31 15:06:11 公開日:2024-10-10
# 解剖学的拡散モデルを用いた多種手術データセットの合成

Synthesizing Multi-Class Surgical Datasets with Anatomy-Aware Diffusion Models ( http://arxiv.org/abs/2410.07753v1 )

ライセンス: Link先を確認
Danush Kumar Venkatesh, Dominik Rivoir, Micha Pfeiffer, Fiona Kolbinger, Stefanie Speidel, (参考訳) コンピュータ支援手術では,解剖学的臓器の自動認識が手術現場の理解と術中補助に不可欠である。 機械学習モデルはそのような構造を識別できるが、それらの展開は、解剖学的アノテーションでラベル付けされた多様な外科的データセットの必要性によって妨げられる。 手術シーンにおける複数のクラス(臓器)のラベル付けには時間を要するため、専門医が必要である。 合成画像はセグメンテーション性能を向上させることができるが、生成時の臓器構造とテクスチャの維持は困難である。 アノテーションを用いた多段階手術データセットを生成するために拡散モデルを用いた多段階的アプローチを提案する。 本フレームワークは,二分節マスクを応用した臓器特異的モデルの訓練により,解剖学的意識の向上を図る。 臓器は、事前訓練されたControlNetを使用して、臓器構造を維持する推論パイプラインで生成される。 合成多クラスデータセットは、画像合成ステップを通じて構築され、構造的およびテクスチャ的整合性を確保する。 この汎用的なアプローチにより、実際のバイナリデータセットとシミュレートされた手術マスクから、マルチクラスのデータセットを生成することができる。 画像の品質と下流のセグメンテーションに関するデータセットを徹底的に評価し,実画像と組み合わせた場合のセグメンテーションスコアが15.5%向上した。 コードベース https://gitlab.com/nct_tso_public/muli-class-image- synthesis

In computer-assisted surgery, automatically recognizing anatomical organs is crucial for understanding the surgical scene and providing intraoperative assistance. While machine learning models can identify such structures, their deployment is hindered by the need for labeled, diverse surgical datasets with anatomical annotations. Labeling multiple classes (i.e., organs) in a surgical scene is time-intensive, requiring medical experts. Although synthetically generated images can enhance segmentation performance, maintaining both organ structure and texture during generation is challenging. We introduce a multi-stage approach using diffusion models to generate multi-class surgical datasets with annotations. Our framework improves anatomy awareness by training organ specific models with an inpainting objective guided by binary segmentation masks. The organs are generated with an inference pipeline using pre-trained ControlNet to maintain the organ structure. The synthetic multi-class datasets are constructed through an image composition step, ensuring structural and textural consistency. This versatile approach allows the generation of multi-class datasets from real binary datasets and simulated surgical masks. We thoroughly evaluate the generated datasets on image quality and downstream segmentation, achieving a $15\%$ improvement in segmentation scores when combined with real images. Our codebase https://gitlab.com/nct_tso_public/muli-class-image-synthesis
翻訳日:2024-10-31 15:06:11 公開日:2024-10-10
# MMHead: きめ細かいマルチモーダル3次元顔アニメーションを目指して

MMHead: Towards Fine-grained Multi-modal 3D Facial Animation ( http://arxiv.org/abs/2410.07757v1 )

ライセンス: Link先を確認
Sijing Wu, Yunhao Li, Yichao Yan, Huiyu Duan, Ziwei Liu, Guangtao Zhai, (参考訳) 3次元顔アニメーションは、マルチメディア分野に広く応用されているため、かなりの注目を集めている。 オーディオ駆動の3D顔アニメーションは、有望な結果によって広く研究されている。 しかし、マルチモーダルな3D顔アニメーション、特にテキスト誘導型3D顔アニメーションは、マルチモーダルな3D顔アニメーションデータセットが欠如しているため、ほとんど調査されない。 このギャップを埋めるために、我々はまず大規模なマルチモーダルな3次元顔アニメーションデータセットMMHeadを構築した。 それぞれのテキストアノテーションには、抽象的なアクションと感情の記述、きめ細かい顔と頭の動き(表現と頭ポーズ)の記述、そしてそのような感情を引き起こす可能性のある3つのシナリオが含まれている。 具体的には、5つの公開2次元ポートレートビデオデータセットを統合し、自動パイプラインを提案する。 1)モノクロ映像から3次元顔の動き系列を再構成し, 2) AU検出とChatGPTの助けを借りて階層的なテキストアノテーションを得る。 MMHeadデータセットに基づいて,テキストによる3次元対話ヘッドアニメーションとテキストから3次元の顔の動き生成という,2つの新しいタスクのベンチマークを構築した。 さらに,MM2Face という,シンプルだが効率的なVQ-VAE ベースの手法を提案し,マルチモーダル情報を統一し,多種多様な3次元顔の動きを生成する。 大規模な実験と包括的分析により、マルチモーダルな3D顔アニメーションの開発を促進する上で、我々のデータセットとベンチマークの有意義な可能性を実証した。

3D facial animation has attracted considerable attention due to its extensive applications in the multimedia field. Audio-driven 3D facial animation has been widely explored with promising results. However, multi-modal 3D facial animation, especially text-guided 3D facial animation is rarely explored due to the lack of multi-modal 3D facial animation dataset. To fill this gap, we first construct a large-scale multi-modal 3D facial animation dataset, MMHead, which consists of 49 hours of 3D facial motion sequences, speech audios, and rich hierarchical text annotations. Each text annotation contains abstract action and emotion descriptions, fine-grained facial and head movements (i.e., expression and head pose) descriptions, and three possible scenarios that may cause such emotion. Concretely, we integrate five public 2D portrait video datasets, and propose an automatic pipeline to 1) reconstruct 3D facial motion sequences from monocular videos; and 2) obtain hierarchical text annotations with the help of AU detection and ChatGPT. Based on the MMHead dataset, we establish benchmarks for two new tasks: text-induced 3D talking head animation and text-to-3D facial motion generation. Moreover, a simple but efficient VQ-VAE-based method named MM2Face is proposed to unify the multi-modal information and generate diverse and plausible 3D facial motions, which achieves competitive results on both benchmarks. Extensive experiments and comprehensive analysis demonstrate the significant potential of our dataset and benchmarks in promoting the development of multi-modal 3D facial animation.
翻訳日:2024-10-31 15:06:11 公開日:2024-10-10
# 識別不可能な単一光子の高効率ファイバーピグテール源

Efficient fiber-pigtailed source of indistinguishable single photons ( http://arxiv.org/abs/2410.07760v1 )

ライセンス: Link先を確認
Nico Margaria, Florian Pastier, Thinhinane Bennour, Marie Billard, Edouard Ivanov, William Hease, Petr Stepanov, Albert F. Adiyatullin, Raksha Singla, Mathias Pont, Maxime Descampeaux, Alice Bernard, Anton Pishchagin, Martina Morassi, Aristide Lemaître, Thomas Volz, Valérian Giesz, Niccolo Somaschi, Nicolas Maring, Sébastien Boissier, Thi Huong Au, Pascale Senellart, (参考訳) マイクロキャビティにおける半導体量子ドットは、区別不可能な単一光子の効率的な生成のための優れたプラットフォームである。 しかし、幅広い量子技術での使用には、制御された製造と、コンパクトな閉サイクル冷凍機への統合が必要であり、単一光子の単一モードファイバーへの効率的かつ安定した抽出が重要な課題である。 本稿では, 決定的に作製した単一光子源のファイバピグテール法について述べる。 本手法は, 光源とファイバ間のナノスケールアライメント精度, 室温から2.4Kまで持続するアライメント, g$^{(2)}$(0) = 1.3 %, 光子不一致率97.5 %, ファイバ輝度20.8 %のほぼ共鳴光励起下でのデバイスの性能を実証する。 その結果, 単光子単光子単光子速度は, 単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子単光子)。 さらに, 連続した9サイクルの冷却ウォームアップサイクルにより, デバイス性能が劣化しないことを確認した。

Semiconductor quantum dots in microcavities are an excellent platform for the efficient generation of indistinguishable single photons. However, their use in a wide range of quantum technologies requires their controlled fabrication and integration in compact closed-cycle cryocoolers, with a key challenge being the efficient and stable extraction of the single photons into a single-mode fiber. Here we report on a novel method for fiber-pigtailing of deterministically fabricated single-photon sources. Our technique allows for nanometer-scale alignment accuracy between the source and a fiber, alignment that persists all the way from room temperature to 2.4 K. We demonstrate high performance of the device under near-resonant optical excitation with g$^{(2)}$(0) = 1.3 %, a photon indistinguishability of 97.5 % and a fibered brightness of 20.8 %. We show that the indistinguishability and single-photon rate are stable for over ten hours of continuous operation in a single cooldown. We further confirm that the device performance is not degraded by nine successive cooldown-warmup cycles.
翻訳日:2024-10-31 15:06:11 公開日:2024-10-10
# $\textit{Jump Your Steps}$: 離散拡散モデルのサンプリングスケジュールの最適化

$\textit{Jump Your Steps}$: Optimizing Sampling Schedule of Discrete Diffusion Models ( http://arxiv.org/abs/2410.07761v1 )

ライセンス: Link先を確認
Yong-Hyun Park, Chieh-Hsin Lai, Satoshi Hayakawa, Yuhta Takida, Yuki Mitsufuji, (参考訳) 拡散モデルは連続領域において顕著に成功しており、離散変数に対する離散拡散モデル(DDM)の開発につながっている。 近年の進歩にもかかわらず、DDMはサンプリング速度が遅いという課題に直面している。 $\tau$-leapingのような並列サンプリングメソッドがこのプロセスを加速する一方で、$\textit{Compounding Decoding Error}$ (CDE)を導入している。 本稿では,CDEを最小化することで離散サンプリングタイムステップの割り当てを最適化する新しい手法である$\textit{Jump Your Steps}$ (JYS)を提案する。 より正確には、CDEの実際の上限を導出し、最適なサンプリングスケジュールを探索するための効率的なアルゴリズムを提案する。 画像,音楽,テキスト生成の広範な実験により,JYSはサンプリング品質を著しく向上させ,高速サンプリングのためのDDM性能向上のための汎用的なフレームワークとして確立した。

Diffusion models have seen notable success in continuous domains, leading to the development of discrete diffusion models (DDMs) for discrete variables. Despite recent advances, DDMs face the challenge of slow sampling speeds. While parallel sampling methods like $\tau$-leaping accelerate this process, they introduce $\textit{Compounding Decoding Error}$ (CDE), where discrepancies arise between the true distribution and the approximation from parallel token generation, leading to degraded sample quality. In this work, we present $\textit{Jump Your Steps}$ (JYS), a novel approach that optimizes the allocation of discrete sampling timesteps by minimizing CDE without extra computational cost. More precisely, we derive a practical upper bound on CDE and propose an efficient algorithm for searching for the optimal sampling schedule. Extensive experiments across image, music, and text generation show that JYS significantly improves sampling quality, establishing it as a versatile framework for enhancing DDM performance for fast sampling.
翻訳日:2024-10-31 15:06:11 公開日:2024-10-10
# QoS-Nets: 適応近似ニューラルネットワーク推論

QoS-Nets: Adaptive Approximate Neural Network Inference ( http://arxiv.org/abs/2410.07762v1 )

ライセンス: Link先を確認
Elias Trommer, Bernd Waschneck, Akash Kumar, (参考訳) ニューラルネットワークアプリケーションの実行時の演算リソース消費を変動させるため、ニューラルネットワーク層計算のための近似乗算器の柔軟な再利用を提案する。 本稿では,より広い検索空間からユーザ定義サイズの近似乗算器の適切なサブセットを選択し,タスク性能を最大化するための再学習を可能にする検索アルゴリズムを提案する。 従来の手法とは異なり、我々の手法は1つ以上の静的な近似乗算器インスタンスの層への割り当てを出力できる。 これらの異なる運用ポイントにより、システムは、品質・オブ・サービス(QoS)を、その正確さとリソース消費を増大または減少させることで、環境条件の変更に徐々に適応することができる。 QoS-Netsは、選択した近似乗算器インスタンスを実行時にレイヤに割り当てることで、これを実現している。 複数個の操作点と再訓練を併用するために,操作点間のパラメータの大部分を,操作点毎に必要となるパラメータの少なさで共有する微調整方式を提案する。 MobileNetV2の評価において、QoS-Netsは3つの異なる演算点に対して4つの近似乗算器インスタンスを選択するのに使用される。 これらの操作ポイントは15.3%から42.8%の乗算で、トップ5の精度損失は0.3から2.33ポイントである。 微調整方式により、3つの操作点全てがモデルのパラメータ数をわずか2.75%だけ増加させる。

In order to vary the arithmetic resource consumption of neural network applications at runtime, this work proposes the flexible reuse of approximate multipliers for neural network layer computations. We introduce a search algorithm that chooses an appropriate subset of approximate multipliers of a user-defined size from a larger search space and enables retraining to maximize task performance. Unlike previous work, our approach can output more than a single, static assignment of approximate multiplier instances to layers. These different operating points allow a system to gradually adapt its Quality of Service (QoS) to changing environmental conditions by increasing or decreasing its accuracy and resource consumption. QoS-Nets achieves this by reassigning the selected approximate multiplier instances to layers at runtime. To combine multiple operating points with the use of retraining, we propose a fine-tuning scheme that shares the majority of parameters between operating points, with only a small amount of additional parameters required per operating point. In our evaluation on MobileNetV2, QoS-Nets is used to select four approximate multiplier instances for three different operating points. These operating points result in power savings for multiplications between 15.3% and 42.8% at a Top-5 accuracy loss between 0.3 and 2.33 percentage points. Through our fine-tuning scheme, all three operating points only increase the model's parameter count by only 2.75%.
翻訳日:2024-10-31 15:06:11 公開日:2024-10-10
# HARIVO:映像生成のためのテキスト・イメージ・モデル

HARIVO: Harnessing Text-to-Image Models for Video Generation ( http://arxiv.org/abs/2410.07763v1 )

ライセンス: Link先を確認
Mingi Kwon, Seoung Wug Oh, Yang Zhou, Difan Liu, Joon-Young Lee, Haoran Cai, Baqiao Liu, Feng Liu, Youngjung Uh, (参考訳) 本稿では,事前学習されたテキスト・ツー・イメージ(T2I)モデルから拡散に基づく映像モデルを作成する手法を提案する。 AnimateDiff氏は最近、時間層のみをトレーニングしながらT2Iモデルを凍結することを提案した。 我々は、独自のアーキテクチャを提案し、オリジナルのT2Iモデルの多様性と創造性を保ちながら、ビデオ生成に適したマッピングネットワークとフレームワイズトークンを組み込んだ。 主要なイノベーションは、時間的滑らか性のための新規な損失関数と緩和勾配サンプリング技術であり、公開ビデオデータに制限があるにもかかわらず、現実的で時間的に一貫したビデオ生成を保証する。 アーキテクチャと損失関数にビデオ固有の帰納バイアスを組み込むことに成功しました。 凍結したStableDiffusionモデルに基づいて構築され、トレーニングプロセスを単純化し、ControlNetやDreamBoothといった市販モデルとのシームレスな統合を可能にします。 プロジェクトページ:https://kwonminki.github.io/HARIVO

We present a method to create diffusion-based video models from pretrained Text-to-Image (T2I) models. Recently, AnimateDiff proposed freezing the T2I model while only training temporal layers. We advance this method by proposing a unique architecture, incorporating a mapping network and frame-wise tokens, tailored for video generation while maintaining the diversity and creativity of the original T2I model. Key innovations include novel loss functions for temporal smoothness and a mitigating gradient sampling technique, ensuring realistic and temporally consistent video generation despite limited public video data. We have successfully integrated video-specific inductive biases into the architecture and loss functions. Our method, built on the frozen StableDiffusion model, simplifies training processes and allows for seamless integration with off-the-shelf models like ControlNet and DreamBooth. project page: https://kwonminki.github.io/HARIVO
翻訳日:2024-10-31 15:06:11 公開日:2024-10-10
# ハイパーグラフニューラルネットワークの解説:ローカル説明からグローバル概念へ

Explaining Hypergraph Neural Networks: From Local Explanations to Global Concepts ( http://arxiv.org/abs/2410.07764v1 )

ライセンス: Link先を確認
Shiye Su, Iulia Duta, Lucie Charlotte Magister, Pietro Liò, (参考訳) ハイパーグラフニューラルネットワークは、ハイパーグラフを通して学習するためにメッセージパッシングパラダイムを利用する強力なモデルのクラスである。 しかし、そのようなモデルは自然に解釈できるものではなく、その説明可能性は非常に制限されている。 我々は、ハイパーグラフニューラルネットワークのための最初のモデルに依存しないポストホック説明器であるSHypXを紹介し、局所的およびグローバル的な説明を提供する。 インスタンスレベルでは、忠実で簡潔に最適化された説明副ハイパーグラフを個別にサンプリングすることで、入力属性を実行する。 モデルレベルでは、教師なし概念抽出を用いて、グローバルな説明副グラフを生成する。 4つの実世界と4つの新しい合成ハイパーグラフデータセットにわたる大規模な実験により、我々の手法は、忠実さと簡潔さのユーザの特定バランスを目標にできる高品質な説明を見つけ、ベースラインを平均で25%向上することを示した。

Hypergraph neural networks are a class of powerful models that leverage the message passing paradigm to learn over hypergraphs, a generalization of graphs well-suited to describing relational data with higher-order interactions. However, such models are not naturally interpretable, and their explainability has received very limited attention. We introduce SHypX, the first model-agnostic post-hoc explainer for hypergraph neural networks that provides both local and global explanations. At the instance-level, it performs input attribution by discretely sampling explanation subhypergraphs optimized to be faithful and concise. At the model-level, it produces global explanation subhypergraphs using unsupervised concept extraction. Extensive experiments across four real-world and four novel, synthetic hypergraph datasets demonstrate that our method finds high-quality explanations which can target a user-specified balance between faithfulness and concision, improving over baselines by 25 percent points in fidelity on average.
翻訳日:2024-10-31 15:06:11 公開日:2024-10-10
# GameTraversalベンチマーク:2Dゲームマップのトラバースによる大規模言語モデルの計画能力の評価

GameTraversalBenchmark: Evaluating Planning Abilities Of Large Language Models Through Traversing 2D Game Maps ( http://arxiv.org/abs/2410.07765v1 )

ライセンス: Link先を確認
Muhammad Umair Nasir, Steven James, Julian Togelius, (参考訳) 大規模言語モデル(LLM)は、最近、自然言語の生成と理解において大きな成功を収めた。 彼らはまた、自然言語の領域を超えた可能性を示したが、これらのLSMがどの程度、どのように計画できるかについては、未解決の疑問である。 多様な2次元グリッドベースのゲームマップからなるベンチマークであるGameTraversalBenchmark(GTB)を提案し,その計画能力を検証した。 LLMは、最小のステップ数と最小の生成エラー数で、与えられた目的を横切ることができれば成功する。 GTBでは, GPT-4-Turbo が GTB\_Score (GTBS) で44.97% のスコアを得た。 さらに, GTBS 上で 67.84 % のスコアを持つ o1 という大推理モデルを予備試験した結果, ベンチマークが現在のモデルでは依然として困難であることが示唆された。 コード、データ、ドキュメントはhttps://github.com/umair-nasir14/Game-Traversal-Benchmarkで公開されている。

Large language models (LLMs) have recently demonstrated great success in generating and understanding natural language. While they have also shown potential beyond the domain of natural language, it remains an open question as to what extent and in which way these LLMs can plan. We investigate their planning capabilities by proposing GameTraversalBenchmark (GTB), a benchmark consisting of diverse 2D grid-based game maps. An LLM succeeds if it can traverse through given objectives, with a minimum number of steps and a minimum number of generation errors. We evaluate a number of LLMs on GTB and found that GPT-4-Turbo achieved the highest score of 44.97% on GTB\_Score (GTBS), a composite score that combines the three above criteria. Furthermore, we preliminarily test large reasoning models, namely o1, which scores $67.84\%$ on GTBS, indicating that the benchmark remains challenging for current models. Code, data, and documentation are available at https://github.com/umair-nasir14/Game-Traversal-Benchmark.
翻訳日:2024-10-31 15:06:11 公開日:2024-10-10
# グラフェン中の光電流と高調波の2色レーザー制御

Two-color laser control of photocurrent and high harmonics in graphene ( http://arxiv.org/abs/2410.07767v1 )

ライセンス: Link先を確認
Minoru Kanega, Masahiro Sato, (参考訳) グラフェンモデルにおける2色レーザー駆動光電流と高調波発生(HHG)を包括的に検討した。 量子マスター方程式を数値的に解くことにより、散逸効果を考慮して弱(摂動)と強レーザー(摂動)の両方を含む広いパラメータ構造を統一的に探索する。 我々は,レーザー場軌道の空間対称性を調整することにより,HHGスペクトルを劇的に変化させることができることを示した。 この制御性は力学対称性の議論によって説明される。 また, 2色レーザーの周波数, 強度, 楕円性, 位相を変化させることで, 光電流(第9次高調波)の大きさと方向を制御できることも示した。 さらに、光電流の性質は、2色レーザーの位相に応じてシフトまたは注入電流タイプに分類される。 中心対称電子系においても、光電流とHHGは、空間対称性や時間対称性の低い多重色レーザーを用いる場合、様々な外部パラメータを調整することで定量的に制御できることを示す。

We comprehensively investigate two-color laser driven photocurrent and high harmonic generation (HHG) in graphene models. By numerically solving the quantum master equation, we unifiedly explore a broad parameter regime including both the weak (perturbative) and intense laser (non-perturbative) cases while considering the dissipation effects. We demonstrate that the HHG spectra can be drastically altered by tuning the spatial symmetry of the laser-field trajectory. This controllability is explained by the dynamical symmetry argument. We also show that both the magnitude and the direction of photocurrent (zero-th order harmonics) can be controlled by varying the frequency, intensity, ellipticity, and phase of the two-color laser. Furthermore, the nature of photocurrent is shown to be classified into shift or injection current types, depending on the phase of two-color laser. Our findings indicate that even in centrosymmetric electron systems, photocurrent and HHG can be quantitatively controlled by adjusting various external parameters if we utilize multiple-color laser with a lower spatial or temporal symmetry.
翻訳日:2024-10-31 15:06:11 公開日:2024-10-10
# LLMプロンプトにおける弁証的行動療法

Dialectical Behavior Therapy Approach to LLM Prompting ( http://arxiv.org/abs/2410.07768v1 )

ライセンス: Link先を確認
Oxana Vitman, Nika Amaglobeli, Paul Plachinda, (参考訳) 大規模言語モデルは、チェーン・オブ・シンクレット(CoT)プロンプト技術を適用する際に、様々な推論タスクに対して最先端の結果を示した。 CoTプロンプトはモデルをいくつかの中間ステップに分割し、ステップバイステップのデモを提供する。 しかし、複雑な推論タスクの解決は依然として課題である。 本稿では,DBT(Dialectical Behavioral Therapy)に触発された新しいプロンプト戦略を提案する。 認知行動療法の一種であるDBTは、推論システムを開発することで、個人がストレスに対処することを支援することを目的としている。 我々はDBTの基本概念であるシェーピングダイアログをプロンプトの構築に適用し,様々なパラメータを持つ異なるデータセットとLLMの実験を行った。 以上の結果から,DBT手法を駆使したプロンプトは,より小さなモデルにおける結果を大幅に改善し,StrategyQAでは7%,Aquaデータセットでは4.8%,StrategyQAでは16.2%,GSM8Kデータセットでは5.3%,14bパラメータモデルでは7%の精度向上を実現した。

Large language models demonstrated state-of-the-art results on various reasoning tasks when applying the chain-of-thought (CoT) prompting technique. CoT prompting guides the model into breaking tasks into a few intermediate steps and provides step-by-step demonstrations. However, solving complex reasoning tasks remains a challenge. In this paper, we propose a novel prompting strategy inspired by Dialectical Behavioral Therapy (DBT). DBT, a form of cognitive-behavioral therapy, aims to help individuals cope with stress by developing a system of reasoning. We applied DBT's basic concepts of shaping dialog to construct prompts and conducted experiments on different datasets and LLMs with various numbers of parameters. Our results show that prompts crafted with DBT techniques significantly improve results on smaller models, achieving a 7% increase in accuracy on the StrategyQA, 4.8% on Aqua dataset using 8b parameters model, and a 16.2% increase on the StrategyQA, 5.3% on GSM8K dataset with 14b parameters model.
翻訳日:2024-10-31 15:06:11 公開日:2024-10-10
# Full-Rank No More: 現代音声認識モデルのための低レベルウェイトトレーニング

Full-Rank No More: Low-Rank Weight Training for Modern Speech Recognition Models ( http://arxiv.org/abs/2410.07771v1 )

ライセンス: Link先を確認
Adriana Fernandez-Lopez, Shiwei Liu, Lu Yin, Stavros Petridis, Maja Pantic, (参考訳) 本稿では,大規模コンフォーマーに基づく音声認識モデルにおける低ランクウェイトトレーニングの未探索領域をスクラッチから検討する。 本研究は,このようなモデルに対するトレーニングパラダイムの有効性を実証し,いくつかの顕著な知見を得た。 まず,注目モジュールのみに低ランク構造を適用することで,有意なランク低下が12%であったとしても,予期せぬ性能向上が期待できることがわかった。 対照的に、フィードフォワード層は、適度な50%のランク低下で性能劣化を示すようになり、より大きな課題を呈する。 さらに,初期化と階層的なランク付けの両方が,低ランクトレーニングの成功に重要な役割を担っていることが判明した。 具体的には,SVD初期化と線形層級数マッピングを用いることで,低ランクウェイトトレーニングの有効性が著しく向上する。 これらの知見に基づいて、Scratch(LR-SMS)による低ランク音声モデル(LR-SMS)を導入し、パラメータ数(少なくとも2倍)とトレーニング時間(ASR 1.3倍、AVSR 1.15倍)を大幅に削減しながら、フルランクトレーニングによるパフォーマンスの同等性を実現する。

This paper investigates the under-explored area of low-rank weight training for large-scale Conformer-based speech recognition models from scratch. Our study demonstrates the viability of this training paradigm for such models, yielding several notable findings. Firstly, we discover that applying a low-rank structure exclusively to the attention modules can unexpectedly enhance performance, even with a significant rank reduction of 12%. In contrast, feed-forward layers present greater challenges, as they begin to exhibit performance degradation with a moderate 50% rank reduction. Furthermore, we find that both initialization and layer-wise rank assignment play critical roles in successful low-rank training. Specifically, employing SVD initialization and linear layer-wise rank mapping significantly boosts the efficacy of low-rank weight training. Building on these insights, we introduce the Low-Rank Speech Model from Scratch (LR-SMS), an approach that achieves performance parity with full-rank training while delivering substantial reductions in parameters count (by at least 2x), and training time speedups (by 1.3x for ASR and 1.15x for AVSR).
翻訳日:2024-10-31 15:06:11 公開日:2024-10-10
# テキストのプライバシーの定量化に向けて

Towards Quantifying The Privacy Of Redacted Text ( http://arxiv.org/abs/2410.07772v1 )

ライセンス: Link先を確認
Vaibhav Gusain, Douglas Leith, (参考訳) 本稿では,k-anonymity-likeアプローチによるテキストのプライバシ評価手法を提案する。 修正されたテキストが与えられたら、最先端のトランスフォーマーベースのディープラーニングネットワークを使用して、元のテキストを再構築します。 これは、複数のフルテキストを生成し、そのテキストは文法的であり、同じ非リラクテッドな単語等を持ち、それらそれぞれを、文章の類似性をキャプチャする埋め込みベクトルを用いて表現する。 このようにして、修正されたテキストと整合したフルテキストの数、多様性、品質を推定し、プライバシーを評価することができる。

In this paper we propose use of a k-anonymity-like approach for evaluating the privacy of redacted text. Given a piece of redacted text we use a state of the art transformer-based deep learning network to reconstruct the original text. This generates multiple full texts that are consistent with the redacted text, i.e. which are grammatical, have the same non-redacted words etc, and represents each of these using an embedding vector that captures sentence similarity. In this way we can estimate the number, diversity and quality of full text consistent with the redacted text and so evaluate privacy.
翻訳日:2024-10-31 15:06:11 公開日:2024-10-10
# 分子接合におけるスピン励起の構造操作

Structural Manipulation of Spin Excitations in a Molecular Junction ( http://arxiv.org/abs/2410.07777v1 )

ライセンス: Link先を確認
Maximilian Kögler, Nicolas Néel, Laurent Limot, Jörg Kröger, (参考訳) 単一のメタロセン分子は、走査トンネル顕微鏡(STM)のプローブを飾る際、感度の高いスピン検出器として機能する。 しかし、原子スケールの電極詳細が分子スピン状態に与える影響は、これまでも解明されていない。 ここでは、Nc〜Cu(111)のアンカーに対するスピン励起スペクトルの依存性を明確に示し、Nc-STM接合を原子的に操作する。 さらに、同じNcの先端のスピン状態は、表面と接触するときに変化可能なスピン励起エネルギーを持つ三重項であるが、Cu原子上の近藤スクリーンの二重項に遷移する。 特に、分子スピンと基板の電子連続体との非自明な磁気交換相互作用は、スピン励起のスペクトル線形状を決定する。

Single metallocene molecules act as sensitive spin detectors when decorating the probe of a scanning tunneling microscope (STM). However, the impact of the atomic-scale electrode details on the molecular spin state has remained elusive to date. Here, a nickelocene (Nc) STM junction is manipulated in an atom-wise manner showing clearly the dependence of the spin excitation spectrum on the anchoring of Nc to Cu(111), a Cu monomer and trimer. Moreover, while the spin state of the same Nc tip is a triplet with tunable spin excitation energies upon contacting the surface, it transitions to a Kondo-screened doublet on a Cu atom. Notably, the non-trivial magnetic exchange interaction of the molecular spin with the electron continuum of the substrate determines the spectral line shape of the spin excitations.
翻訳日:2024-10-31 14:56:00 公開日:2024-10-10
# グリッドサンプリング限界SDEについて

On the grid-sampling limit SDE ( http://arxiv.org/abs/2410.07778v1 )

ライセンス: Link先を確認
Christian Bender, Nguyen Tran Thuan, (参考訳) 最近の研究[3]では、連続的強化学習における探索をモデル化するためのプロキシとしてグリッドサンプリングSDEを導入しました。 本稿では、このSDEの使用動機をさらに明らかにし、ジャンプの有無におけるその正当性について論じる。

In our recent work [3] we introduced the grid-sampling SDE as a proxy for modeling exploration in continuous-time reinforcement learning. In this note, we provide further motivation for the use of this SDE and discuss its wellposedness in the presence of jumps.
翻訳日:2024-10-31 14:56:00 公開日:2024-10-10
# 自動メトリクスによるユーザ嗜好のモデル化:機械翻訳のための高品質選好データセットの作成

Modeling User Preferences with Automatic Metrics: Creating a High-Quality Preference Dataset for Machine Translation ( http://arxiv.org/abs/2410.07779v1 )

ライセンス: Link先を確認
Sweta Agrawal, José G. C. de Souza, Ricardo Rei, António Farinhas, Gonçalo Faria, Patrick Fernandes, Nuno M Guerreiro, Andre Martins, (参考訳) 人間の好みの調整は、正確で安全な大言語モデルを開発するための重要なステップである。 これは機械翻訳(MT)では例外ではなく、言語ニュアンスや文脈固有のバリエーションの扱いが改善される。 しかし,人間のフィードバックに基づく選好データは,大規模に収集・キュレートするのに非常にコストがかかる。 一方、自動メトリクスは好みを誘導するが、人間の期待と完全に一致しないかもしれない。 本稿では,両世界のベストを生かすアプローチを提案する。 まず,複数の高品質MTシステムによって生成された翻訳について,専門言語学者から文レベルの品質評価を収集し,これらの嗜好を回復するための現在の自動メトリクスの能力を評価する。 次に、この分析を用いて、2022年以降に複数のドメインから得られたテキストを用いて、18kの言語方向をカバーするMT-Prefデータセットをキュレートする。 MT-Pref上でTOWERモデルを調整することで,WMT23およびFLORESベンチマークの翻訳品質が大幅に向上することを示す。

Alignment with human preferences is an important step in developing accurate and safe large language models. This is no exception in machine translation (MT), where better handling of language nuances and context-specific variations leads to improved quality. However, preference data based on human feedback can be very expensive to obtain and curate at a large scale. Automatic metrics, on the other hand, can induce preferences, but they might not match human expectations perfectly. In this paper, we propose an approach that leverages the best of both worlds. We first collect sentence-level quality assessments from professional linguists on translations generated by multiple high-quality MT systems and evaluate the ability of current automatic metrics to recover these preferences. We then use this analysis to curate a new dataset, MT-Pref (metric induced translation preference) dataset, which comprises 18k instances covering 18 language directions, using texts sourced from multiple domains post-2022. We show that aligning TOWER models on MT-Pref significantly improves translation quality on WMT23 and FLORES benchmarks.
翻訳日:2024-10-31 14:56:00 公開日:2024-10-10
# 自律走行車のためのニューラルセマンティックマップ学習

Neural Semantic Map-Learning for Autonomous Vehicles ( http://arxiv.org/abs/2410.07780v1 )

ライセンス: Link先を確認
Markus Herb, Nassir Navab, Federico Tombari, (参考訳) 自動運転車は交通を確実に運行するために詳細な地図を要求しており、安全運転を確保するためには最新に維持する必要がある。 地図を道路網に適応させる有望な方法は、車両群からクラウドソースされたデータを使用することだ。 本研究では, 中央の車両群から収集した局所部分写像を融合させて, 乾燥領域, レーンマーキング, ポール, 障害物などを含む道路環境のコヒーレントマップを3次元メッシュとして作成する。 各車両は局所的に再構成されたサブマップを軽量メッシュとして提供し、その手法を広範囲の再構成手法やセンサのモードに適用する。 本手法は,シーン固有のニューラルサイン付き距離場を用いて,雑音と不完全な局所部分マップを協調的に結合し,その部分マップメッシュを用いて,融合した環境表現を予測する。 我々は,記憶効率の高いスパース機能グリッドを活用して大規模にスケールし,シーン再構築における不確実性をモデル化するための信頼スコアを導入する。 提案手法は局所マッピング手法の異なる2つのデータセットで評価され,既存の手法に対するポーズアライメントと再構成の改善が示された。 さらに、マルチセッションマッピングの利点を実証し、自動運転車の高忠実度マップ学習を可能にするために必要なデータ量について検討する。

Autonomous vehicles demand detailed maps to maneuver reliably through traffic, which need to be kept up-to-date to ensure a safe operation. A promising way to adapt the maps to the ever-changing road-network is to use crowd-sourced data from a fleet of vehicles. In this work, we present a mapping system that fuses local submaps gathered from a fleet of vehicles at a central instance to produce a coherent map of the road environment including drivable area, lane markings, poles, obstacles and more as a 3D mesh. Each vehicle contributes locally reconstructed submaps as lightweight meshes, making our method applicable to a wide range of reconstruction methods and sensor modalities. Our method jointly aligns and merges the noisy and incomplete local submaps using a scene-specific Neural Signed Distance Field, which is supervised using the submap meshes to predict a fused environment representation. We leverage memory-efficient sparse feature-grids to scale to large areas and introduce a confidence score to model uncertainty in scene reconstruction. Our approach is evaluated on two datasets with different local mapping methods, showing improved pose alignment and reconstruction over existing methods. Additionally, we demonstrate the benefit of multi-session mapping and examine the required amount of data to enable high-fidelity map learning for autonomous vehicles.
翻訳日:2024-10-31 14:56:00 公開日:2024-10-10
# マルチメディア検索のためのCLIPマルチモーダルハッシュ

CLIP Multi-modal Hashing for Multimedia Retrieval ( http://arxiv.org/abs/2410.07783v1 )

ライセンス: Link先を確認
Jian Zhu, Mingkai Sheng, Zhangmin Huang, Jingfei Chang, Jinling Jiang, Jian Long, Cheng Luo, Lei Liu, (参考訳) マルチモーダルハッシュ法はマルチメディア検索において広く使われており、マルチソースデータを融合してバイナリハッシュコードを生成することができる。 しかし、個々のバックボーンネットワークは特徴表現能力に制限があり、大規模な教師なしマルチモーダルデータで共同で事前訓練されていないため、検索精度は低い。 そこで本研究では,CLIPMH(CLIPMH)法を提案する。 提案手法では,CLIPフレームワークを用いてテキストと視覚の両方の特徴を抽出し,それらを融合してハッシュコードを生成する。 本手法は,各モーダル特徴量の向上により,マルチモーダルハッシュ法の検索性能が向上した。 最先端の教師なしおよび教師付きマルチモーダルハッシュ法と比較して,提案したCLIPMHは性能を著しく向上させる(最大8.38%のmAP増加)。

Multi-modal hashing methods are widely used in multimedia retrieval, which can fuse multi-source data to generate binary hash code. However, the individual backbone networks have limited feature expression capabilities and are not jointly pre-trained on large-scale unsupervised multi-modal data, resulting in low retrieval accuracy. To address this issue, we propose a novel CLIP Multi-modal Hashing (CLIPMH) method. Our method employs the CLIP framework to extract both text and vision features and then fuses them to generate hash code. Due to enhancement on each modal feature, our method has great improvement in the retrieval performance of multi-modal hashing methods. Compared with state-of-the-art unsupervised and supervised multi-modal hashing methods, experiments reveal that the proposed CLIPMH can significantly improve performance (a maximum increase of 8.38% in mAP).
翻訳日:2024-10-31 14:56:00 公開日:2024-10-10
# 量子コンピュータ上での長距離ホッピングによるFermi-Hubbardモデルシミュレーション

Simulating the Fermi-Hubbard model with long-range hopping on a quantum computer ( http://arxiv.org/abs/2410.07789v1 )

ライセンス: Link先を確認
Tatiana A. Bespalova, Karlo Delić, Guido Pupillo, Francesco Tacchino, Ivano Tavernelli, (参考訳) フェミオンハバード模型の半減期における静的および動的特性の研究のために, ディジタル量子アルゴリズムの性能と精度について検討した。 変動量子固有解器 (VQE) と量子運動方程式 (qEOM) を用いて基底状態と励起状態の計算を行い, 時間発展のための積公式分解を行う。 我々は,L=6部位と周期境界条件,電荷とスピンギャップの計算,スペクトル関数,スピンスピンの動的相関のチェーンに対するアプローチをベンチマークした。 基底状態相図の結果は、熱力学限界における既知の結果と定性的に一致している。 最後に,全接続性を持つqubitレジスタやヘキサゴナルカップリングマップ上で,プロトコルの実装に必要なゲート数について,具体的なスケーリングを行う。

We investigate the performance and accuracy of digital quantum algorithms for the study of static and dynamic properties of the fermionic Hubbard model at half-filling with next-nearest neighbour hopping terms. We provide quantum circuits to perform ground and excited states calculations, via the Variational Quantum Eigensolver (VQE) and the Quantum Equation of Motion (qEOM) approach respectively, as well as product formulas decompositions for time evolution. We benchmark our approach on a chain with L=6 sites and periodic boundary conditions, computing the charge and spin gaps, the spectral function and spin-spin dynamic correlations. Our results for the ground state phase diagram are in qualitative agreement with known results in the thermodynamic limit. Finally, we provide concrete scalings for the number of gates needed to implement our protocols on a qubit register with all-to-all connectivities and on a heavy hexagonal coupling map.
翻訳日:2024-10-31 14:56:00 公開日:2024-10-10
# 低ラベルレジームにおけるコントラスト学習によるハイパースペクトル画像予測の強化

Enhancing Hyperspectral Image Prediction with Contrastive Learning in Low-Label Regime ( http://arxiv.org/abs/2410.07790v1 )

ライセンス: Link先を確認
Salma Haidar, José Oramas, (参考訳) 自己教師付きコントラスト学習は、限られたラベル付きデータの課題に対処するための効果的なアプローチである。 本研究は,高スペクトルリモートセンシング画像のための2段階のパッチレベル・マルチラベル分類法に基づく。 本研究では, 単一ラベルと複数ラベルの分類タスクに対して, 特に限られた訓練データのシナリオ下での手法の性能を評価する。 方法論は2つの段階に展開する。 当初、コントラスト学習アプローチを用いてエンコーダとプロジェクションネットワークのトレーニングに重点を置いている。 このステップは、エンコーダの非競合データ内のパターンを識別する能力を高めるために不可欠である。 次に、事前学習したエンコーダを用いて、2つの異なる予測器のトレーニングを指導する。 4つの公開データセットの実証結果から,本手法で訓練した予測器は,完全教師付き手法で訓練した予測器よりも優れた性能を示した。 特に、トレーニングデータの量を50\%$に減らしても、パフォーマンスは維持される。 この利点は両方のタスクで一貫しています。 この手法の有効性は、その合理化されたアーキテクチャに由来する。 この設計では、予測器とともにエンコーダを再訓練することができる。 その結果、エンコーダは分類器によって識別される特徴に適応しやすくなり、全体的な分類性能が向上する。 定性的な分析は、クラス間の分離と位置に基づく特徴の特定を可能にする表現を提供する、対照的な学習ベースのエンコーダの能力を明らかにする。 この観察は、データ内の暗黙の空間情報を明らかにする方法の可能性を示している。

Self-supervised contrastive learning is an effective approach for addressing the challenge of limited labelled data. This study builds upon the previously established two-stage patch-level, multi-label classification method for hyperspectral remote sensing imagery. We evaluate the method's performance for both the single-label and multi-label classification tasks, particularly under scenarios of limited training data. The methodology unfolds in two stages. Initially, we focus on training an encoder and a projection network using a contrastive learning approach. This step is crucial for enhancing the ability of the encoder to discern patterns within the unlabelled data. Next, we employ the pre-trained encoder to guide the training of two distinct predictors: one for multi-label and another for single-label classification. Empirical results on four public datasets show that the predictors trained with our method perform better than those trained under fully supervised techniques. Notably, the performance is maintained even when the amount of training data is reduced by $50\%$. This advantage is consistent across both tasks. The method's effectiveness comes from its streamlined architecture. This design allows for retraining the encoder along with the predictor. As a result, the encoder becomes more adaptable to the features identified by the classifier, improving the overall classification performance. Qualitative analysis reveals the contrastive-learning-based encoder's capability to provide representations that allow separation among classes and identify location-based features despite not being explicitly trained for that. This observation indicates the method's potential in uncovering implicit spatial information within the data.
翻訳日:2024-10-31 14:56:00 公開日:2024-10-10
# 現在の言語モデルはR言語のためのコードインテリジェンスをサポートするか?

Do Current Language Models Support Code Intelligence for R Programming Language? ( http://arxiv.org/abs/2410.07793v1 )

ライセンス: Link先を確認
ZiXiao Zhao, Fatemeh H. Fard, (参考訳) コードのための事前訓練言語モデル(Code-PLMs)の開発における最近の進歩は、ソフトウェア工学(SE)の多くの領域を奨励し、多くのSEタスクにブレークスルー結果をもたらした。 これらのモデルは、JavaやPythonなど、多くの人気のあるプログラミング言語でSEタスクの最先端のパフォーマンスを達成したが、Scientific Softwareとその関連言語であるR言語は、ほとんど恩恵を受けておらず、Code-PLMsで評価もされていない。 研究によると、Rは他のプログラミング言語と多くの違いがあり、特定のテクニックを必要とする。 本研究では,R のコードインテリジェンスに関する最初の知見を提供する。本研究は R データセットをオープンソース化し,コード要約とメソッド名予測の2つのタスクに対するコード-PLMs の評価を行う。 さらに、すべてのモデルが多言語微調整後のR特化タスクのパフォーマンス向上を示すわけではない。 Rの二重構文パラダイムは、特にコード要約タスクにおいて、モデルの性能に大きな影響を及ぼした。 さらに、Rコードベースに固有のプロジェクト固有のコンテキストは、クロスプロジェクトトレーニングを試みる際のパフォーマンスに大きな影響を与えます。

Recent advancements in developing Pre-trained Language Models for Code (Code-PLMs) have urged many areas of Software Engineering (SE) and brought breakthrough results for many SE tasks. Though these models have achieved the state-of-the-art performance for SE tasks for many popular programming languages, such as Java and Python, the Scientific Software and its related languages like R programming language have rarely benefited or even been evaluated with the Code-PLMs. Research has shown that R has many differences with other programming languages and requires specific techniques. In this study, we provide the first insights for code intelligence for R. For this purpose, we collect and open source an R dataset, and evaluate Code-PLMs for the two tasks of code summarization and method name prediction using several settings and strategies, including the differences in two R styles, Tidy-verse and Base R. Our results demonstrate that the studied models have experienced varying degrees of performance degradation when processing R programming language code, which is supported by human evaluation. Additionally, not all models show performance improvement in R-specific tasks even after multi-language fine-tuning. The dual syntax paradigms in R significantly impact the models' performance, particularly in code summarization tasks. Furthermore, the project-specific context inherent in R codebases significantly impacts the performance when attempting cross-project training.
翻訳日:2024-10-31 14:56:00 公開日:2024-10-10
# 命令付き大言語モデルによる会話発話の書き直し

Rewriting Conversational Utterances with Instructed Large Language Models ( http://arxiv.org/abs/2410.07797v1 )

ライセンス: Link先を確認
Elnara Galimzhanova, Cristina Ioana Muntean, Franco Maria Nardini, Raffaele Perego, Guido Rocchietti, (参考訳) 近年の多くの研究は、質問応答、テキスト要約、コーディング、翻訳など、多くのNLPタスクにおける最先端のパフォーマンスを実現するための大規模言語モデル(LLM)の能力を示している。 一部のケースでは、LLMによる結果は、人間の専門家と同等である。 これらのモデルの最も破壊的な革新は、ゼロショットまたは少数ショットプロンプトによってタスクを実行する能力である。 この能力は、人間のフィードバックによる強化学習を使用して、モデルのユーザからの要求に直接従うように指導するLLMの訓練に有効に活用されている。 本稿では,会話環境におけるユーザ質問の書き直しによる会話検索効率向上のためのLLMの指導能力について検討する。 本稿では,最高の検索性能を実現するために,最も情報に富んだ発話を提示する手法について検討する。 TREC CASTデータセットで再現可能な実験を行う。 その結果、LLMによる会話音声の書き直しは、MRRで25.2%、Precision@1で31.7%、NDCG@3で27%、Recall@500で11.5%の大幅な改善が達成された。

Many recent studies have shown the ability of large language models (LLMs) to achieve state-of-the-art performance on many NLP tasks, such as question answering, text summarization, coding, and translation. In some cases, the results provided by LLMs are on par with those of human experts. These models' most disruptive innovation is their ability to perform tasks via zero-shot or few-shot prompting. This capability has been successfully exploited to train instructed LLMs, where reinforcement learning with human feedback is used to guide the model to follow the user's requests directly. In this paper, we investigate the ability of instructed LLMs to improve conversational search effectiveness by rewriting user questions in a conversational setting. We study which prompts provide the most informative rewritten utterances that lead to the best retrieval performance. Reproducible experiments are conducted on publicly-available TREC CAST datasets. The results show that rewriting conversational utterances with instructed LLMs achieves significant improvements of up to 25.2% in MRR, 31.7% in Precision@1, 27% in NDCG@3, and 11.5% in Recall@500 over state-of-the-art techniques.
翻訳日:2024-10-31 14:56:00 公開日:2024-10-10
# マインド・ザ・ギャップ(Mind the Gap) : 変圧器のランク崩壊と信号伝搬のスペクトル解析

Mind the Gap: a Spectral Analysis of Rank Collapse and Signal Propagation in Transformers ( http://arxiv.org/abs/2410.07799v1 )

ライセンス: Link先を確認
Alireza Naderi, Thiziri Nait Saada, Jared Tanner, (参考訳) 注意層は、現在の最先端のニューラルネットワークアーキテクチャであるトランスフォーマーのコアコンポーネントである。 しかし、‘softmaxx-based attention’ はトランスフォーマーの訓練性を危険にさらす。 textit{at initialization} でさえ、ランダムネットワークを通しての信号と勾配の伝播は病理学的であり、結果として既知の問題が発生する。 (i)勾配の消滅・拡大 (ii) \textit{rank collapse} すなわち、すべてのトークンが単一の表現である \textit{with depth} に収束するとき。 本稿では, ランダムマトリクスの観点からのtextit{attention-only} 変圧器の信号伝搬について検討し, その発生源を解明し, 新たな現象を公表する。 (iii) ランク崩壊 \textit{in width}。 Random Markov行列による初期化における \softmaxx-based attention のモデル化により、注目行列の2つの最大の特異値の間の \textit{spectral gap} が原因となることが明らかとなった。 (三) 逆に悪化する (i)および (II)。 この知見に基づいて,スペクトルギャップを除去し,広帯域におけるランク崩壊を解消する,新しい,シンプルかつ実用的な解法を提案する。 さらに,本研究の成果を検証し,既定パラメータスケーリングの修正を動機とした実験を通じて,提案手法のトレーニング効果について考察する。 注意モデルでは, 単一層トランスにおける標準キークエリアテンションを正確に記述し, マルチ層ケースにおける初期化のダイナミクスをよりよく理解するための重要な第一歩となる。

Attention layers are the core component of transformers, the current state-of-the-art neural network architecture. However, \softmaxx-based attention puts transformers' trainability at risk. Even \textit{at initialisation}, the propagation of signals and gradients through the random network can be pathological, resulting in known issues such as (i) vanishing/exploding gradients and (ii) \textit{rank collapse}, i.e. when all tokens converge to a single representation \textit{with depth}. This paper examines signal propagation in \textit{attention-only} transformers from a random matrix perspective, illuminating the origin of such issues, as well as unveiling a new phenomenon -- (iii) rank collapse \textit{in width}. Modelling \softmaxx-based attention at initialisation with Random Markov matrices, our theoretical analysis reveals that a \textit{spectral gap} between the two largest singular values of the attention matrix causes (iii), which, in turn, exacerbates (i) and (ii). Building on this insight, we propose a novel, yet simple, practical solution to resolve rank collapse in width by removing the spectral gap. Moreover, we validate our findings and discuss the training benefits of the proposed fix through experiments that also motivate a revision of some of the default parameter scaling. Our attention model accurately describes the standard key-query attention in a single-layer transformer, making this work a significant first step towards a better understanding of the initialisation dynamics in the multi-layer case.
翻訳日:2024-10-31 14:46:14 公開日:2024-10-10
# MGMD-GAN:マルチジェネレータ・マルチディスクリミネータによるジェネレーション・ディバイザ・ネットワークの汎用化

MGMD-GAN: Generalization Improvement of Generative Adversarial Networks with Multiple Generator Multiple Discriminator Framework Against Membership Inference Attacks ( http://arxiv.org/abs/2410.07803v1 )

ライセンス: Link先を確認
Nirob Arefin, (参考訳) GAN(Generative Adversarial Networks)は、様々なアプリケーションで広く使われているジェネレーティブモデルの一つである。 しかし、元のGANアーキテクチャはトレーニングデータの分布を記憶し、したがってメンバーシップ推論攻撃に脅威をもたらす可能性がある。 本稿では,複数のジェネレータと複数の識別器(MGMD-GAN)で構成される新しいGANフレームワークを提案する。 トレーニングデータの分離パーティションは、このモデルをトレーニングするために使用され、トレーニングデータパーティションの混合分布を学習する。 このようにして、提案したモデルは、MGMD-GANがメンバーシップ推論攻撃に弱いように、一般化ギャップを小さくする。 我々は、モデルの実験的な分析と、他のGANフレームワークとの比較を提供する。

Generative Adversarial Networks (GAN) are among the widely used Generative models in various applications. However, the original GAN architecture may memorize the distribution of the training data and, therefore, poses a threat to Membership Inference Attacks. In this work, we propose a new GAN framework that consists of Multiple Generators and Multiple Discriminators (MGMD-GAN). Disjoint partitions of the training data are used to train this model and it learns the mixture distribution of all the training data partitions. In this way, our proposed model reduces the generalization gap which makes our MGMD-GAN less vulnerable to Membership Inference Attacks. We provide an experimental analysis of our model and also a comparison with other GAN frameworks.
翻訳日:2024-10-31 14:46:14 公開日:2024-10-10
# 自己完結型量子冷凍の実験的実現

Experimental Realization of Self-Contained Quantum Refrigeration ( http://arxiv.org/abs/2410.07805v1 )

ライセンス: Link先を確認
Keyi Huang, Cheng Xi, Xinyue Long, Hongfeng Liu, Yu-ang Fan, Xiangyu Wang, Yuxuan Zheng, Yufang Feng, Xinfang Nie, Dawei Lu, (参考訳) 量子熱力学における基本的な課題は、熱力学機械の固有次元制約の探索である。 2段階のシステムでは、最もコンパクトな冷蔵庫は3つの実体の関与を必要とし、外部の作業源の使用を妨げる自己完結した条件の下で作動する。 ここでは、核スピンシステムを用いて、同じ分子に3つの異なる2レベル炭素-13核が関与し、冷却プロセスを促進するという、そのような小さな冷蔵庫を構築します。 自己完結型の機能は、外部の作業に頼らずに動作可能で、ユニークなメカニズムは、この冷蔵庫を従来の冷蔵庫とは別物にしている。 本研究では, 様々な条件下での性能評価を行い, 熱力学と量子情報との相互作用に光を当てるシナリオのスペクトルにわたって, 冷却の制約を系統的に検討する。

A fundamental challenge in quantum thermodynamics is the exploration of inherent dimensional constraints in thermodynamic machines. In the context of two-level systems, the most compact refrigerator necessitates the involvement of three entities, operating under self-contained conditions that preclude the use of external work sources. Here, we build such a smallest refrigerator using a nuclear spin system, where three distinct two-level carbon-13 nuclei in the same molecule are involved to facilitate the refrigeration process. The self-contained feature enables it to operate without relying on net external work, and the unique mechanism sets this refrigerator apart from its classical counterparts. We evaluate its performance under varying conditions and systematically scrutinize the cooling constraints across a spectrum of scenarios, which sheds light on the interplay between quantum information and thermodynamics.
翻訳日:2024-10-31 14:46:14 公開日:2024-10-10
# 北極圏における深部・確率的な太陽放射予測

Deep and Probabilistic Solar Irradiance Forecast at the Arctic Circle ( http://arxiv.org/abs/2410.07806v1 )

ライセンス: Link先を確認
Niklas Erdmann, Lars Ø. Bentsen, Roy Stenbro, Heine N. Riise, Narada Warakagoda, Paal Engelstad, (参考訳) 太陽放射の予測は、気象条件の変化により動的で信頼性が低い。 北極圏の近くでは、これはまた別の課題の集合に翻訳される。 この研究は、Long-Short-Term Memory Unit (LSTM) のバリエーションを用いて、ノルウェーのデータと太陽の照度を予測している。 結果の信頼性を高めるために、LSTM上では、QR(Quantile Regression)とMLE(Maximum Likelihood)の確率論的アプローチが最適化され、結果の不確実性の尺度が提供される。 MLE はさらにジョンソンの SU 分布、ジョンソンの SB 分布、ワイブル分布を用いて拡張される。 ガウス、ワイブル、ジョンソンのSU、ジョンソンのSBは歪んだ分布を返すことができ、非正規の太陽放射分布をより最適に適合させることができる。 LSTMは、単純な多層パーセプトロン(MLP)とスマートパースペンス推定器で比較される。 提案したLSTMは、スマート永続性よりも正確であり、マルチホライゾン・デイアヘッド(36時間)予測のためのMLPである。 決定論的LSTMは、根平均二乗誤差(RMSE)が、ジョンソンのSB分布を持つMLEよりも悪い平均絶対誤差(MAE)が見られた。 確率的不確実性推定は、観測された照射の分布に比較的よく適合している。 QRはより良い不確実性推定キャリブレーションを示すが、ジョンソンのSB、ジョンソンのSU、ガウスのMLEは、他の測定値よりも優れた性能を示す。 モデルを互いに最適化し比較すると、ポイント予測と不確実性推定のキャリブレーションの間に本質的にトレードオフがあるように見える。

Solar irradiance forecasts can be dynamic and unreliable due to changing weather conditions. Near the Arctic circle, this also translates into a distinct set of further challenges. This work is forecasting solar irradiance with Norwegian data using variations of Long-Short-Term Memory units (LSTMs). In order to gain more trustworthiness of results, the probabilistic approaches Quantile Regression (QR) and Maximum Likelihood (MLE) are optimized on top of the LSTMs, providing measures of uncertainty for the results. MLE is further extended by using a Johnson's SU distribution, a Johnson's SB distribution, and a Weibull distribution in addition to a normal Gaussian to model parameters. Contrary to a Gaussian, Weibull, Johnson's SU and Johnson's SB can return skewed distributions, enabling it to fit the non-normal solar irradiance distribution more optimally. The LSTMs are compared against each other, a simple Multi-layer Perceptron (MLP), and a smart-persistence estimator. The proposed LSTMs are found to be more accurate than smart persistence and the MLP for a multi-horizon, day-ahead (36 hours) forecast. The deterministic LSTM showed better root mean squared error (RMSE), but worse mean absolute error (MAE) than a MLE with Johnson's SB distribution. Probabilistic uncertainty estimation is shown to fit relatively well across the distribution of observed irradiance. While QR shows better uncertainty estimation calibration, MLE with Johnson's SB, Johnson's SU, or Gaussian show better performance in the other metrics employed. Optimizing and comparing the models against each other reveals a seemingly inherent trade-off between point-prediction and uncertainty estimation calibration.
翻訳日:2024-10-31 14:46:14 公開日:2024-10-10
# スピン量子シミュレータへのハイブリッド量子古典的アプローチによる単一不純物アンダーソンモデルの自己整合性決定

Self-Consistent Determination of Single-Impurity Anderson Model Using Hybrid Quantum-Classical Approach on a Spin Quantum Simulator ( http://arxiv.org/abs/2410.07808v1 )

ライセンス: Link先を確認
Xinfang Nie, Xuanran Zhu, Yu-ang Fan, Xinyue Long, Hongfeng Liu, Keyi Huang, Cheng Xi, Liangyu Che, Yuxuan Zheng, Yufang Feng, Xiaodong Yang, Dawei Lu, (参考訳) 第一原理法を用いて強相関物質の電子構造を正確に決定することは、凝縮物質物理学、計算化学、材料科学において最重要となる。 しかし、計算資源の急激なスケーリングにより、そのような材料を古典的な計算フレームワークに組み込むことは違法にコストがかかる。 2016年、バウアーらは相関物質Physに対するハイブリッド量子古典的アプローチを提案した。 複雑な相関物質の電子構造に効果的に取り組むことができるX6,031045 (2016)}]。 ここでは, 強い相関性を持つ材料にかかわる計算課題に対処するためのアプローチを実験的に示す。 量子計算を古典コンピュータにシームレスに統合することにより、計算の最も計算に要求される側面、すなわちスピン量子プロセッサを用いたグリーン関数の計算に対処する。 さらに,量子計算と古典計算のフィードバックループを用いて,単一不純物アンダーソンモデルの自己整合性決定を実現する。 金属相からモット絶縁体へのハバードモデルの量子相転移は、電子相関の強さが増加するにつれて観測される。 制御率の高い量子ビットの数は増え続けており、我々の実験結果により、強い相関を持つ結晶性物質や複雑な分子といった、より複雑なモデルの解法が導かれる。

The accurate determination of the electronic structure of strongly correlated materials using first principle methods is of paramount importance in condensed matter physics, computational chemistry, and material science. However, due to the exponential scaling of computational resources, incorporating such materials into classical computation frameworks becomes prohibitively expensive. In 2016, Bauer et al. proposed a hybrid quantum-classical approach to correlated materials Phys. Rev. X 6, 031045 (2016)}] that can efficiently tackle the electronic structure of complex correlated materials. Here, we experimentally demonstrate that approach to tackle the computational challenges associated with strongly correlated materials. By seamlessly integrating quantum computation into classical computers, we address the most computationally demanding aspect of the calculation, namely the computation of the Green's function, using a spin quantum processor. Furthermore, we realize a self-consistent determination of the single impurity Anderson model through a feedback loop between quantum and classical computations. A quantum phase transition in the Hubbard model from the metallic phase to the Mott insulator is observed as the strength of electron correlation increases. As the number of qubits with high control fidelity continues to grow, our experimental findings pave the way for solving even more complex models, such as strongly correlated crystalline materials or intricate molecules.
翻訳日:2024-10-31 14:46:14 公開日:2024-10-10
# 言語学的にインフォームドされた多言語インストラクションチューニング: チューンに最適な言語セットはあるか?

Linguistically-Informed Multilingual Instruction Tuning: Is There an Optimal Set of Languages to Tune? ( http://arxiv.org/abs/2410.07809v1 )

ライセンス: Link先を確認
Gürkan Soykan, Gözde Gül Şahin, (参考訳) 多言語言語モデルは、いくつかの言語に対する限定的な一般化能力のため、様々な言語で不均一に機能することが多い。 この問題は、すべての言語でうまく機能するユニバーサル言語モデルを作ることへの関心が高まっているため、重要である。 多言語命令応答対を用いたインストラクションチューニングは、様々な言語でのモデル性能向上に利用されてきた。 しかし、このアプローチは高い計算コスト、全ての言語に対する品質チューニングデータの欠如、そして多くの言語を追加して言語ごとのパフォーマンスが低下する「多言語化のカウンセリング」によって挑戦されている。 最近の研究によると、少数の言語と少数のインスタンスでデータセットを扱うことは有益である。 しかし、異なる言語を選択することが多言語命令のチューニングにどのように影響するかについては、体系的な研究は存在しない。 そこで本研究では,言語やタスク間のモデル性能向上を目的として,言語的に情報提供された指導用言語を選択する手法を提案する。 簡単なアルゴリズムを用いて、多様な言語を選択し、様々なベンチマークやオープンエンドの質問でそれらの有効性をテストする。 その結果、この慎重な選択は、言語をランダムに選択するよりも、より優れた結果をもたらすことがわかった。 より優れた多言語システムの構築とデータセット作成の指針となる言語的特徴に基づいて多様な言語を選択することで、多言語モデルを強化する新しいシンプルな方法を提案する。 言語選択と多言語命令チューニングのコードを含むすべてのリソースは、この領域の再現性とさらなる研究を可能にする、https://github.com/GGLAB-KU/ling-informed-mitのオフィシャルリポジトリで利用可能である。

Multilingual language models often perform unevenly across different languages due to limited generalization capabilities for some languages. This issue is significant because of the growing interest in making universal language models that work well for all languages. Instruction tuning with multilingual instruction-response pairs has been used to improve model performance across various languages. However, this approach is challenged by high computational costs, a lack of quality tuning data for all languages, and the "curse of multilinguality" -- the performance drop per language after adding many languages. Recent studies have found that working with datasets with few languages and a smaller number of instances can be beneficial. Yet, there exists no systematic investigation into how choosing different languages affects multilingual instruction tuning. Our study proposes a method to select languages for instruction tuning in a linguistically informed way, aiming to boost model performance across languages and tasks. We use a simple algorithm to choose diverse languages and test their effectiveness on various benchmarks and open-ended questions. Our results show that this careful selection generally leads to better outcomes than choosing languages at random. We suggest a new and simple way of enhancing multilingual models by selecting diverse languages based on linguistic features that could help develop better multilingual systems and guide dataset creation efforts. All resources, including the code for language selection and multilingual instruction tuning, are made available in our official repository at https://github.com/GGLAB-KU/ling-informed-mit enabling reproducibility and further research in this area.
翻訳日:2024-10-31 14:46:14 公開日:2024-10-10
# ロバストIoT防衛に向けて:資源制約シナリオにおける攻撃検出の比較統計

Towards Robust IoT Defense: Comparative Statistics of Attack Detection in Resource-Constrained Scenarios ( http://arxiv.org/abs/2410.07810v1 )

ライセンス: Link先を確認
Zainab Alwaisi, Simone Soderi, (参考訳) リソースの制約はIoTスマートデバイスに重大なサイバーセキュリティの脅威をもたらし、エネルギーやメモリをターゲットとするさまざまな攻撃に対して脆弱になる。 本研究は、スマートデバイスにおけるリソース関連のインシデントによる、革新的なセキュリティ対策の必要性を浮き彫りにする。 本稿では,資源制約下でのサイバー攻撃検出アルゴリズムの統計的解析を行い,最も効率的なものを特定する。 我々の研究は、以前の研究を含む様々なアルゴリズムの比較分析を含む。 具体的には、リソース制限されたサイバー攻撃を検出するための軽量なアルゴリズムと、同じ目的で設計された他のアルゴリズムとの比較を行う。 後者は検出にTinyMLを使用している。 提案アルゴリズムの包括的評価に加えて,資源制約攻撃に対する新しい検出手法を導入した。 この方法はプロトコルデータを解析し、最終データパケットを正常またはアタックとして分類する。 攻撃されたデータは、装置のメモリとエネルギー消費の観点からさらに分析され、それがエネルギかメモリアタックか、または他の種類の悪意のある活動かが判断される。 提案アルゴリズムの性能を,精度,PoD,PoFA,PoMの4つの評価指標を用いて比較した。 提案する動的手法は,攻撃検出の最良の結果で分類器を動的に選択し,リソース制約されたIoT環境においても最適な性能を確保する。 提案アルゴリズムは,TinyMLを用いたアルゴリズムの精度が99.3\%,98.2\%,99.4\%,97.3\%,誤報の確率が1.23\%,1.64\%,誤判定の確率が1.64\%,1.46。 対照的に、新規検出機構の精度は、RFでは99.5倍、SVMでは97倍である。

Resource constraints pose a significant cybersecurity threat to IoT smart devices, making them vulnerable to various attacks, including those targeting energy and memory. This study underscores the need for innovative security measures due to resource-related incidents in smart devices. In this paper, we conduct an extensive statistical analysis of cyberattack detection algorithms under resource constraints to identify the most efficient one. Our research involves a comparative analysis of various algorithms, including those from our previous work. We specifically compare a lightweight algorithm for detecting resource-constrained cyberattacks with another designed for the same purpose. The latter employs TinyML for detection. In addition to the comprehensive evaluation of the proposed algorithms, we introduced a novel detection method for resource-constrained attacks. This method involves analyzing protocol data and categorizing the final data packet as normal or attacked. The attacked data is further analyzed in terms of the memory and energy consumption of the devices to determine whether it is an energy or memory attack or another form of malicious activity. We compare the suggested algorithm performance using four evaluation metrics: accuracy, PoD, PoFA, and PoM. The proposed dynamic techniques dynamically select the classifier with the best results for detecting attacks, ensuring optimal performance even within resource-constrained IoT environments. The results indicate that the proposed algorithms outperform the existing works with accuracy for algorithms with TinyML and without TinyML of 99.3\%, 98.2\%, a probability of detection of 99.4\%, 97.3\%, a probability of false alarm of 1.23\%, 1.64\%, a probability of misdetection of 1.64\%, 1.46 respectively. In contrast, the accuracy of the novel detection mechanism exceeds 99.5\% for RF and 97\% for SVM.
翻訳日:2024-10-31 14:46:14 公開日:2024-10-10
# 時間差変動連続学習

Temporal-Difference Variational Continual Learning ( http://arxiv.org/abs/2410.07812v1 )

ライセンス: Link先を確認
Luckeciano C. Melo, Alessandro Abate, Yarin Gal, (参考訳) 現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。 この適応性は、時間とともにデータ生成の分散において、潜在的に避けられない変化に応答することを可能にする。 しかしながら、継続学習(CL)設定では、モデルは以前の知識(メモリ安定性)を保持することで、新しいタスク(塑性)の学習のバランスをとるのに苦労することが多い。 結果として、それらは、パフォーマンスを低下させ、デプロイされたシステムの信頼性を損なうカタストロフィック・フォージッティング(Caastrophic Forgetting)の影響を受けやすい。 変分連続学習法は, 再帰的に後続分布を更新し, 最新推定値に近づき続ける学習目標を用いて, この課題に対処する。 しかし, 逐次再帰に対する近似誤差が混在しているため, これらの手法は有効でない可能性がある。 これを軽減するために,複数回の先行推定の正規化効果を統合した新たな学習目標を提案する。 強化学習と神経科学の一般的な学習メカニズムである時間差法とこれらの目的との関係を明らかにする。 提案手法は,標準変分CL法および非変分ベースラインよりも優れた性能を示し,破滅的予測を効果的に緩和するものである。

A crucial capability of Machine Learning models in real-world applications is the ability to continuously learn new tasks. This adaptability allows them to respond to potentially inevitable shifts in the data-generating distribution over time. However, in Continual Learning (CL) settings, models often struggle to balance learning new tasks (plasticity) with retaining previous knowledge (memory stability). Consequently, they are susceptible to Catastrophic Forgetting, which degrades performance and undermines the reliability of deployed systems. Variational Continual Learning methods tackle this challenge by employing a learning objective that recursively updates the posterior distribution and enforces it to stay close to the latest posterior estimate. Nonetheless, we argue that these methods may be ineffective due to compounding approximation errors over successive recursions. To mitigate this, we propose new learning objectives that integrate the regularization effects of multiple previous posterior estimations, preventing individual errors from dominating future posterior updates and compounding over time. We reveal insightful connections between these objectives and Temporal-Difference methods, a popular learning mechanism in Reinforcement Learning and Neuroscience. We evaluate the proposed objectives on challenging versions of popular CL benchmarks, demonstrating that they outperform standard Variational CL methods and non-variational baselines, effectively alleviating Catastrophic Forgetting.
翻訳日:2024-10-31 14:46:14 公開日:2024-10-10
# Simple ReFlow: 高速フローモデルのための改善された技術

Simple ReFlow: Improved Techniques for Fast Flow Models ( http://arxiv.org/abs/2410.07815v1 )

ライセンス: Link先を確認
Beomsu Kim, Yu-Guan Hsieh, Michal Klein, Marco Cuturi, Jong Chul Ye, Bahjat Kawar, James Thornton, (参考訳) 拡散およびフローマッチングモデルは、顕著な生成性能を達成するが、多くのサンプリングステップのコストがかかると、推論が遅くなり、時間クリティカルなタスクへの適用性が制限される。 ReFlowプロシージャは、生成軌道のストレート化によってサンプリングを高速化することができる。 しかし、ReFlowは反復的な手順であり、典型的にはシミュレーションデータのトレーニングを必要とし、結果としてサンプルの品質が低下する。 サンプル劣化を軽減するため,ReFlowの設計空間を検証し,事前のヒューリスティックな実践における潜在的な落とし穴を浮き彫りにする。 次に, CIFAR10 3,2 \times 32$, AFHQv2 6,4 \times 64$, FFHQ 6,4 \times 64$について, 徹底的なアブレーション研究により検証した。 すべての技術を組み合わせて、ニューラルネットワークによる高速な生成のための最先端のFIDスコア(/ガイダンスなし、参照なし)を、2.23$ / $1.98$ on CIFAR10、$2.30$ / $1.91$ on AFHQv2、$2.84$ / $2.67$ on FFHQ、$3.49$ / $1.74$ on ImageNet-64。

Diffusion and flow-matching models achieve remarkable generative performance but at the cost of many sampling steps, this slows inference and limits applicability to time-critical tasks. The ReFlow procedure can accelerate sampling by straightening generation trajectories. However, ReFlow is an iterative procedure, typically requiring training on simulated data, and results in reduced sample quality. To mitigate sample deterioration, we examine the design space of ReFlow and highlight potential pitfalls in prior heuristic practices. We then propose seven improvements for training dynamics, learning and inference, which are verified with thorough ablation studies on CIFAR10 $32 \times 32$, AFHQv2 $64 \times 64$, and FFHQ $64 \times 64$. Combining all our techniques, we achieve state-of-the-art FID scores (without / with guidance, resp.) for fast generation via neural ODEs: $2.23$ / $1.98$ on CIFAR10, $2.30$ / $1.91$ on AFHQv2, $2.84$ / $2.67$ on FFHQ, and $3.49$ / $1.74$ on ImageNet-64, all with merely $9$ neural function evaluations.
翻訳日:2024-10-31 14:46:14 公開日:2024-10-10
# 固定結合および固定周波数トランスモン量子ビットのためのマイクロ波活性化2量子ゲート

Microwave-activated two-qubit gates for fixed-coupling and fixed-frequency transmon qubits ( http://arxiv.org/abs/2410.07817v1 )

ライセンス: Link先を確認
Ling Jiang, Peng Xu, Shengjun Wu, Jian-An Sun, Fu-Quan Dou, (参考訳) 固定周波数超伝導量子系の全マイクロ波制御は、制御回路の複雑さを低減し、系コヒーレンスを増大させる可能性がある。 それでも、量子ビットパラメータの制御の柔軟性が制限されているため、量子クロストークや周波数群集といった、可変でない要素で量子ビットアーキテクチャをスケールアップするためのいくつかの問題に対処する必要がある。 本研究では、固定周波数トランスモンカプラを介して結合された2つの固定周波数トランスモンキュービットに対するマイクロ波活性化2量子ゲート方式を提案する。 このプロトコルはカプラのみにマイクロ波パルスを適用することに依存しており、制御Z(CZ)ゲートの実装を可能にする。 その結果, 脱コヒーレンス効果を除いて, 0.999以上のゲート忠実度を150 ns以内で達成できることが判明した。 また,計算部分空間から非計算状態へのリークも効果的に抑制できることを示す。

All-microwave control of fixed-frequency superconducting quantum systems offers the potential to reduce control circuit complexity and increase system coherence. Nevertheless, due to the limited control flexibility in qubit parameters, one has to address several issues, such as quantum crosstalk and frequency crowding, for scaling up qubit architecture with non-tunable elements. This study proposes a microwave-activated two-qubit gate scheme for two fixed-frequency transmon qubits coupled via a fixed-frequency transmon coupler. The protocol relies on applying a microwave pulse exclusively to the coupler, enabling the implementation of a controlled-Z (CZ) gate. We show that the gate fidelity exceeding 0.999 can be achieved within 150 ns, excluding decoherence effects. Moreover, we also show that leakage from the computational subspace to non-computational states can also be effectively suppressed.
翻訳日:2024-10-31 14:46:14 公開日:2024-10-10
# 大規模言語モデル編集におけるオーバーフィッティングの発見

Uncovering Overfitting in Large Language Model Editing ( http://arxiv.org/abs/2410.07819v1 )

ライセンス: Link先を確認
Mengqi Zhang, Xiaotian Ye, Qiang Liu, Pengjie Ren, Shu Wu, Zhumin Chen, (参考訳) 大規模言語モデル(LLM)の内部知識の更新と修正に有効な手法として知識編集が提案されている。 しかし、既存の編集手法は、マルチホップ推論のような複雑なタスクに悩まされることが多い。 本稿では,編集対象に不均等に高い確率を割り当て,複雑なシナリオにおける新たな知識の一般化を妨げる編集オーバーフィット現象を同定し,検討する。 この問題は、各編集サンプルに対する入力プロンプトと編集対象との直接対応に過度に重点を置いている、現在の編集パラダイムに起因している。 この問題をさらに調査するため,新しいベンチマークEVOKE (EValuation of Editing Overfit in Knowledge Editing) と詳細な評価指標を導入する。 総合的な実験と分析を通じて、現在の編集手法では編集オーバーフィッティングが一般的であり、共通オーバーフィッティング緩和戦略は知識編集において限られた効果を有することを示した。 この問題を解決するために,LLMの知識リコール機構に触発されたLearning to Inference (LTI) と呼ばれる新しいプラグイン・アンド・プレイ戦略を提案する。 広範囲なタスクにわたる大規模な実験結果から,編集オーバーフィット軽減におけるLTIの有効性が検証された。

Knowledge editing has been proposed as an effective method for updating and correcting the internal knowledge of Large Language Models (LLMs). However, existing editing methods often struggle with complex tasks, such as multi-hop reasoning. In this paper, we identify and investigate the phenomenon of Editing Overfit, where edited models assign disproportionately high probabilities to the edit target, hindering the generalization of new knowledge in complex scenarios. We attribute this issue to the current editing paradigm, which places excessive emphasis on the direct correspondence between the input prompt and the edit target for each edit sample. To further explore this issue, we introduce a new benchmark, EVOKE (EValuation of Editing Overfit in Knowledge Editing), along with fine-grained evaluation metrics. Through comprehensive experiments and analysis, we demonstrate that Editing Overfit is prevalent in current editing methods and that common overfitting mitigation strategies are of limited effectiveness in knowledge editing. To overcome this, inspired by LLMs' knowledge recall mechanisms, we propose a new plug-and-play strategy called Learn to Inference (LTI), which introduce a Multi-stage Inference Constraint module to guide the edited models in recalling new knowledge similarly to how unedited LLMs leverage knowledge through in-context learning. Extensive experimental results across a wide range of tasks validate the effectiveness of LTI in mitigating Editing Overfit.
翻訳日:2024-10-31 14:46:14 公開日:2024-10-10
# モデル編集による大規模言語モデルにおけるジェンダーバイアスの緩和

Mitigating Gender Bias in Code Large Language Models via Model Editing ( http://arxiv.org/abs/2410.07820v1 )

ライセンス: Link先を確認
Zhanyue Qin, Haochuan Wang, Zecheng Wang, Deyuan Liu, Cunhang Fan, Zhao Lv, Zhiying Tu, Dianhui Chu, Dianbo Sui, (参考訳) 近年,大規模言語モデル(LLM)技術の成熟と高品質なプログラミングコードデータセットの出現により,研究者はプログラム合成の課題に自動的に取り組むことに自信を持つようになった。 しかし, LLMのトレーニングサンプルの多くはスクリーニングされていないため, LLMのパフォーマンスが現実のシナリオと一致しないことは避けられないため, 社会的偏見の存在につながる。 コードLLMにおけるジェンダーバイアスの評価と定量化のために,コードGenBias(コードジェネレーションにおけるジェンダーバイアス)というデータセットと,相関専門職の実際のジェンダー分布に基づくFBスコア(Factual Bias Score)と呼ばれる評価指標を提案する。 CodeGenBiasとFB-Scoreの助けを借りて、8つの主要なCode LLMにおける性別バイアスを評価し分析する。 これまでの研究では、知識編集に優れたモデル編集手法が、LLMにおける社会的バイアスを軽減する可能性があることが示されている。 そこで我々はMG-Editing (Multi-Granularity Model Editing) と呼ばれるモデル編集手法を開発し,その配置と編集のフェーズを含む。 モデル編集手法MG-Editingは, モデルパラメータの粒度レベル, 層レベル, モジュールレベル, 行レベル, ニューロンレベルの5つの異なるレベルに適用できる。 大規模な実験は、MG編集が一般的なコード生成能力を保ちながら、コードLLMの性別バイアスを効果的に軽減できるだけでなく、その優れた一般化も示している。 同時に、実験結果から、モデルの性別バイアスと一般的なコード生成能力の両方を考慮すると、MG-Editingは行やニューロンの粒度において最も効果的であることが示された。

In recent years, with the maturation of large language model (LLM) technology and the emergence of high-quality programming code datasets, researchers have become increasingly confident in addressing the challenges of program synthesis automatically. However, since most of the training samples for LLMs are unscreened, it is inevitable that LLMs' performance may not align with real-world scenarios, leading to the presence of social bias. To evaluate and quantify the gender bias in code LLMs, we propose a dataset named CodeGenBias (Gender Bias in the Code Generation) and an evaluation metric called FB-Score (Factual Bias Score) based on the actual gender distribution of correlative professions. With the help of CodeGenBias and FB-Score, we evaluate and analyze the gender bias in eight mainstream Code LLMs. Previous work has demonstrated that model editing methods that perform well in knowledge editing have the potential to mitigate social bias in LLMs. Therefore, we develop a model editing approach named MG-Editing (Multi-Granularity model Editing), which includes the locating and editing phases. Our model editing method MG-Editing can be applied at five different levels of model parameter granularity: full parameters level, layer level, module level, row level, and neuron level. Extensive experiments not only demonstrate that our MG-Editing can effectively mitigate the gender bias in code LLMs while maintaining their general code generation capabilities, but also showcase its excellent generalization. At the same time, the experimental results show that, considering both the gender bias of the model and its general code generation capability, MG-Editing is most effective when applied at the row and neuron levels of granularity.
翻訳日:2024-10-31 14:46:14 公開日:2024-10-10
# リモートセンシング画像変化検出のための基礎モデル探索:総合的調査

Exploring Foundation Models in Remote Sensing Image Change Detection: A Comprehensive Survey ( http://arxiv.org/abs/2410.07824v1 )

ライセンス: Link先を確認
Zihan Yu, Tianxiao Li, Yuxin Zhu, Rongze Pan, (参考訳) リモートセンシングの分野では, 環境モニタリング, 都市開発, 土地利用分析などの分野に広く応用されており, 近年, 深層学習, 特に基礎モデルの開発が, 特徴抽出とデータ融合のための強力なソリューションを提供しており, それらの複雑さに効果的に対処している。 本稿では, リモートセンシングタスクにおける基礎モデルの適用を中心に, 変更検出の分野における最新の進歩を体系的にレビューする。

Change detection, as an important and widely applied technique in the field of remote sensing, aims to analyze changes in surface areas over time and has broad applications in areas such as environmental monitoring, urban development, and land use analysis.In recent years, deep learning, especially the development of foundation models, has provided more powerful solutions for feature extraction and data fusion, effectively addressing these complexities. This paper systematically reviews the latest advancements in the field of change detection, with a focus on the application of foundation models in remote sensing tasks.
翻訳日:2024-10-31 14:46:14 公開日:2024-10-10
# 多言語能力強化大言語モデル構築のための抽出と伝達能力

Extracting and Transferring Abilities For Building Multi-lingual Ability-enhanced Large Language Models ( http://arxiv.org/abs/2410.07825v1 )

ライセンス: Link先を確認
Zhipeng Chen, Liang Song, Kun Zhou, Wayne Xin Zhao, Bingning Wang, Weipeng Chen, Ji-Rong Wen, (参考訳) 大規模言語モデル(LLM)の幅広い応用において,多言語能力の伝達がますます重要になっている。 既存の作業は、低リソース言語では利用できない、多言語能力関連データのトレーニングに大きく依存しています。 そこで本研究では,MAETと呼ばれる多言語能力抽出・伝達手法を提案する。 我々のキーとなる考え方は、LLMから言語に依存しない能力に関する重みを分解して抽出し、それらを訓練なしで簡単な加算と減算操作によって異なる言語間で転送することである。 特に、MAETは抽出と転送の段階で構成されています。 抽出段階において、まず、特定の能力に高い関連性を持つキーニューロンを特定し、それを用いて、伝達可能な能力特異的な重みを抽出する。 移行段階では,機能関連パラメータテンソルを更に選択し,言語的および能力的重みに基づく統合戦略を設計し,多言語能力強化LLMを構築する。 提案手法の有効性を実証するため,高リソース言語シナリオと低リソース言語シナリオの両方において,数学的および科学的タスクについて広範な実験を行った。 実験の結果,MAETは高度能力の抽出と伝達を効果的に行うことができ,トレーニングベースライン法よりも優れることがわかった。 私たちのコードとデータは、 \url{https://github.com/RUCAIBox/MAET}で利用可能です。

Multi-lingual ability transfer has become increasingly important for the broad application of large language models (LLMs). Existing work highly relies on training with the multi-lingual ability-related data, which may be not available for low-resource languages. To solve it, we propose a Multi-lingual Ability Extraction and Transfer approach, named as MAET. Our key idea is to decompose and extract language-agnostic ability-related weights from LLMs, and transfer them across different languages by simple addition and subtraction operations without training. Specially, our MAET consists of the extraction and transfer stages. In the extraction stage, we firstly locate key neurons that are highly related to specific abilities, and then employ them to extract the transferable ability-specific weights. In the transfer stage, we further select the ability-related parameter tensors, and design the merging strategy based on the linguistic and ability specific weights, to build the multi-lingual ability-enhanced LLM. To demonstrate the effectiveness of our proposed approach, we conduct extensive experiments on mathematical and scientific tasks in both high-resource lingual and low-resource lingual scenarios. Experiment results have shown that MAET can effectively and efficiently extract and transfer the advanced abilities, and outperform training-based baseline methods. Our code and data are available at \url{https://github.com/RUCAIBox/MAET}.
翻訳日:2024-10-31 14:36:05 公開日:2024-10-10
# 倫理的あいまいさのための微調整言語モデル:人間の反応とアライメントの比較研究

Fine-Tuning Language Models for Ethical Ambiguity: A Comparative Study of Alignment with Human Responses ( http://arxiv.org/abs/2410.07826v1 )

ライセンス: Link先を確認
Pranav Senthilkumar, Visshwa Balasubramanian, Prisha Jain, Aneesa Maity, Jonathan Lu, Kevin Zhu, (参考訳) 言語モデルは、NLP研究でよく認識される制限であるあいまいさの扱いによって、人間の意図を誤解することが多い。 道徳的に明確なシナリオは LLM よりも識別可能であるが、道徳的に曖昧な文脈ではより大きな困難が遭遇する。 本研究では,LLMの校正について検討し,人間とLLMの判断が不十分であることを示す。 DILEMMASは、異なる道徳的シナリオのペアを伴って、倫理的状況を比較し、比較するモデルの能力を評価するもので、ANECDOTESは、個々の物語を、詳細を抽出し、解釈し、異なる道徳的シナリオを解析するモデルのスキルを評価する。 Llama-3.1-8b、Zephyr-7b-beta、Mistral-7bの3つのモデルのアライメントを人間のアノテーションと比較した。 微調整後に顕著な改善が見られ、特に後者ではクロスエントロピーとディリクレのスコアが顕著に向上した。 特に微調整後、Mistral-7B-Instruct-v0.3の性能はGPT-4oと同等であった。 しかし, 実験モデルでは, BERTモデルとRoBERTaモデルでは, クロスエントロピースコアでは, いずれも性能が優れていた。 テキスト・トゥ・テキスト・フォーマットにおけるテキスト・配信の理解を向上し、複雑な意思決定コンテキストにおける性能とアライメントを効果的に向上させ、倫理的推論手法の洗練と人間の判断ニュアンス獲得のためのさらなる研究の必要性を浮き彫りにしている。

Language models often misinterpret human intentions due to their handling of ambiguity, a limitation well-recognized in NLP research. While morally clear scenarios are more discernible to LLMs, greater difficulty is encountered in morally ambiguous contexts. In this investigation, we explored LLM calibration to show that human and LLM judgments are poorly aligned in such scenarios. We used two curated datasets from the Scruples project for evaluation: DILEMMAS, which involves pairs of distinct moral scenarios to assess the model's ability to compare and contrast ethical situations, and ANECDOTES, which presents individual narratives to evaluate the model's skill in drawing out details, interpreting, and analyzing distinct moral scenarios. Model answer probabilities were extracted for all possible choices and compared with human annotations to benchmark the alignment of three models: Llama-3.1-8b, Zephyr-7b-beta, and Mistral-7b. Significant improvements were observed after fine-tuning, with notable enhancements in both cross-entropy and Dirichlet scores, particularly in the latter. Notably, after fine-tuning, the performance of Mistral-7B-Instruct-v0.3 was on par with GPT-4o. However, the experimental models that were examined were all still outperformed by the BERT and RoBERTa models in terms of cross-entropy scores. Our fine-tuning approach, which improves the model's understanding of text distributions in a text-to-text format, effectively enhances performance and alignment in complex decision-making contexts, underscoring the need for further research to refine ethical reasoning techniques and capture human judgment nuances.
翻訳日:2024-10-31 14:36:05 公開日:2024-10-10
# なぜオブジェクトには多くの名前があるのか?言語利用と語彙システムにおける単語情報化に関する研究

Why do objects have many names? A study on word informativeness in language use and lexical systems ( http://arxiv.org/abs/2410.07827v1 )

ライセンス: Link先を確認
Eleonora Gualdoni, Gemma Boleda, (参考訳) 人間の語彙は、話者が同じ対象、例えば「紫」や「マジェンタ」を同じ色合いで指すのに使える多くの異なる単語を含んでいる。 一方、言語使用法の研究は、語彙システムの特性に焦点を絞らずに、話者が参照表現に適応して文脈内でのコミュニケーションを成功させる方法について検討してきた。 一方、言語進化における研究は、文脈内コミュニケーションに対処することなく、情報性や単純さの競合するプレッシャーがどのように語彙システムを形成するかについて議論している。 本研究の目的は,これらの伝統のギャップを埋めることであり,文脈内コミュニケーションと語彙の構造の両方を考慮することで,参照者と単語間のソフトマッピングがコミュニケーションに有効である理由を探ることである。 視覚空間に接する単語や語彙システムの情報度を簡易に測定し,英語と中国語のカラー命名データを解析する。 最適な語彙システムは複数の単語が同じ参照語に適用でき、異なる量の情報を伝達できるものであると結論付けている。 このようなシステムにより、話者はコミュニケーションの精度を最大化し、コンテキスト内の参照について通信する際に伝達する情報の量を最小限にすることができる。

Human lexicons contain many different words that speakers can use to refer to the same object, e.g., "purple" or "magenta" for the same shade of color. On the one hand, studies on language use have explored how speakers adapt their referring expressions to successfully communicate in context, without focusing on properties of the lexical system. On the other hand, studies in language evolution have discussed how competing pressures for informativeness and simplicity shape lexical systems, without tackling in-context communication. We aim at bridging the gap between these traditions, and explore why a soft mapping between referents and words is a good solution for communication, by taking into account both in-context communication and the structure of the lexicon. We propose a simple measure of informativeness for words and lexical systems, grounded in a visual space, and analyze color naming data for English and Mandarin Chinese. We conclude that optimal lexical systems are those where multiple words can apply to the same referent, conveying different amounts of information. Such systems allow speakers to maximize communication accuracy and minimize the amount of information they convey when communicating about referents in contexts.
翻訳日:2024-10-31 14:36:05 公開日:2024-10-10
# 1次元GNNのVC次元に関する一考察

A note on the VC dimension of 1-dimensional GNNs ( http://arxiv.org/abs/2410.07829v1 )

ライセンス: Link先を確認
Noah Daniëls, Floris Geerts, (参考訳) グラフニューラルネットワーク(GNN)は、複雑なリレーショナル情報をキャプチャする能力を活用して、グラフ構造化データを分析する上で不可欠なツールとなっている。 GNNの表現性、特にWeisfeiler-Leman(英語版)(1-WL)同型テストの同値性はよく文書化されているが、それらの一般化能力を理解することは依然として重要である。 本稿では,GNNの一般化について,Vapnik-Chervonenkis(VC)次元について検討する。 我々は,1つのパラメータを持つ1次元GNNが非有界グラフに対して無限のVC次元を持つことを示すために,以前の結果を拡張した。 さらに,最近1-WLテストと同程度の表現性を示した1次元GNNを含む,解析的非ポリノミカルアクティベーション関数を用いたGNNにも有効であることを示す。 これらの結果は、VC次元の観点から見て、最も単純なGNNの一般化能力に固有の限界を示唆している。

Graph Neural Networks (GNNs) have become an essential tool for analyzing graph-structured data, leveraging their ability to capture complex relational information. While the expressivity of GNNs, particularly their equivalence to the Weisfeiler-Leman (1-WL) isomorphism test, has been well-documented, understanding their generalization capabilities remains critical. This paper focuses on the generalization of GNNs by investigating their Vapnik-Chervonenkis (VC) dimension. We extend previous results to demonstrate that 1-dimensional GNNs with a single parameter have an infinite VC dimension for unbounded graphs. Furthermore, we show that this also holds for GNNs using analytic non-polynomial activation functions, including the 1-dimensional GNNs that were recently shown to be as expressive as the 1-WL test. These results suggest inherent limitations in the generalization ability of even the most simple GNNs, when viewed from the VC dimension perspective.
翻訳日:2024-10-31 14:36:05 公開日:2024-10-10
# NusaMT-7B:大規模言語モデルを持つ低リソースインドネシア語に対する機械翻訳

NusaMT-7B: Machine Translation for Low-Resource Indonesian Languages with Large Language Models ( http://arxiv.org/abs/2410.07830v1 )

ライセンス: Link先を確認
William Tan, Kevin Zhu, (参考訳) LLM(Large Language Models)は、高ソース言語の翻訳タスクにおいて、例外的な可能性を実証している。 しかし、低リソース言語におけるそれらの性能は、パラレルコーパスとモノリンガルコーパスの両方の不足とノイズの存在によって制限されている。 その結果、これらのLLMはアライメントに悩まされ、これらの設定でState-of-The-Art(SoTA)ニューラルマシン翻訳(NMT)モデルに遅れを取っている。 本稿では,バリンセとミナンカバウを皮切りに,低リソースのインドネシア語用機械翻訳モデルであるNusaMT-7Bを紹介する。 事前学習したLLaMA2-7Bを活用することで,単言語データ,スーパーバイザードファインチューニング(SFT),自己学習,LLMベースのデータクリーナーを併用し,並列文のノイズ低減を実現した。 FLORES-200の多言語翻訳ベンチマークでは、NusaMT-7Bは、バリンゼ語とミナンカバウ語への翻訳では最大+6.69 spBLEUでSoTAモデルより優れているが、高リソース言語への翻訳では最大-3.38 spBLEUで性能が劣っている。 この結果から,LLMの微調整により,低リソース言語への翻訳品質が向上し,言語保存や異文化間コミュニケーションに寄与することが示唆された。

Large Language Models (LLMs) have demonstrated exceptional promise in translation tasks for high-resource languages. However, their performance in low-resource languages is limited by the scarcity of both parallel and monolingual corpora, as well as the presence of noise. Consequently, such LLMs suffer with alignment and have lagged behind State-of-The-Art (SoTA) neural machine translation (NMT) models in these settings. This paper introduces NusaMT-7B, an LLM-based machine translation model for low-resource Indonesian languages, starting with Balinese and Minangkabau. Leveraging the pretrained LLaMA2-7B, our approach integrates continued pre-training on monolingual data, Supervised Fine-Tuning (SFT), self-learning, and an LLM-based data cleaner to reduce noise in parallel sentences. In the FLORES-200 multilingual translation benchmark, NusaMT-7B outperforms SoTA models in the spBLEU metric by up to +6.69 spBLEU in translations into Balinese and Minangkabau, but underperforms by up to -3.38 spBLEU in translations into higher-resource languages. Our results show that fine-tuned LLMs can enhance translation quality for low-resource languages, aiding in linguistic preservation and cross-cultural communication.
翻訳日:2024-10-31 14:36:04 公開日:2024-10-10
# LaB-CL:パーキングスロット検出改善のための局所・平衡コントラスト学習

LaB-CL: Localized and Balanced Contrastive Learning for improving parking slot detection ( http://arxiv.org/abs/2410.07832v1 )

ライセンス: Link先を確認
U Jin Jeong, Sumin Roh, Il Yong Chun, (参考訳) 駐車スロット検出は、自律駐車システムにおいて重要な技術である。 一般に、駐車スロット検出の分類問題は、駐車スロットのジャンクションであるか否かを判断するタスクと、検出されたジャンクションの形状を特定するタスクの2つから成り立っている。 どちらの分類タスクも、多数派に偏りのある学習に容易に直面することができ、分類性能を低下させる。 しかし、データ不均衡の問題は駐車スロット検出では見過ごされている。 駐車スロット検出, 局所化, バランス付きコントラスト学習のための最初の教師付きコントラスト学習フレームワークを提案し, 駐車スロット検出(LaB-CL)を改善する。 提案されているLaB-CLフレームワークには2つの主要なアプローチがある。 まず,各ミニバッチのすべてのクラスから表現するクラスプロトタイプを局所的な視点から検討することを提案する。 次に,局所表現を高い予測誤差で選択する新しい強負サンプリング手法を提案する。 ベンチマークデータセットによる実験により、提案したLaB-CLフレームワークは、既存の駐車スロット検出方法より優れていることが示された。

Parking slot detection is an essential technology in autonomous parking systems. In general, the classification problem of parking slot detection consists of two tasks, a task determining whether localized candidates are junctions of parking slots or not, and the other that identifies a shape of detected junctions. Both classification tasks can easily face biased learning toward the majority class, degrading classification performances. Yet, the data imbalance issue has been overlooked in parking slot detection. We propose the first supervised contrastive learning framework for parking slot detection, Localized and Balanced Contrastive Learning for improving parking slot detection (LaB-CL). The proposed LaB-CL framework uses two main approaches. First, we propose to include class prototypes to consider representations from all classes in every mini batch, from the local perspective. Second, we propose a new hard negative sampling scheme that selects local representations with high prediction error. Experiments with the benchmark dataset demonstrate that the proposed LaB-CL framework can outperform existing parking slot detection methods.
翻訳日:2024-10-31 14:36:04 公開日:2024-10-10
# スマート教室における学習行動検出のためのマルチスケール変形可能な変圧器

Multi-Scale Deformable Transformers for Student Learning Behavior Detection in Smart Classroom ( http://arxiv.org/abs/2410.07834v1 )

ライセンス: Link先を確認
Zhifeng Wang, Minghui Wang, Chunyan Zeng, Longlong Li, (参考訳) 現代の教育システムへの人工知能の統合は急速に進展しており、特に教室での生徒の行動を監視する際には、伝統的に手動による観察に依存している。 この手法は特に非効率であり、コンピュータビジョンのようなより高度なソリューションへの移行を促す。 しかし,既存のターゲット検出モデルは,教室環境の動的かつ複雑な性質によって悪化する閉塞,ぼかし,スケール格差といった重大な課題に直面している。 さらに、これらのモデルは複数のターゲット検出を十分に扱わなければならない。 これらの障害を克服するために、上流特徴抽出やマルチスケール特徴融合に大規模な畳み込みカーネルを利用する革新的なアプローチであるSCB-DETR(SCB-DETR)を用いた学習行動検出を導入する。 この技術は、学生の行動分析のための堅牢なソリューションを提供することにより、マルチスケールおよび隠蔽対象の検出能力を著しく改善する。 SCB-DETRは、検出プロセスを単純化し、他のディープラーニング手法を一貫して上回るエンドツーエンドのフレームワークを確立する。 SCB-DETRは,SCBehavior(SCBehavior)データセットを用いて平均平均精度(mAP)を0.626とし,ベースラインモデルのmAPよりも1.5%向上し,AP50は6%増加した。 これらの結果から,SCB-DETRは,学生の振る舞いの不均一な分布に対処し,動的教室環境における正確な検出を確実にする上で,優れた性能を示した。

The integration of Artificial Intelligence into the modern educational system is rapidly evolving, particularly in monitoring student behavior in classrooms, a task traditionally dependent on manual observation. This conventional method is notably inefficient, prompting a shift toward more advanced solutions like computer vision. However, existing target detection models face significant challenges such as occlusion, blurring, and scale disparity, which are exacerbated by the dynamic and complex nature of classroom settings. Furthermore, these models must adeptly handle multiple target detection. To overcome these obstacles, we introduce the Student Learning Behavior Detection with Multi-Scale Deformable Transformers (SCB-DETR), an innovative approach that utilizes large convolutional kernels for upstream feature extraction, and multi-scale feature fusion. This technique significantly improves the detection capabilities for multi-scale and occluded targets, offering a robust solution for analyzing student behavior. SCB-DETR establishes an end-to-end framework that simplifies the detection process and consistently outperforms other deep learning methods. Employing our custom Student Classroom Behavior (SCBehavior) Dataset, SCB-DETR achieves a mean Average Precision (mAP) of 0.626, which is a 1.5% improvement over the baseline model's mAP and a 6% increase in AP50. These results demonstrate SCB-DETR's superior performance in handling the uneven distribution of student behaviors and ensuring precise detection in dynamic classroom environments.
翻訳日:2024-10-31 14:36:04 公開日:2024-10-10
# MinorityPrompt: Prompt最適化によるテキストからマイナー画像生成

MinorityPrompt: Text to Minority Image Generation via Prompt Optimization ( http://arxiv.org/abs/2410.07838v1 )

ライセンス: Link先を確認
Soobin Um, Jong Chul Ye, (参考訳) 本稿では,事前訓練されたテキスト・ツー・イメージ(T2I)潜時拡散モデルを用いて,少数サンプルの生成について検討する。 T2I生成の文脈における小ささのインスタンスは、テキスト条件のデータ分布の低密度領域に生きるものとして定義することができる。 これらは、データ拡張やクリエイティブAIなど、現代のT2Iジェネレータの様々な応用に有用である。 残念ながら、既存の事前訓練されたT2I拡散モデルは、主に高密度領域に焦点を当てている。 そこで本研究では,T2I拡散モデルの高密度焦点に対応する新しい枠組みを提案する。 具体的には、まず、ユーザが提供するプロンプトのセマンティックな内容を保持しながら、推論中に所望のプロパティの出現を促すオンラインプロンプト最適化フレームワークを開発する。 続いて、この汎用的なプロンプトオプティマイザを、慎重に構築された可能性目標を組み込むことで、マイノリティ特徴の生成を促進する特殊な解決器に仕立てる。 様々な種類のT2Iモデルを用いて実施した包括的実験により,本手法は既存のサンプルモデルと比較して,高品質なマイノリティインスタンスを生成する能力を著しく向上することを示した。

We investigate the generation of minority samples using pretrained text-to-image (T2I) latent diffusion models. Minority instances, in the context of T2I generation, can be defined as ones living on low-density regions of text-conditional data distributions. They are valuable for various applications of modern T2I generators, such as data augmentation and creative AI. Unfortunately, existing pretrained T2I diffusion models primarily focus on high-density regions, largely due to the influence of guided samplers (like CFG) that are essential for producing high-quality generations. To address this, we present a novel framework to counter the high-density-focus of T2I diffusion models. Specifically, we first develop an online prompt optimization framework that can encourage the emergence of desired properties during inference while preserving semantic contents of user-provided prompts. We subsequently tailor this generic prompt optimizer into a specialized solver that promotes the generation of minority features by incorporating a carefully-crafted likelihood objective. Our comprehensive experiments, conducted across various types of T2I models, demonstrate that our approach significantly enhances the capability to produce high-quality minority instances compared to existing samplers.
翻訳日:2024-10-31 14:25:50 公開日:2024-10-10
# 自己整合性を考慮した重み付き推論による言語モデル推論の強化

Enhancing Language Model Reasoning via Weighted Reasoning in Self-Consistency ( http://arxiv.org/abs/2410.07839v1 )

ライセンス: Link先を確認
Tim Knappe, Ryan Li, Ayush Chauhan, Kaylee Chhua, Kevin Zhu, Sean O'Brien, (参考訳) 大規模言語モデル(LLM)は幅広いタスクのパフォーマンスを急速に向上させているが、推論タスクでは不足することが多い。 LLMがより多様な現実世界のタスクに統合されるにつれて、それらの推論能力の進歩は、曖昧で複雑な問題におけるそれらの効果に不可欠である。 Wang氏らの自己整合性フレームワークは、多数決を受ける前に複数の論理をサンプリングすることで、様々なクローズドな回答の推論タスクにおけるモデルパフォーマンスが確実に向上することを示している。 このフレームワークに基づく標準的な手法は、これらの論理学の最終決定を集約するが、これらの経路によって適用される詳細なステップバイステップの推論パスを利用できない。 我々の研究は、多数決を下す前に、最終的な決定に加えて、これらの理性の両方の理性経路を取り入れ、分析することによって、このアプローチを強化します。 これらの手法は推論パスの信頼性を向上させるだけでなく、複雑な推論タスクにおいてより堅牢なパフォーマンスをもたらす。

While large language models (LLMs) have rapidly improved their performance on a broad number of tasks, they still often fall short on reasoning tasks. As LLMs become more integrated in diverse real-world tasks, advancing their reasoning capabilities is crucial to their effectiveness in nuanced, complex problems. Wang et al's self-consistency framework reveals that sampling multiple rationales before taking a majority vote reliably improves model performance across various closed-answer reasoning tasks. Standard methods based on this framework aggregate the final decisions of these rationales but fail to utilize the detailed step-by-step reasoning paths applied by these paths. Our work enhances this approach by incorporating and analyzing both the reasoning paths of these rationales in addition to their final decisions before taking a majority vote. These methods not only improve the reliability of reasoning paths but also cause more robust performance on complex reasoning tasks.
翻訳日:2024-10-31 14:25:50 公開日:2024-10-10
# 生成前の保護 - 離散的な生成モデル内のコードの誤り訂正

Protect Before Generate: Error Correcting Codes within Discrete Deep Generative Models ( http://arxiv.org/abs/2410.07840v1 )

ライセンス: Link先を確認
María Martínez-García, Grace Villacrés, David Mitchell, Pablo M. Olmos, (参考訳) 深層確率モデルの大幅な進歩にもかかわらず、低次元離散潜在表現の学習は依然として難しい課題である。 本稿では、誤り訂正符号(ECC)を利用して、遅延表現に冗長性を導入することにより、離散潜在変数モデルの変動推論を強化する新しい手法を提案する。 この冗長性は変分後部によって利用され、より正確な推定値が得られるため、変分間隙を狭める。 デジタル通信やデータストレージでよく使われるECCに着想を得て,2変数の潜伏変数とブロック繰り返し符号を持つ離散変分オートエンコーダ(DVAE)を用いた概念実証を行った。 我々はさらに、このアイデアを極性符号に基づく階層構造へと拡張し、ある遅延ビットはより堅牢に保護される。 本手法は,IWAE(Importance Weighted Autoencoder)の目的など,より厳密な境界でトレーニングした場合でも,未符号化のDVAEと比較して生成品質,データ再構成,不確実性を向上する。 特に、MNIST、FMNIST、CIFAR10、Tiny ImageNetデータセットにおいて優れた性能を示す。 ECCを変分推論に統合する一般的なアプローチは、重要サンプリングやハミルトニアンモンテカルロのような変分推論を促進する既存の手法と互換性がある。 また、ECCが離散変動推論を効果的に拡張する必要がある重要な特性について概説する。

Despite significant advancements in deep probabilistic models, learning low-dimensional discrete latent representations remains a challenging task. In this paper, we introduce a novel method that enhances variational inference in discrete latent variable models by leveraging Error Correcting Codes (ECCs) to introduce redundancy in the latent representations. This redundancy is then exploited by the variational posterior to yield more accurate estimates, thereby narrowing the variational gap. Inspired by ECCs commonly used in digital communications and data storage, we demonstrate proof-of-concept using a Discrete Variational Autoencoder (DVAE) with binary latent variables and block repetition codes. We further extend this idea to a hierarchical structure based on polar codes, where certain latent bits are more robustly protected. Our method improves generation quality, data reconstruction, and uncertainty calibration compared to the uncoded DVAE, even when trained with tighter bounds such as the Importance Weighted Autoencoder (IWAE) objective. In particular, we demonstrate superior performance on MNIST, FMNIST, CIFAR10, and Tiny ImageNet datasets. The general approach of integrating ECCs into variational inference is compatible with existing techniques to boost variational inference, such as importance sampling or Hamiltonian Monte Carlo. We also outline the key properties ECCs must have to effectively enhance discrete variational inference.
翻訳日:2024-10-31 14:25:50 公開日:2024-10-10
# 二重スケールSYKモデルの状態密度をモデル化する三対角ハミルトニアン

Tridiagonal Hamiltonians modeling the density of states of the Double-Scaled SYK model ( http://arxiv.org/abs/2410.07847v1 )

ライセンス: Link先を確認
Pratik Nandy, (参考訳) 二重スケール Sachdev-Ye-Kitaev (DSSYK) モデルにおける状態(DOS)のグローバル密度を解析することにより、このDOSを再現する有限次元ハミルトニアンを構築する。 次に、ハミルトニアンを三角化してパラメータ範囲内の平均ランツォ係数を決定する。 バルクランツォス係数、特にランツォス降下は、対数の特定の$q$-変形として解析的に表すことができる。 解析結果は, 半解析的な結果, バルクにおけるランダムなマトリックス電位構成, およびモーメント法を用いてLaczosスペクトルの端における解析結果によってさらに裏付けられている。

By analyzing the global density of states (DOS) in the Double-Scaled Sachdev-Ye-Kitaev (DSSYK) model, we construct a finite-dimensional Hamiltonian that replicates this DOS. We then tridiagonalize the Hamiltonian to determine the mean Lanczos coefficients within the parameter range. The bulk Lanczos coefficients, especially the Lanczos descent can be analytically expressed as a particular $q$-deformation of the logarithm. Our numerical results are further corroborated by semi-analytical findings, a random matrix potential construction in the bulk, and the analytic results at the edge of the Lanczos spectra using the method of moments.
翻訳日:2024-10-31 14:25:50 公開日:2024-10-10
# マルチモーダルタブラリトランザクションのためのスケーラブル表現学習

Scalable Representation Learning for Multimodal Tabular Transactions ( http://arxiv.org/abs/2410.07851v1 )

ライセンス: Link先を確認
Natraj Raman, Sumitra Ganesh, Manuela Veloso, (参考訳) 大規模言語モデル(LLM)は、主に構造化されていないテキストを理解するために設計されている。 表形式のデータのような構造化形式に直接適用した場合、それらは固有の関係を識別したり、批判的なパターンを見落としたりするのに苦労する。 表表表現学習法はこれらの制限のいくつかに対処できるが、既存の取り組みは依然として、疎度の高次心電図、正確な数値推論、列重みテーブルといった課題に直面している。 さらに、これらの学習された表現を言語ベースのインターフェイスを通じて下流タスクに活用することは明らかではない。 本稿では,これらの課題に対して,革新的でスケーラブルなソリューションを提案する。 具体的には,多層分割機構を導入し,多層分割機構を用いて大語彙を処理し,数値的連続性を優先する適応量子化機構を導入し,コアカラムとメタ情報列を別々に処理する。 LLMの命令チューニングを容易にするために,一連のアダプタ層を用いてトランザクションとテキストのモダリティをインターリーブするパラメータ効率の良いデコーダを提案する。 我々は,大規模な合成決済トランザクションデータセット上でのソリューションの有効性を検証した。

Large language models (LLMs) are primarily designed to understand unstructured text. When directly applied to structured formats such as tabular data, they may struggle to discern inherent relationships and overlook critical patterns. While tabular representation learning methods can address some of these limitations, existing efforts still face challenges with sparse high-cardinality fields, precise numerical reasoning, and column-heavy tables. Furthermore, leveraging these learned representations for downstream tasks through a language based interface is not apparent. In this paper, we present an innovative and scalable solution to these challenges. Concretely, our approach introduces a multi-tier partitioning mechanism that utilizes power-law dynamics to handle large vocabularies, an adaptive quantization mechanism to impose priors on numerical continuity, and a distinct treatment of core-columns and meta-information columns. To facilitate instruction tuning on LLMs, we propose a parameter efficient decoder that interleaves transaction and text modalities using a series of adapter layers, thereby exploiting rich cross-task knowledge. We validate the efficacy of our solution on a large-scale dataset of synthetic payments transactions.
翻訳日:2024-10-31 14:25:50 公開日:2024-10-10
# HeGraphAdapter:異種グラフアダプタを用いたマルチモーダル視覚言語モデルのチューニング

HeGraphAdapter: Tuning Multi-Modal Vision-Language Models with Heterogeneous Graph Adapter ( http://arxiv.org/abs/2410.07854v1 )

ライセンス: Link先を確認
Yumiao Zhao, Bo Jiang, Xiao Wang, Qin Xu, Jin Tang, (参考訳) 適応型チューニング手法は、事前訓練されたビジョンランゲージモデルから下流タスクへ知識を伝達する大きな可能性を示している。 しかし、既存のアダプタをレビューした結果、タスク固有の知識を構築する際に、様々なモダリティ間の相互作用を十分に調べることができないことが判明した。 また、既存の作品は通常、肯定的なテキストプロンプト間の類似性マッチングのみに焦点を当てており、高い類似した視覚内容のクラスを区別することは困難である。 これらの問題に対処するために、下流タスクのためのVLMのチューニングを実現するための新しい不均一グラフ適応器を提案する。 具体的に言うと、私たちはまず、一貫したヘテロジニアスグラフモードを構築します。 一 視覚ノード、正のテキストノード、負のテキストノード及び 二 異質性、異質性及び類間構造知識を包括的にモデル化するためのいくつかの種類のエッジ接続。 次に、特定の不均一グラフニューラルネットワークを用いて、下流タスクの視覚的特徴とテキスト的特徴の両方に適応する多モード構造知識を探索する。 最後に、HeGraphAdapterの後、CLIPモデルの性能を総合的に向上させるために、テキストベースとビジュアルベースの両方の分類器を同時に構築する。 11のベンチマークデータセットの実験結果は、提案したHeGraphAdapterの有効性とメリットを示している。

Adapter-based tuning methods have shown significant potential in transferring knowledge from pre-trained Vision-Language Models to the downstream tasks. However, after reviewing existing adapters, we find they generally fail to fully explore the interactions between different modalities in constructing task-specific knowledge. Also, existing works usually only focus on similarity matching between positive text prompts, making it challenging to distinguish the classes with high similar visual contents. To address these issues, in this paper, we propose a novel Heterogeneous Graph Adapter to achieve tuning VLMs for the downstream tasks. To be specific, we first construct a unified heterogeneous graph mode, which contains i) visual nodes, positive text nodes and negative text nodes, and ii) several types of edge connections to comprehensively model the intra-modality, inter-modality and inter-class structure knowledge together. Next, we employ a specific Heterogeneous Graph Neural Network to excavate multi-modality structure knowledge for adapting both visual and textual features for the downstream tasks. Finally, after HeGraphAdapter, we construct both text-based and visual-based classifiers simultaneously to comprehensively enhance the performance of the CLIP model. Experimental results on 11 benchmark datasets demonstrate the effectiveness and benefits of the proposed HeGraphAdapter.
翻訳日:2024-10-31 14:25:50 公開日:2024-10-10
# SNN-PAR:スパイキングニューラルネットワークによるエネルギー効率の良い歩行者属性認識

SNN-PAR: Energy Efficient Pedestrian Attribute Recognition via Spiking Neural Networks ( http://arxiv.org/abs/2410.07857v1 )

ライセンス: Link先を確認
Haiyang Wang, Qian Zhu, Mowen She, Yabo Li, Haoyu Song, Minghe Xu, Xiao Wang, (参考訳) 近年, ニューラルネットワークを用いたPedestrian Attribute Recognition (PAR) が広く研究されているが, エネルギー消費は依然として高い。 本稿では,エネルギー効率の高い属性認識のためのスパイキングニューラルネットワーク(SNN)に基づくフレームワークを提案する。 具体的には、まず最初にスパイキングトークン化モジュールを用いて、与えられた歩行者画像からスパイキング特徴表現に変換する。 次に、出力をスパイキングトランスフォーマーのバックボーンネットワークに供給し、エネルギー効率の良い特徴抽出を行う。 我々は、歩行者属性認識のためのフィードフォワードネットワークに、強化されたスパイク特徴をフィードする。 さらに,ニューラルネットワークからスパイキングトランスフォーマーネットワークへの知識蒸留を利用して,より正確な属性認識を行う。 提案したSNN-PARフレームワークの有効性を検証した。 本論文のソースコードは \url{https://github.com/Event-AHU/OpenPAR} で公開されている。

Artificial neural network based Pedestrian Attribute Recognition (PAR) has been widely studied in recent years, despite many progresses, however, the energy consumption is still high. To address this issue, in this paper, we propose a Spiking Neural Network (SNN) based framework for energy-efficient attribute recognition. Specifically, we first adopt a spiking tokenizer module to transform the given pedestrian image into spiking feature representations. Then, the output will be fed into the spiking Transformer backbone networks for energy-efficient feature extraction. We feed the enhanced spiking features into a set of feed-forward networks for pedestrian attribute recognition. In addition to the widely used binary cross-entropy loss function, we also exploit knowledge distillation from the artificial neural network to the spiking Transformer network for more accurate attribute recognition. Extensive experiments on three widely used PAR benchmark datasets fully validated the effectiveness of our proposed SNN-PAR framework. The source code of this paper is released on \url{https://github.com/Event-AHU/OpenPAR}.
翻訳日:2024-10-31 14:25:50 公開日:2024-10-10
# ログから階層へ:階層的クラスタリングはシンプルになった

From Logits to Hierarchies: Hierarchical Clustering made Simple ( http://arxiv.org/abs/2410.07858v1 )

ライセンス: Link先を確認
Emanuele Palumbo, Moritz Vandenhirtz, Alain Ryser, Imant Daunhawer, Julia E. Vogt, (参考訳) 多くの実世界のデータセットの構造は本質的に階層的であり、そのような階層のモデリングは教師なしと教師なしの両方の機械学習において重要な目標となっている。 近年,階層クラスタリングと深層アーキテクチャの新たなアプローチが提案されている。 本研究では,この研究の行方に対して批判的な視点を採り,多くのアプローチが現実的なデータセットに適用した場合,その計算複雑性の高さから大きな限界を呈していることを示す。 特に、事前訓練された非階層クラスタリングモデル上に実装された軽量なプロシージャが、階層クラスタリングに特化して設計されたモデルより優れていることを示す。 提案手法は,微調整を必要とせず,ログを出力する事前学習クラスタリングモデルに適用可能である。 本稿では,本手法を教師付きセットアップに適用し,事前学習したImageNet分類器から有意義な階層を復元する方法について述べる。

The structure of many real-world datasets is intrinsically hierarchical, making the modeling of such hierarchies a critical objective in both unsupervised and supervised machine learning. Recently, novel approaches for hierarchical clustering with deep architectures have been proposed. In this work, we take a critical perspective on this line of research and demonstrate that many approaches exhibit major limitations when applied to realistic datasets, partly due to their high computational complexity. In particular, we show that a lightweight procedure implemented on top of pre-trained non-hierarchical clustering models outperforms models designed specifically for hierarchical clustering. Our proposed approach is computationally efficient and applicable to any pre-trained clustering model that outputs logits, without requiring any fine-tuning. To highlight the generality of our findings, we illustrate how our method can also be applied in a supervised setup, recovering meaningful hierarchies from a pre-trained ImageNet classifier.
翻訳日:2024-10-31 14:25:50 公開日:2024-10-10
# $d$次元ダンクル・クーロン問題の動的および不変代数

Dynamical and invariance algebras of the $d$-dimensional Dunkl-Coulomb problem ( http://arxiv.org/abs/2410.07862v1 )

ライセンス: Link先を確認
Christiane Quesne, (参考訳) 標準$d$-次元クーロン問題のリッチ代数構造はダンクル問題にまで拡張可能であることが示されている。 前者の動的代数生成元($d+1$,2) におけるダンクルの標準微分を置き換えると、計量テンソルがリフレクション作用素に依存することや、後者に関係する追加の可換性や反可換性が存在することを除いて、同様の可換関係を持つ変形代数が生じる。 すると、いくつかの力学代数生成器から、ストゥルム表現におけるダンクル・クーロン問題の運動積分を導出するのは簡単であることが示される。 最後に、後者から変形したLaplace-Runge-Lenzベクトルの構成要素を構築する。 ダンクル角運動量成分とともに、そのような作用素はシュリンガー表現におけるダンクル・クーロン問題の超可積分性を保証する。

It is shown that the rich algebraic structure of the standard $d$-dimensional Coulomb problem can be extended to its Dunkl counterpart. Replacing standard derivatives by Dunkl ones in the so($d+1$,2) dynamical algebra generators of the former gives rise to a deformed algebra with similar commutation relations, except that the metric tensor becomes dependent on the reflection operators and that there are some additional commutation or anticommutation relations involving the latter. It is then shown that from some of the dynamical algebra generators it is straightforward to derive the integrals of motion of the Dunkl-Coulomb problem in Sturm representation. Finally, from the latter, the components of a deformed Laplace-Runge-Lenz vector are built. Together with the Dunkl angular momentum components, such operators insure the superintegrability of the Dunkl-Coulomb problem in Schr\"odinger representation.
翻訳日:2024-10-31 14:25:50 公開日:2024-10-10
# 混合運動ゲームにおける共感に基づくアルトリズムと自己関心のバランスの学習

Learning to Balance Altruism and Self-interest Based on Empathy in Mixed-Motive Games ( http://arxiv.org/abs/2410.07863v1 )

ライセンス: Link先を確認
Fanqi Kong, Yizhe Huang, Song-Chun Zhu, Siyuan Qi, Xue Feng, (参考訳) 現実のマルチエージェントシナリオは、しばしば混合モチベーションを伴い、潜在的な搾取に対する自己保護が可能な利他的エージェントを要求する。 しかし、既存のアプローチは両方の目的を達成するのに苦労することが多い。 本稿では,エージェント間の社会的関係の推測による共感的反応の変調に基づき,多目的強化学習アルゴリズムであるLASE Learningを提案し,多目的ゲームにおける他エージェントの搾取を回避しつつ,贈与による利他的協力を促進する。 LASEは共同プレイヤへの報酬の一部をギフトとして割り当てており、このアロケーションは社会的関係に基づいて動的に適応している。 特に、社会的関係は、現在のジョイントアクションの推定$Q$-関数を、コプレイヤーのアクションを疎外する反ファクト的ベースラインと比較し、そのアクション分布をパースペクティブ・テイク・モジュールによって推定することで、コプレイヤーを計測する。 総合的な実験は空間的・時間的に拡張された混合運動ゲームにおいて行われ、フェアネスを損なうことなくグループコラボレーションを促進するLASEの能力と、様々なタイプのインタラクティブなコプレイヤーにポリシーを適用する能力を示す。

Real-world multi-agent scenarios often involve mixed motives, demanding altruistic agents capable of self-protection against potential exploitation. However, existing approaches often struggle to achieve both objectives. In this paper, based on that empathic responses are modulated by inferred social relationships between agents, we propose LASE Learning to balance Altruism and Self-interest based on Empathy), a distributed multi-agent reinforcement learning algorithm that fosters altruistic cooperation through gifting while avoiding exploitation by other agents in mixed-motive games. LASE allocates a portion of its rewards to co-players as gifts, with this allocation adapting dynamically based on the social relationship -- a metric evaluating the friendliness of co-players estimated by counterfactual reasoning. In particular, social relationship measures each co-player by comparing the estimated $Q$-function of current joint action to a counterfactual baseline which marginalizes the co-player's action, with its action distribution inferred by a perspective-taking module. Comprehensive experiments are performed in spatially and temporally extended mixed-motive games, demonstrating LASE's ability to promote group collaboration without compromising fairness and its capacity to adapt policies to various types of interactive co-players.
翻訳日:2024-10-31 14:25:50 公開日:2024-10-10
# RDT-1B:2次元マニピュレーションのための拡散基礎モデル

RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation ( http://arxiv.org/abs/2410.07864v1 )

ライセンス: Link先を確認
Songming Liu, Lingxuan Wu, Bangguo Li, Hengkai Tan, Huayu Chen, Zhengyi Wang, Ke Xu, Hang Su, Jun Zhu, (参考訳) ロボット工学においてバイマダル操作は不可欠であるが、2つのロボットアーム(マルチモーダルな動作分布を導く)の調整と、トレーニングデータの不足により、基礎モデルの開発は極めて困難である。 本稿では,ロボット拡散変換器(RDT)について述べる。 RDTは、マルチモーダル入力の不均一性に対処し、ロボットデータの非線形性と高頻度を捉えるために、スケーラブルトランスフォーマーの革新的な設計により、マルチモーダルを効果的に表現するための拡散モデルを構築している。 データ不足に対処するために、さまざまなロボットの動作表現を統一し、元の動作の物理的意味を保ちながら、移動可能な物理知識の学習を容易にする物理解釈可能な統一行動空間を導入する。 これらの設計により、これまでで最大のマルチロボットデータセットを事前トレーニングし、最大1.2Bパラメータまで拡張することができた。 我々は最終的に、6K以上のエピソードを持つ自己生成されたマルチタスクバイマニュアルデータセット上でRTTを微調整し、その操作能力を洗練しました。 実際のロボットの実験では、RTTは既存の手法よりも大幅に優れていた。 目に見えないオブジェクトやシーンに対するゼロショットの一般化を示し、言語命令を理解し、フォローし、1~5回のデモで新しいスキルを学び、複雑で巧妙なタスクを効果的に処理する。 コードとビデオについて、https://rdt-robotics.github.io/rdt-robotics/を参照。

Bimanual manipulation is essential in robotics, yet developing foundation models is extremely challenging due to the inherent complexity of coordinating two robot arms (leading to multi-modal action distributions) and the scarcity of training data. In this paper, we present the Robotics Diffusion Transformer (RDT), a pioneering diffusion foundation model for bimanual manipulation. RDT builds on diffusion models to effectively represent multi-modality, with innovative designs of a scalable Transformer to deal with the heterogeneity of multi-modal inputs and to capture the nonlinearity and high frequency of robotic data. To address data scarcity, we further introduce a Physically Interpretable Unified Action Space, which can unify the action representations of various robots while preserving the physical meanings of original actions, facilitating learning transferrable physical knowledge. With these designs, we managed to pre-train RDT on the largest collection of multi-robot datasets to date and scaled it up to 1.2B parameters, which is the largest diffusion-based foundation model for robotic manipulation. We finally fine-tuned RDT on a self-created multi-task bimanual dataset with over 6K+ episodes to refine its manipulation capabilities. Experiments on real robots demonstrate that RDT significantly outperforms existing methods. It exhibits zero-shot generalization to unseen objects and scenes, understands and follows language instructions, learns new skills with just 1~5 demonstrations, and effectively handles complex, dexterous tasks. We refer to https://rdt-robotics.github.io/rdt-robotics/ for the code and videos.
翻訳日:2024-10-31 14:25:50 公開日:2024-10-10
# システム2 一般性と適応による推論

System-2 Reasoning via Generality and Adaptation ( http://arxiv.org/abs/2410.07866v1 )

ライセンス: Link先を確認
Sejin Kim, Sundong Kim, (参考訳) タスク固有のアプリケーションでは大きな進歩があったが、現在のモデルは、人工知能(AGI)の実現に不可欠なSystem-2推論の重要なコンポーネントである深い推論、一般化、適応に苦慮している。 プログラム合成、言語モデル、トランスフォーマーといったアプローチの約束にもかかわらず、これらの手法はトレーニングデータを超えて一般化せず、新しいタスクに適応せず、人間のような推論を行う能力を制限する。 本稿では,システム2推論の高度化における既存手法の限界について考察し,AGIの一般化と適応の重要性を強調した。 さらに,(1)行動系列からの人間の意図の学習,(2)記号モデルとニューラルモデルの組み合わせ,(3)不慣れな環境におけるメタラーニング,(4)多段階推論のための強化学習の4つの主要な研究方向を提案する。 これらの方向性を通じて、AGIに必要な推論能力に計算モデルを近づけることで、一般化と適応の能力を向上させることを目指している。

While significant progress has been made in task-specific applications, current models struggle with deep reasoning, generality, and adaptation -- key components of System-2 reasoning that are crucial for achieving Artificial General Intelligence (AGI). Despite the promise of approaches such as program synthesis, language models, and transformers, these methods often fail to generalize beyond their training data and to adapt to novel tasks, limiting their ability to perform human-like reasoning. This paper explores the limitations of existing approaches in achieving advanced System-2 reasoning and highlights the importance of generality and adaptation for AGI. Moreover, we propose four key research directions to address these gaps: (1) learning human intentions from action sequences, (2) combining symbolic and neural models, (3) meta-learning for unfamiliar environments, and (4) reinforcement learning to reason multi-step. Through these directions, we aim to advance the ability to generalize and adapt, bringing computational models closer to the reasoning capabilities required for AGI.
翻訳日:2024-10-31 14:25:50 公開日:2024-10-10
# パワーセット

The Sets of Power ( http://arxiv.org/abs/2410.07867v1 )

ライセンス: Link先を確認
Joao Marques-Silva, Carlos Mencía, Raúl Mencía, (参考訳) 投票力の対策は1940年代半ばから広範囲の研究の対象となっている。 最近では、一貫性のない知識基盤、議論における攻撃の激しさ、データベース管理の分析における異なる問題、説明可能性を含む他の領域において、類似した相対的な重要性の尺度が研究されている。 本稿では、これらの例が、より一般的な問題領域において重要な計算尺度のインスタンス化であることを示す。 論文は、その参照集合のサブセットを分割する単調に増加する述語が与えられると、任意の参照集合に対して最もよく知られた重要度を計算できることを示した。 その結果、いくつかの領域で重要度尺度が考案できることが証明され、その一部はまだ研究も提案もされていない。 さらに,計算の重要度に関するいくつかの研究の方向性を強調した。

Measures of voting power have been the subject of extensive research since the mid 1940s. More recently, similar measures of relative importance have been studied in other domains that include inconsistent knowledge bases, intensity of attacks in argumentation, different problems in the analysis of database management, and explainability. This paper demonstrates that all these examples are instantiations of computing measures of importance for a rather more general problem domain. The paper then shows that the best-known measures of importance can be computed for any reference set whenever one is given a monotonically increasing predicate that partitions the subsets of that reference set. As a consequence, the paper also proves that measures of importance can be devised in several domains, for some of which such measures have not yet been studied nor proposed. Furthermore, the paper highlights several research directions related with computing measures of importance.
翻訳日:2024-10-31 14:16:02 公開日:2024-10-10
# プログラム可能な非線形性を持つ量子光学ニューラルネットワーク

Quantum optical neural networks with programmable nonlinearities ( http://arxiv.org/abs/2410.07868v1 )

ライセンス: Link先を確認
E. A. Chernykh, M. Yu. Saygin, G. I. Struchalin, S. P. Kulik, S. S. Straupe, (参考訳) パラメタライズド量子回路は変分量子アルゴリズムの必須成分である。 これまで、これらの回路の光学的実装は、調整可能な線形光学ユニットのみに依存してきた。 本研究では、線形光学よりもプログラム可能な非線形性を用いることで、量子光学回路(特に量子ニューラルネットワーク)を構築するためのより効率的な方法が提供されることを示した。 このアプローチは、高忠実度演算を実現するのに必要な調整可能なパラメータの数を大幅に削減する。 具体的には、調整可能なカーライクな非線形性によってプログラム可能な2モード干渉計のメッシュからなる量子光学ニューラルネットワーク(QONN)アーキテクチャを探索した。 我々は、量子光学ニューラルネットワークアーキテクチャの性能を評価し、その性能を、マルチモード線形光学ユニットを用いた以前に研究されたアーキテクチャと比較した。 さらに,プログラム可能な量子光学回路の改良に向けた今後の研究の方向性を提案する。

Parametrized quantum circuits are essential components of variational quantum algorithms. Until now, optical implementations of these circuits have relied solely on adjustable linear optical units. In this study, we demonstrate that using programmable nonlinearities, rather than linear optics, offers a more efficient method for constructing quantum optical circuits -- especially quantum neural networks. This approach significantly reduces the number of adjustable parameters needed to achieve high-fidelity operation. Specifically, we explored a quantum optical neural network (QONN) architecture composed of meshes of two-mode interferometers programmable by adjustable Kerr-like nonlinearities. We assessed the capabilities of our quantum optical neural network architecture and compared its performance to previously studied architectures that use multimode linear optics units. Additionally, we suggest future research directions for improving programmable quantum optical circuits.
翻訳日:2024-10-31 14:16:02 公開日:2024-10-10
# 放射線治療における直腸癌線量予測のための周波数分解拡散モデル

FDDM: Frequency-Decomposed Diffusion Model for Rectum Cancer Dose Prediction in Radiotherapy ( http://arxiv.org/abs/2410.07876v1 )

ライセンス: Link先を確認
Xin Liao, Zhenghao Feng, Jianghong Xiao, Xingchen Peng, Yan Wang, (参考訳) 放射線治療計画では正確な線量分布予測が重要である。 畳み込みニューラルネットワークに基づく従来の手法は有望な性能を示したが、過度なスムース化の問題があり、重要な高周波の詳細を持たない予測に繋がった。 近年,拡散モデルは高頻度で画像を生成できるコンピュータビジョンにおいて大きな成功を収めているが,時間と計算資源の消費に悩まされている。 これらの問題を緩和するために、線量マップの高周波サブバンドを改良する周波数分解拡散モデル(FDDM)を提案する。 具体的には、まず粗い線量マップを予測し、次に離散ウェーブレット変換を用いて粗い線量マップを低周波サブバンドと3つの高域に分解する、粗い線量予測モジュール(CDPM)を設計する。 周波数サブバンド 粗い予測結果と地上の真実との間には、顕著な違いがあるのだろうか? 周波数サブバンド したがって、高頻度拡散操作を行うHFRMと呼ばれる拡散モジュールを設計する。 線量マップではなく線量マップの周波数成分。 社内データセットの大規模な実験により、我々のアプローチの有効性が検証された。

Accurate dose distribution prediction is crucial in the radiotherapy planning. Although previous methods based on convolutional neural network have shown promising performance, they have the problem of over-smoothing, leading to prediction without important high-frequency details. Recently, diffusion model has achieved great success in computer vision, which excels in generating images with more high-frequency details, yet suffers from time-consuming and extensive computational resource consumption. To alleviate these problems, we propose Frequency-Decomposed Diffusion Model (FDDM) that refines the high-frequency subbands of the dose map. To be specific, we design a Coarse Dose Prediction Module (CDPM) to first predict a coarse dose map and then utilize discrete wavelet transform to decompose the coarse dose map into a low-frequency subband and three high?frequency subbands. There is a notable difference between the coarse predicted results and ground truth in high?frequency subbands. Therefore, we design a diffusion-based module called High-Frequency Refinement Module (HFRM) that performs diffusion operation in the high?frequency components of the dose map instead of the original dose map. Extensive experiments on an in-house dataset verify the effectiveness of our approach.
翻訳日:2024-10-31 14:16:01 公開日:2024-10-10
# 超伝導量子ビットアレイをエミュレートしたフラットバンド(デ)局在

Flat-band (de)localization emulated with a superconducting qubit array ( http://arxiv.org/abs/2410.07878v1 )

ライセンス: Link先を確認
Ilan T. Rosen, Sarah Muschinske, Cora N. Barrett, David A. Rower, Rabindra Das, David K. Kim, Bethany M. Niedzielski, Meghan Schuldt, Kyle Serniak, Mollie E. Schwartz, Jonilyn L. Yoder, Jeffrey A. Grover, William D. Oliver, (参考訳) 結合した超伝導量子ビットの配列は、天然材料へのアクセスや調整が難しいパラメータ状態において、幅広い密結合モデルをエミュレートできるアナログ量子シミュレータである。 本研究では、超伝導量子ビットアレイを用いて、平らなバンドを特徴とするロンビック格子上の強結合モデルをエミュレートする。 エネルギーバンドの分散とオンサイト障害の広範囲な調整が可能であり、フラットバンドの局在とアンダーソンの局在が競合する状況について検討する。 分散バンドの障害誘発局所化とフラットバンドの障害誘発非局在化を観察した。 注目すべきは、この2つの状態と、その周辺で量子臨界スケーリングの領域が突然移行することである。

Arrays of coupled superconducting qubits are analog quantum simulators able to emulate a wide range of tight-binding models in parameter regimes that are difficult to access or adjust in natural materials. In this work, we use a superconducting qubit array to emulate a tight-binding model on the rhombic lattice, which features flat bands. Enabled by broad adjustability of the dispersion of the energy bands and of on-site disorder, we examine regimes where flat-band localization and Anderson localization compete. We observe disorder-induced localization for dispersive bands and disorder-induced delocalization for flat bands. Remarkably, we find a sudden transition between the two regimes and, in its vicinity, the semblance of quantum critical scaling.
翻訳日:2024-10-31 14:16:01 公開日:2024-10-10
# 効率的なモデルトレーニングのための教師なしデータ検証手法

Unsupervised Data Validation Methods for Efficient Model Training ( http://arxiv.org/abs/2410.07880v1 )

ライセンス: Link先を確認
Yurii Paniv, (参考訳) 本稿では,低リソース言語における機械学習システムの改善に向けた課題と潜在的な解決策について検討する。 自然言語処理(NLP)、テキスト音声処理(TTS)、音声テキスト処理(STT)、視覚言語モデル(VLM)は、しばしば低リソース言語では利用できない大規模なデータセットに大きく依存している。 本研究では,「品質データ」の定義,適切なデータ生成方法の開発,モデルトレーニングへのアクセシビリティ向上など,重要な分野について検討する。 データ拡張、多言語変換学習、合成データ生成、データ選択技術など、現在の方法論の包括的なレビューは、進歩と限界の両方を強調している。 データ利用を最適化し、必要なデータ量を削減し、高品質なモデル性能を維持することを目的とした、将来の研究のためのフレームワークを提供する。 これらの課題に対処することで、低リソース言語に対して高度な機械学習モデルをよりアクセスしやすくし、その実用性とさまざまな分野への影響を高めることを目的としている。

This paper investigates the challenges and potential solutions for improving machine learning systems for low-resource languages. State-of-the-art models in natural language processing (NLP), text-to-speech (TTS), speech-to-text (STT), and vision-language models (VLM) rely heavily on large datasets, which are often unavailable for low-resource languages. This research explores key areas such as defining "quality data," developing methods for generating appropriate data and enhancing accessibility to model training. A comprehensive review of current methodologies, including data augmentation, multilingual transfer learning, synthetic data generation, and data selection techniques, highlights both advancements and limitations. Several open research questions are identified, providing a framework for future studies aimed at optimizing data utilization, reducing the required data quantity, and maintaining high-quality model performance. By addressing these challenges, the paper aims to make advanced machine learning models more accessible for low-resource languages, enhancing their utility and impact across various sectors.
翻訳日:2024-10-31 14:16:01 公開日:2024-10-10
# フェデレーションエッジ学習における共同資源配分戦略に関する総合的研究

A Comprehensive Survey on Joint Resource Allocation Strategies in Federated Edge Learning ( http://arxiv.org/abs/2410.07881v1 )

ライセンス: Link先を確認
Jingbo Zhang, Qiong Wu, Pingyi Fan, Qiang Fan, (参考訳) 新たな分散機械学習(ML)パラダイムであるFederated Edge Learning(FEL)は,分散環境でのモデルトレーニングを実現すると同時に,ユーザデータの物理的分離を利用してユーザのプライバシを確保する。 しかし、IoT(Internet of Things)やSmart Earthのような複雑なアプリケーションシナリオの開発によって、従来のリソース割り当てスキームは、これらの増大する計算および通信要求を効果的にサポートできなくなった。 したがって、共同資源最適化がスケーリング問題の鍵となる解決策となるかもしれない。 本稿では,複数の資源需要が増大する中で,計算と通信の多面的課題を同時に解決する。 計算,データ,通信,ネットワークトポロジといった異なるリソースに対する共同割り当て戦略をFELで体系的に検討し,システム効率の向上,レイテンシの低減,資源利用の向上,堅牢性の向上といったメリットを要約する。 また、間接的に通信要求を減らし、プライバシー保護を高めるための共同最適化の可能性を示す。 この作業は、フェデレートラーニング(FL)システムにおけるリソース管理の理論的サポートを提供するだけでなく、複数の実世界のシナリオにおいて、潜在的に最適なデプロイメントのためのアイデアを提供する。 現在の課題と今後の研究方向性を徹底的に議論することで、複雑なアプリケーション環境におけるマルチリソース最適化に関する重要な洞察を提供する。

Federated Edge Learning (FEL), an emerging distributed Machine Learning (ML) paradigm, enables model training in a distributed environment while ensuring user privacy by using physical separation for each user data. However, with the development of complex application scenarios such as the Internet of Things (IoT) and Smart Earth, the conventional resource allocation schemes can no longer effectively support these growing computational and communication demands. Therefore, joint resource optimization may be the key solution to the scaling problem. This paper simultaneously addresses the multifaceted challenges of computation and communication, with the growing multiple resource demands. We systematically review the joint allocation strategies for different resources (computation, data, communication, and network topology) in FEL, and summarize the advantages in improving system efficiency, reducing latency, enhancing resource utilization and enhancing robustness. In addition, we present the potential ability of joint optimization to enhance privacy preservation by reducing communication requirements, indirectly. This work not only provides theoretical support for resource management in federated learning (FL) systems, but also provides ideas for potential optimal deployment in multiple real-world scenarios. By thoroughly discussing the current challenges and future research directions, it also provides some important insights into multi-resource optimization in complex application environments.
翻訳日:2024-10-31 14:16:01 公開日:2024-10-10
# Generated Bias:テキスト・画像生成モデルの内部バイアスダイナミクスの検証

Generated Bias: Auditing Internal Bias Dynamics of Text-To-Image Generative Models ( http://arxiv.org/abs/2410.07884v1 )

ライセンス: Link先を確認
Abhishek Mandal, Susan Leavy, Suzanne Little, (参考訳) DALL-EやStable Diffusionのようなテキスト・ツー・イメージ(TTI)拡散モデルでは、テキスト・プロンプトから画像を生成することができる。 しかし、それらは性別のステレオタイプを永続させることが示されている。 これらのモデルは、複数の段階でデータを内部で処理し、複数の構成モデルを使用し、しばしば個別に訓練される。 本稿では,これらの多段階マルチモーダルモデルの内部バイアスを測定するための2つの新しい指標を提案する。 拡散バイアスは, モデルの拡散段階から生じるバイアスを検出し, 測定するために開発された。 Bias Amplificationは、テキストから画像への変換過程におけるバイアスの増幅を測定する。 実験の結果、TTIモデルは性バイアスを増幅し、拡散過程自体がバイアスに寄与し、安定拡散 v2 は DALL-E 2 よりも性バイアスに起因していることが明らかとなった。

Text-To-Image (TTI) Diffusion Models such as DALL-E and Stable Diffusion are capable of generating images from text prompts. However, they have been shown to perpetuate gender stereotypes. These models process data internally in multiple stages and employ several constituent models, often trained separately. In this paper, we propose two novel metrics to measure bias internally in these multistage multimodal models. Diffusion Bias was developed to detect and measures bias introduced by the diffusion stage of the models. Bias Amplification measures amplification of bias during the text-to-image conversion process. Our experiments reveal that TTI models amplify gender bias, the diffusion process itself contributes to bias and that Stable Diffusion v2 is more prone to gender bias than DALL-E 2.
翻訳日:2024-10-31 14:16:01 公開日:2024-10-10
# 幾何学的フェークネス特徴を用いた複数の顔を持つビデオにおけるディープフェイク検出

Deepfake detection in videos with multiple faces using geometric-fakeness features ( http://arxiv.org/abs/2410.07888v1 )

ライセンス: Link先を確認
Kirill Vyshegorodtsev, Dmitry Kudiyarov, Alexander Balashov, Alexander Kuzmin, (参考訳) 近年の顔操作技術の発展により、ビデオストリームにおけるディープフェイク検出は、顔バイオメトリックス、ブランド監視、オンラインビデオ会議ソリューションにとって重要な問題となった。 生体認証の場合、実際のデータストリームをディープフェイクに置き換えれば、ライブ検出システムをバイパスすることができる。 ビデオ会議のDeepfakeを使えば、プライベートミーティングに侵入することができる。 被害者や人物のディープフェイクは、脅迫、ゆがみ、金融詐欺の詐欺師にも使われる。 したがって、ディープフェイクを検出するタスクは、プライバシとセキュリティの確保に関係している。 既存のディープフェイク検出手法では、複数の顔が同時にビデオに存在する場合や、他の物体が誤って顔として分類されている場合のパフォーマンスが劣化する。 本研究では,映像中の顔の存在度とフレームごとのディープフェイクスコアを動的に特徴付ける幾何学的フェイクネス機能(GFF)を提案する。 フレーム間のGFFの時間的矛盾を分析するために,最終的な深度予測を出力する複雑な深度学習モデルを訓練する。 我々は、ビデオに同時に存在する複数の顔でビデオを分析するために、我々のアプローチを採用している。 このようなビデオは、例えばオンラインビデオ会議において、実際に発生することが多い。 この場合、フレーム内に現れる実際の顔とディープフェイクの顔は、ディープフェイク検出に大きく影響し、我々のアプローチはこの問題に対処することができる。 大規模な実験を通じて、我々はFaceForensics++、DFDC、Celeb-DF、WildDeepFakeといった一般的なベンチマークデータセットにおいて、現在の最先端メソッドよりも優れていることを実証した。 提案手法は、複数の異なるディープフェイク生成技術を検出する訓練を行う際にも正確である。

Due to the development of facial manipulation techniques in recent years deepfake detection in video stream became an important problem for face biometrics, brand monitoring or online video conferencing solutions. In case of a biometric authentication, if you replace a real datastream with a deepfake, you can bypass a liveness detection system. Using a deepfake in a video conference, you can penetrate into a private meeting. Deepfakes of victims or public figures can also be used by fraudsters for blackmailing, extorsion and financial fraud. Therefore, the task of detecting deepfakes is relevant to ensuring privacy and security. In existing approaches to a deepfake detection their performance deteriorates when multiple faces are present in a video simultaneously or when there are other objects erroneously classified as faces. In our research we propose to use geometric-fakeness features (GFF) that characterize a dynamic degree of a face presence in a video and its per-frame deepfake scores. To analyze temporal inconsistencies in GFFs between the frames we train a complex deep learning model that outputs a final deepfake prediction. We employ our approach to analyze videos with multiple faces that are simultaneously present in a video. Such videos often occur in practice e.g., in an online video conference. In this case, real faces appearing in a frame together with a deepfake face will significantly affect a deepfake detection and our approach allows to counter this problem. Through extensive experiments we demonstrate that our approach outperforms current state-of-the-art methods on popular benchmark datasets such as FaceForensics++, DFDC, Celeb-DF and WildDeepFake. The proposed approach remains accurate when trained to detect multiple different deepfake generation techniques.
翻訳日:2024-10-31 14:16:01 公開日:2024-10-10
# グループ因子分析による患者サブグループで異なる潜在性疾患因子の同定

Identifying latent disease factors differently expressed in patient subgroups using group factor analysis ( http://arxiv.org/abs/2410.07890v1 )

ライセンス: Link先を確認
Fabio S. Ferreira, John Ashburner, Arabella Bouzigues, Chatrin Suksasilp, Lucy L. Russell, Phoebe H. Foster, Eve Ferry-Bolder, John C. van Swieten, Lize C. Jiskoot, Harro Seelaar, Raquel Sanchez-Valle, Robert Laforce, Caroline Graff, Daniela Galimberti, Rik Vandenberghe, Alexandre de Mendonca, Pietro Tiraboschi, Isabel Santana, Alexander Gerhard, Johannes Levin, Sandro Sorbi, Markus Otto, Florence Pasquier, Simon Ducharme, Chris R. Butler, Isabelle Le Ber, Elizabeth Finger, Maria C. Tartaglia, Mario Masellis, James B. Rowe, Matthis Synofzik, Fermin Moreno, Barbara Borroni, Samuel Kaski, Jonathan D. Rohrer, Janaina Mourao-Miranda, (参考訳) 本研究では,神経疾患と精神障害の異質性に起因する課題に対処する,サブグループ特異的およびサブグループ共通の潜伏因子を明らかにするための新しいアプローチを提案する。 提案手法であるスパース群因子分析 (GFA) は確率的プログラムを用いて実装され, サンプル部分群で差分的に表現される複数のデータモダリティ間の関連性(潜在因子)を明らかにすることができる。 合成データ実験により,潜在因子とモデルパラメータを正しく推定することにより,スパースGFAのロバスト性を示した。 前頭側頭型認知症(FTD)と遺伝的に定義されたサブグループから構成される遺伝性前頭側頭型認知症イニシアチブ(GENFI)データセットに適用すると、スパースGFAは、各サブグループ間で差分的に発現する潜伏性疾患因子を同定し、同種グループ内の「サブグループ特異的」潜伏因子と、サブグループ間で共有される「サブグループ共通」潜伏因子とを区別した。 潜伏する疾患因子は、脳の構造と非画像変数(つまり、行動と疾患の重症度を評価するアンケート)の関連を異なる遺伝的サブグループで捉え、疾患のプロファイルに関する洞察を提供した。 重要なことは、より均一な2つのFTD患者サブグループ(progranulin (GRN) とmicrotubule-associated protein tau (MAPT) 変異)において2つの潜伏因子がより強調され、サブグループ特異的な特徴を明らかにする能力を示した。 これらの知見は、複数のデータモダリティを統合するためのスパースGFAの可能性と、神経学的および精神的な健康障害の患者の特徴と成層化を改善するための解釈可能な潜在性疾患因子を同定する可能性を強調した。

In this study, we propose a novel approach to uncover subgroup-specific and subgroup-common latent factors addressing the challenges posed by the heterogeneity of neurological and mental disorders, which hinder disease understanding, treatment development, and outcome prediction. The proposed approach, sparse Group Factor Analysis (GFA) with regularised horseshoe priors, was implemented with probabilistic programming and can uncover associations (or latent factors) among multiple data modalities differentially expressed in sample subgroups. Synthetic data experiments showed the robustness of our sparse GFA by correctly inferring latent factors and model parameters. When applied to the Genetic Frontotemporal Dementia Initiative (GENFI) dataset, which comprises patients with frontotemporal dementia (FTD) with genetically defined subgroups, the sparse GFA identified latent disease factors differentially expressed across the subgroups, distinguishing between "subgroup-specific" latent factors within homogeneous groups and "subgroup common" latent factors shared across subgroups. The latent disease factors captured associations between brain structure and non-imaging variables (i.e., questionnaires assessing behaviour and disease severity) across the different genetic subgroups, offering insights into disease profiles. Importantly, two latent factors were more pronounced in the two more homogeneous FTD patient subgroups (progranulin (GRN) and microtubule-associated protein tau (MAPT) mutation), showcasing the method's ability to reveal subgroup-specific characteristics. These findings underscore the potential of sparse GFA for integrating multiple data modalities and identifying interpretable latent disease factors that can improve the characterization and stratification of patients with neurological and mental health disorders.
翻訳日:2024-10-31 14:16:01 公開日:2024-10-10
# Ormer: OracleがDeFiを価格設定する操作に抵抗的でガス効率のよいブロックチェーン

Ormer: A Manipulation-resistant and Gas-efficient Blockchain Pricing Oracle for DeFi ( http://arxiv.org/abs/2410.07893v1 )

ライセンス: Link先を確認
Dongbin Bai, Jiannong Cao, Yinfeng Cao, Long Wen, (参考訳) Blockchain Oracleは、分散ファイナンス(DeFi)プロトコルのための重要なサードパーティのWebサービスである。 Oracleは、トークン価格などの外部情報を交換先から取得し、信頼できるデータソースとしてスマートコントラクトに供給することで、ローンプロトコルなどのコアDeFiアプリケーションを可能にする。 現在、算術平均時間重み付き平均価格(TWAP)オーラクルは、プロトコルの実行に信頼性がありガス効率の高い固定時間フレームで外部価格データを平均化することで、DeFiにおいて広く使用されている。 しかし、最近の研究では、TWAPの価格フィードは長期のフレーム設定であっても価格操作攻撃に弱いことが示されており、DeFiアプリケーションのサービス品質を損なう長期の遅延と価格エラーがさらに引き起こされる可能性がある。 この問題に対処するため,本研究では,現在ストリーミング資産価格フィードの中央値を一括パラボリック式に基づいてヒューリスティックに推定するオンチェーンガス効率評価アルゴリズム(Ormer)を提案する。 Ethereum WETH/USDTスワップペア価格フィードに基づく評価の結果,Ormerは平均絶対価格誤差を15.3%,時間遅延を49.3%削減した。 ガス効率では、オルマーの価格観測数に関係なく、最適化されたスマートコントラクト設計と一定のストレージ要件が開発されている。

Blockchain oracle is a critical third-party web service for Decentralized Finance (DeFi) protocols. Oracles retrieve external information such as token prices from exchanges and feed them as trusted data sources into smart contracts, enabling core DeFi applications such as loaning protocols. Currently, arithmetic mean based time-weighted average price (TWAP) oracles are widely used in DeFi by averaging external price data with fixed time frame, which is considered reliable and gas-efficient for protocol execution. However, recent research shows that TWAP price feeds are vulnerable to price manipulation attack even with long time frame setting, which would further introduce long time delays and price errors hindering the service quality of DeFi applications. To address this issue, we propose a novel on-chain gas-efficient pricing algorithm (Ormer) that heuristically estimates the median of the current streaming asset price feed based on a piecewise-parabolic formula, while the time delay is suppressed by fusing estimations with different observation window size. Our evaluation based on Ethereum WETH/USDT swapping pair price feed shows that Ormer reduces the mean absolute price error by 15.3% and the time delay by 49.3% compared to TWAP. For gas efficiency, an optimized smart contract design and constant storage requirement regardless of the number of price observations is developed for Ormer.
翻訳日:2024-10-31 14:16:01 公開日:2024-10-10
# 演算算術:チューリングマシンとしての微調整大言語モデル

Executing Arithmetic: Fine-Tuning Large Language Models as Turing Machines ( http://arxiv.org/abs/2410.07896v1 )

ライセンス: Link先を確認
Junyu Lai, Jiahe Xu, Yao Yang, Yunpeng Huang, Chun Cao, Jingwei Xu, (参考訳) 大規模言語モデル(LLM)は、広範囲の自然言語処理と推論タスクで顕著な機能を示している。 しかし、算術の基本領域におけるそれらの性能は相変わらず不満足である。 算術的なタスクを扱う場合、LLMは基礎となる計算論理を学習するよりも特定の例を記憶し、新しい問題に一般化する能力を制限する。 本稿では、チューリングマシンをエミュレートすることで、LCMがステップバイステップの計算を実行することを学べるようにし、計算論理を真に理解することのできる構成可能な算術実行フレームワーク(CAEF)を提案する。 さらに,提案するフレームワークは非常にスケーラブルで,複雑な演算子を学習する際の難易度を大幅に低減することができる。 評価では, LLaMA 3.1-8Bモデルにおいて, 最大100桁のオペランドを含む演算処理を効果的にサポートし, GPT-4o が顕著に低下するレベルである LLaMA 3.1-8B モデルにおいて, 約100%の精度を達成している。

Large Language Models (LLMs) have demonstrated remarkable capabilities across a wide range of natural language processing and reasoning tasks. However, their performance in the foundational domain of arithmetic remains unsatisfactory. When dealing with arithmetic tasks, LLMs often memorize specific examples rather than learning the underlying computational logic, limiting their ability to generalize to new problems. In this paper, we propose a Composable Arithmetic Execution Framework (CAEF) that enables LLMs to learn to execute step-by-step computations by emulating Turing Machines, thereby gaining a genuine understanding of computational logic. Moreover, the proposed framework is highly scalable, allowing composing learned operators to significantly reduce the difficulty of learning complex operators. In our evaluation, CAEF achieves nearly 100% accuracy across seven common mathematical operations on the LLaMA 3.1-8B model, effectively supporting computations involving operands with up to 100 digits, a level where GPT-4o falls short noticeably in some settings.
翻訳日:2024-10-31 14:16:01 公開日:2024-10-10
# ICPR 2024による多発性硬化症病変の分離に関するコンペティション -- 方法と結果

ICPR 2024 Competition on Multiple Sclerosis Lesion Segmentation -- Methods and Results ( http://arxiv.org/abs/2410.07924v1 )

ライセンス: Link先を確認
Alessia Rondinella, Francesco Guarnera, Elena Crispino, Giulia Russo, Clara Di Lorenzo, Davide Maimone, Francesco Pappalardo, Sebastiano Battiato, (参考訳) ICPR 2024 Competition on Multiple Sclerosis Lesion Segmentation (MSLesSeg)の結果を要約する。 このコンペティションは、MRIスキャンで複数の硬化病変を自動的に分類する手法を開発することを目的としていた。 参加者は,MS患者の異種コホートを含む注釈付きデータセットを新たに提供し,異なる病院で取得したベースラインとフォローアップMRIの両方を特徴とした。 MSLesSegは、患者の未検査コホートの多発性硬化病変を独立に分断できるアルゴリズムの開発に重点を置いている。 このセグメンテーションアプローチは、ユーザインタラクションを排除し、異なる時点における堅牢な病変検出を確保し、イノベーションを促進し、方法論の進歩を促進することで、現在のベンチマークを克服することを目的としている。

This report summarizes the outcomes of the ICPR 2024 Competition on Multiple Sclerosis Lesion Segmentation (MSLesSeg). The competition aimed to develop methods capable of automatically segmenting multiple sclerosis lesions in MRI scans. Participants were provided with a novel annotated dataset comprising a heterogeneous cohort of MS patients, featuring both baseline and follow-up MRI scans acquired at different hospitals. MSLesSeg focuses on developing algorithms that can independently segment multiple sclerosis lesions of an unexamined cohort of patients. This segmentation approach aims to overcome current benchmarks by eliminating user interaction and ensuring robust lesion detection at different timepoints, encouraging innovation and promoting methodological advances.
翻訳日:2024-10-31 14:16:01 公開日:2024-10-10
# 時間的デカップリングエキスパートと配電型コントラスト正規化による半監督映像認識ネットワーク

Semi-Supervised Video Desnowing Network via Temporal Decoupling Experts and Distribution-Driven Contrastive Regularization ( http://arxiv.org/abs/2410.07901v1 )

ライセンス: Link先を確認
Hongtao Wu, Yijun Yang, Angelica I Aviles-Rivero, Jingjing Ren, Sixiang Chen, Haoyu Chen, Lei Zhu, (参考訳) 雪の劣化は、屋外シナリオにおける望ましくない腐敗によるコンピュータビジョンタスクの進歩に重大な課題をもたらす。 現在のディープラーニングベースのDenowingアプローチは、合成ベンチマークデータセットで成功裏に達成されているが、ペアの現実世界のトレーニングデータが不足しているために、配信外の実世界の雪のビデオを復元するのに苦労している。 このボトルネックに対処するため、我々は半教師付き精神でビデオに言及する新しいパラダイムを考案し、一般化可能な除雪のためのラベルのない実データを含む。 具体的には,85本の雪上ビデオを用いた実世界のデータセットを構築し,新しい配電型コントラスト正規化を備えたセミ教師付きビデオ認識ネットワーク(SemiVDN)を提案する。 厳密な対照的な正則化は、合成データと実データの間の分配ギャップを緩和し、したがって、望まれる積雪不変背景の詳細を維持する。 さらに,大気散乱モデルに基づいて,雪映像を構成する物理成分をフレーム関連で分解する事前誘導型テンポラルデカップリングエキスパートモジュールを導入する。 ベンチマークデータセットと実雪データからSemiVDNを評価する。 実験結果から,最新画像とビデオレベルのデノベート手法に対するアプローチの優位性を示した。

Snow degradations present formidable challenges to the advancement of computer vision tasks by the undesirable corruption in outdoor scenarios. While current deep learning-based desnowing approaches achieve success on synthetic benchmark datasets, they struggle to restore out-of-distribution real-world snowy videos due to the deficiency of paired real-world training data. To address this bottleneck, we devise a new paradigm for video desnowing in a semi-supervised spirit to involve unlabeled real data for the generalizable snow removal. Specifically, we construct a real-world dataset with 85 snowy videos, and then present a Semi-supervised Video Desnowing Network (SemiVDN) equipped by a novel Distribution-driven Contrastive Regularization. The elaborated contrastive regularization mitigates the distribution gap between the synthetic and real data, and consequently maintains the desired snow-invariant background details. Furthermore, based on the atmospheric scattering model, we introduce a Prior-guided Temporal Decoupling Experts module to decompose the physical components that make up a snowy video in a frame-correlated manner. We evaluate our SemiVDN on benchmark datasets and the collected real snowy data. The experimental results demonstrate the superiority of our approach against state-of-the-art image- and video-level desnowing methods.
翻訳日:2024-10-31 14:06:16 公開日:2024-10-10
# 最適成功確率を持つ拡散拡散方程式の量子アルゴリズム

Quantum Algorithm for the Advection-Diffusion Equation with Optimal Success Probability ( http://arxiv.org/abs/2410.07909v1 )

ライセンス: Link先を確認
Paul Over, Sergio Bengoechea, Peter Brearley, Sylvain Laizet, Thomas Rung, (参考訳) 時間マーチング戦略を用いて多次元スカラー輸送問題をシミュレーションする量子アルゴリズムを提案する。 離散化後、明示的時間マーチ演算子は、対流様成分と補正シフト演算子とに分離される。 対流状成分はハミルトンシミュレーション問題に写像され、ユニタリアルゴリズムの線形結合によりシフト演算子と結合される。 その結果、振幅増幅を必要とせず、最適成功確率のタイムマーチング演算子の非スケールブロック符号化が可能となり、シミュレーション時間への線形依存が維持される。 定常な2次元テイラー-グリーン渦内で輸送されるスカラーの状態ベクトルシミュレーションは理論的な結果を裏付ける。

A quantum algorithm for simulating multidimensional scalar transport problems using a time-marching strategy is presented. After discretization, the explicit time-marching operator is separated into an advection-like component and a corrective shift operator. The advection-like component is mapped to a Hamiltonian simulation problem and is combined with the shift operator through the linear combination of unitaries algorithm. The result is an unscaled block encoding of the time-marching operator with an optimal success probability without the need for amplitude amplification, thereby retaining a linear dependence on the simulation time. State-vector simulations of a scalar transported in a steady two-dimensional Taylor-Green vortex support the theoretical findings.
翻訳日:2024-10-31 14:06:15 公開日:2024-10-10
# PPG信号とディープCNN-MLPネットワークを組み合わせたストレス検出

Stress Detection Using PPG Signal and Combined Deep CNN-MLP Network ( http://arxiv.org/abs/2410.07911v1 )

ライセンス: Link先を確認
Yasin Hasanpoor, Koorosh Motaman, Bahram Tarvirdizadeh, Khalil Alipour, Mohammad Ghamari, (参考訳) ストレスは人々の生活の中で現実になっている。 身体系の機能に大きな影響を与え、呼吸、心血管、さらには生殖系までもがストレスの影響を受けている。 体系の損傷を避けるために、外見の初期段階でストレス現象を検出するのに非常に役立ちます。 生理的信号を使用することは、人体に関する非常に重要な情報を反映するストレス検出に有用である。 PPG信号は、その利点により、この分野でよく使われる信号の1つである。 本研究では, PPG信号を利用してストレス事象を検出する。 この研究で使用されるPSG信号は、UBFC-Physと名付けられた最新の公開データセットから収集され、CNN-MLPディープラーニングアルゴリズムを用いてモデルを開発する。 その結果, 応力を約82%の精度で検出できることが示唆された。

Stress has become a fact in people's lives. It has a significant effect on the function of body systems and many key systems of the body including respiratory, cardiovascular, and even reproductive systems are impacted by stress. It can be very helpful to detect stress episodes in early steps of its appearance to avoid damages it can cause to body systems. Using physiological signals can be useful for stress detection as they reflect very important information about the human body. PPG signal due to its advantages is one of the mostly used signal in this field. In this research work, we take advantage of PPG signals to detect stress events. The PPG signals used in this work are collected from one of the newest publicly available datasets named as UBFC-Phys and a model is developed by using CNN-MLP deep learning algorithm. The results obtained from the proposed model indicate that stress can be detected with an accuracy of approximately 82 percent.
翻訳日:2024-10-31 14:06:15 公開日:2024-10-10
# ピラミッドグラフ畳み込みネットワークを用いた人間と物体の相互作用における時空間関係の理解

Understanding Spatio-Temporal Relations in Human-Object Interaction using Pyramid Graph Convolutional Network ( http://arxiv.org/abs/2410.07912v1 )

ライセンス: Link先を確認
Hao Xing, Darius Burschka, (参考訳) 人間活動認識は知的ロボットにとって重要なタスクであり、特に人間とロボットのコラボレーションの分野では、サブアクティビティのラベルだけでなく、アクティビティの時間構造も必要である。 人・物間相互作用の順序でラベルと時間構造の両方を自動的に認識するために,注目に基づくグラフ畳み込みネットワークと,時間軸上の相互作用シーケンスをダウンサンプリングおよびアップサンプリングするための時間ピラミッドプーリングモジュールからなるピラミッドエンコーダ・デコーダアーキテクチャを用いた新しいピラミッドグラフ畳み込みネットワーク(PGCN)を提案する。 このシステムは、映像データをグラフとして検出した結果から、人間と物体の2次元または3次元空間関係を表す。 人・物の関係を学習するために、新しい注目グラフ畳み込みネットワークを訓練し、グラフ表現から凝縮した情報を抽出する。 動作をサブアクションに分割するために、圧縮された特徴を元の時間スケールに戻し、フレームごとにアクションを分類する新しい時間的ピラミッドプーリングモジュールを提案する。 我々は,空間的注意,時間的注意,チャネル的注意といった様々な注意層を探索し,異なるアップサンプリングデコーダを組み合わせることで,動作認識とセグメンテーションの性能をテストする。 我々は,人間と物体の相互作用認識分野,すなわちバイマメンタルアクションとIKEAアセンブリデータセットの2つの挑戦的データセットに対して,我々のモデルを評価した。 この分類器はフレームワイドアクション認識とセグメンテーションの両方を大幅に改善し、例えば、F1 microとF1@50のスコアがそれぞれ4.3\%$と8.5\%$で改善されることを示した。

Human activities recognition is an important task for an intelligent robot, especially in the field of human-robot collaboration, it requires not only the label of sub-activities but also the temporal structure of the activity. In order to automatically recognize both the label and the temporal structure in sequence of human-object interaction, we propose a novel Pyramid Graph Convolutional Network (PGCN), which employs a pyramidal encoder-decoder architecture consisting of an attention based graph convolution network and a temporal pyramid pooling module for downsampling and upsampling interaction sequence on the temporal axis, respectively. The system represents the 2D or 3D spatial relation of human and objects from the detection results in video data as a graph. To learn the human-object relations, a new attention graph convolutional network is trained to extract condensed information from the graph representation. To segment action into sub-actions, a novel temporal pyramid pooling module is proposed, which upsamples compressed features back to the original time scale and classifies actions per frame. We explore various attention layers, namely spatial attention, temporal attention and channel attention, and combine different upsampling decoders to test the performance on action recognition and segmentation. We evaluate our model on two challenging datasets in the field of human-object interaction recognition, i.e. Bimanual Actions and IKEA Assembly datasets. We demonstrate that our classifier significantly improves both framewise action recognition and segmentation, e.g., F1 micro and F1@50 scores on Bimanual Actions dataset are improved by $4.3\%$ and $8.5\%$ respectively.
翻訳日:2024-10-31 14:06:15 公開日:2024-10-10
# 内陸水路におけるステレオマッチングの軽量目標ネットワーク

A Lightweight Target-Driven Network of Stereo Matching for Inland Waterways ( http://arxiv.org/abs/2410.07915v1 )

ライセンス: Link先を確認
Jing Su, Yiqing Zhou, Yu Zhang, Chao Wang, Yi Wei, (参考訳) 水中でのステレオマッチングは、ステレオ画像を基準画像と画素レベルのマッチングのためのターゲット画像に分割することを含む、無人表面車両(USV)の自律ナビゲーションの鍵となる技術の一つである。 しかし, 対象画像からの幾何的特徴の関与は, 対象画像とのマッチングの効率化に必要である。 この目標駆動型概念に基づいて,LTNetという,軽量な目標駆動型ステレオマッチングニューラルネットワークを提案する。 具体的には,Geometry Target Volume (GTV) と呼ばれる軽量で効率的な4Dコストボリュームを,シフトしたターゲット特徴量をフィルタされた特徴量として利用することにより,ターゲット特徴の幾何学的情報を完全に活用するように設計されている。 その後, 水路環境におけるテクスチャ干渉や物体の閉塞に対処するため, LRRモジュールを提案する。 テキスト{LRR} は、左右の差のピクセルレベルの差を利用してソフト制約を導入し、ネットワークの中間段階における予測の精度を高める。 さらに,USVInlandデータセット上での軽量モデルの一般化能力を高めるために,知識蒸留を利用する。 さらに、さまざまなシナリオでLTNetの適用性を検証するために、Springという名の新しい大規模ベンチマークが使用されている。 前述の2つのデータセットの実験では、LTNetはわずか3.7Mのパラメータで競合する結果を得た。 コードはhttps://github.com/Open-YiQingZhou/LTNetで公開されている。

Stereo matching for inland waterways is one of the key technologies for the autonomous navigation of Unmanned Surface Vehicles (USVs), which involves dividing the stereo images into reference images and target images for pixel-level matching. However, due to the challenges of the inland waterway environment, such as blurred textures, large spatial scales, and computational resource constraints of the USVs platform, the participation of geometric features from the target image is required for efficient target-driven matching. Based on this target-driven concept, we propose a lightweight target-driven stereo matching neural network, named LTNet. Specifically, a lightweight and efficient 4D cost volume, named the Geometry Target Volume (GTV), is designed to fully utilize the geometric information of target features by employing the shifted target features as the filtered feature volume. Subsequently, to address the substantial texture interference and object occlusions present in the waterway environment, a Left-Right Consistency Refinement (LRR) module is proposed. The \text{LRR} utilizes the pixel-level differences in left and right disparities to introduce soft constraints, thereby enhancing the accuracy of predictions during the intermediate stages of the network. Moreover, knowledge distillation is utilized to enhance the generalization capability of lightweight models on the USVInland dataset. Furthermore, a new large-scale benchmark, named Spring, is utilized to validate the applicability of LTNet across various scenarios. In experiments on the aforementioned two datasets, LTNet achieves competitive results, with only 3.7M parameters. The code is available at https://github.com/Open-YiQingZhou/LTNet .
翻訳日:2024-10-31 14:06:15 公開日:2024-10-10
# 線形回帰のロバスト性:特異性と超越性

Robustness Auditing for Linear Regression: To Singularity and Beyond ( http://arxiv.org/abs/2410.07916v1 )

ライセンス: Link先を確認
Ittai Rubinstein, Samuel B. Hopkins, (参考訳) 最近、多くの非常に影響力のある計量学研究の結論は、そのサンプルのごく一部(しばしば0.5 %以下)を除去することで覆すことができることが判明した。 これらの結論は、典型的には1つ以上のOLS回帰の結果に基づいており、このデータセットに適合するOLSの堅牢性を証明して、与えられたサンプルを削除できるかという疑問を提起する。 ブルートフォースのテクニックは、小さなデータセットでもすぐに崩壊します。 BGM20, KZC21] は低次元の設定を超えて計算的に抽出可能であり [MR22] 、データ分布に非常に強い仮定が必要であり、実際に適切な境界を与えるにはサンプルが多すぎる[BP21, FH23] 。 本稿では, 試料の除去に対する線形回帰の堅牢性を検証するための効率的なアルゴリズムを提案する。 我々はアルゴリズムを実装し、数百の次元と数万のサンプルを持ついくつかの目覚ましい計量的データセット上でそれを実行する。 データセット上の分布的仮定の下では、我々のアルゴリズムが生成する境界は1 + o(1)$乗算係数まできついことが証明される。

It has recently been discovered that the conclusions of many highly influential econometrics studies can be overturned by removing a very small fraction of their samples (often less than $0.5\%$). These conclusions are typically based on the results of one or more Ordinary Least Squares (OLS) regressions, raising the question: given a dataset, can we certify the robustness of an OLS fit on this dataset to the removal of a given number of samples? Brute-force techniques quickly break down even on small datasets. Existing approaches which go beyond brute force either can only find candidate small subsets to remove (but cannot certify their non-existence) [BGM20, KZC21], are computationally intractable beyond low dimensional settings [MR22], or require very strong assumptions on the data distribution and too many samples to give reasonable bounds in practice [BP21, FH23]. We present an efficient algorithm for certifying the robustness of linear regressions to removals of samples. We implement our algorithm and run it on several landmark econometrics datasets with hundreds of dimensions and tens of thousands of samples, giving the first non-trivial certificates of robustness to sample removal for datasets of dimension $4$ or greater. We prove that under distributional assumptions on a dataset, the bounds produced by our algorithm are tight up to a $1 + o(1)$ multiplicative factor.
翻訳日:2024-10-31 14:06:15 公開日:2024-10-10
# グラフ畳み込みネットワークにおける新規性のための不確実性尺度による人間の活動理解

Understanding Human Activity with Uncertainty Measure for Novelty in Graph Convolutional Networks ( http://arxiv.org/abs/2410.07917v1 )

ライセンス: Link先を確認
Hao Xing, Darius Burschka, (参考訳) 人間の活動を理解することは、特に人間とロボットのコラボレーションの領域において、インテリジェントなロボットを開発する上で重要な側面である。 それでも既存のシステムは、デコーダのアップサンプリングプロセスにおけるエラーに起因する過分割などの問題に直面している。 これに応えて、Temporal Fusion Graph Convolutional Networkという有望なソリューションを紹介します。 このイノベーティブなアプローチは、アクティビティストリーム内の個々のアクションの境界推定の不十分さを是正し、時間次元における過剰なセグメンテーションの問題を軽減することを目的としている。 さらに、人間の行動認識フレームワークを意思決定に活用するシステムは、単に行動の識別以上のものを必要としている。 それらは、観察とトレーニング例の対応に関する確実性を示す信頼値を必要とする。 これは、トレーニングデータの一部ではなく、システム内の類似性の弱さによるミスマッチを引き起こした可能性のある、予期せぬシナリオに対する、過度に自信の持たない応答を防止するために不可欠である。 そこで本研究では, スペクトル正規化残差接続を組み込むことにより, 観察における新規性評価の効率化を図る。 この革新的なアプローチは、重み更新の最大勾配に制約を加えることにより、特徴空間内の入力距離の保存を保証する。 これらの勾配を制限することで、我々はより堅牢な新しい状況への対応を促進し、過信に伴うリスクを軽減する。 我々の方法論は、特徴空間における距離を定量化するためにガウス過程を用いることである。

Understanding human activity is a crucial aspect of developing intelligent robots, particularly in the domain of human-robot collaboration. Nevertheless, existing systems encounter challenges such as over-segmentation, attributed to errors in the up-sampling process of the decoder. In response, we introduce a promising solution: the Temporal Fusion Graph Convolutional Network. This innovative approach aims to rectify the inadequate boundary estimation of individual actions within an activity stream and mitigate the issue of over-segmentation in the temporal dimension. Moreover, systems leveraging human activity recognition frameworks for decision-making necessitate more than just the identification of actions. They require a confidence value indicative of the certainty regarding the correspondence between observations and training examples. This is crucial to prevent overly confident responses to unforeseen scenarios that were not part of the training data and may have resulted in mismatches due to weak similarity measures within the system. To address this, we propose the incorporation of a Spectral Normalized Residual connection aimed at enhancing efficient estimation of novelty in observations. This innovative approach ensures the preservation of input distance within the feature space by imposing constraints on the maximum gradients of weight updates. By limiting these gradients, we promote a more robust handling of novel situations, thereby mitigating the risks associated with overconfidence. Our methodology involves the use of a Gaussian process to quantify the distance in feature space.
翻訳日:2024-10-31 14:06:15 公開日:2024-10-10
# InstructBioMol:人間の指示に従って生体分子の理解と設計を促進する

InstructBioMol: Advancing Biomolecule Understanding and Design Following Human Instructions ( http://arxiv.org/abs/2410.07919v1 )

ライセンス: Link先を確認
Xiang Zhuang, Keyan Ding, Tianwen Lyu, Yinuo Jiang, Xiaotong Li, Zhuoyi Xiang, Zeyuan Wang, Ming Qin, Kehua Feng, Jike Wang, Qiang Zhang, Huajun Chen, (参考訳) タンパク質や小分子などの生体分子の理解と設計は、薬物発見、合成生物学、酵素工学の進歩の中心である。 人工知能(AI)の最近の進歩は、生体分子の研究に革命をもたらし、生体分子の予測と設計において顕著な精度を達成した。 しかし、AIの計算能力と研究者の直感の間には重要なギャップが残っており、自然言語を使って分子の複雑さと人間の意図を一致させている。 大規模言語モデル(LLM)は人間の意図を解釈する可能性を示しているが、その生体分子研究への応用は、専門知識要求、マルチモーダルデータ統合、自然言語と生体分子間の意味的アライメントといった課題により、いまだに初期段階にある。 InstructBioMolは、自然言語と生体分子を、自然言語、分子、タンパク質を包括的に一対一にアライメントすることによって橋渡しする、新しいLCMである。 このモデルはマルチモーダルな生体分子を入力として統合することができ、研究者は自然言語で設計目標を明確化し、正確な生物学的要求を満たす生体分子出力を提供することができる。 InstructBioMolは人間の指示に従って生体分子を理解し設計することができる。 特に、結合親和性が10%向上し、ESPスコア70.4に達する酵素を設計できるため、ESP開発者が推奨する60.0の酵素-基質相互作用閾値を超える唯一の方法である。 このことは、現実世界の生体分子研究を変革する可能性を強調している。

Understanding and designing biomolecules, such as proteins and small molecules, is central to advancing drug discovery, synthetic biology, and enzyme engineering. Recent breakthroughs in Artificial Intelligence (AI) have revolutionized biomolecular research, achieving remarkable accuracy in biomolecular prediction and design. However, a critical gap remains between AI's computational power and researchers' intuition, using natural language to align molecular complexity with human intentions. Large Language Models (LLMs) have shown potential to interpret human intentions, yet their application to biomolecular research remains nascent due to challenges including specialized knowledge requirements, multimodal data integration, and semantic alignment between natural language and biomolecules. To address these limitations, we present InstructBioMol, a novel LLM designed to bridge natural language and biomolecules through a comprehensive any-to-any alignment of natural language, molecules, and proteins. This model can integrate multimodal biomolecules as input, and enable researchers to articulate design goals in natural language, providing biomolecular outputs that meet precise biological needs. Experimental results demonstrate InstructBioMol can understand and design biomolecules following human instructions. Notably, it can generate drug molecules with a 10% improvement in binding affinity and design enzymes that achieve an ESP Score of 70.4, making it the only method to surpass the enzyme-substrate interaction threshold of 60.0 recommended by the ESP developer. This highlights its potential to transform real-world biomolecular research.
翻訳日:2024-10-31 14:06:15 公開日:2024-10-10
# タスク複雑度向上のための階層型強化学習におけるメタラーニング統合

Meta-Learning Integration in Hierarchical Reinforcement Learning for Advanced Task Complexity ( http://arxiv.org/abs/2410.07921v1 )

ライセンス: Link先を確認
Arash Khajooeinejad, Masoumeh Chapariniya, (参考訳) 階層強化学習(HRL)は、それらを構造化されたポリシーに分解することで、複雑なタスクに効果的に取り組む。 しかし、HRLエージェントは、しばしば効率的な探索と迅速な適応の課題に直面している。 これを解決するために,メタラーニングをHRLに統合し,エージェントの学習能力を高め,階層的な政策を迅速に適用する。 本手法では,メタラーニングを先行経験に基づく迅速なタスク適応に応用し,本質的なモチベーションメカニズムは新規訪問の報奨によって効率的な探索を促進する。 具体的には、当社のエージェントは、カスタムグリッド環境で動作する複数の低レベルポリシーを選択するために、高レベルポリシーを使用します。 我々は、勾配に基づくメタラーニングとインナーループ更新を併用し、ますます困難なタスクのカリキュラム間で最適化を可能にする。 実験の結果,メタラーニングや本質的な動機づけを伴わずに従来のHRLエージェントより有意に優れていた。 エージェントは、学習の加速、累積報酬の向上、複雑なグリッド環境における成功率の向上を示す。 これらの結果から,カリキュラム学習と本質的モチベーションとともに,メタラーニングとHRLを統合することで,複雑なタスクを処理できるエージェントの能力が大幅に向上することが示唆された。

Hierarchical Reinforcement Learning (HRL) effectively tackles complex tasks by decomposing them into structured policies. However, HRL agents often face challenges with efficient exploration and rapid adaptation. To address this, we integrate meta-learning into HRL to enhance the agent's ability to learn and adapt hierarchical policies swiftly. Our approach employs meta-learning for rapid task adaptation based on prior experience, while intrinsic motivation mechanisms encourage efficient exploration by rewarding novel state visits. Specifically, our agent uses a high-level policy to select among multiple low-level policies operating within custom grid environments. We utilize gradient-based meta-learning with differentiable inner-loop updates, enabling optimization across a curriculum of increasingly difficult tasks. Experimental results demonstrate that our meta-learned hierarchical agent significantly outperforms traditional HRL agents without meta-learning and intrinsic motivation. The agent exhibits accelerated learning, higher cumulative rewards, and improved success rates in complex grid environments. These findings suggest that integrating meta-learning with HRL, alongside curriculum learning and intrinsic motivation, substantially enhances the agent's capability to handle complex tasks.
翻訳日:2024-10-31 14:06:15 公開日:2024-10-10
# 背景知識を用いた一般化計画のための深層学習

Deep Learning for Generalised Planning with Background Knowledge ( http://arxiv.org/abs/2410.07923v1 )

ライセンス: Link先を確認
Dillon Z. Chen, Rostislav Horčík, Gustav Šír, (参考訳) 自動計画は宣言的問題解決の一形態であり、最近機械学習(ML)コミュニティから注目を集めている。 MLは、アーキテクチャの'推論能力'をテストする方法として、あるいは、学習済みのドメイン知識でソルバをスケールアップしようとするために、より実践的に計画に適用される。 実際には、計画上の問題は簡単に解決できますが、最適化は困難です。 しかし、MLアプローチは、人間と古典的なプランナーの両方にとって容易な多くの問題を解決するのに依然として苦労している。 本稿では,学習プロセスと計画プロセスの両方を統合的にガイドするために,Datalogルールを通じて背景知識(BK)を指定可能な新しいMLアプローチを提案する。 BKを導入することで、私たちのアプローチは、スクラッチから問題を解決する方法を学ぶ必要性を回避し、代わりに計画品質の最適化を学ぶことに集中します。 BKを用いた実験により,本手法は5秒未満で生成された小さなトレーニングデータから,高品質なソリューションで効率的に計画できることを示した。

Automated planning is a form of declarative problem solving which has recently drawn attention from the machine learning (ML) community. ML has been applied to planning either as a way to test `reasoning capabilities' of architectures, or more pragmatically in an attempt to scale up solvers with learned domain knowledge. In practice, planning problems are easy to solve but hard to optimise. However, ML approaches still struggle to solve many problems that are often easy for both humans and classical planners. In this paper, we thus propose a new ML approach that allows users to specify background knowledge (BK) through Datalog rules to guide both the learning and planning processes in an integrated fashion. By incorporating BK, our approach bypasses the need to relearn how to solve problems from scratch and instead focuses the learning on plan quality optimisation. Experiments with BK demonstrate that our method successfully scales and learns to plan efficiently with high quality solutions from small training data generated in under 5 seconds.
翻訳日:2024-10-31 14:06:15 公開日:2024-10-10
# 実環境におけるマルチモーダル認識システム

Multimodal Perception System for Real Open Environment ( http://arxiv.org/abs/2410.07926v1 )

ライセンス: Link先を確認
Yuyang Sha, (参考訳) 本稿では,実環境における新しいマルチモーダル認識システムを提案する。 提案システムには、組み込み計算プラットフォーム、カメラ、超音波センサー、GPS、IMUデバイスが含まれる。 従来のフレームワークとは異なり、私たちのシステムは複数のセンサーと高度なコンピュータビジョンアルゴリズムを統合し、ユーザーが確実に外を歩けるようにします。 このシステムは、特定の場所へのナビゲート、障害物領域を通過し、交差点を横断するなど、様々なタスクを効率的にこなすことができる。 具体的には,超音波センサと奥行きカメラを用いて障害物回避性能を向上させる。 経路計画モジュールは、様々なフィードバックとユーザの現在の状態に基づいて、局所的に最適な経路を見つけるように設計されている。 提案システムの性能を評価するため,異なるシナリオでいくつかの実験を設計する。 その結果,複雑な状況下での歩行を効率よく,自立的に行うことができることがわかった。

This paper presents a novel multimodal perception system for a real open environment. The proposed system includes an embedded computation platform, cameras, ultrasonic sensors, GPS, and IMU devices. Unlike the traditional frameworks, our system integrates multiple sensors with advanced computer vision algorithms to help users walk outside reliably. The system can efficiently complete various tasks, including navigating to specific locations, passing through obstacle regions, and crossing intersections. Specifically, we also use ultrasonic sensors and depth cameras to enhance obstacle avoidance performance. The path planning module is designed to find the locally optimal route based on various feedback and the user's current state. To evaluate the performance of the proposed system, we design several experiments under different scenarios. The results show that the system can help users walk efficiently and independently in complex situations.
翻訳日:2024-10-31 14:06:15 公開日:2024-10-10
# 大規模言語モデルを用いた効率的な強化学習

Efficient Reinforcement Learning with Large Language Model Priors ( http://arxiv.org/abs/2410.07927v1 )

ライセンス: Link先を確認
Xue Yan, Yan Song, Xidong Feng, Mengyue Yang, Haifeng Zhang, Haitham Bou Ammar, Jun Wang, (参考訳) 逐次意思決定(SDM)タスクでは、強化学習(RL)やヒューリスティック検索のような手法が特定のケースで顕著に進歩している。 しかし、その根底にある決定力学の知識が限られているため、様々な環境にまたがる広範な探索と課題に直面することもしばしばある。 対照的に、大規模言語モデル(LLM)は、ドメイン固有の膨大な知識を維持する能力のため、最近、強力な汎用ツールとして登場した。 複雑なSDMタスクを効率的に解くために,この豊富な事前知識を活用するために,LLMを先行動作分布として扱い,ベイズ推論手法を用いてRLフレームワークに統合し,変分推論と直接後続サンプリングを用いることを提案する。 提案手法はポリシーベースのRLフレームワークと価値ベースのRLフレームワークの両方に固定LDMプリエントをシームレスに組み込む。 実験の結果, LLM を用いた従来の RL 手法と比較して, LLM を用いたアクション先行処理は探索と最適化の複雑さを著しく低減し, サンプル効率を大幅に向上することがわかった。

In sequential decision-making (SDM) tasks, methods like reinforcement learning (RL) and heuristic search have made notable advances in specific cases. However, they often require extensive exploration and face challenges in generalizing across diverse environments due to their limited grasp of the underlying decision dynamics. In contrast, large language models (LLMs) have recently emerged as powerful general-purpose tools, due to their capacity to maintain vast amounts of domain-specific knowledge. To harness this rich prior knowledge for efficiently solving complex SDM tasks, we propose treating LLMs as prior action distributions and integrating them into RL frameworks through Bayesian inference methods, making use of variational inference and direct posterior sampling. The proposed approaches facilitate the seamless incorporation of fixed LLM priors into both policy-based and value-based RL frameworks. Our experiments show that incorporating LLM-based action priors significantly reduces exploration and optimization complexity, substantially improving sample efficiency compared to traditional RL techniques, e.g., using LLM priors decreases the number of required samples by over 90% in offline learning scenarios.
翻訳日:2024-10-31 13:53:52 公開日:2024-10-10
# コスト・アウェア・シミュレーションに基づく推論

Cost-aware Simulation-based Inference ( http://arxiv.org/abs/2410.07930v1 )

ライセンス: Link先を確認
Ayush Bharti, Daolang Huang, Samuel Kaski, François-Xavier Briol, (参考訳) シミュレーションベース推論(SBI)は、科学と工学における難解モデルのパラメータを推定する上で好まれるフレームワークである。 この文脈で重要な課題は、複雑なモデルからデータをシミュレーションする膨大な計算コストと、このコストがしばしばパラメータ値に依存するという事実である。 そこで我々は,ニューラルSBIやベイズ近似計算など,既存のサンプリングベースSBI手法のコストを大幅に削減できる「textit{cost-aware SBI method」を提案する。 これは、拒絶と自己正規化重要度サンプリングの組み合わせによって達成され、必要な高価なシミュレーションの数を大幅に削減する。 提案手法は疫学から電気通信工学までのモデルで広く研究されており,推測コストの大幅な削減が図られている。

Simulation-based inference (SBI) is the preferred framework for estimating parameters of intractable models in science and engineering. A significant challenge in this context is the large computational cost of simulating data from complex models, and the fact that this cost often depends on parameter values. We therefore propose \textit{cost-aware SBI methods} which can significantly reduce the cost of existing sampling-based SBI methods, such as neural SBI and approximate Bayesian computation. This is achieved through a combination of rejection and self-normalised importance sampling, which significantly reduces the number of expensive simulations needed. Our approach is studied extensively on models from epidemiology to telecommunications engineering, where we obtain significant reductions in the overall cost of inference.
翻訳日:2024-10-31 13:53:52 公開日:2024-10-10
# 作業員配置のための決定型予測モデル選択

Decision-Aware Predictive Model Selection for Workforce Allocation ( http://arxiv.org/abs/2410.07932v1 )

ライセンス: Link先を確認
Eric G. Stratman, Justin J. Boutilier, Laura A. Albert, (参考訳) 多くの組織は、特に情報が乏しい環境で、主観的な決定を行うために人間の意思決定者に依存しています。 労働者は、しばしば交換可能と見なされるが、タスクに割り当てられた特定の個人は、独自の意思決定プロセスとリスク許容性のために、結果に大きな影響を与える可能性がある。 本稿では,機械学習を用いて作業者の振る舞いを予測し,整数最適化を用いて作業者のタスクを戦略的に割り当てる新しいフレームワークを提案する。 機械学習予測を最適化のための静的入力として扱う従来の手法とは異なり、我々のアプローチでは、労働者の振る舞いを表現するために使用される最適な予測モデルは、その労働者が最適化プロセス内でどのように割り当てられるかによって決定される。 本稿では,予測モデル選択と作業員割り当てを統合した意思決定対応最適化フレームワークを提案する。 自動保険業者と協調し、実世界のデータを用いて、労働者の行動を予測するために3つの異なる手法を適用することにより、提案手法の有効性を評価する。 提案した意思決定フレームワークは従来の手法よりも優れており,作業者管理にコンテキストに敏感でデータレスの戦略を提供する。

Many organizations depend on human decision-makers to make subjective decisions, especially in settings where information is scarce. Although workers are often viewed as interchangeable, the specific individual assigned to a task can significantly impact outcomes due to their unique decision-making processes and risk tolerance. In this paper, we introduce a novel framework that utilizes machine learning to predict worker behavior and employs integer optimization to strategically assign workers to tasks. Unlike traditional methods that treat machine learning predictions as static inputs for optimization, in our approach, the optimal predictive model used to represent a worker's behavior is determined by how that worker is allocated within the optimization process. We present a decision-aware optimization framework that integrates predictive model selection with worker allocation. Collaborating with an auto-insurance provider and using real-world data, we evaluate the effectiveness of our proposed method by applying three different techniques to predict worker behavior. Our findings show the proposed decision-aware framework outperforms traditional methods and offers context-sensitive and data-responsive strategies for workforce management.
翻訳日:2024-10-31 13:53:52 公開日:2024-10-10
# 逆最適化によるオフライン階層強化学習

Offline Hierarchical Reinforcement Learning via Inverse Optimization ( http://arxiv.org/abs/2410.07933v1 )

ライセンス: Link先を確認
Carolin Schmidt, Daniele Gammelli, James Harrison, Marco Pavone, Filipe Rodrigues, (参考訳) 階層的なポリシーは、高次元のアクション空間を持つもの、長期計画を必要とするもの、まばらな報酬を伴う設定など、多くのシーケンシャルな意思決定問題において強力なパフォーマンスを実現する。 しかし、静的なオフラインデータセットから階層的なポリシーを学ぶことは大きな課題である。 重要なことは、高レベルのポリシーによって取られたアクションは階層的なコントローラ内で直接監視できない可能性があり、オフラインデータセットは異なるポリシー構造を使用して生成され、標準のオフライン学習アルゴリズムの使用を妨げる可能性がある。 本研究では,階層型ポリシーのオフライン強化学習(RL)フレームワークであるOHIOを提案する。 我々の枠組みは、政策構造の知識を活用して逆問題の解決を行い、我々の階層的な政策の下で観測されたデータを生成する可能性のある、観測不能なハイレベルなアクションを回復する。 このアプローチは、オフザシェルフオフライントレーニングに適したデータセットを構築する。 ロボットとネットワークの最適化に関する枠組みを実証し、エンドツーエンドのRL法を著しく上回り、ロバスト性を向上させることを示す。 我々は、オフラインでトレーニングされたポリシーの直接デプロイや、オンラインの微調整の実行時の両方において、我々のフレームワークの様々なインスタンス化について検討する。

Hierarchical policies enable strong performance in many sequential decision-making problems, such as those with high-dimensional action spaces, those requiring long-horizon planning, and settings with sparse rewards. However, learning hierarchical policies from static offline datasets presents a significant challenge. Crucially, actions taken by higher-level policies may not be directly observable within hierarchical controllers, and the offline dataset might have been generated using a different policy structure, hindering the use of standard offline learning algorithms. In this work, we propose OHIO: a framework for offline reinforcement learning (RL) of hierarchical policies. Our framework leverages knowledge of the policy structure to solve the inverse problem, recovering the unobservable high-level actions that likely generated the observed data under our hierarchical policy. This approach constructs a dataset suitable for off-the-shelf offline training. We demonstrate our framework on robotic and network optimization problems and show that it substantially outperforms end-to-end RL methods and improves robustness. We investigate a variety of instantiations of our framework, both in direct deployment of policies trained offline and when online fine-tuning is performed.
翻訳日:2024-10-31 13:53:52 公開日:2024-10-10
# 遷移金属イオンの量子論理制御

Quantum logic control of a transition metal ion ( http://arxiv.org/abs/2410.07936v1 )

ライセンス: Link先を確認
Till Rehmert, Maximilian J. Zawierucha, Kai Dietze, Piet O. Schmidt, Fabian Wolf, (参考訳) 量子制御をますます複雑なシステムに拡張することは、量子技術の発展と基礎物理学の両方に不可欠である。 閉じ込められたイオン系では、よく制御された論理種とより複雑な分光種を組み合わせた量子論理技術が、アクセス可能な種の範囲を拡大するための強力なツールであることが証明されている。 ここでは,多くの準安定状態を持つ$^{48}$Ti$^+$のような複雑な量子系を,背景ガスとの衝突による内在的熱化と遠波長ラマンレーザーを用いた量子論理技術の組み合わせで制御できることを実証する。 純粋量子状態の生成は、$^{48}$Ti$^+$のゼーマン構造のコヒーレントな操作と高分解能な測定を可能にする。 提案技術は、多くのイオン種に適用され、基礎物理学の様々なシステムにアクセスでき、また、天体物理学のスペクトルを解釈するための遷移金属の量子制御分光の第一歩を構成する。

Extending quantum control to increasingly complex systems is crucial for both advancing quantum technologies and fundamental physics. In trapped ion systems, quantum logic techniques that combine a well-controlled logic species with a more complex spectroscopy species have proven to be a powerful tool for extending the range of accessible species. Here, we demonstrate that a quantum system as complex as $^{48}$Ti$^+$ with its many metastable states can be controlled employing a combination of intrinsic thermalization due to collisions with background gas and quantum-logic techniques using a far-detuned Raman laser. The preparation of pure quantum states allows coherent manipulation and high resolution measurements of the Zeeman structure in $^{48}$Ti$^+$. The presented techniques are applicable to a wide range of ionic species giving access to a larger variety of systems for fundamental physics and constitute the first step for quantum-controlled spectroscopy of transition metals, relevant, e.g., for the interpretation of astrophysical spectra.
翻訳日:2024-10-31 13:53:52 公開日:2024-10-10
# 大規模言語モデルに基づく正規化と病的実体認識の改善

Disease Entity Recognition and Normalization is Improved with Large Language Model Derived Synthetic Normalized Mentions ( http://arxiv.org/abs/2410.07951v1 )

ライセンス: Link先を確認
Kuleen Sasse, Shinjitha Vadlakonda, Richard E. Kennedy, John D. Osborne, (参考訳) 背景: 臨床名付きエンティティ認識とエンティティ正規化システムのための機械学習手法は、ラベル付きコーパスと知識グラフ(KG)の両方を学習に利用することができる。 しかし、しばしば発生する概念は、コーパスの訓練においてほとんど言及されず、大規模なKGでも詳細な記述や同義語が欠如している。 疾患エンティティ認識(DER)と疾患エンティティ正規化(DEN)では、既知の疾患の数と比較して、高品質なトレーニング例が少ない可能性がある。 大規模言語モデル(LLM)の生成により、これらの情報抽出タスクの性能が向上する可能性がある。 方法: LLaMa-2 13B Chat LLMを微調整し, UMLS (Unified Medical Language System) Disease Semantic Group) の概念の正規化された記述を含む合成コーパスを作成した。 DERおよびDENの総合および外部分布(OOD)性能を,合成データ拡張の有無で測定した。 4種類のデータ拡張戦略を用いて,3種類の疾患コーパスの性能評価を行い,BioBERTをDER,KrissBERTをDENで評価した。 その結果,SapBERTとKrissBERTの総合成績は3~9ポイント,OODは20~55ポイント向上した。 DER全体のパフォーマンスにも小さな改善(1-2ポイント)が見られたが、OODの改善を示したデータセットは1つだけだった。 結論: 正常化疾患のLLM生成は, LLMを使用しない正常化アプローチと比較してDENを改善することができる。 アブレーション研究では、DENの性能向上はOOD性能の改善に部分的に寄与しているだけであることが示されている。 同じアプローチでは、DERを改善する能力は限られています。 ソフトウェアとデータセットを公開しています。

Background: Machine learning methods for clinical named entity recognition and entity normalization systems can utilize both labeled corpora and Knowledge Graphs (KGs) for learning. However, infrequently occurring concepts may have few mentions in training corpora and lack detailed descriptions or synonyms, even in large KGs. For Disease Entity Recognition (DER) and Disease Entity Normalization (DEN), this can result in fewer high quality training examples relative to the number of known diseases. Large Language Model (LLM) generation of synthetic training examples could improve performance in these information extraction tasks. Methods: We fine-tuned a LLaMa-2 13B Chat LLM to generate a synthetic corpus containing normalized mentions of concepts from the Unified Medical Language System (UMLS) Disease Semantic Group. We measured overall and Out of Distribution (OOD) performance for DER and DEN, with and without synthetic data augmentation. We evaluated performance on 3 different disease corpora using 4 different data augmentation strategies, assessed using BioBERT for DER and SapBERT and KrissBERT for DEN. Results: Our synthetic data yielded a substantial improvement for DEN, in all 3 training corpora the top 1 accuracy of both SapBERT and KrissBERT improved by 3-9 points in overall performance and by 20-55 points in OOD data. A small improvement (1-2 points) was also seen for DER in overall performance, but only one dataset showed OOD improvement. Conclusion: LLM generation of normalized disease mentions can improve DEN relative to normalization approaches that do not utilize LLMs to augment data with synthetic mentions. Ablation studies indicate that performance gains for DEN were only partially attributable to improvements in OOD performance. The same approach has only a limited ability to improve DER. We make our software and dataset publicly available.
翻訳日:2024-10-31 13:53:52 公開日:2024-10-10
# CompL-AI Framework:EU人工知能法のための技術的解釈とLLMベンチマークスイート

COMPL-AI Framework: A Technical Interpretation and LLM Benchmarking Suite for the EU Artificial Intelligence Act ( http://arxiv.org/abs/2410.07959v1 )

ライセンス: Link先を確認
Philipp Guldimann, Alexander Spiridonov, Robin Staab, Nikola Jovanović, Mark Vero, Velko Vechev, Anna Gueorguieva, Mislav Balunović, Nikola Konstantinov, Pavol Bielik, Petar Tsankov, Martin Vechev, (参考訳) EUの人工知能法(AI Act)は、責任あるAI開発に向けた重要なステップであるが、明確な技術的解釈が欠如しており、モデルのコンプライアンスを評価するのが困難である。 本研究は,包括的フレームワークであるComple-AIを提示する。 i)EU AI法の最初の技術的解釈で、その広範な規制要件を、大規模言語モデル(LLM)に焦点をあてて、測定可能な技術的要件に翻訳する。 (ii) オープンソースのAct中心ベンチマークスイートで、徹底的なサーベイと最先端のLCMベンチマークの実装に基づいている。 既存のモデルやベンチマーク,特に堅牢性,安全性,多様性,公正性といった分野における欠点を明らかにする。 この作業は、これらの側面に焦点を移すことの必要性を強調し、LLMとより包括的な規制に準拠したベンチマークのバランスの取れた開発を促進する。 同時に、Comple-AIは、法の義務をより具体的で技術的なレベルにすることの可能性と難しさを初めて示した。 このように、当社の作業は、モデル提供者に対して実行可能なレコメンデーションを行うための有用な第一歩として機能し、GPAIの慣行の起草など、この法律の適用に向けたEUの継続的な取り組みに貢献することができる。

The EU's Artificial Intelligence Act (AI Act) is a significant step towards responsible AI development, but lacks clear technical interpretation, making it difficult to assess models' compliance. This work presents COMPL-AI, a comprehensive framework consisting of (i) the first technical interpretation of the EU AI Act, translating its broad regulatory requirements into measurable technical requirements, with the focus on large language models (LLMs), and (ii) an open-source Act-centered benchmarking suite, based on thorough surveying and implementation of state-of-the-art LLM benchmarks. By evaluating 12 prominent LLMs in the context of COMPL-AI, we reveal shortcomings in existing models and benchmarks, particularly in areas like robustness, safety, diversity, and fairness. This work highlights the need for a shift in focus towards these aspects, encouraging balanced development of LLMs and more comprehensive regulation-aligned benchmarks. Simultaneously, COMPL-AI for the first time demonstrates the possibilities and difficulties of bringing the Act's obligations to a more concrete, technical level. As such, our work can serve as a useful first step towards having actionable recommendations for model providers, and contributes to ongoing efforts of the EU to enable application of the Act, such as the drafting of the GPAI Code of Practice.
翻訳日:2024-10-31 13:53:52 公開日:2024-10-10
# QCircuitNet:量子アルゴリズム設計のための大規模階層的データセット

QCircuitNet: A Large-Scale Hierarchical Dataset for Quantum Algorithm Design ( http://arxiv.org/abs/2410.07961v1 )

ライセンス: Link先を確認
Rui Yang, Yuntian Gu, Ziruo Wang, Yitao Liang, Tongyang Li, (参考訳) 量子コンピューティングは、量子アルゴリズムによる古典的コンピューティングよりも重要なスピードアップによって認識される新興分野である。 しかし、量子アルゴリズムの設計と実装は、量子力学の複雑な性質と量子状態の正確な制御の必要性のために課題を提起する。 AIの大幅な進歩にもかかわらず、この目的のために特別に調整されたデータセットが不足している。 本研究では、量子回路符号の形式で量子アルゴリズムを設計、実装するAIの能力を評価するために設計された、最初のベンチマークおよびテストデータセットであるQCircuitNetを紹介する。 従来のコードの記述にAIを使用するのとは異なり、このタスクは基本的に異なり、非常に柔軟な設計空間と複雑なキュービット操作のため、さらに複雑である。 私たちの重要なコントリビューションは以下のとおりです。 1.大規模言語モデルのための量子アルゴリズム設計タスクの重要な特徴を定式化する一般的なフレームワーク。 2. 基本プリミティブから高度なアプリケーションへの幅広い量子アルゴリズムの実装。 3.人間の検査なしに反復的な評価と対話的推論を可能にする自動検証・検証機能。 4. プリミティブな微調整結果によるトレーニングデータセットとしてのポテンシャルの予測。 我々はいくつかの興味深い実験的な現象を観察した: 微調整は必ずしも数発の学習に勝るとは限らないし、LSMは一貫した誤りパターンを示す傾向がある。 QCircuitNetは、AI駆動の量子アルゴリズム設計のための包括的なベンチマークを提供し、モデル評価と改善のアドバンテージを提供するとともに、この分野におけるLLMのいくつかの制限を明らかにしている。

Quantum computing is an emerging field recognized for the significant speedup it offers over classical computing through quantum algorithms. However, designing and implementing quantum algorithms pose challenges due to the complex nature of quantum mechanics and the necessity for precise control over quantum states. Despite the significant advancements in AI, there has been a lack of datasets specifically tailored for this purpose. In this work, we introduce QCircuitNet, the first benchmark and test dataset designed to evaluate AI's capability in designing and implementing quantum algorithms in the form of quantum circuit codes. Unlike using AI for writing traditional codes, this task is fundamentally different and significantly more complicated due to highly flexible design space and intricate manipulation of qubits. Our key contributions include: 1. A general framework which formulates the key features of quantum algorithm design task for Large Language Models. 2. Implementation for a wide range of quantum algorithms from basic primitives to advanced applications, with easy extension to more quantum algorithms. 3. Automatic validation and verification functions, allowing for iterative evaluation and interactive reasoning without human inspection. 4. Promising potential as a training dataset through primitive fine-tuning results. We observed several interesting experimental phenomena: fine-tuning does not always outperform few-shot learning, and LLMs tend to exhibit consistent error patterns. QCircuitNet provides a comprehensive benchmark for AI-driven quantum algorithm design, offering advantages in model evaluation and improvement, while also revealing some limitations of LLMs in this domain.
翻訳日:2024-10-31 13:53:52 公開日:2024-10-10
# オントロジーを用いたLLMの逆ロバスト性保証に向けて

Towards Assurance of LLM Adversarial Robustness using Ontology-Driven Argumentation ( http://arxiv.org/abs/2410.07962v1 )

ライセンス: Link先を確認
Tomas Bueno Momcilovic, Beat Buesser, Giulio Zizzo, Mark Purcell, Tomas Bueno Momcilovic, (参考訳) 大きな言語モデル(LLM)の顕著な適応性にもかかわらず、セキュリティ、透明性、解釈可能性の確保には課題が残っている。 敵の攻撃に対する感受性を考えると、LLMは敵の訓練とガードレールの進化した組み合わせで防御される必要がある。 しかし、頑健さを継続的に保証するために暗黙的かつ異質な知識を管理することは困難である。 形式的議論に基づくLLMの対角的堅牢性を保証するための新しいアプローチを提案する。 定式化のためのオントロジーを用いて、我々は最先端の攻撃と防衛を構成し、人間の可読性保証ケースと機械可読性表現の作成を容易にする。 我々は、その応用を、英語とコード翻訳タスクの例で実証し、技術者、データサイエンティスト、ユーザ、監査者をターゲットとして、理論と実践に影響を及ぼす。

Despite the impressive adaptability of large language models (LLMs), challenges remain in ensuring their security, transparency, and interpretability. Given their susceptibility to adversarial attacks, LLMs need to be defended with an evolving combination of adversarial training and guardrails. However, managing the implicit and heterogeneous knowledge for continuously assuring robustness is difficult. We introduce a novel approach for assurance of the adversarial robustness of LLMs based on formal argumentation. Using ontologies for formalization, we structure state-of-the-art attacks and defenses, facilitating the creation of a human-readable assurance case, and a machine-readable representation. We demonstrate its application with examples in English language and code translation tasks, and provide implications for theory and practice, by targeting engineers, data scientists, users, and auditors.
翻訳日:2024-10-31 13:53:52 公開日:2024-10-10
# ニューラルネットワーク: 自動テキスト記述による効率的な解釈可能なニューラルネットワーク

Neural Reasoning Networks: Efficient Interpretable Neural Networks With Automatic Textual Explanations ( http://arxiv.org/abs/2410.07966v1 )

ライセンス: Link先を確認
Stephen Carrow, Kyle Harper Erwin, Olga Vilenskaia, Parikshit Ram, Tim Klinger, Naweed Aghmad Khan, Ndivhuwo Makondo, Alexander Gray, (参考訳) 機械学習の最近の進歩は、さまざまなタスクに対するニューラルネットワークの採用の急増につながっているが、公平性、安全性、法的なコンプライアンスを保証するためには、予測に影響を及ぼす特徴に対する理解が不可欠である、多くの人々にとって、解釈可能性の欠如が問題となっている。 本稿では,そのようなタスクの1つのクラスである表型データセット分類を考察し,その予測のために,スケーラブルで論理的に健全なテキストによる説明を生成するニューラル推論ネットワーク(NRN)を提案する。 NRNは、実値論理の形式を実装する論理ニューロンの連結層である。 トレーニングアルゴリズム(R-NRN)は、バックプロップを用いて勾配勾配勾配最適化を用いてネットワークの重みを通常のように学習するが、帯域幅に基づく最適化によりネットワーク構造自体を学習する。 どちらもPyTorch(https://github.com/IBM/torchlogic)の拡張として実装されており、GPUスケーリングとバッチトレーニングを最大限に活用している。 表層分類のための22のオープンソースデータセットの多種多様なセットの評価は、多層パーセプトロン(MLP)よりも優れた性能(ROC AUC)を示し、Random Forest、XGBoost、Gradient Boosted Treesなどの最先端のアプローチと統計的に類似している。 さらに、R-NRNの説明は、比較したアプローチよりも短いが、より正確な特徴重要度スコアを生成する。

Recent advances in machine learning have led to a surge in adoption of neural networks for various tasks, but lack of interpretability remains an issue for many others in which an understanding of the features influencing the prediction is necessary to ensure fairness, safety, and legal compliance. In this paper we consider one class of such tasks, tabular dataset classification, and propose a novel neuro-symbolic architecture, Neural Reasoning Networks (NRN), that is scalable and generates logically sound textual explanations for its predictions. NRNs are connected layers of logical neurons which implement a form of real valued logic. A training algorithm (R-NRN) learns the weights of the network as usual using gradient descent optimization with backprop, but also learns the network structure itself using a bandit-based optimization. Both are implemented in an extension to PyTorch (https://github.com/IBM/torchlogic) that takes full advantage of GPU scaling and batched training. Evaluation on a diverse set of 22 open-source datasets for tabular classification demonstrates performance (measured by ROC AUC) which improves over multi-layer perceptron (MLP) and is statistically similar to other state-of-the-art approaches such as Random Forest, XGBoost and Gradient Boosted Trees, while offering 43% faster training and a more than 2 orders of magnitude reduction in the number of parameters required, on average. Furthermore, R-NRN explanations are shorter than the compared approaches while producing more accurate feature importance scores.
翻訳日:2024-10-31 13:53:52 公開日:2024-10-10
# Octopusインスパイアされた最適化アルゴリズム:マルチレベル構造と並列コンピューティング戦略

Octopus Inspired Optimization Algorithm: Multi-Level Structures and Parallel Computing Strategies ( http://arxiv.org/abs/2410.07968v1 )

ライセンス: Link先を確認
Xu Wang, Longji Xu, Yiquan Wang, Yuhua Dong, Xiang Li, Jia Deng, Rui He, (参考訳) 本稿では,オクトパスの神経構造,特に階層的および分散的相互作用特性にインスパイアされた,新しいバイオニック・インテリジェントな最適化アルゴリズムOctopus Inspired Optimization (OIO)アルゴリズムを提案する。 タコの感覚、意思決定、実行能力をシミュレートすることで、OIOアルゴリズムは、触手、吸盤、個人、グループを含む多段階の階層戦略を採用し、グローバル検索とローカル検索の効果的な組み合わせを実現する。 この階層設計はアルゴリズムの柔軟性と効率を向上するだけでなく、探索効率と適応性を大幅に向上させる。 従来の知能最適化アルゴリズムとの比較を含む性能評価では、特にマルチモーダル関数や高次元最適化問題を扱う場合、OIOはより高速な収束と高い精度を示す。 OIOアルゴリズムは従来の粒子群最適化(PSO)の2.27倍、多モード関数上の微分進化(DE)の9.63倍のスピードアップを示す。 特に、高次元最適化問題を扱う場合、OIOはDEの10.39倍の平均速度を達成し、計算効率が優れていることを示す。 さらに、OIOアルゴリズムはPSOと比較してCPU使用効率を約5\%削減し、CPU使用効率を反映している。 これらの特徴により、OIOアルゴリズムは複雑な最適化問題に大きな可能性を示し、特にロボット経路計画、サプライチェーン管理最適化、エネルギーシステム管理などの高速で効率的で堅牢な最適化手法を必要とするアプリケーションシナリオに適している。

This paper introduces a novel bionic intelligent optimisation algorithm, Octopus Inspired Optimization (OIO) algorithm, which is inspired by the neural structure of octopus, especially its hierarchical and decentralised interaction properties. By simulating the sensory, decision-making, and executive abilities of octopuses, the OIO algorithm adopts a multi-level hierarchical strategy, including tentacles, suckers, individuals and groups, to achieve an effective combination of global and local search. This hierarchical design not only enhances the flexibility and efficiency of the algorithm, but also significantly improves its search efficiency and adaptability. In performance evaluations, including comparisons with existing mainstream intelligent optimisation algorithms, OIO shows faster convergence and higher accuracy, especially when dealing with multimodal functions and high-dimensional optimisation problems. This advantage is even more pronounced as the required minimum accuracy is higher, with the OIO algorithm showing an average speedup of 2.27 times that of conventional particle swarm optimisation (PSO) and 9.63 times that of differential evolution (DE) on multimodal functions. In particular, when dealing with high-dimensional optimisation problems, OIO achieves an average speed of 10.39 times that of DE, demonstrating its superior computational efficiency. In addition, the OIO algorithm also shows a reduction of about $5\%$ in CPU usage efficiency compared to PSO, which is reflected in the efficiency of CPU resource usage also shows its efficiency. These features make the OIO algorithm show great potential in complex optimisation problems, and it is especially suitable for application scenarios that require fast, efficient and robust optimisation methods, such as robot path planning, supply chain management optimisation, and energy system management.
翻訳日:2024-10-31 13:53:52 公開日:2024-10-10
# 一般化可能でアニマタブルなガウスヘッドアバター

Generalizable and Animatable Gaussian Head Avatar ( http://arxiv.org/abs/2410.07971v1 )

ライセンス: Link先を確認
Xuangeng Chu, Tatsuya Harada, (参考訳) 本稿では,GAGAvatar(Generalizable and Animatable Gaussian Head Avatar)を提案する。 既存の方法は神経放射場に依存しており、高いレンダリング消費と低い再現速度をもたらす。 これらの制約に対処するため、1つの前方通過で1つの画像から3次元ガウスのパラメータを生成する。 我々の研究の重要な革新は、アイデンティティと顔の詳細をキャプチャする高忠実度3Dガウシアンを生成するデュアルリフト方式である。 さらに,グローバルな画像特徴と3次元形態素モデルを活用し,表現制御のための3次元ガウスモデルを構築した。 トレーニング後のモデルでは,特定の最適化を伴わずに未確認のアイデンティティを再構築し,リアルタイムに再現レンダリングを行うことができる。 提案手法は, 再現性や表現精度の点で, 従来の手法に比べて優れた性能を示すことを示す。 我々は,デジタルアバターの今後の研究と先進的な応用のための新しいベンチマークを確立することができると考えている。 コードとデモはhttps://github.com/xg-chu/GAGAvatar.comで公開されている。

In this paper, we propose Generalizable and Animatable Gaussian head Avatar (GAGAvatar) for one-shot animatable head avatar reconstruction. Existing methods rely on neural radiance fields, leading to heavy rendering consumption and low reenactment speeds. To address these limitations, we generate the parameters of 3D Gaussians from a single image in a single forward pass. The key innovation of our work is the proposed dual-lifting method, which produces high-fidelity 3D Gaussians that capture identity and facial details. Additionally, we leverage global image features and the 3D morphable model to construct 3D Gaussians for controlling expressions. After training, our model can reconstruct unseen identities without specific optimizations and perform reenactment rendering at real-time speeds. Experiments show that our method exhibits superior performance compared to previous methods in terms of reconstruction quality and expression accuracy. We believe our method can establish new benchmarks for future research and advance applications of digital avatars. Code and demos are available https://github.com/xg-chu/GAGAvatar.
翻訳日:2024-10-31 13:53:52 公開日:2024-10-10
# 等変非局所電子密度関数の学習

Learning Equivariant Non-Local Electron Density Functionals ( http://arxiv.org/abs/2410.07972v1 )

ライセンス: Link先を確認
Nicholas Gao, Eike Eberhard, Stephan Günnemann, (参考訳) 密度汎関数理論の精度は、交換相関関数(XC)への非局所的な寄与の近似に依存する。 現在までに、機械学習と人間設計の近似は、不十分な精度、スケーラビリティの制限、高価な参照データへの依存に悩まされている。 これらの問題に対処するために、同変グラフニューラルネットワークに基づく新しい非局所XC関数であるEquivariant Graph Exchange correlation (EG-XC)を導入する。 EG-XCは、半局所関数と、電子密度の同変核中心点雲表現によってパラメータ化された非局所的特徴密度を組み合わせて、長距離相互作用を捉える。 自己整合フィールドソルバを微分することにより,エネルギー目標のみを必要とするEG-XCを訓練する。 経験的評価では, MD17の「金標準」CCSD(T)エネルギーを正確に再構成するEG-XCが得られた。 3BPAの分布外コンフォメーションでは、EG-XCは相対MAEを35%から50%減少させる。 注目すべきは、EG-XCは、QM9上のデータ効率と分子サイズの外挿に優れており、5倍以上の分子で訓練された整合力場である。 同じトレーニングセットでは、EG-XCは平均して51%低いMAEで収まる。

The accuracy of density functional theory hinges on the approximation of non-local contributions to the exchange-correlation (XC) functional. To date, machine-learned and human-designed approximations suffer from insufficient accuracy, limited scalability, or dependence on costly reference data. To address these issues, we introduce Equivariant Graph Exchange Correlation (EG-XC), a novel non-local XC functional based on equivariant graph neural networks. EG-XC combines semi-local functionals with a non-local feature density parametrized by an equivariant nuclei-centered point cloud representation of the electron density to capture long-range interactions. By differentiating through a self-consistent field solver, we train EG-XC requiring only energy targets. In our empirical evaluation, we find EG-XC to accurately reconstruct `gold-standard' CCSD(T) energies on MD17. On out-of-distribution conformations of 3BPA, EG-XC reduces the relative MAE by 35% to 50%. Remarkably, EG-XC excels in data efficiency and molecular size extrapolation on QM9, matching force fields trained on 5 times more and larger molecules. On identical training sets, EG-XC yields on average 51% lower MAEs.
翻訳日:2024-10-31 06:15:07 公開日:2024-10-10
# 多エージェント強化学習のための変分不等式法:性能と安定性向上

Variational Inequality Methods for Multi-Agent Reinforcement Learning: Performance and Stability Gains ( http://arxiv.org/abs/2410.07976v1 )

ライセンス: Link先を確認
Baraah A. M. Sidahmed, Tatjana Chavdarova, (参考訳) マルチエージェント強化学習(MARL)は、エージェントが経験を通して戦略を学ぶとき、ユニークな課題を提示する。 勾配に基づく手法は、しばしばハイパーパラメータの選択と初期ランダムシードの変動に敏感である。 同時に、従来の勾配に基づく最適化手法の収束を阻害する非収束回転力学に特に対処する平衡フィニング問題を含む変分不等式 (VIs) の解決にも大きな進歩があった。 本稿では,MARL トレーニングを改善するために VI ベースの手法を活用する可能性について検討する。 具体的には,Nested-Lookahead VI (nLA-VI) およびExtragradient (EG) を用いたマルチエージェント深層決定性ポリシー勾配 (MADDPG) アルゴリズムの性能について検討した。 シングルエージェントとマルチエージェントの両方の設定に対してアクター・クリティカル・アルゴリズムの VI 改訂を提案する。 我々は, nLA-VI, EG, および LA-MADDPG, EG-MADDPG, LA-EG-MADDPG という2つの組み合わせを用いた3つのアルゴリズムを提案する。 実験の結果、これらのVIベースのアプローチは、ゼロサムゲームのようなベンチマーク環境において、平衡戦略を定量的に評価できるロックペーパー・シザーやマッチングペニーや、VIベースの手法が同一チームからのエージェントのバランスの取れた参加を得られるマルチエージェント・パーティクル環境:プレデター・プレイ・ベンチマークなど、大きなパフォーマンス向上をもたらすことが示された。

Multi-agent reinforcement learning (MARL) presents unique challenges as agents learn strategies through experiences. Gradient-based methods are often sensitive to hyperparameter selection and initial random seed variations. Concurrently, significant advances have been made in solving Variational Inequalities (VIs) which include equilibrium-finding problems particularly in addressing the non-converging rotational dynamics that impede convergence of traditional gradient based optimization methods. This paper explores the potential of leveraging VI-based techniques to improve MARL training. Specifically, we study the performance of VI method namely, Nested-Lookahead VI (nLA-VI) and Extragradient (EG) in enhancing the multi-agent deep deterministic policy gradient (MADDPG) algorithm. We present a VI reformulation of the actor-critic algorithm for both single- and multi-agent settings. We introduce three algorithms that use nLA-VI, EG, and a combination of both, named LA-MADDPG, EG-MADDPG, and LA-EG-MADDPG, respectively. Our empirical results demonstrate that these VI-based approaches yield significant performance improvements in benchmark environments, such as the zero-sum games: rock-paper-scissors and matching pennies, where equilibrium strategies can be quantitatively assessed, and the Multi-Agent Particle Environment: Predator prey benchmark, where VI-based methods also yield balanced participation of agents from the same team.
翻訳日:2024-10-31 06:15:07 公開日:2024-10-10
# Knill-Laflamme条件における係数による量子符号のキャラクタリゼーション

Characterizing Quantum Codes via the Coefficients in Knill-Laflamme Conditions ( http://arxiv.org/abs/2410.07983v1 )

ライセンス: Link先を確認
Mengxin Du, Chao Zhang, Yiu-Tung Poon, Bei Zeng, (参考訳) 量子誤り訂正(QEC)は、ノイズから量子情報を保護するのに不可欠であるが、特に非加法符号に対しては、条件 $PE_i^\dagger E_j P = \lambda_{ij} P$ から Knill-Laflamme (KL) 係数 $\lambda_{ij}$ の構造を理解することは困難である。 本研究では、オフ対角KL係数$\lambda_{ij}$からなるシグネチャベクトル $\vec{\lambda}(P)$を導入し、各係数は1回だけ数えられる誤差の同値類に対応する。 我々は、そのユークリッドノルム $\lambda^*(P)$ を、プロジェクタ$P$によって定義されたコードサブスペース内のエラー相関の総強度を表すスカラー測度として定義する。 我々は、スティーフェル多様体上で$P$をパラメータ化し、KL条件に基づいて最適化問題を定式化し、$\lambda^*$の可能な値を体系的に探索する。 さらに、$((n,K,d))$符号の場合、$\lambda^*$は局所ユニタリ変換の下で不変であることを示す。 量子符号の $((6, 2, 3) へのアプローチを適用すると、既知の退化安定化符号に対応する $\lambda^*_{\text{min}} = \sqrt{0.6}$ と $\lambda^*_{\text{max}} = 1$ が現れる。 我々は、$\mathbb{R}^5$, $\lambda^*$ を区間 $[\sqrt{0.6}, 1]$ のベクトルでパラメータ化した新しい非加法符号の連続族を構成する。 for the $((7, 2, 3)$ code, we identified $\lambda^*_{\text{min}} = 0$ (非退化Steane codeに対応する) and $\lambda^*_{\text{max}} = \sqrt{7}$ (Polatsek と Ruskai による置換不変コードに対応する)。 本研究は,量子コードの構造に関する新たな知見を提供し,QECの理論的基礎を推し進めるとともに,符号部分空間と誤り相関の複雑な関係を解明するための新たな道を開いた。

Quantum error correction (QEC) is essential for protecting quantum information against noise, yet understanding the structure of the Knill-Laflamme (KL) coefficients $\lambda_{ij}$ from the condition $PE_i^\dagger E_j P = \lambda_{ij} P$ remains challenging, particularly for nonadditive codes. In this work, we introduce the signature vector $\vec{\lambda}(P)$, composed of the off-diagonal KL coefficients $\lambda_{ij}$, where each coefficient corresponds to equivalence classes of errors counted only once. We define its Euclidean norm $\lambda^*(P)$ as a scalar measure representing the total strength of error correlations within the code subspace defined by the projector $P$. We parameterize $P$ on a Stiefel manifold and formulate an optimization problem based on the KL conditions to systematically explore possible values of $\lambda^*$. Moreover, we show that, for $((n,K,d))$ codes, $\lambda^*$ is invariant under local unitary transformations. Applying our approach to the $((6, 2, 3))$ quantum code, we find that $\lambda^*_{\text{min}} = \sqrt{0.6}$ and $\lambda^*_{\text{max}} = 1$, with $\lambda^* = 1$ corresponding to a known degenerate stabilizer code. We construct continuous families of new nonadditive codes parameterized by vectors in $\mathbb{R}^5$, with $\lambda^*$ varying over the interval $[\sqrt{0.6}, 1]$. For the $((7, 2, 3))$ code, we identify $\lambda^*_{\text{min}} = 0$ (corresponding to the non-degenerate Steane code) and $\lambda^*_{\text{max}} = \sqrt{7}$ (corresponding to the permutation-invariant code by Pollatsek and Ruskai), and we demonstrate continuous paths connecting these extremes via cyclic codes characterized solely by $\lambda^*$. Our findings provide new insights into the structure of quantum codes, advance the theoretical foundations of QEC, and open new avenues for investigating intricate relationships between code subspaces and error correlations.
翻訳日:2024-10-31 06:15:07 公開日:2024-10-10
# シングルコピー安定化器試験

Single-copy stabilizer testing ( http://arxiv.org/abs/2410.07986v1 )

ライセンス: Link先を確認
Marcel Hinsche, Jonas Helsen, (参考訳) 未知の$n$-qubit量子状態 $|\psi\rangle$ が、単一のコピーアクセスのみを持つ安定化状態であるかどうかをテストする問題を考える。 我々は、$O(n)$コピーを用いてこの問題を解決するアルゴリズムを与え、逆に、$Omega(\sqrt{n})$コピーが任意のアルゴリズムに必要であることを示す。 アルゴリズムの背後にある主な観測は、ランダムに選択された安定化器基底で繰り返し測定する場合、安定化器状態は、測定結果に線形依存を示す全ての純粋な状態の集合の中で最も可能性が高いことである。 我々のアルゴリズムは、この極端な振る舞いから逸脱を探索するために設計されている。 下界では、まず、ランダムな安定化状態と最大混合状態とを区別するタスクに安定化試験を還元する。 そして、一般性を欠くことなく、測定戦略を考えるだけで十分であると主張する。 a) クリフォード群のテンソル作用の可換状態にあり、 b) 正部分転置(PPT)条件を満たすこと。 これらの制約を活用することにより、クリフォード可換体の生成元の部分的な転置に関する新しい結果とともに、サンプル複雑性の低い境界を導出する。

We consider the problem of testing whether an unknown $n$-qubit quantum state $|\psi\rangle$ is a stabilizer state, with only single-copy access. We give an algorithm solving this problem using $O(n)$ copies, and conversely prove that $\Omega(\sqrt{n})$ copies are required for any algorithm. The main observation behind our algorithm is that when repeatedly measuring in a randomly chosen stabilizer basis, stabilizer states are the most likely among the set of all pure states to exhibit linear dependencies in measurement outcomes. Our algorithm is designed to probe deviations from this extremal behavior. For the lower bound, we first reduce stabilizer testing to the task of distinguishing random stabilizer states from the maximally mixed state. We then argue that, without loss of generality, it is sufficient to consider measurement strategies that a) lie in the commutant of the tensor action of the Clifford group and b) satisfy a Positive Partial Transpose (PPT) condition. By leveraging these constraints, together with novel results on the partial transposes of the generators of the Clifford commutant, we derive the lower bound on the sample complexity.
翻訳日:2024-10-31 06:15:07 公開日:2024-10-10
# 視覚シーンの仮想表現への遷移

A transition towards virtual representations of visual scenes ( http://arxiv.org/abs/2410.07987v1 )

ライセンス: Link先を確認
Américo Pereira, Pedro Carvalho, Luís Côrte-Real, (参考訳) 視覚的シーン理解は、視覚データから意味のある情報を抽出することを目的とした、コンピュータビジョンの基本的なタスクである。 従来は、特定のアプリケーションシナリオに適した、さまざまなタスクのための分離された特殊なアルゴリズムが含まれていました。 視覚的なシーンから抽出された視覚的および意味的なデータの処理を含む複雑なシステムを設計する場合、これは厄介である。 3次元仮想合成で可視化コンポーネントを活性化するのに使用できる、背景シーンの正確かつセマンティックな記述を可能にするために、自動的な視覚的シーン理解を利用するシステムを設計する場合、柔軟性と統一されたフレームワークの欠如がより顕著になる。 この問題とその固有の問題を緩和するために,適応的で統一的で一貫性のあるソリューションを実現する3次元仮想合成への視覚的シーン理解と記述の課題に対処するアーキテクチャを提案する。 さらに、提案が複数のアプリケーション領域でどのように使えるかを明らかにします。 さらに,その実用性をさらに証明するために,アーキテクチャを用いた概念実証システムも提案する。

Visual scene understanding is a fundamental task in computer vision that aims to extract meaningful information from visual data. It traditionally involves disjoint and specialized algorithms for different tasks that are tailored for specific application scenarios. This can be cumbersome when designing complex systems that include processing of visual and semantic data extracted from visual scenes, which is even more noticeable nowadays with the influx of applications for virtual or augmented reality. When designing a system that employs automatic visual scene understanding to enable a precise and semantically coherent description of the underlying scene, which can be used to fuel a visualization component with 3D virtual synthesis, the lack of flexibility and unified frameworks become more prominent. To alleviate this issue and its inherent problems, we propose an architecture that addresses the challenges of visual scene understanding and description towards a 3D virtual synthesis that enables an adaptable, unified and coherent solution. Furthermore, we expose how our proposition can be of use into multiple application areas. Additionally, we also present a proof of concept system that employs our architecture to further prove its usability in practice.
翻訳日:2024-10-31 06:15:07 公開日:2024-10-10
# LADIMO:潜伏拡散を用いたバイオメトリックテンプレートインバージョンによる顔形態生成

LADIMO: Face Morph Generation through Biometric Template Inversion with Latent Diffusion ( http://arxiv.org/abs/2410.07988v1 )

ライセンス: Link先を確認
Marcel Grimmer, Christoph Busch, (参考訳) 顔のモルヒネ攻撃は顔認識システムに深刻なセキュリティ上の脅威をもたらし、顔のモルヒネ画像が複数のアイデンティティに対して検証される。 このような操作された画像を検出するためには、顔形態検出に使用されるトレーニングデータセットの多様性を高めるために、新しい顔形態計測法の開発が不可欠である。 本研究では,2つの顔認識埋め込みにおいて,表情レベルの顔形態形成手法であるLADIMOを提案する。 具体的には、バイオメトリックテンプレートを逆転させるために潜時拡散モデルを訓練し、FRS潜時表現から顔画像の再構成を行う。 その後の脆弱性分析は、GANベースの顔形態解析手法であるMIPGAN-IIと比較して、高い形態的攻撃電位を示す。 最後に,その確率的LADMIOモデル設計と同一条件設定機構を組み合わせることで,一対の顔形態像から無制限なモーフィング攻撃を発生させる。 各顔形態変種は個々の攻撃成功率を有しており、簡単な再サンプリング戦略を適用することで、形態的攻撃ポテンシャルを最大化できることを示す。 コードと事前トレーニングされたモデルはここで利用可能である。 https://github.com/dasec/LADIMO

Face morphing attacks pose a severe security threat to face recognition systems, enabling the morphed face image to be verified against multiple identities. To detect such manipulated images, the development of new face morphing methods becomes essential to increase the diversity of training datasets used for face morph detection. In this study, we present a representation-level face morphing approach, namely LADIMO, that performs morphing on two face recognition embeddings. Specifically, we train a Latent Diffusion Model to invert a biometric template - thus reconstructing the face image from an FRS latent representation. Our subsequent vulnerability analysis demonstrates the high morph attack potential in comparison to MIPGAN-II, an established GAN-based face morphing approach. Finally, we exploit the stochastic LADMIO model design in combination with our identity conditioning mechanism to create unlimited morphing attacks from a single face morph image pair. We show that each face morph variant has an individual attack success rate, enabling us to maximize the morph attack potential by applying a simple re-sampling strategy. Code and pre-trained models available here: https://github.com/dasec/LADIMO
翻訳日:2024-10-31 06:15:07 公開日:2024-10-10
# BCD技術におけるディジタルブロックの機械学習による実現可能性評価

Machine Learning-based feasibility estimation of digital blocks in BCD technology ( http://arxiv.org/abs/2410.07989v1 )

ライセンス: Link先を確認
Gabriele Faraone, Francesco Daghero, Eugenio Serianni, Dario Licastro, Nicola Di Carolo, Michelangelo Grosso, Giovanna Antonella Franchino, Daniele Jahier Pagliari, (参考訳) アナログ・オン・トップ混合信号(Analog-on-Top Mixed Signal,AMS) 集積回路(IC)設計は、主に手で行う時間を要するプロセスである。 この流れの中では、通常、ある領域はデジタルブロックの配置のためにトップレベル積分器によって予約される。 サイズや形状など、領域の特定の特徴は、必要な機能でデジタルロジックを実装する可能性に関連している。 本稿では,高レベルの特徴セットを用いて,デジタル実装の実現可能性を予測するための機械学習(ML)に基づく評価手法を提案する。 このアプローチは、Place-and-Routeトライアルの時間の浪費を回避することを目的としており、トップレベルの配置において、DigitalとAnalog Back-Endデザイナ間の迅速なフィードバックを可能にする。

Analog-on-Top Mixed Signal (AMS) Integrated Circuit (IC) design is a time-consuming process predominantly carried out by hand. Within this flow, usually, some area is reserved by the top-level integrator for the placement of digital blocks. Specific features of the area, such as size and shape, have a relevant impact on the possibility of implementing the digital logic with the required functionality. We present a Machine Learning (ML)-based evaluation methodology for predicting the feasibility of digital implementation using a set of high-level features. This approach aims to avoid time-consuming Place-and-Route trials, enabling rapid feedback between Digital and Analog Back-End designers during top-level placement.
翻訳日:2024-10-31 06:15:07 公開日:2024-10-10
# 深部強化学習における神経可塑性拡大

Neuroplastic Expansion in Deep Reinforcement Learning ( http://arxiv.org/abs/2410.07994v1 )

ライセンス: Link先を確認
Jiashun Liu, Johan Obando-Ceron, Aaron Courville, Ling Pan, (参考訳) 学習エージェントの可塑性の喪失は、生物学的脳における神経経路の固化と類似しており、非定常性による強化学習の学習と適応を著しく妨げている。 この根本的な課題に対処するために,認知科学における皮質拡大に触発された新しいアプローチであるNeuroplastic Expansion(NE)を提案する。 NEは、ネットワークを小さな初期サイズからフル次元に動的に拡大することにより、トレーニングプロセス全体を通して学習性と適応性を維持します。 本手法は, 1) 電位勾配に基づく弾性ニューロン生成, (2) ネットワーク表現性を最適化するための休眠ニューロンプルーニング, (3) 可塑性安定性ジレンマのバランスをとるための経験的考察によるニューロンの凝縮の3つの重要な要素で設計されている。 広範囲にわたる実験により、NEはMuJoCoおよびDeepMind Control Suite環境の様々なタスクにおいて、可塑性損失を効果的に軽減し、最先端の手法より優れていることが示された。 NEは複雑な動的環境において、より適応的な学習を可能にする。これは、静的な1回のトレーニングパラダイムから、より柔軟で継続的な適応モデルに移行するための重要なステップである。

The loss of plasticity in learning agents, analogous to the solidification of neural pathways in biological brains, significantly impedes learning and adaptation in reinforcement learning due to its non-stationary nature. To address this fundamental challenge, we propose a novel approach, Neuroplastic Expansion (NE), inspired by cortical expansion in cognitive science. NE maintains learnability and adaptability throughout the entire training process by dynamically growing the network from a smaller initial size to its full dimension. Our method is designed with three key components: (1) elastic neuron generation based on potential gradients, (2) dormant neuron pruning to optimize network expressivity, and (3) neuron consolidation via experience review to strike a balance in the plasticity-stability dilemma. Extensive experiments demonstrate that NE effectively mitigates plasticity loss and outperforms state-of-the-art methods across various tasks in MuJoCo and DeepMind Control Suite environments. NE enables more adaptive learning in complex, dynamic environments, which represents a crucial step towards transitioning deep reinforcement learning from static, one-time training paradigms to more flexible, continually adapting models.
翻訳日:2024-10-31 06:05:02 公開日:2024-10-10
# RegionGrasp: 接触領域制御可能なハンドグラス生成のための新しいタスク

RegionGrasp: A Novel Task for Contact Region Controllable Hand Grasp Generation ( http://arxiv.org/abs/2410.07995v1 )

ライセンス: Link先を確認
Yilin Wang, Chuan Guo, Li Cheng, Hai Jiang, (参考訳) マシンは、物体の特定の接触領域を3Dで自動生成できるのか? これにより、3Dオブジェクトを入力として、対象の接触領域として選択された特定の表面領域と共に与え、指先が接触領域の物体表面に触れる、オブジェクトの多様な可視的手つかみを生成するという、新しいタスク(RegionGrasp)}を考えることができる。 この課題に対処するため、RegionalGrasp-CVAEが提案されている。 まず, 接触領域認識を可能にするために, トランスフォーマーバックボンドオブジェクトエンコーダO-Encを含む条件エンコーダとして ConditionNet を提案する。 第二に, HOINetは, 幾何認識型マルチヘッドクロスアテンションにより, ハイレベルハンド特徴と埋め込みオブジェクト特徴とを絡み合わせることで, ハンドオブジェクトインタラクション特徴を符号化するために導入された。 実験による評価は, 現状の手法と比較して, 定性的かつ定量的に比較できることを示すものである。

Can machine automatically generate multiple distinct and natural hand grasps, given specific contact region of an object in 3D? This motivates us to consider a novel task of \textit{Region Controllable Hand Grasp Generation (RegionGrasp)}, as follows: given as input a 3D object, together with its specific surface area selected as the intended contact region, to generate a diverse set of plausible hand grasps of the object, where the thumb finger tip touches the object surface on the contact region. To address this task, RegionGrasp-CVAE is proposed, which consists of two main parts. First, to enable contact region-awareness, we propose ConditionNet as the condition encoder that includes in it a transformer-backboned object encoder, O-Enc; a pretraining strategy is adopted by O-Enc, where the point patches of object surface are randomly masked off and subsequently restored, to further capture surface geometric information of the object. Second, to realize interaction awareness, HOINet is introduced to encode hand-object interaction features by entangling high-level hand features with embedded object features through geometric-aware multi-head cross attention. Empirical evaluations demonstrate the effectiveness of our approach qualitatively and quantitatively where it is shown to compare favorably with respect to the state of the art methods.
翻訳日:2024-10-31 06:05:02 公開日:2024-10-10
# フィッシングメールを検出し、ユーザーに警告する説明を生成するGPTベースのツールAPOLLO

APOLLO: A GPT-based tool to detect phishing emails and generate explanations that warn users ( http://arxiv.org/abs/2410.07997v1 )

ライセンス: Link先を確認
Giuseppe Desolda, Francesco Greco, Luca Viganò, (参考訳) フィッシングは最も多彩なサイバー犯罪行為の1つであり、攻撃はますます洗練されつつある。 したがって、技術と人間の両面にわたるユーザー保護を改善するために、新しい技術を探求することが不可欠である。 大規模言語モデル (LLM) は、様々なドメインでテキスト処理に重要な保証を提供するが、フィッシング攻撃に対する防御手段としての使用はいまだにほとんど検討されていない。 本稿では,OpenAIのGPT-4oをベースとしたツールであるAPOLLOを提案する。 我々は、フィッシングメールの分類におけるAPOLLOの性能を評価し、その結果、LLMモデルはフィッシングメールの分類における模範的な能力(GPT-4oの場合の97%の精度)を持ち、サードパーティのサービスからのデータを統合することにより、その性能をさらに向上し、その結果、ほぼ完全な分類率(99%の精度)が得られることを示した。 また,本ツールによる説明文の知覚を評価するため,20名の被験者を対象に,フィッシング警告として提示された4つの説明文を比較した。 LLMの生成した説明を,手作業による警告,Chrome,Firefox,Edgeブラウザからの警告の4つのベースラインと比較した。 その結果, LLMによる説明は高品質であるだけでなく, ベースラインよりも理解しやすく, 興味深く, 信頼に足るものであることがわかった。 これらの結果は, LLMをフィッシングに対する防御として用いることが非常に有望なアプローチであり, APOLLOはこの研究の方向性における概念実証を表していることを示唆している。

Phishing is one of the most prolific cybercriminal activities, with attacks becoming increasingly sophisticated. It is, therefore, imperative to explore novel technologies to improve user protection across both technical and human dimensions. Large Language Models (LLMs) offer significant promise for text processing in various domains, but their use for defense against phishing attacks still remains scarcely explored. In this paper, we present APOLLO, a tool based on OpenAI's GPT-4o to detect phishing emails and generate explanation messages to users about why a specific email is dangerous, thus improving their decision-making capabilities. We have evaluated the performance of APOLLO in classifying phishing emails; the results show that the LLM models have exemplary capabilities in classifying phishing emails (97 percent accuracy in the case of GPT-4o) and that this performance can be further improved by integrating data from third-party services, resulting in a near-perfect classification rate (99 percent accuracy). To assess the perception of the explanations generated by this tool, we also conducted a study with 20 participants, comparing four different explanations presented as phishing warnings. We compared the LLM-generated explanations to four baselines: a manually crafted warning, and warnings from Chrome, Firefox, and Edge browsers. The results show that not only the LLM-generated explanations were perceived as high quality, but also that they can be more understandable, interesting, and trustworthy than the baselines. These findings suggest that using LLMs as a defense against phishing is a very promising approach, with APOLLO representing a proof of concept in this research direction.
翻訳日:2024-10-31 06:05:02 公開日:2024-10-10
# AHA:人間によるアウト・オブ・ディストリビューションの一般化と検出

AHA: Human-Assisted Out-of-Distribution Generalization and Detection ( http://arxiv.org/abs/2410.08000v1 )

ライセンス: Link先を確認
Haoyue Bai, Jifan Zhang, Robert Nowak, (参考訳) 現代の機械学習モデルは、しばしば現実世界のアプリケーションで分散シフトに遭遇し、共変量またはセマンティック・アウト・オブ・ディストリビューション(OOD)シフトとして表される。 これらの変化は、OOD一般化とOOD検出の課題を引き起こす。 本稿では,AHA (Adaptive Human-Assisted OOD learning) という新たなアプローチを導入し,OODの一般化と検出を,野生のデータをラベル付けすることで同時に行うことを提案する。 提案手法は,OODデータの意味的および共変量数がほぼ等しくなるような,新しい最大曖昧化領域における事例を戦略的にラベル付けする。 この領域内でのラベル付けにより、2種類のOODデータを最大限にあいまいにすることができ、固定されたラベル付け予算の有用性を最大化することができる。 提案アルゴリズムは,まず雑音の多い二分探索アルゴリズムを用いて,最大不明瞭領域を高い確率で同定する。 その後、アルゴリズムは識別されたラベル領域内で注釈を付け、人間のフィードバックの恩恵を享受する。 大規模な実験により、我々のフレームワークの有効性が検証された。 我々は, OODの一般化とOOD検出の両面で, 人的支援を伴わない既存の最先端手法を, わずか数百の人的アノテーションで大幅に上回っていることを観察した。 コードは \url{https://github.com/HaoyueBaiZJU/aha} で公開されている。

Modern machine learning models deployed often encounter distribution shifts in real-world applications, manifesting as covariate or semantic out-of-distribution (OOD) shifts. These shifts give rise to challenges in OOD generalization and OOD detection. This paper introduces a novel, integrated approach AHA (Adaptive Human-Assisted OOD learning) to simultaneously address both OOD generalization and detection through a human-assisted framework by labeling data in the wild. Our approach strategically labels examples within a novel maximum disambiguation region, where the number of semantic and covariate OOD data roughly equalizes. By labeling within this region, we can maximally disambiguate the two types of OOD data, thereby maximizing the utility of the fixed labeling budget. Our algorithm first utilizes a noisy binary search algorithm that identifies the maximal disambiguation region with high probability. The algorithm then continues with annotating inside the identified labeling region, reaping the full benefit of human feedback. Extensive experiments validate the efficacy of our framework. We observed that with only a few hundred human annotations, our method significantly outperforms existing state-of-the-art methods that do not involve human assistance, in both OOD generalization and OOD detection. Code is publicly available at \url{https://github.com/HaoyueBaiZJU/aha}.
翻訳日:2024-10-31 06:05:02 公開日:2024-10-10
# 時がアルゴリズムの会話を無効にできる

Time Can Invalidate Algorithmic Recourse ( http://arxiv.org/abs/2410.08007v1 )

ライセンス: Link先を確認
Giovanni De Toni, Stefano Teso, Bruno Lepri, Andrea Passerini, (参考訳) Algorithmic Recourse(AR)は、マシンラーニングの予測者による望ましくない決定を覆すための実行可能なステップをユーザに提供することを目的としている。 しかし、これらのアクションは実装に時間がかかることが多く(例えば、学位を取得するのには数年かかる)、その効果は世界が進化するにつれて変化する可能性がある。 したがって、動的環境において依然として有効であるような言論を求めるのは自然である。 本稿では,因果関係のレンズを通して問題を提示することにより,時間とともにアルゴリズム的言論の頑健さを考察する。 我々は、(堅牢な)因果AR手法が時間とともに失敗する可能性があることを理論的、実証的に実証する。 さらに重要なのは、世界が完全に決定論的でない限り、カウンターファクトARは最適に解決できないことだ。 そこで本稿では,時間に比例した時間的ARのための簡易かつ効果的なアルゴリズムを提案する。 合成および現実的なデータセットに関するシミュレーションは、時間を考慮した場合、データ分布の潜在的なトレンドに対するより弾力性のある解決策をいかに生み出すかを示す。

Algorithmic Recourse (AR) aims to provide users with actionable steps to overturn unfavourable decisions made by machine learning predictors. However, these actions often take time to implement (e.g., getting a degree can take years), and their effects may vary as the world evolves. Thus, it is natural to ask for recourse that remains valid in a dynamic environment. In this paper, we study the robustness of algorithmic recourse over time by casting the problem through the lens of causality. We demonstrate theoretically and empirically that (even robust) causal AR methods can fail over time except in the - unlikely - case that the world is stationary. Even more critically, unless the world is fully deterministic, counterfactual AR cannot be solved optimally. To account for this, we propose a simple yet effective algorithm for temporal AR that explicitly accounts for time. Our simulations on synthetic and realistic datasets show how considering time produces more resilient solutions to potential trends in the data distribution.
翻訳日:2024-10-31 06:05:02 公開日:2024-10-10
# HHL量子アルゴリズムの攻撃に関する研究

Study of Attacks on the HHL Quantum Algorithm ( http://arxiv.org/abs/2410.08010v1 )

ライセンス: Link先を確認
Yizhuo Tan, Hrvoje Kukina, Jakub Szefer, (参考訳) 量子研究のコミュニティが成長を続け、新しいアルゴリズムが設計され、開発され、実装されるにつれて、セキュリティ面や潜在的な脅威について考え始めることが不可欠である。 この研究は、被害者の回路に干渉しようとする攻撃者回路によって、クラウドベースの量子コンピュータに展開される可能性のある2種類の潜在的な攻撃の探索に焦点を当てる。 Improper Initialization Attack (IIA) と Higher Energy Attack (HEA) と呼ばれるこの2つの攻撃は、よく知られ広く使われている量子アルゴリズム HHL に初めて適用される。 HHLアルゴリズムは線形方程式のシステムを解くために機械学習やビッグデータの分野で用いられる。 この研究は、アンシラ量子ビット(ancilla qubit)、クロック量子ビット( clock qubit)、およびb量子ビット(b qubit)という、HHLアルゴリズム内の異なる量子ビットに対する攻撃の効果を評価する。 この研究は、被害者のアルゴリズムの1つのキュービットが攻撃されたとしても、この2つの攻撃が誤った結果をもたらすことを実証している。 脆弱性を発見したこの作業は、これらの攻撃シナリオごとに防衛戦略を開発するための将来の作業の必要性を動機付けている。

As the quantum research community continues to grow and new algorithms are designed, developed, and implemented, it is crucial to start thinking about security aspects and potential threats that could result in misuse of the algorithms, or jeopardize the information processed with these quantum algorithms. This work focuses on exploration of two types of potential attacks that could be deployed on a cloud-based quantum computer by an attacker circuit trying to interfere with victim circuit. The two attacks, called Improper Initialization Attack (IIA) and Higher Energy Attack (HEA), are for the first time applied to a well-known and widely used quantum algorithm: HHL. The HHL algorithm is used in the field of machine learning and big data for solving systems of linear equations. This work evaluates the effect of the attacks on different qubits within the HHL algorithm: ancilla qubit, clock qubit, and b qubit. This work demonstrates that the two attacks are able to cause incorrect results, even when only one of the qubits in the victim algorithm is attacked. Having discovered the vulnerabilities, the work motivates the need for future work to develop defense strategies for each of these attack scenarios.
翻訳日:2024-10-31 06:05:02 公開日:2024-10-10
# 多目的最適を考慮したLCMカスケード

LLM Cascade with Multi-Objective Optimal Consideration ( http://arxiv.org/abs/2410.08014v1 )

ライセンス: Link先を確認
Kai Zhang, Liqian Peng, Congchao Wang, Alec Go, Xiaozhong Liu, (参考訳) 大規模言語モデル(LLM)は、自然言語の理解と生成において、例外的な能力を示した。 しかし、それらの高いデプロイメントコストは、特に実用アプリケーションにとって障壁となることが多い。 ローカルモデルとサーバモデルのスケーリングはこの課題に対して有望な解決策を提供する。 LLMカスケードに関する既存の研究は主にパフォーマンスコストのトレードオフに焦点を当てているが、現実のシナリオではより複雑な要件が伴うことが多い。 本稿では,LLMのカスケード戦略を多目的最適化(Multi-Objective Optimization)により導入し,LLMのカスケードが新たな目的(プライバシーなど)を考慮し,元のカスケード能力を維持しつつ,現実世界のアプリケーション特有の要求に整合することを可能にする。 3つのベンチマークの大規模な実験は、我々のアプローチの有効性と優位性を検証する。

Large Language Models (LLMs) have demonstrated exceptional capabilities in understanding and generating natural language. However, their high deployment costs often pose a barrier to practical applications, especially. Cascading local and server models offers a promising solution to this challenge. While existing studies on LLM cascades have primarily focused on the performance-cost trade-off, real-world scenarios often involve more complex requirements. This paper introduces a novel LLM Cascade strategy with Multi-Objective Optimization, enabling LLM cascades to consider additional objectives (e.g., privacy) and better align with the specific demands of real-world applications while maintaining their original cascading abilities. Extensive experiments on three benchmarks validate the effectiveness and superiority of our approach.
翻訳日:2024-10-31 06:05:02 公開日:2024-10-10
# 非転写性プルーニング

Non-transferable Pruning ( http://arxiv.org/abs/2410.08015v1 )

ライセンス: Link先を確認
Ruyi Ding, Lili Su, Aidong Adam Ding, Yunsi Fei, (参考訳) 多面的知識を統合するために、広範囲なデータセットから開発された事前学習型ディープニューラルネットワーク(DNN)は、ますます価値ある知的財産権(IP)として認識されている。 これらのモデルをIP侵害から保護するために、所有権の検証と使用許可のための戦略が出現した。 モデルへの直接アクセスを制限することに集中する既存のIP保護戦略とは異なり、本研究では、学習知識の誤用を防止することを目的とした、応用可能性認可(applicability permission)という拡張されたDNNIP問題に対処する。 提案するNon-Transferable Pruning(NTP)は,事前訓練したDNNの非許可データ領域への転送可能性を制御するために,モデルプルーニングを利用する新しいIP保護手法である。 選択的なプルーニングは、完全な微調整であっても、無許可のドメインに対するモデルの適合性を意図的に減少させる可能性がある。 具体的には,モデル空間の識別正則化によって拡張された,モデル空間と革新的な非伝達性学習損失の両方を最適化するために,乗算器の交互方向法(ADMM)を用いて,モデルの一般化性を目標データセットに制約する。 また,SLC-AUC (Area Under the Sample-wise Learning Curve) のモデル非参照性を測定するための新しい有効指標を提案する。 この計量は、様々なサンプルサイズにわたる完全な微調整の考察を促進する。 実験の結果,NTPは最先端の非伝達性学習手法をはるかに上回り,平均的なSLC-AUCは様々なソースとターゲットドメインにまたがって$-0.54$であり,NTPで訓練されたモデルは未認可のターゲットドメインへの変換学習には適していないことが示された。 NTPの有効性は、教師付きおよび自己教師型学習コンテキストの両方で検証され、実世界のシナリオにおける適用性を確認する。

Pretrained Deep Neural Networks (DNNs), developed from extensive datasets to integrate multifaceted knowledge, are increasingly recognized as valuable intellectual property (IP). To safeguard these models against IP infringement, strategies for ownership verification and usage authorization have emerged. Unlike most existing IP protection strategies that concentrate on restricting direct access to the model, our study addresses an extended DNN IP issue: applicability authorization, aiming to prevent the misuse of learned knowledge, particularly in unauthorized transfer learning scenarios. We propose Non-Transferable Pruning (NTP), a novel IP protection method that leverages model pruning to control a pretrained DNN's transferability to unauthorized data domains. Selective pruning can deliberately diminish a model's suitability on unauthorized domains, even with full fine-tuning. Specifically, our framework employs the alternating direction method of multipliers (ADMM) for optimizing both the model sparsity and an innovative non-transferable learning loss, augmented with Fisher space discriminative regularization, to constrain the model's generalizability to the target dataset. We also propose a novel effective metric to measure the model non-transferability: Area Under the Sample-wise Learning Curve (SLC-AUC). This metric facilitates consideration of full fine-tuning across various sample sizes. Experimental results demonstrate that NTP significantly surpasses the state-of-the-art non-transferable learning methods, with an average SLC-AUC at $-0.54$ across diverse pairs of source and target domains, indicating that models trained with NTP do not suit for transfer learning to unauthorized target domains. The efficacy of NTP is validated in both supervised and self-supervised learning contexts, confirming its applicability in real-world scenarios.
翻訳日:2024-10-31 06:05:02 公開日:2024-10-10
# 量子光のパルス整形によるプログラマブル量子線形干渉

Programmable Quantum Linear Interference with Pulse Shaping of Quantum Light ( http://arxiv.org/abs/2410.08016v1 )

ライセンス: Link先を確認
Aruto Hosaka, Masaya Tomita, Yoshiaki Tsujimoto, Shintaro Niimura, Akihito Omi, Kentaro Wakui, Mikio Fujiwara, Masahiro Takeoka, Fumihiko Kannari, (参考訳) 本稿では,光非線形効果を使わずに周波数多重光量子状態を干渉する新しい手法を提案し,この手法を周波数領域のHong-Ou-Mandel(HOM)干渉により実験的に実証する。 量子状態の生成を任意の直交モードにカスケードすることで、任意の周波数モード間の干渉を誘導することができる。 周波数モードでの量子状態の生成に続いて、独立した周波数帯域で測定を行うことで、空間領域における線形干渉に類似した周波数領域線形光回路の実現が可能になる。 我々は,スペクトルモード関数と測定基準を制御し,プログラム可能な量子干渉の実証に成功した。 本手法は光の時間周波数自由度を最大限に活用する新しいアプローチを提供し,光非線形性や空間モードビームスプリッタを必要とせず,スケーラブルでプログラム可能な光量子コンピューティングアーキテクチャへの道筋を提供する。

In this paper, we propose a novel method for interfering frequency-multiplexed photonic quantum states without the use of optical nonlinear effects, and experimentally demonstrate this technique via frequency-domain Hong-Ou-Mandel (HOM) interference. By cascading the generation of quantum states onto arbitrary orthogonal modes, we can induce interference across any desired frequency mode. Following the generation of quantum states onto the frequency modes, performing measurements in independent frequency bands enables the realisation of a frequency-domain linear optical circuit analogous to linear interference in the spatial domain. We successfully demonstrated programmable quantum interference by controlling the spectral mode functions and measurement bases. Our method offers a new approach to harness the full potential of light's temporal-frequency degrees of freedom, providing a path towards scalable and programmable photonic quantum computing architectures without the need for optical nonlinearities or spatial-mode beam splitters.
翻訳日:2024-10-31 05:55:14 公開日:2024-10-10
# テスト時間での効率的な学習: LLMの能動的微調整

Efficiently Learning at Test-Time: Active Fine-Tuning of LLMs ( http://arxiv.org/abs/2410.08020v1 )

ライセンス: Link先を確認
Jonas Hübotter, Sascha Bongni, Ido Hakimi, Andreas Krause, (参考訳) 最近の微調整言語モデルの取り組みは、多くの場合、大規模なデータセットからのNearest Neighbors検索を使用して、自動データ選択に依存している。 しかし、理論的には、このアプローチは冗長なデータを選択し、その有効性を制限したり、パフォーマンスを損なう傾向がある。 そこで本研究では,モデル応答の不確実性を低減するためのデータ選択アルゴリズムSIFTを導入し,検索とアクティブラーニングのアイデアを統一する。 しかしSIFTは情報重複を考慮し、選択したサンプルの全体的な情報取得を最適化する。 我々は、Pileデータセット上でのプロンプト固有言語モデリングのためのテスト時の微調整に焦点を合わせ、SIFTが計算オーバーヘッドを最小限に抑えながら、常に最寄りの検索より優れていることを示す。 さらに,テストタイム微調整の性能向上を予測できる不確実性の推定値を示し,これを用いて,実効的な性能向上に比例したテストタイム計算に投資する適応アルゴリズムを開発した。 我々は、Nearest Neighbor検索のドロップイン代替として使用できる$\texttt{activeft}$ (Active Fine-Tuning)ライブラリを提供する。

Recent efforts in fine-tuning language models often rely on automatic data selection, commonly using Nearest Neighbors retrieval from large datasets. However, we theoretically show that this approach tends to select redundant data, limiting its effectiveness or even hurting performance. To address this, we introduce SIFT, a data selection algorithm designed to reduce uncertainty about the model's response given a prompt, which unifies ideas from retrieval and active learning. Whereas Nearest Neighbor retrieval typically fails in the presence of information duplication, SIFT accounts for information duplication and optimizes the overall information gain of the selected examples. We focus our evaluations on fine-tuning at test-time for prompt-specific language modeling on the Pile dataset, and show that SIFT consistently outperforms Nearest Neighbor retrieval, with minimal computational overhead. Moreover, we show that our uncertainty estimates can predict the performance gain of test-time fine-tuning, and use this to develop an adaptive algorithm that invests test-time compute proportional to realized performance gains. We provide the $\texttt{activeft}$ (Active Fine-Tuning) library which can be used as a drop-in replacement for Nearest Neighbor retrieval.
翻訳日:2024-10-31 05:55:13 公開日:2024-10-10
# 適応的政策スイッチングによる強化学習における時間論理制約の確率的満足度

Probabilistic Satisfaction of Temporal Logic Constraints in Reinforcement Learning via Adaptive Policy-Switching ( http://arxiv.org/abs/2410.08022v1 )

ライセンス: Link先を確認
Xiaoshan Lin, Sadık Bera Yüksel, Yasin Yazıcıoğlu, Derya Aksaray, (参考訳) Constrained Reinforcement Learning (CRL)は、従来の強化学習(RL)フレームワークに制約を導入する機械学習のサブセットである。 累積報酬を最大化することを目的とした従来のRLとは異なり、CRLは学習プロセス中にエージェントが従わなければならない特定のミッション要件や制限を表す追加の制約を取り入れている。 本稿では,学習過程を通じて,時間的論理的制約の満足度を確保しつつ,報酬を最大化するために最適なポリシーを学習することを目的としたCRL問題に対処する。 純粋学習(逆最大化)と制約満足度(制約満足度)の切り替えに依存する新しい枠組みを提案する。 本枠組みは、事前の試行に基づいて制約満足度確率を推定し、学習と制約満足度ポリシーの切り替え確率を適切に調整する。 提案アルゴリズムの正しさを理論的に検証し,その性能と拡張性を総合シミュレーションにより実証する。

Constrained Reinforcement Learning (CRL) is a subset of machine learning that introduces constraints into the traditional reinforcement learning (RL) framework. Unlike conventional RL which aims solely to maximize cumulative rewards, CRL incorporates additional constraints that represent specific mission requirements or limitations that the agent must comply with during the learning process. In this paper, we address a type of CRL problem where an agent aims to learn the optimal policy to maximize reward while ensuring a desired level of temporal logic constraint satisfaction throughout the learning process. We propose a novel framework that relies on switching between pure learning (reward maximization) and constraint satisfaction. This framework estimates the probability of constraint satisfaction based on earlier trials and properly adjusts the probability of switching between learning and constraint satisfaction policies. We theoretically validate the correctness of the proposed algorithm and demonstrate its performance and scalability through comprehensive simulations.
翻訳日:2024-10-31 05:55:13 公開日:2024-10-10
# GrabDAE: Grab-MaskとDenoise Auto-Encoderを利用した教師なしドメイン適応のための革新的フレームワーク

GrabDAE: An Innovative Framework for Unsupervised Domain Adaptation Utilizing Grab-Mask and Denoise Auto-Encoder ( http://arxiv.org/abs/2410.08023v1 )

ライセンス: Link先を確認
Junzhou Chen, Xuan Wen, Ronghui Zhang, Bingtao Ren, Di Wu, Zhigang Xu, Danwei Wang, (参考訳) Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインでトレーニングされたモデルを、ドメインシフトに対処することによってラベルなしのターゲットドメインに適応することを目的としている。 既存のUnsupervised Domain Adaptation (UDA) メソッドは、ターゲットドメインからのコンテキスト情報を完全に活用するに足りず、ソースとターゲットドメインのアライメントの間に最適な決定境界が分離される。 この問題を解決するために,視覚分類タスクのドメインシフトに対処するために設計された,革新的なUDAフレームワークであるGrabDAEを紹介する。 GrabDAEには2つの重要なイノベーションが含まれている。Grab-Maskモジュールは、ターゲットのドメインイメージの背景情報を曖昧にし、対照的な学習を通じて本質的なドメイン関連機能に集中できるようにする。 これらのコンポーネントはGrabDAEに、ラベル付けされていないターゲットドメインデータを効果的に処理する権限を与え、分類精度とロバスト性の両方を大幅に改善する。 VisDA-2017、Office-Home、Office31といったベンチマークデータセットに関する大規模な実験は、GrabDAEが最先端のUDAメソッドを一貫して超え、新しいパフォーマンスベンチマークを設定することを示した。 UDAの新たな機能マスキングとデノイングアプローチによる重要な課題に対処することで、GrabDAEはドメイン適応における重要な理論的および実践的な進歩を提供する。

Unsupervised Domain Adaptation (UDA) aims to adapt a model trained on a labeled source domain to an unlabeled target domain by addressing the domain shift. Existing Unsupervised Domain Adaptation (UDA) methods often fall short in fully leveraging contextual information from the target domain, leading to suboptimal decision boundary separation during source and target domain alignment. To address this, we introduce GrabDAE, an innovative UDA framework designed to tackle domain shift in visual classification tasks. GrabDAE incorporates two key innovations: the Grab-Mask module, which blurs background information in target domain images, enabling the model to focus on essential, domain-relevant features through contrastive learning; and the Denoising Auto-Encoder (DAE), which enhances feature alignment by reconstructing features and filtering noise, ensuring a more robust adaptation to the target domain. These components empower GrabDAE to effectively handle unlabeled target domain data, significantly improving both classification accuracy and robustness. Extensive experiments on benchmark datasets, including VisDA-2017, Office-Home, and Office31, demonstrate that GrabDAE consistently surpasses state-of-the-art UDA methods, setting new performance benchmarks. By tackling UDA's critical challenges with its novel feature masking and denoising approach, GrabDAE offers both significant theoretical and practical advancements in domain adaptation.
翻訳日:2024-10-31 05:55:13 公開日:2024-10-10
# 改良型ADMETモデリングのためのAtom-in-a-Molecule量子特性を持つグラフ変換器の事前学習

Pretraining Graph Transformers with Atom-in-a-Molecule Quantum Properties for Improved ADMET Modeling ( http://arxiv.org/abs/2410.08024v1 )

ライセンス: Link先を確認
Alessio Fallani, Ramil Nugmanov, Jose Arjona-Medina, Jörg Kurt Wegner, Alexandre Tkatchenko, Kostiantyn Chernichenko, (参考訳) 薬物様化合物の吸収, 分布, 代謝, 排ガス, 毒性(ADMET)特性のモデル化における, 原子レベルの量子力学特性に対する事前学習グラフトランスフォーマーアーキテクチャの影響を評価した。 この事前学習戦略を,分子量子特性(特にHOMO-LUMOギャップ)に基づくものと,自己監督型原子マスキング技術を用いたものとを比較した。 Therapeutic Data Commons ADMETデータセットを微調整した後、原子量子力学的性質で事前訓練されたモデルが一般的により良い結果をもたらすことを観察し、異なるモデルの性能改善を評価した。 次に、遅延表現を分析し、教師付き戦略が微調整後の事前学習情報を保存し、異なる事前学習が階層間の遅延表現性に異なる傾向をもたらすことを観察する。 さらに, 原子量子力学特性に基づく事前学習モデルでは, 注目重みによる入力グラフの低周波ラプラシアン固有値の取得や, 分子内の原子環境の表現性の向上が期待できる。 マイクロゾームクリアランスのためのより大規模な非公開データセットへの解析の適用は、研究された指標の一般化性を示している。 この場合、モデルの性能は表現分析とハイライトに従っており、特にマスキング事前訓練や原子レベルの量子特性事前訓練の場合、公開ベンチマークで類似した性能を持つモデルが大規模医薬品データに対してどのように異なる性能を持つかが注目される。

We evaluate the impact of pretraining Graph Transformer architectures on atom-level quantum-mechanical features for the modeling of absorption, distribution, metabolism, excretion, and toxicity (ADMET) properties of drug-like compounds. We compare this pretraining strategy with two others: one based on molecular quantum properties (specifically the HOMO-LUMO gap) and one using a self-supervised atom masking technique. After fine-tuning on Therapeutic Data Commons ADMET datasets, we evaluate the performance improvement in the different models observing that models pretrained with atomic quantum mechanical properties produce in general better results. We then analyse the latent representations and observe that the supervised strategies preserve the pretraining information after finetuning and that different pretrainings produce different trends in latent expressivity across layers. Furthermore, we find that models pretrained on atomic quantum mechanical properties capture more low-frequency laplacian eigenmodes of the input graph via the attention weights and produce better representations of atomic environments within the molecule. Application of the analysis to a much larger non-public dataset for microsomal clearance illustrates generalizability of the studied indicators. In this case the performances of the models are in accordance with the representation analysis and highlight, especially for the case of masking pretraining and atom-level quantum property pretraining, how model types with similar performance on public benchmarks can have different performances on large scale pharmaceutical data.
翻訳日:2024-10-31 05:55:13 公開日:2024-10-10
# Kolmogorov-Arnold ネットワークの一般化境界とモデル複雑度

Generalization Bounds and Model Complexity for Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2410.08026v1 )

ライセンス: Link先を確認
Xianyang Zhang, Huijuan Zhou, (参考訳) Kolmogorov-Arnold Network (KAN) は、Liu et al (2024) によって最近提案されたネットワーク構造であり、多層パーセプトロンと比較して、多くの科学指向のタスクにおいて、解釈可能性を改善し、より類似的な設計を提供する。 この研究は、基底関数の線型結合で表されるか、低ランク再生ケルネルヒルベルト空間(RKHS)に横たわる活性化関数を備えたカンの一般化境界を確立することにより、カンの厳密な理論的解析を提供する。 第一の場合、一般化境界はカンの各層における活性化関数の形成における基底関数の様々な選択に対応し、各層における異なる作用素ノルムに適応する。 作用素ノルムの特定の選択には、係数行列の$l_1$ノルムと活性化関数のリプシッツ定数との有界スケールがあり、対数係数以外の組合せパラメータ(例えばノード数)に依存しない。 さらに、この結果は損失関数上の有界性仮定を必要とせず、従って回帰型損失関数の一般クラスに適用できる。 低ランクの場合、一般化境界は各層における活性化関数のリプシッツ定数と同様に、下層のランクと多項式的にスケールする。 これらの境界は、シミュレーションおよび実データ集合上で確率勾配降下を訓練したカンに対して実験的に検討される。 数値的な結果は,これらの境界の実用的妥当性を示すものである。

Kolmogorov-Arnold Network (KAN) is a network structure recently proposed by Liu et al. (2024) that offers improved interpretability and a more parsimonious design in many science-oriented tasks compared to multi-layer perceptrons. This work provides a rigorous theoretical analysis of KAN by establishing generalization bounds for KAN equipped with activation functions that are either represented by linear combinations of basis functions or lying in a low-rank Reproducing Kernel Hilbert Space (RKHS). In the first case, the generalization bound accommodates various choices of basis functions in forming the activation functions in each layer of KAN and is adapted to different operator norms at each layer. For a particular choice of operator norms, the bound scales with the $l_1$ norm of the coefficient matrices and the Lipschitz constants for the activation functions, and it has no dependence on combinatorial parameters (e.g., number of nodes) outside of logarithmic factors. Moreover, our result does not require the boundedness assumption on the loss function and, hence, is applicable to a general class of regression-type loss functions. In the low-rank case, the generalization bound scales polynomially with the underlying ranks as well as the Lipschitz constants of the activation functions in each layer. These bounds are empirically investigated for KANs trained with stochastic gradient descent on simulated and real data sets. The numerical results demonstrate the practical relevance of these bounds.
翻訳日:2024-10-31 05:55:13 公開日:2024-10-10
# 切り裂かれたラプラシア語メカニズムによる私的言語モデル

Private Language Models via Truncated Laplacian Mechanism ( http://arxiv.org/abs/2410.08027v1 )

ライセンス: Link先を確認
Tianhao Huang, Tao Yang, Ivan Habernal, Lijie Hu, Di Wang, (参考訳) NLPタスクのディープラーニングモデルは、プライバシ攻撃の亜種になりがちである。 プライバシーの漏洩を防ぐために、埋め込み空間における差分プライバシー(DP)の正式な保証に頼って、単語レベルの摂動を調査した。 しかし、既存の多くのアプローチは、ラプラシアまたはガウスのメカニズムを使用する場合、高いプライバシー体制において不満足なパフォーマンスを達成するか、プライバシーの強さの観点から、標準のDPより劣るDPの緩和を弱めるかのいずれかである。 これにより、これらの制限を克服するために、プライベートワード埋め込みの新しい手法が設計できるかどうかという疑問が持ち上がる。 本稿では,高次元トランケートラプラシアン機構と呼ばれる新しいプライベート埋め込み手法を提案する。 具体的には, 1次元空間の場合のみにのみ検討された, truncated Laplacian 機構の非自明な拡張を導入する。 理論的には,提案手法は従来のプライベート単語埋め込み法に比べて分散度が低いことを示す。 その有効性をさらに検証するため、3つのデータセットを用いて、プライベート埋め込みおよび下流タスクに関する包括的な実験を行う。 注目すべきは、高いプライバシー体制であっても、私たちのアプローチは、プライベートでないシナリオに比べて、実用性がわずかに低下することです。

Deep learning models for NLP tasks are prone to variants of privacy attacks. To prevent privacy leakage, researchers have investigated word-level perturbations, relying on the formal guarantees of differential privacy (DP) in the embedding space. However, many existing approaches either achieve unsatisfactory performance in the high privacy regime when using the Laplacian or Gaussian mechanism, or resort to weaker relaxations of DP that are inferior to the canonical DP in terms of privacy strength. This raises the question of whether a new method for private word embedding can be designed to overcome these limitations. In this paper, we propose a novel private embedding method called the high dimensional truncated Laplacian mechanism. Specifically, we introduce a non-trivial extension of the truncated Laplacian mechanism, which was previously only investigated in one-dimensional space cases. Theoretically, we show that our method has a lower variance compared to the previous private word embedding methods. To further validate its effectiveness, we conduct comprehensive experiments on private embedding and downstream tasks using three datasets. Remarkably, even in the high privacy regime, our approach only incurs a slight decrease in utility compared to the non-private scenario.
翻訳日:2024-10-31 05:55:13 公開日:2024-10-10
# 外部性を考慮した戦略的分類

Strategic Classification With Externalities ( http://arxiv.org/abs/2410.08032v1 )

ライセンス: Link先を確認
Yiling Chen, Safwan Hossain, Evi Micha, Ariel Procaccia, (参考訳) 本稿では, 戦略分類問題の新たな変種として, プリンシパルが分類器を明らかにし, エージェントが分類対象となる特徴を報告する。 実世界のアプリケーションによって動機づけられた我々のモデルは、あるエージェントの操作が他のエージェントに影響を与えることを決定的に許している。 主エージェントとエージェントの相互作用は公式にStackelbergゲームとしてモデル化され、結果としてエージェント操作ダイナミクスは同時ゲームとしてキャプチャされる。 特定の仮定の下では、このエージェント操作ゲームの純粋なナッシュ平衡はユニークであり、効率的に計算できることが示される。 この結果を利用して、PAC学習保証が学習者に確立される。非公式に、ランダムな数のエージェントが純粋なNash平衡に操作している場合でも、分布の損失を最小限に抑える分類器を学習できることが示される。 また、勾配に基づくアプローチによる分類器の最適化についてもコメントする。 この研究は、共通の環境で相互作用する複数の戦略的アクターに対して堅牢な分類器のより現実的な分析の理論的基礎を定めている。

We propose a new variant of the strategic classification problem: a principal reveals a classifier, and $n$ agents report their (possibly manipulated) features to be classified. Motivated by real-world applications, our model crucially allows the manipulation of one agent to affect another; that is, it explicitly captures inter-agent externalities. The principal-agent interactions are formally modeled as a Stackelberg game, with the resulting agent manipulation dynamics captured as a simultaneous game. We show that under certain assumptions, the pure Nash Equilibrium of this agent manipulation game is unique and can be efficiently computed. Leveraging this result, PAC learning guarantees are established for the learner: informally, we show that it is possible to learn classifiers that minimize loss on the distribution, even when a random number of agents are manipulating their way to a pure Nash Equilibrium. We also comment on the optimization of such classifiers through gradient-based approaches. This work sets the theoretical foundations for a more realistic analysis of classifiers that are robust against multiple strategic actors interacting in a common environment.
翻訳日:2024-10-31 05:55:13 公開日:2024-10-10
# 原子干渉法における半古典近似の超越

Beyond the semiclassical approximation in atom interferometry ( http://arxiv.org/abs/2410.08040v1 )

ライセンス: Link先を確認
W. LaRow, M. Edwards, C. A. Sackett, (参考訳) 弱無調波トラップにおける原子干渉計の位相シフトを評価するための量子摂動的アプローチについて述べる。 これにより、標準的な半古典近似に対する量子補正を評価する簡単な方法が提供される。 この計算は、一般化されたコヒーレント状態を基底として用いることにより得られる。 半古典近似の形式は、アンハーモニック摂動において一階に変わらず有効であるが、量子波パケットの軌道が古典粒子の軌道から逸脱するので位相差が生じる。 一般に、位相に対する量子補正は半古典的摂動よりも小さい因子$a^2/A^2$であり、$a$は量子調和振動子長スケール、$A$は運動の古典振幅である。

We describe a quantum perturbative approach to evaluating the phase shift of an atom interferometer in a weakly anharmonic trap. This provides a simple way to evaluate quantum corrections to the standard semi-classical approximation. The calculation benefits from the use of generalized coherent states for a basis. We find that the form of the semi-classical approximation remains valid to first order in the anharmonic perturbation, but that phase differences arise because the trajectory of a quantum wave packet will generally deviate from that of a classical particle. In general, the quantum correction to the phase is a factor $a^2/A^2$ smaller than the semi-classical perturbation itself, where $a$ is the quantum harmonic oscillator length scale and $A$ is the classical amplitude of the motion.
翻訳日:2024-10-31 05:45:06 公開日:2024-10-10
# Kolmogorov-Arnold ネットワークにおける(確率的)勾配の収束について

On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks ( http://arxiv.org/abs/2410.08041v1 )

ライセンス: Link先を確認
Yihang Gao, Vincent Y. F. Tan, (参考訳) Kolmogorov--Arnold Networks (KANs)は、最近提案されたニューラルネットワークアーキテクチャで、多層パーセプトロン(MLP)の代替としての可能性と、さまざまな科学的タスクへの広範な適用性から、ディープラーニングコミュニティにおいて大きな注目を集めている。 確率勾配降下(SGD)により最適化されたカンは、様々な機械学習(回帰、分類、時系列予測など)と科学的タスク(偏微分方程式の解法など)において、ほぼゼロに近い訓練損失を達成できることを示した。 本稿では,2層KANにおける勾配降下(GD)とSGDの厳密な収束解析を行ない,回帰処理と物理情報処理の両方を解くことにより,実験的な成功を理論的に説明する。 回帰問題に対して、我々はGDがカンスの隠れ次元が十分に大きいときに対象関数の大域的線形収束を達成するという神経接カーネルの観点を用いて確立する。 さらにこれらの結果をSGDに拡張し、同様の世界的な期待の収束を示す。 さらに, 物理インフォームド・カンのGDとSGDのグローバル収束を解析し, より複雑な損失構造のため, さらなる課題を明らかにする。 これは、カンと物理学インフォームドカンを最適化するために応用されたGDとSGDのグローバル収束保証を確立する最初の研究である。

Kolmogorov--Arnold Networks (KANs), a recently proposed neural network architecture, have gained significant attention in the deep learning community, due to their potential as a viable alternative to multi-layer perceptrons (MLPs) and their broad applicability to various scientific tasks. Empirical investigations demonstrate that KANs optimized via stochastic gradient descent (SGD) are capable of achieving near-zero training loss in various machine learning (e.g., regression, classification, and time series forecasting, etc.) and scientific tasks (e.g., solving partial differential equations). In this paper, we provide a theoretical explanation for the empirical success by conducting a rigorous convergence analysis of gradient descent (GD) and SGD for two-layer KANs in solving both regression and physics-informed tasks. For regression problems, we establish using the neural tangent kernel perspective that GD achieves global linear convergence of the objective function when the hidden dimension of KANs is sufficiently large. We further extend these results to SGD, demonstrating a similar global convergence in expectation. Additionally, we analyze the global convergence of GD and SGD for physics-informed KANs, which unveils additional challenges due to the more complex loss structure. This is the first work establishing the global convergence guarantees for GD and SGD applied to optimize KANs and physics-informed KANs.
翻訳日:2024-10-31 05:45:05 公開日:2024-10-10
# 高調波振動子を用いた粒子群最適化

Harmonic Oscillator based Particle Swarm Optimization ( http://arxiv.org/abs/2410.08043v1 )

ライセンス: Link先を確認
Yury Chernyak, Ijaz Ahamed Mohammad, Nikolas Masnicak, Matej Pivoluska, Martin Plesch, (参考訳) 数値最適化技術は、物理学や化学におけるシステムの最小エネルギーの発見から、高速取引のためのロジスティクスや最適戦略の最適経路の発見まで、科学と技術の幅広い領域で広く用いられている。 一般に、パラメータ(パラメータ空間)の集合は、これらのパラメータ(コスト関数)に依存する関数の最低値を見つけるように調整される。 ほとんどの場合、パラメータ空間は完全に探索するには大きすぎるため、最も効率的な手法は確率的要素(最適化過程の開始設定や意思決定に含まれるランダム性)とよく設計された決定論的プロセスを組み合わせることである。 したがって、普遍的な最適化方法のようなものは何もありません。それよりも、異なるメソッドとそれらの設定は、それぞれ異なるコンテキストにおいて、多かれ少なかれ効率的です。 本稿では,食品を探索する鳥の群れの集団行動に着想を得た,高効率で成功したアルゴリズムであるParticle Swarm Optimization (PSO) を統合する手法について,調和オシレータの原理を用いて述べる。 この物理に基づくアプローチはエネルギーの概念を導入し、最適化プロセスを通してより滑らかでより制御された収束を可能にする。 我々は,テスト関数の標準セットでテストを行い,ほとんどの場合,従来のPSOや広く使用されているCOBYLA,微分進化最適化など,自然競合よりも優れていることを示す。

Numerical optimization techniques are widely used in a broad area of science and technology, from finding the minimal energy of systems in Physics or Chemistry to finding optimal routes in logistics or optimal strategies for high speed trading. In general, a set of parameters (parameter space) is tuned to find the lowest value of a function depending on these parameters (cost function). In most cases the parameter space is too big to be completely searched and the most efficient techniques combine stochastic elements (randomness included in the starting setting and decision making during the optimization process) with well designed deterministic process. Thus there is nothing like a universal best optimization method; rather than that, different methods and their settings are more or less efficient in different contexts. Here we present a method that integrates Particle Swarm Optimization (PSO), a highly effective and successful algorithm inspired by the collective behavior of a flock of birds searching for food, with the principles of Harmonic Oscillators. This physics-based approach introduces the concept of energy, enabling a smoother and a more controlled convergence throughout the optimization process. We test our method on a standard set of test functions and show that in most cases it can outperform its natural competitors including the original PSO as well as the broadly used COBYLA and Differential Evolution optimization methods.
翻訳日:2024-10-31 05:45:05 公開日:2024-10-10
# ウィキペディアにおけるAI生成コンテンツの増加

The Rise of AI-Generated Content in Wikipedia ( http://arxiv.org/abs/2410.08044v1 )

ライセンス: Link先を確認
Creston Brooks, Samuel Eggert, Denis Peskoff, (参考訳) 人気情報ソースにおけるAI生成コンテンツの増加は、説明責任、正確性、バイアス増幅に関する重大な懸念を提起する。 消費者に直接影響を与えること以外に、このコンテンツが広く存在していることは、巨大なインターネット網上でのトレーニング言語モデルの長期的な生存可能性に疑問を投げかけている。 私たちは、プロプライエタリなAI検出ツールであるGPTZeroと、オープンソースの代替手段であるBinocularsを使って、最近作成されたWikipediaページでAI生成コンテンツの存在を低く設定しています。 両方の検出器は、GPT-3.5のリリース前のものと比較して、最近のページでAI生成コンテンツが顕著に増加したことを示している。 しきい値はGPT-3.5以前の記事に対して1%の偽陽性率を達成するために調整され、新たに作成された英語ウィキペディア記事の5%以上をAI生成としてフラグ付けし、ドイツ語、フランス語、イタリア語記事の比率は低い。 フラッグ付きのウィキペディア記事は、典型的には品質が低く、しばしば議論の的となっているトピックに関する特定の視点に向けて自己宣伝的または部分的なものである。

The rise of AI-generated content in popular information sources raises significant concerns about accountability, accuracy, and bias amplification. Beyond directly impacting consumers, the widespread presence of this content poses questions for the long-term viability of training language models on vast internet sweeps. We use GPTZero, a proprietary AI detector, and Binoculars, an open-source alternative, to establish lower bounds on the presence of AI-generated content in recently created Wikipedia pages. Both detectors reveal a marked increase in AI-generated content in recent pages compared to those from before the release of GPT-3.5. With thresholds calibrated to achieve a 1% false positive rate on pre-GPT-3.5 articles, detectors flag over 5% of newly created English Wikipedia articles as AI-generated, with lower percentages for German, French, and Italian articles. Flagged Wikipedia articles are typically of lower quality and are often self-promotional or partial towards a specific viewpoint on controversial topics.
翻訳日:2024-10-31 05:45:05 公開日:2024-10-10
# 分割と翻訳:複雑な論理推論のための一階論理変換と検証

Divide and Translate: Compositional First-Order Logic Translation and Verification for Complex Logical Reasoning ( http://arxiv.org/abs/2410.08047v1 )

ライセンス: Link先を確認
Hyun Ryu, Gyeongman Kim, Hyemin S. Lee, Eunho Yang, (参考訳) 複雑な論理的推論タスクは、長い推論を必要とするが、それは、チェーン・オブ・シークレットのプロンプトを持つ大きな言語モデル(LLM)が依然として不足している。 この問題を緩和するため、ニューロシンボリックアプローチにはシンボリック・ソルバが組み込まれている。 具体的には、LLMは自然言語問題を一階述語論理式からなるSAT問題にのみ変換し、音響記号解法は数学的に正しい解を返す。 しかし,LLMは翻訳中に自然言語に隠された複雑な論理的意味を捉えるのが困難であることが判明した。 この制限を解決するために,合成一階論理変換を提案する。 LLMは、まず自然言語文を、原子文とその依存物からなる新しく定義された論理的依存構造に解析し、解析された部分文を逐次翻訳する。 複数の論理的係り受け構造と逐次翻訳が一つの文で可能であるので、より信頼性の高い結果を保証するための2つの検証アルゴリズムも導入する。 SATソルバを用いて、生成した一階述語論理式のセマンティクスを厳密に比較し、最も確率の高い論理式を選択する。 我々は,CLOVERと呼ばれる提案手法を7つの論理的推論ベンチマークで評価し,従来のニューロシンボリックアプローチよりも優れ,新たな最先端結果が得られることを示す。

Complex logical reasoning tasks require a long sequence of reasoning, which a large language model (LLM) with chain-of-thought prompting still falls short. To alleviate this issue, neurosymbolic approaches incorporate a symbolic solver. Specifically, an LLM only translates a natural language problem into a satisfiability (SAT) problem that consists of first-order logic formulas, and a sound symbolic solver returns a mathematically correct solution. However, we discover that LLMs have difficulties to capture complex logical semantics hidden in the natural language during translation. To resolve this limitation, we propose a Compositional First-Order Logic Translation. An LLM first parses a natural language sentence into newly defined logical dependency structures that consist of an atomic subsentence and its dependents, then sequentially translate the parsed subsentences. Since multiple logical dependency structures and sequential translations are possible for a single sentence, we also introduce two Verification algorithms to ensure more reliable results. We utilize an SAT solver to rigorously compare semantics of generated first-order logic formulas and select the most probable one. We evaluate the proposed method, dubbed CLOVER, on seven logical reasoning benchmarks and show that it outperforms the previous neurosymbolic approaches and achieves new state-of-the-art results.
翻訳日:2024-10-31 05:45:05 公開日:2024-10-10
# VerifierQ: Q-Learning-based Verifiers による LLM テスト時間計算の強化

VerifierQ: Enhancing LLM Test Time Compute with Q-Learning-based Verifiers ( http://arxiv.org/abs/2410.08048v1 )

ライセンス: Link先を確認
Jianing Qi, Hao Tang, Zhigang Zhu, (参考訳) 近年の試験時間計算の進歩、特に検証モデルの使用により、Large Language Models (LLMs) の推論能力は大幅に向上した。 このジェネレータ検証手法は、強化学習(RL)におけるアクター批判フレームワークによく似ている。 しかし、LLMの現在の検証モデルは、Qラーニングのような時間差学習を伴わない教師付き微調整に依存していることが多い。 本稿では,オフラインQ学習をLLM検証モデルに統合する新しいアプローチであるVerifierQを紹介する。 1)発話レベルマルコフ決定過程(MDP)の処理,(2)大規模行動空間の管理,(3)過大評価バイアスの軽減,の3つの課題に対処する。 VerifierQは、境界Q値に対する修正されたベルマン更新を導入し、効率的なアクション空間管理のためにImplicit Q-learning(IQL)を導入し、バランスの取れたQ-value推定のために新しい保守的Q-learning(CQL)を統合した。 本手法は,並列Q値計算と学習効率の向上を実現する。 近年の研究では、ジェネレータ用のMCTSのようなRL技術について検討されているが、VerifierQは、Qラーニングを通じてLLMの検証(批判)の側面を初めて研究している。 この検証モデルへのRL原理の統合は、ジェネレータ技術の既存の進歩を補完し、LLMのより堅牢で適応的な推論を可能にする可能性がある。 数学的推論タスクの実験結果は、VerifierQが従来の教師付き微調整アプローチに比べて優れた性能を示し、効率、正確性、堅牢性が改善された。 生成と評価機能の相乗効果を高めることにより、VerifierQは、さまざまな領域にわたる複雑な認知タスクに対処する上で、AIシステムの継続的な進化に貢献している。

Recent advancements in test time compute, particularly through the use of verifier models, have significantly enhanced the reasoning capabilities of Large Language Models (LLMs). This generator-verifier approach closely resembles the actor-critic framework in reinforcement learning (RL). However, current verifier models in LLMs often rely on supervised fine-tuning without temporal difference learning such as Q-learning. This paper introduces VerifierQ, a novel approach that integrates Offline Q-learning into LLM verifier models. We address three key challenges in applying Q-learning to LLMs: (1) handling utterance-level Markov Decision Processes (MDPs), (2) managing large action spaces, and (3) mitigating overestimation bias. VerifierQ introduces a modified Bellman update for bounded Q-values, incorporates Implicit Q-learning (IQL) for efficient action space management, and integrates a novel Conservative Q-learning (CQL) formulation for balanced Q-value estimation. Our method enables parallel Q-value computation and improving training efficiency. While recent work has explored RL techniques like MCTS for generators, VerifierQ is among the first to investigate the verifier (critic) aspect in LLMs through Q-learning. This integration of RL principles into verifier models complements existing advancements in generator techniques, potentially enabling more robust and adaptive reasoning in LLMs. Experimental results on mathematical reasoning tasks demonstrate VerifierQ's superior performance compared to traditional supervised fine-tuning approaches, with improvements in efficiency, accuracy and robustness. By enhancing the synergy between generation and evaluation capabilities, VerifierQ contributes to the ongoing evolution of AI systems in addressing complex cognitive tasks across various domains.
翻訳日:2024-10-31 05:45:05 公開日:2024-10-10
# カーネルのスケールアップ: ConvNetsにおけるUniversal Representationへの大規模なカーネル設計

Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations ( http://arxiv.org/abs/2410.08049v1 )

ライセンス: Link先を確認
Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue, (参考訳) 本稿では,現代の畳み込みニューラルネットワーク(ConvNets)の設計において,大規模な畳み込みカーネルのパラダイムを提案する。 複数の小さなカーネルを積み重ねる代わりに、少数の大規模なカーネルを採用することが、優れた設計戦略であることを示す。 我々の研究は、その効率と性能を最適化する大規模なカーネルConvNetのためのアーキテクチャ設計ガイドラインのセットを紹介します。 提案するUniRepLKNetアーキテクチャは,大規模カーネルのConvNetに特化して構築されたアーキテクチャ設計の体系的原則を提供する。 これにより、ImageNetの精度が88.0%、ADE20K mIoUが55.6%、COCOボックスAPが56.4%であるだけでなく、時系列予測、オーディオ、ポイントクラウド、ビデオ認識などの様々なモダリティにおいて、優れたスケーラビリティとパフォーマンスを示している。 これらの結果は、視覚変換器よりも高速な推論速度を持つ大カーネル ConvNet の普遍的なモデリング能力を示している。 以上の結果から,大型カーネルのConvNetは,より有効受容野が大きく,形状バイアスが高く,より小さなカーネルCNNに典型的なテクスチャバイアスから遠ざかっていることが明らかとなった。 すべてのコードとモデルはhttps://github.com/AILab-CVC/UniRepLKNetで公開されている。

This paper proposes the paradigm of large convolutional kernels in designing modern Convolutional Neural Networks (ConvNets). We establish that employing a few large kernels, instead of stacking multiple smaller ones, can be a superior design strategy. Our work introduces a set of architecture design guidelines for large-kernel ConvNets that optimize their efficiency and performance. We propose the UniRepLKNet architecture, which offers systematical architecture design principles specifically crafted for large-kernel ConvNets, emphasizing their unique ability to capture extensive spatial information without deep layer stacking. This results in a model that not only surpasses its predecessors with an ImageNet accuracy of 88.0%, an ADE20K mIoU of 55.6%, and a COCO box AP of 56.4% but also demonstrates impressive scalability and performance on various modalities such as time-series forecasting, audio, point cloud, and video recognition. These results indicate the universal modeling abilities of large-kernel ConvNets with faster inference speed compared with vision transformers. Our findings reveal that large-kernel ConvNets possess larger effective receptive fields and a higher shape bias, moving away from the texture bias typical of smaller-kernel CNNs. All codes and models are publicly available at https://github.com/AILab-CVC/UniRepLKNet promoting further research and development in the community.
翻訳日:2024-10-31 05:45:05 公開日:2024-10-10
# 宇宙にはクリーンなクビットが1つある

The Space Just Above One Clean Qubit ( http://arxiv.org/abs/2410.08051v1 )

ライセンス: Link先を確認
Dale Jacobs, Saeed Mehraban, (参考訳) 2n$-qubit の最大絡み合い状態の 2 ハーフから始める計算モデルを考える。 半端に普遍的な量子計算を適用し、両半端を測り、古典的な後処理を実行する。 このモデルを$\frac12$BQPと呼び、STOC 2017[ABKM17]で定義した。 このモデルは, [ABKM17] で見られるように, 計算が完了した後にのみ高エントロピー入力状態の内容を学習する 1-clean-qubit model (DQC1) の自然な一般化と見なすことができる。 興味深いオープンな疑問は、DQC1 と BQP の間に非自明に置かれているように見えるこのモデルのパワーを特徴づけることである。 本稿では,その制限にもかかわらず,古典計算(DQC1)よりも指数的高速化の候補となる多くのよく知られた量子計算を行うことができることを示す。 特に$\frac12$BQP はインスタント量子多項式時間 (IQP) をシミュレートし、Deutsch-Jozsa問題、Bernstein-Vazirani問題、Simon の問題、周期探索を解くことができる。 その結果、$\frac12$BQPはオーラクル設定の外のオーダー検索とファクタリングも解決する。 さらに、$\frac12$BQP は、Forrelation と Raz と Tal [RT22] が与えるオラクル問題を BQP と PH を分離するために解くことができる。また、$\frac12$BQP の制限についても検討し、DQC1 と同様に、DQC1 と同様に、DQC1 と同様に、トレース距離が近いユニタリを区別できないことを示すとともに、$\frac12$BQP と BQP を分離するオラクルを与える。 この制限により、$\frac12$BQPはGroverのアルゴリズム[Gro96]によって与えられる非構造化探索の二次的なスピードアップを得ることができない。 我々は$\frac12$BQPが$$$-Forrelationを解決できないと推測する。

Consider the model of computation where we start with two halves of a $2n$-qubit maximally entangled state. We get to apply a universal quantum computation on one half, measure both halves at the end, and perform classical postprocessing. This model, which we call $\frac12$BQP, was defined in STOC 2017 [ABKM17] to capture the power of permutational computations on special input states. As observed in [ABKM17], this model can be viewed as a natural generalization of the one-clean-qubit model (DQC1) where we learn the content of a high entropy input state only after the computation is completed. An interesting open question is to characterize the power of this model, which seems to sit nontrivially between DQC1 and BQP. In this paper, we show that despite its limitations, this model can carry out many well-known quantum computations that are candidates for exponential speed-up over classical computations (and possibly DQC1). In particular, $\frac12$BQP can simulate Instantaneous Quantum Polynomial Time (IQP) and solve the Deutsch-Jozsa problem, Bernstein-Vazirani problem, Simon's problem, and period finding. As a consequence, $\frac12$BQP also solves Order Finding and Factoring outside of the oracle setting. Furthermore, $\frac12$BQP can solve Forrelation and the corresponding oracle problem given by Raz and Tal [RT22] to separate BQP and PH. We also study limitations of $\frac12$BQP and show that similarly to DQC1, $\frac12$BQP cannot distinguish between unitaries which are close in trace distance, then give an oracle separating $\frac12$BQP and BQP. Due to this limitation, $\frac12$BQP cannot obtain the quadratic speedup for unstructured search given by Grover's algorithm [Gro96]. We conjecture that $\frac12$BQP cannot solve $3$-Forrelation.
翻訳日:2024-10-31 05:45:05 公開日:2024-10-10
# コヒーレンス保護超電導回路における超ローバスト非線形ホロノミック量子計算

Super-Robust Nonadiabatic Holonomic Quantum Computation in coherence-protected Superconducting Circuits ( http://arxiv.org/abs/2410.08052v1 )

ライセンス: Link先を確認
Yuan-Sheng Wang, Zhaofeng Su, Xiaosong Chen, Man-Hong Yung, (参考訳) 非線形ホロノミック量子計算(NHQC)のシュームは、特定の誤りを軽減できる量子ゲートを実装するためのエラー耐性の方法を提供する。 しかし、従来のNHQC方式では、標準ゲート演算に関する長い操作がしばしば必要であり、量子デコヒーレンスの影響に対してより脆弱である。 本研究では,Decoherence-Free Subspace (DFS) におけるSuper-Robust NHQCスキームの実装を提案する。 SR-NHQCはGCE(Global Control Errors)に対して堅牢性を実証している。 キャパシタンス結合したトランスモン量子ビットをDFS内で利用することにより、超伝導量子ビットのスケーラブルな2次元正方格子上での普遍ゲート演算を可能にする。 DFSにおけるSR-NHQCの実用性を数値シミュレーションにより示し、従来のNHQC方式と比較してGCEの緩和効果とデコヒーレンス効果が優れていることを示した。 本研究は,実世界のアプリケーションにおける量子計算の信頼性向上に向けた有望な戦略を示す。

The schmeme of nonadiabatic holonomic quantum computation (NHQC) offers an error-resistant method for implementing quantum gates, capable of mitigating certain errors. However, the conventional NHQC schemes often entail longer operations concerning standard gate operations, making them more vulnerable to the effects of quantum decoherence. In this research, we propose an implementation of the Super-Robust NHQC scheme within the Decoherence-Free Subspace (DFS). SR-NHQC has demonstrated robustness against Global Control Errors (GCEs). By utilizing capacitance-coupled transmon qubits within a DFS, our approach enables universal gate operations on a scalable two-dimensional square lattice of superconducting qubits. Numerical simulations demonstrate the practicality of SR-NHQC in DFS, showcasing its superiority in mitigating GCEs and decoherence effects compared to conventional NHQC schemes. Our work presents a promising strategy for advancing the reliability of quantum computation in real-world applications.
翻訳日:2024-10-31 05:45:05 公開日:2024-10-10
# ヘイト音声検出のためのデータ拡張の目標認識分析

A Target-Aware Analysis of Data Augmentation for Hate Speech Detection ( http://arxiv.org/abs/2410.08053v1 )

ライセンス: Link先を確認
Camilla Casula, Sara Tonelli, (参考訳) ヘイトスピーチは、ソーシャルネットワークの普及によって引き起こされる主要な脅威の1つだ。 この問題に注意が向けられているが、アクティズムや老化など、ほとんど表現されない現象を中心にしたデータセットやケーススタディの欠如は、表現されていないアイデンティティグループでうまく機能しないヘイトスピーチ検出システムに繋がる可能性がある。 高品質なデータ生成におけるLCMの非先行的能力を考えると,既存のデータを生成言語モデルで拡張し,目標の不均衡を低減できる可能性を検討する。 我々は、ターゲットの識別情報を付加した英語データセットであるMessaging Hate Speech corpusから1000の投稿を増強し、単純なデータ拡張法と異なる生成モデルを用いて約30,000の合成例を追加し、自己回帰とシーケンス・ツー・シーケンスのアプローチを比較した。 従来のDA手法は、しばしば生成モデルよりも好まれるが、この2つの組み合わせは最良の結果をもたらす傾向にある。 実際、起源、宗教、障害などのヘイトなカテゴリーでは、トレーニングのための強化データを用いたヘイトスピーチ分類は、拡張ベースラインを除いた10%以上のF1を改善する。 この研究は、ヘイトスピーチ検出のためのシステムの開発に寄与する。

Hate speech is one of the main threats posed by the widespread use of social networks, despite efforts to limit it. Although attention has been devoted to this issue, the lack of datasets and case studies centered around scarcely represented phenomena, such as ableism or ageism, can lead to hate speech detection systems that do not perform well on underrepresented identity groups. Given the unpreceded capabilities of LLMs in producing high-quality data, we investigate the possibility of augmenting existing data with generative language models, reducing target imbalance. We experiment with augmenting 1,000 posts from the Measuring Hate Speech corpus, an English dataset annotated with target identity information, adding around 30,000 synthetic examples using both simple data augmentation methods and different types of generative models, comparing autoregressive and sequence-to-sequence approaches. We find traditional DA methods to often be preferable to generative models, but the combination of the two tends to lead to the best results. Indeed, for some hate categories such as origin, religion, and disability, hate speech classification using augmented data for training improves by more than 10% F1 over the no augmentation baseline. This work contributes to the development of systems for hate speech detection that are not only better performing but also fairer and more inclusive towards targets that have been neglected so far.
翻訳日:2024-10-31 05:45:05 公開日:2024-10-10
# ループを閉じる: 言語モデルによる学生の修正によるフィードバックの書き起こしの学習

Closing the Loop: Learning to Generate Writing Feedback via Language Model Simulated Student Revisions ( http://arxiv.org/abs/2410.08058v1 )

ライセンス: Link先を確認
Inderjeet Nair, Jiaye Tan, Xiaotian Su, Anne Gere, Xu Wang, Lu Wang, (参考訳) フィードバックを提供することは、学生の筆記スキルを磨く上で重要であると広く認識されている。 近年の言語モデル (LM) の進歩により,人間特有の属性に適合した動作可能なフィードバックを自動生成できるようになった。 しかし、これらのモデルが生み出したフィードバックが、学生のリビジョンの質を高めるのに本当に有効かどうかは不明である。 さらに、特定の属性に関するコンセンサスが欠如し、改良性能の向上につながるため、正確な命令セットでLMにフィードバックを生成することは簡単ではない。 これらの課題に対処するため,本研究では,LMシミュレーションによる学生のリビジョンの学習を通じてフィードバックを生成できるPROFを提案する。 PROFは,学生の総合的な改訂性能を直接最大化し,フィードバックジェネレータを反復的に最適化することを目的としている。 経済エッセイの課題に焦点をあてて,PROFの有効性を実証的に検証し,我々のアプローチが,学生の文章の書き方を改善する上で,様々な基本的手法を超えるだけでなく,教育的価値も向上することを示した。

Providing feedback is widely recognized as crucial for refining students' writing skills. Recent advances in language models (LMs) have made it possible to automatically generate feedback that is actionable and well-aligned with human-specified attributes. However, it remains unclear whether the feedback generated by these models is truly effective in enhancing the quality of student revisions. Moreover, prompting LMs with a precise set of instructions to generate feedback is nontrivial due to the lack of consensus regarding the specific attributes that can lead to improved revising performance. To address these challenges, we propose PROF that PROduces Feedback via learning from LM simulated student revisions. PROF aims to iteratively optimize the feedback generator by directly maximizing the effectiveness of students' overall revising performance as simulated by LMs. Focusing on an economic essay assignment, we empirically test the efficacy of PROF and observe that our approach not only surpasses a variety of baseline methods in effectiveness of improving students' writing but also demonstrates enhanced pedagogical values, even though it was not explicitly trained for this aspect.
翻訳日:2024-10-31 05:45:05 公開日:2024-10-10
# 連続化による非構造化科学データの圧縮フレームワーク

A framework for compressing unstructured scientific data via serialization ( http://arxiv.org/abs/2410.08059v1 )

ライセンス: Link先を確認
Viktor Reshniak, Qian Gong, Rick Archibald, Scott Klasky, Norbert Podhorszki, (参考訳) 本稿では,非構造化科学データを局所接続で圧縮するための一般的な枠組みを提案する。 一般的な応用は任意の有限要素メッシュ上で定義されたシミュレーションデータである。 このフレームワークは、既存のデータ処理パイプラインへのシームレスな統合を可能にする、オリジナルのノードの順序変更を保存する、欲張りなトポロジを採用している。 このリオーダープロセスはメッシュ接続のみに依存し、最適な効率でオフラインで実行できる。 しかし、アルゴリズムの欲張りはオンザフライの実装もサポートしている。 提案手法は,データ内の空間相関を利用する圧縮アルゴリズムと互換性がある。 提案手法の有効性は,MGARD,SZ,ZFPを含む複数の圧縮手法を用いて,大規模実データセット上で実証される。

We present a general framework for compressing unstructured scientific data with known local connectivity. A common application is simulation data defined on arbitrary finite element meshes. The framework employs a greedy topology preserving reordering of original nodes which allows for seamless integration into existing data processing pipelines. This reordering process depends solely on mesh connectivity and can be performed offline for optimal efficiency. However, the algorithm's greedy nature also supports on-the-fly implementation. The proposed method is compatible with any compression algorithm that leverages spatial correlations within the data. The effectiveness of this approach is demonstrated on a large-scale real dataset using several compression methods, including MGARD, SZ, and ZFP.
翻訳日:2024-10-31 05:45:05 公開日:2024-10-10
# 直交結合ダイナミクスによる最適輸送

Optimal Transportation by Orthogonal Coupling Dynamics ( http://arxiv.org/abs/2410.08060v1 )

ライセンス: Link先を確認
Mohsen Sadr, Peyman Mohajerin Esfehani, Hossein Gorji, (参考訳) 多くの数値アルゴリズムと学習タスクは、モンゲ・カントロヴィッチ問題と対応するワッサーシュタイン距離の解に依存する。 自然なアプローチは、問題を無限次元線形プログラミングとして扱うことであるが、そのような手法は、集中的なメモリ要求とともにサンプルサイズに対する多項式スケーリングによる計算性能を著しく制限する。 射影型勾配降下スキームに基づくモンゲ・カントロヴィチ問題に対処する新しい枠組みを提案する。 マイクロダイナミクスは条件予測の概念に基づいて構築され、そこでは意見力学との接続を探索し、活用してコンパクトな数値スキームを構築する。 提案手法は,計算性能がよいランダムマップを復元できることを実証する。 理論的な洞察とともに、提供された力学はワッサーシュタイン距離だけでなく最適な輸送地図を計算するための数値スキームを構築するための革新的なアプローチの道を開く。

Many numerical algorithms and learning tasks rest on solution of the Monge-Kantorovich problem and corresponding Wasserstein distances. While the natural approach is to treat the problem as an infinite-dimensional linear programming, such a methodology severely limits the computational performance due to the polynomial scaling with respect to the sample size along with intensive memory requirements. We propose a novel alternative framework to address the Monge-Kantorovich problem based on a projection type gradient descent scheme. The micro-dynamics is built on the notion of the conditional expectation, where the connection with the opinion dynamics is explored and leveraged to build compact numerical schemes. We demonstrate that the devised dynamics recovers random maps with favourable computational performance. Along with the theoretical insight, the provided dynamics paves the way for innovative approaches to construct numerical schemes for computing optimal transport maps as well as Wasserstein distances.
翻訳日:2024-10-31 05:45:05 公開日:2024-10-10
# 単体反射除去のための可逆デカップリングネットワーク

Reversible Decoupling Network for Single Image Reflection Removal ( http://arxiv.org/abs/2410.08063v1 )

ライセンス: Link先を確認
Hao Zhao, Mingjia Li, Qiming Hu, Xiaojie Guo, (参考訳) 最近の深層学習に基づく単一像の反射除去へのアプローチは、主に2つの理由から、有望な進歩を示している。 1)入力としての認識事前特徴の活用,及び 2)デュアルストリーム・インタラクション・ネットワークの設計 しかし、Information Bottleneckの原則によれば、階層間伝播中に高レベルのセマンティックヒントが圧縮または破棄される傾向にある。 さらに、デュアルストリームネットワークにおけるインタラクションは、異なるレイヤにまたがる固定パターンに従うため、全体的なパフォーマンスが制限される。 これらの制約に対処するため,トランスミッションおよびリフレクション関連機能を前方通過中に柔軟にデカップリングしながら,可逆エンコーダを用いて有意義な情報を確保するRDNetという新しいアーキテクチャを提案する。 さらに,トランスミッションレート・アウェア・プロンプト・ジェネレータをカスタマイズして特徴を動的に校正し,さらなる性能向上を図る。 大規模な実験は、広く評価された5つのベンチマークデータセット上の既存のSOTAメソッドよりもRDNetの方が優れていることを示す。 私たちのコードは公開されます。

Recent deep-learning-based approaches to single-image reflection removal have shown promising advances, primarily for two reasons: 1) the utilization of recognition-pretrained features as inputs, and 2) the design of dual-stream interaction networks. However, according to the Information Bottleneck principle, high-level semantic clues tend to be compressed or discarded during layer-by-layer propagation. Additionally, interactions in dual-stream networks follow a fixed pattern across different layers, limiting overall performance. To address these limitations, we propose a novel architecture called Reversible Decoupling Network (RDNet), which employs a reversible encoder to secure valuable information while flexibly decoupling transmission- and reflection-relevant features during the forward pass. Furthermore, we customize a transmission-rate-aware prompt generator to dynamically calibrate features, further boosting performance. Extensive experiments demonstrate the superiority of RDNet over existing SOTA methods on five widely-adopted benchmark datasets. Our code will be made publicly available.
翻訳日:2024-10-31 05:35:21 公開日:2024-10-10
# 逆加算データによるLLMの直接選好アライメント

Reward-Augmented Data Enhances Direct Preference Alignment of LLMs ( http://arxiv.org/abs/2410.08067v1 )

ライセンス: Link先を確認
Shenao Zhang, Zhihan Liu, Boyi Liu, Yufeng Zhang, Yingxiang Yang, Yongfei Liu, Liyu Chen, Tao Sun, Zhaoran Wang, (参考訳) LLM(Large Language Models)における優先度アライメントは、人間の指示や意図に従う能力を大幅に改善した。 しかし、既存の直接アライメントアルゴリズムは主に相対的な選好に焦点を当てており、しばしば応答の質的な側面を見落としている。 選択された反応とわずかに劣った反応の間の暗黙の報酬ギャップを最大化しようとすると、過剰な適合と、高品質な拒絶反応の不要な未学習を引き起こす可能性がある。 報酬スコアの無意識は、LLMが低品質な選択された応答を無差別に好まざるを得ず、データに疎い最も高い報酬を持つ応答に一般化することができないことも引き起こす。 これらの欠点を克服するため、本研究では、データセット内の応答品質のスペクトル全体から学習する報酬条件付きLCMポリシーを導入し、より最適な領域への外挿を支援する。 そこで本稿では,品質スコアの選好ペアを条件付け,報奨付きデータセットを構築するための効果的なデータレバーベリング手法を提案する。 このデータセットは、既存のダイレクトアライメントアルゴリズムと容易に統合でき、任意の好みデータセットに適用できる。 AlpacaEval, MT-Bench, Arena-Hard-Autoなどの命令追従ベンチマークによる実験結果から, DPOの性能は多種多様なモデルで一定に向上することが示された。 さらに,本手法は,各種学術ベンチマークの平均精度を向上する。 オンラインデータに本手法を適用すると, 結果のDPOモデルはAlpacaEval上でSOTA結果が得られる。 アブレーション研究を通じて、我々の手法は嗜好データの有用性を最大化するだけでなく、未学習の問題を緩和し、単なるデータセット拡張を超えてその幅広い効果を実証する。 私たちのコードはhttps://github.com/shenao-zhang/reward-augmented-preferenceで公開されています。

Preference alignment in Large Language Models (LLMs) has significantly improved their ability to adhere to human instructions and intentions. However, existing direct alignment algorithms primarily focus on relative preferences and often overlook the qualitative aspects of responses. Striving to maximize the implicit reward gap between the chosen and the slightly inferior rejected responses can cause overfitting and unnecessary unlearning of the high-quality rejected responses. The unawareness of the reward scores also drives the LLM to indiscriminately favor the low-quality chosen responses and fail to generalize to responses with the highest rewards, which are sparse in data. To overcome these shortcomings, our study introduces reward-conditioned LLM policies that discern and learn from the entire spectrum of response quality within the dataset, helping extrapolate to more optimal regions. We propose an effective yet simple data relabeling method that conditions the preference pairs on quality scores to construct a reward-augmented dataset. This dataset is easily integrated with existing direct alignment algorithms and is applicable to any preference dataset. The experimental results across instruction-following benchmarks including AlpacaEval, MT-Bench, and Arena-Hard-Auto demonstrate that our approach consistently boosts the performance of DPO by a considerable margin across diverse models. Additionally, our method improves the average accuracy on various academic benchmarks. When applying our method to on-policy data, the resulting DPO model achieves SOTA results on AlpacaEval. Through ablation studies, we demonstrate that our method not only maximizes the utility of preference data but also mitigates the issue of unlearning, demonstrating its broad effectiveness beyond mere dataset expansion. Our code is available at https://github.com/shenao-zhang/reward-augmented-preference.
翻訳日:2024-10-31 05:35:21 公開日:2024-10-10
# 教師インスパイアされた統合型プロンプティングフレームワーク:大規模言語モデルにおける推論の強化のための新しいアプローチ

Teaching-Inspired Integrated Prompting Framework: A Novel Approach for Enhancing Reasoning in Large Language Models ( http://arxiv.org/abs/2410.08068v1 )

ライセンス: Link先を確認
Wenting Tan, Dongxiao Chen, Jieting Xue, Zihao Wang, Taijie Chen, (参考訳) 大規模言語モデル(LLM)は、様々な領域で優れたパフォーマンスを示すが、算術的推論タスクに苦戦している。 近年の研究では,推理能力向上における迅速な設計手法の有効性が示されている。 しかし、これらのアプローチは、特定の概念、定理、トリックの事前知識に対する重要な要件を見落とし、ほとんどの算術的推論問題にうまく取り組む。 この問題に対処するために,教師指導の指導過程をエミュレートした,新しく効果的な指導インスパイアされた統合フレームワークを提案する。 この手法は LLM に本質的な概念、関連する定理、類似の解法による類似の問題を備え、推論能力の強化を促進する。 さらに,2つの中国語データセットであるMathMCとMathToFを紹介し,詳細な説明と回答を行った。 LLMの推論精度が向上することを示すため,9つのベンチマークで実験を行った。 GPT-4と我々のフレームワークは、98.2%(+3.3%)、93.9%(+0.2%)、94.3%(+7.2%)、81.1%(+1.2%)の4つのベンチマーク(AddSub、SVAMP、Math23K、AQuA)で、新しい最先端のパフォーマンスを実現している。 私たちのデータとコードはhttps://github.com/SallyTan13/Teaching-Inspired-Prompting.comで公開されています。

Large Language Models (LLMs) exhibit impressive performance across various domains but still struggle with arithmetic reasoning tasks. Recent work shows the effectiveness of prompt design methods in enhancing reasoning capabilities. However, these approaches overlook crucial requirements for prior knowledge of specific concepts, theorems, and tricks to tackle most arithmetic reasoning problems successfully. To address this issue, we propose a novel and effective Teaching-Inspired Integrated Framework, which emulates the instructional process of a teacher guiding students. This method equips LLMs with essential concepts, relevant theorems, and similar problems with analogous solution approaches, facilitating the enhancement of reasoning abilities. Additionally, we introduce two new Chinese datasets, MathMC and MathToF, both with detailed explanations and answers. Experiments are conducted on nine benchmarks which demonstrates that our approach improves the reasoning accuracy of LLMs. With GPT-4 and our framework, we achieve new state-of-the-art performance on four math benchmarks (AddSub, SVAMP, Math23K and AQuA) with accuracies of 98.2% (+3.3%), 93.9% (+0.2%), 94.3% (+7.2%) and 81.1% (+1.2%). Our data and code are available at https://github.com/SallyTan13/Teaching-Inspired-Prompting.
翻訳日:2024-10-31 05:35:21 公開日:2024-10-10
# 非学習型ニューラル解釈

Unlearning-based Neural Interpretations ( http://arxiv.org/abs/2410.08069v1 )

ライセンス: Link先を確認
Ching Lam Choi, Alexandre Duplessis, Serge Belongie, (参考訳) グラディエントベースの解釈は、コンピュータの特徴的重要性の飽和を避けるために、しばしば比較のアンカーポイントを必要とする。 静的関数を用いて定義された現在のベースライン - 定数マッピング、平均化、曖昧化 - 有害な色、テクスチャ、あるいは周波数の仮定をモデル行動から逸脱させる。 これにより不規則勾配が蓄積され、偏りがあり、壊れやすく、操作可能な帰属写像となる。 静的なアプローチから離れて、最も急な上昇の未学習方向に向かって入力を摂動させることにより、(学習不可能で、偏りがなく、適応的なベースラインを計算することを提案する。 提案手法は信頼性の高いベースラインを発見し,高曲率決定境界を局所的にスムーズにする健全な特徴の消去に成功している。 我々の分析は、忠実で効率的で堅牢な解釈を生み出すための有望な道として、アンラーニングを指摘する。

Gradient-based interpretations often require an anchor point of comparison to avoid saturation in computing feature importance. We show that current baselines defined using static functions--constant mapping, averaging or blurring--inject harmful colour, texture or frequency assumptions that deviate from model behaviour. This leads to accumulation of irregular gradients, resulting in attribution maps that are biased, fragile and manipulable. Departing from the static approach, we propose UNI to compute an (un)learnable, debiased and adaptive baseline by perturbing the input towards an unlearning direction of steepest ascent. Our method discovers reliable baselines and succeeds in erasing salient features, which in turn locally smooths the high-curvature decision boundaries. Our analyses point to unlearning as a promising avenue for generating faithful, efficient and robust interpretations.
翻訳日:2024-10-31 05:35:21 公開日:2024-10-10
# ルートフィンディングによるガウス過程トンプソンサンプリング

Gaussian Process Thompson Sampling via Rootfinding ( http://arxiv.org/abs/2410.08071v1 )

ライセンス: Link先を確認
Taiwo A. Adebiyi, Bach Do, Ruda Zhang, (参考訳) トンプソンサンプリング(Thompson sample, TS)は、ベイズ決定における単純で効果的な確率的政策である。 報酬プロファイルに関する後続の信念をサンプリングし、サンプルを最適化して候補決定を得る。 連続最適化では、目的関数の後方はしばしばガウス過程(GP)であり、サンプルパスは多数の局所最適値を持ち、大域的最適化は困難である。 本研究では,勾配に基づくマルチスタートオプティマイザの開始点を慎重に選択するGP-TSの効率的なグローバル最適化手法を提案する。 単変量大域ルートフィンディングにより、前のサンプルの局所的な最適化を識別し、微分可能で分離された表現を用いて後部サンプルを最適化する。 GP後部サンプルの大域的最適化は特に高次元で顕著に改善された。 これにより、GP-TS 取得関数を用いたベイズ最適化全体の性能が劇的に向上し、GP-UCB や EI などの代替よりも驚くほど向上した。

Thompson sampling (TS) is a simple, effective stochastic policy in Bayesian decision making. It samples the posterior belief about the reward profile and optimizes the sample to obtain a candidate decision. In continuous optimization, the posterior of the objective function is often a Gaussian process (GP), whose sample paths have numerous local optima, making their global optimization challenging. In this work, we introduce an efficient global optimization strategy for GP-TS that carefully selects starting points for gradient-based multi-start optimizers. It identifies all local optima of the prior sample via univariate global rootfinding, and optimizes the posterior sample using a differentiable, decoupled representation. We demonstrate remarkable improvement in the global optimization of GP posterior samples, especially in high dimensions. This leads to dramatic improvements in the overall performance of Bayesian optimization using GP-TS acquisition functions, surprisingly outperforming alternatives like GP-UCB and EI.
翻訳日:2024-10-31 05:35:21 公開日:2024-10-10
# 不安定なアンラーニング:拡散モデルにおける概念復活の隠れたリスク

Unstable Unlearning: The Hidden Risk of Concept Resurgence in Diffusion Models ( http://arxiv.org/abs/2410.08074v1 )

ライセンス: Link先を確認
Vinith M. Suriyakumar, Rohan Alur, Ayush Sekhari, Manish Raghavan, Ashia C. Wilson, (参考訳) テキストから画像への拡散モデルは、大規模でWebスケールのデータセットに依存している。 スクラッチからトレーニングするのは計算コストが高く、結果として、開発者は既存のモデルをインクリメンタルに更新するのを好むことが多い。 これらの更新は、しばしば、(新しい概念を学習したり、モデルのパフォーマンスを改善するために)「学習しない」ステップで微調整のステップを構成する(著作権のある作品や明示的なコンテンツなど、既存の概念を「忘れる」ために)。 良質で非敵対的な条件下であっても、一見無関係な画像上でテキストから画像への拡散モデルを微調整することで、以前は「未学習」されていた概念を「再学習」することができる。 我々は,この現象の原因と範囲を包括的に検討し,「大量概念消去」(テキスト・画像拡散モデル(Lu et al , 2024)における未学習の現状)を構成する一連の実験を行い,その後,安定拡散 v1.4 の微調整を行った。 本研究は,インクリメンタルなモデル更新の脆弱さを浮き彫りにして,テキスト・ツー・イメージ拡散モデルの安全性と整合性を確保するための現在のアプローチに対する深刻な新たな懸念を提起するものである。

Text-to-image diffusion models rely on massive, web-scale datasets. Training them from scratch is computationally expensive, and as a result, developers often prefer to make incremental updates to existing models. These updates often compose fine-tuning steps (to learn new concepts or improve model performance) with "unlearning" steps (to "forget" existing concepts, such as copyrighted works or explicit content). In this work, we demonstrate a critical and previously unknown vulnerability that arises in this paradigm: even under benign, non-adversarial conditions, fine-tuning a text-to-image diffusion model on seemingly unrelated images can cause it to "relearn" concepts that were previously "unlearned." We comprehensively investigate the causes and scope of this phenomenon, which we term concept resurgence, by performing a series of experiments which compose "mass concept erasure" (the current state of the art for unlearning in text-to-image diffusion models (Lu et al., 2024)) with subsequent fine-tuning of Stable Diffusion v1.4. Our findings underscore the fragility of composing incremental model updates, and raise serious new concerns about current approaches to ensuring the safety and alignment of text-to-image diffusion models.
翻訳日:2024-10-31 05:35:21 公開日:2024-10-10
# 観測されたブラウンSYKクラスターの場の理論

Field theory for monitored Brownian SYK clusters ( http://arxiv.org/abs/2410.08079v1 )

ライセンス: Link先を確認
Anastasiia Tiutiakina, Hugo Lóio, Guido Giachetti, Jacopo De Nardis, Andrea De Luca, (参考訳) 我々は、ブラウン・サハデフ=イェ=キタエフ(SYK)の複数のクラスターの時間的進化、すなわちノイズのある相互作用項を持つNマヨラナフェルミオンの系を考える。 ユニタリ進化に加えて、2フェミオンモニタリングも導入する。 我々は、高次対称性群に対するスピンコヒーレント状態の一般化により、ダイナミクスのコヒーレント状態経路積分を構築する。 次に、複製された密度行列の進化は「軽い」自由度、すなわちユニタリ進化によって生じる量子ゆらぎの有効場理論によって記述できることを示した。 この方法は、場の理論が非線形シグマモデル (NLSM) に還元される二次理論と相互作用するSYKクラスターの両方に適用される。 定常状態においては,2つの監視されたクラスターが線形-in-Nの絡み合いを示し,その比例係数は結合の強さに依存することを示した。

We consider the time evolution of multiple clusters of Brownian Sachdev-Ye-Kitaev (SYK), i.e. systems of N Majorana fermions with a noisy interaction term. In addition to the unitary evolution, we introduce two-fermion monitorings. We construct a coherent states path integral of the dynamics by generalizing spin coherent states for higher symmetry groups. We then demonstrate that the evolution of the replicated density matrix can be described by an effective field theory for the "light" degrees of freedom, i.e. the quantum fluctuations generated by the unitary evolution. This method is applied to both quadratic, where the field theory reduces to the nonlinear sigma model (NLSM), and also to interacting SYK clusters. We show that in the stationary regime, two monitored clusters exhibit linear-in-N entanglement, with a proportionality factor dependent on the strength of the unitary coupling.
翻訳日:2024-10-31 05:35:21 公開日:2024-10-10
# ToMiE: Animatable Garments を用いた3次元人体用SMPL骨格のモジュール成長に向けて

ToMiE: Towards Modular Growth in Enhanced SMPL Skeleton for 3D Human with Animatable Garments ( http://arxiv.org/abs/2410.08082v1 )

ライセンス: Link先を確認
Yifan Zhan, Qingtian Zhu, Muyao Niu, Mingze Ma, Jiancheng Zhao, Zhihang Zhong, Xiao Sun, Yu Qiao, Yinqiang Zheng, (参考訳) 本稿では,多くの3次元ヒューマンタスク,すなわち複雑な衣服を用いた人間のモデリングにおいて,重要かつしばしば見落とされがちな要因を取り上げる。 SMPLのパラメータ化された定式化は人間の皮膚に合うことが知られており、複雑な衣服(例えば、手持ちの物やゆったりした衣服)は、通常、人体と切り離されるため、統一された枠組みの中でモデル化することは困難である。 このような状況に応えてSMPLスケルトンの性能を高めるため,スケルトンとの結合木を適応的に拡張できるモジュラー成長戦略を提案する。 具体的には、ToMiEと呼ばれる手法は、親関節の局在化と外部関節の最適化からなる。 親関節の局所化には、重みと運動カーネルを混合したLBSで導かれる勾配に基づくアプローチを用いる。 外部関節が得られると、異なるフレーム間でSE(3)の変換を最適化し、レンダリングと明示的なアニメーションを可能にします。 ToMiEは、レンダリング品質だけでなく、成長したジョイントのフリーアニメーションを提供することで、様々なケースにおいて、他の手法よりも優れたパフォーマンスを実現し、幅広い用途にSMPLスケルトンを表現できる能力を向上させる。

In this paper, we highlight a critical yet often overlooked factor in most 3D human tasks, namely modeling humans with complex garments. It is known that the parameterized formulation of SMPL is able to fit human skin; while complex garments, e.g., hand-held objects and loose-fitting garments, are difficult to get modeled within the unified framework, since their movements are usually decoupled with the human body. To enhance the capability of SMPL skeleton in response to this situation, we propose a modular growth strategy that enables the joint tree of the skeleton to expand adaptively. Specifically, our method, called ToMiE, consists of parent joints localization and external joints optimization. For parent joints localization, we employ a gradient-based approach guided by both LBS blending weights and motion kernels. Once the external joints are obtained, we proceed to optimize their transformations in SE(3) across different frames, enabling rendering and explicit animation. ToMiE manages to outperform other methods across various cases with garments, not only in rendering quality but also by offering free animation of grown joints, thereby enhancing the expressive ability of SMPL skeleton for a broader range of applications.
翻訳日:2024-10-31 05:35:21 公開日:2024-10-10
# 知識グラフは大きな言語モデルをより信頼できるものにできるか? オープンエンドの質問回答に関する実証的研究

Can Knowledge Graphs Make Large Language Models More Trustworthy? An Empirical Study over Open-ended Question Answering ( http://arxiv.org/abs/2410.08085v1 )

ライセンス: Link先を確認
Yuan Sui, Bryan Hooi, (参考訳) 知識グラフ(KG)を統合する最近の研究は、LLM(Large Language Models)の推論精度の向上に有望な改善をもたらした。 しかし、現在のベンチマークは主にクローズドなタスクに焦点を当てており、より複雑で現実的なシナリオの評価にギャップを残している。 このギャップはまた、LLMにおける幻覚の問題を緩和するKGsの可能性の評価を曖昧にしている。 このギャップを埋めるために、KGで強化されたLLMを、実世界のオープンエンドな質問応答シナリオ下で評価するために設計された新しいベンチマークOKGQAを導入する。 OKGQAは、様々なタイプの質問を使って実践的なアプリケーションの複雑さを深く反映するように設計されており、幻覚の減少と推論能力の強化の両方を測定するために特定のメトリクスを取り入れている。 さらに,KGsのセマンティクスや構造が意図的に乱れ,汚染されている場合のモデル性能を評価するためのOKGQA-Pの設定についても検討した。 OKGQAの目的は、(1)KGsがLLMをオープンエンド環境でより信頼できるものにできるか、(2)KGsを活用してLLMの幻覚を減らす方法と今後の方向性について比較分析を行うことである。 本研究は,KGsとLLMsの統合において,より完全な性能比較を促進し,継続的な改善を促進できると考えている。

Recent works integrating Knowledge Graphs (KGs) have led to promising improvements in enhancing reasoning accuracy of Large Language Models (LLMs). However, current benchmarks mainly focus on closed tasks, leaving a gap in the assessment of more complex, real-world scenarios. This gap has also obscured the evaluation of KGs' potential to mitigate the problem of hallucination in LLMs. To fill the gap, we introduce OKGQA, a new benchmark specifically designed to assess LLMs enhanced with KGs under open-ended, real-world question answering scenarios. OKGQA is designed to closely reflect the complexities of practical applications using questions from different types, and incorporates specific metrics to measure both the reduction in hallucinations and the enhancement in reasoning capabilities. To consider the scenario in which KGs may have varying levels of mistakes, we further propose another experiment setting OKGQA-P to assess model performance when the semantics and structure of KGs are deliberately perturbed and contaminated. OKGQA aims to (1) explore whether KGs can make LLMs more trustworthy in an open-ended setting, and (2) conduct a comparative analysis to shed light on methods and future directions for leveraging KGs to reduce LLMs' hallucination. We believe that this study can facilitate a more complete performance comparison and encourage continuous improvement in integrating KGs with LLMs.
翻訳日:2024-10-31 05:35:21 公開日:2024-10-10
# ネーターのカミソリ:保存された量を学ぶ

Noether's razor: Learning Conserved Quantities ( http://arxiv.org/abs/2410.08087v1 )

ライセンス: Link先を確認
Tycho F. A. van der Ouderaa, Mark van der Wilk, Pim de Haan, (参考訳) 対称性は機械学習モデルで有用であることが証明され、一般化と全体的なパフォーマンスが改善された。 同時に、最近の力学系の学習の進歩は、エネルギーの保存を保証するために基礎となるハミルトニアンをモデル化することに依存している。 ネーターの定理(英: Noether's theorem)とは、力学系の対称性が保存量に対応するという定理である。 この研究はネーターの定理を用いて対称性を学習可能な保存量としてパラメータ化する。 次に、保存量と関連する対称性を、通常の訓練手順と連動して、近似ベイズモデル選択により、列車データから直接学習できるようにする。 トレーニングの目的として,限界確率に対する変動的下限を導出する。 この目的は自動的にオッカムのラゾール効果を具現化しており、これは保存法則を手作業で追加し調整することなく、自明な定数に崩壊することを避けるものである。 我々は、$n$高調波発振器と$n$ボディシステムに対する原理証明を実証する。 提案手法は, 正しい保存量, U($n$) および SE($n$) 対称性群を正しく同定し, 総合的な性能向上とテストデータの予測精度の向上を図っている。

Symmetries have proven useful in machine learning models, improving generalisation and overall performance. At the same time, recent advancements in learning dynamical systems rely on modelling the underlying Hamiltonian to guarantee the conservation of energy. These approaches can be connected via a seminal result in mathematical physics: Noether's theorem, which states that symmetries in a dynamical system correspond to conserved quantities. This work uses Noether's theorem to parameterise symmetries as learnable conserved quantities. We then allow conserved quantities and associated symmetries to be learned directly from train data through approximate Bayesian model selection, jointly with the regular training procedure. As training objective, we derive a variational lower bound to the marginal likelihood. The objective automatically embodies an Occam's Razor effect that avoids collapse of conservation laws to the trivial constant, without the need to manually add and tune additional regularisers. We demonstrate a proof-of-principle on $n$-harmonic oscillators and $n$-body systems. We find that our method correctly identifies the correct conserved quantities and U($n$) and SE($n$) symmetry groups, improving overall performance and predictive accuracy on test data.
翻訳日:2024-10-31 05:35:21 公開日:2024-10-10
# Crossing Margins: インターセクションユーザによるソフトウェアに関する倫理的懸念

Crossing Margins: Intersectional Users' Ethical Concerns about Software ( http://arxiv.org/abs/2410.08090v1 )

ライセンス: Link先を確認
Lauren Olson, Tom P. Humbert, Ricarda Anna-Lena Fischer, Bob Westerveld, Florian Kunneman, Emitzá Guzmán, (参考訳) 現代のソフトウェアアプリケーションの多くは、ユーザの価値観と企業の優先順位の相違により、多くの倫理的懸念を呈している。 区切られたコミュニティは、複数の区切られたアイデンティティを持つが、これらの倫理的問題によって不当に影響を受けており、ソフトウェア企業の法的、財政的、評判の問題を招き、また交差するユーザに対する現実世界の害を招いている。 歴史的に、交差点のコミュニティの声は体系的に疎外され、ソフトウェア設計に対する独自の視点から除外され、ソフトウェア関連の倫理的懸念を持続させてきた。 この研究は、交差するユーザのソフトウェア関連の観点からの研究のギャップを埋めることを目的としており、ソフトウェア実践者に彼らの倫理的懸念に対処するための出発点を提供することを目的としている。 我々は,交差点利用者の倫理的懸念を時間とともに集約し,分析し,重要な懸念を識別するための優先順位付け手法を開発した。 これを実現するために,700以上の交差するサブレディットからソフトウェアアプリケーションについて議論する投稿を収集し,これらの投稿における倫理的懸念を特定するためにディープラーニングを利用した。 調査の結果, 交差コミュニティは, サイバーいじめ, 不適切なコンテンツ, 差別に関する苦情を報告し, 現代のソフトウェア, 特に交差点ユーザにとって重大な欠陥を浮き彫りにした。 これらの知見に基づき、ソフトウェア開発における交差点利用者の倫理的懸念にどのように対処するかについて議論する。

Many modern software applications present numerous ethical concerns due to conflicts between users' values and companies' priorities. Intersectional communities, those with multiple marginalized identities, are disproportionately affected by these ethical issues, leading to legal, financial, and reputational issues for software companies, as well as real-world harm for intersectional users. Historically, the voices of intersectional communities have been systematically marginalized and excluded from contributing their unique perspectives to software design, perpetuating software-related ethical concerns. This work aims to fill the gap in research on intersectional users' software-related perspectives and provide software practitioners with a starting point to address their ethical concerns. We aggregated and analyzed the intersectional users' ethical concerns over time and developed a prioritization method to identify critical concerns. To achieve this, we collected posts from over 700 intersectional subreddits discussing software applications, utilized deep learning to identify ethical concerns in these posts, and employed state-of-the-art techniques to analyze their content in relation to time and priority. Our findings revealed that intersectional communities report \textit{critical} complaints related to cyberbullying, inappropriate content, and discrimination, highlighting significant flaws in modern software, particularly for intersectional users. Based on these findings, we discuss how to better address the ethical concerns of intersectional users in software development.
翻訳日:2024-10-31 05:35:21 公開日:2024-10-10
# UW-SDF:水中マルチビュー単眼画像からのニューラルSDF再構成のためのハイブリッド幾何学的先駆体

UW-SDF: Exploiting Hybrid Geometric Priors for Neural SDF Reconstruction from Underwater Multi-view Monocular Images ( http://arxiv.org/abs/2410.08092v1 )

ライセンス: Link先を確認
Zeyu Chen, Jingyi Tang, Gu Wang, Shengquan Li, Xinghui Li, Xiangyang Ji, Xiu Li, (参考訳) 水中環境の特異な特徴により、水中の探査やマッピングといった作業において、正確な水中物体の3D再構成は難しい問題となる。 従来の3D再構成のための複数のセンサーデータに依存した手法は、水中シナリオにおけるデータ取得に時間を要するため、課題に直面している。 ニューラルSDFに基づく多視点水中画像から対象物を再構成するフレームワークであるUW-SDFを提案する。 再建過程を最適化するためのハイブリッドな幾何学的先行手法を導入し、神経SDF再建の質と効率を著しく向上させる。 さらに,多視点画像におけるセグメンテーション一貫性の課題に対処するために,汎用セグメンテーションモデル(SAM)を用いた複数視点ターゲットセグメンテーション戦略を提案する。 多様なデータセットの定性的および定量的な実験を通じて,提案手法は従来の水中3次元再構成法や,水中3次元再構成の分野における他のニューラルネットワーク手法よりも優れていることを示した。

Due to the unique characteristics of underwater environments, accurate 3D reconstruction of underwater objects poses a challenging problem in tasks such as underwater exploration and mapping. Traditional methods that rely on multiple sensor data for 3D reconstruction are time-consuming and face challenges in data acquisition in underwater scenarios. We propose UW-SDF, a framework for reconstructing target objects from multi-view underwater images based on neural SDF. We introduce hybrid geometric priors to optimize the reconstruction process, markedly enhancing the quality and efficiency of neural SDF reconstruction. Additionally, to address the challenge of segmentation consistency in multi-view images, we propose a novel few-shot multi-view target segmentation strategy using the general-purpose segmentation model (SAM), enabling rapid automatic segmentation of unseen objects. Through extensive qualitative and quantitative experiments on diverse datasets, we demonstrate that our proposed method outperforms the traditional underwater 3D reconstruction method and other neural rendering approaches in the field of underwater 3D reconstruction.
翻訳日:2024-10-31 05:25:16 公開日:2024-10-10
# 坂:半自動知識グラフ構築と応用のためのインテリジェントプラットフォーム

SAKA: An Intelligent Platform for Semi-automated Knowledge Graph Construction and Application ( http://arxiv.org/abs/2410.08094v1 )

ライセンス: Link先を確認
Hanrong Zhang, Xinyue Wang, Jiabao Pan, Hongwei Wang, (参考訳) 知識グラフ(KG)技術は多くの分野で広く利用されており、多くの企業がKGに基づくアプリケーションを提供している。 それでも、KGプラットフォームの大部分は、KGレコードを手作業で構築するために、専門知識と膨大な時間と労力を必要としており、一般市民にとって大きな困難をもたらしている。 さらに、音声データは豊富で貴重な情報を持っているが、それをKGに変換することは困難である。 さらに、プラットフォームは通常、ユーザが構築したKGのポテンシャルを最大限に活用しません。 本稿では,上述の問題に対処するため,半自動KG構築・アプリケーション(saka)のためのインテリジェントでユーザフレンドリなプラットフォームを提案する。 ユーザは、KGのマルチバージョンを格納、閲覧、管理、更新可能なプラットフォームをベースとして、さまざまな領域の構造データからKGを半自動で構築することができる。 さらに,音声データからKGを確立するために,Audio-based KG Information extract (AGIE)法を提案する。 最後に、ユーザが作成したKGに基づいて、意味解析に基づく知識ベース質問応答(KBQA)システムを作成する。 坂プラットフォーム上での半自動KG工法の有効性を実証する。

Knowledge graph (KG) technology is extensively utilized in many areas, and many companies offer applications based on KG. Nonetheless, the majority of KG platforms necessitate expertise and tremendous time and effort of users to construct KG records manually, which poses great difficulties for ordinary people to use. Additionally, audio data is abundant and holds valuable information, but it is challenging to transform it into a KG. What's more, the platforms usually do not leverage the full potential of the KGs constructed by users. In this paper, we propose an intelligent and user-friendly platform for Semi-automated KG Construction and Application (SAKA) to address the problems aforementioned. Primarily, users can semi-automatically construct KGs from structured data of numerous areas by interacting with the platform, based on which multi-versions of KG can be stored, viewed, managed, and updated. Moreover, we propose an Audio-based KG Information Extraction (AGIE) method to establish KGs from audio data. Lastly, the platform creates a semantic parsing-based knowledge base question answering (KBQA) system based on the user-created KGs. We prove the feasibility of the semi-automatic KG construction method on the SAKA platform.
翻訳日:2024-10-31 05:25:16 公開日:2024-10-10
# 確率的コヒーレンス変換

Probabilistic Coherence Transformation ( http://arxiv.org/abs/2410.08095v1 )

ライセンス: Link先を確認
Ao-Xiang Liu, Cong-Feng Qiao, (参考訳) コヒーレンス変換は、常に決定論的に達成できない量子技術にとって重要なものである。 厳密な不整合演算の下での確率的コヒーレンス変換について検討する。 この目的のために、偏極格子により、グリーディプロトコルとスリフティプロトコルは確率的コヒーレンス変換に適応し、後者は平均的にコヒーレンスを保存する上で一定の優位性を示す。 直感的には、コヒーレンス変換の成功確率損失の価格とその逆で大きなコヒーレンスゲインを実現することができる。 2つの混合状態間の決定論的および確率的コヒーレンス変換について検討した。 応用として、コヒーレンスから絡み合いへの変換は確率的コヒーレンス変換の恩恵を受けることが示されている。

The coherence transformation is pivotal for quantum technologies, which cannot always be accomplished deterministically. We investigate the probabilistic coherence transformation under strictly incoherent operations. To this end, by virtue of majorization lattice, the greedy and thrifty protocols are adapted for the probabilistic coherence transformation, of which the latter exhibits certain superiority in preserving coherence on average. Intuitively, it is found that the large coherence gain can be realized with the price of success probability loss for coherence transformation, and vice versa. Deterministic and probabilistic coherence transformations between two mixed states are explored. As an application, it is shown that the conversion from coherence into entanglement may benefit from probabilistic coherence transformation.
翻訳日:2024-10-31 05:25:16 公開日:2024-10-10
# 米国の家庭用太陽熱導入・発電のためのデジタル双極子合成のための生成AI技術

A Generative AI Technique for Synthesizing a Digital Twin for U.S. Residential Solar Adoption and Generation ( http://arxiv.org/abs/2410.08098v1 )

ライセンス: Link先を確認
Aparna Kishore, Swapna Thorve, Madhav Marathe, (参考訳) 住宅の屋上ソーラーの採用は、二酸化炭素排出量を減らすために重要であると考えられている。 細かな解像度(例えば世帯や時間レベル)での太陽光発電(PV)データの欠如は、情報的意思決定に重大な障害をもたらす。 本稿では,米国全土の屋上ソーラー導入のための,高粒度で住宅規模の現実的なデータセットを作成するための新しい手法について論じる。 データ駆動の方法論は以下の通りである。 (i)PV導入者を特定するための統合機械学習モデル。 (二 説明可能なAI技術を用いてデータを増強し、鍵となる特徴とその相互作用についての洞察を深める方法、及び 三 分析モデルを用いて家庭レベルの太陽エネルギーを生産する方法。 生成された合成データセットは実世界のデータを使用して検証され、下流タスクをモデリングするためのデジタルツインとして機能する。 最後に、バージニア州のデジタルツインを利用した政策ベースのケーススタディは、特に低所得層社会において、30 %の連邦太陽投資税額控除によって、屋上ソーラーの採用が増加したことを証明した。

Residential rooftop solar adoption is considered crucial for reducing carbon emissions. The lack of photovoltaic (PV) data at a finer resolution (e.g., household, hourly levels) poses a significant roadblock to informed decision-making. We discuss a novel methodology to generate a highly granular, residential-scale realistic dataset for rooftop solar adoption across the contiguous United States. The data-driven methodology consists of: (i) integrated machine learning models to identify PV adopters, (ii) methods to augment the data using explainable AI techniques to glean insights about key features and their interactions, and (iii) methods to generate household-level hourly solar energy output using an analytical model. The resulting synthetic datasets are validated using real-world data and can serve as a digital twin for modeling downstream tasks. Finally, a policy-based case study utilizing the digital twin for Virginia demonstrated increased rooftop solar adoption with the 30\% Federal Solar Investment Tax Credit, especially in Low-to-Moderate-Income communities.
翻訳日:2024-10-31 05:25:16 公開日:2024-10-10
# 変形ウィグナー行列に対するLoschmidt Echo

Loschmidt Echo for Deformed Wigner Matrices ( http://arxiv.org/abs/2410.08108v1 )

ライセンス: Link先を確認
László Erdős, Joscha Henheik, Oleksii Kolupaiev, (参考訳) H_1 \approx H_2 $, and analysis the time-decay of the corresponding Loschmidt echo $\mathfrak{M}(t) := |\langle \psi_0, \mathrm{e}^{\mathrm{i} t H_2} \mathrm{e}^{-\mathrm{i} t H_1} \psi_0 \rangle|^2$。 我々のモデルハミルトニアンは共通の固有基底を共有しないウィグナー行列を変形する。 結果の主なツールは、そのような$H_1$と$H_2$の2解法則である。

We consider two Hamiltonians that are close to each other, $H_1 \approx H_2 $, and analyze the time-decay of the corresponding Loschmidt echo $\mathfrak{M}(t) := |\langle \psi_0, \mathrm{e}^{\mathrm{i} t H_2} \mathrm{e}^{-\mathrm{i} t H_1} \psi_0 \rangle|^2$ that expresses the effect of an imperfect time reversal on the initial state $\psi_0$. Our model Hamiltonians are deformed Wigner matrices that do not share a common eigenbasis. The main tools for our results are two-resolvent laws for such $H_1$ and $H_2$.
翻訳日:2024-10-31 05:25:16 公開日:2024-10-10
# 大規模言語モデルの機械学習

A Closer Look at Machine Unlearning for Large Language Models ( http://arxiv.org/abs/2410.08109v1 )

ライセンス: Link先を確認
Xiaojian Yuan, Tianyu Pang, Chao Du, Kejiang Chen, Weiming Zhang, Min Lin, (参考訳) 大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。 スクラッチからリトレーニングするコストが高いため、研究者は機械学習を使ってLLMから特定のコンテンツを取り除き、全体的なパフォーマンスを保とうとしている。 本稿では,LLMの機械学習におけるいくつかの課題について論じ,その可能性について考察する。 非学習後のモデル出力の評価が不十分な問題に対処するために,トークンの多様性,文の意味,事実的正確性を評価するための3つの指標を導入する。 次に、未学習の手法を未学習と対象に分類し、それぞれの問題を議論する。 具体的には、未学習者が近似しようとする行動は予測不可能であり、幻覚を伴う可能性があり、既存の正規化は対象未学習に対して不十分である。 これらの問題を緩和するために,未学習者を対象としたエントロピー(ME)の最大化と,対象未学習者に対する正規化として回答保存(AP)損失を取り入れることを提案する。 実証的未学習、連続的未学習、実世界の未学習の3つのシナリオにわたる実験結果は、我々のアプローチの有効性を実証する。 コードはhttps://github.com/sail-sg/closer-look-LLM-unlearningで公開されている。

Large language models (LLMs) may memorize sensitive or copyrighted content, raising privacy and legal concerns. Due to the high cost of retraining from scratch, researchers attempt to employ machine unlearning to remove specific content from LLMs while preserving the overall performance. In this paper, we discuss several issues in machine unlearning for LLMs and provide our insights on possible approaches. To address the issue of inadequate evaluation of model outputs after unlearning, we introduce three additional metrics to evaluate token diversity, sentence semantics, and factual correctness. We then categorize unlearning methods into untargeted and targeted, and discuss their issues respectively. Specifically, the behavior that untargeted unlearning attempts to approximate is unpredictable and may involve hallucinations, and existing regularization is insufficient for targeted unlearning. To alleviate these issues, we propose using the objective of maximizing entropy (ME) for untargeted unlearning and incorporate answer preservation (AP) loss as regularization for targeted unlearning. Experimental results across three scenarios, i.e., fictitious unlearning, continual unlearning, and real-world unlearning, demonstrate the effectiveness of our approaches. The code is available at https://github.com/sail-sg/closer-look-LLM-unlearning.
翻訳日:2024-10-31 05:15:31 公開日:2024-10-10
# MLモデルの分布特性推定のためのアクティブフーリエオーディタ

Active Fourier Auditor for Estimating Distributional Properties of ML Models ( http://arxiv.org/abs/2410.08111v1 )

ライセンス: Link先を確認
Ayoub Ajarra, Bishwamittra Ghosh, Debabrota Basu, (参考訳) 機械学習(ML)モデルを現実世界のアプリケーションに広く展開することにより、MLモデルの検証と監査が中心的な関心事となっている。 本研究では、ロバスト性、個人的公正性、グループ的公正性という3つの性質に焦点を当てる。 本稿では,MLモデル特性を監査する2つの手法について論じる。 第1のアプローチは文献で研究されているが、第2のアプローチはまだ解明されていない。 本研究では,監査対象のMLモデルのフーリエ係数から異なる特性を定量化するフレームワークを開発したが,パラメトリックな再構成は行わない。 本稿では,MLモデルのフーリエ係数に応じてサンプル点を問合せし,さらに特性を推定するActive Fourier Auditor (AFA)を提案する。 我々は、AFAの推定値に基づいて高い確率誤差境界を導出し、サンプルの複雑さに関する最悪の低い境界を検査するために導出する。 数値解析により、AFAがベースラインよりも興味のある特性を推定するために、より正確でサンプル効率のよい複数のデータセットとモデルについて示す。

With the pervasive deployment of Machine Learning (ML) models in real-world applications, verifying and auditing properties of ML models have become a central concern. In this work, we focus on three properties: robustness, individual fairness, and group fairness. We discuss two approaches for auditing ML model properties: estimation with and without reconstruction of the target model under audit. Though the first approach is studied in the literature, the second approach remains unexplored. For this purpose, we develop a new framework that quantifies different properties in terms of the Fourier coefficients of the ML model under audit but does not parametrically reconstruct it. We propose the Active Fourier Auditor (AFA), which queries sample points according to the Fourier coefficients of the ML model, and further estimates the properties. We derive high probability error bounds on AFA's estimates, along with the worst-case lower bounds on the sample complexity to audit them. Numerically we demonstrate on multiple datasets and models that AFA is more accurate and sample-efficient to estimate the properties of interest than the baselines.
翻訳日:2024-10-31 05:15:31 公開日:2024-10-10
# 制限埋め込みによるロバストAIによるテキスト検出

Robust AI-Generated Text Detection by Restricted Embeddings ( http://arxiv.org/abs/2410.08113v1 )

ライセンス: Link先を確認
Kristian Kuznetsov, Eduard Tulchinskii, Laida Kushnareva, German Magai, Serguei Barannikov, Sergey Nikolenko, Irina Piontkovskaya, (参考訳) AI生成テキストの量と品質の増大により、そのようなコンテンツの検出がより困難になる。 ほとんどの実世界のシナリオでは、生成したデータのドメイン(スタイルとトピック)とジェネレータモデルが事前に分かっていない。 本研究では,AI生成テキストの分類器に基づく検出器の堅牢性,すなわち未知のジェネレータやセマンティックドメインへの転送能力に着目した。 トランスフォーマーベースのテキストエンコーダの埋め込み空間の幾何学について検討し、有害な線形部分空間の除去が、ドメイン固有の突発的特徴を無視した堅牢な分類器の訓練に役立つことを示す。 本稿では,いくつかの部分空間分解と特徴選択戦略について検討し,クロスドメインおよびクロスジェネレータ転送における最先端手法に対する大幅な改善を実現する。 頭部および座標に基づく部分空間除去のための最良のアプローチは,RoBERTa とBERT の埋め込みにおいて,平均分布値 (OOD) の分類スコアを 9% と 14% に引き上げるものである。 コードとデータを公開します。 https://github.com/SilverSolver/RobustATD

Growing amount and quality of AI-generated texts makes detecting such content more difficult. In most real-world scenarios, the domain (style and topic) of generated data and the generator model are not known in advance. In this work, we focus on the robustness of classifier-based detectors of AI-generated text, namely their ability to transfer to unseen generators or semantic domains. We investigate the geometry of the embedding space of Transformer-based text encoders and show that clearing out harmful linear subspaces helps to train a robust classifier, ignoring domain-specific spurious features. We investigate several subspace decomposition and feature selection strategies and achieve significant improvements over state of the art methods in cross-domain and cross-generator transfer. Our best approaches for head-wise and coordinate-based subspace removal increase the mean out-of-distribution (OOD) classification score by up to 9% and 14% in particular setups for RoBERTa and BERT embeddings respectively. We release our code and data: https://github.com/SilverSolver/RobustATD
翻訳日:2024-10-31 05:15:31 公開日:2024-10-10
# ポイントクラウド学習のためのスペクトル領域におけるパラメータ効率の良い微調整

Parameter-Efficient Fine-Tuning in Spectral Domain for Point Cloud Learning ( http://arxiv.org/abs/2410.08114v1 )

ライセンス: Link先を確認
Dingkang Liang, Tianrui Feng, Xin Zhou, Yumeng Zhang, Zhikang Zou, Xiang Bai, (参考訳) 近年、ポイントクラウドモデルを強化するための事前学習技術の利用がホットな研究トピックとなっている。 しかし、既存のアプローチでは、ストレージ集約と計算的要求を伴う下流タスクで満足なパフォーマンスを達成するために、訓練済みモデルの完全な微調整が必要となる。 この問題に対処するために,ポイントGST (Point cloud Graph Spectral Tuning) と呼ばれる,ポイントクラウドのためのパラメータ効率の良いファインチューニング(PEFT)手法を提案する。 PointGSTは事前トレーニングされたモデルを凍結し、スペクトル領域の微調整パラメータに軽量でトレーニング可能なPoint Cloud Spectral Adapter (PCSA)を導入している。 中心となるアイデアは2つの観測に基づいて構築されている。 1) 凍結模型の内部トークンは,空間領域に混同する可能性がある。 2)タスク固有の本質的な情報は,ダウンストリームタスクに一般知識を移す上で重要である。 具体的には、ポイントGSTは、ポイントトークンを空間領域からスペクトル領域に転送し、直交成分を使用してトークン間の混乱を効果的に非相関化する。 さらに、生成されたスペクトルベースには、下流の点雲に関する固有の情報が含まれており、より標的となるチューニングを可能にしている。 その結果、PointGSTは、トレーニングコストを大幅に削減しつつ、下流タスクへの一般知識の効率的な移行を容易にする。 さまざまなタスクにわたる挑戦的なポイントクラウドデータセットに関する大規模な実験は、PointGSTが完全に微調整されるだけでなく、トレーニング可能なパラメータを大幅に削減し、効率的なポイントクラウド学習のための有望なソリューションであることを実証している。 ScanObjNN OBJ BG、OBJ OBLY、PB T50 RSデータセットで99.48%、97.76%、96.18%となる。 この進歩は、トレーニング可能なパラメータの0.67%しか使用せず、新しい最先端技術を確立している。

Recently, leveraging pre-training techniques to enhance point cloud models has become a hot research topic. However, existing approaches typically require full fine-tuning of pre-trained models to achieve satisfied performance on downstream tasks, accompanying storage-intensive and computationally demanding. To address this issue, we propose a novel Parameter-Efficient Fine-Tuning (PEFT) method for point cloud, called PointGST (Point cloud Graph Spectral Tuning). PointGST freezes the pre-trained model and introduces a lightweight, trainable Point Cloud Spectral Adapter (PCSA) to fine-tune parameters in the spectral domain. The core idea is built on two observations: 1) The inner tokens from frozen models might present confusion in the spatial domain; 2) Task-specific intrinsic information is important for transferring the general knowledge to the downstream task. Specifically, PointGST transfers the point tokens from the spatial domain to the spectral domain, effectively de-correlating confusion among tokens via using orthogonal components for separating. Moreover, the generated spectral basis involves intrinsic information about the downstream point clouds, enabling more targeted tuning. As a result, PointGST facilitates the efficient transfer of general knowledge to downstream tasks while significantly reducing training costs. Extensive experiments on challenging point cloud datasets across various tasks demonstrate that PointGST not only outperforms its fully fine-tuning counterpart but also significantly reduces trainable parameters, making it a promising solution for efficient point cloud learning. It improves upon a solid baseline by +2.28%, 1.16%, and 2.78%, resulting in 99.48%, 97.76%, and 96.18% on the ScanObjNN OBJ BG, OBJ OBLY, and PB T50 RS datasets, respectively. This advancement establishes a new state-of-the-art, using only 0.67% of the trainable parameters.
翻訳日:2024-10-31 05:15:31 公開日:2024-10-10
# Optima: LLMに基づくマルチエージェントシステムにおける有効性と効率の最適化

Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System ( http://arxiv.org/abs/2410.08115v1 )

ライセンス: Link先を確認
Weize Chen, Jiarui Yuan, Chen Qian, Cheng Yang, Zhiyuan Liu, Maosong Sun, (参考訳) 大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)は、協調的な問題解決において顕著な可能性を秘めているが、通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新最適化手法の欠如といった重大な課題に直面している。 LLMをベースとしたMASにおける通信効率とタスク効率を大幅に向上させることにより,これらの問題に対処する新しいフレームワークOptimaを提案する。 Optimaは、タスクパフォーマンス、トークン効率、通信可読性のバランスをとる報酬関数を備えた反復生成、ランク、セレクト、およびトレインパラダイムを採用している。 我々は、Supervised Fine-Tuning、Direct Preference Optimization、およびそれらのハイブリッドアプローチを含む様々なRLアルゴリズムを探索し、その有効性と効率のトレードオフに関する洞察を提供する。 我々はモンテカルロ木探索にインスパイアされたDPOデータ生成技術を統合し、会話ターンをツリーノードとして扱い、多様な相互作用経路を探索する。 情報非対称な質問応答や複雑な推論を含む一般的なマルチエージェントタスクに基づいて評価されたOptimaは、Llama 3 8Bに基づく単一エージェントベースラインとバニラMASに対して一貫性と実質的な改善を示し、大量の情報交換を必要とするタスクに対して10\%未満のトークンで最大2.8倍のパフォーマンス向上を達成する。 さらに、Optimaの効率は推論計算をより効果的に活用する新しい可能性を得ることができ、推論時間スケーリング法則が改善される。 LLMベースのMASの根本的な課題に対処することで、Optimaはスケーラブルで効率的で効果的なMAS(https://chenweize1998.github.io/optima-project-page)の可能性を示す。

Large Language Model (LLM) based multi-agent systems (MAS) show remarkable potential in collaborative problem-solving, yet they still face critical challenges: low communication efficiency, poor scalability, and a lack of effective parameter-updating optimization methods. We present Optima, a novel framework that addresses these issues by significantly enhancing both communication efficiency and task effectiveness in LLM-based MAS through LLM training. Optima employs an iterative generate, rank, select, and train paradigm with a reward function balancing task performance, token efficiency, and communication readability. We explore various RL algorithms, including Supervised Fine-Tuning, Direct Preference Optimization, and their hybrid approaches, providing insights into their effectiveness-efficiency trade-offs. We integrate Monte Carlo Tree Search-inspired techniques for DPO data generation, treating conversation turns as tree nodes to explore diverse interaction paths. Evaluated on common multi-agent tasks, including information-asymmetric question answering and complex reasoning, Optima shows consistent and substantial improvements over single-agent baselines and vanilla MAS based on Llama 3 8B, achieving up to 2.8x performance gain with less than 10\% tokens on tasks requiring heavy information exchange. Moreover, Optima's efficiency gains open new possibilities for leveraging inference-compute more effectively, leading to improved inference-time scaling laws. By addressing fundamental challenges in LLM-based MAS, Optima shows the potential towards scalable, efficient, and effective MAS (https://chenweize1998.github.io/optima-project-page).
翻訳日:2024-10-31 05:15:31 公開日:2024-10-10
# バリーセンター計算について:ガウスの半不均衡最適輸送法

On Barycenter Computation: Semi-Unbalanced Optimal Transport-based Method on Gaussians ( http://arxiv.org/abs/2410.08117v1 )

ライセンス: Link先を確認
Ngoc-Hai Nguyen, Dung Le, Hoang-Phi Nguyen, Tung Pham, Nhat Ho, (参考訳) 準不均衡な最適輸送(SUOT)と呼ばれるガウス確率測度において,バリセンタ問題のロバストバージョンを探索し,バリセンタを固定し,他の問題をクルバック・リーブラーの偏差を用いて緩和する。 本研究では,Bles-Wasserstein多様体上でのExact Geodesic Gradient DescentアルゴリズムとHybrid Gradient Descentアルゴリズムという最適化アルゴリズムを開発した。 Exact Geodesic Gradient Descent 法は、バーレス多様体上の測地線に沿ったバリセンタの目的関数の1階微分の正確な閉形式を計算しているが、Hybrid Gradient Descent 法は、SUOT 問題を解く際にオプティマイザ成分を利用して、リーマン勾配 Descent を適用する前に、オプティマイザ成分を置換する。 両手法の理論的収束保証を確立し、エクサクソン測地勾配Descentアルゴリズムが非次元収束率を達成できることを実証する。 最後に,正常なワッサースタイン・バリーセンタを我々のものと比較し,アブレーション研究を行う実験を行った。

We explore a robust version of the barycenter problem among $n$ centered Gaussian probability measures, termed Semi-Unbalanced Optimal Transport (SUOT)-based Barycenter, wherein the barycenter remains fixed while the others are relaxed using Kullback-Leibler divergence. We develop optimization algorithms on Bures-Wasserstein manifold, named the Exact Geodesic Gradient Descent and Hybrid Gradient Descent algorithms. While the Exact Geodesic Gradient Descent method is based on computing the exact closed form of the first-order derivative of the objective function of the barycenter along a geodesic on the Bures manifold, the Hybrid Gradient Descent method utilizes optimizer components when solving the SUOT problem to replace outlier measures before applying the Riemannian Gradient Descent. We establish the theoretical convergence guarantees for both methods and demonstrate that the Exact Geodesic Gradient Descent algorithm attains a dimension-free convergence rate. Finally, we conduct experiments to compare the normal Wasserstein Barycenter with ours and perform an ablation study.
翻訳日:2024-10-31 05:15:31 公開日:2024-10-10
# 必要と十分性の確率に基づく医用画像品質評価

Medical Image Quality Assessment based on Probability of Necessity and Sufficiency ( http://arxiv.org/abs/2410.08118v1 )

ライセンス: Link先を確認
Boyu Chen, Ameenat L. Solebo, Weiye Bao, Paul Taylor, (参考訳) 医用画像品質評価(MIQA)は信頼性の高い医用画像解析に不可欠である。 ディープラーニングはこの分野で有望であることを示しているが、現在のモデルは、データから学んだ素早い相関関係と、アウト・オブ・ディストリビューション(OOD)シナリオとの闘いによって誤解される可能性がある。 そこで本研究では,因果推論の概念に基づくMIQAフレームワークを提案する。 PNSは、特定の結果に対して必要な(常に結果が存在する)機能セットと十分な(結果を保証することができる)機能の両方を計測する。 提案手法は,PNS値の高い医用画像から隠れた特徴を学習することにより,品質予測を実現する。 これにより、モデルがより不可欠な予測情報をキャプチャし、OODシナリオに対する堅牢性を高めることができる。 我々は,MIQAタスクのためのAS-OCTデータセット上でのフレームワークの評価を行い,本フレームワークの有効性を実証した。

Medical image quality assessment (MIQA) is essential for reliable medical image analysis. While deep learning has shown promise in this field, current models could be misled by spurious correlations learned from data and struggle with out-of-distribution (OOD) scenarios. To that end, we propose an MIQA framework based on a concept from causal inference: Probability of Necessity and Sufficiency (PNS). PNS measures how likely a set of features is to be both necessary (always present for an outcome) and sufficient (capable of guaranteeing an outcome) for a particular result. Our approach leverages this concept by learning hidden features from medical images with high PNS values for quality prediction. This encourages models to capture more essential predictive information, enhancing their robustness to OOD scenarios. We evaluate our framework on an Anterior Segment Optical Coherence Tomography (AS-OCT) dataset for the MIQA task and experimental results demonstrate the effectiveness of our framework.
翻訳日:2024-10-31 05:15:31 公開日:2024-10-10
# Q-VLM:大規模ビジョンランゲージモデルのための後学習量子化

Q-VLM: Post-training Quantization for Large Vision-Language Models ( http://arxiv.org/abs/2410.08119v1 )

ライセンス: Link先を確認
Changyuan Wang, Ziwei Wang, Xiuwei Xu, Yansong Tang, Jie Zhou, Jiwen Lu, (参考訳) 本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。 従来の量子化法では, 層間依存性を考慮せずに最適な量子化戦略の獲得に失敗するアクティベーション離散化誤差を最小化することで, 層間丸化関数を逐次探索する手法が提案されている。 逆に、視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を探索コストの低い最適量子化戦略に組み込む。 具体的には、活性化エントロピーと出力の離散化誤差に関する層間依存性の強い相関を観察する。 そこで我々は,このエントロピーをブロック分割のプロキシとして最適に適用し,離散化誤差と探索コストのトレードオフを満たすことを目的としている。 さらに,探索空間の細粒度分解のために,視覚エンコーダを最適化し,量子化精度を損なうことなく探索コストをさらに削減する。 実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させる。 コードはhttps://github.com/ChangyuanWang17/QVLMで入手できる。

In this paper, we propose a post-training quantization framework of large vision-language models (LVLMs) for efficient multi-modal inference. Conventional quantization methods sequentially search the layer-wise rounding functions by minimizing activation discretization errors, which fails to acquire optimal quantization strategy without considering cross-layer dependency. On the contrary, we mine the cross-layer dependency that significantly influences discretization errors of the entire vision-language model, and embed this dependency into optimal quantization strategy searching with low search cost. Specifically, we observe the strong correlation between the activation entropy and the cross-layer dependency concerning output discretization errors. Therefore, we employ the entropy as the proxy to partition blocks optimally, which aims to achieve satisfying trade-offs between discretization errors and the search cost. Moreover, we optimize the visual encoder to disentangle the cross-layer dependency for fine-grained decomposition of search space, so that the search cost is further reduced without harming the quantization accuracy. Experimental results demonstrate that our method compresses the memory by 2.78x and increase generate speed by 1.44x about 13B LLaVA model without performance degradation on diverse multi-modal reasoning tasks. Code is available at https://github.com/ChangyuanWang17/QVLM.
翻訳日:2024-10-31 05:15:31 公開日:2024-10-10
# セキュアクラウドストレージのためのCCA-Secure Key-Aggregate Proxy Re-Encryption

CCA-Secure Key-Aggregate Proxy Re-Encryption for Secure Cloud Storage ( http://arxiv.org/abs/2410.08120v1 )

ライセンス: Link先を確認
Wei-Hao Chen, Chun-I Fan, Yi-Fan Tseng, (参考訳) 近年のクラウドサービスの開発は、Google Drive、Amazon AWS、Microsoft Azureなど、大きな影響を与えている。 マーチャントは簡単にクラウドサービスを使ってオンラインショップを数秒で開くことができる。 ユーザは自分のポータブルデバイスでクラウドに簡単に素早く接続でき、個人情報を自由にアクセスできる。 ユーザーは大量のデータをサードパーティデバイスに保存するため、データの機密性、可用性、整合性を保証することが特に重要である。 したがって、クラウドストレージにおけるデータ保護は、クラウド産業の存続の鍵となる。 幸いなことに、Proxy Re-Encryptionスキームでは、ユーザーは再暗号化キーを使用して暗号文を他の暗号文に変換することができる。 この方法は、ユーザの計算コストをサーバに優雅に変換する。 さらに、C-PREでは、ユーザーは暗号化されたデータにアクセス制御を適用できる。 近年,C-PREの鍵記憶コストを一定サイズに削減し,最初のキーアグリゲートプロキシ再暗号化方式を提案する。 本稿では,本手法がランダムなオラクルを使わずに,適応型モデルにおけるキー・アグリゲート・プロキシ・リ暗号化方式であることをさらに証明する。 さらに、実世界のシナリオにおいて、Key Aggregate Preアプリケーションを実装し、分析する。

The development of cloud services in recent years has mushroomed, for example, Google Drive, Amazon AWS, Microsoft Azure. Merchants can easily use cloud services to open their online shops in a few seconds. Users can easily and quickly connect to the cloud in their own portable devices, and access their personal information effortlessly. Because users store large amounts of data on third-party devices, ensuring data confidentiality, availability and integrity become especially important. Therefore, data protection in cloud storage is the key to the survival of the cloud industry. Fortunately, Proxy Re-Encryption schemes enable users to convert their ciphertext into others ciphertext by using a re-encryption key. This method gracefully transforms the users computational cost to the server. In addition, with C-PREs, users can apply their access control right on the encrypted data. Recently, we lowered the key storage cost of C-PREs to constant size and proposed the first Key-Aggregate Proxy Re-Encryption scheme. In this paper, we further prove that our scheme is a CCA-secure Key-Aggregate Proxy Re-Encryption scheme in the adaptive model without using random oracle. Moreover, we also implement and analyze the Key Aggregate PRE application in the real world scenario.
翻訳日:2024-10-31 05:15:31 公開日:2024-10-10
# クレジットカード不正検出のための不均一グラフ自動エンコーダ

Heterogeneous Graph Auto-Encoder for CreditCard Fraud Detection ( http://arxiv.org/abs/2410.08121v1 )

ライセンス: Link先を確認
Moirangthem Tiken Singh, Rabinder Kumar Prasad, Gurumayum Robert Michael, N K Kaphungkui, N. Hemarjit Singh, (参考訳) デジタル革命は金融取引に大きな影響を与え、クレジットカードの利用が著しく増加した。 しかし、この利便性にはトレードオフが伴う。 従来の不正検出のための機械学習手法は、金融データの本質的に相互接続性を捉えるのに苦労することが多い。 本稿では,金融データのヘテロジニアスグラフ表現に注目機構を付加したグラフニューラルネットワーク(GNN)を利用したクレジットカード不正検出手法を提案する。 均一グラフとは異なり、不均一グラフは、カード保有者、商人、取引のような金融エコシステム内の様々なエンティティ間の複雑な関係を捉え、詐欺分析のためのよりリッチで包括的なデータ表現を提供する。 不正取引が不正取引をはるかに上回っている不正データにおける固有のクラス不均衡に対処するため,提案手法はオートエンコーダを統合する。 このオートエンコーダは、本物のトランザクションに基づいてトレーニングされ、遅延表現を学び、潜在的詐欺として再構築中の逸脱を警告する。 本研究では,(1)注意機構を持つGNNが不均一グラフに適用した場合,クレジットカード不正を検知し,防止できるのか,という2つの重要な疑問について検討する。 2)アテンションアプローチによるオートエンコーダの有効性は,従来の手法とどのように比較されるか? 提案したモデルがグラフセージやFI-GRLなどのベンチマークアルゴリズムより優れており、AUC-PRが0.89、F1スコアが0.81であることを示すことは有望である。 本研究は,注意機構を備えたGNNを活用し,オートエンコーダによるクラス不均衡に対処することにより,不正検出システムと金融取引全体のセキュリティを著しく向上させる。

The digital revolution has significantly impacted financial transactions, leading to a notable increase in credit card usage. However, this convenience comes with a trade-off: a substantial rise in fraudulent activities. Traditional machine learning methods for fraud detection often struggle to capture the inherent interconnectedness within financial data. This paper proposes a novel approach for credit card fraud detection that leverages Graph Neural Networks (GNNs) with attention mechanisms applied to heterogeneous graph representations of financial data. Unlike homogeneous graphs, heterogeneous graphs capture intricate relationships between various entities in the financial ecosystem, such as cardholders, merchants, and transactions, providing a richer and more comprehensive data representation for fraud analysis. To address the inherent class imbalance in fraud data, where genuine transactions significantly outnumber fraudulent ones, the proposed approach integrates an autoencoder. This autoencoder, trained on genuine transactions, learns a latent representation and flags deviations during reconstruction as potential fraud. This research investigates two key questions: (1) How effectively can a GNN with an attention mechanism detect and prevent credit card fraud when applied to a heterogeneous graph? (2) How does the efficacy of the autoencoder with attention approach compare to traditional methods? The results are promising, demonstrating that the proposed model outperforms benchmark algorithms such as Graph Sage and FI-GRL, achieving a superior AUC-PR of 0.89 and an F1-score of 0.81. This research significantly advances fraud detection systems and the overall security of financial transactions by leveraging GNNs with attention mechanisms and addressing class imbalance through an autoencoder.
翻訳日:2024-10-31 05:15:31 公開日:2024-10-10
# PP-GWAS:多サイトゲノムワイドアソシエーション研究のためのプライバシ保護

PP-GWAS: Privacy Preserving Multi-Site Genome-wide Association Studies ( http://arxiv.org/abs/2410.08122v1 )

ライセンス: Link先を確認
Arjhun Swaminathan, Anika Hannemann, Ali Burak Ünal, Nico Pfeifer, Mete Akgün, (参考訳) ゲノムワイド・アソシエーションの研究は、複雑な形質や病気の遺伝的基盤を理解する上で重要である。 協調的な多地点GWASは、統計力を高めることを目的としているが、ゲノムデータ共有の繊細な性質のために障害に直面している。 現在の最先端手法は、Secure Multi-Party Computation や Homomorphic Encryption といった計算コストの高い手法を利用したプライバシー重視のアプローチを提供する。 そこで本研究では,データプライバシを犠牲にすることなく,計算効率とスケーラビリティの観点から,既存の標準を改善するために設計された新しいアルゴリズムPP-GWASを提案する。 このアルゴリズムは、分散アーキテクチャ内でランダムに符号化され、線形混合モデル上で積み重ねられたリッジ回帰を行い、厳密な解析を保証する。 実世界のデータと合成データによる実験的評価は、PP-GWASが、より少ない計算資源を使用しながら、類似の最先端アルゴリズムの2倍の計算速度を達成できることを示している。 我々は、様々なデータセットを用いてその性能を評価し、より効率的でプライベートなゲノム解析を促進する可能性を強調した。

Genome-wide association studies are pivotal in understanding the genetic underpinnings of complex traits and diseases. Collaborative, multi-site GWAS aim to enhance statistical power but face obstacles due to the sensitive nature of genomic data sharing. Current state-of-the-art methods provide a privacy-focused approach utilizing computationally expensive methods such as Secure Multi-Party Computation and Homomorphic Encryption. In this context, we present a novel algorithm PP-GWAS designed to improve upon existing standards in terms of computational efficiency and scalability without sacrificing data privacy. This algorithm employs randomized encoding within a distributed architecture to perform stacked ridge regression on a Linear Mixed Model to ensure rigorous analysis. Experimental evaluation with real world and synthetic data indicates that PP-GWAS can achieve computational speeds twice as fast as similar state-of-the-art algorithms while using lesser computational resources, all while adhering to a robust security model that caters to an all-but-one semi-honest adversary setting. We have assessed its performance using various datasets, emphasizing its potential in facilitating more efficient and private genomic analyses.
翻訳日:2024-10-31 05:15:31 公開日:2024-10-10
# 非局所電子-フォノンカップリングのディジタル量子シミュレーションのための量子回路

Quantum circuits for digital quantum simulation of nonlocal electron-phonon coupling ( http://arxiv.org/abs/2410.08123v1 )

ライセンス: Link先を確認
Vladimir M. Stojanovic, (参考訳) 電子-フォノン相互作用のクエンチによる小ポラロン生成の非平衡ダイナミクスを理解するために、本研究では、ゼロ次元ボソン(例えばアインシュタイン型フォノン)に非局所的に結合したイテナントフェルミオン励起(例えば電子)を記述する1次元格子モデルのデジタル量子シミュレータを提案する。 ここでは、パイエルス型および呼吸モード型励起-ボソン相互作用を含むこのモデルのダイナミクスを実装する量子回路を設計し、その複雑性をシステムサイズと線形にスケーリングする。 また、このシステムの自然初期状態(クビットレジスタの$W$状態に相当する裸の励起ブロッホ状態)を生成する回路も提示する。 提案したシミュレータとの比較を容易にするため,実験によりシステム力学を数値的に評価し,Loschmidtエコーと各種相関関数を用いて特徴付ける。

Motivated by the compelling need to understand the nonequilibrium dynamics of small-polaron formation following an electron-phonon interaction quench, in this work we propose a digital quantum simulator of a one-dimensional lattice model describing an itinerant fermionic excitation (e.g. an electron) nonlocally coupled to zero-dimensional bosons (e.g. Einstein-type phonons). Quantum circuits implementing the dynamics of this model, which includes Peierls- and breathing-mode-type excitation-boson interactions, are designed here, their complexity scaling linearly with the system size. A circuit that generates the natural initial (pre-quench) state of this system -- a bare-excitation Bloch state, equivalent to a $W$ state of a qubit register -- is also presented. To facilitate comparisons with the proposed simulator, once experimentally realized, the system dynamics are also evaluated numerically and characterized through the Loschmidt echo and various correlation functions.
翻訳日:2024-10-31 05:15:31 公開日:2024-10-10
# 微分と勾配推定のための確率的平滑化の一般化

Generalizing Stochastic Smoothing for Differentiation and Gradient Estimation ( http://arxiv.org/abs/2410.08125v1 )

ライセンス: Link先を確認
Felix Petersen, Christian Borgelt, Aashwin Mishra, Stefano Ermon, (参考訳) アルゴリズム,演算子,シミュレータ,その他の微分不可能関数の確率微分緩和に対する勾配推定の問題に対処する。 確率的滑らか化は伝統的に、完全な支持を持つ微分可能密度分布を持つ微分不可能関数の入力を摂動させ、滑らか化し、勾配推定を可能にする。 我々の理論は、微分不可能なブラックボックス関数の緩和と勾配推定のための一般的な枠組みである$f:\mathbb{R}^n\to\mathbb{R}^m$を示す。 直交3視点からの勾配推定のための分散低減法を開発した。 実験では、6つの分布と最大24個の分散削減戦略をベンチマークし、ソートとランキング、グラフ上の微分可能なショートパス、ポーズ推定のための微分可能なレンダリング、および微分可能なCryo-ETシミュレーションを比較した。

We deal with the problem of gradient estimation for stochastic differentiable relaxations of algorithms, operators, simulators, and other non-differentiable functions. Stochastic smoothing conventionally perturbs the input of a non-differentiable function with a differentiable density distribution with full support, smoothing it and enabling gradient estimation. Our theory starts at first principles to derive stochastic smoothing with reduced assumptions, without requiring a differentiable density nor full support, and we present a general framework for relaxation and gradient estimation of non-differentiable black-box functions $f:\mathbb{R}^n\to\mathbb{R}^m$. We develop variance reduction for gradient estimation from 3 orthogonal perspectives. Empirically, we benchmark 6 distributions and up to 24 variance reduction strategies for differentiable sorting and ranking, differentiable shortest-paths on graphs, differentiable rendering for pose estimation, as well as differentiable cryo-ET simulations.
翻訳日:2024-10-31 05:15:31 公開日:2024-10-10
# 火星:オープンワールド環境における帰納的推論

Mars: Situated Inductive Reasoning in an Open-World Environment ( http://arxiv.org/abs/2410.08126v1 )

ライセンス: Link先を確認
Xiaojuan Tang, Jiaqi Li, Yitao Liang, Song-chun Zhu, Muhan Zhang, Zilong Zheng, (参考訳) 大規模コーパスで訓練された大規模言語モデル(LLM)は、知識集約的なタスクにおいて顕著な成功を収めている。 しかし、そのほとんどは事前の知識に依存している。 特定の環境から新しい一般知識を誘導し、獲得した知識 -- \textit{situated inductive reasoning} -- で推論を行うことは、マシンインテリジェンスにとって不可欠で難しい。 本稿では,位置帰納的推論のために考案された対話型環境であるMarsを設計する。 特定の原則に固執しながら、地形、生存設定、タスク依存を変更することで、反常識的なゲームメカニズムを導入する。 火星では、エージェントは周囲と積極的に対話し、有用なルールを導き、特定の状況下で意思決定タスクを実行する必要がある。 我々は様々なRL法およびLLM法を用いて実験を行い、それらがすべて、この挑戦的な位置帰納的推論ベンチマークで苦労していることを発見した。 さらに, エージェントに対して, 履歴軌跡からの帰納的推論を行うよう指示する。 優れた性能は火星における帰納的推論の重要性を強調している。 火星を通じ、我々は、位置のある帰納的推論の進歩を高揚させ、適応的で文脈に敏感な方法で推論できる次世代AIシステムを開発するためのステージを定めようとしている。

Large Language Models (LLMs) trained on massive corpora have shown remarkable success in knowledge-intensive tasks. Yet, most of them rely on pre-stored knowledge. Inducing new general knowledge from a specific environment and performing reasoning with the acquired knowledge -- \textit{situated inductive reasoning}, is crucial and challenging for machine intelligence. In this paper, we design Mars, an interactive environment devised for situated inductive reasoning. It introduces counter-commonsense game mechanisms by modifying terrain, survival setting and task dependency while adhering to certain principles. In Mars, agents need to actively interact with their surroundings, derive useful rules and perform decision-making tasks in specific contexts. We conduct experiments on various RL-based and LLM-based methods, finding that they all struggle on this challenging situated inductive reasoning benchmark. Furthermore, we explore \textit{Induction from Reflection}, where we instruct agents to perform inductive reasoning from history trajectory. The superior performance underscores the importance of inductive reasoning in Mars. Through Mars, we aim to galvanize advancements in situated inductive reasoning and set the stage for developing the next generation of AI systems that can reason in an adaptive and context-sensitive way.
翻訳日:2024-10-31 05:15:31 公開日:2024-10-10
# ハイブリッド透明性を用いた高能率視点補正型3次元ガウス平滑化

Efficient Perspective-Correct 3D Gaussian Splatting Using Hybrid Transparency ( http://arxiv.org/abs/2410.08129v1 )

ライセンス: Link先を確認
Florian Hahlbohm, Fabian Friederichs, Tim Weyrich, Linus Franke, Moritz Kappel, Susana Castillo, Marc Stamminger, Martin Eisemann, Marcus Magnor, (参考訳) 3D Gaussian Splats (3DGS)は、逆レンダリングとリアルタイムなシーン探索の両方のために、多用途レンダリングプリミティブを証明している。 これらの応用において、カメラフレーム間のコヒーレンスと複数のビューは、シーン再構成の堅牢な収束や、アーティファクトフリーのフライスルーのために重要である。 最近の研究は、多視点コヒーレンスを損なうアーティファクトを緩和し始めており、不整合な透明性ソートや(2D)スプラットの視点修正アウトラインによるアーティファクトのポップアップなどがあった。 同時に、リアルタイムの要求により、このような実装は3Dガウスの大規模なアセンブリの透明性をいかに解決するかという妥協を受け入れ、他の方法でコヒーレンスを破ることを余儀なくされた。 本研究では, リアルタイムフレームレートを維持するために, 高精度なブレンディング, ハイブリッド透明性の高精度な近似を用いて, 完全視点補正された3次元ガウスアンを最大コヒーレンスを達成することを目的としている。 高速かつ視点的に正確な3Dガウスアン評価手法は, 行列逆転を必要としないため, 数値安定性を確保し, 退化スプラットの特別な処理の必要性を排除し, ブレンディング用ハイブリッド透明性定式化は, レンダリングコストのごく一部において, 完全に解決された1画素あたりの透過率と同じ品質を維持している。 さらに、これらの2つの成分はそれぞれ独立にガウススプラッティングシステムに統合可能であることを示す。 組み合わせると、2$\times$高フレームレート、2$\times$高速最適化、2$\times$画像品質が、一般的なベンチマークで従来の3DGSと比較してレンダリングアーティファクトが少ない。

3D Gaussian Splats (3DGS) have proven a versatile rendering primitive, both for inverse rendering as well as real-time exploration of scenes. In these applications, coherence across camera frames and multiple views is crucial, be it for robust convergence of a scene reconstruction or for artifact-free fly-throughs. Recent work started mitigating artifacts that break multi-view coherence, including popping artifacts due to inconsistent transparency sorting and perspective-correct outlines of (2D) splats. At the same time, real-time requirements forced such implementations to accept compromises in how transparency of large assemblies of 3D Gaussians is resolved, in turn breaking coherence in other ways. In our work, we aim at achieving maximum coherence, by rendering fully perspective-correct 3D Gaussians while using a high-quality approximation of accurate blending, hybrid transparency, on a per-pixel level, in order to retain real-time frame rates. Our fast and perspectively accurate approach for evaluation of 3D Gaussians does not require matrix inversions, thereby ensuring numerical stability and eliminating the need for special handling of degenerate splats, and the hybrid transparency formulation for blending maintains similar quality as fully resolved per-pixel transparencies at a fraction of the rendering costs. We further show that each of these two components can be independently integrated into Gaussian splatting systems. In combination, they achieve up to 2$\times$ higher frame rates, 2$\times$ faster optimization, and equal or better image quality with fewer rendering artifacts compared to traditional 3DGS on common benchmarks.
翻訳日:2024-10-31 05:15:31 公開日:2024-10-10
# サイズを超えて考える:より効果的な推論のための動的プロンプト

Think Beyond Size: Dynamic Prompting for More Effective Reasoning ( http://arxiv.org/abs/2410.08130v1 )

ライセンス: Link先を確認
Kamesh R, (参考訳) 本稿では,Large Language Models(LLM)の推論能力向上を目的とした新しいフレームワークであるDynamic Promptingを提案する。 従来の静的プロンプト法とは対照的に、Dynamic Promptingはリアルタイムタスクの複雑さとモデル性能に基づいて、プロンプトシーケンスとステップカウントの適応的な修正を可能にする。 この動的適応は、特により小さなモデルにおいて、幻覚や反復サイクルを減らすことにより、より効率的な問題解決を促進する。 実験により, より小型のLCMにおいて, より大型のモデルと競争的に動作できることが示され, 推理効果の第一決定要因として, 従来のモデルサイズ重視に挑戦した。

This paper presents Dynamic Prompting, a novel framework aimed at improving the reasoning capabilities of Large Language Models (LLMs). In contrast to conventional static prompting methods, Dynamic Prompting enables the adaptive modification of prompt sequences and step counts based on real-time task complexity and model performance. This dynamic adaptation facilitates more efficient problem-solving, particularly in smaller models, by reducing hallucinations and repetitive cycles. Our empirical evaluations demonstrate that Dynamic Prompting allows smaller LLMs to perform competitively with much larger models, thereby challenging the conventional emphasis on model size as the primary determinant of reasoning efficacy.
翻訳日:2024-10-31 05:05:45 公開日:2024-10-10
# 分子系における同変表現の分解

Deconstructing equivariant representations in molecular systems ( http://arxiv.org/abs/2410.08131v1 )

ライセンス: Link先を確認
Kin Long Kelvin Lee, Mikhail Galkin, Santiago Miret, (参考訳) 最近の同変モデルでは、化学的性質の予測だけでなく、分子や物質の動的シミュレーションの代理として、大きな進歩が見られる。 このカテゴリーのトップパフォーマンスモデルの多くはテンソル積の枠組みの中に構築されており、これは相互作用や対称性選択規則によって許されるものへの変換を制限することで同値を保つ。 モデリングプロセスの中核部分であるにもかかわらず、これらの同変表現にどのような情報が持続するか、ベンチマークメトリクス以外の一般的な振る舞いを理解することにはまだ注意が向けられていない。 本稿では,QM9データセット上での単純な同変グラフ畳み込みモデルを用いた実験について報告する。 我々の重要な発見は、スカラー予測タスクにおいて、既約表現の多くは、単に訓練中に無視される(特にベクトル(l=1$)とテンソル量(l=2$)に関連するもの)。 実験により,未使用の球面高調波の除去によりモデル性能が向上し,遅延空間構造が改善したことを示す。 これらの観測に基づいて、同変特性の効率と利用を改善するために、今後の実験を推奨する。

Recent equivariant models have shown significant progress in not just chemical property prediction, but as surrogates for dynamical simulations of molecules and materials. Many of the top performing models in this category are built within the framework of tensor products, which preserves equivariance by restricting interactions and transformations to those that are allowed by symmetry selection rules. Despite being a core part of the modeling process, there has not yet been much attention into understanding what information persists in these equivariant representations, and their general behavior outside of benchmark metrics. In this work, we report on a set of experiments using a simple equivariant graph convolution model on the QM9 dataset, focusing on correlating quantitative performance with the resulting molecular graph embeddings. Our key finding is that, for a scalar prediction task, many of the irreducible representations are simply ignored during training -- specifically those pertaining to vector ($l=1$) and tensor quantities ($l=2$) -- an issue that does not necessarily make itself evident in the test metric. We empirically show that removing some unused orders of spherical harmonics improves model performance, correlating with improved latent space structure. We provide a number of recommendations for future experiments to try and improve efficiency and utilization of equivariant features based on these observations.
翻訳日:2024-10-31 05:05:45 公開日:2024-10-10
# シーケンス順序リコールタスクを用いたLLMにおけるエピソード記憶の評価

Assessing Episodic Memory in LLMs with Sequence Order Recall Tasks ( http://arxiv.org/abs/2410.08133v1 )

ライセンス: Link先を確認
Mathis Pink, Vy A. Vo, Qinyuan Wu, Jianing Mu, Javier S. Turek, Uri Hasson, Kenneth A. Norman, Sebastian Michelmann, Alexander Huth, Mariya Toneva, (参考訳) 現在のLLMベンチマークは、主に長期記憶のセマンティックな側面を評価するために、事実と意味関係のモデルの記憶を評価することに重点を置いている。 しかしながら、ヒトでは、長期記憶にはエピソード記憶が含まれており、それは記憶が発生した時間や場所などの文脈と結びついている。 記憶の文脈化能力は多くの認知タスクや日常機能に不可欠である。 この形態のメモリは、既存のベンチマークによるLCMでは評価されていない。 LLMにおける記憶評価のギャップに対処するために,認知心理学におけるエピソード記憶の研究に使用されるタスクから順応するシーケンス・オーダー・リコール・タスク(SORT)を導入する。 SORTは、LLMにテキストセグメントの正しい順序を思い出させる必要があり、拡張が容易で、追加のアノテーションを必要としない一般的なフレームワークを提供する。 我々は最近パブリックドメインに追加された9冊の本から抽出された36kのセグメントからなる初期評価データセットであるBook-SORTを提案する。 155人の被験者による人間実験から,本書の長期記憶に基づくシーケンス順序を再現できることが示唆された。 我々は,SORT評価中に関連するテキストがコンテキスト内で与えられた場合,モデルが高精度にタスクを実行できることを発見した。 しかし、トレーニング中のみ本文が提示されると、SORT上でのLLMのパフォーマンスは低下する。 メモリのより多くの側面を評価できるようにすることで、SORTはメモリ拡張モデルの発展に役立ちます。

Current LLM benchmarks focus on evaluating models' memory of facts and semantic relations, primarily assessing semantic aspects of long-term memory. However, in humans, long-term memory also includes episodic memory, which links memories to their contexts, such as the time and place they occurred. The ability to contextualize memories is crucial for many cognitive tasks and everyday functions. This form of memory has not been evaluated in LLMs with existing benchmarks. To address the gap in evaluating memory in LLMs, we introduce Sequence Order Recall Tasks (SORT), which we adapt from tasks used to study episodic memory in cognitive psychology. SORT requires LLMs to recall the correct order of text segments, and provides a general framework that is both easily extendable and does not require any additional annotations. We present an initial evaluation dataset, Book-SORT, comprising 36k pairs of segments extracted from 9 books recently added to the public domain. Based on a human experiment with 155 participants, we show that humans can recall sequence order based on long-term memory of a book. We find that models can perform the task with high accuracy when relevant text is given in-context during the SORT evaluation. However, when presented with the book text only during training, LLMs' performance on SORT falls short. By allowing to evaluate more aspects of memory, we believe that SORT will aid in the emerging development of memory-augmented models.
翻訳日:2024-10-31 05:05:45 公開日:2024-10-10
# 離散化後予測によるステアリングマスク付き離散拡散モデル

Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction ( http://arxiv.org/abs/2410.08134v1 )

ライセンス: Link先を確認
Jarrid Rector-Brooks, Mohsin Hasan, Zhangzhi Peng, Zachary Quinn, Chenghao Liu, Sarthak Mittal, Nouha Dziri, Michael Bronstein, Yoshua Bengio, Pranam Chatterjee, Alexander Tong, Avishek Joey Bose, (参考訳) 離散データの生成モデリングは、ChatGPTのようなテキストベースのエージェントにまたがる重要な応用と、タンパク質配列における生命の構成要素の設計の基礎となる。 しかしながら、アプリケーションドメインは、特定の特性、報酬、親和性の測定値を満たすために、生成プロセス(通常、RLHFを介して)をステアリングすることで、生成されたデータを制御する必要がある。 本稿では,従来の自己回帰モデルに対して魅力的な代替手段を提供する離散拡散モデルの最近のクラスである,Masked Diffusion Models (MDMs) のステアリング問題について検討する。 本稿では,ベイズ後部からのサンプルの学習による確率的推論の問題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介した。 我々のDDPPフレームワークは、シミュレーションのない3つの新しい目的のファミリーに導かれ、一般の非微分可能報酬関数に適用しながらスケーラブルになる。 実験的にMDMを操ることでDDPPをインスタンス化し、クラス条件の画素レベルの画像モデリング、テキストベースの報酬を用いたRLHFベースのMDMのアライメント、タンパク質言語モデルの微調整を行い、より多様な二次構造と短いタンパク質を生成する。 Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。

Generative modeling of discrete data underlies important applications spanning text-based agents like ChatGPT to the design of the very building blocks of life in protein sequences. However, application domains need to exert control over the generated data by steering the generative process - typically via RLHF - to satisfy a specified property, reward, or affinity metric. In this paper, we study the problem of steering Masked Diffusion Models (MDMs), a recent class of discrete diffusion models that offer a compelling alternative to traditional autoregressive models. We introduce Discrete Denoising Posterior Prediction (DDPP), a novel framework that casts the task of steering pre-trained MDMs as a problem of probabilistic inference by learning to sample from a target Bayesian posterior. Our DDPP framework leads to a family of three novel objectives that are all simulation-free, and thus scalable while applying to general non-differentiable reward functions. Empirically, we instantiate DDPP by steering MDMs to perform class-conditional pixel-level image modeling, RLHF-based alignment of MDMs using text-based rewards, and finetuning protein language models to generate more diverse secondary structures and shorter proteins. We substantiate our designs via wet-lab validation, where we observe transient expression of reward-optimized protein sequences.
翻訳日:2024-10-31 05:05:45 公開日:2024-10-10
# チャネルシミュレーションにおけるメタコンバースの最適性

Optimality of meta-converse for channel simulation ( http://arxiv.org/abs/2410.08140v1 )

ライセンス: Link先を確認
Aadil Oufkir, Omar Fawzi, Mario Berta, (参考訳) 単発設定におけるノイズレス通信を用いたチャネルシミュレーション問題に対する共有非シグナリング相関の効果について検討する。 従来のチャネルでは、チャネルシミュレーションの自然な線形プログラミングメタコンバースに対応する非シグナリング支援シミュレーション戦略を、共有ランダム性のみを使用する戦略にどうラウンドするかを示す。 量子チャネルでは、共有エンタングルメントのみを使用する戦略に、任意の非シグナリング支援シミュレーション戦略を丸めます。 我々の主な成果は古典的および古典的量子チャネルであり、近似アルゴリズムのアイデアを用いて少なくとも 1-\mathrm{e}^{-1})$ の成功確率の比率を保証している。 さらに、この比は純粋に古典的な場合に最適であることを示す。 これは$O(\ln \ln(t))$追加の通信ビットを使用して$(1-t^{-1})$に改善することができる。

We study the effect of shared non-signaling correlations for the problem of simulating a channel using noiseless communication in the one-shot setting. For classical channels, we show how to round any non-signaling-assisted simulation strategy--which corresponds to the natural linear programming meta-converse for channel simulation--to a strategy that only uses shared randomness. For quantum channels, we round any non-signaling-assisted simulation strategy to a strategy that only uses shared entanglement. Our main result is for classical and classical-quantum channels, for which we employ ideas from approximation algorithms to give a guarantee on the ratio of success probabilities of at least $(1-\mathrm{e}^{-1})$. We further show this ratio to be optimal for the purely classical case. It can be improved to $(1-t^{-1})$ using $O(\ln \ln(t))$ additional bits of communication.
翻訳日:2024-10-31 05:05:45 公開日:2024-10-10
# DelTA: マルチレベルメモリに基づくオンライン文書レベル翻訳エージェント

DelTA: An Online Document-Level Translation Agent Based on Multi-Level Memory ( http://arxiv.org/abs/2410.08143v1 )

ライセンス: Link先を確認
Yutong Wang, Jiali Zeng, Xuebo Liu, Derek F. Wong, Fandong Meng, Jie Zhou, Min Zhang, (参考訳) 大規模言語モデル(LLM)は機械翻訳(MT)において合理的な品質向上を実現している。 しかし、MT-LLMに関する現在の研究のほとんどは、文書全体を処理する際に翻訳一貫性と精度を維持する上で大きな課題に直面している。 本稿では,これらの制約を克服するための文書レバレッジ翻訳エージェントであるDelTAを紹介する。 DelTAには、Proper Noun Records、Bilingual Summary、Long-Term Memory、Short-Term Memoryなど、さまざまな粒度やスパンの情報を格納するマルチレベルメモリ構造がある。 実験の結果,DelTAは4つのオープン/クローズドソースLCMと2つの代表的な文書翻訳データセットの翻訳一貫性と品質において,高いベースラインを著しく上回り,一貫性スコアが4.58ポイント,COMETスコアが3.16ポイント向上した。 DelTAは文単位の翻訳戦略を採用し、文の省略を確実にし、メインストリームの方法と比較してメモリ効率のよいソリューションを提供する。 さらに、DelTAは代名詞翻訳の精度を改善し、エージェントの要約コンポーネントは、クエリベースの要約タスクのツールとしてpromiseも示す。 コードとデータはhttps://github.com/YutongWang1216/DocMTAgent.comで公開しています。

Large language models (LLMs) have achieved reasonable quality improvements in machine translation (MT). However, most current research on MT-LLMs still faces significant challenges in maintaining translation consistency and accuracy when processing entire documents. In this paper, we introduce DelTA, a Document-levEL Translation Agent designed to overcome these limitations. DelTA features a multi-level memory structure that stores information across various granularities and spans, including Proper Noun Records, Bilingual Summary, Long-Term Memory, and Short-Term Memory, which are continuously retrieved and updated by auxiliary LLM-based components. Experimental results indicate that DelTA significantly outperforms strong baselines in terms of translation consistency and quality across four open/closed-source LLMs and two representative document translation datasets, achieving an increase in consistency scores by up to 4.58 percentage points and in COMET scores by up to 3.16 points on average. DelTA employs a sentence-by-sentence translation strategy, ensuring no sentence omissions and offering a memory-efficient solution compared to the mainstream method. Furthermore, DelTA improves pronoun translation accuracy, and the summary component of the agent also shows promise as a tool for query-based summarization tasks. We release our code and data at https://github.com/YutongWang1216/DocMTAgent.
翻訳日:2024-10-31 05:05:45 公開日:2024-10-10
# 視力に関する洞察 : マルチモーダルLLMにおける視覚知識の対立を探る

Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs ( http://arxiv.org/abs/2410.08145v1 )

ライセンス: Link先を確認
Xiaoyuan Liu, Wenxuan Wang, Youliang Yuan, Jen-tse Huang, Qiuzhi Liu, Pinjia He, Zhaopeng Tu, (参考訳) 本稿では,マルチモーダル大言語モデル(MLLM)におけるコモンセンスレベルの視覚知識衝突の問題について考察する。 そこで本研究では,MLLMの競合をシミュレーションし,評価するためのベンチマークを構築するために,人間のループ品質制御を付加した自動パイプラインを提案する。 このパイプラインを利用して、374のオリジナル画像と1,122の高品質質問応答(QA)ペアからなる診断ベンチマークを構築した。 このベンチマークでは、2種類の競合目標と3つの問題問題レベルをカバーし、徹底的な評価ツールを提供する。 本ベンチマークにより,9種類のMLLMのコンフリクト分解能の評価を行い,テキストクエリに顕著なオーバー信頼度を求める。 これらの知見をもとに,MLLMがテキスト知識の矛盾に対して視覚的データを好む能力を著しく向上させる新たなプロンプト戦略であるFocus-on-Vision(FoV)を提案する。 本研究の詳細な分析と新たな戦略は,MLLMにおける視覚知識紛争の理解と緩和を著しく進めるものである。 データとコードは公開されています。

This paper explores the problem of commonsense-level vision-knowledge conflict in Multimodal Large Language Models (MLLMs), where visual information contradicts model's internal commonsense knowledge (see Figure 1). To study this issue, we introduce an automated pipeline, augmented with human-in-the-loop quality control, to establish a benchmark aimed at simulating and assessing the conflicts in MLLMs. Utilizing this pipeline, we have crafted a diagnostic benchmark comprising 374 original images and 1,122 high-quality question-answer (QA) pairs. This benchmark covers two types of conflict target and three question difficulty levels, providing a thorough assessment tool. Through this benchmark, we evaluate the conflict-resolution capabilities of nine representative MLLMs across various model families and find a noticeable over-reliance on textual queries. Drawing on these findings, we propose a novel prompting strategy, "Focus-on-Vision" (FoV), which markedly enhances MLLMs' ability to favor visual data over conflicting textual knowledge. Our detailed analysis and the newly proposed strategy significantly advance the understanding and mitigating of vision-knowledge conflicts in MLLMs. The data and code are made publicly available.
翻訳日:2024-10-31 05:05:45 公開日:2024-10-10
# Rewarding Progress: LLM推論のための自動プロセス検証器のスケーリング

Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning ( http://arxiv.org/abs/2410.08146v1 )

ライセンス: Link先を確認
Amrith Setlur, Chirag Nagpal, Adam Fisch, Xinyang Geng, Jacob Eisenstein, Rishabh Agarwal, Alekh Agarwal, Jonathan Berant, Aviral Kumar, (参考訳) 大規模言語モデルにおける推論を改善するための有望なアプローチは、プロセス報酬モデル(PRM)を使用することである。 PRMは、多段階の推論トレースの各ステップでフィードバックを提供し、最終ステップでのみフィードバックを提供する結果報酬モデル(ORM)よりも、クレジットの割り当てを改善する可能性がある。 しかしながら、密集した、ステップごとのラベルの収集はスケーラブルではなく、自動ラベル付きデータからPRMをトレーニングすることは、これまでのところ、限られた利益をもたらしている。 PRMに対して探索を行ったり、強化学習(RL)の高密度報酬として使ったりすることで、基本方針を改善するために、「プロセス報酬をどう設計すべきか?」と質問する。 私たちの重要な洞察は、効果的にするためには、ステップのプロセス報酬が進捗を測定するべきであるということです。 重要なことは、この進歩は基本方針とは異なる証明政策の下で測定されるべきである。 理論的には,良質なプロデューサの集合を特徴付けるとともに,このようなプロデューサからのプロセス報酬の最適化が,テスト時間探索やオンラインRLの探索を改善することを示す。 実際、我々の特徴は、弱い証明ポリシーはより強力な基本方針を著しく改善し、また経験的に観察できることを示している。 我々は、これらのプローバーの進捗を予測するためにPAVをトレーニングプロセスで検証し、ORMと比較すると、PAVに対するテストタイム検索はより正確で、1.5〜5\times$より計算効率が高いことを示す。 PAVからの報酬が密集したオンラインRLは、最初の結果の1つとして、サンプル効率が5~6\times$、ORMよりも精度が6\%$である。

A promising approach for improving reasoning in large language models is to use process reward models (PRMs). PRMs provide feedback at each step of a multi-step reasoning trace, potentially improving credit assignment over outcome reward models (ORMs) that only provide feedback at the final step. However, collecting dense, per-step human labels is not scalable, and training PRMs from automatically-labeled data has thus far led to limited gains. To improve a base policy by running search against a PRM or using it as dense rewards for reinforcement learning (RL), we ask: "How should we design process rewards?". Our key insight is that, to be effective, the process reward for a step should measure progress: a change in the likelihood of producing a correct response in the future, before and after taking the step, corresponding to the notion of step-level advantages in RL. Crucially, this progress should be measured under a prover policy distinct from the base policy. We theoretically characterize the set of good provers and our results show that optimizing process rewards from such provers improves exploration during test-time search and online RL. In fact, our characterization shows that weak prover policies can substantially improve a stronger base policy, which we also observe empirically. We validate our claims by training process advantage verifiers (PAVs) to predict progress under such provers, and show that compared to ORMs, test-time search against PAVs is $>8\%$ more accurate, and $1.5-5\times$ more compute-efficient. Online RL with dense rewards from PAVs enables one of the first results with $5-6\times$ gain in sample efficiency, and $>6\%$ gain in accuracy, over ORMs.
翻訳日:2024-10-31 05:05:45 公開日:2024-10-10
# プログレッシブ自己回帰ビデオ拡散モデル

Progressive Autoregressive Video Diffusion Models ( http://arxiv.org/abs/2410.08151v1 )

ライセンス: Link先を確認
Desai Xie, Zhan Xu, Yicong Hong, Hao Tan, Difan Liu, Feng Liu, Arie Kaufman, Yang Zhou, (参考訳) 現在のフロンティアビデオ拡散モデルでは、高品質なビデオを生成する際、顕著な結果が示されている。 しかし、トレーニング中の計算制限のため、通常は10秒ないし240フレーム程度の短いビデオクリップしか生成できない。 本研究では,既存のモデルをアーキテクチャを変更することなく,自然に自己回帰的ビデオ拡散モデルに拡張可能であることを示す。 私たちのキーとなるアイデアは、単一のノイズレベルではなく、徐々に増加するノイズレベルを持つ潜伏フレームを割り当てることです。 このようなプログレッシブなビデオデノゲーションにより、品質劣化や急激なシーン変化なしに、我々のモデルは自動回帰的にビデオフレームを生成することができる。 1分(1440フレーム/24FPS)の長ビデオ生成について,その現状について述べる。 この論文のビデオはhttps://desaixie.github.io/pa-vdm/で公開されている。

Current frontier video diffusion models have demonstrated remarkable results at generating high-quality videos. However, they can only generate short video clips, normally around 10 seconds or 240 frames, due to computation limitations during training. In this work, we show that existing models can be naturally extended to autoregressive video diffusion models without changing the architectures. Our key idea is to assign the latent frames with progressively increasing noise levels rather than a single noise level, which allows for fine-grained condition among the latents and large overlaps between the attention windows. Such progressive video denoising allows our models to autoregressively generate video frames without quality degradation or abrupt scene changes. We present state-of-the-art results on long video generation at 1 minute (1440 frames at 24 FPS). Videos from this paper are available at https://desaixie.github.io/pa-vdm/.
翻訳日:2024-10-31 05:05:45 公開日:2024-10-10
# RayEmb: 埋め込み部分空間を用いたX線画像の任意ランドマーク検出

RayEmb: Arbitrary Landmark Detection in X-Ray Images Using Ray Embedding Subspace ( http://arxiv.org/abs/2410.08152v1 )

ライセンス: Link先を確認
Pragyan Shrestha, Chun Xie, Yuichi Yoshii, Itaru Kitahara, (参考訳) 術前CTによるX線画像の術中2D-3D記録は整形外科手術において極めて重要である。 CTボリュームに予め記載された解剖学的ランドマークは、X線画像から検出され、2D-3D対応が確立され、登録に使用される。 しかし、登録はランドマークの視界が悪いため、特定の角度で失敗することが多い。 本稿では,X線画像中の任意のランドマーク点を検出することで,この問題に対処する新しい手法を提案する。 我々のアプローチは、交差する光線に対応する特徴ベクトル(光線埋め込みと呼ばれる)によって形成される、異なる部分空間として3Dポイントを表現している。 2D-3D対応の確立は、与えられた部分空間に近い光線埋め込みを発見し、本質的に交叉試験を行うタスクとなる。 従来のランドマーク推定法とは異なり,本手法では固定されたランドマークを手動でアノテートする必要がなくなる。 CTPelvic1K CLINICデータセットから生成された103個のCTボリュームを含む合成画像を用いてモデルを訓練し、実際のX線画像からなるDeepFluoroデータセットで評価した。 実験により,本手法が従来の方法よりも優れていることを示す。 コードはhttps://github.com/Pragyanstha/rayembで公開されている。

Intra-operative 2D-3D registration of X-ray images with pre-operatively acquired CT scans is a crucial procedure in orthopedic surgeries. Anatomical landmarks pre-annotated in the CT volume can be detected in X-ray images to establish 2D-3D correspondences, which are then utilized for registration. However, registration often fails in certain view angles due to poor landmark visibility. We propose a novel method to address this issue by detecting arbitrary landmark points in X-ray images. Our approach represents 3D points as distinct subspaces, formed by feature vectors (referred to as ray embeddings) corresponding to intersecting rays. Establishing 2D-3D correspondences then becomes a task of finding ray embeddings that are close to a given subspace, essentially performing an intersection test. Unlike conventional methods for landmark estimation, our approach eliminates the need for manually annotating fixed landmarks. We trained our model using the synthetic images generated from CTPelvic1K CLINIC dataset, which contains 103 CT volumes, and evaluated it on the DeepFluoro dataset, comprising real X-ray images. Experimental results demonstrate the superiority of our method over conventional methods. The code is available at https://github.com/Pragyanstha/rayemb.
翻訳日:2024-10-31 05:05:45 公開日:2024-10-10
# 相対論的量子時計の幾何学と適切な時間

Geometry and proper time of a relativistic quantum clock ( http://arxiv.org/abs/2410.08156v1 )

ライセンス: Link先を確認
Joseph Balsells, Martin Bojowald, (参考訳) 古典時計はその世界線に沿って適切な時間を計測し、リーマン幾何学は平らな時空と湾曲した時空の両方で時計によって示される時間を予測するためのツールを提供する。 量子系の時間に対する一般的なアプローチは、例えば波動関数や密度行列に基づいており、量子レベルでのこの幾何学的性質を曖昧にする傾向がある。 ここでは、修正されたリーマン幾何学の中に量子自由度を含む古典パス長汎函数を摂動する新しい枠組みが示される。 この枠組みでは、量子時計は、時計の量子状態を指定するパラメータによって変形した時空の族の測地線を走行する。 詳細な導出は、シュワルツシルトの時空における重力時変に対する潜在的に検証可能な補正を与え、これは時計のコンプトン波長と波のパケットの空間範囲の比でスケールする。

Classical clocks measure proper time along their worldline, and Riemannian geometry provides tools for predicting the time shown by clocks in both flat and curved spacetimes. Common approaches to time in quantum systems, based for instance on wave functions or density matrices, tend to obscure this geometric property at the quantum level. Here, a new framework is demonstrated for perturbing the classical path-length functional to include quantum degrees of freedom within a modified Riemannian geometry. In this framework, a quantum clock travels on geodesics of a family of spacetimes deformed by parameters specifying the clock's quantum state. Detailed derivations provide potentially testable corrections to gravitational time-dilation in Schwarzschild spacetime that scale with the ratio of the clock's Compton wavelength to its wave packet's spatial extent.
翻訳日:2024-10-31 05:05:45 公開日:2024-10-10
# DART: スケーラブルテキスト・画像生成のための自動回帰変換器

DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation ( http://arxiv.org/abs/2410.08159v1 )

ライセンス: Link先を確認
Jiatao Gu, Yuyang Wang, Yizhe Zhang, Qihang Zhang, Dinghuai Zhang, Navdeep Jaitly, Josh Susskind, Shuangfei Zhai, (参考訳) 拡散モデルは視覚生成において支配的なアプローチとなっている。 それらは、徐々に入力にノイズを加えるマルコフ過程を飾ることによって訓練される。 マルコフ特性は生成軌道を完全に活用する能力を制限し、訓練や推論において非効率な結果をもたらすと論じる。 本稿では,非マルコフフレームワーク内で自己回帰(AR)と拡散を統一するトランスフォーマーモデルであるDARTを提案する。 DARTは、標準的な言語モデルと同じアーキテクチャのARモデルを使用して、空間的およびスペクトル的に画像パッチを反復的に復調する。 DARTは画像量子化に依存しておらず、柔軟性を維持しながらより効果的な画像モデリングを可能にする。 さらに、DARTはテキストと画像の両方を統一されたモデルでシームレスにトレーニングする。 提案手法は,クラス条件およびテキスト・ツー・イメージ生成タスクにおける競合性能を示し,従来の拡散モデルに代わるスケーラブルで効率的な代替手段を提供する。 この統合されたフレームワークを通じて、DARTはスケーラブルで高品質な画像合成のための新しいベンチマークを設定できる。

Diffusion models have become the dominant approach for visual generation. They are trained by denoising a Markovian process that gradually adds noise to the input. We argue that the Markovian property limits the models ability to fully utilize the generation trajectory, leading to inefficiencies during training and inference. In this paper, we propose DART, a transformer-based model that unifies autoregressive (AR) and diffusion within a non-Markovian framework. DART iteratively denoises image patches spatially and spectrally using an AR model with the same architecture as standard language models. DART does not rely on image quantization, enabling more effective image modeling while maintaining flexibility. Furthermore, DART seamlessly trains with both text and image data in a unified model. Our approach demonstrates competitive performance on class-conditioned and text-to-image generation tasks, offering a scalable, efficient alternative to traditional diffusion models. Through this unified framework, DART sets a new benchmark for scalable, high-quality image synthesis.
翻訳日:2024-10-31 05:05:45 公開日:2024-10-10
# Coset-Guessing 量子ゲームに勝つための最適戦略

Optimal Strategies for Winning Certain Coset-Guessing Quantum Games ( http://arxiv.org/abs/2410.08160v1 )

ライセンス: Link先を確認
Michael Schleppy, Emina Soljanin, Nicolas Swanson, (参考訳) 最近発表されたコセット推測ゲームでは、アリスがボブとチャーリーと対戦し、共同勝利を狙った。 ボブとチャーリーはゲームが始まる前にしかコミュニケーションが取れない。 私たちが考えるゲームは、アリスが3つのパラメータのランダムな選択に基づいて2m量子ビットの量子状態を作成することから始まる。 彼女は最初のm量子ビットをボブに、残りをチャーリーに送る。 Bobは隠れたパラメータの1つ、Charlieを推測し、両方の推測が正しければ勝利するはずである。 以前の研究から、ボブとチャーリーの予想が同時に正しい確率は、m が増加するにつれて指数関数的にゼロとなることが分かっている。 我々はこの確率に厳密な上限を導き、ボブとチャーリーがそれをどのように達成できるかを示す。 CNOT と Hadamard ゲートのみを用いた符号化回路を開発した。 Alice が Bob と Charlie に伝達する量子情報の役割は、個々の(衛生的な)正確な推測率を改善するのではなく、それらの応答を相関させることである。

In a recently introduced coset guessing game, Alice plays against Bob and Charlie, aiming to meet a joint winning condition. Bob and Charlie can only communicate before the game starts to devise a joint strategy. The game we consider begins with Alice preparing a 2m-qubit quantum state based on a random selection of three parameters. She sends the first m qubits to Bob and the rest to Charlie and then reveals to them her choice for one of the parameters. Bob is supposed to guess one of the hidden parameters, Charlie the other, and they win if both guesses are correct. From previous work, we know that the probability of Bob's and Charlie's guesses being simultaneously correct goes to zero exponentially as m increases. We derive a tight upper bound on this probability and show how Bob and Charlie can achieve it. While developing the optimal strategy, we devised an encoding circuit using only CNOT and Hadamard gates, which could be relevant for building efficient CSS-coded systems. We found that the role of quantum information that Alice communicates to Bob and Charlie is to make their responses correlated rather than improve their individual (marginal) correct guessing rates.
翻訳日:2024-10-31 05:05:45 公開日:2024-10-10
# 情報検索と反復読解における要約が読解時間に及ぼす影響

The Effect of Surprisal on Reading Times in Information Seeking and Repeated Reading ( http://arxiv.org/abs/2410.08162v1 )

ライセンス: Link先を確認
Keren Gruteke Klein, Yoav Meiri, Omer Shubi, Yevgeni Berzak, (参考訳) サブプライサルが処理困難に与える影響は、精神言語学における研究の中心的な話題となっている。 本稿では,日々の生活に共通する3つの言語処理体制について,情報探索,繰り返し処理,これら2つの組み合わせの3つの視点追跡データを用いて検討する。 標準的な状態に依存しない前提推定値を用いて,処理時間に対する仮定の線形効果の存在に関する仮定理論の予測が,これらの状況にまで及ぶことが判明した。 しかし,人間に与えられた状況や課題に合致する状況に応じた前提推定を用いると,情報探索においては,通常の前提よりも処理時間の予測能力は向上しないことがわかった。 さらに、コンテクスト固有のコンテキストは、繰り返し読み込む時間を処理するための予測力のない、ゼロの前提推定値に近いものとなる。 これらの知見は、人間と現在の言語モデル間のタスクとメモリの表現のミスアライメントを指摘し、そのようなモデルが認知関連量の推定にどの程度使えるのかを疑問視する。 これらの結果から生じる理論的課題についても論じる。

The effect of surprisal on processing difficulty has been a central topic of investigation in psycholinguistics. Here, we use eyetracking data to examine three language processing regimes that are common in daily life but have not been addressed with respect to this question: information seeking, repeated processing, and the combination of the two. Using standard regime-agnostic surprisal estimates we find that the prediction of surprisal theory regarding the presence of a linear effect of surprisal on processing times, extends to these regimes. However, when using surprisal estimates from regime-specific contexts that match the contexts and tasks given to humans, we find that in information seeking, such estimates do not improve the predictive power of processing times compared to standard surprisals. Further, regime-specific contexts yield near zero surprisal estimates with no predictive power for processing times in repeated reading. These findings point to misalignments of task and memory representations between humans and current language models, and question the extent to which such models can be used for estimating cognitively relevant quantities. We further discuss theoretical challenges posed by these results.
翻訳日:2024-10-31 05:05:45 公開日:2024-10-10
# Agent S: コンピュータを人間のように利用するオープンエージェントフレームワーク

Agent S: An Open Agentic Framework that Uses Computers Like a Human ( http://arxiv.org/abs/2410.08164v1 )

ライセンス: Link先を確認
Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric Wang, (参考訳) 我々は,複雑なマルチステップタスクを自動化して人-コンピュータインタラクションをトランスフォーメーションすることを目的とした,GUI(Graphical User Interface)を介してコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。 Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。 この目的のために、Agent Sは、外部知識検索と内部経験検索から複数のレベルで学習し、効率的なタスク計画とサブタスク実行を容易にする、経験拡張階層計画を導入した。 さらに、マルチモーダル大言語モデル(MLLM)に基づくGUIエージェントの推論と制御能力を向上するために、エージェント・コンピュータ・インタフェース(ACI)を採用している。 OSWorldベンチマークの評価によると、エージェントSは成功率(83.6%の相対的な改善)でベースラインを9.37%上回り、新しい最先端を達成する。 包括的分析は、個々のコンポーネントの有効性を強調し、将来の改善に対する洞察を提供する。 さらに、エージェントSは、新しくリリースされたWindowsAgentArenaベンチマークで、異なるオペレーティングシステムに対して広範な一般化性を示す。 コードはhttps://github.com/simular-ai/Agent-S.comで公開されている。

We present Agent S, an open agentic framework that enables autonomous interaction with computers through a Graphical User Interface (GUI), aimed at transforming human-computer interaction by automating complex, multi-step tasks. Agent S aims to address three key challenges in automating computer tasks: acquiring domain-specific knowledge, planning over long task horizons, and handling dynamic, non-uniform interfaces. To this end, Agent S introduces experience-augmented hierarchical planning, which learns from external knowledge search and internal experience retrieval at multiple levels, facilitating efficient task planning and subtask execution. In addition, it employs an Agent-Computer Interface (ACI) to better elicit the reasoning and control capabilities of GUI agents based on Multimodal Large Language Models (MLLMs). Evaluation on the OSWorld benchmark shows that Agent S outperforms the baseline by 9.37% on success rate (an 83.6% relative improvement) and achieves a new state-of-the-art. Comprehensive analysis highlights the effectiveness of individual components and provides insights for future improvements. Furthermore, Agent S demonstrates broad generalizability to different operating systems on a newly-released WindowsAgentArena benchmark. Code available at https://github.com/simular-ai/Agent-S.
翻訳日:2024-10-31 05:05:45 公開日:2024-10-10
# ビジュアルスクラッチパッド - 視覚におけるグローバル推論の実現

Visual Scratchpads: Enabling Global Reasoning in Vision ( http://arxiv.org/abs/2410.08165v1 )

ライセンス: Link先を確認
Aryo Lotfi, Enrico Fini, Samy Bengio, Moin Nabi, Emmanuel Abbe, (参考訳) 現代のビジョンモデルは、局所的な特徴がターゲットに関する重要な情報を提供するベンチマークで顕著に成功している。 現在、ローカル機能が重要な情報を提供しない、よりグローバルな推論を必要とするタスクの解決への関心が高まっている。 これらのタスクは、1969年にミンスキーとパパートが議論したコネクティビティタスクを思い起こさせるものであり、パーセプトロンモデルの限界を露呈し、最初のAI冬に貢献した。 本稿では,経路発見と迷路を含む4つのグローバルな視覚的ベンチマークを導入することで,こうした課題を再考する。 1)今日の大きな視覚モデルは、初期のモデルの表現力の限界を大きく超えるが、学習効率に苦慮している。(2)この制限を理解するために、「グローバル度」の概念を推進し、(2)画像の変化とグローバルな推論が「視覚的スクラッチパッド」の導入によって実現可能であることを実証した; 言語モデルで使用されるテキストスクラッチパッドやチェーン・オブ・シークレットと同様に、視覚的スクラッチパッドは、グローバルなタスクをより単純なものに分解する。

Modern vision models have achieved remarkable success in benchmarks where local features provide critical information about the target. There is now a growing interest in solving tasks that require more global reasoning, where local features offer no significant information. These tasks are reminiscent of the connectivity tasks discussed by Minsky and Papert in 1969, which exposed the limitations of the perceptron model and contributed to the first AI winter. In this paper, we revisit such tasks by introducing four global visual benchmarks involving path findings and mazes. We show that: (1) although today's large vision models largely surpass the expressivity limitations of the early models, they still struggle with the learning efficiency; we put forward the "globality degree" notion to understand this limitation; (2) we then demonstrate that the picture changes and global reasoning becomes feasible with the introduction of "visual scratchpads"; similarly to the text scratchpads and chain-of-thoughts used in language models, visual scratchpads help break down global tasks into simpler ones; (3) we finally show that some scratchpads are better than others, in particular, "inductive scratchpads" that take steps relying on less information afford better out-of-distribution generalization and succeed for smaller model sizes.
翻訳日:2024-10-31 04:55:58 公開日:2024-10-10
# ZeroComp: 拡散による画像内在から生成するゼロショットオブジェクト

ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion ( http://arxiv.org/abs/2410.08168v1 )

ライセンス: Link先を確認
Zitian Zhang, Frédéric Fortier-Chouinard, Mathieu Garon, Anand Bhattad, Jean-François Lalonde, (参考訳) 実効的なゼロショット3Dオブジェクト合成手法であるZeroCompについて述べる。 そこで本手法では,本手法では,CrutNetを固有画像からの条件付きで利用し,Stable Diffusionモデルと組み合わせてシーン先行を有効レンダリングエンジンとして動作させる。 トレーニング中、ZeroCompは、幾何学、アルベド、マスクシェーディングに基づく固有の画像を使用する。 トレーニングが終わると、仮想3Dオブジェクトをシームレスにシーンに統合し、シェーディングを調整してリアルな合成物を作る。 我々は、高品質な評価データセットを開発し、ZeroCompが定量的および人為的知覚ベンチマークにおいて、明示的な照明推定と生成技術を用いた手法より優れていることを示す。 さらに、ZeroCompは、合成屋内データのみに訓練された場合でも、実物と屋外の画像合成に拡張され、画像合成におけるその効果を示す。

We present ZeroComp, an effective zero-shot 3D object compositing approach that does not require paired composite-scene images during training. Our method leverages ControlNet to condition from intrinsic images and combines it with a Stable Diffusion model to utilize its scene priors, together operating as an effective rendering engine. During training, ZeroComp uses intrinsic images based on geometry, albedo, and masked shading, all without the need for paired images of scenes with and without composite objects. Once trained, it seamlessly integrates virtual 3D objects into scenes, adjusting shading to create realistic composites. We developed a high-quality evaluation dataset and demonstrate that ZeroComp outperforms methods using explicit lighting estimations and generative techniques in quantitative and human perception benchmarks. Additionally, ZeroComp extends to real and outdoor image compositing, even when trained solely on synthetic indoor data, showcasing its effectiveness in image compositing.
翻訳日:2024-10-31 04:55:58 公開日:2024-10-10
# ラグランジアン記述子を用いて周期軌道のマスロフ指数を計算する

Using Lagrangian descriptors to calculate the Maslov index of periodic orbits ( http://arxiv.org/abs/2410.08171v1 )

ライセンス: Link先を確認
J. Montes, F. J. Arranz, F. Borondo, (参考訳) 周期軌道のマスロフ指数は、非可積分系の半古典的量子化において重要な要素であるが、この指数の厳密な計算に繋がるほとんどの既存の手法は精巧で数学的に要求される。 本稿では,ラグランジアン記述子に基づく2自由度システムのための簡単な手法について述べる。 本手法は,2次元結合されたクォート発振器に応用した。

The Maslov index of a periodic orbit is an important piece in the semiclassical quantization of non-integrable systems, while almost all existing techniques that lead to a rigorous calculation of this index are elaborate and mathematically demanding. In this paper, we describe a straightforward technique, for systems with two degrees of freedom, based on the Lagrangian descriptors. Our method is illustrated by applying it to the two-dimensional coupled quartic oscillator.
翻訳日:2024-10-31 04:55:58 公開日:2024-10-10
# 生成ロボットシミュレーションの評価について

On the Evaluation of Generative Robotic Simulations ( http://arxiv.org/abs/2410.08172v1 )

ライセンス: Link先を確認
Feng Chen, Botian Xu, Pu Hua, Peiqi Duan, Yanchao Yang, Yi Ma, Huazhe Xu, (参考訳) 大規模な実世界のデータを取得することの難しさから、ロボットシミュレーションは並列トレーニングやシミュレート・トゥ・リアル・トランスファーに欠かせないものとなり、スケーラブルなシミュレートされたロボットタスクの重要性を強調している。 ファウンデーションモデルは、自律的に実現可能なロボットタスクを自動生成する驚くべき能力を示してきた。 しかし、この新しいパラダイムは、これらの自律的に生成されたタスクを適切に評価することの難しさを浮き彫りにしている。 そこで本研究では,生成シミュレーションに適した総合評価フレームワークを提案する。 フレームワークは評価を,品質,多様性,一般化の3つの中核的な側面に区分する。 単一タスクの品質については,大規模言語モデルと視覚言語モデルを用いて,生成したタスクのリアリズムと生成したトラジェクトリの完全性を評価する。 多様性の観点からは,タスク記述のテキスト類似性と,収集されたタスク軌跡に基づいて訓練された世界モデル損失を用いて,タスクとデータの多様性を計測する。 タスクレベルの一般化のために、複数の生成されたタスクで訓練されたポリシーの目に見えないタスクに対してゼロショットの一般化能力を評価する。 3つの代表的なタスク生成パイプラインで実施した実験は、我々のフレームワークの結果が人間の評価と極めて整合していることを示し、我々のアプローチの有効性と妥当性を確認した。 この結果から、品質と多様性のメトリクスは特定の方法によって達成できるが、すべてのメトリクスにまたがる単一のアプローチは存在しないことが分かる。 さらに,本分析は,現在の研究で直面する低一般化能力の共通課題をさらに強調する。 私たちの匿名ウェブサイトはhttps://sites.google.com/view/evaltasksです。

Due to the difficulty of acquiring extensive real-world data, robot simulation has become crucial for parallel training and sim-to-real transfer, highlighting the importance of scalable simulated robotic tasks. Foundation models have demonstrated impressive capacities in autonomously generating feasible robotic tasks. However, this new paradigm underscores the challenge of adequately evaluating these autonomously generated tasks. To address this, we propose a comprehensive evaluation framework tailored to generative simulations. Our framework segments evaluation into three core aspects: quality, diversity, and generalization. For single-task quality, we evaluate the realism of the generated task and the completeness of the generated trajectories using large language models and vision-language models. In terms of diversity, we measure both task and data diversity through text similarity of task descriptions and world model loss trained on collected task trajectories. For task-level generalization, we assess the zero-shot generalization ability on unseen tasks of a policy trained with multiple generated tasks. Experiments conducted on three representative task generation pipelines demonstrate that the results from our framework are highly consistent with human evaluations, confirming the feasibility and validity of our approach. The findings reveal that while metrics of quality and diversity can be achieved through certain methods, no single approach excels across all metrics, suggesting a need for greater focus on balancing these different metrics. Additionally, our analysis further highlights the common challenge of low generalization capability faced by current works. Our anonymous website: https://sites.google.com/view/evaltasks.
翻訳日:2024-10-31 04:55:58 公開日:2024-10-10
# Sample then Identify: マルチモーダル大規模言語モデルにおけるリスク管理とアセスメントのための一般的なフレームワーク

Sample then Identify: A General Framework for Risk Control and Assessment in Multimodal Large Language Models ( http://arxiv.org/abs/2410.08174v1 )

ライセンス: Link先を確認
Qingni Wang, Tiantian Geng, Zhiyuan Wang, Teng Wang, Bo Fu, Feng Zheng, (参考訳) MLLM(Multimodal Large Language Models)は様々なタスクにおいて有望な進歩を見せている。 先行研究は、統計的保証付き予測セットを構築するために、言語モデルにSCP(Split Conformal Prediction)を適用した。 しかしながら、これらの手法は一般的に内部モデルロジットに依存するか、複数選択の設定に制限されるため、動的でオープンな環境において、一般化性と適応性が損なわれる。 本稿では,リスク管理とアセスメントのための2段階のフレームワークであるTRONを紹介し,オープンエンドシナリオとクローズドエンドシナリオの両方でサンプリングをサポートするMLLMに適用する。 TRON は,(1) 最小値のサンプル応答集合に対する新しい共形スコア,(2) 自己整合性理論に基づく高品質応答の同定のための非整合スコア,および2つの特定のリスクレベルによる誤差率の制御である。 さらに,オープンエンドコンテキストにおける予測セットのセマンティック冗長性を初めて検討し,平均セットサイズに基づくMLLMの有望な評価基準を導出した。 8つのMLLMを用いたビデオ質問応答(Video QA)データセットの総合的な実験により、TRONは2つのユーザ特定リスクレベルに制限された所望のエラー率を達成することが示された。 さらに、重複した予測セットは適応性を維持しつつ、異なるリスクレベル下でのリスク評価に対してより効率的で安定である。

Multimodal Large Language Models (MLLMs) exhibit promising advancements across various tasks, yet they still encounter significant trustworthiness issues. Prior studies apply Split Conformal Prediction (SCP) in language modeling to construct prediction sets with statistical guarantees. However, these methods typically rely on internal model logits or are restricted to multiple-choice settings, which hampers their generalizability and adaptability in dynamic, open-ended environments. In this paper, we introduce TRON, a two-step framework for risk control and assessment, applicable to any MLLM that supports sampling in both open-ended and closed-ended scenarios. TRON comprises two main components: (1) a novel conformal score to sample response sets of minimum size, and (2) a nonconformity score to identify high-quality responses based on self-consistency theory, controlling the error rates by two specific risk levels. Furthermore, we investigate semantic redundancy in prediction sets within open-ended contexts for the first time, leading to a promising evaluation metric for MLLMs based on average set size. Our comprehensive experiments across four Video Question-Answering (VideoQA) datasets utilizing eight MLLMs show that TRON achieves desired error rates bounded by two user-specified risk levels. Additionally, deduplicated prediction sets maintain adaptiveness while being more efficient and stable for risk assessment under different risk levels.
翻訳日:2024-10-31 04:55:58 公開日:2024-10-10
# TANet:オールインワンの逆気象画像復元のためのトリプルト注意ネットワーク

TANet: Triplet Attention Network for All-In-One Adverse Weather Image Restoration ( http://arxiv.org/abs/2410.08177v1 )

ライセンス: Link先を確認
Hsing-Hua Wang, Fu-Jen Tsai, Yen-Yu Lin, Chia-Wen Lin, (参考訳) 逆気象画像の復元は、悪天候によるヘイズ、雨、雪などの不要な劣化物を除去することを目的としている。 既存手法は, シングルウェザー条件に対処する際, 顕著な結果が得られる。 しかし、予測不可能な気象条件に遭遇する際には、現実のシナリオでしばしば発生する課題に直面している。 異なる気象条件は異なる劣化パターンを示すが、分解パターン、色歪み、大気粒子の散乱によるコントラスト減衰など、非常に関連性が高く相補的な共通の特徴を共有している。 そこで我々は,複数の気象条件にまたがる共通知識を活用して,画像の統一的な復元に着目する。 本稿では,オールインワンの悪天候画像の復元を効果的かつ効果的に行うためのトリプルト注意ネットワーク(TANet)を提案する。 TANetは3種類の注意機構を組み込んだトリプルト注意ブロック(TAB)で構成されており、非一様劣化パターンによる閉塞に対処するための局所的焦点方向注意(LPA)とGSA(Global Strip-wise Attention)、大気現象による色歪みとコントラスト減衰に対処するためのグローバル分布注意(GDA)である。 異なる気象条件で共有される共通知識を活用することで、TANetは複数の気象条件を統一的に対処することに成功した。 実験結果から, TANetはオールインワンの悪天候画像の復元において, 最先端の性能を効果的かつ効果的に達成できることが示唆された。 ソースコードはhttps://github.com/xhuachris/TANet-ACCV-2024で公開されている。

Adverse weather image restoration aims to remove unwanted degraded artifacts, such as haze, rain, and snow, caused by adverse weather conditions. Existing methods achieve remarkable results for addressing single-weather conditions. However, they face challenges when encountering unpredictable weather conditions, which often happen in real-world scenarios. Although different weather conditions exhibit different degradation patterns, they share common characteristics that are highly related and complementary, such as occlusions caused by degradation patterns, color distortion, and contrast attenuation due to the scattering of atmospheric particles. Therefore, we focus on leveraging common knowledge across multiple weather conditions to restore images in a unified manner. In this paper, we propose a Triplet Attention Network (TANet) to efficiently and effectively address all-in-one adverse weather image restoration. TANet consists of Triplet Attention Block (TAB) that incorporates three types of attention mechanisms: Local Pixel-wise Attention (LPA) and Global Strip-wise Attention (GSA) to address occlusions caused by non-uniform degradation patterns, and Global Distribution Attention (GDA) to address color distortion and contrast attenuation caused by atmospheric phenomena. By leveraging common knowledge shared across different weather conditions, TANet successfully addresses multiple weather conditions in a unified manner. Experimental results show that TANet efficiently and effectively achieves state-of-the-art performance in all-in-one adverse weather image restoration. The source code is available at https://github.com/xhuachris/TANet-ACCV-2024.
翻訳日:2024-10-31 04:55:58 公開日:2024-10-10
# RGM:単一画像からの3D-GS生成モデルによる高忠実度3Dカーアセットの再構築

RGM: Reconstructing High-fidelity 3D Car Assets with Relightable 3D-GS Generative Model from a Single Image ( http://arxiv.org/abs/2410.08181v1 )

ライセンス: Link先を確認
Xiaoxue Chen, Jv Zheng, Hao Huang, Haoran Xu, Weihao Gu, Kangliang Chen, He xiang, Huan-ang Gao, Hao Zhao, Guyue Zhou, Yaqin Zhang, (参考訳) 高品質な3Dカーアセットの生成は、ビデオゲーム、自動運転、バーチャルリアリティーなど、さまざまなアプリケーションに不可欠である。 3Dオブジェクトの表現としてNeRFや3D-GSを利用した現在の3D生成法では、固定照明下でランベルティアンオブジェクトを生成し、物質と大域照明の分離モデリングを欠いている。 その結果、生成した資産は、様々な照明条件下でのリライトには適せず、下流タスクにおける適用性を制限している。 そこで本研究では, 車両の形状, テクスチャ, 材料特性を単一入力画像から迅速かつ高精度に再現し, 3次元自動車資産の創出を自動化する新しい3Dオブジェクト生成フレームワークを提案する。 我々のアプローチは、1,000以上の高精度な3D車両モデルからなる大規模な合成車データセットの導入から始まります。 BRDFパラメータと統合した3次元ガウスプリミティブと大域照明を用いて3次元オブジェクトを表現する。 この表現に基づいて,映像を入力として取り出すフィードフォワードモデルを導入し,光沢のある3次元ガウスと大域照明パラメータの両方を出力する。 実験により, 本手法は, 異なる照明の路面にシームレスに統合可能な光リアルな3Dカーアセットを製作し, 産業用途に有効であることを示す。

The generation of high-quality 3D car assets is essential for various applications, including video games, autonomous driving, and virtual reality. Current 3D generation methods utilizing NeRF or 3D-GS as representations for 3D objects, generate a Lambertian object under fixed lighting and lack separated modelings for material and global illumination. As a result, the generated assets are unsuitable for relighting under varying lighting conditions, limiting their applicability in downstream tasks. To address this challenge, we propose a novel relightable 3D object generative framework that automates the creation of 3D car assets, enabling the swift and accurate reconstruction of a vehicle's geometry, texture, and material properties from a single input image. Our approach begins with introducing a large-scale synthetic car dataset comprising over 1,000 high-precision 3D vehicle models. We represent 3D objects using global illumination and relightable 3D Gaussian primitives integrating with BRDF parameters. Building on this representation, we introduce a feed-forward model that takes images as input and outputs both relightable 3D Gaussians and global illumination parameters. Experimental results demonstrate that our method produces photorealistic 3D car assets that can be seamlessly integrated into road scenes with different illuminations, which offers substantial practical benefits for industrial applications.
翻訳日:2024-10-31 04:55:58 公開日:2024-10-10
# MRAG-Bench:検索拡張マルチモーダルモデルの視覚中心評価

MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models ( http://arxiv.org/abs/2410.08182v1 )

ライセンス: Link先を確認
Wenbo Hu, Jia-Chen Gu, Zi-Yi Dou, Mohsen Fayyaz, Pan Lu, Kai-Wei Chang, Nanyun Peng, (参考訳) 既存のマルチモーダル検索ベンチマークは主に、モデルが質問応答のために外部のテキスト知識を検索し活用できるかどうかを評価することに焦点を当てている。 しかし、視覚的な情報を取得することは、テキストデータよりも有益なか、アクセスしやすいシナリオがある。 本稿では,マルチモーダル検索拡張生成ベンチマークであるMRAG-Benchを紹介し,視覚的に強化された知識がテキスト知識よりも優れているシナリオを系統的に同定し分類する。 MRAG-Benchは、9つの異なるシナリオにまたがる16,130の画像と1,353の人間による注釈付き多重選択質問で構成されている。 MRAG-Benchでは、10個のオープンソースと4つのプロプライエタリな大規模視覚言語モデル(LVLM)の評価を行う。 以上の結果から, MRAG-Benchが視覚中心であることが確認できた。 さらにMRAG-Benchを用いて広範囲な解析を行い,LVLMの検索に有用であることを示す。 特に、トップパフォーマンスモデルであるGPT-4oは、抽出された知識を効果的に活用する上での課題に直面しており、人間の被験者が観察した33.16%の改善とは対照的に、5.82%の改善しか達成していない。 これらの知見は,LVLMの視覚的知識をより効果的に活用する能力を高めるために,MRAG-Benchの重要性を強調した。

Existing multimodal retrieval benchmarks primarily focus on evaluating whether models can retrieve and utilize external textual knowledge for question answering. However, there are scenarios where retrieving visual information is either more beneficial or easier to access than textual data. In this paper, we introduce a multimodal retrieval-augmented generation benchmark, MRAG-Bench, in which we systematically identify and categorize scenarios where visually augmented knowledge is better than textual knowledge, for instance, more images from varying viewpoints. MRAG-Bench consists of 16,130 images and 1,353 human-annotated multiple-choice questions across 9 distinct scenarios. With MRAG-Bench, we conduct an evaluation of 10 open-source and 4 proprietary large vision-language models (LVLMs). Our results show that all LVLMs exhibit greater improvements when augmented with images compared to textual knowledge, confirming that MRAG-Bench is vision-centric. Additionally, we conduct extensive analysis with MRAG-Bench, which offers valuable insights into retrieval-augmented LVLMs. Notably, the top-performing model, GPT-4o, faces challenges in effectively leveraging retrieved knowledge, achieving only a 5.82% improvement with ground-truth information, in contrast to a 33.16% improvement observed in human participants. These findings highlight the importance of MRAG-Bench in encouraging the community to enhance LVLMs' ability to utilize retrieved visual knowledge more effectively.
翻訳日:2024-10-31 04:55:58 公開日:2024-10-10
# 拡散変換器のスケーリング法則

Scaling Laws For Diffusion Transformers ( http://arxiv.org/abs/2410.08184v1 )

ライセンス: Link先を確認
Zhengyang Liang, Hao He, Ceyuan Yang, Bo Dai, (参考訳) 拡散変換器 (DiT) は, コンテンツレクリエーション, 画像, ビデオ生成において, 魅力的な合成とスケーリング特性をすでに達成している。 しかし、DiTのスケーリング法則は検討されていないため、通常、特定の計算予算が与えられた場合、最適なモデルサイズとデータ要求に関する正確な予測を提供する。 したがって、1e17から6e18のFLOPを含む幅広い計算予算にわたる実験を行い、初めてDiTにおけるスケーリング法則の存在を確認する。 具体的には、事前訓練されたDiTの損失は、関連する計算との関係にも従う。 スケーリング法則に基づき、1Bパラメータと1e21 FLOPの計算予算が与えられたモデルから、最適なモデルサイズと必要なデータを決定するだけでなく、テキストから画像への生成損失を正確に予測できる。 さらに、事前学習損失の傾向は、計算から合成品質へのマッピングを補完する様々なデータセットでさえも生成性能(例えば、FID)と一致していることを示し、モデルの性能とデータ品質を低コストで評価する予測可能なベンチマークを提供する。

Diffusion transformers (DiT) have already achieved appealing synthesis and scaling properties in content recreation, e.g., image and video generation. However, scaling laws of DiT are less explored, which usually offer precise predictions regarding optimal model size and data requirements given a specific compute budget. Therefore, experiments across a broad range of compute budgets, from 1e17 to 6e18 FLOPs are conducted to confirm the existence of scaling laws in DiT for the first time. Concretely, the loss of pretraining DiT also follows a power-law relationship with the involved compute. Based on the scaling law, we can not only determine the optimal model size and required data but also accurately predict the text-to-image generation loss given a model with 1B parameters and a compute budget of 1e21 FLOPs. Additionally, we also demonstrate that the trend of pre-training loss matches the generation performances (e.g., FID), even across various datasets, which complements the mapping from compute to synthesis quality and thus provides a predictable benchmark that assesses model performance and data quality at a reduced cost.
翻訳日:2024-10-31 04:55:58 公開日:2024-10-10
# DifFrelight: 拡散に基づく顔のパフォーマンスのリライト

DifFRelight: Diffusion-Based Facial Performance Relighting ( http://arxiv.org/abs/2410.08188v1 )

ライセンス: Link先を確認
Mingming He, Pascal Clausen, Ahmet Levent Taşel, Li Ma, Oliver Pilarski, Wenqi Xian, Laszlo Rikker, Xueming Yu, Ryan Burgert, Ning Yu, Paul Debevec, (参考訳) 拡散に基づく画像から画像への変換を用いた,自由視点顔の表情のリライティングのための新しいフレームワークを提案する。 フラットライトやワンライト・アット・ア・タイム(OLAT)のシナリオを含む様々な照明条件下で捉えた多様な表情を含む被写体固有のデータセットを利用して、正確な照明制御のための拡散モデルを訓練し、フラットライト入力からの高忠実度顔画像を可能にする。 我々のフレームワークは、フラットライトキャプチャとランダムノイズの空間的整合条件と、事前学習された安定拡散モデルからの事前知識を利用して、グローバル制御のための統合照明情報を含む。 このモデルは、一貫した平坦な環境下で捕捉された動的顔性能に適用され、スケーラブルな動的3Dガウススメッティング法を用いて新規ビュー合成のために再構成され、信頼性の高い結果の品質と整合性を維持する。 また,新しい領域の照明表現を指向性照明と統合し,光サイズや方向の調整を可能にする統一照明制御を導入する。 また,複数方向光を用いた高ダイナミックレンジイメージング(HDRI)合成により,複雑な照明条件下での動的シーケンス生成が可能となる。 本評価では,肌色や毛髪などの詳細な特徴を保ちながら,正確な照明制御と様々な表情の一般化を行う上で,モデルの有効性を実証する。 このモデルは、眼の反射、地表面散乱、自己シェードイング、透過性といった複雑な照明効果を正確に再現し、我々の枠組みの中で光リアリズムを前進させる。

We present a novel framework for free-viewpoint facial performance relighting using diffusion-based image-to-image translation. Leveraging a subject-specific dataset containing diverse facial expressions captured under various lighting conditions, including flat-lit and one-light-at-a-time (OLAT) scenarios, we train a diffusion model for precise lighting control, enabling high-fidelity relit facial images from flat-lit inputs. Our framework includes spatially-aligned conditioning of flat-lit captures and random noise, along with integrated lighting information for global control, utilizing prior knowledge from the pre-trained Stable Diffusion model. This model is then applied to dynamic facial performances captured in a consistent flat-lit environment and reconstructed for novel-view synthesis using a scalable dynamic 3D Gaussian Splatting method to maintain quality and consistency in the relit results. In addition, we introduce unified lighting control by integrating a novel area lighting representation with directional lighting, allowing for joint adjustments in light size and direction. We also enable high dynamic range imaging (HDRI) composition using multiple directional lights to produce dynamic sequences under complex lighting conditions. Our evaluations demonstrate the models efficiency in achieving precise lighting control and generalizing across various facial expressions while preserving detailed features such as skintexture andhair. The model accurately reproduces complex lighting effects like eye reflections, subsurface scattering, self-shadowing, and translucency, advancing photorealism within our framework.
翻訳日:2024-10-31 04:55:58 公開日:2024-10-10
# SG-Nav: LLMベースのゼロショットオブジェクトナビゲーションのためのオンライン3次元Scene Graph Prompting

SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation ( http://arxiv.org/abs/2410.08189v1 )

ライセンス: Link先を確認
Hang Yin, Xiuwei Xu, Zhenyu Wu, Jie Zhou, Jiwen Lu, (参考訳) 本稿では,ゼロショットオブジェクトナビゲーションのための新しいフレームワークを提案する。 既存のゼロショットオブジェクトナビゲーション手法は、空間的に閉じたオブジェクトのテキストでLCMを誘導する。 環境情報をよりよく保存し, LLMの推論能力を完全に活用するために, 3次元シーングラフを用いて観察されたシーンを表現することを提案する。 シーングラフは、LLMに親しみやすい構造を持つオブジェクト、グループ、部屋間の関係を符号化し、LLMがノードとエッジをトラバースすることで、シーンコンテキストに応じてゴール位置を推論する階層的なチェーン・オブ・シークレット・プロンプトを設計する。 さらに,シーングラフ表現の利点として,認識誤りを補正する機能を備えたオブジェクトナビゲーションフレームワークを実現するための再認識機構を設計する。 我々は,MP3D,HM3D,RoboTHOR環境において,SG-Navが従来のゼロショット法を10%以上のSRで上回り,決定プロセスは説明可能である。 我々の知る限り、SG-Navは、挑戦的なMP3Dベンチマークにおいて、教師付きオブジェクトナビゲーション手法よりも高い性能を達成する最初のゼロショット方式である。

In this paper, we propose a new framework for zero-shot object navigation. Existing zero-shot object navigation methods prompt LLM with the text of spatially closed objects, which lacks enough scene context for in-depth reasoning. To better preserve the information of environment and fully exploit the reasoning ability of LLM, we propose to represent the observed scene with 3D scene graph. The scene graph encodes the relationships between objects, groups and rooms with a LLM-friendly structure, for which we design a hierarchical chain-of-thought prompt to help LLM reason the goal location according to scene context by traversing the nodes and edges. Moreover, benefit from the scene graph representation, we further design a re-perception mechanism to empower the object navigation framework with the ability to correct perception error. We conduct extensive experiments on MP3D, HM3D and RoboTHOR environments, where SG-Nav surpasses previous state-of-the-art zero-shot methods by more than 10% SR on all benchmarks, while the decision process is explainable. To the best of our knowledge, SG-Nav is the first zero-shot method that achieves even higher performance than supervised object navigation methods on the challenging MP3D benchmark.
翻訳日:2024-10-31 04:55:58 公開日:2024-10-10
# ポゾン・スプラット:3Dガウシアン・スプラッティングの計算コスト攻撃

Poison-splat: Computation Cost Attack on 3D Gaussian Splatting ( http://arxiv.org/abs/2410.08190v1 )

ライセンス: Link先を確認
Jiahao Lu, Yifan Zhang, Qiuhong Shen, Xinchao Wang, Shuicheng Yan, (参考訳) 3Dガウススプラッティング(3DGS)は、その性能と効率性で知られ、支配的な3D表現となり、多くの3D視覚タスクに進歩をもたらした。 しかし,本研究では,3DGSで見過ごされてきた重大なセキュリティ上の脆弱性を明らかにし,入力データを悪用することにより,3DGSのトレーニングコストを悪用する可能性がある。 本稿では,Poison-splat と呼ばれる攻撃面の開発により,敵が入力画像に毒を塗布して3DGS トレーニングに必要な計算メモリと時間を大幅に増加させ,アルゴリズムを最悪の計算複雑性へと押し上げる新たな攻撃面を明らかにする。 極端な場合、攻撃はすべてのアロケート可能なメモリを消費し、サーバを障害するDoS(Denial-of-Service)が発生し、現実世界の3DGSサービスベンダーに実質的なダメージを与える。 このような計算コスト攻撃は、アタック対象近似、プロキシモデルレンダリング、任意の制約付き最適化の3つの戦略によって、二段階最適化問題に対処することで達成される。 これらの戦略は、我々の攻撃の有効性を確保するだけでなく、簡単な防御策で防御することが困難になる。 この新たな攻撃面の暴露が、3DGSシステムの重大な脆弱性に注意を向けることを願っている。

3D Gaussian splatting (3DGS), known for its groundbreaking performance and efficiency, has become a dominant 3D representation and brought progress to many 3D vision tasks. However, in this work, we reveal a significant security vulnerability that has been largely overlooked in 3DGS: the computation cost of training 3DGS could be maliciously tampered by poisoning the input data. By developing an attack named Poison-splat, we reveal a novel attack surface where the adversary can poison the input images to drastically increase the computation memory and time needed for 3DGS training, pushing the algorithm towards its worst computation complexity. In extreme cases, the attack can even consume all allocable memory, leading to a Denial-of-Service (DoS) that disrupts servers, resulting in practical damages to real-world 3DGS service vendors. Such a computation cost attack is achieved by addressing a bi-level optimization problem through three tailored strategies: attack objective approximation, proxy model rendering, and optional constrained optimization. These strategies not only ensure the effectiveness of our attack but also make it difficult to defend with simple defensive measures. We hope the revelation of this novel attack surface can spark attention to this crucial yet overlooked vulnerability of 3DGS systems.
翻訳日:2024-10-31 04:55:58 公開日:2024-10-10
# フォトニック非アベリアブレイドモノポール

Photonic Non-Abelian Braid Monopole ( http://arxiv.org/abs/2410.08191v1 )

ライセンス: Link先を確認
Kunkun Wang, J. Lukas K. König, Kang Yang, Lei Xiao, Wei Yi, Emil J. Bergholtz, Peng Xue, (参考訳) モノポールとブレイドは、光と物質の基本理論のエキゾチックだがエキゾチックな側面である。 格子系において、バンド構造退化のモノポールは、閉エルミート系や開非エルミート系にも普遍的に適用されるように見えるよく確立されたノーゴー(二重化)定理(英語版)(no-go (doubling) theorem) の対象となる。 しかし、非エルミート多バンド系の非アーベルブレイド位相は、これらの制約に顕著な抜け穴を与える。 ここでは、このループホールを利用し、実験的に初めて、非エルミート三辺系における単極縮退を、単一の三階例外点の形で実装する。 モノポール縮退の根底にある複雑なブレイディングトポロジーと非アベリア核融合規則を明確に示す。 実験は単一光子干渉計の新たな設計を用いて行われ、広く調整可能なパラメータを持つ非エルミート多バンド系の固有状態とスペクトル分解能を実現する。 このように、最先端の実験、基礎理論、ブレイドのような日常的な概念の統合は、非エルミート的な設定に特有の高度にエキゾチックな非アベリア位相への道を開く。

Monopoles and braids are exotic but elusive aspects of fundamental theories of light and matter. In lattice systems, monopoles of band-structure degeneracies are subject to well-established no-go (doubling) theorems that appear to universally apply in closed Hermitian systems and open non-Hermitian systems alike. However, the non-Abelian braid topology of non-Hermitian multi-band systems provides a remarkable loophole to these constraints. Here we make use of this loophole, and experimentally implement, for the first time, a monopole degeneracy in a non-Hermitian three-band system in the form of a single third-order exceptional point. We explicitly demonstrate the intricate braiding topology and the non-Abelian fusion rules underlying the monopole degeneracy. The experiment is carried out using a new design of single-photon interferometry, enabling eigenstate and spectral resolutions for non-Hermitian multi-band systems with widely tunable parameters. Thus, the union of state-of-the-art experiments, fundamental theory, and everyday concepts such as braids paves the way toward the highly exotic non-Abelian topology unique to non-Hermitian settings.
翻訳日:2024-10-31 04:55:58 公開日:2024-10-10
# HybridBooth: 効率的な主観駆動生成のためのハイブリッドプロンプトインバージョン

HybridBooth: Hybrid Prompt Inversion for Efficient Subject-Driven Generation ( http://arxiv.org/abs/2410.08192v1 )

ライセンス: Link先を確認
Shanyan Guan, Yanhao Ge, Ying Tai, Jian Yang, Wei Li, Mingyu You, (参考訳) 近年のテキスト・画像拡散モデルの進歩は、テキスト・プロンプトによる顕著な創造性を示しているが、対象駆動生成として知られる特定の主題に基づいてパーソナライズされたインスタンスを生成することは、依然として困難である。 この問題に対処するため,HybridBoothという新しいハイブリッドフレームワークを提案する。 HybridBoothは、微調整エンコーダを使用した堅牢な初期単語埋め込みを生成するWord Embedding Probeと、キーパラメータを最適化してエンコーダを特定の被写体画像に適用するWord Embedding Refinementの2つの段階で動作する。 このアプローチにより、モデルの一般化能力を維持しながら、単一の画像からでも視覚概念をテキスト埋め込みに効果的かつ高速に変換することができる。

Recent advancements in text-to-image diffusion models have shown remarkable creative capabilities with textual prompts, but generating personalized instances based on specific subjects, known as subject-driven generation, remains challenging. To tackle this issue, we present a new hybrid framework called HybridBooth, which merges the benefits of optimization-based and direct-regression methods. HybridBooth operates in two stages: the Word Embedding Probe, which generates a robust initial word embedding using a fine-tuned encoder, and the Word Embedding Refinement, which further adapts the encoder to specific subject images by optimizing key parameters. This approach allows for effective and fast inversion of visual concepts into textual embedding, even from a single image, while maintaining the model's generalization capabilities.
翻訳日:2024-10-31 04:55:58 公開日:2024-10-10
# GenARM:テスト時間アライメントのための自己回帰リワードモデルを備えたリワードガイド生成

GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment ( http://arxiv.org/abs/2410.08193v1 )

ライセンス: Link先を確認
Yuancheng Xu, Udari Madhushani Sehwag, Alec Koppel, Sicheng Zhu, Bang An, Furong Huang, Sumitra Ganesh, (参考訳) 大きな言語モデル(LLM)は印象的な能力を示すが、人間の好みに注意深く対応する必要がある。 従来のトレーニング時間法では、人間の嗜好データセットを使用してLLMを微調整するが、トレーニングコストが大きくなり、多様なユーザの嗜好を扱うために繰り返しトレーニングが必要となる。 テストタイムアライメント手法は、報酬モデル(RM)を使用して凍結したLLMを再トレーニングせずにガイドすることでこの問題に対処する。 しかし、既存のテストタイムアプローチは、完全な応答を評価するために設計された軌道レベルのRMに依存しており、部分応答からの次点報酬の計算を必要とする自動回帰テキスト生成には適さない。 この問題を解決するために、我々は、自動回帰リワードモデルを活用するテスト時アライメントアプローチであるGenARMを紹介した。 理論的には、このパラメトリゼーションは、KL正規化強化学習フレームワーク内の従来のRMで達成可能な任意の分布に対して、凍結LDMを確実に誘導できることを実証する。 実験の結果、GenARMはテスト時のアライメントベースラインよりも大幅に優れており、トレーニング時のメソッドのパフォーマンスと一致していることがわかった。 さらに、GenARMは、より大きなモデルを訓練するコストを伴わずに、より大きなLLMをより小さなRMと整列させることにより、効率的な弱めのガイダンスを可能にする。 さらに、GenARMは多目的アライメントをサポートし、好みのディメンションとさまざまなユーザの好みに合わせてリアルタイムのトレードオフを可能にする。

Large Language Models (LLMs) exhibit impressive capabilities but require careful alignment with human preferences. Traditional training-time methods finetune LLMs using human preference datasets but incur significant training costs and require repeated training to handle diverse user preferences. Test-time alignment methods address this by using reward models (RMs) to guide frozen LLMs without retraining. However, existing test-time approaches rely on trajectory-level RMs which are designed to evaluate complete responses, making them unsuitable for autoregressive text generation that requires computing next-token rewards from partial responses. To address this, we introduce GenARM, a test-time alignment approach that leverages the Autoregressive Reward Model--a novel reward parametrization designed to predict next-token rewards for efficient and effective autoregressive generation. Theoretically, we demonstrate that this parametrization can provably guide frozen LLMs toward any distribution achievable by traditional RMs within the KL-regularized reinforcement learning framework. Experimental results show that GenARM significantly outperforms prior test-time alignment baselines and matches the performance of training-time methods. Additionally, GenARM enables efficient weak-to-strong guidance, aligning larger LLMs with smaller RMs without the high costs of training larger models. Furthermore, GenARM supports multi-objective alignment, allowing real-time trade-offs between preference dimensions and catering to diverse user preferences without retraining.
翻訳日:2024-10-31 04:55:58 公開日:2024-10-10
# 特徴は運命である:高次元回帰における伝達学習の理論

Features are fate: a theory of transfer learning in high-dimensional regression ( http://arxiv.org/abs/2410.08194v1 )

ライセンス: Link先を確認
Javan Tahir, Surya Ganguli, Grant M. Rotskoff, (参考訳) 大規模な事前学習型ニューラルネットワークの出現に伴い、データ制限された下流タスクにそのような“境界”モデルを適用する方法が求められている。 微調整, 選好最適化, 伝達学習は, 対象タスクが元のタスクと密接に類似している場合に, すべてうまく利用されてきたが, 「タスク類似性」の正確な理論的理解はいまだに不足している。 従来の知恵では、$\phi$-divergencesや積分確率測度のようなソースとターゲットの分布の類似性の単純な測度は、転送の成功を直接予測できるが、一般的には、これはそうではないという驚くべき事実を証明している。 そこで我々は,移動学習における特徴中心の視点を導入し,対象タスクが事前学習モデルの特徴空間に適切に表現されている場合,移動学習はゼロから学習を上回ることを示す理論的結果を確立した。 我々は,移動可能性位相図を対象のデータセットサイズと特徴空間の重なりの関数として解析的に特徴付けることができる,移動性学習の最小モデルとして,深層線形ネットワークを考察した。 本モデルでは,ソースとターゲットタスクの重なり合う特徴空間が十分に強い場合,特に低データ限界において,線形転送と微調整の両方で性能が向上することを示す。 これらの結果は, 深層線形ネットワークにおける特徴学習力学の新たな理解の上に構築され, 線形の場合の厳密な結果を非線形ネットワークにも適用できることを数値的に示す。

With the emergence of large-scale pre-trained neural networks, methods to adapt such "foundation" models to data-limited downstream tasks have become a necessity. Fine-tuning, preference optimization, and transfer learning have all been successfully employed for these purposes when the target task closely resembles the source task, but a precise theoretical understanding of "task similarity" is still lacking. While conventional wisdom suggests that simple measures of similarity between source and target distributions, such as $\phi$-divergences or integral probability metrics, can directly predict the success of transfer, we prove the surprising fact that, in general, this is not the case. We adopt, instead, a feature-centric viewpoint on transfer learning and establish a number of theoretical results that demonstrate that when the target task is well represented by the feature space of the pre-trained model, transfer learning outperforms training from scratch. We study deep linear networks as a minimal model of transfer learning in which we can analytically characterize the transferability phase diagram as a function of the target dataset size and the feature space overlap. For this model, we establish rigorously that when the feature space overlap between the source and target tasks is sufficiently strong, both linear transfer and fine-tuning improve performance, especially in the low data limit. These results build on an emerging understanding of feature learning dynamics in deep linear networks, and we demonstrate numerically that the rigorous results we derive for the linear case also apply to nonlinear networks.
翻訳日:2024-10-31 04:46:03 公開日:2024-10-10
# MathCoder2: モデル変換された数学的コード上での継続事前学習によるより良い数学的推論

MathCoder2: Better Math Reasoning from Continued Pretraining on Model-translated Mathematical Code ( http://arxiv.org/abs/2410.08196v1 )

ライセンス: Link先を確認
Zimu Lu, Aojun Zhou, Ke Wang, Houxing Ren, Weikang Shi, Junting Pan, Mingjie Zhan, Hongsheng Li, (参考訳) コードは、その精度と精度から、大きな言語モデルの数学的推論能力を高めるのに有効であることが示されている。 数学の事前訓練を含む以前の研究には、数学の推論に直接焦点をあてるのではなく、工学、機械学習、信号処理、モジュールテストなどの分野向けに主に設計された数学関連のパッケージを利用するコードが含まれている。 本稿では, 継続事前学習のための推論ステップを伴って, 数学的コードを生成する新しい手法を提案する。 提案手法は,数学関連Webデータ,数学的パッケージを用いたコード,数学教科書,合成データを組み込んだ高品質な数学継続事前学習データセットの構築から始まる。 次に、LaTeX式、式に必要な条件、および以前に収集したデータセットから式の結果を抽出し、推論ステップを構築する。 この抽出情報に基づいて、対応するコードを生成し、数学的推論過程を正確に把握する。 生成されたコードを推論ステップ毎に適用すると、ペアの自然言語推論ステップとその対応するコードからなるデータが得られる。 このデータと元のデータセットを組み合わせると、19.2Bの高性能な数学的事前学習コーパスが得られ、MathCode-Pileと命名する。 このコーパスでいくつかの人気のあるベースモデルをトレーニングすると、数学的能力が大幅に向上し、MathCoder2モデルのファミリーが作られる。 データ処理とトレーニングのコードはすべてオープンソースで、完全な透明性とデータ収集とトレーニングパイプライン全体の再現性を確保しています。 コードはhttps://github.com/mathllm/MathCoder2で公開されている。

Code has been shown to be effective in enhancing the mathematical reasoning abilities of large language models due to its precision and accuracy. Previous works involving continued mathematical pretraining often include code that utilizes math-related packages, which are primarily designed for fields such as engineering, machine learning, signal processing, or module testing, rather than being directly focused on mathematical reasoning. In this paper, we introduce a novel method for generating mathematical code accompanied with corresponding reasoning steps for continued pretraining. Our approach begins with the construction of a high-quality mathematical continued pretraining dataset by incorporating math-related web data, code using mathematical packages, math textbooks, and synthetic data. Next, we construct reasoning steps by extracting LaTeX expressions, the conditions needed for the expressions, and the results of the expressions from the previously collected dataset. Based on this extracted information, we generate corresponding code to accurately capture the mathematical reasoning process. Appending the generated code to each reasoning step results in data consisting of paired natural language reasoning steps and their corresponding code. Combining this data with the original dataset results in a 19.2B-token high-performing mathematical pretraining corpus, which we name MathCode-Pile. Training several popular base models with this corpus significantly improves their mathematical abilities, leading to the creation of the MathCoder2 family of models. All of our data processing and training code is open-sourced, ensuring full transparency and easy reproducibility of the entire data collection and training pipeline. The code is released at https://github.com/mathllm/MathCoder2 .
翻訳日:2024-10-31 04:46:03 公開日:2024-10-10
# 探索から熟達へ - 自己駆動インタラクションによるLLMの実践からマスタツールへ

From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions ( http://arxiv.org/abs/2410.08197v1 )

ライセンス: Link先を確認
Changle Qu, Sunhao Dai, Xiaochi Wei, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Jun Xu, Ji-Rong Wen, (参考訳) ツール学習により、LLM(Large Language Models)は、ツールを起動することで、外部環境との対話を可能にし、事前トレーニングデータに固有の制限を緩和するための効果的な戦略となる。 このプロセスでは、ツールドキュメンテーションがLLMの使用指示を提供することで重要な役割を担い、効果的なツール利用を容易にする。 本稿では,従来の人間中心のツール文書に内在する不正確さや不正確さから,LCMと外部ツールの包括的ギャップを埋めることの難しさに焦点をあてる。 本稿では, LLMと外部ツールとのインタラクションから発生するフィードバックとトレイルの分析を通じて, 動的修正ツールの文書化を目的とした新しいフレームワークであるDRAFTを提案する。 この方法論は,3つの異なる学習フェーズ – 経験収集,経験からの学習,ドキュメントの書き直し – で構成される,革新的な試行錯誤アプローチを中心として,ツールドキュメントを反復的に強化するものだ。 このプロセスは、爆発的な多様性を確保するための多様性促進探索戦略と、効率を高めながら過度な適合を防止するためのツール適応終了機構を実装することで、さらに最適化されている。 複数のデータセットに関する大規模な実験は、DRAFTの反復的なフィードバックベースの改善がドキュメントの品質を大幅に改善し、LLMによるツールのより深い理解とより効果的な利用を促進することを実証している。 特に,本手法を用いて改良したツールドキュメンテーションは,堅牢なクロスモデル一般化機能を示す。

Tool learning enables Large Language Models (LLMs) to interact with external environments by invoking tools, serving as an effective strategy to mitigate the limitations inherent in their pre-training data. In this process, tool documentation plays a crucial role by providing usage instructions for LLMs, thereby facilitating effective tool utilization. This paper concentrates on the critical challenge of bridging the comprehension gap between LLMs and external tools due to the inadequacies and inaccuracies inherent in existing human-centric tool documentation. We propose a novel framework, DRAFT, aimed at Dynamically Refining tool documentation through the Analysis of Feedback and Trails emanating from LLMs' interactions with external tools. This methodology pivots on an innovative trial-and-error approach, consisting of three distinct learning phases: experience gathering, learning from experience, and documentation rewriting, to iteratively enhance the tool documentation. This process is further optimized by implementing a diversity-promoting exploration strategy to ensure explorative diversity and a tool-adaptive termination mechanism to prevent overfitting while enhancing efficiency. Extensive experiments on multiple datasets demonstrate that DRAFT's iterative, feedback-based refinement significantly ameliorates documentation quality, fostering a deeper comprehension and more effective utilization of tools by LLMs. Notably, our analysis reveals that the tool documentation refined via our approach demonstrates robust cross-model generalization capabilities.
翻訳日:2024-10-31 04:46:03 公開日:2024-10-10
# Adam Exploits $\ell_\infty$-geometry of Loss Landscape via Coordinate-wise Adaptivity

Adam Exploits $\ell_\infty$-geometry of Loss Landscape via Coordinate-wise Adaptivity ( http://arxiv.org/abs/2410.08198v1 )

ライセンス: Link先を確認
Shuo Xie, Mohamad Amin Mohamadi, Zhiyuan Li, (参考訳) 言語モデルのトレーニングでは、AdamはSGDより優れています。 しかし、この利点は理論的にはよく理解されていない。Adam と SGD の以前の収束解析は主にステップ数 $T$ に焦点をあて、既に非凸の場合は $\widetilde{O}(T^{-1/4})$ に最適化されている。 本研究では、良い$\ell_\infty$-geometryの活用がSGDに対するAdamの重要な利点であると主張する。 具体的には、より一般的な$\ell_2$-geometryではなく$\ell_\infty$-geometryの下で損失が滑らかであるという新しい仮定の下で、Adamに新しい収束解析を与える。 我々の実験では、好意的な$\ell_\infty$-geometryが変更され、SGDは確実に影響を受けない場合、Adamはより悪化することを確認した。 また、新しいブロックワイズ滑らか性仮定の下で、収束解析をブロックワイズ・アダムに拡張する。

Adam outperforms SGD when training language models. Yet this advantage is not well-understood theoretically -- previous convergence analysis for Adam and SGD mainly focuses on the number of steps $T$ and is already minimax-optimal in non-convex cases, which are both $\widetilde{O}(T^{-1/4})$. In this work, we argue that the exploitation of nice $\ell_\infty$-geometry is the key advantage of Adam over SGD. More specifically, we give a new convergence analysis for Adam under novel assumptions that loss is smooth under $\ell_\infty$-geometry rather than the more common $\ell_2$-geometry, which yields a much better empirical smoothness constant for GPT-2 and ResNet models. Our experiments confirm that Adam performs much worse when the favorable $\ell_\infty$-geometry is changed while SGD provably remains unaffected. We also extend the convergence analysis to blockwise Adam under novel blockwise smoothness assumptions.
翻訳日:2024-10-31 04:46:03 公開日:2024-10-10
# スイッチスパースオートエンコーダを用いた効率的な辞書学習

Efficient Dictionary Learning with Switch Sparse Autoencoders ( http://arxiv.org/abs/2410.08201v1 )

ライセンス: Link先を確認
Anish Mudide, Joshua Engels, Eric J. Michaud, Max Tegmark, Christian Schroeder de Witt, (参考訳) スパースオートエンコーダ(SAE)は、ニューラルネットワークのアクティベーションを人間の解釈可能な特徴に分解する最近の技術である。 しかし、SAEがフロンティアモデルで表される全ての特徴を特定するためには、それらを非常に高い幅まで拡張する必要がある。 本研究では,新しいSAEアーキテクチャであるSwitch Sparse Autoencodersを導入する。 専門家モデルのまばらな混合にインスパイアされたSAEは、より小さな"専門家"SAE間で活性化ベクトルをルーティングし、SAEを多くの機能に効率的にスケールできるようにする。 本稿は,Switch SAEと他のSAEアーキテクチャを比較した実験を行い,Switch SAEが所定の固定トレーニング計算予算に対して,復元と疎性フロンティアにおいて実質的なParetoの改善を提供することを確認した。 また,専門家間での特徴の幾何について検討し,専門家間で重複する特徴を分析し,Switch SAE機能が他のSAEアーキテクチャで見られる機能と同じくらい解釈可能であることを検証した。

Sparse autoencoders (SAEs) are a recent technique for decomposing neural network activations into human-interpretable features. However, in order for SAEs to identify all features represented in frontier models, it will be necessary to scale them up to very high width, posing a computational challenge. In this work, we introduce Switch Sparse Autoencoders, a novel SAE architecture aimed at reducing the compute cost of training SAEs. Inspired by sparse mixture of experts models, Switch SAEs route activation vectors between smaller "expert" SAEs, enabling SAEs to efficiently scale to many more features. We present experiments comparing Switch SAEs with other SAE architectures, and find that Switch SAEs deliver a substantial Pareto improvement in the reconstruction vs. sparsity frontier for a given fixed training compute budget. We also study the geometry of features across experts, analyze features duplicated across experts, and verify that Switch SAE features are as interpretable as features found by other SAE architectures.
翻訳日:2024-10-31 04:46:03 公開日:2024-10-10
# Mono-InternVL:内因性視覚前訓練によるモノリシック多モーダル大言語モデルの境界を押し上げる

Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training ( http://arxiv.org/abs/2410.08202v1 )

ライセンス: Link先を確認
Gen Luo, Xue Yang, Wenhan Dou, Zhaokai Wang, Jifeng Dai, Yu Qiao, Xizhou Zhu, (参考訳) LLM(Large Language Models)の急速な進歩は、その能力をマルチモーダルタスクに拡張する努力の流入につながった。 中でも注目されているのは、視覚的エンコーディングと言語デコーディングを単一のLLMに統合するモノリシックなマルチモーダル言語モデル(MLLM)である。 構造的単純さとデプロイメントフレンドリさにもかかわらず、有望なパフォーマンスでモノリシックなMLLMをトレーニングすることは依然として難しい。 特に、一般的なアプローチでは、学習済みのLLMをモノリシックなMLLMに拡張するために、継続的な事前学習を採用しており、これは破滅的な忘れ込みに悩まされ、性能劣化につながる。 本稿では,デルタチューニングの観点から,この制限を克服することを目的としている。 具体的には、学習済みのLCMに視覚パラメータを埋め込むことで、デルタチューニングによって大規模データから視覚知識を漸進的に学習し、視覚パラメータを最適化する。 この原理に基づいて,マルチモーダル・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。 さらに,Mono-InternVLの視覚能力,すなわち内因性視覚前訓練(EViP)を最大化するための革新的な事前学習戦略を提案する。 特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。 提案手法を検証するため、16のベンチマークで広範な実験を行った。 OCRBenchのInternVL-1.5を超える6つのマルチモーダルベンチマーク上での最先端のMLLMと比較して,Mono-InternVLの優れた性能を検証するだけでなく,最初のトークンレイテンシを最大67%削減した。

The rapid advancement of Large Language Models (LLMs) has led to an influx of efforts to extend their capabilities to multimodal tasks. Among them, growing attention has been focused on monolithic Multimodal Large Language Models (MLLMs) that integrate visual encoding and language decoding into a single LLM. Despite the structural simplicity and deployment-friendliness, training a monolithic MLLM with promising performance still remains challenging. In particular, the popular approaches adopt continuous pre-training to extend a pre-trained LLM to a monolithic MLLM, which suffers from catastrophic forgetting and leads to performance degeneration. In this paper, we aim to overcome this limitation from the perspective of delta tuning. Specifically, our core idea is to embed visual parameters into a pre-trained LLM, thereby incrementally learning visual knowledge from massive data via delta tuning, i.e., freezing the LLM when optimizing the visual parameters. Based on this principle, we present Mono-InternVL, a novel monolithic MLLM that seamlessly integrates a set of visual experts via a multimodal mixture-of-experts structure. Moreover, we propose an innovative pre-training strategy to maximize the visual capability of Mono-InternVL, namely Endogenous Visual Pre-training (EViP). In particular, EViP is designed as a progressive learning process for visual experts, which aims to fully exploit the visual knowledge from noisy data to high-quality data. To validate our approach, we conduct extensive experiments on 16 benchmarks. Experimental results not only validate the superior performance of Mono-InternVL compared to the state-of-the-art MLLM on 6 multimodal benchmarks, e.g., +113 points over InternVL-1.5 on OCRBench, but also confirm its better deployment efficiency, with first token latency reduced by up to 67%.
翻訳日:2024-10-31 04:46:03 公開日:2024-10-10
# 量子コヒーレンスの拡散に対する普遍的速度制限

A universal speed limit for spreading of quantum coherence ( http://arxiv.org/abs/2410.08204v1 )

ライセンス: Link先を確認
Gevorg Martirosyan, Martin Gazo, Jiří Etrych, Simon M. Fischer, Sebastian J. Morris, Christopher J. Ho, Christoph Eigen, Zoran Hadzibabic, (参考訳) 光の速度から情報伝播に縛られたリーブ・ロビンソンまで、物理過程の速度に対する基本的な限界の発見は、基礎となる物理学の理解にしばしば挑戦する概念的なブレークスルーである。 ここでは、弱い相互作用を持つボース=アインシュタイン凝縮体の形成におけるコヒーレンス拡散というパラダイム的な多体現象に対するそのような極限を観察する。 分離された均一な原子ガス中の凝縮体形成は, 当初は平衡から遠く, 非コヒーレントな低エネルギー状態であり, 凝縮体は平衡に向かって緩和する。 凝縮を駆動する原子間相互作用をチューニングすると、系内のコヒーレンスの拡散は、当初はより弱い相互作用では遅く、より強い相互作用では速いが、常に同じ限界に達することが示され、そこでは、コヒーレンス長の正方形がプランク定数と粒子質量の比で与えられる普遍的な速度で成長する。 これらの観測は、初期状態、ガス密度、システムサイズの変化に対して堅牢である。 我々の実験は、平衡から遠くない普遍性理論のベンチマークを提供し、他の量子系において同様の測定を招待する。

Discoveries of fundamental limits for the rates of physical processes, from the speed of light to the Lieb-Robinson bound for information propagation, are conceptual breakthroughs that often challenge our understanding of the underlying physics. Here we observe such a limit for a paradigmatic many-body phenomenon, the spreading of coherence during formation of a weakly interacting Bose-Einstein condensate. We study condensate formation in an isolated homogeneous atomic gas that is initially far from equilibrium, in an incoherent low-energy state, and condenses as it relaxes towards equilibrium. Tuning the inter-atomic interactions that drive condensation, we show that the spreading of coherence through the system is initially slower for weaker interactions, and faster for stronger ones, but always eventually reaches the same limit, where the square of the coherence length grows at a universal rate given by the ratio of Planck's constant and the particle mass. These observations are robust to changes in the initial state, the gas density, and the system size. Our experiments provide benchmarks for theories of universality far from equilibrium and invite similar measurements in other quantum systems.
翻訳日:2024-10-31 04:46:03 公開日:2024-10-10
# 開量子系における混合状態対称性検出位相のホログラフィックビュー

Holographic View of Mixed-State Symmetry-Protected Topological Phases in Open Quantum Systems ( http://arxiv.org/abs/2410.08205v1 )

ライセンス: Link先を確認
Shijun Sun, Jian-Hao Zhang, Zhen Bi, Yizhi You, (参考訳) 我々は,d次元混合対称性保護位相 (mSPTs) と (d+1) 次元サブシステム対称性保護位相 (SSPTs) のホログラフィック双対性を確立する。 具体的には、サブシステム対称性 $\mathcal{S}$ と大域対称性 $\mathcal{G}$ は、強い$\mathcal{S}$ と弱い $\mathcal{G}$ 対称性を持つ d-次元 mSPT に対応することを示す。 逆に, SSPTの波動関数は, 対応する下次元mSPTの密度行列を複製することにより構築可能であることを示す。 この写像は、低次元の密度行列と高次元波動関数の絡み合い特性を関連付け、混合状態系の非線形量と量子情報メトリクスを分析するアプローチを提供する。 我々の双対性は、純粋な状態アナログを使わずに、開量子系に固有の固有mSPTを研究するための新しい視点を提供する。 奇妙な相関器とねじれたRenyi-N相関器は、これらの非自明な位相を診断し、純粋状態SSPTにおける奇妙な相関器との接続を探索できることを示す。

We establish a holographic duality between d-dimensional mixed-state symmetry-protected topological phases (mSPTs) and (d+1)-dimensional subsystem symmetry-protected topological states (SSPTs). Specifically, we show that the reduced density matrix of the boundary layer of a (d+1)-dimensional SSPT with subsystem symmetry $\mathcal{S}$ and global symmetry $\mathcal{G}$ corresponds to a d-dimensional mSPT with strong $\mathcal{S}$ and weak $\mathcal{G}$ symmetries. Conversely, we demonstrate that the wavefunction of an SSPT can be constructed by replicating the density matrix of the corresponding lower-dimensional mSPT. This mapping links the density matrix in lower dimensions to the entanglement properties of higher-dimensional wavefunctions, providing an approach for analyzing nonlinear quantities and quantum information metrics in mixed-state systems. Our duality offers a new perspective for studying intrinsic mSPTs that are unique to open quantum systems, without pure state analogs. We show that strange correlators and twisted Renyi-N correlators can diagnose these nontrivial phases and explore their connection to strange correlators in pure-state SSPTs.
翻訳日:2024-10-31 04:46:03 公開日:2024-10-10
# Interactive4D:インタラクティブ4D LiDARセグメンテーション

Interactive4D: Interactive 4D LiDAR Segmentation ( http://arxiv.org/abs/2410.08206v1 )

ライセンス: Link先を確認
Ilya Fradlin, Idil Esen Zulfikar, Kadir Yilmaz, Theodora Kontogianni, Bastian Leibe, (参考訳) インタラクティブセグメンテーションは、将来のLiDARデータセットのアノテーションプロセスを促進する上で重要な役割を果たす。 既存のアプローチでは、各LiDARスキャンで個々のオブジェクトをシーケンシャルに分割し、シーケンス全体を通してプロセスを繰り返す。 本研究では,複数のLiDARスキャン上で複数のオブジェクトを同時にセグメント化できる対話型4Dセグメンテーションモデルと,LiDARデータの逐次的性質を利用して重畳された連続LiDARスキャン上で複数のオブジェクトを単一イテレーションでセグメント化する対話型4Dセグメンテーションモデルを提案する。 対話的なセグメンテーションを行う際、我々のモデルは時空の体積全体を活用し、より効率的なセグメンテーションを実現する。 4Dボリュームで動作すると、時間とともに一貫したインスタンスIDが直接提供され、アノテーションのトラッキングも簡単になる。 さらに,LiDAR点雲上でのモデルトレーニングを成功させるためには,クリックシミュレーションが重要であることを示す。 この目的のために、我々はLiDARデータの特徴により適したクリックシミュレーション戦略を設計する。 精度と有効性を示すために、複数のLiDARデータセット上でInteractive4Dを評価する。 受け入れ次第、https://vision.rwth-aachen.de/Interactive4D.comでコードとモデルを公開します。

Interactive segmentation has an important role in facilitating the annotation process of future LiDAR datasets. Existing approaches sequentially segment individual objects at each LiDAR scan, repeating the process throughout the entire sequence, which is redundant and ineffective. In this work, we propose interactive 4D segmentation, a new paradigm that allows segmenting multiple objects on multiple LiDAR scans simultaneously, and Interactive4D, the first interactive 4D segmentation model that segments multiple objects on superimposed consecutive LiDAR scans in a single iteration by utilizing the sequential nature of LiDAR data. While performing interactive segmentation, our model leverages the entire space-time volume, leading to more efficient segmentation. Operating on the 4D volume, it directly provides consistent instance IDs over time and also simplifies tracking annotations. Moreover, we show that click simulations are crucial for successful model training on LiDAR point clouds. To this end, we design a click simulation strategy that is better suited for the characteristics of LiDAR data. To demonstrate its accuracy and effectiveness, we evaluate Interactive4D on multiple LiDAR datasets, where Interactive4D achieves a new state-of-the-art by a large margin. Upon acceptance, we will publicly release the code and models at https://vision.rwth-aachen.de/Interactive4D.
翻訳日:2024-10-31 04:46:03 公開日:2024-10-10
# DICE:多項拡散とマスケ生成モデルのための離散インバージョン生成制御可能編集

DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models ( http://arxiv.org/abs/2410.08207v1 )

ライセンス: Link先を確認
Xiaoxiao He, Ligong Han, Quan Dao, Song Wen, Minhao Bai, Di Liu, Han Zhang, Martin Renqiang Min, Felix Juefei-Xu, Chaowei Tan, Bo Liu, Kang Li, Hongdong Li, Junzhou Huang, Faez Ahmed, Akash Srivastava, Dimitris Metaxas, (参考訳) 離散拡散モデルは、画像生成やマスキング言語モデリングといったタスクで成功しているが、制御されたコンテンツ編集において制限に直面している。 DICE(Discrete Inversion for Controllable Editing)は,多項拡散やマスキング生成モデルを含む離散拡散モデルの正確な逆変換を可能にする最初の手法である。 逆拡散過程におけるノイズシーケンスとマスキングパターンを記録することにより、DICEは予め定義されたマスクや注意操作を必要とせずに、離散データの正確な再構成と柔軟な編集を可能にする。 本稿では,VQ-Diffusion,Paella,RoBERTaなどのモデルを用いて,画像領域とテキスト領域のDICEの有効性を実証する。 以上の結果から,DICEは高いデータ忠実性を保ちながら編集能力を向上し,離散空間における微細なコンテンツ操作の新たな機会を提供する。 プロジェクトのWebページはhttps://hexiaoxiao-cs.github.io/DICE/を参照してください。

Discrete diffusion models have achieved success in tasks like image generation and masked language modeling but face limitations in controlled content editing. We introduce DICE (Discrete Inversion for Controllable Editing), the first approach to enable precise inversion for discrete diffusion models, including multinomial diffusion and masked generative models. By recording noise sequences and masking patterns during the reverse diffusion process, DICE enables accurate reconstruction and flexible editing of discrete data without the need for predefined masks or attention manipulation. We demonstrate the effectiveness of DICE across both image and text domains, evaluating it on models such as VQ-Diffusion, Paella, and RoBERTa. Our results show that DICE preserves high data fidelity while enhancing editing capabilities, offering new opportunities for fine-grained content manipulation in discrete spaces. For project webpage, see https://hexiaoxiao-cs.github.io/DICE/.
翻訳日:2024-10-31 04:46:03 公開日:2024-10-10
# 接地監督のない大規模マルチモーダルモデルにおける創発的接地

Emerging Pixel Grounding in Large Multimodal Models Without Grounding Supervision ( http://arxiv.org/abs/2410.08209v1 )

ライセンス: Link先を確認
Shengcao Cao, Liang-Yan Gui, Yu-Xiong Wang, (参考訳) 現在の大規模マルチモーダルモデル(LMM)は、言語コンポーネントと視覚的エンティティを関連付ける必要があるため、基盤化の課題に直面している。 グラウンディング・インフォメーションを付加したファインチューンLMMの一般的な実践とは対照的に、グラウンドニング・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーションは、グラウンドニング・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション(LMM)において、グラウンドティング・インフォメーション・イン・ この新たな基盤を明らかにするために,標準LMMからのアテンションマップを利用してピクセルレベルのセグメンテーションを行う"attend-and-segment"手法を提案する。 さらに,拡散型ビジュアルエンコーダを用いたLMMであるDIFFLMMを提案する。 バイアスや限定的な接地固有の監視データに制約されることなく、我々のアプローチはより一般化可能でスケーラブルです。 また,LMMと一般LMMとを比較して,グラウンドリング固有と一般視覚的問合せベンチマークの両性能を比較検討した。 特に,広範に監督されたモデルであるGLaMMよりも優れた,座屈した会話生成における44.2の接地マスクリコールを実現する。 プロジェクトページ: https://groundLMM.github.io

Current large multimodal models (LMMs) face challenges in grounding, which requires the model to relate language components to visual entities. Contrary to the common practice that fine-tunes LMMs with additional grounding supervision, we find that the grounding ability can in fact emerge in LMMs trained without explicit grounding supervision. To reveal this emerging grounding, we introduce an "attend-and-segment" method which leverages attention maps from standard LMMs to perform pixel-level segmentation. Furthermore, to enhance the grounding ability, we propose DIFFLMM, an LMM utilizing a diffusion-based visual encoder, as opposed to the standard CLIP visual encoder, and trained with the same weak supervision. Without being constrained by the biases and limited scale of grounding-specific supervision data, our approach is more generalizable and scalable. We achieve competitive performance on both grounding-specific and general visual question answering benchmarks, compared with grounding LMMs and generalist LMMs, respectively. Notably, we achieve a 44.2 grounding mask recall on grounded conversation generation without any grounding supervision, outperforming the extensively supervised model GLaMM. Project page: https://groundLMM.github.io.
翻訳日:2024-10-31 04:46:03 公開日:2024-10-10
# PointOBB-v2: よりシンプルで、より高速で、より強力な一点監視対象検出を目指す

PointOBB-v2: Towards Simpler, Faster, and Stronger Single Point Supervised Oriented Object Detection ( http://arxiv.org/abs/2410.08210v1 )

ライセンス: Link先を確認
Botao Ren, Xue Yang, Yi Yu, Junwei Luo, Zhidong Deng, (参考訳) 単一点教師付きオブジェクト指向オブジェクト検出が注目され、コミュニティ内で最初の進歩を遂げた。 ワンショットサンプルや強力な事前訓練モデル(SAMなど)に依存しているアプローチとは違って、PointOBBはそのプリフリー機能のために、将来性を示している。 本稿では,よりシンプルで高速で,より強力な手法であるPointOBB-v2を提案する。 具体的には,非一様正と負のサンプリングでネットワークをトレーニングすることにより,まずクラス確率マップ(CPM)を生成する。 我々は,CPMが近似対象領域とその輪郭を学習可能であることを示す。 次に、主成分分析(PCA)を適用し、オブジェクトの向きと境界を正確に推定する。 さらに分離機構を組み込むことで,CPM上の重なり合いによる混乱を解消し,高密度シナリオでの動作を可能にする。 DOTA-v1.0/v1.5/v2.0データセットのトレーニング速度は15.58倍,精度は11.60%/25.15%/21.19%向上した。 これにより、モジュラトラックにおける単一点指向検出の切断エッジが大幅に向上する。

Single point supervised oriented object detection has gained attention and made initial progress within the community. Diverse from those approaches relying on one-shot samples or powerful pretrained models (e.g. SAM), PointOBB has shown promise due to its prior-free feature. In this paper, we propose PointOBB-v2, a simpler, faster, and stronger method to generate pseudo rotated boxes from points without relying on any other prior. Specifically, we first generate a Class Probability Map (CPM) by training the network with non-uniform positive and negative sampling. We show that the CPM is able to learn the approximate object regions and their contours. Then, Principal Component Analysis (PCA) is applied to accurately estimate the orientation and the boundary of objects. By further incorporating a separation mechanism, we resolve the confusion caused by the overlapping on the CPM, enabling its operation in high-density scenarios. Extensive comparisons demonstrate that our method achieves a training speed 15.58x faster and an accuracy improvement of 11.60%/25.15%/21.19% on the DOTA-v1.0/v1.5/v2.0 datasets compared to the previous state-of-the-art, PointOBB. This significantly advances the cutting edge of single point supervised oriented detection in the modular track.
翻訳日:2024-10-31 04:46:03 公開日:2024-10-10
# LatteCLIP: LMM合成テキストによる教師なしCLIPファインチューニング

LatteCLIP: Unsupervised CLIP Fine-Tuning via LMM-Synthetic Texts ( http://arxiv.org/abs/2410.08211v1 )

ライセンス: Link先を確認
Anh-Quan Cao, Maximilian Jaritz, Matthieu Guillaumin, Raoul de Charette, Loris Bazzani, (参考訳) 大規模ビジョン言語事前訓練(VLP)モデル(例えばCLIP)は、ゼロショット設定で多様なアプリケーションに適用できるため、その汎用性で有名である。 しかしながら、これらのモデルが特定のドメインで使用される場合、ドメインのギャップやトレーニングデータにおけるこれらのドメインの表現不足により、パフォーマンスが低下することが多い。 人間のアノテートラベルを持つカスタムデータセット上の微調整VLPモデルはこの問題に対処できるが、小さなデータセット(例:100kサンプル)でさえアノテートすることは高価な取り組みであり、タスクが複雑であれば専門家アノテータを必要とすることが多い。 これらの課題に対処するために、人間のアノテーションに頼ることなく、カスタムドメインの既知のクラス名を分類したCLIPモデルを微調整する、教師なしの方法であるLatteCLIPを提案する。 提案手法はLMMを利用して,画像群と画像群の両方の表現的テキスト記述を生成する。 これらは、カスタムドメインの微調整プロセスを導くための追加のコンテキスト情報を提供する。 LMMによる記述は幻覚や詳細を欠く傾向にあるため,有用な情報のみを抽出し,トレーニングを安定化させる新たな戦略を導入する。 具体的には、ノイズの多い生成テキストと2つの擬似ラベルから、クラスごとのリッチなプロトタイプ表現を学習する。 ドメイン固有の10のデータセットに対する実験により、LatteCLIPは、事前訓練されたゼロショット法を、トップ1の精度で+4.74ポイント、そして+3.45ポイントの最先端の非教師なし法で平均的に上回っていることがわかった。

Large-scale vision-language pre-trained (VLP) models (e.g., CLIP) are renowned for their versatility, as they can be applied to diverse applications in a zero-shot setup. However, when these models are used in specific domains, their performance often falls short due to domain gaps or the under-representation of these domains in the training data. While fine-tuning VLP models on custom datasets with human-annotated labels can address this issue, annotating even a small-scale dataset (e.g., 100k samples) can be an expensive endeavor, often requiring expert annotators if the task is complex. To address these challenges, we propose LatteCLIP, an unsupervised method for fine-tuning CLIP models on classification with known class names in custom domains, without relying on human annotations. Our method leverages Large Multimodal Models (LMMs) to generate expressive textual descriptions for both individual images and groups of images. These provide additional contextual information to guide the fine-tuning process in the custom domains. Since LMM-generated descriptions are prone to hallucination or missing details, we introduce a novel strategy to distill only the useful information and stabilize the training. Specifically, we learn rich per-class prototype representations from noisy generated texts and dual pseudo-labels. Our experiments on 10 domain-specific datasets show that LatteCLIP outperforms pre-trained zero-shot methods by an average improvement of +4.74 points in top-1 accuracy and other state-of-the-art unsupervised methods by +3.45 points.
翻訳日:2024-10-31 04:46:03 公開日:2024-10-10
# LecPrompt: CodeBERTによる論理エラー訂正のためのPromptベースのアプローチ

LecPrompt: A Prompt-based Approach for Logical Error Correction with CodeBERT ( http://arxiv.org/abs/2410.08241v1 )

ライセンス: Link先を確認
Zhenyu Xu, Victor S. Sheng, (参考訳) プログラミングにおける論理的エラーはコンパイラの警告を発生させません。 これらのサイレントエラーは、プログラムの機能を破壊したり、実行時の問題を引き起こすことがある。 彼らの修正はプログラムのロジックの深い洞察を必要とし、自動検出と修復の重要性を強調している。 本稿では、コードに基づいてトレーニングされたトランスフォーマーベースの大規模言語モデルであるCodeBERTの機能を利用する、プロンプトベースのアプローチである、論理的エラーのローカライズと修復のためのLecPromptを紹介する。 第一に、LecPromptは大きな言語モデルを利用して、トークンレベルとラインレベルの両方で論理エラーを指摘し、複雑度とログ確率のメトリクスを計算する。 統計解析により、大きな言語モデルによって認識される期待パターンとは大きく異なるトークンと行を識別し、潜在的なエラー源としてマークする。 第2に、Masked Language Modeling (MLM)タスクとして論理エラー訂正チャレンジをフレーミングすることで、LecPromptはCodeBERTを使用して、識別されたエラートークンを自動回帰的に修復する。 最後に、ソフトプロンプト法は、コストの高い計算コストを伴わずに、論理的誤り訂正タスクの特定のニュアンスにモデルを微調整できるような、低コストのシナリオで新しいソリューションを提供する。 LecPromptの性能を評価するために、正しいコードに論理的エラーを導入し、QuixBugs-LEデータセットを生成するためにQuixBugsに適用する手法を開発した。 PythonとJavaのQuixBugs-LEデータセットに対する我々の評価は、我々のメソッドであるLecPromptの印象的な機能を強調します。 Pythonの場合、LecPromptは74.58%のトークンレベルの修正精度と27.4%のプログラムレベルの修正精度を達成した。 Javaでは、LecPromptは69.23\%のトークンレベルの修復精度と24.7%のプログラムレベルの修正精度を提供する。

Logical errors in programming don't raise compiler alerts, making them hard to detect. These silent errors can disrupt a program's function or cause run-time issues. Their correction requires deep insight into the program's logic, highlighting the importance of automated detection and repair. In this paper, we introduce LecPrompt to localize and repair logical errors, an prompt-based approach that harnesses the capabilities of CodeBERT, a transformer-based large language model trained on code. First, LecPrompt leverages a large language model to calculate perplexity and log probability metrics, pinpointing logical errors at both token and line levels. Through statistical analysis, it identifies tokens and lines that deviate significantly from the expected patterns recognized by large language models, marking them as potential error sources. Second, by framing the logical error correction challenge as a Masked Language Modeling (MLM) task, LecPrompt employs CodeBERT to autoregressively repair the identified error tokens. Finally, the soft-prompt method provides a novel solution in low-cost scenarios, ensuring that the model can be fine-tuned to the specific nuances of the logical error correction task without incurring high computational costs. To evaluate LecPrompt's performance, we created a method to introduce logical errors into correct code and applying this on QuixBugs to produce the QuixBugs-LE dataset. Our evaluations on the QuixBugs-LE dataset for both Python and Java highlight the impressive capabilities of our method, LecPrompt. For Python, LecPrompt achieves a noteworthy 74.58% top-1 token-level repair accuracy and 27.4% program-level repair accuracy. In Java, LecPrompt delivers a 69.23\% top-1 token-level repair accuracy and 24.7% full program-level repair accuracy.
翻訳日:2024-10-31 04:26:09 公開日:2024-10-10
# 取引フローの銀行化のためのマルチモーダルコンテキストにおける自己注意機構

Self-Attention Mechanism in Multimodal Context for Banking Transaction Flow ( http://arxiv.org/abs/2410.08243v1 )

ライセンス: Link先を確認
Cyrile Delestre, Yoann Sola, (参考訳) 銀行取引フロー(Bunding Transaction Flow、BTF)は、マーケティング、信用リスク、銀行詐欺など、多くの銀行活動で見られる連続したデータである。 日付、数値、単語の3つのモードからなるマルチモーダルデータである。 本稿では,BTFの処理に対する自己認識機構の応用を提案する。 1つのRNNモデルと1つのTransformerモデルである。 我々は,BTFを処理するために,特定のトークン化を提案する。 これら2つのモデルの性能は、トランザクション分類タスクと信用リスクタスクの2つの下流タスクで評価された。 その結果、これらの2つの事前学習モデルの微調整により、両方のタスクの最先端アプローチよりも優れたパフォーマンスが得られた。

Banking Transaction Flow (BTF) is a sequential data found in a number of banking activities such as marketing, credit risk or banking fraud. It is a multimodal data composed of three modalities: a date, a numerical value and a wording. We propose in this work an application of self-attention mechanism to the processing of BTFs. We trained two general models on a large amount of BTFs in a self-supervised way: one RNN-based model and one Transformer-based model. We proposed a specific tokenization in order to be able to process BTFs. The performance of these two models was evaluated on two banking downstream tasks: a transaction categorization task and a credit risk task. The results show that fine-tuning these two pre-trained models allowed to perform better than the state-of-the-art approaches for both tasks.
翻訳日:2024-10-31 04:26:09 公開日:2024-10-10
# RAB$^2$-DEF:フェデレートラーニングにおける敵攻撃に対する動的かつ説明可能な防御

RAB$^2$-DEF: Dynamic and explainable defense against adversarial attacks in Federated Learning to fair poor clients ( http://arxiv.org/abs/2410.08244v1 )

ライセンス: Link先を確認
Nuria Rodríguez-Barroso, M. Victoria Luzón, Francisco Herrera, (参考訳) 同時に、人工知能が普及し、懸念と規制の必要性が高まっている。 この文脈では、フェデレートラーニングは、分散ラーニングによって異なるソースデータシナリオから派生したデータプライバシの問題に対する解決策として提案される。 文献で提案されている防御メカニズムは、敵の攻撃とパフォーマンスに対する防御にのみ焦点をあてており、説明可能性、品質の悪いクライアントに対する公正性、攻撃構成におけるダイナミズム、さまざまな種類の攻撃に対する回復力の観点からの一般性など、その他の重要な特質を残している。 本研究では、ローカルなリニアな説明を用いて、貧弱なクライアントに対して、RAB$^2$-DEF, a $\textbf{r}$esilient $\textbf{a}$gainst $\textbf{b}\text{yzantine}$および $\textbf{b}$ackdoor attacks, which is $\textbf{d}$ynamic, $\textbf{e}$xplainable and $\textbf{f}$airを提案する。 我々は、画像データセットにおけるRAB$^2$-DEFの性能と、最先端の防御を考慮したビザンチンおよびバックドアアタックの両方の性能を検証し、RAB$^2$-DEFが信頼できる人工知能に対する他の特性を高めると同時に適切な防御であることを示す。

At the same time that artificial intelligence is becoming popular, concern and the need for regulation is growing, including among other requirements the data privacy. In this context, Federated Learning is proposed as a solution to data privacy concerns derived from different source data scenarios due to its distributed learning. The defense mechanisms proposed in literature are just focused on defending against adversarial attacks and the performance, leaving aside other important qualities such as explainability, fairness to poor quality clients, dynamism in terms of attacks configuration and generality in terms of being resilient against different kinds of attacks. In this work, we propose RAB$^2$-DEF, a $\textbf{r}$esilient $\textbf{a}$gainst $\textbf{b}\text{yzantine}$ and $\textbf{b}$ackdoor attacks which is $\textbf{d}$ynamic, $\textbf{e}$xplainable and $\textbf{f}$air to poor clients using local linear explanations. We test the performance of RAB$^2$-DEF in image datasets and both byzantine and backdoor attacks considering the state-of-the-art defenses and achieve that RAB$^2$-DEF is a proper defense at the same time that it boosts the other qualities towards trustworthy artificial intelligence.
翻訳日:2024-10-31 04:26:09 公開日:2024-10-10
# Flex-MoE:Flexible Mixture-of-Expertsによる任意モード結合のモデリング

Flex-MoE: Modeling Arbitrary Modality Combination via the Flexible Mixture-of-Experts ( http://arxiv.org/abs/2410.08245v1 )

ライセンス: Link先を確認
Sukwon Yun, Inyoung Choi, Jie Peng, Yangfan Wu, Jingxuan Bao, Qiyiwen Zhang, Jiayi Xin, Qi Long, Tianlong Chen, (参考訳) マルチモーダル学習は、画像、テキスト、パーソナライズドレコードなどの様々なソースからのデータを統合する機能を提供し、医療領域で頻繁に見られるようにして、様々な分野において重要性を高めている。 しかしながら、いくつかのモダリティが欠落しているシナリオでは、多くの既存のフレームワークは任意のモダリティの組み合わせを許容するのに苦労し、しばしば単一のモダリティや完全なデータに大きく依存する。 この潜在的なモダリティの組み合わせの監視は、現実の状況における適用性を制限している。 この課題に対処するため,Flex-MoE (Flexible Mixture-of-Experts) を提案する。 Flex-MoEの中核となる考え方は、新しい欠落したモダリティバンクを使用して、最初に欠落したモダリティに対処することである。 次に、ユニークな設計のSparse MoEフレームワークが続く。 具体的には、Flex-MoEは、すべてのモダリティを持つサンプルを使用して、一般化ルータ(\mathcal{G}$-Router)を介して一般化された知識を注入する専門家を訓練する。 次に$\mathcal{S}$-Routerは、観測されたモダリティの組み合わせに対応する専門家にトップ-1ゲートを割り当てることで、より少ないモダリティの組み合わせを扱うことを専門とする。 アルツハイマー病領域の4つのモードを含むADNIデータセットとMIMIC-IVデータセットを用いてFlex-MoEを評価する。 結果としてFlex-MoEの有効性が示され、様々なモダリティシナリオにおいて任意のモダリティの組み合わせをモデル化する能力を強調した。 コードはhttps://github.com/UNITES-Lab/flex-moe.comで入手できる。

Multimodal learning has gained increasing importance across various fields, offering the ability to integrate data from diverse sources such as images, text, and personalized records, which are frequently observed in medical domains. However, in scenarios where some modalities are missing, many existing frameworks struggle to accommodate arbitrary modality combinations, often relying heavily on a single modality or complete data. This oversight of potential modality combinations limits their applicability in real-world situations. To address this challenge, we propose Flex-MoE (Flexible Mixture-of-Experts), a new framework designed to flexibly incorporate arbitrary modality combinations while maintaining robustness to missing data. The core idea of Flex-MoE is to first address missing modalities using a new missing modality bank that integrates observed modality combinations with the corresponding missing ones. This is followed by a uniquely designed Sparse MoE framework. Specifically, Flex-MoE first trains experts using samples with all modalities to inject generalized knowledge through the generalized router ($\mathcal{G}$-Router). The $\mathcal{S}$-Router then specializes in handling fewer modality combinations by assigning the top-1 gate to the expert corresponding to the observed modality combination. We evaluate Flex-MoE on the ADNI dataset, which encompasses four modalities in the Alzheimer's Disease domain, as well as on the MIMIC-IV dataset. The results demonstrate the effectiveness of Flex-MoE highlighting its ability to model arbitrary modality combinations in diverse missing modality scenarios. Code is available at https://github.com/UNITES-Lab/flex-moe.
翻訳日:2024-10-31 04:26:09 公開日:2024-10-10
# 救急部門群集の予測死亡率

Forecasting mortality associated emergency department crowding ( http://arxiv.org/abs/2410.08247v1 )

ライセンス: Link先を確認
Jalmari Nevanlinna, Anna Eidstø, Jari Ylä-Mattila, Teemu Koivistoinen, Niku Oksala, Juho Kanniainen, Ari Palomäki, Antti Roine, (参考訳) 救急部門(ED)の混雑は世界的な公衆衛生問題であり、死亡率の上昇と繰り返し関連付けられている。 将来のサービス需要の予測は、その有害な影響とともに、混雑を抑えるための予防措置を可能にする。 近年のEDでは,90%以上の占有率と10日間の死亡率の増加が示唆されている。 本稿では,光GBMモデルを用いた大規模北欧EDの振り返りデータを用いて,これらの危機期間を予測することを目的とする。 我々は、ED全体の予測と、それが異なる運用セクションに対して個別に提供します。 我々は、午前11時にAUCが0.82(95% CI 0.78-0.86)、午前8時にAUCが0.79(95% CI 0.75-0.83)と予測できることを示した。 その結果,匿名管理データによる死亡関連集団の予測が可能であることがわかった。

Emergency department (ED) crowding is a global public health issue that has been repeatedly associated with increased mortality. Predicting future service demand would enable preventative measures aiming to eliminate crowding along with it's detrimental effects. Recent findings in our ED indicate that occupancy ratios exceeding 90% are associated with increased 10-day mortality. In this paper, we aim to predict these crisis periods using retrospective data from a large Nordic ED with a LightGBM model. We provide predictions for the whole ED and individually for it's different operational sections. We demonstrate that afternoon crowding can be predicted at 11 a.m. with an AUC of 0.82 (95% CI 0.78-0.86) and at 8 a.m. with an AUC up to 0.79 (95% CI 0.75-0.83). Consequently we show that forecasting mortality-associated crowding using anonymous administrative data is feasible.
翻訳日:2024-10-31 04:26:09 公開日:2024-10-10
# クロスドメインレコメンデーションのためのフェデレーショングラフ学習

Federated Graph Learning for Cross-Domain Recommendation ( http://arxiv.org/abs/2410.08249v1 )

ライセンス: Link先を確認
Ziqi Yang, Zhaopeng Peng, Zihui Wang, Jianzhong Qi, Chaochao Chen, Weike Pan, Chenglu Wen, Cheng Wang, Xiaoliang Fan, (参考訳) クロスドメインレコメンデーション(CDR)は、ソースドメインとターゲットドメイン間の知識伝達を可能にすることで、データ空間の問題に対する有望な解決策を提供する。 しかし、最近の多くのCDRモデルは、特にマルチドメイン設定において、プライバシや負の転送(モデルパフォーマンスに悪影響を及ぼす)のリスクなど重要な問題を見落としている。 これらの課題に対処するために,複数ソースドメインからの肯定的知識を安全かつ効果的に活用する新しいフェデレートグラフ学習フレームワークであるFedGCDRを提案する。 まず、ドメイン間知識伝達時のプライバシを保証する正の知識伝達モジュールを設計する。 このモジュールは、差分プライバシーに基づく知識抽出と特徴マッピング機構を組み合わせて、フェデレートされたグラフアテンションネットワークから、ソースドメインの埋め込みを信頼できるドメインナレッジに変換する。 第2に、負の転送の問題に対処するため、ソースドメインから潜在的に有害または矛盾する知識をフィルタリングするナレッジアクティベーションモジュールを設計する。 このモジュールは、ターゲットドメインのグラフを拡張して信頼性の高いドメインの注意を発生させ、ターゲットモデルを微調整することで、ターゲットドメインのトレーニングを強化し、ネガティブな知識フィルタリングを改善し、より正確な予測を行う。 我々は、Amazonデータセットの16のポピュラーなドメインに関する広範な実験を行い、FedGCDRが最先端の手法を大幅に上回っていることを実証した。

Cross-domain recommendation (CDR) offers a promising solution to the data sparsity problem by enabling knowledge transfer across source and target domains. However, many recent CDR models overlook crucial issues such as privacy as well as the risk of negative transfer (which negatively impact model performance), especially in multi-domain settings. To address these challenges, we propose FedGCDR, a novel federated graph learning framework that securely and effectively leverages positive knowledge from multiple source domains. First, we design a positive knowledge transfer module that ensures privacy during inter-domain knowledge transmission. This module employs differential privacy-based knowledge extraction combined with a feature mapping mechanism, transforming source domain embeddings from federated graph attention networks into reliable domain knowledge. Second, we design a knowledge activation module to filter out potential harmful or conflicting knowledge from source domains, addressing the issues of negative transfer. This module enhances target domain training by expanding the graph of the target domain to generate reliable domain attentions and fine-tunes the target model for improved negative knowledge filtering and more accurate predictions. We conduct extensive experiments on 16 popular domains of the Amazon dataset, demonstrating that FedGCDR significantly outperforms state-of-the-art methods.
翻訳日:2024-10-31 04:26:09 公開日:2024-10-10
# ASRに基づく音声障害自動評価のためのWav2Vec2の探索:洞察と分析

Exploring ASR-Based Wav2Vec2 for Automated Speech Disorder Assessment: Insights and Analysis ( http://arxiv.org/abs/2410.08250v1 )

ライセンス: Link先を確認
Tuan Nguyen, Corinne Fredouille, Alain Ghio, Mathieu Balaguer, Virginie Woisard, (参考訳) SSLとASR技術の発展に伴い、Wav2Vec2 ASRベースのモデルは、自動音声障害の品質評価タスクのために微調整され、印象的な結果が得られ、頭頸部がんの音声コンテキストのための新しいベースラインが設定された。 このことは、Wav2Vec2のASR次元が評価次元と密接に一致していることを示している。 有効性にもかかわらず、このシステムはモデルASR次元と臨床評価の関連性を明確に解釈することができないブラックボックスのままである。 本稿では,音声品質評価のためのベースラインモデルの最初の解析を行い,知能度と重大度タスクに着目した。 我々は、鍵層を特定し、事前訓練されたデータに基づいて異なるSSLとASR Wav2Vec2モデルを比較する。 さらに、CCA(Canonical correlation Analysis)や可視化技術を含むポストホックXAI法は、モデルの進化を追跡し、解釈可能性を高めるために埋め込みを可視化するために使用される。

With the rise of SSL and ASR technologies, the Wav2Vec2 ASR-based model has been fine-tuned for automated speech disorder quality assessment tasks, yielding impressive results and setting a new baseline for Head and Neck Cancer speech contexts. This demonstrates that the ASR dimension from Wav2Vec2 closely aligns with assessment dimensions. Despite its effectiveness, this system remains a black box with no clear interpretation of the connection between the model ASR dimension and clinical assessments. This paper presents the first analysis of this baseline model for speech quality assessment, focusing on intelligibility and severity tasks. We conduct a layer-wise analysis to identify key layers and compare different SSL and ASR Wav2Vec2 models based on pre-trained data. Additionally, post-hoc XAI methods, including Canonical Correlation Analysis (CCA) and visualization techniques, are used to track model evolution and visualize embeddings for enhanced interpretability.
翻訳日:2024-10-31 04:26:09 公開日:2024-10-10
# シングルサーバマルコフ待ち行列の量子シミュレーション-動的増幅アプローチ

Quantum simulation of single-server Markovian queues: A dynamic amplification approach ( http://arxiv.org/abs/2410.08252v1 )

ライセンス: Link先を確認
Michal Koren, Or Peretz, (参考訳) 量子コンピューティングは、オペレーション研究やキュー理論など、さまざまな分野に革命をもたらしている。 本研究では,シングルサーバマルコビアン(M/M/1)キューをシミュレーションする量子計算手法を提案する。 我々は、待ち行列のトラフィックに適応し、シミュレーション効率を向上する動的増幅アプローチを導入し、到着およびサービスプロセスのためのカスタムパラメータ化された量子ゲートを設計する。 このフレキシブルなフレームワークは、量子コンピューティングと古典的なキュー理論をブリッジしながら、様々なキューシナリオのモデリングを可能にする。 特に、我々の量子法は、特に高速なシナリオにおいて、古典的なシミュレーションよりも潜在的に有利であることを示す。 この量子シミュレーションアプローチは、複雑なキューシステムを分析する新たな可能性を開き、挑戦的なシナリオにおいて古典的な手法よりも優れ、量子強化されたオペレーション研究の道を開く可能性がある。 この手法は、量子シミュレーションを理論式と古典シミュレーションの両方と比較し、低、中、高のシナリオにまたがって実装され、テストされた。 その結果、量子計算と理論予測の間には高い一致性を示し、相対誤差は0.002未満である。 量子ビットの数が増加するにつれて、相対誤差は最大で2桁まで減少し、理論値への急速な収束が観測される。 感度分析により、0.001未満の誤差をもたらす最適パラメータ領域が明らかになった。

Quantum computing is revolutionizing various fields, including operations research and queueing theory. This study presents a quantum method for simulating single-server Markovian (M/M/1) queues, making quantum computing more accessible to researchers in operations research. We introduce a dynamic amplification approach that adapts to queue traffic, potentially improving simulation efficiency, and design custom-parameterized quantum gates for arrival and service processes. This flexible framework enables modeling of various queueing scenarios while bridging quantum computing and classical queueing theory. Notably, our quantum method shows potential advantages over classical simulations, particularly in high-traffic scenarios. This quantum simulation approach opens new possibilities for analyzing complex queueing systems, potentially outperforming classical methods in challenging scenarios and paving the way for quantum-enhanced operations research. The method was implemented and tested across low-, moderate-, and high-traffic scenarios, comparing quantum simulations with both theoretical formulas and classical simulations. Results demonstrate high agreement between quantum computations and theoretical predictions, with relative errors below 0.002 for effective arrival rates in high-traffic scenarios. As the number of qubits increases, we observe rapid convergence to theoretical values, with relative errors decreasing by up to two orders of magnitude in some cases. Sensitivity analysis reveals optimal parameter regions yielding errors lower than 0.001.
翻訳日:2024-10-31 04:26:09 公開日:2024-10-10
# 飢餓からの一般化: LLM知識グラフ学習における普遍性のヒント

Generalization from Starvation: Hints of Universality in LLM Knowledge Graph Learning ( http://arxiv.org/abs/2410.08255v1 )

ライセンス: Link先を確認
David D. Baek, Yuxiao Li, Max Tegmark, (参考訳) グラフ学習中にニューラルネットワークがどのように知識を表現しているかを考察し、モデルのサイズ(10^2$から10^9$パラメータ)とコンテキスト(MLP玩具モデル、LLMインコンテキスト学習、LLMトレーニング)で等価な表現が学習される普遍性のヒントを見つける。 これらのアトラクタ表現は、知識グラフ関係(例えば対称性とメタ遷移度)の性質を利用することにより、目に見えない例に最適化できることが示される。 このような普遍性に対する実験的な支持は、LLMと単純なニューラルネットワークを縫合できること、すなわち、アフィン変換またはほぼアフィン変換によってのみ媒介される、あるモデルの最初の部分を他のモデルの最後の部分に縫合させることによって得られる。 我々は、単純さと一般化へのこのダイナミクスは「飢餓からの知性」によって引き起こされると仮定する:そこでは、過度な適合は圧力によって最小化され、不足しているか、他のタスクと競合するリソースの使用を最小限に抑える。

Motivated by interpretability and reliability, we investigate how neural networks represent knowledge during graph learning, We find hints of universality, where equivalent representations are learned across a range of model sizes (from $10^2$ to $10^9$ parameters) and contexts (MLP toy models, LLM in-context learning and LLM training). We show that these attractor representations optimize generalization to unseen examples by exploiting properties of knowledge graph relations (e.g. symmetry and meta-transitivity). We find experimental support for such universality by showing that LLMs and simpler neural networks can be stitched, i.e., by stitching the first part of one model to the last part of another, mediated only by an affine or almost affine transformation. We hypothesize that this dynamic toward simplicity and generalization is driven by "intelligence from starvation": where overfitting is minimized by pressure to minimize the use of resources that are either scarce or competed for against other tasks.
翻訳日:2024-10-31 04:26:09 公開日:2024-10-10
# AdaShadow:非定常移動環境における応答性テストタイムモデル適応

AdaShadow: Responsive Test-time Model Adaptation in Non-stationary Mobile Environments ( http://arxiv.org/abs/2410.08256v1 )

ライセンス: Link先を確認
Cheng Fang, Sicong Liu, Zimu Zhou, Bin Guo, Jiaqi Tang, Ke Ma, Zhiwen Yu, (参考訳) 継続的かつ予測不可能なドメインシフトへのオンデバイス適応は、進化する環境においてシームレスなユーザエクスペリエンスを提供するために、自律運転や拡張現実といったモバイルアプリケーションにとって不可欠である。 テスト時間適応(TTA)は、予測直前に未ラベルのライブデータでモデルパラメータをチューニングすることで、有望なソリューションとして現れる。 しかし、TTAの独特なフォワード-バック-リフォワードパイプラインは、標準推論よりも遅延を増大させ、時間に敏感なモバイルアプリケーションの応答性を損なう。 本稿では,AdaShadowを提案する。AdaShadowは,非定常なモバイルデータ配信とリソースダイナミクスのための応答性テスト時適応フレームワークである。 一般的なオンデバイストレーニングではこの戦術が認識されているが、TTAの教師なしオンラインコンテキストは、レイヤの重要度と遅延を推定し、最適なレイヤ更新計画をスケジューリングする上で、ユニークな課題を提示する。 AdaShadow氏はこれらの課題に対処するため、重要なレイヤを迅速に特定するためのバックプロパゲーションフリーアセスメント、レイテンシ推定のリソースダイナミクスを考慮に入れたユニットベースのランタイム予測器、レイヤ更新計画のプロンプトのためのオンラインスケジューラで対処している。 また、AdaShadowにはメモリI/O対応の計算再利用方式が組み込まれている。 その結果,AdaShadowは連続的なシフトの下で最高の精度-遅延バランスを達成することがわかった。 メモリとエネルギーのコストが低い場合、Adashadowは最先端のTTA方式よりも2倍から3.5倍のスピードアップ(msレベル)を提供し、14.8%から25.4%の精度で同様のレイテンシを持つ効率的な教師付き手法よりも向上する。

On-device adapting to continual, unpredictable domain shifts is essential for mobile applications like autonomous driving and augmented reality to deliver seamless user experiences in evolving environments. Test-time adaptation (TTA) emerges as a promising solution by tuning model parameters with unlabeled live data immediately before prediction. However, TTA's unique forward-backward-reforward pipeline notably increases the latency over standard inference, undermining the responsiveness in time-sensitive mobile applications. This paper presents AdaShadow, a responsive test-time adaptation framework for non-stationary mobile data distribution and resource dynamics via selective updates of adaptation-critical layers. Although the tactic is recognized in generic on-device training, TTA's unsupervised and online context presents unique challenges in estimating layer importance and latency, as well as scheduling the optimal layer update plan. AdaShadow addresses these challenges with a backpropagation-free assessor to rapidly identify critical layers, a unit-based runtime predictor to account for resource dynamics in latency estimation, and an online scheduler for prompt layer update planning. Also, AdaShadow incorporates a memory I/O-aware computation reuse scheme to further reduce latency in the reforward pass. Results show that AdaShadow achieves the best accuracy-latency balance under continual shifts. At low memory and energy costs, Adashadow provides a 2x to 3.5x speedup (ms-level) over state-of-the-art TTA methods with comparable accuracy and a 14.8% to 25.4% accuracy boost over efficient supervised methods with similar latency.
翻訳日:2024-10-31 04:26:09 公開日:2024-10-10
# 固有ダイナミクスの視覚的グラウンド化のためのニューラルネットワーク

Neural Material Adaptor for Visual Grounding of Intrinsic Dynamics ( http://arxiv.org/abs/2410.08257v1 )

ライセンス: Link先を確認
Junyi Cao, Shanyan Guan, Yanhao Ge, Wei Li, Xiaokang Yang, Chao Ma, (参考訳) 人間は本質的な力学を熱心に区別し、新しいシナリオに適応するが、現代のAIシステムはしばしば苦労する。 現在の力学の視覚的接地法では、物理法則に反する純粋なニューラルネットワークベースのシミュレータ(ブラックボックス)や、実際の力学を完全に捉えない専門家定義方程式に依存する伝統的な物理シミュレータ(ホワイトボックス)を使用する。 我々は,既存の物理法則を学習的補正と統合し,物理先行の一般化性と解釈性を維持しつつ,実際の力学の正確な学習を容易にするニューラルマテリアルアダプタ(NeuMA)を提案する。 また,粒子駆動型3次元ガウススプラッティングモデルであるParticle-GSを提案し,シミュレーションと観察画像のブリッジを行い,バックプロパゲート画像勾配を最適化する。 粒子の接地精度、動的レンダリング品質、一般化能力の観点からの様々な力学に関する総合的な実験は、NeuMAが固有の力学を正確に捉えることができることを示した。

While humans effortlessly discern intrinsic dynamics and adapt to new scenarios, modern AI systems often struggle. Current methods for visual grounding of dynamics either use pure neural-network-based simulators (black box), which may violate physical laws, or traditional physical simulators (white box), which rely on expert-defined equations that may not fully capture actual dynamics. We propose the Neural Material Adaptor (NeuMA), which integrates existing physical laws with learned corrections, facilitating accurate learning of actual dynamics while maintaining the generalizability and interpretability of physical priors. Additionally, we propose Particle-GS, a particle-driven 3D Gaussian Splatting variant that bridges simulation and observed images, allowing back-propagate image gradients to optimize the simulator. Comprehensive experiments on various dynamics in terms of grounded particle accuracy, dynamic rendering quality, and generalization ability demonstrate that NeuMA can accurately capture intrinsic dynamics.
翻訳日:2024-10-31 04:26:09 公開日:2024-10-10
# 忘れられたドメインの一般化をめざして

In Search of Forgotten Domain Generalization ( http://arxiv.org/abs/2410.08258v1 )

ライセンス: Link先を確認
Prasanna Mayilvahanan, Roland S. Zimmermann, Thaddäus Wiedemer, Evgenia Rusak, Attila Juhos, Matthias Bethge, Wieland Brendel, (参考訳) Out-of-Domain (OOD) 一般化は、1つ以上のドメインでトレーニングされたモデルが見えないドメインに一般化する能力である。 コンピュータビジョンのImageNet時代において、モデルのOOD性能を測定するための評価セットは、スタイルに関して厳密にOODであるように設計されていた。 しかし、基盤モデルや拡張Webスケールデータセットの出現は、幅広い領域をカバーするデータセットとリスクテスト領域の汚染により、この評価プロセスを妨げている。 忘れられたドメインの一般化を探すために、私たちはLAION(LAION-NaturalとLAION-Rendition)からサブサンプルされた大規模なデータセットを作成します。 これらのデータセット上でCLIPモデルをトレーニングすると、パフォーマンスのかなりの部分がドメイン内の例によって説明されることが明らかになった。 これは,画像ネット時代のOOD一般化の課題がいまだ一般的であり,WebスケールデータのトレーニングがOOD一般化の錯覚を生んでいることを示唆している。 さらに,自然と再帰のデータセットを様々な割合で組み合わせる体系的な探索を通じて,これらの領域をまたいだモデル一般化のための最適混合比を同定する。 私たちのデータセットと結果は、スケールでのOODロバストネスの有意義な評価 -- モデルロバストネスを改善するための重要な前提条件です。

Out-of-Domain (OOD) generalization is the ability of a model trained on one or more domains to generalize to unseen domains. In the ImageNet era of computer vision, evaluation sets for measuring a model's OOD performance were designed to be strictly OOD with respect to style. However, the emergence of foundation models and expansive web-scale datasets has obfuscated this evaluation process, as datasets cover a broad range of domains and risk test domain contamination. In search of the forgotten domain generalization, we create large-scale datasets subsampled from LAION -- LAION-Natural and LAION-Rendition -- that are strictly OOD to corresponding ImageNet and DomainNet test sets in terms of style. Training CLIP models on these datasets reveals that a significant portion of their performance is explained by in-domain examples. This indicates that the OOD generalization challenges from the ImageNet era still prevail and that training on web-scale data merely creates the illusion of OOD generalization. Furthermore, through a systematic exploration of combining natural and rendition datasets in varying proportions, we identify optimal mixing ratios for model generalization across these domains. Our datasets and results re-enable meaningful assessment of OOD robustness at scale -- a crucial prerequisite for improving model robustness.
翻訳日:2024-10-31 04:26:09 公開日:2024-10-10
# 差分測定のためのジッタ転送の定量化:オシレータベースTRNGのセキュリティ向上

Quantifying Jitter Transfer for Differential Measurement: Enhancing Security of Oscillator-Based TRNGs ( http://arxiv.org/abs/2410.08259v1 )

ライセンス: Link先を確認
David Lubicz, Maciej Skorski, (参考訳) 本研究の目的は,マルチリング発振器を用いたTRNGにおける位相雑音の統計的パラメータの測定の信頼性を向上させることである。 これは、エントロピーレートが標準またはセキュリティ仕様が定める範囲内にあることを保証する必要がある。 文献によれば,位相雑音パラメータの測定に強く影響を及ぼすような大域的な雑音を除去するには,差分測定を行う必要がある。 しかし、差分測定は、2つの発振器の雑音の組成から生じる位相雑音のパラメータのみを返すのに対し、個々の発振器のジッタパラメータは、マルチリング発振器ベースのTRNGのエントロピー率を計算するのに必要である。 本稿では,発振器をベースとしたTRNGの微調整設計と合わせて「ジッタ伝達原理」を再検討し,各発振器のジッタパラメータを求める。 ハードウェア実装によるシミュレーションと実験により,本手法の有効性を示す。

The aim of this paper is to describe a way to improve the reliability of the measurement of the statistical parameters of the phase noise in a multi-ring oscillator-based TRNG. This is necessary to guarantee that the entropy rate is within the bounds prescribed by standards or security specifications. According to the literature, to filter out global noises which may strongly affect the measurement of the phase noise parameters, it is necessary to perform a differential measure. But a differential measurement only returns the parameters of the phase noise resulting of the composition of the noises of two oscillators whereas jitters parameters of individual oscillators are required to compute the entropy rate of a multi-ring oscillator-based TRNG. In this paper, we revisit the "jitter transfer principle" in conjunction with a tweaked design of an oscillator based TRNG to enjoy the precision of differential measures and, at the same time, obtain jitter parameters of individual oscillators. We show the relevance of our method with simulations and experiments with hardware implementations.
翻訳日:2024-10-31 04:16:13 公開日:2024-10-10
# Koala-36M:微細な条件と映像コンテンツとの整合性を改善する大規模ビデオデータセット

Koala-36M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content ( http://arxiv.org/abs/2410.08260v1 )

ライセンス: Link先を確認
Qiuheng Wang, Yukai Shi, Jiarong Ou, Rui Chen, Ke Lin, Jiahao Wang, Boyuan Jiang, Haotian Yang, Mingwu Zheng, Xin Tao, Fei Yang, Pengfei Wan, Di Zhang, (参考訳) 映像生成技術の進歩に伴い、ビデオデータセットの規模は急速に拡大し、これらのデータセットの品質はビデオ生成モデルの性能に欠かせないものとなっている。 我々は、時間分割、詳細なキャプション、ビデオ品質フィルタリングが、データセットの品質を決定する重要な3つの要因であると主張している。 しかし、既存のデータセットはこれらの領域に様々な制限を課している。 これらの課題に対処するために,正確な時間分割,詳細なキャプション,優れた映像品質を備えた大規模高品質ビデオデータセットであるKoala-36Mを紹介した。 このアプローチの核心は、きめ細かい条件とビデオコンテンツとの整合性を改善することです。 具体的には、確率分布に線形分類器を用い、遷移検出の精度を高め、時間的整合性を向上させる。 次に,テキスト・ビデオのアライメントを改善するために,分割されたビデオに対して平均200ワードの字幕を構造化する。 さらに,複数のサブメトリックを統合したVTSS(Video Training Suitability Score)を開発した。 最後に、生成モデルのトレーニングプロセスにいくつかのメトリクスを組み込み、きめ細かい条件をさらに改善する。 実験では,データ処理パイプラインの有効性と提案したKoala-36Mデータセットの品質を実証した。 データセットとコードはhttps://koala36m.github.io/でリリースされます。

As visual generation technologies continue to advance, the scale of video datasets has expanded rapidly, and the quality of these datasets is critical to the performance of video generation models. We argue that temporal splitting, detailed captions, and video quality filtering are three key factors that determine dataset quality. However, existing datasets exhibit various limitations in these areas. To address these challenges, we introduce Koala-36M, a large-scale, high-quality video dataset featuring accurate temporal splitting, detailed captions, and superior video quality. The core of our approach lies in improving the consistency between fine-grained conditions and video content. Specifically, we employ a linear classifier on probability distributions to enhance the accuracy of transition detection, ensuring better temporal consistency. We then provide structured captions for the splitted videos, with an average length of 200 words, to improve text-video alignment. Additionally, we develop a Video Training Suitability Score (VTSS) that integrates multiple sub-metrics, allowing us to filter high-quality videos from the original corpus. Finally, we incorporate several metrics into the training process of the generation model, further refining the fine-grained conditions. Our experiments demonstrate the effectiveness of our data processing pipeline and the quality of the proposed Koala-36M dataset. Our dataset and code will be released at https://koala36m.github.io/.
翻訳日:2024-10-31 04:16:13 公開日:2024-10-10
# Meissonic: 効率的な高分解能テキスト・画像合成のためのマスク付き生成変換器

Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis ( http://arxiv.org/abs/2410.08261v1 )

ライセンス: Link先を確認
Jinbin Bai, Tian Ye, Wei Chow, Enxin Song, Qing-Guo Chen, Xiangtai Li, Zhen Dong, Lei Zhu, Shuicheng Yan, (参考訳) 安定拡散のような拡散モデルは視覚生成において大きな進歩を遂げているが、そのパラダイムは自己回帰言語モデルと根本的に異なるままであり、統一言語ビジョンモデルの開発を複雑にしている。 LlamaGenのような最近の取り組みは、離散VQVAEトークンを使った自動回帰画像生成を試みたが、大量のトークンが関与し、このアプローチは非効率で遅い。 本稿では,非自己回帰型マスク画像モデリング(MIM)をSDXLのような最先端拡散モデルに匹敵するレベルまで高めるMeissonicを提案する。 アーキテクチャの革新、高度な位置符号化戦略、最適化されたサンプリング条件を総合的に取り入れることで、MeissonicはMIMの性能と効率を大幅に改善する。 さらに、高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに高めます。 我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。 大規模な実験は、Meissonicの能力を検証し、テキストと画像の合成の新しい標準としての可能性を示した。 解像度1024$1024の画像を生成可能なモデルチェックポイントをリリースする。

Diffusion models, such as Stable Diffusion, have made significant strides in visual generation, yet their paradigm remains fundamentally different from autoregressive language models, complicating the development of unified language-vision models. Recent efforts like LlamaGen have attempted autoregressive image generation using discrete VQVAE tokens, but the large number of tokens involved renders this approach inefficient and slow. In this work, we present Meissonic, which elevates non-autoregressive masked image modeling (MIM) text-to-image to a level comparable with state-of-the-art diffusion models like SDXL. By incorporating a comprehensive suite of architectural innovations, advanced positional encoding strategies, and optimized sampling conditions, Meissonic substantially improves MIM's performance and efficiency. Additionally, we leverage high-quality training data, integrate micro-conditions informed by human preference scores, and employ feature compression layers to further enhance image fidelity and resolution. Our model not only matches but often exceeds the performance of existing models like SDXL in generating high-quality, high-resolution images. Extensive experiments validate Meissonic's capabilities, demonstrating its potential as a new standard in text-to-image synthesis. We release a model checkpoint capable of producing $1024 \times 1024$ resolution images.
翻訳日:2024-10-31 04:16:13 公開日:2024-10-10
# 量子コンピュータベンチマークにおける障害フリーの局在化

Disorder-Free Localization for Benchmarking Quantum Computers ( http://arxiv.org/abs/2410.08268v1 )

ライセンス: Link先を確認
Jad C. Halimeh, Uliana E. Khodaeva, Dmitry L. Kovrizhin, Roderich Moessner, Johannes Knolle, (参考訳) 障害のないローカライゼーション(DFL)は単純な現象のように印象的な現象であり、非障害ハミルトニアンの下で進化する翻訳的不変状態は熱分解に失敗する。 これは、創発的またはネイティブな \emph{local} 対称性を示す多くの量子系で起こると予測されている。 これらは格子ゲージ理論のモデルと、おそらく最も単純な2成分スピン鎖を含む。 特殊な可溶性の例として解析的に確立されているが、ジェネリックシステムの数値的研究は困難であることが証明されている。 さらに、必要となる局所対称性は実験的な実現のための挑戦である。 本稿では,DFLの正準モデルが3ビットゲートの効率的な符号化に依存するゲートベースの量子コンピュータ上で効率的に実装可能であることを示す。 相関拡散の欠如と調整可能なエンタングルメント成長のボリューム法則との同時観測により,量子コンピュータの能力のベンチマークを行う上で理想的なテストベッドが提供されることを示す。 特に、可溶性極限の可用性は、スケーラブルな量子コンピュータの能力をテストするのに理想的な体積法エンタングルメント成長のための創発的局所化長スケールと調整可能な時間スケールの厳密な予測を可能にする。

Disorder-free localization (DFL) is a phenomenon as striking as it appears to be simple: a translationally invariant state evolving under a disorder-free Hamiltonian failing to thermalize. It is predicted to occur in a number of quantum systems exhibiting emergent or native \emph{local} symmetries. These include models of lattice gauge theories and, perhaps most simply, some two-component spin chains. Though well-established analytically for special soluble examples, numerical studies of generic systems have proven difficult. Moreover, the required local symmetries are a challenge for any experimental realization. Here, we show how a canonical model of DFL can be efficiently implemented on gate-based quantum computers, which relies on our efficient encoding of three-qubit gates. We show that the simultaneous observation of the absence of correlation spreading and tunable entanglement growth to a volume law provides an ideal testbed for benchmarking the capabilities of quantum computers. In particular, the availability of a soluble limit allows for a rigorous prediction of emergent localization length scales and tunable time scales for the volume law entanglement growth, which are ideal for testing capabilities of scalable quantum computers.
翻訳日:2024-10-31 04:16:13 公開日:2024-10-10
# ダイソン統計を用いた非相互作用フェルミオンの特別なスペクトル形成因子

Exact spectral form factors of non-interacting fermions with Dyson statistics ( http://arxiv.org/abs/2410.08269v1 )

ライセンス: Link先を確認
Tatsuhiko N. Ikeda, Lev Vidmar, Michael O. Flynn, (参考訳) スペクトル形状因子(SFF)は、量子多体系におけるランダム行列の振る舞いの強力な診断である。 我々は、SFFを$\textit{exactly}$で計算できるランダム回路アンサンブル群を紹介する。 これらのアンサンブルは、円形アンサンブルの固有値分布から引き出された相関するオンサイトポテンシャルの存在下での非相互作用フェルミオンの進化を記述している。 円形ユニタリアンサンブル(CUE)から引き出された障害パラメータについて、システムサイズ$L$または時間$t$の任意の選択に有効な、SFFの正確な閉形式を導出する。 障害が円直交あるいはシンプレクティックアンサンブル(COE,CSE)から引き出される場合,障害平均を解析的に実行し,SFFの計算を行列法を伝達可能な組合せ問題に還元する。 それぞれの場合において、SFFは指数関数的に時間的に成長し、これは単粒子レベルでのランダム行列普遍性の符号であると主張する。 最後に、回路アンサンブルの整合回路表現を開発し、量子シミュレータにおける実験的な実現を可能にした。

The spectral form factor (SFF) is a powerful diagnostic of random matrix behavior in quantum many-body systems. We introduce a family of random circuit ensembles whose SFFs can be computed $\textit{exactly}$. These ensembles describe the evolution of non-interacting fermions in the presence of correlated on-site potentials drawn from the eigenvalue distribution of a circular ensemble. For disorder parameters drawn from the circular unitary ensemble (CUE), we derive an exact closed form for the SFF, valid for any choice of system size $L$ or time $t$. When the disorder is drawn from the circular orthogonal or symplectic ensembles (COE and CSE, respectively), we carry out the disorder averages analytically and reduce the computation of the SFF to a combinatorial problem amenable to transfer matrix methods. In each of these cases the SFF grows exponentially in time, which we argue is a signature of random matrix universality at the single-particle level. Finally, we develop matchgate circuit representations of our circuit ensembles, enabling their experimental realization in quantum simulators.
翻訳日:2024-10-31 04:16:13 公開日:2024-10-10
# FusionSense:ロバストなスパースビューリコンストラクションのためのコモンセンス、ビジョン、タッチをブリッジする

FusionSense: Bridging Common Sense, Vision, and Touch for Robust Sparse-View Reconstruction ( http://arxiv.org/abs/2410.08282v1 )

ライセンス: Link先を確認
Irving Fang, Kairui Shi, Xujin He, Siqi Tan, Yifan Wang, Hanwen Zhao, Hung-Jui Huang, Wenzhen Yuan, Chen Feng, Jing Zhang, (参考訳) 人間は、常識の知識を視覚や触覚からの感覚入力と密接に統合し、周囲を理解する。 この機能を模倣したFusionSenseは、ロボットが視覚や触覚センサーから疎らな観察を行い、基礎モデルから事前情報を融合することのできる、新しい3D再構成フレームワークである。 FusionSenseは3つの課題に対処する。 一 ロボットは、周囲のシーンや物体に関する堅牢なグローバルな形状情報を効率的に取得することができるか。 二 幾何学的・常識的事前情報を用いて、ロボットが物体のタッチポイントを戦略的に選択する方法 三 触覚信号等の部分的な観察は、対象物の全体像をどのように改善することができるか。 本フレームワークでは,3次元ガウススプラッティングを基本表現とし,大域的構造構築,物体の視覚的包絡加工,局所的幾何学的制約を含む階層的最適化戦略を取り入れている。 この進歩は、従来は透明で反射性があり、暗く、より下流での操作やナビゲーション作業を可能にしていた環境において、高速で堅牢な認識をもたらす。 実世界のデータに関する実験から、我々のフレームワークは以前最先端のスパースビュー手法よりも優れていたことが示唆されている。 すべてのコードとデータはプロジェクトのWebサイトで公開されている。

Humans effortlessly integrate common-sense knowledge with sensory input from vision and touch to understand their surroundings. Emulating this capability, we introduce FusionSense, a novel 3D reconstruction framework that enables robots to fuse priors from foundation models with highly sparse observations from vision and tactile sensors. FusionSense addresses three key challenges: (i) How can robots efficiently acquire robust global shape information about the surrounding scene and objects? (ii) How can robots strategically select touch points on the object using geometric and common-sense priors? (iii) How can partial observations such as tactile signals improve the overall representation of the object? Our framework employs 3D Gaussian Splatting as a core representation and incorporates a hierarchical optimization strategy involving global structure construction, object visual hull pruning and local geometric constraints. This advancement results in fast and robust perception in environments with traditionally challenging objects that are transparent, reflective, or dark, enabling more downstream manipulation or navigation tasks. Experiments on real-world data suggest that our framework outperforms previously state-of-the-art sparse-view methods. All code and data are open-sourced on the project website.
翻訳日:2024-10-31 04:16:13 公開日:2024-10-10
# 2+1)次元の位相基底状態に対する多重波動関数重なりと多重エントロピー

Multi wavefunction overlap and multi entropy for topological ground states in (2+1) dimensions ( http://arxiv.org/abs/2410.08284v1 )

ライセンス: Link先を確認
Bowei Liu, Junjia Zhang, Shuhei Ohyama, Yuya Kusuki, Shinsei Ryu, (参考訳) 量子力学的内部積を2つ以上の量子多体状態に一般化した多重波関数重なりは、多体物理学を研究する上で貴重なツールである。 本稿では,(2+1)次元のギャップ状基底状態の多重波関数重なりについて検討し,特に対称性保護位相(SPT)状態に着目した。 これらの重なり合いは、バルク境界対応と(1+1)次元エッジ理論、特に共形場理論を用いてどのように計算できるかを実証する。 SPT 位相に適用すると、位相不変量(トポロジカル不変量)は、適切な対称性の作用を持つ 4 つの基底状態の多重波動重なりから抽出できることが示される。 さらに, 多重波動関数の重なりは, 密度の減少行列の配向によって表すことができることがわかった。 さらに、(2+1)次元のギャップを持つ基底状態に対して、多体量子状態の多分割に付随する量子情報理論量であるマルチエントロピーを評価するために、同じ手法が使用できることを示す。 数値と組み合わせると、三分割の多重エントロピーと第二R'enyiエントロピーの差は、以下から$(c_{{\it tot}}/4)\ln 2$で表される。 自由フェルミオン系(チャーン絶縁体など)のマルチエントロピーを数値計算するために,マルチエントロピーのコレレータ法を開発した。

Multi-wavefunction overlaps -- generalizations of the quantum mechanical inner product for more than two quantum many-body states -- are valuable tools for studying many-body physics. In this paper, we investigate the multi-wavefunction overlap of (2+1)-dimensional gapped ground states, focusing particularly on symmetry-protected topological (SPT) states. We demonstrate how these overlaps can be calculated using the bulk-boundary correspondence and (1+1)-dimensional edge theories, specifically conformal field theory. When applied to SPT phases, we show that the topological invariants, which can be thought of as discrete higher Berry phases, can be extracted from the multi-wavefunction overlap of four ground states with appropriate symmetry actions. Additionally, we find that the multi-wavefunction overlap can be expressed in terms of the realignment of reduced density matrices. Furthermore, we illustrate that the same technique can be used to evaluate the multi-entropy -- a quantum information theoretical quantity associated with multi-partition of many-body quantum states -- for (2+1)-dimensional gapped ground states. Combined with numerics, we show that the difference between multi-entropy for tripartition and second R\'enyi entropies is bounded from below by $(c_{{\it tot}}/4)\ln 2$ where $c_{{\it tot}}$ is the central charge of ungappable degrees of freedom. To calculate multi-entropy numerically for free fermion systems (such as Chern insulators), we develop the correlator method for multi-entropy.
翻訳日:2024-10-31 04:16:13 公開日:2024-10-10
# 混合整数線形計画法の基礎モデルに向けて

Towards Foundation Models for Mixed Integer Linear Programming ( http://arxiv.org/abs/2410.08288v1 )

ライセンス: Link先を確認
Sirui Li, Janardhan Kulkarni, Ishai Menache, Cathy Wu, Beibin Li, (参考訳) 混合整数線形計画法(MILP)は複雑な意思決定問題をモデル化するために必須であるが、計算的トラクタビリティの課題に直面し、専門家の定式化を必要とする。 MILPの最近のディープラーニングアプローチは、特定の問題クラスに焦点を当てており、目に見えないクラスに一般化しない。 この欠点に対処するために、我々は基礎モデルトレーニングアプローチを採用し、様々なMILP問題に基づいて1つのディープラーニングモデルをトレーニングし、問題クラスをまたいで一般化する。 既存のMILPデータセットには多様性とボリュームが欠如しているため、無制限のインスタンスを持つ多種多様なMILPクラスを生成できる新しいLLMベースの進化的フレームワークであるMILP-Evolveを導入する。 我々は,MILPの多様な側面を捉える3つの重要な学習課題について,(1)積分性ギャップ予測,(2)分岐学習,(3)MILPインスタンスを自然言語記述と整合させる新しいタスクについて検討した。 実験の結果,MILP-Evolveが生成したデータに基づいてトレーニングしたモデルはMIPLIBベンチマークを含む未確認問題に対して大幅な改善が得られた。 我々の研究は、幅広いMILPアプリケーションに一般化できるMILPの基礎モデルアプローチに移行する可能性を強調している。 さらなる研究を進めるため、当社の作業を完全にオープンソース化することを約束します。

Mixed Integer Linear Programming (MILP) is essential for modeling complex decision-making problems but faces challenges in computational tractability and requires expert formulation. Current deep learning approaches for MILP focus on specific problem classes and do not generalize to unseen classes. To address this shortcoming, we take a foundation model training approach, where we train a single deep learning model on a diverse set of MILP problems to generalize across problem classes. As existing datasets for MILP lack diversity and volume, we introduce MILP-Evolve, a novel LLM-based evolutionary framework that is capable of generating a large set of diverse MILP classes with an unlimited amount of instances. We study our methodology on three key learning tasks that capture diverse aspects of MILP: (1) integrality gap prediction, (2) learning to branch, and (3) a new task of aligning MILP instances with natural language descriptions. Our empirical results show that models trained on the data generated by MILP-Evolve achieve significant improvements on unseen problems, including MIPLIB benchmarks. Our work highlights the potential of moving towards a foundation model approach for MILP that can generalize to a broad range of MILP applications. We are committed to fully open-sourcing our work to advance further research.
翻訳日:2024-10-31 04:16:13 公開日:2024-10-10
# 合成選好による強化学習による自動質問の難易度向上

Increasing the Difficulty of Automatically Generated Questions via Reinforcement Learning with Synthetic Preference ( http://arxiv.org/abs/2410.08289v1 )

ライセンス: Link先を確認
William Thorne, Ambrose Robinson, Bohua Peng, Chenghua Lin, Diana Maynard, (参考訳) 文化遺産部門は、よりパーソナライズされた検索体験を提供し、コレクションデータとの会話を可能にするために、レトリーバル拡張世代(RAG)のような技術を採用するようになり、特別評価データセットの需要が高まっている。 エンドツーエンドのシステムテストは不可欠ですが、個々のコンポーネントを評価することは同じように重要です。 最終回答タスクは,Machine Reading Comprehension (MRC) に適している。 既存のMRCデータセットは一般的なドメインに対処するが、文化遺産情報に必要な特異性は欠如している。 残念ながら、このようなデータセットを手作業で作成することは、ほとんどの遺産機関にとって違法に高価である。 本稿では、RLHF(Reinforcement Learning from Human Feedback)を用いた合成選好データから、ドメイン固有のMRCデータセットを生成するためのコスト効率のよいアプローチを提案する。 提案手法は,SQuADのサブセット上での既存の質問応答モデルの性能を利用して,より難しい質問がより少ない頻度で答えられることを前提として,難解な尺度を作成する。 本研究は,(1)PPOと合成データを用いた質問の難易度向上手法,(2)人体評価を含む手法の有効性の実証的証拠,(3)深度誤差解析と創発現象の研究,(4)オープンソースコードベースと3つのラマ-2-チャットアダプタの再現性と適応のためのセットについて提案する。

As the cultural heritage sector increasingly adopts technologies like Retrieval-Augmented Generation (RAG) to provide more personalised search experiences and enable conversations with collections data, the demand for specialised evaluation datasets has grown. While end-to-end system testing is essential, it's equally important to assess individual components. We target the final, answering task, which is well-suited to Machine Reading Comprehension (MRC). Although existing MRC datasets address general domains, they lack the specificity needed for cultural heritage information. Unfortunately, the manual creation of such datasets is prohibitively expensive for most heritage institutions. This paper presents a cost-effective approach for generating domain-specific MRC datasets with increased difficulty using Reinforcement Learning from Human Feedback (RLHF) from synthetic preference data. Our method leverages the performance of existing question-answering models on a subset of SQuAD to create a difficulty metric, assuming that more challenging questions are answered correctly less frequently. This research contributes: (1) A methodology for increasing question difficulty using PPO and synthetic data; (2) Empirical evidence of the method's effectiveness, including human evaluation; (3) An in-depth error analysis and study of emergent phenomena; and (4) An open-source codebase and set of three llama-2-chat adapters for reproducibility and adaptation.
翻訳日:2024-10-31 04:16:13 公開日:2024-10-10
# ループ変換器はインコンテキスト学習のための多段階グラディエント Descent を実現することができるか?

Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? ( http://arxiv.org/abs/2410.08292v1 )

ライセンス: Link先を確認
Khashayar Gatmiry, Nikunj Saunshi, Sashank J. Reddi, Stefanie Jegelka, Sanjiv Kumar, (参考訳) トランスフォーマーが推論や数発の学習を微調整なしで行うという驚くべき能力は、勾配降下のような多段階アルゴリズムを暗黙的に1回の前方通過でシミュレートする能力に由来すると広く推測されている。 近年、トランスフォーマーがそのような多段階のアルゴリズムを表現できることを実証することで、表現性の観点からこの複雑な現象を理解することが進歩している。 しかしながら、学習可能性のより基本的な側面に関する私たちの知識は、単層モデルを超えて、非常に限られています。 特に、トランスフォーマーのトレーニングはアルゴリズム解への収束を可能にするだろうか? 本研究では、重み共有を伴う多層モデルであり、固定点反復アルゴリズムを学習するための帰納バイアスを持つと推測される。 より具体的には、人口訓練損失のグローバル最小化は、データ分布に適応するプレコンディショナーを用いて、多段階の事前条件勾配降下を実装していることを示す。 さらに, 地形の非凸性にも拘わらず, 新しい勾配支配条件を示すことにより, 回帰損失に対する勾配流の高速収束を示す。 我々の知る限り、これは多層トランスの理論的解析としては初めてである。 我々はさらに, 合成実験により理論的知見を検証した。

The remarkable capability of Transformers to do reasoning and few-shot learning, without any fine-tuning, is widely conjectured to stem from their ability to implicitly simulate a multi-step algorithms -- such as gradient descent -- with their weights in a single forward pass. Recently, there has been progress in understanding this complex phenomenon from an expressivity point of view, by demonstrating that Transformers can express such multi-step algorithms. However, our knowledge about the more fundamental aspect of its learnability, beyond single layer models, is very limited. In particular, can training Transformers enable convergence to algorithmic solutions? In this work we resolve this for in-context linear regression with linear looped Transformers -- a multi-layer model with weight sharing that is conjectured to have an inductive bias to learn fix-point iterative algorithms. More specifically, for this setting we show that the global minimizer of the population training loss implements multi-step preconditioned gradient descent, with a preconditioner that adapts to the data distribution. Furthermore, we show a fast convergence for gradient flow on the regression loss, despite the non-convexity of the landscape, by proving a novel gradient dominance condition. To our knowledge, this is the first theoretical analysis for multi-layer Transformer in this setting. We further validate our theoretical findings through synthetic experiments.
翻訳日:2024-10-31 04:16:13 公開日:2024-10-10
# 組成空間における中高エントロピー合金の電子構造予測

Electronic structure prediction of medium and high entropy alloys across composition space ( http://arxiv.org/abs/2410.08294v1 )

ライセンス: Link先を確認
Shashank Pathrudkar, Stephanie Taylor, Abhishek Keripale, Abhijeet Sadashiv Gangan, Ponkrshnan Thiagarajan, Shivang Agarwal, Jaime Marian, Susanta Ghosh, Amartya S. Banerjee, (参考訳) 濃縮合金の組成空間全体にわたって、材料基底状態の基本的な未知である電子密度を予測する機械学習(ML)モデルを提案する。 このことから、他の物理的性質を推測することができ、探索を加速することができる。 重要な課題は、電子密度のような分野を正確に予測するために必要なサンプル組成と記述子の数が、種によって急速に増加することである。 これを解決するためにベイジアンアクティブラーニング(AL)を用い、ベイジアンニューラルネットワークの不確実性定量化機能を活用することで、トレーニングデータ要求を最小限にする。 合成空間の戦略的テッセル化と比較すると、ベイジアンアルは3次(SiGeSn)の2.5倍、四次(CrFeCoNi)の1.7倍の訓練データ点数を減少させる。 また, 物理的対称性を尊重し, 合金元素の増加に伴ってほぼ同程度の大きさのディスクリプタ・ベクトルサイズを維持する, 容易に最適化できるボディアタッチメントフレームディスクリプタも導入した。 我々のMLモデルは、構成空間をまたいだ電子密度とエネルギーの予測において高い精度と一般化性を示す。

We propose machine learning (ML) models to predict the electron density -- the fundamental unknown of a material's ground state -- across the composition space of concentrated alloys. From this, other physical properties can be inferred, enabling accelerated exploration. A significant challenge is that the number of sampled compositions and descriptors required to accurately predict fields like the electron density increases rapidly with species. To address this, we employ Bayesian Active Learning (AL), which minimizes training data requirements by leveraging uncertainty quantification capabilities of Bayesian Neural Networks. Compared to strategic tessellation of the composition space, Bayesian-AL reduces the number of training data points by a factor of 2.5 for ternary (SiGeSn) and 1.7 for quaternary (CrFeCoNi) systems. We also introduce easy-to-optimize, body-attached-frame descriptors, which respect physical symmetries and maintain approximately the same descriptor-vector size as alloy elements increase. Our ML models demonstrate high accuracy and generalizability in predicting both electron density and energy across composition space.
翻訳日:2024-10-31 04:16:13 公開日:2024-10-10
# 機械学習における欠落値の影響:包括的分析

Impact of Missing Values in Machine Learning: A Comprehensive Analysis ( http://arxiv.org/abs/2410.08295v1 )

ライセンス: Link先を確認
Abu Fuad Ahmad, Md Shohel Sayeed, Khaznah Alshammari, Istiaque Ahmed, (参考訳) 機械学習(ML)は、データマイニングとビッグデータ分析のさまざまな領域において、ユビキタスなツールになっている。 MLモデルの有効性は高品質なデータセットに大きく依存する。 その結果、機械学習モデルの性能と一般化は、そのようなデータセットに直面してリスクにさらされている。 本稿では,欠落した値がMLワークフローに与える影響について,そのタイプ,原因,結果などについて検討する。 分析では、バイアス付き推論、予測能力の低下、計算負荷の増大など、欠落した値による課題に焦点を当てた。 さらに、計算手法や除去戦略など、欠落した値を扱うための戦略について検討し、欠落した値がモデル評価指標にどのように影響するかを調査し、クロスバリデーションやモデル選択における複雑さを導入する。 この研究は、欠落した値に対処する実践的な意味を説明するためにケーススタディと実例を用いている。 最後に、議論は将来の研究方向にまで拡張され、欠落した価値を倫理的かつ透明に扱う必要性を強調した。 本研究の主な目的は、MLモデルに欠落した価値が広範に与える影響についての洞察を提供することであり、堅牢で信頼性の高いモデル結果を達成するための効果的な戦略を実践者の指導することである。

Machine learning (ML) has become a ubiquitous tool across various domains of data mining and big data analysis. The efficacy of ML models depends heavily on high-quality datasets, which are often complicated by the presence of missing values. Consequently, the performance and generalization of ML models are at risk in the face of such datasets. This paper aims to examine the nuanced impact of missing values on ML workflows, including their types, causes, and consequences. Our analysis focuses on the challenges posed by missing values, including biased inferences, reduced predictive power, and increased computational burdens. The paper further explores strategies for handling missing values, including imputation techniques and removal strategies, and investigates how missing values affect model evaluation metrics and introduces complexities in cross-validation and model selection. The study employs case studies and real-world examples to illustrate the practical implications of addressing missing values. Finally, the discussion extends to future research directions, emphasizing the need for handling missing values ethically and transparently. The primary goal of this paper is to provide insights into the pervasive impact of missing values on ML models and guide practitioners toward effective strategies for achieving robust and reliable model outcomes.
翻訳日:2024-10-31 04:16:13 公開日:2024-10-10
# グラフからの私的学習と微調整大規模言語モデルへの応用

Privately Learning from Graphs with Applications in Fine-tuning Large Language Models ( http://arxiv.org/abs/2410.08299v1 )

ライセンス: Link先を確認
Haoteng Yin, Rongzhe Wei, Eli Chien, Pan Li, (参考訳) グラフはエンティティ間の関係や相互作用に関するユニークな洞察を提供し、テキスト、画像、ビデオなどのデータモダリティを補完する。 グラフデータからのリレーショナル情報を組み込むことで、AIモデルは従来のタスクを超えて機能を拡張することができる。 しかし、金融や医療などの機密ドメインのリレーショナルデータは、しばしばプライベート情報を含んでいるため、プライバシ保護が不可欠である。 DP-SGDのような既存のプライバシ保護手法は、グラデーションデカップリングの仮定に依存するが、結合したトレーニングサンプル間の固有の依存関係のため、関係学習には適していない。 この課題に対処するために,DP-SGDのカスタマイズによる差分プライバシーを確保するために,サンプル関係の依存関係を分離するプライバシー保護型関係学習パイプラインを提案する。 本手法は, グラフデータに基づく大規模言語モデル (LLM) の微調整に応用し, 関連する計算複雑性に対処する。 提案手法は,4つのテキスト分散グラフからの実時間関係データを用いて,様々なサイズ(例えばBERT,Llama2)のLLMを用いて評価する。 その結果、リレーショナル学習タスクにおいて、トレーニング中の堅牢なプライバシ保証を維持しながら、大幅な改善が示された。 さらに、プライバシ、ユーティリティ、計算効率のトレードオフについて検討し、アプローチの実践的な展開に関する洞察を提供する。 コードはhttps://github.com/Graph-COM/PvGaLMで入手できる。

Graphs offer unique insights into relationships and interactions between entities, complementing data modalities like text, images, and videos. By incorporating relational information from graph data, AI models can extend their capabilities beyond traditional tasks. However, relational data in sensitive domains such as finance and healthcare often contain private information, making privacy preservation crucial. Existing privacy-preserving methods, such as DP-SGD, which rely on gradient decoupling assumptions, are not well-suited for relational learning due to the inherent dependencies between coupled training samples. To address this challenge, we propose a privacy-preserving relational learning pipeline that decouples dependencies in sampled relations during training, ensuring differential privacy through a tailored application of DP-SGD. We apply this method to fine-tune large language models (LLMs) on sensitive graph data, and tackle the associated computational complexities. Our approach is evaluated on LLMs of varying sizes (e.g., BERT, Llama2) using real-world relational data from four text-attributed graphs. The results demonstrate significant improvements in relational learning tasks, all while maintaining robust privacy guarantees during training. Additionally, we explore the trade-offs between privacy, utility, and computational efficiency, offering insights into the practical deployment of our approach. Code is available at https://github.com/Graph-COM/PvGaLM.
翻訳日:2024-10-31 04:16:13 公開日:2024-10-10
# DNNにおけるアルゴリズム設計選択のためのフレームワーク

A Framework to Enable Algorithmic Design Choice Exploration in DNNs ( http://arxiv.org/abs/2410.08300v1 )

ライセンス: Link先を確認
Timothy L. Cronin IV, Sanmukh Kuppannagari, (参考訳) ディープラーニング技術、特にディープニューラルネットワーク(DNN)は多くのドメインで大きな成功を収めている。 この成功には、DNNが要求する操作の背後にあるアルゴリズムの大幅な進歩と革新が伴っている。 これらの拡張アルゴリズムは、DNNの性能を大幅に向上させる可能性を秘めている。 しかし、DNNにとって最高の性能のアルゴリズムを発見し、そのようなアルゴリズムを使用するようにDNNを変更することは困難かつ時間を要する作業である。 この問題に対処するため,我々は,DNNの微粒化アルゴリズム制御を容易に利用できるオープンソースフレームワークを導入し,アルゴリズムの探索と選択を可能にした。 このフレームワークは、一般的なディープラーニング操作の高性能実装と合わせて、ユーザがDNNが利用する独自のアルゴリズムの実装と選択を可能にする。 フレームワークのビルトインアクセラレーション実装は、一般的なDNNフレームワークであるPyTorchの実装と同様に、出力を出力し、同様のパフォーマンスを示す。 さらに、このフレームワークは追加のパフォーマンスオーバーヘッドを発生しないため、パフォーマンスはユーザーが選択したアルゴリズムにのみ依存する。

Deep learning technologies, particularly deep neural networks (DNNs), have demonstrated significant success across many domains. This success has been accompanied by substantial advancements and innovations in the algorithms behind the operations required by DNNs. These enhanced algorithms hold the potential to greatly increase the performance of DNNs. However, discovering the best performing algorithm for a DNN and altering the DNN to use such algorithm is a difficult and time consuming task. To address this, we introduce an open source framework which provides easy to use fine grain algorithmic control for DNNs, enabling algorithmic exploration and selection. Along with built-in high performance implementations of common deep learning operations, the framework enables users to implement and select their own algorithms to be utilized by the DNN. The framework's built-in accelerated implementations are shown to yield outputs equivalent to and exhibit similar performance as implementations in PyTorch, a popular DNN framework. Moreover, the framework incurs no additional performance overhead, meaning that performance depends solely on the algorithms chosen by the user.
翻訳日:2024-10-31 04:16:13 公開日:2024-10-10
# 量子技術における経験的学習のためのアクセシブル平面イオントラップ

An Accessible Planar Ion Trap for Experiential Learning in Quantum Technologies ( http://arxiv.org/abs/2410.08301v1 )

ライセンス: Link先を確認
Robert E. Thomas, Cole E. Wolfram, Noah B. Warren, Isaac J. Fouch, Boris B. Blinov, Maxwell F. Parsons, (参考訳) 本稿では,平面状線形イオントラップを用いたイオントラップを探索する,安価でアクセス可能な命令セットについて述べる。 平面トラップは標準プリント基板製造により構築され、空気中のマクロ荷電粒子を捕捉するように設計されている。 トラッピング、シャットリング、スプリッティングは、これらの粒子を裸眼で見る学生に示される。 学生はトラップ電圧を制御でき、粒子運動の特性を粒子追跡のためのコンピュータビジョンプログラムを用いて、トラップの解析モデルと比較することができる。 学習成果には、平面RFトラップの設計上の考慮事項の理解、イオン放出を支えるメカニズム、マイクロモーションの物理、標準コンピュータビジョンライブラリを用いたデータ解析方法などが含まれる。

We describe an inexpensive and accessible instructional setup which explores ion trapping with a planar linear ion trap. The planar trap is constructed using standard printed circuit board manufacturing and is designed to trap macroscopic charged particles in air. Trapping, shuttling, and splitting is demonstrated to students using these particles, visible to the naked eye. Students have control over trap voltages and can compare properties of particle motion to an analytic model of the trap using a computer vision program for particle tracking. Learning outcomes include understanding the design considerations for planar RF traps, mechanisms underpinning ion ejection, the physics of micromotion, and methods of data analysis using standard computer vision libraries.
翻訳日:2024-10-31 04:16:13 公開日:2024-10-10
# メールアドレスのプライバシーを監査し、オンラインサービスやアプリのマーケティング実践を分析するフレームワーク

A Framework to Audit Email Address Privacy and Analyze Email Marketing Practices of Online Services and Apps ( http://arxiv.org/abs/2410.08302v1 )

ライセンス: Link先を確認
Scott Seidenberger, Oluwasijibomi Ajisegiri, Noah Pursell, Fazil Raja, Anindya Maiti, (参考訳) 本研究は、電子メールアドレスなどの個人情報が、利用者の同意なく共有・販売される可能性があるという認識が広まっており、これらの懸念が人気のあるオンラインサービスやアプリの実践に反映されているかどうかを調査している。 1年間にわたって、さまざまな分野で最も人気のあるオンラインサービスとアプリ150社にサインアップした後、ユーザーが受信したメールのソース、ボリューム、頻度、内容を収集し、分析しました。 電子メール通信のパターンを調べることで、サードパーティのデータ共有の兆候を含む、業界全体で使われる一貫した戦略を特定することを目指している。 この分析は、メールマーケティングの戦術が、消費者のプライバシーと規制の監督に重要な意味を持つデータ共有の実践とどのように交わるかを批判的に評価する。 調査はCCPA後,GDPR後において,サードパーティのスパムメールは検出されなかったが,社内メールマーケティングは広範に行われており,オプトアウトの好みにもかかわらず,企業が頻繁にプロモーションメールやCRMメールを送信していることが示唆された。 この作業で確立されたフレームワークは、スケーラブルで、継続的な監視が可能で、より多様なアプリケーションやサービスを含むように拡張され、より広範な分析が可能で、最終的にはデータのプライバシプラクティスに対するユーザ認識の改善に寄与する。

This study explores the widespread perception that personal data, such as email addresses, may be shared or sold without informed user consent, investigating whether these concerns are reflected in actual practices of popular online services and apps. Over the course of a year, we collected and analyzed the source, volume, frequency, and content of emails received by users after signing up for the 150 most popular online services and apps across various sectors. By examining patterns in email communications, we aim to identify consistent strategies used across industries, including potential signs of third-party data sharing. This analysis provides a critical evaluation of how email marketing tactics may intersect with data-sharing practices, with important implications for consumer privacy and regulatory oversight. Our study findings, conducted post-CCPA and GDPR, indicate that while no third-party spam email was detected, internal email marketing practices were pervasive, with companies frequently sending promotional and CRM emails despite opt-out preferences. The framework established in this work is designed to be scalable, allowing for continuous monitoring, and can be extended to include a more diverse set of apps and services for broader analysis, ultimately contributing to improved user perception of data privacy practices.
翻訳日:2024-10-31 04:06:19 公開日:2024-10-10
# 大域リアプノフ関数 : 記号変換器を用いた数学における長年の開問題

Global Lyapunov functions: a long-standing open problem in mathematics, with symbolic transformers ( http://arxiv.org/abs/2410.08304v1 )

ライセンス: Link先を確認
Alberto Alfarano, François Charton, Amaury Hayat, (参考訳) その壮大な進歩にもかかわらず、言語モデルはまだ高度な数学のような複雑な推論タスクに苦戦している。 数学における長年の未解決問題として、力学系の大域的安定性を保証するリャプノフ函数の発見を考える。 この問題には既知の一般解はなく、アルゴリズム的解法はいくつかの小さな多項式系に対してのみ存在する。 ランダムな解から合成学習サンプルを生成する新しい手法を提案し、このようなデータセットで訓練されたシーケンス・ツー・シーケンス・トランスフォーマーは、多項式系上でのアルゴリズム的解法や人間よりも優れた性能を示し、非ポリノミカル系のための新しいリアプノフ関数を発見できることを示す。

Despite their spectacular progress, language models still struggle on complex reasoning tasks, such as advanced mathematics. We consider a long-standing open problem in mathematics: discovering a Lyapunov function that ensures the global stability of a dynamical system. This problem has no known general solution, and algorithmic solvers only exist for some small polynomial systems. We propose a new method for generating synthetic training samples from random solutions, and show that sequence-to-sequence transformers trained on such datasets perform better than algorithmic solvers and humans on polynomial systems, and can discover new Lyapunov functions for non-polynomial systems.
翻訳日:2024-10-31 04:06:19 公開日:2024-10-10
# LoRAのランダム化不斉鎖--低ランク適応のための有意義な理論的枠組み

Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation ( http://arxiv.org/abs/2410.08305v1 )

ライセンス: Link先を確認
Grigory Malinovsky, Umberto Michieli, Hasan Abed Al Kader Hammoud, Taha Ceritli, Hayder Elesedy, Mete Ozay, Peter Richtárik, (参考訳) ファインチューニングは、特定のタスクに大規模な基礎モデルを適用するための一般的なアプローチとなっている。 モデルやデータセットのサイズが大きくなるにつれて、パラメータ効率の良い微調整技術がますます重要になっている。 最も広く使われている手法の1つはローランク適応 (LoRA) であり、適応更新は2つの低ランク行列の積として表される。 LoRAは微調整において強い性能を示したが、フルパラメータ微調整(FPFT)に比べて性能は低かった。 LoRAの多くの変種は実験的に研究されてきたが、理論的な最適化分析は非常に過小評価されている。 私たちの研究の出発点は、LoRAとその2つの拡張である非対称LoRAとLoRAの連鎖が実際に収束問題に遭遇するデモである。 これらの問題に対処するため,LoRAの収束率を厳密に解析する汎用最適化フレームワークであるRandomized Asymmetric Chain of LoRA (RAC-LoRA)を提案する。 提案手法は LoRA スタイルのヒューリスティックスの実証的な利点を継承するが,アルゴリズムの小型かつ重要な修正がいくつか導入され,それが証明可能な収束法となる。 我々のフレームワークは、FPFTと低ランク適応の橋渡しとして機能する。 我々は、FPFTと同じ解に対する収束の証明可能な保証と収束の速度を提供する。 さらに, 滑らかな非凸損失関数の収束解析, 勾配降下, 確率勾配降下, フェデレート学習設定を提案する。 理論的知見は実験結果によって裏付けられている。

Fine-tuning has become a popular approach to adapting large foundational models to specific tasks. As the size of models and datasets grows, parameter-efficient fine-tuning techniques are increasingly important. One of the most widely used methods is Low-Rank Adaptation (LoRA), with adaptation update expressed as the product of two low-rank matrices. While LoRA was shown to possess strong performance in fine-tuning, it often under-performs when compared to full-parameter fine-tuning (FPFT). Although many variants of LoRA have been extensively studied empirically, their theoretical optimization analysis is heavily under-explored. The starting point of our work is a demonstration that LoRA and its two extensions, Asymmetric LoRA and Chain of LoRA, indeed encounter convergence issues. To address these issues, we propose Randomized Asymmetric Chain of LoRA (RAC-LoRA) -- a general optimization framework that rigorously analyzes the convergence rates of LoRA-based methods. Our approach inherits the empirical benefits of LoRA-style heuristics, but introduces several small but important algorithmic modifications which turn it into a provably convergent method. Our framework serves as a bridge between FPFT and low-rank adaptation. We provide provable guarantees of convergence to the same solution as FPFT, along with the rate of convergence. Additionally, we present a convergence analysis for smooth, non-convex loss functions, covering gradient descent, stochastic gradient descent, and federated learning settings. Our theoretical findings are supported by experimental results.
翻訳日:2024-10-31 04:06:19 公開日:2024-10-10
# UNIQ: 望ましくない説明を避けるためのオフラインの逆Q-ラーニング

UNIQ: Offline Inverse Q-learning for Avoiding Undesirable Demonstrations ( http://arxiv.org/abs/2410.08307v1 )

ライセンス: Link先を確認
Huy Hoang, Tien Mai, Pradeep Varakantham, (参考訳) 我々は、望ましくない実演を避ける政策としてオフライン学習の問題に対処する。 専門家や準最適実証を模倣することを目的とした従来のオフライン模倣学習アプローチとは異なり、我々の設定では望ましくない動作(望ましくない実演を用いて特定される)を避ける必要がある。 この問題に対処するために,学習方針と専門家による実証との距離を最小化することを目的とした標準的な模倣学習とは異なり,学習課題は,学習方針と望ましくない政策との間の定常分布の空間において,統計的距離を最大化するものとして定式化する。 このかなり異なるアプローチは、それに対応するために新しいアルゴリズムを必要とする新しいトレーニング目標をもたらす。 我々のアルゴリズムUNIQは、逆Q-ラーニングフレームワーク上に構築し、学習問題を協調的(非逆)なタスクとしてフレーミングすることで、これらの課題に対処する。 次に、ラベルのないデータを効果的に活用して実践的なトレーニングを行う方法を示す。 提案手法は標準ベンチマーク環境で評価され,最先端のベースラインを一貫して上回っている。 コードの実装は、 https://github.com/hmhuy0/UNIQ.comでアクセスできます。

We address the problem of offline learning a policy that avoids undesirable demonstrations. Unlike conventional offline imitation learning approaches that aim to imitate expert or near-optimal demonstrations, our setting involves avoiding undesirable behavior (specified using undesirable demonstrations). To tackle this problem, unlike standard imitation learning where the aim is to minimize the distance between learning policy and expert demonstrations, we formulate the learning task as maximizing a statistical distance, in the space of state-action stationary distributions, between the learning policy and the undesirable policy. This significantly different approach results in a novel training objective that necessitates a new algorithm to address it. Our algorithm, UNIQ, tackles these challenges by building on the inverse Q-learning framework, framing the learning problem as a cooperative (non-adversarial) task. We then demonstrate how to efficiently leverage unlabeled data for practical training. Our method is evaluated on standard benchmark environments, where it consistently outperforms state-of-the-art baselines. The code implementation can be accessed at: https://github.com/hmhuy0/UNIQ.
翻訳日:2024-10-31 04:06:19 公開日:2024-10-10
# 失敗価値計算のための機械学習

Machine Learning for Missing Value Imputation ( http://arxiv.org/abs/2410.08308v1 )

ライセンス: Link先を確認
Abu Fuad Ahmad, Khaznah Alshammari, Istiaque Ahmed, MD Shohel Sayed, (参考訳) 近年,MVI(Missing Value Imputation)問題に対処する研究が数多く行われている。 MVIは、1つ以上の属性値が欠けているデータセットに対して、主要なソリューションを提供することを目的としている。 人工知能(AI)の進歩は、新しい改良された機械学習(ML)アルゴリズムと方法の開発を促進する。 MLの進歩は、これらの欠落した価値を効果的に推し進めるための重要な機会を開いた。 本稿の主な目的は、MVI手法における最先端のMLアプリケーションの解析と同様に、包括的で厳密なレビューを行うことである。 この分析は、研究者の主題に対する理解を深め、データ分析のためのデータ前処理における堅牢で影響力のある介入の開発を促進することを目的としている。 The review is performed following the Preferred Reporting Items for Systematic Reviews and Meta-Analysis (PRISMA) technique。 2014年から2023年にかけて発行された100以上の記事が、その方法や発見を考慮して批判的にレビューされている。 さらに, 最新の文献を用いて, MVI法の動向とその評価について検討した。 現存する文献の成果と限界を詳しく論じる。 調査は、研究の現在のギャップを特定し、今後の研究方向性と、関連分野の新たなトレンドを示唆することで締めくくっている。

In recent times, a considerable number of research studies have been carried out to address the issue of Missing Value Imputation (MVI). MVI aims to provide a primary solution for datasets that have one or more missing attribute values. The advancements in Artificial Intelligence (AI) drive the development of new and improved machine learning (ML) algorithms and methods. The advancements in ML have opened up significant opportunities for effectively imputing these missing values. The main objective of this article is to conduct a comprehensive and rigorous review, as well as analysis, of the state-of-the-art ML applications in MVI methods. This analysis seeks to enhance researchers' understanding of the subject and facilitate the development of robust and impactful interventions in data preprocessing for Data Analytics. The review is performed following the Preferred Reporting Items for Systematic Reviews and Meta-Analysis (PRISMA) technique. More than 100 articles published between 2014 and 2023 are critically reviewed, considering the methods and findings. Furthermore, the latest literature is examined to scrutinize the trends in MVI methods and their evaluation. The accomplishments and limitations of the existing literature are discussed in detail. The survey concludes by identifying the current gaps in research and providing suggestions for future research directions and emerging trends in related fields of interest.
翻訳日:2024-10-31 04:06:19 公開日:2024-10-10
# 概念学習のダイナミクスと構成的一般化

Dynamics of Concept Learning and Compositional Generalization ( http://arxiv.org/abs/2410.08309v1 )

ライセンス: Link先を確認
Yongyi Yang, Core Francisco Park, Ekdeep Singh Lubana, Maya Okawa, Wei Hu, Hidenori Tanaka, (参考訳) 以前の研究は、テキスト条件付き拡散モデルが、合成データ生成プロセスの根底にある原始概念を識別し、操作することを学習し、完全に新規な分布外合成を一般化できることを示した。 性能評価の他に、これらの研究は学習力学の豊かな経験的現象論を発展させ、モデルがデータ生成過程の構成的階層を尊重し、逐次的に一般化することを示した。 さらに、データ内の概念中心構造は、概念を操作する能力の学習速度に大きな影響を及ぼす。 本稿では,これらの実験結果を理論的観点からよりよく特徴付けることを目的としている。 具体的には,モデルがガウス混合体と構造的に整理された遠心体との恒等写像を学習するために訓練された構造化IDマッピング(SIM)タスクを導入することで,先行作業の合成一般化問題の抽象化を提案する。 我々は,このSIMタスクで訓練されたニューラルネットワークの学習力学を数学的に解析し,その単純さにもかかわらず,SIMの学習力学は,先行研究で同定された拡散モデルを用いた構成一般化に関する重要な経験的観察を捉えるのに役立つことを示す。 私たちの理論は、トレーニングの初期段階におけるテスト損失の非単調な学習ダイナミクスの新たなメカニズムを見つけるなど、いくつかの新しい洞察も提供しています。 我々は、テキスト条件付き拡散モデルを訓練し、単純化されたフレームワークと複雑な生成モデルをブリッジすることで、新しい予測を検証する。 全体として、この研究はSIMタスクを現代の生成モデルにおける概念学習ダイナミクスの有意義な理論的抽象化として確立している。

Prior work has shown that text-conditioned diffusion models can learn to identify and manipulate primitive concepts underlying a compositional data-generating process, enabling generalization to entirely novel, out-of-distribution compositions. Beyond performance evaluations, these studies develop a rich empirical phenomenology of learning dynamics, showing that models generalize sequentially, respecting the compositional hierarchy of the data-generating process. Moreover, concept-centric structures within the data significantly influence a model's speed of learning the ability to manipulate a concept. In this paper, we aim to better characterize these empirical results from a theoretical standpoint. Specifically, we propose an abstraction of prior work's compositional generalization problem by introducing a structured identity mapping (SIM) task, where a model is trained to learn the identity mapping on a Gaussian mixture with structurally organized centroids. We mathematically analyze the learning dynamics of neural networks trained on this SIM task and show that, despite its simplicity, SIM's learning dynamics capture and help explain key empirical observations on compositional generalization with diffusion models identified in prior work. Our theory also offers several new insights -- e.g., we find a novel mechanism for non-monotonic learning dynamics of test loss in early phases of training. We validate our new predictions by training a text-conditioned diffusion model, bridging our simplified framework and complex generative models. Overall, this work establishes the SIM task as a meaningful theoretical abstraction of concept learning dynamics in modern generative models.
翻訳日:2024-10-31 04:06:19 公開日:2024-10-10
# NNGPカーネルと母カーネルの対応

Correspondence of NNGP Kernel and the Matern Kernel ( http://arxiv.org/abs/2410.08311v1 )

ライセンス: Link先を確認
Amanda Muyskens, Benjamin W. Priest, Imene R. Goumiri, Michael D. Schneider, (参考訳) ニューラルネットワークアーキテクチャの制限ケースを表すカーネルが最近人気を集めている。 しかし、Maternカーネルのような既存のオプションと比較して、これらの新しいカーネルの適用と性能はよく研究されていない。 本稿では,ニューラルネットワークガウス過程(NNGP)カーネルとそのガウス過程回帰データへの応用について検討する。 まず、有効なNNGPカーネルを生成するための正規化の必要性を示し、関連する数値的課題を探求する。 さらに、このモデルからの予測は、非常に非フレキシブルであり、従って、有効なハイパーパラメータ集合についてはあまり変化しないことを示す。 次に、NNGPカーネルから得られる予測が、特定の状況下でMaternカーネルが与える予測と密接に一致していることを示し、これは過パラメータ化されたディープニューラルネットワークとMaternカーネルとの深い類似性を示唆している。 最後に, NNGPカーネルの3つのベンチマークデータに対して, Maternカーネルと比較して, NNGPカーネルの性能を示す。

Kernels representing limiting cases of neural network architectures have recently gained popularity. However, the application and performance of these new kernels compared to existing options, such as the Matern kernel, is not well studied. We take a practical approach to explore the neural network Gaussian process (NNGP) kernel and its application to data in Gaussian process regression. We first demonstrate the necessity of normalization to produce valid NNGP kernels and explore related numerical challenges. We further demonstrate that the predictions from this model are quite inflexible, and therefore do not vary much over the valid hyperparameter sets. We then demonstrate a surprising result that the predictions given from the NNGP kernel correspond closely to those given by the Matern kernel under specific circumstances, which suggests a deep similarity between overparameterized deep neural networks and the Matern kernel. Finally, we demonstrate the performance of the NNGP kernel as compared to the Matern kernel on three benchmark data cases, and we conclude that for its flexibility and practical performance, the Matern kernel is preferred to the novel NNGP in practical applications.
翻訳日:2024-10-31 04:06:19 公開日:2024-10-10
# 強化学習による拡散モデルにおけるモード崩壊回避

Avoiding mode collapse in diffusion models fine-tuned with reinforcement learning ( http://arxiv.org/abs/2410.08315v1 )

ライセンス: Link先を確認
Roberto Barceló, Cristóbal Alcázar, Felipe Tobar, (参考訳) 強化学習(RL)による微調整基礎モデルは、下流の目標に整合する上で有望であることが証明されている。 拡散モデル(DM)の場合、RLトレーニングは初期の段階からアライメントを改善するが、トレーニング不安定やモード崩壊といった重要な問題が発生する。 モデル性能(またはアライメント)の連続的な評価とステップバイステップ改善を可能にするために,各エポックで動的にRL法でトレーニングする。 さらに、ダウンストリームタスクにDMをアライメントするために、すべてのデノイングステップを微調整する必要はありません。 その結果、クリッピングに加えて、スライディング・ウインドウ・アプローチにより、異なる学習段階におけるモデルパラメータを規則化する。 階層的リワードファインチューニング(HRF)と呼ばれるこの手法は,HRFで訓練されたモデルが下流タスクの多様性の保存性を向上し,微調整の堅牢性を高め,平均報酬を損なわずに向上することを示す,Denoising Diffusion Policy Optimisation法で検証されている。

Fine-tuning foundation models via reinforcement learning (RL) has proven promising for aligning to downstream objectives. In the case of diffusion models (DMs), though RL training improves alignment from early timesteps, critical issues such as training instability and mode collapse arise. We address these drawbacks by exploiting the hierarchical nature of DMs: we train them dynamically at each epoch with a tailored RL method, allowing for continual evaluation and step-by-step refinement of the model performance (or alignment). Furthermore, we find that not every denoising step needs to be fine-tuned to align DMs to downstream tasks. Consequently, in addition to clipping, we regularise model parameters at distinct learning phases via a sliding-window approach. Our approach, termed Hierarchical Reward Fine-tuning (HRF), is validated on the Denoising Diffusion Policy Optimisation method, where we show that models trained with HRF achieve better preservation of diversity in downstream tasks, thus enhancing the fine-tuning robustness and at uncompromising mean rewards.
翻訳日:2024-10-31 04:06:19 公開日:2024-10-10
# HyperDPO: ハイパーネットワークベースの多目的ファインチューニングフレームワーク

HyperDPO: Hypernetwork-based Multi-Objective Fine-Tuning Framework ( http://arxiv.org/abs/2410.08316v1 )

ライセンス: Link先を確認
Yinuo Ren, Tesi Xiao, Michael Shavlovsky, Lexing Ying, Holakou Rahmanian, (参考訳) LLMアライメントやその他のMLアプリケーションでは、しばしばMOFT(Multi-Objective Fine-Tuning)問題に直面している。 この課題に対処するために,提案するハイパーネットワークベースの手法であるHyperDPOフレームワークを提案する。 このフレームワークは,DPOのBradley-Terry-LuceモデルをPlanet-Luceモデルに置き換えることで,リストワイズデータセットを含む幅広いMOFTタスクを処理できる。 従来のアプローチと比較して、HyperDPOは補助目標のパレートフロントをプロファイリングするための効率的なワンショットトレーニングプロセスを提供し、トレードオフに対する柔軟な後トレーニング制御を提供する。 さらに,提案するHyper Prompt Tuning設計では,アーキテクチャの変更を伴わずに,目標を横断して連続的な重みをトランスフォーマーベースモデルに伝達する。 本稿では,LTR(Learning-to-Rank)やLLMアライメントなど,さまざまなタスクに適用したHyperDPOフレームワークの有効性と効率を実証し,大規模なMLデプロイメントの実現可能性を強調した。

In LLM alignment and many other ML applications, one often faces the Multi-Objective Fine-Tuning (MOFT) problem, i.e. fine-tuning an existing model with datasets labeled w.r.t. different objectives simultaneously. To address the challenge, we propose the HyperDPO framework, a hypernetwork-based approach that extends the Direct Preference Optimization (DPO) technique, originally developed for efficient LLM alignment with preference data, to accommodate the MOFT settings. By substituting the Bradley-Terry-Luce model in DPO with the Plackett-Luce model, our framework is capable of handling a wide range of MOFT tasks that involve listwise ranking datasets. Compared with previous approaches, HyperDPO enjoys an efficient one-shot training process for profiling the Pareto front of auxiliary objectives, and offers flexible post-training control over trade-offs. Additionally, we propose a novel Hyper Prompt Tuning design, that conveys continuous weight across objectives to transformer-based models without altering their architecture. We demonstrate the effectiveness and efficiency of the HyperDPO framework through its applications to various tasks, including Learning-to-Rank (LTR) and LLM alignment, highlighting its viability for large-scale ML deployments.
翻訳日:2024-10-31 04:06:19 公開日:2024-10-10
# 4ビット臨界状態

Four-qubit critical states ( http://arxiv.org/abs/2410.08317v1 )

ライセンス: Link先を確認
Luke Oeding, Ian Tan, (参考訳) Verstraete, Dehaene, De Moor (2003) は、SLOCC不変が絡み合いモノトンを提供することを示した。 文献に現れる多くの高絡み合いあるいは有用な4ビット状態は、そのような絡み合い対策の静止点である。 これはより静止点の探索を動機付けている。 我々は(ケンプ=ネッス定理の意味で)臨界点の概念をヴィンバーグ理論と共に使用し、問題の複雑さを著しく減少させる。 我々は、現代の数値的非線形代数法を利用して対応するシステムを解き、自然対称性による解を減らした。 この方法は、Enriquez et al (2016)による調査におけるすべての臨界状態を含む4ビット定常点の延長リストを生成する。

Verstraete, Dehaene, and De Moor (2003) showed that SLOCC invariants provide entanglement monotones. We observe that many highly entangled or useful four-qubit states that appear in prior literature are stationary points of such entanglement measures. This motivates the search for more stationary points. We use the notion of critical points (in the sense of the Kempf-Ness theorem) together with Vinberg theory to reduce the complexity of the problem significantly. We solve the corresponding systems utilizing modern numerical nonlinear algebra methods and reduce the solutions by natural symmetries. This method produces an extended list of four-qubit stationary points, which includes all the critical states in the survey by Enriquez et al (2016).
翻訳日:2024-10-31 04:06:19 公開日:2024-10-10
# MELO: 作業の多言語エンティティリンク評価ベンチマーク

MELO: An Evaluation Benchmark for Multilingual Entity Linking of Occupations ( http://arxiv.org/abs/2410.08319v1 )

ライセンス: Link先を確認
Federico Retyk, Luis Gasco, Casimiro Pio Carrino, Daniel Deniz, Rabih Zbib, (参考訳) 我々は、21の言語におけるエンティティ参照とESCO Occupationsの多言語分類とのリンクを評価するため、48のデータセットからなるMultilingual Entity Linking of Occupations(MELO)ベンチマークを提示する。 MELOは高品質で既存の人間のアノテーションを使って構築された。 我々は、ゼロショット設定でバイエンコーダとして評価された単純な語彙モデルと汎用文エンコーダを用いて実験を行い、将来の研究のベースラインを確立する。 標準化された評価のためのデータセットとソースコードはhttps://github.com/Avature/melo-benchmarkで公開されている。

We present the Multilingual Entity Linking of Occupations (MELO) Benchmark, a new collection of 48 datasets for evaluating the linking of entity mentions in 21 languages to the ESCO Occupations multilingual taxonomy. MELO was built using high-quality, pre-existent human annotations. We conduct experiments with simple lexical models and general-purpose sentence encoders, evaluated as bi-encoders in a zero-shot setup, to establish baselines for future research. The datasets and source code for standardized evaluation are publicly available at https://github.com/Avature/melo-benchmark
翻訳日:2024-10-31 04:06:19 公開日:2024-10-10
# 自分が何を言っているか知っているか? 信頼性の高い検索拡張生成のためのクエリ知識の関連性を特徴付ける

Do You Know What You Are Talking About? Characterizing Query-Knowledge Relevance For Reliable Retrieval Augmented Generation ( http://arxiv.org/abs/2410.08320v1 )

ライセンス: Link先を確認
Zhuohang Li, Jiaxin Zhang, Chao Yan, Kamalika Das, Sricharan Kumar, Murat Kantarcioglu, Bradley A. Malin, (参考訳) 言語モデル(LM)は幻覚や誤報に悩まされていることが知られている。 LMのパラメトリック知識を補完するために、外部知識コーパスから検証可能な情報を取得する検索拡張生成(RAG)は、これらの問題に対する具体的な解決策を提供する。 しかし、RAGの生成品質は、ユーザのクエリと検索したドキュメントの関連性に大きく依存している。 不正確な応答は、クエリが外部知識コーパスに表される知識の範囲外である場合や、コーパス内の情報が時代遅れである場合に発生する。 本研究では,知識の関連性を把握し,RAGシステムによる問合せの精度を評価するための統計的枠組みを確立する。 本稿では,GoF(Goness-of-fit)テストを用いて,各ユーザクエリの関連性を調べ,知識の低いアウト・オブ・知識クエリを検出するオンラインテスト手順を提案する。 さらに,ユーザクエリのコレクションを調査するオフラインテストフレームワークを開発し,クエリ分布の大幅な変化を検出することを目的として,知識コーパスがユーザの利益を十分にサポートできないことを示す。 8つの質問回答(QA)データセットを体系的に評価することで,これらの戦略の能力を実証し,その結果,新たなテストフレームワークが既存のRAGシステムの信頼性を高めるための効率的なソリューションであることを示す。

Language models (LMs) are known to suffer from hallucinations and misinformation. Retrieval augmented generation (RAG) that retrieves verifiable information from an external knowledge corpus to complement the parametric knowledge in LMs provides a tangible solution to these problems. However, the generation quality of RAG is highly dependent on the relevance between a user's query and the retrieved documents. Inaccurate responses may be generated when the query is outside of the scope of knowledge represented in the external knowledge corpus or if the information in the corpus is out-of-date. In this work, we establish a statistical framework that assesses how well a query can be answered by an RAG system by capturing the relevance of knowledge. We introduce an online testing procedure that employs goodness-of-fit (GoF) tests to inspect the relevance of each user query to detect out-of-knowledge queries with low knowledge relevance. Additionally, we develop an offline testing framework that examines a collection of user queries, aiming to detect significant shifts in the query distribution which indicates the knowledge corpus is no longer sufficiently capable of supporting the interests of the users. We demonstrate the capabilities of these strategies through a systematic evaluation on eight question-answering (QA) datasets, the results of which indicate that the new testing framework is an efficient solution to enhance the reliability of existing RAG systems.
翻訳日:2024-10-31 04:06:19 公開日:2024-10-10
# 大規模言語モデルを用いた音楽ジャンル分類

Music Genre Classification using Large Language Models ( http://arxiv.org/abs/2410.08321v1 )

ライセンス: Link先を確認
Mohamed El Amine Meguenani, Alceu de Souza Britto Jr., Alessandro Lameiras Koerich, (参考訳) 本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。 提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み機能エンコーダ、トランスフォーマーエンコーダ、およびオーディオユニットのコーディングと特徴ベクトル生成のための追加レイヤを通じて処理する。 抽出された特徴ベクトルを用いて分類ヘッドを訓練する。 推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。 We performed a comprehensive comparison of LLMs, including WavLM, HuBERT, wav2vec 2.0, with traditional deep learning architectures like 1D and 2D convolutional neural network (CNNs) and the audio spectrogram transformer (ASTs)。 以上の結果から, ASTモデルの優れた性能を示し, 総合的精度85.5%を達成し, 評価された他のすべてのモデルを上回った。 これらの結果は、ゼロショットシナリオにおいても、音楽情報検索タスクを前進させるLLMやトランスフォーマーベースのアーキテクチャの可能性を強調している。

This paper exploits the zero-shot capabilities of pre-trained large language models (LLMs) for music genre classification. The proposed approach splits audio signals into 20 ms chunks and processes them through convolutional feature encoders, a transformer encoder, and additional layers for coding audio units and generating feature vectors. The extracted feature vectors are used to train a classification head. During inference, predictions on individual chunks are aggregated for a final genre classification. We conducted a comprehensive comparison of LLMs, including WavLM, HuBERT, and wav2vec 2.0, with traditional deep learning architectures like 1D and 2D convolutional neural networks (CNNs) and the audio spectrogram transformer (AST). Our findings demonstrate the superior performance of the AST model, achieving an overall accuracy of 85.5%, surpassing all other models evaluated. These results highlight the potential of LLMs and transformer-based architectures for advancing music information retrieval tasks, even in zero-shot scenarios.
翻訳日:2024-10-31 04:06:19 公開日:2024-10-10
# 相互作用するフェルミオン系のフェルミオン状態の拡張性と厳密な基底状態近似

Extendibility of fermionic states and rigorous ground state approximations of interacting fermionic systems ( http://arxiv.org/abs/2410.08322v1 )

ライセンス: Link先を確認
Christian Krumnow, Zoltán Zimborás, Jens Eisert, (参考訳) 量子化学や材料科学において、相互作用するフェルミオン量子多体問題をユビキタスに解決することは、理論と数値物理学の中心的な課題であり、通常は基底状態の近似を与えるという意味でのみ対処できる。 そのため、簡便なアンサツェルがどれだけ良いかを評価するための道具が手元に備わっていることが重要である。 本研究では,系の相互作用パターンを捉えた重み付き相互作用グラフを考えると,フェルミオンガウス積状態が真の基底状態にどの程度よく近似できるかを厳密に保証する。 我々の結果はフェルミオン量子状態の拡張性の結果と見なすことができる。 一方、これはフェルミオンに対する非対称デ・フィネッティの定理であり、ブランダオとハローによる定理の直接フェルミオン類似である。 この結果と、区別可能な有限次元量子系の明確に異なる状況を比較し、基底状態とガウス状態との近似についてコメントし、低エネルギー自明な状態予想とは関連性について詳しく述べる。

Solving interacting fermionic quantum many-body problems as they are ubiquitous in quantum chemistry and materials science is a central task of theoretical and numerical physics, a task that can commonly only be addressed in the sense of providing approximations of ground states. For this reason, it is important to have tools at hand to assess how well simple ansatzes would fare. In this work, we provide rigorous guarantees on how well fermionic Gaussian product states can approximate the true ground state, given a weighted interaction graph capturing the interaction pattern of the systems. Our result can be on the one hand seen as a extendibility result of fermionic quantum states: It says in what ways fermionic correlations can be distributed. On the other hand, this is a non-symmetric de-Finetti theorem for fermions, as the direct fermionic analog of a theorem due to Brandao and Harrow. We compare the findings with the distinctly different situation of distinguishable finite-dimensional quantum systems, comment on the approximation of ground states with Gaussian states and elaborate on the connection to the no low-energy trivial state conjecture.
翻訳日:2024-10-31 04:06:19 公開日:2024-10-10
# 音声検索の言語:音声検索エンジンにおけるユーザクエリの検討

The language of sound search: Examining User Queries in Audio Search Engines ( http://arxiv.org/abs/2410.08324v1 )

ライセンス: Link先を確認
Benno Weck, Frederic Font, (参考訳) 本研究では,音声検索エンジンのコンテキスト内でのテキストによるユーザによる検索クエリについて検討し,フォリー,音響効果,一般音声検索などの様々な応用について検討した。 現在の研究は、テキストベースの音声検索システムの設計における現実世界のユーザニーズと行動に不適切な対処を行っている。 このギャップを埋めるために、カスタムサーベイとFreesound Webサイトクエリログという、2つのソースからの検索クエリを分析しました。 このサーベイは、制限のない仮説的な音声検索エンジンのクエリを収集するために設計され、結果として既存のシステムの制約なしにユーザの意図をキャプチャするデータセットが作られる。 このデータセットは研究コミュニティと共有することもできる。 これとは対照的に、Freesoundのクエリログには約900万の検索リクエストが含まれており、実際の使用パターンの包括的なビューを提供する。 その結果,調査クエリは一般にFreesoundクエリよりも長いことが示唆され,システム制約によって制限されない場合,ユーザが詳細なクエリを好むことが示唆された。 どちらのデータセットも主にキーワードベースのクエリを特徴としており、全文を使用した調査参加者はほとんどいない。 調査クエリに影響を及ぼす要因は,主音源,意図的使用法,知覚された位置,音源数などである。 これらの知見は、ユーザ中心の効果的なテキストベース音声検索システムの開発に不可欠であり、音声検索コンテキストにおけるユーザ行動の理解を深める。

This study examines textual, user-written search queries within the context of sound search engines, encompassing various applications such as foley, sound effects, and general audio retrieval. Current research inadequately addresses real-world user needs and behaviours in designing text-based audio retrieval systems. To bridge this gap, we analysed search queries from two sources: a custom survey and Freesound website query logs. The survey was designed to collect queries for an unrestricted, hypothetical sound search engine, resulting in a dataset that captures user intentions without the constraints of existing systems. This dataset is also made available for sharing with the research community. In contrast, the Freesound query logs encompass approximately 9 million search requests, providing a comprehensive view of real-world usage patterns. Our findings indicate that survey queries are generally longer than Freesound queries, suggesting users prefer detailed queries when not limited by system constraints. Both datasets predominantly feature keyword-based queries, with few survey participants using full sentences. Key factors influencing survey queries include the primary sound source, intended usage, perceived location, and the number of sound sources. These insights are crucial for developing user-centred, effective text-based audio retrieval systems, enhancing our understanding of user behaviour in sound search contexts.
翻訳日:2024-10-31 04:06:19 公開日:2024-10-10
# NPU-CIM異種AR/VRデバイスのハイブリッドモデルのニューラルネットワークによる探索

Neural Architecture Search of Hybrid Models for NPU-CIM Heterogeneous AR/VR Devices ( http://arxiv.org/abs/2410.08326v1 )

ライセンス: Link先を確認
Yiwei Zhao, Ziyun Li, Win-San Khwa, Xiaoyu Sun, Sai Qian Zhang, Syed Shakib Sarwar, Kleber Hugo Stangherlin, Yi-Lun Lu, Jorge Tomas Gomez, Jae-Sun Seo, Phillip B. Gibbons, Barbara De Salvo, Chiao Liu, (参考訳) 低レイテンシと低消費電力エッジAIは、仮想現実および拡張現実アプリケーションに不可欠である。 近年の進歩は、畳み込み層(CNN)とトランスフォーマー(ViT)を組み合わせたハイブリッドモデルが、様々なコンピュータビジョンや機械学習(ML)タスクにおいて、より優れた精度/パフォーマンスのトレードオフを実現していることを示している。 しかし、ハイブリッドMLモデルは、データフローとメモリアクセスパターンの多様さにより、レイテンシとエネルギー効率にシステム上の課題を生じさせる可能性がある。 本研究では,ニューラルプロセッシングユニット(NPU)とコンピュート・イン・メモリ(CIM)のアーキテクチャの不均一性を生かし,これらのハイブリッドモデルを効率的に実行するために多様な実行スキーマを実行する。 また,NPUとCIMを併用したヘテロジニアスエッジシステムのための効率的なハイブリッドCNN/ViTモデルを設計するためのニューラルネットワーク探索フレームワークであるH4H-NASを紹介する。 我々のH4H-NASアプローチは、実シリコン上で測定されたNPU性能と産業用IPに基づくCIM性能で構築された性能推定器によって実現されている。 H4H-NASは、粒度の細かいハイブリッドCNN/ViTモデルを検索し、ImageNetデータセット上で重要な(最大1.34%)トップ1の精度向上を達成する。 さらに、Algo/HW共同設計の結果は56.08%の全体的なレイテンシと41.72%のエネルギー改善を実現している。 このフレームワークは、NPU+CIM異種システムのハイブリッドネットワークアーキテクチャとシステムアーキテクチャの設計をガイドする。

Low-Latency and Low-Power Edge AI is essential for Virtual Reality and Augmented Reality applications. Recent advances show that hybrid models, combining convolution layers (CNN) and transformers (ViT), often achieve superior accuracy/performance tradeoff on various computer vision and machine learning (ML) tasks. However, hybrid ML models can pose system challenges for latency and energy-efficiency due to their diverse nature in dataflow and memory access patterns. In this work, we leverage the architecture heterogeneity from Neural Processing Units (NPU) and Compute-In-Memory (CIM) and perform diverse execution schemas to efficiently execute these hybrid models. We also introduce H4H-NAS, a Neural Architecture Search framework to design efficient hybrid CNN/ViT models for heterogeneous edge systems with both NPU and CIM. Our H4H-NAS approach is powered by a performance estimator built with NPU performance results measured on real silicon, and CIM performance based on industry IPs. H4H-NAS searches hybrid CNN/ViT models with fine granularity and achieves significant (up to 1.34%) top-1 accuracy improvement on ImageNet dataset. Moreover, results from our Algo/HW co-design reveal up to 56.08% overall latency and 41.72% energy improvements by introducing such heterogeneous computing over baseline solutions. The framework guides the design of hybrid network architectures and system architectures of NPU+CIM heterogeneous systems.
翻訳日:2024-10-31 03:56:20 公開日:2024-10-10
# 高分解能領域における差分私的合成データ生成の評価

Evaluating Differentially Private Synthetic Data Generation in High-Stakes Domains ( http://arxiv.org/abs/2410.08327v1 )

ライセンス: Link先を確認
Krithika Ramesh, Nupoor Gandhi, Pulkit Madaan, Lisa Bauer, Charith Peris, Anjalie Field, (参考訳) テキストデータの匿名化の難しさは、医療やソーシャルサービスといったプライベートデータを含む高い領域におけるNLPの開発と展開を妨げる。 匿名化されていない機密データは、アノテータや外部研究者と簡単に共有することはできないし、公開モデルのトレーニングにも使用できない。 本研究では,プライバシを損なうことなく,実データの代わりに微分プライベート言語モデルから生成された合成データを用いて,これらの領域におけるNLPの開発を容易にする可能性を検討する。 先行研究とは対照的に,本研究では,実際のハイテイク領域の合成データを生成し,データ品質を評価するために使用感に基づく評価を提案し,実施する。 以上の結果から,従来の簡易評価では,合成データの有用性,プライバシ,公平性を強調できなかったことが示唆された。 全体として、当社の作業は、プライバシ保護データ共有を実現するための実行可能な方法として、合成データ生成のさらなる改善の必要性を浮き彫りにしています。

The difficulty of anonymizing text data hinders the development and deployment of NLP in high-stakes domains that involve private data, such as healthcare and social services. Poorly anonymized sensitive data cannot be easily shared with annotators or external researchers, nor can it be used to train public models. In this work, we explore the feasibility of using synthetic data generated from differentially private language models in place of real data to facilitate the development of NLP in these domains without compromising privacy. In contrast to prior work, we generate synthetic data for real high-stakes domains, and we propose and conduct use-inspired evaluations to assess data quality. Our results show that prior simplistic evaluations have failed to highlight utility, privacy, and fairness issues in the synthetic data. Overall, our work underscores the need for further improvements to synthetic data generation for it to be a viable way to enable privacy-preserving data sharing.
翻訳日:2024-10-31 03:56:20 公開日:2024-10-10
# 高速でスローなエージェント - 対話型推論アーキテクチャ

Agents Thinking Fast and Slow: A Talker-Reasoner Architecture ( http://arxiv.org/abs/2410.08328v1 )

ライセンス: Link先を確認
Konstantina Christakopoulou, Shibl Mourad, Maja Matarić, (参考訳) 大規模言語モデルにより、あらゆる種類のエージェントが自然な会話を通じてユーザと対話できるようになった。 その結果、エージェントには会話と計画/推論という2つの仕事がある。 彼らの会話の反応は、すべての利用可能な情報によって知らせられなければならず、彼らの行動は目標を達成するのに役立ちなければなりません。 ユーザとの会話と多段階の推論と計画の間のこの二分法は、Kahneman氏が紹介した「速くゆっくり考える」という人間のシステムに類似していると見なすことができる。 私たちのアプローチは、"Talker"エージェント(システム)で構成されています。 1)会話応答を高速かつ直感的に合成する「推論」エージェント(システム) 2) より遅く、より熟考的で、より論理的であり、多段階の推論と計画、ツールの呼び出し、世界の行動の実行、そしてそれによって新しいエージェント状態の生成を担います。 本稿では,新しいTalker-Reasonerアーキテクチャについて述べる。 我々は,実世界の関連性を示すために,睡眠コーチングエージェントの文脈で議論を行った。

Large language models have enabled agents of all kinds to interact with users through natural conversation. Consequently, agents now have two jobs: conversing and planning/reasoning. Their conversational responses must be informed by all available information, and their actions must help to achieve goals. This dichotomy between conversing with the user and doing multi-step reasoning and planning can be seen as analogous to the human systems of "thinking fast and slow" as introduced by Kahneman. Our approach is comprised of a "Talker" agent (System 1) that is fast and intuitive, and tasked with synthesizing the conversational response; and a "Reasoner" agent (System 2) that is slower, more deliberative, and more logical, and is tasked with multi-step reasoning and planning, calling tools, performing actions in the world, and thereby producing the new agent state. We describe the new Talker-Reasoner architecture and discuss its advantages, including modularity and decreased latency. We ground the discussion in the context of a sleep coaching agent, in order to demonstrate real-world relevance.
翻訳日:2024-10-31 03:56:20 公開日:2024-10-10
# 計算波イメージングにおける物理と深層学習

Physics and Deep Learning in Computational Wave Imaging ( http://arxiv.org/abs/2410.08329v1 )

ライセンス: Link先を確認
Youzuo Lin, Shihang Feng, James Theiler, Yinpeng Chen, Umberto Villa, Jing Rao, John Greenhall, Cristian Pantea, Mark A. Anastasio, Brendt Wohlberg, (参考訳) 計算波画像(CWI)は、その体積を横切る波信号を解析することにより、材料の体積の隠れた構造と物理的性質を抽出する。 応用例としては、地球の地下の地震探査、音響イメージング、材料科学における非破壊試験、医学における超音波CTなどがある。 CWI問題を解くための現在のアプローチは、伝統的な物理学に根ざしたものとディープラーニングに基づくものとの2つのカテゴリに分けられる。 物理に基づく手法は、媒体内の音響特性を高分解能で定量的に推定する能力で際立っている。 しかし、これらは計算集約的であり、CWI問題に典型的な不合理性や非凸性に影響を受けやすい。 機械学習ベースの計算手法が最近登場し、これらの課題に対処するための異なる視点を提供している。 様々な科学コミュニティが独立して、CWIにおける深層学習の統合を追求している。 このレビューでは、CWI問題に対処するために、現代の科学的機械学習(ML)技術、特にディープニューラルネットワークがどのように活用されているかが詳しく述べられている。 本稿では,計算画像,波動物理,データサイエンスなど,複数の領域にまたがる既存の研究を集約する構造的枠組みを提案する。 本研究は、既存のMLベースの手法から学んだ重要な教訓と、このトピックに関する広範な文献の体系的分析を通じて、技術的ハードルと新興トレンドを識別する。

Computational wave imaging (CWI) extracts hidden structure and physical properties of a volume of material by analyzing wave signals that traverse that volume. Applications include seismic exploration of the Earth's subsurface, acoustic imaging and non-destructive testing in material science, and ultrasound computed tomography in medicine. Current approaches for solving CWI problems can be divided into two categories: those rooted in traditional physics, and those based on deep learning. Physics-based methods stand out for their ability to provide high-resolution and quantitatively accurate estimates of acoustic properties within the medium. However, they can be computationally intensive and are susceptible to ill-posedness and nonconvexity typical of CWI problems. Machine learning-based computational methods have recently emerged, offering a different perspective to address these challenges. Diverse scientific communities have independently pursued the integration of deep learning in CWI. This review delves into how contemporary scientific machine-learning (ML) techniques, and deep neural networks in particular, have been harnessed to tackle CWI problems. We present a structured framework that consolidates existing research spanning multiple domains, including computational imaging, wave physics, and data science. This study concludes with important lessons learned from existing ML-based methods and identifies technical hurdles and emerging trends through a systematic analysis of the extensive literature on this topic.
翻訳日:2024-10-31 03:56:20 公開日:2024-10-10
# 人工知能と人的評価による感情の一致度--方法論的提案

Level of agreement between emotions generated by Artificial Intelligence and human evaluation: a methodological proposal ( http://arxiv.org/abs/2410.08332v1 )

ライセンス: Link先を確認
Miguel Carrasco, Cesar Gonzalez-Martin, Sonia Navajas-Torrente, Raul Dastres, (参考訳) イメージは感情を伝える能力があるが、感情的な経験は非常に主観的である。 人工知能の進歩により、感情的な記述に基づく画像の生成が可能になった。 しかし、生成画像と人間の感情反応の一致度はまだ評価されていない。 これに対応するために、StyleGAN2-ADAを用いて20の芸術風景が作成された。 イメージごとに肯定的な感情(満足感,楽しさ)と否定的な感情(悲しみ,悲しみ)を誘発する4つの変種が作成され,80枚の画像が得られた。 この材料を用いてオンラインアンケートを設計し,61人の観察者が生成した画像の分類を行った。 収集したデータを用いて統計的分析を行い、参加者間の合意のレベル、観察者の反応とAI生成感情を判定した。 概して良好な合意が得られ、否定的な感情に対してより良い結果が得られた。 しかし,本研究は感情評価に固有の主観性を確認した。

Images are capable of conveying emotions, but emotional experience is highly subjective. Advances in artificial intelligence have enabled the generation of images based on emotional descriptions. However, the level of agreement between the generative images and human emotional responses has not yet been evaluated. To address this, 20 artistic landscapes were generated using StyleGAN2-ADA. Four variants evoking positive emotions (contentment, amusement) and negative emotions (fear, sadness) were created for each image, resulting in 80 pictures. An online questionnaire was designed using this material, in which 61 observers classified the generated images. Statistical analyses were performed on the collected data to determine the level of agreement among participants, between the observer's responses, and the AI-generated emotions. A generally good level of agreement was found, with better results for negative emotions. However, the study confirms the subjectivity inherent in emotional evaluation.
翻訳日:2024-10-31 03:56:20 公開日:2024-10-10
# 強化学習による子どもの効率的な数学習のための自然言語ベース戦略の探索

Exploring Natural Language-Based Strategies for Efficient Number Learning in Children through Reinforcement Learning ( http://arxiv.org/abs/2410.08334v1 )

ライセンス: Link先を確認
Tirthankar Mittra, (参考訳) 本稿では,言語指導の効果に着目した強化学習(RL)の枠組みを用いて,子どもが数字を学習する方法を検討する。 強化学習を利用する動機は、制御された環境における心理学的学習理論と類似している。 最先端の深層強化学習モデルを用いて,様々な言語命令が数獲得に与える影響をシミュレートし,解析する。 以上の結果から,特定の言語構造がRLエージェントの数値的理解をより効果的に向上することが示唆された。 さらに,本モデルでは,学習速度を向上するRLエージェントに数値を提示する最適なシーケンスを予測した。 この研究は、言語と数値認知の相互作用に関する貴重な洞察を与え、教育戦略と幼児期の学習を支援するために設計された人工知能システムの開発の両方に影響を及ぼす。

This paper investigates how children learn numbers using the framework of reinforcement learning (RL), with a focus on the impact of language instructions. The motivation for using reinforcement learning stems from its parallels with psychological learning theories in controlled environments. By using state of the art deep reinforcement learning models, we simulate and analyze the effects of various forms of language instructions on number acquisition. Our findings indicate that certain linguistic structures more effectively improve numerical comprehension in RL agents. Additionally, our model predicts optimal sequences for presenting numbers to RL agents which enhance their speed of learning. This research provides valuable insights into the interplay between language and numerical cognition, with implications for both educational strategies and the development of artificial intelligence systems designed to support early childhood learning.
翻訳日:2024-10-31 03:56:20 公開日:2024-10-10
# Kernel Banzhaf: Banzhaf値の高速かつロバストな推定器

Kernel Banzhaf: A Fast and Robust Estimator for Banzhaf Values ( http://arxiv.org/abs/2410.08336v1 )

ライセンス: Link先を確認
Yurong Liu, R. Teal Witter, Flip Korn, Tarfah Alrashed, Dimitris Paparas, Juliana Freire, (参考訳) Banzhaf値は、広く使われているShapley値の、シンプルで解釈可能な代替手段を提供する。 本稿では,KernelSHAPにインスパイアされた新しいアルゴリズムであるKernel Banzhafを紹介する。 特徴帰属タスクに関する広範な実験を通じて、Kernel Banzhafはサンプル効率と雑音に対する堅牢性の両方において、Banzhafの値を推定する他のアルゴリズムよりもかなり優れていることを示した。 さらに、アルゴリズムの性能に関する理論的保証を証明し、Kernel Banzhafを機械学習の解釈に有用なツールとして確立する。

Banzhaf values offer a simple and interpretable alternative to the widely-used Shapley values. We introduce Kernel Banzhaf, a novel algorithm inspired by KernelSHAP, that leverages an elegant connection between Banzhaf values and linear regression. Through extensive experiments on feature attribution tasks, we demonstrate that Kernel Banzhaf substantially outperforms other algorithms for estimating Banzhaf values in both sample efficiency and robustness to noise. Furthermore, we prove theoretical guarantees on the algorithm's performance, establishing Kernel Banzhaf as a valuable tool for interpretable machine learning.
翻訳日:2024-10-31 03:56:20 公開日:2024-10-10
# 画像分類における敵対的事例攻撃に対する防御のための時間旅行

Time Traveling to Defend Against Adversarial Example Attacks in Image Classification ( http://arxiv.org/abs/2410.08338v1 )

ライセンス: Link先を確認
Anthony Etim, Jakub Szefer, (参考訳) 敵の例による攻撃は、機械学習にとって重要な脅威として浮上している。 画像分類における敵対的な攻撃は、画像分類ニューラルネットワークを混乱させる画像に様々な小さな修正を加えている。 攻撃が適用された重要な領域の1つは、交通標識の分類を伴う自動車の設定である。 研究者たちは、ステッカーの追加、光の輝き、シャドーの追加が、機械学習推論アルゴリズムが交通標識を誤って分類する手段であることを示した。 これは、停止標識が速度制限標識として認識され、車両がそれを無視し、事故につながる可能性があるため、潜在的に危険な状況を引き起こす可能性がある。 これらの攻撃に対処するため、この研究はこのような敵攻撃に対する防御を強化することに焦点を当てている。 本研究は,歴史的イメージの活用と多数決という考え方を導入することで,ユーザにとってのメリットをシフトさせるものである。 攻撃者は、現在被害者の機械学習推論によって処理されている交通標識を変更するが、同じ交通標識の過去の画像を調べることで、被害者は有利になる。 この研究は「タイムトラベル」の概念を導入し、誰にでもアクセス可能な歴史的ストリートビュー画像を用いて、同じ標識の異なる過去のバージョンで推論を行う。 評価において,提案した防御効果は,交通標識分類アルゴリズムに対する最新の逆例攻撃に対して100%有効である。

Adversarial example attacks have emerged as a critical threat to machine learning. Adversarial attacks in image classification abuse various, minor modifications to the image that confuse the image classification neural network -- while the image still remains recognizable to humans. One important domain where the attacks have been applied is in the automotive setting with traffic sign classification. Researchers have demonstrated that adding stickers, shining light, or adding shadows are all different means to make machine learning inference algorithms mis-classify the traffic signs. This can cause potentially dangerous situations as a stop sign is recognized as a speed limit sign causing vehicles to ignore it and potentially leading to accidents. To address these attacks, this work focuses on enhancing defenses against such adversarial attacks. This work shifts the advantage to the user by introducing the idea of leveraging historical images and majority voting. While the attacker modifies a traffic sign that is currently being processed by the victim's machine learning inference, the victim can gain advantage by examining past images of the same traffic sign. This work introduces the notion of ''time traveling'' and uses historical Street View images accessible to anybody to perform inference on different, past versions of the same traffic sign. In the evaluation, the proposed defense has 100% effectiveness against latest adversarial example attack on traffic sign classification algorithm.
翻訳日:2024-10-31 03:56:20 公開日:2024-10-10
# ニューラルネットワークの同時重みとアーキテクチャ最適化

Simultaneous Weight and Architecture Optimization for Neural Networks ( http://arxiv.org/abs/2410.08339v1 )

ライセンス: Link先を確認
Zitong Huang, Mansooreh Montazerin, Ajitesh Srivastava, (参考訳) ニューラルネットワークはアーキテクチャを選択し、パラメータをトレーニングすることで訓練される。 アーキテクチャの選択は、しばしば試行錯誤またはニューラルアーキテクチャサーチ(NAS)メソッドによって行われる。 NASはいくつかの自動化を提供するが、しばしばアーキテクチャを最適化し、パラメータをトレーニングする独立したステップに依存している。 アーキテクチャとパラメータを勾配降下と同時に学習することで、プロセスを根本的に変換する新しいニューラルネットワークトレーニングフレームワークを導入する。 ロス関数の適切な設定により、与えられたデータセットに対してスパースでコンパクトなニューラルネットワークを発見することができる。 私たちのアプローチの中心はマルチスケールのエンコーダデコーダで、エンコーダは互いに類似した機能を持つニューラルネットワークのペアを埋め込む(アーキテクチャや重みを考慮しない)。 ニューラルネットワークを与えられたデータセットでトレーニングするために、埋め込み空間に埋め込まれたニューラルネットワークをランダムにサンプリングし、カスタムロス関数を使用して勾配降下を行う。 デコーダは、埋め込みに対応するニューラルネットワークを生成する。 実験により、我々のフレームワークは、高性能を維持しているスパースでコンパクトなニューラルネットワークを発見できることを示した。

Neural networks are trained by choosing an architecture and training the parameters. The choice of architecture is often by trial and error or with Neural Architecture Search (NAS) methods. While NAS provides some automation, it often relies on discrete steps that optimize the architecture and then train the parameters. We introduce a novel neural network training framework that fundamentally transforms the process by learning architecture and parameters simultaneously with gradient descent. With the appropriate setting of the loss function, it can discover sparse and compact neural networks for given datasets. Central to our approach is a multi-scale encoder-decoder, in which the encoder embeds pairs of neural networks with similar functionalities close to each other (irrespective of their architectures and weights). To train a neural network with a given dataset, we randomly sample a neural network embedding in the embedding space and then perform gradient descent using our custom loss function, which incorporates a sparsity penalty to encourage compactness. The decoder generates a neural network corresponding to the embedding. Experiments demonstrate that our framework can discover sparse and compact neural networks maintaining a high performance.
翻訳日:2024-10-31 03:56:20 公開日:2024-10-10
# 不確実性からイノベーションへ:ProtoBotを使ったウェアラブルプロトタイピング

From Uncertainty to Innovation: Wearable Prototyping with ProtoBot ( http://arxiv.org/abs/2410.08340v1 )

ライセンス: Link先を確認
İhsan Ozan Yıldırım, Cansu Çetin Er, Ege Keskin, Murat Kuşcu, Oğuzhan Özcan, (参考訳) AIの進歩にもかかわらず、ソフトウェアやハードウェアの専門知識を持たない個人は、コードフリーのプロトタイピングツールがないため、ウェアラブル電子機器の設計において障壁に直面している。 これらの障壁を取り除くため、我々は大規模な言語モデルを活用したProtoBotを設計し、遊び心のあるインタラクションを通じて異なる分野の専門家4人とケーススタディを行った。 この研究は4つのユニークなウェアラブルデバイスの概念を生み出し、参加者は選択したコンポーネントのプロトタイプにProtobotを使用した。 この経験から,(1)不確実性は肯定的な体験に変換可能であること,(2) ProtoBotはガイドとして確実に動作するために変換されるべきであること,(3)プロトタイプと対話する際に設計パラメータを調整する必要があること,などが判明した。 我々の研究は、ウェアラブルエレクトロニクスの迅速なプロトタイピングに大規模な言語モデルを使うことを初めて実証した。 このアプローチは、ウェアラブルプロトタイプと他の製品の両方を開発したいと考えている人々にとって、不確実性を恐れることなく、迅速なプロトタイピングのパイオニアになると考えています。

Despite AI advancements, individuals without software or hardware expertise still face barriers in designing wearable electronic devices due to the lack of code-free prototyping tools. To eliminate these barriers, we designed ProtoBot, leveraging large language models, and conducted a case study with four professionals from different disciplines through playful interaction. The study resulted in four unique wearable device concepts, with participants using Protobot to prototype selected components. From this experience, we learned that (1) uncertainty can be turned into a positive experience, (2) the ProtoBot should transform to reliably act as a guide, and (3) users need to adjust design parameters when interacting with the prototypes. Our work demonstrates, for the first time, the use of large language models in rapid prototyping of wearable electronics. We believe this approach will pioneer rapid prototyping without fear of uncertainties for people who want to develop both wearable prototypes and other products.
翻訳日:2024-10-31 03:56:20 公開日:2024-10-10
# 大規模立法モデル:経済シミュレーションにおけるAI政策の効率化を目指して

Large Legislative Models: Towards Efficient AI Policymaking in Economic Simulations ( http://arxiv.org/abs/2410.08345v1 )

ライセンス: Link先を確認
Henry Gasztowtt, Benjamin Smith, Vincent Zhu, Qinxun Bai, Edwin Zhang, (参考訳) 経済政策作成の改善は、AIによる政策作成ツールの研究にインスピレーションを与えた、幅広い社会的利益の機会を与える。 AIポリシー作成は、大規模にデータを処理する能力を通じて、人間のパフォーマンスを上回る可能性を秘めている。 しかし、既存のRLベースの手法ではサンプルの非効率性が示され、意思決定プロセスにニュアンス情報を柔軟に組み込むことができないため、さらに制限されている。 そこで本稿では,社会的に複雑なマルチエージェント強化学習(MARL)のシナリオにおいて,事前学習された大規模言語モデル(LLM)を,サンプル効率の高い政策立案者として活用する手法を提案する。 3つの環境にまたがる既存手法よりも優れた効率性を示す。 私たちのコードはhttps://github.com/hegasz/large-legislative-modelsで利用可能です。

The improvement of economic policymaking presents an opportunity for broad societal benefit, a notion that has inspired research towards AI-driven policymaking tools. AI policymaking holds the potential to surpass human performance through the ability to process data quickly at scale. However, existing RL-based methods exhibit sample inefficiency, and are further limited by an inability to flexibly incorporate nuanced information into their decision-making processes. Thus, we propose a novel method in which we instead utilize pre-trained Large Language Models (LLMs), as sample-efficient policymakers in socially complex multi-agent reinforcement learning (MARL) scenarios. We demonstrate significant efficiency gains, outperforming existing methods across three environments. Our code is available at https://github.com/hegasz/large-legislative-models.
翻訳日:2024-10-31 03:56:20 公開日:2024-10-10
# 非線形二階力学は言語と文脈にまたがる口蓋収縮軌跡を記述する

Nonlinear second-order dynamics describe labial constriction trajectories across languages and contexts ( http://arxiv.org/abs/2410.08351v1 )

ライセンス: Link先を確認
Michael C. Stern, Jason A. Shaw, (参考訳) 英語およびマンダリン語における/b/と/m/の生成過程における口蓋収縮軌跡の動態について検討した。 言語や文脈において、即時変位と瞬時速度の比率は、一般的に運動開始から移動オフセットまでの指数的減衰曲線に従う。 我々は、この経験的発見を微分方程式で定式化し、点引力力学の仮定と組み合わせることで、口唇収縮軌跡を記述する非線形二階力学系を導出する。 方程式は T と r の2つのパラメータしか持たない。 T は目標状態に対応し、r は運動の速さに対応する。 したがって、各パラメータは音韻的に関連する制御の次元に対応する。 非線形回帰は、モデルが個々の運動軌跡に相応しいことを証明している。 さらに、モデルからシミュレーションされた軌道は、経験的軌道と定性的に一致し、時間、ピーク速度、ピーク速度といったキーキネマティックな変数を捕捉し、ピーク速度を達成する。 このモデルは、個々の調音運動の力学に関する提案であり、プロソディ、運動間調整、確率的雑音などの調音運動へのさらなる影響を理解するための新しい基礎を提供する。

We investigate the dynamics of labial constriction trajectories during the production of /b/ and /m/ in English and Mandarin. We find that, across languages and contexts, the ratio of instantaneous displacement to instantaneous velocity generally follows an exponential decay curve from movement onset to movement offset. We formalize this empirical discovery in a differential equation and, in combination with an assumption of point attractor dynamics, derive a nonlinear second-order dynamical system describing labial constriction trajectories. The equation has only two parameters, T and r. T corresponds to the target state and r corresponds to movement rapidity. Thus, each of the parameters corresponds to a phonetically relevant dimension of control. Nonlinear regression demonstrates that the model provides excellent fits to individual movement trajectories. Moreover, trajectories simulated from the model qualitatively match empirical trajectories, and capture key kinematic variables like duration, peak velocity, and time to achieve peak velocity. The model constitutes a proposal for the dynamics of individual articulatory movements, and thus offers a novel foundation from which to understand additional influences on articulatory kinematics like prosody, inter-movement coordination, and stochastic noise.
翻訳日:2024-10-31 03:56:20 公開日:2024-10-10
# 新型コロナウイルスの社会的ダイナミクスの解明:Twitter上でのワクチンと症状のダイアクロニックセマンティック分析

Revealing COVID-19's Social Dynamics: Diachronic Semantic Analysis of Vaccine and Symptom Discourse on Twitter ( http://arxiv.org/abs/2410.08352v1 )

ライセンス: Link先を確認
Zeqiang Wang, Jiageng Wu, Yuqi Wang, Wei Wang, Jie Yang, Jon Johnson, Nishanth Sastry, Suparna De, (参考訳) ソーシャルメディアは、日々発生している膨大なテキストデータと、これらのプラットフォームで交流する人々の「拘束されない」行動によって、世論のダイナミクスや社会的影響に関する洞察を導き出す重要な情報源として認識されている。 しかし、このような分析は、単語の意味が時間とともに進化する意味変化現象によって困難であることが証明されている。 本稿では,あらかじめ定義されたアンカー語を使わずにソーシャルメディアデータ中の縦長的な意味変化を捉えるための,教師なし動的単語埋め込み手法を提案する。 この手法は単語共起統計と動的更新を利用して、時間とともに埋め込みを適応し、データのスパース性、不均衡分布、相乗的意味効果の課題に対処する。 新型コロナウイルス(COVID-19)の大規模なTwitterデータセットに基づいて評価されたこの手法は、異なるパンデミックステージにおけるワクチンと症状関連エンティティのセマンティックな進化パターンと、実際の統計との潜在的な相関を明らかにする。 我々の重要な貢献は、動的埋め込み技術、COVID-19セマンティックシフトの実証分析、および計算社会科学研究のためのセマンティックシフトモデリングの強化に関する議論である。 本研究は,ソーシャルメディア上での縦断的セマンティック・ダイナミクスを捉え,公開談話や集合現象の理解を可能にする。

Social media is recognized as an important source for deriving insights into public opinion dynamics and social impacts due to the vast textual data generated daily and the 'unconstrained' behavior of people interacting on these platforms. However, such analyses prove challenging due to the semantic shift phenomenon, where word meanings evolve over time. This paper proposes an unsupervised dynamic word embedding method to capture longitudinal semantic shifts in social media data without predefined anchor words. The method leverages word co-occurrence statistics and dynamic updating to adapt embeddings over time, addressing the challenges of data sparseness, imbalanced distributions, and synergistic semantic effects. Evaluated on a large COVID-19 Twitter dataset, the method reveals semantic evolution patterns of vaccine- and symptom-related entities across different pandemic stages, and their potential correlations with real-world statistics. Our key contributions include the dynamic embedding technique, empirical analysis of COVID-19 semantic shifts, and discussions on enhancing semantic shift modeling for computational social science research. This study enables capturing longitudinal semantic dynamics on social media to understand public discourse and collective phenomena.
翻訳日:2024-10-31 03:56:20 公開日:2024-10-10
# エンタングルメントを用いた量子照明のリベーリングスプーリング

Revealing spoofing of quantum illumination using entanglement ( http://arxiv.org/abs/2410.08353v1 )

ライセンス: Link先を確認
Jonathan N. Blakely, Shawn D. Pethel, Kenneth R. Stewart, Kurt Jacobs, (参考訳) 電磁界の2モード圧縮真空状態にある絡み合いを利用するいくつかの量子レーダーの概念が提案されており、最も顕著なのは量子照明に基づくレーダーである。 古典的なレーダーは、送信された信号の真のエコーと干渉器やスパウファーによって生成された信号とを区別するために必要とされることがある。 量子照明がスプーフィングにどれほど脆弱か? 本研究では,従来のスパウファーの存在を検知しようとするレーダオペレーターのシナリオを,量子レーダに対する測度・前処理戦略を用いて分析する。 本研究では,(1)直接検出と数状態準備,(2)ヘテロダイン検出とコヒーレント状態準備の2つのスプーフィング戦略を検討する。 いずれの場合も、レーダオペレータは仮説テストを行い、受信したパルスが真のリターンかスプーフかを決定する。 スパウファーは、レーダー操作者が保持するモードで絡み合いを再現できないため、両方のスプーフィングへのアプローチはある程度検出可能である。 本研究では,スプーフ検出における実戻り値とスプーフ戻り値の忠実度と誤差の確率とで,スプーフの有効性を定量化する。 ノイズや損失がない場合、直接検出はより忠実なスプーフを生成する傾向にあり、そのため検出は困難である。 さらに、この利点はモデルへのノイズと損失の導入を乗り越える。 この結果から, 絡み合いはスプーフ検出のための量子レーダとして利用可能な新しい資源であることが示唆された。

Several quantum radar concepts have been proposed that exploit the entanglement found in two-mode squeezed vacuum states of the electromagnetic field, the most prominent being radar based on quantum illumination. Classical radars are sometimes required to distinguish between true echos of their transmitted signals and signals generated by interferors or spoofers. How vulnerable to spoofing is quantum illumination? We analyze the scenario of a radar operator trying to detect the presence of a classical spoofer employing a measure-and-prepare strategy against a quantum radar. We consider two spoofing strategies - (1) direct detection and number state preparation, and (2) heterodyne detection and coherent state preparation. In each case, the radar operator performs a hypothesis test to decide if received pulses are true returns or spoofs. Since the spoofer can not reproduce the entanglement with modes retained by the radar operator, both approaches to spoofing are to some extent detectable. We quantify the effectiveness of the spoof in terms of the fidelity between the real return and the spoof return, and the probability of error in spoof detection. We find that in the absence of noise and loss, direct detection tends to produce spoofs with greater fidelity, which are therefore harder to detect. Moreover, this advantage survives the introduction of noise and loss into the model. Our results suggest that entanglement is a novel resource available to quantum radar for detecting spoofing.
翻訳日:2024-10-31 03:56:20 公開日:2024-10-10
# Metalic: メタラーニングインコンテキストとタンパク質言語モデル

Metalic: Meta-Learning In-Context with Protein Language Models ( http://arxiv.org/abs/2410.08355v1 )

ライセンス: Link先を確認
Jacob Beck, Shikha Surana, Manus McAuliffe, Oliver Bent, Thomas D. Barrett, Juan Jose Garau Luis, Paul Duckworth, (参考訳) タンパク質の生理的および機能的性質の予測は、シリコタンパク質の設計に不可欠である。 このような予測タスクの有望なテクニックとして機械学習が登場した。 しかし、in vitroアノテーションの相対的不足は、これらのモデルが望まれるフィットネス予測タスクについて、ほとんど、あるいは全く特定のデータを持っていないことを意味する。 制限されたデータの結果、タンパク質言語モデル(PLM)は通常、一般的なタンパク質配列モデリングタスクに基づいて訓練され、タンパク質の適合性予測に微調整またはゼロショットを適用する。 タスクデータが得られない場合、これらのモデルはタンパク質配列の確率と適合度スコアの相関について強い仮定をする。 対照的に、標準的なフィットネス予測タスクの分布を超越したメタラーニングを提案し、目に見えないフィットネス予測タスクへのポジティブな転送を示す。 我々の手法はMetalic(Meta-Learning In-Context)と呼ばれ、コンテキスト内学習と微調整を用いて、データが利用可能であれば新しいタスクに適応する。 重要な点として、微調整はメタトレーニング中に考慮されていないにもかかわらず、かなりの一般化を可能にする。 我々の微調整モデルは、最先端モデルより18倍少ないパラメータで強力な結果が得られる。 さらに,本手法は,確立した適合度予測ベンチマークであるProteinGymの低データ設定における新しい最先端性を設定する。 データ不足のため、私たちはメタラーニングがタンパク質工学の進歩に重要な役割を果たすと信じています。

Predicting the biophysical and functional properties of proteins is essential for in silico protein design. Machine learning has emerged as a promising technique for such prediction tasks. However, the relative scarcity of in vitro annotations means that these models often have little, or no, specific data on the desired fitness prediction task. As a result of limited data, protein language models (PLMs) are typically trained on general protein sequence modeling tasks, and then fine-tuned, or applied zero-shot, to protein fitness prediction. When no task data is available, the models make strong assumptions about the correlation between the protein sequence likelihood and fitness scores. In contrast, we propose meta-learning over a distribution of standard fitness prediction tasks, and demonstrate positive transfer to unseen fitness prediction tasks. Our method, called Metalic (Meta-Learning In-Context), uses in-context learning and fine-tuning, when data is available, to adapt to new tasks. Crucially, fine-tuning enables considerable generalization, even though it is not accounted for during meta-training. Our fine-tuned models achieve strong results with 18 times fewer parameters than state-of-the-art models. Moreover, our method sets a new state-of-the-art in low-data settings on ProteinGym, an established fitness-prediction benchmark. Due to data scarcity, we believe meta-learning will play a pivotal role in advancing protein engineering.
翻訳日:2024-10-31 03:56:20 公開日:2024-10-10
# 知的財産ブロックチェーンのOdyssey: 課題のナビゲートと機会獲得

Intellectual Property Blockchain Odyssey: Navigating Challenges and Seizing Opportunities ( http://arxiv.org/abs/2410.08359v1 )

ライセンス: Link先を確認
Rabia Bajwa, Farah Tasnur Meem, (参考訳) 本稿では,知的財産権(IPR)保護とブロックチェーン技術との関係について考察する。 我々は、知的財産権に関するブロックチェーンのスコープと意味を理解するために、ケーススタディ分析と研究論文レビューによって補足された総合的な文献レビューを行った。 我々の研究では、IPRにブロックチェーン技術を適用することが、透明性、セキュリティ、運用効率にどのように革命をもたらすかを実証しています。 また、この地域の主な課題と開口点も挙げている。 ブロックチェーンテクノロジを知的財産権やその他の技術コンポーネント(いくつかはすでに存在するか、ブロックチェーンによって解決されているものもあります。 このフレームワークは、異なる操作層にわたる360度カバレッジを提供することにより、知的財産の景観に対して、構造化された方法で新しい視点を与える可能性がある。

This paper investigates the evolving relationship between protecting Intellectual Property Rights (IPRs) and blockchain technology. We conducted a comprehensive literature review, supplemented by case study analyses and research paper reviews, to understand the scope and implications of blockchain about intellectual property rights. Our study demonstrates how applying blockchain technology for IPR could revolutionize transparency, security, and operational efficiency. It also identifies the primary challenges and openings in this area. We provide an extensive framework for integrating blockchain technology with intellectual property rights and other technical components (some of which already exist or are resolved by blockchain; some might need attention), drawing on current research and best practices. This framework has the potential to give a new perspective in a structured manner for the intellectual property landscape by providing 360-degree coverage across different layers of operation.
翻訳日:2024-10-31 03:46:24 公開日:2024-10-10
# Bradley-Terry-Luceモデルのためのミニマックス仮説テスト

Minimax Hypothesis Testing for the Bradley-Terry-Luce Model ( http://arxiv.org/abs/2410.08360v1 )

ライセンス: Link先を確認
Anuran Makur, Japneet Singh, (参考訳) Bradley-Terry-Luceモデル(BTLモデル、英: Bradley-Terry-Luce model)は、アイテムやエージェントのコレクションをペア比較に基づいてランク付けする最も広く使われているモデルの1つである。 エージェント$n$が与えられた場合、BTLモデルは、各エージェント$i$に遅延スキルスコア$\alpha_i > 0$を付与し、エージェント$i$がエージェント$j$よりも好まれる確率が$\alpha_i/(\alpha_i + \alpha_j)$であることを示す。 本研究の目的は,与えられた一対比較データセットと一対のエージェント毎の$k$の比較が,基礎となるBTLモデルから生じるか否かを決定する仮説テストの定式化である。 我々はこのテスト問題をミニマックスの意味で定式化し、問題の臨界しきい値を定義する。 次に、一般誘導観測グラフの臨界しきい値上の上限(軽微な仮定を満たす)を確立し、完全誘導グラフの下位境界を開発する。 我々の境界は、完全誘導グラフに対して、臨界しきい値がミニマックスの意味で$\Theta((nk)^{-1/2})$としてスケールすることを証明している。 特に、上界のテスト統計は、一般対比較モデルとBTLモデルのクラスとの分離距離を推定する新しい近似に基づく。 統計的検査の結果,I型とII型は誤差の確率に上限があることが判明した。 解析の多くは、グラフが拡張や有界主比といった特定の 'nice'' 特性を持つ固定された観測グラフ構造の文脈内で行われる。 さらに、グラフの主比のバウンダリ、モデルミスマッチによるBTLパラメータ推定における$\ell^2$-bounds、BTLモデルによるランク付けの安定性など、いくつかの補助的な結果を得る。 合成および実世界のデータセットに関する実験を通じて理論的結果を検証し、テストしきい値を決定するためのデータ駆動型置換テスト手法を提案する。

The Bradley-Terry-Luce (BTL) model is one of the most widely used models for ranking a collection of items or agents based on pairwise comparisons among them. Given $n$ agents, the BTL model endows each agent $i$ with a latent skill score $\alpha_i > 0$ and posits that the probability that agent $i$ is preferred over agent $j$ is $\alpha_i/(\alpha_i + \alpha_j)$. In this work, our objective is to formulate a hypothesis test that determines whether a given pairwise comparison dataset, with $k$ comparisons per pair of agents, originates from an underlying BTL model. We formalize this testing problem in the minimax sense and define the critical threshold of the problem. We then establish upper bounds on the critical threshold for general induced observation graphs (satisfying mild assumptions) and develop lower bounds for complete induced graphs. Our bounds demonstrate that for complete induced graphs, the critical threshold scales as $\Theta((nk)^{-1/2})$ in a minimax sense. In particular, our test statistic for the upper bounds is based on a new approximation we derive for the separation distance between general pairwise comparison models and the class of BTL models. To further assess the performance of our statistical test, we prove upper bounds on the type I and type II probabilities of error. Much of our analysis is conducted within the context of a fixed observation graph structure, where the graph possesses certain ``nice'' properties, such as expansion and bounded principal ratio. Additionally, we derive several auxiliary results, such as bounds on principal ratios of graphs, $\ell^2$-bounds on BTL parameter estimation under model mismatch, stability of rankings under the BTL model, etc. We validate our theoretical results through experiments on synthetic and real-world datasets and propose a data-driven permutation testing approach to determine test thresholds.
翻訳日:2024-10-31 03:46:24 公開日:2024-10-10
# 反復関数系の軌道に対するカーネルヒルベルト空間の再現学習のための上界

Upper Bounds for Learning in Reproducing Kernel Hilbert Spaces for Orbits of an Iterated Function System ( http://arxiv.org/abs/2410.08361v1 )

ライセンス: Link先を確認
Priyanka Roy, Susanne Saminger-Platz, (参考訳) 学習理論における重要な問題の1つは、ある入力$x$と対応する出力$y$の関係を近似した関数$f$を計算し、$y\approx f(x)$である。 この近似はサンプル点 $(x_t,y_t)_{t=1}^{m}$ に基づいている。 学習理論の文脈では、通常、標本点が独立に描画され、未知の基底分布から同一に分布する(すなわち、d)と仮定する。 しかし、この仮定は、入力列 $(x_t)_{t\in {\mathbb N}}$ を、モデルが対応する状態 $x_t$ にあるときの観測シーケンスに対応する$(y_t)_{t\in {\mathbb N}}$ で特定のマルコフ連鎖を形成する反復関数系によって生成される軌道として考慮することで緩和する。 そのようなプロセスに対して、マルコフ連鎖確率勾配アルゴリズムを用いて関数$f$を近似し、再現されたカーネルヒルベルト空間内の上限を導出することで誤差を推定する。

One of the key problems in learning theory is to compute a function $f$ that closely approximates the relationship between some input $x$ and corresponding output $y$, such that $y\approx f(x)$. This approximation is based on sample points $(x_t,y_t)_{t=1}^{m}$, where the function $f$ can be approximated within reproducing kernel Hilbert spaces using various learning algorithms. In the context of learning theory, it is usually customary to assume that the sample points are drawn independently and identically distributed (i.i.d.) from an unknown underlying distribution. However, we relax this i.i.d. assumption by considering an input sequence $(x_t)_{t\in {\mathbb N}}$ as a trajectory generated by an iterated function system, which forms a particular Markov chain, with $(y_t)_{t\in {\mathbb N}}$ corresponding to an observation sequence when the model is in the corresponding state $x_t$. For such a process, we approximate the function $f$ using the Markov chain stochastic gradient algorithm and estimate the error by deriving upper bounds within reproducing kernel Hilbert spaces.
翻訳日:2024-10-31 03:46:24 公開日:2024-10-10
# 自動運転におけるリアルタイムLiDARセマンティックセマンティックセグメンテーションの準備はできているか?

Are We Ready for Real-Time LiDAR Semantic Segmentation in Autonomous Driving? ( http://arxiv.org/abs/2410.08365v1 )

ライセンス: Link先を確認
Samir Abou Haidar, Alexandre Chariot, Mehdi Darouich, Cyril Joly, Jean-Emmanuel Deschaud, (参考訳) 自律的な移動・ロボットシステムのための知覚フレームワークの中で、LiDARによって生成される3Dポイント雲のセマンティック分析は、オブジェクトの検出や認識、シーン再構築といった多くのアプリケーションにとって鍵となる。 シーンセマンティックセグメンテーションは、3次元空間データを専門のディープニューラルネットワークと直接統合することで実現できる。 この種のデータは周囲の環境に関する豊富な幾何学的情報を提供するが、その非構造的でスパースな性質、予測不可能な大きさ、計算要求といった多くの課題も提示する。 これらの特徴は、特に多数のロボットアプリケーションの主要な計算コンポーネントを構成するリソース制約のあるハードウェアアーキテクチャにおいて、リアルタイムなセマンティック分析を妨げている。 そこで本研究では,3次元セマンティックセグメンテーション手法について検討し,NVIDIA Jetsonプラットフォーム上でのリソース制約推論の性能と性能について検討する。 我々は,2つの大規模屋外データセットであるSemanticKITTIとnuScenesに対して,Jetson AGX OrinおよびAGX Xavierシリーズのベンチマーク結果を提供する。

Within a perception framework for autonomous mobile and robotic systems, semantic analysis of 3D point clouds typically generated by LiDARs is key to numerous applications, such as object detection and recognition, and scene reconstruction. Scene semantic segmentation can be achieved by directly integrating 3D spatial data with specialized deep neural networks. Although this type of data provides rich geometric information regarding the surrounding environment, it also presents numerous challenges: its unstructured and sparse nature, its unpredictable size, and its demanding computational requirements. These characteristics hinder the real-time semantic analysis, particularly on resource-constrained hardware architectures that constitute the main computational components of numerous robotic applications. Therefore, in this paper, we investigate various 3D semantic segmentation methodologies and analyze their performance and capabilities for resource-constrained inference on embedded NVIDIA Jetson platforms. We evaluate them for a fair comparison through a standardized training protocol and data augmentations, providing benchmark results on the Jetson AGX Orin and AGX Xavier series for two large-scale outdoor datasets: SemanticKITTI and nuScenes.
翻訳日:2024-10-31 03:46:24 公開日:2024-10-10
# ノイズ量子ストレージからの1秒オフブロード転送と2分計算

1-Shot Oblivious Transfer and 2-Party Computation from Noisy Quantum Storage ( http://arxiv.org/abs/2410.08367v1 )

ライセンス: Link先を確認
Ricardo Faleiro, Manuel Goulão, Leonardo Novo, Emmanuel Zambrini Cruzeiro, (参考訳) Oblivious Transfer (OT)のように、暗号の基礎と連動するプリミティブはほとんどない。 当然のことながら、情報処理における量子資源の使用の出現により、OTはこれらの新しい資産の使用に関する新たな可能性(および不合理性の定義)を確立する上で中心的な役割を担った。 主要な研究経路は、OTを達成するために必要な仮定を最小化し、その結果を研究することである。 その計算については、余分な仮定なしに無条件でOTを構築することは不可能であり、通信の複雑さに関して、1ショット(および非インタラクティブ)OTを達成することは、古典的には不可能であることが広く知られている。 さらに、これはラウンド最適化セキュアな計算、特に1ショット2-Party Computation (2PC)の実現に強い結果をもたらす。 この研究において、量子資源を活用することで3つの主要な貢献が証明される: 1. ノイジー量子記憶モデルで構築された無条件セキュアな2メッセージ非インタラクティブOTプロトコル。 2. 1-shot OT in the Noisy-Quantum-Storage Model -- この構成が一方向関数と逐次関数の存在を前提として可能であることを証明する。 3. 半正直な1ショットOTから半正直な1ショットのYaoのGarbled Circuitsプロトコルにコンパイルされた1ショット2PCプロトコル。

Few primitives are as intertwined with the foundations of cryptography as Oblivious Transfer (OT). Not surprisingly, with the advent of the use of quantum resources in information processing, OT played a central role in establishing new possibilities (and defining impossibilities) pertaining to the use of these novel assets. A major research path is minimizing the required assumptions to achieve OT, and studying their consequences. Regarding its computation, it is impossible to construct unconditionally-secure OT without extra assumptions; and, regarding communication complexity, achieving 1-shot (and even non-interactive) OT has proved to be an elusive task, widely known to be impossible classically. Moreover, this has strong consequencesfor realizing round-optimal secure computation, in particular 1-shot 2-Party Computation (2PC). In this work, three main contributions are evidenced by leveraging quantum resources: 1. Unconditionally-secure 2-message non-interactive OT protocol constructed in the Noisy-Quantum-Storage Model. 2. 1-shot OT in the Noisy-Quantum-Storage Model -- proving that this construction is possible assuming the existence of one-way functions and sequential functions. 3. 1-shot 2PC protocol compiled from a semi-honest 1-shot OT to semi-honest 1-shot Yao's Garbled Circuits protocol.
翻訳日:2024-10-31 03:46:24 公開日:2024-10-10
# ElasticTok: 画像とビデオの適応的トークン化

ElasticTok: Adaptive Tokenization for Image and Video ( http://arxiv.org/abs/2410.08368v1 )

ライセンス: Link先を確認
Wilson Yan, Matei Zaharia, Volodymyr Mnih, Pieter Abbeel, Aleksandra Faust, Hao Liu, (参考訳) 効率的なビデオトークン化は、長いビデオシーケンスを処理できる汎用視覚モデルを学ぶ上で、依然として重要なボトルネックである。 広く使われているアプローチは、ビデオのエンコーディングを一定数のトークンに制限する。トークンが多すぎると、過剰なエンコーディングが発生し、あまりにも多くのトークンが、違法に長いシーケンス長をもたらす。 本研究では,フレームを可変数のトークンに適応的にエンコードする手法であるElasticTokを紹介する。 これを実現するために,各フレームのトークンエンコーディングの最後にランダムな数のトークンをドロップするマスキング手法を提案する。 より複雑なデータはより多くのトークンを活用することができるが、単純なデータはいくつかのトークンのみを必要とする。 画像とビデオに対する実証的な評価は,より強力なマルチモーダルモデル,ワールドモデル,エージェントの今後の発展への道を開いた,効率的なトークン利用における我々のアプローチの有効性を示すものである。

Efficient video tokenization remains a key bottleneck in learning general purpose vision models that are capable of processing long video sequences. Prevailing approaches are restricted to encoding videos to a fixed number of tokens, where too few tokens will result in overly lossy encodings, and too many tokens will result in prohibitively long sequence lengths. In this work, we introduce ElasticTok, a method that conditions on prior frames to adaptively encode a frame into a variable number of tokens. To enable this in a computationally scalable way, we propose a masking technique that drops a random number of tokens at the end of each frames's token encoding. During inference, ElasticTok can dynamically allocate tokens when needed -- more complex data can leverage more tokens, while simpler data only needs a few tokens. Our empirical evaluations on images and video demonstrate the effectiveness of our approach in efficient token usage, paving the way for future development of more powerful multimodal models, world models, and agents.
翻訳日:2024-10-31 03:46:24 公開日:2024-10-10
# コンテナにおけるマージ:DAM(Dariable Adaptive Merging)と平均化から自動化への道

Merging in a Bottle: Differentiable Adaptive Merging (DAM) and the Path from Averaging to Automation ( http://arxiv.org/abs/2410.08371v1 )

ライセンス: Link先を確認
Thomas Gauthier-Caron, Shamane Siriwardhana, Elliot Stein, Malikeh Ehghaghi, Charles Goddard, Mark McQuade, Jacob Solawetz, Maxime Labonne, (参考訳) モデルをマージすることで、AIシステムは別々の言語モデルの異なる強みを組み合わせることができ、実質的な再トレーニングを必要とせずに、複数の能力間のバランスを達成することができる。 しかし、訓練方法と微調整の違いにより統合プロセスは複雑になり、通常は専門知識と反復的な洗練が必要である。 本稿では,DAREやTIES-Mergingといったハイパーパラメータ駆動手法や,モデル・スープのようなシンプルな手法と比較して,進化戦略のような自動手法がどこにあるかを検討する。 さらに、拡張係数によるモデル統合を最適化し、計算要求を最小化する進化的マージの代替として、効率よく適応的なマージ手法である微分可能アダプティブマージ(DAM)を導入する。 この結果から,モデル・スープのような単純な平均化手法でさえ,モデル類似度が高い場合に競争力を発揮し,それぞれのテクニックの強みと限界を裏付けることがわかった。 実装コードと試験パイプラインを含むDAMをGitHubでオープンソースとして公開しています。

By merging models, AI systems can combine the distinct strengths of separate language models, achieving a balance between multiple capabilities without requiring substantial retraining. However, the integration process can be intricate due to differences in training methods and fine-tuning, typically necessitating specialized knowledge and repeated refinement. This paper explores model merging techniques across a spectrum of complexity, examining where automated methods like evolutionary strategies stand compared to hyperparameter-driven approaches such as DARE, TIES-Merging and simpler methods like Model Soups. In addition, we introduce Differentiable Adaptive Merging (DAM), an efficient, adaptive merging approach as an alternative to evolutionary merging that optimizes model integration through scaling coefficients, minimizing computational demands. Our findings reveal that even simple averaging methods, like Model Soups, perform competitively when model similarity is high, underscoring each technique's unique strengths and limitations. We open-sourced DAM, including the implementation code and experiment pipeline, on GitHub: https://github.com/arcee-ai/DAM.
翻訳日:2024-10-31 03:46:24 公開日:2024-10-10
# ソーシャルメディア上での自殺リスク検出のためのトランスフォーマーモデルの評価

Evaluating Transformer Models for Suicide Risk Detection on Social Media ( http://arxiv.org/abs/2410.08375v1 )

ライセンス: Link先を確認
Jakub Pokrywka, Jeremi I. Kaczmarek, Edward J. Gorzelańczyk, (参考訳) ソーシャルメディアにおける自殺リスクの検出は、命を救うための重要な課題である。 本稿では,クバポクチームによる「IEEE BigData 2024 Cup: Detection of Suicide Risk on Social Media」の投稿として,ソーシャルメディア投稿における自殺リスクの特定に最先端の自然言語処理ソリューションを活用することを提案する。 DeBERTa, CoT を用いた GPT-4o, 数発のプロンプト, 微調整 GPT-4o といったトランスフォーマーモデルについて実験を行った。 課題は、ソーシャルメディア投稿を指標、考え、行動、試行の4つのカテゴリに分類することであった。 以上の結果から,細調整GPT-4oモデルは他の2つの構成より優れ,自殺リスクの同定に高い精度が得られた。 特に、私たちのモデルは競技会で2位を獲得しました。 これらのモデルと最小限のチューニングを組み合わせることで,ソーシャルメディア上での自殺リスクの自動検出に有効な解決策が期待できる可能性が示唆された。

The detection of suicide risk in social media is a critical task with potential life-saving implications. This paper presents a study on leveraging state-of-the-art natural language processing solutions for identifying suicide risk in social media posts as a submission for the "IEEE BigData 2024 Cup: Detection of Suicide Risk on Social Media" conducted by the kubapok team. We experimented with the following configurations of transformer-based models: fine-tuned DeBERTa, GPT-4o with CoT and few-shot prompting, and fine-tuned GPT-4o. The task setup was to classify social media posts into four categories: indicator, ideation, behavior, and attempt. Our findings demonstrate that the fine-tuned GPT-4o model outperforms two other configurations, achieving high accuracy in identifying suicide risk. Notably, our model achieved second place in the competition. By demonstrating that straightforward, general-purpose models can achieve state-of-the-art results, we propose that these models, combined with minimal tuning, may have the potential to be effective solutions for automated suicide risk detection on social media.
翻訳日:2024-10-31 03:46:24 公開日:2024-10-10
# 資源拘束型母子ケアにおける生体信号モニタリングの最適化 : RLに基づくレストレスバンドアプローチ

Optimizing Vital Sign Monitoring in Resource-Constrained Maternal Care: An RL-Based Restless Bandit Approach ( http://arxiv.org/abs/2410.08377v1 )

ライセンス: Link先を確認
Niclas Boehmer, Yunfan Zhao, Guojun Xiong, Paula Rodriguez-Diaz, Paola Del Cueto Cibrian, Joseph Ngonzi, Adeline Boatin, Milind Tambe, (参考訳) 母親の死亡は依然として重要な公衆衛生上の課題である。 施設ベースの出産で発生した母性死亡を減らすための有望なアプローチは、早期警戒システムを通じて、出産後の母親のバイタルサインを一貫した監視を必要とする。 ワイヤレスのバイタルサインモニタリングデバイスは、継続的監視のための労働効率の高いソリューションを提供するが、その不足は、それらをどのように効果的に割り当てるかという重要な疑問を提起する。 本稿では、この問題をRMAB(Restless Multi-Armed Bandit)パラダイムの変種としてモデル化することで、この問題に対するアロケーションアルゴリズムを考案する。 これにより,RMABに対する従来のアプローチは不適切であり,学習と計画の複雑さが著しく増大する。 これらの課題を克服するために、我々は強化学習から人気のあるPPOアルゴリズムを採用し、ポリシーと値関数ネットワークをトレーニングしてアロケーションポリシーを学習する。 シミュレーションでは、我々の手法が最高のヒューリスティックベースラインを最大4ドルまで上回ることを示した。

Maternal mortality remains a significant global public health challenge. One promising approach to reducing maternal deaths occurring during facility-based childbirth is through early warning systems, which require the consistent monitoring of mothers' vital signs after giving birth. Wireless vital sign monitoring devices offer a labor-efficient solution for continuous monitoring, but their scarcity raises the critical question of how to allocate them most effectively. We devise an allocation algorithm for this problem by modeling it as a variant of the popular Restless Multi-Armed Bandit (RMAB) paradigm. In doing so, we identify and address novel, previously unstudied constraints unique to this domain, which render previous approaches for RMABs unsuitable and significantly increase the complexity of the learning and planning problem. To overcome these challenges, we adopt the popular Proximal Policy Optimization (PPO) algorithm from reinforcement learning to learn an allocation policy by training a policy and value function network. We demonstrate in simulations that our approach outperforms the best heuristic baseline by up to a factor of $4$.
翻訳日:2024-10-31 03:46:24 公開日:2024-10-10
# 深部生成量子ベイ

Deep Generative Quantile Bayes ( http://arxiv.org/abs/2410.08378v1 )

ライセンス: Link先を確認
Jungeum Kim, Percy S. Zhai, Veronika Ročková, (参考訳) 深部生成量学習による多変量後方サンプリング法を開発した。 シミュレーションは後部からランダムなベクトルサンプルを変換できるプッシュフォワードマッピングを通じて暗黙的に進行する。 多変量体におけるモンゲ・カントロヴィチ深度を利用してベイズ的信頼集合を直接サンプリングするが、これは典型的な後続サンプリング法では提供されない特徴である。 量子マッピングのトレーニングを強化するために,要約統計抽出を自動的に行うニューラルネットワークを設計する。 この追加のニューラルネットワーク構造は、観測サンプルのサイズが大きくなるにつれて支持収縮(つまり、後部近似の収縮)を含む性能上の利点を持つ。 確率の欠如が古典的MCMCの実現を不可能とするいくつかの事例に対して,本手法の有効性を実証する。 最後に、我々の量的学習フレームワークに対して、次の頻繁な理論的正当性を与える: {推定ベクトル量子化の一貫性、回復後分布の整合性、および対応するベイズ的信頼集合。

We develop a multivariate posterior sampling procedure through deep generative quantile learning. Simulation proceeds implicitly through a push-forward mapping that can transform i.i.d. random vector samples from the posterior. We utilize Monge-Kantorovich depth in multivariate quantiles to directly sample from Bayesian credible sets, a unique feature not offered by typical posterior sampling methods. To enhance the training of the quantile mapping, we design a neural network that automatically performs summary statistic extraction. This additional neural network structure has performance benefits, including support shrinkage (i.e., contraction of our posterior approximation) as the observation sample size increases. We demonstrate the usefulness of our approach on several examples where the absence of likelihood renders classical MCMC infeasible. Finally, we provide the following frequentist theoretical justifications for our quantile learning framework: {consistency of the estimated vector quantile, of the recovered posterior distribution, and of the corresponding Bayesian credible sets.
翻訳日:2024-10-31 03:46:24 公開日:2024-10-10
# エアダクト内での飛行

Flying in air ducts ( http://arxiv.org/abs/2410.08379v1 )

ライセンス: Link先を確認
Thomas Martin, Adrien Guénard, Vladislav Tempez, Lucien Renaud, Thibaut Raharijaona, Franck Ruffier, Jean-Baptiste Mouret, (参考訳) エアダクトは近代的な建物に不可欠なものであるが、検査のためにアクセスすることは困難である。 小型の四翼ドローンは、水平方向と垂直方向の両方を移動でき、破片の上をスムーズに飛ぶことができるため、潜在的な解決策を提供する。 しかし、回転子によって発生する空気の流れがダクト内を循環し、ドローンを不安定化するのに対して、ホバリングは多くの検査ミッションにおいて重要な特徴であるため、空気ダクト内をホバリングすることは問題となる。 本稿では,ロボット装置と力/トルクセンサを用いて,ダクト内のホバリングドローンに影響を及ぼす空気力のマッピングを行う。 収集した空力データに基づいて, 円管の下部3分の1に相当する安定飛行のための推奨位置を同定した。 次に、低コストの飛行時間センサを利用するニューラルネットワークベースの位置決めシステムを開発する。 これらの空気力学的知見とデータ駆動位置決めシステムを組み合わせることで、直径350mmから始まる小さな四角形ドローン(180mm)が小さな空気ダクトの中をホバリングして飛べることが分かる。 これらの結果は、ドローンのための新しくて有望なアプリケーションドメインを開く。

Air ducts are integral to modern buildings but are challenging to access for inspection. Small quadrotor drones offer a potential solution, as they can navigate both horizontal and vertical sections and smoothly fly over debris. However, hovering inside air ducts is problematic due to the airflow generated by the rotors, which recirculates inside the duct and destabilizes the drone, whereas hovering is a key feature for many inspection missions. In this article, we map the aerodynamic forces that affect a hovering drone in a duct using a robotic setup and a force/torque sensor. Based on the collected aerodynamic data, we identify a recommended position for stable flight, which corresponds to the bottom third for a circular duct. We then develop a neural network-based positioning system that leverages low-cost time-of-flight sensors. By combining these aerodynamic insights and the data-driven positioning system, we show that a small quadrotor drone (here, 180 mm) can hover and fly inside small air ducts, starting with a diameter of 350 mm. These results open a new and promising application domain for drones.
翻訳日:2024-10-31 03:46:24 公開日:2024-10-10
# AIによるプライバシポリシの評価 - 倫理的,法的,技術的課題

Assessing Privacy Policies with AI: Ethical, Legal, and Technical Challenges ( http://arxiv.org/abs/2410.08381v1 )

ライセンス: Link先を確認
Irem Aydin, Hermann Diebel-Fischer, Vincent Freiberger, Julia Möller-Klapperich, Erik Buchmann, Michael Färber, Anne Lauber-Rönsberg, Birte Platow, (参考訳) OpenAIのGPTシリーズのような機械学習と人工知能(AI)の利用の増加、特にLarge Language Models(LLM)は、組織全体に破壊的な変化をもたらします。 同時に、組織が個人データをどう扱うかという懸念も高まっている。 したがって、プライバシーポリシーはデータ処理のプラクティスにおける透明性に不可欠であり、ユーザーはプライバシーリスクを評価することができる。 しかし、これらの政策はしばしば長く複雑である。 これはユーザーの混乱と同意の疲労につながる可能性があり、ユーザーは自分の利益に対してデータプラクティスを受け入れ、虐待的または不公平なプラクティスは気づかないかもしれない。 LLMは、ユーザのプライバシポリシを自動評価するために使用することができる。 本研究は,3つの柱,すなわち技術実現可能性,倫理的意味,およびプライバシーポリシーの評価にLLMを使用することの法的適合性について考察する。 本研究の目的は,AI駆動型デジタル経済における意思決定者としての重要な役割を,ユーザが果たす上でのLLM技術の利用に関する議論を促進することにある。

The growing use of Machine Learning and Artificial Intelligence (AI), particularly Large Language Models (LLMs) like OpenAI's GPT series, leads to disruptive changes across organizations. At the same time, there is a growing concern about how organizations handle personal data. Thus, privacy policies are essential for transparency in data processing practices, enabling users to assess privacy risks. However, these policies are often long and complex. This might lead to user confusion and consent fatigue, where users accept data practices against their interests, and abusive or unfair practices might go unnoticed. LLMss can be used to assess privacy policies for users automatically. In this interdisciplinary work, we explore the challenges of this approach in three pillars, namely technical feasibility, ethical implications, and legal compatibility of using LLMs to assess privacy policies. Our findings aim to identify potential for future research, and to foster a discussion on the use of LLM technologies for enabling users to fulfil their important role as decision-makers in a constantly developing AI-driven digital economy.
翻訳日:2024-10-31 03:36:35 公開日:2024-10-10
# 言語モデル開発者は、トレイン-テストの重複を報告すべきである

Language model developers should report train-test overlap ( http://arxiv.org/abs/2410.08385v1 )

ライセンス: Link先を確認
Andy K Zhang, Kevin Klyman, Yifan Mai, Yoav Levine, Yian Zhang, Rishi Bommasani, Percy Liang, (参考訳) 言語モデルは広範囲に評価されているが、評価結果を正しく解釈するには、テスト中のデータに基づいて言語モデルがトレーニングされる範囲を示す、列車とテストのオーバーラップに関する知識が必要である。 一般には、列車とテストの重複に関する十分な情報がない:ほとんどのモデルは、公共の列車とテストの重複統計を持っておらず、第三者は訓練データにアクセスできないため、直接列車とテストの重複を計測できない。 4人の開発者がオープンソースライセンスの下でトレーニングデータをリリースし、コミュニティが直接トレインテストのオーバーラップを計測できるようにし、5人の開発者がトレインテストのオーバーラップ方法論と統計を公開します。 言語モデル開発者の関与により、3人の開発者に対して、トレイン-テストの重複に関する新しい情報を提供する。 全体として、公的なテストセットの評価結果を報告する際には、言語モデル開発者が重なり合う統計データや/またはトレーニングデータを公開すべきという立場を取る。 私たちの仕事は、モデル評価に対するコミュニティ全体の信頼を高めるために、電車とテストの重複に対する透明性を高めることを願っています。

Language models are extensively evaluated, but correctly interpreting evaluation results requires knowledge of train-test overlap which refers to the extent to which the language model is trained on the very data it is being tested on. The public currently lacks adequate information about train-test overlap: most models have no public train-test overlap statistics, and third parties cannot directly measure train-test overlap since they do not have access to the training data. To make this clear, we document the practices of 30 model developers, finding that just 9 developers report train-test overlap: 4 developers release training data under open-source licenses, enabling the community to directly measure train-test overlap, and 5 developers publish their train-test overlap methodology and statistics. By engaging with language model developers, we provide novel information about train-test overlap for three additional developers. Overall, we take the position that language model developers should publish train-test overlap statistics and/or training data whenever they report evaluation results on public test sets. We hope our work increases transparency into train-test overlap to increase the community-wide trust in model evaluations.
翻訳日:2024-10-31 03:36:35 公開日:2024-10-10
# 準モンテカルログラフ乱数関数の加熱:拡散カーネル・パースペクティブ

Heating Up Quasi-Monte Carlo Graph Random Features: A Diffusion Kernel Perspective ( http://arxiv.org/abs/2410.08389v1 )

ライセンス: Link先を確認
Brooke Feinberg, Aiwen Li, (参考訳) 我々は最近導入された準グラフランダムな特徴のクラス(q-GRF)の上に構築し、2正規化されたラプラシアン核の低分散推定器(Choromanski 2023)を出力できることを実証した。 本研究は,Diffusion(あるいはHeat), Mat\'ern, Inverse Cosineのカーネルで同様の結果が得られるかどうかを考察する。 拡散核は2正規化されたラプラシアンと最もよく似た働きをし、以前に確立されたアンチテーゼの終了手順の恩恵を受けるグラフタイプをさらに探求する。 具体的には、Erd\H{o}s-R\'enyi と Barab\asi-Albert ランダムグラフモデル、バイナリツリー、ラダーグラフを探索し、アンチテーゼ終了の恩恵を受ける特定のカーネルとグラフタイプの組み合わせを特定することを目的としている。 我々は、q-GRFがラダーグラフ上の拡散(または熱)核の低分散推定を実現することを主張する。 しかし、ラダーグラフ上のラグの数はアルゴリズムの性能に影響を与え、我々の実験を支持するさらなる理論的結果が近日中に発表される。 この研究は、組合せオブジェクト上で定義されたカーネルのための最も初期の準モンテカルロ法の上に構築され、カーネルベースの学習アルゴリズムと、様々な領域における将来の現実世界のアプリケーションへの道を開いた。

We build upon a recently introduced class of quasi-graph random features (q-GRFs), which have demonstrated the ability to yield lower variance estimators of the 2-regularized Laplacian kernel (Choromanski 2023). Our research investigates whether similar results can be achieved with alternative kernel functions, specifically the Diffusion (or Heat), Mat\'ern, and Inverse Cosine kernels. We find that the Diffusion kernel performs most similarly to the 2-regularized Laplacian, and we further explore graph types that benefit from the previously established antithetic termination procedure. Specifically, we explore Erd\H{o}s-R\'enyi and Barab\'asi-Albert random graph models, Binary Trees, and Ladder graphs, with the goal of identifying combinations of specific kernel and graph type that benefit from antithetic termination. We assert that q-GRFs achieve lower variance estimators of the Diffusion (or Heat) kernel on Ladder graphs. However, the number of rungs on the Ladder graphs impacts the algorithm's performance; further theoretical results supporting our experimentation are forthcoming. This work builds upon some of the earliest Quasi-Monte Carlo methods for kernels defined on combinatorial objects, paving the way for kernel-based learning algorithms and future real-world applications in various domains.
翻訳日:2024-10-31 03:36:35 公開日:2024-10-10
# KnowGraph: グラフデータを用いた論理推論による知識付き異常検出

KnowGraph: Knowledge-Enabled Anomaly Detection via Logical Reasoning on Graph Data ( http://arxiv.org/abs/2410.08390v1 )

ライセンス: Link先を確認
Andy Zhou, Xiaojun Xu, Ramesh Raghunathan, Alok Lal, Xinze Guan, Bin Yu, Bo Li, (参考訳) グラフベースの異常検出は、トランザクションネットワークにおける不正検出やネットワークトラフィックの侵入検出など、さまざまなセキュリティアプリケーションにおいて重要である。 グラフニューラルネットワーク(GNN)を含む標準的なアプローチは、シフトするデータ分散をまたいだ一般化に苦慮することが多い。 一方、実世界のドメイン知識はより安定しており、実世界の検出戦略の共通のコンポーネントである。 このような知識をGCNなどのデータ駆動モデルに明示的に統合するために,ドメイン知識とデータ駆動学習を統合したKnowGraphを提案する。 KnowGraphは、(1)ドメイン固有のセマンティックエンティティを予測する複数の専門知識モデルによって強化された、オーバーアーキシング検出タスクのメインモデルを利用する統計学習コンポーネント、(2)モデル出力に基づいて論理推論を実行し、重み付き一階述語論理式を通じてドメイン知識を符号化する確率的グラフィカルモデルを利用する推論コンポーネント、の2つの主要コンポーネントから構成される。 これらの大規模な実世界のデータセットに対する大規模な実験によると、KnowGraphはトランスダクティブとインダクティブの両方で、最先端のベースラインを一貫して上回り、完全に見えないテストグラフに一般化すると、平均的な精度で大幅に向上する。 さらなるアブレーション研究は、特に極度のクラス不均衡下で、検出性能を向上させるために提案した推論成分の有効性を示す。 これらの結果は、高度なグラフベースのセキュリティアプリケーションのためのデータ駆動モデルにドメイン知識を統合する可能性を強調している。

Graph-based anomaly detection is pivotal in diverse security applications, such as fraud detection in transaction networks and intrusion detection for network traffic. Standard approaches, including Graph Neural Networks (GNNs), often struggle to generalize across shifting data distributions. Meanwhile, real-world domain knowledge is more stable and a common existing component of real-world detection strategies. To explicitly integrate such knowledge into data-driven models such as GCNs, we propose KnowGraph, which integrates domain knowledge with data-driven learning for enhanced graph-based anomaly detection. KnowGraph comprises two principal components: (1) a statistical learning component that utilizes a main model for the overarching detection task, augmented by multiple specialized knowledge models that predict domain-specific semantic entities; (2) a reasoning component that employs probabilistic graphical models to execute logical inferences based on model outputs, encoding domain knowledge through weighted first-order logic formulas. Extensive experiments on these large-scale real-world datasets show that KnowGraph consistently outperforms state-of-the-art baselines in both transductive and inductive settings, achieving substantial gains in average precision when generalizing to completely unseen test graphs. Further ablation studies demonstrate the effectiveness of the proposed reasoning component in improving detection performance, especially under extreme class imbalance. These results highlight the potential of integrating domain knowledge into data-driven models for high-stakes, graph-based security applications.
翻訳日:2024-10-31 03:36:35 公開日:2024-10-10
# ファーストトークンの時間短縮のためのKV予測

KV Prediction for Improved Time to First Token ( http://arxiv.org/abs/2410.08391v1 )

ライセンス: Link先を確認
Maxwell Horton, Qingqing Cao, Chenfan Sun, Yanzi Jin, Sachin Mehta, Mohammad Rastegari, Moin Nabi, (参考訳) トランスフォーマーベースの言語モデルによる推論は、プロンプト処理ステップから始まる。 このステップでは、モデルが最初の出力トークンを生成し、将来の生成ステップに必要なKVキャッシュを格納する。 このプロンプト処理ステップは計算コストが高く、プロンプトの長さやバッチサイズが大きくなると、エッジデバイス上で10秒以上かかる。 これにより、モデルの出力に大幅なレイテンシを導入することで、ユーザエクスペリエンスが低下する。 事前訓練されたモデルの最初の出力( '`time to first token'' または TTFT)の生成に要する時間を短縮するため、KV予測と呼ばれる新しい手法を導入する。 本手法では, サブモデルを用いてプロンプトを処理し, ベースモデルで使用するKVキャッシュの近似を生成する。 この近似KVキャッシュは、補助モデルに再度問い合わせることなく、ベースモデルで自動回帰生成に使用される。 本手法は, ベースラインと比較した場合, 最適効率と精度のトレードオフが生じることを示す。 TriviaQA では,TTFT FLOPs 予算の範囲において,15 %-50 % の範囲で比較的精度が向上したことを示す。 また,固定TTFT FLOPs予算において,HumanEval pythonのコード補完に対して最大30 %の精度向上を図った。 さらに、Apple M2 ProのCPU上でモデルをベンチマークし、FLOPの改善がハードウェア上でのTTFTスピードアップにつながることを示す。 私たちはhttps://github.com/apple/corenet/tree/main/projects/kv-predictionでコードを公開しています。

Inference with transformer-based language models begins with a prompt processing step. In this step, the model generates the first output token and stores the KV cache needed for future generation steps. This prompt processing step can be computationally expensive, taking 10s of seconds or more for billion-parameter models on edge devices when prompt lengths or batch sizes rise. This degrades user experience by introducing significant latency into the model's outputs. To reduce the time spent producing the first output (known as the ``time to first token'', or TTFT) of a pretrained model, we introduce a novel method called KV Prediction. In our method, a small auxiliary model is used to process the prompt and produce an approximation of the KV cache used by a base model. This approximated KV cache is then used with the base model for autoregressive generation without the need to query the auxiliary model again. We demonstrate that our method produces a pareto-optimal efficiency-accuracy trade-off when compared to baselines. On TriviaQA, we demonstrate relative accuracy improvements in the range of $15\%-50\%$ across a range of TTFT FLOPs budgets. We also demonstrate accuracy improvements of up to $30\%$ on HumanEval python code completion at fixed TTFT FLOPs budgets. Additionally, we benchmark models on an Apple M2 Pro CPU and demonstrate that our improvement in FLOPs translates to a TTFT speedup on hardware. We release our code at https://github.com/apple/corenet/tree/main/projects/kv-prediction .
翻訳日:2024-10-31 03:36:35 公開日:2024-10-10
# 関係抽出のための合成学習データにおける幻覚の効果

The Effects of Hallucinations in Synthetic Training Data for Relation Extraction ( http://arxiv.org/abs/2410.08393v1 )

ライセンス: Link先を確認
Steven Rogulsky, Nicholas Popovic, Michael Färber, (参考訳) 関係抽出は知識グラフの構築に不可欠であり、トレーニング、微調整、評価モデルの基盤となる大きな高品質なデータセットがある。 生成データ拡張(GDA)は、そのようなデータセットを拡張するための一般的なアプローチである。 しかし、このアプローチは、しばしば、関係抽出への影響が過小評価されている、急激な事実のような幻覚をもたらす。 本稿では,文書と文レベルの関係抽出性能に及ぼす幻覚の影響について検討する。 我々の実証研究により、幻覚はテキストから関係を抽出するモデルの能力を著しく損なうことが明らかとなり、リコールの減少は19.1%から39.2%となる。 関連する幻覚はモデルの性能を損なうが、無関係な幻覚は最小限の影響を与える。 さらに,幻覚の検出手法を開発し,データ品質とモデル性能を向上させる。 我々のアプローチは、テキストを「ハロシント」または「クリーン」に分類することに成功し、高いF1スコアは83.8%と92.2%である。 これらの手法は幻覚を除去するだけでなく、高品質なデータを選択する上で欠かせないデータセット内の頻度を推定する上でも有効である。 本研究は,関係抽出モデルの有効性に対する関連する幻覚の影響を総合的に確認する。

Relation extraction is crucial for constructing knowledge graphs, with large high-quality datasets serving as the foundation for training, fine-tuning, and evaluating models. Generative data augmentation (GDA) is a common approach to expand such datasets. However, this approach often introduces hallucinations, such as spurious facts, whose impact on relation extraction remains underexplored. In this paper, we examine the effects of hallucinations on the performance of relation extraction on the document and sentence levels. Our empirical study reveals that hallucinations considerably compromise the ability of models to extract relations from text, with recall reductions between 19.1% and 39.2%. We identify that relevant hallucinations impair the model's performance, while irrelevant hallucinations have a minimal impact. Additionally, we develop methods for the detection of hallucinations to improve data quality and model performance. Our approaches successfully classify texts as either 'hallucinated' or 'clean,' achieving high F1-scores of 83.8% and 92.2%. These methods not only assist in removing hallucinations but also help in estimating their prevalence within datasets, which is crucial for selecting high-quality data. Overall, our work confirms the profound impact of relevant hallucinations on the effectiveness of relation extraction models.
翻訳日:2024-10-31 03:36:35 公開日:2024-10-10
# ブロックチェーン上のマネーロンダリング文書の特定

Identifying Money Laundering Subgraphs on the Blockchain ( http://arxiv.org/abs/2410.08394v1 )

ライセンス: Link先を確認
Kiwhan Song, Mohamed Ali Dhraief, Muhua Xu, Locke Cai, Xuhao Chen, Arvind, Jie Chen, (参考訳) 反マネーロンダリング(英: anti-Money Laundering、AML)とは、暗号通貨取引などの金融活動におけるマネーロンダリング犯罪の特定である。 最近の研究は、グラフベースの機械学習のレンズを通してAMLを進化させ、金融取引のWebをグラフとしてモデル化し、不審な活動を特定するグラフ手法を開発した。 例えば、最近のオープンソースデータセットとベンチマークに関する取り組みであるElliptic2は、同じエンティティによって管理されると考えられる一連のBitcoinアドレスを、グラフノードとして、グラフエッジとしてエンティティ間のトランザクションを扱う。 このモデリングは、マネーロンダリングスキーム — ブロックチェーンのサブグラフ — の“形”を明らかにするものだ。 論文によってベンチマークされた魅力的なサブグラフ分類結果にもかかわらず、グラフの巨大さのため競合手法の適用にはコストがかかる。 本研究では,グラフベースのフレームワークであるRevTrackを紹介し,低コストで高精度な大規模AML解析を実現する。 鍵となるアイデアは、最初の送信者とファイナルレシーバーを追跡することである。これらのエンティティは、それぞれのサブグラフの性質(ライセンス対不審)を強く示している。 本稿では,サブグラフ分類のためのニューラルネットワークモデルであるRevClassifyを提案する。 さらに,RevFilterを提案することによって,サブグラフ候補が与えられない現実的な問題に対処する。 この方法は、RevClassifyを使って、リサイトトランザクションを反復的にフィルタリングすることで、新しい不審なサブグラフを識別する。 これらの手法をAMLの新しい標準であるElliptic2上でベンチマークした結果、RevClassifyは最先端のサブグラフ分類技術よりもコストと精度で優れていることがわかった。 さらに,新たな疑わしい部分グラフの発見におけるRevFilterの有効性を実証し,実用的AMLの有用性を確認した。

Anti-Money Laundering (AML) involves the identification of money laundering crimes in financial activities, such as cryptocurrency transactions. Recent studies advanced AML through the lens of graph-based machine learning, modeling the web of financial transactions as a graph and developing graph methods to identify suspicious activities. For instance, a recent effort on opensourcing datasets and benchmarks, Elliptic2, treats a set of Bitcoin addresses, considered to be controlled by the same entity, as a graph node and transactions among entities as graph edges. This modeling reveals the "shape" of a money laundering scheme - a subgraph on the blockchain. Despite the attractive subgraph classification results benchmarked by the paper, competitive methods remain expensive to apply due to the massive size of the graph; moreover, existing methods require candidate subgraphs as inputs which may not be available in practice. In this work, we introduce RevTrack, a graph-based framework that enables large-scale AML analysis with a lower cost and a higher accuracy. The key idea is to track the initial senders and the final receivers of funds; these entities offer a strong indication of the nature (licit vs. suspicious) of their respective subgraph. Based on this framework, we propose RevClassify, which is a neural network model for subgraph classification. Additionally, we address the practical problem where subgraph candidates are not given, by proposing RevFilter. This method identifies new suspicious subgraphs by iteratively filtering licit transactions, using RevClassify. Benchmarking these methods on Elliptic2, a new standard for AML, we show that RevClassify outperforms state-of-the-art subgraph classification techniques in both cost and accuracy. Furthermore, we demonstrate the effectiveness of RevFilter in discovering new suspicious subgraphs, confirming its utility for practical AML.
翻訳日:2024-10-31 03:36:35 公開日:2024-10-10
# 非凸景観におけるネステロフ加速

Nesterov acceleration in benignly non-convex landscapes ( http://arxiv.org/abs/2410.08395v1 )

ライセンス: Link先を確認
Kanan Gupta, Stephan Wojtowytsch, (参考訳) 運動量に基づく最適化アルゴリズムは、ディープラーニングの非凸最適化問題でよく用いられるが、その分析は歴史的に凸と強い凸設定に限定されてきた。 本稿では,この理論と実践のギャップを部分的に埋めて,「良性」な非凸性を持つ最適化問題において,ほぼ同一の保証が得られることを示す。 これらのより弱い幾何学的仮定は、過度にパラメータ化された深層学習において、少なくとも局所的に、十分に正当化されていることを示す。 この結果は、Nesterovの加速勾配勾配アルゴリズム(NAG)の連続時間モデル、NAGの古典的な離散時間バージョン、純粋に加法的雑音と加法的および乗法的スケーリングの両方を示す雑音を伴う確率的勾配推定を備えたNAGのバージョンに対して得られる。

While momentum-based optimization algorithms are commonly used in the notoriously non-convex optimization problems of deep learning, their analysis has historically been restricted to the convex and strongly convex setting. In this article, we partially close this gap between theory and practice and demonstrate that virtually identical guarantees can be obtained in optimization problems with a `benign' non-convexity. We show that these weaker geometric assumptions are well justified in overparametrized deep learning, at least locally. Variations of this result are obtained for a continuous time model of Nesterov's accelerated gradient descent algorithm (NAG), the classical discrete time version of NAG, and versions of NAG with stochastic gradient estimates with purely additive noise and with noise that exhibits both additive and multiplicative scaling.
翻訳日:2024-10-31 03:36:35 公開日:2024-10-10
# VoxelPrompt: 接地医療画像解析のためのビジョンランゲージエージェント

VoxelPrompt: A Vision-Language Agent for Grounded Medical Image Analysis ( http://arxiv.org/abs/2410.08397v1 )

ライセンス: Link先を確認
Andrew Hoopes, Victor Ion Butoi, John V. Guttag, Adrian V. Dalca, (参考訳) 本稿では,VoxelPromptというエージェント駆動の視覚言語フレームワークについて紹介する。 VoxelPromptは多モードで汎用的であり、定量的に基底画像解析を提供しながら、言語間相互作用の柔軟性を活用する。 MRIやCTスキャンなどの様々な3D医療ボリュームが与えられた場合、VoxelPromptは入力プロンプトによって指定されたタスクを解決するために実行可能な命令を反復的に予測する言語エージェントを使用する。 これらの命令は視覚ネットワークと通信し、画像の特徴を符号化し、ボリューム出力を生成する(例:セグメンテーション)。 VoxelPromptは、中間命令の結果を解釈し、離散的な測定(例えば、一連のスキャンにわたる腫瘍の成長)を計算し、関連する出力をユーザに提示するためのさらなるアクションを計画する。 我々は,この枠組みを多様なニューロイメージングタスクのサンドボックスで評価し,単一のVoxelPromptモデルが数百の解剖学的および病理学的特徴を記述し,多くの複雑な形態的特性を計測し,病変特性のオープン言語解析を行うことを示す。 VoxelPromptは、セグメンテーションと視覚的質問応答のための細調整された単一タスクモデルと同様の精度でこれらの目的を達成し、より広い範囲のタスクを容易にする。 したがって、VoxelPromptは言語相互作用による正確な画像処理をサポートすることで、伝統的に対処するために特別なモデルを必要とする多数の画像処理タスクに対して包括的なユーティリティを提供する。

We present VoxelPrompt, an agent-driven vision-language framework that tackles diverse radiological tasks through joint modeling of natural language, image volumes, and analytical metrics. VoxelPrompt is multi-modal and versatile, leveraging the flexibility of language interaction while providing quantitatively grounded image analysis. Given a variable number of 3D medical volumes, such as MRI and CT scans, VoxelPrompt employs a language agent that iteratively predicts executable instructions to solve a task specified by an input prompt. These instructions communicate with a vision network to encode image features and generate volumetric outputs (e.g., segmentations). VoxelPrompt interprets the results of intermediate instructions and plans further actions to compute discrete measures (e.g., tumor growth across a series of scans) and present relevant outputs to the user. We evaluate this framework in a sandbox of diverse neuroimaging tasks, and we show that the single VoxelPrompt model can delineate hundreds of anatomical and pathological features, measure many complex morphological properties, and perform open-language analysis of lesion characteristics. VoxelPrompt carries out these objectives with accuracy similar to that of fine-tuned, single-task models for segmentation and visual question-answering, while facilitating a much larger range of tasks. Therefore, by supporting accurate image processing with language interaction, VoxelPrompt provides comprehensive utility for numerous imaging tasks that traditionally require specialized models to address.
翻訳日:2024-10-31 03:36:35 公開日:2024-10-10
# AgroGPT:エキスパートチューニングによる効率的な農業ビジョンランゲージモデル

AgroGPT: Efficient Agricultural Vision-Language Model with Expert Tuning ( http://arxiv.org/abs/2410.08405v1 )

ライセンス: Link先を確認
Muhammad Awais, Ali Husain Salem Abdulla Alharthi, Amandeep Kumar, Hisham Cholakkal, Rao Muhammad Anwer, (参考訳) 大規模なマルチモーダル対話モデル (LMM) の進展は、画像テキストデータの膨大なリポジトリをオンラインで利用できるようにしている。 このような進歩にもかかわらず、これらのモデルは多くの場合、大きなドメインギャップに遭遇し、新しいドメイン間で複雑な会話を行う能力を妨げている。 近年の取り組みは、命令チューニングデータをキュレートするために、ドメイン固有の画像テキストデータに依存しているにもかかわらず、この問題を軽減することを目的としている。 しかし、農業などの多くのドメインには、このような視覚言語データがない。 本研究では,農業領域における視覚のみのデータを活用した指導調整データの構築手法を提案する。 我々は、複数のドメインにまたがる多様な農業データセットを利用し、クラス固有の情報をキュレートし、大規模言語モデル(LLM)を使用してエキスパートチューニングセットを構築し、その結果、AgroInstructと呼ばれる70kのエキスパートチューニングデータセットを生成する。 AgroGPTは、複雑な農業関連の会話を処理し、有用な洞察を提供する効率的なLMMである。 また、評価のためのAgroEvalsを開発し、大規模なオープンソースモデルとクローズドソースモデルを比較した。 AgroGPTは、細粒度の農業概念を識別し、農業の専門家として機能し、マルチモーダル農業問題に有用な情報を提供する。 コード、データセット、モデルはhttps://github.com/awaisrauf/agroGPTで公開されている。

Significant progress has been made in advancing large multimodal conversational models (LMMs), capitalizing on vast repositories of image-text data available online. Despite this progress, these models often encounter substantial domain gaps, hindering their ability to engage in complex conversations across new domains. Recent efforts have aimed to mitigate this issue, albeit relying on domain-specific image-text data to curate instruction-tuning data. However, many domains, such as agriculture, lack such vision-language data. In this work, we propose an approach to construct instruction-tuning data that harnesses vision-only data for the agriculture domain. We utilize diverse agricultural datasets spanning multiple domains, curate class-specific information, and employ large language models (LLMs) to construct an expert-tuning set, resulting in a 70k expert-tuning dataset called AgroInstruct. Subsequently, we expert-tuned and created AgroGPT, an efficient LMM that can hold complex agriculture-related conversations and provide useful insights. We also develop AgroEvals for evaluation and compare {AgroGPT's} performance with large open and closed-source models. {AgroGPT} excels at identifying fine-grained agricultural concepts, can act as an agriculture expert, and provides helpful information for multimodal agriculture questions. The code, datasets, and models are available at https://github.com/awaisrauf/agroGPT.
翻訳日:2024-10-31 03:36:35 公開日:2024-10-10
# 突飛なあなた?AI生成アートにおけるプロンプト推論に関する人間学的研究

Promptly Yours? A Human Subject Study on Prompt Inference in AI-Generated Art ( http://arxiv.org/abs/2410.08406v1 )

ライセンス: Link先を確認
Khoi Trinh, Joseph Spracklen, Raveen Wijewickrama, Bimal Viswanath, Murtuza Jadliwala, Anindya Maiti, (参考訳) AIが生成するアートの新興分野は、クリエイターがユニークなアートを制作するためのプロンプトを購入し、販売し、共有できる、即席のマーケットプレイスの台頭を目撃している。 これらの市場はしばしばプロンプトに対して所有権を主張し、知的財産であると主張する。 本稿では,プロンプト・マーケットプレースで販売されている隠蔽プロンプトが,販売されている各プロンプトに付随する公開サンプル画像に基づいて,人間やAIツールが約1つのプロンプトを推測できることを考えると,セキュアな知的財産とみなすことができるかどうかを検討する。 具体的には,我々の調査が目指すのは 一 原画像に類似した画像を生成することを目的とし、AI生成画像を調べるだけで、原画像のプロンプトを正確に推測することができるか。 (2)人間とAIを併用したプロンプトを大規模言語モデルの助けを借りて構築することで、個人とAIのプロンプト推論を改善する可能性について検討した。 これまでの研究では、AIと機械学習を使って素早い推論を推論し(そしてそれに対しても)保護してきたが、私たちは初めて人間をループに含めている。 この結果から,人間とAIのコラボレーションは,プロンプトを推論し,高精度に類似画像を生成することができるが,本来のプロンプトを用いた場合ほど成功しないことがわかった。

The emerging field of AI-generated art has witnessed the rise of prompt marketplaces, where creators can purchase, sell, or share prompts for generating unique artworks. These marketplaces often assert ownership over prompts, claiming them as intellectual property. This paper investigates whether concealed prompts sold on prompt marketplaces can be considered as secure intellectual property, given that humans and AI tools may be able to approximately infer the prompts based on publicly advertised sample images accompanying each prompt on sale. Specifically, our survey aims to assess (i) how accurately can humans infer the original prompt solely by examining an AI-generated image, with the goal of generating images similar to the original image, and (ii) the possibility of improving upon individual human and AI prompt inferences by crafting human-AI combined prompts with the help of a large language model. Although previous research has explored the use of AI and machine learning to infer (and also protect against) prompt inference, we are the first to include humans in the loop. Our findings indicate that while humans and human-AI collaborations can infer prompts and generate similar images with high accuracy, they are not as successful as using the original prompt.
翻訳日:2024-10-31 03:36:35 公開日:2024-10-10
# 蒸留後何が残るか : 知識伝達が公平性とバイアスに与える影響

What is Left After Distillation? How Knowledge Transfer Impacts Fairness and Bias ( http://arxiv.org/abs/2410.08407v1 )

ライセンス: Link先を確認
Aida Mohammadshahi, Yani Ioannou, (参考訳) 知識蒸留(Knowledge Distillation)は、一般的に使用されるディープニューラルネットワーク圧縮法であり、全体的な一般化性能を維持する。 しかし, CIFAR-100, Tiny ImageNet, ImageNetなどのバランス画像分類データセットにおいても, 授業の41%が, 教師・生徒・生徒・生徒のクラス別精度(クラスバイアス)を比較した場合, 蒸留によって統計的に有意な影響が認められた。 クラスバイアスの変化は、モデルの使用状況の外で考慮される場合、必ずしも望ましくない結果ではない。 また,CelebA,Trifeature,HateXplainデータセットを用いて学習したモデルに対して,DPD(Demographic Parity difference)とEOD(Equalized Odds difference)の2つの共通フェアネス指標を用いて,蒸留温度の上昇により,蒸留した学生モデルのフェアネスが向上することが示唆された。 本研究は、あるクラスにおける知識蒸留の不均一な効果と、その公正性における潜在的に重要な役割を強調し、留意点として、高感度なアプリケーションドメインに蒸留モデルを用いる場合、注意が必要であることを強調した。

Knowledge Distillation is a commonly used Deep Neural Network compression method, which often maintains overall generalization performance. However, we show that even for balanced image classification datasets, such as CIFAR-100, Tiny ImageNet and ImageNet, as many as 41% of the classes are statistically significantly affected by distillation when comparing class-wise accuracy (i.e. class bias) between a teacher/distilled student or distilled student/non-distilled student model. Changes in class bias are not necessarily an undesirable outcome when considered outside of the context of a model's usage. Using two common fairness metrics, Demographic Parity Difference (DPD) and Equalized Odds Difference (EOD) on models trained with the CelebA, Trifeature, and HateXplain datasets, our results suggest that increasing the distillation temperature improves the distilled student model's fairness -- for DPD, the distilled student even surpasses the fairness of the teacher model at high temperatures. This study highlights the uneven effects of Knowledge Distillation on certain classes and its potentially significant role in fairness, emphasizing that caution is warranted when using distilled models for sensitive application domains.
翻訳日:2024-10-31 03:36:35 公開日:2024-10-10
# 道路被害の最適検出と分類のためのYOLOアーキテクチャの最適化:YOLOv7とYOLOv10の比較研究

Optimizing YOLO Architectures for Optimal Road Damage Detection and Classification: A Comparative Study from YOLOv7 to YOLOv10 ( http://arxiv.org/abs/2410.08409v1 )

ライセンス: Link先を確認
Vung Pham, Lan Dong Thi Ngoc, Duy-Linh Bui, (参考訳) 道路インフラの維持は、安全で効率的で持続可能な輸送システムを確保するために不可欠である。 しかし,道路損傷検出のための手動データ収集には時間がかかり,労働集約的であり,安全性のリスクが生じる。 人工知能の最近の進歩、特にディープラーニングは、道路画像を使ってこのプロセスを自動化するための有望なソリューションを提供する。 本稿では,深層学習モデルを用いた道路損傷検出のための総合ワークフローを提案し,検出精度を保ちながら推論速度の最適化に焦点を当てた。 具体的には、ハードウェアの制限を満たすために、大きな画像をトリミングし、軽量モデルを利用する。 さらに、この未表現の損傷クラスの検出を強化するために、外部ポットホールデータセットが組み込まれている。 提案手法では,複数のモデルアーキテクチャが採用されている。例えば,コーディネートアテンションレイヤを備えたカスタムYOLOv7モデルと,検出性能を最大化するためにトレーニングと組み合わせたTiny YOLOv7モデルである。 モデルは推論効率を最適化するためにさらにパラメータ化される。 実験結果から,3つの座標アテンション層とデフォルトのTiny YOLOv7モデルを持つカスタムYOLOv7モデルのアンサンブルは,画像毎の推測速度0.0547秒でF1スコア0.7027を達成することがわかった。 データ前処理、モデルトレーニング、推論スクリプトを含む完全なパイプラインは、プロジェクトのGitHubリポジトリで公開されている。

Maintaining roadway infrastructure is essential for ensuring a safe, efficient, and sustainable transportation system. However, manual data collection for detecting road damage is time-consuming, labor-intensive, and poses safety risks. Recent advancements in artificial intelligence, particularly deep learning, offer a promising solution for automating this process using road images. This paper presents a comprehensive workflow for road damage detection using deep learning models, focusing on optimizations for inference speed while preserving detection accuracy. Specifically, to accommodate hardware limitations, large images are cropped, and lightweight models are utilized. Additionally, an external pothole dataset is incorporated to enhance the detection of this underrepresented damage class. The proposed approach employs multiple model architectures, including a custom YOLOv7 model with Coordinate Attention layers and a Tiny YOLOv7 model, which are trained and combined to maximize detection performance. The models are further reparameterized to optimize inference efficiency. Experimental results demonstrate that the ensemble of the custom YOLOv7 model with three Coordinate Attention layers and the default Tiny YOLOv7 model achieves an F1 score of 0.7027 with an inference speed of 0.0547 seconds per image. The complete pipeline, including data preprocessing, model training, and inference scripts, is publicly available on the project's GitHub repository, enabling reproducibility and facilitating further research.
翻訳日:2024-10-31 03:36:35 公開日:2024-10-10
# Human Stone Toolmaking Action Grammar (HSTAG): きめ細かい運動行動認識のためのベンチマーク

Human Stone Toolmaking Action Grammar (HSTAG): A Challenging Benchmark for Fine-grained Motor Behavior Recognition ( http://arxiv.org/abs/2410.08410v1 )

ライセンス: Link先を確認
Cheng Liu, Xuyang Yan, Zekun Zhang, Cheng Ding, Tianhao Zhao, Shaya Jannati, Cynthia Martinez, Dietrich Stout, (参考訳) アクション認識は、過去10年間に多くの新しいアルゴリズムとデータセットの開発を目撃してきた。 しかし、ほとんどの公開ベンチマークは、日々の生活のアクティビティを中心に構築され、かなり粗いレベルで注釈付けされ、ドメイン固有のデータセットの多様性が欠如している。 本稿では,手持ちの2つの物体間の複雑な相互作用の迅速な継承を理解するために,高度な人工知能技術の応用を調査するために使用可能な,これまで文書化されていない石器加工行動を示す細かな注釈付きビデオデータセットであるHuman Stone Toolmaking Action Grammar (HSTAG)を紹介した。 HSTAGは18,739本のビデオクリップで構成され、石器製作における専門家の活動の4.5時間を記録している。 特有な特徴は 一 多くの運動行動に固有の急激な変化を反映した短時間の動作期間及び頻繁な遷移 (二 複数道具間の視角及びスイッチの多角化により、クラス内変動が増大すること。) 三 異なる行動系列間の不均衡なクラス分布と高い類似性により、各行動の異なるパターンを捉えることの難しさが増した。 HSTAG https://nyu.databrary.org/volume/1697の課題と独自性を示す実験分析のために、いくつかの主要なアクション認識モデルが使用されている。

Action recognition has witnessed the development of a growing number of novel algorithms and datasets in the past decade. However, the majority of public benchmarks were constructed around activities of daily living and annotated at a rather coarse-grained level, which lacks diversity in domain-specific datasets, especially for rarely seen domains. In this paper, we introduced Human Stone Toolmaking Action Grammar (HSTAG), a meticulously annotated video dataset showcasing previously undocumented stone toolmaking behaviors, which can be used for investigating the applications of advanced artificial intelligence techniques in understanding a rapid succession of complex interactions between two hand-held objects. HSTAG consists of 18,739 video clips that record 4.5 hours of experts' activities in stone toolmaking. Its unique features include (i) brief action durations and frequent transitions, mirroring the rapid changes inherent in many motor behaviors; (ii) multiple angles of view and switches among multiple tools, increasing intra-class variability; (iii) unbalanced class distributions and high similarity among different action sequences, adding difficulty in capturing distinct patterns for each action. Several mainstream action recognition models are used to conduct experimental analysis, which showcases the challenges and uniqueness of HSTAG https://nyu.databrary.org/volume/1697.
翻訳日:2024-10-31 03:26:42 公開日:2024-10-10
# ChatGPT時代の学習と課題解決のための開発者の選好を探る

Investigating Developers' Preferences for Learning and Issue Resolution Resources in the ChatGPT Era ( http://arxiv.org/abs/2410.08411v1 )

ライセンス: Link先を確認
Ahmad Tayeb, Mohammad D. Alahmadi, Elham Tajik, Sonia Haiduc, (参考訳) 最近のトレンドはビデオチュートリアルのような魅力的なフォーマットを好んでいる。 ChatGPTのような大規模言語モデル(LLM)の出現は、新しい学習パラダイムを提示します。 ソフトウェア開発と教育におけるLCMの可能性について、既存の研究が検討している一方で、開発者の学習とソリューション探索行動への影響は、まだ解明されていないままである。 このギャップに対処するため、ソフトウェア開発者とコンピュータサイエンスの学生を対象に調査を行い、341の回答を集め、そのうち268が完成し分析した。 本研究では,ChatGPTのようなAIチャットボットが,新たなスキル獲得や技術探索,プログラミング問題の解決において,開発者の学習嗜好にどのように影響しているかを検討する。 定量的かつ質的な分析を通じて、ビデオチュートリアル、執筆チュートリアル、Q&Aフォーラムなどの従来の学習資源をAIツールが補うか、置き換えるかを検討する。 ビデオチュートリアルが包括的カバレッジに強く好まれている一方で、回答者の多くは、AIチャットボットを、よりインタラクティブでパーソナライズされた学習体験へのシフトを裏付ける、記述されたチュートリアルの代替として見ている。 さらに、AIチャットボットは、ビデオチュートリアルの貴重なサプリメントと見なされ、開発者の学習リソースにおける彼らの役割が増していることを示している。 これらの洞察は、ChatGPT時代の学習リソースに対する進化する好みに光を当てることで、教育者やソフトウェア開発コミュニティにとって貴重な方向を提供する。

The landscape of software developer learning resources has continuously evolved, with recent trends favoring engaging formats like video tutorials. The emergence of Large Language Models (LLMs) like ChatGPT presents a new learning paradigm. While existing research explores the potential of LLMs in software development and education, their impact on developers' learning and solution-seeking behavior remains unexplored. To address this gap, we conducted a survey targeting software developers and computer science students, gathering 341 responses, of which 268 were completed and analyzed. This study investigates how AI chatbots like ChatGPT have influenced developers' learning preferences when acquiring new skills, exploring technologies, and resolving programming issues. Through quantitative and qualitative analysis, we explore whether AI tools supplement or replace traditional learning resources such as video tutorials, written tutorials, and Q&A forums. Our findings reveal a nuanced view: while video tutorials continue to be highly preferred for their comprehensive coverage, a significant number of respondents view AI chatbots as potential replacements for written tutorials, underscoring a shift towards more interactive and personalized learning experiences. Additionally, AI chatbots are increasingly considered valuable supplements to video tutorials, indicating their growing role in the developers' learning resources. These insights offer valuable directions for educators and the software development community by shedding light on the evolving preferences toward learning resources in the era of ChatGPT.
翻訳日:2024-10-31 03:26:42 公開日:2024-10-10
# 大規模言語モデルにおけるパラメトリック知識と文脈知識の相互作用の理解

Understanding the Interplay between Parametric and Contextual Knowledge for Large Language Models ( http://arxiv.org/abs/2410.08414v1 )

ライセンス: Link先を確認
Sitao Cheng, Liangming Pan, Xunjian Yin, Xinyi Wang, William Yang Wang, (参考訳) 大規模言語モデル(LLM)は、事前訓練(パラメトリック知識、PK)中に大量の知識を符号化し、文脈知識(CK)を組み込むことでさらに拡張することができる。 LLMは複雑な問題を解決するために、内部PKと外部CKを効果的に統合できるのか? 本稿では,PKとCKの動的相互作用について検討し,それらの関係を4つのタイプに分類する。 本調査を支援するために,科学的,事実的,常識的な知識にまたがるベンチマークECHOQAを紹介する。 以上の結果から,LLMは相補的でも無関係でも,文脈情報が得られる場合,PKを抑える傾向が示唆された。 調整された指示は、LSMが自身のPKにもっと依存するように促すが、それでも完全に活用するのに苦労している。 これらの結果から,LLMの重大な脆弱性が明らかとなり,知識集約型タスクにおける信頼性への懸念が高まった。 リソースはhttps://github.com/sitaocheng/Knowledge Interplayで入手できる。

Large language models (LLMs) encode vast amounts of knowledge during pre-training (parametric knowledge, or PK) and can further be enhanced by incorporating contextual knowledge (CK). Can LLMs effectively integrate their internal PK with external CK to solve complex problems? In this paper, we investigate the dynamic interaction between PK and CK, categorizing their relationships into four types: Supportive, Complementary, Conflicting, and Irrelevant. To support this investigation, we introduce ECHOQA, a benchmark spanning scientific, factual, and commonsense knowledge. Our results show that LLMs tend to suppress their PK when contextual information is available, even when it is complementary or irrelevant. While tailored instructions can encourage LLMs to rely more on their PK, they still struggle to fully leverage it. These findings reveal a key vulnerability in LLMs, raising concerns about their reliability in knowledge-intensive tasks. Resources are available at https://github.com/sitaocheng/Knowledge Interplay.
翻訳日:2024-10-31 03:26:42 公開日:2024-10-10
# バイリニアMLPは重みに基づく機械的解釈性を実現する

Bilinear MLPs enable weight-based mechanistic interpretability ( http://arxiv.org/abs/2410.08417v1 )

ライセンス: Link先を確認
Michael T. Pearce, Thomas Dooms, Alice Rigg, Jose M. Oramas, Lee Sharkey, (参考訳) MLPがディープニューラルネットワークでどのように計算を行うかについての機械的理解はいまだに解明されていない。 現在の解釈可能性の研究は、入力データセット上で隠れたアクティベーションから特徴を抽出することができるが、一般的にMDPの重みがどのように特徴を構成するかを説明することはできない。 1つの課題は、要素的非線形性は高次相互作用を導入し、MLP層を通して計算をトレースすることを困難にすることである。 本稿では,GLU (Gated Linear Unit) の一種であるバイリニアMLPの解析を行う。 双線型 MLP は3階テンソルを用いて線形演算で完全に表現することができ、重みの柔軟な解析が可能となる。 固有分解法による双線形MLP重みのスペクトル分析により、おもちゃの作業、画像分類、言語モデリングにまたがる解釈可能な低ランク構造が明らかとなる。 この理解を用いて、敵の例を作成し、オーバーフィッティングを発見し、ウェイトのみから直接小さな言語モデル回路を同定する。 以上の結果から,バイリニア層は現在のアクティベーション関数の解釈可能な代替として機能し,重みに基づく解釈性はディープラーニングモデルの理解に有効であることが示唆された。

A mechanistic understanding of how MLPs do computation in deep neural networks remains elusive. Current interpretability work can extract features from hidden activations over an input dataset but generally cannot explain how MLP weights construct features. One challenge is that element-wise nonlinearities introduce higher-order interactions and make it difficult to trace computations through the MLP layer. In this paper, we analyze bilinear MLPs, a type of Gated Linear Unit (GLU) without any element-wise nonlinearity that nevertheless achieves competitive performance. Bilinear MLPs can be fully expressed in terms of linear operations using a third-order tensor, allowing flexible analysis of the weights. Analyzing the spectra of bilinear MLP weights using eigendecomposition reveals interpretable low-rank structure across toy tasks, image classification, and language modeling. We use this understanding to craft adversarial examples, uncover overfitting, and identify small language model circuits directly from the weights alone. Our results demonstrate that bilinear layers serve as an interpretable drop-in replacement for current activation functions and that weight-based interpretability is viable for understanding deep-learning models.
翻訳日:2024-10-31 03:26:42 公開日:2024-10-10
# 機能的物語による時系列の一般化可能な自己回帰モデル

Generalizable autoregressive modeling of time series through functional narratives ( http://arxiv.org/abs/2410.08421v1 )

ライセンス: Link先を確認
Ran Liu, Wenrui Ma, Ellen Zippi, Hadi Pouransari, Jingyun Xiao, Chris Sandino, Behrooz Mahasseni, Juri Minxha, Erdrin Azemi, Eva L. Dyer, Ali Moin, (参考訳) 時系列データは本質的に時間の関数であるが、現在の変換器はそれらを単に時間の連結としてモデル化し、それらの機能的性質を見渡すことで時系列を学習する。 本研究では,時系列を時間関数として再解釈することで時系列を学習するトランスフォーマーの新たな目的を提案する。 関数空間における異なる強度の分解作用素を構築し、異なる次数に抽象化または単純化された元のサンプルの付加的な変種を生成することで、時系列の代替シーケンスを構築する。 生成シーケンスの新たなセットに基づいて、最も単純化された変種から元のサンプルを段階的に復元する自己回帰変換器を訓練する。 異なる単語を接続することで物語を学習する言語における次の単語予測タスクに類似して、我々の自己回帰変換器は、異なる関数を時間的に接続することで、時系列の物語(NoTS)を学習することを目的としている。 理論的には、近似関数の利点を通じて、代替系列の構成を正当化する。 変換器を用いて時系列データを学習する場合、時間関数の列を構成することにより、時間周期の列と比較してより広範な近似可能な関数(例えば微分)が得られ、合成特徴回帰実験では26倍の性能向上が達成される。 実験により,22個の実世界のデータセットにまたがる3つのタスクにおけるNoTSの有効性を検証した。 さらに、既存のトランスフォーマーアーキテクチャ上にNoTSを組み合わせることで、パフォーマンスが継続的に向上する。 本研究は, 時系列解析のための基礎モデル構築に有効な代替手段として, 汎用動的学習システムとしてのNoTSの可能性を示すものである。

Time series data are inherently functions of time, yet current transformers often learn time series by modeling them as mere concatenations of time periods, overlooking their functional properties. In this work, we propose a novel objective for transformers that learn time series by re-interpreting them as temporal functions. We build an alternative sequence of time series by constructing degradation operators of different intensity in the functional space, creating augmented variants of the original sample that are abstracted or simplified to different degrees. Based on the new set of generated sequence, we train an autoregressive transformer that progressively recovers the original sample from the most simplified variant. Analogous to the next word prediction task in languages that learns narratives by connecting different words, our autoregressive transformer aims to learn the Narratives of Time Series (NoTS) by connecting different functions in time. Theoretically, we justify the construction of the alternative sequence through its advantages in approximating functions. When learning time series data with transformers, constructing sequences of temporal functions allows for a broader class of approximable functions (e.g., differentiation) compared to sequences of time periods, leading to a 26\% performance improvement in synthetic feature regression experiments. Experimentally, we validate NoTS in 3 different tasks across 22 real-world datasets, where we show that NoTS significantly outperforms other pre-training methods by up to 6\%. Additionally, combining NoTS on top of existing transformer architectures can consistently boost the performance. Our results demonstrate the potential of NoTS as a general-purpose dynamic learner, offering a viable alternative for developing foundation models for time series analysis.
翻訳日:2024-10-31 03:26:42 公開日:2024-10-10
# 制限ボルツマンマシンからのサンプリングにおける位相遷移

A phase transition in sampling from Restricted Boltzmann Machines ( http://arxiv.org/abs/2410.08423v1 )

ライセンス: Link先を確認
Youngwoo Kwon, Qian Qin, Guanyang Wang, Yuchen Wei, (参考訳) 制限付きボルツマンマシン(Restricted Boltzmann Machines)は、ディープラーニングと教師なし学習において重要な役割を果たす、非指向型グラフィカルモデルのクラスである。 本研究では,1パラメータ制限ボルツマンマシンにおけるギブスサンプリング器の混合時間における相転移現象を実証する。 特に、混合時間は、パラメータ$c$が臨界値$c_\star\approx-5.87$以上であるかどうかによって、対数的に、多項式的に、指数的に、頂点数によって変化する。 分析から得られた重要な知見は、ギブスサンプリングと力学系とのリンクであり、後者の挙動に基づいて前者の振る舞いを定量化するために利用する。 臨界事例である$c=c_\star$ について検討するために,サンプルの定常分布に対する新しい等尺不等式を,分布がほぼ対数凹であることを示すことによって開発する。

Restricted Boltzmann Machines are a class of undirected graphical models that play a key role in deep learning and unsupervised learning. In this study, we prove a phase transition phenomenon in the mixing time of the Gibbs sampler for a one-parameter Restricted Boltzmann Machine. Specifically, the mixing time varies logarithmically, polynomially, and exponentially with the number of vertices depending on whether the parameter $c$ is above, equal to, or below a critical value $c_\star\approx-5.87$. A key insight from our analysis is the link between the Gibbs sampler and a dynamical system, which we utilize to quantify the former based on the behavior of the latter. To study the critical case $c= c_\star$, we develop a new isoperimetric inequality for the sampler's stationary distribution by showing that the distribution is nearly log-concave.
翻訳日:2024-10-31 03:26:42 公開日:2024-10-10
# 遺伝性網膜疾患における人工知能技術

Artificial intelligence techniques in inherited retinal diseases: A review ( http://arxiv.org/abs/2410.09105v1 )

ライセンス: Link先を確認
Han Trinh, Jordan Vice, Jason Charng, Zahra Tajbakhsh, Khyber Alam, Fred K. Chen, Ajmal Mian, (参考訳) 遺伝性網膜疾患(英: InheritedRetinal disease、IRDs)は、進行性視覚障害を引き起こす多様な遺伝性疾患群であり、成人の視覚障害の主要な原因である。 IRDの複雑さと不均一性は、診断、予後、管理において重大な課題を生じさせる。 人工知能(AI)の最近の進歩は、これらの課題に対する有望な解決策を提供する。 しかし、AI技術とその様々な応用が急速に発展し、この分野における知識の断片化につながっている。 このレビューは既存の研究を統合し、ギャップを特定し、IRDの診断と管理におけるAIの可能性の概要を提供する。 機械学習やディープラーニングといったAI技術、特に疾患の検出、進行予測、パーソナライズされた治療計画の探求を通じて、臨床応用を進めるための経路を構築することを目的としている。 これらの領域における畳み込みニューラルネットワークの有効性に特に焦点が当てられている。 さらに、説明可能なAIの統合について論じ、AIベースのシステムの透明性と信頼性を改善するために、臨床環境におけるその重要性を強調している。 レビューでは、IRDにおけるAIの役割について、既存の研究のギャップを埋める必要性に対処し、現在のAI技術の構造化分析を提供し、今後の研究方向性を概説する。 IRDにAIをデプロイする際の課題と機会の概要は、学際的なコラボレーションの必要性と、臨床応用を進めるための堅牢で解釈可能なAIモデルの継続的な開発を強調している。

Inherited retinal diseases (IRDs) are a diverse group of genetic disorders that lead to progressive vision loss and are a major cause of blindness in working-age adults. The complexity and heterogeneity of IRDs pose significant challenges in diagnosis, prognosis, and management. Recent advancements in artificial intelligence (AI) offer promising solutions to these challenges. However, the rapid development of AI techniques and their varied applications have led to fragmented knowledge in this field. This review consolidates existing studies, identifies gaps, and provides an overview of AI's potential in diagnosing and managing IRDs. It aims to structure pathways for advancing clinical applications by exploring AI techniques like machine learning and deep learning, particularly in disease detection, progression prediction, and personalized treatment planning. Special focus is placed on the effectiveness of convolutional neural networks in these areas. Additionally, the integration of explainable AI is discussed, emphasizing its importance in clinical settings to improve transparency and trust in AI-based systems. The review addresses the need to bridge existing gaps in focused studies on AI's role in IRDs, offering a structured analysis of current AI techniques and outlining future research directions. It concludes with an overview of the challenges and opportunities in deploying AI for IRDs, highlighting the need for interdisciplinary collaboration and the continuous development of robust, interpretable AI models to advance clinical applications.
翻訳日:2024-10-30 16:38:28 公開日:2024-10-10
# データ市場のためのフェデレーションラーニング:販売者選択とインセンティブのためのShapley-UCB

Federated Learning for Data Market: Shapley-UCB for Seller Selection and Incentives ( http://arxiv.org/abs/2410.09107v1 )

ライセンス: Link先を確認
Kongyang Chen, Zeming Xu, (参考訳) 近年、データトレーディング市場の研究は継続的に深化している。 トランザクションプロセスでは、エージェントと売り手の間で情報非対称性プロセスが存在する。 売り手にとって、直接データ配信はプライバシー漏洩のリスクに直面している。 同時に、売り手はデータを提供しようとしない。 データリソースの提供を促すためには,適切な補償方法が必要である。 エージェントに対しては、販売者が提供したデータの品質を調べ、評価する必要がある。 そうでなければ、エージェントはデータ品質の低い売り手を採用することで、コストとリソースを過大に消費する可能性がある。 そのため、売り手と売り手との取引の完全な配送プロセスを構築し、売り手と売り手のニーズを満たせるようにする必要がある。 フェデレートされた学習アーキテクチャは、優れたプライバシ保護のため、データマーケットで広く使用されている。 そこで本研究では,上記の課題に対応するために,フェデレート学習アーキテクチャに基づくトランザクションフレームワークを提案し,販売者選択アルゴリズムとインセンティブ補償機構を設計する。 具体的には、勾配類似度とShapleyアルゴリズムを用いて販売者の貢献度を正確に評価し、修正されたUPBアルゴリズムを用いて販売者を選択する。 トレーニング後、販売者のトレーニングへの参加に応じて公正な補償が行われる。 以上の研究から,実証のための合理的な実験を設計し,フレームワークの合理性と有効性を証明する結果を得た。

In recent years, research on the data trading market has been continuously deepened. In the transaction process, there is an information asymmetry process between agents and sellers. For sellers, direct data delivery faces the risk of privacy leakage. At the same time, sellers are not willing to provide data. A reasonable compensation method is needed to encourage sellers to provide data resources. For agents, the quality of data provided by sellers needs to be examined and evaluated. Otherwise, agents may consume too much cost and resources by recruiting sellers with poor data quality. Therefore, it is necessary to build a complete delivery process for the interaction between sellers and agents in the trading market so that the needs of sellers and agents can be met. The federated learning architecture is widely used in the data market due to its good privacy protection. Therefore, in this work, in response to the above challenges, we propose a transaction framework based on the federated learning architecture, and design a seller selection algorithm and incentive compensation mechanism. Specifically, we use gradient similarity and Shapley algorithm to fairly and accurately evaluate the contribution of sellers, and use the modified UCB algorithm to select sellers. After the training, fair compensation is made according to the seller's participation in the training. In view of the above work, we designed reasonable experiments for demonstration and obtained results, proving the rationality and effectiveness of the framework.
翻訳日:2024-10-30 16:38:28 公開日:2024-10-10
# 大規模AI天気予報モデルにおける遅延表現符号化による高分解能データの圧縮

Compressing high-resolution data through latent representation encoding for downscaling large-scale AI weather forecast model ( http://arxiv.org/abs/2410.09109v1 )

ライセンス: Link先を確認
Qian Liu, Bing Gong, Xiaoran Zhuang, Xiaohui Zhong, Zhiming Kang, Hao Li, (参考訳) 気象研究における人工知能(AI)の急速な進歩は、大規模で高次元のデータセットから学ぶ能力によって引き起こされている。 しかし、この進歩は、特に広範囲なデータ処理と計算資源の制限に関連する相当なコストに関して、大きな課題を生じさせる。 コンピュータビジョンにおけるニューラルイメージ圧縮(NIC)タスクにインスパイアされた本研究では、これらの課題に対処するために気象データを圧縮し、下流アプリケーションの効率を高めることを目的とする。 具体的には,高分解能データセット,特に高分解能中国気象庁土地データ同化システム(HRCLDAS)を空間分解能1kmで圧縮するための可変オートエンコーダ(VAE)フレームワークを提案する。 本フレームワークは,HRCLDASデータの3年間の保存容量を8.61TBから204GBに削減し,必須情報を保存した。 さらに、圧縮データの有用性をダウンスケーリングタスクで実証し、圧縮データセットでトレーニングされたモデルが、元のデータでトレーニングされたモデルと同等の精度を達成した。 これらの結果は,将来の気象研究における圧縮データの有効性と可能性を明らかにするものである。

The rapid advancement of artificial intelligence (AI) in weather research has been driven by the ability to learn from large, high-dimensional datasets. However, this progress also poses significant challenges, particularly regarding the substantial costs associated with processing extensive data and the limitations of computational resources. Inspired by the Neural Image Compression (NIC) task in computer vision, this study seeks to compress weather data to address these challenges and enhance the efficiency of downstream applications. Specifically, we propose a variational autoencoder (VAE) framework tailored for compressing high-resolution datasets, specifically the High Resolution China Meteorological Administration Land Data Assimilation System (HRCLDAS) with a spatial resolution of 1 km. Our framework successfully reduced the storage size of 3 years of HRCLDAS data from 8.61 TB to just 204 GB, while preserving essential information. In addition, we demonstrated the utility of the compressed data through a downscaling task, where the model trained on the compressed dataset achieved accuracy comparable to that of the model trained on the original data. These results highlight the effectiveness and potential of the compressed data for future weather research.
翻訳日:2024-10-30 16:38:28 公開日:2024-10-10
# IceDiff: 生成拡散前の高分解能・高品質海氷予測

IceDiff: High Resolution and High-Quality Sea Ice Forecasting with Generative Diffusion Prior ( http://arxiv.org/abs/2410.09111v1 )

ライセンス: Link先を確認
Jingyi Xu, Siwei Tu, Weidong Yang, Shuhao Li, Keyi Liu, Yeqi Luo, Lipeng Ma, Ben Fei, Lei Bai, (参考訳) 北極海氷の変動は、極地生態系、輸送ルート、沿岸社会、地球規模の気候に大きな影響を与えている。 より微細なスケールで海氷の変化を追跡することは、運用用途と科学研究の両方において最重要である。 人工知能の進歩を生かした最近のパン・アーキティック海氷予測手法は、数値モデルよりも有望な進歩を遂げた。 しかし、高解像度の海氷の予測はまだ未定である。 このギャップを埋めるために、より微細なスケールで海氷濃度を予測するための2段階の深層学習フレームワーク、IceDiffを提案する。 IceDiffはまず独立に訓練された視覚変換器を利用して、通常の25km×25kmのグリッドで従来の方法よりも粗いが優れた予測を生成する。 この高品質な海氷予測は、次の段階の信頼性の高いガイダンスとして利用することができる。 その後, 海氷濃度マップ上に事前学習した非条件拡散モデルを用いて, ゼロショット誘導サンプリング戦略とパッチベースの手法を用いて, 下層海氷の予測をサンプリングする。 アイスディフは6.25km×6.25kmの解像度で海氷の予測を初めて示した。 アイスディフは既存の海氷予測モデルの境界を拡張し、さらに重要なことは、高解像度の海氷濃度データを生成する能力は実用的利用と研究に欠かせないことである。

Variation of Arctic sea ice has significant impacts on polar ecosystems, transporting routes, coastal communities, and global climate. Tracing the change of sea ice at a finer scale is paramount for both operational applications and scientific studies. Recent pan-Arctic sea ice forecasting methods that leverage advances in artificial intelligence has made promising progress over numerical models. However, forecasting sea ice at higher resolutions is still under-explored. To bridge the gap, we propose a two-staged deep learning framework, IceDiff, to forecast sea ice concentration at finer scales. IceDiff first leverages an independently trained vision transformer to generate coarse yet superior forecasting over previous methods at a regular 25km x 25km grid. This high-quality sea ice forecasting can be utilized as reliable guidance for the next stage. Subsequently, an unconditional diffusion model pre-trained on sea ice concentration maps is utilized for sampling down-scaled sea ice forecasting via a zero-shot guided sampling strategy and a patch-based method. For the first time, IceDiff demonstrates sea ice forecasting with the 6.25km x 6.25km resolution. IceDiff extends the boundary of existing sea ice forecasting models and more importantly, its capability to generate high-resolution sea ice concentration data is vital for pragmatic usages and research.
翻訳日:2024-10-30 16:38:28 公開日:2024-10-10
# HLM-Cite:テキストに基づく科学的引用予測のためのハイブリッド言語モデルワークフロー

HLM-Cite: Hybrid Language Model Workflow for Text-based Scientific Citation Prediction ( http://arxiv.org/abs/2410.09112v1 )

ライセンス: Link先を確認
Qianyue Hao, Jingyang Fan, Fengli Xu, Jian Yuan, Yong Li, (参考訳) サイテーションネットワークは現代科学において重要であり、どの論文(候補)が新しい論文(クエリー)を引用するかを予測することが重要な問題である。 しかし、論文の引用の役割は基礎的な知識ベースから表面的な文脈まで様々である。 これらの役割の解消には、引用ネットワークにおける単純なエッジを超えて、論文間の論理的関係を深く理解する必要がある。 テキスト推論機能を備えたLLMの出現は、これらの関係を識別する新たな可能性をもたらすが、大きな課題は2つある。 まず、新しい論文は、LLMの文脈長を超える巨大な論文から引用を選択できる。 第二に、論文間の論理的関係は暗黙的であり、LLMに引用を予測するよう直接促すことは、より深い論理的推論よりも表面的なテキスト的類似性をもたらす可能性がある。 本稿では,表面的な言及を超越した批判的参照を識別する,コア引用という新しい概念を紹介する。 これにより、単純な二分分類から引用予測タスクを上昇させ、表層引用と非引用の両方からコア引用を区別する。 これを解決するために、埋め込みと生成LMを組み合わせた引用予測のための$\textbf{HLM-Cite}$, a $\textbf{H}$ybrid $\textbf{L}$anguage $\textbf{M}$odel workflowを提案する。 我々は、事前訓練されたテキスト埋め込みモデルを適用して、膨大な候補からの高次コア引用を粗末に検索し、LLMエージェントワークフローを設計し、抽出した論文をワンショット推論によりランク付けし、論文間の暗黙の関係を明らかにするために、カリキュラムのファインチューン手順を設計する。 パイプラインを使えば、候補セットを100Kの論文にスケールできます。 我々はHLM-Citeを19分野にわたって評価し,SOTA法と比較して17.6%の性能向上を示した。

Citation networks are critical in modern science, and predicting which previous papers (candidates) will a new paper (query) cite is a critical problem. However, the roles of a paper's citations vary significantly, ranging from foundational knowledge basis to superficial contexts. Distinguishing these roles requires a deeper understanding of the logical relationships among papers, beyond simple edges in citation networks. The emergence of LLMs with textual reasoning capabilities offers new possibilities for discerning these relationships, but there are two major challenges. First, in practice, a new paper may select its citations from gigantic existing papers, where the texts exceed the context length of LLMs. Second, logical relationships between papers are implicit, and directly prompting an LLM to predict citations may result in surface-level textual similarities rather than the deeper logical reasoning. In this paper, we introduce the novel concept of core citation, which identifies the critical references that go beyond superficial mentions. Thereby, we elevate the citation prediction task from a simple binary classification to distinguishing core citations from both superficial citations and non-citations. To address this, we propose $\textbf{HLM-Cite}$, a $\textbf{H}$ybrid $\textbf{L}$anguage $\textbf{M}$odel workflow for citation prediction, which combines embedding and generative LMs. We design a curriculum finetune procedure to adapt a pretrained text embedding model to coarsely retrieve high-likelihood core citations from vast candidates and then design an LLM agentic workflow to rank the retrieved papers through one-shot reasoning, revealing the implicit relationships among papers. With the pipeline, we can scale the candidate sets to 100K papers. We evaluate HLM-Cite across 19 scientific fields, demonstrating a 17.6% performance improvement comparing SOTA methods.
翻訳日:2024-10-30 16:38:28 公開日:2024-10-10
# M$^2$-ViT: 2レベル混合量子化によるハイブリッドビジョン変換器の高速化

M$^2$-ViT: Accelerating Hybrid Vision Transformers with Two-Level Mixed Quantization ( http://arxiv.org/abs/2410.09113v1 )

ライセンス: Link先を確認
Yanbiao Liang, Huihong Shi, Zhongfeng Wang, (参考訳) Vision Transformer (ViT) は大きな成功を収めているが、その計算量とメモリオーバーヘッドはエッジデバイスへの展開に挑戦している。 これを解決するために効率的なViTが登場し、通常はコンボリューション・トランスフォーマーハイブリッドアーキテクチャによって精度とハードウェア効率が向上している。 従来の研究は、効率的なハイブリッドViTアーキテクチャと量子化のベストを組み込むための効率的なViTの量子化について検討してきたが、均一な量子化に焦点を当て、混合量子化の潜在的な利点を見落としている。 一方、いくつかの研究が標準的なViTの混合量子化を研究しているが、アルゴリズムやハードウェアの特性が異なるため、ハイブリッドViTには直接適用できない。 このギャップを埋めるため、M$^2$-ViTを導入し、2レベル混合量子化による畳み込み変換器ハイブリッドVTを高速化する。 具体的には、ハードウェアフレンドリーな2値混合量子化(M$^2$Q)戦略を導入し、効率的なViTのアーキテクチャ特性を活用するために、混合量子化精度と混合量子化スキーム(一様および二のパワー)を両立させる。 さらに、アルゴリズムの利点を実際のハードウェア改善に変換するために、異種コンピューティングエンジンを備えた専用アクセラレータを構築しています。 実験の結果, エネルギー遅延生成物 (EDP) の省エネ効果は, 従来の作業と同等の定量化精度で, 平均80 % の省エネ効果を示した。

Although Vision Transformers (ViTs) have achieved significant success, their intensive computations and substantial memory overheads challenge their deployment on edge devices. To address this, efficient ViTs have emerged, typically featuring Convolution-Transformer hybrid architectures to enhance both accuracy and hardware efficiency. While prior work has explored quantization for efficient ViTs to marry the best of efficient hybrid ViT architectures and quantization, it focuses on uniform quantization and overlooks the potential advantages of mixed quantization. Meanwhile, although several works have studied mixed quantization for standard ViTs, they are not directly applicable to hybrid ViTs due to their distinct algorithmic and hardware characteristics. To bridge this gap, we present M$^2$-ViT to accelerate Convolution-Transformer hybrid efficient ViTs with two-level mixed quantization. Specifically, we introduce a hardware-friendly two-level mixed quantization (M$^2$Q) strategy, characterized by both mixed quantization precision and mixed quantization schemes (i.e., uniform and power-of-two), to exploit the architectural properties of efficient ViTs. We further build a dedicated accelerator with heterogeneous computing engines to transform our algorithmic benefits into real hardware improvements. Experimental results validate our effectiveness, showcasing an average of $80\%$ energy-delay product (EDP) saving with comparable quantization accuracy compared to the prior work.
翻訳日:2024-10-30 16:38:28 公開日:2024-10-10
# 破滅的サイバー能力ベンチマーク(CB) : LLMエージェントサイバー攻撃能力のロバスト評価

Catastrophic Cyber Capabilities Benchmark (3CB): Robustly Evaluating LLM Agent Cyber Offense Capabilities ( http://arxiv.org/abs/2410.09114v1 )

ライセンス: Link先を確認
Andrey Anurin, Jonathan Ng, Kibo Schaffer, Ziyue Wang, Jason Schreiber, Esben Kran, (参考訳) LLMエージェントは防衛サイバー作戦に革命を起こす可能性があるが、その攻撃能力はまだ完全には理解されていない。 新たな脅威に備えて、モデル開発者と政府は基礎モデルのサイバー能力を評価している。 しかしながら、これらの評価には透明性が欠如し、攻撃的能力に包括的な焦点が当てられていることが多い。 そこで我々は,LLMエージェントの現実的攻撃能力を厳格に評価する新しいフレームワークであるCatastrophic Cyber Capabilities Benchmark (3CB)を紹介した。 GPT-4o や Claude 3.5 Sonnet のようなフロンティアモデルでは,バイナリ解析から Web 技術まで,ドメイン間の偵察や利用といった攻撃的な処理が可能であることが,3CB 上での最近の LLM の評価から明らかとなった。 逆に、小さなオープンソースモデルは攻撃能力に制限がある。 我々のソフトウェアソリューションとそれに対応するベンチマークは、サイバー攻撃評価の迅速な改善能力と堅牢性の間のギャップを減らし、これらの強力な技術のより安全な展開と規制を支援する重要なツールを提供する。

LLM agents have the potential to revolutionize defensive cyber operations, but their offensive capabilities are not yet fully understood. To prepare for emerging threats, model developers and governments are evaluating the cyber capabilities of foundation models. However, these assessments often lack transparency and a comprehensive focus on offensive capabilities. In response, we introduce the Catastrophic Cyber Capabilities Benchmark (3CB), a novel framework designed to rigorously assess the real-world offensive capabilities of LLM agents. Our evaluation of modern LLMs on 3CB reveals that frontier models, such as GPT-4o and Claude 3.5 Sonnet, can perform offensive tasks such as reconnaissance and exploitation across domains ranging from binary analysis to web technologies. Conversely, smaller open-source models exhibit limited offensive capabilities. Our software solution and the corresponding benchmark provides a critical tool to reduce the gap between rapidly improving capabilities and robustness of cyber offense evaluations, aiding in the safer deployment and regulation of these powerful technologies.
翻訳日:2024-10-30 16:38:28 公開日:2024-10-10
# ハード・ツー・プレイス・キドニー配置の最適化:センターランク付けのための機械学習アプローチ

Optimizing Hard-to-Place Kidney Allocation: A Machine Learning Approach to Center Ranking ( http://arxiv.org/abs/2410.09116v1 )

ライセンス: Link先を確認
Sean Berry, Berk Gorgulu, Sait Tunc, Mucahit Cevik, Matthew J Ellis, (参考訳) 腎臓移植は末期腎疾患の治療法として好まれるが、ドナーの不足とアロケーションシステムの非効率性は大きなボトルネックを生み出し、待ち時間が長くなり死亡率を脅かす。 重度の不足にもかかわらず、救命臓器の非活用を防ぐための時間的かつ効果的な介入は依然として不十分である。 本研究は, 腎硬質腎臓を最も有効に活用できる中心に配置し, より効果的に配置を成功させる戦略として推奨されている。 しかしながら、このプラクティスに対する現在の試みは標準化されておらず、意思決定者の主観的な判断に強く依存している。 本報告では, 肝硬度腎臓を中心に配置し, 移植を成功させることのできる, データ駆動型機械学習に基づく新しいランキングシステムを提案する。 全国の死亡者腎臓提供および移植データセットを用いて、ドナー、センター、患者固有の特徴を持つユニークなデータセットを構築した。 本研究では、機械学習モデルを用いて、移植センターの集合体による腎臓の受入確率を予測し、受入確率に基づいてランキングする、データ駆動型配列外配置ポリシーを提案する。 本実験により, 提案方針は, 全腎臓に4倍, 固着腎臓に10倍のセンター数を減らした。 この著明な減少は,本法が腎硬変を改善し,その受容を加速し,最終的には患者の死亡率と移植不全のリスクを低減できることを示している。 さらに、機械学習の解釈可能性ツールを用いて、腎臓のアロケーション決定に影響を与える要因についての洞察を提供する。

Kidney transplantation is the preferred treatment for end-stage renal disease, yet the scarcity of donors and inefficiencies in allocation systems create major bottlenecks, resulting in prolonged wait times and alarming mortality rates. Despite their severe scarcity, timely and effective interventions to prevent non-utilization of life-saving organs remain inadequate. Expedited out-of-sequence placement of hard-to-place kidneys to centers with the highest likelihood of utilizing them has been recommended in the literature as an effective strategy to improve placement success. Nevertheless, current attempts towards this practice is non-standardized and heavily rely on the subjective judgment of the decision-makers. This paper proposes a novel data-driven, machine learning-based ranking system for allocating hard-to-place kidneys to centers with a higher likelihood of accepting and successfully transplanting them. Using the national deceased donor kidney offer and transplant datasets, we construct a unique dataset with donor-, center-, and patient-specific features. We propose a data-driven out-of-sequence placement policy that utilizes machine learning models to predict the acceptance probability of a given kidney by a set of transplant centers, ranking them accordingly based on their likelihood of acceptance. Our experiments demonstrate that the proposed policy can reduce the average number of centers considered before placement by fourfold for all kidneys and tenfold for hard-to-place kidneys. This significant reduction indicates that our method can improve the utilization of hard-to-place kidneys and accelerate their acceptance, ultimately reducing patient mortality and the risk of graft failure. Further, we utilize machine learning interpretability tools to provide insights into factors influencing the kidney allocation decisions.
翻訳日:2024-10-30 16:38:28 公開日:2024-10-10
# REDO: 符号化エージェントの実行不要な実行時エラー検出

REDO: Execution-Free Runtime Error Detection for COding Agents ( http://arxiv.org/abs/2410.09117v1 )

ライセンス: Link先を確認
Shou Li, Andrey Kan, Laurent Callot, Bhavana Bhasker, Muhammad Shihab Rashid, Timothy B Esler, (参考訳) LLMベースのエージェントは複雑な問題に対処する際、例外的な能力を示すため、より高度なタスクに取り組むためのコーディングエージェントの開発に注目が集まっている。 有望なパフォーマンスにもかかわらず、これらのコーディングエージェントは多くの場合、実行時エラーを含むプログラムや修正を生成する。 このようなエラーを静的に識別するコーディングエージェントの能力を強化することで、全体的なパフォーマンスが大幅に向上する可能性がある。 本研究では,コーディングエージェントの実行時エラーをコード実行なしで検出する静的解析ツールとLLMを統合した,実行時エラー検出(REDO)を提案する。 さらに,SWE-Bench (lite) に基づくSWE-Bench-Error-Detection (SWEDE) というベンチマークタスクを提案し,複雑な外部依存関係を持つリポジトリレベルの問題においてエラー検出を行う。 最後に,様々な誤り検出タスクの定量的および定性的な解析により,REDOは11.0%の精度と9.1%の重み付きF1スコアを達成し,現在の最先端手法よりも優れた性能を示し,誤り検出にLLMを組み込むことの利点について考察する。

As LLM-based agents exhibit exceptional capabilities in addressing complex problems, there is a growing focus on developing coding agents to tackle increasingly sophisticated tasks. Despite their promising performance, these coding agents often produce programs or modifications that contain runtime errors, which can cause code failures and are difficult for static analysis tools to detect. Enhancing the ability of coding agents to statically identify such errors could significantly improve their overall performance. In this work, we introduce Execution-free Runtime Error Detection for COding Agents (REDO), a method that integrates LLMs with static analysis tools to detect runtime errors for coding agents, without code execution. Additionally, we propose a benchmark task, SWE-Bench-Error-Detection (SWEDE), based on SWE-Bench (lite), to evaluate error detection in repository-level problems with complex external dependencies. Finally, through both quantitative and qualitative analyses across various error detection tasks, we demonstrate that REDO outperforms current state-of-the-art methods by achieving a 11.0% higher accuracy and 9.1% higher weighted F1 score; and provide insights into the advantages of incorporating LLMs for error detection.
翻訳日:2024-10-30 16:13:24 公開日:2024-10-10
# FSW-GNN: バイリプシッツWL等価グラフニューラルネットワーク

FSW-GNN: A Bi-Lipschitz WL-Equivalent Graph Neural Network ( http://arxiv.org/abs/2410.09118v1 )

ライセンス: Link先を確認
Yonatan Sverdlov, Yair Davidson, Nadav Dym, Tal Amir, (参考訳) 最も人気のあるグラフニューラルネットワークの多くは、メッセージパッシングニューラルネットワーク(MPNN)のカテゴリに分類される。 有名なことに、MPNNがグラフを区別する能力は、Weisfeiler-Lemann (WL) グラフ同型テストで分離可能なグラフに限られており、分離パワーの観点では最強のMPNNはWL同値である。 近年,標準WL等価MPNNによって提供される分離の質が非常に低くなり,WL分離グラフが非常によく似ており,区別しにくい特徴にマッピングされることが示されている。 本稿では,MPNNに対するバイリプシッツ連続性保証を求めることでこの問題に対処する。 バイリプシッツ特性に欠ける標準和に基づくMPNNとは対照的に,提案モデルは2つの標準グラフメトリクスに対してバイリプシッツグラフを埋め込む。 経験的に、MPNNはいくつかのグラフ学習タスクにおいて、標準的なMPNNと競合し、過度な長距離タスクでははるかに正確であることを示す。

Many of the most popular graph neural networks fall into the category of message-passing neural networks (MPNNs). Famously, MPNNs' ability to distinguish between graphs is limited to graphs separable by the Weisfeiler-Lemann (WL) graph isomorphism test, and the strongest MPNNs, in terms of separation power, are WL-equivalent. Recently, it was shown that the quality of separation provided by standard WL-equivalent MPNN can be very low, resulting in WL-separable graphs being mapped to very similar, hardly distinguishable features. This paper addresses this issue by seeking bi-Lipschitz continuity guarantees for MPNNs. We demonstrate that, in contrast with standard summation-based MPNNs, which lack bi-Lipschitz properties, our proposed model provides a bi-Lipschitz graph embedding with respect to two standard graph metrics. Empirically, we show that our MPNN is competitive with standard MPNNs for several graph learning tasks and is far more accurate in over-squashing long-range tasks.
翻訳日:2024-10-30 16:13:24 公開日:2024-10-10