このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20241107となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 顔非シグナリング相関、完全非局所性、全対無証明、擬似テレパシーの等価性
Equivalence between face nonsignaling correlations, full nonlocality, all-versus-nothing proofs, and pseudotelepathy ( http://arxiv.org/abs/2310.10600v2 ) ライセンス: Link先を確認 | Yuan Liu, Ho Yiu Chung, Emmanuel Zambrini Cruzeiro, Junior R. Gonzales-Ureta, Ravishankar Ramanathan, Adán Cabello, | (参考訳) 量子相関の$p$ が局所点を持たない非シグナリングポリトープの面にあることを示し、$p$ が非局所コンテンツ 1 を持つことと、$p$ が Greenberger-Horne-Zeilinger-like の証明を許すこと、および$p$ が非局所ゲームに対して完璧な戦略を提供することを言う。
つまり、顔非信号(FNS)相関、完全非局所性(FN)、全反無(AVN)証明、擬似テレパシー(PT)は等価である。
これは、様々な基本的な結果の背後にある異なるリソースが実際には同じリソースであることを示している。
我々は、FNS=FN=AVN=PTの量子相関がベルの不等式を極大に破る必要はないことを示した。
量子FNS=FN=AVN=PT相関を同定する手法を提案し,それを用いて量子力学が3,3,3,2,3,4)ベルのシナリオにおいてもFNS=FN=AVN=PTを許さないことを示す。
このことは、FNS=FN=AVN=PT同値性のため、いくつかの分野に影響を及ぼすようなオープンな問題を解く。
We show that a quantum correlation $p$ is in a face of the nonsignaling polytope with no local points if and only if $p$ has nonlocal content 1, if and only if $p$ allows for a Greenberger-Horne-Zeilinger-like proof, and if and only if $p$ provides a perfect strategy for a nonlocal game. That is, face nonsignaling (FNS) correlations, full nonlocality (FN), all-versus nothing (AVN) proofs, and pseudotelepathy (PT) are equivalent. This shows that different resources behind a wide variety of fundamental results are in fact the same resource. We demonstrate that quantum correlations with FNS=FN=AVN=PT do not need to maximally violate a tight Bell inequality. We introduce a method for identifying quantum FNS=FN=AVN=PT correlations and use it to prove quantum mechanics does not allow for FNS=FN=AVN=PT neither in the (3,3;3,2) nor in the (3,2;3,4) Bell scenarios. This solves an open problem that, due to the FNS=FN=AVN=PT equivalence, has implications in several fields. | 翻訳日:2024-11-09 10:01:09 公開日:2024-11-07 |
# Dual-isometric Projected Entangled Pair States
Dual-isometric Projected Entangled Pair States ( http://arxiv.org/abs/2404.16783v3 ) ライセンス: Link先を確認 | Xie-Hang Yu, J. Ignacio Cirac, Pavel Kos, Georgios Styliaris, | (参考訳) 高次元多体物理状態の効率的なキャラクタリゼーションは重要な課題を示す。
本稿では,2つの等尺条件を組み込んだプロジェクト・エンタングルド・ペア・ステート(PEPS)を提案する。
この新たなクラスは、一般的な局所可観測関数の効率的な計算や、一般的なPEPSやPEPSに対して1つの等尺的制約のみを課すような2点相関関数の効率的な計算を容易にする。
2つの等尺条件が組み込まれているにもかかわらず、我々のクラスは分析能力を高めながらリッチな物理構造を保っている。
可変パラメータの大規模なセットが特徴で、一般的なPEPSと比較すると、サブリード補正のみである。
さらに、このクラスが普遍的な量子計算を符号化し、位相的から自明な順序への遷移を表現できることを解析的に示す。
Efficient characterization of higher dimensional many-body physical states presents significant challenges. In this paper, we propose a new class of Project Entangled Pair State (PEPS) that incorporates two isometric conditions. This new class facilitates the efficient calculation of general local observables and certain two-point correlation functions, which have been previously shown to be intractable for general PEPS, or PEPS with only a single isometric constraint. Despite incorporating two isometric conditions, our class preserves the rich physical structure while enhancing the analytical capabilities. It features a large set of tunable parameters, with only a subleading correction compared to that of general PEPS. Furthermore, we analytically demonstrate that this class can encode universal quantum computations and can represent a transition from topological to trivial order. | 翻訳日:2024-11-09 03:03:34 公開日:2024-11-07 |
# 連続変数系の量子状態の学習
Learning quantum states of continuous variable systems ( http://arxiv.org/abs/2405.01431v2 ) ライセンス: Link先を確認 | Francesco Anna Mele, Antonio Anna Mele, Lennart Bittel, Jens Eisert, Vittorio Giovannetti, Ludovico Lami, Lorenzo Leone, Salvatore F. E. Oliviero, | (参考訳) 量子状態トモグラフィーは、測定データから未知の状態の古典的な記述を導出することを目的としており、量子物理学の基本的な課題である。
本研究では、ボソニックや量子光学系などの連続可変系のトモグラフィーの最終的な達成可能な性能について分析する。
これらのシステムのトモグラフィーは、有限次元系のトモグラフィーよりもはるかに非効率であることが証明され、トモグラフィーに必要な最小の状態コピー数がモード数と指数関数的にスケールするだけでなく、低エネルギー状態であっても、有限次元の場合と対照的に、トレース距離誤差による劇的なスケーリングを示す。
よりポジティブな点として、ガウス状態のトモグラフィーが効率的であることを証明する。
これを達成するために、連続変数の量子情報の分野に関する根本的な疑問に答える: ある誤差で未知のガウス状態の第1モーメントと第2モーメントを知っていれば、状態に起因した結果として生じるトレース距離誤差は何か?
最後に,ガウス的ユニタリによる非ガウス的状態のトモグラフィーといくつかの局所ガウス的非ガウス的進化が効率的かつ実験的に実現可能であることを示す。
Quantum state tomography, aimed at deriving a classical description of an unknown state from measurement data, is a fundamental task in quantum physics. In this work, we analyse the ultimate achievable performance of tomography of continuous-variable systems, such as bosonic and quantum optical systems. We prove that tomography of these systems is extremely inefficient in terms of time resources, much more so than tomography of finite-dimensional systems: not only does the minimum number of state copies needed for tomography scale exponentially with the number of modes, but it also exhibits a dramatic scaling with the trace-distance error, even for low-energy states, in stark contrast with the finite-dimensional case. On a more positive note, we prove that tomography of Gaussian states is efficient. To accomplish this, we answer a fundamental question for the field of continuous-variable quantum information: if we know with a certain error the first and second moments of an unknown Gaussian state, what is the resulting trace-distance error that we make on the state? Lastly, we demonstrate that tomography of non-Gaussian states prepared through Gaussian unitaries and a few local non-Gaussian evolutions is efficient and experimentally feasible. | 翻訳日:2024-11-09 02:52:29 公開日:2024-11-07 |
# FinCon: 金融意思決定の強化を目的とした概念的言語強化型LLMマルチエージェントシステム
FinCon: A Synthesized LLM Multi-Agent System with Conceptual Verbal Reinforcement for Enhanced Financial Decision Making ( http://arxiv.org/abs/2407.06567v3 ) ライセンス: Link先を確認 | Yangyang Yu, Zhiyuan Yao, Haohang Li, Zhiyang Deng, Yupeng Cao, Zhi Chen, Jordan W. Suchow, Rong Liu, Zhenyu Cui, Zhaozhuo Xu, Denghui Zhang, Koduvayur Subbalakshmi, Guojun Xiong, Yueru He, Jimin Huang, Dong Li, Qianqian Xie, | (参考訳) 大規模言語モデル(LLM)は、複雑なタスクの実行において顕著な可能性を示し、様々な金融アプリケーションでますます活用されている。
しかし、高品質な金融投資の意思決定は依然として困難である。
これらのタスクは、すべての決定に対して揮発性環境と複数のインタラクションを必要とし、リターンを最大化し、リスクを管理するのに十分なインテリジェンスを必要とします。
LLMは、人間のチームを超えたエージェントシステムの開発や、見事な投資リターンを得るために使われてきたが、マルチソース情報合成を強化し、タイムリーな経験改善を通じて意思決定結果を最適化する機会は、まだ探索されていない。
本稿では,多様なFINancialタスクに適した概念的言語強化を備えたLLMベースのマルチエージェントフレームワークであるFinConを紹介する。
実世界の効果的な投資会社組織構造にインスパイアされたFinConは、マネージャが分析するコミュニケーション階層を利用している。
この構造は、自然言語の相互作用を通じて統一目標に向けて、同期されたクロスファンクショナルエージェントの協調を可能にし、各エージェントを人間よりも大きなメモリ容量で装備する。
さらに、FinConのリスクコントロールコンポーネントは、体系的な投資信条を更新するための自己基準機構をエピソード的に開始することで、意思決定品質を向上させる。
概念化された信念は、将来のエージェントの行動の言葉による強化として機能し、知識更新を必要とする適切なノードに選択的に伝播することができる。
この機能は、不要なピアツーピア通信コストを低減しつつ、パフォーマンスを著しく向上させる。
さらにFinConは、単一株式取引やポートフォリオ管理など、さまざまな金融業務において強力な一般化能力を示している。
Large language models (LLMs) have demonstrated notable potential in conducting complex tasks and are increasingly utilized in various financial applications. However, high-quality sequential financial investment decision-making remains challenging. These tasks require multiple interactions with a volatile environment for every decision, demanding sufficient intelligence to maximize returns and manage risks. Although LLMs have been used to develop agent systems that surpass human teams and yield impressive investment returns, opportunities to enhance multi-sourced information synthesis and optimize decision-making outcomes through timely experience refinement remain unexplored. Here, we introduce the FinCon, an LLM-based multi-agent framework with CONceptual verbal reinforcement tailored for diverse FINancial tasks. Inspired by effective real-world investment firm organizational structures, FinCon utilizes a manager-analyst communication hierarchy. This structure allows for synchronized cross-functional agent collaboration towards unified goals through natural language interactions and equips each agent with greater memory capacity than humans. Additionally, a risk-control component in FinCon enhances decision quality by episodically initiating a self-critiquing mechanism to update systematic investment beliefs. The conceptualized beliefs serve as verbal reinforcement for the future agent's behavior and can be selectively propagated to the appropriate node that requires knowledge updates. This feature significantly improves performance while reducing unnecessary peer-to-peer communication costs. Moreover, FinCon demonstrates strong generalization capabilities in various financial tasks, including single stock trading and portfolio management. | 翻訳日:2024-11-08 23:02:19 公開日:2024-11-07 |
# 可変ゼロショットマルチスペクトルパンシャーピング
Variational Zero-shot Multispectral Pansharpening ( http://arxiv.org/abs/2407.06633v2 ) ライセンス: Link先を確認 | Xiangyu Rui, Xiangyong Cao, Yining Li, Deyu Meng, | (参考訳) パンシャーペンは、低空間分解能マルチスペクトル画像(LRMS)とパンクロマチック画像(PAN)を融合させることにより、高空間分解能マルチスペクトル画像(HRMS)を生成することを目的としている。
このタスクの最も難しい問題は、to-be-fusedのLRMSとPANのみが利用可能であり、既存のディープラーニングベースのメソッドは多くのトレーニングペアに依存しているため、不適当であることだ。
従来の変分最適化(VO)に基づく手法は、そのような問題に対処するのに適している。
彼らは、研究者が画像関係と画像構造を発見したことに基づく最適化問題に対する規則化と同様に、明示的な融合規則を慎重に設計することに重点を置いている。
本研究では,従来のVO法とは異なり,手作業で設計した手法ではなく,パラメータ化項による複雑な関係を探索する。
具体的には、最適化目的にニューラルネットワークを導入することにより、ゼロショットパンスハーペン方式を提案する。
このネットワークは、HRMSとPANの関係を主に記述したHRMSの表現成分を推定する。
このようにして、ネットワークは、HRMSとPANイメージの関係をその固有の構造を通して暗黙的に規制するため、いわゆるディープイメージと同じような目標を達成する。
我々は,ネットワークパラメータとHRMS画像の反復更新により,この最適化目標を直接最小化する。
各種ベンチマークデータセットの大規模な実験により,提案手法は,他の最先端手法と比較して性能が向上することを示した。
コードはhttps://github.com/xyrui/PSDipで入手できる。
Pansharpening aims to generate a high spatial resolution multispectral image (HRMS) by fusing a low spatial resolution multispectral image (LRMS) and a panchromatic image (PAN). The most challenging issue for this task is that only the to-be-fused LRMS and PAN are available, and the existing deep learning-based methods are unsuitable since they rely on many training pairs. Traditional variational optimization (VO) based methods are well-suited for addressing such a problem. They focus on carefully designing explicit fusion rules as well as regularizations for an optimization problem, which are based on the researcher's discovery of the image relationships and image structures. Unlike previous VO-based methods, in this work, we explore such complex relationships by a parameterized term rather than a manually designed one. Specifically, we propose a zero-shot pansharpening method by introducing a neural network into the optimization objective. This network estimates a representation component of HRMS, which mainly describes the relationship between HRMS and PAN. In this way, the network achieves a similar goal to the so-called deep image prior because it implicitly regulates the relationship between the HRMS and PAN images through its inherent structure. We directly minimize this optimization objective via network parameters and the expected HRMS image through iterative updating. Extensive experiments on various benchmark datasets demonstrate that our proposed method can achieve better performance compared with other state-of-the-art methods. The codes are available at https://github.com/xyrui/PSDip. | 翻訳日:2024-11-08 23:02:19 公開日:2024-11-07 |
# Deep-Graph-Sprints: 連続時間動的グラフにおける高速化表現学習
Deep-Graph-Sprints: Accelerated Representation Learning in Continuous-Time Dynamic Graphs ( http://arxiv.org/abs/2407.07712v3 ) ライセンス: Link先を確認 | Ahmad Naser Eddin, Jacopo Bono, David Aparício, Hugo Ferreira, Pedro Ribeiro, Pedro Bizarro, | (参考訳) 連続時間動的グラフ(CTDG)は相互接続された進化するシステムのモデリングに不可欠である。
これらのグラフから知識を抽出する従来の手法は、しばしば機能工学やディープラーニングに依存している。
機能エンジニアリングは手動と時間集約的な工芸機能によって制限されるが、ディープラーニングアプローチは高い推論遅延に悩まされており、リアルタイムアプリケーションでは実用的ではない。
本稿では,低遅延推論条件のCTDG上での効率的な表現学習を目的とした,新しいディープラーニングアーキテクチャであるDeep-Graph-Sprints(DGS)を紹介する。
我々は、5つの多様なデータセットを用いて、DGSを最新技術(SOTA)の機能エンジニアリングとグラフニューラルネットワーク手法と比較した。
その結果、DGSは、ベンチマークデータセットの他のディープラーニングアプローチと比較して、推論速度が4倍から12倍に向上する一方で、競争性能が向上することが示された。
本手法は,CTDGの深層表現学習と低遅延応用要件のギャップを効果的に埋めるものである。
Continuous-time dynamic graphs (CTDGs) are essential for modeling interconnected, evolving systems. Traditional methods for extracting knowledge from these graphs often depend on feature engineering or deep learning. Feature engineering is limited by the manual and time-intensive nature of crafting features, while deep learning approaches suffer from high inference latency, making them impractical for real-time applications. This paper introduces Deep-Graph-Sprints (DGS), a novel deep learning architecture designed for efficient representation learning on CTDGs with low-latency inference requirements. We benchmark DGS against state-of-the-art (SOTA) feature engineering and graph neural network methods using five diverse datasets. The results indicate that DGS achieves competitive performance while inference speed improves between 4x and 12x compared to other deep learning approaches on our benchmark datasets. Our method effectively bridges the gap between deep representation learning and low-latency application requirements for CTDGs. | 翻訳日:2024-11-08 22:40:08 公開日:2024-11-07 |
# AIシアターのオスカー: 言語モデルによるロールプレイングに関する調査
The Oscars of AI Theater: A Survey on Role-Playing with Language Models ( http://arxiv.org/abs/2407.11484v7 ) ライセンス: Link先を確認 | Nuo Chen, Yan Wang, Yang Deng, Jia Li, | (参考訳) 本研究では,言語モデルを用いたロールプレイングの急成長分野を探求し,初期のペルソナモデルから,大規模言語モデル(LLM)によって促進される高度なキャラクタ駆動シミュレーションへの展開に焦点を当てた。
当初はモデル能力の制限により単純なペルソナ一貫性に制限されていたため、ロールプレイングタスクは、キャラクターの一貫性、行動アライメント、全体的な魅力を含む複雑なキャラクター描写を受け入れるように拡張された。
データやモデル,アライメント,エージェントアーキテクチャ,評価など,これらのシステムを設計する上で重要なコンポーネントを包括的に分類する。
この調査は、動的な個人プロファイルの管理やハイレベルなペルソナの整合性の実現など、現在の方法論や課題を概説するだけでなく、ロールプレイングアプリケーションの深さと現実性を改善するための今後の研究の道筋も示唆している。
目標は、現在の方法論の構造化された概要を提供し、改善のための潜在的な領域を特定することで、将来の研究を導くことである。
関連リソースとドキュメントはhttps://github.com/nuochenpku/Awesome-Role-Play-Papers.comで公開されている。
This survey explores the burgeoning field of role-playing with language models, focusing on their development from early persona-based models to advanced character-driven simulations facilitated by Large Language Models (LLMs). Initially confined to simple persona consistency due to limited model capabilities, role-playing tasks have now expanded to embrace complex character portrayals involving character consistency, behavioral alignment, and overall attractiveness. We provide a comprehensive taxonomy of the critical components in designing these systems, including data, models and alignment, agent architecture and evaluation. This survey not only outlines the current methodologies and challenges, such as managing dynamic personal profiles and achieving high-level persona consistency but also suggests avenues for future research in improving the depth and realism of role-playing applications. The goal is to guide future research by offering a structured overview of current methodologies and identifying potential areas for improvement. Related resources and papers are available at https://github.com/nuochenpku/Awesome-Role-Play-Papers. | 翻訳日:2024-11-08 21:10:26 公開日:2024-11-07 |
# AIシアターのオスカー: 言語モデルによるロールプレイングに関する調査
The Oscars of AI Theater: A Survey on Role-Playing with Language Models ( http://arxiv.org/abs/2407.11484v8 ) ライセンス: Link先を確認 | Nuo Chen, Yan Wang, Yang Deng, Jia Li, | (参考訳) 本研究では,言語モデルを用いたロールプレイングの急成長分野を探求し,初期のペルソナモデルから,大規模言語モデル(LLM)によって促進される高度なキャラクタ駆動シミュレーションへの展開に焦点を当てた。
当初はモデル能力の制限により単純なペルソナ一貫性に制限されていたため、ロールプレイングタスクは、キャラクターの一貫性、行動アライメント、全体的な魅力を含む複雑なキャラクター描写を受け入れるように拡張された。
データやモデル,アライメント,エージェントアーキテクチャ,評価など,これらのシステムを設計する上で重要なコンポーネントを包括的に分類する。
この調査は、動的な個人プロファイルの管理やハイレベルなペルソナの整合性の実現など、現在の方法論や課題を概説するだけでなく、ロールプレイングアプリケーションの深さと現実性を改善するための今後の研究の道筋も示唆している。
目標は、現在の方法論の構造化された概要を提供し、改善のための潜在的な領域を特定することで、将来の研究を導くことである。
関連リソースとドキュメントはhttps://github.com/nuochenpku/Awesome-Role-Play-Papers.comで公開されている。
This survey explores the burgeoning field of role-playing with language models, focusing on their development from early persona-based models to advanced character-driven simulations facilitated by Large Language Models (LLMs). Initially confined to simple persona consistency due to limited model capabilities, role-playing tasks have now expanded to embrace complex character portrayals involving character consistency, behavioral alignment, and overall attractiveness. We provide a comprehensive taxonomy of the critical components in designing these systems, including data, models and alignment, agent architecture and evaluation. This survey not only outlines the current methodologies and challenges, such as managing dynamic personal profiles and achieving high-level persona consistency but also suggests avenues for future research in improving the depth and realism of role-playing applications. The goal is to guide future research by offering a structured overview of current methodologies and identifying potential areas for improvement. Related resources and papers are available at https://github.com/nuochenpku/Awesome-Role-Play-Papers. | 翻訳日:2024-11-08 21:10:26 公開日:2024-11-07 |
# テキスト-SQLタスクにおける大規模言語モデルの適用に関する調査
A Survey on Employing Large Language Models for Text-to-SQL Tasks ( http://arxiv.org/abs/2407.15186v4 ) ライセンス: Link先を確認 | Liang Shi, Zhengju Tang, Nan Zhang, Xiaotong Zhang, Zhi Yang, | (参考訳) リレーショナルデータベースにおけるデータ量の増加とSQLクエリの記述に必要な専門知識は、ユーザがデータにアクセスして分析する上での課題となる。
Text-to-SQL(Text2SQL)は自然言語処理(NLP)技術を利用して自然言語をSQLクエリに変換することで問題を解決する。
LLM(Large Language Models)の開発により、LLMベースのText2SQLメソッドが出現した。
この調査は、Text2SQLタスクにおけるLLMの包括的なレビューを提供する。
LLMベースのText2SQL手法のベンチマークデータセット、プロンプトエンジニアリング手法、微調整手法、ベースモデルについてレビューする。
我々は各部分に洞察を与え、この分野の今後の方向性について議論する。
The increasing volume of data in relational databases and the expertise needed for writing SQL queries pose challenges for users to access and analyze data. Text-to-SQL (Text2SQL) solves the issues by utilizing natural language processing (NLP) techniques to convert natural language into SQL queries. With the development of Large Language Models (LLMs), a range of LLM-based Text2SQL methods have emerged. This survey provides a comprehensive review of LLMs in Text2SQL tasks. We review benchmark datasets, prompt engineering methods, fine-tuning methods, and base models in LLM-based Text2SQL methods. We provide insights in each part and discuss future directions in this field. | 翻訳日:2024-11-08 20:01:00 公開日:2024-11-07 |
# 言語モデルと人間による言語不確かさの知覚
Perceptions of Linguistic Uncertainty by Language Models and Humans ( http://arxiv.org/abs/2407.15814v2 ) ライセンス: Link先を確認 | Catarina G Belem, Markelle Kelly, Mark Steyvers, Sameer Singh, Padhraic Smyth, | (参考訳) _Uncertainty Expression_ は「おそらく」あるいは「非常にありそうにない」などの表現が人間の言語に広まる。
先行研究では、人間がこれらの表現をどのように定量的に解釈するかという点で、集団レベルでの合意が確立されているが、同じ文脈における言語モデルの能力についての調査はほとんど行われていない。
本稿では,不確実性の言語表現を数値応答にどう対応させるかを検討する。
我々のアプローチは、言語モデルがこの設定で心の理論を適用できるかどうかを評価する: ある特定の文について他のエージェントの不確実性を理解すること。
10モデル中7モデルで不確実性表現を確率的応答に人間的な方法でマッピングできることが判明した。
しかし、文が実際に真であるか偽であるかによって、系統的に異なる振る舞いを観察する。
この感度は、言語モデルが(人間と比較して)以前の知識に基づいてバイアスの影響を受けやすいことを示している。
これらの発見は重要な疑問を提起し、人間-AIとAI-AIコミュニケーションに幅広い影響を及ぼす。
_Uncertainty expressions_ such as "probably" or "highly unlikely" are pervasive in human language. While prior work has established that there is population-level agreement in terms of how humans quantitatively interpret these expressions, there has been little inquiry into the abilities of language models in the same context. In this paper, we investigate how language models map linguistic expressions of uncertainty to numerical responses. Our approach assesses whether language models can employ theory of mind in this setting: understanding the uncertainty of another agent about a particular statement, independently of the model's own certainty about that statement. We find that 7 out of 10 models are able to map uncertainty expressions to probabilistic responses in a human-like manner. However, we observe systematically different behavior depending on whether a statement is actually true or false. This sensitivity indicates that language models are substantially more susceptible to bias based on their prior knowledge (as compared to humans). These findings raise important questions and have broad implications for human-AI and AI-AI communication. | 翻訳日:2024-11-08 20:01:00 公開日:2024-11-07 |
# C3T:人間の行動認識のための時間的相互移動
C3T: Cross-modal Transfer Through Time for Human Action Recognition ( http://arxiv.org/abs/2407.16803v2 ) ライセンス: Link先を確認 | Abhi Kamboj, Anh Duy Nguyen, Minh Do, | (参考訳) 本研究では,多様なセンサの可能性を解き放つために,HAR(Human Action Recognition)のための統合マルチモーダル表現空間の構造を用いて,モダリティ間で知識を伝達する方法を検討する。
我々は、教師なしモダリティ適応(UMA)という、教師付きトレーニングにおいてテストで使用されるモダリティを使用せず、すなわち、トレーニング中にテストモダリティのラベル付きインスタンスがゼロとなる、未調査のクロスモーダル転送設定を定式化し、探索する。
学生教師(ST)、コントラストアライメント(CA)、時間経由のクロスモーダルトランスファー(C3T)の3つの方法を開発した。
様々なカメラ+IMUデータセットに関する広範な実験は、これらの手法をUMA設定における互いに比較し、教師付き設定における経験的上限と比較した。
その結果、C3Tは少なくとも8%のマージンで最も頑健で高い性能を示し、時間的ノイズがあっても監督された設定性能に近づいた。
時間的畳み込みの受容場から抽出した時間変化の潜伏ベクトル間で信号を整列する新しいメカニズムを導入する。
以上の結果から,C3Tは時系列センサデータに対する一般化可能なモデルの開発に有意な可能性を示唆し,様々なアプリケーションにおけるマルチモーダル学習への新たな道を開いた。
In order to unlock the potential of diverse sensors, we investigate a method to transfer knowledge between modalities using the structure of a unified multimodal representation space for Human Action Recognition (HAR). We formalize and explore an understudied cross-modal transfer setting we term Unsupervised Modality Adaptation (UMA), where the modality used in testing is not used in supervised training, i.e. zero labeled instances of the test modality are available during training. We develop three methods to perform UMA: Student-Teacher (ST), Contrastive Alignment (CA), and Cross-modal Transfer Through Time (C3T). Our extensive experiments on various camera+IMU datasets compare these methods to each other in the UMA setting, and to their empirical upper bound in the supervised setting. The results indicate C3T is the most robust and highest performing by at least a margin of 8%, and nears the supervised setting performance even in the presence of temporal noise. This method introduces a novel mechanism for aligning signals across time-varying latent vectors, extracted from the receptive field of temporal convolutions. Our findings suggest that C3T has significant potential for developing generalizable models for time-series sensor data, opening new avenues for multi-modal learning in various applications. | 翻訳日:2024-11-08 20:01:00 公開日:2024-11-07 |
# 量子カオス可積分遷移の秩序パラメータとしてのクリロフ複雑性
Krylov complexity as an order parameter for quantum chaotic-integrable transitions ( http://arxiv.org/abs/2407.17054v3 ) ライセンス: Link先を確認 | Matteo Baggioli, Kyoung-Bum Huh, Hyun-Sik Jeong, Keun-Young Kim, Juan F. Pedraza, | (参考訳) Krylov複雑性は、最近、多体システムにおける量子カオスを特徴付ける新しいパラダイムとして登場した。
しかしながら、クリャロフ複雑性の特徴は量子カオスシステムの先駆的であり、スペクトル統計学やOTOC(out-of-time-order correlator)のようなより標準的なプローブとどのように関係するかは未解決のままである。
近年の知見によると、量子カオス系では、Krylov状態の複雑性は、よく理解された深夜高原に沈む前に、時間進化の間に明確なピークを示す。
本研究では、このKrylov複雑性ピーク(KCP)が量子カオスシステムの目印であり、その高さが量子カオスの「順序パラメータ」として役立つことを示唆する。
我々は、KCPが、質量変形したSachdev-Ye-KitaevモデルとスパースなSachdev-Ye-Kitaevモデルという、2つの代表的な量子力学モデルにおけるカオス可積分遷移を、無限温度と有限温度の両方で効果的に同定することを示した。
この結果は、量子カオスに対する演算子非依存の診断を導入し、より「普遍的」な洞察と量子カオスシステムの一般的な性質のより深い理解を提供するとともに、スペクトル統計とOTOCの確立された結果と一致した。
Krylov complexity has recently emerged as a new paradigm to characterize quantum chaos in many-body systems. However, which features of Krylov complexity are prerogative of quantum chaotic systems and how they relate to more standard probes, such as spectral statistics or out-of-time-order correlators (OTOCs), remain open questions. Recent insights have revealed that in quantum chaotic systems Krylov state complexity exhibits a distinct peak during time evolution before settling into a well-understood late-time plateau. In this work, we propose that this Krylov complexity peak (KCP) is a hallmark of quantum chaotic systems and suggest that its height could serve as an 'order parameter' for quantum chaos. We demonstrate that the KCP effectively identifies chaotic-integrable transitions in two representative quantum mechanical models at both infinite and finite temperature: the mass-deformed Sachdev-Ye-Kitaev model and the sparse Sachdev-Ye-Kitaev model. Our findings align with established results from spectral statistics and OTOCs, while introducing an operator-independent diagnostic for quantum chaos, offering more 'universal' insights and a deeper understanding of the general properties of quantum chaotic systems. | 翻訳日:2024-11-08 20:01:00 公開日:2024-11-07 |
# 統計的最適輸送
Statistical optimal transport ( http://arxiv.org/abs/2407.18163v2 ) ライセンス: Link先を確認 | Sinho Chewi, Jonathan Niles-Weed, Philippe Rigollet, | (参考訳) 本稿では,「エコール・デ・エティエ・ド・プロバビリット・デ・サン=フルールXLIX」の講義に基づいて,統計的最適輸送の分野を紹介する。
We present an introduction to the field of statistical optimal transport, based on lectures given at \'Ecole d'\'Et\'e de Probabilit\'es de Saint-Flour XLIX. | 翻訳日:2024-11-08 20:01:00 公開日:2024-11-07 |
# 基礎モデルに基づくエージェント設計のための多層ランタイムガードレールの分類:設計によるAI安全のためのスイスチーズモデル
A Taxonomy of Multi-Layered Runtime Guardrails for Designing Foundation Model-Based Agents: Swiss Cheese Model for AI Safety by Design ( http://arxiv.org/abs/2408.02205v2 ) ライセンス: Link先を確認 | Md Shamsujjoha, Qinghua Lu, Dehai Zhao, Liming Zhu, | (参考訳) Foundation Model(FM)ベースのエージェントは、さまざまなドメインにわたるアプリケーション開発に革命をもたらしている。
しかし、その急速に成長する能力と自律性は、AIの安全性に関する大きな懸念を引き起こしている。
これらのエージェントの効果的なガードレールの設計は、自律的で非決定的な振る舞いと、目標、プロンプト、計画、ツール、知識ベース、中間および最終結果など、複数のアーティファクトの関与によって困難である。
これらのユニークな課題に対処するには、スイスチーズモデルと同様、エージェントアーキテクチャの様々なレベルで効果的に動作する多層ガードレールが必要である。
本稿では,スイスチーズモデルによる系統的な文献レビューとガイドに基づいて,多層型ランタイムガードレールの特性と設計オプションを分類・比較するための分類法を提案する。
この分類は、外部および内部品質属性と設計オプションカテゴリに分類される。
また、ガードレールとそれらが緩和するリスク、そしてエージェントアーキテクチャに影響を及ぼす品質特性の関係を強調します。
このようにして、提案した分類法は、これらの決定に固有のトレードオフを強調しつつ、多層ガードレールを実装する際にアーキテクチャ設計決定を行うための構造的かつ具体的なガイダンスを提供する。
Foundation Model (FM) based agents are revolutionizing application development across various domains. However, their rapidly growing capabilities and autonomy have raised significant concerns about AI safety. Designing effective guardrails for these agents is challenging due to their autonomous and non-deterministic behavior, and the involvement of multiple artifacts -- such as goals, prompts, plans, tools, knowledge bases, and intermediate and final results. Addressing these unique challenges runtime requires multi-layered guardrails that operate effectively at various levels of the agent architecture, similar to the Swiss Cheese Model. In this paper, we present a taxonomy of multi-layered runtime guardrails to classify and compare their characteristics and design options, grounded on a systematic literature review and guided by the Swiss Cheese Model. This taxonomy is organized into external and internal quality attributes and design options categories. We also highlight the relationships between guardrails, the associated risks they mitigate, and the quality attributes they impact in agent architectures. Thus, the proposed taxonomy provides structured and concrete guidance for making architectural design decisions when implementing multi-layered guardrails while emphasizing the trade-offs inherent in these decisions. | 翻訳日:2024-11-08 20:01:00 公開日:2024-11-07 |
# MAG-SQL: テキストからSQLへのソフトスキーマリンクと反復サブSQLリファインメントによるマルチエージェント生成アプローチ
MAG-SQL: Multi-Agent Generative Approach with Soft Schema Linking and Iterative Sub-SQL Refinement for Text-to-SQL ( http://arxiv.org/abs/2408.07930v4 ) ライセンス: Link先を確認 | Wenxuan Xie, Gaochen Wu, Bowen Zhou, | (参考訳) 最近の In-Context Learning ベースの手法は Text-to-SQL タスクで顕著な成功を収めている。
しかし、複雑なデータベーススキーマとBIRDのような難しい問題を持つデータセットでは、これらのモデルの性能と人的パフォーマンスの間にはまだ大きなギャップがある。
さらに、既存の研究は、質問を反復的に解決する際の中間段階を質問分解法で監督することを無視しており、これらの研究で使用されるスキーマリンク手法は非常に初歩的なものである。
これらの問題に対処するために,ソフトスキーマリンクと反復的サブSQL改良を用いたマルチエージェント生成手法であるMAG-SQLを提案する。
本フレームワークでは,データベース内の列の選択にテーブルの要約を含むエンティティベースの手法を用い,それらの複雑な質問を分解するために,新たな目標条件分解手法を導入する。
さらに,Sub-SQL GeneratorとSub-SQL Refinerを含む反復生成モジュールを構築し,生成の各ステップに対して外部監視を導入する。
一連のアブレーション研究を通じて,本フレームワークにおける各エージェントの有効性を実証した。
GPT-4を用いてBIRDベンチマークで評価すると、MAG-SQLは、バニラGPT-4のベースライン精度が46.35%、MAC-SQLのベースライン精度が57.56%であるのに対し、実行精度が61.08%に達する。
さらに、我々のアプローチはスパイダーに類似している。
コードはhttps://github.com/LancelotXWX/MAG-SQLで公開されている。
Recent In-Context Learning based methods have achieved remarkable success in Text-to-SQL task. However, there is still a large gap between the performance of these models and human performance on datasets with complex database schema and difficult questions, such as BIRD. Besides, existing work has neglected to supervise intermediate steps when solving questions iteratively with question decomposition methods, and the schema linking methods used in these works are very rudimentary. To address these issues, we propose MAG-SQL, a multi-agent generative approach with soft schema linking and iterative Sub-SQL refinement. In our framework, an entity-based method with tables' summary is used to select the columns in database, and a novel targets-conditions decomposition method is introduced to decompose those complex questions. Additionally, we build a iterative generating module which includes a Sub-SQL Generator and Sub-SQL Refiner, introducing external oversight for each step of generation. Through a series of ablation studies, the effectiveness of each agent in our framework has been demonstrated. When evaluated on the BIRD benchmark with GPT-4, MAG-SQL achieves an execution accuracy of 61.08%, compared to the baseline accuracy of 46.35% for vanilla GPT-4 and the baseline accuracy of 57.56% for MAC-SQL. Besides, our approach makes similar progress on Spider. The codes are available at https://github.com/LancelotXWX/MAG-SQL. | 翻訳日:2024-11-08 20:01:00 公開日:2024-11-07 |
# グラフ上のロバストオフラインアクティブラーニング
Robust Offline Active Learning on Graphs ( http://arxiv.org/abs/2408.07941v2 ) ライセンス: Link先を確認 | Yuanchen Wu, Yubai Yuan, | (参考訳) ノード応答のラベル付けが高価である多くの実世界のネットワークにおいて重要な応用であるグラフ上でのアクティブラーニングの問題を考える。
本稿では,ネットワーク構造とノード共変量の両方からの情報を明示的に組み込むことで,問合せノードを選択するオフラインアクティブラーニング手法を提案する。
提案手法は,グラフ信号の回復理論とランダムスペクトルスペーシフィケーション技術に基づいて,ノードクエリに対する情報性と代表性の両方を考慮した2段階の偏りサンプリング手法を採用する。
Informativenessは、クエリされたノードの応答から学習可能なグラフ信号の複雑さを指す一方、表現性は、ノイズの多いノードレベルの情報が与えられた一般化エラーを制御するために、クエリされたノードのキャパシティを指す。
提案手法により選択されたノード数と一般化誤差の理論的関係を確立する。
我々の理論的結果は、アクティブラーニングにおける情報性と代表性の間のトレードオフを示している。
大規模な数値実験により,提案手法は既存のグラフに基づく能動学習法と競合することを示した。
さらに,提案手法はグラフ上の回帰タスクと分類タスクの両方に適用可能である。
We consider the problem of active learning on graphs, which has crucial applications in many real-world networks where labeling node responses is expensive. In this paper, we propose an offline active learning method that selects nodes to query by explicitly incorporating information from both the network structure and node covariates. Building on graph signal recovery theories and the random spectral sparsification technique, the proposed method adopts a two-stage biased sampling strategy that takes both informativeness and representativeness into consideration for node querying. Informativeness refers to the complexity of graph signals that are learnable from the responses of queried nodes, while representativeness refers to the capacity of queried nodes to control generalization errors given noisy node-level information. We establish a theoretical relationship between generalization error and the number of nodes selected by the proposed method. Our theoretical results demonstrate the trade-off between informativeness and representativeness in active learning. Extensive numerical experiments show that the proposed method is competitive with existing graph-based active learning methods, especially when node covariates and responses contain noises. Additionally, the proposed method is applicable to both regression and classification tasks on graphs. | 翻訳日:2024-11-08 20:01:00 公開日:2024-11-07 |
# 量子レジスタマシン:量子再帰プログラムの効率的な実装
Quantum Register Machine: Efficient Implementation of Quantum Recursive Programs ( http://arxiv.org/abs/2408.10054v2 ) ライセンス: Link先を確認 | Zhicheng Zhang, Mingsheng Ying, | (参考訳) 量子再帰プログラミングは、高度で複雑な量子アルゴリズムをコンパクトでエレガントな方法で記述するために最近導入された。
しかし、量子再帰の実装には、量子制御フローと再帰的手続き呼び出しの間の複雑な相互作用が含まれる。
本稿では,この根本的な課題を解決し,量子再帰プログラムを効率的に実装するための一連の手法を開発することを目的とする。
1) 量子制御フローと再帰的手続き呼び出しを同時にサポートする最初の純粋量子アーキテクチャ(命令セットを含む)である量子レジスタマシン(quantum register machine)の概念を提案する。
2) 量子レジスタマシンをベースとして, コンピレーション, 量子制御フローの部分評価, 量子レジスタマシン上での実行を含む, 量子再帰プログラムの包括的な実装プロセスについて述べる。
3. 量子再帰プログラムの効率的な実装は、量子アルゴリズムの自動並列化も提供する。
広く使われている量子多重化器のような特定の量子アルゴリズムのサブルーチンを実装するために、この自動並列化から指数的並列スピードアップ(簡単な実装による)を得ることもできる。
このことは、量子再帰的プログラミングがプログラムのモジュラリティと実装の効率の両方に勝利できることを示している。
Quantum recursive programming has been recently introduced for describing sophisticated and complicated quantum algorithms in a compact and elegant way. However, implementation of quantum recursion involves intricate interplay between quantum control flows and recursive procedure calls. In this paper, we aim at resolving this fundamental challenge and develop a series of techniques to efficiently implement quantum recursive programs. Our main contributions include: 1. We propose a notion of quantum register machine, the first purely quantum architecture (including an instruction set) that supports quantum control flows and recursive procedure calls at the same time. 2. Based on quantum register machine, we describe the first comprehensive implementation process of quantum recursive programs, including the compilation, the partial evaluation of quantum control flows, and the execution on the quantum register machine. 3. As a bonus, our efficient implementation of quantum recursive programs also offers automatic parallelisation of quantum algorithms. For implementing certain quantum algorithmic subroutine, like the widely used quantum multiplexor, we can even obtain exponential parallel speed-up (over the straightforward implementation) from this automatic parallelisation. This demonstrates that quantum recursive programming can be win-win for both modularity of programs and efficiency of their implementation. | 翻訳日:2024-11-08 20:01:00 公開日:2024-11-07 |
# 量子ガウス状態間のトレースノーム距離の推定について
On estimates of trace-norm distance between quantum Gaussian states ( http://arxiv.org/abs/2408.11400v5 ) ライセンス: Link先を確認 | A. S. Holevo, | (参考訳) F.A. Mele, A.A. Mele, L. Bittel, J. Eisert, V. Giovannetti, L. Lami, L. Leone, S.F.E. Oliviero, ArXiv:2405.01431 の論文では、平均ベクトルと共分散行列を用いて2つの量子ガウス状態間のトレースノーム距離を推定し、エネルギー制約されたガウス状態の集合における$\varepsilon -$netの要素数の評価に使用した。
本論文では, 重なり合う状態と呼ばれる忠実度のような量に基づいて, 特に純粋あるいはゲージ不変状態の場合において, より直接的な推定結果を得る。
それらはモードの数に依存しないので、無限のモードを持つボゾン場にまで拡張することができる。
これらの導出は、ArXiv:2405.01431から有用な不等式を置き換えることを目的としていない。
Appendixでは、CARの一般フェルミオンガウス状態の重なり合いの推定について、我々の結果を簡潔に思い出す。
本稿では,古典的確率論におけるガウス確率分布間の全分散距離の推定の非可換的類似として考察する。
In the paper of F.A. Mele, A.A. Mele, L. Bittel, J. Eisert, V. Giovannetti, L. Lami, L. Leone, S.F.E. Oliviero, ArXiv:2405.01431, estimates for the trace-norm distance between two quantum Gaussian states in terms of the mean vectors and covariance matrices were derived and used to evaluate the number of elements in the $\varepsilon -$net in the set of energy-constrained Gaussian states. In the present paper we obtain different estimates; our proof is based on a fidelity-like quantity which we call states overlap, and is more straightforward leading to estimates which are sometimes even more stringent, especially in the cases of pure or gauge-invariant states. They do not depend on number of modes and hence can be extended to the case of bosonic field with infinite number of modes. These derivations are not aimed to replace the useful inequalities from ArXiv:2405.01431; they just show an alternative approach to the problem leading to different results. In the Appendix we briefly recall our results concerning estimates of the overlap for general fermionic Gaussian states of CAR. The problem studied in this paper can be considered as a noncommutative analog of estimation of the total variance distance between Gaussian probability distributions in the classical probability theory. | 翻訳日:2024-11-08 20:01:00 公開日:2024-11-07 |
# オンラインネットワーク侵入検知システムによる最先端機械学習の説明可能性の評価
Evaluating The Explainability of State-of-the-Art Machine Learning-based Online Network Intrusion Detection Systems ( http://arxiv.org/abs/2408.14040v2 ) ライセンス: Link先を確認 | Ayush Kumar, Vrizlynn L. L. Thing, | (参考訳) 機械学習(ML)モデルを用いたネットワーク侵入検知システム(NIDS)は,攻撃成果物から抽出した固定署名に依存することなく,高い検出性能と精度を実現する。
しかし、ネットワークセキュリティの専門家や実践者の間では、MLベースのNIDSを現実のプロダクション環境にデプロイすることに関して、ブラックボックスの性質、すなわち、基盤となるモデルがどのように意思決定を行うのかという問題に注意が向けられている。
本研究では、説明可能なAI(xAI)技術(例えば、TRUSTEE、SHAP)を用いて、最先端のMLベースのオンラインNIDSモデルを解析する。
モデル決定のために生成された説明を用いて、考慮された各NIDSモデルで使用される最も顕著な特徴を提示する。
我々は、所定のNIDSモデルに対してxAIメソッド間で生成された説明と、与えられたxAIメソッドに対してNIDSモデル間で生成された説明とを比較した。
最後に、各NIDSモデルの脆弱性を誘導バイアス(トレーニングデータから学習した成果)に評価する。
その結果,(1)MLに基づくNIDSモデルは,他のモデルよりもよく説明でき,(2)xAIによる説明は,本研究で考慮されたほとんどのNIDSモデルと矛盾しており,(3)他のモデルよりも誘導バイアスに弱いモデルもあることがわかった。
Network Intrusion Detection Systems (NIDSs) which use machine learning (ML) models achieve high detection performance and accuracy while avoiding dependence on fixed signatures extracted from attack artifacts. However, there is a noticeable hesitance among network security experts and practitioners when it comes to deploying ML-based NIDSs in real-world production environments due to their black-box nature, i.e., how and why the underlying models make their decisions. In this work, we analyze state-of-the-art ML-based online NIDS models using explainable AI (xAI) techniques (e.g., TRUSTEE, SHAP). Using the explanations generated for the models' decisions, the most prominent features used by each NIDS model considered are presented. We compare the explanations generated across xAI methods for a given NIDS model as well as the explanations generated across the NIDS models for a given xAI method. Finally, we evaluate the vulnerability of each NIDS model to inductive bias (artifacts learnt from training data). The results show that: (1) some ML-based NIDS models can be better explained than other models, (2) xAI explanations are in conflict for most of the NIDS models considered in this work and (3) some NIDS models are more vulnerable to inductive bias than other models. | 翻訳日:2024-11-08 20:01:00 公開日:2024-11-07 |
# FRACTURED-SORRY-Bench:SORRY-Benchに対する拒絶効果と防御を損なう会話ターンにおける攻撃の回避のためのフレームワーク(自動マルチショットジェイルブレイク)
FRACTURED-SORRY-Bench: Framework for Revealing Attacks in Conversational Turns Undermining Refusal Efficacy and Defenses over SORRY-Bench (Automated Multi-shot Jailbreaks) ( http://arxiv.org/abs/2408.16163v2 ) ライセンス: Link先を確認 | Aman Priyanshu, Supriti Vijay, | (参考訳) 本稿では,大規模言語モデル(LLM)のマルチターン会話攻撃に対する安全性を評価するフレームワークであるFRACTURED-SORRY-Benchを紹介する。
SORRY-Benchデータセットに基づいて,有害なクエリを一見無害なサブクエストに分解することで,敵のプロンプトを生成する,シンプルかつ効果的な手法を提案する。
提案手法は, GPT-4, GPT-4o, GPT-4o-mini, GPT-3.5-Turbo モデルに対して, ベースライン法と比較して, 攻撃成功率 (ASR) の最大増加率 (46.22 %) を達成する。
我々は,この手法が現在のLLM安全対策の課題となり,微妙なマルチターン攻撃に対するより堅牢な防御の必要性を強調した。
This paper introduces FRACTURED-SORRY-Bench, a framework for evaluating the safety of Large Language Models (LLMs) against multi-turn conversational attacks. Building upon the SORRY-Bench dataset, we propose a simple yet effective method for generating adversarial prompts by breaking down harmful queries into seemingly innocuous sub-questions. Our approach achieves a maximum increase of +46.22\% in Attack Success Rates (ASRs) across GPT-4, GPT-4o, GPT-4o-mini, and GPT-3.5-Turbo models compared to baseline methods. We demonstrate that this technique poses a challenge to current LLM safety measures and highlights the need for more robust defenses against subtle, multi-turn attacks. | 翻訳日:2024-11-08 19:50:01 公開日:2024-11-07 |
# SyntheVAL: 合成チェックリストを用いたNLPモデルのハイブリッド動作試験
SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists ( http://arxiv.org/abs/2408.17437v2 ) ライセンス: Link先を確認 | Raoyuan Zhao, Abdullatif Köksal, Yihong Liu, Leonie Weissweiler, Anna Korhonen, Hinrich Schütze, | (参考訳) NLPの従来のベンチマークは、通常静的なホールドアウトテストセットを使用する。
しかし、このアプローチはしばしば性能を過大評価し、NLPモデルの包括的、解釈可能、動的評価を提供する能力に欠ける。
近年、DynaBench(Kiela et al , 2021)やCheckList(Ribeiro et al , 2020)のような作業は、マルチステップの人間アノテーションパイプラインによって生成されたテストタイプを備えたNLPモデルの振る舞いテストを通じて、これらの制限に対処している。
残念ながら、さまざまなテストタイプを手動で作成するには多くの人的労力が必要で、しばしば禁止コストがかかる。
本研究では,大規模言語モデル(LLM)を活用するハイブリッドな振る舞いテストフレームワークであるSyntheVALを提案し,NLPモデルの包括的評価を行う。
SynTHEVAL はまず制御された生成法を用いて LLM を用いて文を生成し,次にタスク固有の NLP モデルと LLM による予測を比較して,難解な例を識別する。
最後の段階では、人間の専門家が困難な例を調査し、手動でテンプレートを設計し、タスク固有のモデルが一貫して示す障害の種類を特定します。
我々は、感情分析と有害言語検出という2つの分類課題にSynTHEVALを適用し、これらの課題における強力なモデルの弱点を特定するのに、我々のフレームワークが有効であることを示す。
コードをhttps://github.com/Loreley99/SynthEval_CheckListで共有しています。
Traditional benchmarking in NLP typically involves using static held-out test sets. However, this approach often results in an overestimation of performance and lacks the ability to offer comprehensive, interpretable, and dynamic assessments of NLP models. Recently, works like DynaBench (Kiela et al., 2021) and CheckList (Ribeiro et al., 2020) have addressed these limitations through behavioral testing of NLP models with test types generated by a multistep human-annotated pipeline. Unfortunately, manually creating a variety of test types requires much human labor, often at prohibitive cost. In this work, we propose SYNTHEVAL, a hybrid behavioral testing framework that leverages large language models (LLMs) to generate a wide range of test types for a comprehensive evaluation of NLP models. SYNTHEVAL first generates sentences via LLMs using controlled generation, and then identifies challenging examples by comparing the predictions made by LLMs with task-specific NLP models. In the last stage, human experts investigate the challenging examples, manually design templates, and identify the types of failures the taskspecific models consistently exhibit. We apply SYNTHEVAL to two classification tasks, sentiment analysis and toxic language detection, and show that our framework is effective in identifying weaknesses of strong models on these tasks. We share our code in https://github.com/Loreley99/SynthEval_CheckList. | 翻訳日:2024-11-08 19:50:01 公開日:2024-11-07 |
# モデル形不確かさを用いた潜在空間ダイナミクスの学習:確率的低次モデリング手法
Learning Latent Space Dynamics with Model-Form Uncertainties: A Stochastic Reduced-Order Modeling Approach ( http://arxiv.org/abs/2409.00220v2 ) ライセンス: Link先を確認 | Jin Yi Yong, Rudy Geelen, Johann Guilleminot, | (参考訳) 本稿では,演算子推論手法を用いた複素系の低次モデリングにおけるモデル形式不確かさの表現と定量化のための確率論的アプローチを提案する。
このような不確実性は、適切な状態空間表現の選択、多くの低次モデリング手法の基礎となるプロジェクションステップ、あるいは訓練中に行われた考慮の副産物として生じる。
文献における先行研究に続いて、提案手法は、プロジェクション行列のランダム化により近似空間を拡張することにより、これらの不確実性を捉える。
これは、リーマン射影作用素と、スティーフェル多様体の部分集合上で作用するリトラクション作用素と、情報理論の定式化を組み合わせることで達成される。
提案手法の有効性は, 推算演算子に対するモデル形状の不確実性の影響を同定し, 定量化することにより, 流体力学における正準問題に対して評価される。
This paper presents a probabilistic approach to represent and quantify model-form uncertainties in the reduced-order modeling of complex systems using operator inference techniques. Such uncertainties can arise in the selection of an appropriate state-space representation, in the projection step that underlies many reduced-order modeling methods, or as a byproduct of considerations made during training, to name a few. Following previous works in the literature, the proposed method captures these uncertainties by expanding the approximation space through the randomization of the projection matrix. This is achieved by combining Riemannian projection and retraction operators - acting on a subset of the Stiefel manifold - with an information-theoretic formulation. The efficacy of the approach is assessed on canonical problems in fluid mechanics by identifying and quantifying the impact of model-form uncertainties on the inferred operators. | 翻訳日:2024-11-08 19:50:01 公開日:2024-11-07 |
# 拡散政策最適化
Diffusion Policy Policy Optimization ( http://arxiv.org/abs/2409.00588v2 ) ライセンス: Link先を確認 | Allen Z. Ren, Justin Lidard, Lars L. Ankile, Anthony Simeonov, Pulkit Agrawal, Anirudha Majumdar, Benjamin Burchfiel, Hongkai Dai, Max Simchowitz, | (参考訳) 本稿では,拡散政策最適化(DPPO)を提案する。このフレームワークは,強化学習(RL)によるポリシー勾配(PG)手法を用いて,連続制御およびロボット学習タスクにおける拡散政策(例えば拡散政策)を微調整するためのベストプラクティスを含むアルゴリズムフレームワークである。
PG法は他の政策パラメータ化と共にRLポリシーを訓練する際にはユビキタスである。
意外なことに、DPPOは拡散型ポリシーの他のRL法と比較し、他のポリシーパラメータ化のPG微調整と比較して、共通ベンチマークにおける微調整における最強の総合的な性能と効率を実現している。
実験により, DPPOはRL微調整と拡散パラメータ化の独特な相乗効果を生かし, 構造的およびオンマンフォールド探索, 安定した訓練, 強力な政策ロバスト性をもたらすことがわかった。
さらに,DPPOの強みを,画素観察によるシミュレーションロボットタスクや,長期多段階操作タスクにおけるロボットハードウェア上でのシミュレーション学習ポリシーのゼロショット展開など,現実的な環境下での強みを実証する。
コード付きWebサイト:fusion-ppo.github.io
We introduce Diffusion Policy Policy Optimization, DPPO, an algorithmic framework including best practices for fine-tuning diffusion-based policies (e.g. Diffusion Policy) in continuous control and robot learning tasks using the policy gradient (PG) method from reinforcement learning (RL). PG methods are ubiquitous in training RL policies with other policy parameterizations; nevertheless, they had been conjectured to be less efficient for diffusion-based policies. Surprisingly, we show that DPPO achieves the strongest overall performance and efficiency for fine-tuning in common benchmarks compared to other RL methods for diffusion-based policies and also compared to PG fine-tuning of other policy parameterizations. Through experimental investigation, we find that DPPO takes advantage of unique synergies between RL fine-tuning and the diffusion parameterization, leading to structured and on-manifold exploration, stable training, and strong policy robustness. We further demonstrate the strengths of DPPO in a range of realistic settings, including simulated robotic tasks with pixel observations, and via zero-shot deployment of simulation-trained policies on robot hardware in a long-horizon, multi-stage manipulation task. Website with code: diffusion-ppo.github.io | 翻訳日:2024-11-08 19:50:01 公開日:2024-11-07 |
# 正規化で失うものは何か? 多言語ASRモデル評価における落とし穴の探索
What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations ( http://arxiv.org/abs/2409.02449v3 ) ライセンス: Link先を確認 | Kavya Manohar, Leena G Pillai, Elizabeth Sherly, | (参考訳) 本稿では,多言語自動音声認識(ASR)モデルの評価における落とし穴について考察する。
本稿では,OpenAI Whisper,MetaのMMS,Seamless,Ambly AIのConformerなど,主要なASRモデルのテキスト正規化ルーチンと,パフォーマンス指標に対する意図しない結果について検討する。
本研究は,文字のスペルや句読点,特殊文字などの不整合を取り除き,ASR出力を公平な比較のために標準化することを目的としている現行のテキスト正規化の実践が,Indicスクリプトに適用した場合に根本的に欠陥があることを明らかにする。
テキスト類似度スコアと詳細な言語検査を用いた経験的分析により、これらの欠陥がIndic言語の性能指標を人工的に改善することを示した。
我々は、母国語学の専門知識を活用し、多言語ASRモデルのより堅牢で正確な評価を確実にするテキスト正規化ルーチン開発へのシフトを提案する。
This paper explores the pitfalls in evaluating multilingual automatic speech recognition (ASR) models, with a particular focus on Indic language scripts. We investigate the text normalization routine employed by leading ASR models, including OpenAI Whisper, Meta's MMS, Seamless, and Assembly AI's Conformer, and their unintended consequences on performance metrics. Our research reveals that current text normalization practices, while aiming to standardize ASR outputs for fair comparison, by removing inconsistencies such as variations in spelling, punctuation, and special characters, are fundamentally flawed when applied to Indic scripts. Through empirical analysis using text similarity scores and in-depth linguistic examination, we demonstrate that these flaws lead to artificially improved performance metrics for Indic languages. We conclude by proposing a shift towards developing text normalization routines that leverage native linguistic expertise, ensuring more robust and accurate evaluations of multilingual ASR models. | 翻訳日:2024-11-08 19:50:01 公開日:2024-11-07 |
# 重み付きモダリティ融合と類似性を利用した無訓練ゼロショット合成画像検索
Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity ( http://arxiv.org/abs/2409.04918v4 ) ライセンス: Link先を確認 | Ren-Di Wu, Yu-Yen Lin, Huei-Fang Yang, | (参考訳) 参照画像と修正テキストの組み合わせとしてクエリを定式化した合成画像検索(CIR)は,ユーザの意図を捉える能力の強化により,画像検索の新たな形態として登場した。
しかし、監督的な方法でCIRモデルをトレーニングするには、通常、労働集約的な(参照画像、テキスト修飾子、ターゲット画像)三重項の収集が必要である。
既存のゼロショットCIR(ZS-CIR)メソッドでは、特定の下流データセットでトレーニングする必要がなくなるが、大規模なイメージデータセットで追加の事前トレーニングが必要になる。
本稿では,ZS-CIRのトレーニング不要なアプローチを提案する。
CIR(WeiMoCIR)の重み付きモダリティ融合と類似性(Weighted Modality fusion)は、画像とテキストのモダリティを単純な重み付き平均を用いて効果的に組み合わせることができるという仮定の下で機能する。
これにより、参照画像とテキスト修飾子から直接クエリ表現を構築することができる。
検索性能をより高めるため,データベース画像の画像キャプションを生成するためにMLLM(Multimodal Large Language Model)を用いて,重み付き平均を用いた画像情報と組み合わせることで,それらのテキストキャプションを類似性計算に組み込む。
提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
コードはhttps://github.com/whats2000/WeiMoCIRで入手できる。
Composed image retrieval (CIR), which formulates the query as a combination of a reference image and modified text, has emerged as a new form of image search due to its enhanced ability to capture user intent. However, training a CIR model in a supervised manner typically requires labor-intensive collection of (reference image, text modifier, target image) triplets. While existing zero-shot CIR (ZS-CIR) methods eliminate the need for training on specific downstream datasets, they still require additional pretraining on large-scale image datasets. In this paper, we introduce a training-free approach for ZS-CIR. Our approach, Weighted Modality fusion and similarity for CIR (WeiMoCIR), operates under the assumption that image and text modalities can be effectively combined using a simple weighted average. This allows the query representation to be constructed directly from the reference image and text modifier. To further enhance retrieval performance, we employ multimodal large language models (MLLMs) to generate image captions for the database images and incorporate these textual captions into the similarity computation by combining them with image information using a weighted average. Our approach is simple, easy to implement, and its effectiveness is validated through experiments on the FashionIQ and CIRR datasets. Code is available at https://github.com/whats2000/WeiMoCIR. | 翻訳日:2024-11-08 19:50:01 公開日:2024-11-07 |
# 抗体開発のための対向型シェイピング
Opponent Shaping for Antibody Development ( http://arxiv.org/abs/2409.10588v7 ) ライセンス: Link先を確認 | Sebastian Towers, Aleksandra Kalisz, Philippe A. Robert, Alicia Higueruelo, Francesca Vianello, Ming-Han Chloe Tsai, Harrison Steel, Jakob N. Foerster, | (参考訳) 抗ウイルス療法は通常、ウイルスの現在の株のみを標的とするように設計されている。
ゲーム理論上、これは近視眼または近視眼の反応に対応する。
しかし、治療によって誘導される選択的圧力はウイルスに作用し、変異株の出現を誘導し、初期治療が効果を低下させる。
抗体とウイルス抗原の結合の計算モデル(Absolut!フレームワーク)に基づいて、ウイルスの進化的脱出の遺伝的シミュレーションを設計し、実装する。
重要なことに、私たちの抗体最適化アルゴリズムはウイルスの脱出曲線全体、すなわちウイルスの進化を誘導(あるいは「形」)するために考慮し、影響を及ぼすことができます。
これは、一般的には、ミオピック・ベスト・レスポンスではなく、共プレイヤの適応を考慮に入れている相手のシェーピングにインスパイアされている。
したがって、私たちは最適化された抗体をシェーパと呼ぶ。
シミュレーションでは,現在およびシミュレーション中のウイルス変異体の両方を標的とし,筋電図で選択した抗体よりも優れた結果が得られた。
さらに, ウイルスに特異的な進化的圧力が作用していることが, 筋電図抗体と比較された。
いずれにせよ、シェイパーはウイルス株の進化の軌跡を修正し、ウイルスの脱出を心筋のそれと比べて最小化する。
これは単純化されたモデルであるが、我々の提案するパラダイムは、シミュレーションツールの能力の急速な進歩により、将来より長寿命なワクチンや抗体療法の発見を促進することを願っている。
私たちのコードはhttps://github.com/olakalisz/antibody-shapers.comで利用可能です。
Anti-viral therapies are typically designed to target only the current strains of a virus. Game theoretically, this corresponds to a short-sighted, or myopic, response. However, therapy-induced selective pressures act on viruses to drive the emergence of mutated strains, against which initial therapies have reduced efficacy. Building on a computational model of binding between antibodies and viral antigens (the Absolut! framework), we design and implement a genetic simulation of viral evolutionary escape. Crucially, this allows our antibody optimisation algorithm to consider and influence the entire escape curve of the virus, i.e. to guide (or "shape") the viral evolution. This is inspired by opponent shaping which, in general-sum learning, accounts for the adaptation of the co-player rather than playing a myopic best response. Hence we call the optimised antibodies shapers. Within our simulations, we demonstrate that our shapers target both current and simulated future viral variants, outperforming the antibodies chosen in a myopic way. Furthermore, we show that shapers exert specific evolutionary pressure on the virus compared to myopic antibodies. Altogether, shapers modify the evolutionary trajectories of viral strains and minimise the viral escape compared to their myopic counterparts. While this is a simplified model, we hope that our proposed paradigm will facilitate the discovery of better long-lived vaccines and antibody therapies in the future, enabled by rapid advancements in the capabilities of simulation tools. Our code is available at https://github.com/olakalisz/antibody-shapers. | 翻訳日:2024-11-08 19:50:01 公開日:2024-11-07 |
# 推論エンジンのみを用いたLCMの高効率オンデバイスファインチューニング
Enabling Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines ( http://arxiv.org/abs/2409.15520v2 ) ライセンス: Link先を確認 | Lei Gao, Amir Ziashahabi, Yue Niu, Salman Avestimehr, Murali Annavaram, | (参考訳) 大規模言語モデル(LLM)は現在、大規模なクラウドサーバ上で事前トレーニングされ、微調整されている。
次のフロンティアはLLMパーソナライズであり、ファンデーションモデルをユーザ/タスク固有のデータで微調整することができる。
このようなプライベートデータの繊細な性質を考えると、これらのモデルをエッジデバイス上で微調整し、ユーザの信頼を高めることが望ましい。
しかし、リソース制約のあるエッジデバイスを微調整すると、メモリと計算の要求が大きくなり、インフラのサポートが制限されるため、大きな課題が生じる。
近似勾配に多重フォワードパスを用いるゼロ階数最適化(ZO)を利用して、推論エンジン(例えばExecuTorch)を微調整に再利用できることを観察する。
しかし、エッジデバイスに直接ZO法を適用することは、精度の向上に必要な複数のモデル摂動の計算コストが高いため、現実的ではない。
これらの観測に基づいて,エッジデバイスのためのメモリ効率と計算効率のよいLCM微調整法を提案する。
1)外ループと内ループの並列化を利用して高い並列効率を実現する並列化ランダム化勾配推定(P-RGE)技術を導入する。
これにより、複数の関数クエリとフォワードパスの並列実行が可能になり、トレーニング時間が短縮される。
2)P-RGEをパラメータ効率のよい微調整法(例えばLoRA)と統合し,計算とメモリのオーバーヘッドをさらに軽減する。
(3) ExecuTorchによる微調整を完全にサポートするP-RGE LoRA-FAモジュールを実装した。
私たちのアプローチではExecuTorchのランタイムコードの変更は必要ありません。
実験により、P-RGEは実行時の大幅なスピードアップとメモリ節約を実現し、微調整精度を改善し、リアルタイムのオンデバイスアプリケーションにLLMを実践的に展開する道を開いた。
Large Language Models (LLMs) are currently pre-trained and fine-tuned on large cloud servers. The next frontier is LLM personalization, where a foundation model can be fine-tuned with user/task-specific data. Given the sensitive nature of such private data, it is desirable to fine-tune these models on edge devices to improve user trust. However, fine-tuning on resource-constrained edge devices presents significant challenges due to substantial memory and computational demands, as well as limited infrastructure support. We observe that inference engines (e.g., ExecuTorch) can be repurposed for fine-tuning by leveraging zeroth-order (ZO) optimization, which uses multiple forward passes to approximate gradients. However, directly applying ZO methods on edge devices is impractical due to the high computational cost of multiple model perturbations required to achieve accuracy improvements. Based on these observations, we propose a memory- and computation-efficient LLM fine-tuning method for edge devices. Our approach has three key innovations: (1) We introduce a parallelized randomized gradient estimation (P-RGE) technique that achieves high parallel efficiency by leveraging outer-loop and inner-loop parallelization. This enables multiple function queries and forward passes to be executed in parallel, reducing training time. (2) We integrate P-RGE with parameter-efficient fine-tuning methods (e.g. LoRA) to further reduce computational and memory overhead. (3) We implement a P-RGE LoRA-FA module that fully supports fine-tuning with ExecuTorch. Our approach requires no modifications to ExecuTorch's runtime code, as it can be implemented with server-side code changes only. Experiments demonstrate that P-RGE achieves substantial runtime speedups and memory savings while improving fine-tuning accuracy, paving the way for practical deployment of LLMs in real-time, on-device applications. | 翻訳日:2024-11-08 19:50:01 公開日:2024-11-07 |
# LightAvatar: ダイナミック・ニューラル・ライトフィールドとしての高効率ヘッドアバター
LightAvatar: Efficient Head Avatar as Dynamic Neural Light Field ( http://arxiv.org/abs/2409.18057v2 ) ライセンス: Link先を確認 | Huan Wang, Feitong Tan, Ziqian Bai, Yinda Zhang, Shichen Liu, Qiangeng Xu, Menglei Chai, Anish Prabhu, Rohit Pandey, Sean Fanello, Zeng Huang, Yun Fu, | (参考訳) 近年の研究では、パラメトリックモデル上にニューラルラジアンス場(NeRF)がSOTA品質に達し、モノクロビデオからフォトリアリスティックヘッドアバターを構築することが示されている。
しかし、NeRFベースのアバターの1つの大きな制限は、NeRFの高密度点サンプリングによるレンダリング速度が遅いことである。
ニューラル光場(NeLF)に基づく最初の頭部アバターモデルであるLightAvatarを紹介する。
LightAvatarは3DMMパラメータから画像をレンダリングし、メッシュやボリュームレンダリングを使わずに、単一のネットワークフォワードパスを介してカメラがポーズする。
提案手法は概念上は魅力的だが、リアルタイムの効率性とトレーニングの安定性に重大な課題をもたらす。
そこで我々は,NeLFモデルの適切な表現を得るための専用ネットワーク設計を導入し,低FLOPの予算を維持する。
一方,プレトレーニングされたアバターモデルを教師として利用して,豊富な擬似データを合成する蒸留ベースのトレーニング戦略を取り入れた。
実データにおける嵌合誤差を補正し、モデルがより良く学習できるように整合フィールドネットワークを導入する。
広汎な実験により,提案手法は,コンシューマグレードのGPU (RTX3090) 上で174.1 FPS (512x512 分解能) を最適化することなく,定量的あるいは定性的に新しいSOTA画質を実現することが可能であることが示唆された。
Recent works have shown that neural radiance fields (NeRFs) on top of parametric models have reached SOTA quality to build photorealistic head avatars from a monocular video. However, one major limitation of the NeRF-based avatars is the slow rendering speed due to the dense point sampling of NeRF, preventing them from broader utility on resource-constrained devices. We introduce LightAvatar, the first head avatar model based on neural light fields (NeLFs). LightAvatar renders an image from 3DMM parameters and a camera pose via a single network forward pass, without using mesh or volume rendering. The proposed approach, while being conceptually appealing, poses a significant challenge towards real-time efficiency and training stability. To resolve them, we introduce dedicated network designs to obtain proper representations for the NeLF model and maintain a low FLOPs budget. Meanwhile, we tap into a distillation-based training strategy that uses a pretrained avatar model as teacher to synthesize abundant pseudo data for training. A warping field network is introduced to correct the fitting error in the real data so that the model can learn better. Extensive experiments suggest that our method can achieve new SOTA image quality quantitatively or qualitatively, while being significantly faster than the counterparts, reporting 174.1 FPS (512x512 resolution) on a consumer-grade GPU (RTX3090) with no customized optimization. | 翻訳日:2024-11-08 19:50:01 公開日:2024-11-07 |
# SciDFM:科学のためのミックス・オブ・エクササイズを持つ大規模言語モデル
SciDFM: A Large Language Model with Mixture-of-Experts for Science ( http://arxiv.org/abs/2409.18412v2 ) ライセンス: Link先を確認 | Liangtai Sun, Danyu Luo, Da Ma, Zihan Zhao, Baocai Chen, Zhennan Shen, Su Zhu, Lu Chen, Xin Chen, Kai Yu, | (参考訳) 近年,科学的な発見を支援するために大規模言語モデル(LLM)を活用することへの関心が高まっている。
しかし、ほとんどのLSMは一般科学にのみ焦点をあてるが、化学分子やアミノ酸配列のようなドメイン固有の知識は欠如している。
これらのギャップを埋めるために、私たちはSciDFMを紹介します。これは、スクラッチから訓練され、大学レベルの科学的推論を行い、分子やアミノ酸配列を理解することができます。
ドメイン固有のデータベースのデータだけでなく、さまざまな分野の科学論文や書籍を含む大規模学習コーパスを収集する。
ダウンストリームベンチマークの性能を改善するために,多くの命令データに対して事前学習したモデルをさらに微調整する。
実験結果から,SciDFMはSciEvalやSciQなどの一般的な科学的ベンチマークにおいて高い性能を示し,類似サイズのモデル間のドメイン固有ベンチマークにおいてSOTA性能に達することを示す。
さらに、専門家層を分析し、専門家選択の結果が異なる分野のデータによって異なることを示す。
より広範な研究コミュニティのために、私たちはhttps://huggingface.co/OpenDFM/SciDFM-MoE-A5.6B-v1.0でSciDFMをオープンソース化しました。
Recently, there has been a significant upsurge of interest in leveraging large language models (LLMs) to assist scientific discovery. However, most LLMs only focus on general science, while they lack domain-specific knowledge, such as chemical molecules and amino acid sequences. To bridge these gaps, we introduce SciDFM, a mixture-of-experts LLM, which is trained from scratch and is able to conduct college-level scientific reasoning and understand molecules and amino acid sequences. We collect a large-scale training corpus containing numerous scientific papers and books from different disciplines as well as data from domain-specific databases. We further fine-tune the pre-trained model on lots of instruction data to improve performances on downstream benchmarks. From experiment results, we show that SciDFM achieves strong performance on general scientific benchmarks such as SciEval and SciQ, and it reaches a SOTA performance on domain-specific benchmarks among models of similar size. We further analyze the expert layers and show that the results of expert selection vary with data from different disciplines. To benefit the broader research community, we open-source SciDFM at https://huggingface.co/OpenDFM/SciDFM-MoE-A5.6B-v1.0. | 翻訳日:2024-11-08 19:50:01 公開日:2024-11-07 |
# パターン補完から学ぶ:自己教師型制御可能生成
Learning from Pattern Completion: Self-supervised Controllable Generation ( http://arxiv.org/abs/2409.18694v2 ) ライセンス: Link先を確認 | Zhiqiang Chen, Guofan Fan, Jinying Gao, Lei Ma, Bo Lei, Tiejun Huang, Shan Yu, | (参考訳) 人間の脳は、スケッチや落書きと現実世界の視覚オブジェクトを関連付けるなど、同じまたは類似した視覚シーンの異なる視覚特性を自然に関連付ける能力を持っている。
対照的に、人工知能の分野では、コントロールネットのような制御可能な生成方法は、深度マップやセマンティックセグメンテーションマップ、ポーズといった注釈付きトレーニングデータセットに大きく依存しており、メソッドのスケーラビリティを制限している。
脳の結合力、特に大脳皮質のモジュラー化と海馬のパターンの完成に寄与する神経機構に触発された本研究では、自己制御制御可能生成(SCG)フレームワークを提案する。
まず,モジュール間独立性とモジュール間相関をモジュール間オートエンコーダネットワークで促進する等変制約を導入し,機能的特殊化を実現する。
その後、これらの特殊なモジュールに基づいて、制御可能な生成訓練に自己教師付きパターン補完アプローチを採用する。
実験結果から,色,明るさ,エッジ検出などの機能的特殊化を効果的に実現し,配向選択性,色アンタゴニティ,中心周囲受容野などの脳様特徴を呈することがわかった。
自己指導による学習を通じて、SCGに自然に連想生成能力が出現し、絵画、スケッチ、古代の落書きにおける連想生成などの様々なタスクに優れた一般化能力を示す。
従来の代表的メソッドであるControlNetと比較して,提案手法は,より難易度の高い高ノイズシナリオにおいて優れた堅牢性を示すだけでなく,自己管理的な方法でより有望なスケーラビリティを持つ。
The human brain exhibits a strong ability to spontaneously associate different visual attributes of the same or similar visual scene, such as associating sketches and graffiti with real-world visual objects, usually without supervising information. In contrast, in the field of artificial intelligence, controllable generation methods like ControlNet heavily rely on annotated training datasets such as depth maps, semantic segmentation maps, and poses, which limits the method's scalability. Inspired by the neural mechanisms that may contribute to the brain's associative power, specifically the cortical modularization and hippocampal pattern completion, here we propose a self-supervised controllable generation (SCG) framework. Firstly, we introduce an equivariant constraint to promote inter-module independence and intra-module correlation in a modular autoencoder network, thereby achieving functional specialization. Subsequently, based on these specialized modules, we employ a self-supervised pattern completion approach for controllable generation training. Experimental results demonstrate that the proposed modular autoencoder effectively achieves functional specialization, including the modular processing of color, brightness, and edge detection, and exhibits brain-like features including orientation selectivity, color antagonism, and center-surround receptive fields. Through self-supervised training, associative generation capabilities spontaneously emerge in SCG, demonstrating excellent generalization ability to various tasks such as associative generation on painting, sketches, and ancient graffiti. Compared to the previous representative method ControlNet, our proposed approach not only demonstrates superior robustness in more challenging high-noise scenarios but also possesses more promising scalability potential due to its self-supervised manner.Codes are released on Github and Gitee. | 翻訳日:2024-11-08 19:50:01 公開日:2024-11-07 |
# HealthQ: 医療会話におけるLCM鎖の問合せ機能について
HealthQ: Unveiling Questioning Capabilities of LLM Chains in Healthcare Conversations ( http://arxiv.org/abs/2409.19487v3 ) ライセンス: Link先を確認 | Ziyu Wang, Hao Li, Di Huang, Amir M. Rahmani, | (参考訳) デジタル医療において、大言語モデル(LLM)は主に質問応答能力を高め、患者との相互作用を改善するために利用されてきた。
しかし、効果的な患者ケアは、関連する質問に答えることで、積極的に情報を収集できるLCMチェーンを必要とする。
本稿では,LLMヘルスケアチェーンの問合せ能力を評価するための新しいフレームワークであるHealthQを提案する。
提案手法は,レトリーバル拡張生成 (RAG) や思考の連鎖 (CoT) ,反射的連鎖など複数のLCM連鎖を実装し,その関連性や情報性を評価するためのLCM判定器を導入した。
HealthQを検証するために、我々は、Recall-Oriented Understudy for Gisting Evaluation (ROUGE) や Named Entity Recognition (NER) ベースのセット比較のような従来の自然言語処理(NLP)メトリクスを使用し、公衆医療用ノートデータセットであるChatDoctor と MTS-Dialog から2つのカスタムデータセットを構築した。
医療会話におけるLSMの質問能力に関する初の総合的研究を行い、新しいデータセット生成パイプラインを開発し、詳細な評価手法を提案する。
In digital healthcare, large language models (LLMs) have primarily been utilized to enhance question-answering capabilities and improve patient interactions. However, effective patient care necessitates LLM chains that can actively gather information by posing relevant questions. This paper presents HealthQ, a novel framework designed to evaluate the questioning capabilities of LLM healthcare chains. We implemented several LLM chains, including Retrieval-Augmented Generation (RAG), Chain of Thought (CoT), and reflective chains, and introduced an LLM judge to assess the relevance and informativeness of the generated questions. To validate HealthQ, we employed traditional Natural Language Processing (NLP) metrics such as Recall-Oriented Understudy for Gisting Evaluation (ROUGE) and Named Entity Recognition (NER)-based set comparison, and constructed two custom datasets from public medical note datasets, ChatDoctor and MTS-Dialog. Our contributions are threefold: we provide the first comprehensive study on the questioning capabilities of LLMs in healthcare conversations, develop a novel dataset generation pipeline, and propose a detailed evaluation methodology. | 翻訳日:2024-11-08 19:50:01 公開日:2024-11-07 |
# X線画像における特徴文脈励起モジュールを用いた小児手関節骨折検出
Pediatric Wrist Fracture Detection Using Feature Context Excitation Modules in X-ray Images ( http://arxiv.org/abs/2410.01031v2 ) ライセンス: Link先を確認 | Rui-Yang Ju, Chun-Tse Chien, Enkaer Xieerke, Jen-Shiun Chiang, | (参考訳) 小児は日常的に手首の外傷を負うことが多いが、外科医による外科治療の前にX線画像を分析し解釈するためには放射線科医が必要である。
ディープラーニングの開発により、ニューラルネットワークはコンピュータ支援診断(CAD)ツールとして機能し、医師や専門医が画像診断を行うのに役立つようになった。
YOLOv8モデルは、対象検出タスクにおいて良好な成功を収めたので、様々なフラクチャー検出に適用されている。
本研究では、FCEモジュール(Squeeze-and-Excitation (SE), Global Context (GC), Gather-Excite (GE), Gaussian Context Transformer (GCT) の4種類のモデルを導入し、モデル性能を向上させる。
GRAZPEDWRI-DXデータセットによる実験結果から,提案したYOLOv8+GC-M3モデルでは,mAP@50値が65.78%から66.32%に向上し,予測時間を短縮しつつ,最先端(SOTA)モデルを上回る結果が得られた。
さらに,提案したYOLOv8+SE-M3モデルでは,最大mAP@50値67.07%を達成し,SOTA性能を上回った。
この作業の実装はhttps://github.com/RuiyangJu/FCE-YOLOv8.comで公開されている。
Children often suffer wrist trauma in daily life, while they usually need radiologists to analyze and interpret X-ray images before surgical treatment by surgeons. The development of deep learning has enabled neural networks to serve as computer-assisted diagnosis (CAD) tools to help doctors and experts in medical image diagnostics. Since YOLOv8 model has obtained the satisfactory success in object detection tasks, it has been applied to various fracture detection. This work introduces four variants of Feature Contexts Excitation-YOLOv8 (FCE-YOLOv8) model, each incorporating a different FCE module (i.e., modules of Squeeze-and-Excitation (SE), Global Context (GC), Gather-Excite (GE), and Gaussian Context Transformer (GCT)) to enhance the model performance. Experimental results on GRAZPEDWRI-DX dataset demonstrate that our proposed YOLOv8+GC-M3 model improves the mAP@50 value from 65.78% to 66.32%, outperforming the state-of-the-art (SOTA) model while reducing inference time. Furthermore, our proposed YOLOv8+SE-M3 model achieves the highest mAP@50 value of 67.07%, exceeding the SOTA performance. The implementation of this work is available at https://github.com/RuiyangJu/FCE-YOLOv8. | 翻訳日:2024-11-08 19:50:01 公開日:2024-11-07 |
# QUIC Dynamics: 暗号化トラフィック分析のための大規模データセット
Exploring QUIC Dynamics: A Large-Scale Dataset for Encrypted Traffic Analysis ( http://arxiv.org/abs/2410.03728v2 ) ライセンス: Link先を確認 | Barak Gahtan, Robert J. Shahla, Alex M. Bronstein, Reuven Cohen, | (参考訳) QUICは、新しい、そしてますます使われるトランスポートプロトコルであり、セキュリティ、パフォーマンス、ストリーム多重化やコネクションマイグレーションといった機能の改善によってTCPの制限に対処し、解決する。
しかし、これらの機能は、Webトラフィックを監視し、分析する必要があるネットワークオペレーターにとっての課題でもある。
本稿では,44000以上のWebサイト(URL)から10万以上のQUICトレースからなるラベル付きデータセットVisQUICを紹介する。
これらのトレースは、ウィンドウ長、ピクセル解像度、正規化、ラベルの設定可能なパラメータを含む700万以上の画像を生成する基盤を提供する。
これらの画像は、クライアントとサーバ間のインタラクションを見て、QUIC暗号化接続に関する洞察を得ることを可能にする。
データセットの可能性を説明するために、所定のQUIC内のHTTP/3レスポンス/リクエストペア数を推定するオブザーバのユースケース例を紹介します。
この問題を離散回帰問題として定式化し、機械学習(ML)モデルをトレーニングし、サンプルユースケースで提案したデータセットを用いて評価する。
QUIC, a new and increasingly used transport protocol, addresses and resolves the limitations of TCP by offering improved security, performance, and features such as stream multiplexing and connection migration. These features, however, also present challenges for network operators who need to monitor and analyze web traffic. In this paper, we introduce VisQUIC, a labeled dataset comprising over 100,000 QUIC traces from more than 44,000 websites (URLs), collected over a four-month period. These traces provide the foundation for generating more than seven million images, with configurable parameters of window length, pixel resolution, normalization, and labels. These images enable an observer looking at the interactions between a client and a server to analyze and gain insights about QUIC encrypted connections. To illustrate the dataset's potential, we offer a use-case example of an observer estimating the number of HTTP/3 responses/requests pairs in a given QUIC, which can reveal server behavior, client--server interactions, and the load imposed by an observed connection. We formulate the problem as a discrete regression problem, train a machine learning (ML) model for it, and then evaluate it using the proposed dataset on an example use case. | 翻訳日:2024-11-08 19:50:01 公開日:2024-11-07 |
# PAD: 復号時のLCMのパーソナライズアライメント
PAD: Personalized Alignment of LLMs at Decoding-Time ( http://arxiv.org/abs/2410.04070v5 ) ライセンス: Link先を確認 | Ruizhe Chen, Xiaotian Zhang, Meng Luo, Wenhao Chai, Zuozhu Liu, | (参考訳) 文化的、教育的、政治的に大きく異なるパーソナライズされた好みに合わせることは、従来のアライメント手法の計算コストとデータ要求のために大きな課題となる。
そこで本研究では,LLM出力を推論フェーズにおいて多様なパーソナライズされた嗜好と整合させる新しいフレームワークであるPersonalized Alignment at Decoding-time (PAD)を提案する。
このフレームワークは、独自のパーソナライズされた報酬モデリング戦略を導入することにより、テキスト生成プロセスをパーソナライズされた好みから切り離し、一般化可能なトークンレベルのパーソナライズされた報酬の生成を容易にする。
PADアルゴリズムはこれらの報酬を活用してデコードプロセスをガイドし、ベースモデルの予測をパーソナライズされた好みに動的に調整する。
大規模な実験結果から、PADは既存のトレーニングベースのアライメント手法よりも、多様な嗜好との整合性に優れるだけでなく、トレーニング中に見つからない嗜好への顕著な一般化性や、異なるベースモデル間でのスケーラビリティも示している。
この作業は、リアルタイムアプリケーションにおけるユーザニーズを満たすためのLLMの能力を向上し、パーソナライズされたLLMアライメントにおける大きな前進を示す。
Aligning with personalized preferences, which vary significantly across cultural, educational, and political differences, poses a significant challenge due to the computational costs and data demands of traditional alignment methods. In response, this paper presents Personalized Alignment at Decoding-time (PAD), a novel framework designed to align LLM outputs with diverse personalized preferences during the inference phase, eliminating the need for additional training. By introducing a unique personalized reward modeling strategy, this framework decouples the text generation process from personalized preferences, facilitating the generation of generalizable token-level personalized rewards. The PAD algorithm leverages these rewards to guide the decoding process, dynamically tailoring the base model's predictions to personalized preferences. Extensive experimental results demonstrate that PAD not only outperforms existing training-based alignment methods in terms of aligning with diverse preferences but also shows significant generalizability to preferences unseen during training and scalability across different base models. This work advances the capability of LLMs to meet user needs in real-time applications, presenting a substantial step forward in personalized LLM alignment. | 翻訳日:2024-11-08 19:50:01 公開日:2024-11-07 |
# 科学書記の厳格さについて : 基準・分析・洞察
On the Rigour of Scientific Writing: Criteria, Analysis, and Insights ( http://arxiv.org/abs/2410.04981v2 ) ライセンス: Link先を確認 | Joseph James, Chenghao Xiao, Yucheng Li, Chenghua Lin, | (参考訳) リグールは、結果と結果の再現性と妥当性を保証するため、科学的研究に不可欠である。
その重要性にもかかわらず、厳密さを計算的にモデル化する研究はほとんどなく、これらの基準が実際行われている科学論文の厳密さを効果的にシグナルや測定できるかどうかについての分析は不十分である。
本稿では,厳密な基準を自動的に識別し,定義し,科学的執筆におけるそれらの妥当性を評価するボトムアップ型データ駆動型フレームワークを提案する。
フレームワークには、厳密なキーワード抽出、詳細な厳密な定義生成、健全な基準識別が含まれる。
さらに,本フレームワークはドメインに依存しないため,異なる分野の科学的厳密さの評価に適合し,各分野の異なる塩分濃度を調節することができる。
我々は、機械学習とNLP(ICLRとACL)の2つのハイインパクトな会場から収集したデータセットに基づいて包括的な実験を行い、厳密なモデリングにおける我々のフレームワークの有効性を実証した。
さらに,厳密さの言語的パターンを分析し,フレーミング確実性は科学的厳密さの知覚を高める上で不可欠であり,確実性や確率不確実性は低下することを示した。
Rigour is crucial for scientific research as it ensures the reproducibility and validity of results and findings. Despite its importance, little work exists on modelling rigour computationally, and there is a lack of analysis on whether these criteria can effectively signal or measure the rigour of scientific papers in practice. In this paper, we introduce a bottom-up, data-driven framework to automatically identify and define rigour criteria and assess their relevance in scientific writing. Our framework includes rigour keyword extraction, detailed rigour definition generation, and salient criteria identification. Furthermore, our framework is domain-agnostic and can be tailored to the evaluation of scientific rigour for different areas, accommodating the distinct salient criteria across fields. We conducted comprehensive experiments based on datasets collected from two high impact venues for Machine Learning and NLP (i.e., ICLR and ACL) to demonstrate the effectiveness of our framework in modelling rigour. In addition, we analyse linguistic patterns of rigour, revealing that framing certainty is crucial for enhancing the perception of scientific rigour, while suggestion certainty and probability uncertainty diminish it. | 翻訳日:2024-11-08 19:50:01 公開日:2024-11-07 |
# LightRAG: シンプルで高速な検索機能付きジェネレーション
LightRAG: Simple and Fast Retrieval-Augmented Generation ( http://arxiv.org/abs/2410.05779v2 ) ライセンス: Link先を確認 | Zirui Guo, Lianghao Xia, Yanhua Yu, Tu Ao, Chao Huang, | (参考訳) Retrieval-Augmented Generation (RAG) システムは、外部知識ソースを統合することで、より大きな言語モデル(LLM)を強化する。
しかしながら、既存のRAGシステムには、フラットなデータ表現への依存や、コンテキスト認識の欠如など、重大な制限があり、複雑な相互依存を捉えるのに失敗する断片的な回答につながる可能性がある。
これらの課題に対処するために,テキストインデックスと検索プロセスにグラフ構造を組み込んだLightRAGを提案する。
この革新的なフレームワークは、低レベルの知識発見と高レベルの知識発見の両方から包括的な情報検索を強化する二重レベル検索システムを採用している。
さらに、グラフ構造とベクトル表現の統合により、関連エンティティとその関係の効率的な検索が容易になり、文脈的関連性を維持しながら応答時間を大幅に改善する。
この機能は、新しいデータのタイムリーな統合を保証するインクリメンタルな更新アルゴリズムによってさらに強化され、システムは、急速に変化するデータ環境において、効果的で応答性を保つことができる。
大規模な実験的検証は、既存のアプローチと比較して、検索精度と効率が大幅に向上したことを示している。
LightRAGをオープンソースにし、リンクで利用可能にしました。
Retrieval-Augmented Generation (RAG) systems enhance large language models (LLMs) by integrating external knowledge sources, enabling more accurate and contextually relevant responses tailored to user needs. However, existing RAG systems have significant limitations, including reliance on flat data representations and inadequate contextual awareness, which can lead to fragmented answers that fail to capture complex inter-dependencies. To address these challenges, we propose LightRAG, which incorporates graph structures into text indexing and retrieval processes. This innovative framework employs a dual-level retrieval system that enhances comprehensive information retrieval from both low-level and high-level knowledge discovery. Additionally, the integration of graph structures with vector representations facilitates efficient retrieval of related entities and their relationships, significantly improving response times while maintaining contextual relevance. This capability is further enhanced by an incremental update algorithm that ensures the timely integration of new data, allowing the system to remain effective and responsive in rapidly changing data environments. Extensive experimental validation demonstrates considerable improvements in retrieval accuracy and efficiency compared to existing approaches. We have made our LightRAG open-source and available at the link: https://github.com/HKUDS/LightRAG. | 翻訳日:2024-11-08 19:50:01 公開日:2024-11-07 |
# ニオブ酸化物の結晶性:ニオブ3次元共振器における二層系欠陥の量子的応用
Crystallinity in Niobium oxides: A pathway to mitigate Two-Level System Defects in Niobium 3D Resonator for quantum applications ( http://arxiv.org/abs/2410.06805v3 ) ライセンス: Link先を確認 | Y. Kalboussi, I. Curci, F. Miserque, D. Troadec, N. Brun, M. Walls, G. Jullien, F. Eozenou, M. Baudrier, L. Maurice, Q. Bertrand, P. Sahuquet, T. Proslier, | (参考訳) ニオブ系超伝導量子回路の材料欠陥、特に2レベル系(TLS)欠陥はデコヒーレンスの主要な原因であり、究極的には量子計算とセンシングの性能を制限している。
したがって、これらのデバイスにおけるTLS欠陥の微視的起源を特定し、それらを取り除くための戦略を開発することが、超伝導量子ビット性能改善の鍵となる。
本稿では,650{\deg}Cでの10時間高真空(HV)加熱処理による3次元超伝導ニオブ共振器の2レベル系損失の低減効果を示す。
X線光電子分光法 (XPS) と高分解能走査透過電子顕微鏡 (STEM) を用いて, この熱処理がニオブ試料に及ぼす影響を調べたところ, 大気暴露とHPR後に生長したネイティブオキシド組成の変化とナノスケールの結晶性酸化物領域の形成が, 1.3GHzニオブ共振器の低磁場における10倍品質係数の増大と相関していることがわかった。
Materials imperfections in Nniobium based superconducting quantum circuits, in particular, two-level-system (TLS) defects, are a major source of decoherence, ultimately limiting the performance of quantum computation and sensing. Thus, identifying and understanding the microscopic origin of possible TLS defects in these devices and developing strategies to eliminate them is key to superconducting qubit performance improvement. In this paper, we demonstrate the reduction of two-level system losses in three-dimensional superconducting radio frequency (SRF) niobium resonators by a 10-hour high vacuum (HV) heat treatment at 650{\deg}C, even after exposure to air and high pressure rinsing (HPR). By probing the effect of this annealing on niobium samples using X-ray photoelectron spectroscopy (XPS) and high-resolution scanning transmission electron microscopy (STEM), we witness an alteration of the native oxide composition re-grown after air exposure and HPR and the creation of nano-scale crystalline oxide regions, which correlates with the measured tenfold quality factor enhancement at low fields of the 1.3 GHz niobium resonator. | 翻訳日:2024-11-08 19:50:01 公開日:2024-11-07 |
# SpikeBottleNet:エッジクラウドのコ推論のためのスパイク駆動機能圧縮アーキテクチャ
SpikeBottleNet: Spike-Driven Feature Compression Architecture for Edge-Cloud Co-Inference ( http://arxiv.org/abs/2410.08673v2 ) ライセンス: Link先を確認 | Maruf Hassan, Steven Davy, | (参考訳) エッジクラウドのコ推論により、エッジデバイスとクラウドサーバの間でアーキテクチャを分割することで、効率的なディープニューラルネットワーク(DNN)デプロイメントが可能になる。
このアプローチでは、デバイス上の計算と通信コストのバランスをとる必要がある。
従来のDNNアーキテクチャでは、連続したデータ処理と浮動小数点の活性化が必要であり、エネルギー消費が大幅に増加し、特徴量も増大し、伝送コストが上昇する。
この課題は、極端エネルギー効率で知られるスパイキングニューラルネットワーク(SNN)を使用して、バイナリでイベント駆動のアクティベーションを探索する。
本研究では,エッジデバイス上でのエネルギー消費を大幅に削減するために,スパイクニューロンモデルを統合したエッジクラウドコ推論システムのための新しいアーキテクチャであるSpikeBottleNetを提案する。
この研究の重要な革新は、効率的な特徴伝達のためにSNN用に調整された中間的特徴圧縮技術である。
この手法は分割コンピューティングアプローチを利用して、エンコーダとデコーダのボトルネックユニットをResNetやMobileNetのような複雑なディープアーキテクチャに戦略的に配置する。
実験により、SpikeBottleNetはResNetの最終畳み込み層において最大256倍のビット圧縮を実現し、最小精度の損失(0.16%)が得られた。
さらに,本手法は,ベースラインであるBottleNetに比べて最大144倍のエッジデバイスエネルギー効率を向上し,リソース制限エッジデバイスに最適である。
Edge-cloud co-inference enables efficient deep neural network (DNN) deployment by splitting the architecture between an edge device and cloud server, crucial for resource-constraint edge devices. This approach requires balancing on-device computations and communication costs, often achieved through compressed intermediate feature transmission. Conventional DNN architectures require continuous data processing and floating point activations, leading to considerable energy consumption and increased feature sizes, thus raising transmission costs. This challenge motivates exploring binary, event-driven activations using spiking neural networks (SNNs), known for their extreme energy efficiency. In this research, we propose SpikeBottleNet, a novel architecture for edge-cloud co-inference systems that integrates a spiking neuron model to significantly reduce energy consumption on edge devices. A key innovation of our study is an intermediate feature compression technique tailored for SNNs for efficient feature transmission. This technique leverages a split computing approach to strategically place encoder-decoder bottleneck units within complex deep architectures like ResNet and MobileNet. Experimental results demonstrate that SpikeBottleNet achieves up to 256x bit compression in the final convolutional layer of ResNet, with minimal accuracy loss (0.16%). Additionally, our approach enhances edge device energy efficiency by up to 144x compared to the baseline BottleNet, making it ideal for resource-limited edge devices. | 翻訳日:2024-11-08 19:50:01 公開日:2024-11-07 |
# 人的介入を伴わない手術器具分割の再検討:グラフ分割
Revisiting Surgical Instrument Segmentation Without Human Intervention: A Graph Partitioning View ( http://arxiv.org/abs/2408.14789v3 ) ライセンス: Link先を確認 | Mingyu Sheng, Jianan Fan, Dongnan Liu, Ron Kikinis, Weidong Cai, | (参考訳) 内視鏡画像における手術器具のセグメンテーション(SIS)は,低侵襲手術を増強するためのコンピュータ支援的介入の文脈において,長年の重要課題である。
近年の深層学習の方法論とデータ・ハングリーの性質の高まりを踏まえ、大規模な専門家による注釈に基づく神経予測モデルを訓練することは、この分野における既成のアプローチとして支配され、しかしながら、収集された外科的ビデオフレームに対応する微細なピクセル単位のラベルを作成するために、臨床医に禁止的な負担を課す可能性がある。
本研究では,ビデオフレーム分割をグラフ分割問題として再検討し,画像画素をグラフノードとして扱う教師なし手法を提案する。
自己教師付き事前学習モデルは、まず、高レベルな意味的特徴をキャプチャする特徴抽出器として活用される。
すると、ラプラシア行列は特徴量から計算され、グラフ分割のために固有分解される。
ディープ」固有ベクトルでは、手術用ビデオフレームは、ツールや組織などの異なるモジュールに意味的に分割され、位置、クラス、関係などの区別可能な意味情報を提供する。
セグメンテーション問題は、固有ベクトルにクラスタリングやしきい値を適用することで自然に取り組むことができる。
様々な臨床エンドポイント(例:EndoVis2017、EndoVis2018、UCLなど)で広範囲にわたる実験が実施されている。
難解なシナリオのすべてにおいて,本手法は,教師なしの最先端(SOTA)手法よりも優れた性能と堅牢性を示す。
コードはhttps://github.com/MingyuShengSMY/GraphClusteringSIS.gitで公開されている。
Surgical instrument segmentation (SIS) on endoscopic images stands as a long-standing and essential task in the context of computer-assisted interventions for boosting minimally invasive surgery. Given the recent surge of deep learning methodologies and their data-hungry nature, training a neural predictive model based on massive expert-curated annotations has been dominating and served as an off-the-shelf approach in the field, which could, however, impose prohibitive burden to clinicians for preparing fine-grained pixel-wise labels corresponding to the collected surgical video frames. In this work, we propose an unsupervised method by reframing the video frame segmentation as a graph partitioning problem and regarding image pixels as graph nodes, which is significantly different from the previous efforts. A self-supervised pre-trained model is firstly leveraged as a feature extractor to capture high-level semantic features. Then, Laplacian matrixs are computed from the features and are eigendecomposed for graph partitioning. On the "deep" eigenvectors, a surgical video frame is meaningfully segmented into different modules such as tools and tissues, providing distinguishable semantic information like locations, classes, and relations. The segmentation problem can then be naturally tackled by applying clustering or threshold on the eigenvectors. Extensive experiments are conducted on various datasets (e.g., EndoVis2017, EndoVis2018, UCL, etc.) for different clinical endpoints. Across all the challenging scenarios, our method demonstrates outstanding performance and robustness higher than unsupervised state-of-the-art (SOTA) methods. The code is released at https://github.com/MingyuShengSMY/GraphClusteringSIS.git. | 翻訳日:2024-11-08 11:49:24 公開日:2024-11-07 |
# 量子シャドウトモグラフィによる効率的な後処理による量子アドバンテージ
Quantum Advantage via Efficient Post-processing on Qudit Shadow tomography ( http://arxiv.org/abs/2408.16244v3 ) ライセンス: Link先を確認 | Yu Wang, | (参考訳) 量子科学や人工知能などの分野において$\text{tr}(AB)$の計算は必須であるが、古典的な計算複雑性は$O(d^2)$であり、$A$と$B$は$d$次元行列である。
さらに、$A$と$B$を格納するには$O(d^2)$メモリが必要である。
計算と記憶の複雑さを指数関数的に$O(\text{poly}(\log d))$に減らし、広い種類の行列に対して$A$と有界ノルムエルミート行列に対して$B$を既知$\text{tr}(B)$とする量子的アプローチを提案する。
ランダムなクリフォード測定によるシャドウトモグラフィーと比較すると,測定単位の処理後処理の計算複雑性を指数最悪のシナリオから定数に低減し,任意の次元の$d$に適用可能である。
この進歩は、効率的な高次元データ解析と複雑なシステムモデリングのための新しい経路を開く。
The calculation of $\text{tr}(AB)$ is essential in fields like quantum science and artificial intelligence, but the classical computational complexity is $O(d^2)$ when $A$ and $B$ are $d$-dimensional matrices. Moreover, storing $A$ and $B$ requires $O(d^2)$ memory, which poses additional challenges for exponential high-dimensional systems. We propose a quantum approach through a qudit shadow tomography framework to exponentially reduce both the computational and storage complexity to $O(\text{poly}(\log d))$ for a broad class of matrices $A$ and for bounded-norm Hermitian matrices $B$ with known $\text{tr}(B)$. Compared to shadow tomography via random Clifford measurements, our method reduces the computational complexity of post-processing per measurement from an exponential worst-case scenario to a constant, and it is applicable across arbitrary dimensions $d$. This advancement opens new pathways for efficient high-dimensional data analysis and complex system modeling. | 翻訳日:2024-11-08 11:49:24 公開日:2024-11-07 |