このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20241029となっている論文です。

PDF登録状況(公開日: 20241029)

TitleAuthorsAbstract論文公表日・翻訳日
# UDC: 大規模組合せ最適化問題のための統一型ニューラルディバイド・アンド・コンカーフレームワーク

UDC: A Unified Neural Divide-and-Conquer Framework for Large-Scale Combinatorial Optimization Problems ( http://arxiv.org/abs/2407.00312v2 )

ライセンス: Link先を確認
Zhi Zheng, Changliang Zhou, Tong Xialiang, Mingxuan Yuan, Zhenkun Wang, (参考訳) 単一段階のニューラル組合せ最適化は、専門家の知識を必要とせず、様々な小規模組合せ最適化(CO)問題に対して、ほぼ最適な結果を得た。 しかし, 大規模CO問題に適用した場合, 高い性能低下がみられた。 近年, 大規模CO問題に対処する上で, 配当戦略を用いた2段階のニューラル手法が効率性を示している。 しかしながら, これらの手法の性能は, 分割法や征服法において問題固有のヒューリスティックに大きく依存しており, 一般のCO問題への適用性を制限している。 さらに、これらの手法は個別のトレーニングスキームを採用し、分割戦略と征服戦略の相互依存性を無視し、しばしば準最適解につながる。 これらの欠点に対処するため、本論文では、一般的な大規模CO問題を解決するための統一的なニューラルネットワーク分割・コンカフレームワーク(UDC)を開発する。 UDCはDCR(Divide-Conquer-Reunion)トレーニング手法を提供し、準最適分割ポリシーの負の影響を排除する。 大域的なインスタンス分割に高効率グラフニューラルネットワーク(GNN)と分割サブプロブレムを克服するための固定長サブパスソルバを用いることで、提案したUDCフレームワークは、広範囲な適用性を示し、10の大規模CO問題において優れた性能を実現する。 コードはhttps://github.com/CIAM-Group/NCO_code/tree/main/single_objective/UDC-Large-scale-CO-masterで公開されている。

Single-stage neural combinatorial optimization solvers have achieved near-optimal results on various small-scale combinatorial optimization (CO) problems without needing expert knowledge. However, these solvers exhibit significant performance degradation when applied to large-scale CO problems. Recently, two-stage neural methods with divide-and-conquer strategies have shown efficiency in addressing large-scale CO problems. Nevertheless, the performance of these methods highly relies on problem-specific heuristics in either the divide or the conquer procedure, which limits their applicability to general CO problems. Moreover, these methods employ separate training schemes and ignore the interdependencies between the dividing and conquering strategies, which often leads to sub-optimal solutions. To tackle these drawbacks, this article develops a unified neural divide-and-conquer framework (i.e., UDC) for solving general large-scale CO problems. UDC offers a Divide-Conquer-Reunion (DCR) training method to eliminate the negative impact of a sub-optimal dividing policy. Employing a high-efficiency Graph Neural Network (GNN) for global instance dividing and a fixed-length sub-path solver for conquering divided sub-problems, the proposed UDC framework demonstrates extensive applicability, achieving superior performance in 10 representative large-scale CO problems. The code is available at https://github.com/CIAM-Group/NCO_code/tree/main/single_objective/UDC-Large-scale-CO-master.
翻訳日:2024-11-09 00:59:29 公開日:2024-10-29
# GSD : 3次元再構成のためのビューガイド付きガウススプラッティング拡散法

GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction ( http://arxiv.org/abs/2407.04237v4 )

ライセンス: Link先を確認
Yuxuan Mu, Xinxin Zuo, Chuan Guo, Yilin Wang, Juwei Lu, Xiaofeng Wu, Songcen Xu, Peng Dai, Youliang Yan, Li Cheng, (参考訳) 単一視点からの3次元オブジェクト再構成のためのガウススプラッティング(GS)表現に基づく拡散モデルアプローチであるGSDを提案する。 以前の作品は不整合な3D幾何学や不整合表現による中間レンダリング品質に悩まされていた。 我々は,最近の最先端の3D明示表現,ガウススプラッティング,無条件拡散モデルを活用することで,これらの欠点を解決するための一歩を踏み出した。 このモデルは、GS楕円体の集合で表される3Dオブジェクトを生成することを学習する。 これらの強力な3D前駆体は、無条件で学習するが、拡散モデルは、さらなるモデル微調整をすることなく、ビュー誘導再構成の準備が整う。 これは、効率的かつフレキシブルなスプレイティング機能とガイドデノナイジングサンプリングプロセスにより、微細な2次元特徴を伝播させることによって達成される。 さらに、2次元拡散モデルを用いてレンダリングの忠実度を高め、レンダリング画像の研磨・再利用により再構成GSの品質を向上させる。 最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。 挑戦的な実世界のCO3Dデータセットの実験は、我々のアプローチの優位性を実証している。 プロジェクトページ: https://yxmu.foo/GSD/

We present GSD, a diffusion model approach based on Gaussian Splatting (GS) representation for 3D object reconstruction from a single view. Prior works suffer from inconsistent 3D geometry or mediocre rendering quality due to improper representations. We take a step towards resolving these shortcomings by utilizing the recent state-of-the-art 3D explicit representation, Gaussian Splatting, and an unconditional diffusion model. This model learns to generate 3D objects represented by sets of GS ellipsoids. With these strong generative 3D priors, though learning unconditionally, the diffusion model is ready for view-guided reconstruction without further model fine-tuning. This is achieved by propagating fine-grained 2D features through the efficient yet flexible splatting function and the guided denoising sampling process. In addition, a 2D diffusion model is further employed to enhance rendering fidelity, and improve reconstructed GS quality by polishing and re-using the rendered images. The final reconstructed objects explicitly come with high-quality 3D structure and texture, and can be efficiently rendered in arbitrary views. Experiments on the challenging real-world CO3D dataset demonstrate the superiority of our approach. Project page: https://yxmu.foo/GSD/
翻訳日:2024-11-08 23:57:53 公開日:2024-10-29
# Waterfall: LLMのロバストでスケーラブルなテキスト透かしと保証のためのフレームワーク

Waterfall: Framework for Robust and Scalable Text Watermarking and Provenance for LLMs ( http://arxiv.org/abs/2407.04411v2 )

ライセンス: Link先を確認
Gregory Kang Ruey Lau, Xinyuan Niu, Hieu Dao, Jiangwei Chen, Chuan-Sheng Foo, Bryan Kian Hsiang Low, (参考訳) 記事やコードなどのテキストの知的財産権(IP)を保護することは、特に大規模言語モデル(LLM)によるパラフレーズ化や、著作権のあるテキスト上でのLLMの非許可トレーニングなど、高度な攻撃が可能となるにつれ、ますます重要になっている。 しかし、既存のテキスト透かし方式はそのような攻撃に対して十分に頑丈ではない。 本稿では,複数のテキストタイプ(記事やコードなど)とLLMがサポートする言語に適用可能な,堅牢でスケーラブルなテキスト透かしのための,最初のトレーニングフリーフレームワークであるWaterfallを提案する。 ウォーターフォールは、最初にLCMをウォーターマーキングのパラフレーズとして使用したことや、驚くほど堅牢な検証性とスケーラビリティを達成するのに驚くほど効果的である新しいテクニックの組み合わせなど、いくつかの重要なイノベーションを含んでいる。 我々は,SOTAの記事テキスト透かし法と比較して,ウォーターフォールがスケーラビリティ,堅牢性,計算効率を著しく向上できることを実証的に証明し,コードの透かしにどのように直接適用できるかを示した。 また,LLM トレーニングデータの透かしを LLM 出力で検出し,LLM トレーニング用データの無許可使用の検出と,既存の LLM ウォーターマーキング作業の制限であるオープンソース LLM のモデル中心の透かしを可能にすることを実証した。 私たちのコードはhttps://github.com/aoi3142/Waterfallで利用可能です。

Protecting intellectual property (IP) of text such as articles and code is increasingly important, especially as sophisticated attacks become possible, such as paraphrasing by large language models (LLMs) or even unauthorized training of LLMs on copyrighted text to infringe such IP. However, existing text watermarking methods are not robust enough against such attacks nor scalable to millions of users for practical implementation. In this paper, we propose Waterfall, the first training-free framework for robust and scalable text watermarking applicable across multiple text types (e.g., articles, code) and languages supportable by LLMs, for general text and LLM data provenance. Waterfall comprises several key innovations, such as being the first to use LLM as paraphrasers for watermarking along with a novel combination of techniques that are surprisingly effective in achieving robust verifiability and scalability. We empirically demonstrate that Waterfall achieves significantly better scalability, robust verifiability, and computational efficiency compared to SOTA article-text watermarking methods, and showed how it could be directly applied to the watermarking of code. We also demonstrated that Waterfall can be used for LLM data provenance, where the watermarks of LLM training data can be detected in LLM output, allowing for detection of unauthorized use of data for LLM training and potentially enabling model-centric watermarking of open-sourced LLMs which has been a limitation of existing LLM watermarking works. Our code is available at https://github.com/aoi3142/Waterfall.
翻訳日:2024-11-08 23:46:45 公開日:2024-10-29
# 周期的エージェント状態に基づくPMDPのQ-ラーニング

Periodic agent-state based Q-learning for POMDPs ( http://arxiv.org/abs/2407.06121v3 )

ライセンス: Link先を確認
Amit Sinha, Matthieu Geist, Aditya Mahajan, (参考訳) 部分観測可能なマルコフ決定過程(POMDP)の標準的なアプローチは、それらを完全に観察された信念状態のMDPに変換することである。 しかし、信念状態はシステムモデルに依存するため、強化学習(RL)設定では不可能である。 広く使われている代替手段は、観察履歴のモデル無しで再帰的に更新可能な機能であるエージェント状態を使用することである。 例えば、フレームの積み重ねやリカレントニューラルネットワークなどがある。 エージェント状態はモデルフリーであるため、標準RLアルゴリズムをPOMDPに適応するために使用される。 しかし、Qラーニングのような標準的なRLアルゴリズムは定常ポリシーを学ぶ。 例として、エージェント状態がマルコフの性質を満たさないため、非定常エージェント状態ベースのポリシーは定常エージェントよりも優れる。 本機能を活用するために,エージェント状態に基づくQ-ラーニングの変種であるPASQL(周期的エージェント状態に基づくQ-ラーニング)を提案する。 周期的マルコフ連鎖と確率近似のアイデアを組み合わせることで、PASQLが巡回極限に収束し、収束した周期ポリシーの近似誤差を特徴付けることを厳密に証明する。 最後に、PASQLの健全な特徴を強調する数値実験を行い、定常的なポリシーよりも周期的なポリシーを学ぶことの利点を実証する。

The standard approach for Partially Observable Markov Decision Processes (POMDPs) is to convert them to a fully observed belief-state MDP. However, the belief state depends on the system model and is therefore not viable in reinforcement learning (RL) settings. A widely used alternative is to use an agent state, which is a model-free, recursively updateable function of the observation history. Examples include frame stacking and recurrent neural networks. Since the agent state is model-free, it is used to adapt standard RL algorithms to POMDPs. However, standard RL algorithms like Q-learning learn a stationary policy. Our main thesis that we illustrate via examples is that because the agent state does not satisfy the Markov property, non-stationary agent-state based policies can outperform stationary ones. To leverage this feature, we propose PASQL (periodic agent-state based Q-learning), which is a variant of agent-state-based Q-learning that learns periodic policies. By combining ideas from periodic Markov chains and stochastic approximation, we rigorously establish that PASQL converges to a cyclic limit and characterize the approximation error of the converged periodic policy. Finally, we present a numerical experiment to highlight the salient features of PASQL and demonstrate the benefit of learning periodic policies over stationary policies.
翻訳日:2024-11-08 23:13:33 公開日:2024-10-29
# 複合物理系制御のための生成的アプローチ

A Generative Approach to Control Complex Physical Systems ( http://arxiv.org/abs/2407.06494v2 )

ライセンス: Link先を確認
Long Wei, Peiyan Hu, Ruiqi Feng, Haodong Feng, Yixuan Du, Tao Zhang, Rui Wang, Yue Wang, Zhi-Ming Ma, Tailin Wu, (参考訳) 複雑な物理システムの進化を制御することは、科学と工学における基本的な課題である。 古典的なテクニックは、適用性や計算コストの制限に悩まされる。 一方,近年の深層学習と強化学習に基づくアプローチは,システム力学の制約下での長期制御シーケンスの最適化に苦慮することが多い。 本稿では,物理系制御問題に対処する新しい手法である拡散物理系制御(DiffPhyCon)を紹介する。 DiffPhyConは、学習した生成エネルギー関数と、軌道と制御シーケンス全体にわたって定義された制御目的の両方を同時に最小化する。 これにより、世界中を探索し、最適に近い制御シーケンスを計画することができる。 さらに、DiffPhyConを事前再重み付けにより強化し、トレーニング分布から著しく逸脱する制御シーケンスの発見を可能にする。 本手法は,1次元バーガー方程式,2次元クラゲ運動制御,および2次元高次元煙圧制御の3つの課題について検証する。 提案手法は,古典的アプローチや最先端の深層学習法,強化学習法よりも優れている。 特にDiffPhyConは、クラゲで観察される興味深い高速クロース・スロー・オープンパターンを公表し、流体力学の分野で確立された発見と一致している。 プロジェクトのWebサイト、クラゲのデータセット、コードはhttps://github.com/AI4Science-WestlakeU/diffphyconで見ることができる。

Controlling the evolution of complex physical systems is a fundamental task across science and engineering. Classical techniques suffer from limited applicability or huge computational costs. On the other hand, recent deep learning and reinforcement learning-based approaches often struggle to optimize long-term control sequences under the constraints of system dynamics. In this work, we introduce Diffusion Physical systems Control (DiffPhyCon), a new class of method to address the physical systems control problem. DiffPhyCon excels by simultaneously minimizing both the learned generative energy function and the predefined control objectives across the entire trajectory and control sequence. Thus, it can explore globally and plan near-optimal control sequences. Moreover, we enhance DiffPhyCon with prior reweighting, enabling the discovery of control sequences that significantly deviate from the training distribution. We test our method on three tasks: 1D Burgers' equation, 2D jellyfish movement control, and 2D high-dimensional smoke control, where our generated jellyfish dataset is released as a benchmark for complex physical system control research. Our method outperforms widely applied classical approaches and state-of-the-art deep learning and reinforcement learning methods. Notably, DiffPhyCon unveils an intriguing fast-close-slow-open pattern observed in the jellyfish, aligning with established findings in the field of fluid dynamics. The project website, jellyfish dataset, and code can be found at https://github.com/AI4Science-WestlakeU/diffphycon.
翻訳日:2024-11-08 23:13:33 公開日:2024-10-29
# 複合物理系制御のための生成的アプローチ

A Generative Approach to Control Complex Physical Systems ( http://arxiv.org/abs/2407.06494v3 )

ライセンス: Link先を確認
Long Wei, Peiyan Hu, Ruiqi Feng, Haodong Feng, Yixuan Du, Tao Zhang, Rui Wang, Yue Wang, Zhi-Ming Ma, Tailin Wu, (参考訳) 複雑な物理システムの進化を制御することは、科学と工学における基本的な課題である。 古典的なテクニックは、適用性や計算コストの制限に悩まされる。 一方,近年の深層学習と強化学習に基づくアプローチは,システム力学の制約下での長期制御シーケンスの最適化に苦慮することが多い。 本稿では,物理系制御問題に対処する新しい手法である拡散物理系制御(DiffPhyCon)を紹介する。 DiffPhyConは、学習した生成エネルギー関数と、軌道と制御シーケンス全体にわたって定義された制御目的の両方を同時に最小化する。 これにより、世界中を探索し、最適に近い制御シーケンスを計画することができる。 さらに、DiffPhyConを事前再重み付けにより強化し、トレーニング分布から著しく逸脱する制御シーケンスの発見を可能にする。 本手法は,1次元バーガー方程式,2次元クラゲ運動制御,および2次元高次元煙圧制御の3つの課題について検証する。 提案手法は,古典的アプローチや最先端の深層学習法,強化学習法よりも優れている。 特にDiffPhyConは、クラゲで観察される興味深い高速クロース・スロー・オープンパターンを公表し、流体力学の分野で確立された発見と一致している。 プロジェクトのWebサイト、クラゲのデータセット、コードはhttps://github.com/AI4Science-WestlakeU/diffphyconで見ることができる。

Controlling the evolution of complex physical systems is a fundamental task across science and engineering. Classical techniques suffer from limited applicability or huge computational costs. On the other hand, recent deep learning and reinforcement learning-based approaches often struggle to optimize long-term control sequences under the constraints of system dynamics. In this work, we introduce Diffusion Physical systems Control (DiffPhyCon), a new class of method to address the physical systems control problem. DiffPhyCon excels by simultaneously minimizing both the learned generative energy function and the predefined control objectives across the entire trajectory and control sequence. Thus, it can explore globally and plan near-optimal control sequences. Moreover, we enhance DiffPhyCon with prior reweighting, enabling the discovery of control sequences that significantly deviate from the training distribution. We test our method on three tasks: 1D Burgers' equation, 2D jellyfish movement control, and 2D high-dimensional smoke control, where our generated jellyfish dataset is released as a benchmark for complex physical system control research. Our method outperforms widely applied classical approaches and state-of-the-art deep learning and reinforcement learning methods. Notably, DiffPhyCon unveils an intriguing fast-close-slow-open pattern observed in the jellyfish, aligning with established findings in the field of fluid dynamics. The project website, jellyfish dataset, and code can be found at https://github.com/AI4Science-WestlakeU/diffphycon.
翻訳日:2024-11-08 23:13:33 公開日:2024-10-29
# DiffPhyCon: 複雑な物理システムを制御するための生成的アプローチ

DiffPhyCon: A Generative Approach to Control Complex Physical Systems ( http://arxiv.org/abs/2407.06494v4 )

ライセンス: Link先を確認
Long Wei, Peiyan Hu, Ruiqi Feng, Haodong Feng, Yixuan Du, Tao Zhang, Rui Wang, Yue Wang, Zhi-Ming Ma, Tailin Wu, (参考訳) 複雑な物理システムの進化を制御することは、科学と工学における基本的な課題である。 古典的なテクニックは、適用性や計算コストの制限に悩まされる。 一方,近年の深層学習と強化学習に基づくアプローチは,システム力学の制約下での長期制御シーケンスの最適化に苦慮することが多い。 本稿では,物理系制御問題に対処する新しい手法である拡散物理系制御(DiffPhyCon)を紹介する。 DiffPhyConは、学習した生成エネルギー関数と、軌道と制御シーケンス全体にわたって定義された制御目的の両方を同時に最小化する。 これにより、世界中を探索し、最適に近い制御シーケンスを計画することができる。 さらに、DiffPhyConを事前再重み付けにより強化し、トレーニング分布から著しく逸脱する制御シーケンスの発見を可能にする。 本手法は,1次元バーガー方程式,2次元クラゲ運動制御,および2次元高次元煙圧制御の3つの課題について検証する。 提案手法は,古典的アプローチや最先端の深層学習法,強化学習法よりも優れている。 特にDiffPhyConは、クラゲで観察される興味深い高速クロース・スロー・オープンパターンを公表し、流体力学の分野で確立された発見と一致している。 プロジェクトのWebサイト、クラゲのデータセット、コードはhttps://github.com/AI4Science-WestlakeU/diffphyconで見ることができる。

Controlling the evolution of complex physical systems is a fundamental task across science and engineering. Classical techniques suffer from limited applicability or huge computational costs. On the other hand, recent deep learning and reinforcement learning-based approaches often struggle to optimize long-term control sequences under the constraints of system dynamics. In this work, we introduce Diffusion Physical systems Control (DiffPhyCon), a new class of method to address the physical systems control problem. DiffPhyCon excels by simultaneously minimizing both the learned generative energy function and the predefined control objectives across the entire trajectory and control sequence. Thus, it can explore globally and plan near-optimal control sequences. Moreover, we enhance DiffPhyCon with prior reweighting, enabling the discovery of control sequences that significantly deviate from the training distribution. We test our method on three tasks: 1D Burgers' equation, 2D jellyfish movement control, and 2D high-dimensional smoke control, where our generated jellyfish dataset is released as a benchmark for complex physical system control research. Our method outperforms widely applied classical approaches and state-of-the-art deep learning and reinforcement learning methods. Notably, DiffPhyCon unveils an intriguing fast-close-slow-open pattern observed in the jellyfish, aligning with established findings in the field of fluid dynamics. The project website, jellyfish dataset, and code can be found at https://github.com/AI4Science-WestlakeU/diffphycon.
翻訳日:2024-11-08 23:13:33 公開日:2024-10-29
# GLBench: 大規模言語モデルによるグラフの総合ベンチマーク

GLBench: A Comprehensive Benchmark for Graph with Large Language Models ( http://arxiv.org/abs/2407.07457v3 )

ライセンス: Link先を確認
Yuhan Li, Peisong Wang, Xiao Zhu, Aochuan Chen, Haiyun Jiang, Deng Cai, Victor Wai Kin Chan, Jia Li, (参考訳) 大規模言語モデル(LLM)の出現は、グラフとのインタラクション方法に革命をもたらし、GraphLLMと呼ばれる新しいパラダイムにつながった。 近年のGraphLLM手法の急速な発展にもかかわらず、一貫した実験プロトコルによるベンチマークが欠如しているため、この分野の進歩と理解はいまだに不明である。 このギャップを埋めるために、GLBenchを紹介します。これは、教師付きシナリオとゼロショットシナリオの両方でGraphLLMメソッドを評価するための、最初の包括的なベンチマークです。 GLBenchはグラフニューラルネットワークのような従来のベースラインとともに、GraphLLMメソッドのさまざまなカテゴリを公平かつ徹底的に評価する。 一貫性のあるデータ処理と分割戦略を備えた実世界のデータセットのコレクションに関する広範な実験を通じて、いくつかの重要な発見が明らかになった。 まず、GraphLLMメソッドは教師付き設定において従来のベースラインよりも優れており、LLM-as-enhancerは最も堅牢なパフォーマンスを示している。 しかし、予測子としてLLMを使うことは効果が低く、しばしば制御不能な出力問題を引き起こす。 また、現在のGraphLLMメソッドには明確なスケーリング法則は存在しないことに気付きました。 さらに、構造と意味論は効果的なゼロショット転送に不可欠であり、提案した単純なベースラインはゼロショットシナリオに適したモデルよりも優れている。 ベンチマークのデータとコードはhttps://github.com/NineAbyss/GLBenchで確認できる。

The emergence of large language models (LLMs) has revolutionized the way we interact with graphs, leading to a new paradigm called GraphLLM. Despite the rapid development of GraphLLM methods in recent years, the progress and understanding of this field remain unclear due to the lack of a benchmark with consistent experimental protocols. To bridge this gap, we introduce GLBench, the first comprehensive benchmark for evaluating GraphLLM methods in both supervised and zero-shot scenarios. GLBench provides a fair and thorough evaluation of different categories of GraphLLM methods, along with traditional baselines such as graph neural networks. Through extensive experiments on a collection of real-world datasets with consistent data processing and splitting strategies, we have uncovered several key findings. Firstly, GraphLLM methods outperform traditional baselines in supervised settings, with LLM-as-enhancers showing the most robust performance. However, using LLMs as predictors is less effective and often leads to uncontrollable output issues. We also notice that no clear scaling laws exist for current GraphLLM methods. In addition, both structures and semantics are crucial for effective zero-shot transfer, and our proposed simple baseline can even outperform several models tailored for zero-shot scenarios. The data and code of the benchmark can be found at https://github.com/NineAbyss/GLBench.
翻訳日:2024-11-08 22:40:08 公開日:2024-10-29
# GLBench: 大規模言語モデルによるグラフの総合ベンチマーク

GLBench: A Comprehensive Benchmark for Graph with Large Language Models ( http://arxiv.org/abs/2407.07457v4 )

ライセンス: Link先を確認
Yuhan Li, Peisong Wang, Xiao Zhu, Aochuan Chen, Haiyun Jiang, Deng Cai, Victor Wai Kin Chan, Jia Li, (参考訳) 大規模言語モデル(LLM)の出現は、グラフとのインタラクション方法に革命をもたらし、GraphLLMと呼ばれる新しいパラダイムにつながった。 近年のGraphLLM手法の急速な発展にもかかわらず、一貫した実験プロトコルによるベンチマークが欠如しているため、この分野の進歩と理解はいまだに不明である。 このギャップを埋めるために、GLBenchを紹介します。これは、教師付きシナリオとゼロショットシナリオの両方でGraphLLMメソッドを評価するための、最初の包括的なベンチマークです。 GLBenchはグラフニューラルネットワークのような従来のベースラインとともに、GraphLLMメソッドのさまざまなカテゴリを公平かつ徹底的に評価する。 一貫性のあるデータ処理と分割戦略を備えた実世界のデータセットのコレクションに関する広範な実験を通じて、いくつかの重要な発見が明らかになった。 まず、GraphLLMメソッドは教師付き設定において従来のベースラインよりも優れており、LLM-as-enhancerは最も堅牢なパフォーマンスを示している。 しかし、予測子としてLLMを使うことは効果が低く、しばしば制御不能な出力問題を引き起こす。 また、現在のGraphLLMメソッドには明確なスケーリング法則は存在しないことに気付きました。 さらに、構造と意味論は効果的なゼロショット転送に不可欠であり、提案した単純なベースラインはゼロショットシナリオに適したモデルよりも優れている。 ベンチマークのデータとコードはhttps://github.com/NineAbyss/GLBenchで確認できる。

The emergence of large language models (LLMs) has revolutionized the way we interact with graphs, leading to a new paradigm called GraphLLM. Despite the rapid development of GraphLLM methods in recent years, the progress and understanding of this field remain unclear due to the lack of a benchmark with consistent experimental protocols. To bridge this gap, we introduce GLBench, the first comprehensive benchmark for evaluating GraphLLM methods in both supervised and zero-shot scenarios. GLBench provides a fair and thorough evaluation of different categories of GraphLLM methods, along with traditional baselines such as graph neural networks. Through extensive experiments on a collection of real-world datasets with consistent data processing and splitting strategies, we have uncovered several key findings. Firstly, GraphLLM methods outperform traditional baselines in supervised settings, with LLM-as-enhancers showing the most robust performance. However, using LLMs as predictors is less effective and often leads to uncontrollable output issues. We also notice that no clear scaling laws exist for current GraphLLM methods. In addition, both structures and semantics are crucial for effective zero-shot transfer, and our proposed simple baseline can even outperform several models tailored for zero-shot scenarios. The data and code of the benchmark can be found at https://github.com/NineAbyss/GLBench.
翻訳日:2024-11-08 22:40:08 公開日:2024-10-29
# RAGにおける効率的なアンサー生成のためのコンテキスト埋め込み

Context Embeddings for Efficient Answer Generation in RAG ( http://arxiv.org/abs/2407.09252v3 )

ライセンス: Link先を確認
David Rau, Shuai Wang, Hervé Déjean, Stéphane Clinchant, (参考訳) Retrieval-Augmented Generation (RAG) は、入力を外部情報で拡張することで、LLMの限られた知識を克服することができる。 結果として、モデルへのコンテキスト入力はずっと長くなり、ユーザが答えを待つ時間に直接変換するデコード時間を遅くする。 この課題に対処するために、COCOMという効果的なコンテキスト圧縮手法を提案し、長いコンテキストを少数のコンテキスト埋め込みに減らし、生成時間を大きなマージンで高速化する。 提案手法では,デコード時間と解答品質の異なる圧縮速度が可能である。 以前の方法と比較すると、COCOMは複数のコンテキストをより効果的に扱えるようになり、長い入力の復号時間を大幅に短縮する。 提案手法では,最大5.69$\times$の高速化を実現しつつ,既存の効率的な文脈圧縮手法と比較して高い性能を実現している。

Retrieval-Augmented Generation (RAG) allows overcoming the limited knowledge of LLMs by extending the input with external information. As a consequence, the contextual inputs to the model become much longer which slows down decoding time directly translating to the time a user has to wait for an answer. We address this challenge by presenting COCOM, an effective context compression method, reducing long contexts to only a handful of Context Embeddings speeding up the generation time by a large margin. Our method allows for different compression rates trading off decoding time for answer quality. Compared to earlier methods, COCOM allows for handling multiple contexts more effectively, significantly reducing decoding time for long inputs. Our method demonstrates a speed-up of up to 5.69 $\times$ while achieving higher performance compared to existing efficient context compression methods.
翻訳日:2024-11-08 22:06:29 公開日:2024-10-29
# MambaForGCN: Aspect-Based Sentiment Analysisのための状態空間モデルとKolmogorov-Arnoldネットワークによる長距離依存性の強化

MambaForGCN: Enhancing Long-Range Dependency with State Space Model and Kolmogorov-Arnold Networks for Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2407.10347v2 )

ライセンス: Link先を確認
Adamu Lawan, Juhua Pu, Haruna Yunusa, Aliyu Umar, Muhammad Lawan, (参考訳) Aspect-based Sentiment Analysis (ABSA)は、テキスト内のエンティティの特定の側面に対する感情を評価する。 しかし、注意機構やニューラルネットワークモデルは、構文的制約に悩まされる。 注意機構の二次的な複雑さは、ABSAにおけるアスペクトと意見語の間の長距離依存関係をキャプチャするための採用を制限する。 この複雑さは無関係な文脈的単語の誤解釈を招き、その効果を短距離依存に制限する。 上記の問題に対処するため,ABSA(MambaForGCN)におけるアスペクトと意見語間の長距離依存関係を強化する手法を提案する。 このアプローチでは、構文ベースのGraph Convolutional Network(SynGCN)とMambaFormer(Mamba-Transformer)モジュールを組み込んで、依存関係や意味情報による入力をエンコードする。 Multihead Attention (MHA) と Selective State Space Model (Mamba) は、MambaFormerモジュールのブロックとして機能し、アスペクトと意見語間の短距離および長距離の依存関係でモデルを強化する。 我々はまた、SynGCNとMambaFormerを統合し、非線形で複雑な依存関係をキャプチャする適応的特徴表現システムであるKAN(Kolmogorov-Arnold Networks) gated fusionを導入する。 3つのベンチマークデータセットの実験結果は、MambaForGCNの有効性を示し、最先端(SOTA)ベースラインモデルを上回っている。

Aspect-based Sentiment Analysis (ABSA) evaluates sentiments toward specific aspects of entities within the text. However, attention mechanisms and neural network models struggle with syntactic constraints. The quadratic complexity of attention mechanisms also limits their adoption for capturing long-range dependencies between aspect and opinion words in ABSA. This complexity can lead to the misinterpretation of irrelevant contextual words, restricting their effectiveness to short-range dependencies. To address the above problem, we present a novel approach to enhance long-range dependencies between aspect and opinion words in ABSA (MambaForGCN). This approach incorporates syntax-based Graph Convolutional Network (SynGCN) and MambaFormer (Mamba-Transformer) modules to encode input with dependency relations and semantic information. The Multihead Attention (MHA) and Selective State Space model (Mamba) blocks in the MambaFormer module serve as channels to enhance the model with short and long-range dependencies between aspect and opinion words. We also introduce the Kolmogorov-Arnold Networks (KANs) gated fusion, an adaptive feature representation system that integrates SynGCN and MambaFormer and captures non-linear, complex dependencies. Experimental results on three benchmark datasets demonstrate MambaForGCN's effectiveness, outperforming state-of-the-art (SOTA) baseline models.
翻訳日:2024-11-08 21:43:45 公開日:2024-10-29
# 計算木論理によるシーケンシャルプランニングにおけるMCTS説明可能性の実現

Enabling MCTS Explainability for Sequential Planning Through Computation Tree Logic ( http://arxiv.org/abs/2407.10820v3 )

ライセンス: Link先を確認
Ziyan An, Hendrik Baier, Abhishek Dubey, Ayan Mukhopadhyay, Meiyi Ma, (参考訳) モンテカルロ木探索(MCTS)は、シーケンシャルな計画タスクのための最も有能なオンライン検索アルゴリズムの1つであり、資源配分やトランジット計画といった分野において重要な応用がある。 実世界のデプロイメントのパフォーマンスは高いが、MCTSの本質的な複雑さは、技術的なバックグラウンドのないユーザにとって理解を困難にしている。 本稿では,MCTSを交通ルーティングサービスに利用し,最適化された経路計画を構築するためにアルゴリズムを統合することを検討する。 これらの計画は、様々な制約と要件を同時に満たし、現実の文脈でアルゴリズムの操作を説明するタスクをさらに複雑にする必要がある。 この重要な研究ギャップに対処するために、MCTSのための新しい計算木論理ベースの説明器を導入する。 私たちのフレームワークは、ユーザ定義の要件を言語テンプレートを使って厳密なロジック仕様に翻訳することから始まります。 そこで,本論文では,MCTSアルゴリズムでトラバースされた状態と動作を検証する論理検証と定量的評価モジュールを組み込んだ。 この分析の結果は、第2の言語テンプレートを使用して、人間可読な記述テキストに変換される。 アプローチのユーザ満足度を82名を対象に調査した。 その結果,説明的アプローチはユーザの嗜好において,他のベースラインよりも有意に優れていた。

Monte Carlo tree search (MCTS) is one of the most capable online search algorithms for sequential planning tasks, with significant applications in areas such as resource allocation and transit planning. Despite its strong performance in real-world deployment, the inherent complexity of MCTS makes it challenging to understand for users without technical background. This paper considers the use of MCTS in transportation routing services, where the algorithm is integrated to develop optimized route plans. These plans are required to meet a range of constraints and requirements simultaneously, further complicating the task of explaining the algorithm's operation in real-world contexts. To address this critical research gap, we introduce a novel computation tree logic-based explainer for MCTS. Our framework begins by taking user-defined requirements and translating them into rigorous logic specifications through the use of language templates. Then, our explainer incorporates a logic verification and quantitative evaluation module that validates the states and actions traversed by the MCTS algorithm. The outcomes of this analysis are then rendered into human-readable descriptive text using a second set of language templates. The user satisfaction of our approach was assessed through a survey with 82 participants. The results indicated that our explanatory approach significantly outperforms other baselines in user preference.
翻訳日:2024-11-08 21:32:38 公開日:2024-10-29
# バックドアグラフ凝縮

Backdoor Graph Condensation ( http://arxiv.org/abs/2407.11025v3 )

ライセンス: Link先を確認
Jiahao Wu, Ning Lu, Zeiyu Dai, Wenqi Fan, Shengcai Liu, Qing Li, Ke Tang, (参考訳) 近年,グラフニューラルネットワーク(GNN)のトレーニング効率を向上させるために,グラフ凝縮が主流となっている。 これは、大きなグラフを、この小さな合成グラフで訓練されたGNNが、大きなグラフで訓練されたGNNに匹敵する性能を達成できるような、小さなグラフに凝縮する。 しかし、既存のグラフ凝縮の研究は主にグラフサイズとGNNの性能(モデルユーティリティ)の最良のトレードオフに焦点を当てているが、グラフ凝縮のセキュリティ問題は研究されていない。 この研究ギャップを埋めるために,バックドアグラフ凝縮の課題を提案する。 グラフ凝縮に対する効果的なバックドアアタックは,1) トリガーインジェクションにもかかわらず, 凝縮グラフの品質と有用性を維持し, 2) 凝縮過程を通じてトリガー効果を確保することを目的としており, 高い攻撃成功率が得られる。 目的を追求するため,BGCと呼ばれるグラフ凝縮に対する最初のバックドア攻撃を考案した。 大規模な実験は、我々の攻撃の有効性を実証している。 BGCは高い攻撃成功率(1.0に近づいた)と優れたモデルユーティリティをすべてのケースで達成する。 さらに、複数の防御方法に対する結果は、BGCの防御下での弾力性を示している。 最後に,攻撃性能に影響を与える要因の分析を行う。

Recently, graph condensation has emerged as a prevalent technique to improve the training efficiency for graph neural networks (GNNs). It condenses a large graph into a small one such that a GNN trained on this small synthetic graph can achieve comparable performance to a GNN trained on the large graph. However, while existing graph condensation studies mainly focus on the best trade-off between graph size and the GNNs' performance (model utility), the security issues of graph condensation have not been studied. To bridge this research gap, we propose the task of backdoor graph condensation. Effective backdoor attacks on graph condensation aim to (1) maintain the quality and utility of condensed graphs despite trigger injections and (2) ensure trigger effectiveness through the condensation process, yielding a high attack success rate. To pursue the objectives, we devise the first backdoor attack against graph condensation, denoted as BGC, where effective attack is launched by consistently updating triggers throughout condensation and focusing on poisoning representative nodes. The extensive experiments demonstrate the effectiveness of our attack. BGC achieves a high attack success rate (close to 1.0) and good model utility in all cases. Furthermore, the results against multiple defense methods demonstrate BGC's resilience under their defenses. Finally, we conduct studies to analyze the factors that influence the attack performance.
翻訳日:2024-11-08 21:21:36 公開日:2024-10-29
# BUSClean:医療用AIのための乳房超音波画像前処理と知識抽出のためのオープンソースソフトウェア

BUSClean: Open-source software for breast ultrasound image pre-processing and knowledge extraction for medical AI ( http://arxiv.org/abs/2407.11316v3 )

ライセンス: Link先を確認
Arianna Bunnell, Kailee Hung, John A. Shepherd, Peter Sadowski, (参考訳) 医療画像のための人工知能(AI)の開発は、数十万の画像からなる大規模な臨床データセットのキュレーションとクリーニングを要求する。 マンモグラフィーのようないくつかのモダリティは、高度に標準化されたイメージングを含んでいる。 対照的に、乳房超音波画像(BUS)は、スキャンモード、ソノグラフアノテーション、追加のビューなど、スキャンメタデータによって示されない多くの不規則性を含むことができる。 臨床BUSデータセットを自動処理するオープンソースソフトウェアソリューションを提案する。 このアルゴリズムは、ソノグラフアノテーションから、BUSスキャンフィルタリング(無効および非Bモードスキャンのフラグリング)、クリーニング(デュアルビュースキャン検出、スキャンエリアトリミング、カリパー検出)、知識抽出(BI-RADSラベルと測定フィールド)を行う。 モジュラーデザインにより、ユーザーは新しい設定に適応できる。 430の臨床的BUS画像の内部試験データセットの実験は、あらゆる種類のテキストアノテーションの検出において、95%の感度と98%の特異性、98%の感度と特異性、血液フローハイライト、代替スキャンモード、または無効スキャンによるスキャンの検出において達成される。 A case study on a completely external, public dataset of BUS scans found that BUSClean identified text annotations and scan with blood flow highlighting with 88.6% and 90.9% sensitivity and 98.3% and 99.9% specificity。 ケーススタディに特有のキャリパーの種類を考慮に入れた病変キャリパー検出法の適応は、新しいデータ分布におけるBUSCleanの使用を意図したものであり、病変キャリパー検出の性能は、それぞれ43.3%、93.3%から92.1%、92.3%に向上した。 ソースコード、サンプルノート、サンプルデータはhttps://github.com/hawaii-ai/bus-cleaning.comで公開されている。

Development of artificial intelligence (AI) for medical imaging demands curation and cleaning of large-scale clinical datasets comprising hundreds of thousands of images. Some modalities, such as mammography, contain highly standardized imaging. In contrast, breast ultrasound imaging (BUS) can contain many irregularities not indicated by scan metadata, such as enhanced scan modes, sonographer annotations, or additional views. We present an open-source software solution for automatically processing clinical BUS datasets. The algorithm performs BUS scan filtering (flagging of invalid and non-B-mode scans), cleaning (dual-view scan detection, scan area cropping, and caliper detection), and knowledge extraction (BI-RADS Labeling and Measurement fields) from sonographer annotations. Its modular design enables users to adapt it to new settings. Experiments on an internal testing dataset of 430 clinical BUS images achieve >95% sensitivity and >98% specificity in detecting every type of text annotation, >98% sensitivity and specificity in detecting scans with blood flow highlighting, alternative scan modes, or invalid scans. A case study on a completely external, public dataset of BUS scans found that BUSClean identified text annotations and scans with blood flow highlighting with 88.6% and 90.9% sensitivity and 98.3% and 99.9% specificity, respectively. Adaptation of the lesion caliper detection method to account for a type of caliper specific to the case study demonstrates the intended use of BUSClean in new data distributions and improved performance in lesion caliper detection from 43.3% and 93.3% out-of-the-box to 92.1% and 92.3% sensitivity and specificity, respectively. Source code, example notebooks, and sample data are available at https://github.com/hawaii-ai/bus-cleaning.
翻訳日:2024-11-08 21:10:26 公開日:2024-10-29
# GPUによるHGNNトレーニングの特性と理解

Characterizing and Understanding HGNN Training on GPUs ( http://arxiv.org/abs/2407.11790v4 )

ライセンス: Link先を確認
Dengke Han, Mingyu Yan, Xiaochun Ye, Dongrui Fan, (参考訳) 不均一グラフデータに対する顕著な表現能力のため、ヘテロジニアスグラフニューラルネットワーク(HGNN)は、レコメンデーションシステムや医療分析など、多くの重要な現実世界領域で広く採用されている。 実践的な応用に先立ち、広範囲なトレーニングを通じて特定のタスクに適した最適なHGNNモデルパラメータを特定することは、時間とコストのかかるプロセスである。 HGNNトレーニングの効率を高めるためには、トレーニングプロセス内の実行セマンティクスとパターンを特徴づけて分析し、パフォーマンスボトルネックを特定することが不可欠である。 本研究では,シングルGPUとマルチGPU分散トレーニングを含む2つの主流HGNNトレーニングシナリオの詳細な定量化と分析を行う。 評価結果に基づいて,異なるHGNNトレーニングシナリオにおける性能ボトルネックとその根本原因を明らかにし,ソフトウェアとハードウェアの両方の観点から最適化ガイドラインを提供する。

Owing to their remarkable representation capabilities for heterogeneous graph data, Heterogeneous Graph Neural Networks (HGNNs) have been widely adopted in many critical real-world domains such as recommendation systems and medical analysis. Prior to their practical application, identifying the optimal HGNN model parameters tailored to specific tasks through extensive training is a time-consuming and costly process. To enhance the efficiency of HGNN training, it is essential to characterize and analyze the execution semantics and patterns within the training process to identify performance bottlenecks. In this study, we conduct an in-depth quantification and analysis of two mainstream HGNN training scenarios, including single-GPU and multi-GPU distributed training. Based on the characterization results, we disclose the performance bottlenecks and their underlying causes in different HGNN training scenarios and provide optimization guidelines from both software and hardware perspectives.
翻訳日:2024-11-08 20:59:00 公開日:2024-10-29
# コントラスト的逐次拡散学習:非線形・マルチシーンインストラクショナルビデオ合成

Contrastive Sequential-Diffusion Learning: Non-linear and Multi-Scene Instructional Video Synthesis ( http://arxiv.org/abs/2407.11814v2 )

ライセンス: Link先を確認
Vasco Ramos, Yonatan Bitton, Michal Yarom, Idan Szpektor, Joao Magalhaes, (参考訳) レシピインストラクションやdo-it-Yourselfプロジェクトのようなアクション中心のシーケンス記述のための生成されたビデオシーンには、非線形パターンが含まれており、次のビデオは、直前のビデオではなく、それ以前のビデオに視覚的に一貫性を持たなければならない。 現在のマルチシーンビデオ合成手法は、これらの整合性要件を満たすことができない。 そこで本研究では,最も適切に生成されたシーンを選択して,次のシーンの復調過程をガイドし,条件付けするコントラッシブ・シーケンシャルな映像拡散手法を提案する。 その結果は、シーンの記述と、視覚的な一貫性を必要とするシーンの一貫性に基礎を置いているマルチシーンビデオである。 実世界のアクション中心のデータを用いた実験は、これまでの作業と比べて、モデルの実用性と一貫性の向上を実証している。

Generated video scenes for action-centric sequence descriptions like recipe instructions and do-it-yourself projects include non-linear patterns, in which the next video may require to be visually consistent not on the immediate previous video but on earlier ones. Current multi-scene video synthesis approaches fail to meet these consistency requirements. To address this, we propose a contrastive sequential video diffusion method that selects the most suitable previously generated scene to guide and condition the denoising process of the next scene. The result is a multi-scene video that is grounded in the scene descriptions and coherent w.r.t the scenes that require visual consistency. Experiments with real-world action-centric data demonstrate the practicality and improved consistency of our model compared to prior work.
翻訳日:2024-11-08 20:59:00 公開日:2024-10-29
# u-$μ$P: 単位スケールの最大更新パラメトリゼーション

u-$μ$P: The Unit-Scaled Maximal Update Parametrization ( http://arxiv.org/abs/2407.17465v2 )

ライセンス: Link先を確認
Charlie Blake, Constantin Eichenberg, Josef Dean, Lukas Balles, Luke Y. Prince, Björn Deiseroth, Andres Felipe Cruz-Salinas, Carlo Luschi, Samuel Weinbach, Douglas Orr, (参考訳) Maximal Update Parametrization$\mu$P)は、モデルのサイズに依存しない最適なハイパーパラメータ(HP)を作成することを目的としている。 我々は,低精度で容易にトレーニングできるモデルの設計方法であるUnit Scalingと組み合わせることで,$\mu$Pを改善する新しいスキーム u-$\mu$P を提案する。 2つのテクニックには自然な親和性がある:$\mu$Pはアクティベーションのスケールがモデルサイズに依存しないことを保証する。 この合成は、デフォルト値がほぼ最適である単純なスキームへの扉を開く。 結果として、u-$\mu$Pモデルは、同等の$\mu$Pモデルと同等以下の損失に達し、FP8でアウト・オブ・ザ・ボックスを動作させる。

The Maximal Update Parametrization ($\mu$P) aims to make the optimal hyperparameters (HPs) of a model independent of its size, allowing them to be swept using a cheap proxy model rather than the full-size target model. We present a new scheme, u-$\mu$P, which improves upon $\mu$P by combining it with Unit Scaling, a method for designing models that makes them easy to train in low-precision. The two techniques have a natural affinity: $\mu$P ensures that the scale of activations is independent of model size, and Unit Scaling ensures that activations, weights and gradients begin training with a scale of one. This synthesis opens the door to a simpler scheme, whose default values are near-optimal. This in turn facilitates a more efficient sweeping strategy, with u-$\mu$P models reaching a loss that is equal to or lower than comparable $\mu$P models and working out-of-the-box in FP8.
翻訳日:2024-11-08 15:12:19 公開日:2024-10-29
# 分子構造を解き放つ:化学のためのマルチモーダル分光データセット

Unraveling Molecular Structure: A Multimodal Spectroscopic Dataset for Chemistry ( http://arxiv.org/abs/2407.17492v2 )

ライセンス: Link先を確認
Marvin Alberts, Oliver Schilter, Federico Zipoli, Nina Hartrampf, Teodoro Laino, (参考訳) 分光技術は分子の構造を決定するのに欠かせない道具である。 核磁気共鳴(NMR)、赤外線分光法、質量分析法などの異なる分光技術は、官能基の存在や欠如を含む分子構造に関する洞察を与える。 化学者は異なる方法の相補的な性質をその利点に活用する。 しかし、様々な分光技術からのスペクトルを含む包括的マルチモーダルデータセットの欠如は、主にスペクトルから分子構造を予測するための単一モーダルタスクに対して、機械学習アプローチに制限がある。 本稿では,特許データから化学反応から抽出した790k分子に対して,$^1$H-NMR,$^{13}$C-NMR,HSQC-NMR,Infrared,Mass Spectra(正イオンモードおよび負イオンモード)を模擬したデータセットを提案する。 このデータセットは、複数の分光法からの情報を統合する基盤モデルの開発を可能にし、人間の専門家によるアプローチをエミュレートする。 さらに、構造解明、対象分子のスペクトルの予測、機能群予測などの単一モードタスクを評価するためのベンチマークも提供する。 このデータセットは、合成から構造決定までの分子発見パイプラインを合理化して、構造解明の可能性を秘めている。 ベンチマークのデータセットとコードはhttps://rxn4chemistry.github.io/multimodal-spectroscopic-datasetにある。

Spectroscopic techniques are essential tools for determining the structure of molecules. Different spectroscopic techniques, such as Nuclear magnetic resonance (NMR), Infrared spectroscopy, and Mass Spectrometry, provide insight into the molecular structure, including the presence or absence of functional groups. Chemists leverage the complementary nature of the different methods to their advantage. However, the lack of a comprehensive multimodal dataset, containing spectra from a variety of spectroscopic techniques, has limited machine-learning approaches mostly to single-modality tasks for predicting molecular structures from spectra. Here we introduce a dataset comprising simulated $^1$H-NMR, $^{13}$C-NMR, HSQC-NMR, Infrared, and Mass spectra (positive and negative ion modes) for 790k molecules extracted from chemical reactions in patent data. This dataset enables the development of foundation models for integrating information from multiple spectroscopic modalities, emulating the approach employed by human experts. Additionally, we provide benchmarks for evaluating single-modality tasks such as structure elucidation, predicting the spectra for a target molecule, and functional group predictions. This dataset has the potential automate structure elucidation, streamlining the molecular discovery pipeline from synthesis to structure determination. The dataset and code for the benchmarks can be found at https://rxn4chemistry.github.io/multimodal-spectroscopic-dataset.
翻訳日:2024-11-08 15:12:19 公開日:2024-10-29
# 拡散モデルを用いたX線画像における少数ショットランドマーク検出のための自己教師付き事前学習

Self-supervised pre-training with diffusion model for few-shot landmark detection in x-ray images ( http://arxiv.org/abs/2407.18125v2 )

ライセンス: Link先を確認
Roberto Di Via, Francesca Odone, Vito Paolo Pastore, (参考訳) ディープニューラルネットワークは、画像分類、セグメンテーション、ランドマーク検出など、さまざまなタスクのために医療領域に広く応用されている。 しかしながら、それらのアプリケーションは、利用可能なアノテーションとイメージの両方の観点から、データの不足によってしばしば妨げられます。 本研究では,拡散確率モデル(DDPM)をランドマーク検出タスクに適用する新しい手法を提案する。 私たちの重要なイノベーションは、DDPMをランドマーク検出における自己教師付き事前トレーニングに活用することにあります。 この方法では、最小限のアノテートトレーニングデータ(50イメージまで)で正確なランドマーク検出が可能で、ImageNetの教師付き事前トレーニングと、一般的な3つのX線ベンチマークデータセットにまたがる従来の自己教師付きテクニックの両方を超越している。 我々の知る限り、この研究はランドマーク検出における自己教師付き学習のための拡散モデルの最初の応用であり、データの不足を緩和するために、数ショットで価値ある事前学習アプローチを提供する可能性がある。

Deep neural networks have been extensively applied in the medical domain for various tasks, including image classification, segmentation, and landmark detection. However, their application is often hindered by data scarcity, both in terms of available annotations and images. This study introduces a novel application of denoising diffusion probabilistic models (DDPMs) to the landmark detection task, specifically addressing the challenge of limited annotated data in x-ray imaging. Our key innovation lies in leveraging DDPMs for self-supervised pre-training in landmark detection, a previously unexplored approach in this domain. This method enables accurate landmark detection with minimal annotated training data (as few as 50 images), surpassing both ImageNet supervised pre-training and traditional self-supervised techniques across three popular x-ray benchmark datasets. To our knowledge, this work represents the first application of diffusion models for self-supervised learning in landmark detection, which may offer a valuable pre-training approach in few-shot regimes, for mitigating data scarcity.
翻訳日:2024-11-08 15:01:09 公開日:2024-10-29
# スピン鎖に結合した2量子系の絡み合いダイナミクス

Entanglement dynamics of a two-qutrits system coupled to a spin chain ( http://arxiv.org/abs/2407.19661v2 )

ライセンス: Link先を確認
Seyed Mohsen Moosavi Khansari, Fazlollah Kazemi Hasanvand, (参考訳) 本稿では,スピン環境と相互作用する2つのクォート系の絡み合いダイナミクスについて検討する。 エンタングルメント尺度としてネガティビティを用いて,システムのエンタングルメントダイナミクスについて検討する。 計算により、絡み合いが急速に崩壊した場合、環境は量子相転移を持つことが示された。

In this paper, we investigate the entanglement dynamics of a two qutrits system interacting with a spin environment. Using negativity as the entanglement measure, we study the entanglement dynamics of the system. The calculations show that in cases where the entanglement decays quickly, the environment will have a quantum phase transition.
翻訳日:2024-11-08 14:27:29 公開日:2024-10-29
# Quantum HodgeRank: 量子コンピュータにおけるトポロジに基づくランクアグリゲーション

Quantum HodgeRank: Topology-Based Rank Aggregation on Quantum Computers ( http://arxiv.org/abs/2407.20452v2 )

ライセンス: Link先を確認
Caesnan M. G. Leditto, Angus Southwell, Behnam Tonekaboni, Muhammad Usman, Kavan Modi, (参考訳) HodgeRankは、Google PageRankのようなランキングアルゴリズムを一般化して、グラフと離散外部計算を使って、現実世界(しばしば不完全な)データに基づいて、代替品をランク付けする。 これは高次元ネットワーク上の多部相互作用を、次元と指数関数的にスケールする複雑さで解析する。 我々は,次元に依存しない複雑性を持つHodgeRank解を近似する量子アルゴリズムを開発した。 提案アルゴリズムは,類似の古典的手法によるスーパーポリノミカル・スピードアップを実現するランキング整合性などの状態から関連情報を抽出する。

HodgeRank generalizes ranking algorithms, e.g. Google PageRank, to rank alternatives based on real-world (often incomplete) data using graphs and discrete exterior calculus. It analyzes multipartite interactions on high-dimensional networks with a complexity that scales exponentially with dimension. We develop a quantum algorithm that approximates the HodgeRank solution with complexity independent of dimension. Our algorithm extracts relevant information from the state such as the ranking consistency, which achieves a superpolynomial speedup over similar classical methods.
翻訳日:2024-11-08 14:05:01 公開日:2024-10-29
# Quantum HodgeRank: 量子コンピュータにおけるトポロジに基づくランクアグリゲーション

Quantum HodgeRank: Topology-Based Rank Aggregation on Quantum Computers ( http://arxiv.org/abs/2407.20452v3 )

ライセンス: Link先を確認
Caesnan M. G. Leditto, Angus Southwell, Behnam Tonekaboni, Muhammad Usman, Kavan Modi, (参考訳) HodgeRankは、Google PageRankのようなランキングアルゴリズムを一般化して、グラフと離散外部計算を使って、現実世界(しばしば不完全な)データに基づいて、代替品をランク付けする。 これは高次元ネットワーク上の多部相互作用を、次元と指数関数的にスケールする複雑さで解析する。 我々は,次元に依存しない複雑性を持つHodgeRank解を近似する量子アルゴリズムを開発した。 提案アルゴリズムは,類似の古典的手法によるスーパーポリノミカル・スピードアップを実現するランキング整合性などの状態から関連情報を抽出する。

HodgeRank generalizes ranking algorithms, e.g. Google PageRank, to rank alternatives based on real-world (often incomplete) data using graphs and discrete exterior calculus. It analyzes multipartite interactions on high-dimensional networks with a complexity that scales exponentially with dimension. We develop a quantum algorithm that approximates the HodgeRank solution with complexity independent of dimension. Our algorithm extracts relevant information from the state such as the ranking consistency, which achieves a superpolynomial speedup over similar classical methods.
翻訳日:2024-11-08 14:05:01 公開日:2024-10-29
# LLMにおけるデータポジショニングのスケーリング法則

Scaling Laws for Data Poisoning in LLMs ( http://arxiv.org/abs/2408.02946v3 )

ライセンス: Link先を確認
Dillon Bowen, Brendan Murphy, Will Cai, David Khachaturov, Adam Gleave, Kellin Pelrine, (参考訳) 近年の研究では、LSMは部分的に破損したデータや有害なデータに基づいて訓練されるデータ中毒に弱いことが示されている。 汚染されたデータは検出しにくく、ガードレールを壊し、望ましくない有害な行動を引き起こす。 より大きく、より有能なLSMを訓練し、展開する研究所を指導する強力な取り組みを考えると、データ中毒のリスクはスケールによって自然に軽減されるのか、それが脅威の増加なのかを問うことが重要である。 我々は、悪意のある微調整、不完全なデータキュレーション、意図的なデータ汚染の3つの脅威モデルを考える。 データ中毒が15~72億のパラメータから23のフロンティアLCMに対して与える影響を,それぞれの脅威モデルに対応する3つのデータセットに対して評価した。 より大きなLSMはますます脆弱になってきており、データ中毒の少ないLSMよりも、有害な行動の学習が著しく速いことがわかりました。 さらに、新たなモデレーションシステムにもかかわらず、フロンティアGPTモデルでさえ、データ中毒の影響を受けやすいことを実証した。 これらの結果は、より大きなLSMにおけるデータ中毒に対する堅牢な保護の必要性を浮き彫りにした。

Recent work shows that LLMs are vulnerable to data poisoning, in which they are trained on partially corrupted or harmful data. Poisoned data is hard to detect, breaks guardrails, and leads to undesirable and harmful behavior. Given the intense efforts by leading labs to train and deploy increasingly larger and more capable LLMs, it is critical to ask if the risk of data poisoning will be naturally mitigated by scale, or if it is an increasing threat. We consider three threat models by which data poisoning can occur: malicious fine-tuning, imperfect data curation, and intentional data contamination. Our experiments evaluate the effects of data poisoning on 23 frontier LLMs ranging from 1.5-72 billion parameters, on three datasets which speak to each of our threat models. We find that larger LLMs are increasingly vulnerable, learning harmful behavior significantly quicker than smaller LLMs with even minimal data poisoning. Additionally, we demonstrate that even frontier GPT models, despite additional moderation systems, remain susceptible to data poisoning. These results underscore the need for robust safeguards against data poisoning in larger LLMs.
翻訳日:2024-11-08 12:44:50 公開日:2024-10-29
# LLMにおけるデータポリシ - ジェイルブレイクチューニングとスケーリングの法則

Data Poisoning in LLMs: Jailbreak-Tuning and Scaling Laws ( http://arxiv.org/abs/2408.02946v4 )

ライセンス: Link先を確認
Dillon Bowen, Brendan Murphy, Will Cai, David Khachaturov, Adam Gleave, Kellin Pelrine, (参考訳) LLMは、少数の破損または有害なデータを含む有毒なデータセットで訓練されると、有害で望ましくない振る舞いをもたらす。 我々は、新しい攻撃パラダイムであるjailbreak-tuningを開発し、データ中毒とjailbreakを組み合わせ、最先端の保護を全面的にバイパスし、GPT-4oのようなモデルにほぼあらゆる有害な要求を従わせる。 実験の結果,この攻撃は脆弱性誘発のパラダイムシフトであり,通常の微調整と比較して最大60パーセントの拒絶率の差が生じることが示唆された。 データ中毒の脆弱性が持続し、増幅できるというこのデモンストレーションを踏まえ、モデルがスケールするにつれて、これらのリスクが増加するかどうかを調査する。 我々は、悪意のある微調整、不完全なデータキュレーション、意図的なデータ汚染の3つの脅威モデルを評価する。 我々の実験では、より大きなLSMは、より小さなモデルよりも、有害なデータへの最小限の露出から有害な振る舞いを学習し、データ中毒にかなり敏感であることが判明した。 これらの調査結果は、AI企業をリードする企業が、公開リリース前にチームによる微調整APIを徹底的に廃止し、特にモデルのサイズと能力が拡大し続ければ、データ中毒に対するより堅牢な防御を開発する必要性を浮き彫りにしている。

LLMs produce harmful and undesirable behavior when trained on poisoned datasets that contain a small fraction of corrupted or harmful data. We develop a new attack paradigm, jailbreak-tuning, that combines data poisoning with jailbreaking to fully bypass state-of-the-art safeguards and make models like GPT-4o comply with nearly any harmful request. Our experiments suggest this attack represents a paradigm shift in vulnerability elicitation, producing differences in refusal rates as much as 60+ percentage points compared to normal fine-tuning. Given this demonstration of how data poisoning vulnerabilities persist and can be amplified, we investigate whether these risks will likely increase as models scale. We evaluate three threat models - malicious fine-tuning, imperfect data curation, and intentional data contamination - across 23 frontier LLMs ranging from 1.5 to 72 billion parameters. Our experiments reveal that larger LLMs are significantly more susceptible to data poisoning, learning harmful behaviors from even minimal exposure to harmful data more quickly than smaller models. These findings underscore the need for leading AI companies to thoroughly red team fine-tuning APIs before public release and to develop more robust safeguards against data poisoning, particularly as models continue to scale in size and capability.
翻訳日:2024-11-08 12:44:50 公開日:2024-10-29
# 相関雑音を用いたガウスメカニズムの改善

Better Gaussian Mechanism using Correlated Noise ( http://arxiv.org/abs/2408.06853v2 )

ライセンス: Link先を確認
Christian Janos Lebeda, (参考訳) 感性空間が特定の共通構造を持つ場合、微分プライベートなクエリに応答するガウス機構の単純な変種を示す。 我々のモチベーション問題は、隣接関係の加算/削除の下でクエリをカウントする$d$に応答する基本的なタスクである。 標準ガウス機構は、各カウントに独立に$d$の分散スケールを持つガウスアンとして分散されたノイズを加えることで、この問題を解く。 分散を$(\sqrt{d} + 1)/4$でスケールしたガウス変数をすべてのカウントに付加することで、独立なガウス雑音サンプルの分散を$(d + \sqrt{d})/4$でしかスケールできないことを示す。 各カウントクエリに付加されるトータルノイズは、標準偏差が$(\sqrt{d} + 1)/2$で、$\sqrt{d}$ではなく$(\sqrt{d} + 1)/2$でスケールされたガウス分布に従う。 私たちのメカニズムの中心的な考え方はシンプルで、そのテクニックは柔軟です。 本手法を他の問題に適用すると、標準ガウス機構よりも同様の改善が得られることを示す。

We present a simple variant of the Gaussian mechanism for answering differentially private queries when the sensitivity space has a certain common structure. Our motivating problem is the fundamental task of answering $d$ counting queries under the add/remove neighboring relation. The standard Gaussian mechanism solves this task by adding noise distributed as a Gaussian with variance scaled by $d$ independently to each count. We show that adding a random variable distributed as a Gaussian with variance scaled by $(\sqrt{d} + 1)/4$ to all counts allows us to reduce the variance of the independent Gaussian noise samples to scale only with $(d + \sqrt{d})/4$. The total noise added to each counting query follows a Gaussian distribution with standard deviation scaled by $(\sqrt{d} + 1)/2$ rather than $\sqrt{d}$. The central idea of our mechanism is simple and the technique is flexible. We show that applying our technique to another problem gives similar improvements over the standard Gaussian mechanism.
翻訳日:2024-11-08 07:53:35 公開日:2024-10-29
# 大規模言語モデルを用いた推論高速化のための文脈認識アシスタントの選択

Context-Aware Assistant Selection for Improved Inference Acceleration with Large Language Models ( http://arxiv.org/abs/2408.08470v2 )

ライセンス: Link先を確認
Jerry Huang, Prasanna Parthasarathi, Mehdi Rezagholizadeh, Sarath Chandar, (参考訳) 広く採用されているにもかかわらず、大きな言語モデル(LLM)は、リソース制約の下での使用は禁じられている。 注目すべき問題は、自動回帰生成に関連するレイテンシが高く、大規模LLMを高度なコンピューティングインフラストラクチャに依存していることだ。 より小さなドラフトモデルがより大きなターゲットモデルの世代をガイドする支援デコーディングは、これを緩和するのに役立っているが、2つのモデルのアライメントに依存している。 したがって、ドラフトモデルがターゲットモデルに対するいくつかの領域で不十分な場合、性能は低下する可能性がある。 あるいは、ターゲットの専門知識をよりよくカバーするために複数のドラフトモデルを利用することもできるが、複数のブラックボックスドラフトモデルが利用可能であれば、その構築の詳細を知らないアシスタントを選択することは困難である。 この意思決定問題をよりよく理解するために、我々は、ポリシーがコンテキストに基づいてドラフトモデルを選択する必要がある状況の盗聴として、それを観察する。 ドラフトモデルの事前知識がなくても、独立したドラフト/ターゲットモデルの出力のみからオフラインデータセットを作成し、これらの出力のアライメントに関するポリシーをトレーニングすることで、候補が有効であれば、複数のドメインのパフォーマンスを向上できることを示す。 さらなる結果は、複数のデコード候補で様々な設定を保ち、その柔軟性と、そのような意思決定が果たすべき有利な役割を強調していることを示している。

Despite their widespread adoption, large language models (LLMs) remain prohibitive to use under resource constraints, with their ever growing sizes only increasing the barrier for use. One noted issue is the high latency associated with auto-regressive generation, rendering large LLMs use dependent on advanced computing infrastructure. Assisted decoding, where a smaller draft model guides a larger target model's generation, has helped alleviate this, but remains dependent on alignment between the two models. Thus if the draft model is insufficiently capable on some domain relative to the target model, performance can degrade. Alternatively, one can leverage multiple draft models to better cover the expertise of the target, but when multiple black-box draft models are available, selecting an assistant without details about its construction can be difficult. To better understand this decision making problem, we observe it as a contextual bandit, where a policy must choose a draft model based on a context. We show that even without prior knowledge of the draft models, creating an offline dataset from only outputs of independent draft/target models and training a policy over the alignment of these outputs can accelerate performance on multiple domains provided the candidates are effective. Further results show this to hold on various settings with multiple assisted decoding candidates, highlighting its flexibility and the advantageous role that such decision making can play.
翻訳日:2024-11-08 07:18:07 公開日:2024-10-29
# 大規模言語モデルを用いた推論高速化のための文脈認識アシスタントの選択

Context-Aware Assistant Selection for Improved Inference Acceleration with Large Language Models ( http://arxiv.org/abs/2408.08470v3 )

ライセンス: Link先を確認
Jerry Huang, Prasanna Parthasarathi, Mehdi Rezagholizadeh, Sarath Chandar, (参考訳) 広く採用されているにもかかわらず、大きな言語モデル(LLM)は、リソース制約の下での使用は禁じられている。 注目すべき問題は、自動回帰生成に関連するレイテンシが高く、大規模LLMを高度なコンピューティングインフラストラクチャに依存していることだ。 より小さなドラフトモデルがより大きなターゲットモデルの世代をガイドする支援デコーディングは、これを緩和するのに役立っているが、2つのモデルのアライメントに依存している。 したがって、ドラフトモデルがターゲットモデルに対するいくつかの領域で不十分な場合、性能は低下する可能性がある。 あるいは、ターゲットの専門知識をよりよくカバーするために複数のドラフトモデルを利用することもできるが、複数のブラックボックスドラフトモデルが利用可能であれば、その構築の詳細を知らないアシスタントを選択することは困難である。 この意思決定問題をよりよく理解するために、我々は、ポリシーがコンテキストに基づいてドラフトモデルを選択する必要がある状況の盗聴として、それを観察する。 ドラフトモデルの事前知識がなくても、独立したドラフト/ターゲットモデルの出力のみからオフラインデータセットを作成し、これらの出力のアライメントに関するポリシーをトレーニングすることで、候補が有効であれば、複数のドメインのパフォーマンスを向上できることを示す。 さらなる結果は、複数のデコード候補で様々な設定を保ち、その柔軟性と、そのような意思決定が果たすべき有利な役割を強調していることを示している。

Despite their widespread adoption, large language models (LLMs) remain prohibitive to use under resource constraints, with their ever growing sizes only increasing the barrier for use. One noted issue is the high latency associated with auto-regressive generation, rendering large LLMs use dependent on advanced computing infrastructure. Assisted decoding, where a smaller draft model guides a larger target model's generation, has helped alleviate this, but remains dependent on alignment between the two models. Thus if the draft model is insufficiently capable on some domain relative to the target model, performance can degrade. Alternatively, one can leverage multiple draft models to better cover the expertise of the target, but when multiple black-box draft models are available, selecting an assistant without details about its construction can be difficult. To better understand this decision making problem, we observe it as a contextual bandit, where a policy must choose a draft model based on a context. We show that even without prior knowledge of the draft models, creating an offline dataset from only outputs of independent draft/target models and training a policy over the alignment of these outputs can accelerate performance on multiple domains provided the candidates are effective. Further results show this to hold on various settings with multiple assisted decoding candidates, highlighting its flexibility and the advantageous role that such decision making can play.
翻訳日:2024-11-08 07:18:07 公開日:2024-10-29
# 水平・二次境界に対するミニマリストアプローチとしてのモデルベースRL

Model-based RL as a Minimalist Approach to Horizon-Free and Second-Order Bounds ( http://arxiv.org/abs/2408.08994v3 )

ライセンス: Link先を確認
Zhiyong Wang, Dongruo Zhou, John C. S. Lui, Wen Sun, (参考訳) MLE(Maximum Likelihood Estimation)を通じて移行モデルを学習し、学習モデル内で計画を行うことは、おそらく最も標準的で、最もシンプルなモデルベース強化学習(RL)フレームワークである。 本研究では,楽観的で悲観的な計画手順を備えたモデルベースRLスキームが,オンラインとオフラインのRL設定において,強い後悔とサンプルの複雑さの境界を達成できることを示す。 特に、軌道的報酬が0と1の間で正規化され、遷移が時間的均質である条件下では、ほぼ水平・二階境界が達成される。 ほぼ地平線のないということは、我々の境界はマルコフ決定過程の地平線に多項式依存を持たないことを意味する。 2階境界(英: second-order bound)は、システムがほぼ決定論的であるときに小さくなり得るポリシーの戻り値の分散に関してスケールする、インスタンス依存境界の一種である。 我々のアルゴリズムは単純で、かなり標準的なものであり、実際にRLの文献で広く研究されている:彼らはMLEを通してモデルを学習し、MLEソリューションの周りにバージョン空間を構築し、オンラインモードかオフラインモードかによって楽観的または悲観的な計画を実行する。 これらのアルゴリズムは、分散学習や分散重み付け学習などの特別なアルゴリズム設計に頼らず、非線型関数近似を容易に活用することができる。 アルゴリズムの単純さは、地平線のない、2階の後悔分析が実際には標準であり、主に不確実性に直面した楽観主義/悲観主義の一般的な枠組みに従うことを示唆している。

Learning a transition model via Maximum Likelihood Estimation (MLE) followed by planning inside the learned model is perhaps the most standard and simplest Model-based Reinforcement Learning (RL) framework. In this work, we show that such a simple Model-based RL scheme, when equipped with optimistic and pessimistic planning procedures, achieves strong regret and sample complexity bounds in online and offline RL settings. Particularly, we demonstrate that under the conditions where the trajectory-wise reward is normalized between zero and one and the transition is time-homogenous, it achieves nearly horizon-free and second-order bounds. Nearly horizon-free means that our bounds have no polynomial dependence on the horizon of the Markov Decision Process. A second-order bound is a type of instance-dependent bound that scales with respect to the variances of the returns of the policies which can be small when the system is nearly deterministic and (or) the optimal policy has small values. We highlight that our algorithms are simple, fairly standard, and indeed have been extensively studied in the RL literature: they learn a model via MLE, build a version space around the MLE solution, and perform optimistic or pessimistic planning depending on whether operating in the online or offline mode. These algorithms do not rely on additional specialized algorithmic designs such as learning variances and performing variance-weighted learning and thus can easily leverage non-linear function approximations. The simplicity of the algorithms also implies that our horizon-free and second-order regret analysis is actually standard and mainly follows the general framework of optimism/pessimism in the face of uncertainty.
翻訳日:2024-11-08 07:07:05 公開日:2024-10-29
# FEDKIM:医療ファウンデーションモデルへの適応的フェデレーション知識注入

FEDKIM: Adaptive Federated Knowledge Injection into Medical Foundation Models ( http://arxiv.org/abs/2408.10276v3 )

ライセンス: Link先を確認
Xiaochen Wang, Jiaqi Wang, Houping Xiao, Jinghui Chen, Fenglong Ma, (参考訳) ファウンデーションモデルは、多種多様なモダリティやタスクを扱う際、タスクに特有でモダリティに敏感な従来の人工知能(AI)アプローチよりも優れた能力を示してきた。 しかし、医療分野では、多様なモダリティや厳格なプライバシー規制への限定的なアクセスによって、包括的基盤モデルの開発が制限されている。 これらの制約に対処するため,本研究では,フェデレートラーニングフレームワーク内で医療基盤モデルを拡張するための新しい知識注入手法であるFedKIMを導入する。 FedKIMは、軽量なローカルモデルを活用して、プライベートデータから医療知識を抽出し、設計されたマルチタスク・マルチモーダル・ミックス・オブ・エキスパート(M3OE)モジュールを使用して、この知識を集中基盤モデルに統合する。 この方法は、プライバシを保存するだけでなく、複数のモダリティを含む複雑な医療タスクを扱うモデルの能力を向上する。 7つのモードで12のタスクにまたがる広範な実験は、さまざまな環境でFedKIMの有効性を示し、機密データに直接アクセスすることなく医療基盤モデルをスケールする可能性を強調した。

Foundation models have demonstrated remarkable capabilities in handling diverse modalities and tasks, outperforming conventional artificial intelligence (AI) approaches that are highly task-specific and modality-reliant. In the medical domain, however, the development of comprehensive foundation models is constrained by limited access to diverse modalities and stringent privacy regulations. To address these constraints, this study introduces a novel knowledge injection approach, FedKIM, designed to scale the medical foundation model within a federated learning framework. FedKIM leverages lightweight local models to extract healthcare knowledge from private data and integrates this knowledge into a centralized foundation model using a designed adaptive Multitask Multimodal Mixture Of Experts (M3OE) module. This method not only preserves privacy but also enhances the model's ability to handle complex medical tasks involving multiple modalities. Our extensive experiments across twelve tasks in seven modalities demonstrate the effectiveness of FedKIM in various settings, highlighting its potential to scale medical foundation models without direct access to sensitive data.
翻訳日:2024-11-08 06:44:48 公開日:2024-10-29
# 学習用講義は学習用か?知識グラフ対応知的学習支援システム(ILA)の講義音声知覚分析

Is the Lecture Engaging for Learning? Lecture Voice Sentiment Analysis for Knowledge Graph-Supported Intelligent Lecturing Assistant (ILA) System ( http://arxiv.org/abs/2408.10492v2 )

ライセンス: Link先を確認
Yuan An, Samarth Kolanupaka, Jacob An, Matthew Ma, Unnat Chhatwal, Alex Kalinowski, Michelle Rogers, Brian Smith, (参考訳) 本稿では,授業内容と最適教育戦略を表す知識グラフを用いた知的学習支援システム (ILA) を提案する。 本システムは,音声,コンテンツ,教育のリアルタイム分析を通じて,生徒の学習力を高めるためのインストラクターを支援するように設計されている。 初回調査では講義音声感情分析のケーススタディとして,3000点以上の講義音声クリップからなるトレーニングセットを開発した。 各クリップは手動でエンゲージメントまたは非エンゲージメントとしてラベル付けされた。 このデータセットを用いて,音声クリップから抽出した様々な特徴に基づいて,いくつかの分類モデルを構築し,評価した。 結果は,800以上のテスト音声クリップの独立したセット上での退屈な講義に対して,F1スコア90%を達成し,有望なパフォーマンスを示した。 このケーススタディは、コンテンツ分析と教育実践を統合した、より洗練されたモデルの開発の基礎となるものである。 私たちの究極のゴールは、現代の人工知能技術を活用することで、インストラクターがより積極的に効果的に教えることを支援することです。

This paper introduces an intelligent lecturing assistant (ILA) system that utilizes a knowledge graph to represent course content and optimal pedagogical strategies. The system is designed to support instructors in enhancing student learning through real-time analysis of voice, content, and teaching methods. As an initial investigation, we present a case study on lecture voice sentiment analysis, in which we developed a training set comprising over 3,000 one-minute lecture voice clips. Each clip was manually labeled as either engaging or non-engaging. Utilizing this dataset, we constructed and evaluated several classification models based on a variety of features extracted from the voice clips. The results demonstrate promising performance, achieving an F1-score of 90% for boring lectures on an independent set of over 800 test voice clips. This case study lays the groundwork for the development of a more sophisticated model that will integrate content analysis and pedagogical practices. Our ultimate goal is to aid instructors in teaching more engagingly and effectively by leveraging modern artificial intelligence techniques.
翻訳日:2024-11-08 06:44:48 公開日:2024-10-29
# 反復窓平均フィルタ:拡散に基づく逆浄化の回避

Iterative Window Mean Filter: Thwarting Diffusion-based Adversarial Purification ( http://arxiv.org/abs/2408.10673v2 )

ライセンス: Link先を確認
Hanrui Wang, Ruoxi Sun, Cunjian Chen, Minhui Xue, Lay-Ki Soon, Shuo Wang, Zhe Jin, (参考訳) 顔認証システムはかなりの利便性と高度な発達をもたらしたが、敵攻撃のような目立たない摂動に敏感なため信頼できないものになっている。 既存の防御は、様々な攻撃アルゴリズムやアダプティブアタックやセキュリティ強化のための妥協精度に直面すると、しばしば弱点を示す。 これらの課題に対処するため、IWMF (Iterative Window Mean Filter) と呼ばれる新しい高効率な非深層学習画像フィルタを開発し、IWMFと拡散モデルを統合した新たな逆浄化フレームワークIWMF-Diffを提案した。 これらの手法は、ターゲットシステムのさらなる修正や再訓練を必要とせずに、対向的摂動を取り除くための前処理モジュールとして機能することができる。 提案手法は, 保存精度, セキュリティ向上, 各種脅威に対する汎用性, 適応攻撃に対する耐性の4つの重要な要件を満たすことを示す。 この性能は、最先端の敵対的浄化法であるDiffPureを上回ります。

Face authentication systems have brought significant convenience and advanced developments, yet they have become unreliable due to their sensitivity to inconspicuous perturbations, such as adversarial attacks. Existing defenses often exhibit weaknesses when facing various attack algorithms and adaptive attacks or compromise accuracy for enhanced security. To address these challenges, we have developed a novel and highly efficient non-deep-learning-based image filter called the Iterative Window Mean Filter (IWMF) and proposed a new framework for adversarial purification, named IWMF-Diff, which integrates IWMF and denoising diffusion models. These methods can function as pre-processing modules to eliminate adversarial perturbations without necessitating further modifications or retraining of the target system. We demonstrate that our proposed methodologies fulfill four critical requirements: preserved accuracy, improved security, generalizability to various threats in different settings, and better resistance to adaptive attacks. This performance surpasses that of the state-of-the-art adversarial purification method, DiffPure.
翻訳日:2024-11-08 06:33:41 公開日:2024-10-29
# 反復窓平均フィルタ:拡散に基づく逆浄化の回避

Iterative Window Mean Filter: Thwarting Diffusion-based Adversarial Purification ( http://arxiv.org/abs/2408.10673v3 )

ライセンス: Link先を確認
Hanrui Wang, Ruoxi Sun, Cunjian Chen, Minhui Xue, Lay-Ki Soon, Shuo Wang, Zhe Jin, (参考訳) 顔認証システムはかなりの利便性と高度な発達をもたらしたが、敵攻撃のような目立たない摂動に敏感なため信頼できないものになっている。 既存の防御は、様々な攻撃アルゴリズムやアダプティブアタックやセキュリティ強化のための妥協精度に直面すると、しばしば弱点を示す。 これらの課題に対処するため、IWMF (Iterative Window Mean Filter) と呼ばれる新しい高効率な非深層学習画像フィルタを開発し、IWMFと拡散モデルを統合した新たな逆浄化フレームワークIWMF-Diffを提案した。 これらの手法は、ターゲットシステムのさらなる修正や再訓練を必要とせずに、対向的摂動を取り除くための前処理モジュールとして機能することができる。 提案手法は, 保存精度, セキュリティ向上, 各種脅威に対する汎用性, 適応攻撃に対する耐性の4つの重要な要件を満たすことを示す。 この性能は、最先端の敵対的浄化法であるDiffPureを上回ります。

Face authentication systems have brought significant convenience and advanced developments, yet they have become unreliable due to their sensitivity to inconspicuous perturbations, such as adversarial attacks. Existing defenses often exhibit weaknesses when facing various attack algorithms and adaptive attacks or compromise accuracy for enhanced security. To address these challenges, we have developed a novel and highly efficient non-deep-learning-based image filter called the Iterative Window Mean Filter (IWMF) and proposed a new framework for adversarial purification, named IWMF-Diff, which integrates IWMF and denoising diffusion models. These methods can function as pre-processing modules to eliminate adversarial perturbations without necessitating further modifications or retraining of the target system. We demonstrate that our proposed methodologies fulfill four critical requirements: preserved accuracy, improved security, generalizability to various threats in different settings, and better resistance to adaptive attacks. This performance surpasses that of the state-of-the-art adversarial purification method, DiffPure.
翻訳日:2024-11-08 06:33:41 公開日:2024-10-29
# 大規模言語モデルのパラメータの関数をマップする変異生成画面

Mutagenesis screen to map the functions of parameters of Large Language Models ( http://arxiv.org/abs/2408.11494v2 )

ライセンス: Link先を確認
Yue Hu, Kai Hu, Patrick X. Zhao, Javed Khan, Chengming Xu, (参考訳) 大規模言語モデル(LLM)は、非常に高度な人工知能を持ち、多くのタスクに優れています。 モデルの機能はそのパラメータに本質的に結びついているが、パラメータと機能の間の接続を探索する体系的な方法には欠けている。 同様の構造とパラメータ数を共有するモデルは、様々なタスク間で大きなパフォーマンス格差を示し、そのパフォーマンスを管理する様々なパターンについて調査する。 我々は、Llama2-7bとZephyrを解析するために、生物学的研究で用いられる方法にインスパイアされた変異原性スクリーンアプローチを採用した。 この手法は、モデルパラメータとそれらの機能の関係を調べるために、モデルの行列内の要素を最大または最小値に変更することを含む。 私たちの研究は、両方のモデルの中で様々なレベルの微細構造を発見しました。 多くのマトリックスは変異後の最大変異と最小変異の混合を示したが、他のマトリックスは主として1つのタイプに敏感であった。 特に、表現型、特に重篤な結果をもたらす突然変異は、軸に沿って集結する傾向にあった。 さらに、最大と最小の突然変異の位置は、両方のモデルでしばしば相補的なパターンを示し、ゲート行列は再配置後のユニークな2次元の非対称性を示す。 ゼファーでは、特定の突然変異は、記述的なアウトプットよりも詩的な、あるいは会話的な結果をもたらす。 これらの「ライター」突然変異は出力の高周波の初期単語に従ってグループ化され、行列が異なる場合でも行座標を共有する傾向が顕著であった。 我々の研究は、変異発生画面が、大きな言語モデルの複雑さを解読し、その潜在能力を拡大するための予期せぬ方法を特定し、AIシステムの基礎的な側面について深い洞察を与える効果的なツールであることを確認した。

Large Language Models (LLMs) have significantly advanced artificial intelligence, excelling in numerous tasks. Although the functionality of a model is inherently tied to its parameters, a systematic method for exploring the connections between the parameters and the functionality are lacking. Models sharing similar structure and parameter counts exhibit significant performance disparities across various tasks, prompting investigations into the varying patterns that govern their performance. We adopted a mutagenesis screen approach inspired by the methods used in biological studies, to investigate Llama2-7b and Zephyr. This technique involved mutating elements within the models' matrices to their maximum or minimum values to examine the relationship between model parameters and their functionalities. Our research uncovered multiple levels of fine structures within both models. Many matrices showed a mixture of maximum and minimum mutations following mutagenesis, but others were predominantly sensitive to one type. Notably, mutations that produced phenotypes, especially those with severe outcomes, tended to cluster along axes. Additionally, the location of maximum and minimum mutations often displayed a complementary pattern on matrix in both models, with the Gate matrix showing a unique two-dimensional asymmetry after rearrangement. In Zephyr, certain mutations consistently resulted in poetic or conversational rather than descriptive outputs. These "writer" mutations grouped according to the high-frequency initial word of the output, with a marked tendency to share the row coordinate even when they are in different matrices. Our findings affirm that the mutagenesis screen is an effective tool for deciphering the complexities of large language models and identifying unexpected ways to expand their potential, providing deeper insights into the foundational aspects of AI systems.
翻訳日:2024-11-08 06:11:36 公開日:2024-10-29
# 基礎モデル時代のイメージセグメンテーション:サーベイ

Image Segmentation in Foundation Model Era: A Survey ( http://arxiv.org/abs/2408.12957v2 )

ライセンス: Link先を確認
Tianfei Zhou, Fei Zhang, Boyu Chang, Wenguan Wang, Ye Yuan, Ender Konukoglu, Daniel Cremers, (参考訳) イメージセグメンテーション(英: Image segmentation)は、コンピュータビジョンにおける長年にわたる課題であり、N-Cut、FCN、MaskFormerといったアルゴリズムが数十年にわたって研究してきた。 ファンデーションモデル(FM)の出現に伴い、現代セグメンテーション手法は、画像セグメンテーションにFM(例えば、CLIP、安定拡散、DINO)を適応するか、または専用のセグメンテーション基盤モデル(例えば、SAM)を開発することによって、新しいエポックに突入した。 これらのアプローチは、優れたセグメンテーション性能を提供するだけでなく、これまでディープラーニング環境では見られなかった新しいセグメンテーション機能も提供する。 しかし、イメージセグメンテーションにおける現在の研究は、これらの進歩に関連する特徴、課題、解決策の詳細な分析を欠いている。 本調査は、FM駆動画像セグメンテーションを中心とした最先端の研究を徹底的にレビューすることで、このギャップを埋めようとしている。 汎用画像セグメンテーション(セグメンテーション、インスタンスセグメンテーション、パン光学セグメンテーション)と、プロンプト可能な画像セグメンテーション(インタラクティブセグメンテーション、参照セグメンテーション、少数ショットセグメンテーション)の2つの基本的な研究行について、それぞれのタスク設定、背景概念、重要な課題について考察する。 さらに,CLIP,Stable Diffusion,DINOといったFMからのセグメンテーション知識の出現に関する洞察を提供する。 現在の研究成果の広さを包括する,300以上のセグメンテーションアプローチの概要を概観する。 その後、今後の研究に向けて、オープンな課題と潜在的な道のりについて議論する。 我々は,この新鮮で包括的で体系的な調査が,高度な画像分割システムの進化を触媒すると考えている。

Image segmentation is a long-standing challenge in computer vision, studied continuously over several decades, as evidenced by seminal algorithms such as N-Cut, FCN, and MaskFormer. With the advent of foundation models (FMs), contemporary segmentation methodologies have embarked on a new epoch by either adapting FMs (e.g., CLIP, Stable Diffusion, DINO) for image segmentation or developing dedicated segmentation foundation models (e.g., SAM). These approaches not only deliver superior segmentation performance, but also herald newfound segmentation capabilities previously unseen in deep learning context. However, current research in image segmentation lacks a detailed analysis of distinct characteristics, challenges, and solutions associated with these advancements. This survey seeks to fill this gap by providing a thorough review of cutting-edge research centered around FM-driven image segmentation. We investigate two basic lines of research -- generic image segmentation (i.e., semantic segmentation, instance segmentation, panoptic segmentation), and promptable image segmentation (i.e., interactive segmentation, referring segmentation, few-shot segmentation) -- by delineating their respective task settings, background concepts, and key challenges. Furthermore, we provide insights into the emergence of segmentation knowledge from FMs like CLIP, Stable Diffusion, and DINO. An exhaustive overview of over 300 segmentation approaches is provided to encapsulate the breadth of current research efforts. Subsequently, we engage in a discussion of open issues and potential avenues for future research. We envisage that this fresh, comprehensive, and systematic survey catalyzes the evolution of advanced image segmentation systems.
翻訳日:2024-11-08 05:26:28 公開日:2024-10-29
# ESGの分類と総因子生産性のコーポレート:推論と予測

ESG Rating Disagreement and Corporate Total Factor Productivity:Inference and Prediction ( http://arxiv.org/abs/2408.13895v2 )

ライセンス: Link先を確認
Zhanli Li, (参考訳) 本稿では、2015年から2022年までのA株上場企業のデータに基づいて、ESG評価の不一致(Dis)が中国の企業総因子生産性(TFP)にどのように影響するかを検討する。 DisはTFPを減らし、特に国家所有、資本集約型、低汚染の企業で顕著である。 メカニズム分析により, グリーンイノベーションは, DisのTFPに対する減衰効果を高め, Disは資金調達制約を増大させることで企業TFPを低下させることが明らかとなった。 さらに、XGBoost回帰は、TFPの予測においてDisが重要な役割を担い、SHAPは、TFPに対するESG評価の不一致の減衰効果が依然として大きなDis値を持つ企業で顕著であることを示した。

This paper examines how ESG rating disagreement (Dis) affects corporate total factor productivity (TFP) in China based on data of A-share listed companies from 2015 to 2022. We find that Dis reduces TFP, especially in state-owned, non-capital-intensive, and low-pollution firms. Mechanism analysis shows that green innovation strengthens the dampening effect of Dis on TFP, and that Dis lowers corporate TFP by increasing financing constraints. Furthermore, XGBoost regression demonstrates that Dis plays a significant role in predicting TFP, with SHAP showing that the dampening effect of ESG rating disagreement on TFP is still pronounced in firms with large Dis values.
翻訳日:2024-11-08 05:15:13 公開日:2024-10-29
# ESGの分類と総因子生産性のコーポレート:推論と予測

ESG Rating Disagreement and Corporate Total Factor Productivity:Inference and Prediction ( http://arxiv.org/abs/2408.13895v3 )

ライセンス: Link先を確認
Zhanli Li, Zichao Yang, (参考訳) 本稿では、2015年から2022年までのA株上場企業のデータに基づいて、ESG評価の不一致(Dis)が中国の企業総因子生産性(TFP)にどのように影響するかを検討する。 DisはTFPを減らし、特に国家所有、資本集約型、低汚染の企業で顕著である。 メカニズム分析により, グリーンイノベーションは, DisのTFPに対する減衰効果を高め, Disは資金調達制約を増大させることで企業TFPを低下させることが明らかとなった。 さらに、XGBoost回帰は、TFPの予測においてDisが重要な役割を担い、SHAPは、TFPに対するESG評価の不一致の減衰効果が依然として大きなDis値を持つ企業で顕著であることを示した。

This paper examines how ESG rating disagreement (Dis) affects corporate total factor productivity (TFP) in China based on data of A-share listed companies from 2015 to 2022. We find that Dis reduces TFP, especially in state-owned, non-capital-intensive, and low-pollution firms. Mechanism analysis shows that green innovation strengthens the dampening effect of Dis on TFP, and that Dis lowers corporate TFP by increasing financing constraints. Furthermore, XGBoost regression demonstrates that Dis plays a significant role in predicting TFP, with SHAP showing that the dampening effect of ESG rating disagreement on TFP is still pronounced in firms with large Dis values.
翻訳日:2024-11-08 05:15:13 公開日:2024-10-29
# No Regrets: カリキュラム発見のためのRegret近似の調査と改善

No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery ( http://arxiv.org/abs/2408.15099v3 )

ライセンス: Link先を確認
Alexander Rutherford, Michael Beukman, Timon Willi, Bruno Lacerda, Nick Hawes, Jakob Foerster, (参考訳) 下流のパフォーマンスを改善するためにトレーニングに使用するデータや環境は、強化学習において長く、非常にトピックな問題である。 特に、非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。 本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。 驚くべきことに、理論的に後悔を最大化しようとする手法にもかかわらず、現実的な近似は後悔と相関せず、成功率と相関する。 その結果、エージェントの経験のかなりの部分は、既に習得した環境から来ており、その能力向上への貢献はほとんど、あるいは全く提供されない。 別の言い方をすれば、現在のメソッドは ``learnability' の直感的な測度を予測できない。 特に、エージェントが時折解決できるシナリオを常に識別することはできないが、常にではない。 そこで本研究では,学習性の高いシナリオを直接学習する手法を開発した。 このシンプルで直感的なアプローチは、Minigridの標準ドメインや、現実世界のロボット工学の問題に密接に影響された新しい設定など、いくつかのバイナリアウトカム環境で既存のUEDメソッドよりも優れています。 さらに,リスク条件値(CVaR)を忠実に反映し,ロバスト性を直接測定する新たな逆評価手法を導入する。 すべてのコードをオープンソースにして、最終ポリシーの視覚化を以下に公開しています。

What data or environments to use for training to improve downstream performance is a longstanding and very topical question in reinforcement learning. In particular, Unsupervised Environment Design (UED) methods have gained recent attention as their adaptive curricula promise to enable agents to be robust to in- and out-of-distribution tasks. This work investigates how existing UED methods select training environments, focusing on task prioritisation metrics. Surprisingly, despite methods aiming to maximise regret in theory, the practical approximations do not correlate with regret but with success rate. As a result, a significant portion of an agent's experience comes from environments it has already mastered, offering little to no contribution toward enhancing its abilities. Put differently, current methods fail to predict intuitive measures of ``learnability.'' Specifically, they are unable to consistently identify those scenarios that the agent can sometimes solve, but not always. Based on our analysis, we develop a method that directly trains on scenarios with high learnability. This simple and intuitive approach outperforms existing UED methods in several binary-outcome environments, including the standard domain of Minigrid and a novel setting closely inspired by a real-world robotics problem. We further introduce a new adversarial evaluation procedure for directly measuring robustness, closely mirroring the conditional value at risk (CVaR). We open-source all our code and present visualisations of final policies here: https://github.com/amacrutherford/sampling-for-learnability.
翻訳日:2024-11-08 04:52:58 公開日:2024-10-29
# フェデレートQ-Learningにおけるサンプル・コミュニケーション複合性トレードオフ

The Sample-Communication Complexity Trade-off in Federated Q-Learning ( http://arxiv.org/abs/2408.16981v2 )

ライセンス: Link先を確認
Sudeep Salgia, Yuejie Chi, (参考訳) 我々は、M$エージェントが未知の無限水平マルコフ決定過程の最適Q-関数を有限状態と作用空間で協調的に学習することを目的とした、連合Q-ラーニングの問題を考察する。 広範に使われている間欠的通信アルゴリズムにおけるサンプルと通信複雑性のトレードオフについて検討する。 まず, 対数係数が$\gamma$である場合, 対数係数が$\frac{1}{1-\gamma}$の少なくとも1桁の通信コストを発生させる必要があることを示す。 また,Fed-DVR-Qと呼ばれる新しいアルゴリズムを提案する。このアルゴリズムは,注文-最適サンプルと通信の複雑さを同時に達成する最初のフェデレーションQ-ラーニングアルゴリズムである。 このようにして、これらの結果は、連合Q-ラーニングにおけるサンプル通信複雑性のトレードオフの完全な特徴を与える。

We consider the problem of federated Q-learning, where $M$ agents aim to collaboratively learn the optimal Q-function of an unknown infinite-horizon Markov decision process with finite state and action spaces. We investigate the trade-off between sample and communication complexities for the widely used class of intermittent communication algorithms. We first establish the converse result, where it is shown that a federated Q-learning algorithm that offers any speedup with respect to the number of agents in the per-agent sample complexity needs to incur a communication cost of at least an order of $\frac{1}{1-\gamma}$ up to logarithmic factors, where $\gamma$ is the discount factor. We also propose a new algorithm, called Fed-DVR-Q, which is the first federated Q-learning algorithm to simultaneously achieve order-optimal sample and communication complexities. Thus, together these results provide a complete characterization of the sample-communication complexity trade-off in federated Q-learning.
翻訳日:2024-11-08 04:08:49 公開日:2024-10-29
# コンピュータビジョンにおける非線形弾性モデル

A nonlinear elasticity model in computer vision ( http://arxiv.org/abs/2408.17237v2 )

ライセンス: Link先を確認
John M. Ball, Christopher L. Horner, (参考訳) 本研究の目的は,2つの画像の有界開集合である$\R^n$と関連するベクトル値強度写像を比較するために,著者らが以前に導入した非線形弾性モデルを分析することである。 画像間の最適変換は、配向保存同型間の積分関数のミニミザーとして求められている。 ミニミザーの存在は自然の保磁力と多凸条件の下で証明され、強度関数が有界測定可能であることを仮定する。 存在定理の変数も証明され、まずは2つの画像のランドマーク点の有限集合が一方から他方に写像されるという制約の下で、そしてもう1つの画像が他方の未知の部分と比較されるときである。 線形写像によって関連付けられた画像について、その線形写像により一意最小化器が与えられるかどうかについて検討する。 函数積分の自然なクラスに対しては、この性質が2つ目が定数因子による第1のスケーリングであるような画像の対に対して成り立つことを保証する例が与えられる。 しかし、線形関連画像の任意の対を保持する性質については、積分は行列式のみの凸関数として変換の勾配に依存する必要があることが示されている。 このことは、積分が変換の第2微分にも依存する新しいモデルを示し、最小化子の存在が保証され、上記の性質がすべての線形関連画像に対して成立する例を示す。

The purpose of this paper is to analyze a nonlinear elasticity model previously introduced by the authors for comparing two images, regarded as bounded open subsets of $\R^n$ together with associated vector-valued intensity maps. Optimal transformations between the images are sought as minimisers of an integral functional among orientation-preserving homeomorphisms. The existence of minimisers is proved under natural coercivity and polyconvexity conditions, assuming only that the intensity functions are bounded measurable. Variants of the existence theorem are also proved, first under the constraint that finite sets of landmark points in the two images are mapped one to the other, and second when one image is to be compared to an unknown part of another. The question is studied as to whether for images related by a linear mapping the unique minimizer is given by that linear mapping. For a natural class of functional integrands an example is given guaranteeing that this property holds for pairs of images in which the second is a scaling of the first by a constant factor. However for the property to hold for arbitrary pairs of linearly related images it is shown that the integrand has to depend on the gradient of the transformation as a convex function of its determinant alone. This suggests a new model in which the integrand depends also on second derivatives of the transformation, and an example is given for which both existence of minimizers is assured and the above property holds for all pairs of linearly related images.
翻訳日:2024-11-08 03:57:28 公開日:2024-10-29
# 信頼に値するハイパースペクトル画像分類のための空間認識コンフォーマル予測

Spatial-Aware Conformal Prediction for Trustworthy Hyperspectral Image Classification ( http://arxiv.org/abs/2409.01236v2 )

ライセンス: Link先を確認
Kangdao Liu, Tianhao Sun, Hao Zeng, Yongshan Zhang, Chi-Man Pun, Chi-Man Vong, (参考訳) ハイパースペクトル画像(HSI)分類では、各ピクセルに固有のラベルを割り当て、様々な土地被覆カテゴリを識別する。 深層分類器はこの分野で高い予測精度を達成したが、予測の信頼性を厳格に定量化する能力は欠如している。 モデル予測の確実性を定量化することは、予測モデルの安全な使用に不可欠であり、この制限は、予測エラーのコストが重要なクリティカルコンテキストにおける適用を制限する。 HSI分類器の安全な配置を支援するため、まず、HSI分類の文脈において、出現する不確実性定量化手法、共形予測の妥当性を立証する理論的証明を提供する。 次に、訓練されたHSI分類器に信頼に値する予測セットを付与し、それらのセットがユーザ特定確率(例:95\%)の真のラベルを含むことを保証するコンフォメーション手順を提案する。 本稿では,HSIデータに特化して設計されたコンフォメーション予測フレームワークであるSpatial-Aware Conformal Prediction (\texttt{SACP})を紹介する。 本手法は,高空間相関で画素の不整合スコアを集約することにより,HSIに固有の必須空間情報を統合し,予測セットの効率を効果的に向上する。 理論的および実証的な結果の両方が提案手法の有効性を検証した。 ソースコードは \url{https://github.com/J4ckLiu/SACP} で入手できる。

Hyperspectral image (HSI) classification involves assigning unique labels to each pixel to identify various land cover categories. While deep classifiers have achieved high predictive accuracy in this field, they lack the ability to rigorously quantify confidence in their predictions. Quantifying the certainty of model predictions is crucial for the safe usage of predictive models, and this limitation restricts their application in critical contexts where the cost of prediction errors is significant. To support the safe deployment of HSI classifiers, we first provide a theoretical proof establishing the validity of the emerging uncertainty quantification technique, conformal prediction, in the context of HSI classification. We then propose a conformal procedure that equips any trained HSI classifier with trustworthy prediction sets, ensuring that these sets include the true labels with a user-specified probability (e.g., 95\%). Building on this foundation, we introduce Spatial-Aware Conformal Prediction (\texttt{SACP}), a conformal prediction framework specifically designed for HSI data. This method integrates essential spatial information inherent in HSIs by aggregating the non-conformity scores of pixels with high spatial correlation, which effectively enhances the efficiency of prediction sets. Both theoretical and empirical results validate the effectiveness of our proposed approach. The source code is available at \url{https://github.com/J4ckLiu/SACP}.
翻訳日:2024-11-08 03:23:46 公開日:2024-10-29
# スケーラブルで効果的でステアブルな検索とランキングプラットフォームの構築

Building a Scalable, Effective, and Steerable Search and Ranking Platform ( http://arxiv.org/abs/2409.02856v2 )

ライセンス: Link先を確認
Marjan Celikik, Jacek Wasilewski, Ana Peleteiro Ramallo, Alexey Kurennoy, Evgeny Labzin, Danilo Ascione, Tural Gurbanov, Géraud Le Falher, Andrii Dzhoha, Ian Harris, (参考訳) 現代のeコマースプラットフォームは、膨大な製品選択を提供しており、顧客が自分の好きなアイテムを見つけることが難しく、現在のセッションの意図に関係している。 これが、eコマースプラットフォームが、ほぼリアルタイムでスケーラブルで適応可能なパーソナライズされたランキングと検索システムを持つための鍵となる理由である。 このようなシステムを構築するための科学的文献には多くの方法が存在するが、複雑さと性能の制限のため、大規模産業用途には適さないものが多い。 結果として、産業のランキングシステムは、計算的に効率的で単純化された検索や候補生成のアプローチに頼り、リアルタイムや異質な顧客信号に近づき、パーソナライズされ、関連するエクスペリエンスが低下する。 さらに、関連する顧客エクスペリエンスは、複雑さ、メンテナンス、一貫性のないエクスペリエンスを増大させる、まったく異なるシステムによって提供されます。 本稿では、ブラウジングや検索などさまざまなユースケースで再利用可能な、パーソナライズされた、適応可能な、リアルタイムに近いランキングプラットフォームを提案する。 我々は、顧客行動シーケンスから直接複雑な行動パターンを学習し、時間的(例えば、セッション内)と文脈的情報を組み込むことができる、トランスフォーマーベースのモデルを異なるランキング層を通じて採用する。 我々は、大規模なオンラインeコマースプラットフォームにおいて、オフラインおよびオンライン実世界の一連の総合的な実験を通じてシステムを検証するとともに、顧客エクスペリエンスと純収益の両方の観点から、既存のシステムと比較して、その優位性を実証する。 最後に、大規模なeコマース環境において、包括的で近代的なランキングプラットフォームの構築から学んだ教訓を共有します。

Modern e-commerce platforms offer vast product selections, making it difficult for customers to find items that they like and that are relevant to their current session intent. This is why it is key for e-commerce platforms to have near real-time scalable and adaptable personalized ranking and search systems. While numerous methods exist in the scientific literature for building such systems, many are unsuitable for large-scale industrial use due to complexity and performance limitations. Consequently, industrial ranking systems often resort to computationally efficient yet simplistic retrieval or candidate generation approaches, which overlook near real-time and heterogeneous customer signals, which results in a less personalized and relevant experience. Moreover, related customer experiences are served by completely different systems, which increases complexity, maintenance, and inconsistent experiences. In this paper, we present a personalized, adaptable near real-time ranking platform that is reusable across various use cases, such as browsing and search, and that is able to cater to millions of items and customers under heavy load (thousands of requests per second). We employ transformer-based models through different ranking layers which can learn complex behavior patterns directly from customer action sequences while being able to incorporate temporal (e.g. in-session) and contextual information. We validate our system through a series of comprehensive offline and online real-world experiments at a large online e-commerce platform, and we demonstrate its superiority when compared to existing systems, both in terms of customer experience as well as in net revenue. Finally, we share the lessons learned from building a comprehensive, modern ranking platform for use in a large-scale e-commerce environment.
翻訳日:2024-11-07 23:34:03 公開日:2024-10-29
# プライバタイズドヒストグラムから推定される線形不偏像の良さ

Best Linear Unbiased Estimate from Privatized Histograms ( http://arxiv.org/abs/2409.04387v2 )

ライセンス: Link先を確認
Jordan Awan, Adam Edwards, Paul Bartholomew, Andrew Sillers, (参考訳) 差分プライバシー(DP)メカニズムでは、民営化の異なる組み合わせを組み合わせることで、ある量を推定できるという意味で、「冗長」な出力を解放することは有益である。 実際、この構造はアメリカ合衆国国勢調査局が発行したDP 2020十年国勢調査製品に存在している。 この構造により、DP出力は、自己整合性(すなわち、異なる値を組み合わせて同じ推定結果を得る推定器)を強制することにより改善でき、最小分散処理が線形射影であることを示す。 しかし、標準的なプロジェクションアルゴリズムは、Decennial Censusのようなアプリケーションにおいて、メモリと実行時間の両方の観点から計算的に高価すぎる。 最適線形不偏推定法(SEA BLUE)を2段階のアグリゲーションプロセスに基づいて提案する。 1) 直線的かつ偏見のない手続により自己整合を強制する。 2)計算的かつメモリ効率が高い。 3)一定の構造的前提の下で最小分散解を達成し、 4) 構造的仮定の違反に対して強固であることが実証的に示されている。 そこで本研究では,推定値から信頼区間を計算する3つの手法を提案する。 我々は,2010年国勢調査の2つの製品にSEA BLUEを適用し,そのスケーラビリティと妥当性を考察した。

In differential privacy (DP) mechanisms, it can be beneficial to release "redundant" outputs, in the sense that a quantity can be estimated by combining different combinations of privatized values. Indeed, this structure is present in the DP 2020 Decennial Census products published by the U.S. Census Bureau. With this structure, the DP output can be improved by enforcing self-consistency (i.e., estimators obtained by combining different values result in the same estimate) and we show that the minimum variance processing is a linear projection. However, standard projection algorithms are too computationally expensive in terms of both memory and execution time for applications such as the Decennial Census. We propose the Scalable Efficient Algorithm for Best Linear Unbiased Estimate (SEA BLUE), based on a two step process of aggregation and differencing that 1) enforces self-consistency through a linear and unbiased procedure, 2) is computationally and memory efficient, 3) achieves the minimum variance solution under certain structural assumptions, and 4) is empirically shown to be robust to violations of these structural assumptions. We propose three methods of calculating confidence intervals from our estimates, under various assumptions. We apply SEA BLUE to two 2010 Census demonstration products, illustrating its scalability and validity.
翻訳日:2024-11-07 23:00:54 公開日:2024-10-29
# プライバタイズドヒストグラムから推定される線形不偏像の良さ

Best Linear Unbiased Estimate from Privatized Histograms ( http://arxiv.org/abs/2409.04387v3 )

ライセンス: Link先を確認
Jordan Awan, Adam Edwards, Paul Bartholomew, Andrew Sillers, (参考訳) 差分プライバシー(DP)メカニズムでは、民営化の異なる組み合わせを組み合わせることで、ある量を推定できるという意味で、「冗長」な出力を解放することは有益である。 実際、この構造はアメリカ合衆国国勢調査局が発行したDP 2020十年国勢調査製品に存在している。 この構造により、DP出力は、自己整合性(すなわち、異なる値を組み合わせて同じ推定結果を得る推定器)を強制することにより改善でき、最小分散処理が線形射影であることを示す。 しかし、標準的なプロジェクションアルゴリズムは、Decennial Censusのようなアプリケーションにおいて、メモリと実行時間の両方の観点から計算的に高価すぎる。 最適線形不偏推定法(SEA BLUE)を2段階のアグリゲーションプロセスに基づいて提案する。 1) 直線的かつ偏見のない手続により自己整合を強制する。 2)計算的かつメモリ効率が高い。 3)一定の構造的前提の下で最小分散解を達成し、 4) 構造的仮定の違反に対して強固であることが実証的に示されている。 そこで本研究では,推定値から信頼区間を計算する3つの手法を提案する。 我々は,2010年国勢調査の2つの製品にSEA BLUEを適用し,そのスケーラビリティと妥当性を考察した。

In differential privacy (DP) mechanisms, it can be beneficial to release "redundant" outputs, in the sense that a quantity can be estimated by combining different combinations of privatized values. Indeed, this structure is present in the DP 2020 Decennial Census products published by the U.S. Census Bureau. With this structure, the DP output can be improved by enforcing self-consistency (i.e., estimators obtained by combining different values result in the same estimate) and we show that the minimum variance processing is a linear projection. However, standard projection algorithms are too computationally expensive in terms of both memory and execution time for applications such as the Decennial Census. We propose the Scalable Efficient Algorithm for Best Linear Unbiased Estimate (SEA BLUE), based on a two step process of aggregation and differencing that 1) enforces self-consistency through a linear and unbiased procedure, 2) is computationally and memory efficient, 3) achieves the minimum variance solution under certain structural assumptions, and 4) is empirically shown to be robust to violations of these structural assumptions. We propose three methods of calculating confidence intervals from our estimates, under various assumptions. We apply SEA BLUE to two 2010 Census demonstration products, illustrating its scalability and validity.
翻訳日:2024-11-07 23:00:54 公開日:2024-10-29
# 抽象レベルでの機械と人間の視覚表現の調整

Aligning Machine and Human Visual Representations across Abstraction Levels ( http://arxiv.org/abs/2409.06509v3 )

ライセンス: Link先を確認
Lukas Muttenthaler, Klaus Greff, Frieda Born, Bernhard Spitzer, Simon Kornblith, Michael C. Mozer, Klaus-Robert Müller, Thomas Unterthiner, Andrew K. Lampinen, (参考訳) 深層ニューラルネットワークは、視覚タスクにおける人間の振る舞いのモデルなど、幅広いアプリケーションで成功している。 しかしながら、ニューラルネットワークのトレーニングと人間の学習は基本的な方法で異なり、ニューラルネットワークは人間のように堅牢に一般化することができず、基礎となる表現の類似性に関する疑問が提起される。 現代の学習システムに欠けているのは、もっと人間らしく振る舞うことか? 人間の概念的知識は、きめ細かいものから粗いものまで階層的に構成されているが、モデル表現は、これらの抽象レベルをすべて正確に捉えているわけではない。 このミスアライメントに対処するために、まず、人間の判断を模倣するために教師モデルを訓練し、その表現から人間のような構造を事前訓練された最先端のビジョン基盤モデルに転送する。 これらのヒューマンアライメントモデルは、さまざまなレベルのセマンティック抽象化にまたがる人間の判断の新しいデータセットを含む、幅広い類似性タスクにおける人間の行動と不確実性をより正確に近似する。 さらに、さまざまな機械学習タスクのセットにおいて、より優れたパフォーマンスを実現し、一般化とアウト・オブ・ディストリビューションの堅牢性を高めます。 このように、人的知識を付加してニューラルネットワークを注入すると、人間の認識とより一貫性があり、実用的にも有用である最高の世界表現が得られるため、より堅牢で解釈可能で、人間に似た人工知能システムへの道が開ける。

Deep neural networks have achieved success across a wide range of applications, including as models of human behavior in vision tasks. However, neural network training and human learning differ in fundamental ways, and neural networks often fail to generalize as robustly as humans do, raising questions regarding the similarity of their underlying representations. What is missing for modern learning systems to exhibit more human-like behavior? We highlight a key misalignment between vision models and humans: whereas human conceptual knowledge is hierarchically organized from fine- to coarse-scale distinctions, model representations do not accurately capture all these levels of abstraction. To address this misalignment, we first train a teacher model to imitate human judgments, then transfer human-like structure from its representations into pretrained state-of-the-art vision foundation models. These human-aligned models more accurately approximate human behavior and uncertainty across a wide range of similarity tasks, including a new dataset of human judgments spanning multiple levels of semantic abstractions. They also perform better on a diverse set of machine learning tasks, increasing generalization and out-of-distribution robustness. Thus, infusing neural networks with additional human knowledge yields a best-of-both-worlds representation that is both more consistent with human cognition and more practically useful, thus paving the way toward more robust, interpretable, and human-like artificial intelligence systems.
翻訳日:2024-11-07 22:16:23 公開日:2024-10-29
# データ強化ニューラルネットワークによる多部連続可変絡み合い構造の分類

Classifying Multipartite Continuous Variable Entanglement Structures through Data-augmented Neural Networks ( http://arxiv.org/abs/2409.07909v2 )

ライセンス: Link先を確認
Xiaoting Gao, Mingsheng Tian, Feng-Xiao Sun, Ya-Dong Wu, Yu Xiang, Qiongyi He, (参考訳) ニューラルネットワークは量子情報処理の有望なパラダイムとして登場したが、十分なサイズと多様性を持つトレーニングデータセットの生成という課題に直面している。 例えば、連続変数系における多粒子エンタングルメントの異なる構造を分類するタスクでは、できるだけ多くの種類の非ガウス状態をカバーすることができる多くの無限次元状態データをシミュレートする必要がある。 そこで我々は,ホモダイン計測データを用いて,この課題を完遂するデータ拡張ニューラルネットワークを開発した。 従来のデータ処理技術と量子物理原理に基づく量子データ拡張手法を提案し,ネットワーク性能を効率的に向上する。 ランダムに生成された三分儀状態と四分儀状態の試験により、ネットワークは様々なパーティション間の絡み合い構造を示すことができ、データの増大により精度が大幅に向上することを示した。 我々のアプローチは、大規模ヒルベルト空間で符号化された量子システムを学習するより複雑なタスクに、データ駆動機械学習技術の使用をさらに拡張することを可能にする。

Neural networks have emerged as a promising paradigm for quantum information processing, yet they confront the challenge of generating training datasets with sufficient size and rich diversity, which is particularly acute when dealing with multipartite quantum systems. For instance, in the task of classifying different structures of multipartite entanglement in continuous variable systems, it is necessary to simulate a large number of infinite-dimension state data that can cover as many types of non-Gaussian states as possible. Here, we develop a data-augmented neural network to complete this task with homodyne measurement data. A quantum data augmentation method based on classical data processing techniques and quantum physical principles is proposed to efficiently enhance the network performance. By testing on randomly generated tripartite and quadripartite states, we demonstrate that the network can indicate the entanglement structure among the various partitions and the accuracies are significantly improved with data augmentation. Our approach allows us to further extend the use of data-driven machine learning techniques to more complex tasks of learning quantum systems encoded in a large Hilbert space.
翻訳日:2024-11-07 21:31:36 公開日:2024-10-29
# 差分プライバシーの統計的視点:仮説テスト、表現、ブラックウェルの理論

A Statistical Viewpoint on Differential Privacy: Hypothesis Testing, Representation and Blackwell's Theorem ( http://arxiv.org/abs/2409.09558v2 )

ライセンス: Link先を確認
Weijie J. Su, (参考訳) 差別化プライバシは、堅牢で厳格な保証のため、プライバシ保護データ分析の正式なプライバシとして広く考えられており、公共サービスやアカデミック、業界で広く採用されている。 暗号の文脈に起源があるにもかかわらず、このレビュー論文では、微分プライバシーは基本的には「textit{pure} 統計概念」とみなすことができると論じている。 David Blackwell氏の情報性定理を活用することで、我々の焦点は、事前の作業に基づいて、差分プライバシーのすべての定義が仮説テストの観点から正式に動機付けられることを実証することであり、したがって仮説テストは単に便利なだけでなく、差分プライバシーを推論するための適切な言語であることを示すことである。 この洞察は、表現定理を通じて他の微分プライバシー定義を拡張する$f$-differential privacyの定義につながる。 我々は、データ分析と機械学習におけるプライバシー境界を解析するための統合フレームワークとして、$f$差分プライバシを描画する手法をレビューする。 この差分プライバシー定義のプライベートディープラーニング、プライベート凸最適化、シャッフル機構、および米国国勢調査データへの適用について議論し、既存の代替手段と比較して、このフレームワークの下でのプライバシー境界を分析する利点を強調した。

Differential privacy is widely considered the formal privacy for privacy-preserving data analysis due to its robust and rigorous guarantees, with increasingly broad adoption in public services, academia, and industry. Despite originating in the cryptographic context, in this review paper we argue that, fundamentally, differential privacy can be considered a \textit{pure} statistical concept. By leveraging David Blackwell's informativeness theorem, our focus is to demonstrate based on prior work that all definitions of differential privacy can be formally motivated from a hypothesis testing perspective, thereby showing that hypothesis testing is not merely convenient but also the right language for reasoning about differential privacy. This insight leads to the definition of $f$-differential privacy, which extends other differential privacy definitions through a representation theorem. We review techniques that render $f$-differential privacy a unified framework for analyzing privacy bounds in data analysis and machine learning. Applications of this differential privacy definition to private deep learning, private convex optimization, shuffled mechanisms, and U.S.\ Census data are discussed to highlight the benefits of analyzing privacy bounds under this framework compared to existing alternatives.
翻訳日:2024-11-07 20:46:36 公開日:2024-10-29
# 深部時系列予測における暗黙の推論

Implicit Reasoning in Deep Time Series Forecasting ( http://arxiv.org/abs/2409.10840v3 )

ライセンス: Link先を確認
Willa Potosnak, Cristian Challu, Mononito Goswami, Michał Wiliński, Nina Żukowska, Artur Dubrawski, (参考訳) 近年、時系列基礎モデルでは、幅広い領域から時系列でゼロショット予測性能が期待できることが示されている。 しかし、その成功が時間力学の真の理解によるものなのか、単にトレーニングデータの記憶によるものなのかは定かではない。 言語モデルにおける暗黙的な推論は研究されているが、時系列モデルに対する同様の評価は、ほとんど研究されていない。 この研究は、ディープ時系列予測モデルの推論能力を評価するための最初の一歩を踏み出した。 線形, MLP ベース, パッチベースのトランスフォーマーモデルは, 系統的に編成されたアウト・オブ・ディストリビューションシナリオにおいて効果的に一般化し, 単純なパターン記憶以上の未探索推論能力を示唆している。

Recently, time series foundation models have shown promising zero-shot forecasting performance on time series from a wide range of domains. However, it remains unclear whether their success stems from a true understanding of temporal dynamics or simply from memorizing the training data. While implicit reasoning in language models has been studied, similar evaluations for time series models have been largely unexplored. This work takes an initial step toward assessing the reasoning abilities of deep time series forecasting models. We find that certain linear, MLP-based, and patch-based Transformer models generalize effectively in systematically orchestrated out-of-distribution scenarios, suggesting underexplored reasoning capabilities beyond simple pattern memorization.
翻訳日:2024-11-07 20:24:10 公開日:2024-10-29
# MAISI:シンセティックイメージングのための医療用AI

MAISI: Medical AI for Synthetic Imaging ( http://arxiv.org/abs/2409.11169v2 )

ライセンス: Link先を確認
Pengfei Guo, Can Zhao, Dong Yang, Ziyue Xu, Vishwesh Nath, Yucheng Tang, Benjamin Simon, Mason Belue, Stephanie Harmon, Baris Turkbey, Daguang Xu, (参考訳) 医用画像解析は、データの不足、高アノテーションコスト、プライバシー上の懸念といった課題に直面している。 本稿では,これらの課題に対処するために,拡散モデルを用いて合成3次元CT画像を生成する革新的な手法であるMAISIについて紹介する。 MAISIは基礎ボリューム圧縮ネットワークと潜在拡散モデルを利用して、フレキシブルボリューム次元とボクセル間隔を持つ高解像度CT画像(ランドマークボリューム次元512 x 512 x 768 まで)を生成する。 ControlNetを組み込むことで、MAISIは127の解剖学的構造を含む臓器のセグメンテーションを追加条件として処理し、さまざまな下流タスクに使用できる正確な注釈付き合成画像を生成することができる。 実験の結果,MAISIの様々な領域や条件に対して,現実的で解剖学的に正確な画像を生成する能力は,合成データによる課題の軽減に有望な可能性を示唆している。

Medical imaging analysis faces challenges such as data scarcity, high annotation costs, and privacy concerns. This paper introduces the Medical AI for Synthetic Imaging (MAISI), an innovative approach using the diffusion model to generate synthetic 3D computed tomography (CT) images to address those challenges. MAISI leverages the foundation volume compression network and the latent diffusion model to produce high-resolution CT images (up to a landmark volume dimension of 512 x 512 x 768 ) with flexible volume dimensions and voxel spacing. By incorporating ControlNet, MAISI can process organ segmentation, including 127 anatomical structures, as additional conditions and enables the generation of accurately annotated synthetic images that can be used for various downstream tasks. Our experiment results show that MAISI's capabilities in generating realistic, anatomically accurate images for diverse regions and conditions reveal its promising potential to mitigate challenges using synthetic data.
翻訳日:2024-11-07 20:13:03 公開日:2024-10-29
# CoTにせよCoTにせよ? チェーン・オブ・シンクは数学と記号的推論を主役とする

To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning ( http://arxiv.org/abs/2409.12183v2 )

ライセンス: Link先を確認
Zayne Sprague, Fangcong Yin, Juan Diego Rodriguez, Dongwei Jiang, Manya Wadhwa, Prasann Singhal, Xinyu Zhao, Xi Ye, Kyle Mahowald, Greg Durrett, (参考訳) CoT(Chain-of- Thought)は、大規模言語モデル(LLM)から推論能力を引き出すための事実上の方法である。 しかし、この余分な‘考え’が本当に役に立つのはどんなタスクなのか? これを分析するために,CoTを用いた100以上の論文を対象とした定量的メタ分析を行い,14モデルにまたがる20データセットの評価を行った。 以上の結果から,CoTは数学や論理学に関わるタスクに対して,他のタスクよりもはるかに少ないパフォーマンス上のメリットをもたらすことが示唆された。 MMLUでは、CoTなしで直接答えを生成することは、質問やモデルの応答が等しく、記号的な操作と推論を含まない限り、CoTとほぼ同一の精度をもたらす。 次に,これらの問題に対するCoTの挙動を,計画と実行を分離し,ツール拡張LDMと比較することにより解析する。 CoTの利益の多くはシンボリックな実行の改善によるものだが、シンボリックな解法に比べて性能は劣っている。 この結果から,COTを選択的に適用し,推論コストを抑えながら性能を維持できることが示唆された。 さらに彼らは、プロンプトベースのCoTを超えて、LLMアプリケーション全体にわたって中間計算をよりよく活用する新しいパラダイムに移行する必要性を示唆している。

Chain-of-thought (CoT) via prompting is the de facto method for eliciting reasoning capabilities from large language models (LLMs). But for what kinds of tasks is this extra ``thinking'' really helpful? To analyze this, we conducted a quantitative meta-analysis covering over 100 papers using CoT and ran our own evaluations of 20 datasets across 14 models. Our results show that CoT gives strong performance benefits primarily on tasks involving math or logic, with much smaller gains on other types of tasks. On MMLU, directly generating the answer without CoT leads to almost identical accuracy as CoT unless the question or model's response contains an equals sign, indicating symbolic operations and reasoning. Following this finding, we analyze the behavior of CoT on these problems by separating planning and execution and comparing against tool-augmented LLMs. Much of CoT's gain comes from improving symbolic execution, but it underperforms relative to using a symbolic solver. Our results indicate that CoT can be applied selectively, maintaining performance while saving inference costs. Furthermore, they suggest a need to move beyond prompt-based CoT to new paradigms that better leverage intermediate computation across the whole range of LLM applications.
翻訳日:2024-11-07 19:26:16 公開日:2024-10-29
# 低複雑性データに基づくニューラルネットワークの一般化

Neural Networks Generalize on Low Complexity Data ( http://arxiv.org/abs/2409.12446v1 )

ライセンス: Link先を確認
Sourav Chatterjee, Timothy Sudijono, (参考訳) 本稿では、ReLUを活性化したフィードフォワードニューラルネットワークが、低複雑性データに基づいて一般化されていることを示す。 単純なプログラミング言語から生成されたi.d.データを考えると、データを補間する最小記述長(MDL)フィードフォワードニューラルネットワークは高い確率で一般化する。 我々は、そのようなネットワークの記述長の概念とともに、この単純なプログラミング言語を定義する。 自然数の素性チェックなど,基本的な計算処理の例をいくつか紹介する。 予備性テストでは、以下の定理を示す。 例えば、$\Theta(N^{\delta}\ln N)$のi.d.サンプルを、$\delta\in (0,1)$のとき、ランダムに$$$$から$N$まで均一に値する。 for each number $x_i$, let $y_i = 1$ if $x_i$ is a prime and $0$ if it is not。 そして高い確率で、このデータに適合するMDLネットワークは、新たに引かれた1ドルから$N$の間の数値が素数であるか否かを、テストエラー$\leq O(N^{-\delta})$で正確に答える。 ネットワークは素数を検出するように設計されていないことに注意してください。

We show that feedforward neural networks with ReLU activation generalize on low complexity data, suitably defined. Given i.i.d. data generated from a simple programming language, the minimum description length (MDL) feedforward neural network which interpolates the data generalizes with high probability. We define this simple programming language, along with a notion of description length of such networks. We provide several examples on basic computational tasks, such as checking primality of a natural number, and more. For primality testing, our theorem shows the following. Suppose that we draw an i.i.d. sample of $\Theta(N^{\delta}\ln N)$ numbers uniformly at random from $1$ to $N$, where $\delta\in (0,1)$. For each number $x_i$, let $y_i = 1$ if $x_i$ is a prime and $0$ if it is not. Then with high probability, the MDL network fitted to this data accurately answers whether a newly drawn number between $1$ and $N$ is a prime or not, with test error $\leq O(N^{-\delta})$. Note that the network is not designed to detect primes; minimum description learning discovers a network which does so.
翻訳日:2024-11-07 14:52:37 公開日:2024-10-29
# 低複雑性データに基づくニューラルネットワークの一般化

Neural Networks Generalize on Low Complexity Data ( http://arxiv.org/abs/2409.12446v2 )

ライセンス: Link先を確認
Sourav Chatterjee, Timothy Sudijono, (参考訳) 本稿では、ReLUを活性化したフィードフォワードニューラルネットワークが、低複雑性データに基づいて一般化されていることを示す。 単純なプログラミング言語から生成されたi.d.データを考えると、データを補間する最小記述長(MDL)フィードフォワードニューラルネットワークは高い確率で一般化する。 我々は、そのようなネットワークの記述長の概念とともに、この単純なプログラミング言語を定義する。 自然数の素性チェックなど,基本的な計算処理の例をいくつか紹介する。 予備性テストでは、以下の定理を示す。 例えば、$\Theta(N^{\delta}\ln N)$のi.d.サンプルを、$\delta\in (0,1)$のとき、ランダムに$$$$から$N$まで均一に値する。 for each number $x_i$, let $y_i = 1$ if $x_i$ is a prime and $0$ if it is not。 そして高い確率で、このデータに適合するMDLネットワークは、新たに引かれた1ドルから$N$の間の数値が素数であるか否かを、テストエラー$\leq O(N^{-\delta})$で正確に答える。 ネットワークは素数を検出するように設計されていないことに注意してください。

We show that feedforward neural networks with ReLU activation generalize on low complexity data, suitably defined. Given i.i.d. data generated from a simple programming language, the minimum description length (MDL) feedforward neural network which interpolates the data generalizes with high probability. We define this simple programming language, along with a notion of description length of such networks. We provide several examples on basic computational tasks, such as checking primality of a natural number, and more. For primality testing, our theorem shows the following. Suppose that we draw an i.i.d. sample of $\Theta(N^{\delta}\ln N)$ numbers uniformly at random from $1$ to $N$, where $\delta\in (0,1)$. For each number $x_i$, let $y_i = 1$ if $x_i$ is a prime and $0$ if it is not. Then with high probability, the MDL network fitted to this data accurately answers whether a newly drawn number between $1$ and $N$ is a prime or not, with test error $\leq O(N^{-\delta})$. Note that the network is not designed to detect primes; minimum description learning discovers a network which does so.
翻訳日:2024-11-07 14:52:37 公開日:2024-10-29
# GStex: 2次元ガウス平滑化による非結合外観と幾何学的モデリング

GStex: Per-Primitive Texturing of 2D Gaussian Splatting for Decoupled Appearance and Geometry Modeling ( http://arxiv.org/abs/2409.12954v1 )

ライセンス: Link先を確認
Victor Rong, Jingxiang Chen, Sherwin Bahmani, Kiriakos N. Kutulakos, David B. Lindell, (参考訳) ガウススプラッティングは、ビュー合成とシーン再構成に優れた性能を示した。 この表現は、シーン内の数千から数百万の2Dまたは3Dガウスプリミティブの位置、スケール、色、不透明度を最適化することで、光現実的な品質を達成する。 しかし、それぞれのガウス原始体は外観と幾何学の両方をエンコードしているため、これらの属性は強く結合している-つまり、高忠実な外観モデリングは、シーン幾何学が単純である場合でも、多数のガウス原始体を必要とする(例えば、テクスチャ化された平面面)。 本稿では,各2次元ガウス原始体をテクスチャ化し,単一のガウス原始体でも外観の詳細を把握できるようにすることを提案する。 初歩的なテクスチャを利用することで、我々の外観表現は、シーンの幾何学のトポロジと複雑さに無関係である。 提案手法であるGStexは,ガウススプラッツのテクスチャ化における先行作業よりも視覚的品質の向上を図っている。 さらに,このデカップリングにより,ガウスプリミティブの数を減らした2次元ガウススプラッティングと比較して,新規なビュー合成性能が向上し,シーンの編集や再テクスチャにGStexが利用できることを示す。

Gaussian splatting has demonstrated excellent performance for view synthesis and scene reconstruction. The representation achieves photorealistic quality by optimizing the position, scale, color, and opacity of thousands to millions of 2D or 3D Gaussian primitives within a scene. However, since each Gaussian primitive encodes both appearance and geometry, these attributes are strongly coupled--thus, high-fidelity appearance modeling requires a large number of Gaussian primitives, even when the scene geometry is simple (e.g., for a textured planar surface). We propose to texture each 2D Gaussian primitive so that even a single Gaussian can be used to capture appearance details. By employing per-primitive texturing, our appearance representation is agnostic to the topology and complexity of the scene's geometry. We show that our approach, GStex, yields improved visual quality over prior work in texturing Gaussian splats. Furthermore, we demonstrate that our decoupling enables improved novel view synthesis performance compared to 2D Gaussian splatting when reducing the number of Gaussian primitives, and that GStex can be used for scene appearance editing and re-texturing.
翻訳日:2024-11-07 12:48:01 公開日:2024-10-29
# 性能とパワー: CARAMLを用いた加速器上でのAIワークロードのシステム評価

Performance and Power: Systematic Evaluation of AI Workloads on Accelerators with CARAML ( http://arxiv.org/abs/2409.12994v1 )

ライセンス: Link先を確認
Chelsea Maria John, Stepan Nassyr, Carolin Penke, Andreas Herten, (参考訳) 機械学習(ML)技術の急速な進歩により、より効率的なモデルトレーニングを容易にするように設計された特別なハードウェアアクセラレータの開発が進められた。 本稿では,NVIDIA,AMD,Graphcoreなどのハードウェアアクセラレータ上で,トランスフォーマーベースの大規模言語モデルとコンピュータビジョンモデルのトレーニング中に,パフォーマンスとエネルギー消費を評価するためのベンチマークスイートCARAMLを紹介する。 CARAMLは、さまざまな新しいハードウェアアーキテクチャにわたるMLワークロードのパフォーマンスとエネルギを評価するための、コンパクトで、自動化され、拡張可能で、再現可能なフレームワークを提供する。 CARAMLの設計と実装、およびjpwrと呼ばれるカスタムパワー測定ツールについて詳述する。

The rapid advancement of machine learning (ML) technologies has driven the development of specialized hardware accelerators designed to facilitate more efficient model training. This paper introduces the CARAML benchmark suite, which is employed to assess performance and energy consumption during the training of transformer-based large language models and computer vision models on a range of hardware accelerators, including systems from NVIDIA, AMD, and Graphcore. CARAML provides a compact, automated, extensible, and reproducible framework for assessing the performance and energy of ML workloads across various novel hardware architectures. The design and implementation of CARAML, along with a custom power measurement tool called jpwr, are discussed in detail.
翻訳日:2024-11-07 12:25:44 公開日:2024-10-29
# 性能とパワー: CARAMLを用いた加速器上でのAIワークロードのシステム評価

Performance and Power: Systematic Evaluation of AI Workloads on Accelerators with CARAML ( http://arxiv.org/abs/2409.12994v2 )

ライセンス: Link先を確認
Chelsea Maria John, Stepan Nassyr, Carolin Penke, Andreas Herten, (参考訳) 機械学習(ML)技術の急速な進歩により、より効率的なモデルトレーニングを容易にするように設計された特別なハードウェアアクセラレータの開発が進められた。 本稿では,NVIDIA,AMD,Graphcoreなどのハードウェアアクセラレータ上で,トランスフォーマーベースの大規模言語モデルとコンピュータビジョンモデルのトレーニング中に,パフォーマンスとエネルギー消費を評価するためのベンチマークスイートCARAMLを紹介する。 CARAMLは、さまざまな新しいハードウェアアーキテクチャにわたるMLワークロードのパフォーマンスとエネルギを評価するための、コンパクトで、自動化され、拡張可能で、再現可能なフレームワークを提供する。 CARAMLの設計と実装、およびjpwrと呼ばれるカスタムパワー測定ツールについて詳述する。

The rapid advancement of machine learning (ML) technologies has driven the development of specialized hardware accelerators designed to facilitate more efficient model training. This paper introduces the CARAML benchmark suite, which is employed to assess performance and energy consumption during the training of transformer-based large language models and computer vision models on a range of hardware accelerators, including systems from NVIDIA, AMD, and Graphcore. CARAML provides a compact, automated, extensible, and reproducible framework for assessing the performance and energy of ML workloads across various novel hardware architectures. The design and implementation of CARAML, along with a custom power measurement tool called jpwr, are discussed in detail.
翻訳日:2024-11-07 12:25:44 公開日:2024-10-29
# 安全な多言語フロンティアAIを目指して

Towards Safe Multilingual Frontier AI ( http://arxiv.org/abs/2409.13708v1 )

ライセンス: Link先を確認
Artūrs Kanepajs, Vladimir Ivanov, Richard Moulange, (参考訳) 言語的に包括的なLLM -- それらが引き起こされる言語に関係なく、優れたパフォーマンスを維持する — は、世界中のAI利益の拡散に必要である。 安全対策を回避するために言語翻訳に依存する多言語ジェイルブレイクは、AIシステムの安全かつ包括的デプロイを損なう。 我々は、多言語ジェイルブレイクのリスクを軽減しつつ、AIの多言語能力を高めるためのポリシーレコメンデーションを提供する。 言語リソース度とモデル脆弱性とマルチ言語ジェイルブレイクとの関係を,EUの公式言語24言語を対象とした5つのフロンティア大言語モデルで定量的に評価する。 先行研究に基づき、多言語ジェイルブレイクに対処しつつ、言語的傾向を推進しつつ、EUの法的な景観と制度的な枠組みに沿った政策行動を提案する。 これには、多言語能力と脆弱性の必須評価、世論調査、多言語AI開発のための状態サポートが含まれる。 この措置は、EUの政策イニシアチブを通じてAIの安全性と機能を向上し、EUのAI法の実装を指導し、欧州のAIオフィスの規制を指示することを目的としている。

Linguistically inclusive LLMs -- which maintain good performance regardless of the language with which they are prompted -- are necessary for the diffusion of AI benefits around the world. Multilingual jailbreaks that rely on language translation to evade safety measures undermine the safe and inclusive deployment of AI systems. We provide policy recommendations to enhance the multilingual capabilities of AI while mitigating the risks of multilingual jailbreaks. We quantitatively assess the relationship between language resourcedness and model vulnerabilities to multilingual jailbreaks for five frontier large language models across 24 official EU languages. Building on prior research, we propose policy actions that align with the EU legal landscape and institutional framework to address multilingual jailbreaks, while promoting linguistic inclusivity. These include mandatory assessments of multilingual capabilities and vulnerabilities, public opinion research, and state support for multilingual AI development. The measures aim to improve AI safety and functionality through EU policy initiatives, guiding the implementation of the EU AI Act and informing regulatory efforts of the European AI Office.
翻訳日:2024-11-07 05:46:28 公開日:2024-10-29
# 安全な多言語フロンティアAIを目指して

Towards Safe Multilingual Frontier AI ( http://arxiv.org/abs/2409.13708v2 )

ライセンス: Link先を確認
Artūrs Kanepajs, Vladimir Ivanov, Richard Moulange, (参考訳) 言語的に包括的なLLM -- それらが引き起こされる言語に関係なく、優れたパフォーマンスを維持する — は、世界中のAI利益の拡散に必要である。 安全対策を回避するために言語翻訳に依存する多言語ジェイルブレイクは、AIシステムの安全かつ包括的デプロイを損なう。 我々は、多言語ジェイルブレイクのリスクを軽減しつつ、AIの多言語能力を高めるためのポリシーレコメンデーションを提供する。 言語の再ソーシングのレベルが、言語内の多言語ジェイルブレイクに対するLLMの脆弱さとどのように関係しているかを検討する。 私たちは、EUの24の公用語で5つの高度なAIモデルをテストしています。 先行研究に基づき、多言語ジェイルブレイクに対処しつつ、言語的傾向を推進しつつ、EUの法的な景観と制度的な枠組みに沿った政策行動を提案する。 これには、多言語能力と脆弱性の必須評価、世論調査、多言語AI開発のための状態サポートが含まれる。 この措置は、EUの政策イニシアチブを通じてAIの安全性と機能を向上し、EUのAI法の実装を指導し、欧州のAIオフィスの規制を指示することを目的としている。

Linguistically inclusive LLMs -- which maintain good performance regardless of the language with which they are prompted -- are necessary for the diffusion of AI benefits around the world. Multilingual jailbreaks that rely on language translation to evade safety measures undermine the safe and inclusive deployment of AI systems. We provide policy recommendations to enhance the multilingual capabilities of AI while mitigating the risks of multilingual jailbreaks. We examine how a language's level of resourcing relates to how vulnerable LLMs are to multilingual jailbreaks in that language. We do this by testing five advanced AI models across 24 official languages of the EU. Building on prior research, we propose policy actions that align with the EU legal landscape and institutional framework to address multilingual jailbreaks, while promoting linguistic inclusivity. These include mandatory assessments of multilingual capabilities and vulnerabilities, public opinion research, and state support for multilingual AI development. The measures aim to improve AI safety and functionality through EU policy initiatives, guiding the implementation of the EU AI Act and informing regulatory efforts of the European AI Office.
翻訳日:2024-11-07 05:46:28 公開日:2024-10-29
# LLMのためのトリプルの知識:意味抽出によるテーブルQA精度の向上

Knowledge in Triples for LLMs: Enhancing Table QA Accuracy with Semantic Extraction ( http://arxiv.org/abs/2409.14192v1 )

ライセンス: Link先を確認
Hossein Sholehrasa, Sanaz Saki Norouzi, Pascal Hitzler, Majid Jaberi-Douraki, (参考訳) 表形式から構造化された知識を統合することは、主にFeTaQAデータセットに見られるような複雑な半構造化テーブルを扱う場合、自然言語処理(NLP)において大きな課題となる。 これらのテーブルは、意味のある応答を正確に解釈し、生成する高度な方法を必要とする。 SQLやSPARQLといった従来のアプローチは、特にWebテーブルのような不規則なテーブル構造が存在する場合、このようなデータのセマンティクスを完全にキャプチャできないことが多い。 本稿では,グラフデータから直接三重項を抽出し,それを検索拡張生成(RAG)モデルに統合し,微調整GPT-3.5-turbo-0125モデルにより生成された応答の精度,コヒーレンス,文脈的豊かさを向上させることによって,これらの課題に対処する。 FeTaQAデータセットの既存のベースライン、特にSacre-BLEUとROUGEの指標に優れています。 表から文脈的に正確で詳細な長文の回答を効果的に生成し、複雑なデータ解釈においてその強みを示す。

Integrating structured knowledge from tabular formats poses significant challenges within natural language processing (NLP), mainly when dealing with complex, semi-structured tables like those found in the FeTaQA dataset. These tables require advanced methods to interpret and generate meaningful responses accurately. Traditional approaches, such as SQL and SPARQL, often fail to fully capture the semantics of such data, especially in the presence of irregular table structures like web tables. This paper addresses these challenges by proposing a novel approach that extracts triples straightforward from tabular data and integrates it with a retrieval-augmented generation (RAG) model to enhance the accuracy, coherence, and contextual richness of responses generated by a fine-tuned GPT-3.5-turbo-0125 model. Our approach significantly outperforms existing baselines on the FeTaQA dataset, particularly excelling in Sacre-BLEU and ROUGE metrics. It effectively generates contextually accurate and detailed long-form answers from tables, showcasing its strength in complex data interpretation.
翻訳日:2024-11-06 23:48:26 公開日:2024-10-29
# LLMのためのトリプルの知識:意味抽出によるテーブルQA精度の向上

Knowledge in Triples for LLMs: Enhancing Table QA Accuracy with Semantic Extraction ( http://arxiv.org/abs/2409.14192v2 )

ライセンス: Link先を確認
Hossein Sholehrasa, Sanaz Saki Norouzi, Pascal Hitzler, Majid Jaberi-Douraki, (参考訳) 表形式から構造化された知識を統合することは、主にFeTaQAデータセットに見られるような複雑な半構造化テーブルを扱う場合、自然言語処理(NLP)において大きな課題となる。 これらのテーブルは、意味のある応答を正確に解釈し、生成する高度な方法を必要とする。 SQLやSPARQLといった従来のアプローチは、特にWebテーブルのような不規則なテーブル構造が存在する場合、このようなデータのセマンティクスを完全にキャプチャできないことが多い。 本稿では,グラフデータから直接三重項を抽出し,それを検索拡張生成(RAG)モデルに統合し,微調整GPT-3.5-turbo-0125モデルにより生成された応答の精度,コヒーレンス,文脈的豊かさを向上させることによって,これらの課題に対処する。 FeTaQAデータセットの既存のベースライン、特にSacre-BLEUとROUGEの指標に優れています。 表から文脈的に正確で詳細な長文の回答を効果的に生成し、複雑なデータ解釈においてその強みを示す。

Integrating structured knowledge from tabular formats poses significant challenges within natural language processing (NLP), mainly when dealing with complex, semi-structured tables like those found in the FeTaQA dataset. These tables require advanced methods to interpret and generate meaningful responses accurately. Traditional approaches, such as SQL and SPARQL, often fail to fully capture the semantics of such data, especially in the presence of irregular table structures like web tables. This paper addresses these challenges by proposing a novel approach that extracts triples straightforward from tabular data and integrates it with a retrieval-augmented generation (RAG) model to enhance the accuracy, coherence, and contextual richness of responses generated by a fine-tuned GPT-3.5-turbo-0125 model. Our approach significantly outperforms existing baselines on the FeTaQA dataset, particularly excelling in Sacre-BLEU and ROUGE metrics. It effectively generates contextually accurate and detailed long-form answers from tables, showcasing its strength in complex data interpretation.
翻訳日:2024-11-06 23:48:26 公開日:2024-10-29
# Eagle: マルチLLM推論のための効率的なトレーニングフリールータ

Eagle: Efficient Training-Free Router for Multi-LLM Inference ( http://arxiv.org/abs/2409.15518v2 )

ライセンス: Link先を確認
Zesen Zhao, Shuowei Jin, Z. Morley Mao, (参考訳) さまざまな能力とコストを持つ大規模言語モデル(LLM)の普及は、AIシステムにおける効率的なモデル選択の必要性を生み出している。 LLMルータは、タスク要求と予算制約に基づいて、与えられたクエリの最も適切なモデルを動的に選択することで、このニーズに対処する。 しかし、既存のルータはスケーラビリティとリアルタイム適応の課題に直面する。 この制限を克服するために,グローバルおよびローカルELOランキングモジュールを組み合わせた新しいLLMルーティング手法であるEagleを提案する。 一般的なLLM能力と専門的なLLM能力の両方を評価することで、Eagleは、計算オーバーヘッドを低減しつつ、モデル選択の品質を向上させるスケーラブルでトレーニング不要なソリューションを提供する。 複数のデータセットに対する我々の実験では、Eagleは、AUC(Area Under Curve)スコアで最大23.2%の改善とともに、ベースラインメソッドを一貫して上回っている。 さらにEagleは、オンラインシナリオのインクリメンタルアップデートを100~200倍早く行うために、ベースラインメソッドの1/20しか必要とせず、動的で高ボリュームのオンラインサービス環境に適しています。

The proliferation of Large Language Models (LLMs) with varying capabilities and costs has created a need for efficient model selection in AI systems. LLM routers address this need by dynamically choosing the most suitable model for a given query based on task requirements and budget constraints. However, existing routers face challenges in scalability and real-time adaptation, particularly in high-volume online environments. We present Eagle, a novel LLM routing approach that combines global and local ELO ranking modules to overcome these limitations. By evaluating both general and specialized LLM abilities, Eagle provides a scalable, training-free solution that enhances model selection quality while reducing computational overhead. Our experiments across multiple datasets show Eagle consistently outperforms baseline methods, with improvements of up to 23.52 percent in Area Under Curve (AUC) scores. Moreover, Eagle demonstrates remarkable efficiency, requiring only 1/20 of baseline methods' time for initialization and 100 to 200 times faster incremental updates in online scenarios, making it well-suited for dynamic, high-volume online serving environments.
翻訳日:2024-11-06 19:43:38 公開日:2024-10-29
# 完全適応に基づくグローバルローカル医療用SAMアダプタ

Global-Local Medical SAM Adaptor Based on Full Adaption ( http://arxiv.org/abs/2409.17486v2 )

ライセンス: Link先を確認
Meng Wang, Yarong Feng, Yongwei Tang, Tian Zhang, Yuxin Liang, Chao Lv, (参考訳) セグメンテーションモデル(SAM)のような視覚言語モデルの創出は、普遍的なセグメンテーションの分野で大きなブレークスルーをもたらし、特にメディカルSAMアダプタ(Med-SA)の助けを借りて、医用画像セグメンテーションの改善に大きく貢献している。 しかし、Med-SAはSAMを部分適応的に微調整するので改善できる。 この問題を解決するため,グローバルなSAM適応器 (GMed-SA) を提案する。 GMed-SA と Med-SA を併用し,グローバル・ローカルな SAM 適応器 (GLMed-SA) を提案する。 挑戦的な2Dメラノーマセグメンテーションデータセット上で大規模な実験が行われた。 その結果, GLMed-SAは様々な評価指標において, 最先端のセマンティックセマンティックセマンティックセマンティクス法よりも優れており, 本手法の優位性を示している。

Emerging of visual language models, such as the segment anything model (SAM), have made great breakthroughs in the field of universal semantic segmentation and significantly aid the improvements of medical image segmentation, in particular with the help of Medical SAM adaptor (Med-SA). However, Med-SA still can be improved, as it fine-tunes SAM in a partial adaption manner. To resolve this problem, we present a novel global medical SAM adaptor (GMed-SA) with full adaption, which can adapt SAM globally. We further combine GMed-SA and Med-SA to propose a global-local medical SAM adaptor (GLMed-SA) to adapt SAM both globally and locally. Extensive experiments have been performed on the challenging public 2D melanoma segmentation dataset. The results show that GLMed-SA outperforms several state-of-the-art semantic segmentation methods on various evaluation metrics, demonstrating the superiority of our methods.
翻訳日:2024-11-06 16:30:51 公開日:2024-10-29
# ZALM3:マルチターンマルチモーダル医療対話におけるインコンテキスト情報による視覚言語アライメントのゼロショット向上

ZALM3: Zero-Shot Enhancement of Vision-Language Alignment via In-Context Information in Multi-Turn Multimodal Medical Dialogue ( http://arxiv.org/abs/2409.17610v2 )

ライセンス: Link先を確認
Zhangpu Li, Changhong Zou, Suxue Ma, Zhicheng Yang, Chen Du, Youbao Tang, Zhenjie Cao, Ning Zhang, Jui-Hsin Lai, Ruei-Sung Lin, Yuan Ni, Xingzhi Sun, Jing Xiao, Jieke Hou, Kai Zhang, Mei Han, (参考訳) 近年の大型言語モデル(LLM)の隆盛は、医療分野におけるビジョン言語モデル(VLM)の普及を加速させている。 オンライン医療相談のシナリオでは、医師は患者が複数のラウンドで提供したテキストや画像に反応して健康状態を診断し、マルチターンマルチモーダル医療対話フォーマットを形成する。 従来の医療用視覚質問応答 (Med-VQA) において, 専門機器が取得した高品質な画像とは違って, 症例内の画像は患者の携帯電話で撮影される。 これらの画像は、過剰な背景要素や病変領域がかなりオフセンタであるなどの問題があり、モデルトレーニングフェーズにおける視覚言語アライメントの低下につながる。 本稿では,マルチターンマルチモーダル医療対話における視覚言語アライメント向上のためのゼロショット戦略であるZALM3を提案する。 そこでZALM3では,画像前のテキスト会話が画像中の関心領域(RoIs)を推測できるので,先行コンテキストからキーワードを要約するLLMと,RoIsを抽出するビジュアルグラウンドモデルを用いる。 更新された画像は、不要な背景ノイズを排除し、より効果的な視覚言語アライメントを提供する。 提案手法をよりよく評価するために,マルチターン・ユニモーダル・マルチモーダル医療対話のための主観評価尺度を設計し,詳細な性能比較を行う。 本研究は,3つの異なる臨床部門を対象に,統計的に有意なZALM3の有効性を示した。

The rocketing prosperity of large language models (LLMs) in recent years has boosted the prevalence of vision-language models (VLMs) in the medical sector. In our online medical consultation scenario, a doctor responds to the texts and images provided by a patient in multiple rounds to diagnose her/his health condition, forming a multi-turn multimodal medical dialogue format. Unlike high-quality images captured by professional equipment in traditional medical visual question answering (Med-VQA), the images in our case are taken by patients' mobile phones. These images have poor quality control, with issues such as excessive background elements and the lesion area being significantly off-center, leading to degradation of vision-language alignment in the model training phase. In this paper, we propose ZALM3, a Zero-shot strategy to improve vision-language ALignment in Multi-turn Multimodal Medical dialogue. Since we observe that the preceding text conversations before an image can infer the regions of interest (RoIs) in the image, ZALM3 employs an LLM to summarize the keywords from the preceding context and a visual grounding model to extract the RoIs. The updated images eliminate unnecessary background noise and provide more effective vision-language alignment. To better evaluate our proposed method, we design a new subjective assessment metric for multi-turn unimodal/multimodal medical dialogue to provide a fine-grained performance comparison. Our experiments across three different clinical departments remarkably demonstrate the efficacy of ZALM3 with statistical significance.
翻訳日:2024-11-06 16:10:55 公開日:2024-10-29
# EMOVA: 生き生きとした感情を見たり、耳を傾けたり、話すことのできる言語モデル

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions ( http://arxiv.org/abs/2409.18042v2 )

ライセンス: Link先を確認
Kai Chen, Yunhao Gou, Runhui Huang, Zhili Liu, Daxin Tan, Jing Xu, Chunwei Wang, Yi Zhu, Yihan Zeng, Kuo Yang, Dingdong Wang, Kun Xiang, Haoyuan Li, Haoli Bai, Jianhua Han, Xiaohui Li, Weike Jin, Nian Xie, Yu Zhang, James T. Kwok, Hengshuang Zhao, Xiaodan Liang, Dit-Yan Yeung, Xiao Chen, Zhenguo Li, Wei Zhang, Qun Liu, Jun Yao, Lanqing Hong, Lu Hou, Hang Xu, (参考訳) GPT-4oは、多様な感情やトーンによる声の会話を可能にするオムニモーダルモデルであり、オムニモーダル基礎モデルのマイルストーンとなっている。 しかし、大規模言語モデルにイメージ、テキスト、スピーチを認識・生成する権限を与えることは、オープンソースコミュニティでは依然として困難である。 既存の視覚言語モデルは、音声処理のための外部ツールに依存しているが、音声言語モデルは、まだ限られた、あるいは、視覚的に理解できない能力に悩まされている。 このギャップに対処するため,我々は,主要な視覚言語性能を維持しつつ,エンドツーエンドの音声機能を備えた大規模言語モデルを実現するためのEMOVA (EMotionally Omni-present Voice Assistant) を提案する。 セマンティック・アコースティック・ディコンタングルド・スピーチ・トークンーザでは、オムニモーダル・アライメントが、対応するバイモーダル・アライメント・アライメントと比較して、視覚言語や音声の能力をさらに向上させることに驚く。 さらに、フレキシブルな音声スタイル制御(例えば、感情やピッチ)のために軽量なスタイルモジュールを提案する。 EMOVAは、視覚言語と音声のベンチマークの両方で最先端のパフォーマンスを初めて達成し、一方、鮮やかな感情を伴う全モードの音声対話をサポートする。

GPT-4o, an omni-modal model that enables vocal conversations with diverse emotions and tones, marks a milestone for omni-modal foundation models. However, empowering Large Language Models to perceive and generate images, texts, and speeches end-to-end with publicly available data remains challenging in the open-source community. Existing vision-language models rely on external tools for the speech processing, while speech-language models still suffer from limited or even without vision-understanding abilities. To address this gap, we propose EMOVA (EMotionally Omni-present Voice Assistant), to enable Large Language Models with end-to-end speech capabilities while maintaining the leading vision-language performance. With a semantic-acoustic disentangled speech tokenizer, we notice surprisingly that omni-modal alignment can further enhance vision-language and speech abilities compared with the corresponding bi-modal aligned counterparts. Moreover, a lightweight style module is proposed for flexible speech style controls (e.g., emotions and pitches). For the first time, EMOVA achieves state-of-the-art performance on both the vision-language and speech benchmarks, and meanwhile, supporting omni-modal spoken dialogue with vivid emotions.
翻訳日:2024-11-06 15:51:02 公開日:2024-10-29
# 大規模言語モデルに対する有害な微調整攻撃と防御:調査

Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey ( http://arxiv.org/abs/2409.18169v1 )

ライセンス: Link先を確認
Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu, (参考訳) ユーザによってアップロードされたいくつかの有害なデータを微調整することで、モデルの安全性の整合性を損なう可能性がある。 有害な微調整として知られるこの攻撃は、コミュニティの間で幅広い研究の関心を集めている。 しかし、攻撃はまだ新しいので、研究コミュニティには一般的な誤解があることを惨めな提出経験から観察する。 目的は,攻撃設定に関する共通懸念を解消し,研究課題を正式に確立することである。 具体的には、まず、問題の脅威モデルを示し、有害な微調整攻撃とそのバリエーションを紹介する。 そして,既存の文献を攻撃・防衛・機械的分析で体系的に調査する。 最後に,この分野の発展に寄与する可能性のある今後の研究の方向性について概説する。 また、ピアレビュープロセスのレビュー担当者が実験・攻撃・防衛設定の現実性に疑問を呈する場合、興味のある質問のリストを提示する。 関連論文のキュレートされたリストは、以下の通り維持され、アクセス可能である。 ※

Recent research demonstrates that the nascent fine-tuning-as-a-service business model exposes serious safety concerns -- fine-tuning over a few harmful data uploaded by the users can compromise the safety alignment of the model. The attack, known as harmful fine-tuning, has raised a broad research interest among the community. However, as the attack is still new, \textbf{we observe from our miserable submission experience that there are general misunderstandings within the research community.} We in this paper aim to clear some common concerns for the attack setting, and formally establish the research problem. Specifically, we first present the threat model of the problem, and introduce the harmful fine-tuning attack and its variants. Then we systematically survey the existing literature on attacks/defenses/mechanical analysis of the problem. Finally, we outline future research directions that might contribute to the development of the field. Additionally, we present a list of questions of interest, which might be useful to refer to when reviewers in the peer review process question the realism of the experiment/attack/defense setting. A curated list of relevant papers is maintained and made accessible at: \url{https://github.com/git-disl/awesome_LLM-harmful-fine-tuning-papers.}
翻訳日:2024-11-06 15:31:31 公開日:2024-10-29
# 大規模言語モデルに対する有害な微調整攻撃と防御:調査

Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey ( http://arxiv.org/abs/2409.18169v2 )

ライセンス: Link先を確認
Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu, (参考訳) ユーザによってアップロードされたいくつかの有害なデータを微調整することで、モデルの安全性の整合性を損なう可能性がある。 有害な微調整として知られるこの攻撃は、コミュニティの間で幅広い研究の関心を集めている。 しかし、攻撃はまだ新しいので、研究コミュニティには一般的な誤解があることを惨めな提出経験から観察する。 目的は,攻撃設定に関する共通懸念を解消し,研究課題を正式に確立することである。 具体的には、まず、問題の脅威モデルを示し、有害な微調整攻撃とそのバリエーションを紹介する。 そして,既存の文献を攻撃・防衛・機械的分析で体系的に調査する。 最後に,この分野の発展に寄与する可能性のある今後の研究の方向性について概説する。 また、ピアレビュープロセスのレビュー担当者が実験・攻撃・防衛設定の現実性に疑問を呈する場合、興味のある質問のリストを提示する。 関連論文のキュレートされたリストは、以下の通り維持され、アクセス可能である。

Recent research demonstrates that the nascent fine-tuning-as-a-service business model exposes serious safety concerns -- fine-tuning over a few harmful data uploaded by the users can compromise the safety alignment of the model. The attack, known as harmful fine-tuning, has raised a broad research interest among the community. However, as the attack is still new, \textbf{we observe from our miserable submission experience that there are general misunderstandings within the research community.} We in this paper aim to clear some common concerns for the attack setting, and formally establish the research problem. Specifically, we first present the threat model of the problem, and introduce the harmful fine-tuning attack and its variants. Then we systematically survey the existing literature on attacks/defenses/mechanical analysis of the problem. Finally, we outline future research directions that might contribute to the development of the field. Additionally, we present a list of questions of interest, which might be useful to refer to when reviewers in the peer review process question the realism of the experiment/attack/defense setting. A curated list of relevant papers is maintained and made accessible at: \url{https://github.com/git-disl/awesome_LLM-harmful-fine-tuning-papers}.
翻訳日:2024-11-06 15:31:30 公開日:2024-10-29
# 大規模言語モデルに対する有害な微調整攻撃と防御:調査

Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey ( http://arxiv.org/abs/2409.18169v3 )

ライセンス: Link先を確認
Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu, (参考訳) ユーザによってアップロードされたいくつかの有害なデータを微調整することで、モデルの安全性の整合性を損なう可能性がある。 有害な微調整として知られるこの攻撃は、コミュニティの間で幅広い研究の関心を集めている。 しかし、攻撃はまだ新しいので、研究コミュニティには一般的な誤解があることを惨めな提出経験から観察する。 目的は,攻撃設定に関する共通懸念を解消し,研究課題を正式に確立することである。 具体的には、まず、問題の脅威モデルを示し、有害な微調整攻撃とそのバリエーションを紹介する。 そして,既存の文献を攻撃・防衛・機械的分析で体系的に調査する。 最後に,この分野の発展に寄与する可能性のある今後の研究の方向性について概説する。 また、ピアレビュープロセスのレビュー担当者が実験・攻撃・防衛設定の現実性に疑問を呈する場合、興味のある質問のリストを提示する。 関連論文のキュレートされたリストは、以下の通り維持され、アクセス可能である。

Recent research demonstrates that the nascent fine-tuning-as-a-service business model exposes serious safety concerns -- fine-tuning over a few harmful data uploaded by the users can compromise the safety alignment of the model. The attack, known as harmful fine-tuning, has raised a broad research interest among the community. However, as the attack is still new, \textbf{we observe from our miserable submission experience that there are general misunderstandings within the research community.} We in this paper aim to clear some common concerns for the attack setting, and formally establish the research problem. Specifically, we first present the threat model of the problem, and introduce the harmful fine-tuning attack and its variants. Then we systematically survey the existing literature on attacks/defenses/mechanical analysis of the problem. Finally, we outline future research directions that might contribute to the development of the field. Additionally, we present a list of questions of interest, which might be useful to refer to when reviewers in the peer review process question the realism of the experiment/attack/defense setting. A curated list of relevant papers is maintained and made accessible at: \url{https://github.com/git-disl/awesome_LLM-harmful-fine-tuning-papers}.
翻訳日:2024-11-06 15:31:30 公開日:2024-10-29
# 大規模言語モデルに対する有害な微調整攻撃と防御:調査

Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey ( http://arxiv.org/abs/2409.18169v4 )

ライセンス: Link先を確認
Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu, (参考訳) ユーザによってアップロードされたいくつかの有害なデータを微調整することで、モデルの安全性の整合性を損なう可能性がある。 有害な微調整として知られるこの攻撃は、コミュニティの間で幅広い研究の関心を集めている。 しかし、攻撃はまだ新しいので、研究コミュニティには一般的な誤解があることを惨めな提出経験から観察する。 目的は,攻撃設定に関する共通懸念を解消し,研究課題を正式に確立することである。 具体的には、まず、問題の脅威モデルを示し、有害な微調整攻撃とそのバリエーションを紹介する。 そして,既存の文献を攻撃・防衛・機械的分析で体系的に調査する。 最後に,この分野の発展に寄与する可能性のある今後の研究の方向性について概説する。 また、ピアレビュープロセスのレビュー担当者が実験・攻撃・防衛設定の現実性に疑問を呈する場合、興味のある質問のリストを提示する。 関連論文のキュレートされたリストは、以下の通り維持され、アクセス可能である。

Recent research demonstrates that the nascent fine-tuning-as-a-service business model exposes serious safety concerns -- fine-tuning over a few harmful data uploaded by the users can compromise the safety alignment of the model. The attack, known as harmful fine-tuning, has raised a broad research interest among the community. However, as the attack is still new, \textbf{we observe from our miserable submission experience that there are general misunderstandings within the research community.} We in this paper aim to clear some common concerns for the attack setting, and formally establish the research problem. Specifically, we first present the threat model of the problem, and introduce the harmful fine-tuning attack and its variants. Then we systematically survey the existing literature on attacks/defenses/mechanical analysis of the problem. Finally, we outline future research directions that might contribute to the development of the field. Additionally, we present a list of questions of interest, which might be useful to refer to when reviewers in the peer review process question the realism of the experiment/attack/defense setting. A curated list of relevant papers is maintained and made accessible at: \url{https://github.com/git-disl/awesome_LLM-harmful-fine-tuning-papers}.
翻訳日:2024-11-06 15:31:30 公開日:2024-10-29
# フラクトロニック異方性 $\mathbb{Z}_N$ラプラシア模型のエンタングル化再正規化

Entanglement renormalization of fractonic anisotropic $\mathbb{Z}_N$ Laplacian models ( http://arxiv.org/abs/2409.18206v1 )

ライセンス: Link先を確認
Yuan Xue, Pranay Gorantla, Zhu-Xi Luo, (参考訳) ギャップフラクトン相は、トポロジカル秩序に接続するが、既存のパラダイムに容易に適合しない物質の新しい種類の量子状態を構成する。 それらは、格子幾何学に対する感度と同様に、亜指数的および頑健な基底状態退化のような非伝統的な特徴を包含する。 任意のグラフ上で定義されるフラクトン相の族を記述することができる異方性 $\mathbb{Z}_N$ Laplacian model [1] について検討する。 3次元格子が2次元正方形,三角形,ハニカム,加護目格子の3次元への拡張である代表測地に着目し,それらの基底状態の退化と励起の移動性について検討し,その絡み合った再正規化群(ERG)の流れについて検討する。 すべてのモデルは、ERGの下で分岐挙動を示すが、N$と格子幾何学の両方に敏感な異なるERGフローを持つ。 特に、三角格子とハニカム格子の拡大上で定義される異方性 $\mathbb{Z}_N$ ラプラス模型が、$N$ が 3$ に共役であるときに同値であることが示される。 また、以前の予想とは対照的に、カゴメ格子の拡張で定義されるモデルが局所摂動に対して頑健であることと、N$が6$に共役であることは同値であることも指摘している。

Gapped fracton phases constitute a new class of quantum states of matter which connects to topological orders but does not fit easily into existing paradigms. They host unconventional features such as sub-extensive and robust ground state degeneracies as well as sensitivity to lattice geometry. We investigate the anisotropic $\mathbb{Z}_N$ Laplacian model [1] which can describe a family of fracton phases defined on arbitrary graphs. Focusing on representative geometries where the 3D lattices are extensions of 2D square, triangular, honeycomb and Kagome lattices into the third dimension, we study their ground state degeneracies and mobility of excitations, and examine their entanglement renormalization group (ERG) flows. All models show bifurcating behaviors under ERG but have distinct ERG flows sensitive to both $N$ and lattice geometry. In particular, we show that the anisotropic $\mathbb{Z}_N$ Laplacian models defined on the extensions of triangular and honeycomb lattices are equivalent when $N$ is coprime to $3$. We also point out that, in contrast to previous expectations, the model defined on the extension of Kagome lattice is robust against local perturbations if and only if $N$ is coprime to $6$.
翻訳日:2024-11-06 15:21:45 公開日:2024-10-29
# フラクトロニック異方性 $\mathbb{Z}_N$ラプラシア模型のエンタングル化再正規化

Entanglement renormalization of fractonic anisotropic $\mathbb{Z}_N$ Laplacian models ( http://arxiv.org/abs/2409.18206v2 )

ライセンス: Link先を確認
Yuan Xue, Pranay Gorantla, Zhu-Xi Luo, (参考訳) ギャップフラクトン相は、トポロジカル秩序に接続するが、既存のパラダイムに容易に適合しない物質の新しい種類の量子状態を構成する。 それらは、格子幾何学に対する感度と同様に、亜指数的および頑健な基底状態退化のような非伝統的な特徴を包含する。 任意のグラフ上で定義されるフラクトン相の族を記述することができる異方性 $\mathbb{Z}_N$ Laplacian model [1] について検討する。 3次元格子が2次元正方形,三角形,ハニカム,加護目格子の3次元への拡張である代表測地に着目し,それらの基底状態の退化と励起の移動性について検討し,その絡み合った再正規化群(ERG)の流れについて検討する。 すべてのモデルは、ERGの下で分岐挙動を示すが、N$と格子幾何学の両方に敏感な異なるERGフローを持つ。 特に、三角格子とハニカム格子の拡大上で定義される異方性 $\mathbb{Z}_N$ ラプラス模型が、$N$ が 3$ に共役であるときに同値であることが示される。 また、以前の予想とは対照的に、カゴメ格子の拡張で定義されるモデルが局所摂動に対して頑健であることと、N$が6$に共役であることは同値であることも指摘している。

Gapped fracton phases constitute a new class of quantum states of matter which connects to topological orders but does not fit easily into existing paradigms. They host unconventional features such as sub-extensive and robust ground state degeneracies as well as sensitivity to lattice geometry. We investigate the anisotropic $\mathbb{Z}_N$ Laplacian model [1] which can describe a family of fracton phases defined on arbitrary graphs. Focusing on representative geometries where the 3D lattices are extensions of 2D square, triangular, honeycomb and Kagome lattices into the third dimension, we study their ground state degeneracies and mobility of excitations, and examine their entanglement renormalization group (ERG) flows. All models show bifurcating behaviors under ERG but have distinct ERG flows sensitive to both $N$ and lattice geometry. In particular, we show that the anisotropic $\mathbb{Z}_N$ Laplacian models defined on the extensions of triangular and honeycomb lattices are equivalent when $N$ is coprime to $3$. We also point out that, in contrast to previous expectations, the model defined on the extension of Kagome lattice is robust against local perturbations if and only if $N$ is coprime to $6$.
翻訳日:2024-11-06 15:21:45 公開日:2024-10-29
# フラクトロニック異方性 $\mathbb{Z}_N$ラプラシア模型のエンタングル化再正規化

Entanglement renormalization of fractonic anisotropic $\mathbb{Z}_N$ Laplacian models ( http://arxiv.org/abs/2409.18206v3 )

ライセンス: Link先を確認
Yuan Xue, Pranay Gorantla, Zhu-Xi Luo, (参考訳) ギャップフラクトン相は、トポロジカル秩序に接続するが、既存のパラダイムに容易に適合しない物質の新しい種類の量子状態を構成する。 それらは、格子幾何学に対する感度と同様に、亜指数的および頑健な基底状態退化のような非伝統的な特徴を包含する。 任意のグラフ上で定義されるフラクトン相の族を記述することができる異方性 $\mathbb{Z}_N$ Laplacian model [1] について検討する。 3次元格子が2次元正方形,三角形,ハニカム,加護目格子の3次元への拡張である代表測地に着目し,それらの基底状態の退化と励起の移動性について検討し,その絡み合った再正規化群(ERG)の流れについて検討する。 すべてのモデルは、ERGの下で分岐挙動を示すが、N$と格子幾何学の両方に敏感な異なるERGフローを持つ。 特に、三角格子とハニカム格子の拡大上で定義される異方性 $\mathbb{Z}_N$ ラプラス模型が、$N$ が 3$ に共役であるときに同値であることが示される。 また、以前の予想とは対照的に、カゴメ格子の拡張で定義されるモデルが局所摂動に対して頑健であることと、N$が6$に共役であることは同値であることも指摘している。

Gapped fracton phases constitute a new class of quantum states of matter which connects to topological orders but does not fit easily into existing paradigms. They host unconventional features such as sub-extensive and robust ground state degeneracies as well as sensitivity to lattice geometry. We investigate the anisotropic $\mathbb{Z}_N$ Laplacian model [1] which can describe a family of fracton phases defined on arbitrary graphs. Focusing on representative geometries where the 3D lattices are extensions of 2D square, triangular, honeycomb and Kagome lattices into the third dimension, we study their ground state degeneracies and mobility of excitations, and examine their entanglement renormalization group (ERG) flows. All models show bifurcating behaviors under ERG but have distinct ERG flows sensitive to both $N$ and lattice geometry. In particular, we show that the anisotropic $\mathbb{Z}_N$ Laplacian models defined on the extensions of triangular and honeycomb lattices are equivalent when $N$ is coprime to $3$. We also point out that, in contrast to previous expectations, the model defined on the extension of Kagome lattice is robust against local perturbations if and only if $N$ is coprime to $6$.
翻訳日:2024-11-06 15:21:45 公開日:2024-10-29
# 付加画像からの3次元再構成のためのマルチハイブリッド条件点雲拡散

Multi-hypotheses Conditioned Point Cloud Diffusion for 3D Human Reconstruction from Occluded Images ( http://arxiv.org/abs/2409.18364v1 )

ライセンス: Link先を確認
Donghwan Kim, Tae-Kyun Kim, (参考訳) 人・物・人間・人間の相互作用による重度の閉塞下での3次元形状復元は難しい問題である。 SMPL(-X)のパラメトリックモデルは、人体の形状の統計に基づいており、人体全体の形を表すことができるが、最小限の衣服に限られる。 インシシット関数に基づく手法は、人体の事前知識を利用するためにパラメトリックモデルから特徴を抽出し、衣服や毛髪などの幾何学的詳細を捉えることができる。 しかし、彼らは1枚のRGB画像が与えられたパラメトリックモデルや非塗装領域を扱うのに苦労することが多い。 本研究では,画素配列の詳細な3次元再構成のための確率分布を条件とした点雲拡散を用いたMHCDIFF(multi-hypotheses Conditioned Point Cloud Diffusion)を提案する。 従来の暗黙関数に基づく手法と比較して、点雲拡散モデルは、隠蔽領域を生成するためのグローバルな一貫した特徴を捉えることができ、デノナイジングプロセスは、不整合SMPLメッシュを補正する。 MHCDIFFのコアは、複数の仮説SMPL(-X)メッシュから局所的な特徴を抽出し、拡散モデルを条件付けるために特徴セットを集約する。 CAPEとMultiHumanのデータセットを用いた実験では、SMPL、暗黙関数、点雲拡散、およびそれらの組み合わせに基づいて、合成および実オクルージョン下で、様々なSOTA法より優れていた。

3D human shape reconstruction under severe occlusion due to human-object or human-human interaction is a challenging problem. Parametric models i.e., SMPL(-X), which are based on the statistics across human shapes, can represent whole human body shapes but are limited to minimally-clothed human shapes. Implicit-function-based methods extract features from the parametric models to employ prior knowledge of human bodies and can capture geometric details such as clothing and hair. However, they often struggle to handle misaligned parametric models and inpaint occluded regions given a single RGB image. In this work, we propose a novel pipeline, MHCDIFF, Multi-hypotheses Conditioned Point Cloud Diffusion, composed of point cloud diffusion conditioned on probabilistic distributions for pixel-aligned detailed 3D human reconstruction under occlusion. Compared to previous implicit-function-based methods, the point cloud diffusion model can capture the global consistent features to generate the occluded regions, and the denoising process corrects the misaligned SMPL meshes. The core of MHCDIFF is extracting local features from multiple hypothesized SMPL(-X) meshes and aggregating the set of features to condition the diffusion model. In the experiments on CAPE and MultiHuman datasets, the proposed method outperforms various SOTA methods based on SMPL, implicit functions, point cloud diffusion, and their combined, under synthetic and real occlusions.
翻訳日:2024-11-06 06:41:07 公開日:2024-10-29
# 付加画像からの3次元再構成のためのマルチハイブリッド条件点雲拡散

Multi-hypotheses Conditioned Point Cloud Diffusion for 3D Human Reconstruction from Occluded Images ( http://arxiv.org/abs/2409.18364v2 )

ライセンス: Link先を確認
Donghwan Kim, Tae-Kyun Kim, (参考訳) 人・物・人間・人間の相互作用による重度の閉塞下での3次元形状復元は難しい問題である。 SMPL(-X)のパラメトリックモデルは、人体の形状の統計に基づいており、人体全体の形を表すことができるが、最小限の衣服に限られる。 インシシット関数に基づく手法は、人体の事前知識を利用するためにパラメトリックモデルから特徴を抽出し、衣服や毛髪などの幾何学的詳細を捉えることができる。 しかし、彼らは1枚のRGB画像が与えられたパラメトリックモデルや非塗装領域を扱うのに苦労することが多い。 本研究では,画素配列の詳細な3次元再構成のための確率分布を条件とした点雲拡散を用いたMHCDIFF(multi-hypotheses Conditioned Point Cloud Diffusion)を提案する。 従来の暗黙関数に基づく手法と比較して、点雲拡散モデルは、隠蔽領域を生成するためのグローバルな一貫した特徴を捉えることができ、デノナイジングプロセスは、不整合SMPLメッシュを補正する。 MHCDIFFのコアは、複数の仮説SMPL(-X)メッシュから局所的な特徴を抽出し、拡散モデルを条件付けるために特徴セットを集約する。 CAPEとMultiHumanのデータセットを用いた実験では、SMPL、暗黙関数、点雲拡散、およびそれらの組み合わせに基づいて、合成および実オクルージョン下で、様々なSOTA法より優れていた。 私たちのコードはhttps://donghwankim0101.github.io/projects/mhcdiff/で公開されています。

3D human shape reconstruction under severe occlusion due to human-object or human-human interaction is a challenging problem. Parametric models i.e., SMPL(-X), which are based on the statistics across human shapes, can represent whole human body shapes but are limited to minimally-clothed human shapes. Implicit-function-based methods extract features from the parametric models to employ prior knowledge of human bodies and can capture geometric details such as clothing and hair. However, they often struggle to handle misaligned parametric models and inpaint occluded regions given a single RGB image. In this work, we propose a novel pipeline, MHCDIFF, Multi-hypotheses Conditioned Point Cloud Diffusion, composed of point cloud diffusion conditioned on probabilistic distributions for pixel-aligned detailed 3D human reconstruction under occlusion. Compared to previous implicit-function-based methods, the point cloud diffusion model can capture the global consistent features to generate the occluded regions, and the denoising process corrects the misaligned SMPL meshes. The core of MHCDIFF is extracting local features from multiple hypothesized SMPL(-X) meshes and aggregating the set of features to condition the diffusion model. In the experiments on CAPE and MultiHuman datasets, the proposed method outperforms various SOTA methods based on SMPL, implicit functions, point cloud diffusion, and their combined, under synthetic and real occlusions. Our code is publicly available at https://donghwankim0101.github.io/projects/mhcdiff/ .
翻訳日:2024-11-06 06:41:07 公開日:2024-10-29
# 付加画像からの3次元再構成のためのマルチハイブリッド条件点雲拡散

Multi-hypotheses Conditioned Point Cloud Diffusion for 3D Human Reconstruction from Occluded Images ( http://arxiv.org/abs/2409.18364v3 )

ライセンス: Link先を確認
Donghwan Kim, Tae-Kyun Kim, (参考訳) 人・物・人間・人間の相互作用による重度の閉塞下での3次元形状復元は難しい問題である。 SMPL(-X)のパラメトリックモデルは、人体の形状の統計に基づいており、人体全体の形を表すことができるが、最小限の衣服に限られる。 インシシット関数に基づく手法は、人体の事前知識を利用するためにパラメトリックモデルから特徴を抽出し、衣服や毛髪などの幾何学的詳細を捉えることができる。 しかし、彼らは1枚のRGB画像が与えられたパラメトリックモデルや非塗装領域を扱うのに苦労することが多い。 本研究では,画素配列の詳細な3次元再構成のための確率分布を条件とした点雲拡散を用いたMHCDIFF(multi-hypotheses Conditioned Point Cloud Diffusion)を提案する。 従来の暗黙関数に基づく手法と比較して、点雲拡散モデルは、隠蔽領域を生成するためのグローバルな一貫した特徴を捉えることができ、デノナイジングプロセスは、不整合SMPLメッシュを補正する。 MHCDIFFのコアは、複数の仮説SMPL(-X)メッシュから局所的な特徴を抽出し、拡散モデルを条件付けるために特徴セットを集約する。 CAPEとMultiHumanのデータセットを用いた実験では、SMPL、暗黙関数、点雲拡散、およびそれらの組み合わせに基づいて、合成および実オクルージョン下で、様々なSOTA法より優れていた。 私たちのコードはhttps://donghwankim0101.github.io/projects/mhcdiff/で公開されています。

3D human shape reconstruction under severe occlusion due to human-object or human-human interaction is a challenging problem. Parametric models i.e., SMPL(-X), which are based on the statistics across human shapes, can represent whole human body shapes but are limited to minimally-clothed human shapes. Implicit-function-based methods extract features from the parametric models to employ prior knowledge of human bodies and can capture geometric details such as clothing and hair. However, they often struggle to handle misaligned parametric models and inpaint occluded regions given a single RGB image. In this work, we propose a novel pipeline, MHCDIFF, Multi-hypotheses Conditioned Point Cloud Diffusion, composed of point cloud diffusion conditioned on probabilistic distributions for pixel-aligned detailed 3D human reconstruction under occlusion. Compared to previous implicit-function-based methods, the point cloud diffusion model can capture the global consistent features to generate the occluded regions, and the denoising process corrects the misaligned SMPL meshes. The core of MHCDIFF is extracting local features from multiple hypothesized SMPL(-X) meshes and aggregating the set of features to condition the diffusion model. In the experiments on CAPE and MultiHuman datasets, the proposed method outperforms various SOTA methods based on SMPL, implicit functions, point cloud diffusion, and their combined, under synthetic and real occlusions. Our code is publicly available at https://donghwankim0101.github.io/projects/mhcdiff/ .
翻訳日:2024-11-06 06:41:07 公開日:2024-10-29
# オープンソースソフトウェアパッケージレジストリにおける依存性問題の概要とカタログ

An Overview and Catalogue of Dependency Challenges in Open Source Software Package Registries ( http://arxiv.org/abs/2409.18884v2 )

ライセンス: Link先を確認
Tom Mens, Alexandre Decan, (参考訳) オープンソースソフトウェアは、ソフトウェア開発をスピードアップするためにかなりのレベルの再利用を可能にしていますが、すべてのソフトウェア実践者が定期的に直面する恐ろしい依存性の地獄も引き起こしています。 この記事では、OSSパッケージやライブラリに依存する依存関係関連の課題のカタログを提供する。 このカタログは、これらの課題を理解し、定量化し、克服するために行われた経験的研究に関する科学文献に基づいている。 パッケージ依存管理の非常に活発な研究分野の概要は、中高年の研究者や、OSSパッケージレジストリの依存関係ネットワークに関わる課題に対処する研究の進展についてもっと学びたい実践者の出発点として利用することができる。

While open-source software has enabled significant levels of reuse to speed up software development, it has also given rise to the dreadful dependency hell that all software practitioners face on a regular basis. This article provides a catalogue of dependency-related challenges that come with relying on OSS packages or libraries. The catalogue is based on the scientific literature on empirical research that has been conducted to understand, quantify and overcome these challenges. Our overview of this very active research field of package dependency management can be used as a starting point for junior and senior researchers as well as practitioners that would like to learn more about research advances in dealing with the challenges that come with the dependency networks of large OSS package registries.
翻訳日:2024-11-06 05:32:49 公開日:2024-10-29
# SSLビジョンエンコーダにおけるメモリのローカライズ

Localizing Memorization in SSL Vision Encoders ( http://arxiv.org/abs/2409.19069v1 )

ライセンス: Link先を確認
Wenhao Wang, Adam Dziedzic, Michael Backes, Franziska Boenisch, (参考訳) 自己教師付き学習(SSL)における記憶の研究は、SSLエンコーダが数百万の画像で訓練されているにもかかわらず、個々のデータポイントを記憶していることを示唆している。 メモリ化されたデータを特徴付け、エンコーダのメモリ化をダウンストリームユーティリティにリンクする作業は行われているが、SSLエンコーダ内でのメモリ化の実施場所についてはほとんど分かっていない。 このギャップを埋めるために、SSLエンコーダにおけるメモリのローカライズのための2つの指標(層間(層間)と単位単位ベース(ユニット間))を提案する。 我々のローカライゼーション方法は下流タスクとは独立しており、ラベル情報を一切必要とせず、フォワードパスで実行できる。 さまざまなエンコーダアーキテクチャ(畳み込みおよび変圧器をベースとする)における記憶の局所化により,(1) SSLの記憶は層深度とともに増加するが,(2) SSLエンコーダ内の単位のかなりの割合は,監督下で訓練されたモデルと対照的に驚くほど高い個々のデータポイントの記憶を経験し,(3) 非定型データポイントは標準データポイントよりもはるかに高い層と単位記憶を生じ,(4) ビジョントランスフォーマーでは、ほとんどの記憶が完全に接続されたレイヤで発生することがわかった。 最後に,SSLにおけるメモリのローカライズは,微調整の改善とプルーニング戦略の通知の可能性を秘めていることを示す。

Recent work on studying memorization in self-supervised learning (SSL) suggests that even though SSL encoders are trained on millions of images, they still memorize individual data points. While effort has been put into characterizing the memorized data and linking encoder memorization to downstream utility, little is known about where the memorization happens inside SSL encoders. To close this gap, we propose two metrics for localizing memorization in SSL encoders on a per-layer (layermem) and per-unit basis (unitmem). Our localization methods are independent of the downstream task, do not require any label information, and can be performed in a forward pass. By localizing memorization in various encoder architectures (convolutional and transformer-based) trained on diverse datasets with contrastive and non-contrastive SSL frameworks, we find that (1) while SSL memorization increases with layer depth, highly memorizing units are distributed across the entire encoder, (2) a significant fraction of units in SSL encoders experiences surprisingly high memorization of individual data points, which is in contrast to models trained under supervision, (3) atypical (or outlier) data points cause much higher layer and unit memorization than standard data points, and (4) in vision transformers, most memorization happens in the fully-connected layers. Finally, we show that localizing memorization in SSL has the potential to improve fine-tuning and to inform pruning strategies.
翻訳日:2024-11-06 04:40:55 公開日:2024-10-29
# SSLビジョンエンコーダにおけるメモリのローカライズ

Localizing Memorization in SSL Vision Encoders ( http://arxiv.org/abs/2409.19069v2 )

ライセンス: Link先を確認
Wenhao Wang, Adam Dziedzic, Michael Backes, Franziska Boenisch, (参考訳) 自己教師付き学習(SSL)における記憶の研究は、SSLエンコーダが数百万の画像で訓練されているにもかかわらず、個々のデータポイントを記憶していることを示唆している。 メモリ化されたデータを特徴付け、エンコーダのメモリ化をダウンストリームユーティリティにリンクする作業は行われているが、SSLエンコーダ内でのメモリ化の実施場所についてはほとんど分かっていない。 このギャップを埋めるために、SSLエンコーダにおけるメモリのローカライズのための2つの指標(層間(層間)と単位単位ベース(ユニット間))を提案する。 我々のローカライゼーション方法は下流タスクとは独立しており、ラベル情報を一切必要とせず、フォワードパスで実行できる。 さまざまなエンコーダアーキテクチャ(畳み込みおよび変圧器をベースとする)における記憶の局所化により,(1) SSLの記憶は層深度とともに増加するが,(2) SSLエンコーダ内の単位のかなりの割合は,監督下で訓練されたモデルと対照的に驚くほど高い個々のデータポイントの記憶を経験し,(3) 非定型データポイントは標準データポイントよりもはるかに高い層と単位記憶を生じ,(4) ビジョントランスフォーマーでは、ほとんどの記憶が完全に接続されたレイヤで発生することがわかった。 最後に,SSLにおけるメモリのローカライズは,微調整の改善とプルーニング戦略の通知の可能性を秘めていることを示す。

Recent work on studying memorization in self-supervised learning (SSL) suggests that even though SSL encoders are trained on millions of images, they still memorize individual data points. While effort has been put into characterizing the memorized data and linking encoder memorization to downstream utility, little is known about where the memorization happens inside SSL encoders. To close this gap, we propose two metrics for localizing memorization in SSL encoders on a per-layer (layermem) and per-unit basis (unitmem). Our localization methods are independent of the downstream task, do not require any label information, and can be performed in a forward pass. By localizing memorization in various encoder architectures (convolutional and transformer-based) trained on diverse datasets with contrastive and non-contrastive SSL frameworks, we find that (1) while SSL memorization increases with layer depth, highly memorizing units are distributed across the entire encoder, (2) a significant fraction of units in SSL encoders experiences surprisingly high memorization of individual data points, which is in contrast to models trained under supervision, (3) atypical (or outlier) data points cause much higher layer and unit memorization than standard data points, and (4) in vision transformers, most memorization happens in the fully-connected layers. Finally, we show that localizing memorization in SSL has the potential to improve fine-tuning and to inform pruning strategies.
翻訳日:2024-11-06 04:40:55 公開日:2024-10-29
# 機能ブートストラップの量子高速実装とプライベート情報検索

Quantum Fast Implementation of Functional Bootstrapping and Private Information Retrieval ( http://arxiv.org/abs/2409.20182v2 )

ライセンス: Link先を確認
Guangsheng Ma, Hongbo Li, (参考訳) 古典的なプライバシ保存計算技術は、クラウドコンピューティングにおいて機密データを安全に保護するが、しばしば計算効率の低下に悩まされる。 本稿では、単一の量子サーバを利用することで、プライバシ保存計算の効率性とセキュリティを大幅に向上させることができることを示す。 大規模平文の関数的ブートストラップのための効率的な量子アルゴリズムを提案し,古典的アルゴリズムと比較して,指数関数から多項式への時間的複雑性を低減した。 一般的な機能的ブートストラップをサポートするために,対数的クエリ時間を持つ高速量子プライベート情報検索(PIR)プロトコルを設計する。 このセキュリティは多項式係数の誤り(LWE)の学習に依存しており、超多項式係数の環LWEに基づく古典的な ``exponentially fast'' の PIR プロトコルよりも強いセキュリティを提供する。 技術的には、ブラインドローテーションとして知られる鍵となる古典的準同型演算を、暗号化された条件回転によって量子設定に拡張する。 我々の拡張は、劇的に高速化されるかもしれない多項式ベースの暗号ツールの量子拡張の洞察である。

Classical privacy-preserving computation techniques safeguard sensitive data in cloud computing, but often suffer from low computational efficiency. In this paper, we show that employing a single quantum server can significantly enhance both the efficiency and security of privacy-preserving computation. We propose an efficient quantum algorithm for functional bootstrapping of large-precision plaintexts, reducing the time complexity from exponential to polynomial in plaintext-size compared to classical algorithms. To support general functional bootstrapping, we design a fast quantum private information retrieval (PIR) protocol with logarithmic query time. The security relies on the learning with errors (LWE) problem with polynomial modulus, providing stronger security than classical ``exponentially fast'' PIR protocol based on ring-LWE with super-polynomial modulus. Technically, we extend a key classical homomorphic operation, known as blind rotation, to the quantum setting through encrypted conditional rotation. Underlying our extension are insights for the quantum extension of polynomial-based cryptographic tools that may gain dramatic speedups.
翻訳日:2024-11-05 15:58:31 公開日:2024-10-29
# 機能ブートストラップの量子高速実装とプライベート情報検索

Quantum Fast Implementation of Functional Bootstrapping and Private Information Retrieval ( http://arxiv.org/abs/2409.20182v3 )

ライセンス: Link先を確認
Guangsheng Ma, Hongbo Li, (参考訳) 古典的なプライバシ保存計算技術は、クラウドコンピューティングにおいて機密データを安全に保護するが、しばしば計算効率の低下に悩まされる。 本稿では、単一の量子サーバを利用することで、プライバシ保存計算の効率性とセキュリティを大幅に向上させることができることを示す。 大規模平文の関数的ブートストラップのための効率的な量子アルゴリズムを提案し,古典的アルゴリズムと比較して,指数関数から多項式への時間的複雑性を低減した。 一般的な機能的ブートストラップをサポートするために,対数的クエリ時間を持つ高速量子プライベート情報検索(PIR)プロトコルを設計する。 このセキュリティは多項式係数の誤り(LWE)の学習に依存しており、超多項式係数の環LWEに基づく古典的な ``exponentially fast'' の PIR プロトコルよりも強いセキュリティを提供する。 技術的には、ブラインドローテーションとして知られる鍵となる古典的準同型演算を、暗号化された条件回転によって量子設定に拡張する。 我々の拡張は、劇的に高速化されるかもしれない多項式ベースの暗号ツールの量子拡張の洞察である。

Classical privacy-preserving computation techniques safeguard sensitive data in cloud computing, but often suffer from low computational efficiency. In this paper, we show that employing a single quantum server can significantly enhance both the efficiency and security of privacy-preserving computation. We propose an efficient quantum algorithm for functional bootstrapping of large-precision plaintexts, reducing the time complexity from exponential to polynomial in plaintext-size compared to classical algorithms. To support general functional bootstrapping, we design a fast quantum private information retrieval (PIR) protocol with logarithmic query time. The security relies on the learning with errors (LWE) problem with polynomial modulus, providing stronger security than classical ``exponentially fast'' PIR protocol based on ring-LWE with super-polynomial modulus. Technically, we extend a key classical homomorphic operation, known as blind rotation, to the quantum setting through encrypted conditional rotation. Underlying our extension are insights for the quantum extension of polynomial-based cryptographic tools that may gain dramatic speedups.
翻訳日:2024-11-05 15:58:31 公開日:2024-10-29
# 優先的近位体験規則化による視覚的RLへの一貫性ポリシーの一般化

Generalizing Consistency Policy to Visual RL with Prioritized Proximal Experience Regularization ( http://arxiv.org/abs/2410.00051v1 )

ライセンス: Link先を確認
Haoran Li, Zhennan Jiang, Yuhui Chen, Dongbin Zhao, (参考訳) 高次元状態空間では、視覚強化学習(RL)は、エクスプロイトと探索において重大な課題に直面し、結果としてサンプル効率が低く、訓練安定性が低下する。 時間効率拡散モデルとして、オンライン状態ベースRLでは一貫性モデルが検証されているが、視覚的RLに拡張できるかどうかには疑問が残る。 本稿では,オンラインRLにおける非定常分布とアクタ批判フレームワークが整合性ポリシーに与える影響について検討し,特に高次元状態空間の視覚的RLにおいて,トレーニング中に整合性ポリシーが不安定であることを見出した。 この目的のために、政策訓練を安定させるためにサンプルベースのエントロピー正則化を提案し、標本効率を向上させるために、優先順位付けされた近位体験正則化(CP3ER)による整合性ポリシーを提案する。 CP3ERはDeepMindコントロールスイートとMeta-worldにまたがる21のタスクで、新しい最先端(SOTA)パフォーマンスを実現する。 我々の知る限り、CP3ERは視覚的RLに拡散/一貫性モデルを適用する最初の方法であり、視覚的RLにおける一貫性モデルの可能性を実証している。 さらなる視覚化結果はhttps://jzndd.github.io/CP3ER-Page/で公開されている。

With high-dimensional state spaces, visual reinforcement learning (RL) faces significant challenges in exploitation and exploration, resulting in low sample efficiency and training stability. As a time-efficient diffusion model, although consistency models have been validated in online state-based RL, it is still an open question whether it can be extended to visual RL. In this paper, we investigate the impact of non-stationary distribution and the actor-critic framework on consistency policy in online RL, and find that consistency policy was unstable during the training, especially in visual RL with the high-dimensional state space. To this end, we suggest sample-based entropy regularization to stabilize the policy training, and propose a consistency policy with prioritized proximal experience regularization (CP3ER) to improve sample efficiency. CP3ER achieves new state-of-the-art (SOTA) performance in 21 tasks across DeepMind control suite and Meta-world. To our knowledge, CP3ER is the first method to apply diffusion/consistency models to visual RL and demonstrates the potential of consistency models in visual RL. More visualization results are available at https://jzndd.github.io/CP3ER-Page/.
翻訳日:2024-11-05 15:19:28 公開日:2024-10-29
# 優先的近位体験規則化による視覚的RLへの一貫性ポリシーの一般化

Generalizing Consistency Policy to Visual RL with Prioritized Proximal Experience Regularization ( http://arxiv.org/abs/2410.00051v2 )

ライセンス: Link先を確認
Haoran Li, Zhennan Jiang, Yuhui Chen, Dongbin Zhao, (参考訳) 高次元状態空間では、視覚強化学習(RL)は、エクスプロイトと探索において重大な課題に直面し、結果としてサンプル効率が低く、訓練安定性が低下する。 時間効率拡散モデルとして、オンライン状態ベースRLでは一貫性モデルが検証されているが、視覚的RLに拡張できるかどうかには疑問が残る。 本稿では,オンラインRLにおける非定常分布とアクタ批判フレームワークが整合性ポリシーに与える影響について検討し,特に高次元状態空間の視覚的RLにおいて,トレーニング中に整合性ポリシーが不安定であることを見出した。 この目的のために、政策訓練を安定させるためにサンプルベースのエントロピー正則化を提案し、標本効率を向上させるために、優先順位付けされた近位体験正則化(CP3ER)による整合性ポリシーを提案する。 CP3ERはDeepMindコントロールスイートとMeta-worldにまたがる21のタスクで、新しい最先端(SOTA)パフォーマンスを実現する。 我々の知る限り、CP3ERは視覚的RLに拡散/一貫性モデルを適用する最初の方法であり、視覚的RLにおける一貫性モデルの可能性を実証している。 さらなる視覚化結果はhttps://jzndd.github.io/CP3ER-Page/で公開されている。

With high-dimensional state spaces, visual reinforcement learning (RL) faces significant challenges in exploitation and exploration, resulting in low sample efficiency and training stability. As a time-efficient diffusion model, although consistency models have been validated in online state-based RL, it is still an open question whether it can be extended to visual RL. In this paper, we investigate the impact of non-stationary distribution and the actor-critic framework on consistency policy in online RL, and find that consistency policy was unstable during the training, especially in visual RL with the high-dimensional state space. To this end, we suggest sample-based entropy regularization to stabilize the policy training, and propose a consistency policy with prioritized proximal experience regularization (CP3ER) to improve sample efficiency. CP3ER achieves new state-of-the-art (SOTA) performance in 21 tasks across DeepMind control suite and Meta-world. To our knowledge, CP3ER is the first method to apply diffusion/consistency models to visual RL and demonstrates the potential of consistency models in visual RL. More visualization results are available at https://jzndd.github.io/CP3ER-Page/.
翻訳日:2024-11-05 15:19:28 公開日:2024-10-29
# 量子プライベート分散センシング

Quantum-private distributed sensing ( http://arxiv.org/abs/2410.00970v1 )

ライセンス: Link先を確認
Joseph Ho, Jonathan W. Webb, Russell M. J. Brooks, Federico Grasselli, Erik Gauger, Alessandro Fedrizzi, (参考訳) 量子ネットワークは通信、計算、分散センシングタスクのための無条件セキュリティを提供する。 本稿では,グローバルな位相を構成的局所的な位相値を明らかにすることなく評価できる,プライベートパラメータ推定の実証実験について報告する。 これは、Greenberger-Horne-Zeilinger状態(GHZ)を、センサータスクを実行する前に最初に共有状態を検証する3人のユーザ間で共有することで実現される。 我々は,安定度測定に基づいて検証プロトコルを実装し,セキュリティとプライバシのパラメータを確立するために使用する0.038(5)の平均故障率を測定した。 実験により得られたGHZ状態の量子フィッシャー情報を評価することにより,プロトコルが確立したプライバシー条件を検証する。

Quantum networks will provide unconditional security for communication, computation and distributed sensing tasks. We report on an experimental demonstration of private parameter estimation, which allows a global phase to be evaluated without revealing the constituent local phase values. This is achieved by sharing a Greenberger-Horne-Zeilinger (GHZ) state among three users who first verify the shared state before performing the sensing task. We implement the verification protocol, based on stabilizer measurements, and measure an average failure rate of 0.038(5) which we use to establish the security and privacy parameters. We validate the privacy conditions established by the protocol by evaluating the quantum Fisher information of the experimentally prepared GHZ states.
翻訳日:2024-11-05 00:00:02 公開日:2024-10-29
# 量子プライベート分散センシング

Quantum-private distributed sensing ( http://arxiv.org/abs/2410.00970v2 )

ライセンス: Link先を確認
Joseph Ho, Jonathan W. Webb, Russell M. J. Brooks, Federico Grasselli, Erik Gauger, Alessandro Fedrizzi, (参考訳) 量子ネットワークは通信、計算、分散センシングタスクのための無条件セキュリティを提供する。 本稿では,グローバルな位相を構成的局所的な位相値を明らかにすることなく評価できる,プライベートパラメータ推定の実証実験について報告する。 これは、Greenberger-Horne-Zeilinger状態(GHZ)を、センサータスクを実行する前に最初に共有状態を検証する3人のユーザ間で共有することで実現される。 我々は,安定度測定に基づいて検証プロトコルを実装し,セキュリティとプライバシのパラメータを確立するために使用する0.038(5)の平均故障率を測定した。 実験により得られたGHZ状態の量子フィッシャー情報を評価することにより,プロトコルが確立したプライバシー条件を検証する。

Quantum networks will provide unconditional security for communication, computation and distributed sensing tasks. We report on an experimental demonstration of private parameter estimation, which allows a global phase to be evaluated without revealing the constituent local phase values. This is achieved by sharing a Greenberger-Horne-Zeilinger (GHZ) state among three users who first verify the shared state before performing the sensing task. We implement the verification protocol, based on stabilizer measurements, and measure an average failure rate of 0.038(5) which we use to establish the security and privacy parameters. We validate the privacy conditions established by the protocol by evaluating the quantum Fisher information of the experimentally prepared GHZ states.
翻訳日:2024-11-05 00:00:02 公開日:2024-10-29
# EVER: リアルタイムビュー合成のためのエクササイズエリプソイドレンダリング

EVER: Exact Volumetric Ellipsoid Rendering for Real-time View Synthesis ( http://arxiv.org/abs/2410.01804v1 )

ライセンス: Link先を確認
Alexander Mai, Peter Hedman, George Kopanas, Dor Verbin, David Futschik, Qiangeng Xu, Falko Kuester, Jon Barron, Yinda Zhang, (参考訳) 実時間微分可能な発光専用ボリュームレンダリング法であるExact Volumetric Ellipsoid Rendering (EVER)を提案する。 近年の3D Gaussian Splatting(3DGS)によるラスタライズベースアプローチとは異なり、プリミティブベース表現は3D Gaussian Billboardをアルファ合成するのではなく、正確なボリュームレンダリングを可能にしている。 したがって、3DGSとは異なり、私たちの定式化は、ポップアップアーティファクトや依存密度に苦しむのではなく、それでも$\sim\! NVIDIA RTX4090で720pで30ドルFPS。 提案手法はレイスタライズによって達成が難しいデフォーカスぼけやカメラ歪み(魚眼カメラなど)などの効果を,線トレーシングに基づいて構築する。 提案手法は3DGSよりもブレンディング問題を少なくし,ビュー一貫性レンダリングの追従作業を行い,特にZip-NeRFデータセットの高速な結果が得られる大規模シーンにおいて,より正確であることを示す。

We present Exact Volumetric Ellipsoid Rendering (EVER), a method for real-time differentiable emission-only volume rendering. Unlike recent rasterization based approach by 3D Gaussian Splatting (3DGS), our primitive based representation allows for exact volume rendering, rather than alpha compositing 3D Gaussian billboards. As such, unlike 3DGS our formulation does not suffer from popping artifacts and view dependent density, but still achieves frame rates of $\sim\!30$ FPS at 720p on an NVIDIA RTX4090. Since our approach is built upon ray tracing it enables effects such as defocus blur and camera distortion (e.g. such as from fisheye cameras), which are difficult to achieve by rasterization. We show that our method is more accurate with fewer blending issues than 3DGS and follow-up work on view-consistent rendering, especially on the challenging large-scale scenes from the Zip-NeRF dataset where it achieves sharpest results among real-time techniques.
翻訳日:2024-11-04 15:04:32 公開日:2024-10-29
# EVER: リアルタイムビュー合成のためのエクササイズエリプソイドレンダリング

EVER: Exact Volumetric Ellipsoid Rendering for Real-time View Synthesis ( http://arxiv.org/abs/2410.01804v2 )

ライセンス: Link先を確認
Alexander Mai, Peter Hedman, George Kopanas, Dor Verbin, David Futschik, Qiangeng Xu, Falko Kuester, Jonathan T. Barron, Yinda Zhang, (参考訳) 実時間微分可能な発光専用ボリュームレンダリング法であるExact Volumetric Ellipsoid Rendering (EVER)を提案する。 近年の3D Gaussian Splatting(3DGS)によるラスタライズベースアプローチとは異なり、プリミティブベース表現は3D Gaussian Billboardをアルファ合成するのではなく、正確なボリュームレンダリングを可能にしている。 したがって、3DGSとは異なり、私たちの定式化は、ポップアップアーティファクトや依存密度に苦しむのではなく、それでも$\sim\! NVIDIA RTX4090で720pで30ドルFPS。 提案手法はレイスタライズによって達成が難しいデフォーカスぼけやカメラ歪み(魚眼カメラなど)などの効果を,線トレーシングに基づいて構築する。 提案手法は3DGSよりもブレンディング問題を少なくし,ビュー一貫性レンダリングの追従作業を行い,特にZip-NeRFデータセットの高速な結果が得られる大規模シーンにおいて,より正確であることを示す。

We present Exact Volumetric Ellipsoid Rendering (EVER), a method for real-time differentiable emission-only volume rendering. Unlike recent rasterization based approach by 3D Gaussian Splatting (3DGS), our primitive based representation allows for exact volume rendering, rather than alpha compositing 3D Gaussian billboards. As such, unlike 3DGS our formulation does not suffer from popping artifacts and view dependent density, but still achieves frame rates of $\sim\!30$ FPS at 720p on an NVIDIA RTX4090. Since our approach is built upon ray tracing it enables effects such as defocus blur and camera distortion (e.g. such as from fisheye cameras), which are difficult to achieve by rasterization. We show that our method is more accurate with fewer blending issues than 3DGS and follow-up work on view-consistent rendering, especially on the challenging large-scale scenes from the Zip-NeRF dataset where it achieves sharpest results among real-time techniques.
翻訳日:2024-11-04 15:04:32 公開日:2024-10-29
# EVER: リアルタイムビュー合成のためのエクササイズエリプソイドレンダリング

EVER: Exact Volumetric Ellipsoid Rendering for Real-time View Synthesis ( http://arxiv.org/abs/2410.01804v3 )

ライセンス: Link先を確認
Alexander Mai, Peter Hedman, George Kopanas, Dor Verbin, David Futschik, Qiangeng Xu, Falko Kuester, Jonathan T. Barron, Yinda Zhang, (参考訳) 実時間微分可能な発光専用ボリュームレンダリング法であるExact Volumetric Ellipsoid Rendering (EVER)を提案する。 近年の3D Gaussian Splatting(3DGS)によるラスタライズベースアプローチとは異なり、プリミティブベース表現は3D Gaussian Billboardをアルファ合成するのではなく、正確なボリュームレンダリングを可能にしている。 したがって、3DGSとは異なり、私たちの定式化は、ポップアップアーティファクトや依存密度に苦しむのではなく、それでも$\sim\! NVIDIA RTX4090で720pで30ドルFPS。 提案手法はレイスタライズによって達成が難しいデフォーカスぼけやカメラ歪み(魚眼カメラなど)などの効果を,線トレーシングに基づいて構築する。 提案手法は3DGSよりもブレンディング問題を少なくし,ビュー一貫性レンダリングの追従作業を行い,特にZip-NeRFデータセットの高速な結果が得られる大規模シーンにおいて,より正確であることを示す。

We present Exact Volumetric Ellipsoid Rendering (EVER), a method for real-time differentiable emission-only volume rendering. Unlike recent rasterization based approach by 3D Gaussian Splatting (3DGS), our primitive based representation allows for exact volume rendering, rather than alpha compositing 3D Gaussian billboards. As such, unlike 3DGS our formulation does not suffer from popping artifacts and view dependent density, but still achieves frame rates of $\sim\!30$ FPS at 720p on an NVIDIA RTX4090. Since our approach is built upon ray tracing it enables effects such as defocus blur and camera distortion (e.g. such as from fisheye cameras), which are difficult to achieve by rasterization. We show that our method is more accurate with fewer blending issues than 3DGS and follow-up work on view-consistent rendering, especially on the challenging large-scale scenes from the Zip-NeRF dataset where it achieves sharpest results among real-time techniques.
翻訳日:2024-11-04 15:04:32 公開日:2024-10-29
# EVER: リアルタイムビュー合成のためのエクササイズエリプソイドレンダリング

EVER: Exact Volumetric Ellipsoid Rendering for Real-time View Synthesis ( http://arxiv.org/abs/2410.01804v4 )

ライセンス: Link先を確認
Alexander Mai, Peter Hedman, George Kopanas, Dor Verbin, David Futschik, Qiangeng Xu, Falko Kuester, Jonathan T. Barron, Yinda Zhang, (参考訳) 実時間微分可能な発光専用ボリュームレンダリング法であるExact Volumetric Ellipsoid Rendering (EVER)を提案する。 近年の3D Gaussian Splatting(3DGS)によるラスタライズベースアプローチとは異なり、プリミティブベース表現は3D Gaussian Billboardをアルファ合成するのではなく、正確なボリュームレンダリングを可能にしている。 したがって、3DGSとは異なり、私たちの定式化は、ポップアップアーティファクトや依存密度に苦しむのではなく、それでも$\sim\! NVIDIA RTX4090で720pで30ドルFPS。 提案手法はレイスタライズによって達成が難しいデフォーカスぼけやカメラ歪み(魚眼カメラなど)などの効果を,線トレーシングに基づいて構築する。 提案手法は3DGSよりもブレンディング問題を少なくし,ビュー一貫性レンダリングの追従作業を行い,特にZip-NeRFデータセットの高速な結果が得られる大規模シーンにおいて,より正確であることを示す。

We present Exact Volumetric Ellipsoid Rendering (EVER), a method for real-time differentiable emission-only volume rendering. Unlike recent rasterization based approach by 3D Gaussian Splatting (3DGS), our primitive based representation allows for exact volume rendering, rather than alpha compositing 3D Gaussian billboards. As such, unlike 3DGS our formulation does not suffer from popping artifacts and view dependent density, but still achieves frame rates of $\sim\!30$ FPS at 720p on an NVIDIA RTX4090. Since our approach is built upon ray tracing it enables effects such as defocus blur and camera distortion (e.g. such as from fisheye cameras), which are difficult to achieve by rasterization. We show that our method is more accurate with fewer blending issues than 3DGS and follow-up work on view-consistent rendering, especially on the challenging large-scale scenes from the Zip-NeRF dataset where it achieves sharpest results among real-time techniques.
翻訳日:2024-11-04 15:04:32 公開日:2024-10-29
# EVER: リアルタイムビュー合成のためのエクササイズエリプソイドレンダリング

EVER: Exact Volumetric Ellipsoid Rendering for Real-time View Synthesis ( http://arxiv.org/abs/2410.01804v5 )

ライセンス: Link先を確認
Alexander Mai, Peter Hedman, George Kopanas, Dor Verbin, David Futschik, Qiangeng Xu, Falko Kuester, Jonathan T. Barron, Yinda Zhang, (参考訳) 実時間微分可能な発光専用ボリュームレンダリング法であるExact Volumetric Ellipsoid Rendering (EVER)を提案する。 近年の3D Gaussian Splatting(3DGS)によるラスタライズベースアプローチとは異なり、プリミティブベース表現は3D Gaussian Billboardをアルファ合成するのではなく、正確なボリュームレンダリングを可能にしている。 したがって、3DGSとは異なり、私たちの定式化は、ポップアップアーティファクトや依存密度に苦しむのではなく、それでも$\sim\! NVIDIA RTX4090で720pで30ドルFPS。 提案手法はレイスタライズによって達成が難しいデフォーカスぼけやカメラ歪み(魚眼カメラなど)などの効果を,線トレーシングに基づいて構築する。 提案手法は3DGSよりもブレンディング問題を少なくし,ビュー一貫性レンダリングの追従作業を行い,特にZip-NeRFデータセットの高速な結果が得られる大規模シーンにおいて,より正確であることを示す。

We present Exact Volumetric Ellipsoid Rendering (EVER), a method for real-time differentiable emission-only volume rendering. Unlike recent rasterization based approach by 3D Gaussian Splatting (3DGS), our primitive based representation allows for exact volume rendering, rather than alpha compositing 3D Gaussian billboards. As such, unlike 3DGS our formulation does not suffer from popping artifacts and view dependent density, but still achieves frame rates of $\sim\!30$ FPS at 720p on an NVIDIA RTX4090. Since our approach is built upon ray tracing it enables effects such as defocus blur and camera distortion (e.g. such as from fisheye cameras), which are difficult to achieve by rasterization. We show that our method is more accurate with fewer blending issues than 3DGS and follow-up work on view-consistent rendering, especially on the challenging large-scale scenes from the Zip-NeRF dataset where it achieves sharpest results among real-time techniques.
翻訳日:2024-11-04 15:04:32 公開日:2024-10-29
# Few-shot Semantic Segmentation における拡散モデルの可能性

Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation ( http://arxiv.org/abs/2410.02369v1 )

ライセンス: Link先を確認
Muzhi Zhu, Yang Liu, Zekai Luo, Chenchen Jing, Hao Chen, Guangkai Xu, Xinlong Wang, Chunhua Shen, (参考訳) Diffusion Modelは、画像生成の領域における注目すべき成果だけでなく、ラベルなしデータを利用した効果的な事前学習手法としての可能性も示している。 セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティックス(英語版)にラテント・ディフュージョン・モデルを用いた研究を開始した。 近年、大規模言語モデルの文脈内学習能力に触発されて、Few-shot Semantic Segmentationはインコンテキストセグメンテーションタスクへと進化し、一般化セグメンテーションモデルを評価する上で重要な要素となった。 この文脈で、我々はFew-shot Semantic Segmentationに集中し、ディフュージョンに基づくセグメンテーションのためのジェネラリストモデルの開発のための確かな基盤を確立する。 我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。 その後、サポートマスクからの情報の注入の最適化と、クエリマスクからの適切な監視方法の再評価について深く検討する。 そこで我々はDiffewSという簡易かつ効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持し,事前学習を効果的に活用する。 実験結果から,本手法は従来のSOTAモデルよりも高い性能を示した。

The Diffusion Model has not only garnered noteworthy achievements in the realm of image generation but has also demonstrated its potential as an effective pretraining method utilizing unlabeled data. Drawing from the extensive potential unveiled by the Diffusion Model in both semantic correspondence and open vocabulary segmentation, our work initiates an investigation into employing the Latent Diffusion Model for Few-shot Semantic Segmentation. Recently, inspired by the in-context learning ability of large language models, Few-shot Semantic Segmentation has evolved into In-context Segmentation tasks, morphing into a crucial element in assessing generalist segmentation models. In this context, we concentrate on Few-shot Semantic Segmentation, establishing a solid foundation for the future development of a Diffusion-based generalist model for segmentation. Our initial focus lies in understanding how to facilitate interaction between the query image and the support image, resulting in the proposal of a KV fusion method within the self-attention framework. Subsequently, we delve deeper into optimizing the infusion of information from the support mask and simultaneously re-evaluating how to provide reasonable supervision from the query mask. Based on our analysis, we establish a simple and effective framework named DiffewS, maximally retaining the original Latent Diffusion Model's generative framework and effectively utilizing the pre-training prior. Experimental results demonstrate that our method significantly outperforms the previous SOTA models in multiple settings.
翻訳日:2024-11-04 03:40:32 公開日:2024-10-29
# Few-shot Semantic Segmentation における拡散モデルの可能性

Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation ( http://arxiv.org/abs/2410.02369v2 )

ライセンス: Link先を確認
Muzhi Zhu, Yang Liu, Zekai Luo, Chenchen Jing, Hao Chen, Guangkai Xu, Xinlong Wang, Chunhua Shen, (参考訳) Diffusion Modelは、画像生成の領域における注目すべき成果だけでなく、ラベルなしデータを利用した効果的な事前学習手法としての可能性も示している。 セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティックス(英語版)にラテント・ディフュージョン・モデルを用いた研究を開始した。 近年、大規模言語モデルの文脈内学習能力に触発されて、Few-shot Semantic Segmentationはインコンテキストセグメンテーションタスクへと進化し、一般化セグメンテーションモデルを評価する上で重要な要素となった。 この文脈で、我々はFew-shot Semantic Segmentationに集中し、ディフュージョンに基づくセグメンテーションのためのジェネラリストモデルの開発のための確かな基盤を確立する。 我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。 その後、サポートマスクからの情報の注入の最適化と、クエリマスクからの適切な監視方法の再評価について深く検討する。 そこで我々はDiffewSという簡易かつ効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持し,事前学習を効果的に活用する。 実験結果から,本手法は従来のSOTAモデルよりも高い性能を示した。

The Diffusion Model has not only garnered noteworthy achievements in the realm of image generation but has also demonstrated its potential as an effective pretraining method utilizing unlabeled data. Drawing from the extensive potential unveiled by the Diffusion Model in both semantic correspondence and open vocabulary segmentation, our work initiates an investigation into employing the Latent Diffusion Model for Few-shot Semantic Segmentation. Recently, inspired by the in-context learning ability of large language models, Few-shot Semantic Segmentation has evolved into In-context Segmentation tasks, morphing into a crucial element in assessing generalist segmentation models. In this context, we concentrate on Few-shot Semantic Segmentation, establishing a solid foundation for the future development of a Diffusion-based generalist model for segmentation. Our initial focus lies in understanding how to facilitate interaction between the query image and the support image, resulting in the proposal of a KV fusion method within the self-attention framework. Subsequently, we delve deeper into optimizing the infusion of information from the support mask and simultaneously re-evaluating how to provide reasonable supervision from the query mask. Based on our analysis, we establish a simple and effective framework named DiffewS, maximally retaining the original Latent Diffusion Model's generative framework and effectively utilizing the pre-training prior. Experimental results demonstrate that our method significantly outperforms the previous SOTA models in multiple settings.
翻訳日:2024-11-04 03:40:32 公開日:2024-10-29
# Few-shot Semantic Segmentation における拡散モデルの可能性

Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation ( http://arxiv.org/abs/2410.02369v3 )

ライセンス: Link先を確認
Muzhi Zhu, Yang Liu, Zekai Luo, Chenchen Jing, Hao Chen, Guangkai Xu, Xinlong Wang, Chunhua Shen, (参考訳) Diffusion Modelは、画像生成の領域における注目すべき成果だけでなく、ラベルなしデータを利用した効果的な事前学習手法としての可能性も示している。 セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティックス(英語版)にラテント・ディフュージョン・モデルを用いた研究を開始した。 近年、大規模言語モデルの文脈内学習能力に触発されて、Few-shot Semantic Segmentationはインコンテキストセグメンテーションタスクへと進化し、一般化セグメンテーションモデルを評価する上で重要な要素となった。 この文脈で、我々はFew-shot Semantic Segmentationに集中し、ディフュージョンに基づくセグメンテーションのためのジェネラリストモデルの開発のための確かな基盤を確立する。 我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。 その後、サポートマスクからの情報の注入の最適化と、クエリマスクからの適切な監視方法の再評価について深く検討する。 そこで我々はDiffewSという簡易かつ効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持し,事前学習を効果的に活用する。 実験結果から,本手法は従来のSOTAモデルよりも高い性能を示した。

The Diffusion Model has not only garnered noteworthy achievements in the realm of image generation but has also demonstrated its potential as an effective pretraining method utilizing unlabeled data. Drawing from the extensive potential unveiled by the Diffusion Model in both semantic correspondence and open vocabulary segmentation, our work initiates an investigation into employing the Latent Diffusion Model for Few-shot Semantic Segmentation. Recently, inspired by the in-context learning ability of large language models, Few-shot Semantic Segmentation has evolved into In-context Segmentation tasks, morphing into a crucial element in assessing generalist segmentation models. In this context, we concentrate on Few-shot Semantic Segmentation, establishing a solid foundation for the future development of a Diffusion-based generalist model for segmentation. Our initial focus lies in understanding how to facilitate interaction between the query image and the support image, resulting in the proposal of a KV fusion method within the self-attention framework. Subsequently, we delve deeper into optimizing the infusion of information from the support mask and simultaneously re-evaluating how to provide reasonable supervision from the query mask. Based on our analysis, we establish a simple and effective framework named DiffewS, maximally retaining the original Latent Diffusion Model's generative framework and effectively utilizing the pre-training prior. Experimental results demonstrate that our method significantly outperforms the previous SOTA models in multiple settings.
翻訳日:2024-11-04 03:40:32 公開日:2024-10-29
# 下流予測課題におけるECG表現のためのオートエンコーダ符号化の比較

Comparison of Autoencoder Encodings for ECG Representation in Downstream Prediction Tasks ( http://arxiv.org/abs/2410.02937v1 )

ライセンス: Link先を確認
Christopher J. Harvey, Sumaiya Shomaji, Zijun Yao, Amit Noheria, (参考訳) 心電図(Electrocardiogram, ECG)は、心臓血管評価のための安価で広く利用可能なツールである。 標準化されたフォーマットと小さなファイルサイズにもかかわらず、ECG信号(典型的には6万サイズのベクトル)の複雑さと個人間変動は、特に小さなデータセットしか利用できないディープラーニングモデルでの使用を困難にしている。 本研究は,PCA(Principal Component Analysis, 主成分分析)とオートエンコーダ(Autoencoder, 自動エンコーダ)に着目し,データ複雑性の低減を図ることで,これらの課題に対処する。 我々は,Stochastic Autoencoder (SAE), Annealed beta-VAE (Abeta-VAE), cyclical beta-VAE (Cbeta-VAE) の3つの新しい変分自動エンコーダ(VAE)を導入し,信号の忠実性維持と下流予測タスクの強化にそれらの効果を比較した。 アベタVAEは、信号ノイズのレベルである平均絶対誤差(MAE)を15.7プラス3.2マイクロボルトに減らした。 さらに、SAEエンコーディングは、心電図の要約特徴と組み合わせることで、左室誘発率の低下(LVEF)の予測を改善し、受信機動作特性曲線(AUROC)の0.901の範囲を達成した。 この性能は最先端CNNモデルの0.910 AUROCとほぼ一致しているが、データや計算資源は大幅に少ない。 以上の結果から,これらのVAE符号化はECGデータの簡易化だけでなく,限定的なラベル付き学習データを用いた文脈での深層学習の実践的解決にも有効であることが示唆された。

The electrocardiogram (ECG) is an inexpensive and widely available tool for cardiovascular assessment. Despite its standardized format and small file size, the high complexity and inter-individual variability of ECG signals (typically a 60,000-size vector) make it challenging to use in deep learning models, especially when only small datasets are available. This study addresses these challenges by exploring feature generation methods from representative beat ECGs, focusing on Principal Component Analysis (PCA) and Autoencoders to reduce data complexity. We introduce three novel Variational Autoencoder (VAE) variants: Stochastic Autoencoder (SAE), Annealed beta-VAE (Abeta-VAE), and cyclical beta-VAE (Cbeta-VAE), and compare their effectiveness in maintaining signal fidelity and enhancing downstream prediction tasks. The Abeta-VAE achieved superior signal reconstruction, reducing the mean absolute error (MAE) to 15.7 plus-minus 3.2 microvolts, which is at the level of signal noise. Moreover, the SAE encodings, when combined with ECG summary features, improved the prediction of reduced Left Ventricular Ejection Fraction (LVEF), achieving an area under the receiver operating characteristic curve (AUROC) of 0.901. This performance nearly matches the 0.910 AUROC of state-of-the-art CNN models but requires significantly less data and computational resources. Our findings demonstrate that these VAE encodings are not only effective in simplifying ECG data but also provide a practical solution for applying deep learning in contexts with limited-scale labeled training data.
翻訳日:2024-11-03 04:55:13 公開日:2024-10-29
# 下流予測課題におけるECG表現のためのオートエンコーダ符号化の比較

Comparison of Autoencoder Encodings for ECG Representation in Downstream Prediction Tasks ( http://arxiv.org/abs/2410.02937v2 )

ライセンス: Link先を確認
Christopher J. Harvey, Sumaiya Shomaji, Zijun Yao, Amit Noheria, (参考訳) 心電図(Electrocardiogram, ECG)は、心臓血管評価のための安価で広く利用可能なツールである。 標準化されたフォーマットと小さなファイルサイズにもかかわらず、ECG信号(典型的には6万サイズのベクトル)の複雑さと個人間変動は、特に小さなデータセットしか利用できないディープラーニングモデルでの使用を困難にしている。 本研究は,PCA(Principal Component Analysis, 主成分分析)とオートエンコーダ(Autoencoder, 自動エンコーダ)に着目し,データ複雑性の低減を図ることで,これらの課題に対処する。 我々は,Stochastic Autoencoder (SAE), Annealed beta-VAE (Abeta-VAE), cyclical beta-VAE (Cbeta-VAE) の3つの新しい変分自動エンコーダ(VAE)を導入し,信号の忠実性維持と下流予測タスクの強化にそれらの効果を比較した。 アベタVAEは、信号ノイズのレベルである平均絶対誤差(MAE)を15.7プラス3.2マイクロボルトに減らした。 さらに、SAEエンコーディングは、心電図の要約特徴と組み合わせることで、左室誘発率の低下(LVEF)の予測を改善し、受信機動作特性曲線(AUROC)の0.901の範囲を達成した。 この性能は最先端CNNモデルの0.910 AUROCとほぼ一致しているが、データや計算資源は大幅に少ない。 以上の結果から,これらのVAE符号化はECGデータの簡易化だけでなく,限定的なラベル付き学習データを用いた文脈での深層学習の実践的解決にも有効であることが示唆された。

The electrocardiogram (ECG) is an inexpensive and widely available tool for cardiovascular assessment. Despite its standardized format and small file size, the high complexity and inter-individual variability of ECG signals (typically a 60,000-size vector) make it challenging to use in deep learning models, especially when only small datasets are available. This study addresses these challenges by exploring feature generation methods from representative beat ECGs, focusing on Principal Component Analysis (PCA) and Autoencoders to reduce data complexity. We introduce three novel Variational Autoencoder (VAE) variants: Stochastic Autoencoder (SAE), Annealed beta-VAE (Abeta-VAE), and cyclical beta-VAE (Cbeta-VAE), and compare their effectiveness in maintaining signal fidelity and enhancing downstream prediction tasks. The Abeta-VAE achieved superior signal reconstruction, reducing the mean absolute error (MAE) to 15.7 plus-minus 3.2 microvolts, which is at the level of signal noise. Moreover, the SAE encodings, when combined with ECG summary features, improved the prediction of reduced Left Ventricular Ejection Fraction (LVEF), achieving an area under the receiver operating characteristic curve (AUROC) of 0.901. This performance nearly matches the 0.910 AUROC of state-of-the-art CNN models but requires significantly less data and computational resources. Our findings demonstrate that these VAE encodings are not only effective in simplifying ECG data but also provide a practical solution for applying deep learning in contexts with limited-scale labeled training data.
翻訳日:2024-11-03 04:55:13 公開日:2024-10-29
# AIME: 複数のLLM評価器によるAIシステムの最適化

AIME: AI System Optimization via Multiple LLM Evaluators ( http://arxiv.org/abs/2410.03131v1 )

ライセンス: Link先を確認
Bhrij Patel, Souradip Chakraborty, Wesley A. Suttle, Mengdi Wang, Amrit Singh Bedi, Dinesh Manocha, (参考訳) テキストベースのAIシステムの最適化は通常、1つのLLMが現在の出力の自然言語で評価を生成して次のイテレーションの出力を改善するフィードバックループスキームを含む。 しかし,本研究では,複数の基準を持つ実用的かつ複雑なタスク(コード生成)に対して,LLM評価器を1つだけ利用すれば,生成したコードのエラーが検出されずに済む傾向があり,誤った評価と究極的には最適なテストケース性能が得られることを実証的に示す。 この失敗に触発されて、反応と基底の真理の評価をサンプリングする最適な評価ポリシーが存在すると仮定する。 そして、理論的には、複数の評価器の線形結合がこの最適方針を近似することができることを証明する。 この知見から,複数LLM評価器(AIME)を用いたAIシステムの最適化を提案する。 AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。 コード生成タスクにおいて、AIMEがベースラインメソッドよりも優れた性能を示し、エラー検出率を最大6.2 %、成功率を最大16 %と、LeetCodeHardおよびHumanEvalデータセット上の単一のLCM評価プロトコルよりも高い性能を示す。 また,評価者数の選択と利用基準は,パクト成功率に最大12.%の影響を及ぼす可能性があるため,非自明なものであることも示している。

Text-based AI system optimization typically involves a feedback loop scheme where a single LLM generates an evaluation in natural language of the current output to improve the next iteration's output. However, in this work, we empirically demonstrate that for a practical and complex task (code generation) with multiple criteria to evaluate, utilizing only one LLM evaluator tends to let errors in generated code go undetected, thus leading to incorrect evaluations and ultimately suboptimal test case performance. Motivated by this failure case, we assume there exists an optimal evaluation policy that samples an evaluation between response and ground truth. We then theoretically prove that a linear combination of multiple evaluators can approximate this optimal policy. From this insight, we propose AI system optimization via Multiple LLM Evaluators (AIME). AIME is an evaluation protocol that utilizes multiple LLMs that each independently generate an evaluation on separate criteria and then combine them via concatenation. We provide an extensive empirical study showing AIME outperforming baseline methods in code generation tasks, with up to $62\%$ higher error detection rate and up to $16\%$ higher success rate than a single LLM evaluation protocol on LeetCodeHard and HumanEval datasets. We also show that the selection of the number of evaluators and which criteria to utilize is non-trivial as it can impact pact success rate by up to $12\%$.
翻訳日:2024-11-03 03:36:45 公開日:2024-10-29
# AIME: 複数のLLM評価器によるAIシステムの最適化

AIME: AI System Optimization via Multiple LLM Evaluators ( http://arxiv.org/abs/2410.03131v2 )

ライセンス: Link先を確認
Bhrij Patel, Souradip Chakraborty, Wesley A. Suttle, Mengdi Wang, Amrit Singh Bedi, Dinesh Manocha, (参考訳) テキストベースのAIシステムの最適化は通常、1つのLLMが現在の出力の自然言語で評価を生成して次のイテレーションの出力を改善するフィードバックループスキームを含む。 しかし,本研究では,複数の基準を持つ実用的かつ複雑なタスク(コード生成)に対して,LLM評価器を1つだけ利用すれば,生成したコードのエラーが検出されずに済む傾向があり,誤った評価と究極的には最適なテストケース性能が得られることを実証的に示す。 この失敗に触発されて、反応と基底の真理の評価をサンプリングする最適な評価ポリシーが存在すると仮定する。 そして、理論的には、複数の評価器の線形結合がこの最適方針を近似することができることを証明する。 この知見から,複数LLM評価器(AIME)を用いたAIシステムの最適化を提案する。 AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。 コード生成タスクにおいて、AIMEがベースラインメソッドよりも優れた性能を示し、エラー検出率を最大6.2 %、成功率を最大16 %と、LeetCodeHardおよびHumanEvalデータセット上の単一のLCM評価プロトコルよりも高い性能を示す。 また,評価者数の選択と利用基準は,パクト成功率に最大12.%の影響を及ぼす可能性があるため,非自明なものであることも示している。

Text-based AI system optimization typically involves a feedback loop scheme where a single LLM generates an evaluation in natural language of the current output to improve the next iteration's output. However, in this work, we empirically demonstrate that for a practical and complex task (code generation) with multiple criteria to evaluate, utilizing only one LLM evaluator tends to let errors in generated code go undetected, thus leading to incorrect evaluations and ultimately suboptimal test case performance. Motivated by this failure case, we assume there exists an optimal evaluation policy that samples an evaluation between response and ground truth. We then theoretically prove that a linear combination of multiple evaluators can approximate this optimal policy. From this insight, we propose AI system optimization via Multiple LLM Evaluators (AIME). AIME is an evaluation protocol that utilizes multiple LLMs that each independently generate an evaluation on separate criteria and then combine them via concatenation. We provide an extensive empirical study showing AIME outperforming baseline methods in code generation tasks, with up to $62\%$ higher error detection rate and up to $16\%$ higher success rate than a single LLM evaluation protocol on LeetCodeHard and HumanEval datasets. We also show that the selection of the number of evaluators and which criteria to utilize is non-trivial as it can impact pact success rate by up to $12\%$.
翻訳日:2024-11-03 03:36:45 公開日:2024-10-29
# AIME: 複数のLLM評価器によるAIシステムの最適化

AIME: AI System Optimization via Multiple LLM Evaluators ( http://arxiv.org/abs/2410.03131v3 )

ライセンス: Link先を確認
Bhrij Patel, Souradip Chakraborty, Wesley A. Suttle, Mengdi Wang, Amrit Singh Bedi, Dinesh Manocha, (参考訳) テキストベースのAIシステムの最適化は通常、1つのLLMが現在の出力の自然言語で評価を生成して次のイテレーションの出力を改善するフィードバックループスキームを含む。 しかし,本研究では,複数の基準を持つ実用的かつ複雑なタスク(コード生成)に対して,LLM評価器を1つだけ利用すれば,生成したコードのエラーが検出されずに済む傾向があり,誤った評価と究極的には最適なテストケース性能が得られることを実証的に示す。 この失敗に触発されて、反応と基底の真理の評価をサンプリングする最適な評価ポリシーが存在すると仮定する。 そして、理論的には、複数の評価器の線形結合がこの最適方針を近似することができることを証明する。 この知見から,複数LLM評価器(AIME)を用いたAIシステムの最適化を提案する。 AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。 コード生成タスクにおいて、AIMEがベースラインメソッドよりも優れた性能を示し、エラー検出率を最大6.2 %、成功率を最大16 %と、LeetCodeHardおよびHumanEvalデータセット上の単一のLCM評価プロトコルよりも高い性能を示す。 また,評価者数の選択と利用基準は,パクト成功率に最大12.%の影響を及ぼす可能性があるため,非自明なものであることも示している。

Text-based AI system optimization typically involves a feedback loop scheme where a single LLM generates an evaluation in natural language of the current output to improve the next iteration's output. However, in this work, we empirically demonstrate that for a practical and complex task (code generation) with multiple criteria to evaluate, utilizing only one LLM evaluator tends to let errors in generated code go undetected, thus leading to incorrect evaluations and ultimately suboptimal test case performance. Motivated by this failure case, we assume there exists an optimal evaluation policy that samples an evaluation between response and ground truth. We then theoretically prove that a linear combination of multiple evaluators can approximate this optimal policy. From this insight, we propose AI system optimization via Multiple LLM Evaluators (AIME). AIME is an evaluation protocol that utilizes multiple LLMs that each independently generate an evaluation on separate criteria and then combine them via concatenation. We provide an extensive empirical study showing AIME outperforming baseline methods in code generation tasks, with up to $62\%$ higher error detection rate and up to $16\%$ higher success rate than a single LLM evaluation protocol on LeetCodeHard and HumanEval datasets. We also show that the selection of the number of evaluators and which criteria to utilize is non-trivial as it can impact pact success rate by up to $12\%$.
翻訳日:2024-11-03 03:36:45 公開日:2024-10-29
# 大規模言語モデルにおけるアンラーニングとアライメントの確率論的視点

A Probabilistic Perspective on Unlearning and Alignment for Large Language Models ( http://arxiv.org/abs/2410.03523v1 )

ライセンス: Link先を確認
Yan Scholten, Stephan Günnemann, Leo Schwinn, (参考訳) 大規模言語モデル(LLM)の包括的評価はオープンな研究課題である。 既存の評価は、グリーディ復号によって生成される決定論的点推定に依存している。 しかし、決定論的評価では、モデル全体の出力分布を捉えることができず、モデル機能の不正確な推定結果が得られることがわかった。 これは、正確なモデル評価が不可欠であるアンラーニングやアライメントのような重要なコンテキストにおいて特に問題となる。 そこで本研究では,LLMにおける最初の形式的確率的評価フレームワークを提案する。 すなわち、モデルの出力分布に関する高い確率保証を持つ新しいメトリクスを導出する。 私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。 アンラーニングに焦点を当てたケーススタディを通じて、決定論的評価は未学習の成功を誤って示すのに対し、確率論的評価は、未学習と思われる情報が全てではないとしても、これらのモデルでアクセス可能であることを示す。 さらに,エントロピー最適化と適応温度スケーリングに基づく新しいアンラーニング損失を提案する。 提案手法は, 点推定から出力分布の確率的評価へのシフトが, LLMの包括的評価への重要な一歩である。 https://github.com/yascho/probabilistic-unlearning

Comprehensive evaluation of Large Language Models (LLMs) is an open research problem. Existing evaluations rely on deterministic point estimates generated via greedy decoding. However, we find that deterministic evaluations fail to capture the whole output distribution of a model, yielding inaccurate estimations of model capabilities. This is particularly problematic in critical contexts such as unlearning and alignment, where precise model evaluations are crucial. To remedy this, we introduce the first formal probabilistic evaluation framework in LLMs. Namely, we derive novel metrics with high-probability guarantees concerning the output distribution of a model. Our metrics are application-independent and allow practitioners to make more reliable estimates about model capabilities before deployment. Through a case study focused on unlearning, we reveal that deterministic evaluations falsely indicate successful unlearning, whereas our probabilistic evaluations demonstrate that most if not all of the supposedly unlearned information remains accessible in these models. Additionally, we propose a novel unlearning loss based on entropy optimization and adaptive temperature scaling, which significantly improves unlearning in probabilistic settings on recent benchmarks. Our proposed shift from point estimates to probabilistic evaluations of output distributions represents an important step toward comprehensive evaluations of LLMs. https://github.com/yascho/probabilistic-unlearning
翻訳日:2024-11-02 21:50:00 公開日:2024-10-29
# 大規模言語モデルにおけるアンラーニングとアライメントの確率論的視点

A Probabilistic Perspective on Unlearning and Alignment for Large Language Models ( http://arxiv.org/abs/2410.03523v2 )

ライセンス: Link先を確認
Yan Scholten, Stephan Günnemann, Leo Schwinn, (参考訳) 大規模言語モデル(LLM)の包括的評価はオープンな研究課題である。 既存の評価は、グリーディ復号によって生成される決定論的点推定に依存している。 しかし、決定論的評価では、モデル全体の出力分布を捉えることができず、モデル機能の不正確な推定結果が得られることがわかった。 これは、正確なモデル評価が不可欠であるアンラーニングやアライメントのような重要なコンテキストにおいて特に問題となる。 そこで本研究では,LLMにおける最初の形式的確率的評価フレームワークを提案する。 すなわち、モデルの出力分布に関する高い確率保証を持つ新しいメトリクスを導出する。 私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。 アンラーニングに焦点を当てたケーススタディを通じて、決定論的評価は未学習の成功を誤って示すのに対し、確率論的評価は、未学習と思われる情報が全てではないとしても、これらのモデルでアクセス可能であることを示す。 さらに,エントロピー最適化と適応温度スケーリングに基づく新しいアンラーニング損失を提案する。 提案手法は, 点推定から出力分布の確率的評価へのシフトが, LLMの包括的評価への重要な一歩である。 https://github.com/yascho/probabilistic-unlearningで利用可能なコード

Comprehensive evaluation of Large Language Models (LLMs) is an open research problem. Existing evaluations rely on deterministic point estimates generated via greedy decoding. However, we find that deterministic evaluations fail to capture the whole output distribution of a model, yielding inaccurate estimations of model capabilities. This is particularly problematic in critical contexts such as unlearning and alignment, where precise model evaluations are crucial. To remedy this, we introduce the first formal probabilistic evaluation framework in LLMs. Namely, we derive novel metrics with high-probability guarantees concerning the output distribution of a model. Our metrics are application-independent and allow practitioners to make more reliable estimates about model capabilities before deployment. Through a case study focused on unlearning, we reveal that deterministic evaluations falsely indicate successful unlearning, whereas our probabilistic evaluations demonstrate that most if not all of the supposedly unlearned information remains accessible in these models. Additionally, we propose a novel unlearning loss based on entropy optimization and adaptive temperature scaling, which significantly improves unlearning in probabilistic settings on recent benchmarks. Our proposed shift from point estimates to probabilistic evaluations of output distributions represents an important step toward comprehensive evaluations of LLMs. Code available at https://github.com/yascho/probabilistic-unlearning
翻訳日:2024-11-02 21:50:00 公開日:2024-10-29
# システム2の推論能力は近い

System 2 reasoning capabilities are nigh ( http://arxiv.org/abs/2410.03662v1 )

ライセンス: Link先を確認
Scott C. Lowe, (参考訳) 近年、機械学習モデルは、様々な方向から人間のような推論能力に向けて前進している。 本稿では,本研究の現状を概観し,人間に類似したシステム2推論が可能なニューラルモデルを実現するための残りのステップについて述べる。 現在のモデルが推論を行うのに不十分な場合、その目標を達成するのに必要な追加の進歩はほとんどありません。

In recent years, machine learning models have made strides towards human-like reasoning capabilities from several directions. In this work, we review the current state of the literature and describe the remaining steps to achieve a neural model which can perform System 2 reasoning analogous to a human. We argue that if current models are insufficient to be classed as performing reasoning, there remains very little additional progress needed to attain that goal.
翻訳日:2024-11-02 20:48:16 公開日:2024-10-29
# システム2の推論能力は近い

System 2 Reasoning Capabilities Are Nigh ( http://arxiv.org/abs/2410.03662v2 )

ライセンス: Link先を確認
Scott C. Lowe, (参考訳) 近年、機械学習モデルは、様々な方向から人間のような推論能力に向けて前進している。 本稿では,本研究の現状を概観し,人間に類似したシステム~2推論が可能なニューラルモデルを実現するための残りのステップについて述べる。 現在のモデルが推論を行うのに不十分な場合、その目標を達成するのに必要な追加の進歩はほとんどありません。

In recent years, machine learning models have made strides towards human-like reasoning capabilities from several directions. In this work, we review the current state of the literature and describe the remaining steps to achieve a neural model which can perform System~2 reasoning analogous to a human. We argue that if current models are insufficient to be classed as performing reasoning, there remains very little additional progress needed to attain that goal.
翻訳日:2024-11-02 20:48:16 公開日:2024-10-29
# PAD:デコード時のパーソナライズされたアライメント

PAD: Personalized Alignment at Decoding-Time ( http://arxiv.org/abs/2410.04070v1 )

ライセンス: Link先を確認
Ruizhe Chen, Xiaotian Zhang, Meng Luo, Wenhao Chai, Zuozhu Liu, (参考訳) 文化的、教育的、政治的に大きく異なるパーソナライズされた好みに合わせることは、従来のアライメント手法の計算コストとデータ要求のために大きな課題となる。 そこで本研究では,LLM出力を推論フェーズにおいて多様なパーソナライズされた嗜好と整合させる新しいフレームワークであるPersonalized Alignment at Decoding-time (PAD)を提案する。 このフレームワークは、独自のパーソナライズされた報酬モデリング戦略を導入することにより、テキスト生成プロセスをパーソナライズされた好みから切り離し、一般化可能なトークンレベルのパーソナライズされた報酬の生成を容易にする。 PADアルゴリズムはこれらの報酬を活用してデコードプロセスをガイドし、ベースモデルの予測をパーソナライズされた好みに動的に調整する。 大規模な実験結果から、PADは既存のトレーニングベースのアライメント手法よりも、多様な嗜好との整合性に優れるだけでなく、トレーニング中に見つからない嗜好への顕著な一般化性や、異なるベースモデル間でのスケーラビリティも示している。 この作業は、リアルタイムアプリケーションにおけるユーザニーズを満たすためのLLMの能力を向上し、パーソナライズされたLLMアライメントにおける大きな前進を示す。

Aligning with personalized preferences, which vary significantly across cultural, educational, and political differences, poses a significant challenge due to the computational costs and data demands of traditional alignment methods. In response, this paper presents Personalized Alignment at Decoding-time (PAD), a novel framework designed to align LLM outputs with diverse personalized preferences during the inference phase, eliminating the need for additional training. By introducing a unique personalized reward modeling strategy, this framework decouples the text generation process from personalized preferences, facilitating the generation of generalizable token-level personalized rewards. The PAD algorithm leverages these rewards to guide the decoding process, dynamically tailoring the base model's predictions to personalized preferences. Extensive experimental results demonstrate that PAD not only outperforms existing training-based alignment methods in terms of aligning with diverse preferences but also shows significant generalizability to preferences unseen during training and scalability across different base models. This work advances the capability of LLMs to meet user needs in real-time applications, presenting a substantial step forward in personalized LLM alignment.
翻訳日:2024-11-02 14:20:57 公開日:2024-10-29
# PAD:デコード時のパーソナライズされたアライメント

PAD: Personalized Alignment at Decoding-Time ( http://arxiv.org/abs/2410.04070v2 )

ライセンス: Link先を確認
Ruizhe Chen, Xiaotian Zhang, Meng Luo, Wenhao Chai, Zuozhu Liu, (参考訳) 文化的、教育的、政治的に大きく異なるパーソナライズされた好みに合わせることは、従来のアライメント手法の計算コストとデータ要求のために大きな課題となる。 そこで本研究では,LLM出力を推論フェーズにおいて多様なパーソナライズされた嗜好と整合させる新しいフレームワークであるPersonalized Alignment at Decoding-time (PAD)を提案する。 このフレームワークは、独自のパーソナライズされた報酬モデリング戦略を導入することにより、テキスト生成プロセスをパーソナライズされた好みから切り離し、一般化可能なトークンレベルのパーソナライズされた報酬の生成を容易にする。 PADアルゴリズムはこれらの報酬を活用してデコードプロセスをガイドし、ベースモデルの予測をパーソナライズされた好みに動的に調整する。 大規模な実験結果から、PADは既存のトレーニングベースのアライメント手法よりも、多様な嗜好との整合性に優れるだけでなく、トレーニング中に見つからない嗜好への顕著な一般化性や、異なるベースモデル間でのスケーラビリティも示している。 この作業は、リアルタイムアプリケーションにおけるユーザニーズを満たすためのLLMの能力を向上し、パーソナライズされたLLMアライメントにおける大きな前進を示す。

Aligning with personalized preferences, which vary significantly across cultural, educational, and political differences, poses a significant challenge due to the computational costs and data demands of traditional alignment methods. In response, this paper presents Personalized Alignment at Decoding-time (PAD), a novel framework designed to align LLM outputs with diverse personalized preferences during the inference phase, eliminating the need for additional training. By introducing a unique personalized reward modeling strategy, this framework decouples the text generation process from personalized preferences, facilitating the generation of generalizable token-level personalized rewards. The PAD algorithm leverages these rewards to guide the decoding process, dynamically tailoring the base model's predictions to personalized preferences. Extensive experimental results demonstrate that PAD not only outperforms existing training-based alignment methods in terms of aligning with diverse preferences but also shows significant generalizability to preferences unseen during training and scalability across different base models. This work advances the capability of LLMs to meet user needs in real-time applications, presenting a substantial step forward in personalized LLM alignment.
翻訳日:2024-11-02 14:20:57 公開日:2024-10-29
# PAD:デコード時のパーソナライズされたアライメント

PAD: Personalized Alignment at Decoding-Time ( http://arxiv.org/abs/2410.04070v3 )

ライセンス: Link先を確認
Ruizhe Chen, Xiaotian Zhang, Meng Luo, Wenhao Chai, Zuozhu Liu, (参考訳) 文化的、教育的、政治的に大きく異なるパーソナライズされた好みに合わせることは、従来のアライメント手法の計算コストとデータ要求のために大きな課題となる。 そこで本研究では,LLM出力を推論フェーズにおいて多様なパーソナライズされた嗜好と整合させる新しいフレームワークであるPersonalized Alignment at Decoding-time (PAD)を提案する。 このフレームワークは、独自のパーソナライズされた報酬モデリング戦略を導入することにより、テキスト生成プロセスをパーソナライズされた好みから切り離し、一般化可能なトークンレベルのパーソナライズされた報酬の生成を容易にする。 PADアルゴリズムはこれらの報酬を活用してデコードプロセスをガイドし、ベースモデルの予測をパーソナライズされた好みに動的に調整する。 大規模な実験結果から、PADは既存のトレーニングベースのアライメント手法よりも、多様な嗜好との整合性に優れるだけでなく、トレーニング中に見つからない嗜好への顕著な一般化性や、異なるベースモデル間でのスケーラビリティも示している。 この作業は、リアルタイムアプリケーションにおけるユーザニーズを満たすためのLLMの能力を向上し、パーソナライズされたLLMアライメントにおける大きな前進を示す。

Aligning with personalized preferences, which vary significantly across cultural, educational, and political differences, poses a significant challenge due to the computational costs and data demands of traditional alignment methods. In response, this paper presents Personalized Alignment at Decoding-time (PAD), a novel framework designed to align LLM outputs with diverse personalized preferences during the inference phase, eliminating the need for additional training. By introducing a unique personalized reward modeling strategy, this framework decouples the text generation process from personalized preferences, facilitating the generation of generalizable token-level personalized rewards. The PAD algorithm leverages these rewards to guide the decoding process, dynamically tailoring the base model's predictions to personalized preferences. Extensive experimental results demonstrate that PAD not only outperforms existing training-based alignment methods in terms of aligning with diverse preferences but also shows significant generalizability to preferences unseen during training and scalability across different base models. This work advances the capability of LLMs to meet user needs in real-time applications, presenting a substantial step forward in personalized LLM alignment.
翻訳日:2024-11-02 14:20:57 公開日:2024-10-29
# PAD:デコード時のパーソナライズされたアライメント

PAD: Personalized Alignment at Decoding-Time ( http://arxiv.org/abs/2410.04070v4 )

ライセンス: Link先を確認
Ruizhe Chen, Xiaotian Zhang, Meng Luo, Wenhao Chai, Zuozhu Liu, (参考訳) 文化的、教育的、政治的に大きく異なるパーソナライズされた好みに合わせることは、従来のアライメント手法の計算コストとデータ要求のために大きな課題となる。 そこで本研究では,LLM出力を推論フェーズにおいて多様なパーソナライズされた嗜好と整合させる新しいフレームワークであるPersonalized Alignment at Decoding-time (PAD)を提案する。 このフレームワークは、独自のパーソナライズされた報酬モデリング戦略を導入することにより、テキスト生成プロセスをパーソナライズされた好みから切り離し、一般化可能なトークンレベルのパーソナライズされた報酬の生成を容易にする。 PADアルゴリズムはこれらの報酬を活用してデコードプロセスをガイドし、ベースモデルの予測をパーソナライズされた好みに動的に調整する。 大規模な実験結果から、PADは既存のトレーニングベースのアライメント手法よりも、多様な嗜好との整合性に優れるだけでなく、トレーニング中に見つからない嗜好への顕著な一般化性や、異なるベースモデル間でのスケーラビリティも示している。 この作業は、リアルタイムアプリケーションにおけるユーザニーズを満たすためのLLMの能力を向上し、パーソナライズされたLLMアライメントにおける大きな前進を示す。

Aligning with personalized preferences, which vary significantly across cultural, educational, and political differences, poses a significant challenge due to the computational costs and data demands of traditional alignment methods. In response, this paper presents Personalized Alignment at Decoding-time (PAD), a novel framework designed to align LLM outputs with diverse personalized preferences during the inference phase, eliminating the need for additional training. By introducing a unique personalized reward modeling strategy, this framework decouples the text generation process from personalized preferences, facilitating the generation of generalizable token-level personalized rewards. The PAD algorithm leverages these rewards to guide the decoding process, dynamically tailoring the base model's predictions to personalized preferences. Extensive experimental results demonstrate that PAD not only outperforms existing training-based alignment methods in terms of aligning with diverse preferences but also shows significant generalizability to preferences unseen during training and scalability across different base models. This work advances the capability of LLMs to meet user needs in real-time applications, presenting a substantial step forward in personalized LLM alignment.
翻訳日:2024-11-02 14:20:57 公開日:2024-10-29
# ゲート操作における並列化の制限は, 高次空間オーバヘッドと低騒音閾値に繋がる

Limited Parallelization in Gate Operations Leads to Higher Space Overhead and Lower Noise Threshold ( http://arxiv.org/abs/2410.04156v1 )

ライセンス: Link先を確認
Sai Sanjay Narayanan, Smita Bagewadi, Avhishek Chatterjee, (参考訳) フォールトトレラント計算の誤差補正フェーズにおけるゲート操作中のキュービットのデコヒーレンスは、実際にはゲート操作は瞬時ではなく、十分に並列化されていないため重要である。 したがって、実際には、フォールトトレラント方式のオーバーヘッドは、並列化のレベル、ゲート操作の速度、デコヒーレンス率に依存するべきである。 本稿では,デコヒーレンスプロセスがマルコフであり,エラーが消去あるいは非分極である場合,フォールトトレラント技術に必要な空間オーバーヘッドを低くする。 この境界は、ノイズまたはデコヒーレンスしきい値、すなわち信頼性のあるメモリ(回路)が実現できないノイズが、ゲート操作における並列化のレベルを低下させることで減少することを意味する。 また、ノイズ閾値はゼロに近づき、並列化のレベルはゼロに近づき、フォールトトレラントな実装はゲート演算において十分な並列化を行わなければならない。

Decoherence of qubits during gate operations in the error correction phase of fault-tolerant computation is significant since, in practice, gate operations are neither instantaneous nor are they sufficiently parallelized. Thus, in practice, the overhead of a fault-tolerant scheme should depend on the level of parallelization, the speed of gate operations, and the rate of decoherence. In this paper, we obtain a lower bound on the required space overhead for any fault-tolerant technique when the decoherence process is Markov and the errors are either erasure or depolarization. An implication of this bound is that the noise or decoherence threshold, i.e., the noise beyond which no reliable memory (circuit) can be realized, decreases with a decrease in the level of parallelization in gate operations. Also, the noise threshold approaches zero as the level of parallelization approaches zero, implying that any fault-tolerant implementations must strive for sufficient parallelization in gate operations.
翻訳日:2024-11-02 13:51:18 公開日:2024-10-29
# ゲート操作における並列化の制限は, 高次空間オーバヘッドと低騒音閾値に繋がる

Limited Parallelization in Gate Operations Leads to Higher Space Overhead and Lower Noise Threshold ( http://arxiv.org/abs/2410.04156v2 )

ライセンス: Link先を確認
Sai Sanjay Narayanan, Smita Bagewadi, Avhishek Chatterjee, (参考訳) フォールトトレラント計算の誤差補正フェーズにおけるゲート操作中のキュービットのデコヒーレンスは、実際にはゲート操作は瞬時ではなく、十分に並列化されていないため重要である。 したがって、実際には、フォールトトレラント方式のオーバーヘッドは、並列化のレベル、ゲート操作の速度、デコヒーレンス率に依存するべきである。 本稿では,デコヒーレンスプロセスがマルコフであり,エラーが消去あるいは非分極である場合,フォールトトレラント技術に必要な空間オーバーヘッドを低くする。 この境界は、ノイズまたはデコヒーレンスしきい値、すなわち信頼性のあるメモリ(回路)が実現できないノイズが、ゲート操作における並列化のレベルを低下させることで減少することを意味する。 また、ノイズ閾値はゼロに近づき、並列化のレベルはゼロに近づき、フォールトトレラントな実装はゲート演算において十分な並列化を行わなければならない。

Decoherence of qubits during gate operations in the error correction phase of fault-tolerant computation is significant since, in practice, gate operations are neither instantaneous nor are they sufficiently parallelized. Thus, in practice, the overhead of a fault-tolerant scheme should depend on the level of parallelization, the speed of gate operations, and the rate of decoherence. In this paper, we obtain a lower bound on the required space overhead for any fault-tolerant technique when the decoherence process is Markov and the errors are either erasure or depolarization. An implication of this bound is that the noise or decoherence threshold, i.e., the noise beyond which no reliable memory (circuit) can be realized, decreases with a decrease in the level of parallelization in gate operations. Also, the noise threshold approaches zero as the level of parallelization approaches zero, implying that any fault-tolerant implementations must strive for sufficient parallelization in gate operations.
翻訳日:2024-11-02 13:51:18 公開日:2024-10-29
# Adaptive Question Answering: Enhancing Language Model Prociciency for addressing Knowledge Conflicts with Source Citations

Adaptive Question Answering: Enhancing Language Model Proficiency for Addressing Knowledge Conflicts with Source Citations ( http://arxiv.org/abs/2410.04241v1 )

ライセンス: Link先を確認
Sagi Shaier, Ari Kobren, Philip Ogren, (参考訳) インターネットには多くの矛盾する事実や意見が含まれているため、知識紛争の解決は質問回答(QA)タスクにおいて重要な課題である。 いくつかの研究では、複数の有効な回答が存在するあいまいな状況に対処する研究が進んでいるが、これらのアプローチはソースの引用を無視することが多く、ユーザーは各回答の事実性を評価する必要がある。 一方、引用生成に関する既存の研究は、一つの答えを持つ曖昧な設定に焦点を合わせており、現実のシナリオの複雑さに対処することができない。 両面の重要性にもかかわらず、先行研究が組み合わさっておらず、QAシステムの開発に大きなギャップが残されている。 本稿では、このギャップを、複数の有効な答えが存在する曖昧な環境で、ソースの引用を伴うQAの新たなタスクを提案することによって埋める。 本研究を円滑に進めるために,(1)注意喚起やパラフレージングなど,さまざまなあいまいな設定で引用メタデータを用いた3つの既存読解データセットを拡張した5つの新しいデータセット,(2)実世界の自然発生状況を考慮した最初のあいまいなマルチホップQAデータセット,(3)モデルのパフォーマンスを評価するための2つの新しい指標,(4)ルールベース,プロンプト,ファインタリングの5つの大きな言語モデルに対するアプローチを用いた強力なベースライン,からなる包括的フレームワークを構築した。 この新しいタスク、データセット、メトリクス、ベースラインは、コミュニティにQA研究の境界を押し進め、より信頼できる、解釈可能なシステムを開発するよう促すことを期待しています。

Resolving knowledge conflicts is a crucial challenge in Question Answering (QA) tasks, as the internet contains numerous conflicting facts and opinions. While some research has made progress in tackling ambiguous settings where multiple valid answers exist, these approaches often neglect to provide source citations, leaving users to evaluate the factuality of each answer. On the other hand, existing work on citation generation has focused on unambiguous settings with single answers, failing to address the complexity of real-world scenarios. Despite the importance of both aspects, no prior research has combined them, leaving a significant gap in the development of QA systems. In this work, we bridge this gap by proposing the novel task of QA with source citation in ambiguous settings, where multiple valid answers exist. To facilitate research in this area, we create a comprehensive framework consisting of: (1) five novel datasets, obtained by augmenting three existing reading comprehension datasets with citation meta-data across various ambiguous settings, such as distractors and paraphrasing; (2) the first ambiguous multi-hop QA dataset featuring real-world, naturally occurring contexts; (3) two new metrics to evaluate models' performances; and (4) several strong baselines using rule-based, prompting, and finetuning approaches over five large language models. We hope that this new task, datasets, metrics, and baselines will inspire the community to push the boundaries of QA research and develop more trustworthy and interpretable systems.
翻訳日:2024-11-02 08:59:37 公開日:2024-10-29
# Adaptive Question Answering: Enhancing Language Model Prociciency for addressing Knowledge Conflicts with Source Citations

Adaptive Question Answering: Enhancing Language Model Proficiency for Addressing Knowledge Conflicts with Source Citations ( http://arxiv.org/abs/2410.04241v2 )

ライセンス: Link先を確認
Sagi Shaier, Ari Kobren, Philip Ogren, (参考訳) インターネットには多くの矛盾する事実や意見が含まれているため、知識紛争の解決は質問回答(QA)タスクにおいて重要な課題である。 いくつかの研究では、複数の有効な回答が存在するあいまいな状況に対処する研究が進んでいるが、これらのアプローチはソースの引用を無視することが多く、ユーザーは各回答の事実性を評価する必要がある。 一方、引用生成に関する既存の研究は、一つの答えを持つ曖昧な設定に焦点を合わせており、現実のシナリオの複雑さに対処することができない。 両面の重要性にもかかわらず、先行研究が組み合わさっておらず、QAシステムの開発に大きなギャップが残されている。 本稿では、このギャップを、複数の有効な答えが存在する曖昧な環境で、ソースの引用を伴うQAの新たなタスクを提案することによって埋める。 本研究を円滑に進めるために,(1)注意喚起やパラフレージングなど,さまざまなあいまいな設定で引用メタデータを用いた3つの既存読解データセットを拡張した5つの新しいデータセット,(2)実世界の自然発生状況を考慮した最初のあいまいなマルチホップQAデータセット,(3)モデルのパフォーマンスを評価するための2つの新しい指標,(4)ルールベース,プロンプト,ファインタリングの5つの大きな言語モデルに対するアプローチを用いた強力なベースライン,からなる包括的フレームワークを構築した。 この新しいタスク、データセット、メトリクス、ベースラインは、コミュニティにQA研究の境界を押し進め、より信頼できる、解釈可能なシステムを開発するよう促すことを期待しています。

Resolving knowledge conflicts is a crucial challenge in Question Answering (QA) tasks, as the internet contains numerous conflicting facts and opinions. While some research has made progress in tackling ambiguous settings where multiple valid answers exist, these approaches often neglect to provide source citations, leaving users to evaluate the factuality of each answer. On the other hand, existing work on citation generation has focused on unambiguous settings with single answers, failing to address the complexity of real-world scenarios. Despite the importance of both aspects, no prior research has combined them, leaving a significant gap in the development of QA systems. In this work, we bridge this gap by proposing the novel task of QA with source citation in ambiguous settings, where multiple valid answers exist. To facilitate research in this area, we create a comprehensive framework consisting of: (1) five novel datasets, obtained by augmenting three existing reading comprehension datasets with citation meta-data across various ambiguous settings, such as distractors and paraphrasing; (2) the first ambiguous multi-hop QA dataset featuring real-world, naturally occurring contexts; (3) two new metrics to evaluate models' performances; and (4) several strong baselines using rule-based, prompting, and finetuning approaches over five large language models. We hope that this new task, datasets, metrics, and baselines will inspire the community to push the boundaries of QA research and develop more trustworthy and interpretable systems.
翻訳日:2024-11-02 08:59:37 公開日:2024-10-29
# 半デバイス非依存非局所性による量子不一致における二部構造コヒーレンスの性質とその量子情報処理への応用

The aspect of bipartite coherence in quantum discord to semi-device-independent nonlocality and its implication for quantum information processing ( http://arxiv.org/abs/2410.04430v1 )

ライセンス: Link先を確認
Chellasamy Jebarathinam, Huan-Yu Ku, Hao-Chung Cheng, Hsi-Sheng Goan, (参考訳) 量子不協和は、半デバイス非依存のベルやステアリングのシナリオの文脈において、ヒルベルト空間次元のみを仮定して量子非局所性を示すことができる。 この研究は、バイパーティイトコヒーレンスのどの側面が、標準的なベル非局所性や量子ステアリングを超える半デバイス非依存の量子情報タスクに必須かに対処する。 単一系の大域的コヒーレンスを二部交絡に変換することが示されている。 しかし、大域的コヒーレンスも量子不協和として存在する。 同時に、Discordは局所的に双分割コヒーレンス、すなわちサブシステムまたは両方のサブシステムにのみ表示することができる。 したがって、二部類分離状態の大域的コヒーレンス(英語版)は、各サブシステムまたは両方のサブシステムにおいて局所コヒーレンスに還元できない二部類コヒーレンス(英語版)の形式として定義される。 不協和音におけるグローバルコヒーレンスの概念を運用的に特定するためには、ベルやステアリングシナリオにおける量子不協和音の半デバイス非依存的非局所性を示すために、グローバルコヒーレンスが必要であることを示す。 この結果から、コヒーレンスを局所的に生成できる$\Phi_A \otimes \Phi_B$ という形の任意の局所演算は、半デバイス非依存的非局所性(discord)の資源理論における自由演算である。 この資源理論を適用すると、量子ステアリング以外の量子非局所性は、2量子分離状態を用いた遠隔状態準備の量子通信タスクのリソースとして機能する。

Quantum discord can demonstrate quantum nonlocality in the context of a semi-device-independent Bell or steering scenario, i.e., by assuming only the Hilbert-space dimension. This work addresses which aspect of bipartite coherence is essential to such semi-device-independent quantum information tasks going beyond standard Bell nonlocality or quantum steering. It has been shown that the global coherence of a single system can be transformed into bipartite entanglement. However, global coherence can also be present in quantum discord. At the same time, discord can display bipartite coherence locally, i.e., only in a subsystem or both subsystems. Thus, global coherence of bipartite separable states is defined here as a form of bipartite coherence that is not reducible to local coherence in any of the subsystems or both subsystems. To operationally identify such a notion of global coherence in discord, we demonstrate that global coherence is necessary to demonstrate semi-device-independent nonlocality of quantum discord in Bell or steering scenarios. From this result, it follows that any local operations of the form $\Phi_A \otimes \Phi_B$ that may create coherence locally are free operations in the resource theory of semi-device-independent nonlocality of discord. Applying this resource theory, it is identified that the quantum nonlocality beyond quantum steering acts as a resource for the quantum communication task of remote state preparation using two-qubit separable states.
翻訳日:2024-11-02 07:51:01 公開日:2024-10-29
# 半デバイス非依存非局所性による量子不一致における二部構造コヒーレンスの性質とその量子情報処理への応用

The aspect of bipartite coherence in quantum discord to semi-device-independent nonlocality and its implication for quantum information processing ( http://arxiv.org/abs/2410.04430v2 )

ライセンス: Link先を確認
Chellasamy Jebarathinam, Huan-Yu Ku, Hao-Chung Cheng, Hsi-Sheng Goan, (参考訳) textit{Quantum discord} は、Hilbert-空間次元のみを仮定して、 \textit{semi-device-independent} Bell またはステアリングシナリオの文脈で \textit{quantum nonlocality} を示すことができる。 この研究は、標準的なベル非局所性や量子ステアリングを超える半デバイス非依存の量子情報タスクにとって、どの側面が必須かに対処する。 単一系の \textit{global coherence} は \textit{bipartite entanglement} に変換可能であることが示されている。 しかし、大域的コヒーレンスも量子不協和として存在する。 同時に、Discordは局所的に双分割コヒーレンス、すなわちサブシステムまたは両方のサブシステムにのみ表示することができる。 したがって、二部類分離状態の大域的コヒーレンス(英語版)は、各サブシステムまたは両方のサブシステムにおいて局所コヒーレンスに還元できない二部類コヒーレンス(英語版)の形式として定義される。 上記の質問に答えるために、ベルやステアリングシナリオにおいて、半デバイス非依存の量子不協和性の非局所性を示すためには、グローバルコヒーレンスが必要であることを示す。 この結果から、$\Phi_A \otimes \Phi_B$ という形の \textit{local operation} は、半デバイス非依存の非局所性(discord)の資源理論において \textit{coherence local} となる。 副産物として、2ビットの分離可能な状態を用いて \textit{remote state prepared} の量子通信タスクの正確な量子資源を同定する。

\textit{Quantum discord} can demonstrate \textit{quantum nonlocality} in the context of a \textit{semi-device-independent} Bell or steering scenario, i.e., by assuming only the Hilbert-space dimension. This work addresses which aspect of \textit{bipartite coherence} is essential to such semi-device-independent quantum information tasks going beyond standard Bell nonlocality or quantum steering. It has been shown that the \textit{global coherence} of a single system can be transformed into \textit{bipartite entanglement}. However, global coherence can also be present in quantum discord. At the same time, discord can display bipartite coherence locally, i.e., only in a subsystem or both subsystems. Thus, global coherence of bipartite separable states is defined here as a form of bipartite coherence that is not reducible to local coherence in any of the subsystems or both subsystems. To answer the above-mentioned question, we demonstrate that global coherence is necessary to demonstrate semi-device-independent nonlocality of quantum discord in Bell or steering scenarios. From this result, it follows that any \textit{local operations} of the form $\Phi_A \otimes \Phi_B$ that may create \textit{coherence locally} are \textit{free operations} in the resource theory of semi-device-independent nonlocality of discord. As a byproduct, we identify the precise quantum resource for the quantum communication task of \textit{remote state preparation} using two-qubit separable states.
翻訳日:2024-11-02 07:51:01 公開日:2024-10-29
# 半デバイス非依存非局所性による量子不一致における二部構造コヒーレンスの性質とその量子情報処理への応用

The aspect of bipartite coherence in quantum discord to semi-device-independent nonlocality and its implication for quantum information processing ( http://arxiv.org/abs/2410.04430v3 )

ライセンス: Link先を確認
Chellasamy Jebarathinam, Huan-Yu Ku, Hao-Chung Cheng, Hsi-Sheng Goan, (参考訳) 量子不協和は、半デバイス非依存のベルやステアリングのシナリオの文脈において、ヒルベルト空間次元のみを仮定して量子非局所性を示すことができる。 この研究は、バイパーティイトコヒーレンスのどの側面が、標準的なベル非局所性や量子ステアリングを超える半デバイス非依存の量子情報タスクに必須かに対処する。 単一系の大域的コヒーレンスを二部交絡に変換することが示されている。 しかし、大域的コヒーレンスも量子不協和として存在する。 同時に、Discordは局所的に双分割コヒーレンス、すなわちサブシステムまたは両方のサブシステムにのみ表示することができる。 したがって、二部類分離状態の大域的コヒーレンス(英語版)は、各サブシステムまたは両方のサブシステムにおいて局所コヒーレンスに還元できない二部類コヒーレンス(英語版)の形式として定義される。 上記の質問に答えるために、ベルやステアリングシナリオにおいて、半デバイス非依存の量子不協和性の非局所性を示すためには、グローバルコヒーレンスが必要であることを示す。 この結果から、コヒーレンスを局所的に生成できる$\Phi_A \otimes \Phi_B$ という形の任意の局所演算は、半デバイス非依存的非局所性(discord)の資源理論における自由演算である。 副産物として、2キュービットの分離可能な状態を用いて遠隔状態準備の量子通信タスクの正確な量子資源を同定する。

Quantum discord can demonstrate quantum nonlocality in the context of a semi-device-independent Bell or steering scenario, i.e., by assuming only the Hilbert-space dimension. This work addresses which aspect of bipartite coherence is essential to such semi-device-independent quantum information tasks going beyond standard Bell nonlocality or quantum steering. It has been shown that the global coherence of a single system can be transformed into bipartite entanglement. However, global coherence can also be present in quantum discord. At the same time, discord can display bipartite coherence locally, i.e., only in a subsystem or both subsystems. Thus, global coherence of bipartite separable states is defined here as a form of bipartite coherence that is not reducible to local coherence in any of the subsystems or both subsystems. To answer the above-mentioned question, we demonstrate that global coherence is necessary to demonstrate semi-device-independent nonlocality of quantum discord in Bell or steering scenarios. From this result, it follows that any local operations of the form $\Phi_A \otimes \Phi_B$ that may create coherence locally are free operations in the resource theory of semi-device-independent nonlocality of discord. As a byproduct, we identify the precise quantum resource for the quantum communication task of remote state preparation using two-qubit separable states.
翻訳日:2024-11-02 07:51:01 公開日:2024-10-29
# Warmup-Stable-Decay学習率の理解:川流域は景観を損なう

Understanding Warmup-Stable-Decay Learning Rates: A River Valley Loss Landscape Perspective ( http://arxiv.org/abs/2410.05192v1 )

ライセンス: Link先を確認
Kaiyue Wen, Zhiyuan Li, Jason Wang, David Hall, Percy Liang, Tengyu Ma, (参考訳) 訓練言語モデルは、典型的なコサイン学習率のスケジュールがステップの総数に依存するため、現在、固定された計算予算を事前に決定する必要がある。 対照的に、Warmup-Stable-Decay(WSD)スケジュールは、一定の学習率を使用して、原則として、所定の計算予算なしで、無限に継続できるイテレーションのメインブランチを生成する。 すると、計算予算が与えられたら、いつでも、急速に減衰する学習率でメインブランチから分岐して、強いモデルを生成することができる。 経験的には、WSDは非伝統的な損失曲線を生成し、この損失は安定相では上昇するが、崩壊相では急激に減少する。 この現象を説明するために,プレトレーニング損失は河底に川がある深い谷に類似した川谷の景観を示すと推測する。 この仮定では, 安定期には, 高い学習速度で繰り返し振動するが, 川に沿って急速に進行することを示す。 崩壊期には、急速に低下する学習速度は、繰り返しの振動を最小化し、それを川に近づけ、真の最適化の進展を明らかにする。 したがって, 持続的高次学習期と高速崩壊期は, それぞれ河川の進行と山道の進行に寄与し, どちらも重要な役割を担っている。 本分析は、経験的観測と整合した現象を予測し、この景観が単純な2グラムのデータセット上で事前学習から生まれることを示す。 この理論にインスパイアされたWSD-Sは、従来のチェックポイントの崩壊フェーズを再利用し、メインブランチを1つだけ保持し、崩壊したチェックポイントから再開するWSDの変種である。 WSD-S は WSD と Cyclic-Cosine を実証的に上回り、0.1B から1.2B までのパラメータを1回の実行で、様々な計算予算で複数の言語モデルチェックポイントを得る。

Training language models currently requires pre-determining a fixed compute budget because the typical cosine learning rate schedule depends on the total number of steps. In contrast, the Warmup-Stable-Decay (WSD) schedule uses a constant learning rate to produce a main branch of iterates that can in principle continue indefinitely without a pre-specified compute budget. Then, given any compute budget, one can branch out from the main branch at a proper at any time with a rapidly decaying learning rate to produce a strong model. Empirically, WSD generates a non-traditional loss curve: the loss remains elevated during the stable phase but sharply declines during the decay phase. Towards explaining this phenomenon, we conjecture that pretraining loss exhibits a river valley landscape, which resembles a deep valley with a river at its bottom. Under this assumption, we show that during the stable phase, the iterate undergoes large oscillations due to the high learning rate, yet it progresses swiftly along the river. During the decay phase, the rapidly dropping learning rate minimizes the iterate's oscillations, moving it closer to the river and revealing true optimization progress. Therefore, the sustained high learning rate phase and fast decaying phase are responsible for progress in the river and the mountain directions respectively, and are both critical. Our analysis predicts phenomenons consistent with empirical observations and shows that this landscape can emerge from pretraining on a simple bi-gram dataset. Inspired by the theory, we introduce WSD-S, a variant of WSD that reuses previous checkpoints' decay phases and keeps only one main branch, where we resume from a decayed checkpoint. WSD-S empirically outperforms WSD and Cyclic-Cosine in obtaining multiple language model checkpoints across various compute budgets in a single run for parameters scaling from 0.1B to 1.2B.
翻訳日:2024-11-01 23:49:12 公開日:2024-10-29
# Warmup-Stable-Decay学習率の理解:川流域は景観を損なう

Understanding Warmup-Stable-Decay Learning Rates: A River Valley Loss Landscape Perspective ( http://arxiv.org/abs/2410.05192v2 )

ライセンス: Link先を確認
Kaiyue Wen, Zhiyuan Li, Jason Wang, David Hall, Percy Liang, Tengyu Ma, (参考訳) 訓練言語モデルは、典型的なコサイン学習率のスケジュールがステップの総数に依存するため、現在、固定された計算予算を事前に決定する必要がある。 対照的に、Warmup-Stable-Decay(WSD)スケジュールは、一定の学習率を使用して、原則として、所定の計算予算なしで、無限に継続できるイテレーションのメインブランチを生成する。 すると、計算予算が与えられたら、いつでも、急速に減衰する学習率でメインブランチから分岐して、強いモデルを生成することができる。 経験的には、WSDは非伝統的な損失曲線を生成し、この損失は安定相では上昇するが、崩壊相では急激に減少する。 この現象を説明するために,プレトレーニング損失は河底に川がある深い谷に類似した川谷の景観を示すと推測する。 この仮定では, 安定期には, 高い学習速度で繰り返し振動するが, 川に沿って急速に進行することを示す。 崩壊期には、急速に低下する学習速度は、繰り返しの振動を最小化し、それを川に近づけ、真の最適化の進展を明らかにする。 したがって, 持続的高次学習期と高速崩壊期は, それぞれ河川の進行と山道の進行に寄与し, どちらも重要な役割を担っている。 本分析は、経験的観測と整合した現象を予測し、この景観が単純な2グラムのデータセット上で事前学習から生まれることを示す。 この理論にインスパイアされたWSD-Sは、従来のチェックポイントの崩壊フェーズを再利用し、メインブランチを1つだけ保持し、崩壊したチェックポイントから再開するWSDの変種である。 WSD-S は WSD と Cyclic-Cosine を実証的に上回り、0.1B から1.2B までのパラメータを1回の実行で、様々な計算予算で複数の言語モデルチェックポイントを得る。

Training language models currently requires pre-determining a fixed compute budget because the typical cosine learning rate schedule depends on the total number of steps. In contrast, the Warmup-Stable-Decay (WSD) schedule uses a constant learning rate to produce a main branch of iterates that can in principle continue indefinitely without a pre-specified compute budget. Then, given any compute budget, one can branch out from the main branch at a proper at any time with a rapidly decaying learning rate to produce a strong model. Empirically, WSD generates a non-traditional loss curve: the loss remains elevated during the stable phase but sharply declines during the decay phase. Towards explaining this phenomenon, we conjecture that pretraining loss exhibits a river valley landscape, which resembles a deep valley with a river at its bottom. Under this assumption, we show that during the stable phase, the iterate undergoes large oscillations due to the high learning rate, yet it progresses swiftly along the river. During the decay phase, the rapidly dropping learning rate minimizes the iterate's oscillations, moving it closer to the river and revealing true optimization progress. Therefore, the sustained high learning rate phase and fast decaying phase are responsible for progress in the river and the mountain directions respectively, and are both critical. Our analysis predicts phenomenons consistent with empirical observations and shows that this landscape can emerge from pretraining on a simple bi-gram dataset. Inspired by the theory, we introduce WSD-S, a variant of WSD that reuses previous checkpoints' decay phases and keeps only one main branch, where we resume from a decayed checkpoint. WSD-S empirically outperforms WSD and Cyclic-Cosine in obtaining multiple language model checkpoints across various compute budgets in a single run for parameters scaling from 0.1B to 1.2B.
翻訳日:2024-11-01 23:49:12 公開日:2024-10-29
# モダリティとタスクをまたいだ視覚言語モデルの統一的デバイアス化手法

A Unified Debiasing Approach for Vision-Language Models across Modalities and Tasks ( http://arxiv.org/abs/2410.07593v1 )

ライセンス: Link先を確認
Hoin Jung, Taeuk Jang, Xiaoqian Wang, (参考訳) 近年のVLM(Vision-Language Models)の進歩により、テキストと画像データを同時に処理することで複雑なマルチモーダルタスクが可能となり、人工知能の分野が大幅に向上した。 しかしながら、これらのモデルは、しばしば社会的ステレオタイプに対して出力を歪ませるバイアスを示し、したがってデバイアス戦略を必要とする。 既存のデバイアス法は特定のモダリティやタスクに限定し、広範な再訓練を必要とする。 これらの制約に対処するため,本論文では,VLMのバイアスを効果的に低減するために,特徴抽出と低信頼インプット(LCI)を統合した新しい手法であるSelective Feature Imputation for Debiasing(SFID)を紹介する。 SFIDは多用途であり、出力のセマンティックな整合性を維持し、再訓練の必要性をなくすことで費用対効果を発揮できる。 実験の結果,ゼロショット分類,テキスト・ツー・イメージ検索,画像キャプション,テキスト・ツー・イメージ生成など,様々なVLMタスクにおけるSFIDの有効性を示す。 このアプローチは、VLMアプリケーションの公平性を向上するだけでなく、様々なシナリオにおける効率性と有用性を保っている。

Recent advancements in Vision-Language Models (VLMs) have enabled complex multimodal tasks by processing text and image data simultaneously, significantly enhancing the field of artificial intelligence. However, these models often exhibit biases that can skew outputs towards societal stereotypes, thus necessitating debiasing strategies. Existing debiasing methods focus narrowly on specific modalities or tasks, and require extensive retraining. To address these limitations, this paper introduces Selective Feature Imputation for Debiasing (SFID), a novel methodology that integrates feature pruning and low confidence imputation (LCI) to effectively reduce biases in VLMs. SFID is versatile, maintaining the semantic integrity of outputs and costly effective by eliminating the need for retraining. Our experimental results demonstrate SFID's effectiveness across various VLMs tasks including zero-shot classification, text-to-image retrieval, image captioning, and text-to-image generation, by significantly reducing gender biases without compromising performance. This approach not only enhances the fairness of VLMs applications but also preserves their efficiency and utility across diverse scenarios.
翻訳日:2024-10-31 16:06:31 公開日:2024-10-29
# モダリティとタスクをまたいだ視覚言語モデルの統一的デバイアス化手法

A Unified Debiasing Approach for Vision-Language Models across Modalities and Tasks ( http://arxiv.org/abs/2410.07593v2 )

ライセンス: Link先を確認
Hoin Jung, Taeuk Jang, Xiaoqian Wang, (参考訳) 近年のVLM(Vision-Language Models)の進歩により、テキストと画像データを同時に処理することで複雑なマルチモーダルタスクが可能となり、人工知能の分野が大幅に向上した。 しかしながら、これらのモデルは、しばしば社会的ステレオタイプに対して出力を歪ませるバイアスを示し、したがってデバイアス戦略を必要とする。 既存のデバイアス法は特定のモダリティやタスクに限定し、広範な再訓練を必要とする。 これらの制約に対処するため,本論文では,VLMのバイアスを効果的に低減するために,特徴抽出と低信頼インプット(LCI)を統合した新しい手法であるSelective Feature Imputation for Debiasing(SFID)を紹介する。 SFIDは多用途であり、出力のセマンティックな整合性を維持し、再訓練の必要性をなくすことで費用対効果を発揮できる。 実験の結果,ゼロショット分類,テキスト・ツー・イメージ検索,画像キャプション,テキスト・ツー・イメージ生成など,様々なVLMタスクにおけるSFIDの有効性を示す。 このアプローチは、VLMアプリケーションの公平性を向上するだけでなく、様々なシナリオにおける効率性と有用性を保っている。

Recent advancements in Vision-Language Models (VLMs) have enabled complex multimodal tasks by processing text and image data simultaneously, significantly enhancing the field of artificial intelligence. However, these models often exhibit biases that can skew outputs towards societal stereotypes, thus necessitating debiasing strategies. Existing debiasing methods focus narrowly on specific modalities or tasks, and require extensive retraining. To address these limitations, this paper introduces Selective Feature Imputation for Debiasing (SFID), a novel methodology that integrates feature pruning and low confidence imputation (LCI) to effectively reduce biases in VLMs. SFID is versatile, maintaining the semantic integrity of outputs and costly effective by eliminating the need for retraining. Our experimental results demonstrate SFID's effectiveness across various VLMs tasks including zero-shot classification, text-to-image retrieval, image captioning, and text-to-image generation, by significantly reducing gender biases without compromising performance. This approach not only enhances the fairness of VLMs applications but also preserves their efficiency and utility across diverse scenarios.
翻訳日:2024-10-31 16:06:31 公開日:2024-10-29
# EG-SpikeFormer:医用画像解析のためのスパイキングニューラルネットワーク用アイゲイズガイド変換器

EG-SpikeFormer: Eye-Gaze Guided Transformer on Spiking Neural Networks for Medical Image Analysis ( http://arxiv.org/abs/2410.09674v2 )

ライセンス: Link先を確認
Yi Pan, Hanqi Jiang, Junhao Chen, Yiwei Li, Huaqin Zhao, Yifan Zhou, Peng Shu, Zihao Wu, Zhengliang Liu, Dajiang Zhu, Xiang Li, Yohannes Abate, Tianming Liu, (参考訳) ニューロモルフィックコンピューティングは、ニューロモルフィックハードウェアに実装されたスパイキングニューラルネットワーク(SNN)を主に利用して、従来の人工知能に代わる有望なエネルギー効率の代替として登場した。 SNNベースの畳み込みニューラルネットワーク(CNN)とTransformerアーキテクチャにおいて、重要な進歩がなされている。 しかし、医用画像領域のニューロモルフィック・コンピューティングはいまだ研究されていない。 本研究では,医用画像の診断関連領域に注意を向け,視線データを組み込んだ臨床作業に適したSNNアーキテクチャであるEG-SpikeFormerを紹介する。 提案手法は,特に臨床データに制限があり,信頼性,汎用性,透明性が要求されるシナリオにおいて,従来のモデルでよく見られるショートカット学習の問題に効果的に対処する。 我々のEG-SpikeFormerは、医療画像予測タスクにおいて優れたエネルギー効率と性能を示すだけでなく、マルチモーダル情報アライメントによる臨床関連性を高める。 視線データを取り入れることで、解釈可能性と一般化を改善し、医療にニューロモルフィックコンピューティングを適用するための新たな方向性を開く。

Neuromorphic computing has emerged as a promising energy-efficient alternative to traditional artificial intelligence, predominantly utilizing spiking neural networks (SNNs) implemented on neuromorphic hardware. Significant advancements have been made in SNN-based convolutional neural networks (CNNs) and Transformer architectures. However, neuromorphic computing for the medical imaging domain remains underexplored. In this study, we introduce EG-SpikeFormer, an SNN architecture tailored for clinical tasks that incorporates eye-gaze data to guide the model's attention to the diagnostically relevant regions in medical images. Our developed approach effectively addresses shortcut learning issues commonly observed in conventional models, especially in scenarios with limited clinical data and high demands for model reliability, generalizability, and transparency. Our EG-SpikeFormer not only demonstrates superior energy efficiency and performance in medical image prediction tasks but also enhances clinical relevance through multi-modal information alignment. By incorporating eye-gaze data, the model improves interpretability and generalization, opening new directions for applying neuromorphic computing in healthcare.
翻訳日:2024-10-31 14:36:04 公開日:2024-10-29
# Lambda-Skip Connections: ランク崩壊を防ぐアーキテクチャコンポーネント

Lambda-Skip Connections: the architectural component that prevents Rank Collapse ( http://arxiv.org/abs/2410.10609v2 )

ライセンス: Link先を確認
Federico Arangath Joseph, Jerome Sieber, Melanie N. Zeilinger, Carmen Amo Alonso, (参考訳) 列モデルの埋め込みベクトルが均一なトークンや平衡状態に急速に収束する現象であるランク崩壊は、近年、ディープラーニングの文献で注目されている。 この現象は、勾配の消失による表現性と潜在的な訓練不安定性を減少させる。 実証的な証拠は、スキップ接続、LayerNorm、MultiLayer Perceptrons (MLP)のようなアーキテクチャコンポーネントがランク崩壊の緩和に重要な役割を果たしていることを示している。 この問題はトランスフォーマーには十分に文書化されているが、最近注目されているState Space Models (SSMs)のような代替シーケンスモデルは、同様の脆弱性について徹底的に検討されていない。 本稿では、両アーキテクチャをキャプチャする統一フレームワークを用いて、トランスフォーマーからSSMへのランク崩壊の理論を拡張した。 古典的なスキップ接続コンポーネントのパラメータ化バージョンである 'emph{lambda-skip connection} は、ランク崩壊防止の保証を提供する。 分析結果から,上述のすべてのアーキテクチャにおいて,ランク崩壊防止のための十分な条件を提示する。 また、アブレーション研究や分析例を通して、この状態の必要性についても検討する。 我々の知る限り、これは階級崩壊防止の一般的な保証を提供する最初の研究であり、SSMの文脈で階級崩壊を調査し、理論家と実践者の両方にとって貴重な理解を提供する。 最後に,ランク崩壊防止におけるスキップ接続やゲーティング機構などのアーキテクチャコンポーネントの重要な役割を実証する実験により,本研究の成果を検証した。

Rank collapse, a phenomenon where embedding vectors in sequence models rapidly converge to a uniform token or equilibrium state, has recently gained attention in the deep learning literature. This phenomenon leads to reduced expressivity and potential training instabilities due to vanishing gradients. Empirical evidence suggests that architectural components like skip connections, LayerNorm, and MultiLayer Perceptrons (MLPs) play critical roles in mitigating rank collapse. While this issue is well-documented for transformers, alternative sequence models, such as State Space Models (SSMs), which have recently gained prominence, have not been thoroughly examined for similar vulnerabilities. This paper extends the theory of rank collapse from transformers to SSMs using a unifying framework that captures both architectures. We study how a parametrized version of the classic skip connection component, which we call \emph{lambda-skip connections}, provides guarantees for rank collapse prevention. Through analytical results, we present a sufficient condition to guarantee prevention of rank collapse across all the aforementioned architectures. We also study the necessity of this condition via ablation studies and analytical examples. To our knowledge, this is the first study that provides a general guarantee to prevent rank collapse, and that investigates rank collapse in the context of SSMs, offering valuable understanding for both theoreticians and practitioners. Finally, we validate our findings with experiments demonstrating the crucial role of architectural components such as skip connections and gating mechanisms in preventing rank collapse.
翻訳日:2024-10-31 14:36:04 公開日:2024-10-29
# NoVo: 大規模言語モデルにおける注意頭による幻覚の投票

NoVo: Norm Voting off Hallucinations with Attention Heads in Large Language Models ( http://arxiv.org/abs/2410.08970v2 )

ライセンス: Link先を確認
Zheng Yi Ho, Siyuan Liang, Sen Zhang, Yibing Zhan, Dacheng Tao, (参考訳) 大規模言語モデル(LLM)における幻覚は依然として大きな障害であり、特に事実の正確さが重要となる高精度なアプリケーションにおいてである。 表現編集・読解手法は幻覚の低減に力を入れてきたが、専門ツールやドメイン内サンプルのトレーニングに大きく依存しているため、スケールが難しく、過度に適合する傾向にある。 これにより、さまざまなデータセットに対する精度の向上と一般化性が制限される。 本稿では,ゼロショット多重選択質問(MCQ)において,注目ヘッドノルムの未解決ポテンシャルを利用して,事実の精度を劇的に向上する軽量なNom Voting(NoVo)を提案する。 NoVoは、30のランダムサンプルのみを使用して、効率的で推論のみのアルゴリズムで真理関連ヘッドノルムを自動的に選択することで、NoVoがさまざまなデータセットに不注意にスケールできるようにする。 その後、選択されたヘッドノルムが単純な投票アルゴリズムで採用され、予測精度が大幅に向上する。 TruthfulQA MC1では、NoVoは現在の最先端および過去のすべてのメソッドを、驚くべきマージン -- 少なくとも19の精度ポイントで上回る。 NoVoは、20の多様なデータセットへの例外的な一般化を示し、その90%以上で顕著に増加し、現在のすべての表現編集および読み出しメソッドをはるかに上回っている。 NoVoはまた、戦略を微調整し、テキストによる敵防衛を構築するための有望な利益も明らかにしている。 NoVoのヘッドノルムの有効性は、LLMの解釈可能性、堅牢性、信頼性において新たなフロンティアを開く。

Hallucinations in Large Language Models (LLMs) remain a major obstacle, particularly in high-stakes applications where factual accuracy is critical. While representation editing and reading methods have made strides in reducing hallucinations, their heavy reliance on specialised tools and training on in-domain samples, makes them difficult to scale and prone to overfitting. This limits their accuracy gains and generalizability to diverse datasets. This paper presents a lightweight method, Norm Voting (NoVo), which harnesses the untapped potential of attention head norms to dramatically enhance factual accuracy in zero-shot multiple-choice questions (MCQs). NoVo begins by automatically selecting truth-correlated head norms with an efficient, inference-only algorithm using only 30 random samples, allowing NoVo to effortlessly scale to diverse datasets. Afterwards, selected head norms are employed in a simple voting algorithm, which yields significant gains in prediction accuracy. On TruthfulQA MC1, NoVo surpasses the current state-of-the-art and all previous methods by an astounding margin -- at least 19 accuracy points. NoVo demonstrates exceptional generalization to 20 diverse datasets, with significant gains in over 90\% of them, far exceeding all current representation editing and reading methods. NoVo also reveals promising gains to finetuning strategies and building textual adversarial defence. NoVo's effectiveness with head norms opens new frontiers in LLM interpretability, robustness and reliability.
翻訳日:2024-10-31 03:16:22 公開日:2024-10-29
# NoVo: 大規模言語モデルにおける注意頭による幻覚の投票

NoVo: Norm Voting off Hallucinations with Attention Heads in Large Language Models ( http://arxiv.org/abs/2410.08970v1 )

ライセンス: Link先を確認
Zheng Yi Ho, Siyuan Liang, Sen Zhang, Yibing Zhan, Dacheng Tao, (参考訳) 大規模言語モデル(LLM)における幻覚は依然として大きな障害であり、特に事実の正確さが重要となる高精度なアプリケーションにおいてである。 表現編集・読解手法は幻覚の低減に力を入れてきたが、専門ツールやドメイン内サンプルのトレーニングに大きく依存しているため、スケールが難しく、過度に適合する傾向にある。 これにより、さまざまなデータセットに対する精度の向上と一般化性が制限される。 本稿では,ゼロショット多重選択質問(MCQ)において,注目ヘッドノルムの未解決ポテンシャルを利用して,事実の精度を劇的に向上する軽量なNom Voting(NoVo)を提案する。 NoVoは、30のランダムサンプルのみを使用して、効率的で推論のみのアルゴリズムで真理関連ヘッドノルムを自動的に選択することで、NoVoがさまざまなデータセットに不注意にスケールできるようにする。 その後、選択されたヘッドノルムが単純な投票アルゴリズムで採用され、予測精度が大幅に向上する。 TruthfulQA MC1では、NoVoは現在の最先端および過去のすべてのメソッドを、驚くべきマージン -- 少なくとも19の精度ポイントで上回る。 NoVoは、20の多様なデータセットへの例外的な一般化を示し、その90%以上で顕著に増加し、現在のすべての表現編集および読み出しメソッドをはるかに上回っている。 NoVoはまた、戦略を微調整し、テキストによる敵防衛を構築するための有望な利益も明らかにしている。 NoVoのヘッドノルムの有効性は、LLMの解釈可能性、堅牢性、信頼性において新たなフロンティアを開く。

Hallucinations in Large Language Models (LLMs) remain a major obstacle, particularly in high-stakes applications where factual accuracy is critical. While representation editing and reading methods have made strides in reducing hallucinations, their heavy reliance on specialised tools and training on in-domain samples, makes them difficult to scale and prone to overfitting. This limits their accuracy gains and generalizability to diverse datasets. This paper presents a lightweight method, Norm Voting (NoVo), which harnesses the untapped potential of attention head norms to dramatically enhance factual accuracy in zero-shot multiple-choice questions (MCQs). NoVo begins by automatically selecting truth-correlated head norms with an efficient, inference-only algorithm using only 30 random samples, allowing NoVo to effortlessly scale to diverse datasets. Afterwards, selected head norms are employed in a simple voting algorithm, which yields significant gains in prediction accuracy. On TruthfulQA MC1, NoVo surpasses the current state-of-the-art and all previous methods by an astounding margin -- at least 19 accuracy points. NoVo demonstrates exceptional generalization to 20 diverse datasets, with significant gains in over 90\% of them, far exceeding all current representation editing and reading methods. NoVo also reveals promising gains to finetuning strategies and building textual adversarial defence. NoVo's effectiveness with head norms opens new frontiers in LLM interpretability, robustness and reliability.
翻訳日:2024-10-30 20:56:20 公開日:2024-10-29
# エージェント情報検索

Agentic Information Retrieval ( http://arxiv.org/abs/2410.09713v2 )

ライセンス: Link先を確認
Weinan Zhang, Junwei Liao, Ning Li, Kounianhua Du, (参考訳) 次世代のデジタル製品では、情報入力はどんなものになるのか? 1970年代以降、関連する情報へのユーザアクセスは、情報検索(IR)のドメイン固有のアーキテクチャに依存している。 過去20年間で、Web検索エンジンやパーソナライズされたレコメンデーションシステムを含む現代的なIRシステムの出現は、膨大なデータコーパスから関連情報を検索する効率を大幅に改善した。 しかし、これらのIRシステムのコアパラダイムは、あらかじめ定義された候補項目のフィルタリングに依存するため、ほとんど変わっていない。 2022年以降、大規模言語モデル(LLM)のブレークスルーは、情報へのアクセス方法を変え始め、新しい技術パラダイムを確立した。 本稿では,LLMエージェントの能力によって形成される新しいIRパラダイムであるAgentic IR(Agentic Information Retrieval)を紹介する。 Agentic IRは、アクセス可能なタスクの範囲を広げ、情報検索を再定義するために一連の新しいテクニックを活用する。 本稿ではエージェントIRの3種類の最先端応用とその課題について論じる。 我々はエージェントIRが革新的なアプリケーションを生み出すことを約束し、将来のデジタルエコシステムの中心的な情報エントリポイントとなる可能性を示唆する。

What will information entry look like in the next generation of digital products? Since the 1970s, user access to relevant information has relied on domain-specific architectures of information retrieval (IR). Over the past two decades, the advent of modern IR systems, including web search engines and personalized recommender systems, has greatly improved the efficiency of retrieving relevant information from vast data corpora. However, the core paradigm of these IR systems remains largely unchanged, relying on filtering a predefined set of candidate items. Since 2022, breakthroughs in large language models (LLMs) have begun transforming how information is accessed, establishing a new technical paradigm. In this position paper, we introduce Agentic Information Retrieval (Agentic IR), a novel IR paradigm shaped by the capabilities of LLM agents. Agentic IR expands the scope of accessible tasks and leverages a suite of new techniques to redefine information retrieval. We discuss three types of cutting-edge applications of agentic IR and the challenges faced. We propose that agentic IR holds promise for generating innovative applications, potentially becoming a central information entry point in future digital ecosystems.
翻訳日:2024-10-30 20:26:51 公開日:2024-10-29
# Stratified Domain Adaptation: シーンテキスト認識のためのプログレッシブな自己学習アプローチ

Stratified Domain Adaptation: A Progressive Self-Training Approach for Scene Text Recognition ( http://arxiv.org/abs/2410.09913v3 )

ライセンス: Link先を確認
Kha Nhat Le, Hoang-Tuan Nguyen, Hung Tien Tran, Thanh Duc Ngo, (参考訳) 非教師なしドメイン適応(UDA)は、シーンテキスト認識(STR)において、特にトレーニングやテストデータが異なるドメインに存在する場合に、ますます普及している。 既存のUDAアプローチの有効性は、ソースドメインとターゲットドメインの間に大きなギャップがある場合に低下する傾向にある。 この問題に対処するためには、徐々にドメインからドメインへシフトするか、あるいは徐々に学習することが重要な問題である。 本稿では,学習過程における領域ギャップの段階的エスカレーションを検討するStrDA(Stratified Domain Adaptation)アプローチを提案する。 目的は、トレーニングデータをサブセットに分割して、漸進的に自己学習されたモデルが段階的な変化に適応できるようにすることだ。 我々は、各データサンプルがソースドメインとターゲットドメインの両方に近接していることを評価することにより、トレーニングデータを階層化する。 本稿では,データサンプルの分布外および領域判別レベルを推定するために,領域判別器を用いる新しい手法を提案する。 ベンチマークシーンテキストデータセットの大規模な実験により,本手法はベースライン(ソーストレーニング)STRモデルの性能を大幅に改善することが示された。

Unsupervised domain adaptation (UDA) has become increasingly prevalent in scene text recognition (STR), especially where training and testing data reside in different domains. The efficacy of existing UDA approaches tends to degrade when there is a large gap between the source and target domains. To deal with this problem, gradually shifting or progressively learning to shift from domain to domain is the key issue. In this paper, we introduce the Stratified Domain Adaptation (StrDA) approach, which examines the gradual escalation of the domain gap for the learning process. The objective is to partition the training data into subsets so that the progressively self-trained model can adapt to gradual changes. We stratify the training data by evaluating the proximity of each data sample to both the source and target domains. We propose a novel method for employing domain discriminators to estimate the out-of-distribution and domain discriminative levels of data samples. Extensive experiments on benchmark scene-text datasets show that our approach significantly improves the performance of baseline (source-trained) STR models.
翻訳日:2024-10-30 13:45:15 公開日:2024-10-29
# GraphCLIP: テキスト分散グラフのためのグラフ基盤モデルにおける転送性向上

GraphCLIP: Enhancing Transferability in Graph Foundation Models for Text-Attributed Graphs ( http://arxiv.org/abs/2410.10329v3 )

ライセンス: Link先を確認
Yun Zhu, Haizhou Shi, Xiaotang Wang, Yongchao Liu, Yaoke Wang, Boci Peng, Chuntao Hong, Siliang Tang, (参考訳) 近年,TAG(Text-Attributed Graphs)の研究が注目されているのは,リアルタイムアプリケーションにおける自由テキストノード機能の普及と,TAG手法を活性化するLarge Language Models(LLMs)の進歩である。 しかし、現在のTAGアプローチは2つの主要な課題に直面している。 一 ラベル情報及びラベル情報に大きく依存すること (ii)クロスドメインゼロ/フェーショット転送可能性の制限。 これらの問題は、高い労働コストとスケーリング法則により、データとモデルサイズの両方のスケーリングを制限し、強力な転送可能性を持つグラフ基盤モデルの開発を複雑化する。 本研究では,この課題に対処するためのグラフCLIPフレームワークを提案する。 具体的には、LLMの助けを借りて大規模グラフ-土木ペアデータを生成し、キュレートし、不変学習と組み合わせてグラフ-土木予備訓練法を導入し、強力なクロスドメインゼロショット転送可能性を持つグラフ基盤モデルを強化する。 数ショットの学習において,大惨な忘れを軽減し,学習コストを最小限に抑えるために,事前学習目標に沿った新しいグラフプロンプトチューニング手法を提案する。 大規模な実験では、ゼロショットと少数ショットの両方の設定においてGraphCLIPの優位性を示す一方、さまざまな下流タスクに対する評価では、GraphCLIPの汎用性が確認されている。 私たちのコードは、https://github.com/ZhuYun97/GraphCLIPで利用可能です。

Recently, research on Text-Attributed Graphs (TAGs) has gained significant attention due to the prevalence of free-text node features in real-world applications and the advancements in Large Language Models (LLMs) that bolster TAG methodologies. However, current TAG approaches face two primary challenges: (i) Heavy reliance on label information and (ii) Limited cross-domain zero/few-shot transferability. These issues constrain the scaling of both data and model size, owing to high labor costs and scaling laws, complicating the development of graph foundation models with strong transferability. In this work, we propose the GraphCLIP framework to address these challenges by learning graph foundation models with strong cross-domain zero/few-shot transferability through a self-supervised contrastive graph-summary pretraining method. Specifically, we generate and curate large-scale graph-summary pair data with the assistance of LLMs, and introduce a novel graph-summary pretraining method, combined with invariant learning, to enhance graph foundation models with strong cross-domain zero-shot transferability. For few-shot learning, we propose a novel graph prompt tuning technique aligned with our pretraining objective to mitigate catastrophic forgetting and minimize learning costs. Extensive experiments show the superiority of GraphCLIP in both zero-shot and few-shot settings, while evaluations across various downstream tasks confirm the versatility of GraphCLIP. Our code is available at: https://github.com/ZhuYun97/GraphCLIP
翻訳日:2024-10-30 13:45:15 公開日:2024-10-29