論文の概要: Tractable Asymmetric Verification for Large Language Models via Deterministic Replicability
- arxiv url: http://arxiv.org/abs/2509.11068v1
- Date: Sun, 14 Sep 2025 03:30:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.896071
- Title: Tractable Asymmetric Verification for Large Language Models via Deterministic Replicability
- Title(参考訳): 決定論的再現性による大規模言語モデルのトラクタブル不斉検証
- Authors: Zan-Kai Chong, Hiroyuki Ohsaki, Bryan Ng,
- Abstract要約: 大規模言語モデル(LLM)の展望は、動的でマルチエージェントなシステムへと急速にシフトします。
本稿では, トラクタブルな非対称な作業を実現するための検証フレームワークを提案する。
対象検定は全再生の12倍以上の速さで行うことができる。
- 参考スコア(独自算出の注目度): 0.6117371161379209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The landscape of Large Language Models (LLMs) shifts rapidly towards dynamic, multi-agent systems. This introduces a fundamental challenge in establishing computational trust, specifically how one agent can verify that another's output was genuinely produced by a claimed LLM, and not falsified or generated by a cheaper or inferior model. To address this challenge, this paper proposes a verification framework that achieves tractable asymmetric effort, where the cost to verify a computation is substantially lower than the cost to perform it. Our approach is built upon the principle of deterministic replicability, a property inherent to autoregressive models that strictly necessitates a computationally homogeneous environment where all agents operate on identical hardware and software stacks. Within this defined context, our framework enables multiple validators to probabilistically audit small, random segments of an LLM's output and it distributes the verification workload effectively. The simulations demonstrated that targeted verification can be over 12 times faster than full regeneration, with tunable parameters to adjust the detection probability. By establishing a tractable mechanism for auditable LLM systems, our work offers a foundational layer for responsible AI and serves as a cornerstone for future research into the more complex, heterogeneous multi-agent systems.
- Abstract(参考訳): 大規模言語モデル(LLM)の展望は、動的でマルチエージェントなシステムへと急速にシフトします。
これは、計算信頼を確立する上での根本的な課題、特に、あるエージェントが別のエージェントの出力が主張されたLCMによって真に生成され、より安価なモデルや劣ったモデルによってファルシフィケーションや生成されないことを検証する方法を紹介している。
この課題に対処するために,本稿では,計算の検証コストが,実行コストよりも大幅に低いような,トラクタブルな非対称な作業を実現する検証フレームワークを提案する。
提案手法は,全てのエージェントが同一のハードウェアおよびソフトウェアスタック上で動作する計算的均質な環境を必要とする自己回帰モデルに固有の特性である決定論的複製性の原理に基づいて構築される。
この定義された文脈内では、複数の検証者がLSMの出力の小さなランダムなセグメントを確率的に監査することができ、検証作業負荷を効果的に分散することができる。
シミュレーションにより、ターゲット検証は全再生の12倍以上の速度で行われ、検出確率を調整可能なパラメータが得られた。
監査可能なLLMシステムのためのトラクタブルなメカニズムを確立することで、私たちの研究は責任あるAIの基礎レイヤを提供し、より複雑で異質なマルチエージェントシステムの研究の基盤となる。
関連論文リスト
- Uncertainty-Aware Collaborative System of Large and Small Models for Multimodal Sentiment Analysis [17.98292973608615]
マルチモーダル感情分析のための強力なMLLMと軽量なベースラインモデルを編成する新しい不確実性認識協調システム(U-ACS)を提案する。
提案手法は,スタンドアロンのMLLMに比べて計算資源のごく一部しか必要とせず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T16:01:58Z) - GM-PRM: A Generative Multimodal Process Reward Model for Multimodal Mathematical Reasoning [12.724393910603299]
GM-PRM(Generative Multimodal Process Reward Model)を紹介する。
単純なスカラースコアの代わりに、GM-PRMは各推論ステップのきめ細かい解釈可能な分析を提供する。
GM-PRMは複数のマルチモーダル数学ベンチマークにおいて最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2025-08-06T05:10:29Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - PAG: Multi-Turn Reinforced LLM Self-Correction with Policy as Generative Verifier [18.771754895027616]
Policy as Generative Verifier (PAG) は、政策と検証役を交互に交互に行うことで、大規模言語モデルに自己修正の権限を与えるフレームワークである。
モデル崩壊を緩和し、推論能力と検証能力の両方を共同で強化する。
論文 参考訳(メタデータ) (2025-06-12T06:59:35Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - MaCTG: Multi-Agent Collaborative Thought Graph for Automatic Programming [10.461509044478278]
MaCTG (MultiAgent Collaborative Thought Graph) は動的グラフ構造を用いる新しいマルチエージェントフレームワークである。
プログラム要求に基づいてエージェントロールを自律的に割り当て、タスクの分散を動的に洗練し、プロジェクトレベルのコードを体系的に検証し統合する。
MaCTGは既存のマルチエージェントフレームワークと比較して運用コストを89.09%削減した。
論文 参考訳(メタデータ) (2024-10-25T01:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。