論文の概要: Unpredictability dissociates from structured control in language agents
- arxiv url: http://arxiv.org/abs/2605.09692v1
- Date: Sun, 10 May 2026 18:22:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 02:24:05.542835
- Title: Unpredictability dissociates from structured control in language agents
- Title(参考訳): 予測不能は言語エージェントの構造制御から解離する
- Authors: Jia Xiao,
- Abstract要約: 本稿では, サンプリングが, 記憶, 自己状態, 行動選択に対する抑制といった, 構造的メカニズムに取って代わるかどうかを検証した。
26,946世代にわたるマッチング・インタフェース制御において、構造化されたエージェントは、すべてのポストホック、スクランブルおよび冗長性制御よりも強力なアクション・フィールド結合を維持した。
- 参考スコア(独自算出の注目度): 0.4512372501420207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unpredictable behavior is often taken as evidence of control, yet stochastic dispersion and structured action control need not coincide. This paper tests whether stochastic sampling can substitute for structured mechanisms that couple reasons, memory, self-state and inhibition to action selection in a language-agent implementation whose control components can be selectively disabled. In a seven-dataset baseline lesion matrix comprising 74,352 calls, the high-stochasticity comparator was more unpredictable than the structured-control variant in 7/7 datasets, whereas targeted reason and veto lesions reduced the expected structured-control profiles in 7/7 datasets each. In a matched-interface control spanning 26,946 generations, the structured agent maintained stronger action-field coupling than all stochastic, post-hoc, scrambled and verbosity controls across every dataset. The primary behavioral test removed free-form trace wording from the evaluation: 57,816 scored records showed the structured-control variant exceeding the high-stochasticity comparator or the reason/veto lesions in 7/7 datasets for all predefined behavioral components. Later open-weight runs extended the no-context controls to Qwen2.5 7B, 14B and 32B and to an independent Mistral-7B family across 20 task families and three agent scaffolds; no-fields, scrambled-context and distribution-matched controls failed to recover structured action control. A three-annotator blinded audit over 1,200 overlap items preserved high agreement. Strict entropy matching, strict token/compute matching and a formal counterfactual-flip stress test did not meet their gates and are treated as limitations. Stochastic unpredictability did not reproduce structured, action-coupled control in this implemented agent family.
- Abstract(参考訳): 予測不可能な振る舞いは、しばしば制御の証拠とされているが、確率的分散と構造化された動作制御は一致しない。
本稿では,制御成分を選択的に無効にできる言語エージェントの実装において,記憶,自己状態,行動選択の抑制といった2つの理由を持つ構造的メカニズムを確率的サンプリングが代替できるかどうかを検証する。
74,352コールからなる7データセットのベースライン病変行列では,高確率コンパレータは7/7データセットの構造化制御変異よりも予測不可能であった。
26,946世代にわたる一致するインタフェース制御において、構造化されたエージェントは、すべてのデータセットにおける確率的、ポストホック、スクランブル、冗長性制御よりも強力なアクション-フィールド結合を維持した。
57,816件の記録から, 事前定義された行動成分の7/7データセットにおいて, 高確率コンパレータ以上の構造制御変異が認められた。
その後のオープンウェイトランは、Qwen2.5 7B、14B、32B、20のタスクファミリと3つのエージェントスキャフォールドからなる独立したMistral-7Bファミリまで、非コンテキスト制御を拡張した。
1200点以上の重複商品が高額な合意を維持した。
厳密なエントロピーマッチング,厳密なトークン/コンプットマッチング,公式な反ファクト・フリップストレステストは,それらのゲートを満たしておらず,制限として扱われる。
確率的予測不可能性は、この実装されたエージェントファミリーにおいて、構造化されたアクション結合制御を再現しなかった。
関連論文リスト
- Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses [57.20181537213498]
Agentic Harness Engineering (AHE)は、ハーネスエンジニアリングを自動化するクローズドループである。
AHEは3つの一致した可観測性柱を通じて課題に対処する。
10 AHE lift pass@1 on Terminal-Bench 2 from 69.7% to 77.0%。
SWE-bench-verifiedでは、種子よりも12%少ないトークンで合計成功率を上回り、ターミナルベンチ2では+5.1から+10.1ppのクロスファミリーゲインを得る。
論文 参考訳(メタデータ) (2026-04-28T16:55:02Z) - Taming CATS: Controllable Automatic Text Simplification through Instruction Fine-Tuning with Control Tokens [2.4713807020542773]
自動テキストの簡易化における制御性は、データと評価によって著しく制限される。
本稿では,個別制御トークンを用いた命令微調整に基づくドメインに依存しないCATSフレームワークを提案する。
標準の単純化と類似度指標は制御の計測に不十分であることを示す。
論文 参考訳(メタデータ) (2026-04-02T08:44:17Z) - Composing Driving Worlds through Disentangled Control for Adversarial Scenario Generation [40.89741209403581]
自動運転における大きな課題は、安全クリティカルなエッジケースの"ロングテール"である。
交通要因を乱す構成駆動ビデオシミュレータCompoSIAを紹介する。
我々は最先端のベースラインよりも優れた制御可能な生成品質を示す。
論文 参考訳(メタデータ) (2026-03-13T10:10:21Z) - Engineering Verifiable Modularity in Transformers via Per-Layer Supervision [0.0]
分散冗長性は損傷を補うため、資本化にとって重要なものとして認識される注目ヘッドを非難することは、最小限の行動変化をもたらす。
アーキテクチャの介入が隠されたモジュール性を公開することを実証します。
このことは、受動的観察から能動的制御への解釈可能性変換の方法論を台無しにしている。
論文 参考訳(メタデータ) (2026-03-08T05:18:14Z) - On the Structural Non-Preservation of Epistemic Behaviour under Policy Transformation [51.56484100374058]
このような情報条件の相互作用パターンを振る舞い依存として定式化する。
これにより、$$-behavioural equivalenceというプローブ相対的な概念と、政治内行動距離が導かれる。
その結果、共通政策変換の下でプローブ条件の挙動分離が保存されない構造条件が明らかになった。
論文 参考訳(メタデータ) (2026-02-24T22:55:21Z) - Multi-Agent Debate: A Unified Agentic Framework for Tabular Anomaly Detection [7.807411603618987]
マルチエージェント議論フレームワーク(MAD)は、不一致を第一級信号として扱う。
MADは、大言語モデル(LLM)ベースの批評家によって強化された正規化された異常スコア、信頼性、構造化された証拠を生成する。
コンフォメーションキャリブレーションが議論されたスコアをラップして、交換可能性の下で偽陽性を制御する方法を示す。
論文 参考訳(メタデータ) (2026-02-15T17:44:32Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Optimal Controller Realizations against False Data Injections in Cooperative Driving [2.2134894590368748]
本研究では,False-Data Injection(FDI)攻撃の効果を緩和するためのコントローラ指向アプローチについて検討する。
我々は,新しいが等価なコントローラのクラスがベースコントローラを表現可能であることを示す。
FDI攻撃の影響を最小限に抑えるセンサの最適組み合わせを得る。
論文 参考訳(メタデータ) (2024-04-08T09:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。