論文の概要: Residual Drift Dominates Contradiction in Multi-Turn Constraint Reasoning
- arxiv url: http://arxiv.org/abs/2605.23940v1
- Date: Tue, 28 Apr 2026 18:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 02:55:42.958007
- Title: Residual Drift Dominates Contradiction in Multi-Turn Constraint Reasoning
- Title(参考訳): 多段拘束共振器における残留ドリフトのコントラディション支配
- Authors: Sebastien Kawada,
- Abstract要約: 支配的なモードは代わりに満足できるドリフトであり、内部状態は一貫性を維持し、返された回答は黙秘的に事前のコミットメントに違反していることを示す。
DRIFT-Benchは3つの制約領域にまたがる816個のテスト問題の解法を組み込んだベンチマークである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How do multi-turn reasoning systems fail? The expected answer is logical contradiction, in which the system's maintained state becomes unsatisfiable. We show that the dominant mode is instead satisfiable drift, where the internal state stays consistent while the returned answer silently violates prior commitments. We build DRIFT-Bench (Decomposing Reasoning Into Failure Types), a solver-instrumented benchmark of 816 test problems across three constraint domains, and evaluate four methods on it across four open-weight models (8B-120B parameters). MUS-Repair, which feeds minimal unsatisfiable subsets back to the generator, is strongest in every setting (+1.8 to +15.0 pp over the best non-MUS baseline). But the central finding is what repair leaves behind. After structured feedback, models rarely contradict themselves. They forget. Residual errors are 98-100% satisfiable drift across all settings, while contradiction drops to near zero. Reliable multi-turn systems must separately validate that the returned answer respects the maintained state. Code is available at https://github.com/kaons-research/drift-bench.
- Abstract(参考訳): マルチターン推論システムはどのように失敗するのか?
期待される答えは論理的矛盾であり、システムの維持状態が満足できないものとなる。
支配的なモードは代わりに満足できるドリフトであり、内部状態は一貫性を維持し、返された回答は黙秘的に事前のコミットメントに違反していることを示す。
DRIFT-Bench (Decomposing Reasoning Into Failure Types) は、3つの制約領域にまたがる816のテスト問題の解法を組み込んだベンチマークであり、4つのオープンウェイトモデル(8B-120Bパラメータ)にまたがる4つの手法を評価する。
MUS-Repairは、最小限の満足できないサブセットをジェネレータに供給するが、全ての設定において最強である(MUS以外のベースラインよりも+1.8から+15.0pp)。
しかし、中心的な発見は修理が残したものだ。
構造化されたフィードバックの後、モデルはほとんど矛盾しない。
忘れてしまう。
残留誤差は、すべての設定で98-100%満足できるドリフトであり、矛盾はゼロに近い。
信頼性の高いマルチターンシステムは、返却された答えが維持状態に敬意を払っていることを別々に検証する必要がある。
コードはhttps://github.com/kaons-research/drift-bench.comで入手できる。
関連論文リスト
- The Chain Holds, the Answer Folds: Trace-Answer Dissociation in Reasoning Models Under Adversarial Pressure [8.86745721473138]
推論モデルはシングルターンベンチマークで評価されるが、マルチターンダイアログにデプロイされる。
われわれはこの不信な降伏(UC)を2ドル(約2万2000円)のラテント・ヴァース・ビヘイビア・フレームワークで分離し、指標のフリップレートとシングルターンプローブの両方を見逃す。
論文 参考訳(メタデータ) (2026-05-27T20:41:08Z) - PBT-Bench: Benchmarking AI Agents on Property-Based Testing [29.035258104995204]
PBT-Benchは、40の実際のPythonライブラリにまたがる100のプロパティベースのテスト問題のベンチマークである。
各問題は1つ以上のセマンティックなバグ(総数365、平均3.65)を注入し、デフォルトのストラテジーなランダムな入力がほとんど起こらないように設計する。
PBT指導によるバグリコールは42.1%から83.4%の範囲で、オープンエンドベースラインでは31.4%から76.7%である。
論文 参考訳(メタデータ) (2026-05-13T18:01:05Z) - Models Recall What They Violate: Constraint Adherence in Multi-Turn LLM Ideation [0.0]
DriftBenchは、科学的思考における制約の順守を評価するためのベンチマークである。
繰り返し圧力は構造的複雑さを確実に増加させ、しばしば元の制約への固執を減少させる。
オープンベンチマークとして、すべてのブリーフ、プロンプト、ルックス、書き起こし、スコアをリリースします。
論文 参考訳(メタデータ) (2026-04-30T15:46:33Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - Pseudo-Simulation for Autonomous Driving [66.1981253104508]
既存の自動運転車(AV)の評価パラダイムは、重大な制限に直面している。
現実世界の評価は、安全上の懸念と現実主義の欠如のためにしばしば困難である。
オープンループ評価は、一般的に複合的なエラーを見落としているメトリクスに依存する。
論文 参考訳(メタデータ) (2025-06-04T17:57:53Z) - Consistent Diffusion Models: Mitigating Sampling Drift by Learning to be
Consistent [97.64313409741614]
本稿では, モデルが生成したデータ上での予測が時間とともに一定であることを示す, 両立性特性を強制することを提案する。
CIFAR-10の条件および非条件生成とAFHQとFFHQのベースライン改良について,本研究の新たな訓練目標が得られた。
論文 参考訳(メタデータ) (2023-02-17T18:45:04Z) - Is Multihop QA in DiRe Condition? Measuring and Reducing Disconnected
Reasoning [50.114651561111245]
モデルは、しばしば、複数のサポート事実をまたいで情報を接続することなく、正しい回答を生成するためにデータセットアーティファクトを利用する。
我々は、支持事実のサブセットにまたがる不連結推論のような望ましくない振る舞いを定式化する。
実験によると、読書理解設定においてマルチホップQAがあまり進歩していないことが示唆されている。
論文 参考訳(メタデータ) (2020-05-02T11:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。