論文の概要: Models Recall What They Violate: Constraint Adherence in Multi-Turn LLM Ideation
- arxiv url: http://arxiv.org/abs/2604.28031v2
- Date: Mon, 04 May 2026 01:39:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 14:09:07.086876
- Title: Models Recall What They Violate: Constraint Adherence in Multi-Turn LLM Ideation
- Title(参考訳): モデルをリコールする:マルチTurn LLMにおける制約順守
- Authors: Garvin Kruthof,
- Abstract要約: DriftBenchは、科学的思考における制約の順守を評価するためのベンチマークである。
繰り返し圧力は構造的複雑さを確実に増加させ、しばしば元の制約への固執を減少させる。
オープンベンチマークとして、すべてのブリーフ、プロンプト、ルックス、書き起こし、スコアをリリースします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When researchers iteratively refine ideas with large language models, do the models preserve fidelity to the original objective? We introduce DriftBench, a benchmark for evaluating constraint adherence in multi-turn LLM-assisted scientific ideation. Across 2,146 scored benchmark runs spanning seven models from five providers (including two open-weight), four interaction conditions, and 38 research briefs from 24 scientific domains, we find that iterative pressure reliably increases structural complexity and often reduces adherence to original constraints. A restatement probe reveals a dissociation between declarative recall and behavioral adherence, as models accurately restate constraints they simultaneously violate. The knows-but-violates (KBV) rate, measuring constraint non-compliance despite preserved recall, ranges from 8% to 99% across models. Structured checkpointing partially reduces KBV rates but does not close the dissociation, and complexity inflation persists. Human validation against blind raters confirms that the LLM judge under-detects constraint violations, making reported constraint adherence scores conservative. Sensitivity analyses confirm the findings are robust to temperature (0.7 vs.\ 1.0) and pressure type (novelty vs.\ rigor). We release all briefs, prompts, rubrics, transcripts, and scores as an open benchmark.
- Abstract(参考訳): 研究者が大規模な言語モデルでアイデアを反復的に洗練する場合、モデルは元の目的に忠実を保つだろうか?
DriftBenchは,マルチターンLDM支援科学思想における制約付着性を評価するためのベンチマークである。
2,146点のベンチマークは、5つのプロバイダ(オープンウェイト2つを含む)から7つのモデル、24の科学領域からの4つの相互作用条件、38の研究ブリーフを対象とし、反復的な圧力は構造的複雑さを確実に増加させ、しばしば元の制約への順守を減少させる。
回復調査では、モデルが同時に違反する制約を正確に回復するため、宣言的リコールと行動順守の解離が明らかになる。
know-but-violates(KBV)レートは、保存されたリコールにもかかわらず、制約非準拠を測定するもので、モデル全体で8%から99%の範囲である。
構造的チェックポイントはKBVを部分的に減少させるが、解離を閉じることはなく、複雑さのインフレーションは持続する。
盲目のレイカーに対する人間の検証は、LLM判事が制約違反を過小評価し、報告された制約遵守のスコアが保守的であることを確認した。
感度分析により、測定結果が温度(0.7対0。
\1.0) と圧力型 (novelty vs。
厳格)。
オープンベンチマークとして、すべてのブリーフ、プロンプト、ルックス、書き起こし、スコアをリリースします。
関連論文リスト
- Verbal Confidence Saturation in 3-9B Open-Weight Instruction-Tuned LLMs: A Pre-Registered Psychometric Validity Screen [0.0]
実験では,7つの指導訓練付きオープンウェイトモデルを用いて,最小の妥当性基準を満たす言語的信頼度が得られるかどうかを検証した。
カテゴリー的誘因は有効性には至らなかった。
声道レベルの対数確率は,観察された分散状態下での言語的信頼度を有意に予測しなかった。
論文 参考訳(メタデータ) (2026-04-24T04:45:21Z) - The Model Says Walk: How Surface Heuristics Override Implicit Constraints in LLM Reasoning [9.898274894485107]
大きな言語モデルは、サージェントサーフェスキューが計算不可能な実行可能性制約と競合する場合に、体系的に失敗する。
診断・診断・ブリッジ・トリート・フレームワークを用いてこれを研究する。
論文 参考訳(メタデータ) (2026-03-30T21:36:09Z) - CCTU: A Benchmark for Tool Use under Complex Constraints [66.87622847854337]
複雑な制約下での大規模言語モデル(LLM)を評価するためのベンチマークであるCCTUを紹介する。
ベンチマークは、さまざまなツール使用シナリオに対して、慎重にキュレートされ、挑戦的なテストケースが200から成っている。
ステップレベルの検証を行い、コンプライアンスを強制する実行可能な制約検証モジュールを開発する。
論文 参考訳(メタデータ) (2026-03-16T14:05:13Z) - Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - CIFE: Code Instruction-Following Evaluation [3.941243815951084]
我々は1,000のPythonタスクのベンチマークを導入し、それぞれが13のカテゴリにまたがる平均7つの開発者指定制約とペアリングした。
補完的付着度を用いて14個のオープンソース・クローズド・ソース・モデルを評価し,C2Aスコア(C2A Score)を提案する。
その結果、部分的満足度と厳密な満足度の間には実質的なギャップがみられ、強いモデルは90%以上の部分的密着性を達成する一方、厳密な密着性は39-66%に留まった。
論文 参考訳(メタデータ) (2025-12-19T09:43:20Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - Stated Preference for Interaction and Continued Engagement (SPICE): Evaluating an LLM's Willingness to Re-engage in Conversation [0.0]
Stated Preference for Interaction and Continued Engagement (SPICE)は、大規模言語モデルにYESまたはNO質問をすることで引き起こされる単純な診断信号である。
10-interactionstimul setによる3-tone(親しみやすい,不明瞭,嫌悪感)を用いた実験では,4つのフレーミング条件で4つのオープンウェイトチャットモデルを検証した。
友好的な相互作用は継続をほぼ一様に好んだ(97.5% YES)が、虐待的相互作用は断念を強く好んだ(17.9% YES)
論文 参考訳(メタデータ) (2025-09-10T22:34:17Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。