論文の概要: Another Turn, Better Output? A Turn-Wise Analysis of Iterative LLM Prompting
- arxiv url: http://arxiv.org/abs/2509.06770v1
- Date: Mon, 08 Sep 2025 14:54:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.200303
- Title: Another Turn, Better Output? A Turn-Wise Analysis of Iterative LLM Prompting
- Title(参考訳): もうひとつの曲がり角, 出力改善? 反復LDMプロンプトのターンワイズ解析
- Authors: Shashidhar Reddy Javaji, Bhavul Gauri, Zining Zhu,
- Abstract要約: 本稿では、アイデア、コード、数学にまたがる反復的洗練のための評価フレームワークを提案する。
我々のプロトコルはタスク毎の12ターンの会話を制御し、曖昧なフィードバックの改善からターゲットのステアリングまで様々なプロンプトを利用する。
ドメインに適したチェック(コードの単体テスト、回答等価性、数学の推論音、アイデアの独創性と実現可能性)で結果を取得し、3種類のメトリクスでターンレベルの振る舞いを追跡します。
- 参考スコア(独自算出の注目度): 1.5479630353571168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are now used in multi-turn workflows, but we still lack a clear way to measure when iteration helps and when it hurts. We present an evaluation framework for iterative refinement that spans ideation, code, and math. Our protocol runs controlled 12-turn conversations per task, utilizing a variety of prompts ranging from vague ``improve it'' feedback to targeted steering, and logs per-turn outputs. We score outcomes with domain-appropriate checks (unit tests for code; answer-equivalence plus reasoning-soundness for math; originality and feasibility for ideation) and track turn-level behavior with three families of metrics: semantic movement across turns, turn-to-turn change, and output size growth. Across models and tasks, gains are domain-dependent: they arrive early in ideas and code, but in math late turns matter when guided by elaboration. After the first few turns, vague feedback often plateaus or reverses correctness, while targeted prompts reliably shift the intended quality axis (novelty vs. feasibility in ideation; speed vs. readability in code; in math, elaboration outperforms exploration and drives late-turn gains). We also observe consistent domain patterns: ideation moves more in meaning across turns, code tends to grow in size with little semantic change, and math starts fixed but can break that path with late, elaborative iteration.Together, the framework and metrics make iteration measurable and comparable across models, and signal when to steer, stop, or switch strategies.
- Abstract(参考訳): 大規模言語モデル(LLM)は、今ではマルチターンワークフローで使われていますが、イテレーションがいつ役に立つのか、いつ痛いのかを測る明確な方法はありません。
本稿では、アイデア、コード、数学にまたがる反復的洗練のための評価フレームワークを提案する。
我々のプロトコルはタスク毎の12ターンの会話を制御し、曖昧な `improve it' のフィードバックからターゲットのステアリング、ターン毎の出力ログまで様々なプロンプトを利用する。
ドメインに適したチェック(コードの単体テスト、解答等価性、数学の推論音性、アイデアの独創性と実現可能性)で結果をスコアし、3つのメトリクスのファミリーでターンレベルの振る舞いを追跡する。
モデルやタスク全体では、利得はドメインに依存します – アイデアやコードの早期に到達しますが、数学では、実験によって導かれると、遅かれ早かれ重要になります。
最初の数回のターンの後、曖昧なフィードバックがしばしば正確さを低下または逆転させる一方で、ターゲットのプロンプトは意図した品質軸を確実にシフトさせる(アイデアにおけるノベルティ vs. 実現可能性、コードにおけるスピード対可読性、数学ではエラボレーションが探索を上回り、深夜のゲインを加速させる)。
また、一貫したドメインパターンも観察する: アイデアはターンを越えて意味を移し、コードはセマンティックな変化がほとんどなく、サイズが大きくなる傾向にある。そして、数学は修正されるが、遅くて実験的なイテレーションでその道を断ち切る可能性がある。さらに、フレームワークとメトリクスは、モデル間でイテレーションを測定可能で、同等にし、いつステア、ストップ、またはスイッチ戦略を判断するかを合図する。
関連論文リスト
- Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs [52.663816303997194]
回答の質に影響を与える重要な要因は思考段階の長さである。
本稿では, LLM が推論の長さを理解し, 制御するメカニズムを探求し, 活用する。
以上の結果から,この「オーバークロック」手法は過度な思考を軽減し,解答精度を向上し,推論遅延を低減することが示唆された。
論文 参考訳(メタデータ) (2025-06-08T17:54:33Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大78%削減し、15の推論データセットで最小限の精度損失を発生させる。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Meta-Reasoner: Dynamic Guidance for Optimized Inference-time Reasoning in Large Language Models [35.82665698868508]
大規模言語モデル(LLM)は、推論時間の間に高い計算時間とエラーの伝播に苦労する。
提案するMeta-Reasonerは,LLMが推論時間における推論方法の戦略を調整することで,推論計算を最適化するための新しいフレームワークである。
提案手法は,従来のSOTA法よりも9~12%向上し,推論時間を28~35%短縮する。
論文 参考訳(メタデータ) (2025-02-27T09:40:13Z) - Divide and Merge: Motion and Semantic Learning in End-to-End Autonomous Driving [7.620469713146574]
本稿では,新しい並列検出,追跡,予測手法であるニューラルベイズ動作復号法を提案する。
対話型セマンティックデコーディングを用いて、セマンティックタスクにおける情報交換を強化し、肯定的な伝達を促進する。
UniADとSparseDriveによるnuScenesデータセットの実験により、分割とマージのアプローチの有効性が確認された。
論文 参考訳(メタデータ) (2025-02-11T15:21:31Z) - What Did I Do Wrong? Quantifying LLMs' Sensitivity and Consistency to Prompt Engineering [12.950770409452035]
分類タスク,すなわち感度と一貫性の2つの指標を導入する。
感度はプロンプトの 言い換えによる予測の変化を測る
その代わり、一貫性は、同じクラスの要素の言い換えで予測がどのように変化するかを測定する。
論文 参考訳(メタデータ) (2024-06-18T06:59:24Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - SCREWS: A Modular Framework for Reasoning with Revisions [58.698199183147935]
我々は、リビジョンを伴う推論のためのモジュラーフレームワークであるSCREWSを紹介する。
我々は、SCREWSが、共通のフレームワークの下で、いくつかの以前のアプローチを統合することを示す。
我々は,多種多様な推論タスクに基づいて,最先端のLCMを用いてフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-09-20T15:59:54Z) - Momentum Decoding: Open-ended Text Generation As Graph Exploration [49.812280360794894]
自動回帰言語モデル(LM)を用いたオープンエンドテキスト生成は、自然言語処理における中核的なタスクの1つである。
我々は、新しい視点から、すなわち、有向グラフ内の探索プロセスとして、オープンエンドテキスト生成を定式化する。
本稿では,新しい復号法であるtextitmomentum decodingを提案する。
論文 参考訳(メタデータ) (2022-12-05T11:16:47Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。