論文の概要: Fix Initial Codes and Iteratively Refine Textual Directions Toward Safe Multi-Turn Code Correction
- arxiv url: http://arxiv.org/abs/2604.23989v1
- Date: Mon, 27 Apr 2026 03:07:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.713356
- Title: Fix Initial Codes and Iteratively Refine Textual Directions Toward Safe Multi-Turn Code Correction
- Title(参考訳): 安全なマルチターン符号補正に向けた初期符号の修正とテキスト方向の反復的修正
- Authors: Yuto Tanaka, Issei Sato,
- Abstract要約: 我々は、最先端の森林探索(SFS)を分析し、より単純な方法であるIRTD(Iterative Refinement of Textual Directions)を提案する。
いくつかのコード生成ベンチマークの実験は、IRTDが最先端のメソッドに匹敵する推論性能を達成することを示唆している。
- 参考スコア(独自算出の注目度): 33.01009238256127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work on large language models (LLMs) has emphasized the importance of scaling inference compute. From this perspective, the state-of-the-art method Scattered Forest Search (SFS) has been proposed, employing Monte Carlo Tree Search with carefully crafted initial seeds and textual optimization for multi-turn code correction. However, its complexity makes it unclear what factors contribute to improvements in inference performance. To address this problem, we analyze SFS and propose a simpler method, Iterative Refinement of Textual Directions (IRTD), which fixes initial codes and iteratively refines textual directions. Because of the simplicity of IRTD, we theoretically establish the safety of IRTD using Oracle-Guided Inductive Synthesis (OGIS). Experiments on several code generation benchmarks suggest that IRTD achieves inference performance comparable to state-of-the-art methods. These results indicate that, even without complex search structures, refining initial codes with high-quality textual directions alone can effectively improve inference performance.
- Abstract(参考訳): 大規模言語モデル(LLM)に関する最近の研究は、推論計算のスケーリングの重要性を強調している。
この観点からは,モンテカルロ木探索を念入りに構築した初期種子とマルチターンコード修正のためのテキスト最適化を用いて,最先端の森林探索手法(SFS)が提案されている。
しかし、その複雑さにより、推論性能の改善にどのような要因が寄与するかははっきりしない。
この問題に対処するため,SFSを解析し,初期コードを修正し,テキスト方向を反復的に洗練するシンプルな方法であるIRTD(Iterative Refinement of Textual Directions)を提案する。
Oracle-Guided Inductive Synthesis (OGIS)を用いてIRTDの安全性を理論的に確立する。
いくつかのコード生成ベンチマークの実験は、IRTDが最先端のメソッドに匹敵する推論性能を達成することを示唆している。
これらの結果から,複雑な検索構造がなくても,高品質なテキスト方向のみによる初期符号の精細化は推論性能を効果的に向上させることが示唆された。
関連論文リスト
- Domain-Specialized Tree of Thought through Plug-and-Play Predictors [32.191360225502386]
本稿では,ToT検索プロセスのガイドとして,軽量かつ教師付きで適応可能なプラグアンドプレイ予測器であるDSTを紹介する。
我々の予測器は動的でコンテキスト対応のプルーニングを可能にし、より単純な推論ステップで探索をほぼ効率よく進めることができる。
我々の研究は、木に基づく推論における精度-効率のトレードオフを効果的に解決し、ToTをLLMにおける複雑な問題解決のためのスケーラブルで実践的なパラダイムに変換する。
論文 参考訳(メタデータ) (2026-03-14T10:22:01Z) - Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - Reinforced Efficient Reasoning via Semantically Diverse Exploration [73.41112984160992]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明された。
本研究では,LLMのための意味的多様性探索,すなわちROSEによる効率的な推論手法を提案する。
本手法は,意味エントロピーに基づく分岐戦略と$varepsilon$-exploration機構を組み込んだものである。
論文 参考訳(メタデータ) (2026-01-08T15:56:44Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - SymRTLO: Enhancing RTL Code Optimization with LLMs and Neuron-Inspired Symbolic Reasoning [30.938876549335067]
本稿では,新しいニューロン-シンボリックRTL最適化フレームワークであるSymRTLOを提案する。
有限状態機械(FSM)論理の解析と最適化のための記号モジュールを提案する。
Synopsys Design Compiler と Yosys による RTL-Rewriter ベンチマークの実験では、SymRTLO は 43.9% と 62.5% と 51.1% に向上している。
論文 参考訳(メタデータ) (2025-04-14T16:15:55Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs [37.147529569445396]
Tree-of- Thought (ToT) 法では、ツリー探索を用いて推論空間を広範囲に探索し、CoTデコーディングが見落としてしまうかもしれない推論経路をよりよく見つける。
ToTで構築された検索ツリーを利用した細調整言語モデル(LLMs)により、CoTは同様のあるいはより良いパフォーマンスを実現することができる。
これはCPO(Chain of Preference Optimization)によって実現され、LLMはCoT推論パスの各ステップをToTのステップと整列するように微調整される。
論文 参考訳(メタデータ) (2024-06-13T14:07:02Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。
我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文 参考訳(メタデータ) (2024-02-06T03:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。