論文の概要: From Completion to Editing: Unlocking Context-Aware Code Infilling via Search-and-Replace Instruction Tuning
- arxiv url: http://arxiv.org/abs/2601.13384v1
- Date: Mon, 19 Jan 2026 20:33:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.056053
- Title: From Completion to Editing: Unlocking Context-Aware Code Infilling via Search-and-Replace Instruction Tuning
- Title(参考訳): コンプリートから編集:検索と置き換えのインストラクションチューニングによるコンテキスト認識コードのアンロック
- Authors: Jiajun Zhang, Zeyu Cui, Jiaxi Yang, Lei Zhang, Yuheng Jing, Zeyao Ma, Tianyi Bai, Zilei Wang, Qiang Liu, Liang Wang, Binyuan Hui, Junyang Lin,
- Abstract要約: 本稿では,エージェントによる検証・編集機構を統一された単一パス推論プロセスに内部化するフレームワークを提案する。
最小限のデータで、SRI-Coderは、ChatモデルがBaseモデルの完了性能を上回ることができる。
FIMスタイルのチューニングとは異なり、SRIは一般的なコーディング能力を保持し、標準のFIMに匹敵する推論遅延を維持する。
- 参考スコア(独自算出の注目度): 81.97788535387286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dominant Fill-in-the-Middle (FIM) paradigm for code completion is constrained by its rigid inability to correct contextual errors and reliance on unaligned, insecure Base models. While Chat LLMs offer safety and Agentic workflows provide flexibility, they suffer from performance degradation and prohibitive latency, respectively. To resolve this dilemma, we propose Search-and-Replace Infilling (SRI), a framework that internalizes the agentic verification-and-editing mechanism into a unified, single-pass inference process. By structurally grounding edits via an explicit search phase, SRI harmonizes completion tasks with the instruction-following priors of Chat LLMs, extending the paradigm from static infilling to dynamic context-aware editing. We synthesize a high-quality dataset, SRI-200K, and fine-tune the SRI-Coder series. Extensive evaluations demonstrate that with minimal data (20k samples), SRI-Coder enables Chat models to surpass the completion performance of their Base counterparts. Crucially, unlike FIM-style tuning, SRI preserves general coding competencies and maintains inference latency comparable to standard FIM. We empower the entire Qwen3-Coder series with SRI, encouraging the developer community to leverage this framework for advanced auto-completion and assisted development.
- Abstract(参考訳): コード補完のためのFill-in-the-Middle(FIM)パラダイムは、コンテキストエラーの修正が難しいことや、整合性のないセキュアでないベースモデルに依存しないことによって制約されている。
Chat LLMは安全性を提供し、Agenticワークフローは柔軟性を提供するが、それぞれパフォーマンス劣化と禁忌のレイテンシに悩まされている。
このジレンマを解決するために,エージェント検証・編集機構を統一された単一パス推論プロセスに内部化するフレームワークであるSearch-and-Replace Infilling (SRI)を提案する。
明示的な検索フェーズを通じて編集を構造化することにより、SRIはChat LLMの命令追従前処理と完了タスクを調和させ、パラダイムを静的な埋め合わせから動的コンテキスト認識編集に拡張する。
高品質なデータセットであるSRI-200Kを合成し、SRI-Coderシリーズを微調整する。
大規模な評価では、最小限のデータ(20kサンプル)で、SRI-Coderは、Chatモデルがベースモデルの完了性能を上回ることを実証している。
重要なことは、FIMスタイルのチューニングとは異なり、SRIは一般的なコーディング能力を保持し、標準のFIMに匹敵する推論遅延を維持する。
私たちは、Qwen3-Coderシリーズ全体をSRIで強化し、開発者コミュニティがこのフレームワークを高度な自動補完と補助開発に活用することを奨励します。
関連論文リスト
- AgentCyTE: Leveraging Agentic AI to Generate Cybersecurity Training & Experimentation Scenarios [0.19999259391104388]
本稿では,大規模言語モデルと決定論的・スキーマ制約付きネットワークエミュレーションを統合したフレームワークであるAgentCyTEを提案する。
AgentCyTEはシナリオの結果を観察し、正確性を検証し、リアリズムと一貫性を反復的に強化する。
論文 参考訳(メタデータ) (2025-10-29T05:44:12Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - Joint Learning using Mixture-of-Expert-Based Representation for Enhanced Speech Generation and Robust Emotion Recognition [54.44798086835314]
音声感情認識(SER)は感情認識音声システム構築において重要な役割を担っているが,その性能は雑音下で著しく低下する。
本稿では, フレームワイド・エキスパート・ルーティングを自己教師付き音声表現に応用した, フレキシブルMTLフレームワークSparse Mixture-of-Experts Representation Integration Technique (Sparse MERIT)を提案する。
MSP-Podcastコーパスの実験では、Sparse MERITはSERとSEの両方のタスクのベースラインモデルより一貫して優れていた。
論文 参考訳(メタデータ) (2025-09-10T10:18:56Z) - MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning [36.3918410061572]
MA-RAGは、複雑な情報探索タスクにおける固有の曖昧さと推論の問題に対処する。
エンドツーエンドの微調整や分離されたコンポーネント拡張に依存する従来のRAGメソッドとは異なり、MA-RAGは特別なAIエージェントの協調的なセットを編成する。
本結果は,検索強化システムにおける協調的,モジュール型推論の有効性を浮き彫りにしたものである。
論文 参考訳(メタデータ) (2025-05-26T15:05:18Z) - Can Code Language Models Learn Clarification-Seeking Behaviors? [4.788534218705066]
ClarifyCoderは,合成データ生成と命令調整を行うフレームワークである。
ClarifyCoderは,あいまいなタスクに対して,コミュニケーション率63%,質問率52%を達成した。
論文 参考訳(メタデータ) (2025-04-23T00:34:39Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - SagaLLM: Context Management, Validation, and Transaction Guarantees for Multi-Agent LLM Planning [2.1331883629523634]
SagaLLMは、現在のLLMベースの計画システムの4つの基本的な制限に対処するために設計された構造化マルチエージェントアーキテクチャである。
Sagaトランザクションパターンを永続メモリ、自動補償、独立バリデーションエージェントに統合することで、このギャップを埋める。
不確実性の下では、一貫性、検証精度、適応調整において大幅な改善が達成される。
論文 参考訳(メタデータ) (2025-03-15T01:43:03Z) - Semantic Integrity Constraints: Declarative Guardrails for AI-Augmented Data Processing Systems [39.23499993745249]
セマンティッククエリにおけるLLM出力に対する正当性条件を指定・強制するためのセマンティック整合性制約(SIC)を導入する。
SICは、従来のデータベース整合性制約をセマンティックセッティングに一般化し、グラウンド、サウンドネス、排他といった一般的なタイプの制約をサポートする。
本稿では,SICをクエリ計画と実行環境に統合するシステム設計について述べる。
論文 参考訳(メタデータ) (2025-03-01T19:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。