Fugu-MT 論文翻訳(概要): A Scalable Benchmark for Repository-Oriented Long-Horizon Conversational Context Management

論文の概要: A Scalable Benchmark for Repository-Oriented Long-Horizon Conversational Context Management

arxiv url: http://arxiv.org/abs/2603.06358v1
Date: Fri, 06 Mar 2026 15:09:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-09 13:17:46.009653
Title: A Scalable Benchmark for Repository-Oriented Long-Horizon Conversational Context Management
Title（参考訳）: Repository-Oriented Long-Horizon Conversational Context Managementのためのスケーラブルベンチマーク
Authors: Yang Liu, Li Zhang, Fang Liu, Ping Lin, Xinyi Li,
Abstract要約: 大規模言語モデル(LLM)は急速に進歩し、コード理解と生成能力を大幅に強化した。しかし、過度に長期にわたる会話のコンテキストがモデルに圧倒され、重要な情報が失われ、性能が低下する可能性がある。 LoCoEvalは、リポジトリ指向の開発シナリオに合わせた、最初の長期会話コンテキスト管理ベンチマークです。
参考スコア（独自算出の注目度）: 15.052977169932054
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, large language models (LLMs) have advanced rapidly, substantially enhancing their code understanding and generation capabilities and giving rise to powerful code assistants. However, in practical repository development, excessively long-horizon conversational context may overwhelm models, causing the loss of critical information and degraded performance, thereby limiting the utility of code assistants. Existing context management methods proposed to mitigate this context dilemma primarily target general-purpose conversations, while repository-oriented solutions remain largely unexplored, which is largely due to the lack of reliable evaluation benchmarks. To bridge this gap, we present LoCoEval, the first long-horizon conversational context management benchmark tailored to repository-oriented development scenarios. Adhering to three key principles, LoCoEval is constructed via an LLM-driven pipeline that generates realistic and diverse repository-oriented conversations, capturing key interaction patterns such as iterative requirements, noisy input, and retrospective questions. We evaluate 7 baselines, including 4 representative context management methods, using 3 advanced backbone LLMs on LoCoEval. The results reveal substantial challenges faced by standalone LLMs and existing approaches, especially memory systems, in repository-oriented conversational scenarios. To address these limitations, we further propose an improved method integrating conversational and repository information into a unified memory, which outperforms all baselines (*Oracle* excluded) and demonstrates robustness. Additionally, we investigated the impact of various factors on method performance, providing actionable insights for future research.
Abstract（参考訳）: 近年、大規模言語モデル(LLM)は急速に進歩し、コード理解と生成能力を大幅に強化し、強力なコードアシスタントを生み出している。しかし、事実上のリポジトリ開発では、長期にわたる会話コンテキストがモデルに圧倒され、重要な情報が失われ、性能が低下し、コードアシスタントの利用が制限される可能性がある。この文脈ジレンマを緩和するために提案された既存のコンテキスト管理手法は、主に汎用的な会話をターゲットにしているが、リポジトリ指向のソリューションはほとんど探索されていない。このギャップを埋めるために、リポジトリ指向の開発シナリオに合わせた、最初の長期会話コンテキスト管理ベンチマークであるLoCoEvalを紹介します。 LoCoEvalは3つの重要な原則に準拠し、LLM駆動のパイプラインを通じて構築され、現実的で多様なリポジトリ指向の会話を生成し、反復的な要求、ノイズの多い入力、ふりかえりの質問といった重要なインタラクションパターンをキャプチャする。 LoCoEval上の3つの高度なバックボーンLSMを用いて,4つのコンテキスト管理手法を含む7つのベースラインを評価した。その結果、リポジトリ指向の対話シナリオにおいて、スタンドアロンのLLMと既存のアプローチ、特にメモリシステムによって直面する重大な課題が明らかになった。これらの制限に対処するため,会話情報やリポジトリ情報を統一メモリに統合した改良手法を提案する。さらに,様々な要因がメソッド性能に与える影響について検討し,今後の研究に有効な知見を提供する。

関連論文リスト

AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts [78.33143446024485]
我々は、横方向思考パズルに基づく環境ロールアウトによるエージェントの評価を行うtextbfAgentLongBenchを紹介した。このフレームワークは、知識集約的で知識のないシナリオにまたがる厳密な相互作用の軌跡を生成する。
論文参考訳（メタデータ） (2026-01-28T16:05:44Z)
AlignCoder: Aligning Retrieval with Target Intent for Repository-Level Code Completion [55.21541958868449]
リポジトリレベルのコード補完フレームワークであるAlignCoderを提案する。我々のフレームワークは、初期クエリとターゲットコードのセマンティックギャップを橋渡しする拡張クエリを生成する。我々は、拡張クエリにおける推論情報を活用してより正確な検索を行うAlignRetrieverのトレーニングに強化学習を採用する。
論文参考訳（メタデータ） (2026-01-27T15:23:14Z)
Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.65731902036669]
Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。 10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
論文参考訳（メタデータ） (2025-11-25T21:08:07Z)
KnowMT-Bench: Benchmarking Knowledge-Intensive Long-Form Question Answering in Multi-Turn Dialogues [58.305425399644086]
MT-LFQA(Multi-Turn Long-Form Question Answering)は、知識集約ドメインにおけるLLM(Large Language Models)の重要な応用パラダイムである。 textbfKnowMT-Benchは、知識集約的な分野にわたるLLMのためのMT-LFQAを体系的に評価するために設計された、テキストファーストなベンチマークである。
論文参考訳（メタデータ） (2025-09-26T04:32:29Z)
RepoScope: Leveraging Call Chain-Aware Multi-View Context for Repository-Level Code Generation [16.544483144957407]
RepoScopeは、リポジトリレベルのコード生成のためのコールチェーン対応のマルチビューコンテキストである。本稿では,リポジトリの構造的セマンティクスを利用して,対象関数における呼び出し者の識別を改善する新しいコールチェーン予測手法を提案する。 RepoScopeは最先端の手法より優れており、pass@1スコアの36.35%の相対的な改善を達成している。
論文参考訳（メタデータ） (2025-07-20T02:35:36Z)
In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents [70.12342024019044]
大規模言語モデル(LLM)は、オープンエンド対話において大きな進歩を遂げているが、関連する情報の保持と取得ができないため、その有効性は制限されている。本稿では,長期対話エージェントのための新しいメカニズムであるリフレクティブメモリ管理(RMM)を提案する。 RMMは、LongMemEvalデータセットのメモリ管理なしでベースラインよりも10%以上精度が向上している。
論文参考訳（メタデータ） (2025-03-11T04:15:52Z)
Emulating Retrieval Augmented Generation via Prompt Engineering for Enhanced Long Context Comprehension in LLMs [23.960451986662996]
本稿では,レトリーバル拡張生成(RAG)を特殊エンジニアリングとチェーンオブ思考推論によりエミュレートする手法を提案する。我々は,BABILong から選択したタスクに対するアプローチを評価し,大量の散逸テキストを用いた標準 bAbI QA 問題をインターリーブする。
論文参考訳（メタデータ） (2025-02-18T02:49:40Z)
A Review of Repository Level Prompting for LLMs [0.0]
大規模言語モデル(LLM)は、HumanEvalベンチマークで94.6%の解決率を達成するなど、顕著な成功を収めている。 GitHub CopilotやTab Nineといったリポジトリレベルのインラインコード補完ツールの商用化が進んでいる。本稿では,個々のコーディング問題からリポジトリスケールソリューションへの移行について述べる。
論文参考訳（メタデータ） (2023-12-15T00:34:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。