Fugu-MT 論文翻訳(概要): Issue-Oriented Agent-Based Framework for Automated Review Comment Generation

論文の概要: Issue-Oriented Agent-Based Framework for Automated Review Comment Generation

arxiv url: http://arxiv.org/abs/2511.00517v1
Date: Sat, 01 Nov 2025 11:44:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-05 16:37:26.819032
Title: Issue-Oriented Agent-Based Framework for Automated Review Comment Generation
Title（参考訳）: 自動レビューコメント生成のための課題指向エージェントベースフレームワーク
Authors: Shuochuan Li, Dong Wang, Patanamon Thongtanunam, Zan Wang, Jiuqiao Yu, Junjie Chen,
Abstract要約: RevAgentは、コードレビューコメントのための新しいエージェントベースのイシュー指向フレームワークである。タスクは生成、識別、訓練の3段階に分けられる。最先端のPLMとLMベースのベースラインをはるかに上回っている。
参考スコア（独自算出の注目度）: 15.04868140672973
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Code review (CR) is a crucial practice for ensuring software quality. Various automated review comment generation techniques have been proposed to streamline the labor-intensive process. However, existing approaches heavily rely on a single model to identify various issues within the code, limiting the model's ability to handle the diverse, issue-specific nature of code changes and leading to non-informative comments, especially in complex scenarios such as bug fixes. To address these limitations, we propose RevAgent, a novel agent-based issue-oriented framework, decomposes the task into three stages: (1) Generation Stage, where five category-specific commentator agents analyze code changes from distinct issue perspectives and generate candidate comments; (2) Discrimination Stage, where a critic agent selects the most appropriate issue-comment pair; and (3) Training Stage, where all agents are fine-tuned on curated, category-specific data to enhance task specialization. Evaluation results show that RevAgent significantly outperforms state-of-the-art PLM- and LLM-based baselines, with improvements of 12.90\%, 10.87\%, 6.32\%, and 8.57\% on BLEU, ROUGE-L, METEOR, and SBERT, respectively. It also achieves relatively higher accuracy in issue-category identification, particularly for challenging scenarios. Human evaluations further validate the practicality of RevAgent in generating accurate, readable, and context-aware review comments. Moreover, RevAgent delivers a favorable trade-off between performance and efficiency.
Abstract（参考訳）: コードレビュー(CR)は、ソフトウェアの品質を保証するための重要なプラクティスです。労働集約的なプロセスを効率化するために、様々な自動レビューコメント生成技術が提案されている。しかし、既存のアプローチは、コード内の様々な問題を識別するための単一のモデルに大きく依存しており、コード変更の多様な問題固有の性質を扱うモデルの能力を制限し、特にバグ修正のような複雑なシナリオにおいて、非表現的なコメントにつながる。これらの制約に対処するために,新しいエージェントベースの課題指向フレームワークであるRevAgentを提案し,タスクを3段階に分解する。(1) カテゴリ固有のコメントエージェントが異なる問題視点からコード変更を分析して候補コメントを生成する生成ステージ,(2) 批判エージェントが最も適切な課題解決ペアを選択する識別ステージ,(3) すべてのエージェントがキュレートされたカテゴリ固有のデータに基づいて微調整される訓練ステージ。評価の結果, RevAgentは12.90\%, 10.87\%, 6.32\%, 8.57\%, BLEU, ROUGE-L, METEOR, SBERTをそれぞれ改善した。また、特に挑戦的なシナリオにおいて、イシューカテゴリの識別において比較的高い精度を達成する。人間の評価は、正確で読みやすく、コンテキスト対応のレビューコメントを生成する上で、RevAgentの実用性をさらに検証する。さらに、RevAgentはパフォーマンスと効率のトレードオフを提供する。

関連論文リスト

From Static Benchmarks to Dynamic Protocol: Agent-Centric Text Anomaly Detection for Evaluating LLM Reasoning [12.024430772980502]
本稿では,大規模言語モデル評価のためのエージェント中心ベンチマークパラダイムを提案する。教師エージェントは、候補問題を生成し、オーケストレータエージェントは、その妥当性を厳格に検証し、敵攻撃に対するガードを行う。生徒がその問題を正しく解いた場合、オーケストレータは教師にもっと難しい変奏曲を生成するよう促す。
論文参考訳（メタデータ） (2026-02-27T06:54:32Z)
VeRO: An Evaluation Harness for Agents to Optimize Agents [5.227525836910522]
我々は、バージョン管理されたエージェントスナップショット、予算管理された評価、構造化された実行トレースを備えた再現可能な評価手法であるVERO(Versioning, Rewards, Observations)を紹介する。本研究では,ターゲットエージェントの比較実験を行い,どの修正がターゲットエージェントの性能を確実に向上させるか分析する。
論文参考訳（メタデータ） (2026-02-25T23:40:22Z)
The Necessity of a Unified Framework for LLM-Based Agent Evaluation [46.631678638677386]
汎用エージェントは基本的な進歩を見てきた。これらのエージェントを評価すると、静的QAベンチマークと区別する固有の課題が提示される。エージェント評価の厳格な向上には統一評価フレームワークが不可欠である。
論文参考訳（メタデータ） (2026-02-03T08:18:37Z)
Automatically Benchmarking LLM Code Agents through Agent-Driven Annotation and Evaluation [47.85891728056131]
PRDBenchは、20のドメインにわたる50の現実のPythonプロジェクトからなる、新しいベンチマークである。それぞれに構造化された製品要求文書(PRD)要件、包括的な評価基準、リファレンス実装がある。我々はエージェント・アズ・ア・ジャッジ(Agen-as-a-Judge)パラダイムを用いてエージェントの出力を評価する。
論文参考訳（メタデータ） (2025-10-28T12:26:45Z)
Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection [108.5042835056188]
この作業では,2つの基本的な問題に対処するため,Agent4FaceForgeryを導入している。人間の偽造の多様な意図と反復的なプロセスを捉える方法。ソーシャルメディアの偽造に付随する複雑な、しばしば敵対的な、テキストと画像のインタラクションをモデル化する方法。
論文参考訳（メタデータ） (2025-09-16T01:05:01Z)
VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文参考訳（メタデータ） (2025-09-15T02:25:38Z)
Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。 4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文参考訳（メタデータ） (2025-08-05T12:52:09Z)
SemAgent: A Semantics Aware Program Repair Agent [14.80363334219173]
SemAgentは、イシュー、コード、実行セマンティクスを利用して完全なパッチを生成する、新しいワークフローベースのプロシージャである。我々は、(a)実行セマンティクスを活用して関連するコンテキストを検索し、(b)一般化された抽象化を通して問題セマンティクスを理解し、(c)この抽象化のコンテキスト内でコードセマンティクスを分離する、という新しいパイプラインを通してこれを実現する。提案手法は,SWEBench-Liteベンチマークで44.66%の解率を達成し,ワークフローベースのアプローチを全て上回り,ベースラインと比較して7.66%の絶対的な改善を実現している。
論文参考訳（メタデータ） (2025-06-19T23:27:58Z)
On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
MAIN-RAG: Multi-Agent Filtering Retrieval-Augmented Generation [34.66546005629471]
大規模言語モデル(LLM)は、様々な自然言語処理タスクに不可欠なツールであるが、時代遅れや誤った情報の生成に悩まされることが多い。 Retrieval-Augmented Generation (RAG)は、外部のリアルタイム情報検索をLLM応答に組み込むことでこの問題に対処する。この問題に対処するため,マルチエージェントフィルタ検索検索生成(MAIN-RAG)を提案する。 MAIN-RAGはトレーニング不要なRAGフレームワークで、複数のLCMエージェントを利用して検索した文書のフィルタリングとスコア付けを行う。
論文参考訳（メタデータ） (2024-12-31T08:07:26Z)
AEGIS: An Agent-based Framework for General Bug Reproduction from Issue Descriptions [10.686849324750556]
gEneral buG reproductIon Scripts 生成フレームワークは AEGIS という名称で、タスクのための最初のエージェントベースのフレームワークである。 AEGISは、Agentlessの相対的な解決率を12.5%向上させることができる。
論文参考訳（メタデータ） (2024-11-27T03:16:47Z)
PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文参考訳（メタデータ） (2024-01-26T18:12:25Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。