論文の概要: Cross-Context Review: Improving LLM Output Quality by Separating Production and Review Sessions
- arxiv url: http://arxiv.org/abs/2603.12123v1
- Date: Thu, 12 Mar 2026 16:26:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.213207
- Title: Cross-Context Review: Improving LLM Output Quality by Separating Production and Review Sessions
- Title(参考訳): クロスコンテキストレビュー:生産とレビューセッションの分離によるLCMのアウトプット品質の向上
- Authors: Tae-Eun Song,
- Abstract要約: 本稿では,CCR(Cross-Context Review)について紹介する。
30のアーティファクト(コード、テクニカルドキュメント、プレゼンテーションスクリプト)に150のエラーがあり、同じセッションの自己レビュー(SR)、繰り返しの自己レビュー(SR2)、コンテキスト対応のサブエージェントレビュー(SA)、CCRの4つのレビュー条件の下でテストされました。
CCRはどんなモデルでも動作し、インフラストラクチャを必要としない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models struggle to catch errors in their own outputs when the review happens in the same session that produced them. This paper introduces Cross-Context Review (CCR), a straightforward method where the review is conducted in a fresh session with no access to the production conversation history. We ran a controlled experiment: 30 artifacts (code, technical documents, presentation scripts) with 150 injected errors, tested under four review conditions -- same-session Self-Review (SR), repeated Self-Review (SR2), context-aware Subagent Review (SA), and Cross-Context Review (CCR). Over 360 reviews, CCR reached an F1 of 28.6%, outperforming SR (24.6%, p=0.008, d=0.52), SR2 (21.7%, p<0.001, d=0.72), and SA (23.8%, p=0.004, d=0.57). The SR2 result matters most for interpretation: reviewing twice in the same session did not beat reviewing once (p=0.11), which rules out repetition as an explanation for CCR's advantage. The benefit comes from context separation itself. CCR works with any model, needs no infrastructure, and costs only one extra session.
- Abstract(参考訳): 大規模な言語モデルは、レビューが生成されたセッションで発生した時、自身のアウトプットでエラーをキャッチするのに苦労する。
本稿では,CCR(Cross-Context Review)について紹介する。
30のアーティファクト(コード、テクニカルドキュメント、プレゼンテーションスクリプト)に150のインジェクトエラーを注入し、同セッションの自己レビュー(SR)、繰り返しの自己レビュー(SR2)、コンテキスト対応のサブエージェントレビュー(SA)、クロスコンテキストレビュー(CCR)という4つのレビュー条件下でテストしました。
360以上のレビューで、CCRは28.6%のF1に達し、SR(24.6%、p=0.008、d=0.52)、SR2(21.7%、p<0.001、d=0.72)、SA(23.8%、p=0.004、d=0.57)を上回った。
SR2の結果は解釈において最も重要であり、同じセッションで2回レビューしてもレビューを1回も上回らなかった(p=0.11)。
利点はコンテキスト分離そのものにある。
CCRはどんなモデルでも動作し、インフラストラクチャを必要としない。
関連論文リスト
- RATE: Reviewer Profiling and Annotation-free Training for Expertise Ranking in Peer Review Systems [6.083097040417168]
LRベンチ(LR-bench)は,2024-2025のAI/NLP原稿を5段階の自己評価親和性評価で評価したベンチマークである。
また、レビュアーの最近の出版物をコンパクトなキーワードベースのプロファイルに抽出するレビュアー中心のランキングフレームワークであるRATEを提案する。
我々の手法は、常に最先端のパフォーマンスを達成し、明確なマージンで強力な埋め込みベースラインを上回ります。
論文 参考訳(メタデータ) (2026-01-27T14:13:46Z) - AACR-Bench: Evaluating Automatic Code Review with Holistic Repository-Level Context [10.769682566098695]
AACR-Benchは、複数のプログラミング言語にまたがる完全なクロスファイルコンテキストを提供する包括的なベンチマークである。
従来のデータセットとは異なり、AACR-Benchは潜伏する欠陥を明らかにするために"AIアシスト、エキスパート検証"のアノテーションパイプラインを使用している。
論文 参考訳(メタデータ) (2026-01-27T11:28:44Z) - Critique-Coder: Enhancing Coder Models by Critique Reinforcement Learning [49.35842828047236]
強化学習(Reinforcement Learning, RL)は、特に推論モデルと組み合わせた場合、一般的なトレーニングパラダイムとして現れている。
本稿では,モデルが与えられた(探索,解)ペアに対する批判を生成するための批判強化学習(CRL)を提案する。
textscCritique-Coderは、RLのみのベースラインを異なるベンチマークで一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-09-26T18:30:49Z) - Analysing Zero-Shot Readability-Controlled Sentence Simplification [54.09069745799918]
本研究では,異なる種類の文脈情報が,所望の可読性を持つ文を生成するモデルの能力に与える影響について検討する。
結果から,全ての試験されたモデルは,原文の制限や特徴のため,文の簡略化に苦慮していることがわかった。
実験では、RCTSに合わせたより良い自動評価指標の必要性も強調した。
論文 参考訳(メタデータ) (2024-09-30T12:36:25Z) - ConMe: Rethinking Evaluation of Compositional Reasoning for Modern VLMs [95.15814662348245]
構成推論(CR)は属性、関係、単語の順序の重要さを把握する。
近年の視覚言語モデル (VLM) は、そのような推論タスクにおいて顕著な習熟性を示している。
論文 参考訳(メタデータ) (2024-06-12T12:54:27Z) - What Makes a Code Review Useful to OpenDev Developers? An Empirical
Investigation [4.061135251278187]
コードレビューの有効性が少し改善されても、ソフトウェア開発組織にとってかなりの節約が得られます。
本研究の目的は,コードレビューコメントをOSS開発者に有用なものにする方法を,より精細に理解することである。
論文 参考訳(メタデータ) (2023-02-22T22:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。