論文の概要: Modeling LLM Agent Reviewer Dynamics in Elo-Ranked Review System
- arxiv url: http://arxiv.org/abs/2601.08829v1
- Date: Tue, 13 Jan 2026 18:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.33901
- Title: Modeling LLM Agent Reviewer Dynamics in Elo-Ranked Review System
- Title(参考訳): Elo-Ranked Review System における LLM Agent Reviewer Dynamics のモデル化
- Authors: Hsiang-Wei Huang, Junbin Lu, Kuang-Ming Chen, Jenq-Neng Hwang,
- Abstract要約: Elo-ranked Review システムにおけるLarge Language Model (LLM) エージェントレビュアーのダイナミクスを実世界の会議論文を用いて検討する。
シミュレーションの結果,Eloの導入によってエリアチェア判定精度が向上するなど,いくつかの興味深い結果が得られた。
- 参考スコア(独自算出の注目度): 25.924572339939928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we explore the Large Language Model (LLM) agent reviewer dynamics in an Elo-ranked review system using real-world conference paper submissions. Multiple LLM agent reviewers with different personas are engage in multi round review interactions moderated by an Area Chair. We compare a baseline setting with conditions that incorporate Elo ratings and reviewer memory. Our simulation results showcase several interesting findings, including how incorporating Elo improves Area Chair decision accuracy, as well as reviewers' adaptive review strategy that exploits our Elo system without improving review effort. Our code is available at https://github.com/hsiangwei0903/EloReview.
- Abstract(参考訳): 本研究では,Elo-rankedリビューシステムにおけるLarge Language Model (LLM)エージェントレビュアのダイナミクスについて,実世界の会議論文を用いて検討する。
異なるペルソナを持つ複数のLDMエージェントレビュアーは、エリアチェアによって調整されたマルチラウンドレビューインタラクションに従事している。
ベースライン設定とEloレーティングとレビュアーメモリを組み込んだ条件を比較した。
シミュレーションの結果,エリアチェア決定精度の向上や,レビュー作業の改善を伴わないEloシステムを活用したレビュアーの適応的レビュー戦略など,興味深い結果が得られた。
私たちのコードはhttps://github.com/hsiangwei0903/EloReview.comから入手可能です。
関連論文リスト
- RankArena: A Unified Platform for Evaluating Retrieval, Reranking and RAG with Human and LLM Feedback [14.456969388690066]
RankArenaは、検索パイプライン、リランカー、RAGシステムのパフォーマンスを比較分析するための統一されたプラットフォームである。
複数の評価モードをサポートする: 直接的再分類、人またはLLM投票と盲対比較、手動文書アノテーションの監督、エンドツーエンドのRAG回答品質評価。
ペアワイズな好みとフルリストのアノテーションと、ムーブメントメトリクス、アノテーションタイム、品質評価などの補助メタデータを通じて、詳細な関連性フィードバックをキャプチャする。
論文 参考訳(メタデータ) (2025-08-07T15:46:53Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - Elo Uncovered: Robustness and Best Practices in Language Model
Evaluation [9.452326973655447]
評価手法が従うべき2つの公理:信頼性と推移性について検討する。
これらの公理は、LLMの現在の比較評価の信頼性について、常に疑問を呈しているわけではない。
論文 参考訳(メタデータ) (2023-11-29T00:45:23Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Style Over Substance: Evaluation Biases for Large Language Models [17.13064447978519]
本研究では,大規模言語モデル(LLM)とともに,クラウドソースおよびエキスパートアノテータの挙動について検討する。
この結果から, 事実的誤りに対する回答は, 短すぎる, 文法的誤りを含む回答よりも好意的に評価され, 評価過程の偏りが示唆された。
評価面を1つのスコアにマージするのではなく,複数の次元にまたがるマシン生成テキストを独立に評価することを提案する。
論文 参考訳(メタデータ) (2023-07-06T14:42:01Z) - PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations [10.709365940160685]
現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文 参考訳(メタデータ) (2023-07-06T04:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。