論文の概要: Debatable Intelligence: Benchmarking LLM Judges via Debate Speech Evaluation
- arxiv url: http://arxiv.org/abs/2506.05062v1
- Date: Thu, 05 Jun 2025 14:06:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.747551
- Title: Debatable Intelligence: Benchmarking LLM Judges via Debate Speech Evaluation
- Title(参考訳): デバタブルインテリジェンス:ディベート音声評価によるLCM審査員のベンチマーク
- Authors: Noy Sternlicht, Ariel Gera, Roy Bar-Haim, Tom Hope, Noam Slonim,
- Abstract要約: 本稿では, LLM審査員の評価のための新しい, 挑戦的なベンチマークとして, ディベート音声評価を紹介する。
この課題には、以前は体系的なベンチマークにおいて限定的な注目を集めていた、ユニークな認知能力のセットが含まれる。
我々は600以上の微妙な注釈付き討論演説のデータセットを活用し、現状のLLMがこのタスクにおける人間の判断とどのように比較されるかの詳細な分析を初めて提示する。
- 参考スコア(独自算出の注目度): 17.330188045948663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Debate Speech Evaluation as a novel and challenging benchmark for assessing LLM judges. Evaluating debate speeches requires a deep understanding of the speech at multiple levels, including argument strength and relevance, the coherence and organization of the speech, the appropriateness of its style and tone, and so on. This task involves a unique set of cognitive abilities that have previously received limited attention in systematic LLM benchmarking. To explore such skills, we leverage a dataset of over 600 meticulously annotated debate speeches and present the first in-depth analysis of how state-of-the-art LLMs compare to human judges on this task. Our findings reveal a nuanced picture: while larger models can approximate individual human judgments in some respects, they differ substantially in their overall judgment behavior. We also investigate the ability of frontier LLMs to generate persuasive, opinionated speeches, showing that models may perform at a human level on this task.
- Abstract(参考訳): 本稿では, LLM審査員の評価のための新しい, 挑戦的なベンチマークとして, ディベート音声評価を紹介する。
討論スピーチの評価には、議論の強さと関連性、スピーチの一貫性と組織化、そのスタイルとトーンの適切性など、さまざまなレベルでのスピーチの深い理解が必要である。
この課題には、以前は体系的なLLMベンチマークにおいて限定的な注目を集めていた、ユニークな認知能力のセットが含まれる。
このようなスキルを探求するために、600以上の微妙な注釈付き討論演説のデータセットを活用し、現状のLLMが、このタスクにおける人間の判断とどのように比較されるかを、初めて詳細に分析する。
より大きなモデルでは、ある点で個々の人間の判断を近似することができるが、その全体的判断行動には大きな違いがある。
また、フロンティアのLLMが説得力があり、意見が分かれた音声を生成する能力についても検討し、このタスクにおいてモデルが人間レベルで機能することを示す。
関連論文リスト
- Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks [52.098988739649705]
本研究では, LLMのバイアスと限界について, 応答生成器, 判定器, 討論器の3つの役割について検討した。
我々は、様々な先行的曖昧なシナリオを含む例をキュレートすることで、合意なしのベンチマークを開発する。
以上の結果から, LLMは, オープンエンドの回答を生成する際に, 曖昧な評価を行うことができる一方で, 審査員や討論者として採用する場合は, 合意なしのトピックにスタンスを取る傾向が示唆された。
論文 参考訳(メタデータ) (2025-05-28T01:31:54Z) - Beyond Keywords: Evaluating Large Language Model Classification of Nuanced Ableism [2.0435202333125977]
大規模言語モデル(LLM)は、r'esumのスクリーニングやコンテンツモデレーションといった意思決定タスクにますます使われています。
自閉症者を対象としたニュアンス能力の同定のための4つのLSMの能力について検討した。
以上の結果から, LLMは自閉症関連言語を識別できるが, 有害あるいは攻撃的な意味を欠くことが多いことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-26T20:01:44Z) - Speech-IFEval: Evaluating Instruction-Following and Quantifying Catastrophic Forgetting in Speech-Aware Language Models [49.1574468325115]
本稿では,命令追従能力を評価するための評価フレームワークであるSpeech-IFevalを紹介する。
近年のSLMは,音声認識を大規模言語モデル (LLM) と統合し,音声中心の訓練によるテキスト能力の低下を招いている。
以上の結果から, SLM はテキストベースの LLM よりもはるかに高い性能を示し, 基本命令にも耐え難いことが示唆された。
論文 参考訳(メタデータ) (2025-05-25T08:37:55Z) - Debating for Better Reasoning: An Unsupervised Multimodal Approach [56.74157117060815]
議論のパラダイムをマルチモーダルな設定に拡張し、より弱いモデルがより強力なモデルの性能を監督し、強化する可能性を探る。
視覚的質問応答 (VQA) に焦点をあて, 2つの「目に見える」専門家の視覚言語モデルが解答について議論する一方, 「盲目」(テキストのみ)の判断は議論の品質にのみ依存する。
この枠組みでは, 専門家は信念に沿う回答のみを守り, 明示的な役割プレーの必要性を排除し, 専門家の不一致の事例に議論を集中させる。
論文 参考訳(メタデータ) (2025-05-20T17:18:17Z) - Evaluating Large language models on Understanding Korean indirect Speech acts [0.6757476692230009]
本研究は,現在のLLMが発話の意図を,与えられた会話コンテキストを考慮し理解できるかどうかを評価する。
プロプライエタリなモデルは、オープンソースモデルに比べて比較的高いパフォーマンスを示した。
Claude3-Opusを除くほとんどのLLMは間接的音声行為の理解において著しく低い性能を示した。
論文 参考訳(メタデータ) (2025-02-16T04:59:19Z) - Can Language Models Recognize Convincing Arguments? [12.458437450959416]
大規模言語モデル(LLM)は、説得力のある物語を創造し広める可能性について懸念を提起している。
本研究は、説得力のある議論を検知し、その説得力に関する洞察を得るための性能について研究する。
論文 参考訳(メタデータ) (2024-03-31T17:38:33Z) - Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena [76.21004582932268]
本研究では, LLM-as-a-judgeの使用状況と限界について検討し, 位置, 冗長性, 自己改善バイアスについて検討した。
次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるArenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。
論文 参考訳(メタデータ) (2023-06-09T05:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。