論文の概要: DebateBench: A Challenging Long Context Reasoning Benchmark For Large Language Models
- arxiv url: http://arxiv.org/abs/2502.06279v1
- Date: Mon, 10 Feb 2025 09:23:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:34:55.197454
- Title: DebateBench: A Challenging Long Context Reasoning Benchmark For Large Language Models
- Title(参考訳): DebateBench: 大規模言語モデルの長いコンテキスト推論ベンチマーク
- Authors: Utkarsh Tiwari, Aryan Seth, Adi Mukherjee, Kaavya Mer, Kavish, Dhruv Kumar,
- Abstract要約: DebateBenchを紹介します。このデータセットは、世界で最も権威ある競争上の議論のいくつかから、広範な写本とメタデータのコレクションで構成された、新しいデータセットです。
このデータセットは、様々なトピックに関する高名な討論会から英国議会で議論され、詳細なスピーチレベルスコアと公式の判断データから得られた家格ランキングが注釈付けされている。
我々は32の討論で256のスピーチをキュレートし、各討論は1時間以上、各入力は平均32,000のトークンである。
- 参考スコア(独自算出の注目度): 1.8197265299982013
- License:
- Abstract: We introduce DebateBench, a novel dataset consisting of an extensive collection of transcripts and metadata from some of the world's most prestigious competitive debates. The dataset consists of British Parliamentary debates from prestigious debating tournaments on diverse topics, annotated with detailed speech-level scores and house rankings sourced from official adjudication data. We curate 256 speeches across 32 debates with each debate being over 1 hour long with each input being an average of 32,000 tokens. Designed to capture long-context, large-scale reasoning tasks, DebateBench provides a benchmark for evaluating modern large language models (LLMs) on their ability to engage in argumentation, deliberation, and alignment with human experts. To do well on DebateBench, the LLMs must perform in-context learning to understand the rules and evaluation criteria of the debates, then analyze 8 seven minute long speeches and reason about the arguments presented by all speakers to give the final results. Our preliminary evaluation using GPT o1, GPT-4o, and Claude Haiku, shows that LLMs struggle to perform well on DebateBench, highlighting the need to develop more sophisticated techniques for improving their performance.
- Abstract(参考訳): DebateBenchを紹介します。このデータセットは、世界で最も権威ある競争上の議論のいくつかから、広範な写本とメタデータのコレクションで構成された、新しいデータセットです。
このデータセットは、様々なトピックに関する高名な討論会から英国議会で議論され、詳細なスピーチレベルスコアと公式の判断データから得られた家格ランキングが注釈付けされている。
我々は32の討論で256のスピーチをキュレートし、各討論は1時間以上、各入力は平均32,000のトークンである。
DebateBenchは、長期のコンテキストで大規模な推論タスクをキャプチャするために設計されたもので、議論、熟考、人間専門家との調整に携わる能力に基づいて、現代の大規模言語モデル(LLM)を評価するためのベンチマークを提供する。
DebateBenchをうまく活用するには、LLMは議論のルールと評価基準を理解するためにコンテキスト内学習を実行し、87分間のスピーチを分析し、すべての話者が提示した議論について分析し、最終的な結果を与える必要がある。
GPT o1, GPT-4o, Claude Haiku を用いて予備評価を行ったところ, LLM は DebateBench の性能向上に苦慮していることがわかった。
関連論文リスト
- Training Language Models to Win Debates with Self-Play Improves Judge Accuracy [8.13173791334223]
本稿では,学習モデルによるスケーラブルな監視手法としての議論の堅牢性を試行し,自己再生によって生成されたデータと議論する。
言語モデルに基づく評価器は、モデルの判断が議論に勝つように最適化されたときに、より正確に質問に答える。
論文 参考訳(メタデータ) (2024-09-25T05:28:33Z) - Debatrix: Multi-dimensional Debate Judge with Iterative Chronological Analysis Based on LLM [51.43102092480804]
Debatrixは、Large Language Models (LLMs)に基づく自動ディスカッションジャッジである。
実世界の議論シナリオに合わせるため、私たちはPanelBenchベンチマークを導入し、システムの性能と実際の議論結果を比較した。
以上の結果から,LSMを直接使用して議論評価を行ない,顕著な改善が見られた。
論文 参考訳(メタデータ) (2024-03-12T18:19:47Z) - Argue with Me Tersely: Towards Sentence-Level Counter-Argument
Generation [62.069374456021016]
本稿では,文レベル逆問題生成のためのArgTerselyベンチマークを提案する。
また,Arg-LlaMAによる高品質な逆問題生成手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T06:51:34Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - DEBACER: a method for slicing moderated debates [55.705662163385966]
同じ主題を持つブロックに議論を分割することは理解に不可欠である。
議論を適度に分割する新しいアルゴリズムDEBACERを提案する。
論文 参考訳(メタデータ) (2021-12-10T10:39:07Z) - DBATES: DataBase of Audio features, Text, and visual Expressions in
competitive debate Speeches [2.5347738801524775]
我々は,2019年北米大学討論会(NAUDC)の討論会から抽出したマルチモーダルコミュニケーション機能データベースを提案する。
特徴セットは、視覚(表情、視線、頭のポーズ)、音声(PRAAT)、テキスト(単語感情と言語カテゴリ)のモダリティから抽出されました。
完全マルチモーダルモデルは、モダリティの様々な構成で訓練されたモデルと比較して最もよく機能する。
論文 参考訳(メタデータ) (2021-03-26T00:43:49Z) - High Quality Real-Time Structured Debate Generation [0.0]
ハイレベルな構造と文法を図りながら議論を起こすための議論木と経路を定義した。
各議論に関連付けられたメタデータを持つ木構造論争の大規模なコーパスを活用する。
以上の結果から,人間に近い品質で複雑なトピックをリアルタイムに議論する能力を示す。
論文 参考訳(メタデータ) (2020-12-01T01:39:38Z) - DebateSum: A large-scale argument mining and summarization dataset [0.0]
DebateSumは187,386個の独特な証拠と、対応する議論と抽出的な要約で構成されている。
DebateSum上でいくつかの変換器要約モデルを用いて要約性能のベンチマークを行う。
本稿では,全国言語討論会のメンバーによって広く活用されているデータセットの検索エンジンについて述べる。
論文 参考訳(メタデータ) (2020-11-14T10:06:57Z) - Aspect-Controlled Neural Argument Generation [65.91772010586605]
我々は、与えられたトピック、スタンス、アスペクトの文レベル引数を生成するために、きめ細かいレベルで制御できる引数生成のための言語モデルを訓練する。
評価の結果,我々の生成モデルは高品質なアスペクト特異的な議論を生成できることがわかった。
これらの議論は、データ拡張による姿勢検出モデルの性能向上と、逆問題の生成に使用できる。
論文 参考訳(メタデータ) (2020-04-30T20:17:22Z) - MuTual: A Dataset for Multi-Turn Dialogue Reasoning [53.10434937685962]
MuTualはMulti-Turnダイアログ推論のための新しいデータセットである。
中国語の学生英語の聞き取り試験に基づく8,860の注釈付き対話で構成されている。
現状の手法は71%にしか達せず、人間のパフォーマンスは94%をはるかに上回っている。
論文 参考訳(メタデータ) (2020-04-09T11:42:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。