論文の概要: DS@GT at Touché: Large Language Models for Retrieval-Augmented Debate
- arxiv url: http://arxiv.org/abs/2507.09090v1
- Date: Sat, 12 Jul 2025 00:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.356329
- Title: DS@GT at Touché: Large Language Models for Retrieval-Augmented Debate
- Title(参考訳): TouchéのDS@GT - Retrieval-Augmented Debateのための大規模言語モデル
- Authors: Anthony Miyaguchi, Conor Johnston, Aaryan Potdar,
- Abstract要約: Retrieval-Augmented Debate and Evaluationの6つの主要な公開モデルを展開します。
評価は、Quality、Quantity、Manner、Relationの4つの重要なメトリクスを測定することで行われる。
LLMは関連する議論を行う際にはよく機能するが、評価において一貫性のある応答では冗長である傾向にある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) demonstrate strong conversational abilities. In this Working Paper, we study them in the context of debating in two ways: their ability to perform in a structured debate along with a dataset of arguments to use and their ability to evaluate utterances throughout the debate. We deploy six leading publicly available models from three providers for the Retrieval-Augmented Debate and Evaluation. The evaluation is performed by measuring four key metrics: Quality, Quantity, Manner, and Relation. Throughout this task, we found that although LLMs perform well in debates when given related arguments, they tend to be verbose in responses yet consistent in evaluation. The accompanying source code for this paper is located at https://github.com/dsgt-arc/touche-2025-rad.
- Abstract(参考訳): 大きな言語モデル(LLM)は、強い会話能力を示す。
本論文では,2つの議論の文脈において,使用すべき議論のデータセットとともに,構造化された議論で実施する能力と,議論を通じて発話を評価する能力の2つについて検討する。
Retrieval-Augmented Debate and Evaluationの3つのプロバイダから利用可能な主要な6つのモデルをデプロイします。
評価は、Quality、Quantity、Manner、Relationの4つの重要なメトリクスを測定することで行われる。
この課題を通じて、LLMは関連する議論を行う際にはよく機能するが、評価において一貫した応答では冗長である傾向にあることがわかった。
本論文のソースコードはhttps://github.com/dsgt-arc/touche-2025-radにある。
関連論文リスト
- DebateBench: A Challenging Long Context Reasoning Benchmark For Large Language Models [1.8197265299982013]
DebateBenchを紹介します。このデータセットは、世界で最も権威ある競争上の議論のいくつかから、広範な写本とメタデータのコレクションで構成された、新しいデータセットです。
このデータセットは、様々なトピックに関する高名な討論会から英国議会で議論され、詳細なスピーチレベルスコアと公式の判断データから得られた家格ランキングが注釈付けされている。
我々は32の討論で256のスピーチをキュレートし、各討論は1時間以上、各入力は平均32,000のトークンである。
論文 参考訳(メタデータ) (2025-02-10T09:23:03Z) - OpenDebateEvidence: A Massive-Scale Argument Mining and Summarization Dataset [10.385189302526246]
OpenDebateEvidenceは、American Debate Competitiveコミュニティから派生した、議論のマイニングと要約のための包括的なデータセットである。
このデータセットには、350万以上のドキュメントと豊富なメタデータが含まれており、議論を巻き起こした最も広範な証拠の1つである。
論文 参考訳(メタデータ) (2024-06-20T18:22:59Z) - Debatrix: Multi-dimensional Debate Judge with Iterative Chronological Analysis Based on LLM [51.43102092480804]
Debatrixは、Large Language Models (LLMs)に基づく自動ディスカッションジャッジである。
実世界の議論シナリオに合わせるため、私たちはPanelBenchベンチマークを導入し、システムの性能と実際の議論結果を比較した。
以上の結果から,LSMを直接使用して議論評価を行ない,顕著な改善が見られた。
論文 参考訳(メタデータ) (2024-03-12T18:19:47Z) - Argue with Me Tersely: Towards Sentence-Level Counter-Argument
Generation [62.069374456021016]
本稿では,文レベル逆問題生成のためのArgTerselyベンチマークを提案する。
また,Arg-LlaMAによる高品質な逆問題生成手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T06:51:34Z) - Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
大規模言語モデル (LLM) は、文脈を理解し、自然言語を生成するという印象的な能力を実証している。
この研究は、ChatGPT、Flanモデル、LLaMA2モデルなどのLLMをゼロショットと少数ショットの両方で評価することを目的としている。
論文 参考訳(メタデータ) (2023-11-15T15:12:15Z) - DebateKG: Automatic Policy Debate Case Creation with Semantic Knowledge
Graphs [0.0]
本稿では,Argumentative Semantic Knowledge Graphs上で,制約付き最短経路トラバーサルを用いて効果的な議論ケースを構築することができることを示す。
53180の新しい例を導入することで、DebateSumを大幅に改善しました。
政策論争の事例を生成する文脈において、どの知識グラフが優れているかを評価するためのユニークな方法を作成する。
論文 参考訳(メタデータ) (2023-07-09T04:19:19Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - High Quality Real-Time Structured Debate Generation [0.0]
ハイレベルな構造と文法を図りながら議論を起こすための議論木と経路を定義した。
各議論に関連付けられたメタデータを持つ木構造論争の大規模なコーパスを活用する。
以上の結果から,人間に近い品質で複雑なトピックをリアルタイムに議論する能力を示す。
論文 参考訳(メタデータ) (2020-12-01T01:39:38Z) - DebateSum: A large-scale argument mining and summarization dataset [0.0]
DebateSumは187,386個の独特な証拠と、対応する議論と抽出的な要約で構成されている。
DebateSum上でいくつかの変換器要約モデルを用いて要約性能のベンチマークを行う。
本稿では,全国言語討論会のメンバーによって広く活用されているデータセットの検索エンジンについて述べる。
論文 参考訳(メタデータ) (2020-11-14T10:06:57Z) - Aspect-Controlled Neural Argument Generation [65.91772010586605]
我々は、与えられたトピック、スタンス、アスペクトの文レベル引数を生成するために、きめ細かいレベルで制御できる引数生成のための言語モデルを訓練する。
評価の結果,我々の生成モデルは高品質なアスペクト特異的な議論を生成できることがわかった。
これらの議論は、データ拡張による姿勢検出モデルの性能向上と、逆問題の生成に使用できる。
論文 参考訳(メタデータ) (2020-04-30T20:17:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。