論文の概要: TurQUaz at CheckThat! 2025: Debating Large Language Models for Scientific Web Discourse Detection
- arxiv url: http://arxiv.org/abs/2508.08265v1
- Date: Sat, 26 Jul 2025 00:46:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 22:58:06.148649
- Title: TurQUaz at CheckThat! 2025: Debating Large Language Models for Scientific Web Discourse Detection
- Title(参考訳): TurQUaz at CheckThat! 2025: 科学的Web談話検出のための大規模言語モデルの議論
- Authors: Tarık Saraç, Selin Mergen, Mucahid Kutlu,
- Abstract要約: 本稿では,CheckThatの科学的ウェブ談話検出タスク(Task 4a)について紹介する。
複数の大規模言語モデル(LLM)間の構造化された学術的議論をシミュレートする新しい協議会討論手法を提案する。
提案手法は, 科学的主張の特定や科学的実体の言及にはあまり適していないが, 科学的研究への言及を初めて検出した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present our work developed for the scientific web discourse detection task (Task 4a) of CheckThat! 2025. We propose a novel council debate method that simulates structured academic discussions among multiple large language models (LLMs) to identify whether a given tweet contains (i) a scientific claim, (ii) a reference to a scientific study, or (iii) mentions of scientific entities. We explore three debating methods: i) single debate, where two LLMs argue for opposing positions while a third acts as a judge; ii) team debate, in which multiple models collaborate within each side of the debate; and iii) council debate, where multiple expert models deliberate together to reach a consensus, moderated by a chairperson model. We choose council debate as our primary model as it outperforms others in the development test set. Although our proposed method did not rank highly for identifying scientific claims (8th out of 10) or mentions of scientific entities (9th out of 10), it ranked first in detecting references to scientific studies.
- Abstract(参考訳): 本稿では,CheckThatの科学的ウェブ談話検出タスク(Task 4a)について述べる。
2025年。
本稿では,複数の大規模言語モデル (LLM) 間の構造化された学術的議論をシミュレートし,あるツイートが含んでいるかどうかを識別する新しい協議会議論手法を提案する。
科学的主張; 科学的主張; 科学的主張
二 科学研究への言及、又は
(三)科学的実体についていう。
3つの議論手法を探求する。
一 一人の討論で、2人のLLMが反対の立場を主張し、3人目が裁判官を務めること。
二 複数のモデルが議論の両側で協力するチーム討論
三 協議会において、複数の専門家モデルが協力して合意に達し、議長モデルにより中等化される。
開発テストセットで他よりも優れているので、協議会の議論を主要なモデルとして選びます。
提案手法は,科学的主張(10件中8件)の特定や科学的実体の言及(10件中9件)に高く評価されなかったが,科学的研究への言及を初めて検出した。
関連論文リスト
- Debating Truth: Debate-driven Claim Verification with Multiple Large Language Model Agents [13.626715532559079]
複数のLLMエージェントを用いた議論駆動手法を採用した最初のクレーム検証フレームワークであるDebateCVを提案する。
本フレームワークでは,2つのデバタがクレームに対して反対の立場をとり,複数ラウンドの議論を行う一方,モデレーターは議論を評価し,正当化とともに評決を行う。
実験の結果,提案手法は,証拠品質の異なる既存のクレーム検証方法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-07-25T09:19:25Z) - DS@GT at Touché: Large Language Models for Retrieval-Augmented Debate [0.0]
Retrieval-Augmented Debate and Evaluationの6つの主要な公開モデルを展開します。
評価は、Quality、Quantity、Manner、Relationの4つの重要なメトリクスを測定することで行われる。
LLMは関連する議論を行う際にはよく機能するが、評価において一貫性のある応答では冗長である傾向にある。
論文 参考訳(メタデータ) (2025-07-12T00:20:00Z) - SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks [87.29946641069068]
我々は,学術文献タスクの基礎モデルを評価するための,オープンで協調的なプラットフォームであるSciArenaを紹介する。
集合的知性を活用することで、SciArenaはコミュニティ主導の、オープンな科学的タスクにおけるモデルパフォーマンスの評価を提供する。
収集した嗜好データに基づいたメタ評価ベンチマークであるSciArena-Evalをリリースする。
論文 参考訳(メタデータ) (2025-07-01T17:51:59Z) - Tree-of-Debate: Multi-Persona Debate Trees Elicit Critical Thinking for Scientific Comparative Analysis [27.745896682856092]
本稿では,科学論文をそれぞれの新奇性を議論するペルソナに変換するフレームワークであるTree-of-Debate(ToD)を紹介する。
ToDは議論ツリーを動的に構築し、学術論文の中で独立した新規性議論のきめ細かい分析を可能にする。
論文 参考訳(メタデータ) (2025-02-20T17:43:40Z) - A Roadmap to Pluralistic Alignment [49.29107308098236]
本稿では,言語モデルをテストベッドとして用いた多元的アライメントのロードマップを提案する。
我々は,AIシステムにおける多元性を定義・運用する3つの可能な方法を特定し,定式化する。
我々は、現在のアライメント技術は、基本的に多元的AIに限られていると論じる。
論文 参考訳(メタデータ) (2024-02-07T18:21:17Z) - Automated Fact-Checking of Climate Change Claims with Large Language
Models [3.1080484250243425]
本稿では、気候変動の主張の事実チェックを自動化するために設計された、新しいAIベースのツールであるCliminatorを提案する。
Climinatorは、様々な科学的視点を合成するために、革新的なMediator-Advocateフレームワークを使用している。
我々のモデルは、気候フィードバックと懐疑的な科学から収集されたクレームをテストする際に、顕著な精度を示す。
論文 参考訳(メタデータ) (2024-01-23T08:49:23Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。