論文の概要: A Systematic Comparison of Prompting and Multi-Agent Methods for LLM-based Stance Detection
- arxiv url: http://arxiv.org/abs/2604.26319v1
- Date: Wed, 29 Apr 2026 06:02:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.267884
- Title: A Systematic Comparison of Prompting and Multi-Agent Methods for LLM-based Stance Detection
- Title(参考訳): LLMに基づくスタンス検出のためのプロンプト法とマルチエージェント法の体系的比較
- Authors: Genan Dai, Zini Chen, Yi Yang, Bowen Zhang,
- Abstract要約: スタンス検出は、テキスト作者の所定のターゲットに対する姿勢を特定する。
最近の研究は、ゼロショットからマルチエージェントの議論まで、この課題に対する様々なLCMベースの戦略を探求している。
我々は,プロンプトベースの推論(Direct Prompting, Auto-CoT, StSQA)とエージェントベースの議論(COLA, MPRF)という,2つのカテゴリにわたる5つの手法を評価する体系的な比較を行う。
まず、最も優れたプロンプトベースのメソッドは、最高のエージェントベースのメソッドよりも優れており、エージェントメソッドは、各API呼び出しの7倍から12倍のAPIコールを必要とする。
- 参考スコア(独自算出の注目度): 11.458166456268103
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Stance detection identifies the attitude of a text author toward a given target. Recent studies have explored various LLM-based strategies for this task, from zero-shot prompting to multi-agent debate. However, existing works differ in data splits, base models, and evaluation protocols, making fair comparison difficult. We conduct a systematic comparison that evaluates five methods across two categories -- prompt-based inference (Direct Prompting, Auto-CoT, StSQA) and agent-based debate (COLA, MPRF) -- on four datasets with 14 subtasks, using 15 LLMs from six model families with parameter sizes from 7B to 72B+. Our experiments yield several findings. First, on all models with complete results, the best prompt-based method outperforms the best agent-based method, while agent methods require 7 to 12 times more API calls per sample. Second, model scale has a larger impact on performance than method choice, with gains plateauing around 32B. Third, reasoning-enhanced models (DeepSeek-R1) do not consistently outperform general models of the same size on this task.
- Abstract(参考訳): スタンス検出は、テキスト作者の所定のターゲットに対する姿勢を特定する。
最近の研究は、ゼロショットからマルチエージェントの議論まで、この課題に対する様々なLCMベースの戦略を探求している。
しかし、既存の研究はデータ分割、ベースモデル、評価プロトコルが異なるため、公正な比較は困難である。
7Bから72B+のパラメータサイズを持つ6つのモデルファミリーから15のLLMを用いて,14のサブタスクを持つ4つのデータセット上で,プロンプトベースの推論(Direct Prompting, Auto-CoT, StSQA)とエージェントベースの議論(COLA, MPRF)の5つの手法を評価する。
私たちの実験はいくつかの結果をもたらす。
まず、完全な結果を持つすべてのモデルにおいて、最良のプロンプトベースのメソッドは最良のエージェントベースのメソッドよりも優れており、エージェントメソッドはサンプル毎に7倍から12倍のAPI呼び出しを必要とする。
第二に、モデルスケールはメソッドの選択よりもパフォーマンスに大きく影響し、ゲインは32B程度になる。
第三に、推論強化モデル(DeepSeek-R1)は、このタスクにおいて同じ大きさの一般モデルよりも一貫して優れているわけではない。
関連論文リスト
- Scaling Trends for Multi-Hop Contextual Reasoning in Mid-Scale Language Models [0.0]
大規模言語モデルにおけるマルチホップ文脈推論の制御に関する研究について述べる。
マルチエージェントシステムは逆パターンを示し、ルールベースのメソッドが失敗する推論タスクを最大80%達成する。
論文 参考訳(メタデータ) (2026-01-06T20:18:55Z) - HuggingR$^{4}$: A Progressive Reasoning Framework for Discovering Optimal Model Companions [50.61510609116118]
HuggingR$4$は、Reasoning、Retrieval、Refinement、Reflectionを組み合わせて効率的にモデルを選択する新しいフレームワークである。
作業性率は92.03%、理性率は82.46%に達し、それぞれ26.51%、33.25%を超える。
論文 参考訳(メタデータ) (2025-11-24T03:13:45Z) - A Multi-To-One Interview Paradigm for Efficient MLLM Evaluation [63.76972456980632]
効率的なMLLM評価のためのマルチツーワンインタビューパラダイムを提案する。
本フレームワークは, (i) 事前面接と形式面接の2段階面接戦略, (ii) 公平性を確保するための重みの動的調整, (iii) 質問難度選択のための適応的メカニズムから構成される。
論文 参考訳(メタデータ) (2025-09-18T12:07:40Z) - Multi-Intent Recognition in Dialogue Understanding: A Comparison Between Smaller Open-Source LLMs [6.6893292050680655]
対話システム領域のベンチマークであるMultiWOZ 2.1データセットを用いて,3つのオープンソース事前学習LCMの有効性について検討する。
数ショットのセットアップで分類タスクを実行し、インプロンプトで20の例をインプロンプトで示す。
また,Mistral-7B-v0.1 は F-Score の点において,14 の内 11 の意図クラスにおいて,他の 2 つの生成モデルよりも優れていた。
論文 参考訳(メタデータ) (2025-09-12T07:10:55Z) - CTTS: Collective Test-Time Scaling [58.564620942591866]
テスト時スケーリング(TTS)は,大規模言語モデル(LLM)のパフォーマンス向上のための,有望かつトレーニング不要なアプローチとして登場した。
単体テストタイムスケーリング(STTS)パラダイムを克服するために、CTTS(Collective Test-Time Scaling)を導入します。
CTTS-MMは、マルチエージェントとマルチリワードのコラボレーションを運用する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-08-05T11:19:08Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文 参考訳(メタデータ) (2025-03-13T12:03:37Z) - Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large
Language Models [56.256069117502385]
Chain of Thought (CoT)アプローチは、複雑な推論タスクにおいて、LLM(Large Language Models)の能力を高めるために使用できる。
しかし、マルチモーダル推論における最適なCoT実例の選択は、まだ検討されていない。
本稿では,この課題に対処する新しい手法として,検索機構を用いて実演例を自動的に選択する手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T08:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。