論文の概要: Reinforcement Tuning for Detecting Stances and Debunking Rumors Jointly with Large Language Models
- arxiv url: http://arxiv.org/abs/2406.02143v1
- Date: Tue, 4 Jun 2024 09:31:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 17:01:41.474691
- Title: Reinforcement Tuning for Detecting Stances and Debunking Rumors Jointly with Large Language Models
- Title(参考訳): 大規模言語モデルとの連立によるステンス検出とデバッキングの強化チューニング
- Authors: Ruichao Yang, Wei Gao, Jing Ma, Hongzhan Lin, Bo Wang,
- Abstract要約: 大型言語モデル(LLMs)は、JSDRVと呼ばれる共同姿勢検出(SD)および噂検証(RV)タスクのための基礎アノテーションである。
LLM ベースの SD と RV コンポーネントのジョイント予測能力を向上する新たな強化チューニングフレームワークを提案する。
以上の結果から,JSDRVはタスクモデルとして適合する非LLMへの一般化だけでなく,共同作業におけるLLMの能力の向上を図っている。
- 参考スコア(独自算出の注目度): 13.356554246394692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning multi-task models for jointly detecting stance and verifying rumors poses challenges due to the need for training data of stance at post level and rumor veracity at claim level, which are difficult to obtain. To address this issue, we leverage large language models (LLMs) as the foundation annotators for the joint stance detection (SD) and rumor verification (RV) tasks, dubbed as JSDRV. We introduce a novel reinforcement tuning framework to enhance the joint predictive capabilities of LLM-based SD and RV components. Specifically, we devise a policy for selecting LLM-annotated data at the two levels, employing a hybrid reward mechanism to choose high-quality labels for effective LLM fine-tuning on both tasks. Results demonstrate that JSDRV improves the capabilities of LLMs in the joint tasks, not only outperforming state-of-the-art methods but also generalizing to non-LLMs accommodated as task models.
- Abstract(参考訳): 姿勢を共同で検出し,噂を検証するためのマルチタスクモデルの学習は,ポストレベルでの姿勢データとクレームレベルでの噂の正確性の必要性から,難易度の高い課題を提起する。
この問題に対処するために、我々は、JSDRVと呼ばれる共同姿勢検出(SD)および噂検証(RV)タスクの基盤アノテータとして、大規模言語モデル(LLM)を活用している。
LLM ベースの SD と RV コンポーネントのジョイント予測能力を向上する新たな強化チューニングフレームワークを提案する。
具体的には、2つのレベルにおいてLLMアノテーション付きデータを選択するためのポリシーを考案し、両タスクを効果的にLLM微調整するために高品質なラベルを選択するためのハイブリッド報酬機構を用いた。
以上の結果から,JSDRVは協調作業におけるLLMの能力を向上し,最先端の手法に勝るだけでなく,タスクモデルとして適合する非LLMにも一般化することを示した。
関連論文リスト
- A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とAIのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。
大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。
未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文 参考訳(メタデータ) (2024-04-14T13:19:40Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Effective Large Language Model Adaptation for Improved Grounding and Citation Generation [48.07830615309543]
本稿では,検索した文の応答を基底にして,引用を提供することにより,大規模言語モデル(LLM)の改善に焦点を当てる。
我々は、全体論的観点から基盤を改善する新しいフレームワーク AGREE を提案する。
我々のフレームワークは, LLMを調整し, その要求を自己評価し, 検索した文書に正確な引用を提供する。
論文 参考訳(メタデータ) (2023-11-16T03:22:25Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。