論文の概要: UNH at CheckThat! 2025: Fine-tuning Vs Prompting in Claim Extraction
- arxiv url: http://arxiv.org/abs/2509.06883v1
- Date: Mon, 08 Sep 2025 17:02:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.271809
- Title: UNH at CheckThat! 2025: Fine-tuning Vs Prompting in Claim Extraction
- Title(参考訳): UNH at CheckThat! 2025年: クレーム抽出における微調整Vsプロンプト
- Authors: Joe Wilder, Nikhil Kadapala, Benji Xu, Mohammed Alsaadi, Aiden Parsons, Mitchell Rogers, Palash Agarwal, Adam Hassick, Laura Dietz,
- Abstract要約: ソーシャルメディアの文節からチェック価値のあるクレームを抽出するための,テキスト内学習の促し方について検討する。
我々の最高のMETEORスコアは、FLAN-T5モデルを微調整することで得られる。
我々は,METEORスコアが低い場合でも,高品質なクレームを他の手法で抽出することができることを観察した。
- 参考スコア(独自算出の注目度): 3.3990841606227313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We participate in CheckThat! Task 2 English and explore various methods of prompting and in-context learning, including few-shot prompting and fine-tuning with different LLM families, with the goal of extracting check-worthy claims from social media passages. Our best METEOR score is achieved by fine-tuning a FLAN-T5 model. However, we observe that higher-quality claims can sometimes be extracted using other methods, even when their METEOR scores are lower.
- Abstract(参考訳): CheckThat!
タスク2は、ソーシャルメディアの通路から、チェック価値のあるクレームを抽出することを目的として、様々なLLMファミリーと数発のプロンプトや微調整を含む、英語とインコンテクスト学習の様々な方法を探究する。
我々の最高のMETEORスコアは、FLAN-T5モデルを微調整することで得られる。
しかし,METEORスコアが低い場合でも,他の手法を用いて高品質なクレームを抽出することができる。
関連論文リスト
- CEA-LIST at CheckThat! 2025: Evaluating LLMs as Detectors of Bias and Opinion in Text [3.9845507207125967]
本稿では,大言語モデル (LLM) を用いた多言語主観性検出の競争的アプローチを提案する。
LLMは、慎重に設計されたプロンプトと組み合わせることで、微調整されたより小さな言語モデル(SLM)に適合または優れることを示す。
このシステムは,2025年の主観性検出タスクにおいて,複数の言語で上位にランクインした。
論文 参考訳(メタデータ) (2025-07-10T08:35:05Z) - MetaReflection: Learning Instructions for Language Agents using Past Reflections [11.028256182234017]
本稿では,言語エージェントの性能を向上させる新しいオフライン強化学習手法であるMetaReflectionを紹介する。
本稿では, 複雑な論理的推論, バイオメディカルセマンティックな類似性, オープンワールド質問応答, 脆弱性検出など, 複数領域にわたる評価によるメタリフレクションの有効性を実証する。
論文 参考訳(メタデータ) (2024-05-13T10:51:43Z) - An Empirical Study on the Effectiveness of Large Language Models for SATD Identification and Classification [13.698224831089464]
Self-Admitted Technical Debt (SATD) は、コードコメントやその他のプロジェクトリソースに文書化されたソフトウェア開発における準最適選択を強調する概念である。
本稿では,SATDの識別と分類における大規模言語モデル(LLM)の有効性について検討する。
論文 参考訳(メタデータ) (2024-05-10T20:39:24Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Enabling Weak LLMs to Judge Response Reliability via Meta Ranking [38.63721941742435]
我々は、$textitMeta Ranking$ (MR) と呼ばれるクロスクエリベースの新しい手法を提案する。
MRは、ターゲットクエリ-レスポンスペアを複数の参照クエリ-レスポンスペアにペアでランク付けすることで、信頼性を評価する。
MRはモデルカスケーディングとインストラクションチューニングの2つの実用的応用において、強力なLLMの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-02-19T13:57:55Z) - DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for
In-Context Learning [66.85379279041128]
そこで本研究では,Dual Queries と Low-rank approximation Re- rank を利用して,文脈内学習のための例を自動選択するフレームワークを提案する。
DQ-LoRe は GPT-4 の自動選択において最先端の手法よりも優れ、92.5% から94.2% まで性能が向上した。
論文 参考訳(メタデータ) (2023-10-04T16:44:37Z) - Distractor generation for multiple-choice questions with predictive
prompting and large language models [21.233186754403093]
ChatGPTのような大規模言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示している。
本稿では,質問銀行から自動的に回収される質問項目を抽出し,関連する注意散らしを発生させる上でのLLMの誘導戦略を提案する。
その結果,教師に提示した気晴らし器の53%が,即時使用に適した高品質と評価された。
論文 参考訳(メタデータ) (2023-07-30T23:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。