Fugu-MT 論文翻訳(概要): Zero-shot and Few-shot Learning with Instruction-following LLMs for Claim Matching in Automated Fact-checking

論文の概要: Zero-shot and Few-shot Learning with Instruction-following LLMs for Claim Matching in Automated Fact-checking

arxiv url: http://arxiv.org/abs/2501.10860v1
Date: Sat, 18 Jan 2025 19:57:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:19.174759
Title: Zero-shot and Few-shot Learning with Instruction-following LLMs for Claim Matching in Automated Fact-checking
Title（参考訳）: 自動ファクトチェックにおけるクレームマッチングのための命令追従LDMによるゼロショット学習とフリューショット学習
Authors: Dina Pisarevskaya, Arkaitz Zubiaga,
Abstract要約: クレームマッチングタスクに対するゼロショットおよび少数ショット学習アプローチについて検討する。新しいCMデータセットであるClimMatchを紹介します。本稿では,異なる長さのテキストに対して評価を行うCMのパイプラインを提案する。
参考スコア（独自算出の注目度）: 7.242609314791262
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The claim matching (CM) task can benefit an automated fact-checking pipeline by putting together claims that can be resolved with the same fact-check. In this work, we are the first to explore zero-shot and few-shot learning approaches to the task. We consider CM as a binary classification task and experiment with a set of instruction-following large language models (GPT-3.5-turbo, Gemini-1.5-flash, Mistral-7B-Instruct, and Llama-3-8B-Instruct), investigating prompt templates. We introduce a new CM dataset, ClaimMatch, which will be released upon acceptance. We put LLMs to the test in the CM task and find that it can be tackled by leveraging more mature yet similar tasks such as natural language inference or paraphrase detection. We also propose a pipeline for CM, which we evaluate on texts of different lengths.
Abstract（参考訳）: クレームマッチング(CM)タスクは、同じファクトチェックで解決可能なクレームをまとめることで、自動化されたファクトチェックパイプラインの恩恵を受けることができる。この作業では、タスクに対するゼロショットと少数ショットの学習アプローチを最初に探求します。我々はCMをバイナリ分類タスクとみなし、命令追従型大規模言語モデル(GPT-3.5-turbo、Gemini-1.5-flash、Mistral-7B-Instruct、Llama-3-8B-Instruct)を実験し、プロンプトテンプレートを調査する。新しいCMデータセットであるClimMatchを紹介します。 CMタスクのLLMをテストに当てはめ、自然言語推論やパラフレーズ検出といった、より成熟しているが類似したタスクを活用することで、それに取り組むことができる。また,異なる長さのテキストに対して評価を行うCMのパイプラインを提案する。

関連論文リスト

Exploring Direct Instruction and Summary-Mediated Prompting in LLM-Assisted Code Modification [10.964060011243234]
本稿では,大規模言語モデル(LLM)を用いた既存コードの変更について検討する。プロンプティング(prompting)は、開発者がLLMにインテントを伝えるための主要なインターフェースである。本研究では,LLM支援符号修正のための2つの手順について検討した。
論文参考訳（メタデータ） (2025-08-02T23:52:49Z)
Zero-Shot Detection of LLM-Generated Code via Approximated Task Conditioning [8.571111167616165]
LLM(Large Language Model)が生成するコードは、セキュリティ、知的財産権、学術的完全性に影響を及ぼす。ゼロショットLLM生成符号検出における条件付き確率分布の役割について検討する。与えられたコードスニペットを生成するのに使用される元のタスクを近似する新しいゼロショット検出手法を提案する。
論文参考訳（メタデータ） (2025-06-06T13:23:37Z)
What Did I Do Wrong? Quantifying LLMs' Sensitivity and Consistency to Prompt Engineering [8.019873464066308]
分類タスク,すなわち感度と一貫性の2つの指標を導入する。感度はプロンプトの言い換えによる予測の変化を測るその代わり、一貫性は、同じクラスの要素の言い換えで予測がどのように変化するかを測定する。
論文参考訳（メタデータ） (2024-06-18T06:59:24Z)
CheckEmbed: Effective Verification of LLM Solutions to Open-Ended Tasks [15.60762281287532]
大きな言語モデル(LLM)は様々なドメインに革命をもたらしていますが、その答えを検証することは大きな課題です。本研究では,精度が高く,スケーラブルで,シンプルなLCM検証手法であるCheckEmbedを提案する。 CheckEmbedは、GPT Text Embedding Largeのようなモデルで得られた回答レベルの埋め込みを比較。
論文参考訳（メタデータ） (2024-06-04T17:42:21Z)
Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Chain-of-Thought Tuning: Masked Language Models can also Think Step By Step in Natural Language Understanding [25.36416774024584]
Chain-of-Thought (CoT) は、Large Language Models (LLM) を自然言語形式の中間段階を通して多段階の推論へと導く技術である。本稿では,即時チューニングに基づく2段階の推論フレームワークとしてChain-of-Thought (CoTT)を提案する。
論文参考訳（メタデータ） (2023-10-18T05:39:20Z)
Investigating the Effectiveness of Task-Agnostic Prefix Prompt for Instruction Following [44.701091969256055]
本稿では,TAPP(Task-Agnostic Prefix Prompt)を入力にプリプションすることで,各種大規模言語モデル(LLM)の命令追従能力が向上することを示す。我々は、ベースLLM(命令に従うように微調整されていない)と命令調整モデルの両方がTAPPの恩恵を受けており、平均で34.58%、12.26%の改善が得られた。
論文参考訳（メタデータ） (2023-02-28T16:06:35Z)
Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。 LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文参考訳（メタデータ） (2023-02-22T17:44:15Z)
Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making using Language Guided World Modelling [101.59430768507997]
強化学習 (Reinforcement Learning, RL) エージェントは通常、世界の事前の知識なしに、タブラララザを学習する。抽象世界モデル (AWM) を仮定するために, 少数ショット大言語モデル (LLM) を提案する。 LLMを用いてAWMを仮定し, エージェント経験に基づくAWMの検証を行うことで, 従来手法よりもサンプル効率を桁違いに向上させることができる。
論文参考訳（メタデータ） (2023-01-28T02:04:07Z)
Demonstrate-Search-Predict: Composing retrieval and language models for knowledge-intensive NLP [77.817293104436]
本稿では,LMとRMの間の洗練されたパイプラインにおいて,自然言語テキストを渡すことに依存するフレームワークを提案する。我々は、オープンドメイン、マルチホップ、会話設定で質問に答えるための新しいDSPプログラムを作成した。
論文参考訳（メタデータ） (2022-12-28T18:52:44Z)
Attributed Question Answering: Evaluation and Modeling for Attributed Large Language Models [68.37431984231338]
大規模言語モデル(LLM)は、直接の監督をほとんど必要とせず、様々なタスクにわたって印象的な結果を示している。我々は、LLMが生成するテキストの属性に持つ能力は、この設定においてシステム開発者とユーザの両方にとって不可欠であると信じている。
論文参考訳（メタデータ） (2022-12-15T18:45:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。