論文の概要: HerO at AVeriTeC: The Herd of Open Large Language Models for Verifying Real-World Claims
- arxiv url: http://arxiv.org/abs/2410.12377v2
- Date: Sun, 20 Oct 2024 06:57:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:21:45.578843
- Title: HerO at AVeriTeC: The Herd of Open Large Language Models for Verifying Real-World Claims
- Title(参考訳): AVeriTeCでのHerO - 実世界のクレームを検証するためのオープンな大規模言語モデルの草分け
- Authors: Yejun Yoon, Jaeyoon Jung, Seunghyun Yoon, Kunwoo Park,
- Abstract要約: 自動ファクトチェックの各ステップに,公開可能な大規模言語モデル(LLM)のみを利用するシステムを導入する。
証拠検索では、仮説的事実チェック文書を生成することにより、クエリを強化するために言語モデルが使用される。
HerOはAVeriTeCスコア0.57でリーダーボードで2位を獲得し、現実世界のクレームを検証するためのオープンLLMの可能性を示した。
- 参考スコア(独自算出の注目度): 6.792233590302494
- License:
- Abstract: To tackle the AVeriTeC shared task hosted by the FEVER-24, we introduce a system that only employs publicly available large language models (LLMs) for each step of automated fact-checking, dubbed the Herd of Open LLMs for verifying real-world claims (HerO). For evidence retrieval, a language model is used to enhance a query by generating hypothetical fact-checking documents. We prompt pretrained and fine-tuned LLMs for question generation and veracity prediction by crafting prompts with retrieved in-context samples. HerO achieved 2nd place on the leaderboard with the AVeriTeC score of 0.57, suggesting the potential of open LLMs for verifying real-world claims. For future research, we make our code publicly available at https://github.com/ssu-humane/HerO.
- Abstract(参考訳): FEVER-24がホストするAVeriTeC共有タスクに対処するため,実世界のクレーム(HerO)を検証するためのオープンLLM(Herd of Open LLM)と呼ばれる自動ファクトチェックの各ステップに,公開可能な大規模言語モデル(LLM)のみを採用するシステムを導入する。
証拠検索では、仮説的事実チェック文書を生成することにより、クエリを強化するために言語モデルが使用される。
抽出したインコンテキストサンプルを用いてプロンプトを作成することで,質問生成と精度予測のための事前学習および微調整LLMを迅速に作成する。
HerOはAVeriTeCスコア0.57でリーダーボードで2位を獲得し、現実世界のクレームを検証するためのオープンLLMの可能性を示した。
将来の研究のために、私たちはhttps://github.com/ssu-humane/HerO.comでコードを公開しています。
関連論文リスト
- WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
大規模言語モデル(LLM)は、ユーザや他のソースからの入力を処理したり、タスクを編成したりするための検索拡張されたアプリケーションで日常的に使用される。
これにより、LDMがデータのみのソースからの命令を受け取り、作用するインジェクション攻撃を誘導する扉が開き、ユーザーの元の命令から逸脱する。
我々はこれをタスクドリフトと定義し、LCMのアクティベーションをスキャンして解析することでこれをキャッチすることを提案する。
このアプローチは、これらの攻撃に対してトレーニングを受けることなく、インジェクションやジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化することを示す。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Laurel: Generating Dafny Assertions Using Large Language Models [2.6942525604796366]
本稿では,大規模な言語モデル(LLM)を用いて,Dafnyプログラムのヘルパーアサーションを自動的に生成するツールであるLaurillを提案する。
Laurelは数回の試行で、必要なヘルパーアサーションの50%以上を生成することができる。
論文 参考訳(メタデータ) (2024-05-27T03:26:01Z) - Fine-grained LLM Agent: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
LLMエージェントは、大規模言語モデルの出力を洗練するための推論手法である。
中心となる考え方は、学習したきめ細かいフィードバックモデルを使用して欠陥を特定し、LCMを反復的に洗練させることです。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - Evoke: Evoking Critical Thinking Abilities in LLMs via Reviewer-Author
Prompt Editing [19.241543540941283]
大規模言語モデル(LLM)は、自然言語処理において顕著な進歩を遂げた。
本稿では,自動プロンプトリファインメントフレームワークであるEvokeを提案する。
一つはレビュアーとして、もう一つは現在のプロンプトをスコアし、もう一つは著者として、編集履歴とレビュアーのフィードバックを考慮してプロンプトを編集する。
論文 参考訳(メタデータ) (2023-10-20T23:15:59Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。