論文の概要: FASTTRACK: Fast and Accurate Fact Tracing for LLMs
- arxiv url: http://arxiv.org/abs/2404.15157v1
- Date: Mon, 22 Apr 2024 00:07:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:22:34.244180
- Title: FASTTRACK: Fast and Accurate Fact Tracing for LLMs
- Title(参考訳): FASTTRACK: LLMの高速かつ高精度なFact Tracing
- Authors: Si Chen, Feiyang Kang, Ning Yu, Ruoxi Jia,
- Abstract要約: 本稿では,Large Language Models (LLMs) の機能を活用して,クエリに対する支援的エビデンスを検証する新しいアプローチであるFASTTRACKを紹介する。
実験の結果,FASTTRACKは既存の手法よりも精度と効率が優れていることがわかった。
- 参考スコア(独自算出の注目度): 26.476665624884134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fact tracing seeks to identify specific training examples that serve as the knowledge source for a given query. Existing approaches to fact tracing rely on assessing the similarity between each training sample and the query along a certain dimension, such as lexical similarity, gradient, or embedding space. However, these methods fall short of effectively distinguishing between samples that are merely relevant and those that actually provide supportive evidence for the information sought by the query. This limitation often results in suboptimal effectiveness. Moreover, these approaches necessitate the examination of the similarity of individual training points for each query, imposing significant computational demands and creating a substantial barrier for practical applications. This paper introduces FASTTRACK, a novel approach that harnesses the capabilities of Large Language Models (LLMs) to validate supportive evidence for queries and at the same time clusters the training database towards a reduced extent for LLMs to trace facts. Our experiments show that FASTTRACK substantially outperforms existing methods in both accuracy and efficiency, achieving more than 100\% improvement in F1 score over the state-of-the-art methods while being X33 faster than \texttt{TracIn}.
- Abstract(参考訳): ファクトトレースは、特定のクエリの知識源となる特定のトレーニング例を特定しようとする。
ファクトトレースへの既存のアプローチは、各トレーニングサンプルと特定の次元(語彙的類似性、勾配、埋め込み空間など)に沿ったクエリとの類似性を評価することに依存している。
しかし、これらの手法は、単に関係しているだけのサンプルと、クエリが求めている情報に対する支援的な証拠を実際に提供するサンプルとを効果的に区別することができない。
この制限は、しばしば最適以下の効果をもたらす。
さらに、これらの手法は、クエリ毎に個別のトレーニングポイントの類似性を検証し、重要な計算要求を課し、実用的なアプリケーションにとって重大な障壁を生み出す必要がある。
本稿では,Large Language Models (LLMs) の機能を活用して,クエリに対する支援的証拠を検証し,同時にLLMが事実を追跡できるようにトレーニングデータベースをクラスタ化する新しいアプローチであるFASTTRACKを紹介する。
実験の結果、FASTTRACKは既存の手法を精度と効率の両方で大幅に上回り、最先端の手法よりも100倍以上のF1スコアを達成し、X33は \texttt{TracIn}より高速であることがわかった。
関連論文リスト
- Simple Ingredients for Offline Reinforcement Learning [86.1988266277766]
オフライン強化学習アルゴリズムは、ターゲット下流タスクに高度に接続されたデータセットに有効であることが証明された。
既存の手法が多様なデータと競合することを示す。その性能は、関連するデータ収集によって著しく悪化するが、オフラインバッファに異なるタスクを追加するだけでよい。
アルゴリズム的な考慮以上のスケールが、パフォーマンスに影響を及ぼす重要な要因であることを示す。
論文 参考訳(メタデータ) (2024-03-19T18:57:53Z) - A Fixed-Point Approach to Unified Prompt-Based Counting [51.20608895374113]
本研究の目的は,ボックス,ポイント,テキストなど,さまざまなプロンプト型で示されるオブジェクトの密度マップを生成することができる包括的プロンプトベースのカウントフレームワークを確立することである。
本モデルは,クラスに依存しない顕著なデータセットに優れ,データセット間の適応タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-15T12:05:44Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Stochastic Amortization: A Unified Approach to Accelerate Feature and
Data Attribution [67.28273187033693]
アモート化(amortization)と呼ばれる,所望の出力を直接予測するネットワークのトレーニングは安価で,驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - Contrastive Trajectory Similarity Learning with Dual-Feature Attention [24.445998309807965]
トレイ類似度尺度は、トラジェクトリデータベースにおけるクエリ述語として機能する。
そこで本研究では,TrajCLという学習に基づくトラジェクトリモデリング手法を提案する。
TrajCLは、最先端の軌跡類似度測定よりも一貫して、はるかに正確で高速である。
論文 参考訳(メタデータ) (2022-10-11T05:25:14Z) - Tracing Knowledge in Language Models Back to the Training Data [39.02793789536856]
言語モデルのアサーションをトレーニング例に遡り、これらの予測の証拠を提供する。
我々は、よく理解された情報検索指標を用いて、事実追跡に影響を及ぼす方法を評価する。
論文 参考訳(メタデータ) (2022-05-23T17:34:16Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - An Empirical Comparison of Instance Attribution Methods for NLP [62.63504976810927]
本研究は,トレーニングサンプルの重要性に関して,異なるインスタンス属性が一致した度合いを評価する。
単純な検索メソッドは、グラデーションベースの方法によって識別されたものと異なるトレーニングインスタンスを生成する。
論文 参考訳(メタデータ) (2021-04-09T01:03:17Z) - Towards Few-Shot Fact-Checking via Perplexity [40.11397284006867]
そこで本研究では,言語モデルの強力な伝達学習能力をパープレキシティスコアで活用する新しい手法を提案する。
私たちの方法論は、F1-Macroメトリックの絶対10%以上のメジャークラスベースラインをすでに上回ることができます。
COVID-19に関連する2つの新しいファクトチェックデータセットを構築し、公開します。
論文 参考訳(メタデータ) (2021-03-17T09:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。