論文の概要: Fast Training Dataset Attribution via In-Context Learning
- arxiv url: http://arxiv.org/abs/2408.11852v1
- Date: Wed, 14 Aug 2024 20:48:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-25 13:51:32.180501
- Title: Fast Training Dataset Attribution via In-Context Learning
- Title(参考訳): インコンテキスト学習による高速トレーニングデータセットの属性
- Authors: Milad Fotouhi, Mohammad Taha Bahadori, Oluwaseyi Feyisetan, Payman Arabshahi, David Heckerman,
- Abstract要約: 我々は、インコンテキスト学習とプロンプトエンジニアリングを用いて、インストラクションチューニングされた大規模言語モデル(LLM)におけるトレーニングデータの貢献度を推定する。
本研究では,(1)LLM出力のコンテクストと非コンテクストとの差を測定する類似性に基づくアプローチと,(2)コントリビューションスコアを行列因数分解タスクとして識別する問題をモデル化する混合分布モデルアプローチを提案する。
- 参考スコア(独自算出の注目度): 9.542023122304096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the use of in-context learning and prompt engineering to estimate the contributions of training data in the outputs of instruction-tuned large language models (LLMs). We propose two novel approaches: (1) a similarity-based approach that measures the difference between LLM outputs with and without provided context, and (2) a mixture distribution model approach that frames the problem of identifying contribution scores as a matrix factorization task. Our empirical comparison demonstrates that the mixture model approach is more robust to retrieval noise in in-context learning, providing a more reliable estimation of data contributions.
- Abstract(参考訳): 本研究では,インコンテキスト学習とエンジニアリングの活用について検討し,インストラクションチューニングされた大規模言語モデル(LLM)の出力におけるトレーニングデータの貢献度を推定する。
本研究では,(1)LLM出力のコンテクストと非コンテクストとの差を測定する類似性に基づくアプローチと,(2)コントリビューションスコアを行列因数分解タスクとして識別する問題をモデル化する混合分布モデルアプローチを提案する。
我々の経験的比較は、混合モデルアプローチが文脈内学習におけるノイズの検索に頑健であることを示し、より信頼性の高いデータコントリビューション推定を提供する。
関連論文リスト
- Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - An Active Learning Framework for Inclusive Generation by Large Language Models [32.16984263644299]
大規模言語モデル(LLM)は、多様なサブ集団を表すテキストを生成する。
本稿では,知識蒸留により強化されたクラスタリングに基づくアクティブラーニングフレームワークを提案する。
2つの新しいデータセットをモデルトレーニングと組み合わせて構築し、ベースラインモデルよりも2%-10%の性能向上を示した。
論文 参考訳(メタデータ) (2024-10-17T15:09:35Z) - A Statistical Framework for Data-dependent Retrieval-Augmented Models [46.781026675083254]
最新のMLシステムは、最終的な予測を強化するために、追加の関連情報によって入力インスタンスを増大させる。
本研究では,1)データ依存メトリックを用いて大規模コーパスから関連する情報を識別するエム検索器,2)検索した情報とともに入力インスタンスを消費し最終的な予測を行うエム予測器,の2つのコンポーネントを用いたモデルについて検討する。
論文 参考訳(メタデータ) (2024-08-27T20:51:06Z) - Embedding And Clustering Your Data Can Improve Contrastive Pretraining [0.0]
我々は、事前訓練されたテキスト埋め込みモデルと古典的なk-meansクラスタリングアルゴリズムを活用することにより、ソースの粒度を超えてトレーニングデータ層を拡大することを検討する。
MSMARCOトランジッション検索データセットからBERTベースのテキスト埋め込みモデルをクエリパスペア上で事前学習する場合,NDCG@10の顕著な増加が観察された。
論文 参考訳(メタデータ) (2024-07-26T17:36:40Z) - Anchor-aware Deep Metric Learning for Audio-visual Retrieval [11.675472891647255]
Metric Learningは、基礎となるデータ構造を捕捉し、オーディオ・ビジュアル・クロスモーダル検索(AV-CMR)のようなタスクの性能を向上させることを目的としている。
近年の研究では、トレーニング中に埋め込み空間から影響のあるデータポイントを選択するためのサンプリング手法が採用されている。
しかし、トレーニングデータポイントの不足のため、モデルトレーニングはスペースを完全に探索することができない。
本稿では,この課題に対処するために,AADML(Anchor-aware Deep Metric Learning)手法を提案する。
論文 参考訳(メタデータ) (2024-04-21T22:44:44Z) - Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。
画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文 参考訳(メタデータ) (2024-03-14T17:52:31Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Revisiting Demonstration Selection Strategies in In-Context Learning [66.11652803887284]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文 参考訳(メタデータ) (2024-01-22T16:25:27Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。
我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-05-25T15:26:13Z) - Distributionally Robust Learning in Heterogeneous Contexts [29.60681287631439]
異なる文脈で得られたトレーニングデータから学習する問題を検討し、テストデータは分布シフトの影響を受けます。
我々は,超過リスクに着目した分散ロバストな手法を開発し,従来の超保守的ミニマックスアプローチよりもパフォーマンスとロバスト性のトレードオフをより適切なものにする。
論文 参考訳(メタデータ) (2021-05-18T14:00:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。