論文の概要: LLM In-Context Recall is Prompt Dependent
- arxiv url: http://arxiv.org/abs/2404.08865v1
- Date: Sat, 13 Apr 2024 01:13:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 18:22:57.595558
- Title: LLM In-Context Recall is Prompt Dependent
- Title(参考訳): LLMのインコンテキストリコールはプロンプト依存である
- Authors: Daniel Machlab, Rick Battle,
- Abstract要約: これを行うモデルの能力は、実世界のアプリケーションにおける実用性と信頼性に大きな影響を及ぼす。
本研究は, LLMのリコール能力がプロンプトの内容に影響を及ぼすだけでなく, トレーニングデータのバイアスによって損なわれる可能性があることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of Large Language Models (LLMs) highlights the critical importance of conducting thorough evaluations to discern their comparative advantages, limitations, and optimal use cases. Particularly important is assessing their capacity to accurately retrieve information included in a given prompt. A model's ability to do this significantly influences how effectively it can utilize contextual details, thus impacting its practical efficacy and dependability in real-world applications. Our research analyzes the in-context recall performance of various LLMs using the needle-in-a-haystack method. In this approach, a factoid (the "needle") is embedded within a block of filler text (the "haystack"), which the model is asked to retrieve. We assess the recall performance of each model across various haystack lengths and with varying needle placements to identify performance patterns. This study demonstrates that an LLM's recall capability is not only contingent upon the prompt's content but also may be compromised by biases in its training data. Conversely, adjustments to model architecture, training strategy, or fine-tuning can improve performance. Our analysis provides insight into LLM behavior, offering direction for the development of more effective applications of LLMs.
- Abstract(参考訳): LLM(Large Language Models)の普及は、比較優位性、制限、最適なユースケースを特定するために徹底的な評価を行うことの重要性を強調している。
特に重要なのは、与えられたプロンプトに含まれる情報を正確に取得する能力を評価することだ。
これを行うモデルの能力は、コンテキストの詳細をいかに効果的に活用できるかに大きく影響し、現実のアプリケーションにおける実用的有効性と信頼性に影響を与える。
本研究は, ニードル・イン・ア・ヘイスタック法を用いて, 各種LLMのコンテキスト内リコール性能を解析した。
このアプローチでは、ファクトイド("needle")がフィラーテキスト("haystack")のブロックに埋め込まれ、モデルが取得するように要求される。
各種干し草の干し草の長さと各種針配置を用いて各モデルのリコール性能を評価し,性能パターンを同定する。
本研究は, LLMのリコール能力がプロンプトの内容に影響を及ぼすだけでなく, トレーニングデータのバイアスによって損なわれる可能性があることを示す。
逆に、モデルアーキテクチャ、トレーニング戦略、あるいは微調整の調整は、パフォーマンスを向上させることができる。
我々の分析はLLMの挙動の洞察を提供し、LLMのより効果的な応用の方向性を提供する。
関連論文リスト
- From Selection to Generation: A Survey of LLM-based Active Learning [153.8110509961261]
大きな言語モデル(LLM)は、全く新しいデータインスタンスを生成し、よりコスト効率の良いアノテーションを提供するために使われています。
本調査は,LSMに基づくAL手法の直感的な理解を目指して,研究者や実践者の最新のリソースとして機能することを目的としている。
論文 参考訳(メタデータ) (2025-02-17T12:58:17Z) - Learning Beyond the Surface: How Far Can Continual Pre-Training with LoRA Enhance LLMs' Domain-Specific Insight Learning? [4.390998479503661]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示している。
しかし、ドメイン固有のデータセットからより深い洞察を抽出し、内部化する能力は、まだ探索されていない。
本研究は, インサイトラーニングにおけるLCMの能力を高めるために, 連続的事前学習がいかに有効かを検討する。
論文 参考訳(メタデータ) (2025-01-29T18:40:32Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - Boosting LLM-based Relevance Modeling with Distribution-Aware Robust Learning [14.224921308101624]
本稿では,関係モデリングのための新しい分布認識ロバスト学習フレームワーク(DaRL)を提案する。
DaRLはAlipayの保険商品検索のためにオンラインで展開されている。
論文 参考訳(メタデータ) (2024-12-17T03:10:47Z) - Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - EpiK-Eval: Evaluation for Language Models as Epistemic Models [16.485951373967502]
セグメンテッドな物語から一貫した知識表現を定式化する上で,LLMの習熟度を評価するための新しい質問答えベンチマークであるEpiK-Evalを紹介する。
これらの欠点は、一般的な訓練目的の本質的な性質に起因していると論じる。
本研究の成果は,より堅牢で信頼性の高いLCMを開発する上での洞察を与えるものである。
論文 参考訳(メタデータ) (2023-10-23T21:15:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。