論文の概要: In Search of the Long-Tail: Systematic Generation of Long-Tail Inferential Knowledge via Logical Rule Guided Search
- arxiv url: http://arxiv.org/abs/2311.07237v3
- Date: Fri, 04 Oct 2024 09:28:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 18:20:23.740402
- Title: In Search of the Long-Tail: Systematic Generation of Long-Tail Inferential Knowledge via Logical Rule Guided Search
- Title(参考訳): ロングテール探索:論理ルールガイド探索によるロングテール推論知識の体系的生成
- Authors: Huihan Li, Yuting Ning, Zeyi Liao, Siyuan Wang, Xiang Lorraine Li, Ximing Lu, Wenting Zhao, Faeze Brahman, Yejin Choi, Xiang Ren,
- Abstract要約: 推論知識の長期分布において,大規模言語モデル (LLM) を評価するための第一歩を踏み出す。
Linkは体系的なロングテールデータ生成フレームワークであり、事実的に正しいがロングテール推論ステートメントを取得する。
次に、LINKを用いてLINT(Logic-induced-Long-Tail)をキュレートする。
- 参考スコア(独自算出の注目度): 67.35240346713911
- License:
- Abstract: To effectively use large language models (LLMs) for real-world queries, it is imperative that they generalize to the long-tail distribution, i.e. rare examples where models exhibit low confidence. In this work, we take the first step towards evaluating LLMs in the long-tail distribution of inferential knowledge. We exemplify long-tail evaluation on the Natural Language Inference task. First, we introduce Logic-Induced-Knowledge-Search (LINK), a systematic long-tail data generation framework, to obtain factually-correct yet long-tail inferential statements. LINK uses variable-wise prompting grounded on symbolic rules to seek low-confidence statements while ensuring factual correctness. We then use LINK to curate Logic-Induced-Long-Tail (LINT), a large-scale long-tail inferential knowledge dataset that contains 108K statements spanning four domains. We evaluate popular LLMs on LINT; we find that state-of-the-art LLMs show significant performance drop (21% relative drop for GPT4) on long-tail data as compared to on head distribution data, and smaller models show even more generalization weakness. These results further underscore the necessity of long-tail evaluation in developing generalizable LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)を実世界の問合せに効果的に活用するためには、長い尾の分布、すなわちモデルの信頼性が低い稀な例に一般化することが不可欠である。
本研究では,推論知識の長期分布においてLLMを評価するための第一歩を踏み出す。
自然言語推論タスクにおける長期評価を例示する。
まず、系統的な長テールデータ生成フレームワークであるLogic-induced-Knowledge-Search(LINK)を導入し、現実的に正しい長テール推論文を得る。
LINKは、シンボルルールに基づく可変的なプロンプトを使用して、事実の正確性を確保しながら、低信頼度ステートメントを求める。
次に、LINKを使用して、4つのドメインにまたがる108K文を含む大規模長尾推論知識データセットであるLINT(Logic-induced-Long-Tail)をキュレートする。
我々は,LINT 上での LLM の評価を行い,LLM は頭部分布データと比較すると,長テールデータに対して高い性能低下(21% の GPT4 に対する相対低下)を示し,より小型モデルはより一般化の弱点を示すことを示した。
これらの結果は,LLMの開発における長期評価の必要性をさらに浮き彫りにした。
関連論文リスト
- Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge [55.65162959527848]
大規模言語モデルは、多くの知識集約的なタスクにおいて優れたパフォーマンスを示している。
しかし、事前学習データには誤解を招く傾向があり、矛盾する情報も含まれている。
本研究では,LLMの学習嗜好を,矛盾する知識を持つデータに対して体系的に分析する。
論文 参考訳(メタデータ) (2024-10-07T06:49:41Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - The Devil is in the Tails: How Long-Tailed Code Distributions Impact
Large Language Models [15.462819541662752]
コードのための人気のあるLarge Language Modelsを含む学習ベースのモデルは、データに大きく依存している。
長い尾の分布は、コードに対するLLMの有効性に大きな影響を与えます。
本研究は,LLMのコードに対する長期分布の影響をよりよく理解するものである。
論文 参考訳(メタデータ) (2023-09-07T08:53:16Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。