論文の概要: In Search of the Long-Tail: Systematic Generation of Long-Tail
Inferential Knowledge via Logical Rule Guided Search
- arxiv url: http://arxiv.org/abs/2311.07237v2
- Date: Tue, 27 Feb 2024 22:28:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 18:34:09.345416
- Title: In Search of the Long-Tail: Systematic Generation of Long-Tail
Inferential Knowledge via Logical Rule Guided Search
- Title(参考訳): ロングテール探索:論理ルールガイド探索によるロングテール推論知識の体系的生成
- Authors: Huihan Li, Yuting Ning, Zeyi Liao, Siyuan Wang, Xiang Lorraine Li,
Ximing Lu, Wenting Zhao, Faeze Brahman, Yejin Choi, Xiang Ren
- Abstract要約: 最先端のLLMは、自然言語推論のような推論タスクにおいて人間よりも優れています。
LLMを評価する最近の研究は、低確率分布、すなわち、ロングテールからの入力データに対する顕著な性能低下に注目している。
本稿では,象徴的ルールテンプレートに基づく事実的正確で長い知識文を生成する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 69.59343233016517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art LLMs outperform humans on reasoning tasks such as Natural
Language Inference. Recent works evaluating LLMs note a marked performance drop
on input data from the low-probability distribution, i.e., the longtail.
Therefore, we focus on systematically generating statements involving long-tail
inferential knowledge for more effective evaluation of LLMs in the reasoning
space. We first propose a novel framework Logic-Induced- Knowledge-Search
(LINK) that generates factually correct and long-tail knowledge statements
grounded on symbolic rule templates; LINK effectively generates data in the
longtail distribution that zero-shot prompted LLMs are unable to reach, and
outperforms zero-shot GPT4 on factual correctness by 5%. We further use the
data generated by LINK to construct a dataset Logic-Induced-Long-Tail (LINT)
that can be used to evaluate downstream models on the long-tail distribution;
LINT contains 108K knowledge statements spanning four domains. We use LINT to
test LLMs on an entailment classification task and find that model performances
drop by as high as 5% in the long-tail distribution compared to head
distribution. Our work shows the utility of evaluating models in the long-tail
distribution, and calls for more research on generating evaluation data in the
long-tail distribution.
- Abstract(参考訳): 最先端のllmは自然言語推論のような推論タスクで人間を上回っている。
LLMを評価する最近の研究は、低確率分布、すなわち、ロングテールからの入力データに対する顕著な性能低下に注目している。
そこで我々は,LLMを推論空間でより効果的に評価するために,長い尾の推論知識を含む文を体系的に生成することに焦点を当てた。
まず,シンボリックルールテンプレートに基づく事実的正確かつロングテールな知識文を生成する,新しいフレームワーク論理誘導知識検索(link)を提案する。linkは,ゼロショットトリガーllmが到達できないロングテール分布のデータを効果的に生成し,事実的正確性においてゼロショットgpt4を5%上回る。
さらに、LINKが生成したデータを用いて、LINT(Logic-induced-Long-Tail)というデータセットを構築し、LINTには4つのドメインにまたがる108Kの知識文が含まれている。
我々は,lintを用いて詳細な分類タスクでllmをテストした結果,モデル性能が頭部分布に比べて最大5%低下することを確認した。
本研究は,ロングテール分布におけるモデル評価の有用性を示し,ロングテール分布における評価データ生成に関するさらなる研究を求めるものである。
関連論文リスト
- Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge [55.65162959527848]
大規模言語モデルは、多くの知識集約的なタスクにおいて優れたパフォーマンスを示している。
しかし、事前学習データには誤解を招く傾向があり、矛盾する情報も含まれている。
本研究では,LLMの学習嗜好を,矛盾する知識を持つデータに対して体系的に分析する。
論文 参考訳(メタデータ) (2024-10-07T06:49:41Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - On the Role of Long-tail Knowledge in Retrieval Augmented Large Language Models [33.08049246893537]
検索拡張現実(RAG)は,大規模言語モデル(LLM)の知識能力向上に際し,優れた性能を示す
本稿では,LLMの簡易かつ効果的なロングテール知識検出手法を提案する。
提案手法は,平均推定時間で4倍以上の高速化を実現し,下流タスクにおける一貫した性能向上を実現している。
論文 参考訳(メタデータ) (2024-06-24T07:17:59Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - The Devil is in the Tails: How Long-Tailed Code Distributions Impact
Large Language Models [15.462819541662752]
コードのための人気のあるLarge Language Modelsを含む学習ベースのモデルは、データに大きく依存している。
長い尾の分布は、コードに対するLLMの有効性に大きな影響を与えます。
本研究は,LLMのコードに対する長期分布の影響をよりよく理解するものである。
論文 参考訳(メタデータ) (2023-09-07T08:53:16Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。