Fugu-MT 論文翻訳(概要): In Search of the Long-Tail: Systematic Generation of Long-Tail Inferential Knowledge via Logical Rule Guided Search

論文の概要: In Search of the Long-Tail: Systematic Generation of Long-Tail Inferential Knowledge via Logical Rule Guided Search

arxiv url: http://arxiv.org/abs/2311.07237v2
Date: Tue, 27 Feb 2024 22:28:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 18:34:09.345416
Title: In Search of the Long-Tail: Systematic Generation of Long-Tail Inferential Knowledge via Logical Rule Guided Search
Title（参考訳）: ロングテール探索:論理ルールガイド探索によるロングテール推論知識の体系的生成
Authors: Huihan Li, Yuting Ning, Zeyi Liao, Siyuan Wang, Xiang Lorraine Li, Ximing Lu, Wenting Zhao, Faeze Brahman, Yejin Choi, Xiang Ren
Abstract要約: 最先端のLLMは、自然言語推論のような推論タスクにおいて人間よりも優れています。 LLMを評価する最近の研究は、低確率分布、すなわち、ロングテールからの入力データに対する顕著な性能低下に注目している。本稿では,象徴的ルールテンプレートに基づく事実的正確で長い知識文を生成する新しいフレームワークを提案する。
参考スコア（独自算出の注目度）: 69.59343233016517
License: http://creativecommons.org/licenses/by/4.0/
Abstract: State-of-the-art LLMs outperform humans on reasoning tasks such as Natural Language Inference. Recent works evaluating LLMs note a marked performance drop on input data from the low-probability distribution, i.e., the longtail. Therefore, we focus on systematically generating statements involving long-tail inferential knowledge for more effective evaluation of LLMs in the reasoning space. We first propose a novel framework Logic-Induced- Knowledge-Search (LINK) that generates factually correct and long-tail knowledge statements grounded on symbolic rule templates; LINK effectively generates data in the longtail distribution that zero-shot prompted LLMs are unable to reach, and outperforms zero-shot GPT4 on factual correctness by 5%. We further use the data generated by LINK to construct a dataset Logic-Induced-Long-Tail (LINT) that can be used to evaluate downstream models on the long-tail distribution; LINT contains 108K knowledge statements spanning four domains. We use LINT to test LLMs on an entailment classification task and find that model performances drop by as high as 5% in the long-tail distribution compared to head distribution. Our work shows the utility of evaluating models in the long-tail distribution, and calls for more research on generating evaluation data in the long-tail distribution.
Abstract（参考訳）: 最先端のllmは自然言語推論のような推論タスクで人間を上回っている。 LLMを評価する最近の研究は、低確率分布、すなわち、ロングテールからの入力データに対する顕著な性能低下に注目している。そこで我々は,LLMを推論空間でより効果的に評価するために,長い尾の推論知識を含む文を体系的に生成することに焦点を当てた。まず,シンボリックルールテンプレートに基づく事実的正確かつロングテールな知識文を生成する,新しいフレームワーク論理誘導知識検索(link)を提案する。linkは,ゼロショットトリガーllmが到達できないロングテール分布のデータを効果的に生成し,事実的正確性においてゼロショットgpt4を5%上回る。さらに、LINKが生成したデータを用いて、LINT(Logic-induced-Long-Tail)というデータセットを構築し、LINTには4つのドメインにまたがる108Kの知識文が含まれている。我々は,lintを用いて詳細な分類タスクでllmをテストした結果,モデル性能が頭部分布に比べて最大5%低下することを確認した。本研究は,ロングテール分布におけるモデル評価の有用性を示し,ロングテール分布における評価データ生成に関するさらなる研究を求めるものである。

関連論文リスト

Evaluation of LLMs on Long-tail Entity Linking in Historical Documents [1.9854418074386933]
GPT と LLama3 という2つの人気のある LLM の性能を,ロングテールなエンティティリンクのシナリオで評価する。 MHERCL v0.1は、ドメイン固有の歴史的テキストからテキストを手動で注釈付けしたベンチマークであり、エンティティをウィキデータエントリに識別・リンクする際のLLMの性能を定量的に比較する。予備実験の結果,LLMは長尾ELにおいて良好に機能し,この技術は長尾ELと長尾ELのギャップを埋める上で有益であることが示唆された。
論文参考訳（メタデータ） (2025-05-06T12:25:15Z)
Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。 ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文参考訳（メタデータ） (2024-10-31T03:42:17Z)
Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge [55.65162959527848]
大規模言語モデルは、多くの知識集約的なタスクにおいて優れたパフォーマンスを示している。しかし、事前学習データには誤解を招く傾向があり、矛盾する情報も含まれている。本研究では,LLMの学習嗜好を,矛盾する知識を持つデータに対して体系的に分析する。
論文参考訳（メタデータ） (2024-10-07T06:49:41Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
On the Role of Long-tail Knowledge in Retrieval Augmented Large Language Models [33.08049246893537]
検索拡張現実(RAG)は,大規模言語モデル(LLM)の知識能力向上に際し,優れた性能を示す本稿では,LLMの簡易かつ効果的なロングテール知識検出手法を提案する。提案手法は,平均推定時間で4倍以上の高速化を実現し,下流タスクにおける一貫した性能向上を実現している。
論文参考訳（メタデータ） (2024-06-24T07:17:59Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。 2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。 LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文参考訳（メタデータ） (2023-11-08T01:45:37Z)
The Devil is in the Tails: How Long-Tailed Code Distributions Impact Large Language Models [15.462819541662752]
コードのための人気のあるLarge Language Modelsを含む学習ベースのモデルは、データに大きく依存している。長い尾の分布は、コードに対するLLMの有効性に大きな影響を与えます。本研究は,LLMのコードに対する長期分布の影響をよりよく理解するものである。
論文参考訳（メタデータ） (2023-09-07T08:53:16Z)
L-Eval: Instituting Standardized Evaluation for Long Context Language Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。 20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文参考訳（メタデータ） (2023-07-20T17:59:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。