Fugu-MT 論文翻訳(概要): In Search of the Long-Tail: Systematic Generation of Long-Tail Knowledge via Logical Rule Guided Search

論文の概要: In Search of the Long-Tail: Systematic Generation of Long-Tail Knowledge via Logical Rule Guided Search

arxiv url: http://arxiv.org/abs/2311.07237v1
Date: Mon, 13 Nov 2023 10:56:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 14:34:48.281714
Title: In Search of the Long-Tail: Systematic Generation of Long-Tail Knowledge via Logical Rule Guided Search
Title（参考訳）: ロングテール探索:論理ルールガイドによるロングテール知識の体系的生成
Authors: Huihan Li, Yuting Ning, Zeyi Liao, Siyuan Wang, Xiang Lorraine Li, Ximing Lu, Faeze Brahman, Wenting Zhao, Yejin Choi, Xiang Ren
Abstract要約: 本稿では,長い知識文を体系的に生成するLogic-induced-Knowledge-Search (Link) フレームワークを提案する。リンクは、品質を保ちながら、ロングテール分布でデータを生成するのに有効である。その結果,ChatGPTとGPT4の誤認識能力は,頭部分布と比較して長身分布において3%低下することがわかった。
参考スコア（独自算出の注目度）: 69.59343233016517
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Since large language models have approached human-level performance on many tasks, it has become increasingly harder for researchers to find tasks that are still challenging to the models. Failure cases usually come from the long-tail distribution - data that an oracle language model could assign a probability on the lower end of its distribution. Current methodology such as prompt engineering or crowdsourcing are insufficient for creating long-tail examples because humans are constrained by cognitive bias. We propose a Logic-Induced-Knowledge-Search (LINK) framework for systematically generating long-tail knowledge statements. Grounded by a symbolic rule, we search for long-tail values for each variable of the rule by first prompting a LLM, then verifying the correctness of the values with a critic, and lastly pushing for the long-tail distribution with a reranker. With this framework we construct a dataset, Logic-Induced-Long-Tail (LINT), consisting of 200 symbolic rules and 50K knowledge statements spanning across four domains. Human annotations find that 84% of the statements in LINT are factually correct. In contrast, ChatGPT and GPT4 struggle with directly generating long-tail statements under the guidance of logic rules, each only getting 56% and 78% of their statements correct. Moreover, their "long-tail" generations in fact fall into the higher likelihood range, and thus are not really long-tail. Our findings suggest that LINK is effective for generating data in the long-tail distribution while enforcing quality. LINT can be useful for systematically evaluating LLMs' capabilities in the long-tail distribution. We challenge the models with a simple entailment classification task using samples from LINT. We find that ChatGPT and GPT4's capability in identifying incorrect knowledge drop by ~3% in the long-tail distribution compared to head distribution.
Abstract（参考訳）: 大きな言語モデルが多くのタスクで人間レベルのパフォーマンスに近づきつつあるため、研究者はモデルにまだ挑戦しているタスクを見つけることがますます難しくなっている。障害ケースは通常、長い尾の分布から来ます - オラクル言語モデルがその分布の下部に確率を割り当てることのできるデータです。プロンプトエンジニアリングやクラウドソーシングのような現在の方法論は、人間が認知バイアスに拘束されているため、長い尾の例を作成するには不十分である。本稿では,Lar-tail knowledge文を体系的に生成する Logic-induced-Knowledge-Search (LINK) フレームワークを提案する。まず LLM をプロンプトし,その値の正しさを批評家で検証し,最後にリランカでロングテール分布を推し進めることで,ルールの各変数のロングテール値を探索する。このフレームワークでは、4つのドメインにまたがる200のシンボリックルールと50Kの知識ステートメントからなるデータセット、Logic-induced-Long-Tail (LINT)を構築します。人間のアノテーションは、LINTのステートメントの84%が実際正しいことに気付きます。それとは対照的に、ChatGPTとGPT4は論理規則の指導の下で直接ロングテールステートメントを生成するのに苦労しており、それぞれが正しい文の56%と78%しか得られていない。さらに、彼らの「長い尾」世代は実際には高い可能性範囲に落ちているので、実際には長い尾ではない。その結果,LINKは品質を保ちながら長期分布のデータ生成に有効であることが示唆された。 LINTは長期分布におけるLLMの能力を体系的に評価するのに有用である。 LINT のサンプルを用いて,簡単な細部分類タスクでモデルに挑戦する。 chatgpt と gpt4 の誤認識能力は, 頭部分布と比較して, ロングテール分布の約3%減少することがわかった。

関連論文リスト

Evaluation of LLMs on Long-tail Entity Linking in Historical Documents [1.9854418074386933]
GPT と LLama3 という2つの人気のある LLM の性能を,ロングテールなエンティティリンクのシナリオで評価する。 MHERCL v0.1は、ドメイン固有の歴史的テキストからテキストを手動で注釈付けしたベンチマークであり、エンティティをウィキデータエントリに識別・リンクする際のLLMの性能を定量的に比較する。予備実験の結果,LLMは長尾ELにおいて良好に機能し,この技術は長尾ELと長尾ELのギャップを埋める上で有益であることが示唆された。
論文参考訳（メタデータ） (2025-05-06T12:25:15Z)
Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。 ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文参考訳（メタデータ） (2024-10-31T03:42:17Z)
Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge [55.65162959527848]
大規模言語モデルは、多くの知識集約的なタスクにおいて優れたパフォーマンスを示している。しかし、事前学習データには誤解を招く傾向があり、矛盾する情報も含まれている。本研究では,LLMの学習嗜好を,矛盾する知識を持つデータに対して体系的に分析する。
論文参考訳（メタデータ） (2024-10-07T06:49:41Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
On the Role of Long-tail Knowledge in Retrieval Augmented Large Language Models [33.08049246893537]
検索拡張現実(RAG)は,大規模言語モデル(LLM)の知識能力向上に際し,優れた性能を示す本稿では,LLMの簡易かつ効果的なロングテール知識検出手法を提案する。提案手法は,平均推定時間で4倍以上の高速化を実現し,下流タスクにおける一貫した性能向上を実現している。
論文参考訳（メタデータ） (2024-06-24T07:17:59Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。 2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。 LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文参考訳（メタデータ） (2023-11-08T01:45:37Z)
The Devil is in the Tails: How Long-Tailed Code Distributions Impact Large Language Models [15.462819541662752]
コードのための人気のあるLarge Language Modelsを含む学習ベースのモデルは、データに大きく依存している。長い尾の分布は、コードに対するLLMの有効性に大きな影響を与えます。本研究は,LLMのコードに対する長期分布の影響をよりよく理解するものである。
論文参考訳（メタデータ） (2023-09-07T08:53:16Z)
L-Eval: Instituting Standardized Evaluation for Long Context Language Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。 20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文参考訳（メタデータ） (2023-07-20T17:59:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。