論文の概要: Have We Designed Generalizable Structural Knowledge Promptings? Systematic Evaluation and Rethinking
- arxiv url: http://arxiv.org/abs/2501.00244v1
- Date: Tue, 31 Dec 2024 03:20:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:15:00.242691
- Title: Have We Designed Generalizable Structural Knowledge Promptings? Systematic Evaluation and Rethinking
- Title(参考訳): 一般化可能な構造知識実証法を考案したか? : 体系的評価と再考
- Authors: Yichi Zhang, Zhuo Chen, Lingbing Guo, Yajing Xu, Shaokai Chen, Mengshu Sun, Binbin Hu, Zhiqiang Zhang, Lei Liang, Wen Zhang, Huajun Chen,
- Abstract要約: 本稿では,SKPパラダイムの一般化能力について,グラニュラリティ,トランスファービリティ,スケーラビリティ,普遍性という4つの視点から評価・再考することを目的とする。
我々は、粒度と難易度が異なる9つのタスクからなる、SUBARUと呼ばれる新しいマルチグラニュラー・マルチレベルベンチマークを導入する。
- 参考スコア(独自算出の注目度): 44.66045367454493
- License:
- Abstract: Large language models (LLMs) have demonstrated exceptional performance in text generation within current NLP research. However, the lack of factual accuracy is still a dark cloud hanging over the LLM skyscraper. Structural knowledge prompting (SKP) is a prominent paradigm to integrate external knowledge into LLMs by incorporating structural representations, achieving state-of-the-art results in many knowledge-intensive tasks. However, existing methods often focus on specific problems, lacking a comprehensive exploration of the generalization and capability boundaries of SKP. This paper aims to evaluate and rethink the generalization capability of the SKP paradigm from four perspectives including Granularity, Transferability, Scalability, and Universality. To provide a thorough evaluation, we introduce a novel multi-granular, multi-level benchmark called SUBARU, consisting of 9 different tasks with varying levels of granularity and difficulty.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現在のNLP研究において、テキスト生成において例外的な性能を示した。
しかし、実際の精度の欠如は、いまだにLLMの高層ビルの上に掛かっている暗い雲である。
構造的知識促進(SKP)は、構造的表現を取り入れ、多くの知識集約的なタスクで最先端の結果を達成することで、外部的知識をLLMに統合する顕著なパラダイムである。
しかし、既存の手法はしばしば特定の問題に焦点を当て、SKPの一般化と能力境界の包括的探索を欠いている。
本稿では,SKPパラダイムの一般化能力について,グラニュラリティ,トランスファービリティ,スケーラビリティ,普遍性という4つの視点から評価・再考することを目的とする。
本研究では,粒度と難易度が異なる9つのタスクからなる新しいマルチグラニュラー・マルチレベルベンチマーク SUBARU を提案する。
関連論文リスト
- Decoding Knowledge in Large Language Models: A Framework for Categorization and Comprehension [14.039653386385519]
大規模言語モデル(LLM)は知識を取得し、保持し、適用する。
本稿では,LLMの知識を2次元に分類する新しいフレームワークK-(CSA)2を紹介する。
論文 参考訳(メタデータ) (2025-01-02T16:34:10Z) - StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization [94.31508613367296]
Retrieval-augmented Generation(RAG)は、大規模言語モデル(LLM)を効果的に強化する鍵となる手段である。
本稿では,手前のタスクに対して最適な構造型を識別し,元の文書をこの構造化形式に再構成し,その結果に基づいて回答を推測するStructRAGを提案する。
実験の結果、StructRAGは最先端のパフォーマンスを実現し、特に挑戦的なシナリオに優れていた。
論文 参考訳(メタデータ) (2024-10-11T13:52:44Z) - Can large language models understand uncommon meanings of common words? [30.527834781076546]
大規模言語モデル(LLM)は、様々な自然言語理解(NLU)タスクに大きく進歩している。
しかし、LLMがオウムなのか、本当の意味で世界を理解するのかは、広く認知されている試験機構が欠如している。
本稿では,新しい評価指標を用いたレキシカルセマンティックデータセットの革新的構築について述べる。
論文 参考訳(メタデータ) (2024-05-09T12:58:22Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - MIKE: A New Benchmark for Fine-grained Multimodal Entity Knowledge
Editing [21.760293271882997]
マルチモーダル知識編集は、マルチモーダル大言語モデル(MLLM)の能力向上における重要な進歩である
現在のベンチマークは主に粗粒度知識に焦点が当てられており、細粒度(FG)マルチモーダル実体知識の複雑さはほとんど解明されていない。
このギャップを埋めるために、我々はFGマルチモーダルエンティティ知識編集用に特別に設計された総合的なベンチマークとデータセットであるMIKEを紹介する。
論文 参考訳(メタデータ) (2024-02-18T07:15:03Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Metacognitive Prompting Improves Understanding in Large Language Models [12.112914393948415]
メタ認知プロンプト(MP)は,人間の内省的推論プロセスにインスパイアされた戦略である。
我々は10の自然言語理解(NLU)データセットにまたがる4つの先行するLarge Language Model(LLM)の実験を行った。
MPは、一般的なNLUタスクとドメイン固有のNLUタスクの両方において、既存のプロンプトメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2023-08-10T05:10:17Z) - Skills-in-Context Prompting: Unlocking Compositionality in Large Language Models [68.18370230899102]
大規模言語モデル(LLM)における構成一般化能力の活用法について検討する。
我々は,これらのスキルに基礎を置く基礎的スキルと構成的事例の両方を同じプロンプト・コンテキストで示すことが重要であることを発見した。
SKiC型データを用いた微調整LDMは、ゼロショット弱強一般化を導出できることを示す。
論文 参考訳(メタデータ) (2023-08-01T05:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。