論文の概要: Tree-Based Hard Attention with Self-Motivation for Large Language Models
- arxiv url: http://arxiv.org/abs/2402.08874v1
- Date: Wed, 14 Feb 2024 00:40:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 17:21:05.972818
- Title: Tree-Based Hard Attention with Self-Motivation for Large Language Models
- Title(参考訳): 大規模言語モデルのための自己モチベーションを伴う木に基づくハード・アテンション
- Authors: Chenxi Lin, Jiayu Ren, Guoxiu He, Zhuoren Jiang, Haiyan Yu, Xiaomin
Zhu
- Abstract要約: 大きな言語モデル(LLM)は、平易なテキストの理解と生成に優れる。
階層的なテキスト構造を扱うように特別に調整されていない。
本稿では,大規模言語モデルのための自己モチベーションを用いた木ベースハードアテンションという新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.2677650379517775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) excel at understanding and generating
plain text, they are not specifically tailored to handle hierarchical text
structures. Extracting the task-desired property from their natural language
responses typically necessitates additional processing steps. In fact,
selectively comprehending the hierarchical structure of large-scale text is
pivotal to understanding its substance. Aligning LLMs more closely with the
classification or regression values of specific task through prompting also
remains challenging. To this end, we propose a novel framework called
Tree-Based Hard Attention with Self-Motivation for Large Language Models
(TEAROOM). TEAROOM incorporates a tree-based hard attention mechanism for LLMs
to process hierarchically structured text inputs. By leveraging prompting, it
enables a frozen LLM to selectively focus on relevant leaves in relation to the
root, generating a tailored symbolic representation of their relationship.
Moreover, TEAROOM comprises a self-motivation strategy for another LLM equipped
with a trainable adapter and a linear layer. The selected symbolic outcomes are
integrated into another prompt, along with the predictive value of the task. We
iteratively feed output values back into the prompt, enabling the trainable LLM
to progressively approximate the golden truth. TEAROOM outperforms existing
state-of-the-art methods in experimental evaluations across three benchmark
datasets, showing its effectiveness in estimating task-specific properties.
Through comprehensive experiments and analysis, we have validated the ability
of TEAROOM to gradually approach the underlying golden truth through multiple
inferences.
- Abstract(参考訳): 大きな言語モデル(LLM)は平文の理解と生成に優れるが、階層的なテキスト構造を扱うのに特に適していない。
自然言語応答からタスク要求プロパティを抽出するには、通常、追加の処理ステップが必要になる。
実際、大規模テキストの階層構造を選択的に理解することは、その実体を理解する上で重要である。
llmを特定のタスクの分類や回帰値とより密接に連携させることも課題である。
そこで本研究では,大規模言語モデルのための自己モチベーションを用いたツリーベースハードアテンション(TEAROOM)という新しいフレームワークを提案する。
TEAROOMは、階層的に構造化されたテキスト入力を処理するLLMのツリーベースのハードアテンション機構を組み込んでいる。
プロンプトを利用することで、凍結したLLMは根に関連する葉に選択的に焦点を合わせることができ、それらの関係をカスタマイズしたシンボル表現を生成する。
さらに、TEAROOMは、トレーニング可能なアダプタと線形層とを備えた別のLCMのための自己動機戦略を含む。
選択されたシンボル結果は、タスクの予測値とともに別のプロンプトに統合される。
我々は、繰り返し出力値をプロンプトにフィードバックし、訓練可能なLCMが徐々に黄金の真実を近似できるようにする。
TEAROOMは3つのベンチマークデータセットの実験的な評価において既存の最先端手法よりも優れており、タスク固有の特性を推定する上での有効性を示している。
総合的な実験と分析を通じて,複数の推論を通じて,茶室が基礎となる黄金の真理に徐々にアプローチする能力を検証する。
関連論文リスト
- Structure Guided Prompt: Instructing Large Language Model in Multi-Step
Reasoning by Exploring Graph Structure of the Text [44.81698187939784]
本稿では,大規模言語モデル(LLM)の多段階推論能力向上を目的としたフレームワークであるStructure Guided Promptを紹介する。
実験の結果,このフレームワークはLLMの推論能力を大幅に向上し,より広い範囲の自然言語シナリオを拡張できることがわかった。
論文 参考訳(メタデータ) (2024-02-20T22:56:23Z) - A Simple but Effective Approach to Improve Structured Language Model
Output for Information Extraction [11.165093163378152]
大規模言語モデル(LLM)は、命令に従って非構造化自然言語を生成する際、印象的な能力を示した。
本稿では,その構造的テキスト生成能力を高めるために,効率的なG&O手法を提案する。
論文 参考訳(メタデータ) (2024-02-20T20:42:02Z) - kNN-ICL: Compositional Task-Oriented Parsing Generalization with Nearest
Neighbor In-Context Learning [50.40636157214161]
Task-Oriented Parsing (TOP)により、会話アシスタントは自然言語で表現されたユーザーコマンドを解釈できる。
LLMは、自然言語のプロンプトに基づいて、コンピュータプログラムにおいて印象的な性能を達成した。
本稿では,LLMのセマンティック解析機能を活用することに焦点を当てる。
論文 参考訳(メタデータ) (2023-12-17T17:26:50Z) - Large Language Models as Topological Structure Enhancers for
Text-Attributed Graphs [4.90251248691462]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野に革命をもたらした。
本研究では,LLMの情報検索とテキスト生成機能を活用して,ノード分類設定の下でのテキスト分散グラフ(TAG)のトポロジ構造を洗練・強化する方法について検討する。
論文 参考訳(メタデータ) (2023-11-24T07:53:48Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft
Reasoning [68.45550068277441]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Table Meets LLM: Can Large Language Models Understand Structured Table
Data? A Benchmark and Empirical Study [47.6239689986714]
大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。
我々は,LLMの構造理解能力(SUC)を評価するためのベンチマークを設計することで,これを理解しようとしている。
その結果、テーブル入力形式、コンテンツ順序、ロールプロンプト、パーティションマークなど、いくつかの入力選択によってパフォーマンスが変化していることが判明した。
論文 参考訳(メタデータ) (2023-05-22T14:23:46Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。