Fugu-MT 論文翻訳(概要): Tree-Based Hard Attention with Self-Motivation for Large Language Models

論文の概要: Tree-Based Hard Attention with Self-Motivation for Large Language Models

arxiv url: http://arxiv.org/abs/2402.08874v1
Date: Wed, 14 Feb 2024 00:40:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-15 17:21:05.972818
Title: Tree-Based Hard Attention with Self-Motivation for Large Language Models
Title（参考訳）: 大規模言語モデルのための自己モチベーションを伴う木に基づくハード・アテンション
Authors: Chenxi Lin, Jiayu Ren, Guoxiu He, Zhuoren Jiang, Haiyan Yu, Xiaomin Zhu
Abstract要約: 大きな言語モデル(LLM)は、平易なテキストの理解と生成に優れる。階層的なテキスト構造を扱うように特別に調整されていない。本稿では,大規模言語モデルのための自己モチベーションを用いた木ベースハードアテンションという新しいフレームワークを提案する。
参考スコア（独自算出の注目度）: 7.2677650379517775
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While large language models (LLMs) excel at understanding and generating plain text, they are not specifically tailored to handle hierarchical text structures. Extracting the task-desired property from their natural language responses typically necessitates additional processing steps. In fact, selectively comprehending the hierarchical structure of large-scale text is pivotal to understanding its substance. Aligning LLMs more closely with the classification or regression values of specific task through prompting also remains challenging. To this end, we propose a novel framework called Tree-Based Hard Attention with Self-Motivation for Large Language Models (TEAROOM). TEAROOM incorporates a tree-based hard attention mechanism for LLMs to process hierarchically structured text inputs. By leveraging prompting, it enables a frozen LLM to selectively focus on relevant leaves in relation to the root, generating a tailored symbolic representation of their relationship. Moreover, TEAROOM comprises a self-motivation strategy for another LLM equipped with a trainable adapter and a linear layer. The selected symbolic outcomes are integrated into another prompt, along with the predictive value of the task. We iteratively feed output values back into the prompt, enabling the trainable LLM to progressively approximate the golden truth. TEAROOM outperforms existing state-of-the-art methods in experimental evaluations across three benchmark datasets, showing its effectiveness in estimating task-specific properties. Through comprehensive experiments and analysis, we have validated the ability of TEAROOM to gradually approach the underlying golden truth through multiple inferences.
Abstract（参考訳）: 大きな言語モデル(LLM)は平文の理解と生成に優れるが、階層的なテキスト構造を扱うのに特に適していない。自然言語応答からタスク要求プロパティを抽出するには、通常、追加の処理ステップが必要になる。実際、大規模テキストの階層構造を選択的に理解することは、その実体を理解する上で重要である。 llmを特定のタスクの分類や回帰値とより密接に連携させることも課題である。そこで本研究では,大規模言語モデルのための自己モチベーションを用いたツリーベースハードアテンション(TEAROOM)という新しいフレームワークを提案する。 TEAROOMは、階層的に構造化されたテキスト入力を処理するLLMのツリーベースのハードアテンション機構を組み込んでいる。プロンプトを利用することで、凍結したLLMは根に関連する葉に選択的に焦点を合わせることができ、それらの関係をカスタマイズしたシンボル表現を生成する。さらに、TEAROOMは、トレーニング可能なアダプタと線形層とを備えた別のLCMのための自己動機戦略を含む。選択されたシンボル結果は、タスクの予測値とともに別のプロンプトに統合される。我々は、繰り返し出力値をプロンプトにフィードバックし、訓練可能なLCMが徐々に黄金の真実を近似できるようにする。 TEAROOMは3つのベンチマークデータセットの実験的な評価において既存の最先端手法よりも優れており、タスク固有の特性を推定する上での有効性を示している。総合的な実験と分析を通じて,複数の推論を通じて,茶室が基礎となる黄金の真理に徐々にアプローチする能力を検証する。

関連論文リスト

StructText: A Synthetic Table-to-Text Approach for Benchmark Generation with Multi-Dimensional Evaluation [8.251302684712773]
StructTextは、テキストからキー値抽出のための高忠実度ベンチマークを自動的に生成するエンドツーエンドフレームワークである。提案手法は,49件の文書を対象とした71,539件のサンプルを用いて評価した。
論文参考訳（メタデータ） (2025-07-28T21:20:44Z)
SAFT: Structure-Aware Fine-Tuning of LLMs for AMR-to-Text Generation [50.277959544420455]
SAFTは、事前訓練された言語モデルにグラフトポロジーを注入する構造対応の微調整手法である。変換されたAMRの磁気ラプラシアンから方向感応的な位置エンコーディングを計算する。 SAFTはAMR 3.0に新しい最先端を設定、ベースラインを3.5BLEU改善した。
論文参考訳（メタデータ） (2025-07-15T18:12:57Z)
Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究 LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文参考訳（メタデータ） (2025-02-17T18:59:02Z)
Graph of Records: Boosting Retrieval Augmented Generation for Long-context Summarization with Graphs [12.878608250420832]
長文大域要約のためのRAGを強化するために,レコードのテキストグラフ(textbfGoR)を提案する。 RAG のtextitretrieve-then-generate パラダイムに着想を得て,検索したテキストチャンクと対応する LLM 生成応答のエッジを確立することでグラフを構築する。それら間の複雑な相関関係を明らかにするために、GoRは、テキストトグラフニューラルネットワークと、自己教師型モデルトレーニングのための、精巧に設計されたTextitBERTScoreベースの目的を特徴としている。
論文参考訳（メタデータ） (2024-10-14T18:34:29Z)
TS-HTFA: Advancing Time Series Forecasting via Hierarchical Text-Free Alignment with Large Language Models [14.411646409316624]
時系列予測の新しい手法である textbfHierarchical textbfText-textbfFree textbfAlignment (textbfTS-HTFA) を導入する。我々は、QR分解語埋め込みと学習可能なプロンプトに基づいて、ペア化されたテキストデータを適応的な仮想テキストに置き換える。複数の時系列ベンチマークの実験は、HTFAが最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2024-09-23T12:57:24Z)
Adaptable and Reliable Text Classification using Large Language Models [7.962669028039958]
本稿では,Large Language Models(LLMs)を活用した適応的で信頼性の高いテキスト分類パラダイムを提案する。我々は、4つの多様なデータセット上で、複数のLLM、機械学習アルゴリズム、ニューラルネットワークベースのアーキテクチャの性能を評価した。システムの性能は、少数ショットや微調整の戦略によってさらに向上することができる。
論文参考訳（メタデータ） (2024-05-17T04:05:05Z)
Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
我々は,人文テキストがLLM生成テキストよりも文法的誤りを多く含んでいるという観察に基づく,シンプルで効果的なブラックボックスゼロショット検出手法を提案する。実験結果から,本手法はゼロショット法や教師あり手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-05-07T12:57:01Z)
Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。 ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文参考訳（メタデータ） (2024-03-01T21:59:03Z)
Hierarchical Indexing for Retrieval-Augmented Opinion Summarization [60.5923941324953]
本稿では,抽出アプローチの帰属性と拡張性と,大規模言語モデル(LLM)の一貫性と拡散性を組み合わせた,教師なし抽象的意見要約手法を提案する。我々の方法であるHIROは、意味的に整理された離散的な階層を通して文を経路にマッピングするインデックス構造を学習する。推測時にインデックスを投入し、入力レビューから人気意見を含む文群を識別し、検索する。
論文参考訳（メタデータ） (2024-03-01T10:38:07Z)
Sequential Visual and Semantic Consistency for Semi-supervised Text Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2024-02-24T13:00:54Z)
Token Prediction as Implicit Classification to Identify LLM-Generated Text [37.89852204279844]
本稿では,テキスト生成に関わる大きな言語モデル (LLM) を識別するための新しいアプローチを提案する。ベースLMに新たな分類層を追加する代わりに、分類タスクを次の注意すべき予測タスクとして再設定する。実験のバックボーンとしてText-to-Text Transfer Transformer (T5) モデルを用いる。
論文参考訳（メタデータ） (2023-11-15T06:33:52Z)
Controllable Data Augmentation for Few-Shot Text Mining with Chain-of-Thought Attribute Manipulation [35.33340453046864]
Chain-of-Thought Attribute Manipulation (CoTAM)は、既存の例から新しいデータを生成する新しいアプローチである。我々は,(1)属性分解,(2)操作提案,(3)文の再構築という3つのステップで,テキストを直接編集するよう促すチェーン・オブ・シントを利用する。
論文参考訳（メタデータ） (2023-07-14T00:10:03Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。最終事実度スコアは、調整可能なスコアリング機構により算出される。英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文参考訳（メタデータ） (2023-05-22T17:59:42Z)
X-Mesh: Towards Fast and Accurate Text-driven 3D Stylization via Dynamic Textual Guidance [70.08635216710967]
X-Meshはテキスト駆動型3Dスタイリングフレームワークで、新しいテキスト誘導動的注意モジュールを備えている。我々は、新しい標準テキストメシュベンチマーク、MIT-30と2つの自動メトリクスを導入し、将来の研究が公正で客観的な比較を達成できるようにする。
論文参考訳（メタデータ） (2023-03-28T06:45:31Z)
M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文参考訳（メタデータ） (2023-03-09T09:05:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。