Fugu-MT 論文翻訳(概要): Finding the Needle in a Haystack: Unsupervised Rationale Extraction from Long Text Classifiers

論文の概要: Finding the Needle in a Haystack: Unsupervised Rationale Extraction from Long Text Classifiers

arxiv url: http://arxiv.org/abs/2303.07991v1
Date: Tue, 14 Mar 2023 15:45:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-15 14:24:13.128706
Title: Finding the Needle in a Haystack: Unsupervised Rationale Extraction from Long Text Classifiers
Title（参考訳）: 干し草の山から針を見つける:長いテキスト分類器からの教師なし合理的抽出
Authors: Kamil Bujel, Andrew Caines, Helen Yannakoudakis and Marek Rei
Abstract要約: 本稿では,RoBERTaを文的に適用し,トークンレベルで有意な有理を抽出する構成的ソフトアテンションアーキテクチャを提案する。本手法は,感情分類データセットに基づいて,Longformer駆動のベースラインを大幅に上回る。
参考スコア（独自算出の注目度）: 20.10172411803626
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Long-sequence transformers are designed to improve the representation of longer texts by language models and their performance on downstream document-level tasks. However, not much is understood about the quality of token-level predictions in long-form models. We investigate the performance of such architectures in the context of document classification with unsupervised rationale extraction. We find standard soft attention methods to perform significantly worse when combined with the Longformer language model. We propose a compositional soft attention architecture that applies RoBERTa sentence-wise to extract plausible rationales at the token-level. We find this method to significantly outperform Longformer-driven baselines on sentiment classification datasets, while also exhibiting significantly lower runtimes.
Abstract（参考訳）: 長文変換器は、言語モデルによる長文表現の改善と、下流の文書レベルのタスクにおけるその性能向上を目的として設計されている。しかし、ロングフォームモデルにおけるトークンレベルの予測の品質についてはあまり理解されていない。教師なし合理抽出を用いた文書分類の文脈におけるそのようなアーキテクチャの性能について検討する。また,Longformer言語モデルと組み合わせた場合,標準的なソフトアテンション手法が著しく悪化することがわかった。本稿では,RoBERTaを文的に適用し,トークンレベルで有意な有理を抽出する構成的ソフトアテンションアーキテクチャを提案する。本手法は,感情分類データセットにおいて,Longformer主導のベースラインを大幅に上回るが,ランタイムも著しく低い。

関連論文リスト

Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning [103.65680870130839]
本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
論文参考訳（メタデータ） (2025-02-21T17:02:40Z)
Discourse-Driven Evaluation: Unveiling Factual Inconsistency in Long Document Summarization [7.218054628599005]
本研究では,事実整合性エラーを考察し,それらと談話分析の行を結びつける。長文を談話にインスパイアされたチャンクに分解するフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-10T06:30:15Z)
How much do contextualized representations encode long-range context? [10.188367784207049]
我々は、数千のトークンにまたがる長距離コンテキストを強調し、ニューラルネットワークの自己回帰言語モデルにおける文脈表現を分析する。提案手法では,表現幾何学の観点から長距離パターンの文脈化の度合いを捉えるために,摂動セットアップと計量エンファンソトロピー・キャリブレーション・コサイン類似度を用いている。
論文参考訳（メタデータ） (2024-10-16T06:49:54Z)
A Novel LLM-based Two-stage Summarization Approach for Long Dialogues [9.835499880812646]
本研究では,長い文書から情報を分割・凝縮する階層的枠組みを提案する。凝縮段階は、教師なし生成モデルを用いて凝縮データを生成する。要約段階は、縮合されたデータ上の抽象的な要約モデルを微調整して最終結果を生成する。
論文参考訳（メタデータ） (2024-10-09T03:42:40Z)
Summarizing long regulatory documents with a multi-step pipeline [2.2591852560804675]
長い規則文を要約するための2段階アーキテクチャの有効性は、使用するモデルによって異なることを示す。コンテクスト長の短い抽象エンコーダ・デコーダモデルでは抽出ステップの有効性が異なるが、長文エンコーダ・デコーダモデルでは抽出ステップが性能を悪化させる。
論文参考訳（メタデータ） (2024-08-19T08:07:25Z)
LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文参考訳（メタデータ） (2024-01-31T15:33:37Z)
HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文参考訳（メタデータ） (2023-01-17T12:07:13Z)
Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文参考訳（メタデータ） (2022-10-16T04:35:58Z)
Modeling Context With Linear Attention for Scalable Document-Level Translation [72.41955536834702]
本稿では,近年の文書翻訳における線形アテンションモデルの有効性について検討し,直流帰納バイアスを促進するためにセンデンシャルゲートで拡張する。感性ゲーティングはIWSLTの翻訳品質をさらに向上させることを示す。
論文参考訳（メタデータ） (2022-10-16T03:41:50Z)
Adapting Pretrained Text-to-Text Models for Long Text Sequences [39.62224414485055]
我々は、時系列入力に既存の事前訓練されたテキスト・ツー・テキスト・モデルを適用する。長文QAタスク上での競合性能を実現するための長文モデルを構築した。
論文参考訳（メタデータ） (2022-09-21T00:41:07Z)
Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文参考訳（メタデータ） (2022-03-15T01:24:51Z)
HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文参考訳（メタデータ） (2021-10-12T22:42:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。