論文の概要: Length is a Curse and a Blessing for Document-level Semantics
- arxiv url: http://arxiv.org/abs/2310.16193v1
- Date: Tue, 24 Oct 2023 21:23:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 17:58:17.613722
- Title: Length is a Curse and a Blessing for Document-level Semantics
- Title(参考訳): Lengthは文書レベルのセマンティックスのためのカースと祝福
- Authors: Chenghao Xiao, Yizhi Li, G Thomas Hudson, Chenghua Lin, Noura Al
Moubayed
- Abstract要約: 本稿では,意味論的に堅牢な文表現学習のための,書式表現学習フレームワークLA(SER)$3$:長さに依存しない自己参照を提案する。
- 参考スコア(独自算出の注目度): 19.703908190633584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, contrastive learning (CL) has been extensively utilized to
recover sentence and document-level encoding capability from pre-trained
language models. In this work, we question the length generalizability of
CL-based models, i.e., their vulnerability towards length-induced semantic
shift. We verify not only that length vulnerability is a significant yet
overlooked research gap, but we can devise unsupervised CL methods solely
depending on the semantic signal provided by document length. We first derive
the theoretical foundations underlying length attacks, showing that elongating
a document would intensify the high intra-document similarity that is already
brought by CL. Moreover, we found that isotropy promised by CL is highly
dependent on the length range of text exposed in training. Inspired by these
findings, we introduce a simple yet universal document representation learning
framework, LA(SER)$^{3}$: length-agnostic self-reference for semantically
robust sentence representation learning, achieving state-of-the-art
unsupervised performance on the standard information retrieval benchmark.
- Abstract(参考訳): 近年、コントラスト学習(cl)は、事前学習された言語モデルから文と文書レベルのエンコーディング能力を回復するために広く利用されている。
本研究では,CLモデルの長さ一般化可能性,すなわち,長さ誘起セマンティックシフトに対する脆弱性について考察する。
我々は、その長さの脆弱性が重要で見過ごされている研究のギャップであるだけでなく、文書の長さによって提供される意味的信号のみに応じて教師なしのclメソッドを考案することができることを検証した。
まず,文書の伸長がCLによってもたらされた文書内類似度を高めることを示し,文書の長さ攻撃の基礎となる理論的基礎を導出する。
さらに,clが約束する等方性は,学習中に露呈するテキストの長さ範囲に大きく依存することがわかった。
これらの知見に触発されて、単純で普遍的な文書表現学習フレームワークla(ser)$^{3}$: 意味論的にロバストな文表現学習のための長さ非依存の自己参照を導入し、標準情報検索ベンチマークで最先端の教師なしパフォーマンスを実現する。
関連論文リスト
- DELTA: Pre-train a Discriminative Encoder for Legal Case Retrieval via Structural Word Alignment [55.91429725404988]
判例検索のための識別モデルであるDELTAを紹介する。
我々は浅層デコーダを利用して情報ボトルネックを作り、表現能力の向上を目指しています。
本手法は, 判例検索において, 既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-27T10:40:14Z) - Fractal Patterns May Unravel the Intelligence in Next-Token Prediction [21.92021137666541]
本研究では, 言語のフラクタル構造について検討し, 疑わしいが公式には示されていない特性を定量化するために, 正確な定式化を提供することを目的としている。
言語は、(1)自己相似で、特定の特徴のある文脈長を持たない、あらゆるレベルの粒度の複雑さを示す、(2)長距離依存(LRD)である。
段落のような言語における短期的なパターン/依存性は、文書全体のようなより広い範囲のパターン/依存性を反映している、と我々は主張する。
論文 参考訳(メタデータ) (2024-02-02T17:09:33Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Large Language Model Prompt Chaining for Long Legal Document
Classification [2.3148470932285665]
チェイン(Chaining)は、複雑なタスクを小さな管理可能なコンポーネントに分解する戦略である。
即時連鎖により、ゼロショット以上の性能を向上できるだけでなく、より大きなモデルによって達成されたマイクロF1スコアを超越できることを実証する。
論文 参考訳(メタデータ) (2023-08-08T08:57:01Z) - Fine-Grained Distillation for Long Document Retrieval [86.39802110609062]
ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。
知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。
本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:00:36Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - Stretching Sentence-pair NLI Models to Reason over Long Documents and
Clusters [35.103851212995046]
自然言語推論(NLI)は,文ペア間の意味的関係を推定するフレームワークとして,NLPコミュニティによって広く研究されている。
我々は、NLIモデルの実アプリケーションへの直接ゼロショット適用性について、訓練された文ペア設定を超えて検討する。
本研究では,ContractNLIデータセット上で,フルドキュメント上で動作し,最先端のパフォーマンスを実現するための新たなアグリゲーション手法を開発した。
論文 参考訳(メタデータ) (2022-04-15T12:56:39Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Reinforced Abstractive Summarization with Adaptive Length Controlling [12.793451906532223]
制御可能な要約、特に長さは、いくつかの実用的な応用において重要な問題である。
2段階の抽象的要約モデルを活用するために、textbfAdaptive textbfLength textbfControlling textbfOptimization (textbfALCO)法を提案する。
論文 参考訳(メタデータ) (2021-12-14T16:48:47Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - Asking without Telling: Exploring Latent Ontologies in Contextual
Representations [12.69022456384102]
事前学習した文脈エンコーダは、明示的な監督なしに言語構造の意味ある概念を符号化する。
その結果,既存のアノテーションからの離脱を含む事前学習エンコーダにおける創発的構造を示す新たな証拠が得られた。
論文 参考訳(メタデータ) (2020-04-29T23:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。