論文の概要: Using Multimodal and Language-Agnostic Sentence Embeddings for Abstractive Summarization
- arxiv url: http://arxiv.org/abs/2603.08282v1
- Date: Mon, 09 Mar 2026 11:55:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.895322
- Title: Using Multimodal and Language-Agnostic Sentence Embeddings for Abstractive Summarization
- Title(参考訳): 抽象要約のための多モーダルおよび言語非依存文埋め込みの利用
- Authors: Chaimae Chellaf, Salima Mdhaffar, Yannick Estève, Stéphane Huet,
- Abstract要約: 抽象的な要約は、新しい文を作成することによって簡潔な要約を生成することを目的としており、柔軟な言い換えが可能である。
このアプローチは不正確さ、特にモデルが存在しない情報を導入する幻覚に対して脆弱である可能性がある。
我々は、LaBSE、SONAR、BGE-M3といった事前訓練されたモデルから派生した多モーダルおよび多言語文の埋め込みを利用し、それらを修正されたBARTベースのフランス語モデルに供給する。
デコーダ入力にトークン化された名前付きエンティティを付加する名前付きエンティティ注入機構を導入し、生成された要約の実際の一貫性を改善する。
- 参考スコア(独自算出の注目度): 10.892363692521222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abstractive summarization aims to generate concise summaries by creating new sentences, allowing for flexible rephrasing. However, this approach can be vulnerable to inaccuracies, particularly `hallucinations' where the model introduces non-existent information. In this paper, we leverage the use of multimodal and multilingual sentence embeddings derived from pretrained models such as LaBSE, SONAR, and BGE-M3, and feed them into a modified BART-based French model. A Named Entity Injection mechanism that appends tokenized named entities to the decoder input is introduced, in order to improve the factual consistency of the generated summary. Our novel framework, SBARThez, is applicable to both text and speech inputs and supports cross-lingual summarization; it shows competitive performance relative to token-level baselines, especially for low-resource languages, while generating more concise and abstract summaries.
- Abstract(参考訳): 抽象的な要約は、新しい文を作成することによって簡潔な要約を生成することを目的としており、柔軟な言い換えが可能である。
しかし、このアプローチは不正確さ、特にモデルが存在しない情報を導入する「幻覚」に弱い可能性がある。
本稿では,LaBSE,SONAR,BGE-M3などの事前学習モデルから派生した多モーダルおよび多言語文の埋め込みを利用し,それをBARTベースのフランス語モデルに変換する。
デコーダ入力にトークン化された名前付きエンティティを付加する名前付きエンティティ注入機構を導入し、生成された要約の実際の一貫性を改善する。
新たなフレームワークであるSBARThezは,テキスト入力と音声入力の両方に適用可能で,特に低リソース言語において,トークンレベルのベースラインに対する競合性能を示すとともに,より簡潔で抽象的な要約を生成する。
関連論文リスト
- Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。
近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。
本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。
複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文 参考訳(メタデータ) (2025-02-19T12:07:53Z) - Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Language Representations Can be What Recommenders Need: Findings and Potentials [57.90679739598295]
先進的なLM表現から線形にマッピングされた項目表現は、より優れたレコメンデーション性能が得られることを示す。
この結果は、先進言語表現空間と効果的な項目表現空間との同型性を示唆している。
本研究は,自然言語処理とリコメンデーションシステムコミュニティの両方に刺激を与える言語モデリングと行動モデリングの関連性を強調した。
論文 参考訳(メタデータ) (2024-07-07T17:05:24Z) - Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - An Extractive-and-Abstractive Framework for Source Code Summarization [28.553366270065656]
コード要約は、自然言語の形式で与えられたコードスニペットの要約/記事を自動的に生成することを目的としている。
そこで本研究では,人文的な要約を生成できる新しい抽出・抽象的枠組みを提案する。
論文 参考訳(メタデータ) (2022-06-15T02:14:24Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - An Effective Contextual Language Modeling Framework for Speech
Summarization with Augmented Features [13.97006782398121]
変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。
本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。
提案手法の有効性をベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-06-01T18:27:48Z) - Exploring Explainable Selection to Control Abstractive Summarization [51.74889133688111]
説明可能性を重視した新しいフレームワークを開発する。
新しいペアワイズ行列は、文の相互作用、中心性、属性スコアをキャプチャする。
コンストラクタ内の文分割アテンション機構は、最終要約が所望のコンテンツを強調することを保証する。
論文 参考訳(メタデータ) (2020-04-24T14:39:34Z) - StructSum: Summarization via Structured Representations [27.890477913486787]
抽象テキスト要約は、長い資料の情報を要約した要約に圧縮することを目的としている。
モデリング技術の進歩にもかかわらず、抽象的な要約モデルは依然としていくつかの重要な課題に悩まされている。
本稿では,これらの課題に対処するための要約のための文書レベルの構造誘導に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-01T20:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。