論文の概要: Unimodal and Multimodal Representation Training for Relation Extraction
- arxiv url: http://arxiv.org/abs/2211.06168v1
- Date: Fri, 11 Nov 2022 12:39:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 16:14:23.693391
- Title: Unimodal and Multimodal Representation Training for Relation Extraction
- Title(参考訳): 関係抽出のためのユニモーダル・マルチモーダル表現訓練
- Authors: Ciaran Cooney, Rachel Heyburn, Liam Maddigan, Mairead O'Cuinn, Chloe
Thompson and Joana Cavadas
- Abstract要約: テキスト、レイアウト、視覚情報のマルチモーダル統合は、関係抽出(RE)を含む視覚的にリッチな文書理解(VrDU)タスクにおいて、SOTAの結果を得た。
本稿では、各データ型を反復的に除外する実験を行うことにより、REタスクの共有表現の価値を実証する。
バイモーダルテキストとレイアウトアプローチが最善であるのに対して、テキストはエンティティ関係の最も重要な単一予測器であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal integration of text, layout and visual information has achieved
SOTA results in visually rich document understanding (VrDU) tasks, including
relation extraction (RE). However, despite its importance, evaluation of the
relative predictive capacity of these modalities is less prevalent. Here, we
demonstrate the value of shared representations for RE tasks by conducting
experiments in which each data type is iteratively excluded during training. In
addition, text and layout data are evaluated in isolation. While a bimodal text
and layout approach performs best (F1=0.684), we show that text is the most
important single predictor of entity relations. Additionally, layout geometry
is highly predictive and may even be a feasible unimodal approach. Despite
being less effective, we highlight circumstances where visual information can
bolster performance. In total, our results demonstrate the efficacy of training
joint representations for RE.
- Abstract(参考訳): テキスト、レイアウト、視覚情報のマルチモーダル統合は、関係抽出(RE)を含む視覚的にリッチな文書理解(VrDU)タスクを実現する。
しかし、その重要性にもかかわらず、これらのモダリティの相対的予測能力の評価は一般的ではない。
本稿では,各データ型を訓練中に反復的に除外した実験を行い,reタスクにおける共有表現の価値を示す。
さらに、テキストとレイアウトデータを分離して評価する。
バイモーダルテキストとレイアウトアプローチが最善であるのに対して(F1=0.684)、テキストはエンティティ関係の最も重要な単一予測器であることを示す。
さらに、レイアウトの幾何学は高い予測力を持ち、実現可能な単調なアプローチかもしれない。
効果が低いにもかかわらず、視覚情報がパフォーマンスを高めることができる状況を強調します。
以上の結果から,RE訓練における関節表現の有効性が示された。
関連論文リスト
- A LayoutLMv3-Based Model for Enhanced Relation Extraction in Visually-Rich Documents [0.0]
ビジュアルリッチ文書(VRD)に適用された関係抽出(RE)において、現在の最先端結果に適合または優れるモデルを提案する。
また、FUNSDを用いた広範囲なアブレーション研究を行い、特定の特徴とモデル化の選択がパフォーマンスに与える影響を強調した。
論文 参考訳(メタデータ) (2024-04-16T18:50:57Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Leveraging Knowledge Graph Embeddings to Enhance Contextual
Representations for Relation Extraction [0.0]
コーパススケールに事前学習した知識グラフを組み込んだ文レベルの文脈表現への関係抽出手法を提案する。
提案手法の有望かつ非常に興味深い結果を示す一連の実験を行った。
論文 参考訳(メタデータ) (2023-06-07T07:15:20Z) - Vision-Language Pre-Training with Triple Contrastive Learning [45.80365827890119]
モーダル・インターモーダル・セルフ・スーパービジョンとクロスモーダル・イントラモーダル・セルフスーパービジョンの両方を活用することで、視覚言語事前学習のための三重コントラスト学習(TCL)を提案する。
マルチモーダル表現学習のための局所構造情報を考慮した最初の研究である。
論文 参考訳(メタデータ) (2022-02-21T17:54:57Z) - Efficient Multi-Modal Embeddings from Structured Data [0.0]
マルチモーダルワードセマンティクスは、知覚入力による埋め込みを強化することを目的としている。
ビジュアルグラウンドは言語アプリケーションにも貢献できる。
新しい埋め込みは、テキストベースの埋め込みのための補完的な情報を伝達する。
論文 参考訳(メタデータ) (2021-10-06T08:42:09Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural
Summarization Systems [121.78477833009671]
データセット間設定下での様々な要約モデルの性能について検討する。
異なるドメインの5つのデータセットに対する11の代表的な要約システムに関する包括的な研究は、モデルアーキテクチャと生成方法の影響を明らかにしている。
論文 参考訳(メタデータ) (2020-10-11T02:19:15Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。