論文の概要: TILFA: A Unified Framework for Text, Image, and Layout Fusion in
Argument Mining
- arxiv url: http://arxiv.org/abs/2310.05210v1
- Date: Sun, 8 Oct 2023 15:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 11:16:31.019826
- Title: TILFA: A Unified Framework for Text, Image, and Layout Fusion in
Argument Mining
- Title(参考訳): TILFA: 引数マイニングにおけるテキスト,イメージ,レイアウト融合のための統一フレームワーク
- Authors: Qing Zong, Zhaowei Wang, Baixuan Xu, Tianshi Zheng, Haochen Shi, Weiqi
Wang, Yangqiu Song, Ginny Y. Wong, Simon See
- Abstract要約: 本稿では,テキストと画像の両方を含むデータセットを紹介する。
私たちのフレームワークであるTILFAは、この混合データを扱うように設計されています。
テキストの理解だけでなく、光学文字の検出や画像のレイアウトの詳細の認識も優れている。
- 参考スコア(独自算出の注目度): 44.05177905456911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A main goal of Argument Mining (AM) is to analyze an author's stance. Unlike
previous AM datasets focusing only on text, the shared task at the 10th
Workshop on Argument Mining introduces a dataset including both text and
images. Importantly, these images contain both visual elements and optical
characters. Our new framework, TILFA (A Unified Framework for Text, Image, and
Layout Fusion in Argument Mining), is designed to handle this mixed data. It
excels at not only understanding text but also detecting optical characters and
recognizing layout details in images. Our model significantly outperforms
existing baselines, earning our team, KnowComp, the 1st place in the
leaderboard of Argumentative Stance Classification subtask in this shared task.
- Abstract(参考訳): Argument Mining (AM)の主な目標は、著者のスタンスを分析することである。
テキストのみに焦点を当てた以前のAMデータセットとは異なり、第10回Argument Miningワークショップの共有タスクでは、テキストとイメージの両方を含むデータセットが導入されている。
これらの画像は、視覚的要素と光学的特徴の両方を含んでいる。
我々の新しいフレームワークであるTILFA(Argument Miningにおけるテキスト、画像、レイアウトフュージョンのための統一フレームワーク)は、この混合データを扱うように設計されています。
テキストの理解だけでなく、光学文字の検出や画像のレイアウトの詳細の認識も優れている。
我々のモデルは既存のベースラインを大幅に上回り、この共有タスクにおけるArgumentative Stance Classificationサブタスクのリーダーボードの第1位であるKnowCompをチームから得ています。
関連論文リスト
- EntityCLIP: Entity-Centric Image-Text Matching via Multimodal Attentive Contrastive Learning [38.30565103892611]
本稿では,textbfEntity中心の textbfImage-textbfText textbfMatching (EITM) 問題について検討する。
このタスクの課題は、主にエンティティ・アソシエーション・モデリングにおける大きなセマンティック・ギャップにある。
我々は,EITM問題に適応するマルチモーダル注意型コントラスト学習フレームワークを考案し,EntityCLIPというモデルを開発した。
論文 参考訳(メタデータ) (2024-10-23T12:12:56Z) - SimTxtSeg: Weakly-Supervised Medical Image Segmentation with Simple Text Cues [11.856041847833666]
我々は、単純なテキストキューを利用して高品質な擬似ラベルを生成する新しいフレームワーク、SimTxtSegを提案する。
大腸ポリープ・セグメンテーションとMRI脳腫瘍セグメンテーションという2つの医療画像セグメンテーションの枠組みについて検討した。
論文 参考訳(メタデータ) (2024-06-27T17:46:13Z) - LTOS: Layout-controllable Text-Object Synthesis via Adaptive Cross-attention Fusions [31.125592382816375]
制御可能なテキスト・ツー・イメージ生成は、ある条件下で画像中の視覚的テキストやオブジェクトを合成する。
ビジュアルテキストレンダリングとレイアウト・ツー・イメージ生成タスクは、制御可能なテキスト・ツー・イメージ生成で人気がある。
本稿では,テキストレンダリングとレイアウト・ツー・イメージ生成タスクをひとつのタスクに統合する。
論文 参考訳(メタデータ) (2024-04-21T08:37:43Z) - Beyond Generation: Harnessing Text to Image Models for Object Detection
and Segmentation [29.274362919954218]
精度の高いラベル付きトレーニングデータを自動的に生成する新しいパラダイムを提案する。
提案手法は、トレーニングデータ生成を前景オブジェクト生成とコンテキスト的に一貫性のある背景生成に分離する。
5つのオブジェクト検出とセグメンテーションデータセットに対するアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-09-12T04:41:45Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - Scene Graph Based Fusion Network For Image-Text Retrieval [2.962083552798791]
画像テキスト検索における重要な課題は、画像とテキストの正確な対応を学習する方法である。
そこで我々は,Scene GraphベースのFusion Network(SGFN)を提案する。
我々のSGFNは、非常に少数のSOTA画像テキスト検索方法よりも優れている。
論文 参考訳(メタデータ) (2023-03-20T13:22:56Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。