論文の概要: Enhancing BERT-Based Visual Question Answering through Keyword-Driven
Sentence Selection
- arxiv url: http://arxiv.org/abs/2310.09432v1
- Date: Fri, 13 Oct 2023 22:43:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 20:33:19.169550
- Title: Enhancing BERT-Based Visual Question Answering through Keyword-Driven
Sentence Selection
- Title(参考訳): キーワード駆動文選択によるBERTに基づく視覚質問応答の強化
- Authors: Davide Napolitano and Lorenzo Vaiani and Luca Cagliero
- Abstract要約: 文書ベースのVisual Question Answeringコンペティションは、文書内の親子関係の自動検出に対処する。
本稿では,この課題に対処する PoliTo のアプローチについて述べる。
このアプローチの有効性により、ベースラインよりも高いパフォーマンスを実現できます。
- 参考スコア(独自算出の注目度): 8.586466827855016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Document-based Visual Question Answering competition addresses the
automatic detection of parent-child relationships between elements in
multi-page documents. The goal is to identify the document elements that answer
a specific question posed in natural language. This paper describes the
PoliTo's approach to addressing this task, in particular, our best solution
explores a text-only approach, leveraging an ad hoc sampling strategy.
Specifically, our approach leverages the Masked Language Modeling technique to
fine-tune a BERT model, focusing on sentences containing sensitive keywords
that also occur in the questions, such as references to tables or images.
Thanks to the effectiveness of this approach, we are able to achieve high
performance compared to baselines, demonstrating how our solution contributes
positively to this task.
- Abstract(参考訳): ドキュメントベースのVisual Question Answeringコンペティションは、マルチページドキュメント内の要素間の親子関係の自動検出に対処する。
目標は、自然言語でなされる特定の質問に答えるドキュメント要素を特定することです。
本稿では,この課題に対するpolitoのアプローチ,特に,アドホックサンプリング戦略を活用したテキストのみのアプローチについて述べる。
具体的には,Masked Language Modeling 手法を用いて BERT モデルを微調整し,テーブルや画像への参照などの質問に現れるセンシティブなキーワードを含む文に焦点をあてる。
このアプローチの有効性のおかげで、ベースラインよりも高いパフォーマンスを達成でき、私たちのソリューションがこのタスクに肯定的な貢献をする様子を示しています。
関連論文リスト
- STORE: Streamlining Semantic Tokenization and Generative Recommendation with A Single LLM [59.08493154172207]
本稿では,意味的トークン化と生成的レコメンデーションプロセスを合理化する統合フレームワークを提案する。
我々は,意味的トークン化をテキスト・ツー・ケントタスクとして定式化し,生成的推薦をトークン・ツー・ケントタスクとして,トークン・ツー・ケント・コンストラクションタスクとテキスト・ツー・ケント補助タスクで補足する。
これらのタスクはすべて生成的な方法でフレーム化され、単一の大規模言語モデル(LLM)バックボーンを使用してトレーニングされる。
論文 参考訳(メタデータ) (2024-09-11T13:49:48Z) - Generative Retrieval with Preference Optimization for E-commerce Search [16.78829577915103]
我々は、好みを最適化した生成検索という、Eコマース検索のための革新的なフレームワークを開発する。
生の項目のタイトルを表すためにマルチスパン識別子を使用し、クエリからタイトルを生成するタスクを、クエリからマルチスパン識別子を生成するタスクに変換する。
実験の結果,本フレームワークは実世界のデータセット上での競合性能を実現し,オンラインA/Bテストはコンバージョンゲインの改善における優位性と有効性を示した。
論文 参考訳(メタデータ) (2024-07-29T09:31:19Z) - Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach [33.231639257323536]
本稿では,対話型テキスト・画像検索タスクにおける対話型コンテキストクエリの問題に対処する。
対話形式のコンテキストを再構成することにより、既存の視覚的対話データから検索モデルを微調整する必要がなくなる。
対象画像の属性に関する非冗長な質問を生成するために,LLM質問機を構築した。
論文 参考訳(メタデータ) (2024-06-05T16:09:01Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Answer Candidate Type Selection: Text-to-Text Language Model for Closed
Book Question Answering Meets Knowledge Graphs [62.20354845651949]
本稿では,この問題を解決するために,事前学習されたテキスト間QAシステム上で機能する新しいアプローチを提案する。
提案手法は,Wikidataの"instance_of"プロパティの型に基づいて,生成した候補のフィルタリングと再ランク付けを行う。
論文 参考訳(メタデータ) (2023-10-10T20:49:43Z) - Walking Down the Memory Maze: Beyond Context Limit through Interactive
Reading [63.93888816206071]
我々は,長いコンテキストを要約ノードのツリーに処理する手法であるMemWalkerを紹介した。クエリを受信すると,モデルがこのツリーをナビゲートして関連する情報を検索し,十分な情報を収集すると応答する。
その結果,MemWalkerは,テキストを対話的に読み取る際の推論ステップを強調し,クエリに関連するテキストセグメントをピンポイントすることで,説明性の向上を図っている。
論文 参考訳(メタデータ) (2023-10-08T06:18:14Z) - Enhanced Knowledge Selection for Grounded Dialogues via Document
Semantic Graphs [123.50636090341236]
本稿では,背景知識文書を自動的に文書意味グラフに変換することを提案する。
文書意味グラフは文ノードを用いて文レベル情報を保存し,文間の概念接続を提供する。
本実験により,HolEにおける知識選択タスクとエンドツーエンド応答生成タスクの双方において,意味グラフに基づく知識選択が文選択ベースラインよりも改善されることが示されている。
論文 参考訳(メタデータ) (2022-06-15T04:51:32Z) - MDERank: A Masked Document Embedding Rank Approach for Unsupervised
Keyphrase Extraction [41.941098507759015]
キーワードは、コアコンテンツの簡潔な要約を提供するドキュメントのフレーズで、読者が記事が少しで何を言っているのかを理解するのに役立つ。
BERTをベースとしたモデルを用いて,MASK戦略を用いて候補キーフレーズの選択とランク付けを行う,新しい教師なしキーワード抽出手法を提案する。
論文 参考訳(メタデータ) (2021-10-13T11:29:17Z) - Asking questions on handwritten document collections [35.85762649504866]
本研究は手書き文書コレクションにおける質問回答(QA)の問題に対処する。
一般的なQAやVQA(Visual Question Answering)とは違い,回答は短いテキストである。
我々は,手書き文書や,堅牢なテキスト認識が困難な歴史的コレクションに,認識自由なアプローチが適していると主張している。
論文 参考訳(メタデータ) (2021-10-02T02:40:40Z) - Keyword-Attentive Deep Semantic Matching [1.8416014644193064]
本稿では,深いセマンティックマッチングを改善するためのキーワード付きアプローチを提案する。
まず、大きなコーパスからのドメインタグを利用して、ドメインを拡張したキーワード辞書を生成する。
モデル学習中,入力ペア間のキーワードカバレッジに基づく新しいネガティブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-03-11T10:18:32Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。