論文の概要: Natural Language Rationales with Full-Stack Visual Reasoning: From
Pixels to Semantic Frames to Commonsense Graphs
- arxiv url: http://arxiv.org/abs/2010.07526v1
- Date: Thu, 15 Oct 2020 05:08:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 02:59:47.524922
- Title: Natural Language Rationales with Full-Stack Visual Reasoning: From
Pixels to Semantic Frames to Commonsense Graphs
- Title(参考訳): フルスタックビジュアル推論による自然言語の合理化:PixelsからSemantic FramesからCommonsense Graphsへ
- Authors: Ana Marasovi\'c, Chandra Bhagavatula, Jae Sung Park, Ronan Le Bras,
Noah A. Smith, Yejin Choi
- Abstract要約: 本研究は,複数の複雑な視覚的推論課題にまたがる自然言語の有理性の生成に焦点を当てた最初の研究である。
RationaleVT Transformerは、事前学習された言語モデルとオブジェクト認識、接地された視覚的セマンティックフレーム、視覚的コモンセンスグラフを組み合わせることで、自由テキスト論理を生成することを学習する統合モデルである。
実験の結果, 基礎となる事前学習言語モデルは視覚適応の恩恵を受けており, 複雑な視覚的・テキスト的推論タスクに対するモデル解釈可能性の補完として, 自由文合理化が有望な研究方向であることを示唆した。
- 参考スコア(独自算出の注目度): 106.15931418425906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language rationales could provide intuitive, higher-level
explanations that are easily understandable by humans, complementing the more
broadly studied lower-level explanations based on gradients or attention
weights. We present the first study focused on generating natural language
rationales across several complex visual reasoning tasks: visual commonsense
reasoning, visual-textual entailment, and visual question answering. The key
challenge of accurate rationalization is comprehensive image understanding at
all levels: not just their explicit content at the pixel level, but their
contextual contents at the semantic and pragmatic levels. We present
Rationale^VT Transformer, an integrated model that learns to generate free-text
rationales by combining pretrained language models with object recognition,
grounded visual semantic frames, and visual commonsense graphs. Our experiments
show that the base pretrained language model benefits from visual adaptation
and that free-text rationalization is a promising research direction to
complement model interpretability for complex visual-textual reasoning tasks.
- Abstract(参考訳): 自然言語の合理性は、人間の理解が容易な直感的で高レベルの説明を提供し、勾配や注意重みに基づくより広く研究された下層の説明を補完する。
本稿では,ビジュアル・コモンセンス推論,ビジュアル・テキスト・インテグリメント,ビジュアル・質問応答など,複雑な視覚推論タスクにまたがる自然言語的合理性の生成に焦点を当てた最初の研究を行った。
正確な合理化の鍵となる課題は、ピクセルレベルでの明示的なコンテンツだけでなく、意味的かつ実用的レベルでのコンテクストコンテンツという、あらゆるレベルでの総合的なイメージ理解です。
本稿では,事前学習された言語モデルと物体認識,接地された視覚意味フレーム,視覚コモンセンスグラフを組み合わせることで,自由文の合理化を学習する統合モデルであるratione^vt transformerを提案する。
実験により, 基礎事前学習された言語モデルは, 視覚適応の利点と, 自由テキスト合理化は, 複雑な視覚テキスト推論タスクのモデル解釈性を補完する有望な研究方向であることが示された。
関連論文リスト
- Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - What Makes a Maze Look Like a Maze? [92.80800000328277]
本稿では,Deep Grounding(DSG)という,視覚的抽象化の明示的な構造化表現を活用してグラウンド化と推論を行うフレームワークを紹介する。
DSGの中核はスキーマ-依存性グラフによる抽象概念の記述で、より原始的なシンボルに分解される。
DSGは視覚言語モデルの抽象的視覚的推論性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-09-12T16:41:47Z) - Visually-Situated Natural Language Understanding with Contrastive
Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。
我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文 参考訳(メタデータ) (2023-05-24T11:59:13Z) - Natural Language Decompositions of Implicit Content Enable Better Text
Representations [56.85319224208865]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - A Neural Divide-and-Conquer Reasoning Framework for Image Retrieval from
Linguistically Complex Text [23.854023255928208]
我々はNDCRと呼ばれるエンドツーエンドのニューラルディバイド・アンド・コンカヤ推論フレームワークを提案する。
分割:命題生成器は、複合命題テキストを単純な命題文に分割し、それらに対応する表現を生成する; コンカレント: 事前訓練された視覚言語的相互作用器は命題文と画像間の相互作用を達成する; 3) 結合: ニューラルシンボリック推論器は、上記の推論状態を組み合わせて最終解を得る。
論文 参考訳(メタデータ) (2023-05-03T16:55:00Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Accessible Visualization via Natural Language Descriptions: A Four-Level
Model of Semantic Content [6.434361163743876]
可視化の自然言語記述によって伝達されるセマンティックコンテンツの概念モデルを提案する。
視覚障害者30名,視覚障害者90名を対象に,混合手法による評価を行い,どのセマンティック・コンテンツが最も有用か,それぞれに有意差が認められた。
論文 参考訳(メタデータ) (2021-10-08T23:37:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。