論文の概要: Latent Alignment of Procedural Concepts in Multimodal Recipes
- arxiv url: http://arxiv.org/abs/2101.04727v1
- Date: Tue, 12 Jan 2021 19:55:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 01:53:52.614011
- Title: Latent Alignment of Procedural Concepts in Multimodal Recipes
- Title(参考訳): マルチモーダルレシピにおける手続き的概念の潜在アライメント
- Authors: Hossein Rajaby Faghihi, Roshanak Mirzaee, Sudarshan Paliwal, and
Parisa Kordjamshidi
- Abstract要約: 新規にリリースされたマルチモーダルQAデータセット上での手続き的推論に対処するための新しいアライメントメカニズムを提案する。
我々は,アテンションネットワーク,クロスモーダル表現,命令と候補回答間の潜在アライメント空間のパワーを活用し,この問題を解決した。
- 参考スコア(独自算出の注目度): 5.967279020820772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel alignment mechanism to deal with procedural reasoning on a
newly released multimodal QA dataset, named RecipeQA. Our model is solving the
textual cloze task which is a reading comprehension on a recipe containing
images and instructions. We exploit the power of attention networks,
cross-modal representations, and a latent alignment space between instructions
and candidate answers to solve the problem. We introduce constrained
max-pooling which refines the max-pooling operation on the alignment matrix to
impose disjoint constraints among the outputs of the model. Our evaluation
result indicates a 19\% improvement over the baselines.
- Abstract(参考訳): 本稿では、新たにリリースされたマルチモーダルQAデータセットRecipeQAの手続き的推論を扱うための新しいアライメント機構を提案する。
私たちのモデルは,画像と指示を含むレシピの読み解き理解であるテキストクローゼタスクを解決している。
我々は,アテンションネットワーク,クロスモーダル表現,命令と候補回答間の潜在アライメント空間のパワーを活用し,この問題を解決した。
本稿では,アライメント行列の最大プーリング操作を洗練し,モデルの出力間に不一致な制約を課す制約付きマックスプーリングを提案する。
評価の結果,ベースラインに対して19-%改善が見られた。
関連論文リスト
- Distributed Multi-Task Learning for Stochastic Bandits with Context
Distribution and Stage-wise Constraints [0.0]
本稿では,分散上信頼度境界(UCB)アルゴリズム,関連UCBを提案する。
提案アルゴリズムは,各ラウンドにおいて,制約を満たすためにプルーニングされた動作セットを構築する。
合成データと実世界のMovielens-100Kデータに対するアルゴリズムの性能を実証的に検証した。
論文 参考訳(メタデータ) (2024-01-21T18:43:55Z) - Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - CARE: Coherent Actionable Recourse based on Sound Counterfactual
Explanations [0.0]
本稿では,モデルおよびユーザレベルのデシダータに対処するモジュール型説明フレームワークであるCAREを紹介する。
モデルに依存しないアプローチとして、CAREはブラックボックスモデルに対して複数の多様な説明を生成する。
論文 参考訳(メタデータ) (2021-08-18T15:26:59Z) - Markov Decision Process modeled with Bandits for Sequential Decision
Making in Linear-flow [73.1896399783641]
会員/加入者の獲得と保持では、複数のページを連続してマーケティングコンテンツを推奨する必要がある。
遷移確率行列をモデル化するためにBandits を用いた MDP としてこの問題を定式化することを提案する。
提案したMDPのBanditsアルゴリズムは,$epsilon$-greedyと$epsilon$-greedy,$epsilon$,IndependentBandits,InteractionBanditsでQ-learningを上回っている。
論文 参考訳(メタデータ) (2021-07-01T03:54:36Z) - Constrained Combinatorial Optimization with Reinforcement Learning [0.30938904602244344]
本稿では,RL(Deep Reinforcement Learning)を用いた制約付き最適化問題に対処する枠組みを提案する。
我々は、その定式化における制約に対処するために、Neural Combinatorial Optimization(NCO)理論を拡張した。
その文脈では、ソリューションは環境との相互作用に基づいて反復的に構築されます。
論文 参考訳(メタデータ) (2020-06-22T03:13:07Z) - Robust Multi-object Matching via Iterative Reweighting of the Graph
Connection Laplacian [15.813217907813778]
まず,本手法の厳密な限界と,反復的に再重み付けされた最小二乗法が不適切であることを明らかにする。
これらの制約を考慮すると,高次地区からの情報を取り入れた,新しい,より信頼性の高い反復的再重み付け戦略を提案する。
合成データと実データの両方を用いた最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-06-11T17:53:01Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z) - MCQA: Multimodal Co-attention Based Network for Question Answering [81.13159904820382]
我々のアルゴリズムは、クエリのコンテキストを形成するマルチモーダル入力(テキスト、オーディオ、ビデオ)を融合し、整列する。
マルチモーダル質問応答のベンチマークデータセットであるSocial-IQを用いて,提案アルゴリズムの性能評価を行った。
論文 参考訳(メタデータ) (2020-04-25T21:37:12Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。