Fugu-MT 論文翻訳(概要): Latent Alignment of Procedural Concepts in Multimodal Recipes

論文の概要: Latent Alignment of Procedural Concepts in Multimodal Recipes

arxiv url: http://arxiv.org/abs/2101.04727v1
Date: Tue, 12 Jan 2021 19:55:53 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-04 01:53:52.614011
Title: Latent Alignment of Procedural Concepts in Multimodal Recipes
Title（参考訳）: マルチモーダルレシピにおける手続き的概念の潜在アライメント
Authors: Hossein Rajaby Faghihi, Roshanak Mirzaee, Sudarshan Paliwal, and Parisa Kordjamshidi
Abstract要約: 新規にリリースされたマルチモーダルQAデータセット上での手続き的推論に対処するための新しいアライメントメカニズムを提案する。我々は,アテンションネットワーク,クロスモーダル表現,命令と候補回答間の潜在アライメント空間のパワーを活用し,この問題を解決した。
参考スコア（独自算出の注目度）: 5.967279020820772
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a novel alignment mechanism to deal with procedural reasoning on a newly released multimodal QA dataset, named RecipeQA. Our model is solving the textual cloze task which is a reading comprehension on a recipe containing images and instructions. We exploit the power of attention networks, cross-modal representations, and a latent alignment space between instructions and candidate answers to solve the problem. We introduce constrained max-pooling which refines the max-pooling operation on the alignment matrix to impose disjoint constraints among the outputs of the model. Our evaluation result indicates a 19\% improvement over the baselines.
Abstract（参考訳）: 本稿では、新たにリリースされたマルチモーダルQAデータセットRecipeQAの手続き的推論を扱うための新しいアライメント機構を提案する。私たちのモデルは,画像と指示を含むレシピの読み解き理解であるテキストクローゼタスクを解決している。我々は,アテンションネットワーク,クロスモーダル表現,命令と候補回答間の潜在アライメント空間のパワーを活用し,この問題を解決した。本稿では,アライメント行列の最大プーリング操作を洗練し,モデルの出力間に不一致な制約を課す制約付きマックスプーリングを提案する。評価の結果,ベースラインに対して19-%改善が見られた。

関連論文リスト

Chain-of-Context Learning: Dynamic Constraint Understanding for Multi-Task VRPs [27.821803041439953]
マルチタスク車両ルーティング問題(VRP)は、様々な制約を満たすとともに、ルーティングコストを最小限にすることを目的としている。既存のソルバは通常、タスク間で一般化可能なパターンを学ぶために統合強化学習(RL)フレームワークを採用する。我々は、進化するコンテキストを段階的にキャプチャして、きめ細かいノード適応を導く新しいフレームワークであるChain-of-Context Learning (CCL)を提案する。
論文参考訳（メタデータ） (2026-03-02T09:57:15Z)
Enhancing LLM Instruction Following: An Evaluation-Driven Multi-Agentic Workflow for Prompt Instructions Optimization [2.9203730377983654]
大規模言語モデル(LLM)は、しばしば実質的な関連性のあるコンテンツを生成するが、形式的な制約に従わない。本稿では,その制約からタスク記述の最適化を分離する,新しいマルチエージェントワークフローを提案する。
論文参考訳（メタデータ） (2026-01-06T19:02:14Z)
WeMMU: Enhanced Bridging of Vision-Language Models and Diffusion Models via Noisy Query Tokens [69.97021957331326]
本稿では,VLMと拡散モデル間の分散表現空間をエンドツーエンドの最適化により学習するノイズクエリトークンを提案する。また、細粒度画像の詳細を復元する線形投影を用いたVAE分岐も導入する。
論文参考訳（メタデータ） (2025-12-02T09:02:20Z)
Planning for Success: Exploring LLM Long-term Planning Capabilities in Table Understanding [24.3302301035859]
本稿では,大規模言語モデルの長期計画能力を活用してテーブル理解を強化することを提案する。当社のアプローチでは,ステップが緊密に相互接続され,最終的な目標を達成する,長期計画の実行を可能にします。本手法は,WikiTableQuestionsおよびTabFactデータセット上での最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-08-23T12:24:35Z)
Context Attribution with Multi-Armed Bandit Optimization [11.715006981206844]
本稿では,コンテキスト属性をCMAB(Multi-armed bandit)問題として定式化する新しいフレームワークを提案する。我々は、限られたクエリ予算の下で、指数的に大きなコンテキストサブセットの空間を効率的に探索するために、 Combinatorial Thompson Sampling (CTS) を採用している。本手法は,正規化トークンの確率に基づいて報酬関数を定義し,セグメントのサブセットが元のモデル応答をどれだけうまくサポートしているかを抽出する。
論文参考訳（メタデータ） (2025-06-24T19:47:27Z)
Distributed Multi-Task Learning for Stochastic Bandits with Context Distribution and Stage-wise Constraints [0.0]
本稿では,分散上信頼度境界(UCB)アルゴリズム,関連UCBを提案する。提案アルゴリズムは,各ラウンドにおいて,制約を満たすためにプルーニングされた動作セットを構築する。合成データと実世界のMovielens-100Kデータに対するアルゴリズムの性能を実証的に検証した。
論文参考訳（メタデータ） (2024-01-21T18:43:55Z)
Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文参考訳（メタデータ） (2023-12-25T18:51:23Z)
Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文参考訳（メタデータ） (2023-10-06T16:36:08Z)
CARE: Coherent Actionable Recourse based on Sound Counterfactual Explanations [0.0]
本稿では,モデルおよびユーザレベルのデシダータに対処するモジュール型説明フレームワークであるCAREを紹介する。モデルに依存しないアプローチとして、CAREはブラックボックスモデルに対して複数の多様な説明を生成する。
論文参考訳（メタデータ） (2021-08-18T15:26:59Z)
Markov Decision Process modeled with Bandits for Sequential Decision Making in Linear-flow [73.1896399783641]
会員/加入者の獲得と保持では、複数のページを連続してマーケティングコンテンツを推奨する必要がある。遷移確率行列をモデル化するためにBandits を用いた MDP としてこの問題を定式化することを提案する。提案したMDPのBanditsアルゴリズムは,$epsilon$-greedyと$epsilon$-greedy,$epsilon$,IndependentBandits,InteractionBanditsでQ-learningを上回っている。
論文参考訳（メタデータ） (2021-07-01T03:54:36Z)
Constrained Combinatorial Optimization with Reinforcement Learning [0.30938904602244344]
本稿では,RL(Deep Reinforcement Learning)を用いた制約付き最適化問題に対処する枠組みを提案する。我々は、その定式化における制約に対処するために、Neural Combinatorial Optimization(NCO)理論を拡張した。その文脈では、ソリューションは環境との相互作用に基づいて反復的に構築されます。
論文参考訳（メタデータ） (2020-06-22T03:13:07Z)
Robust Multi-object Matching via Iterative Reweighting of the Graph Connection Laplacian [15.813217907813778]
まず,本手法の厳密な限界と,反復的に再重み付けされた最小二乗法が不適切であることを明らかにする。これらの制約を考慮すると,高次地区からの情報を取り入れた,新しい,より信頼性の高い反復的再重み付け戦略を提案する。合成データと実データの両方を用いた最先端手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2020-06-11T17:53:01Z)
Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文参考訳（メタデータ） (2020-04-30T09:10:57Z)
MCQA: Multimodal Co-attention Based Network for Question Answering [81.13159904820382]
我々のアルゴリズムは、クエリのコンテキストを形成するマルチモーダル入力(テキスト、オーディオ、ビデオ)を融合し、整列する。マルチモーダル質問応答のベンチマークデータセットであるSocial-IQを用いて,提案アルゴリズムの性能評価を行った。
論文参考訳（メタデータ） (2020-04-25T21:37:12Z)
ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文参考訳（メタデータ） (2020-01-22T14:39:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。