Fugu-MT 論文翻訳(概要): Are you doing what I say? On modalities alignment in ALFRED

論文の概要: Are you doing what I say? On modalities alignment in ALFRED

arxiv url: http://arxiv.org/abs/2110.05665v1
Date: Tue, 12 Oct 2021 01:05:37 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-14 04:57:10.819103
Title: Are you doing what I say? On modalities alignment in ALFRED
Title（参考訳）: 私の言う通りにしてるの? ALFREDにおけるモダリティアライメントについて
Authors: Ting-Rui Chiang, Yi-Ting Yeh, Ta-Chung Chi, Yau-Shian Wang
Abstract要約: ALFREDは、自然言語の命令によって指定されたシミュレーションされた住宅環境におけるタスクを完了させるモデルを必要とする。成功への鍵となるモダリティは、テキストを視覚的な入力と正確に整合させることである。モデルアライメントの改善を目的としたアプローチを導入し、アライメントの改善、エンドタスクのパフォーマンス向上を実証する。
参考スコア（独自算出の注目度）: 6.46147328920679
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: ALFRED is a recently proposed benchmark that requires a model to complete tasks in simulated house environments specified by instructions in natural language. We hypothesize that key to success is accurately aligning the text modality with visual inputs. Motivated by this, we inspect how well existing models can align these modalities using our proposed intrinsic metric, boundary adherence score (BAS). The results show the previous models are indeed failing to perform proper alignment. To address this issue, we introduce approaches aimed at improving model alignment and demonstrate how improved alignment, improves end task performance.
Abstract（参考訳）: ALFREDは最近提案されたベンチマークで、自然言語の命令によって指定されたシミュレーションされた住宅環境でタスクを完了させるモデルを必要とする。成功への鍵は、テキストのモダリティを視覚的な入力と正確に一致させることであると仮定する。提案する本質的指標である境界遵守スコア(bas)を用いて,既存のモデルがこれらのモダリティをどのように整列できるかを検証した。結果は、以前のモデルが適切なアライメントを実行できないことを示している。この問題に対処するために、モデルアライメントの改善を目的としたアプローチを導入し、アライメントの改善、エンドタスクのパフォーマンスの向上を実証する。

関連論文リスト

SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文参考訳（メタデータ） (2025-02-24T07:15:05Z)
Extract Free Dense Misalignment from CLIP [7.0247398611254175]
この研究はCLIP4DMと呼ばれる新しいアプローチを提案する。我々は、個々のテキストトークンの負の勾配を誤適応を示すために、勾配に基づく属性計算法を改良する。提案手法は,ゼロショットモデル間の最先端性能と微調整モデルとの競合性能を示す。
論文参考訳（メタデータ） (2024-12-24T12:51:05Z)
Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文参考訳（メタデータ） (2024-10-18T03:34:32Z)
Removing Distributional Discrepancies in Captions Improves Image-Text Alignment [76.31530836622694]
画像テキストアライメントの予測を改善するためのモデルを提案する。このアプローチでは、アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いています。また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。
論文参考訳（メタデータ） (2024-10-01T17:50:17Z)
Hard Prompts Made Interpretable: Sparse Entropy Regularization for Prompt Tuning with RL [29.01858866450715]
ソフトQ-ラーニングを利用した最適なプロンプトを見つけることを目的としたRLPromptを提案する。結果は有望な結果を示す一方で,プロンプトが不自然に現れることがしばしばあり,その解釈可能性を妨げることが確認されている。この制限をスパルス・ツァリスエントロピー正規化(英語版)を用いて解決する。
論文参考訳（メタデータ） (2024-07-20T03:10:19Z)
Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。 DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文参考訳（メタデータ） (2024-07-03T15:01:18Z)
Information Theoretic Text-to-Image Alignment [49.396917351264655]
相互情報(MI)は、モデルアライメントのガイドに使用される。本手法は,自己教師型微調整を用いて,プロンプトと画像間のポイントワイド(MI)推定に依存する。解析の結果,本手法は最先端の手法よりも優れているが,MIを推定するにはT2Iモデル自体の事前学習されたデノナイジングネットワークが必要であることが示唆された。
論文参考訳（メタデータ） (2024-05-31T12:20:02Z)
Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
SIMAは、自己改善を通じて視覚的および言語的モダリティアライメントを強化するフレームワークである。コンテキスト内自己批判機構を使用して、プライオリティチューニングのためのレスポンスペアを選択する。 SIMAは従来の手法よりも優れたモダリティアライメントを実現することを実証する。
論文参考訳（メタデータ） (2024-05-24T23:09:27Z)
Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。 LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文参考訳（メタデータ） (2024-05-23T14:30:33Z)
Instruction Position Matters in Sequence Generation with Large Language Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文参考訳（メタデータ） (2023-08-23T12:36:57Z)
Preserving Pre-trained Features Helps Calibrate Fine-tuned Language Models [23.881825575095945]
大規模事前学習型言語モデル(PLM)は、微調整により自然言語理解(NLU)タスクに強い性能を示す。しかし、微調整されたモデルは、特にドメイン外設定において、過度に自信過剰な予測に悩まされている。本研究では,PLMがマスキング言語モデリングタスクにおいて,ドメインシフトの下で頑健な予測信頼度を有することを実証する。事前学習した特徴の保存は、微調整言語モデルの校正を改善することができることを示す。
論文参考訳（メタデータ） (2023-05-30T17:35:31Z)
On the Limits of Evaluating Embodied Agent Model Generalization Using Validation Sets [101.28658250723804]
本稿では,より広い視野を効果的に活用し,次のステップでナビゲーションや操作を行うかを選択するモジュールによるトランスフォーマーモデルの拡張実験を行う。提案したモジュールは改良され,実際に,一般的なベンチマークデータセットであるALFREDの未確認検証セット上での最先端のパフォーマンスが向上した。この結果は、機械学習タスクではより広い現象かもしれないが、主にテストスプリットの評価を制限するベンチマークでのみ顕著である、と我々は考えているので強調する。
論文参考訳（メタデータ） (2022-05-18T23:52:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。