Fugu-MT 論文翻訳(概要): Evaluating the Capabilities of Multi-modal Reasoning Models with Synthetic Task Data

論文の概要: Evaluating the Capabilities of Multi-modal Reasoning Models with Synthetic Task Data

arxiv url: http://arxiv.org/abs/2306.01144v1
Date: Thu, 1 Jun 2023 20:56:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-05 17:41:39.292973
Title: Evaluating the Capabilities of Multi-modal Reasoning Models with Synthetic Task Data
Title（参考訳）: 合成タスクデータを用いたマルチモーダル推論モデルの能力評価
Authors: Nathan Vaska, Victoria Helus
Abstract要約: 我々は高解像度テキスト・画像生成の進歩を活用し、マルチモーダル推論タスクの評価データを生成するフレームワークを開発する。このフレームワークを用いて、コンテキスト依存の異常データを生成し、困難なタスクに合成データセットを作成する。我々は,タスクが抽出可能である一方で,標準的なVQAタスクよりもコンテキスト依存型異常検出タスクでは,モデルが大幅に悪化することを示した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The impressive advances and applications of large language and joint language-and-visual understanding models has led to an increased need for methods of probing their potential reasoning capabilities. However, the difficulty of gather naturally-occurring data for complex multi-modal reasoning tasks bottlenecks the evaluation of AI methods on tasks which are not already covered by an academic dataset. In this work, we leverage recent advances in high resolution text-to-image generation to develop a framework for generating evaluation data for multi-modal reasoning tasks. We apply this framework to generate context-dependent anomaly data, creating a synthetic dataset on a challenging task which is not well covered by existing datasets. We benchmark the performance of a state-of-the-art visual question answering (VQA) model against data generated with this method, and demonstrate that while the task is tractable, the model performs significantly worse on the context-dependent anomaly detection task than on standard VQA tasks.
Abstract（参考訳）: 大規模言語と統合言語と視覚理解モデルの印象的な進歩と応用により、潜在的な推論能力を調べる方法の必要性が高まっている。しかし、複雑なマルチモーダル推論タスクに対する自然に発生するデータ収集の難しさは、すでに学術データセットでカバーされていないタスクに対するAIメソッドの評価をボトルネックにしている。本研究では,高解像度テキスト・画像生成の最近の進歩を活用し,マルチモーダル推論タスクの評価データを生成するフレームワークを開発する。このフレームワークをコンテキスト依存の異常データ生成に適用し、既存のデータセットではあまりカバーされていない課題タスクで合成データセットを作成する。本手法によって生成されたデータに対して,最先端のビジュアル質問応答(vqa)モデルの性能をベンチマークし,そのタスクが扱いやすい一方で,通常のvqaタスクよりもコンテキスト依存異常検出タスクにおいて著しく性能が低下することを示す。

関連論文リスト

C2-Evo: Co-Evolving Multimodal Data and Model for Self-Improving Reasoning [78.36259648527401]
C2-Evoは、トレーニングデータとモデル機能の両方を共同で進化させる、自動クローズドループ自己改善フレームワークである。 C2-Evoは、複数の数学的推論ベンチマークにおいて、一定の性能向上が得られることを示す。
論文参考訳（メタデータ） (2025-07-22T12:27:08Z)
Diagnosing and Mitigating Modality Interference in Multimodal Large Language Models [28.20124264650572]
MLLM(Multimodal Large Language Models)はタスク間で印象的な機能を示す。特にVQA(Visual Question Answering)のようなタスクにおいて、タスク関連と無関係な信号の区別が難しい場合が多い。この脆弱性は、画像分類や純粋なテキスト質問応答など、モダリティ固有のタスクでより明確になる。本稿では,摂動と対向的摂動を併用した摂動に基づくデータ拡張を含む,MLLMを微調整する新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-05-26T07:31:32Z)
Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-10T15:31:54Z)
Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。 ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文参考訳（メタデータ） (2025-02-08T00:16:44Z)
TARGA: Targeted Synthetic Data Generation for Practical Reasoning over Structured Data [9.390415313514762]
TARGAは、手動のアノテーションなしで高関連性合成データを生成するフレームワークである。これは、クローズソースモデルを使用する既存の非微調整手法よりも大幅に優れている。非I.I.D.設定下では、優れたサンプル効率、堅牢性、一般化能力を示す。
論文参考訳（メタデータ） (2024-12-27T09:16:39Z)
Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文参考訳（メタデータ） (2024-10-24T12:42:04Z)
Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks [50.75902473813379]
本研究は、そのようなモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。提案フレームワークは,極度の命令摂動に対するマルチモーダルモデルのレジリエンスと,観測的変化に対する脆弱性を明らかにする。
論文参考訳（メタデータ） (2024-07-04T14:36:49Z)
Improving QA Model Performance with Cartographic Inoculation [0.0]
データセットアーティファクト"は、実世界のQA問題に一般化するモデルの能力を低下させる。逆問題集合を用いてデータセットアーティファクトの影響と頻度を解析する。課題集合から曖昧な逆数例のモデルを選択的に微調整することにより、大幅な性能改善が可能であることを示す。
論文参考訳（メタデータ） (2024-01-30T23:08:26Z)
Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers [54.83459025465947]
最大のモデルでさえ、構成的推論、一般化、きめ細かい空間的および時間的推論、数え上げに苦しむ。コントローラとしての大きな言語モデル(LLM)による視覚的推論は、原則として、タスクを分解し、一連の(視覚的な)ツールを編成することでサブタスクを解決することで、これらの制限に対処することができる。本稿では,空間的・時間的に抽象的なルーチンを導入し,少数のラベル付き例を利用してコンテキスト内サンプルを自動的に生成することにより,これらの問題を緩和するフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-03T20:48:47Z)
Revisit Input Perturbation Problems for LLMs: A Unified Robustness Evaluation Framework for Noisy Slot Filling Task [18.623619585980688]
本研究では,大言語モデルの対話理解能力を評価するために,スロット充足タスクに基づく統一ロバストネス評価フレームワークを提案する。具体的には,5種類の単一摂動と4種類の混合摂動データを含む入力摂動評価データセットであるノイズLLMを構築した。本研究の目的は,LLMの様々なロバスト性評価手法が実世界の雑音のシナリオでどの程度機能するかを評価することである。
論文参考訳（メタデータ） (2023-10-10T10:22:05Z)
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2023-05-29T05:20:38Z)
STAR: Boosting Low-Resource Information Extraction by Structure-to-Text Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-05-24T12:15:19Z)
Exposing and Addressing Cross-Task Inconsistency in Unified Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文参考訳（メタデータ） (2023-03-28T16:57:12Z)
GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文参考訳（メタデータ） (2023-02-16T16:45:36Z)
Harnessing the Power of Multi-Task Pretraining for Ground-Truth Level Natural Language Explanations [12.757277574843101]
自然言語の説明は、複雑な視覚言語タスクにおけるニューラルネットワークの決定プロセスの直感的に理解できる説明を提供することを約束する。現在のモデルでは、タスクの正確さと説明の妥当性に優れたパフォーマンスを提供するが、様々な問題に悩まされている。生成型トランスフォーマーモデルの大規模マルチタスク事前学習における最近の進歩をVL-NLEタスクの問題に適用する。提案手法は, 3つの評価されたデータセットのうち2つにおいて, 人間の注釈者が生成した説明を地上の真実よりも好んで, 最新のモデルよりも優れている。
論文参考訳（メタデータ） (2022-12-08T12:28:23Z)
Eliminating Catastrophic Interference with Biased Competition [0.0]
本稿では,複雑なデータセットのマルチタスク特性を活用するモデルを提案する。このモデルは,新たに作成したデータセット上でのタスク間の破滅的な干渉を排除し,視覚質問応答空間における競合的な結果をもたらすことを実証する。
論文参考訳（メタデータ） (2020-07-03T16:15:15Z)
DQI: Measuring Data Quality in NLP [22.54066527822898]
データ品質指標(DQI)の一般的な式を導入し、データセット作成者が望ましくないバイアスのないデータセットを作成するのを支援する。 SNLIデータセットを用いてトレーニングしたモデルが,分散タスクの外部に一般化できることが示される。
論文参考訳（メタデータ） (2020-05-02T12:34:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。