論文の概要: Evaluating the Capabilities of Multi-modal Reasoning Models with
Synthetic Task Data
- arxiv url: http://arxiv.org/abs/2306.01144v1
- Date: Thu, 1 Jun 2023 20:56:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 17:41:39.292973
- Title: Evaluating the Capabilities of Multi-modal Reasoning Models with
Synthetic Task Data
- Title(参考訳): 合成タスクデータを用いたマルチモーダル推論モデルの能力評価
- Authors: Nathan Vaska, Victoria Helus
- Abstract要約: 我々は高解像度テキスト・画像生成の進歩を活用し、マルチモーダル推論タスクの評価データを生成するフレームワークを開発する。
このフレームワークを用いて、コンテキスト依存の異常データを生成し、困難なタスクに合成データセットを作成する。
我々は,タスクが抽出可能である一方で,標準的なVQAタスクよりもコンテキスト依存型異常検出タスクでは,モデルが大幅に悪化することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The impressive advances and applications of large language and joint
language-and-visual understanding models has led to an increased need for
methods of probing their potential reasoning capabilities. However, the
difficulty of gather naturally-occurring data for complex multi-modal reasoning
tasks bottlenecks the evaluation of AI methods on tasks which are not already
covered by an academic dataset. In this work, we leverage recent advances in
high resolution text-to-image generation to develop a framework for generating
evaluation data for multi-modal reasoning tasks. We apply this framework to
generate context-dependent anomaly data, creating a synthetic dataset on a
challenging task which is not well covered by existing datasets. We benchmark
the performance of a state-of-the-art visual question answering (VQA) model
against data generated with this method, and demonstrate that while the task is
tractable, the model performs significantly worse on the context-dependent
anomaly detection task than on standard VQA tasks.
- Abstract(参考訳): 大規模言語と統合言語と視覚理解モデルの印象的な進歩と応用により、潜在的な推論能力を調べる方法の必要性が高まっている。
しかし、複雑なマルチモーダル推論タスクに対する自然に発生するデータ収集の難しさは、すでに学術データセットでカバーされていないタスクに対するAIメソッドの評価をボトルネックにしている。
本研究では,高解像度テキスト・画像生成の最近の進歩を活用し,マルチモーダル推論タスクの評価データを生成するフレームワークを開発する。
このフレームワークをコンテキスト依存の異常データ生成に適用し、既存のデータセットではあまりカバーされていない課題タスクで合成データセットを作成する。
本手法によって生成されたデータに対して,最先端のビジュアル質問応答(vqa)モデルの性能をベンチマークし,そのタスクが扱いやすい一方で,通常のvqaタスクよりもコンテキスト依存異常検出タスクにおいて著しく性能が低下することを示す。
関連論文リスト
- Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - TARGA: Targeted Synthetic Data Generation for Practical Reasoning over Structured Data [9.390415313514762]
TARGAは、手動のアノテーションなしで高関連性合成データを生成するフレームワークである。
これは、クローズソースモデルを使用する既存の非微調整手法よりも大幅に優れている。
非I.I.D.設定下では、優れたサンプル効率、堅牢性、一般化能力を示す。
論文 参考訳(メタデータ) (2024-12-27T09:16:39Z) - Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks [50.75902473813379]
本研究は、そのようなモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。
提案フレームワークは,極度の命令摂動に対するマルチモーダルモデルのレジリエンスと,観測的変化に対する脆弱性を明らかにする。
論文 参考訳(メタデータ) (2024-07-04T14:36:49Z) - Improving QA Model Performance with Cartographic Inoculation [0.0]
データセットアーティファクト"は、実世界のQA問題に一般化するモデルの能力を低下させる。
逆問題集合を用いてデータセットアーティファクトの影響と頻度を解析する。
課題集合から曖昧な逆数例のモデルを選択的に微調整することにより、大幅な性能改善が可能であることを示す。
論文 参考訳(メタデータ) (2024-01-30T23:08:26Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z) - GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。
外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文 参考訳(メタデータ) (2023-02-16T16:45:36Z) - Harnessing the Power of Multi-Task Pretraining for Ground-Truth Level
Natural Language Explanations [12.757277574843101]
自然言語の説明は、複雑な視覚言語タスクにおけるニューラルネットワークの決定プロセスの直感的に理解できる説明を提供することを約束する。
現在のモデルでは、タスクの正確さと説明の妥当性に優れたパフォーマンスを提供するが、様々な問題に悩まされている。
生成型トランスフォーマーモデルの大規模マルチタスク事前学習における最近の進歩をVL-NLEタスクの問題に適用する。
提案手法は, 3つの評価されたデータセットのうち2つにおいて, 人間の注釈者が生成した説明を地上の真実よりも好んで, 最新のモデルよりも優れている。
論文 参考訳(メタデータ) (2022-12-08T12:28:23Z) - DQI: Measuring Data Quality in NLP [22.54066527822898]
データ品質指標(DQI)の一般的な式を導入し、データセット作成者が望ましくないバイアスのないデータセットを作成するのを支援する。
SNLIデータセットを用いてトレーニングしたモデルが,分散タスクの外部に一般化できることが示される。
論文 参考訳(メタデータ) (2020-05-02T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。