論文の概要: MMMT-IF: A Challenging Multimodal Multi-Turn Instruction Following Benchmark
- arxiv url: http://arxiv.org/abs/2409.18216v1
- Date: Thu, 26 Sep 2024 18:51:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 15:21:45.169937
- Title: MMMT-IF: A Challenging Multimodal Multi-Turn Instruction Following Benchmark
- Title(参考訳): MMMT-IF:ベンチマーク後のマルチモーダルマルチトゥルインストラクション
- Authors: Elliot L. Epstein, Kaisheng Yao, Jing Li, Xinyi Bai, Hamid Palangi,
- Abstract要約: MMMT-IFは画像に基づくマルチターンQ$&$A評価セットで、質問間のグローバルな指示を追加する。
本稿では,プログラム命令追従(operatornamePIF$)メトリックを導入し,推論タスクの実行中に正しく追従される命令の分数を測定する。
実験では、Gemini 1.5 Pro、GPT-4o、Claude 3.5 Sonnetが平均0.81ドルから20ドルに値下げした。
- 参考スコア(独自算出の注目度): 19.008648554617338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating instruction following capabilities for multimodal, multi-turn dialogue is challenging. With potentially multiple instructions in the input model context, the task is time-consuming for human raters and we show LLM based judges are biased towards answers from the same model. We propose MMMT-IF, an image based multi-turn Q$\&$A evaluation set with added global instructions between questions, constraining the answer format. This challenges models to retrieve instructions dispersed across long dialogues and reason under instruction constraints. All instructions are objectively verifiable through code execution. We introduce the Programmatic Instruction Following ($\operatorname{PIF}$) metric to measure the fraction of the instructions that are correctly followed while performing a reasoning task. The $\operatorname{PIF-N-K}$ set of metrics further evaluates robustness by measuring the fraction of samples in a corpus where, for each sample, at least K out of N generated model responses achieve a $\operatorname{PIF}$ score of one. The $\operatorname{PIF}$ metric aligns with human instruction following ratings, showing 60 percent correlation. Experiments show Gemini 1.5 Pro, GPT-4o, and Claude 3.5 Sonnet, have a $\operatorname{PIF}$ metric that drops from 0.81 on average at turn 1 across the models, to 0.64 at turn 20. Across all turns, when each response is repeated 4 times ($\operatorname{PIF-4-4}$), GPT-4o and Gemini successfully follow all instructions only $11\%$ of the time. When all the instructions are also appended to the end of the model input context, the $\operatorname{PIF}$ metric improves by 22.3 points on average, showing that the challenge with the task lies not only in following the instructions, but also in retrieving the instructions spread out in the model context. We plan to open source the MMMT-IF dataset and metric computation code.
- Abstract(参考訳): マルチモーダル・マルチターン対話のための命令追従機能の評価は困難である。
入力モデルのコンテキストにおいて、潜在的に複数の命令が与えられた場合、そのタスクは人間のレーダに時間を要するので、LLMベースの判断者は同一モデルからの回答に偏りがあることが示される。
画像に基づくマルチターンQ$&$A評価セットであるMMMT-IFを提案する。
これにより、長い対話と命令制約下での推論に分散した命令を検索するモデルに挑戦する。
すべての命令は、コード実行によって客観的に検証される。
我々は、推論タスクを実行しながら、正しく従う命令の分数を測定するために、Programmatic Instruction following ($\operatorname{PIF}$)メトリックを導入する。
さらに、$\operatorname{PIF-N-K}$の値集合は、コーパス内のサンプルの分数を測定することでロバスト性を評価し、各サンプルに対して、N 生成モデル応答のうち少なくとも K が$\operatorname{PIF}$のスコアを得る。
$\operatorname{PIF}$メトリックは、評価後の人間の指示と一致し、60%の相関を示す。
実験によると、Gemini 1.5 Pro、GPT-4o、Claude 3.5 Sonnetは$\operatorname{PIF}$の計量を持ち、平均で0.81から0.64に落ちている。
すべてのターンで、各レスポンスが4回繰り返す(\operatorname{PIF-4}$)と、GPT-4oとGeminiは、すべての命令に従うことに成功した。
すべての命令がモデル入力コンテキストの最後に付加される場合、$\operatorname{PIF}$のメトリックは平均22.3ポイント改善され、タスクの課題は命令に従うだけでなく、モデルコンテキストに散らばる命令を取得することにある。
我々はMMMT-IFデータセットとメートル法計算コードをオープンソース化する計画である。
関連論文リスト
- Stealing User Prompts from Mixture of Experts [62.83486196376189]
敵がExpert-Choice-Routingを利用して被害者のプロンプトを完全に開示する方法を示す。
これは、ユーザープロンプトを抽出するためにアーキテクチャ上の欠陥を利用する最初の攻撃である。
論文 参考訳(メタデータ) (2024-10-30T10:25:35Z) - IT$^3$: Idempotent Test-Time Training [95.78053599609044]
本稿では,分散シフトの課題に対処する新しいアプローチであるIdempotent Test-Time Training (IT$3$)を紹介する。
IT$3$は、イデオロジェンスの普遍性に基づいている。
画像分類の劣化など,様々なタスクにまたがるアプローチの汎用性を実証する。
論文 参考訳(メタデータ) (2024-10-05T15:39:51Z) - Understanding the Multi-modal Prompts of the Pre-trained Vision-Language
Model [15.828023370166411]
我々は、以下の質問をすることで、マルチモーダルプロンプトを直接分析する。
$(i)$ 学習したマルチモーダルはどのように認識性能を向上させるのか?
$(ii)$ マルチモーダルプロンプトは何を学習しますか?
論文 参考訳(メタデータ) (2023-12-18T04:49:03Z) - PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task
Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。
また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。
その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-03T08:06:35Z) - Scaling Distributed Multi-task Reinforcement Learning with Experience
Sharing [38.883540444516605]
DARPAはShELLプログラムを立ち上げた。これは、経験共有が分散生涯学習エージェントにどのように役立つかを探求することを目的としている。
分散マルチタスク強化学習(RL)の理論的および実証的研究を行い、N$エージェントのグループがM$タスクを協調的に解決する。
我々はDistMT-LSVIと呼ばれるアルゴリズムを提案し、各エージェントは独立に$epsilon$-optimal Policyを全ての$M$タスクに対して学習する。
論文 参考訳(メタデータ) (2023-07-11T22:58:53Z) - VIMA: General Robot Manipulation with Multimodal Prompts [82.01214865117637]
ロボット操作タスクの幅広い範囲をマルチモーダルプロンプトで表現できることを示す。
我々は,数千の手続き的に生成されたテーブルトップタスクからなる新しいシミュレーションベンチマークを開発した。
我々は、これらのプロンプトを処理し、自動回帰的に運動動作を出力するトランスフォーマーベースのロボットエージェントVIMAを設計する。
論文 参考訳(メタデータ) (2022-10-06T17:50:11Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - Reward-Free Model-Based Reinforcement Learning with Linear Function
Approximation [92.99933928528797]
エピソードマルコフ決定過程(MDP)に対する線形関数近似を用いたモデルに基づく無報酬強化学習について検討する。
計画段階では、特定の報酬関数が与えられ、探索フェーズから収集したサンプルを使用して良い政策を学ぶ。
任意の報酬関数に対して$epsilon$-optimal Policyを得るには,最大$tilde O(H4d(H + d)epsilon-2)$ episodesをサンプリングする必要がある。
論文 参考訳(メタデータ) (2021-10-12T23:03:58Z) - Multitask Online Mirror Descent [35.93027027759005]
MT-OMDは,タスク間で更新を共有して操作するオンラインミラードライザー(OMD)のマルチタスク一般化である。
OMD の重要な2つの例である Online Gradient Descent と Exponentiated Gradient の拡張は、クローズドフォームの更新を楽しみます。
論文 参考訳(メタデータ) (2021-06-04T10:14:57Z) - Simpson's Bias in NLP Training [4.171555557592296]
サンプルレベル損失$G$の一般的な設計は、そのタスクの真の人口レベル指標$F$と矛盾する可能性があることを示す。
我々はこの現象をシンプソンの偏見と呼び、統計学や社会科学におけるシンプソンの逆パラドックスとして知られる古典的なパラドックスと深く結びついている。
論文 参考訳(メタデータ) (2021-03-13T06:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。