論文の概要: Can Large Language Models Unveil the Mysteries? An Exploration of Their Ability to Unlock Information in Complex Scenarios
- arxiv url: http://arxiv.org/abs/2502.19973v1
- Date: Thu, 27 Feb 2025 10:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:58:51.150607
- Title: Can Large Language Models Unveil the Mysteries? An Exploration of Their Ability to Unlock Information in Complex Scenarios
- Title(参考訳): 大規模言語モデルは謎を解き明かすことができるか? 複雑なシナリオにおける情報の解錠能力の探索
- Authors: Chao Wang, Luning Zhang, Zheng Wang, Yang Zhou,
- Abstract要約: 複雑なシナリオにおける推論のための複数のインプットを統合するための高度なモデルの可能性について検討する。
本稿では,モデル入力を推論に利用し,最小マージンの復号化による推論を強化し,意味的関連データを取得する3つのプラグアンドプレイ手法を提案する。
提案手法では,SOTAクローズドソースモデルよりもCVQAが22.17%向上し,推論モデルの性能が向上する。
- 参考スコア(独自算出の注目度): 9.761316172913016
- License:
- Abstract: Combining multiple perceptual inputs and performing combinatorial reasoning in complex scenarios is a sophisticated cognitive function in humans. With advancements in multi-modal large language models, recent benchmarks tend to evaluate visual understanding across multiple images. However, they often overlook the necessity of combinatorial reasoning across multiple perceptual information. To explore the ability of advanced models to integrate multiple perceptual inputs for combinatorial reasoning in complex scenarios, we introduce two benchmarks: Clue-Visual Question Answering (CVQA), with three task types to assess visual comprehension and synthesis, and Clue of Password-Visual Question Answering (CPVQA), with two task types focused on accurate interpretation and application of visual data. For our benchmarks, we present three plug-and-play approaches: utilizing model input for reasoning, enhancing reasoning through minimum margin decoding with randomness generation, and retrieving semantically relevant visual information for effective data integration. The combined results reveal current models' poor performance on combinatorial reasoning benchmarks, even the state-of-the-art (SOTA) closed-source model achieves only 33.04% accuracy on CVQA, and drops to 7.38% on CPVQA. Notably, our approach improves the performance of models on combinatorial reasoning, with a 22.17% boost on CVQA and 9.40% on CPVQA over the SOTA closed-source model, demonstrating its effectiveness in enhancing combinatorial reasoning with multiple perceptual inputs in complex scenarios. The code will be publicly available.
- Abstract(参考訳): 複雑なシナリオにおける複数の知覚入力と組合せ推論を組み合わせることは、人間の高度な認知機能である。
マルチモーダルな大言語モデルの発展に伴い、最近のベンチマークでは複数の画像の視覚的理解を評価する傾向にある。
しかし、それらは複数の知覚情報にまたがる組合せ推論の必要性をしばしば見落としている。
複雑なシナリオにおける組合せ推論のための複数の知覚的入力を統合するための高度なモデルの可能性を探るため、視覚的理解と合成を評価するための3つのタスクタイプを持つCVQA(Clue-Visual Question Answering)と、視覚的データの正確な解釈と適用に焦点を当てた2つのタスクタイプを含むCPVQA(Clue of Password-Visual Question Answering)というベンチマークを導入する。
提案手法は,モデル入力を推論に活用すること,最小マージンデコーディングによる推論をランダムネス生成で強化すること,意味的関連視覚情報を有効データ統合に活用すること,の3つである。
組み合わせの結果、組合せ推論ベンチマークにおける現在のモデルの性能は低かったが、最先端(SOTA)クローズドソースモデルでさえCVQAでは33.04%の精度しか達成せず、CPVQAでは7.38%にまで低下した。
提案手法は, CVQAが22.17%, CPVQAが9.40%,SOTAのクローズドソースモデルが9.40%向上し, 複合シナリオにおける複数の知覚入力による組合せ推論の強化効果が示された。
コードは公開されます。
関連論文リスト
- FlowVQA: Mapping Multimodal Logic in Visual Question Answering with Flowcharts [41.84175991112392]
FlowVQAは、フローチャートをビジュアルコンテキストとして推論することで、視覚的質問応答型マルチモーダル言語モデルの能力を評価することを目的とした、新しいベンチマークである。
我々は,様々な戦略を用いて,オープンソースおよびプロプライエタリなマルチモーダル言語モデルのスイートに対して,徹底的なベースライン評価を行う。
この結果は、マルチモーダルモデリングの分野を前進させる重要なツールとしてのベンチマークの可能性を強調している。
論文 参考訳(メタデータ) (2024-06-27T15:01:48Z) - Precision Empowers, Excess Distracts: Visual Question Answering With Dynamically Infused Knowledge In Language Models [36.56689822791777]
KBVQA (Knowledge-Based Visual Question Answering) は、外部知識と質問に答える画像を追加することで、この概念を前進させる。
本研究の主な貢献は、動的トリプル抽出法を用いて知識グラフから抽出した外部知識を組み込むことにより、質問を強化することである。
知識に富んだ我々のモデルは,3種類のKBVQAデータセット上での最先端技術よりも,Exact Match Scoreの平均4.75%向上を示す。
論文 参考訳(メタデータ) (2024-06-14T13:07:46Z) - REBUS: A Robust Evaluation Benchmark of Understanding Symbols [1.90463290938268]
GPT-4oは他の全てのモデルよりも大幅に優れ、続いてプロプライエタリなモデルも他の評価モデルよりも優れていた。
最高のモデルでさえ、最終的な精度はわずか42%で、ハードパズルでは7%に低下する。
したがって、我々のベンチマークは、マルチモーダルな大言語モデルの知識と推論における大きな欠点を特定するのに利用できる。
論文 参考訳(メタデータ) (2024-01-11T00:30:28Z) - X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning [109.9413329636322]
本稿では,複数のモーダル性(画像,3D,オーディオ,ビデオ)を凍結した大規模言語モデル(LLM)に統合する効率的なフレームワークを提案する。
提案手法では, Q-Formers と Linear Projections (LP) の2つの異なるプロジェクション機構について検討する。
論文 参考訳(メタデータ) (2023-11-30T18:43:51Z) - Blind Image Quality Assessment via Vision-Language Correspondence: A
Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。
我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文 参考訳(メタデータ) (2023-03-27T07:58:09Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Exploring Neural Models for Query-Focused Summarization [74.41256438059256]
クエリ中心の要約(QFS)に対するニューラルネットワークの体系的な探索を行う。
本稿では,QMSumデータセットの最先端性能を最大3.38ROUGE-1,3.72ROUGE-2,3.28ROUGE-Lのマージンで達成する2つのモデル拡張を提案する。
論文 参考訳(メタデータ) (2021-12-14T18:33:29Z) - How to find a good image-text embedding for remote sensing visual
question answering? [41.0510495281302]
視覚的質問応答(VQA)がリモートセンシングに導入され、オーバーヘッド画像から情報を取り出すことが可能になった。
遠隔センシングにおけるVQAの文脈における3つの異なる融合手法について検討し,モデルの複雑さに関する精度の利得を解析した。
論文 参考訳(メタデータ) (2021-09-24T09:48:28Z) - Question Answering Infused Pre-training of General-Purpose
Contextualized Representations [70.62967781515127]
汎用的文脈表現学習のための質問応答(QA)に基づく事前学習目的を提案する。
我々は、より正確なクロスエンコーダモデルの予測と一致するように、個別にパスと質問をエンコードするバイエンコーダQAモデルをトレーニングすることで、この目標を達成する。
ゼロショット, 少数ショットのパラフレーズ検出において, RoBERTa-large と過去の最先端のどちらよりも大幅に改善した。
論文 参考訳(メタデータ) (2021-06-15T14:45:15Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。