論文の概要: $\left|\,\circlearrowright\,\boxed{\text{BUS}}\,\right|$: A Large and Diverse Multimodal Benchmark for evaluating the ability of Vision-Language Models to understand Rebus Puzzles
- arxiv url: http://arxiv.org/abs/2511.01340v1
- Date: Mon, 03 Nov 2025 08:42:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.179209
- Title: $\left|\,\circlearrowright\,\boxed{\text{BUS}}\,\right|$: A Large and Diverse Multimodal Benchmark for evaluating the ability of Vision-Language Models to understand Rebus Puzzles
- Title(参考訳): $\left|\,\circlearrowright\,\boxed{\text{BUS}}\,\right|$: An Large and Diverse Multimodal Benchmark for the ability of Vision-Language Models to understand Rebus Puzzles
- Authors: Trishanu Das, Abhilash Nandy, Khush Bajaj, Deepiha S,
- Abstract要約: Rebus Puzzlesを理解する(Rebus Puzzlesは画像、シンボル、文字を使って言葉やフレーズを創造的に表現する)には、画像認識、認知スキル、常識推論、マルチステップ推論、画像ベースのワードプレイなど、さまざまなスキルが必要である。
RebusDescProgICE$は、非構造化記述とコードベースの構造化推論の組み合わせと、より優れた推論ベースのコンテキスト内例選択を利用する、モデルに依存しないフレームワークです。
- 参考スコア(独自算出の注目度): 2.1040348692366426
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding Rebus Puzzles (Rebus Puzzles use pictures, symbols, and letters to represent words or phrases creatively) requires a variety of skills such as image recognition, cognitive skills, commonsense reasoning, multi-step reasoning, image-based wordplay, etc., making this a challenging task for even current Vision-Language Models. In this paper, we present $\left|\,\circlearrowright\,\boxed{\text{BUS}}\,\right|$, a large and diverse benchmark of $1,333$ English Rebus Puzzles containing different artistic styles and levels of difficulty, spread across 18 categories such as food, idioms, sports, finance, entertainment, etc. We also propose $RebusDescProgICE$, a model-agnostic framework which uses a combination of an unstructured description and code-based, structured reasoning, along with better, reasoning-based in-context example selection, improving the performance of Vision-Language Models on $\left|\,\circlearrowright\,\boxed{\text{BUS}}\,\right|$ by $2.1-4.1\%$ and $20-30\%$ using closed-source and open-source models respectively compared to Chain-of-Thought Reasoning.
- Abstract(参考訳): Rebus Puzzles (Rebus Puzzles は、画像認識、認知スキル、コモンセンス推論、マルチステップ推論、画像ベースのワードプレイなど、様々なスキルを必要とする。
本稿では,料理,イディオム,スポーツ,ファイナンス,エンターテイメントなどの18のカテゴリーにまたがる,異なる芸術様式と難易度を含む,1333ドルのイングリッシュ・リバス・プッズの大規模かつ多種多様なベンチマークである$\left|\,\circlearrowright\,\boxed{\text{BUS}}\,\right|$を紹介する。
RebusDescProgICE$は、構造化されていない記述とコードに基づく構造化された推論の組み合わせと、より優れた推論ベースのインコンテキストの例の選択、$\left|\,\circlearrowright\,\boxed{\text{BUS}}\,\right|$2.1-4.1\%$と20-30\%$のVision-Language Models on $\left|\,\boxed{\text{BUS}}\,\right|$を、Chain-of-Thought Reasoningと比較してそれぞれクローズドソースモデルと20-30\%$で改善するモデルに依存しないフレームワークである。
関連論文リスト
- Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint [57.73346054360675]
画像、空間配置、記号置換を通じて言語を符号化するリバスパズルは、現在の視覚言語モデル(VLM)に固有の課題をもたらす。
本稿では,現代VLMにおけるレバスパズルの解釈と解決の能力について,多種多様な英語リバスパズルの手書きおよび注釈付きベンチマークを構築して検討する。
論文 参考訳(メタデータ) (2025-05-29T17:59:47Z) - ABC: Achieving Better Control of Multimodal Embeddings using VLMs [61.396457715710774]
ビジュアル埋め込みモデルは、ビジュアル検索や分類のようなゼロショットタスクで優れている。
これらのモデルは曖昧さやユーザ命令を必要とするタスクには使用できない。
本稿では,視覚言語モデルバックボーンを用いたオープンソースのマルチモーダル埋め込みモデルABCを紹介する。
論文 参考訳(メタデータ) (2025-03-01T03:29:02Z) - JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images [72.42826916932519]
生成した画像のベンチマークであるJourneyBenchをリリースし、モデルの微細なマルチモーダル推論能力を評価する。
既存のベンチマークとは異なり、JourneyBenchは特異な想像上のシナリオにおいて、きめ細かいマルチモーダル推論を必要とする。
5つのタスクにまたがる結果から、JourneyBenchは最高のモデルでも非常に難しい。
論文 参考訳(メタデータ) (2024-09-19T17:58:16Z) - Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities [30.96613796974929]
マルチモーダルな大言語モデルの視覚的推論能力を解き放つための簡単な手法を提案する。
ホワイトボード・オブ・シークレットはモデルに比喩的なホワイトボードを提供し、画像として推論ステップを引き出す。
この単純なアプローチは、4つの難しい自然言語タスクに関する最先端の結果を示す。
論文 参考訳(メタデータ) (2024-06-20T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。