論文の概要: PuzzleGPT: Emulating Human Puzzle-Solving Ability for Time and Location Prediction
- arxiv url: http://arxiv.org/abs/2501.14210v1
- Date: Fri, 24 Jan 2025 03:28:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:58:44.456706
- Title: PuzzleGPT: Emulating Human Puzzle-Solving Ability for Time and Location Prediction
- Title(参考訳): PuzzleGPT: 時間と位置の予測にヒトの毛細血管溶解能をエミュレートする
- Authors: Hammad Ayyubi, Xuande Feng, Junzhang Liu, Xudong Lin, Zhecan Wang, Shih-Fu Chang,
- Abstract要約: PuzzleGPTは、視覚的手がかりを特定する知覚器、予測候補を推論する推論器、タスクがローカルで解決できない場合に外部知識を得るWeb検索器から構成される。
これにより、2つのデータセットで最先端のパフォーマンスを記録する、ゼロショット、解釈可能、堅牢なアプローチが実現される。
- 参考スコア(独自算出の注目度): 35.77541376401752
- License:
- Abstract: The task of predicting time and location from images is challenging and requires complex human-like puzzle-solving ability over different clues. In this work, we formalize this ability into core skills and implement them using different modules in an expert pipeline called PuzzleGPT. PuzzleGPT consists of a perceiver to identify visual clues, a reasoner to deduce prediction candidates, a combiner to combinatorially combine information from different clues, a web retriever to get external knowledge if the task can't be solved locally, and a noise filter for robustness. This results in a zero-shot, interpretable, and robust approach that records state-of-the-art performance on two datasets -- TARA and WikiTilo. PuzzleGPT outperforms large VLMs such as BLIP-2, InstructBLIP, LLaVA, and even GPT-4V, as well as automatically generated reasoning pipelines like VisProg, by at least 32% and 38%, respectively. It even rivals or surpasses finetuned models.
- Abstract(参考訳): 画像から時間と位置を予測するタスクは困難であり、異なる手がかりに対して複雑な人間のようなパズル解決能力を必要とする。
本研究では、この能力をコアスキルに形式化し、PuzzleGPTと呼ばれるエキスパートパイプラインで異なるモジュールを用いて実装する。
PuzzleGPTは、視覚的手がかりを特定する知覚器、予測候補を推論する推論器、異なる手がかりからの情報を組合せて組み合わせる結合器、タスクが局所的に解決できない場合の外部知識を得るWeb検索器、堅牢性のためのノイズフィルタから構成される。
これにより、ゼロショット、解釈可能、堅牢なアプローチで、2つのデータセット(TARAとWikiTilo)で最先端のパフォーマンスを記録できる。
PuzzleGPTはBLIP-2、InstructBLIP、LLaVA、さらにはGPT-4Vのような大きなVLMよりも優れており、VisProgのような推論パイプラインを少なくとも32%、かつ38%以上自動生成する。
精巧なモデルに匹敵したり、超えたりさえする。
関連論文リスト
- The Jumping Reasoning Curve? Tracking the Evolution of Reasoning Performance in GPT-[n] and o-[n] Models on Multimodal Puzzles [29.214813685163218]
OpenAIのo1とo3のリリースは、大規模言語モデルの高度な推論機能へのパラダイムシフトを表している。
GPT-[n] および o-[n] 級数モデルの進化を、挑戦的なマルチモーダルパズル上で追跡する。
o1の優れた性能は、GPT-4oの計算コストの約750倍となり、効率性への懸念が高まった。
論文 参考訳(メタデータ) (2025-02-03T05:47:04Z) - MasonTigers at SemEval-2024 Task 9: Solving Puzzles with an Ensemble of Chain-of-Thoughts [5.91695168183101]
本稿では、SemEval-2024 Task 9にチームMasonTigersを提出する。
自然言語理解をテストするためのパズルのデータセットを提供する。
我々は,いくつかのプロンプト手法を用いて,この課題を解決するために,大規模言語モデル (LLM) を用いる。
論文 参考訳(メタデータ) (2024-03-22T06:31:49Z) - Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious
Challenges in Multimodal Reasoning [24.386388107656334]
本稿では,視覚的質問応答の文脈内での多モーダルパズル解決の新たな課題を紹介する。
本稿では,アルゴリズムパズルの解法におけるマルチモーダル言語モデルの能力に挑戦し,評価するための新しいデータセットAlgoVQAを提案する。
論文 参考訳(メタデータ) (2024-03-06T17:15:04Z) - Solving and Generating NPR Sunday Puzzles with Large Language Models [0.0]
最先端の大規模言語モデルは、多くのPUZZLEQAパズルを解くことができる。
最良のモデルは GPT-3.5 で、50.2% のゆるい精度である。
GPT-3.5は、生成されたルールに従わない答えを持つパズルを生成する。
論文 参考訳(メタデータ) (2023-06-21T13:23:48Z) - Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。
そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。
NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文 参考訳(メタデータ) (2023-06-16T09:40:05Z) - Automated Graph Genetic Algorithm based Puzzle Validation for Faster
Game Desig [69.02688684221265]
本稿では,コンピュータゲームにおける論理パズルを効率的に解くための進化的アルゴリズムを提案する。
制約満足度問題に対するハイブリッド遺伝的アプローチの様々なバリエーションについて論じる。
論文 参考訳(メタデータ) (2023-02-17T18:15:33Z) - Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw
Puzzles [67.39567701983357]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要なトピックである。
近年の自己教師型学習の進歩に触発された本論文は,直感的かつ難解なプレテキストタスクを解くことによって,VADに対処する。
提案手法は3つの公開ベンチマークにおいて最先端のベンチマークよりも優れている。
論文 参考訳(メタデータ) (2022-07-20T19:49:32Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Differentiable Multi-Granularity Human Representation Learning for
Instance-Aware Human Semantic Parsing [131.97475877877608]
カテゴリーレベルの人間のセマンティックセグメンテーションとマルチパーソンポーズ推定を共同およびエンドツーエンドで学習するために,新たなボトムアップ方式を提案する。
さまざまな人間の粒度にわたって構造情報を利用する、コンパクトで効率的で強力なフレームワークです。
3つのインスタンス認識型ヒューマンデータセットの実験は、我々のモデルがより効率的な推論で他のボトムアップの代替案よりも優れていることを示している。
論文 参考訳(メタデータ) (2021-03-08T06:55:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。