Fugu-MT 論文翻訳(概要): Testing the limits of fine-tuning to improve reasoning in vision language models

論文の概要: Testing the limits of fine-tuning to improve reasoning in vision language models

arxiv url: http://arxiv.org/abs/2502.15678v1
Date: Fri, 21 Feb 2025 18:58:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-24 21:37:39.281424
Title: Testing the limits of fine-tuning to improve reasoning in vision language models
Title（参考訳）: 視覚言語モデルにおける推論改善のための微調整限界の検証
Authors: Luca M. Schulze Buschoff, Konstantinos Voudouris, Elif Akata, Matthias Bethge, Joshua B. Tenenbaum, Eric Schulz,
Abstract要約: 視覚認知タスクにおける視覚刺激と人間の判断を導入し,認知領域間でのパフォーマンスを評価する。我々は、直感的な物理と因果推論のために、地上の真理データに基づいてモデルを微調整する。微調整は、他の視覚的特徴を持つデータや、他の認知領域におけるタスクに対する人間のような堅牢な一般化に寄与しない。
参考スコア（独自算出の注目度）: 51.58859621164201
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pre-trained vision language models still fall short of human visual cognition. In an effort to improve visual cognition and align models with human behavior, we introduce visual stimuli and human judgments on visual cognition tasks, allowing us to systematically evaluate performance across cognitive domains under a consistent environment. We fine-tune models on ground truth data for intuitive physics and causal reasoning and find that this improves model performance in the respective fine-tuning domain. Furthermore, it can improve model alignment with human behavior. However, we find that fine-tuning does not contribute to robust human-like generalization to data with other visual characteristics or to tasks in other cognitive domains.
Abstract（参考訳）: 事前訓練された視覚言語モデルは、人間の視覚認知に欠ける。視覚認知の改善とモデルと人間の行動の整合化を目的として,視覚認知タスクにおける視覚刺激と人間の判断を導入し,一貫した環境下での認知領域間のパフォーマンスを体系的に評価する。我々は、直感的な物理と因果推論のための地上の真理データに基づいてモデルを微調整し、それによって各微調整領域におけるモデル性能が向上することを示した。さらに、人間の行動とモデルアライメントを改善することができる。しかし、微調整は、他の視覚的特徴を持つデータや、他の認知領域におけるタスクに対する堅牢な人間的な一般化に寄与しない。

関連論文リスト

Align and Surpass Human Camouflaged Perception: Visual Refocus Reinforcement Fine-Tuning [18.13538667261998]
現在のマルチモーダルモデルは、背景に視覚的に同化されている物体を特定する際に、人間の視覚システムと顕著な相違を示す。我々は、人間の視覚的カモフラージュされた知覚を段階的に再現し、視覚的隠蔽コンテンツを反復的に再焦点する視覚システムを構築した。
論文参考訳（メタデータ） (2025-05-26T07:27:18Z)
CHART-6: Human-Centered Evaluation of Data Visualization Understanding in Vision-Language Models [18.891323067948285]
データビジュアライゼーションに関する推論を含むタスクにおいて、視覚言語モデルがどのように人間の振る舞いをエミュレートするかは不明だ。そこで我々は,人間向けに設計された6つのデータ可視化リテラシー評価において,視覚言語モデル8つを評価した。その結果、これらのモデルは平均して人間よりも悪い結果が得られた。
論文参考訳（メタデータ） (2025-05-22T18:15:04Z)
Emergent Active Perception and Dexterity of Simulated Humanoids from Visual Reinforcement Learning [69.71072181304066]
本稿では,擬似ヒューマノイドを用いた視覚駆動全身制御フレームワークであるPerceptive Dexterous Control (PDC)を紹介する。 PDCは、タスク仕様のためのエゴセントリックなビジョンのみを運用し、ビジュアルキューによるオブジェクト検索、ターゲット配置、スキル選択を可能にする。強化学習によるスクラッチからのトレーニングは,能動探索などの創発的な行動を引き起こす可能性があることを示す。
論文参考訳（メタデータ） (2025-05-18T07:33:31Z)
Can Language Models Learn to Skip Steps? [59.84848399905409]
我々は推論においてステップをスキップする能力について研究する。効率を高めたり認知負荷を減らすためのステップをスキップする人間とは異なり、モデルはそのようなモチベーションを持っていない。私たちの研究は、人間のようなステップスキッピング能力に関する最初の調査である。
論文参考訳（メタデータ） (2024-11-04T07:10:24Z)
When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文参考訳（メタデータ） (2024-10-14T17:59:58Z)
Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文参考訳（メタデータ） (2024-06-13T17:59:20Z)
Dual Thinking and Logical Processing -- Are Multi-modal Large Language Models Closing the Gap with Human Vision ? [5.076961098583674]
視覚における双対思考の知覚は、直感的および論理的処理からの推論が異なるイメージを必要とする。我々は、人間の視覚における二重思考の枠組みの証拠を提供するために、敵対的データセットを導入する。
論文参考訳（メタデータ） (2024-06-11T05:50:34Z)
UniAR: A Unified model for predicting human Attention and Responses on visual content [12.281060227170792]
多様な視覚コンテンツにまたがる人間の注意と嗜好行動の統一モデルUniARを提案する。自然画像、Webページ、グラフィックデザインにまたがる様々な公開データセットに基づいてUniARをトレーニングし、複数のベンチマークでSOTA性能を達成する。潜在的なアプリケーションには、UI/視覚コンテンツの有効性に関する即時フィードバックの提供や、デザイナとコンテンツ作成モデルによる人間中心の改善のための作成の最適化などが含まれる。
論文参考訳（メタデータ） (2023-12-15T19:57:07Z)
Visual cognition in multimodal large language models [12.603212933816206]
近年の進歩は、人間のような認知能力をエミュレートする可能性への関心を再燃させた。本稿では、直観物理学、因果推論、直観心理学の分野における視覚に基づく大規模言語モデルの現状を評価する。
論文参考訳（メタデータ） (2023-11-27T18:58:34Z)
Turning large language models into cognitive models [0.0]
大規模言語モデルが認知モデルに変換可能であることを示す。これらのモデルは人間の行動の正確な表現を提供し、2つの意思決定領域において従来の認知モデルよりも優れている。これらの結果は、大規模で事前学習されたモデルが一般的な認知モデルに適応できることを示唆している。
論文参考訳（メタデータ） (2023-06-06T18:00:01Z)
Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文参考訳（メタデータ） (2023-02-06T10:28:16Z)
Localization vs. Semantics: Visual Representations in Unimodal and Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文参考訳（メタデータ） (2022-12-01T05:00:18Z)
Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文参考訳（メタデータ） (2022-06-15T03:44:42Z)
What Can You Learn from Your Muscles? Learning Visual Representation from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文参考訳（メタデータ） (2020-10-16T17:46:53Z)
Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文参考訳（メタデータ） (2020-04-28T17:06:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。