論文の概要: Aligning VLM Assistants with Personalized Situated Cognition
- arxiv url: http://arxiv.org/abs/2506.00930v1
- Date: Sun, 01 Jun 2025 09:50:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.798908
- Title: Aligning VLM Assistants with Personalized Situated Cognition
- Title(参考訳): パーソナライズされた認識を伴うVLMアシスタントのアライメント
- Authors: Yongqi Li, Shen Zhou, Xiaohu Li, Xin Miao, Jintao Wen, Mayi Xu, Jianhao Chen, Birong Pan, Hankun Kang, Yuanyuan Zhu, Ming Zhong, Tieyun Qian,
- Abstract要約: 無害で幻覚のない視覚言語モデル(VLM)は、視覚的なタスクを管理する上で、人間の貴重なアシスタントとなっている。
多様な背景を持つ人々は、同じ状況でも異なる認識を持っている。
このことは、VLMアシスタントを現実の援助のためにパーソナライズされた位置認識と整合させる緊急の必要性を強調している。
- 参考スコア(独自算出の注目度): 21.988447641406484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) aligned with general human objectives, such as being harmless and hallucination-free, have become valuable assistants of humans in managing visual tasks. However, people with diversified backgrounds have different cognition even in the same situation. Consequently, they may have personalized expectations for VLM assistants. This highlights the urgent need to align VLM assistants with personalized situated cognition for real-world assistance. To study this problem, we first simplify it by characterizing individuals based on the sociological concept of Role-Set. Then, we propose to evaluate the individuals' actions to examine whether the personalized alignment is achieved. Further, we construct a benchmark named PCogAlignBench, which includes 18k instances and 20 individuals with different Role-Sets. Finally, we present a framework called PCogAlign, which constructs a cognition-aware and action-based reward model for personalized alignment. Experimental results and human evaluations demonstrate the reliability of the PCogAlignBench and the effectiveness of our proposed PCogAlign. We will open-source the constructed benchmark and code at https://github.com/NLPGM/PCogAlign.
- Abstract(参考訳): 無害で幻覚のない視覚言語モデル(VLM)は、視覚的なタスクを管理する上で、人間の貴重なアシスタントとなっている。
しかし、異なる背景を持つ人々は、同じ状況でも異なる認識を持っている。
したがって、彼らはVLMアシスタントに対してパーソナライズされた期待を持っていたかもしれない。
このことは、VLMアシスタントを現実の援助のためにパーソナライズされた位置認識と整合させる緊急の必要性を強調している。
そこで我々はまず,ロールセットという社会学的概念に基づいて個人を特徴付けることによって,その問題を単純化する。
そこで本研究では,個人の行動を評価し,パーソナライズされたアライメントが達成されるかどうかを検討する。
さらに、PCogAlignBenchというベンチマークを構築し、異なるロールセットを持つ18kインスタンスと20の個人を含む。
最後に、パーソナライズされたアライメントのための認知認識と行動に基づく報酬モデルを構築するPCogAlignというフレームワークを提案する。
PCogAlignBenchの信頼性と提案したPCogAlignの有効性を実験的に検証した。
構築されたベンチマークとコードはhttps://github.com/NLPGM/PCogAlign.comでオープンソース化します。
関連論文リスト
- HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation [38.614841553065766]
我々は32Kの実世界の画像質問対の総合的なベンチマークであるHumaniBenchを紹介する。
HumaniBenchは、公正性、倫理、理解、推論、言語の傾き、共感、堅牢性を含む7つのHuman Centered AI(HCAI)の原則を評価している。
論文 参考訳(メタデータ) (2025-05-16T17:09:44Z) - Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding [61.26026947423187]
人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練することによって、きめ細かい視覚的識別に長けている。
現在のMLLM(Multimodal Large Language Models)は、推論を視覚的知覚に統合するのに苦労している。
本稿では,認知的視覚能力を強化したMLLMであるDeepPerceptionを提案する。
論文 参考訳(メタデータ) (2025-03-17T04:06:34Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - POV Learning: Individual Alignment of Multimodal Models using Human Perception [1.4796543791607086]
個人レベルでのアライメントは、システムと対話する個人ユーザの主観的な予測性能を高めることができると我々は主張する。
我々は、認識情報を機械学習システムに統合し、予測性能を測定することで、これを検証する。
本研究は, 個人認識信号を用いた主観的人間評価の機械学習が, 個人のアライメントに有用な手がかりとなることを示唆している。
論文 参考訳(メタデータ) (2024-05-07T16:07:29Z) - You Only Learn One Query: Learning Unified Human Query for Single-Stage Multi-Person Multi-Task Human-Centric Perception [37.667147915777534]
人間中心の知覚は、コンピュータビジョンの長年の問題である。
本稿では,一段階多人数マルチタスク人間中心認識(HCP)のための統合多目的フレームワーク(HQNet)を提案する。
Human Queryは、個人のための複雑なインスタンスレベルの機能をキャプチャし、複雑なマルチパーソンシナリオを分離する。
論文 参考訳(メタデータ) (2023-12-09T10:36:43Z) - Editing Personality for Large Language Models [73.59001811199823]
本稿では,Large Language Models (LLMs) の性格特性の編集に焦点をあてた革新的なタスクを紹介する。
このタスクに対処する新しいベンチマークデータセットであるPersonalityEditを構築します。
論文 参考訳(メタデータ) (2023-10-03T16:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。