Fugu-MT 論文翻訳(概要): POPEN: Preference-Based Optimization and Ensemble for LVLM-Based Reasoning Segmentation

論文の概要: POPEN: Preference-Based Optimization and Ensemble for LVLM-Based Reasoning Segmentation

arxiv url: http://arxiv.org/abs/2504.00640v1
Date: Tue, 01 Apr 2025 10:51:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-03 15:43:09.046273
Title: POPEN: Preference-Based Optimization and Ensemble for LVLM-Based Reasoning Segmentation
Title（参考訳）: POPEN:LVLMに基づく推論セグメンテーションのための優先度に基づく最適化とアンサンブル
Authors: Lanyun Zhu, Tianrun Chen, Qianxiong Xu, Xuanyi Liu, Deyi Ji, Haiyang Wu, De Wen Soh, Jun Liu,
Abstract要約: 既存のLVLMベースの推論セグメンテーション手法は、しばしば不正確なセグメンテーション結果とテキスト応答の幻覚に悩まされる。本稿では、これらの問題に対処し、改善された結果を達成するために設計された新しいフレームワークであるPOPENを紹介する。
参考スコア（独自算出の注目度）: 8.946389785502861
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing LVLM-based reasoning segmentation methods often suffer from imprecise segmentation results and hallucinations in their text responses. This paper introduces POPEN, a novel framework designed to address these issues and achieve improved results. POPEN includes a preference-based optimization method to finetune the LVLM, aligning it more closely with human preferences and thereby generating better text responses and segmentation results. Additionally, POPEN introduces a preference-based ensemble method for inference, which integrates multiple outputs from the LVLM using a preference-score-based attention mechanism for refinement. To better adapt to the segmentation task, we incorporate several task-specific designs in our POPEN framework, including a new approach for collecting segmentation preference data with a curriculum learning mechanism, and a novel preference optimization loss to refine the segmentation capability of the LVLM. Experiments demonstrate that our method achieves state-of-the-art performance in reasoning segmentation, exhibiting minimal hallucination in text responses and the highest segmentation accuracy compared to previous advanced methods like LISA and PixelLM. Project page is https://lanyunzhu.site/POPEN/
Abstract（参考訳）: 既存のLVLMベースの推論セグメンテーション手法は、しばしば不正確なセグメンテーション結果とテキスト応答の幻覚に悩まされる。本稿では、これらの問題に対処し、改善された結果を達成するために設計された新しいフレームワークであるPOPENを紹介する。 POPENは、LVLMを微調整し、人間の嗜好とより密に調整し、より良いテキスト応答とセグメンテーション結果を生成するための嗜好ベースの最適化方法を含んでいる。さらに、POPENは推論のための嗜好に基づくアンサンブル法を導入し、LVLMから複数の出力を統合する。セグメンテーションタスクをよりよく適応するために,カリキュラム学習機構を用いたセグメンテーション選好データを収集するための新しいアプローチや,LVLMのセグメンテーション能力を洗練するための新たな選好最適化損失など,いくつかのタスク固有の設計をPOPENフレームワークに組み込んだ。実験により,本手法は,LISAやPixelLMなどの先進手法と比較して,テキスト応答の幻覚が最小限であり,高いセグメンテーション精度を示す。プロジェクトページはhttps://lanyunzhu.site/POPEN/

関連論文リスト

A Novel Self-Evolution Framework for Large Language Models [18.62332474172811]
本稿では,ユーザの嗜好適応とドメイン固有能力を協調的に最適化する新しいDual-Phase Self-Evolutionフレームワークを提案する。一般的なNLPベンチマークと長期対話タスクによる実験は、DPSEが常にSupervised Fine-Tuning、Preference Optimization、Memory-Augmented baselinesより優れていることを示している。
論文参考訳（メタデータ） (2025-07-21T06:30:39Z)
Debiasing Online Preference Learning via Preference Feature Preservation [64.55924745257951]
最近の嗜好学習フレームワークは、二対比較とスカラー報酬で人間の嗜好を簡単にする。これにより、大規模言語モデルの反応は、主に好まれる特徴に偏り、オンラインの嗜好学習ステップのイテレーション中に悪化する可能性がある。本研究では,人間の嗜好特徴の分布を維持するための嗜好特徴保存法を提案し,オンライン選好学習プロセスを通じてそのようなリッチな信号を利用する。
論文参考訳（メタデータ） (2025-06-06T13:19:07Z)
Training Large Recommendation Models via Graph-Language Token Alignment [53.3142545812349]
本稿では,グラフ言語トークンアライメントによる大規模推薦モデルのトレーニングを行う新しいフレームワークを提案する。インタラクショングラフからアイテムとユーザノードを事前訓練されたLLMトークンにアライメントすることで、GLTAはLLMの推論能力を効果的に活用する。さらに、エンドツーエンドのアイテム予測のためのトークンアライメントを最適化するために、GLLM(Graph-Language Logits Matching)を導入する。
論文参考訳（メタデータ） (2025-02-26T02:19:10Z)
Reward-aware Preference Optimization: A Unified Mathematical Framework for Model Alignment [45.45508377432791]
本稿では、人気のある選好最適化手法を統合する数学的フレームワークであるReward-Aware Preference Optimization (RPO)を紹介する。 RPOは、様々な設計選択の影響を混乱させ、体系的に研究するための構造化されたアプローチを提供する。そこで我々は,このような設計選択をクリーンかつ直接アブレーションできる新しい実験装置を提案する。
論文参考訳（メタデータ） (2025-01-31T22:39:04Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文参考訳（メタデータ） (2024-07-14T15:02:54Z)
Towards Explainable Evolution Strategies with Large Language Models [0.0]
本稿では,自己適応的進化戦略(ES)と大規模言語モデル(LLM)を統合するアプローチを提案する。再起動機構を備えた自己適応型ESを用いることで、ベンチマーク関数の難易度を効果的にナビゲートする。 LLMを使用してこれらのログを処理し、簡潔でユーザフレンドリーな要約を生成する。
論文参考訳（メタデータ） (2024-07-11T09:28:27Z)
Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文参考訳（メタデータ） (2024-06-12T16:58:41Z)
Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文参考訳（メタデータ） (2024-06-06T18:01:02Z)
LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文参考訳（メタデータ） (2024-05-30T06:24:14Z)
Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文参考訳（メタデータ） (2024-02-18T14:08:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。