Fugu-MT 論文翻訳(概要): Self-adaptive Dataset Construction for Real-World Multimodal Safety Scenarios

論文の概要: Self-adaptive Dataset Construction for Real-World Multimodal Safety Scenarios

arxiv url: http://arxiv.org/abs/2509.04403v1
Date: Thu, 04 Sep 2025 17:13:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-05 20:21:10.23109
Title: Self-adaptive Dataset Construction for Real-World Multimodal Safety Scenarios
Title（参考訳）: 実世界のマルチモーダル安全シナリオのための自己適応型データセット構築
Authors: Jingen Qu, Lijun Li, Bo Zhang, Yichen Yan, Jing Shao,
Abstract要約: 本稿では,安全シナリオのための画像指向型自己適応データセット構築手法を提案する。画像指向手法を用いて、誘導応答を伴う35k画像テキストペアからなるRMSデータセットを自動生成する。様々なタスクに対する大規模な実験は、提案した画像指向パイプラインの有効性を示す。
参考スコア（独自算出の注目度）: 27.998206267827616
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal large language models (MLLMs) are rapidly evolving, presenting increasingly complex safety challenges. However, current dataset construction methods, which are risk-oriented, fail to cover the growing complexity of real-world multimodal safety scenarios (RMS). And due to the lack of a unified evaluation metric, their overall effectiveness remains unproven. This paper introduces a novel image-oriented self-adaptive dataset construction method for RMS, which starts with images and end constructing paired text and guidance responses. Using the image-oriented method, we automatically generate an RMS dataset comprising 35k image-text pairs with guidance responses. Additionally, we introduce a standardized safety dataset evaluation metric: fine-tuning a safety judge model and evaluating its capabilities on other safety datasets.Extensive experiments on various tasks demonstrate the effectiveness of the proposed image-oriented pipeline. The results confirm the scalability and effectiveness of the image-oriented approach, offering a new perspective for the construction of real-world multimodal safety datasets.
Abstract（参考訳）: マルチモーダル・大規模言語モデル(MLLM)は急速に進化し、ますます複雑な安全性の課題を呈している。しかし、リスク指向の現在のデータセット構築方法は、実世界のマルチモーダル安全シナリオ(RMS)の複雑さをカバーできない。そして、統一された評価基準が欠如しているため、その全体的な効果は証明されていない。本稿では,RMSのための画像指向型自己適応データセット構築手法を提案する。画像指向手法を用いて、誘導応答を伴う35k画像テキストペアからなるRMSデータセットを自動生成する。さらに,安全判断モデルを微調整し,その能力を他の安全データセット上で評価する,標準化された安全データセット評価指標を導入し,提案した画像指向パイプラインの有効性を示す。その結果、画像指向アプローチのスケーラビリティと有効性を確認し、実世界のマルチモーダル安全データセット構築の新しい視点を提供する。

関連論文リスト

Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2025-01-30T17:59:45Z)
World-Consistent Data Generation for Vision-and-Language Navigation [33.13590164890286]
VLN(Vision-and-Language Navigation)は、自然言語の指示に従って、エージェントがフォトリアリスティックな環境をナビゲートする必要がある課題である。 VLNの主な障害はデータの不足であり、目に見えない環境における一般化性能の低下につながる。多様性と世界整合性の両方を満たす効率的なデータ拡張フレームワークである世界整合データ生成(WCGEN)を提案する。
論文参考訳（メタデータ） (2024-12-09T11:40:54Z)
MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-06-13T15:55:04Z)
Developing Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models? [2.089112028396727]
本研究では,大規模言語モデルが知識や理解を犠牲にすることなく,安全でバイアスのないアウトプットを生成できるかどうかを考察する。 Safe and Responsible Large Language Model (textbfSR$_textLLM$)を紹介する。 textbfSR$_textLLM$は知識の整合性を保ちながらバイアスを効果的に軽減する。
論文参考訳（メタデータ） (2024-04-01T18:10:05Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文参考訳（メタデータ） (2023-06-12T17:56:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。