論文の概要: Self-adaptive Dataset Construction for Real-World Multimodal Safety Scenarios
- arxiv url: http://arxiv.org/abs/2509.04403v1
- Date: Thu, 04 Sep 2025 17:13:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.23109
- Title: Self-adaptive Dataset Construction for Real-World Multimodal Safety Scenarios
- Title(参考訳): 実世界のマルチモーダル安全シナリオのための自己適応型データセット構築
- Authors: Jingen Qu, Lijun Li, Bo Zhang, Yichen Yan, Jing Shao,
- Abstract要約: 本稿では,安全シナリオのための画像指向型自己適応データセット構築手法を提案する。
画像指向手法を用いて、誘導応答を伴う35k画像テキストペアからなるRMSデータセットを自動生成する。
様々なタスクに対する大規模な実験は、提案した画像指向パイプラインの有効性を示す。
- 参考スコア(独自算出の注目度): 27.998206267827616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) are rapidly evolving, presenting increasingly complex safety challenges. However, current dataset construction methods, which are risk-oriented, fail to cover the growing complexity of real-world multimodal safety scenarios (RMS). And due to the lack of a unified evaluation metric, their overall effectiveness remains unproven. This paper introduces a novel image-oriented self-adaptive dataset construction method for RMS, which starts with images and end constructing paired text and guidance responses. Using the image-oriented method, we automatically generate an RMS dataset comprising 35k image-text pairs with guidance responses. Additionally, we introduce a standardized safety dataset evaluation metric: fine-tuning a safety judge model and evaluating its capabilities on other safety datasets.Extensive experiments on various tasks demonstrate the effectiveness of the proposed image-oriented pipeline. The results confirm the scalability and effectiveness of the image-oriented approach, offering a new perspective for the construction of real-world multimodal safety datasets.
- Abstract(参考訳): マルチモーダル・大規模言語モデル(MLLM)は急速に進化し、ますます複雑な安全性の課題を呈している。
しかし、リスク指向の現在のデータセット構築方法は、実世界のマルチモーダル安全シナリオ(RMS)の複雑さをカバーできない。
そして、統一された評価基準が欠如しているため、その全体的な効果は証明されていない。
本稿では,RMSのための画像指向型自己適応データセット構築手法を提案する。
画像指向手法を用いて、誘導応答を伴う35k画像テキストペアからなるRMSデータセットを自動生成する。
さらに,安全判断モデルを微調整し,その能力を他の安全データセット上で評価する,標準化された安全データセット評価指標を導入し,提案した画像指向パイプラインの有効性を示す。
その結果、画像指向アプローチのスケーラビリティと有効性を確認し、実世界のマルチモーダル安全データセット構築の新しい視点を提供する。
関連論文リスト
- Semantically Aware UAV Landing Site Assessment from Remote Sensing Imagery via Multimodal Large Language Models [5.987458168544856]
安全UAV緊急着陸には、従来の幾何学的センサーに見えない複雑なセマンティックなリスクを理解する必要がある。
本稿では,リモートセンシング(RS)画像とマルチモーダル大規模言語モデル(MLLM)を併用した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-01T11:30:03Z) - Reimagining Safety Alignment with An Image [49.33281424100804]
大きな言語モデル(LLM)は多様なアプリケーションで優れていますが、Jailbreak攻撃下で有害なコンテンツを生成し、良質なクエリを過剰に拒否する、という2つの課題に直面しています。
我々は,過度な拒絶を低減しつつ,セキュリティを向上させる最適化駆動型ビジュアルプロンプトフレームワークであるMagic Imageを提案する。
論文 参考訳(メタデータ) (2025-11-01T11:27:07Z) - FedGPS: Statistical Rectification Against Data Heterogeneity in Federated Learning [103.45987800174724]
フェデレートラーニング(FL)は、データ不均一(data heterogeneity)として知られる重要な課題に直面し、モデルの性能と収束を損なう。
統計分布と勾配情報をシームレスに統合する新しいフレームワークである textbfFedGPS を提案する。
論文 参考訳(メタデータ) (2025-10-23T06:10:11Z) - SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models [74.11062256255387]
テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。
SafeGuiderは, 生成品質を損なうことなく, 堅牢な安全制御を実現するための2段階のフレームワークである。
SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
論文 参考訳(メタデータ) (2025-10-05T10:24:48Z) - Bridging the Gap Between Ideal and Real-world Evaluation: Benchmarking AI-Generated Image Detection in Challenging Scenarios [54.07895223545793]
本稿では,実世界ロバストネスデータセット(RRDataset)を導入し,3次元にわたる検出モデルの包括的評価を行う。
RRDatasetには7つの主要なシナリオの高品質なイメージが含まれている。
我々はRRDataset上で17の検出器と10の視覚言語モデル(VLM)をベンチマークし、大規模な人間実験を行った。
論文 参考訳(メタデータ) (2025-09-11T06:15:52Z) - Automatic Synthesis of High-Quality Triplet Data for Composed Image Retrieval [25.071276825826047]
Composed Image Retrieval (CIR)は、マルチモーダル(image+text)クエリを使ってターゲット画像を取得することを目的としている。
完全合成データセットであるComposeed Image Retrieval on High-quality Synthetic Triplets (CIRHS)とともに,自動三重項生成のためのスケーラブルパイプラインを提案する。
論文 参考訳(メタデータ) (2025-07-08T13:24:05Z) - Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。
実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-30T17:59:45Z) - World-Consistent Data Generation for Vision-and-Language Navigation [33.13590164890286]
VLN(Vision-and-Language Navigation)は、自然言語の指示に従って、エージェントがフォトリアリスティックな環境をナビゲートする必要がある課題である。
VLNの主な障害はデータの不足であり、目に見えない環境における一般化性能の低下につながる。
多様性と世界整合性の両方を満たす効率的なデータ拡張フレームワークである世界整合データ生成(WCGEN)を提案する。
論文 参考訳(メタデータ) (2024-12-09T11:40:54Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Developing Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models? [2.089112028396727]
本研究では,大規模言語モデルが知識や理解を犠牲にすることなく,安全でバイアスのないアウトプットを生成できるかどうかを考察する。
Safe and Responsible Large Language Model (textbfSR$_textLLM$)を紹介する。
textbfSR$_textLLM$は知識の整合性を保ちながらバイアスを効果的に軽減する。
論文 参考訳(メタデータ) (2024-04-01T18:10:05Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。