Fugu-MT 論文翻訳(概要): AiGen-FoodReview: A Multimodal Dataset of Machine-Generated Restaurant Reviews and Images on Social Media

論文の概要: AiGen-FoodReview: A Multimodal Dataset of Machine-Generated Restaurant Reviews and Images on Social Media

arxiv url: http://arxiv.org/abs/2401.08825v1
Date: Tue, 16 Jan 2024 20:57:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 17:48:55.304893
Title: AiGen-FoodReview: A Multimodal Dataset of Machine-Generated Restaurant Reviews and Images on Social Media
Title（参考訳）: AiGen-FoodReview: ソーシャルメディア上のマシン生成レストランレビューと画像のマルチモーダルデータセット
Authors: Alessandro Gambetti, Qiwei Han
Abstract要約: AiGen-FoodReviewは、20,144のレストランレビューイメージペアからなるデータセットである。 FLAVAで99.80%のマルチモーダル精度を達成し,一様・多モーダル検出モデルについて検討する。この論文は、データセットをオープンソース化し、偽レビュー検出装置を公開し、非モーダルかつマルチモーダルな偽レビュー検出タスクでの使用を推奨し、合成データと真正データにおける言語的特徴と視覚的特徴を評価することで貢献する。
参考スコア（独自算出の注目度）: 57.70351255180495
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Online reviews in the form of user-generated content (UGC) significantly impact consumer decision-making. However, the pervasive issue of not only human fake content but also machine-generated content challenges UGC's reliability. Recent advances in Large Language Models (LLMs) may pave the way to fabricate indistinguishable fake generated content at a much lower cost. Leveraging OpenAI's GPT-4-Turbo and DALL-E-2 models, we craft AiGen-FoodReview, a multi-modal dataset of 20,144 restaurant review-image pairs divided into authentic and machine-generated. We explore unimodal and multimodal detection models, achieving 99.80% multimodal accuracy with FLAVA. We use attributes from readability and photographic theories to score reviews and images, respectively, demonstrating their utility as hand-crafted features in scalable and interpretable detection models, with comparable performance. The paper contributes by open-sourcing the dataset and releasing fake review detectors, recommending its use in unimodal and multimodal fake review detection tasks, and evaluating linguistic and visual features in synthetic versus authentic data.
Abstract（参考訳）: ユーザ生成コンテンツ(UGC)形式のオンラインレビューは、消費者の意思決定に大きな影響を及ぼす。しかし、人間のフェイクコンテンツだけでなく、マシン生成コンテンツの広範にわたる問題は、uccの信頼性を脅かしている。近年のLarge Language Models (LLM) の進歩は、識別不能な偽生成コンテンツをはるかに低コストで製造する方法を開拓する可能性がある。 OpenAIのGPT-4-TurboとDALL-E-2モデルを活用して、20,144のレストランレビューイメージペアからなるマルチモーダルデータセットであるAiGen-FoodReviewを、認証とマシン生成に分割した。 FLAVAで99.80%のマルチモーダル精度を達成し,一様・多モーダル検出モデルについて検討する。我々は,可読性と写真理論の属性を用いてレビューと画像の評価を行い,スケーラブルで解釈可能な検出モデルにおける手作り機能としての有用性を示す。この論文は、データセットをオープンソース化し、偽レビュー検出器をリリースし、ユニモーダルおよびマルチモーダルな偽レビュー検出タスクでの使用を推奨し、合成データと本物データの言語的および視覚的特徴を評価することによって寄与する。

関連論文リスト

ForenX: Towards Explainable AI-Generated Image Detection with Multimodal Large Language Models [82.04858317800097]
ForenXは画像の真正性を識別するだけでなく、人間の思考に共鳴する説明を提供する新しい手法である。 ForenXは、強力なマルチモーダル大言語モデル(MLLM)を使用して、法医学的な手がかりを分析し、解釈する。本稿では,AI生成画像における偽証拠の記述専用のデータセットであるForgReasonを紹介する。
論文参考訳（メタデータ） (2025-08-02T15:21:26Z)
Spot the Fake: Large Multimodal Model-Based Synthetic Image Detection with Artifact Explanation [15.442558725312976]
本稿では,一般的な合成画像とDeepFake検出タスクの両方を対象とした,大規模マルチモーダルモデルであるFakeVLMを紹介する。 FakeVLMは、本物と偽のイメージを区別し、画像アーティファクトの明確な自然言語説明を提供する。 FakeClueは、7つのカテゴリにわたる10万以上の画像を含む包括的データセットで、自然言語のきめ細かいアーティファクトのヒントで注釈付けされている。
論文参考訳（メタデータ） (2025-03-19T05:14:44Z)
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。 LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文参考訳（メタデータ） (2024-10-14T17:51:23Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
MAPLE: Enhancing Review Generation with Multi-Aspect Prompt LEarning in Explainable Recommendation [12.68667064916211]
我々は、MAPLE(Multi-Aspect Prompt LEarner)と呼ばれるパーソナライズされたアスペクト制御モデルを提案する。レストラン領域における2つの実世界レビューデータセットによる実験により、MAPLEはベースラインレビュー生成モデルよりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2024-08-19T10:12:52Z)
Pushing Boundaries: Exploring Zero Shot Object Classification with Large Multimodal Models [0.09264362806173355]
LLVA(Large Language and Vision Assistant Model)は、画像ベースのクエリと連動したリッチな会話体験をユーザに提供するモデルである。本稿では,LMMについて一意に考察し,画像分類タスクの適応性について検討する。我々の研究では、MNIST、Cats Vs. Dogs、Hymnoptera(Ants Vs. Bees)、Pox Vs. Non-Poxの皮膚画像からなる非伝統的なデータセットの4つの多様なデータセットのベンチマーク分析を含む。
論文参考訳（メタデータ） (2023-12-30T03:19:54Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文参考訳（メタデータ） (2023-05-23T12:05:09Z)
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。 OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文参考訳（メタデータ） (2023-05-13T11:28:37Z)
MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。 MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10～20%精度が高いことがわかった。
論文参考訳（メタデータ） (2022-10-06T13:58:03Z)
Logically at the Factify 2022: Multimodal Fact Verification [2.8914815569249823]
本稿では,AAAI 2022におけるマルチモーダル事実検証(Factify)課題の参加者システムについて述べる。アンサンブルモデルとマルチモーダルアテンションネットワークを含む2つのベースラインアプローチを提案し,検討した。我々の最良モデルは、検証セットとテストセットの両方において、重み付き平均F値が0.77となるリーダーボードで第1位にランクされている。
論文参考訳（メタデータ） (2021-12-16T23:34:07Z)
The Multimodal Sentiment Analysis in Car Reviews (MuSe-CaR) Dataset: Collection, Insights and Improvements [14.707930573950787]
この種のマルチモーダルデータセットの1つである MuSe-CaR について述べる。このデータは、最近第1回マルチモーダルセンチメント分析チャレンジのテストベッドとして公開された。
論文参考訳（メタデータ） (2021-01-15T10:40:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。