論文の概要: AiGen-FoodReview: A Multimodal Dataset of Machine-Generated Restaurant
Reviews and Images on Social Media
- arxiv url: http://arxiv.org/abs/2401.08825v1
- Date: Tue, 16 Jan 2024 20:57:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 17:48:55.304893
- Title: AiGen-FoodReview: A Multimodal Dataset of Machine-Generated Restaurant
Reviews and Images on Social Media
- Title(参考訳): AiGen-FoodReview: ソーシャルメディア上のマシン生成レストランレビューと画像のマルチモーダルデータセット
- Authors: Alessandro Gambetti, Qiwei Han
- Abstract要約: AiGen-FoodReviewは、20,144のレストランレビューイメージペアからなるデータセットである。
FLAVAで99.80%のマルチモーダル精度を達成し,一様・多モーダル検出モデルについて検討する。
この論文は、データセットをオープンソース化し、偽レビュー検出装置を公開し、非モーダルかつマルチモーダルな偽レビュー検出タスクでの使用を推奨し、合成データと真正データにおける言語的特徴と視覚的特徴を評価することで貢献する。
- 参考スコア(独自算出の注目度): 57.70351255180495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online reviews in the form of user-generated content (UGC) significantly
impact consumer decision-making. However, the pervasive issue of not only human
fake content but also machine-generated content challenges UGC's reliability.
Recent advances in Large Language Models (LLMs) may pave the way to fabricate
indistinguishable fake generated content at a much lower cost. Leveraging
OpenAI's GPT-4-Turbo and DALL-E-2 models, we craft AiGen-FoodReview, a
multi-modal dataset of 20,144 restaurant review-image pairs divided into
authentic and machine-generated. We explore unimodal and multimodal detection
models, achieving 99.80% multimodal accuracy with FLAVA. We use attributes from
readability and photographic theories to score reviews and images,
respectively, demonstrating their utility as hand-crafted features in scalable
and interpretable detection models, with comparable performance. The paper
contributes by open-sourcing the dataset and releasing fake review detectors,
recommending its use in unimodal and multimodal fake review detection tasks,
and evaluating linguistic and visual features in synthetic versus authentic
data.
- Abstract(参考訳): ユーザ生成コンテンツ(UGC)形式のオンラインレビューは、消費者の意思決定に大きな影響を及ぼす。
しかし、人間のフェイクコンテンツだけでなく、マシン生成コンテンツの広範にわたる問題は、uccの信頼性を脅かしている。
近年のLarge Language Models (LLM) の進歩は、識別不能な偽生成コンテンツをはるかに低コストで製造する方法を開拓する可能性がある。
OpenAIのGPT-4-TurboとDALL-E-2モデルを活用して、20,144のレストランレビューイメージペアからなるマルチモーダルデータセットであるAiGen-FoodReviewを、認証とマシン生成に分割した。
FLAVAで99.80%のマルチモーダル精度を達成し,一様・多モーダル検出モデルについて検討する。
我々は,可読性と写真理論の属性を用いてレビューと画像の評価を行い,スケーラブルで解釈可能な検出モデルにおける手作り機能としての有用性を示す。
この論文は、データセットをオープンソース化し、偽レビュー検出器をリリースし、ユニモーダルおよびマルチモーダルな偽レビュー検出タスクでの使用を推奨し、合成データと本物データの言語的および視覚的特徴を評価することによって寄与する。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Pushing Boundaries: Exploring Zero Shot Object Classification with Large
Multimodal Models [0.09264362806173355]
LLVA(Large Language and Vision Assistant Model)は、画像ベースのクエリと連動したリッチな会話体験をユーザに提供するモデルである。
本稿では,LMMについて一意に考察し,画像分類タスクの適応性について検討する。
我々の研究では、MNIST、Cats Vs. Dogs、Hymnoptera(Ants Vs. Bees)、Pox Vs. Non-Poxの皮膚画像からなる非伝統的なデータセットの4つの多様なデータセットのベンチマーク分析を含む。
論文 参考訳(メタデータ) (2023-12-30T03:19:54Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z) - Logically at the Factify 2022: Multimodal Fact Verification [2.8914815569249823]
本稿では,AAAI 2022におけるマルチモーダル事実検証(Factify)課題の参加者システムについて述べる。
アンサンブルモデルとマルチモーダルアテンションネットワークを含む2つのベースラインアプローチを提案し,検討した。
我々の最良モデルは、検証セットとテストセットの両方において、重み付き平均F値が0.77となるリーダーボードで第1位にランクされている。
論文 参考訳(メタデータ) (2021-12-16T23:34:07Z) - The Multimodal Sentiment Analysis in Car Reviews (MuSe-CaR) Dataset:
Collection, Insights and Improvements [14.707930573950787]
この種のマルチモーダルデータセットの1つである MuSe-CaR について述べる。
このデータは、最近第1回マルチモーダルセンチメント分析チャレンジのテストベッドとして公開された。
論文 参考訳(メタデータ) (2021-01-15T10:40:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。