論文の概要: InstaSynth: Opportunities and Challenges in Generating Synthetic Instagram Data with ChatGPT for Sponsored Content Detection
- arxiv url: http://arxiv.org/abs/2403.15214v1
- Date: Fri, 22 Mar 2024 13:58:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 17:19:18.252230
- Title: InstaSynth: Opportunities and Challenges in Generating Synthetic Instagram Data with ChatGPT for Sponsored Content Detection
- Title(参考訳): InstaSynth: スポンサーコンテンツ検出のためのChatGPTによる合成Instagramデータ生成の可能性と課題
- Authors: Thales Bertaglia, Lily Heisig, Rishabh Kaushal, Adriana Iamnitchi,
- Abstract要約: 大規模言語モデル(LLM)は、非倫理的または違法な目的に使用できるテキストの生成コストを下げるという懸念を提起する。
本稿では,オンライン上でのスポンサードコンテンツの開示に関する法的要件の実施を支援するため,そのようなモデルが約束されているかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) raise concerns about lowering the cost of generating texts that could be used for unethical or illegal purposes, especially on social media. This paper investigates the promise of such models to help enforce legal requirements related to the disclosure of sponsored content online. We investigate the use of LLMs for generating synthetic Instagram captions with two objectives: The first objective (fidelity) is to produce realistic synthetic datasets. For this, we implement content-level and network-level metrics to assess whether synthetic captions are realistic. The second objective (utility) is to create synthetic data that is useful for sponsored content detection. For this, we evaluate the effectiveness of the generated synthetic data for training classifiers to identify undisclosed advertisements on Instagram. Our investigations show that the objectives of fidelity and utility may conflict and that prompt engineering is a useful but insufficient strategy. Additionally, we find that while individual synthetic posts may appear realistic, collectively they lack diversity, topic connectivity, and realistic user interaction patterns.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特にソーシャルメディアにおいて非倫理的または違法な目的に使用できるテキストの生成コストを下げるという懸念を提起する。
本稿では,オンライン上でのスポンサードコンテンツの開示に関する法的要件の実施を支援するため,そのようなモデルが約束されているかを検討する。
合成Instagramキャプション生成にLLMを用いることを,2つの目的により検討した。
そこで我々は,合成キャプションが現実的かどうかを評価するために,コンテンツレベルとネットワークレベルのメトリクスを実装した。
2つ目の目的(ユーティリティ)は、スポンサー付きコンテンツ検出に有用な合成データを作成することである。
そこで本研究では,Instagram上の未公開広告を識別する訓練分類器の合成データの有効性を評価する。
我々の調査は、忠実さと実用性は相反する可能性があり、迅速なエンジニアリングは有用だが不十分な戦略であることを示している。
さらに、個々の合成投稿は現実的に見えるが、全体として多様性、トピック接続性、および現実的なユーザーインタラクションパターンが欠如していることが分かる。
関連論文リスト
- Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - Towards Realistic Synthetic User-Generated Content: A Scaffolding Approach to Generating Online Discussions [17.96479268328824]
ユーザ生成コンテンツの現実的で大規模な合成データセット作成の実現可能性について検討する。
本稿では,議論スレッドのコンパクトな表現のアイデアに基づく多段階生成プロセスを提案する。
論文 参考訳(メタデータ) (2024-08-15T18:43:50Z) - SynDy: Synthetic Dynamic Dataset Generation Framework for Misinformation Tasks [11.51618067777228]
ディアスポラのコミュニティは、違法な誤報によって不当に影響され、しばしば主流の事実チェックの努力によって無視される。
我々は、最も大きなフロンティア大言語モデルの能力を活用するための、Synthetic Dynamic dataset GenerationのためのフレームワークであるSynDyを紹介する。
SynDy は LLMs を利用した最初の論文であり、誤情報緩和に直接関連のあるタスクのためのきめ細かい合成ラベルを作成する。
我々は、一般的な誤情報トピックに関する高品質な説明者に対して、新しい誤情報クレームをマッチングするなどのファクトチェックツールをSynDyで実現することを期待している。
論文 参考訳(メタデータ) (2024-05-17T11:14:55Z) - Real Risks of Fake Data: Synthetic Data, Diversity-Washing and Consent Circumvention [0.8192907805418583]
モデル開発において合成データを使用することの2つの重要なリスクを提示する。
まず、データセットの多様性と表現性を高めるために合成データを使用する場合、誤信のリスクが高いことを詳述する。
第2に、データ使用に対する同意を回避するための合成データリスクの使用方法を検討する。
論文 参考訳(メタデータ) (2024-05-03T02:47:44Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - The Age of Synthetic Realities: Challenges and Opportunities [85.058932103181]
我々は、有害な合成生成を識別し、それらを現実と区別することのできる法医学的手法の開発における重要な必要性を強調した。
我々の焦点は、画像、ビデオ、オーディオ、テキストなどの様々なメディアの形式にまで及んでいる。
この研究は、AI生成技術の急速な進歩と、法科学の基本原理に対する影響により、最も重要である。
論文 参考訳(メタデータ) (2023-06-09T15:55:10Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Synthetic-to-Real Domain Adaptation for Action Recognition: A Dataset and Baseline Performances [76.34037366117234]
ロボット制御ジェスチャー(RoCoG-v2)と呼ばれる新しいデータセットを導入する。
データセットは7つのジェスチャークラスの実ビデオと合成ビデオの両方で構成されている。
我々は,最先端の行動認識とドメイン適応アルゴリズムを用いて結果を示す。
論文 参考訳(メタデータ) (2023-03-17T23:23:55Z) - Synthetic Data -- what, why and how? [30.413575182259773]
本資料は, 合成データ技術の現状を概観することを目的としている。
この記事は技術的でない聴衆を対象としているが、専門家に明確性を提供するための正式な定義がいくつか与えられている。
論文 参考訳(メタデータ) (2022-05-06T14:27:45Z) - Shape of synth to come: Why we should use synthetic data for English
surface realization [72.62356061765976]
2018年の共有タスクでは、追加で合成されたデータを使用してトレーニングされたシステムの絶対的なパフォーマンスにはほとんど差がなかった。
我々は、2018年の英語データセットの実験において、合成データの使用はかなりの効果があることを示した。
我々は、こうしたデータを活用するシステムについて、今後の研究努力が引き続き探求されるよう、禁止されるのではなく、その使用を奨励すべきであると主張している。
論文 参考訳(メタデータ) (2020-05-06T10:00:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。