論文の概要: Societal Impacts Research Requires Benchmarks for Creative Composition Tasks
- arxiv url: http://arxiv.org/abs/2504.06549v1
- Date: Wed, 09 Apr 2025 03:12:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:33:12.795254
- Title: Societal Impacts Research Requires Benchmarks for Creative Composition Tasks
- Title(参考訳): 社会影響研究は創造的構成課題のベンチマークを必要とする
- Authors: Judy Hanwen Shen, Carlos Guestrin,
- Abstract要約: このポジションペーパーは、創造的な構成タスクに焦点を当てたベンチマークが、AI生成コンテンツの社会的害を理解するための必要なステップであると主張している。
我々は、創造的な構成タスクを、日常的な創造性を必要とする個人的タスクの助けを求める一般的な利用カテゴリとして特定する。
我々は、創造性のあるモデルの発展と影響を効果的に測定できる新しいベンチマークの開発を知らせるために、使用パターンの透明性を高めることを求めている。
- 参考スコア(独自算出の注目度): 10.67427286900562
- License:
- Abstract: Foundation models that are capable of automating cognitive tasks represent a pivotal technological shift, yet their societal implications remain unclear. These systems promise exciting advances, yet they also risk flooding our information ecosystem with formulaic, homogeneous, and potentially misleading synthetic content. Developing benchmarks grounded in real use cases where these risks are most significant is therefore critical. Through a thematic analysis using 2 million language model user prompts, we identify creative composition tasks as a prevalent usage category where users seek help with personal tasks that require everyday creativity. Our fine-grained analysis identifies mismatches between current benchmarks and usage patterns among these tasks. Crucially, we argue that the same use cases that currently lack thorough evaluations can lead to negative downstream impacts. This position paper argues that benchmarks focused on creative composition tasks is a necessary step towards understanding the societal harms of AI-generated content. We call for greater transparency in usage patterns to inform the development of new benchmarks that can effectively measure both the progress and the impacts of models with creative capabilities.
- Abstract(参考訳): 認知タスクの自動化が可能な基礎モデルは、重要な技術的な変化を示しているが、その社会的意味はいまだ不明である。
これらのシステムは、エキサイティングな進歩を約束する一方で、私たちの情報エコシステムに、定式的で均一で、潜在的に誤解を招く合成コンテンツを浸食するリスクも負う。
そのため、これらのリスクが最も重要となる実際のユースケースを基盤としたベンチマークの開発が重要である。
200万の言語モデルユーザプロンプトを用いたテーマ分析を通じて、創造的な構成タスクを、日常的な創造性を必要とする個人的タスクの助けを求める一般的な利用カテゴリとして認識する。
我々のきめ細かい分析は、現在のベンチマークとこれらのタスクの使い方パターンのミスマッチを特定します。
重要なことは、現在徹底的な評価を欠いているのと同じユースケースが、下流に悪影響を及ぼす可能性があるということです。
このポジションペーパーは、創造的な構成タスクに焦点を当てたベンチマークが、AI生成コンテンツの社会的害を理解するための必要なステップであると主張している。
我々は、創造性のあるモデルの発展と影響を効果的に測定できる新しいベンチマークの開発を知らせるために、使用パターンの透明性を高めることを求めている。
関連論文リスト
- Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation [2.2241228857601727]
本稿では,定量的なベンチマーク手法の欠点を論じる,約100の学術研究の学際的メタレビューを示す。
これは、より広範な社会技術的問題を伴うベンチマークの設計と適用において、多くのきめ細かい問題をもたらす。
レビューではまた、不正なインセンティブ、妥当性の問題の構築、未知の未知、ベンチマーク結果のゲームに関する問題など、現在のプラクティスにおける一連のシステム的欠陥についても取り上げている。
論文 参考訳(メタデータ) (2025-02-10T15:25:06Z) - Ethics and Technical Aspects of Generative AI Models in Digital Content Creation [0.0]
GPT-4oやDALL-E 3といったジェネレーティブAIモデルは、デジタルコンテンツ生成を再構築している。
本稿では,創造産業におけるこれらのモデルの有効性と課題について考察する。
論文 参考訳(メタデータ) (2024-12-20T22:53:29Z) - Can foundation models actively gather information in interactive environments to test hypotheses? [56.651636971591536]
隠れた報酬関数に影響を与える要因をモデルが決定しなければならない枠組みを導入する。
自己スループットや推論時間の増加といったアプローチが情報収集効率を向上させるかどうかを検討する。
論文 参考訳(メタデータ) (2024-12-09T12:27:21Z) - More than Marketing? On the Information Value of AI Benchmarks for Practitioners [42.73526862595375]
学術分野では、公開ベンチマークは一般的に研究の進展を捉えるのに適した指標と見なされた。
製品や政策において、ベンチマークは実質的な決定を下すのに不十分であることがしばしば見出された。
有効なベンチマークは、意味のある実世界の評価を提供し、ドメインの専門知識を取り入れ、スコープと目標の透明性を維持するべきであると結論付けています。
論文 参考訳(メタデータ) (2024-12-07T03:35:39Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Counterfactual Explanations as Interventions in Latent Space [62.997667081978825]
反現実的な説明は、望ましい結果を達成するために変更が必要な機能のセットをエンドユーザに提供することを目的としています。
現在のアプローチでは、提案された説明を達成するために必要な行動の実現可能性を考慮することはめったにない。
本稿では,非現実的説明を生成する手法として,潜時空間における干渉としての対実的説明(CEILS)を提案する。
論文 参考訳(メタデータ) (2021-06-14T20:48:48Z) - Knowledge-driven Data Construction for Zero-shot Evaluation in
Commonsense Question Answering [80.60605604261416]
本稿では,共通認識課題にまたがるゼロショット質問応答のための新しいニューラルシンボリック・フレームワークを提案する。
言語モデル、トレーニング体制、知識ソース、データ生成戦略のセットを変えて、タスク間の影響を測定します。
個別の知識グラフは特定のタスクに適しているが、グローバルな知識グラフはさまざまなタスクに対して一貫した利得をもたらす。
論文 参考訳(メタデータ) (2020-11-07T22:52:21Z) - Generating Fact Checking Explanations [52.879658637466605]
まだ欠けているパズルの重要なピースは、プロセスの最も精巧な部分を自動化する方法を理解することです。
本稿では、これらの説明を利用可能なクレームコンテキストに基づいて自動生成する方法について、最初の研究を行う。
この結果から,個別に学習するのではなく,両目標を同時に最適化することで,事実確認システムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-13T05:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。