論文の概要: Multi-Modal Aesthetic Assessment for MObile Gaming Image
- arxiv url: http://arxiv.org/abs/2101.11700v1
- Date: Wed, 27 Jan 2021 21:48:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-01 19:46:04.547739
- Title: Multi-Modal Aesthetic Assessment for MObile Gaming Image
- Title(参考訳): モビルゲーミング画像のマルチモーダル審美性評価
- Authors: Zhenyu Lei, Yejing Xie, Suiyi Ling, Andreas Pastor, Junle Wang,
Patrick Le Callet
- Abstract要約: 提案モデルは,4つのゲーム美的次元の予測において,最先端の審美的指標を著しく上回る。
我々の傾向は、様々な審美的関連次元間の相関を探求し、学習し、一般化性能をさらに向上させることである。
- 参考スコア(独自算出の注目度): 30.962059154484912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the proliferation of various gaming technology, services, game styles,
and platforms, multi-dimensional aesthetic assessment of the gaming contents is
becoming more and more important for the gaming industry. Depending on the
diverse needs of diversified game players, game designers, graphical
developers, etc. in particular conditions, multi-modal aesthetic assessment is
required to consider different aesthetic dimensions/perspectives. Since there
are different underlying relationships between different aesthetic dimensions,
e.g., between the `Colorfulness' and `Color Harmony', it could be advantageous
to leverage effective information attached in multiple relevant dimensions. To
this end, we solve this problem via multi-task learning. Our inclination is to
seek and learn the correlations between different aesthetic relevant dimensions
to further boost the generalization performance in predicting all the aesthetic
dimensions. Therefore, the `bottleneck' of obtaining good predictions with
limited labeled data for one individual dimension could be unplugged by
harnessing complementary sources of other dimensions, i.e., augment the
training data indirectly by sharing training information across dimensions.
According to experimental results, the proposed model outperforms
state-of-the-art aesthetic metrics significantly in predicting four gaming
aesthetic dimensions.
- Abstract(参考訳): 様々なゲーム技術、サービス、ゲームスタイル、プラットフォームの普及に伴い、ゲームコンテンツに対する多次元の美的評価がゲーム業界にとってますます重要になっている。
多様なゲームプレーヤー、ゲームデザイナー、グラフィカル開発者などの多様なニーズに応じて。
特に,マルチモーダル審美評価は,異なる審美的寸法・観察的要素を検討するために必要である。
異なる美的次元、例えば「彩度」と「色彩調和」の間には異なる基礎的な関係があるため、複数の関連する次元に付随する効果的な情報を活用するのが有利である。
そのためには、この問題をマルチタスク学習で解決します。
我々の傾向は、異なる審美的関連次元間の相関を探求し、学習し、すべての審美的次元を予測する際の一般化性能をさらに向上させることである。
したがって、1次元の制限されたラベル付きデータで良好な予測を得るための「ボトルネック」は、他の次元の補完的情報源、すなわち、次元間でトレーニング情報を共有して間接的にトレーニングデータを増強することで解くことができる。
実験結果から,提案モデルは4つのゲーム美的次元を予測する上で,最先端の審美的指標を著しく上回る結果を得た。
関連論文リスト
- AesExpert: Towards Multi-modality Foundation Model for Image Aesthetics Perception [74.11069437400398]
我々は,21,904の多様なソースイメージと88Kの人間の自然言語フィードバックを備えたコーパスリッチな審美的批評データベースを開発した。
AesExpertと呼ばれる、マルチモダリティのAesthetic Expertモデルを実現するために、オープンソースの一般基盤モデルを微調整します。
実験により、提案したAesExpertモデルは、最先端のMLLMよりもはるかに優れた審美的知覚性能を提供することが示された。
論文 参考訳(メタデータ) (2024-04-15T09:56:20Z) - Measuring Diversity of Game Scenarios [8.697775849287343]
我々は,現在の文学と実践のギャップを埋めることを目指しており,ゲームシナリオにおける多様性の測定と統合のための効果的な戦略に関する洞察を提供する。
この調査は、様々なゲームシナリオにおける将来の研究の道筋を示すだけでなく、多様性をゲームデザインと開発の重要な要素として活用しようとする業界の実践者のためのハンドブックとしても機能する。
論文 参考訳(メタデータ) (2024-04-15T07:59:52Z) - MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [49.935634230341904]
MC$2$と呼ばれるマルチコンセプトカスタマイズのためのマルチコンセプトガイダンスを導入し、柔軟性と忠実さを改善した。
MC$2$は、推論時間最適化を通じてモデルアーキテクチャの要件を分離する。
視覚とテキストのトークン間の注意重みを適応的に改善し、画像領域に関連した単語に集中するよう指示する。
論文 参考訳(メタデータ) (2024-04-08T07:59:04Z) - UniAR: Unifying Human Attention and Response Prediction on Visual
Content [12.281060227170792]
UniAR - 異なるタイプの視覚コンテンツにわたって暗黙的および明示的な人間の振る舞いを予測する統一モデル。
自然画像、Webページ、グラフィックデザインにまたがるさまざまなパブリックデータセットに基づいて、UniARをトレーニングします。
論文 参考訳(メタデータ) (2023-12-15T19:57:07Z) - Impressions: Understanding Visual Semiotics and Aesthetic Impact [66.40617566253404]
画像のセミオティックスを調べるための新しいデータセットであるImpressionsを提示する。
既存のマルチモーダル画像キャプションと条件付き生成モデルは、画像に対する可視的応答をシミュレートするのに苦労していることを示す。
このデータセットは、微調整と少数ショット適応により、画像の印象や美的評価をモデル化する能力を大幅に改善する。
論文 参考訳(メタデータ) (2023-10-27T04:30:18Z) - Towards General Game Representations: Decomposing Games Pixels into
Content and Style [2.570570340104555]
ゲームのピクセル表現を学習することは、複数の下流タスクにまたがる人工知能の恩恵を受けることができる。
本稿では,コンピュータビジョンエンコーダの汎用化について検討する。
我々は、ゲームジャンルに基づく事前学習されたビジョントランスフォーマーエンコーダと分解技術を用いて、個別のコンテンツとスタイルの埋め込みを得る。
論文 参考訳(メタデータ) (2023-07-20T17:53:04Z) - Considering user agreement in learning to predict the aesthetic quality [35.255447771350404]
本稿では、平均意見スコアと標準偏差の両方をエンドツーエンドに予測するために、再適応型マルチタスクアテンションネットワークを提案する。
このような損失により、モデルは観察者の意見の多様性に関連するコンテンツの不確実性を学ぶことが奨励される。
提案したマルチタスク美的モデルが,2種類の審美的データセットに対して最先端のパフォーマンスを実現することを示す実験が実施されている。
論文 参考訳(メタデータ) (2021-10-13T18:00:36Z) - Perceiver: General Perception with Iterative Attention [85.65927856589613]
我々は,トランスフォーマーを基盤とするモデルであるperceiverを紹介する。
このアーキテクチャは、分類タスクにおいて、競争的、または強固な、専門的なモデル以上のパフォーマンスを示す。
また、AudioSetのすべてのモダリティの最先端の結果を超えています。
論文 参考訳(メタデータ) (2021-03-04T18:20:50Z) - Individualized Context-Aware Tensor Factorization for Online Games
Predictions [6.602875221541352]
ユーザパフォーマンスとゲーム結果を予測するために,Neural Individualized Context-aware Embeddings(NICE)モデルを提案する。
提案手法は,ユーザとコンテキストの潜在表現を学習することで,異なるコンテキストにおける個人行動の違いを識別する。
我々は,MOBAゲームLeague of Legendsのデータセットを用いて,勝利の予測,個々のユーザパフォーマンス,ユーザエンゲージメントを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-02-22T20:46:02Z) - Embedded Deep Bilinear Interactive Information and Selective Fusion for
Multi-view Learning [70.67092105994598]
本稿では,上記の2つの側面に着目した,新しい多視点学習フレームワークを提案する。
特に、さまざまな深層ニューラルネットワークをトレーニングして、様々なビュー内表現を学習する。
6つの公開データセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-07-13T01:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。