論文の概要: Exploratory Study Of Human-AI Interaction For Hindustani Music
- arxiv url: http://arxiv.org/abs/2411.13846v1
- Date: Thu, 21 Nov 2024 05:06:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:18:22.595920
- Title: Exploratory Study Of Human-AI Interaction For Hindustani Music
- Title(参考訳): ヒンズースタン音楽における人間とAIの相互作用に関する探索的研究
- Authors: Nithya Shikarpur, Cheng-Zhi Anna Huang,
- Abstract要約: 本稿では,ヒンズーシャニ声道輪郭の新しい階層的生成モデルであるGaMaDHaNiと対話し,使用した参加者について述べる。
これらの課題は,(1)モデル出力における制約の欠如,(2)モデル出力の不整合である。
- 参考スコア(独自算出の注目度): 1.8467170240426936
- License:
- Abstract: This paper presents a study of participants interacting with and using GaMaDHaNi, a novel hierarchical generative model for Hindustani vocal contours. To explore possible use cases in human-AI interaction, we conducted a user study with three participants, each engaging with the model through three predefined interaction modes. Although this study was conducted "in the wild"- with the model unadapted for the shift from the training data to real-world interaction - we use it as a pilot to better understand the expectations, reactions, and preferences of practicing musicians when engaging with such a model. We note their challenges as (1) the lack of restrictions in model output, and (2) the incoherence of model output. We situate these challenges in the context of Hindustani music and aim to suggest future directions for the model design to address these gaps.
- Abstract(参考訳): 本稿では,ヒンズーシャニ声道輪郭の新しい階層的生成モデルであるGaMaDHaNiを用いた参加者について述べる。
人-AIインタラクションの可能なユースケースを探るため、3人の参加者によるユーザスタディを行い、それぞれが事前に定義された3つのインタラクションモードを通じてモデルに取り組みました。
この研究は、トレーニングデータから現実のインタラクションへのシフトに適応しないモデルで"野生"で行われたが、パイロットとして使用して、そのようなモデルに関わったときのミュージシャンの期待や反応、好みをよりよく理解する。
これらの課題は,(1)モデル出力における制約の欠如,(2)モデル出力の不整合である。
我々はこれらの課題をヒンドゥースターン音楽の文脈に置き、これらのギャップに対処するためのモデル設計の今後の方向性を提案する。
関連論文リスト
- Generative AI for Analyzing Participatory Rural Appraisal Data: An Exploratory Case Study in Gender Research [0.0]
本研究では、参加型農村評価(PRA)による非構造的視覚データの解析におけるジェネレーティブ・人工知能(GenAI)の新たな応用について検討する。
本研究は,「イデアル・ビレッジ」PRAの活動を事例として,インド諸州の多言語的内容を含む手描き人工品を解釈する能力として,最先端の3つの大規模言語モデル(LLM)を評価した。
我々の発見は、このような構造化されていないデータを処理するAIの現在の能力、特に多言語コンテンツを扱うこと、文脈的正確性を維持すること、幻覚を避けることにおける重要な課題を明らかにした。
論文 参考訳(メタデータ) (2025-02-02T11:55:52Z) - Relation Learning and Aggregate-attention for Multi-person Motion Prediction [13.052342503276936]
多対人動作予測は、骨格構造や人間の軌道だけでなく、他者との相互作用も考慮している。
それまでの手法では、個人内の結合関係(イントラリレーション)とグループ間の相互作用(インターリレーション)は異なる種類の表現であるとしばしば見落としていた。
我々はこれらの関係を明示的にモデル化する多人数動作予測のための新しい協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-06T07:48:30Z) - Accounting for AI and Users Shaping One Another: The Role of Mathematical Models [17.89344451611069]
我々は,AIとユーザが相互にどのように形成するかを数学的に規定する形式的相互作用モデルの開発を論じる。
ユーザと対話するAIシステムを設計、評価、監査する際に、正式なインタラクションモデルを活用するようにコミュニティに呼びかけます。
論文 参考訳(メタデータ) (2024-04-18T17:49:02Z) - T-HITL Effectively Addresses Problematic Associations in Image
Generation and Maintains Overall Visual Quality [52.5529784801908]
我々は、人口集団と意味概念の間の問題的関連性の生成に焦点をあてる。
本稿では,問題のある関連の低減と視覚的品質の維持を両立させるため,T-HITL(two- Human-in-the-loop)を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-27T00:29:33Z) - Cognitive Architecture Toward Common Ground Sharing Among Humans and
Generative AIs: Trial on Model-Model Interactions in Tangram Naming Task [2.756147934836574]
本稿では,タングラム命名タスク(TNT)をテストベッドとして,共通地層構築プロセスの検証に着目する。
本研究の予備的な結果は,タスクパフォーマンスがチャンスレベルを超えて改善したことを示している。
これらの結果は、生成AIによる共通基盤のメカニズムに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-11-10T03:15:17Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - Mimetic Models: Ethical Implications of AI that Acts Like You [5.843033621853535]
人工知能研究における新たなテーマは、特定の人々の決定と振る舞いをシミュレートするモデルの作成である。
われわれは, 倫理的, 社会的問題に対処するための枠組みを構築した。
論文 参考訳(メタデータ) (2022-07-19T16:41:36Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Probing Task-Oriented Dialogue Representation from Language Models [106.02947285212132]
本稿では,タスク指向対話タスクにおいて,どのモデルが本質的に最も有意義な表現を担っているかを明らかにするために,事前学習された言語モデルについて検討する。
我々は、アノテートラベルを教師付き方法で固定された事前学習言語モデルの上に、分類器プローブとしてフィードフォワード層を微調整する。
論文 参考訳(メタデータ) (2020-10-26T21:34:39Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。