このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240909となっている論文です。

PDF登録状況(公開日: 20240909)

TitleAuthorsAbstract論文公表日・翻訳日
# LegiLM: データコンプライアンスのための微調整された法律言語モデル

LegiLM: A Fine-Tuned Legal Language Model for Data Compliance ( http://arxiv.org/abs/2409.13721v1 )

ライセンス: Link先を確認
Linkai Zhu, Lu Yang, Chaofan Li, Shanwen Hu, Lu Liu, Bin Yin, (参考訳) プライバシとデータセキュリティのための国際データ保護標準の遵守は、決定的だが複雑な作業であり、多くの場合、相当な法的専門知識を必要とする。 本稿では、データや情報遵守に関するコンサルティングに適した、新しい法的言語モデルであるLegiLMを紹介する。 LegiLMはトレーニング済みのGDPR Finesデータセットを活用し、特定のアクションやイベントがデータセキュリティとプライバシ規則に違反しているかどうかを自動的に評価するように微調整されている。 グローバルデータ保護法、慎重に注釈付けされたポリシー文書、関連するプライバシポリシを含む特別なデータセットを組み込むことで、データコンプライアンスの課題に対処できる。 このモデルは、高度な法的推論手法と情報検索の強化を統合し、実践的な法的コンサルティングシナリオにおける精度と信頼性を向上させる。 カスタムベンチマークデータセットを用いた評価では、LegiLMはデータ規制違反の検出、健全な法的正当性の提供、必要なコンプライアンス修正の推奨、AI駆動の法的コンプライアンスソリューションのための新たなベンチマークの設定に優れています。 私たちのリソースはhttps://github.com/DAOLegalAI/LegiLMで公開されています。

Ensuring compliance with international data protection standards for privacy and data security is a crucial but complex task, often requiring substantial legal expertise. This paper introduces LegiLM, a novel legal language model specifically tailored for consulting on data or information compliance. LegiLM leverages a pre-trained GDPR Fines dataset and has been fine-tuned to automatically assess whether particular actions or events breach data security and privacy regulations. By incorporating a specialized dataset that includes global data protection laws, meticulously annotated policy documents, and relevant privacy policies, LegiLM is optimized for addressing data compliance challenges. The model integrates advanced legal reasoning methods and information retrieval enhancements to enhance accuracy and reliability in practical legal consulting scenarios. Our evaluation using a custom benchmark dataset demonstrates that LegiLM excels in detecting data regulation breaches, offering sound legal justifications, and recommending necessary compliance modifications, setting a new benchmark for AI-driven legal compliance solutions. Our resources are publicly available at https://github.com/DAOLegalAI/LegiLM
翻訳日:2024-11-07 05:35:28 公開日:2024-09-09
# 説明可能なマルウェア分析:概念,アプローチ,課題

Explainable Malware Analysis: Concepts, Approaches and Challenges ( http://arxiv.org/abs/2409.13723v1 )

ライセンス: Link先を確認
Harikha Manthena, Shaghayegh Shajarian, Jeffrey Kimmell, Mahmoud Abdelsalam, Sajad Khorsandroo, Maanak Gupta, (参考訳) 近年、機械学習(ML)は指数関数的に成長し、金融、医療、サイバーセキュリティなど様々な分野に応用されている。 マルウェアは現代のコンピューティングにとって重大な脅威であり、攻撃者がシステムに侵入するために頻繁に使用する。 マルウェア検出のための多くの機械学習ベースのアプローチは高いパフォーマンスを達成するが、透明性が欠如し、予測を説明できないことが多い。 これは、マルウェア分析において重要な欠点であり、セキュリティアナリストが情報を検証し広めるのに、検出の背後にある根拠を理解することが不可欠である。 説明可能なAI(XAI)は、意思決定に対して明確で理解可能な説明を提供するモデルを作成しながら、高い精度を維持することでこの問題に対処する。 本稿では,現在最先端のMLベースのマルウェア検出技術と,一般的なXAIアプローチについて概説する。 さらに,本研究の実施状況と,説明可能なマルウェア解析の課題についても論じる。 この理論的調査は、マルウェア検出におけるXAI応用に関心を持つ研究者のエントリポイントとなる。 近年のマルウェア分析の進歩を解析することにより、この分野での進歩を概観し、マルウェア分類と検出のためのXAI手法を広くカバーした最初の事例として位置づける。

Machine learning (ML) has seen exponential growth in recent years, finding applications in various domains such as finance, medicine, and cybersecurity. Malware remains a significant threat to modern computing, frequently used by attackers to compromise systems. While numerous machine learning-based approaches for malware detection achieve high performance, they often lack transparency and fail to explain their predictions. This is a critical drawback in malware analysis, where understanding the rationale behind detections is essential for security analysts to verify and disseminate information. Explainable AI (XAI) addresses this issue by maintaining high accuracy while producing models that provide clear, understandable explanations for their decisions. In this survey, we comprehensively review the current state-of-the-art ML-based malware detection techniques and popular XAI approaches. Additionally, we discuss research implementations and the challenges of explainable malware analysis. This theoretical survey serves as an entry point for researchers interested in XAI applications in malware detection. By analyzing recent advancements in explainable malware analysis, we offer a broad overview of the progress in this field, positioning our work as the first to extensively cover XAI methods for malware classification and detection.
翻訳日:2024-11-07 05:35:28 公開日:2024-09-09
# ニューロ・シンボリック統合による論理的一貫性言語モデル

Logically Consistent Language Models via Neuro-Symbolic Integration ( http://arxiv.org/abs/2409.13724v1 )

ライセンス: Link先を確認
Diego Calanzone, Stefano Teso, Antonio Vergari, (参考訳) 大規模言語モデル(LLM)は、自然言語の理解と生成のための有望な場所である。 しかし、現在のLLMは信頼性に欠けており、非現実的な情報を生成する傾向があり、より重要なことは、世界の実体間の関係について推論するよう促されたときに矛盾する。 これらの問題は、現在、大規模な微調整や、外部ツールへの推論の委譲によって対処されている。 本研究では,LLMが限られた事象に対して微調整されている場合でも,外的事実や規則の集合と論理的に整合性を示し,自己整合性を改善するニューロシンボリック推論に基づく損失を導入する。 このアプローチはまた、複数の論理的制約を原則的に一度に組み合わせることを可能にし、全ての制約に対してより一貫したLLMを提供し、与えられた制約に対していくつかのベースラインよりも改善する。 さらに,本手法では,LLMを非目で,意味的に類似した事実知識に外挿し,非目データセットで表現し,より体系的に表現することができる。

Large language models (LLMs) are a promising venue for natural language understanding and generation. However, current LLMs are far from reliable: they are prone to generating non-factual information and, more crucially, to contradicting themselves when prompted to reason about relations between entities of the world. These problems are currently addressed with large scale fine-tuning or by delegating reasoning to external tools. In this work, we strive for a middle ground and introduce a loss based on neuro-symbolic reasoning that teaches an LLM to be logically consistent with an external set of facts and rules and improves self-consistency even when the LLM is fine-tuned on a limited set of facts. Our approach also allows to easily combine multiple logical constraints at once in a principled way, delivering LLMs that are more consistent w.r.t. all constraints and improve over several baselines w.r.t. a given constraint. Moreover, our method allows LLMs to extrapolate to unseen but semantically similar factual knowledge, represented in unseen datasets, more systematically.
翻訳日:2024-11-07 05:35:28 公開日:2024-09-09
# 生成AIコンテンツモデレーションにおけるアイデンティティ関連音声抑圧

Identity-related Speech Suppression in Generative AI Content Moderation ( http://arxiv.org/abs/2409.13725v1 )

ライセンス: Link先を確認
Oghenefejiro Isaacs Anigboro, Charlie M. Crawford, Danaë Metaxa, Sorelle A. Friedler, (参考訳) 自動コンテンツモデレーションは、長い間、望ましくないユーザー生成コンテンツをオンラインで識別しフィルタリングするのに使われてきた。 生成AIシステムは、そのようなフィルタを使用して、望ましくない生成されたコンテンツがユーザによって作成または提示されるのを防ぐ。 教室からハリウッドまで、創造的なAIは創造的あるいは表現的なテキスト生成にますます使われています。 本稿では,複数のコンテンツモデレーションAPIによって誤ってフィルタリングされた異なるアイデンティティグループに関連する音声に焦点を当て,音声抑圧の尺度を定義し,導入する。 本研究で紹介する2つのデータセットを含む、コンテンツモデレーションにおける従来の短い、ユーザ生成データセットと、より長い生成AIデータの両方を用いて、9つのアイデンティティグループに対する音声抑圧の測定のためのベンチマークを作成する。 1つの従来型および4つの生成AIによる自動コンテンツモデレーションサービスでテストした結果、いくつかの非マールガル化グループを除いて、アイデンティティ関連の音声は、他の音声よりも不正に抑圧される可能性が高いことが判明した。 さらに、生成するAIコンテンツを適切に調整する能力において、API間の差異も見出す。

Automated content moderation has long been used to help identify and filter undesired user-generated content online. Generative AI systems now use such filters to keep undesired generated content from being created by or shown to users. From classrooms to Hollywood, as generative AI is increasingly used for creative or expressive text generation, whose stories will these technologies allow to be told, and whose will they suppress? In this paper, we define and introduce measures of speech suppression, focusing on speech related to different identity groups incorrectly filtered by a range of content moderation APIs. Using both short-form, user-generated datasets traditional in content moderation and longer generative AI-focused data, including two datasets we introduce in this work, we create a benchmark for measurement of speech suppression for nine identity groups. Across one traditional and four generative AI-focused automated content moderation services tested, we find that identity-related speech is more likely to be incorrectly suppressed than other speech except in the cases of a few non-marginalized groups. Additionally, we find differences between APIs in their abilities to correctly moderate generative AI content.
翻訳日:2024-11-07 05:35:28 公開日:2024-09-09
# 多言語対話コーパスNoXi+J:アジア・ヨーロッパ非言語文化の理解とエンゲージメントへの影響

Multilingual Dyadic Interaction Corpus NoXi+J: Toward Understanding Asian-European Non-verbal Cultural Characteristics and their Influences on Engagement ( http://arxiv.org/abs/2409.13726v1 )

ライセンス: Link先を確認
Marius Funk, Shogo Okada, Elisabeth André, (参考訳) 非言語的行動は、会話のダイナミクスと相互作用から生じる対話者間の感情状態を理解する上で、中心的な課題である。 心理学的な研究は、非言語行動は文化によって異なることを示したが、これらの違いを明確にし、エンゲージメント認知への影響を評価するために、限定的な計算分析が行われた。 幅広い文化や言語圏におけるエンゲージメントと非言語行動の理解を深めるために,本稿では,非言語的特徴の多言語計算分析を行い,エンゲージメントとエンゲージメント予測におけるそれらの役割について検討する。 この目的を達成するために,我々はまず,フランス,ドイツ,イギリスに住む参加者の対話データを含むNoXiデータセットを拡張した。 次に,様々なパターン認識手法とアルゴリズムを用いて,音声音響,表情,バックチャネル,ジェスチャーを含む多言語非言語的特徴を抽出した。 そして,各言語における文化的・自立的特徴と複数の言語間の共通特徴を識別するために,聴取行動とバックチャネルパターンの統計的解析を行った。 これらの特徴は、インターロケータが示すエンゲージメントと相関していた。 最後に、5つの言語データセットのエンゲージメントを予測するために訓練されたLSTMモデルの入力特徴における文化的差異の影響を分析した。 SHAP分析と転写学習の併用により,言語セットにおける入力特徴の重要性と重要な文化的特徴との間に有意な相関が認められた。

Non-verbal behavior is a central challenge in understanding the dynamics of a conversation and the affective states between interlocutors arising from the interaction. Although psychological research has demonstrated that non-verbal behaviors vary across cultures, limited computational analysis has been conducted to clarify these differences and assess their impact on engagement recognition. To gain a greater understanding of engagement and non-verbal behaviors among a wide range of cultures and language spheres, in this study we conduct a multilingual computational analysis of non-verbal features and investigate their role in engagement and engagement prediction. To achieve this goal, we first expanded the NoXi dataset, which contains interaction data from participants living in France, Germany, and the United Kingdom, by collecting session data of dyadic conversations in Japanese and Chinese, resulting in the enhanced dataset NoXi+J. Next, we extracted multimodal non-verbal features, including speech acoustics, facial expressions, backchanneling and gestures, via various pattern recognition techniques and algorithms. Then, we conducted a statistical analysis of listening behaviors and backchannel patterns to identify culturally dependent and independent features in each language and common features among multiple languages. These features were also correlated with the engagement shown by the interlocutors. Finally, we analyzed the influence of cultural differences in the input features of LSTM models trained to predict engagement for five language datasets. A SHAP analysis combined with transfer learning confirmed a considerable correlation between the importance of input features for a language set and the significant cultural characteristics analyzed.
翻訳日:2024-11-07 05:35:28 公開日:2024-09-09
# 獣医の電子健康記録からの情報抽出のためのGPT-4オムニの分類と再現性

Classification performance and reproducibility of GPT-4 omni for information extraction from veterinary electronic health records ( http://arxiv.org/abs/2409.13727v1 )

ライセンス: Link先を確認
Judit M Wulcan, Kevin L Jacques, Mary Ann Lee, Samantha L Kovacs, Nicole Dausend, Lauren E Prince, Jonatan Wulcan, Sina Marsilio, Stefan M Keller, (参考訳) 大型言語モデル (LLM) は獣医の電子健康記録(EHR)から情報を抽出することができるが, モデル間の性能差, 温度設定の影響, テキストのあいまいさの影響は評価されていない。 本研究では,GPT-4オムニ(GPT-4o)とGPT-3.5ターボ(GPT-3.5 Turbo)の性能を異なる条件で比較し,人体間合意とLCM誤差の関係について検討した。 LLMと5人のヒトは、獣医の紹介病院から250 EHRで猫慢性腸症に関連する6つの臨床症状を同定する任務を負った。 温度0では、GPT-4oの性能は、回答者の多数意見と比較して96.9%の感度(IQR]92.9-99.3%)、97.6%の特異性(IQR 96.5-98.5%)、80.7%の正の予測値(IQR 70.8-84.6%)、99.5%の負の予測値(IQR 99.0-99.9%)、84.4%のF1スコア(IQR 77.3-90.4%)、96.3%のバランス精度(IQR 95.0-979%)を達成した。 特にGPT-3.5ターボは81.7%(IQR 78.9-84.8%)しか達成できなかった。 GPT-4oの温度調整は分類性能に大きな影響を与えなかった。 GPT-4oの再現性は, 温度0では平均0.98 (IQR 0.98-0.99) であり, ヒトでは0.8 (IQR 0.78-0.81) であった。 ほとんどのGPT-4oエラーは、人間が反対するケース(35/43エラー、81.4%)で発生し、これらのエラーは、明示的なモデル欠陥よりもEHRの曖昧さによって引き起こされた可能性が高いことを示唆している。 GPT-4o を用いて獣医学的 EHR からの情報抽出を自動化することは手作業による抽出の代替となる。

Large language models (LLMs) can extract information from veterinary electronic health records (EHRs), but performance differences between models, the effect of temperature settings, and the influence of text ambiguity have not been previously evaluated. This study addresses these gaps by comparing the performance of GPT-4 omni (GPT-4o) and GPT-3.5 Turbo under different conditions and investigating the relationship between human interobserver agreement and LLM errors. The LLMs and five humans were tasked with identifying six clinical signs associated with Feline chronic enteropathy in 250 EHRs from a veterinary referral hospital. At temperature 0, the performance of GPT-4o compared to the majority opinion of human respondents, achieved 96.9% sensitivity (interquartile range [IQR] 92.9-99.3%), 97.6% specificity (IQR 96.5-98.5%), 80.7% positive predictive value (IQR 70.8-84.6%), 99.5% negative predictive value (IQR 99.0-99.9%), 84.4% F1 score (IQR 77.3-90.4%), and 96.3% balanced accuracy (IQR 95.0-97.9%). The performance of GPT-4o was significantly better than that of its predecessor, GPT-3.5 Turbo, particularly with respect to sensitivity where GPT-3.5 Turbo only achieved 81.7% (IQR 78.9-84.8%). Adjusting the temperature for GPT-4o did not significantly impact classification performance. GPT-4o demonstrated greater reproducibility than human pairs regardless of temperature, with an average Cohen's kappa of 0.98 (IQR 0.98-0.99) at temperature 0 compared to 0.8 (IQR 0.78-0.81) for humans. Most GPT-4o errors occurred in instances where humans disagreed (35/43 errors, 81.4%), suggesting that these errors were more likely caused by ambiguity of the EHR than explicit model faults. Using GPT-4o to automate information extraction from veterinary EHRs is a viable alternative to manual extraction.
翻訳日:2024-11-07 05:35:28 公開日:2024-09-09
# AIアシスタントを用いた動的自己安定化作業における空間的不整合の回避

Combating Spatial Disorientation in a Dynamic Self-Stabilization Task Using AI Assistants ( http://arxiv.org/abs/2409.14565v1 )

ライセンス: Link先を確認
Sheikh Mannan, Paige Hansen, Vivekanand Pandey Vimal, Hannah N. Davies, Paul DiZio, Nikhil Krishnaswamy, (参考訳) 空間的不整合は、致命的な航空機事故の主要な原因である。 本稿では,空間的不整合を改善するための手がかりと補正手段を提供することにより,パイロットのバランス維持と制御不能な損失を防止するためのAIエージェントの可能性を探る。 多軸回転システム (MARS) を用いて, 宇宙飛行のアナログ条件下での自己バランスデータ収集を行った。 このデータを使ってモデルをトレーニングし、習熟度が異なる人間のパフォーマンス特性を実証する「デジタルツイン」を作りました。 そして,制御の喪失が予測された場合,様々な強化学習モデルと深層学習モデルを訓練した。 デジタルツインとアシスタントモデルは、同じ物理でプログラムされた仮想反転振り子(VIP)を共同で実行した。 これらのシミュレーションから,衝突頻度やバランス方向からの平均距離といったタスク指標に基づいて,ベストパフォーマンスのアシスタントを5つ選択した。 これらは、劣化した空間情報を含むVIPタスクのバージョンを実行する20人の新しい被験者による共同パフォーマンス研究で使用された。 特定のAIアシスタントは、人間のパフォーマンスを向上させることができ、強化学習に基づくアシスタントは客観的に効果的であるが、人間には信頼されず、好ましくないと評価されている。

Spatial disorientation is a leading cause of fatal aircraft accidents. This paper explores the potential of AI agents to aid pilots in maintaining balance and preventing unrecoverable losses of control by offering cues and corrective measures that ameliorate spatial disorientation. A multi-axis rotation system (MARS) was used to gather data from human subjects self-balancing in a spaceflight analog condition. We trained models over this data to create "digital twins" that exemplified performance characteristics of humans with different proficiency levels. We then trained various reinforcement learning and deep learning models to offer corrective cues if loss of control is predicted. Digital twins and assistant models then co-performed a virtual inverted pendulum (VIP) programmed with identical physics. From these simulations, we picked the 5 best-performing assistants based on task metrics such as crash frequency and mean distance from the direction of balance. These were used in a co-performance study with 20 new human subjects performing a version of the VIP task with degraded spatial information. We show that certain AI assistants were able to improve human performance and that reinforcement-learning based assistants were objectively more effective but rated as less trusted and preferable by humans.
翻訳日:2024-11-06 22:08:18 公開日:2024-09-09
# メタKDDカップ2024の解法再考:CRAG

Revisiting the Solution of Meta KDD Cup 2024: CRAG ( http://arxiv.org/abs/2409.15337v1 )

ライセンス: Link先を確認
Jie Ouyang, Yucong Luo, Mingyue Cheng, Daoyu Wang, Shuo Yu, Qi Liu, Enhong Chen, (参考訳) 本稿では,Meta KDD CUP 2024: CRAG Comprehensive RAG Benchmark ChallengeにおけるAPEXのソリューションについて述べる。 CRAGベンチマークは、Retrieval-Augmented Generation (RAG)システムで直面する多種多様な動的課題を評価する際に、既存のQAベンチマークの限界に対処する。 RAGのパフォーマンスをより包括的に評価し、この分野の研究の進展に貢献する。 本稿では,ルーティングに基づく領域と動的適応型RAGパイプラインを提案する。このパイプラインは,探索,拡張,生成という3つの段階において,質問の多様かつ動的な性質に対して,特定の処理を行う。 本手法はCRAGにおいて優れた性能を示し,第2&3タスクの2位にランクインした。 https://github.com/USTCAGI/CRAG-in-KDD-Cup2024. https://github.com/USTCAGI/CRAG-in-KDD-Cup2024.com/in-KDD-Cup2024.com/in-in-in-KDD-Cup2024.

This paper presents the solution of our team APEX in the Meta KDD CUP 2024: CRAG Comprehensive RAG Benchmark Challenge. The CRAG benchmark addresses the limitations of existing QA benchmarks in evaluating the diverse and dynamic challenges faced by Retrieval-Augmented Generation (RAG) systems. It provides a more comprehensive assessment of RAG performance and contributes to advancing research in this field. We propose a routing-based domain and dynamic adaptive RAG pipeline, which performs specific processing for the diverse and dynamic nature of the question in all three stages: retrieval, augmentation, and generation. Our method achieved superior performance on CRAG and ranked 2nd for Task 2&3 on the final competition leaderboard. Our implementation is available at this link: https://github.com/USTCAGI/CRAG-in-KDD-Cup2024.
翻訳日:2024-11-06 19:54:40 公開日:2024-09-09
# 説明可能なAI:健康AIのための良い説明の定義と属性

Explainable AI: Definition and attributes of a good explanation for health AI ( http://arxiv.org/abs/2409.15338v1 )

ライセンス: Link先を確認
Evangelia Kyrimi, Scott McLachlan, Jared M Wohlgemut, Zane B Perkins, David A. Lagnado, William Marsh, the ExAIDSS Expert Group, (参考訳) ますます複雑で正確な予測モデルに基づく人工知能(AI)ソリューションの提案は、多くの分野にわたって広く行き渡っている。 これらのモデルの複雑さが増大するにつれて、透明性とユーザの理解は低下することが多い。 これは、AIベースのソリューションを本当に役立つものにするには、正確な予測だけで不十分であることを示している。 医療システムの開発において、説明責任と安全性に関する新たな問題が発生する。 AIシステムが推奨する方法と理由を理解するには、内部の動作と推論プロセスに関する複雑な説明が必要になる可能性がある。 近年、説明可能なAI(XAI)の研究が著しく増加し、医学におけるXAIの需要も高まっているが、良い説明を構成するものの定義はいまだ残っており、適切な説明を提供することは引き続き困難である。 AIの可能性を完全に実現するためには、ヘルスAIのような安全クリティカルなAIアプリケーションの説明に関する2つの基本的な疑問に対処することが重要である。 健康AIにおける良い説明の属性は何か? 本研究では,出版論文を調査し,Delphiの2ラウンド研究を通じて専門家の意見を収集した。 本研究の成果は,(1)健康AIにおける説明を構成するものの定義,(2)健康AIにおける良い説明を特徴付ける属性の包括的リストを含む。

Proposals of artificial intelligence (AI) solutions based on increasingly complex and accurate predictive models are becoming ubiquitous across many disciplines. As the complexity of these models grows, transparency and users' understanding often diminish. This suggests that accurate prediction alone is insufficient for making an AI-based solution truly useful. In the development of healthcare systems, this introduces new issues related to accountability and safety. Understanding how and why an AI system makes a recommendation may require complex explanations of its inner workings and reasoning processes. Although research on explainable AI (XAI) has significantly increased in recent years and there is high demand for XAI in medicine, defining what constitutes a good explanation remains ad hoc, and providing adequate explanations continues to be challenging. To fully realize the potential of AI, it is critical to address two fundamental questions about explanations for safety-critical AI applications, such as health-AI: (1) What is an explanation in health-AI? and (2) What are the attributes of a good explanation in health-AI? In this study, we examined published literature and gathered expert opinions through a two-round Delphi study. The research outputs include (1) a definition of what constitutes an explanation in health-AI and (2) a comprehensive list of attributes that characterize a good explanation in health-AI.
翻訳日:2024-11-06 19:54:40 公開日:2024-09-09
# リコール:エッジデバイスへのマルチモーダル埋め込みの強化

Recall: Empowering Multimodal Embedding for Edge Devices ( http://arxiv.org/abs/2409.15342v1 )

ライセンス: Link先を確認
Dongqi Cai, Shangguang Wang, Chen Peng, Zeling Zhang, Mengwei Xu, (参考訳) 人間の記憶は本質的に忘れやすい。 これを解決するために、様々な現実世界のデータを統一的な埋め込み空間に変換するマルチモーダル埋め込みモデルが導入された。 これらの埋め込みは効率的に検索でき、モバイルユーザーが過去の情報を思い出すのを助ける。 しかし、モデルの複雑さが増大するにつれて、そのリソース要求も増加し、スループットが低下し、モバイルデバイスの実装が制限される重い計算要求が発生する。 本稿では,リソース制限されたモバイル環境に最適化されたデバイス上でのマルチモーダル埋め込みシステムであるRECALLを紹介する。 RECALLは粗粒の埋め込みを生成し、クエリベースのフィルタリングを利用して精細な検索を行う。 実験の結果,RECALLはメモリとエネルギー消費を最小限に抑えながら,高いスループットで高品質な埋め込みを実現することがわかった。

Human memory is inherently prone to forgetting. To address this, multimodal embedding models have been introduced, which transform diverse real-world data into a unified embedding space. These embeddings can be retrieved efficiently, aiding mobile users in recalling past information. However, as model complexity grows, so do its resource demands, leading to reduced throughput and heavy computational requirements that limit mobile device implementation. In this paper, we introduce RECALL, a novel on-device multimodal embedding system optimized for resource-limited mobile environments. RECALL achieves high-throughput, accurate retrieval by generating coarse-grained embeddings and leveraging query-based filtering for refined retrieval. Experimental results demonstrate that RECALL delivers high-quality embeddings with superior throughput, all while operating unobtrusively with minimal memory and energy consumption.
翻訳日:2024-11-06 19:54:40 公開日:2024-09-09
# LiDAR-3DGS:マルチモーダルラジアンフィールドレンダリングのためのLiDAR強化3次元ガウススプレイティング

LiDAR-3DGS: LiDAR Reinforced 3D Gaussian Splatting for Multimodal Radiance Field Rendering ( http://arxiv.org/abs/2409.16296v1 )

ライセンス: Link先を確認
Hansol Lim, Hanbeom Chang, Jongseong Brad Choi, Chul Min Yeum, (参考訳) 本稿では,3次元ガウス散乱(3DGS)に基づくレイディアンス場レンダリングにおけるマルチモーダル入力機能について検討する。 LiDAR-3DGSは、3次元モデルの精度とディテールを大幅に向上させるために、LiDAR生成点雲を用いて3DGS入力を補強する新しい方法である。 我々は3DGSへのLiDAR強化の体系的なアプローチを実証し、ボルトや開口などの重要な特徴を、画像ベースの特徴だけでは見落とされがちな細部を捉えることを可能にした。 これらの詳細は、リモート監視やメンテナンスといったエンジニアリングアプリケーションには不可欠です。 基礎となる3DGSアルゴリズムを変更することなく、LiDAR生成点クラウドをわずかに付加しても、モデルの知覚品質が著しく向上することを示した。 その結果,PSNRが7.064%,SSIMが0.565%増加した。 この研究で使用されるLiDARは一般の商用グレードデバイスであるため、観測された改善は控えめであり、より高いグレードのLiDARシステムでさらに強化することができる。 さらに、これらの改善は、Radiance Field Renderingの他の派生作品に補足することができ、将来のLiDARとコンピュータビジョン統合モデリングの新しい洞察を提供することができる。

In this paper, we explore the capabilities of multimodal inputs to 3D Gaussian Splatting (3DGS) based Radiance Field Rendering. We present LiDAR-3DGS, a novel method of reinforcing 3DGS inputs with LiDAR generated point clouds to significantly improve the accuracy and detail of 3D models. We demonstrate a systematic approach of LiDAR reinforcement to 3DGS to enable capturing of important features such as bolts, apertures, and other details that are often missed by image-based features alone. These details are crucial for engineering applications such as remote monitoring and maintenance. Without modifying the underlying 3DGS algorithm, we demonstrate that even a modest addition of LiDAR generated point cloud significantly enhances the perceptual quality of the models. At 30k iterations, the model generated by our method resulted in an increase of 7.064% in PSNR and 0.565% in SSIM, respectively. Since the LiDAR used in this research was a commonly used commercial-grade device, the improvements observed were modest and can be further enhanced with higher-grade LiDAR systems. Additionally, these improvements can be supplementary to other derivative works of Radiance Field Rendering and also provide a new insight for future LiDAR and computer vision integrated modeling.
翻訳日:2024-11-06 17:42:27 公開日:2024-09-09
# テキスト・画像生成におけるコンテンツモデレーションの境界探索

Exploring the Boundaries of Content Moderation in Text-to-Image Generation ( http://arxiv.org/abs/2409.17155v1 )

ライセンス: Link先を確認
Piera Riccio, Georgina Curto, Nuria Oliver, (参考訳) 本稿では,5つのテキスト・ツー・イメージ(T2I)生成プラットフォームにおけるコミュニティの安全ガイドラインを分析し,社会的スティグマにつながる可能性のある領域における人間の表現に関連するプロンプトに着目した5つのT2Iモデルを監査する。 現在の研究は、有害なコンテンツの発生を制限することによる安全性確保に重点を置いているが、この研究は相補的な視点を提供する。 安全の概念は定義と運用が困難であり、公式の安全ガイドラインとT2Iモデルの実際の振る舞いの相違に反映され、時には過検閲につながると論じている。 われわれの調査結果は、透明性の向上とプラットフォームにおけるコンテンツモデレーションの実践に関する包括的対話を、彼らのグローバルな文化的・社会的影響を念頭に置いて求めている。

This paper analyzes the community safety guidelines of five text-to-image (T2I) generation platforms and audits five T2I models, focusing on prompts related to the representation of humans in areas that might lead to societal stigma. While current research primarily focuses on ensuring safety by restricting the generation of harmful content, our study offers a complementary perspective. We argue that the concept of safety is difficult to define and operationalize, reflected in a discrepancy between the officially published safety guidelines and the actual behavior of the T2I models, and leading at times to over-censorship. Our findings call for more transparency and an inclusive dialogue about the platforms' content moderation practices, bearing in mind their global cultural and social impact.
翻訳日:2024-11-06 17:00:06 公開日:2024-09-09
# 自己監督型音声基礎モデルの効率的な学習 Compute Budget

Efficient Training of Self-Supervised Speech Foundation Models on a Compute Budget ( http://arxiv.org/abs/2409.16295v1 )

ライセンス: Link先を確認
Andy T. Liu, Yi-Cheng Lin, Haibin Wu, Stefan Winkler, Hung-yi Lee(参考訳) その素晴らしい成功にもかかわらず、トレーニング基礎モデルは計算に費用がかかるままである。 本稿では,限定的な計算予算の下で,自己教師付き学習(SSL)を用いて音声基礎モデルを効率的に訓練する方法を検討する。 モデルアーキテクチャ、モデルサイズ、データサイズなど、予算に影響を与えるSSLの重要な要因について検討する。 我々の目標は、音声基礎モデルの訓練力学を理解するための分析的なステップを作ることである。 我々はSSLの目標を全く同じ設定でベンチマークし、他の要因がSSLの成功にさらに大きく寄与していることに気付きました。 その結果、スリムモデルアーキテクチャは、同じ計算とパラメータの予算の下で、一般的な小さなアーキテクチャよりも優れていることがわかった。 我々は、SSLトレーニング中のデータ拡張であっても、トレーニング前のデータのサイズが重要なままであることを示す。 最後に、モデルサイズとデータサイズの間のトレードオフを特定し、与えられた計算予算に対して最適なモデルサイズを示す。

Despite their impressive success, training foundation models remains computationally costly. This paper investigates how to efficiently train speech foundation models with self-supervised learning (SSL) under a limited compute budget. We examine critical factors in SSL that impact the budget, including model architecture, model size, and data size. Our goal is to make analytical steps toward understanding the training dynamics of speech foundation models. We benchmark SSL objectives in an entirely comparable setting and find that other factors contribute more significantly to the success of SSL. Our results show that slimmer model architectures outperform common small architectures under the same compute and parameter budget. We demonstrate that the size of the pre-training data remains crucial, even with data augmentation during SSL training, as performance suffers when iterating over limited data. Finally, we identify a trade-off between model size and data size, highlighting an optimal model size for a given compute budget.
翻訳日:2024-09-27 09:03:58 公開日:2024-09-09
# BetterBodies: 抗体の拡散を指導する強化学習 シーケンス設計

BetterBodies: Reinforcement Learning guided Diffusion for Antibody Sequence Design ( http://arxiv.org/abs/2409.16298v1 )

ライセンス: Link先を確認
Yannick Vogt, Mehdi Naouar, Maria Kalweit, Christoph Cornelius Miething, Justus Duyster, Joschka Boedecker, Gabriel Kalweit(参考訳) 抗体は様々な疾患の治療に大きな可能性を秘めている。 しかし、従来の湿式検査方法による治療抗体の発見は高価で時間を要する。 したがって、抗体の設計における生成モデルの使用は、必要な時間とリソースを削減できるため、大きな可能性を秘めている。 近年,多種多様な高品質なサンプルを合成する能力によって,拡散モデルのクラスに大きな注目を集めている。 しかし、それらの基本的な形態では、抗原への親和性などの特定の性質を最適化する機構が欠如している。 対照的に、オフライン強化学習(RL)手法のクラスは、湿式実験室とのインタラクションのような実世界の対話が頻繁に行われるシナリオを含む、大規模な探索空間をナビゲートする際の強力な性能を示している。 我々の新しい手法であるBetterBodiesは、変動オートエンコーダ(VAE)とRL誘導潜在拡散を組み合わせたもので、異なるデータ分布から新しい抗体CDRH3配列を生成することができる。 我々は,Absolut!シミュレータを用いて,SARS-CoVスパイク受容体結合ドメインへの新規配列の親和性の改善を実証した。 さらに, VAE潜伏空間の生物物理特性を対照的な損失を用いて反映し, 生成配列の親和性を高めるために, 新たなQ関数に基づくフィルタリングを加えた。 結論として,本研究のような手法は,新規な高親和性バインダーの創出がコストのかかる取り組みである実世界の生物配列設計に大きな影響を与える可能性がある。

Antibodies offer great potential for the treatment of various diseases. However, the discovery of therapeutic antibodies through traditional wet lab methods is expensive and time-consuming. The use of generative models in designing antibodies therefore holds great promise, as it can reduce the time and resources required. Recently, the class of diffusion models has gained considerable traction for their ability to synthesize diverse and high-quality samples. In their basic form, however, they lack mechanisms to optimize for specific properties, such as binding affinity to an antigen. In contrast, the class of offline Reinforcement Learning (RL) methods has demonstrated strong performance in navigating large search spaces, including scenarios where frequent real-world interaction, such as interaction with a wet lab, is impractical. Our novel method, BetterBodies, which combines Variational Autoencoders (VAEs) with RL guided latent diffusion, is able to generate novel sets of antibody CDRH3 sequences from different data distributions. Using the Absolut! simulator, we demonstrate the improved affinity of our novel sequences to the SARS-CoV spike receptor-binding domain. Furthermore, we reflect biophysical properties in the VAE latent space using a contrastive loss and add a novel Q-function based filtering to enhance the affinity of generated sequences. In conclusion, methods such as ours have the potential to have great implications for real-world biological sequence design, where the generation of novel high-affinity binders is a cost-intensive endeavor.
翻訳日:2024-09-27 09:03:58 公開日:2024-09-09
# コスト効果のあるモバイル生成サービスのための共同モデルアサインメントとリソースアロケーション

Joint Model Assignment and Resource Allocation for Cost-Effective Mobile Generative Services ( http://arxiv.org/abs/2409.09072v1 )

ライセンス: Link先を確認
Shuangwei Gao, Peng Yang, Yuxin Kong, Feng Lyu, Ning Zhang, (参考訳) AIGC(Artificial Intelligence Generated Content)サービスは、ユーザの指定したコンテンツ生成要求を効率的に満たすことができるが、高い計算要求は、モバイルユーザを大規模にサポートする上でさまざまな課題をもたらす。 本稿では,エッジサーバに生成モデルの計算タスクを適切に割り当てるエッジ対応AIGCサービス提供システムの設計について述べる。 具体的には、エッジサーバがユーザ要求のタスクプロンプトを受信すると、適切なモデルを動的に割り当て、各カテゴリのプロンプトの特徴に基づいてコンピューティングリソースを割り当てる。 生成されたコンテンツはユーザーに配信される。 このシステムの鍵となるのは、カテゴリラベルに基づいて各プロンプトに対して生成されたコンテンツの品質スコアを推定する確率的モデル割当手法である。 次に、エッジ上の各生成モデルから受信される様々なタスク要求に応じて、生成ステップとリソース割り当ての両方を適応的に設定できるヒューリスティックアルゴリズムを導入し、シミュレーション結果から、設計システムは、ベンチマークと比較して、応答遅延を最大39.1%削減しつつ、生成コンテンツの品質を最大4.7%向上させることができることを示した。

Artificial Intelligence Generated Content (AIGC) services can efficiently satisfy user-specified content creation demands, but the high computational requirements pose various challenges to supporting mobile users at scale. In this paper, we present our design of an edge-enabled AIGC service provisioning system to properly assign computing tasks of generative models to edge servers, thereby improving overall user experience and reducing content generation latency. Specifically, once the edge server receives user requested task prompts, it dynamically assigns appropriate models and allocates computing resources based on features of each category of prompts. The generated contents are then delivered to users. The key to this system is a proposed probabilistic model assignment approach, which estimates the quality score of generated contents for each prompt based on category labels. Next, we introduce a heuristic algorithm that enables adaptive configuration of both generation steps and resource allocation, according to the various task requests received by each generative model on the edge.Simulation results demonstrate that the designed system can effectively enhance the quality of generated content by up to 4.7% while reducing response delay by up to 39.1% compared to benchmarks.
翻訳日:2024-09-22 21:32:16 公開日:2024-09-09
# LV配電系統におけるPVアクティブ制御のための公正強化学習アルゴリズム

Fair Reinforcement Learning Algorithm for PV Active Control in LV Distribution Networks ( http://arxiv.org/abs/2409.09074v1 )

ライセンス: Link先を確認
Maurizio Vassallo, Amina Benzerga, Alireza Bahmanyar, Damien Ernst, (参考訳) 分散型エネルギー資源,特に太陽光発電(PV)パネルの採用が増加し,電力ネットワーク制御に対する新たな複雑な課題が提示された。 PVパネルによる重要なエネルギー生産により、ネットワーク内の電圧問題は問題となっている。 現在、PVスマートインバータ(SI)は、アクティブ電源と反応性電力注入または吸収を制御することで電圧問題を軽減している。 しかし、PVパネルのアクティブな出力を減らすことは、一部の顧客に不公平であると見なされ、将来の設置を妨げている。 そこで本研究では,顧客間の能動電力削減の公平性を考慮しつつ,配電系統の電圧問題に対処するための強化学習手法を提案する。 提案手法の有効性を実験により検証し, 有効かつ効果的に電圧を制御できることを実証した。

The increasing adoption of distributed energy resources, particularly photovoltaic (PV) panels, has presented new and complex challenges for power network control. With the significant energy production from PV panels, voltage issues in the network have become a problem. Currently, PV smart inverters (SIs) are used to mitigate the voltage problems by controlling their active power generation and reactive power injection or absorption. However, reducing the active power output of PV panels can be perceived as unfair to some customers, discouraging future installations. To solve this issue, in this paper, a reinforcement learning technique is proposed to address voltage issues in a distribution network, while considering fairness in active power curtailment among customers. The feasibility of the proposed approach is explored through experiments, demonstrating its ability to effectively control voltage in a fair and efficient manner.
翻訳日:2024-09-22 21:32:16 公開日:2024-09-09
# 誘導ヘッドの解離:変圧器の訓練ダイナミクスと特徴学習

Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers ( http://arxiv.org/abs/2409.10559v1 )

ライセンス: Link先を確認
Siyu Chen, Heejune Sheen, Tianhao Wang, Zhuoran Yang, (参考訳) In-context Learning (ICL) は、大きな言語モデル(LLM)機能の基盤であるが、その理論的基礎はトランスフォーマーアーキテクチャの複雑さのために解明されていない。 特に、既存のほとんどの研究は、注意機構が特定のデータモデルの下でICLをどのように促進するかを理論的に説明するだけである。 トランスの他の構成要素がICLにどのように貢献するかは、まだ不明である。 この問題に対処するため、2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するように訓練されている場合、マルコフ連鎖の各トークンは、統計的に以前の$n$トークンに依存する。 相対的な位置埋め込み、マルチヘッドソフトマックスアテンション、正規化によるフィードフォワード層を特徴とする洗練されたトランスモデルを解析する。 クロスエントロピーICL損失に対する勾配流は、学習された特徴を持つ誘導ヘッド機構の一般化バージョンを実行する制限モデルに収束し、すべてのビルディングブロックの連続的な寄与から生じる。 制限モデルでは、第1の注目層が$\mathit{copier}$として働き、指定されたウィンドウ内で過去のトークンをそれぞれの位置にコピーし、正規化されたフィードフォワードネットワークは$\mathit{selector}$として機能ベクターを生成し、ウィンドウから情報に関連のある親を見るだけで機能ベクターを生成する。 最後に、第2の注目層は$\mathit{classifier}$で、これらの特徴と出力位置のフィーチャを比較し、結果の類似度スコアを使用して所望の出力を生成する。 我々の理論は実験によってさらに検証される。

In-context learning (ICL) is a cornerstone of large language model (LLM) functionality, yet its theoretical foundations remain elusive due to the complexity of transformer architectures. In particular, most existing work only theoretically explains how the attention mechanism facilitates ICL under certain data models. It remains unclear how the other building blocks of the transformer contribute to ICL. To address this question, we study how a two-attention-layer transformer is trained to perform ICL on $n$-gram Markov chain data, where each token in the Markov chain statistically depends on the previous $n$ tokens. We analyze a sophisticated transformer model featuring relative positional embedding, multi-head softmax attention, and a feed-forward layer with normalization. We prove that the gradient flow with respect to a cross-entropy ICL loss converges to a limiting model that performs a generalized version of the induction head mechanism with a learned feature, resulting from the congruous contribution of all the building blocks. In the limiting model, the first attention layer acts as a $\mathit{copier}$, copying past tokens within a given window to each position, and the feed-forward network with normalization acts as a $\mathit{selector}$ that generates a feature vector by only looking at informationally relevant parents from the window. Finally, the second attention layer is a $\mathit{classifier}$ that compares these features with the feature at the output position, and uses the resulting similarity scores to generate the desired output. Our theory is further validated by experiments.
翻訳日:2024-09-22 21:22:31 公開日:2024-09-09
# 電力グリッドの目に見えないAI破壊: LLMによる過渡性

The Unseen AI Disruptions for Power Grids: LLM-Induced Transients ( http://arxiv.org/abs/2409.11416v1 )

ライセンス: Link先を確認
Yuzhuo Li, Mariam Mughees, Yize Chen, Yunwei Ryan Li, (参考訳) 近年の大規模言語モデル(LLM)のブレークスルーは、主要な産業で優れた能力を示し、今後3~5年間でAI中心のデータセンターに数百億ドルの投資を刺激している。 これにより、持続可能性やAI関連のエネルギー使用に対する懸念が高まる。 しかし、AIモデルとインフラストラクチャの効率が破壊的な動的電力消費の振る舞いであるように、ほとんど見過ごされがちな問題があります。 高速で過渡的なダイナミクスにより、AIインフラストラクチャは、超低慣性、シャープなパワーサージとディップ、ピーク時のパワー比が大幅に向上する。 パワースケールは数百ワットからメガワット、ギガワットまで。 これらの目に見えない特徴は、AIを非常にユニークな負荷にし、電力グリッドの信頼性とレジリエンスに脅威をもたらす。 この隠れた問題を明らかにするため、本稿では、AI電力消費の規模を調べ、さまざまなシナリオにおけるAI過渡的な振る舞いを分析し、AIワークロードの振る舞いを記述するための高レベルの数学的モデルを開発し、既存の電力グリッドにもたらす可能性のある課題と機会について論じる。 この研究は、急速に進化する機械学習(ML)とAI技術を観察し、信頼性と持続可能なAIインフラストラクチャ開発を保証するための学際的アプローチの重要性を強調し、研究者や実践者がこのような課題に取り組むための出発点を提供する。

Recent breakthroughs of large language models (LLMs) have exhibited superior capability across major industries and stimulated multi-hundred-billion-dollar investment in AI-centric data centers in the next 3-5 years. This, in turn, bring the increasing concerns on sustainability and AI-related energy usage. However, there is a largely overlooked issue as challenging and critical as AI model and infrastructure efficiency: the disruptive dynamic power consumption behaviour. With fast, transient dynamics, AI infrastructure features ultra-low inertia, sharp power surge and dip, and a significant peak-idle power ratio. The power scale covers from several hundred watts to megawatts, even to gigawatts. These never-seen-before characteristics make AI a very unique load and pose threats to the power grid reliability and resilience. To reveal this hidden problem, this paper examines the scale of AI power consumption, analyzes AI transient behaviour in various scenarios, develops high-level mathematical models to depict AI workload behaviour and discusses the multifaceted challenges and opportunities they potentially bring to existing power grids. Observing the rapidly evolving machine learning (ML) and AI technologies, this work emphasizes the critical need for interdisciplinary approaches to ensure reliable and sustainable AI infrastructure development, and provides a starting point for researchers and practitioners to tackle such challenges.
翻訳日:2024-09-22 21:12:27 公開日:2024-09-09
# 海上サイバーセキュリティ:総合的なレビュー

Maritime Cybersecurity: A Comprehensive Review ( http://arxiv.org/abs/2409.11417v1 )

ライセンス: Link先を確認
Meixuan Li, Jianying Zhou, Sudipta Chattopadhyay, Mark Goh, (参考訳) 海上産業は危機的な危機に立たされ、技術的進歩の必須条件は、堅牢なサイバーセキュリティ対策の必要性と交差している。 海上サイバーセキュリティ(英: Maritime Cybersecurity)とは、海洋産業におけるコンピュータシステムとデジタル資産の保護、および海洋生態系を構成する相互接続コンポーネントの広範なネットワークを指す。 本研究では,海上サイバーセキュリティの重要領域を特定し,その有効性を評価することを目的とする。 AIS, GNSS, ECDIS, VDR, RADAR, VSAT, GMDSSを含む主要海洋システムにおける脅威の詳細な分析を行った。 海上サイバー攻撃の多次元分類が提示され、脅威アクター、モチベーション、影響に関する洞察を提供する。 統合ソリューションからコンポーネント固有のソリューションまで、さまざまなセキュリティソリューションの評価も行っています。 最後に、オープンな課題と将来のソリューションを共有しました。 補足セクションでは,本調査で論じられた容器コンポーネントの定義と脆弱性について紹介する。 重要な相互接続の側面でこれらすべての重要な問題に対処することで、このレビューはより回復力のある海洋生態系を育むことを目的としている。

The maritime industry stands at a critical juncture, where the imperative for technological advancement intersects with the pressing need for robust cybersecurity measures. Maritime cybersecurity refers to the protection of computer systems and digital assests within the maritime industry, as well as the broader network of interconnected components that make up the maritime ecosystem. In this survey, we aim to identify the significant domains of maritime cybersecurity and measure their effectiveness. We have provided an in-depth analysis of threats in key maritime systems, including AIS, GNSS, ECDIS, VDR, RADAR, VSAT, and GMDSS, while exploring real-world cyber incidents that have impacted the sector. A multi-dimensional taxonomy of maritime cyber attacks is presented, offering insights into threat actors, motivations, and impacts. We have also evaluated various security solutions, from integrated solutions to component specific solutions. Finally, we have shared open challenges and future solutions. In the supplementary section, we have presented definitions and vulnerabilities of vessel components that have discussed in this survey. By addressing all these critical issues with key interconnected aspects, this review aims to foster a more resilient maritime ecosystem.
翻訳日:2024-09-22 21:12:27 公開日:2024-09-09
# 表情・脳波・心電図信号を用いた複合感情認識システムの検討

Complex Emotion Recognition System using basic emotions via Facial Expression, EEG, and ECG Signals: a review ( http://arxiv.org/abs/2409.07493v1 )

ライセンス: Link先を確認
Javad Hassannataj Joloudari, Mohammad Maftoun, Bahareh Nakisa, Roohallah Alizadehsani, Meisam Yadollahzadeh-Tabari, (参考訳) 複雑な感情認識システム(CERS)は、表現された基本的な感情、それらの相互関係、そして動的変動の組合せを調べることによって、複雑な感情状態を解読する。 高度なアルゴリズムの利用を通じて、CERSは感情力学の深い洞察を与え、微妙な理解とカスタマイズされた応答を促進する。 機械におけるそのような感情認識のレベルを達成するには、知識の蒸留と人間の認知に似た新しい概念の理解が必要である。 複雑な感情を識別するAIシステムの開発は、感情的コンピューティングに重要な意味を持つ重要な課題となっている。 さらに、CERSの膨大なデータセットを取得することは、微妙な感情を捉え、データ収集と処理に特別な方法を必要とするという複雑さのために、大変な作業であることが証明されている。 心電図 (ECG) や脳波 (EEG) などの生理的信号を組み込むことによって, ユーザの感情状態に対する貴重な洞察を与え, データセットの品質を高め, システムの信頼性を高めることで, CERSを著しく向上させることができる。 本研究では,脳波,心電図信号,表情データセットを用いた基礎的・複雑な感情認識において,機械学習,深層学習,メタラーニングのアプローチの有効性を評価するため,総合的な文献レビューを行った。 選択された研究論文は、臨床意思決定プロセスへの受容と統合を促進することを目的として、CERSの潜在的な応用、臨床的含意、および結果に関する視点を提供する。 本研究は、CERSの理解における研究ギャップと課題を強調し、関連する研究や組織によるさらなる調査を奨励する。 最後に,CERSの性能向上と今後の研究の指導におけるメタラーニング手法の重要性について述べる。

The Complex Emotion Recognition System (CERS) deciphers complex emotional states by examining combinations of basic emotions expressed, their interconnections, and the dynamic variations. Through the utilization of advanced algorithms, CERS provides profound insights into emotional dynamics, facilitating a nuanced understanding and customized responses. The attainment of such a level of emotional recognition in machines necessitates the knowledge distillation and the comprehension of novel concepts akin to human cognition. The development of AI systems for discerning complex emotions poses a substantial challenge with significant implications for affective computing. Furthermore, obtaining a sizable dataset for CERS proves to be a daunting task due to the intricacies involved in capturing subtle emotions, necessitating specialized methods for data collection and processing. Incorporating physiological signals such as Electrocardiogram (ECG) and Electroencephalogram (EEG) can notably enhance CERS by furnishing valuable insights into the user's emotional state, enhancing the quality of datasets, and fortifying system dependability. A comprehensive literature review was conducted in this study to assess the efficacy of machine learning, deep learning, and meta-learning approaches in both basic and complex emotion recognition utilizing EEG, ECG signals, and facial expression datasets. The chosen research papers offer perspectives on potential applications, clinical implications, and results of CERSs, with the objective of promoting their acceptance and integration into clinical decision-making processes. This study highlights research gaps and challenges in understanding CERSs, encouraging further investigation by relevant studies and organizations. Lastly, the significance of meta-learning approaches in improving CERS performance and guiding future research endeavors is underscored.
翻訳日:2024-09-13 20:50:00 公開日:2024-09-09
# 共同トランザクション言語モデルとグラフ表現学習によるEthereumフラッド検出

Ethereum Fraud Detection via Joint Transaction Language Model and Graph Representation Learning ( http://arxiv.org/abs/2409.07494v1 )

ライセンス: Link先を確認
Yifan Jia, Yanbin Wang, Jianguo Sun, Yiwei Liu, Zhang Sheng, Ye Tian, (参考訳) Ethereumは詐欺の脅威が増えている。 現在の不正検出方法は、グラフニューラルネットワークやシーケンスモデルを用いても、トランザクション内の意味情報や類似性パターンを考慮できない。 さらに、これらのアプローチは、両方のタイプのモデルを組み合わせることによる潜在的な相乗効果を生かしていない。 これらの課題に対処するため,トランザクション言語モデルとグラフベースの手法を組み合わせたTLMG4Ethを提案し,Ethereumにおけるトランザクションデータのセマンティクス,類似性,構造的特徴を捉える。 まず,数値的なトランザクションデータを意味のあるトランザクション文に変換するトランザクション言語モデルを提案する。 そして、トランザクション属性類似性グラフを提案し、トランザクション類似性情報を学び、トランザクション異常に対する直感的な洞察を捉える。 さらに、アカウントトランザクションネットワークの構造情報をキャプチャするために、アカウント間相互作用グラフを構築します。 トランザクションのセマンティクスと類似性埋め込みを融合するために,深いマルチヘッドアテンションネットワークを用い,最終的には,マルチヘッドアテンションネットワークとアカウントインタラクショングラフの協調トレーニング手法を提案し,両者の相乗効果を得る。

Ethereum faces growing fraud threats. Current fraud detection methods, whether employing graph neural networks or sequence models, fail to consider the semantic information and similarity patterns within transactions. Moreover, these approaches do not leverage the potential synergistic benefits of combining both types of models. To address these challenges, we propose TLMG4Eth that combines a transaction language model with graph-based methods to capture semantic, similarity, and structural features of transaction data in Ethereum. We first propose a transaction language model that converts numerical transaction data into meaningful transaction sentences, enabling the model to learn explicit transaction semantics. Then, we propose a transaction attribute similarity graph to learn transaction similarity information, enabling us to capture intuitive insights into transaction anomalies. Additionally, we construct an account interaction graph to capture the structural information of the account transaction network. We employ a deep multi-head attention network to fuse transaction semantic and similarity embeddings, and ultimately propose a joint training approach for the multi-head attention network and the account interaction graph to obtain the synergistic benefits of both.
翻訳日:2024-09-13 20:40:16 公開日:2024-09-09
# 機械学習を活用したCSIセンシングの実用性検証

Validation of Practicality for CSI Sensing Utilizing Machine Learning ( http://arxiv.org/abs/2409.07495v1 )

ライセンス: Link先を確認
Tomoya Tanaka, Ayumu Yabuki, Mizuki Funakoshi, Ryo Yonemoto, (参考訳) 本研究では、WLAN通信によく利用されるChannel State Information(CSI)をトレーニングデータとして活用し、立位、座位、横たわる姿勢を認識するための5つの異なる機械学習モデルの開発と評価を行った。 私たちが採用したモデルは次のとおりです。 一 線形判別分析 (二)ナイブベイズ・サポーターベクトル機 三 カーネル・サポーター・ベクター・マシン (四)ランダムフォレスト、及び (v)ディープラーニング。 これらのモデルの精度が、異なるトレーニングデータでどのように変化するかを系統的に分析した。 さらに,それらの空間的一般化能力を評価するために,データ収集に使用するものと異なる設定でモデルの性能を評価した。 実験結果から, 2つのモデルが一致した。 (二)ナイーブベイズ・サポーターベクトル機及び装置 (v) ディープラーニング -- は、元の設定で85%以上の精度を達成したが、異なる環境で適用すると、その精度はおよそ30%に低下した。 これらの結果は、CSIベースの機械学習モデルが一貫した空間構造内で高い精度を達成することができるが、それらの性能は空間条件の変化とともに著しく低下し、一般化能力において大きな課題が浮き彫りになることを示している。

In this study, we leveraged Channel State Information (CSI), commonly utilized in WLAN communication, as training data to develop and evaluate five distinct machine learning models for recognizing human postures: standing, sitting, and lying down. The models we employed were: (i) Linear Discriminant Analysis, (ii) Naive Bayes-Support Vector Machine, (iii) Kernel-Support Vector Machine, (iv) Random Forest, and (v) Deep Learning. We systematically analyzed how the accuracy of these models varied with different amounts of training data. Additionally, to assess their spatial generalization capabilities, we evaluated the models' performance in a setting distinct from the one used for data collection. The experimental findings indicated that while two models -- (ii) Naive Bayes-Support Vector Machine and (v) Deep Learning -- achieved 85% or more accuracy in the original setting, their accuracy dropped to approximately 30% when applied in a different environment. These results underscore that although CSI-based machine learning models can attain high accuracy within a consistent spatial structure, their performance diminishes considerably with changes in spatial conditions, highlighting a significant challenge in their generalization capabilities.
翻訳日:2024-09-13 20:40:16 公開日:2024-09-09
# OneEdit:ニューラルシンボリックな協調的な知識編集システム

OneEdit: A Neural-Symbolic Collaboratively Knowledge Editing System ( http://arxiv.org/abs/2409.07497v1 )

ライセンス: Link先を確認
Ningyu Zhang, Zekun Xi, Yujie Luo, Peng Wang, Bozhong Tian, Yunzhi Yao, Jintian Zhang, Shumin Deng, Mengshu Sun, Lei Liang, Zhiqiang Zhang, Xiaowei Zhu, Jun Zhou, Huajun Chen, (参考訳) 知識表現は、その誕生以来、AIの中心的な目的であった。 記号的知識グラフ(KG)とニューラルネットワークモデル(LLM)はどちらも知識を表現することができる。 KGは高度に正確で明示的な知識表現を提供するが、スケーラビリティの問題に直面している。 そこで我々は,自然言語を用いた協調的知識編集システムであるOneEditを紹介した。 OneEditは3つのモジュールから構成される。 1) インタープリタは,自然言語とのユーザインタラクションに役立ちます。 2 コントローラは、各種利用者からの要求の編集を管理し、KGをロールバックして、知識紛争に対処し、有害な知識攻撃を防止する。 3)編集者は、コントローラからの知識を利用して、KGとLLMを編集する。 我々は、2つの新しいデータセットをKGで実験し、OneEditが優れたパフォーマンスを達成できることを実証した。

Knowledge representation has been a central aim of AI since its inception. Symbolic Knowledge Graphs (KGs) and neural Large Language Models (LLMs) can both represent knowledge. KGs provide highly accurate and explicit knowledge representation, but face scalability issue; while LLMs offer expansive coverage of knowledge, but incur significant training costs and struggle with precise and reliable knowledge manipulation. To this end, we introduce OneEdit, a neural-symbolic prototype system for collaborative knowledge editing using natural language, which facilitates easy-to-use knowledge management with KG and LLM. OneEdit consists of three modules: 1) The Interpreter serves for user interaction with natural language; 2) The Controller manages editing requests from various users, leveraging the KG with rollbacks to handle knowledge conflicts and prevent toxic knowledge attacks; 3) The Editor utilizes the knowledge from the Controller to edit KG and LLM. We conduct experiments on two new datasets with KGs which demonstrate that OneEdit can achieve superior performance.
翻訳日:2024-09-13 20:40:16 公開日:2024-09-09
# SmileyLlama: 化学宇宙探査のための大規模言語モデルの修正

SmileyLlama: Modifying Large Language Models for Directed Chemical Space Exploration ( http://arxiv.org/abs/2409.02231v2 )

ライセンス: Link先を確認
Joseph M. Cavanagh, Kunyang Sun, Andrew Gritsevskiy, Dorian Bagni, Thomas D. Bannister, Teresa Head-Gordon, (参考訳) ここでは,Large Language Model (LLM) がケミカル言語モデル (CLM) の基礎モデルとして機能し,化学SMILES文字列データのみに基づいて訓練されたCLMのレベル以上で動作することを示す。 オープンソースLlama LLMにおけるSFTと直接選好最適化(DPO)を用いて, LLMをトレーニングし, 薬物開発に特有な分子生成などのプロンプトに応答できることを実証した。 この全体的なフレームワークにより、LCMは化学および材料タスクのためのチャットボットクライアントであるだけでなく、ユーザが指定した特性を持つ分子を生成することができるCLMとして、より直接的に話すことができる。

Here we show that a Large Language Model (LLM) can serve as a foundation model for a Chemical Language Model (CLM) which performs at or above the level of CLMs trained solely on chemical SMILES string data. Using supervised fine-tuning (SFT) and direct preference optimization (DPO) on the open-source Llama LLM, we demonstrate that we can train an LLM to respond to prompts such as generating molecules with properties of interest to drug development. This overall framework allows an LLM to not just be a chatbot client for chemistry and materials tasks, but can be adapted to speak more directly as a CLM which can generate molecules with user-specified properties.
翻訳日:2024-09-12 19:48:16 公開日:2024-09-09
# ブリジングオートエンコーダと動的モード分解によるPDEの低次モデリングと制御

Bridging Autoencoders and Dynamic Mode Decomposition for Reduced-order Modeling and Control of PDEs ( http://arxiv.org/abs/2409.06101v1 )

ライセンス: Link先を確認
Priyabrata Saha, Saibal Mukhopadhyay, (参考訳) 偏微分方程式(PDE)によって駆動される複雑な時空間力学系のモデル化と制御は、計算効率の低次モデルを構築するためにしばしば次元削減技術を必要とする。 本稿では、時空間PDEによって制御される動的システムの低次モデリングと制御のための深層自動符号化学習法について検討する。 まず、線形自己エンコード縮小次数モデルを学ぶための最適化目的を定式化して、制御アルゴリズムを用いた動的モード分解により得られる結果とよく似た解が得られることを示す。 次に、この線形オートエンコーディングアーキテクチャをディープオートエンコーディングフレームワークに拡張し、非線形低次モデルの開発を可能にする。 さらに、学習した低次モデルを利用して、安定性に制約のあるディープニューラルネットワークを用いたコントローラを設計する。 反応拡散システムの例を用いて, モデリングと制御の両面でのアプローチの有効性を検証するために, 数値解析実験を行った。

Modeling and controlling complex spatiotemporal dynamical systems driven by partial differential equations (PDEs) often necessitate dimensionality reduction techniques to construct lower-order models for computational efficiency. This paper explores a deep autoencoding learning method for reduced-order modeling and control of dynamical systems governed by spatiotemporal PDEs. We first analytically show that an optimization objective for learning a linear autoencoding reduced-order model can be formulated to yield a solution closely resembling the result obtained through the dynamic mode decomposition with control algorithm. We then extend this linear autoencoding architecture to a deep autoencoding framework, enabling the development of a nonlinear reduced-order model. Furthermore, we leverage the learned reduced-order model to design controllers using stability-constrained deep neural networks. Numerical experiments are presented to validate the efficacy of our approach in both modeling and control using the example of a reaction-diffusion system.
翻訳日:2024-09-12 17:44:43 公開日:2024-09-09
# 構造的健康モニタリングのためのカノニカル相関に基づく高速特徴選択

Canonical-Correlation-Based Fast Feature Selection for Structural Health Monitoring ( http://arxiv.org/abs/2106.08247v2 )

ライセンス: Link先を確認
Sikai Zhang, Tingna Wang, Keith Worden, Limin Sun, Elizabeth J. Cross, (参考訳) 特徴選択とは、機械学習タスクに有用な機能を選択するプロセスであり、構造的健康モニタリング(SHM)の重要なステップでもある。 本稿では,観測された特徴と欲求探索における対象変数の2乗正準相関係数の和を効率的に計算し,高速な特徴選択アルゴリズムを提案する。 提案アルゴリズムは, 計算速度, 一般分類, 回帰タスク, 損傷に敏感な特徴選択タスクの両面において, その優位性を示すために, 合成データセットと実データセットの両方に適用される。 さらに,提案アルゴリズムの性能を環境条件やエッジ・コンピューティング・デバイス上で評価し,実世界のSHMシナリオへの適用性について検討した。 この結果から,提案アルゴリズムは極めて高速な計算速度で有用な特徴を選択できることが示唆された。

Feature selection refers to the process of selecting useful features for machine learning tasks, and it is also a key step for structural health monitoring (SHM). This paper proposes a fast feature selection algorithm by efficiently computing the sum of squared canonical correlation coefficients between monitored features and target variables of interest in greedy search. The proposed algorithm is applied to both synthetic and real datasets to illustrate its advantages in terms of computational speed, general classification and regression tasks, as well as damage-sensitive feature selection tasks. Furthermore, the performance of the proposed algorithm is evaluated under varying environmental conditions and on an edge computing device to investigate its applicability in real-world SHM scenarios. The results show that the proposed algorithm can successfully select useful features with extraordinarily fast computational speed, which implies that the proposed algorithm has great potential where features need to be selected and updated online frequently, or where devices have limited computing capability.
翻訳日:2024-09-12 00:23:12 公開日:2024-09-09
# EPMF : 3次元セマンティックセグメンテーションのための高効率知覚認識型マルチセンサフュージョン

EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation ( http://arxiv.org/abs/2106.15277v3 )

ライセンス: Link先を確認
Mingkui Tan, Zhuangwei Zhuang, Sitao Chen, Rong Li, Kui Jia, Qicheng Wang, Yuanqing Li, (参考訳) 自律運転やロボット工学など,多くのアプリケーションにおいてシーン理解に重要な3次元セマンティックセマンティックセグメンテーションのためのマルチセンサ融合について検討する。 しかし、既存の融合法は、2つのモードの間に大きな違いがあるため、有望な性能を達成できない可能性がある。 本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討し,RGB画像からの外観情報と点雲からの空間深度情報という2つのモードからの知覚情報を効果的に活用する。 この目的のために、視点投影を用いてカメラ座標に点雲を投影し、2次元空間におけるLiDARとカメラからの入力の両方を処理し、RGB画像の情報損失を防止した。 そこで本研究では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。 抽出された特徴は、有効残留基核融合モジュールによって融合される。 さらに,2つのモダリティ間の知覚的差異を測定するために,追加の知覚認識損失を導入する。 最後に、データ前処理とネットワークアーキテクチャを視点投影下で最適化することにより、より効率的かつ効果的にPMFを改良したPMF(EPMF)を提案する。 具体的には、厳密な入力を得るためのクロスモーダルアライメントとトリミングを提案し、不要な計算コストを削減する。 次に、視点投影下でより効率的なコンテキストモジュールを探索し、2ストリームネットワークの性能を高めるためにLiDAR機能をカメラストリームに融合する。 ベンチマークデータセットに対する大規模な実験は,本手法の優位性を示している。 例えば、nuScenesテストセットでは、EPMFは最先端のメソッド、すなわちRangeFormerをmIoUで0.9%上回ります。 ソースコードはhttps://github.com/ICEORY/PMF.comで公開されています。

We study multi-sensor fusion for 3D semantic segmentation that is important to scene understanding for many applications, such as autonomous driving and robotics. Existing fusion-based methods, however, may not achieve promising performance due to the vast difference between the two modalities. In this work, we investigate a collaborative fusion scheme called perception-aware multi-sensor fusion (PMF) to effectively exploit perceptual information from two modalities, namely, appearance information from RGB images and spatio-depth information from point clouds. To this end, we project point clouds to the camera coordinate using perspective projection, and process both inputs from LiDAR and cameras in 2D space while preventing the information loss of RGB images. Then, we propose a two-stream network to extract features from the two modalities, separately. The extracted features are fused by effective residual-based fusion modules. Moreover, we introduce additional perception-aware losses to measure the perceptual difference between the two modalities. Last, we propose an improved version of PMF, i.e., EPMF, which is more efficient and effective by optimizing data pre-processing and network architecture under perspective projection. Specifically, we propose cross-modal alignment and cropping to obtain tight inputs and reduce unnecessary computational costs. We then explore more efficient contextual modules under perspective projection and fuse the LiDAR features into the camera stream to boost the performance of the two-stream network. Extensive experiments on benchmark data sets show the superiority of our method. For example, on nuScenes test set, our EPMF outperforms the state-of-the-art method, i.e., RangeFormer, by 0.9% in mIoU. Our source code is available at https://github.com/ICEORY/PMF.
翻訳日:2024-09-12 00:23:12 公開日:2024-09-09
# 希薄ガス中の超放射能とサブ放射能:統合的手法

Superradiance and Subradiance in Dense Atomic Gases: An Integrated Method ( http://arxiv.org/abs/2205.15255v3 )

ライセンス: Link先を確認
Hanzhen Ma, Oriol Rubies-Bigorda, Susanne F. Yelin, (参考訳) 原子が一般的な電磁環境に結合すると、双極子-双極子相互作用による光子の交換は協調効果の出現につながる。 特定の例として、超放射は、この交換が放出された光子の構成的干渉を引き起こすときに自然放出から生じる。 本稿では,多体システムにおける協調放射線研究のための統合的手法を提案する。 任意の数の粒子を持つ拡張系を研究できるこの方法は、同じ足場上で単体および多体項を扱う閉じた形式を用いて力学を記述する、効果的で非線形な2原子マスター方程式によって定式化することができる。 本手法を当初逆2レベル原子の均一ガスに適用し、超放射能とサブ放射能の両方の出現を実証し、多体コヒーレンス項をこれらの協調効果の源として同定する。 我々は、多体誘導広帯域化(多体誘導広帯域化)、および光シフト(光シフト)、および誘導広帯域化(誘導広帯域化)について記述し、誘導広帯域化と自然効果の区別を行う。 さらに, 放射光の時間依存性と放射界の位相変化を理論的に予測した。

When atoms are coupled to a common electromagnetic environment, the exchange of photons through dipole-dipole interactions leads to the emergence of cooperative effects. As a particular example, superradiance arises from spontaneous emission when this exchange leads to constructive interference of the emitted photons. Here, we introduce an integrated method for studying cooperative radiation in many-body systems. This method, which allows to study extended systems with arbitrarily large number of particles, can be formulated by an effective, nonlinear, two-atom master equation that describes the dynamics using a closed form which treats single- and many-body terms on an equal footing. We apply this method to a homogeneous gas of initially inverted two-level atoms, and demonstrate the appearance of both superradiance and subradiance, identifying a many-body coherence term as the source of these cooperative effects. We describe the many-body induced broadening -- which is analytically found to scale with the optical depth of the system -- and light shifts, and distinguish spontaneous effects from induced ones. In addition, we theoretically predict the time-dependence of subradiance, and the phase change of the radiated field during the cooperative decay.
翻訳日:2024-09-12 00:23:12 公開日:2024-09-09
# Banglaとリソース不足言語のためのトランスフォーマーによるスペル誤り訂正フレームワーク

A transformer-based spelling error correction framework for Bangla and resource scarce Indic languages ( http://arxiv.org/abs/2211.03730v2 )

ライセンス: Link先を確認
Mehedi Hasan Bijoy, Nahid Hossain, Salekul Islam, Swakkhar Shatabda, (参考訳) スペル訂正(スペルりょう、英: Spelling error correction)は、テキスト中のミスペル語を識別し、修正するタスクである。 これは自然言語処理における潜在的かつ活発な研究のトピックであり、それは人間の言語理解に多くの応用があるためである。 音声的または視覚的に類似しているが意味的に異なる文字は、あらゆる言語において困難なタスクである。 バングラ語と資源不足のIndic言語におけるスペル誤り訂正の取り組みは、ルールベース、統計的、機械学習ベースの手法に重点を置いていたが、これはかなり非効率であることが判明した。 特に、ルールベースや統計的手法よりも優れた性能を示す機械学習ベースのアプローチは、その妥当性に関わらず各文字を補正するので効果がない。 本稿では,従来の問題に対処し,デノナイズ変換器をベースとした新しい検出器-ピューリフィケータ・コレクタ・フレームワークDPCSpellを提案する。 さらに,スクラッチから大規模コーパスを生成する手法を提案する。 提案手法の有効性を実証し, 精度スコアは94.78%, 精度スコアは0.9487, リコールスコアは0.9478, f1スコアは0.948, f0.5スコアは0.9483, 修正精度スコアは95.16%であった。 モデルとコーパスはhttps://tinyurl.com/DPCSpell.comで公開されている。

Spelling error correction is the task of identifying and rectifying misspelled words in texts. It is a potential and active research topic in Natural Language Processing because of numerous applications in human language understanding. The phonetically or visually similar yet semantically distinct characters make it an arduous task in any language. Earlier efforts on spelling error correction in Bangla and resource-scarce Indic languages focused on rule-based, statistical, and machine learning-based methods which we found rather inefficient. In particular, machine learning-based approaches, which exhibit superior performance to rule-based and statistical methods, are ineffective as they correct each character regardless of its appropriateness. In this paper, we propose a novel detector-purificator-corrector framework, DPCSpell based on denoising transformers by addressing previous issues. In addition to that, we present a method for large-scale corpus creation from scratch which in turn resolves the resource limitation problem of any left-to-right scripted language. The empirical outcomes demonstrate the effectiveness of our approach, which outperforms previous state-of-the-art methods by attaining an exact match (EM) score of 94.78%, a precision score of 0.9487, a recall score of 0.9478, an f1 score of 0.948, an f0.5 score of 0.9483, and a modified accuracy (MA) score of 95.16% for Bangla spelling error correction. The models and corpus are publicly available at https://tinyurl.com/DPCSpell.
翻訳日:2024-09-12 00:08:16 公開日:2024-09-09
# 絶対軌道誤差って何が悪いの?

What's Wrong with the Absolute Trajectory Error? ( http://arxiv.org/abs/2212.05376v5 )

ライセンス: Link先を確認
Seong Hun Lee, Javier Civera, (参考訳) 一般的に使用される絶対軌道誤差(ATE)の限界の一つは、異常値に非常に敏感であることである。 結果として、わずか数個のアウトレーヤが存在する場合、インレーヤ軌道誤差やアウトレーヤの数が異なるため、精度の変化を反映しないことが多い。 本研究では,再構成されたカメラ軌跡の精度を評価するための代替誤差指標を提案する。 筆者らの測度はDTE (Disnalible Trajectory Error) と命名され,(1) 基底軌道と推定軌道をシフトし,両者の幾何的中央値が起点となるように計算した。 2)対応するカメラ配向間の測地距離の和を最小限に抑えるように推定軌道を回転させる。 (3) カメラの中央値から幾何学的中央値までの距離が地上の真理と同じであるような推定軌道をスケールする。 (4)コンピュータは、対応するカメラ間の距離をウィンソライズし、正規化する。 (5) 平均距離と結果距離の根平均二乗(RMS)の値を取ることによりDTEを得る。 この計量は ATE の代用として魅力的であり、不整形軌道誤差や外れ値の数によって異なる軌跡の精度を識別できる。 同様の考え方を用いて、DTEに類似した長所を持つDRE(Disdisernible Rotation Error)という新しい回転誤差指標を提案する。 さらに,計測値の計算に必要となる,カメラとマーカーの回転を校正するための簡易かつ効果的な手法を提案する。 我々の手法は広範囲なシミュレーションによって検証される。

One of the limitations of the commonly used Absolute Trajectory Error (ATE) is that it is highly sensitive to outliers. As a result, in the presence of just a few outliers, it often fails to reflect the varying accuracy as the inlier trajectory error or the number of outliers varies. In this work, we propose an alternative error metric for evaluating the accuracy of the reconstructed camera trajectory. Our metric, named Discernible Trajectory Error (DTE), is computed in five steps: (1) Shift the ground-truth and estimated trajectories such that both of their geometric medians are located at the origin. (2) Rotate the estimated trajectory such that it minimizes the sum of geodesic distances between the corresponding camera orientations. (3) Scale the estimated trajectory such that the median distance of the cameras to their geometric median is the same as that of the ground truth. (4) Compute, winsorize and normalize the distances between the corresponding cameras. (5) Obtain the DTE by taking the average of the mean and the root-mean-square (RMS) of the resulting distances. This metric is an attractive alternative to the ATE, in that it is capable of discerning the varying trajectory accuracy as the inlier trajectory error or the number of outliers varies. Using the similar idea, we also propose a novel rotation error metric, named Discernible Rotation Error (DRE), which has similar advantages to the DTE. Furthermore, we propose a simple yet effective method for calibrating the camera-to-marker rotation, which is needed for the computation of our metrics. Our methods are verified through extensive simulations.
翻訳日:2024-09-12 00:08:16 公開日:2024-09-09
# 乱れ前景と背景特徴を用いた分布外検出の改良

Improving Out-of-Distribution Detection with Disentangled Foreground and Background Features ( http://arxiv.org/abs/2303.08727v2 )

ライセンス: Link先を確認
Choubo Ding, Guansong Pang, (参考訳) オフ・オブ・ディストリビューション(OOD)インプットの検出は、オープンセットシナリオにディープ・ニューラル・ネットワーク分類器をデプロイする安全性を確保するための主要なタスクである。 OODサンプルは任意の分布から抽出することができ、前景特徴(例えば、CIFAR100画像のオブジェクト対CIFAR10画像のオブジェクト)や背景特徴(例えば、CIFAR10画像のテキスト画像対CIFAR10オブジェクト)など、様々な次元における分布内(ID)データからの偏差を示すことができる。 既存の方法は、トレーニングにおいて前景と背景の特徴を埋め合わせることができ、OOD検出の背景フィーチャを利用できない。 本稿では,オフ・オブ・ディストリビューション検出における特徴分散の重要性を考察し,アウト・オブ・ディストリビューション検出におけるOOD入力の検出を支援するために,前景特徴と背景特徴の同時利用を提案する。 そこで本研究では,まず,IDトレーニングサンプルから前景と背景の特徴を高密度な予測手法で切り離し,その上で,前景と背景の両方の特徴から,テスト画像のOODスコアを評価可能な新しい分類法を学習する。 これは、様々な既存のOOD検出メソッドとシームレスに組み合わせられる汎用フレームワークである。 広範囲にわたる実験から、我々のアプローチが明らかになる 1) 背景特性の異なる多種多種多種多種多様なOODデータセット上での4種類の最先端OOD検出手法の性能を大幅に向上させることができる。 2.2では、これらのベンチマークで新しいSotAパフォーマンスを実現している。

Detecting out-of-distribution (OOD) inputs is a principal task for ensuring the safety of deploying deep-neural-network classifiers in open-set scenarios. OOD samples can be drawn from arbitrary distributions and exhibit deviations from in-distribution (ID) data in various dimensions, such as foreground features (e.g., objects in CIFAR100 images vs. those in CIFAR10 images) and background features (e.g., textural images vs. objects in CIFAR10). Existing methods can confound foreground and background features in training, failing to utilize the background features for OOD detection. This paper considers the importance of feature disentanglement in out-of-distribution detection and proposes the simultaneous exploitation of both foreground and background features to support the detection of OOD inputs in in out-of-distribution detection. To this end, we propose a novel framework that first disentangles foreground and background features from ID training samples via a dense prediction approach, and then learns a new classifier that can evaluate the OOD scores of test images from both foreground and background features. It is a generic framework that allows for a seamless combination with various existing OOD detection methods. Extensive experiments show that our approach 1) can substantially enhance the performance of four different state-of-the-art (SotA) OOD detection methods on multiple widely-used OOD datasets with diverse background features, and 2) achieves new SotA performance on these benchmarks.
翻訳日:2024-09-12 00:08:16 公開日:2024-09-09
# 環境技術とインテリジェンス

Ambient Technology & Intelligence ( http://arxiv.org/abs/2305.10726v2 )

ライセンス: Link先を確認
Amos Okomayin, Tosin Ige, (参考訳) アンビエント・インテリジェンス(Ambient Intelligence)とは、環境内の人の存在に敏感で敏感な、技術的に強化された電子環境を指す。 環境インテリジェンスと統合された環境は、環境内の個人のニーズに邪魔にならない方法で適応する傾向がある。 この能力は、IoT(Internet of Things)技術、センサー技術、AI(Artificial Intelligence)、高度な人間とコンピュータのインタラクションなど、さまざまな重要な技術が組み合わさったコンセプトとして実現された。

Ambient intelligence refers to technological enhanced electronic environments which are both responsive and sensitive to the presence of people within their environment. Environments that are integrated with ambient intelligence tends to adapt to the needs of individuals within the environment in an unobtrusive manner in such a way as to enhance everyday life thereby making interaction with technology extremely seamless and well integrated. This capability was made possible because it is a concept that combines several key technologies such as IoT (Internet of Things) technology, sensor technology, AI (Artificial Intelligence), and advanced human-computer interaction all embedded and integrated together with the environment.
翻訳日:2024-09-12 00:08:16 公開日:2024-09-09
# 公開データを用いた個人差分モデル学習の最適方法

Optimal Differentially Private Model Training with Public Data ( http://arxiv.org/abs/2306.15056v3 )

ライセンス: Link先を確認
Andrew Lowy, Zeman Li, Tianjian Huang, Meisam Razaviyayn, (参考訳) 差分プライバシー(DP)は、機械学習モデルのトレーニングがプライベートデータをリークしないことを保証する。 実際には、プライバシーの懸念のない補助的な公開データにアクセスできます。 この作業では、所定の量の公開データにアクセスし、以下の基本的なオープンな質問を解決します。 1. 外部公開データにアクセスしながらプライベートデータセット上でトレーニングされたDPモデルの最適(Worst-case)エラーは何か。 2. DPモデルトレーニングの実践に公共データをどのように活用するか。 これらの疑問は、純粋および近似DPの局所モデルと中心モデルの両方において考察する。 最初の質問に答えるために、平均推定、経験的リスク最小化、確率的凸最適化という3つの基本的な問題の最適誤差率を特徴付ける、(対数因子まで)下限と上限を厳密に証明する。 プライベートデータを捨てて公開モデルをトレーニングするか、プライベートデータのように公開データを扱い、最適なDPアルゴリズムを用いて、最適なエラー率(ログファクタまで)を達成可能であることを示す。 2つ目の問題に対処するために、上述した漸近的最適アプローチよりも「さらに最適な」新しいアルゴリズム(例えば、より良い定数)を開発する。 局所DP平均推定では,定数を含むアルゴリズムが最適である。 経験的に、我々のアルゴリズムは最先端技術に勝る利点を示している。

Differential privacy (DP) ensures that training a machine learning model does not leak private data. In practice, we may have access to auxiliary public data that is free of privacy concerns. In this work, we assume access to a given amount of public data and settle the following fundamental open questions: 1. What is the optimal (worst-case) error of a DP model trained over a private data set while having access to side public data? 2. How can we harness public data to improve DP model training in practice? We consider these questions in both the local and central models of pure and approximate DP. To answer the first question, we prove tight (up to log factors) lower and upper bounds that characterize the optimal error rates of three fundamental problems: mean estimation, empirical risk minimization, and stochastic convex optimization. We show that the optimal error rates can be attained (up to log factors) by either discarding private data and training a public model, or treating public data like it is private and using an optimal DP algorithm. To address the second question, we develop novel algorithms that are "even more optimal" (i.e. better constants) than the asymptotically optimal approaches described above. For local DP mean estimation, our algorithm is optimal including constants. Empirically, our algorithms show benefits over the state-of-the-art.
翻訳日:2024-09-11 23:57:26 公開日:2024-09-09
# スマートグリッドにおける異常事象診断のための不均一グラフに基づくマルチタスク学習

A Heterogeneous Graph-Based Multi-Task Learning for Fault Event Diagnosis in Smart Grid ( http://arxiv.org/abs/2309.09921v2 )

ライセンス: Link先を確認
Dibaloke Chanda, Nasim Yahya Soltani, (参考訳) 高精度かつタイムリーな故障診断は、最小ダウンタイムを保証し、信頼性の高い運用を維持するために、分散システムにとって必要不可欠である。 これは、フォールトイベントの場合、グリッドオペレータに洞察力のある情報を提供する包括的なプロシージャへのアクセスを必要とする。 本稿では, 故障の検知, 位置決定, 分類が可能な異種マルチタスク学習グラフニューラルネットワーク(MTL-GNN)を提案する。 グラフニューラルネットワーク(GNN)を使用することで、分散システムのトポロジ的表現と、メッセージパス方式による特徴学習を学習することができる。 IEEE-123テストフィードシステムを用いて,提案モデルのロバスト性を検討した。 本研究は,配電系統におけるキーノードを識別する新しいGNNに基づく説明可能性手法を提案する。 数値的なテストは、すべてのタスクにわたってモデルの性能を検証する。

Precise and timely fault diagnosis is a prerequisite for a distribution system to ensure minimum downtime and maintain reliable operation. This necessitates access to a comprehensive procedure that can provide the grid operators with insightful information in the case of a fault event. In this paper, we propose a heterogeneous multi-task learning graph neural network (MTL-GNN) capable of detecting, locating and classifying faults in addition to providing an estimate of the fault resistance and current. Using a graph neural network (GNN) allows for learning the topological representation of the distribution system as well as feature learning through a message-passing scheme. We investigate the robustness of our proposed model using the IEEE-123 test feeder system. This work also proposes a novel GNN-based explainability method to identify key nodes in the distribution system which then facilitates informed sparse measurements. Numerical tests validate the performance of the model across all tasks.
翻訳日:2024-09-11 23:57:26 公開日:2024-09-09
# 不均衡分類のためのフィードバック誘導データ合成

Feedback-guided Data Synthesis for Imbalanced Classification ( http://arxiv.org/abs/2310.00158v2 )

ライセンス: Link先を確認
Reyhane Askari Hemmat, Mohammad Pezeshki, Florian Bordes, Michal Drozdzal, Adriana Romero-Soriano, (参考訳) 機械学習の現在の状況は、トレーニングに実際のイメージの静的データセットを使用することである。 生成モデルの最近の進歩により、研究者はこれらの静的データセットを合成データで強化し始め、分類タスクの適度なパフォーマンス改善を報告した。 我々は,これらの性能向上は,分類器から生成モデルへのフィードバックの欠如によって制限されていると仮定し,生成した標本の有用性を推し進め,分類器の性能を向上させる。 本研究では,分類器からのワンショットフィードバックを利用して生成モデルのサンプリングを行う,有用な合成サンプルを用いた静的データセットの拡張フレームワークを提案する。 フレームワークを効果的にするためには、サンプルは手前のタスクの実際のデータの支持に近づき、十分に多様である必要がある。 我々は、長い尾のデータセット(ImageNet-LT)とグループ不均衡データセット(NICO++)の3つのフィードバック基準を検証する。 ImageNet-LTでは、生成した合成サンプルの2倍の効率で、未表現のクラスでは4%以上改善され、最先端の結果が得られます。 NICO++はまた、最悪のグループ精度で5%以上の大幅な向上を享受している。 これらの結果から,我々のフレームワークは,下流アプリケーションを改善するためにクエリ可能なデータソースとして,最先端のテキスト・画像モデルを有効に活用するための道筋をたどる。

Current status quo in machine learning is to use static datasets of real images for training, which often come from long-tailed distributions. With the recent advances in generative models, researchers have started augmenting these static datasets with synthetic data, reporting moderate performance improvements on classification tasks. We hypothesize that these performance gains are limited by the lack of feedback from the classifier to the generative model, which would promote the usefulness of the generated samples to improve the classifier's performance. In this work, we introduce a framework for augmenting static datasets with useful synthetic samples, which leverages one-shot feedback from the classifier to drive the sampling of the generative model. In order for the framework to be effective, we find that the samples must be close to the support of the real data of the task at hand, and be sufficiently diverse. We validate three feedback criteria on a long-tailed dataset (ImageNet-LT) as well as a group-imbalanced dataset (NICO++). On ImageNet-LT, we achieve state-of-the-art results, with over 4 percent improvement on underrepresented classes while being twice efficient in terms of the number of generated synthetic samples. NICO++ also enjoys marked boosts of over 5 percent in worst group accuracy. With these results, our framework paves the path towards effectively leveraging state-of-the-art text-to-image models as data sources that can be queried to improve downstream applications.
翻訳日:2024-09-11 23:44:54 公開日:2024-09-09
# 大規模言語モデルにおける問題解決に関する簡潔なチェーンの効果

The Benefits of a Concise Chain of Thought on Problem-Solving in Large Language Models ( http://arxiv.org/abs/2401.05618v2 )

ライセンス: Link先を確認
Matthew Renze, Erhan Guven, (参考訳) 本稿では,CCoT(Concise Chain-of-Thought)プロンプトについて紹介する。 我々は、標準のCoTとCCoTのプロンプトを比較して、応答長と正解精度に精度がどう影響するかを調べた。 GPT-3.5とGPT-4をMCQA(Multi-choice Question-and-Awer)ベンチマークで評価した。 CCoTはGPT-3.5とGPT-4の両方で平均応答長を48.70%削減した。 しかし数学の問題では、GPT-3.5とCCoTは27.69%のペナルティを課している。 全体として、CCoTはトーケン当たりの平均コストを22.67%削減する。

In this paper, we introduce Concise Chain-of-Thought (CCoT) prompting. We compared standard CoT and CCoT prompts to see how conciseness impacts response length and correct-answer accuracy. We evaluated this using GPT-3.5 and GPT-4 with a multiple-choice question-and-answer (MCQA) benchmark. CCoT reduced average response length by 48.70% for both GPT-3.5 and GPT-4 while having a negligible impact on problem-solving performance. However, on math problems, GPT-3.5 with CCoT incurs a performance penalty of 27.69%. Overall, CCoT leads to an average per-token cost reduction of 22.67%.
翻訳日:2024-09-11 23:35:05 公開日:2024-09-09
# 感情的不確かさは証拠的深層学習法によって忠実に表されるか?

Is Epistemic Uncertainty Faithfully Represented by Evidential Deep Learning Methods? ( http://arxiv.org/abs/2402.09056v3 )

ライセンス: Link先を確認
Mira Jürgens, Nis Meinert, Viktor Bengs, Eyke Hüllermeier, Willem Waegeman, (参考訳) 信頼できるMLシステムは、正確な予測を返すだけでなく、不確実性の信頼できる表現を返すべきです。 ベイズ法は、アレタリック法とエピステマティック法の両方を定量化するために一般的に用いられているが、明らかな深層学習法のような代替手法が近年普及している。 後者の手法のグループは本質的に、経験的リスク最小化(ERM)を拡張して、結果に対する二階確率分布を予測する。 本稿では,2次損失関数の最適化と,その結果の疫学的不確かさを解釈することの難しさを浮き彫りにして,顕在的深層学習の新たな理論的知見を示す。 分類、回帰、カウントに関する幅広いアプローチを網羅した体系的な設定により、二階損失最小化における識別可能性と収束性の問題と、疫学的不確実性尺度の相対的(絶対的ではなく)性質に関する新たな洞察を提供する。

Trustworthy ML systems should not only return accurate predictions, but also a reliable representation of their uncertainty. Bayesian methods are commonly used to quantify both aleatoric and epistemic uncertainty, but alternative approaches, such as evidential deep learning methods, have become popular in recent years. The latter group of methods in essence extends empirical risk minimization (ERM) for predicting second-order probability distributions over outcomes, from which measures of epistemic (and aleatoric) uncertainty can be extracted. This paper presents novel theoretical insights of evidential deep learning, highlighting the difficulties in optimizing second-order loss functions and interpreting the resulting epistemic uncertainty measures. With a systematic setup that covers a wide range of approaches for classification, regression and counts, it provides novel insights into issues of identifiability and convergence in second-order loss minimization, and the relative (rather than absolute) nature of epistemic uncertainty measures.
翻訳日:2024-09-11 23:25:16 公開日:2024-09-09
# ガウス過程を用いた混合周波数データの流し込み

Nowcasting with Mixed Frequency Data Using Gaussian Processes ( http://arxiv.org/abs/2402.10574v2 )

ライセンス: Link先を確認
Niko Hauzenberger, Massimiliano Marcellino, Michael Pfarrhofer, Anna Stelzer, (参考訳) 混合データサンプリング(MIDAS)回帰のためのベイズ機械学習手法を開発した。 これには、周波数ミスマッチの処理と、多くの予測子と依存変数の間の機能的関係の指定が含まれる。 我々はガウス過程(GP)を用いて、構造的および非構造的MIDAS変種で入力空間を圧縮する。 これによりGP-MIDASの異なる特性と意味を持ついくつかのバージョンが得られ、我々は、GDPデフレーターの四半期における米国の生産成長とインフレに関するシミュレーションデータとデータの両方を用いて、短期水平現在および予測演習で評価する。 その結果,提案手法はマクロ経済的なビッグデータを計算的に効率的に利用し,他の機械学習手法と比較して予測精度が向上することが判明した。

We develop Bayesian machine learning methods for mixed data sampling (MIDAS) regressions. This involves handling frequency mismatches and specifying functional relationships between many predictors and the dependent variable. We use Gaussian processes (GPs) and compress the input space with structured and unstructured MIDAS variants. This yields several versions of GP-MIDAS with distinct properties and implications, which we evaluate in short-horizon now- and forecasting exercises with both simulated data and data on quarterly US output growth and inflation in the GDP deflator. It turns out that our proposed framework leverages macroeconomic Big Data in a computationally efficient way and offers gains in predictive accuracy compared to other machine learning approaches along several dimensions.
翻訳日:2024-09-11 23:25:16 公開日:2024-09-09
# User-LLM: ユーザ埋め込みによるLLMの効率的なコンテキスト化

User-LLM: Efficient LLM Contextualization with User Embeddings ( http://arxiv.org/abs/2402.13598v2 )

ライセンス: Link先を確認
Lin Ning, Luyang Liu, Jiaxing Wu, Neo Wu, Devora Berlowitz, Sushant Prakash, Bradley Green, Shawn O'Banion, Jun Xie, (参考訳) 大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めてきたが、複雑で潜在的にノイズの多いユーザタイムラインデータをLLMに組み込むことは、依然として困難である。 現在のアプローチでは、ユーザタイムラインを LLM に送信する前にテキスト記述に変換することが多いが、これは非効率であり、ユーザの振る舞いのニュアンスを完全に把握できない可能性がある。 LLMが直接埋め込みによって画像と効果的に統合される方法に着想を得て,ユーザ埋め込みを活用してユーザ履歴の相互作用を直接文脈化する新しいフレームワークであるUser-LLMを提案する。 ユーザエンコーダが事前訓練したユーザエンコーダによって生成されたこれらの埋め込みは、多様なユーザインタラクションに関する自己教師型学習を使用して、潜伏したユーザの行動や関心をキャプチャし、時間とともに進化する。 ユーザの過去の行動や嗜好のコンテキストに基づいて,LSMが動的に応答を適応できるようにする。 提案手法では,ユーザタイムラインを直接埋め込みとして表現することで,最大78.1倍の高速化を実現している。 MovieLens、Amazon Review、Google Local Reviewのデータセットに関する総合的な実験では、ユーザ-LLMは、深いユーザ理解を必要とするタスクにおいてテキストプロンプトベースのコンテキスト化よりも優れており、最大16.33%の改善、特にユーザ行動の微妙な変化を捉える長いシーケンスで優れていることが示されている。 さらに、Perceiverレイヤの組み込みにより、ユーザエンコーダとLLMの統合が合理化され、計算コストが増大する。

Large language models (LLMs) have achieved remarkable success across various domains, but effectively incorporating complex and potentially noisy user timeline data into LLMs remains a challenge. Current approaches often involve translating user timelines into text descriptions before feeding them to LLMs, which can be inefficient and may not fully capture the nuances of user behavior. Inspired by how LLMs are effectively integrated with images through direct embeddings, we propose User-LLM, a novel framework that leverages user embeddings to directly contextualize LLMs with user history interactions. These embeddings, generated by a user encoder pretrained using self-supervised learning on diverse user interactions, capture latent user behaviors and interests as well as their evolution over time. We integrate these user embeddings with LLMs through cross-attention, enabling LLMs to dynamically adapt their responses based on the context of a user's past actions and preferences. Our approach achieves significant efficiency gains by representing user timelines directly as embeddings, leading to substantial inference speedups of up to 78.1X. Comprehensive experiments on MovieLens, Amazon Review, and Google Local Review datasets demonstrate that User-LLM outperforms text-prompt-based contextualization on tasks requiring deep user understanding, with improvements of up to 16.33%, particularly excelling on long sequences that capture subtle shifts in user behavior. Furthermore, the incorporation of Perceiver layers streamlines the integration between user encoders and LLMs, yielding additional computational savings.
翻訳日:2024-09-11 23:25:16 公開日:2024-09-09
# PCR-99:99%のアウトリーチによるポイントクラウド登録の実践的方法

PCR-99: A Practical Method for Point Cloud Registration with 99 Percent Outliers ( http://arxiv.org/abs/2402.16598v6 )

ライセンス: Link先を確認
Seong Hun Lee, Javier Civera, Patrick Vandewalle, (参考訳) 本稿では,未知のスケールと極端外周比の両方を扱える点雲登録法を提案する。 PCR-99と呼ばれる本手法では, 速度を著しく向上させる2つの新しいメカニズムを持つ決定論的3点サンプリング手法を用いて, 1) ペアスケールの整合性に基づくサンプルの整合性の向上, および(2) トリプルトスケールの整合性に基づく効率的な外乱除去手法, 悪いサンプルの事前スクリーニング, テスト対象の仮説数の削減を行う。 提案手法は,98%のアウトレイラ比において,最先端技術に匹敵する性能を達成できることを示す。 しかし、99%のアウトラヤ比では、既知のスケールと未知のスケールの問題の両方において、最先端の問題を上回ります。 特に後者では、ロバスト性と速度の観点から明らかな優位性を観察する。

We propose a robust method for point cloud registration that can handle both unknown scales and extreme outlier ratios. Our method, dubbed PCR-99, uses a deterministic 3-point sampling approach with two novel mechanisms that significantly boost the speed: (1) an improved ordering of the samples based on pairwise scale consistency, prioritizing the point correspondences that are more likely to be inliers, and (2) an efficient outlier rejection scheme based on triplet scale consistency, prescreening bad samples and reducing the number of hypotheses to be tested. Our evaluation shows that, up to 98% outlier ratio, the proposed method achieves comparable performance to the state of the art. At 99% outlier ratio, however, it outperforms the state of the art for both known-scale and unknown-scale problems. Especially for the latter, we observe a clear superiority in terms of robustness and speed.
翻訳日:2024-09-11 23:25:16 公開日:2024-09-09
# イマジナリー時間進化の量子力学的エミュレーション

Quantum Dynamical Emulation of Imaginary Time Evolution ( http://arxiv.org/abs/2403.03350v2 )

ライセンス: Link先を確認
Jacob M. Leamer, Alicia B. Magann, Denys I. Bondar, Gerard McCaul, (参考訳) 重み付けされたユニタリ演算の集合に非ユニタリ力学をマッピングする構成的手法を提案する。 Imaginary Time Quantum Dynamical Emulation (ITQDE) と呼ばれる実時間と虚時間の間の新しい対応を導出するためにこの構造を利用する。 この対応により、反対方向に進化した状態の重なりから想像上の時間進化を構築することができる。 本研究は,ハミルトニアンの地盤および熱状態特性を推定するツールとしてITQDEを開発した。 さらに、ITQDEを利用して完全なハミルトンスペクトルを推定するための処方薬も提供します。 我々は、ITQDEに基づくハミルトンスペクトル計算のための量子アルゴリズムを開発し、数値シミュレーションと量子ハードウェアの実装を通して検証する。 我々は,ハバード・ストラトノビッチ変換の一般化を含む新しい熱力学結果の導出にITQDEをより広く活用する方法について議論した。

We introduce a constructive method for mapping non-unitary dynamics to a weighted set of unitary operations. We utilize this construction to derive a new correspondence between real and imaginary time, which we term Imaginary Time Quantum Dynamical Emulation (ITQDE). This correspondence enables an imaginary time evolution to be constructed from the overlaps of states evolved in opposite directions. We develop ITQDE as a tool for estimating the ground and thermal state properties associated with a given Hamiltonian. We additionally provide a prescription for leveraging ITQDE to estimate the complete Hamiltonian spectrum. We go on to develop a quantum algorithm for computing Hamiltonian spectra based on ITQDE, which we validate through numerical simulations and quantum hardware implementations. We conclude with a discussion of how ITQDE can be utilized more broadly to derive novel thermodynamic results, including a generalisation of the Hubbard-Stratonovich transformation.
翻訳日:2024-09-11 23:25:16 公開日:2024-09-09
# インセプションアタック:バーチャルリアリティシステムにおける没入型ハイジャック

Inception Attacks: Immersive Hijacking in Virtual Reality Systems ( http://arxiv.org/abs/2403.05721v2 )

ライセンス: Link先を確認
Zhuolin Yang, Cathy Yuanchen Li, Arman Bhalla, Ben Y. Zhao, Haitao Zheng, (参考訳) 今日のバーチャルリアリティ(VR)システムは、ユーザがオンラインサービスと相互にシームレスに接続する没入型インタラクションを提供します。 しかし、これらの没入型インターフェースは新たな脆弱性も導入し、ユーザが新たな攻撃に陥るのが簡単になった。 そこで本研究では,リモートアタッカーがユーザのVRシステムとのインタラクションをコントロールし,それをVRインターフェースとしてマスキングする悪意のあるアプリ内にトラップすることで,没入型ハイジャック攻撃を導入する。 一度閉じ込められたら、ユーザとアプリ、サービス、その他のユーザとのインタラクションはすべて、その知識なしに記録され、修正される。 これは従来のプライバシー攻撃だけでなく、2人のVRユーザーが対話中に全く異なる没入的な体験に遭遇する新たなインタラクション攻撃も導入する。 本稿では,メタクエストヘッドセットに対する没入型ハイジャック攻撃の実装について紹介し,その有効性と盗聴性を検証したIRB承認ユーザスタディを実施している。 最後に,様々な防衛効果の有効性とトレードオフについて検討し,多面型防衛パイプラインを提案する。

Today's virtual reality (VR) systems provide immersive interactions that seamlessly connect users with online services and one another. However, these immersive interfaces also introduce new vulnerabilities, making it easier for users to fall prey to new attacks. In this work, we introduce the immersive hijacking attack, where a remote attacker takes control of a user's interaction with their VR system, by trapping them inside a malicious app that masquerades as the full VR interface. Once trapped, all of the user's interactions with apps, services and other users can be recorded and modified without their knowledge. This not only allows traditional privacy attacks but also introduces new interaction attacks, where two VR users encounter vastly different immersive experiences during their interaction. We present our implementation of the immersive hijacking attack on Meta Quest headsets and conduct IRB-approved user studies that validate its efficacy and stealthiness. Finally, we examine effectiveness and tradeoffs of various potential defenses, and propose a multifaceted defense pipeline.
翻訳日:2024-09-11 23:25:16 公開日:2024-09-09
# Particip-AI: 将来のAIユースケース、ハーム、利益を予測するための民主党調査フレームワーク

Particip-AI: A Democratic Surveying Framework for Anticipating Future AI Use Cases, Harms and Benefits ( http://arxiv.org/abs/2403.14791v4 )

ライセンス: Link先を確認
Jimin Mun, Liwei Jiang, Jenny Liang, Inyoung Cheong, Nicole DeCario, Yejin Choi, Tadayoshi Kohno, Maarten Sap, (参考訳) ChatGPTのような汎用AIは、一般大衆がAIを使用してそのパワーを利用するための障壁を減らしたようだ。 しかし、AIのガバナンスと開発は依然として少数の人の手に委ねられており、開発ペースはリスクを総合的に評価することなく加速している。 汎用AIの民主的リスクアセスメントと設計に向けた第一歩として、レイパーがAIのユースケースとその影響を推測し評価するための慎重に設計されたフレームワークPartialIP-AIを紹介します。 我々のフレームワークは、ユースケースの収集、代替シナリオ(ユースケースの開発と開発)によるリスクアセスメントによる多様な害の顕在化、そしてその開発を決定づけることによるAI開発に対する緊張感の顕在化を通じて、AIに関するよりニュアンスで詳細な世論の研究を可能にします。 民主的なAI開発を実現するためのフレームワークの約束を示すために、295人の人口統計学的に多様な参加者からのインプットを用いた中規模研究を実施している。 我々の分析によると、参加者の反応は、現在のAI開発におけるビジネスの焦点と対照的に、個人生活や社会への応用を強調している。 また、専門家が定義した問題に補完する、AIや機関における不信など、想定されるさまざまな害のセットも見出します。 さらに,AI利用事例が開発されるべきかどうかの参加者の判断を有意に予測し,一般ユーザによるテクノソリューション主義への懸念を浮き彫りにした。 私たちは、PartICIP-AIのようなフレームワークが、民主的なAI開発とガバナンスをさらにガイドする方法についての議論で締めくくります。

General purpose AI, such as ChatGPT, seems to have lowered the barriers for the public to use AI and harness its power. However, the governance and development of AI still remain in the hands of a few, and the pace of development is accelerating without a comprehensive assessment of risks. As a first step towards democratic risk assessment and design of general purpose AI, we introduce PARTICIP-AI, a carefully designed framework for laypeople to speculate and assess AI use cases and their impacts. Our framework allows us to study more nuanced and detailed public opinions on AI through collecting use cases, surfacing diverse harms through risk assessment under alternate scenarios (i.e., developing and not developing a use case), and illuminating tensions over AI development through making a concluding choice on its development. To showcase the promise of our framework towards informing democratic AI development, we run a medium-scale study with inputs from 295 demographically diverse participants. Our analyses show that participants' responses emphasize applications for personal life and society, contrasting with most current AI development's business focus. We also surface diverse set of envisioned harms such as distrust in AI and institutions, complementary to those defined by experts. Furthermore, we found that perceived impact of not developing use cases significantly predicted participants' judgements of whether AI use cases should be developed, and highlighted lay users' concerns of techno-solutionism. We conclude with a discussion on how frameworks like PARTICIP-AI can further guide democratic AI development and governance.
翻訳日:2024-09-11 23:25:16 公開日:2024-09-09
# ツイートの解釈型感性分析のためのRoBERTaとアテンションベースBiLSTM

RoBERTa and Attention-based BiLSTM for Interpretable Sentiment Analysis of Tweets ( http://arxiv.org/abs/2404.00297v3 )

ライセンス: Link先を確認
Md Abrar Jahin, Md Sakib Hossain Shovon, M. F. Mridha, Md Rashedul Islam, Yutaka Watanobe, (参考訳) 感情分析は、世論と消費者行動を理解するために不可欠である。 既存のモデルは言語的多様性、一般化可能性、説明可能性に関する課題に直面している。 本稿では,トランスフォーマーアーキテクチャ,アテンション機構,BiLSTMネットワークを統合したハイブリッドフレームワークTRABSAを提案する。 124万ツイートでトレーニングされたRoBERTaを活用することで、感情分析ベンチマークのギャップを埋め、最先端の精度を確保します。 32か国と米国州のツイートでデータセットを増強し、6つのワード埋め込み技術と3つのレキシコンベースのラベリング技術を比較し、最適な感情分析のためのベストを選択する。 TRABSAは、94%の精度と大幅な精度、リコール、F1スコアゲインで、従来のMLおよびディープラーニングモデルを上回っている。 多様なデータセットに対する評価は、一貫した優位性と一般化性を示している。 SHAPとLIME分析は解釈可能性を高め、予測の信頼性を向上させる。 本研究は,パンデミックの資源管理,資源計画支援,政策形成,ワクチン接種戦略を促進する。

Sentiment analysis is crucial for understanding public opinion and consumer behavior. Existing models face challenges with linguistic diversity, generalizability, and explainability. We propose TRABSA, a hybrid framework integrating transformer-based architectures, attention mechanisms, and BiLSTM networks to address this. Leveraging RoBERTa-trained on 124M tweets, we bridge gaps in sentiment analysis benchmarks, ensuring state-of-the-art accuracy. Augmenting datasets with tweets from 32 countries and US states, we compare six word-embedding techniques and three lexicon-based labeling techniques, selecting the best for optimal sentiment analysis. TRABSA outperforms traditional ML and deep learning models with 94% accuracy and significant precision, recall, and F1-score gains. Evaluation across diverse datasets demonstrates consistent superiority and generalizability. SHAP and LIME analyses enhance interpretability, improving confidence in predictions. Our study facilitates pandemic resource management, aiding resource planning, policy formation, and vaccination tactics.
翻訳日:2024-09-11 23:13:57 公開日:2024-09-09
# Trigger-Optimized Data Poisoning によるフェデレーション学習におけるバックドアモデルの更新

Concealing Backdoor Model Updates in Federated Learning by Trigger-Optimized Data Poisoning ( http://arxiv.org/abs/2405.06206v2 )

ライセンス: Link先を確認
Yujie Zhang, Neil Gong, Michael K. Reiter, (参考訳) Federated Learning(FL)は、参加者がプライベートデータを共有せずに、協力的にモデルをトレーニングできる分散型機械学習手法である。 FLは、そのプライバシーとスケーラビリティの利点にもかかわらず、バックドア攻撃の影響を受けやすい。敵はバックドアトリガーを使用してクライアントのサブセットのローカルトレーニングデータを悪用し、集約されたモデルが同じバックドア条件が推論時入力で満たされた場合に悪意のある結果を生み出すことを目的としている。 FLの既存のバックドア攻撃は、固定されたトリガーパターンとモデル中毒の助けへの依存という共通の欠陥に悩まされる。 クライアントモデル更新の分析に基づく最先端の防御は、悪意のあるクライアントモデル更新と良質なクライアントモデルアップデートの間に大きな違いがあるため、これらの攻撃に対して優れた防御性能を示す。 本研究では,悪質なモデル更新を効果的に隠蔽するために,バックドアのトリガを最適化し,バックドアデータのモデル更新への影響を最小限に抑えることによって,バックドアの目的を動的に構築するFLのバックドア攻撃戦略であるDPOTを提案する。 我々はDPOTの攻撃原理を理論的に正当化し、DPOTがデータポゾン攻撃のみを通じて、最先端の防御を効果的に弱め、既存のバックドア攻撃技術を様々なデータセットで上回ることを示す実験結果を示した。

Federated Learning (FL) is a decentralized machine learning method that enables participants to collaboratively train a model without sharing their private data. Despite its privacy and scalability benefits, FL is susceptible to backdoor attacks, where adversaries poison the local training data of a subset of clients using a backdoor trigger, aiming to make the aggregated model produce malicious results when the same backdoor condition is met by an inference-time input. Existing backdoor attacks in FL suffer from common deficiencies: fixed trigger patterns and reliance on the assistance of model poisoning. State-of-the-art defenses based on analyzing clients' model updates exhibit a good defense performance on these attacks because of the significant divergence between malicious and benign client model updates. To effectively conceal malicious model updates among benign ones, we propose DPOT, a backdoor attack strategy in FL that dynamically constructs backdoor objectives by optimizing a backdoor trigger, making backdoor data have minimal effect on model updates. We provide theoretical justifications for DPOT's attacking principle and display experimental results showing that DPOT, via only a data-poisoning attack, effectively undermines state-of-the-art defenses and outperforms existing backdoor attack techniques on various datasets.
翻訳日:2024-09-11 23:03:57 公開日:2024-09-09
# ランダム森林における局所構造パラメータの同時推論

Simultaneous Inference for Local Structural Parameters with Random Forests ( http://arxiv.org/abs/2405.07860v3 )

ライセンス: Link先を確認
David M. Ritzwoller, Vasilis Syrgkanis, (参考訳) 我々は条件モーメント方程式の解に対する同時信頼区間を構築する。 間隔は、サブサンプリングされたカーネルに基づいた非パラメトリック回帰アルゴリズムのクラスを中心に構築される。 このクラスは、一般的なランダム森林(Athey et al , 2019)を含む、様々な種類の無作為な森林回帰を包含している。 同時妥当性は実際は望ましいが(例えば、治療効果の不均一性のきめ細かなキャラクタリゼーションなど)、ポイントワイズ保証を提示する信頼区間のみが以前は利用可能であった。 私たちの仕事はこのギャップを埋める。 副生成物として,高次元U-統計量の濃度と正規近似に関する新しい順序抽出結果が得られた。

We construct simultaneous confidence intervals for solutions to conditional moment equations. The intervals are built around a class of nonparametric regression algorithms based on subsampled kernels. This class encompasses various forms of subsampled random forest regression, including Generalized Random Forests (Athey et al., 2019). Although simultaneous validity is often desirable in practice -- for example, for fine-grained characterization of treatment effect heterogeneity -- only confidence intervals that confer pointwise guarantees were previously available. Our work closes this gap. As a by-product, we obtain several new order-explicit results on the concentration and normal approximation of high-dimensional U-statistics.
翻訳日:2024-09-11 23:03:57 公開日:2024-09-09
# 遅延情報を用いた無機材料の誘電体テンソル予測

Dielectric Tensor Prediction for Inorganic Materials Using Latent Information from Preferred Potential ( http://arxiv.org/abs/2405.09052v2 )

ライセンス: Link先を確認
Zetian Mao, Wenwen Li, Jethro Tan, (参考訳) 誘電体はフラッシュメモリ、CPU、太陽光発電、コンデンサといった技術には不可欠だが、これらの材料に関する公開データは乏しく、研究と開発を制限している。 既存の機械学習モデルは、材料設計に不可欠な誘電体テンソルの方向性を無視し、スカラー多結晶誘電体定数を予測することに重点を置いている。 本研究は,誘電体テンソルの予測を強化するために,普遍的ニューラルネットワーク電位からの多ランク同変構造埋め込みを利用する。 我々は,O(3)の等価性を保ちながら全,電子,イオン誘電体テンソルを予測する同変読み出しデコーダを開発し,その性能を最先端のアルゴリズムと比較した。 高誘電率および高異方性材料であるマテリアルプロジェクトからの熱力学的安定物質の仮想スクリーニングは、Cs2Ti(WO4)3(バンドギャップ$E_g=2.93 \mathrm{eV}$、誘電率$\varepsilon=180.90$)とCsZrCuSe3(異方性比$\alpha_r = 121.89$)を含む有望な候補を特定する。 その結果, 誘電体テンソルの予測精度と新規誘電体材料発見の可能性が示された。

Dielectrics are crucial for technologies like flash memory, CPUs, photovoltaics, and capacitors, but public data on these materials are scarce, restricting research and development. Existing machine learning models have focused on predicting scalar polycrystalline dielectric constants, neglecting the directional nature of dielectric tensors essential for material design. This study leverages multi-rank equivariant structural embeddings from a universal neural network potential to enhance predictions of dielectric tensors. We develop an equivariant readout decoder to predict total, electronic, and ionic dielectric tensors while preserving O(3) equivariance, and benchmark its performance against state-of-the-art algorithms. Virtual screening of thermodynamically stable materials from Materials Project for two discovery tasks, high-dielectric and highly anisotropic materials, identifies promising candidates including Cs2Ti(WO4)3 (band gap $E_g=2.93 \mathrm{eV}$, dielectric constant $\varepsilon=180.90$) and CsZrCuSe3 (anisotropic ratio $\alpha_r = 121.89$). The results demonstrate our model's accuracy in predicting dielectric tensors and its potential for discovering novel dielectric materials.
翻訳日:2024-09-11 23:03:57 公開日:2024-09-09
# XCAT-3.0:CTスキャンから得られた個人化デジタル双生児の総合ライブラリ

XCAT-3.0: A Comprehensive Library of Personalized Digital Twins Derived from CT Scans ( http://arxiv.org/abs/2405.11133v3 )

ライセンス: Link先を確認
Lavsen Dahal, Mobina Ghojoghnejad, Dhrubajyoti Ghosh, Yubraj Bhandari, David Kim, Fong Chi Ho, Fakrul Islam Tushar, Sheng Luoa, Kyle J. Lafata, Ehsan Abadi, Ehsan Samei, Joseph Y. Lo, W. Paul Segars, (参考訳) VIT(Virtual Imaging Trials)は、医療画像技術の評価に費用効率が高くスケーラブルなアプローチを提供する。 実際の患者解剖学と生理学を模倣する計算幻覚は、VITにおいて中心的な役割を果たす。 しかし、現在の計算ファントムのライブラリは、特にサンプルサイズと多様性の点で制限に直面している。 異なる患者群にまたがる画像技術の正確な評価は, 人口ハマーの表現が不十分である。 伝統的に、より現実的な計算ファントムは手作業によるセグメンテーションによって作成され、それは手間と時間を要する作業であり、ファントム図書館の拡張を妨げる。 本研究では, 自動セグメンテーションモデルを用いてリアルな計算ファントムを作成するためのフレームワークを提案し, セグメンテーションされたオルガンマスク上で3種類の自動品質制御を行う。 その結果、2500以上の新しい計算ファントムがリリースされ、XCAT3.0という名前はユビキタスなXCAT計算構造にちなむ。 この新たな構造は140の構造を具現化し、詳細な解剖学的モデリングへの包括的アプローチを示している。 開発された計算ファントムは、ボキセル化および表面メッシュフォーマットの両方でフォーマットされる。 このフレームワークは、社内のCTスキャナーと組み合わせて、リアルなCT画像を生成する。 このフレームワークは、医用画像技術の総合的かつ信頼性の高い評価を促進するために、仮想画像治験を前進させる可能性を秘めている。 Phantomsはhttps://cvit.duke.edu/resources/でリクエストできる。 コード、モデルウェイト、サンプルCT画像はhttps://xcat-3.github.io/.com/で公開されている。

Virtual Imaging Trials (VIT) offer a cost-effective and scalable approach for evaluating medical imaging technologies. Computational phantoms, which mimic real patient anatomy and physiology, play a central role in VITs. However, the current libraries of computational phantoms face limitations, particularly in terms of sample size and diversity. Insufficient representation of the population hampers accurate assessment of imaging technologies across different patient groups. Traditionally, the more realistic computational phantoms were created by manual segmentation, which is a laborious and time-consuming task, impeding the expansion of phantom libraries. This study presents a framework for creating realistic computational phantoms using a suite of automatic segmentation models and performing three forms of automated quality control on the segmented organ masks. The result is the release of over 2500 new computational phantoms, so-named XCAT3.0 after the ubiquitous XCAT computational construct. This new formation embodies 140 structures and represents a comprehensive approach to detailed anatomical modeling. The developed computational phantoms are formatted in both voxelized and surface mesh formats. The framework is combined with an in-house CT scanner simulator to produce realistic CT images. The framework has the potential to advance virtual imaging trials, facilitating comprehensive and reliable evaluations of medical imaging technologies. Phantoms may be requested at https://cvit.duke.edu/resources/. Code, model weights, and sample CT images are available at https://xcat-3.github.io/.
翻訳日:2024-09-11 23:03:57 公開日:2024-09-09
# テンソル-ネットワークに基づく変分モンテカルロアプローチによる開量子系の非平衡定常状態

Tensor-network-based variational Monte Carlo approach to the non-equilibrium steady state of open quantum systems ( http://arxiv.org/abs/2405.12044v2 )

ライセンス: Link先を確認
Dawid A. Hryniuk, Marzena H. Szymańska, (参考訳) 本研究では,行列積演算子アンザッツのモンテカルロ最適化に基づいて,非局所的相互作用を持つ大規模多体開量子系の非平衡定常状態を効率的にシミュレーションする新しい手法を提案する。 提案手法は,周期システムの結合次元に対する計算コストのスケーリングの改善など,同等のアルゴリズムよりも優れ,いくつかの利点がある。 我々は、最大$N=100$スピンのスピン鎖に対する集合的退化と長距離パワー法則相互作用を持つ散逸的量子イジングモデルの位相図と相関関数を研究することによって、我々のアプローチの汎用性を示す。

We introduce a novel method of efficiently simulating the non-equilibrium steady state of large many-body open quantum systems with highly non-local interactions, based on a variational Monte Carlo optimization of a matrix product operator ansatz. Our approach outperforms and offers several advantages over comparable algorithms, such as an improved scaling of the computational cost with respect to the bond dimension for periodic systems. We showcase the versatility of our approach by studying the phase diagrams and correlation functions of the dissipative quantum Ising model with collective dephasing and long-ranged power law interactions for spin chains of up to $N=100$ spins.
翻訳日:2024-09-11 23:03:57 公開日:2024-09-09
# 一時集約I.I.D.データからの因果関係の復元可能性について

On the Recoverability of Causal Relations from Temporally Aggregated I.I.D. Data ( http://arxiv.org/abs/2406.02191v3 )

ライセンス: Link先を確認
Shunxing Fan, Mingming Gong, Kun Zhang, (参考訳) 本研究では,時間的アグリゲーションが時間的(非時間的)因果発見に及ぼす影響を概観する。 これは、真の因果時間ラグが観測間隔よりもかなり短いことが観察の動機となっている。 この不一致は高い凝集を引き起こすため、時間遅延因果関係は消失し、マニフェストへの瞬時に依存する。 このような瞬間的依存は、発見結果を意味づけるためにある意味において真の因果関係と整合性を持つことを期待するが、どのような整合性が必要なのか、いつそのような整合性を満たすのかは不明である。 機能的一貫性と条件的独立性は,それぞれ機能的因果モデルに基づく手法と条件的独立性に基づく手法に対応し,それらの構成が持つ条件を提供する。 本研究では,特に完全非線形の場合において,因果発見結果が集約によって著しく歪む可能性があること,また,部分線形性や適切な先行性がある場合,集約データから因果関係が回復可能であることを理論的,実験的に示す。 これらのデータから因果発見結果を解釈する際には,コミュニティは慎重かつ慎重なアプローチをとるべきであり,なぜ,いつ凝集が因果発見法の性能を歪めるかを示す。

We consider the effect of temporal aggregation on instantaneous (non-temporal) causal discovery in general setting. This is motivated by the observation that the true causal time lag is often considerably shorter than the observational interval. This discrepancy leads to high aggregation, causing time-delay causality to vanish and instantaneous dependence to manifest. Although we expect such instantaneous dependence has consistency with the true causal relation in certain sense to make the discovery results meaningful, it remains unclear what type of consistency we need and when will such consistency be satisfied. We proposed functional consistency and conditional independence consistency in formal way correspond functional causal model-based methods and conditional independence-based methods respectively and provide the conditions under which these consistencies will hold. We show theoretically and experimentally that causal discovery results may be seriously distorted by aggregation especially in complete nonlinear case and we also find causal relationship still recoverable from aggregated data if we have partial linearity or appropriate prior. Our findings suggest community should take a cautious and meticulous approach when interpreting causal discovery results from such data and show why and when aggregation will distort the performance of causal discovery methods.
翻訳日:2024-09-11 23:03:57 公開日:2024-09-09
# グラフ説明のための高次構造

Higher Order Structures For Graph Explanations ( http://arxiv.org/abs/2406.03253v4 )

ライセンス: Link先を確認
Akshit Sinha, Sreeram Vennam, Charu Sharma, Ponnurangam Kumaraguru, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの表現を学習するための強力なツールとして登場し、様々なタスクで顕著なパフォーマンスを示している。 その重要性を認識し、GNNの予測を説明することに焦点を当てた広範な研究が行われ、その解釈可能性と信頼性を高めることを目指している。 しかし、GNNとその説明者は、注目すべき課題に直面している。グラフは主にノード間のペアワイズ関係をモデル化するために設計されています。 この特徴は、マルチノード関係を完全に表現する上で、既存の説明者には困難をもたらす可能性がある。 このギャップに対処するために、グラフ説明者が高階構造を組み込むことでそのような相互作用を捉え、より正確で忠実な説明ができるフレームワークであるFORGE(Higher-Order Representations In Graph Explanations)を提案する。 広範囲な評価によると、GraphXAIベンチマークの平均実世界のデータセットと、さまざまなグラフ説明器にわたる合成データセットでは、ForGEは平均説明精度をそれぞれ1.9倍と2.25倍に改善している。 我々は,高次関係が説明を改善する上で重要であることを確認するためにアブレーション研究を行い,拡張性解析は大規模グラフ上でのForGEの有効性を実証する。

Graph Neural Networks (GNNs) have emerged as powerful tools for learning representations of graph-structured data, demonstrating remarkable performance across various tasks. Recognising their importance, there has been extensive research focused on explaining GNN predictions, aiming to enhance their interpretability and trustworthiness. However, GNNs and their explainers face a notable challenge: graphs are primarily designed to model pair-wise relationships between nodes, which can make it tough to capture higher-order, multi-node interactions. This characteristic can pose difficulties for existing explainers in fully representing multi-node relationships. To address this gap, we present Framework For Higher-Order Representations In Graph Explanations (FORGE), a framework that enables graph explainers to capture such interactions by incorporating higher-order structures, resulting in more accurate and faithful explanations. Extensive evaluation shows that on average real-world datasets from the GraphXAI benchmark and synthetic datasets across various graph explainers, FORGE improves average explanation accuracy by 1.9x and 2.25x, respectively. We perform ablation studies to confirm the importance of higher-order relations in improving explanations, while our scalability analysis demonstrates FORGE's efficacy on large graphs.
翻訳日:2024-09-11 23:03:57 公開日:2024-09-09
# 雷極対流の展望:グローバルAIに基づく気象モデルによる激しい対流環境の予測

Lightning-Fast Convective Outlooks: Predicting Severe Convective Environments with Global AI-based Weather Models ( http://arxiv.org/abs/2406.09474v2 )

ライセンス: Link先を確認
Monika Feldmann, Tom Beucler, Milton Gomez, Olivia Martius, (参考訳) 激しい対流嵐は最も危険な気象現象であり、正確な予測は影響を緩和する。 最近リリースされたAIベースの気象モデル群は、単一のレベルの変数に対する最先端の運用予測と同じようなスキルで、数秒で中距離の予測を生成する。 しかし、激しい雷雨環境を予測するには、動的および熱力学的変数と大気の垂直構造を正確に組み合わせる必要がある。 プロセスベースの評価に対するAIモデルの評価の強化は、ハザード駆動アプリケーションの基礎となる。 我々は,最大10日間のリードタイムにおける対流パラメータの最大3つのAIモデルによる再解析とECMWFの運用数値天気予報モデルISSの予測能力を評価する。 ケーススタディと季節分析では、GraphCastとPangu-Weatherの最高のパフォーマンスが見られます。 これにより、厳しい気候環境の迅速かつ安価な予測が可能となる。

Severe convective storms are among the most dangerous weather phenomena and accurate forecasts mitigate their impacts. The recently released suite of AI-based weather models produces medium-range forecasts within seconds, with a skill similar to state-of-the-art operational forecasts for variables on single levels. However, predicting severe thunderstorm environments requires accurate combinations of dynamic and thermodynamic variables and the vertical structure of the atmosphere. Advancing the assessment of AI-models towards process-based evaluations lays the foundation for hazard-driven applications. We assess the forecast skill of three top-performing AI-models for convective parameters at lead-times of up to 10 days against reanalysis and ECMWF's operational numerical weather prediction model IFS. In a case study and seasonal analyses, we see the best performance by GraphCast and Pangu-Weather: these models match or even exceed the performance of IFS for instability and shear. This opens opportunities for fast and inexpensive predictions of severe weather environments.
翻訳日:2024-09-11 22:52:03 公開日:2024-09-09
# ARTIST:遠方拡散モデルによるテキストリッチ画像の生成改善

ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models ( http://arxiv.org/abs/2406.12044v2 )

ライセンス: Link先を確認
Jianyi Zhang, Yufan Zhou, Jiuxiang Gu, Curtis Wigington, Tong Yu, Yiran Chen, Tong Sun, Ruiyi Zhang, (参考訳) 拡散モデルは、広い範囲の視覚コンテンツを生成できるという異常な能力を示したが、テキストの描画能力はまだ限られており、下層の画像とうまく融合できない不正確な文字や単語を生成することが多い。 これらの欠点に対処するため、ARTISTという新しいフレームワークを導入する。 このフレームワークには専用のテキスト拡散モデルが含まれており、特にテキスト構造の学習に焦点を当てている。 当初、テキスト表現の複雑さを捉えるために、このテキストモデルを事前訓練する。 その後、視覚拡散モデルを微調整し、事前訓練されたテキストモデルからテキスト構造情報を同化できるようにする。 この歪んだアーキテクチャ設計とトレーニング戦略は、テキストリッチな画像生成のための拡散モデルのテキストレンダリング能力を著しく向上させる。 さらに、トレーニング済みの大規模言語モデルの能力を活用して、ユーザの意図をよりよく解釈し、生成品質の向上に貢献します。 MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15倍の精度向上を示した。

Diffusion models have demonstrated exceptional capabilities in generating a broad spectrum of visual content, yet their proficiency in rendering text is still limited: they often generate inaccurate characters or words that fail to blend well with the underlying image. To address these shortcomings, we introduce a new framework named ARTIST. This framework incorporates a dedicated textual diffusion model to specifically focus on the learning of text structures. Initially, we pretrain this textual model to capture the intricacies of text representation. Subsequently, we finetune a visual diffusion model, enabling it to assimilate textual structure information from the pretrained textual model. This disentangled architecture design and the training strategy significantly enhance the text rendering ability of the diffusion models for text-rich image generation. Additionally, we leverage the capabilities of pretrained large language models to better interpret user intentions, contributing to improved generation quality. Empirical results on the MARIO-Eval benchmark underscore the effectiveness of the proposed method, showing an improvement of up to 15\% in various metrics.
翻訳日:2024-09-11 22:52:03 公開日:2024-09-09
# 因果構造と表現学習のための識別可能な交換可能なメカニズム

Identifiable Exchangeable Mechanisms for Causal Structure and Representation Learning ( http://arxiv.org/abs/2406.14302v2 )

ライセンス: Link先を確認
Patrik Reizinger, Siyuan Guo, Ferenc Huszár, Bernhard Schölkopf, Wieland Brendel, (参考訳) 潜在表現や因果構造を同定することは、優れた一般化と下流タスク性能にとって重要である。 しかし、どちらの分野も比較的独立に開発されている。 我々は、表現と因果構造学習の双方において、同じデータ生成プロセス(DGP)、すなわち交換可能であるが、非独立かつ同一に分散している)データに依存しているいくつかの手法を観察する。 IEM(Identible Exchangeable Mechanisms)と呼ばれる,交換可能性のレンズ下での表現と構造学習のための統合フレームワークを提供する。 IEMは、交換可能な非I.d.データにおける因果構造同定に必要な条件を緩和する新しい洞察を提供する。 また、認識可能な表現学習における双対性条件の存在を実証し、新たな識別可能性結果をもたらす。 この研究が、因果表現学習のさらなる研究の道を開くことを願っている。

Identifying latent representations or causal structures is important for good generalization and downstream task performance. However, both fields have been developed rather independently. We observe that several methods in both representation and causal structure learning rely on the same data-generating process (DGP), namely, exchangeable but not i.i.d. (independent and identically distributed) data. We provide a unified framework, termed Identifiable Exchangeable Mechanisms (IEM), for representation and structure learning under the lens of exchangeability. IEM provides new insights that let us relax the necessary conditions for causal structure identification in exchangeable non--i.i.d. data. We also demonstrate the existence of a duality condition in identifiable representation learning, leading to new identifiability results. We hope this work will pave the way for further research in causal representation learning.
翻訳日:2024-09-11 22:52:03 公開日:2024-09-09
# VideoMambaPro:ビデオ理解におけるMambaの推進力

VideoMambaPro: A Leap Forward for Mamba in Video Understanding ( http://arxiv.org/abs/2406.19006v3 )

ライセンス: Link先を確認
Hui Lu, Albert Ali Salah, Ronald Poppe, (参考訳) ビデオ理解には、トランスフォーマーモデルが自己注意を通じて達成する豊かな時空間表現の抽出が必要である。 残念ながら、自己注意は計算上の負担をもたらす。 NLPでは、Mambaは変換器の効率的な代替品として浮上している。 しかし、マンバの成功は、ビデオ分析を含むコンピュータビジョンのタスクにさほど及ばない。 本稿では,自尊心とマンバの差異を理論的に分析する。 マンバのトークン処理には、歴史的崩壊と元素矛盾という2つの制限がある。 我々は,ビデオマンバのバックボーンにマスク付き後方計算と要素残差接続を追加することで,特定された制限を解消するVideoMambaPro(VMP)を提案する。 VideoMambaProは、トランスフォーマーモデルと比較して最先端のビデオアクション認識性能を示し、Kinetics-400とSomething V2でそれぞれ7.9%と8.1%という明確なマージンでVideoMambaを上回っている。 私たちのVideoMambaPro-Mモデルは、InternVideo2-6Bよりわずか0.2%低いが、パラメータの1.2%しか持たないKinetics-400で91.9%のトップ-1を達成した。 高性能と効率性の組み合わせにより、VideoMambaProはトランスフォーマーモデルの興味深い代替品となる。

Video understanding requires the extraction of rich spatio-temporal representations, which transformer models achieve through self-attention. Unfortunately, self-attention poses a computational burden. In NLP, Mamba has surfaced as an efficient alternative for transformers. However, Mamba's successes do not trivially extend to computer vision tasks, including those in video analysis. In this paper, we theoretically analyze the differences between self-attention and Mamba. We identify two limitations in Mamba's token processing: historical decay and element contradiction. We propose VideoMambaPro (VMP) that solves the identified limitations by adding masked backward computation and elemental residual connections to a VideoMamba backbone. VideoMambaPro shows state-of-the-art video action recognition performance compared to transformer models, and surpasses VideoMamba by clear margins: 7.9% and 8.1% top-1 on Kinetics-400 and Something-Something V2, respectively. Our VideoMambaPro-M model achieves 91.9% top-1 on Kinetics-400, only 0.2% below InternVideo2-6B but with only 1.2% of its parameters. The combination of high performance and efficiency makes VideoMambaPro an interesting alternative for transformer models.
翻訳日:2024-09-11 22:42:18 公開日:2024-09-09
# LLMmap: 大きな言語モデルのためのフィンガープリント

LLMmap: Fingerprinting For Large Language Models ( http://arxiv.org/abs/2407.15847v3 )

ライセンス: Link先を確認
Dario Pasquini, Evgenios M. Kornaropoulos, Giuseppe Ateniese, (参考訳) LLM統合アプリケーションを対象とした第1世代のフィンガープリント技術であるLLMmapを紹介する。 LLMmapはアクティブなフィンガープリントアプローチを採用し、アプリケーションに慎重にクエリを送信し、レスポンスを分析して使用中の特定のLLMバージョンを特定する。 我々のクエリ選択は、LLMが数学的に変化するプロンプトに対して一意に識別可能な応答を生成する方法について、ドメインの専門知識によって通知される。 LLMmapは、わずか8つのインタラクションで、95%以上の精度で42の異なるLLMバージョンを正確に識別することができる。 さらに重要なのは、LLMmapはさまざまなアプリケーション層にまたがって堅牢に設計されており、オープンソースであれプロプライエタリであれ、さまざまなベンダからLLMバージョンを識別可能で、未知のシステムプロンプトの下で動作し、確率的なサンプリングハイパーパラメータ、RAGやChain-of-Thoughtのような複雑な生成フレームワークまでも動作します。 潜在的な軽減策について議論し、資源に満ちた敵に対して、効果的な対策が困難か、あるいは実現不可能であることを実証する。

We introduce LLMmap, a first-generation fingerprinting technique targeted at LLM-integrated applications. LLMmap employs an active fingerprinting approach, sending carefully crafted queries to the application and analyzing the responses to identify the specific LLM version in use. Our query selection is informed by domain expertise on how LLMs generate uniquely identifiable responses to thematically varied prompts. With as few as 8 interactions, LLMmap can accurately identify 42 different LLM versions with over 95% accuracy. More importantly, LLMmap is designed to be robust across different application layers, allowing it to identify LLM versions--whether open-source or proprietary--from various vendors, operating under various unknown system prompts, stochastic sampling hyperparameters, and even complex generation frameworks such as RAG or Chain-of-Thought. We discuss potential mitigations and demonstrate that, against resourceful adversaries, effective countermeasures may be challenging or even unrealizable.
翻訳日:2024-09-11 22:42:18 公開日:2024-09-09
# ローマは単一ステップで建設されなかった:LCMベースのチップ設計のための階層的プロンプト

Rome was Not Built in a Single Step: Hierarchical Prompting for LLM-based Chip Design ( http://arxiv.org/abs/2407.18276v3 )

ライセンス: Link先を確認
Andre Nakkab, Sai Qian Zhang, Ramesh Karri, Siddharth Garg, (参考訳) 大言語モデル(LLM)は、ハードウェア記述言語(HDL)生成によるコンピュータハードウェア合成に有効である。 しかし、複雑なタスクを扱う場合のHDL生成にLLMが支援するアプローチは難しかった。 本稿では,効率的なステップワイズ設計手法を実現する階層的プロンプト技術一式を導入し,そのプロセスのための一般化可能な自動化パイプラインを開発する。 これらの手法を評価するために,アーキテクチャ階層の有無に関わらず解決できるハードウェア設計のベンチマークセットを提案する。 これらのベンチマークを用いて、当社独自のCode Llama-Verilogモデルを含む、さまざまなオープンソースおよびプロプライエタリなLLMを比較します。 我々の階層的手法は、標準フラットプロンプト法では達成できない複雑なハードウェアモジュールの設計を自動生成し、より小さなオープンソース LLM が大規模なプロプライエタリなモデルと競合することを可能にする。 階層的プロンプトはHDL生成時間を短縮し、LLMコストの削減をもたらす。 実験では, LLMがどの用途に利用できるか, 階層的手法を様々なモードに適用する方法について詳述した。 人間のフィードバックを伴わない最初のLCM設計プロセッサを含む,自動スクリプティング階層プロンプトを用いた複雑なコア生成のケーススタディについて検討する。 Machine Editing (ROME) メソッドによるリカレント最適化のためのツールは https://github.com/ajn313/ROME-LLM にある。

Large Language Models (LLMs) are effective in computer hardware synthesis via hardware description language (HDL) generation. However, LLM-assisted approaches for HDL generation struggle when handling complex tasks. We introduce a suite of hierarchical prompting techniques which facilitate efficient stepwise design methods, and develop a generalizable automation pipeline for the process. To evaluate these techniques, we present a benchmark set of hardware designs which have solutions with or without architectural hierarchy. Using these benchmarks, we compare various open-source and proprietary LLMs, including our own fine-tuned Code Llama-Verilog model. Our hierarchical methods automatically produce successful designs for complex hardware modules that standard flat prompting methods cannot achieve, allowing smaller open-source LLMs to compete with large proprietary models. Hierarchical prompting reduces HDL generation time and yields savings on LLM costs. Our experiments detail which LLMs are capable of which applications, and how to apply hierarchical methods in various modes. We explore case studies of generating complex cores using automatic scripted hierarchical prompts, including the first-ever LLM-designed processor with no human feedback. Tools for the Recurrent Optimization via Machine Editing (ROME) method can be found at https://github.com/ajn313/ROME-LLM
翻訳日:2024-09-11 22:32:06 公開日:2024-09-09
# 少数のショットを含む高品質QAOAパラメータのエンドツーエンドプロトコル

End-to-End Protocol for High-Quality QAOA Parameters with Few Shots ( http://arxiv.org/abs/2408.00557v2 )

ライセンス: Link先を確認
Tianyi Hao, Zichang He, Ruslan Shaydulin, Jeffrey Larson, Marco Pistoia, (参考訳) 量子近似最適化アルゴリズム (QAOA) は組合せ最適化のための量子ヒューリスティックであり、いくつかの問題に対して最先端の古典的解法よりも優れたスケールを証明されている。 ある問題の場合、QAOAのパフォーマンスはパラメータの選択に大きく依存します。 平均ケース最適パラメータは多くのケースで利用可能であるが、特定のインスタンスに対してこれらのパラメータを微調整することで有意義な性能向上が得られる。 しかし、このタスクは、回路実行数(ショット)が限られている場合、特に困難である。 本研究では,複数のパラメータ設定と微調整技術を組み合わせたエンドツーエンドプロトコルを開発する。 大規模数値実験を用いて、ショット制限設定のためのプロトコルを最適化し、最も単純な内部モデル(線形)を持つオプティマイザが最適であることを示す。 最大32キュービットと5QAOAレイヤを使用して、トラップイオンプロセッサ上に最適化されたパイプラインを実装し、このパイプラインが少量のハードウェアノイズに対して堅牢であることを示す。 我々の知る限り、これらは2量子ゲート数という観点で、トラップイオンプロセッサ上でのQAOAパラメータの微調整の最大の実証である。

The quantum approximate optimization algorithm (QAOA) is a quantum heuristic for combinatorial optimization that has been demonstrated to scale better than state-of-the-art classical solvers for some problems. For a given problem instance, QAOA performance depends crucially on the choice of the parameters. While average-case optimal parameters are available in many cases, meaningful performance gains can be obtained by fine-tuning these parameters for a given instance. This task is especially challenging, however, when the number of circuit executions (shots) is limited. In this work, we develop an end-to-end protocol that combines multiple parameter settings and fine-tuning techniques. We use large-scale numerical experiments to optimize the protocol for the shot-limited setting and observe that optimizers with the simplest internal model (linear) perform best. We implement the optimized pipeline on a trapped-ion processor using up to 32 qubits and 5 QAOA layers, and we demonstrate that the pipeline is robust to small amounts of hardware noise. To the best of our knowledge, these are the largest demonstrations of QAOA parameter fine-tuning on a trapped-ion processor in terms of 2-qubit gate count.
翻訳日:2024-09-11 22:32:06 公開日:2024-09-09
# PhishLang: MobileBERTを使った軽量クライアントサイドフィッシング検出フレームワーク

PhishLang: A Lightweight, Client-Side Phishing Detection Framework using MobileBERT for Real-Time, Explainable Threat Mitigation ( http://arxiv.org/abs/2408.05667v2 )

ライセンス: Link先を確認
Sayak Saha Roy, Shirin Nilizadeh, (参考訳) 本稿では,PhishLangについて紹介する。PhishLangは,Webサイトのコンテキスト解析を通じてWebサイト検出をフィッシングするための,オープンソースの軽量言語モデルである。 静的な特徴に依存し、新たな脅威に適応するのに苦労する従来のヒューリスティックあるいは機械学習モデルや、計算集約的なディープラーニングモデルとは異なり、当社のモデルはBERTアーキテクチャの高速かつメモリ効率のよいモデルであるMobileBERTを活用して、フィッシング攻撃の特徴となるきめ細かい特徴を学習する。 PhishLangは最小限のデータ前処理で動作し、ディープラーニングのアンチフィッシングツールに匹敵するパフォーマンスを提供する。 3.5ヶ月にわたるテスト期間において、PhishLangは25,796個のフィッシングURLを識別した。 PhishLangのリソース効率を活かして、オンラインのブロックリストを参照することなく、推論をローカルで提供し、推論時間に影響を与えずにローエンドのシステムで実行できる、最初のオープンソース完全なクライアントサイドのChromiumブラウザエクステンションをリリースしました。 私たちの実装は、一般的な(サーバ側)フィッシングツールよりも優れているだけでなく、利用可能な商用クライアント側対策よりもはるかに効果的です。 さらに,PhishLangをGPT-3.5 Turboに統合して,説明可能なブロッキングリストを作成する方法についても検討した。

In this paper, we introduce PhishLang, an open-source, lightweight language model specifically designed for phishing website detection through contextual analysis of the website. Unlike traditional heuristic or machine learning models that rely on static features and struggle to adapt to new threats, and deep learning models that are computationally intensive, our model leverages MobileBERT, a fast and memory-efficient variant of the BERT architecture, to learn granular features characteristic of phishing attacks. PhishLang operates with minimal data preprocessing and offers performance comparable to leading deep learning anti-phishing tools, while being significantly faster and less resource-intensive. Over a 3.5-month testing period, PhishLang successfully identified 25,796 phishing URLs, many of which were undetected by popular antiphishing blocklists, thus demonstrating its potential to enhance current detection measures. Capitalizing on PhishLang's resource efficiency, we release the first open-source fully client-side Chromium browser extension that provides inference locally without requiring to consult an online blocklist and can be run on low-end systems with no impact on inference times. Our implementation not only outperforms prevalent (server-side) phishing tools, but is significantly more effective than the limited commercial client-side measures available. Furthermore, we study how PhishLang can be integrated with GPT-3.5 Turbo to create explainable blocklisting -- which, upon detection of a website, provides users with detailed contextual information about the features that led to a website being marked as phishing.
翻訳日:2024-09-11 22:32:06 公開日:2024-09-09
# カオスのプローブとしてのクリロフ複雑性

Krylov Complexity as a Probe for Chaos ( http://arxiv.org/abs/2408.10194v2 )

ライセンス: Link先を確認
Mohsen Alishahiha, Souvik Banerjee, Mohammad Javad Vasli, (参考訳) 本研究では,Krylov複雑性の時間進化について詳細に検討する。 解析計算により、有限多体系において、ランプとプラトーはクリロフ複雑性の2つの一般的な特徴であるが、複雑性の飽和がシステムのカオス性を明らかにする方法を示す。 特に、飽和に対する力学がカオス系と可積分系を正確に区別していることが示される。 カオスモデルでは、複雑性の飽和値は有限飽和時間で無限の時間平均に達する。 この場合、初期状態によっては、飽和前にピークを示すこともある。 対照的に、積分可能なモデルでは、複雑性はより長い時間スケールで下から無限の時間平均値にアプローチする。 我々は、特定のスピンモデルに対する数値的な結果を用いて、この区別を確かめる。

In this work, we explore in detail, the time evolution of Krylov complexity. We demonstrate, through analytical computations, that in finite many-body systems, while ramp and plateau are two generic features of Krylov complexity, the manner in which complexity saturates reveals the chaotic nature of the system. In particular, we show that the dynamics towards saturation precisely distinguish between chaotic and integrable systems. For chaotic models, the saturation value of complexity reaches its infinite time average at a finite saturation time. In this case, depending on the initial state, it may also exhibit a peak before saturation. In contrast, in integrable models, complexity approaches the infinite time average value from below at a much longer timescale. We confirm this distinction using numerical results for specific spin models.
翻訳日:2024-09-11 22:32:06 公開日:2024-09-09
# EE-MLLM: マルチモーダル大規模言語モデル

EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model ( http://arxiv.org/abs/2408.11795v2 )

ライセンス: Link先を確認
Feipeng Ma, Yizhou Zhou, Hebei Li, Zilong He, Siying Wu, Fengyun Rao, Yueyi Zhang, Xiaoyan Sun, (参考訳) マルチモーダル研究の領域では、多数の研究が画像とテキストのペアを活用してモーダルアライメント学習を行い、大規模言語モデル(LLM)を多モーダルLLMに変換し、様々な視覚的タスクに優れる。 一般的な手法は、主に自己注意に基づく方法と相互注意に基づく方法の2つのカテゴリに分類される。 自己注意に基づく手法は、単純なMLPアーキテクチャのためデータ効率が優れているが、視覚トークンとテキストトークンをLLMの入力として結合することにより、計算効率が低下することが多い。 逆に、クロスアテンションに基づく手法は、追加の学習可能なパラメータによるデータ効率は低いが、LLMの長いシーケンス入力を回避して高い計算効率を示す。 これらのトレードオフに対処するため,データ効率・計算効率・マルチモーダル大言語モデル(EE-MLLM)を提案する。 追加のモジュールや学習可能なパラメータを導入することなく、EE-MLLMはデータと計算効率の両方を達成する。 具体的には,MLLMの自己注意機構を複合注意機構に変更する。 このメカニズムには2つの重要な特徴がある。 1)視覚トークン内の自己注意の計算オーバーヘッドを排除し、計算効率を向上させる。 2) LLMの各層上の重みを再利用し, 視覚と言語間の効果的なモダリティアライメントを容易にし, データ効率を向上させる。 実験結果は、MMBenchやSeedBenchといった汎用データセットや、TextVQAやDocVQAといったきめ細かいタスクを含む、さまざまなベンチマークにおけるEE-MLLMの有効性を示す。

In the realm of multimodal research, numerous studies leverage substantial image-text pairs to conduct modal alignment learning, transforming Large Language Models (LLMs) into Multimodal LLMs and excelling in a variety of visual-language tasks. The prevailing methodologies primarily fall into two categories: self-attention-based and cross-attention-based methods. While self-attention-based methods offer superior data efficiency due to their simple MLP architecture, they often suffer from lower computational efficiency due to concatenating visual and textual tokens as input for LLM. Conversely, cross-attention-based methods, although less data-efficient due to additional learnable parameters, exhibit higher computational efficiency by avoiding long sequence input for LLM. To address these trade-offs, we introduce the Data-Efficient and Compute-Efficient Multimodal Large Language Model (EE-MLLM). Without introducing additional modules or learnable parameters, EE-MLLM achieves both data and compute efficiency. Specifically, we modify the original self-attention mechanism in MLLM to a composite attention mechanism. This mechanism has two key characteristics: 1) Eliminating the computational overhead of self-attention within visual tokens to achieve compute efficiency, and 2) Reusing the weights on each layer of LLM to facilitate effective modality alignment between vision and language for data efficiency. Experimental results demonstrate the effectiveness of EE-MLLM across a range of benchmarks, including general-purpose datasets like MMBench and SeedBench, as well as fine-grained tasks such as TextVQA and DocVQA.
翻訳日:2024-09-11 22:32:06 公開日:2024-09-09
# 強化学習による量子多体系の非エルゴディディティ制御

Controlling nonergodicity in quantum many-body systems by reinforcement learning ( http://arxiv.org/abs/2408.11989v2 )

ライセンス: Link先を確認
Li-Li Ye, Ying-Cheng Lai, (参考訳) 任意の初期状態に対する量子熱化を抑制するための最適制御戦略を見つけることは、量子情報科学や技術にとって重要である。 従来の制御方法は、主にターゲットの量子系の理論的モデルに依存していたが、可逆的なモデル近似と不正確さは制御の失敗に繋がる可能性がある。 量子非エルゴディティ制御のためのモデルフリー・ディープ強化学習(DRL)フレームワークを開発した。 長期にわたる時間依存の非エルゴディックメトリクスにおける初期記憶を維持するために、累積的な報酬を最大化するために、探索と搾取戦略のバランスにユニークな焦点をあてた機械学習手法である。 我々は,一次元傾斜したフェルミ・ハバード系を用いて,DRLエージェントが環境との相互作用のみで量子多体系を効率的に学習できることを実証した。 DRLによって得られた最適ポリシーは、ワニエ・スターク局所化の特定のプロトコルである、例えば、位相図における非エルゴディディティを管理するためのより広範な制御シナリオを提供する。 連続制御プロトコルと観測は実験的に実現可能である。 DRLのモデル自由性とその制御関数に対する汎用探索空間は、より複雑な量子多体系において有望な非エルゴディディティ制御を与える。

Finding optimal control strategies to suppress quantum thermalization for arbitrarily initial states, the so-called quantum nonergodicity control, is important for quantum information science and technologies. Previous control methods largely relied on theoretical model of the target quantum system, but invertible model approximations and inaccuracies can lead to control failures. We develop a model-free and deep-reinforcement learning (DRL) framework for quantum nonergodicity control. It is a machine-learning method with the unique focus on balancing exploration and exploitation strategies to maximize the cumulative rewards so as to preserve the initial memory in the time-dependent nonergodic metrics over a long stretch of time. We use the paradigmatic one-dimensional tilted Fermi-Hubbard system to demonstrate that the DRL agent can efficiently learn the quantum many-body system solely through the interactions with the environment. The optimal policy obtained by the DRL provides broader control scenarios for managing nonergodicity in the phase diagram as compared to, e.g., the specific protocol for Wannier-Stark localization. The continuous control protocols and observations are experimentally feasible. The model-free nature of DRL and its versatile search space for control functions render promising nonergodicity control in more complex quantum many-body systems.
翻訳日:2024-09-11 22:22:10 公開日:2024-09-09
# マルチエージェント強化学習におけるステートフル値分解について

On Stateful Value Factorization in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2408.15381v2 )

ライセンス: Link先を確認
Enrico Marchesini, Andrea Baisero, Rupali Bhati, Christopher Amato, (参考訳) バリューファクタライゼーションは、スケーラブルなマルチエージェント強化学習アルゴリズムを設計するための一般的なパラダイムである。 しかし、現在の因数分解法は、その性能を制限するような完全な正当化なしに選択する。 例えば、先行研究における理論はステートレス(履歴)関数を使用し、実践的な実装ではステート情報を使用します -- モチベーション理論を実装のミスマッチにします。また、メソッドは以前のアプローチから作り出され、アーキテクチャを継承します。これらの懸念に対処するために、現在のメソッドの履歴ではなく、ステートを使用する理論を正式に分析します。理論と実践を再接続します。 次にDuelMIXを導入する。DuelMIXは、各エージェント毎のユーティリティ推定器を学習し、性能を改善し、完全な表現性を実現する。 StarCraft IIのマイクロマネジメントとBox Pushingタスクの実験は、私たちの直感の利点を示しています。

Value factorization is a popular paradigm for designing scalable multi-agent reinforcement learning algorithms. However, current factorization methods make choices without full justification that may limit their performance. For example, the theory in prior work uses stateless (i.e., history) functions, while the practical implementations use state information -- making the motivating theory a mismatch for the implementation. Also, methods have built off of previous approaches, inheriting their architectures without exploring other, potentially better ones. To address these concerns, we formally analyze the theory of using the state instead of the history in current methods -- reconnecting theory and practice. We then introduce DuelMIX, a factorization algorithm that learns distinct per-agent utility estimators to improve performance and achieve full expressiveness. Experiments on StarCraft II micromanagement and Box Pushing tasks demonstrate the benefits of our intuitions.
翻訳日:2024-09-11 22:22:10 公開日:2024-09-09
# 遷移状態共鳴は62.09-101.67 meVエネルギー範囲におけるF + H2 -> F H(vf = 3) + H反応の角分布を急激に再現する

A transition state resonance radically reshapes angular distributions of the F + H2 -> F H(vf = 3) + H reaction in the 62.09-101.67 meV energy range ( http://arxiv.org/abs/2408.16134v2 )

ライセンス: Link先を確認
Dmitri Sokolovski, Dario De Fazio, Elena Akhmatskaya, (参考訳) ベンチマーク F + H2(vi = 0) -> F H(vf = 3) + H 反応の反応角分布は、小さな散乱角に対して異常な確率を示す。 状態-状態差分断断面に対する共振寄与の定量化にはReggeトラジェクトリを用いる。 複素エネルギー極への変換により、F+H2系やその同位体変種であるF+HDに存在することが知られている遷移状態共鳴にはほとんど影響しない。 角散乱の詳細な解析には,最近開発されたパッケージDCS Regge(Comp. Phys. Comm., 2022, 277, 108370)を用いる。

Reactive angular distributions of the benchmark F + H2(vi = 0) -> F H(vf = 3) + H reaction show unusual propensity towards small scattering angles, a subject of a long debate in the literature. We use Regge trajectories to quantify the resonance contributions to state-to-state differential cross sections. Conversion to complex energy poles allows us to attribute the effect almost exclusively to a transition state resonance, long known to exist in the F +H2 system and its isotopic variant F +HD. For our detailed analysis of angular scattering we employ the package DCS Regge, recently developed for the purpose [Comp. Phys. Comm., 2022, 277, 108370.]
翻訳日:2024-09-11 22:22:10 公開日:2024-09-09
# $\mathbb{USCD}$:不確実性を考慮した選択的コントラストデコーディングによるLLMのコード生成の改善

$\mathbb{USCD}$: Improving Code Generation of LLMs by Uncertainty-Aware Selective Contrastive Decoding ( http://arxiv.org/abs/2409.05923v1 )

ライセンス: Link先を確認
Shuai Wang, Liang Ding, Li Shen, Yong Luo, Zheng He, Wei Yu, Dacheng Tao, (参考訳) 大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。 しかし、幻覚(例えば出力ノイズ)の影響により、LLMが1パスで高品質なコードを生成することは特に困難である。 本研究では,LLMにおけるワンパスコード生成の品質向上と出力ノイズの影響を低減するため,単純で効果的な \textbf{u}ncertainty-aware \textbf{s}elective \textbf{c}ontrastive \textbf{d}ecoding ($\mathbb{USCD}$) 機構を提案する。 そこで我々はまず,入力出力例を標準ショットプロンプトから取り除き,ノイズを出力する負のプロンプト(すなわちラメプロンプト)を精巧に設計した。 本研究は,トークン分布の不確かさと出力雑音との間のJensen-Shannon分散(JS分散)が比較的低い(約0.25ドル)ことを示し,その関連性を示した。 そして、標準プロンプトからの予測分布の不確かさに基づいて、ラメプロンプトによって誘導される出力ノイズを選択的に除去する。 特に,提案するプラグアンドプレイ機構は推論のみの手法であり,優れた柔軟性を享受できる。 Inocder-6b, CodeLlama-7b, WizardCoder-15b, StarCoder, Llama2-7b などの LLM 上で,広く使用されているベンチマーク(eg , HumanEval, MBPP, MultiPL-E など)において,提案した USCD が 1 パスコード生成を大幅に改善し,平均 \textit{pass@$1$} スコアが 16.59 % になることを示した。 コードとデータはGitHubでリリースします。

Large language models (LLMs) have shown remarkable capabilities in code generation. However, the effects of hallucinations (e.g., output noise) make it particularly challenging for LLMs to generate high-quality code in one pass. In this work, we propose a simple and effective \textbf{u}ncertainty-aware \textbf{s}elective \textbf{c}ontrastive \textbf{d}ecoding ($\mathbb{USCD}$) mechanism to improve the quality of one-pass code generation in LLMs and reduce the impact of output noise. To be specific, we first elaborately designed a negative prompt (namely lame prompt) to output noise by removing input-output examples from the standard few-shot prompt. Our preliminary study shows that the Jensen-Shannon divergence (JS divergence) between token distribution uncertainty and the output noise is relatively low (approximately $0.25$), indicating their high relevance. Then, we selectively eliminate output noise induced by lame prompts based on the uncertainty of the prediction distribution from the standard prompt. Notably, our proposed plug-and-play mechanism is an inference-only method, enjoying appealing flexibility. Extensive experiments on widely used benchmarks, e.g., HumanEval, MBPP, and MultiPL-E, upon several LLMs (i.e., Inocder-6b, CodeLlama-7b, WizardCoder-15b, StarCoder, and Llama2-7b), demonstrate that our proposed USCD significantly improves one-pass code generation, with an average \textit{pass@$1$} scores increase of 16.59\%. We will release code and data on GitHub.
翻訳日:2024-09-11 22:10:02 公開日:2024-09-09
# 大規模言語モデルのSPARQL機能を評価する

Assessing SPARQL capabilities of Large Language Models ( http://arxiv.org/abs/2409.05925v1 )

ライセンス: Link先を確認
Lars-Peter Meyer, Johannes Frey, Felix Brei, Natanael Arndt, (参考訳) LLM(Large Language Models)とKG(Knowledge Graphs)の統合は、知識駆動アプリケーションにおいて大きなシナジスティックなポテンシャルを提供する。 統合可能な1つは、セマンティックウェブで使用されるような形式言語を解釈して生成することであり、SPARQLはKGにアクセスするための中核技術である。 本稿では,SPARQL と SPARQL SELECT を併用する LLM のアウト・オブ・ザ・ボックス能力の測定に焦点をあてる。 LLM-KG-Bench フレームワークに様々なベンチマークタスクを実装し,複数の LLM を用いた自動実行と評価を行った。 タスクは、構文、セマンティック・リード、セマンティック・クリエーション、そして知識グラフの役割に沿った機能を評価する。 この新しいベンチマークタスクにより、GPT、Gemini、Claudeモデルの選択を評価した。 この結果から,SPARQL SELECTクエリの処理はLLMでは依然として困難であり,タスクの複雑さだけでなく,特定のLLMにも大きく依存していることが示唆された。 基本的な構文エラーの修正は、現在評価されているLLMのベストには何の問題も生じないように見えるが、意味論的に正しいSPARQL SELECTクエリを作成することは、いくつかのケースでは難しい。

The integration of Large Language Models (LLMs) with Knowledge Graphs (KGs) offers significant synergistic potential for knowledge-driven applications. One possible integration is the interpretation and generation of formal languages, such as those used in the Semantic Web, with SPARQL being a core technology for accessing KGs. In this paper, we focus on measuring out-of-the box capabilities of LLMs to work with SPARQL and more specifically with SPARQL SELECT queries applying a quantitative approach. We implemented various benchmarking tasks in the LLM-KG-Bench framework for automated execution and evaluation with several LLMs. The tasks assess capabilities along the dimensions of syntax, semantic read, semantic create, and the role of knowledge graph prompt inclusion. With this new benchmarking tasks, we evaluated a selection of GPT, Gemini, and Claude models. Our findings indicate that working with SPARQL SELECT queries is still challenging for LLMs and heavily depends on the specific LLM as well as the complexity of the task. While fixing basic syntax errors seems to pose no problems for the best of the current LLMs evaluated, creating semantically correct SPARQL SELECT queries is difficult in several cases.
翻訳日:2024-09-11 21:59:49 公開日:2024-09-09
# SVFit:特異値を用いた大規模事前学習モデルのパラメータ効率の良い微調整

SVFit: Parameter-Efficient Fine-Tuning of Large Pre-Trained Models Using Singular Values ( http://arxiv.org/abs/2409.05926v1 )

ライセンス: Link先を確認
Chengwei Sun, Jiwei Wei, Yujia Wu, Yiming Shi, Shiyuan He, Zeyu Ma, Ning Xie, Yang Yang, (参考訳) 大規模事前学習モデル (LPM) は様々な自然言語処理やコンピュータビジョンタスクにおいて例外的な性能を示した。 しかし、これらのモデルを完全に微調整すると、特に資源制約のある環境では、かなりのメモリの問題が発生する。 LoRAのようなパラメータ効率のよい微細チューニング(PEFT)手法は、パラメータの小さなサブセットだけを調整することでこの問題を軽減する。 しかしながら、これらの手法は典型的には低ランク行列に対してランダム初期化を用い、勾配降下の非効率性や準最適開始点による一般化可能性の低下につながる。 これらの制約に対処するために,特異値分解(SVD)を利用した新しいPEFT手法であるSVFitを提案し,臨界特異値をトレーニング可能なパラメータとして低ランク行列を初期化する。 具体的には、SVFitは事前訓練された重み行列上でSVDを行い、最高のランク-r近似行列を得る。 これらのトップr特異値は、行列の基本部分空間をスケールするために訓練可能なパラメータとして使用され、素早い領域適応を促進する。 自然言語理解、テキスト・ツー・イメージ生成、画像分類タスクにおいて、様々な事前訓練されたモデルに対する広範な実験により、SVFitは16倍のトレーニング可能なパラメータを必要としながら、LoRAより優れていたことが判明した。

Large pre-trained models (LPMs) have demonstrated exceptional performance in diverse natural language processing and computer vision tasks. However, fully fine-tuning these models poses substantial memory challenges, particularly in resource-constrained environments. Parameter-efficient fine-tuning (PEFT) methods, such as LoRA, mitigate this issue by adjusting only a small subset of parameters. Nevertheless, these methods typically employ random initialization for low-rank matrices, which can lead to inefficiencies in gradient descent and diminished generalizability due to suboptimal starting points. To address these limitations, we propose SVFit, a novel PEFT approach that leverages singular value decomposition (SVD) to initialize low-rank matrices using critical singular values as trainable parameters. Specifically, SVFit performs SVD on the pre-trained weight matrix to obtain the best rank-r approximation matrix, emphasizing the most critical singular values that capture over 99% of the matrix's information. These top-r singular values are then used as trainable parameters to scale the fundamental subspaces of the matrix, facilitating rapid domain adaptation. Extensive experiments across various pre-trained models in natural language understanding, text-to-image generation, and image classification tasks reveal that SVFit outperforms LoRA while requiring 16 times fewer trainable parameters.
翻訳日:2024-09-11 21:59:49 公開日:2024-09-09
# 量子コンピューティングによるフラストレーション量子相転移の研究

Study on Frustrated Quantum Phase Transition Achievable by Quantum Computing ( http://arxiv.org/abs/2409.05927v1 )

ライセンス: Link先を確認
Zili Chen, (参考訳) 並列コンピューティングと絡み合い効果を持つ量子コンピュータは、暗号解析とビッグデータ処理に優れる。 しかし、まだ完全には開発されておらず、さらなる評価が必要である。 従来のコンピュータデータ、特に量子相転移のシミュレーションでは、参照には依然として必要である。 2次元フラストレーション格子系は量子相転移の研究のために選択できる。 現在、従来のコンピュータを用いたフラストレーション付き正方格子と三角形格子の研究において、六角格子の研究は限られている。 本論文は4部構成である。 第1部では、量子コンピュータの背景と量子相転移の概念を紹介し、六角格子における秩序パラメータの選択について述べる。 第2部では、量子モンテカルロアルゴリズムのアイデアを詳述している。 第3部では, 異なる横磁場が低温条件下での秩序パラメータに与える影響を探索し, 各種格子径の数値シミュレーションを行った。 第4部は、その結果を正方格子や三角形格子のものと、関連する理論的解析と比較し、さらに先を見据えたものである。

Quantum computers, with parallel computing and entanglement effects, excel in cryptography analysis and big data processing. However, they are not fully developed yet, and their performance needs further evaluation. Traditional computer data, especially in simulating quantum phase transitions, are still needed for reference. Two-dimensional frustrated lattice systems can be chosen for studying quantum phase transitions. Currently, significant progress has been made in the study of frustrated square and triangular lattices using traditional computers, while research on hexagonal lattices is limited. This paper consists of four parts. The first part introduces the background of quantum computers and the concept of quantum phase transitions, with the selection of order parameters in hexagonal lattices. The second part elaborates the ideas of the quantum Monte Carlo algorithm. The third part presents numerical simulations, exploring the impact of different transverse magnetic fields on order parameters under low-temperature conditions and showcasing results for various lattice sizes. The fourth part summarizes and looks ahead, comparing the results with those of square and triangular lattices as well as relevant theoretical analyses.
翻訳日:2024-09-11 21:59:49 公開日:2024-09-09
# 機械学習によるフィブリル接着剤の最適設計

Machine Learning Based Optimal Design of Fibrillar Adhesives ( http://arxiv.org/abs/2409.05928v1 )

ライセンス: Link先を確認
Mohammad Shojaeifard, Matteo Ferraresso, Alessandro Lucantonio, Mattia Bacca, (参考訳) 甲虫、クモ、ヤモリなどの動物で観察されるフィブリルの付着は、「接触分裂」によって表面の接着を強化するためにナノスコープや顕微鏡のフィブリルに依存している。 この概念は、ロボット工学、輸送学、医学における工学的応用に影響を与えた。 近年の研究では、フィブリル物性の官能的なグレーディングは接着性を向上させることが示唆されているが、これは簡易な測地でのみ検討された複雑な設計課題である。 機械学習(ML)は接着設計において注目を集めているが、これまでの試みではフィブリルアレイスケールの最適化を目標としていなかった。 本研究では,フィブリルコンプライアンスの分布を最適化し,接着強度を最大化するMLベースのツールを提案する。 2つのディープニューラルネットワーク(DNN)を特徴とする我々のツールは、単純なジオメトリのための以前の設計結果を復元し、複雑な構成のための新しいソリューションを導入する。 予測器DNNはランダムなコンプライアンス分布に基づいて接着強度を推定し、デザイナDNNは勾配に基づく最適化を用いて最大強度のコンプライアンスを最適化する。 本手法は, 試験誤差を大幅に低減し, 最適化プロセスの高速化を図り, 等荷重共有(ELS)を達成し, フィブリル接着剤と耐破壊性を目的としたマイクロ構造材料を設計するための高性能なソリューションを提供する。

Fibrillar adhesion, observed in animals like beetles, spiders, and geckos, relies on nanoscopic or microscopic fibrils to enhance surface adhesion via 'contact splitting.' This concept has inspired engineering applications across robotics, transportation, and medicine. Recent studies suggest that functional grading of fibril properties can improve adhesion, but this is a complex design challenge that has only been explored in simplified geometries. While machine learning (ML) has gained traction in adhesive design, no previous attempts have targeted fibril-array scale optimization. In this study, we propose an ML-based tool that optimizes the distribution of fibril compliance to maximize adhesive strength. Our tool, featuring two deep neural networks (DNNs), recovers previous design results for simple geometries and introduces novel solutions for complex configurations. The Predictor DNN estimates adhesive strength based on random compliance distributions, while the Designer DNN optimizes compliance for maximum strength using gradient-based optimization. Our method significantly reduces test error and accelerates the optimization process, offering a high-performance solution for designing fibrillar adhesives and micro-architected materials aimed at fracture resistance by achieving equal load sharing (ELS).
翻訳日:2024-09-11 21:59:49 公開日:2024-09-09
# Alt-MoE:一様モデルを用いた多方向MoEの交互最適化によるマルチモーダルアライメント

Alt-MoE: Multimodal Alignment via Alternating Optimization of Multi-directional MoE with Unimodal Models ( http://arxiv.org/abs/2409.05929v1 )

ライセンス: Link先を確認
Hongyang Lei, Xiaolong Cheng, Dan Wang, Qi Qin, Huazhen Huang, Yetao Wu, Qingqing Gu, Zhonglin Jiang, Yong Chen, Luo Ji, (参考訳) 近年のLarge Multi-Modal Models (LMM) は、既存の訓練済みユニモーダルモデルからの知識の表現と融合を容易にするために、軽量な接続モジュールを利用することにより、マルチモーダルアライメントにおいて大きな進歩を遂げている。 しかしながら、これらの手法はモダリティ固有のコネクタと方向固有のコネクタに依存しており、分割化された知識表現と計算効率の低下をもたらし、モデルが統一されたマルチモーダル表現を形成する能力を制限する。 これらの問題に対処するため、我々はAlt-MoEという新しいトレーニングフレームワークを導入し、Mixture of Experts (MoE) をモダリティにまたがる統一された多方向コネクターとして採用し、複数ステップの逐次的な一方向アライメント戦略を採用し、反復よりも双方向アライメントに収束する。 広範な実証研究により、以下の要点が明らかになった。 1)Alt-MoEは,ユニモーダルモデルから多様な知識表現を統合することで,競争的な結果を得る。 このアプローチは、既存の高性能ユニモーダルモデルの専門知識をシームレスに融合させ、ドメイン固有の知識を結合的なマルチモーダル表現に効果的に合成する。 2)Alt-MoEは、モデルアーキテクチャやトレーニング戦略を変更することなく、新しいタスクやモダリティに効率的にスケールする。 さらに、Alt-MoEは遅延空間で動作し、ベクトルプレストレージと軽量な多方向MoEによるリアルタイム検索をサポートし、大量のデータ処理を容易にする。 提案手法は,複数の一様モデル (LLAMA3, Qwen2, DINOv2) で検証され, 広範囲の下流タスクとデータセットで競合する結果を得た。

Recent Large Multi-Modal Models (LMMs) have made significant advancements in multi-modal alignment by employing lightweight connection modules to facilitate the representation and fusion of knowledge from existing pre-trained uni-modal models. However, these methods still rely on modality-specific and direction-specific connectors, leading to compartmentalized knowledge representations and reduced computational efficiency, which limits the model's ability to form unified multi-modal representations. To address these issues, we introduce a novel training framework, Alt-MoE, which employs the Mixture of Experts (MoE) as a unified multi-directional connector across modalities, and employs a multi-step sequential alternating unidirectional alignment strategy, which converges to bidirectional alignment over iterations. The extensive empirical studies revealed the following key points: 1) Alt-MoE achieves competitive results by integrating diverse knowledge representations from uni-modal models. This approach seamlessly fuses the specialized expertise of existing high-performance uni-modal models, effectively synthesizing their domain-specific knowledge into a cohesive multi-modal representation. 2) Alt-MoE efficiently scales to new tasks and modalities without altering its model architecture or training strategy. Furthermore, Alt-MoE operates in latent space, supporting vector pre-storage and real-time retrieval via lightweight multi-directional MoE, thereby facilitating massive data processing. Our methodology has been validated on several well-performing uni-modal models (LLAMA3, Qwen2, and DINOv2), achieving competitive results on a wide range of downstream tasks and datasets.
翻訳日:2024-09-11 21:59:49 公開日:2024-09-09
# eKANネットワークを用いたリアルタイム交通事故予測のための自己監視状態空間モデル

Self-Supervised State Space Model for Real-Time Traffic Accident Prediction Using eKAN Networks ( http://arxiv.org/abs/2409.05933v1 )

ライセンス: Link先を確認
Xin Tan, Meng Zhao, (参考訳) 交通事故の正確な予測は、公共の安全のために不可欠である。 しかし、既存の手法は2つの大きな課題に直面している。 1) 一般化: 現在のモデルは,POI分布や道路ネットワーク密度など,手動で構築されたマルチビュー構造に大きく依存している。 2) リアルタイム性能: 複雑なアーキテクチャでは精度が向上する手法もあるが,高い計算コストがかかり,適用性が制限される場合が多い。 これらの課題に対処するため,交通事故予測のための効率的な自己教師型フレームワークであるSSL-eKambaを提案する。 一般化を促進するために,時空間差認識による交通パターン表現を適応的に改善する2つの自己教師型補助タスクを設計する。 リアルタイムパフォーマンスのために,KANアーキテクチャを再設計する効率的なモデルであるeKambaを紹介する。 これは学習可能な単変量関数を入力活性化に使用し、選択的なメカニズム(選択SSM)を適用して多変量相関をキャプチャし、計算効率を向上させる。 2つの実世界のデータセットに対する大規模な実験は、SSL-eKambaが一貫して最先端のベースラインを上回っていることを示している。 このフレームワークは、他の時空間的なタスクに対して、新たな洞察を提供するかもしれない。 ソースコードはhttp://github.com/KevinT618/SSL-eKamba.comで公開されています。

Accurate prediction of traffic accidents across different times and regions is vital for public safety. However, existing methods face two key challenges: 1) Generalization: Current models rely heavily on manually constructed multi-view structures, like POI distributions and road network densities, which are labor-intensive and difficult to scale across cities. 2) Real-Time Performance: While some methods improve accuracy with complex architectures, they often incur high computational costs, limiting their real-time applicability. To address these challenges, we propose SSL-eKamba, an efficient self-supervised framework for traffic accident prediction. To enhance generalization, we design two self-supervised auxiliary tasks that adaptively improve traffic pattern representation through spatiotemporal discrepancy awareness. For real-time performance, we introduce eKamba, an efficient model that redesigns the Kolmogorov-Arnold Network (KAN) architecture. This involves using learnable univariate functions for input activation and applying a selective mechanism (Selective SSM) to capture multi-variate correlations, thereby improving computational efficiency. Extensive experiments on two real-world datasets demonstrate that SSL-eKamba consistently outperforms state-of-the-art baselines. This framework may also offer new insights for other spatiotemporal tasks. Our source code is publicly available at http://github.com/KevinT618/SSL-eKamba.
翻訳日:2024-09-11 21:59:49 公開日:2024-09-09
# ガウス過程におけるランダムウォークによる電力消費予測

Predicting Electricity Consumption with Random Walks on Gaussian Processes ( http://arxiv.org/abs/2409.05934v1 )

ライセンス: Link先を確認
Chloé Hashimoto-Cullen, Benjamin Guedj, (参考訳) 本稿では,データ不足や収集が困難,あるいは計算コストが不当な場合の時系列予測問題について考察する。 最初の試みとして、我々は、エネルギー供給者や公共の利害関係者にとって戦略的に重要なフランスの短期的な電力消費に焦点を当てる。 この問題の複雑さと多くの地理空間的粒度は、ガウス過程(GP)のアンサンブルの使用を動機付けている。 GPは目覚ましい予測器だが、訓練には計算コストがかかる。 データセット上でトレーニングされたGPのパフォーマンスを考慮し、これらのランダムウォークを設計することにより、ベイジアン意思決定手順全体のトレーニングコストを軽減することができる。 本稿では,<textsc{Domino} (ranDOM walk on gaussIaN prOcesses) というアルゴリズムを導入し,その利点を裏付ける数値実験を行った。

We consider time-series forecasting problems where data is scarce, difficult to gather, or induces a prohibitive computational cost. As a first attempt, we focus on short-term electricity consumption in France, which is of strategic importance for energy suppliers and public stakeholders. The complexity of this problem and the many levels of geospatial granularity motivate the use of an ensemble of Gaussian Processes (GPs). Whilst GPs are remarkable predictors, they are computationally expensive to train, which calls for a frugal few-shot learning approach. By taking into account performance on GPs trained on a dataset and designing a random walk on these, we mitigate the training cost of our entire Bayesian decision-making procedure. We introduce our algorithm called \textsc{Domino} (ranDOM walk on gaussIaN prOcesses) and present numerical experiments to support its merits.
翻訳日:2024-09-11 21:59:49 公開日:2024-09-09
# 単細胞転写プロファイルのための階層的新しいクラス発見

Hierarchical novel class discovery for single-cell transcriptomic profiles ( http://arxiv.org/abs/2409.05937v1 )

ライセンス: Link先を確認
Malek Senoussi, Thierry Artières, Paul Villoutreix, (参考訳) 単細胞転写学実験から生じる大きな課題の1つは、関連する単細胞転写学プロファイルにアノテートする方法である。 大規模なデータと高次元性のため、アノテーションの自動手法が必要である。 ここでは、分化過程が階層構造につながる発達生物学の文脈で得られたデータセットに焦点を当てる。 ラベル付きデータとラベルなしデータの両方がトレーニング時に利用できるが、ラベル付きデータのラベルと、ラベルなしデータのラベルのセットは相容れない。 これは新しいクラスディスカバリー問題の一例である。 目標は、データをクラスタ化し、クラスタをラベルでマッピングする、という2つの目標を達成することだ。 そこで我々は,k-MeansとGMMクラスタリング手法を拡張し,人工的および実験的な転写データセットの比較結果を報告する。 我々のアプローチはデータの階層的な性質を生かしている。

One of the major challenges arising from single-cell transcriptomics experiments is the question of how to annotate the associated single-cell transcriptomic profiles. Because of the large size and the high dimensionality of the data, automated methods for annotation are needed. We focus here on datasets obtained in the context of developmental biology, where the differentiation process leads to a hierarchical structure. We consider a frequent setting where both labeled and unlabeled data are available at training time, but the sets of the labels of labeled data on one side and of the unlabeled data on the other side, are disjoint. It is an instance of the Novel Class Discovery problem. The goal is to achieve two objectives, clustering the data and mapping the clusters with labels. We propose extensions of k-Means and GMM clustering methods for solving the problem and report comparative results on artificial and experimental transcriptomic datasets. Our approaches take advantage of the hierarchical nature of the data.
翻訳日:2024-09-11 21:59:49 公開日:2024-09-09
# DeepFM-Crispr:ディープラーニングによるCRISPRオンターゲット効果の予測

DeepFM-Crispr: Prediction of CRISPR On-Target Effects via Deep Learning ( http://arxiv.org/abs/2409.05938v1 )

ライセンス: Link先を確認
Condy Bao, Fuxiao Liu, (参考訳) CRISPR-Cas9は、短いRNAガイド配列を介して正確なゲノム改変を可能にする画期的な遺伝子編集技術であり、様々な分野においてこの技術のアクセシビリティと応用が顕著に増加した。 CRISPR-Cas9の成功はさらなる投資を刺激し、CRISPR-Cas13を含む他のCRISPRシステムの発見につながった。 DNAを標的とするCas9と異なり、Cas13はRNAを標的としており、遺伝子調節に特有の利点がある。 副次活性で知られているCas13dは、活性化時に隣接するRNA分子を非特異的に切断する変異体であり、その機能に重要な特徴である。 本稿では,Cas13dの目標外効果を予測・評価するために開発された新しいディープラーニングモデルであるDeepFM-Crisprを紹介する。 このモデルは大きな言語モデルを利用して、進化的および構造的データに富んだ包括的な表現を生成し、RNA二次構造の予測と全体的なsgRNAの有効性を高める。 変換器ベースのアーキテクチャは、これらの入力を処理し、予測評価スコアを生成する。 比較実験により、DeepFM-Crisprは従来のモデルを上回るだけでなく、予測精度と信頼性の観点から最近の最先端のディープラーニング手法よりも優れていることが示された。

Since the advent of CRISPR-Cas9, a groundbreaking gene-editing technology that enables precise genomic modifications via a short RNA guide sequence, there has been a marked increase in the accessibility and application of this technology across various fields. The success of CRISPR-Cas9 has spurred further investment and led to the discovery of additional CRISPR systems, including CRISPR-Cas13. Distinct from Cas9, which targets DNA, Cas13 targets RNA, offering unique advantages for gene modulation. We focus on Cas13d, a variant known for its collateral activity where it non-specifically cleaves adjacent RNA molecules upon activation, a feature critical to its function. We introduce DeepFM-Crispr, a novel deep learning model developed to predict the on-target efficiency and evaluate the off-target effects of Cas13d. This model harnesses a large language model to generate comprehensive representations rich in evolutionary and structural data, thereby enhancing predictions of RNA secondary structures and overall sgRNA efficacy. A transformer-based architecture processes these inputs to produce a predictive efficacy score. Comparative experiments show that DeepFM-Crispr not only surpasses traditional models but also outperforms recent state-of-the-art deep learning methods in terms of prediction accuracy and reliability.
翻訳日:2024-09-11 21:59:49 公開日:2024-09-09
# 変分量子固有解法における励起の高速勾配なし最適化

Fast gradient-free optimization of excitations in variational quantum eigensolvers ( http://arxiv.org/abs/2409.05939v1 )

ライセンス: Link先を確認
Jonas Jäger, Thierry Nicolas Kaldenbach, Max Haas, Erik Schultheis, (参考訳) 本稿では, 変動量子固有解法における一般的な選択である励起演算子で構成された物理動機付 ans\atze のための高速なグローバルインフォームド勾配最適化器 ExcitationSolve を紹介する。 ExcitationSolve は、Rotosolve のような量子認識やハイパーパラメータフリーのオプティマイザの拡張として分類され、G^2=I$, e g , rotations という形の生成子を持つパラメータ化されたユニタリ $G$ から、ユニタリ結合クラスタアプローチのような物理的に着想を得た励起演算子によって示されるより一般的なクラス $G^3=G$ に分類される。 ExcitationSolveは、勾配ベースのオプティマイザが単一更新ステップで要求するのと同じ量子リソースを使用して、各変分パラメータに沿ってグローバルな最適化を見つけることができる。 固定変分 ans\atze と適応変分 ans\atze の2つの最適化戦略と、複数励起演算子の同時選択と最適化のためのマルチパラメータ一般化を提供する。 最後に,分子系の電子状態エネルギー計算を行ない,変分量子アルゴリズムで一般的に用いられる最先端の最適化器より優れた性能を発揮することによるExcitationSolveの有用性を実証する。 平衡幾何学における全ての試験された分子の中で、ExcitationSolveは固定されたアンザッツのパラメータの1つのスイープにおいて化学的精度を著しく上回っている。 このスイープは1つの勾配降下ステップの量子回路実行のみを必要とする。 さらに、ExcitationSolveは、勾配ベースの適応アプローチよりも少ない演算子からなる適応型 ans\atze を実現し、回路実行時間を短縮する。

We introduce ExcitationSolve, a fast globally-informed gradient-free optimizer for physically-motivated ans\"atze constructed of excitation operators, a common choice in variational quantum eigensolvers. ExcitationSolve is to be classified as an extension of quantum-aware and hyperparameter-free optimizers such as Rotosolve, from parameterized unitaries with generators $G$ of the form $G^2=I$, e.g., rotations, to the more general class of $G^3=G$ exhibited by the physically-inspired excitation operators such as in the unitary coupled cluster approach. ExcitationSolve is capable of finding the global optimum along each variational parameter using the same quantum resources that gradient-based optimizers require for a single update step. We provide optimization strategies for both fixed- and adaptive variational ans\"atze, as well as a multi-parameter generalization for the simultaneous selection and optimization of multiple excitation operators. Finally, we demonstrate the utility of ExcitationSolve by conducting electronic ground state energy calculations of molecular systems and thereby outperforming state-of-the-art optimizers commonly employed in variational quantum algorithms. Across all tested molecules in their equilibrium geometry, ExcitationSolve remarkably reaches chemical accuracy in a single sweep over the parameters of a fixed ansatz. This sweep requires only the quantum circuit executions of one gradient descent step. In addition, ExcitationSolve achieves adaptive ans\"atze consisting of fewer operators than in the gradient-based adaptive approach, hence decreasing the circuit execution time.
翻訳日:2024-09-11 21:59:49 公開日:2024-09-09
# Rydberg Atom Graph Stateにおける計算次数パラメータのスケーリング

Scaling of Computational Order Parameters in Rydberg Atom Graph States ( http://arxiv.org/abs/2409.05941v1 )

ライセンス: Link先を確認
Zhangjie Qin, V. W. Scarola, (参考訳) グラフ状態は計算的に強力な量子状態であり、測定ベースの量子コンピューティング(MBQC)のリソース状態など多くの応用がある。 我々は、Rydberg原子量子アナログシミュレータ上でのグラフ状態の構成を実証する。 我々は、全てのRydberg原子をグラフ状態に同時に絡めるために、常にオンな相互作用が利用できることを示す。 クリフォード群における非局所測定に基づく論理演算を用いて,グラフ状態に対する多体計算次数パラメータの構築と実装を行う。 順序パラメータはエンタングルメントの有効性を測り、MBQCが任意の大きさのグラフ状態を許容する。 これらの順序パラメータの有限サイズスケーリングをパラメータ化する。 本結果は,量子デバイスにおける計算順序を効率的に構築し,テストするための経路を定義する。

Graph states are computationally powerful quantum states with many applications including use as resource states for measurement-based quantum computing (MBQC). We demonstrate construction of graph states on a Rydberg atom quantum analogue simulator. We show how an always-on interaction can be used to simultaneously entangle all Rydberg atoms into a graph state. We construct and implement many-body computational order parameters for graph states using non-local measurement-based logic operations in the Clifford group. The order parameters measure the efficacy of entanglement to allow MBQC on graph states of any size. We parameterize finite-size scaling of these order parameters. Our results define a route to efficiently build and test computational order in quantum devices.
翻訳日:2024-09-11 21:59:49 公開日:2024-09-09
# ゼロフラックスのローカライゼーション:魔法の発見

Zero Flux Localization: Magic Revealed ( http://arxiv.org/abs/2409.05942v1 )

ライセンス: Link先を確認
Alireza Parhizkar, Victor Galitski, (参考訳) フラットバンドは、離散的あるいは連続的な変換不変性を持つフィールド内を移動する量子粒子の空間的局在に対応する。 正準例は均一磁場における平坦ランダウ準位である。 モアレ構造中の平らなバンドを含むいくつかの重要な問題は、全磁束がゼロである不均一磁場中を移動する粒子の問題に関係している。 そのような場合、完全平坦なバンドは不可能であるが、全曲率ゼロのスピン場である「非アベリア成分」の導入は、完全局所化に繋がることを示した。 いくつかの厳密な解決可能なモデルが構築されている。 (i)鋭い1次元境界を持つ半空間アップダウンフィールド 二 シリンダー上の一方向を周期的に交互に上下する電場 三 トーラス上の2つの周期的な交互場 トーラス上の正確な解は楕円函数の項で表される。 フラットバンドは、個々のタイルを通して量子化されたフラックスに対応するフィールドの特定のマジック値に対してのみ可能であることが示されている。 これらの厳密な解は、モアレの材料における平らなバンドの基盤となる単純な構造を明らかにし、分数量子ホール状態の新たなクラスを構築するためのバネボードを提供する。

Flat bands correspond to the spatial localization of a quantum particle moving in a field with discrete or continuous translational invariance. The canonical example is the flat Landau levels in a homogeneous magnetic field. Several significant problems -- including flat bands in moir\'e structures -- are related to the problem of a particle moving in an inhomogeneous magnetic field with zero total flux. We demonstrate that while perfectly flat bands in such cases are impossible, the introduction of a "non-Abelian component" -- a spin field with zero total curvature -- can lead to perfect localization. Several exactly solvable models are constructed: (i) a half-space up/down field with a sharp 1D boundary; (ii) an alternating up/down field periodic in one direction on a cylinder; and (iii) a doubly periodic alternating field on a torus. The exact solution on the torus is expressed in terms of elliptic functions. It is shown that flat bands are only possible for certain magic values of the field corresponding to a quantized flux through an individual tile. These exact solutions clarify the simple structure underlying flat bands in moir\'e materials and provide a springboard for constructing a novel class of fractional quantum Hall states.
翻訳日:2024-09-11 21:59:49 公開日:2024-09-09
# 任意の大規模量子アルゴリズムのための資源効率を考慮した動的デカップリング埋め込み

Resource-efficient context-aware dynamical decoupling embedding for arbitrary large-scale quantum algorithms ( http://arxiv.org/abs/2409.05962v1 )

ライセンス: Link先を確認
Paul Coote, Roman Dimov, Smarak Maity, Gavin S. Hartnett, Michael J. Biercuk, Yuval Baum, (参考訳) 本稿では,動的デカップリング(DD)を実行可能量子アルゴリズムにリアルタイム,回路固有,最適に組み込むための効率的な方法であるGraphDDを紹介し実装する。 任意の量子回路に対して、GraphDDは、アイドル周期に埋め込まれた最小限の単一量子ビットゲートを使用しながら、準静的な1量子ビットのデフォーカスとクロストークのアイドリングエラーの両方を回路全体に正確に再焦点することを示した。 この方法は埋め込み問題のグラフ表現に依存しており、アイドル数と線形にスケールする代数計算を用いて最適な疎結合列を効率的に計算することができる。 これにより、キャリブレーションのオーバーヘッド、追加の回路実行、数値最適化なしに、回路コンパイル中に最適なDDを埋め込むことができる。 コンパイラのランタイムでは、特定のパルスシーケンスソリューションは個々の回路に合わせて調整され、回路構造やデバイス接続に関するコンテキスト情報の範囲を考慮する。 我々は,127量子ビットのIBMデバイス上で,GraphDDの回路レベルのエラー抑制機能を検証するとともに,GraphDDから得られる最適回路固有のDD埋め込みが,Qiskitで利用可能な標準埋め込み手法と比較して,測定回路の精度を大幅に向上することを示した。

We introduce and implement GraphDD: an efficient method for real-time, circuit-specific, optimal embedding of dynamical decoupling (DD) into executable quantum algorithms. We demonstrate that for an arbitrary quantum circuit, GraphDD exactly refocuses both quasi-static single-qubit dephasing and crosstalk idling errors over the entire circuit, while using a minimal number of additional single-qubit gates embedded into idle periods. The method relies on a graph representation of the embedding problem, where the optimal decoupling sequence can be efficiently calculated using an algebraic computation that scales linearly with the number of idles. This allows optimal DD to be embedded during circuit compilation, without any calibration overhead, additional circuit execution, or numerical optimization. The method is generic and applicable to any arbitrary circuit; in compiler runtime the specific pulse-sequence solutions are tailored to the individual circuit, and consider a range of contextual information on circuit structure and device connectivity. We verify the ability of GraphDD to deliver enhanced circuit-level error suppression on 127-qubit IBM devices, showing that the optimal circuit-specific DD embedding resulting from GraphDD provides orders of magnitude improvements to measured circuit fidelities compared with standard embedding approaches available in Qiskit.
翻訳日:2024-09-11 21:59:49 公開日:2024-09-09
# 量子電池からの近似第二法則とエネルギー抽出

Approximate second laws and energy extraction from quantum batteries ( http://arxiv.org/abs/2409.05971v1 )

ライセンス: Link先を確認
Debarupa Saha, Aparajita Bhattacharyya, Ujjwal Sen, (参考訳) 熱演算によるエネルギーの保存は、ハミルトニアン全体の演算を生成するユニタリの通勤によって保証される。 しかし現実的なシナリオでは、系の摂動や乱れは避けられず、それによって可換関係が変化し、従って従って \textbf{TO} が支配する物理過程に影響を及ぼす。 修正された演算セットを近似熱演算と呼びます。 \textbf{TO}$_\epsilon$ ここで$\epsilon$は乱れの度合いを表します。 このような操作の下で状態変換条件を提供し、近似第二法則と呼ばれるものを提供する。 系のハミルトニアンにおける十分な摂動が存在する場合、状態は、系の状態の対角的要素が互いにだけでなく、対角的要素とも話し合うように変換される。 平行して、対角要素は対角要素や他の対角要素と接続し始めるように変形する。 このようなクロストークは、未成熟の第2法則では認められない。 応用として、近似熱演算により量子電池から有限エルゴトロピーが抽出されうることを示す。

Conservation of energy under thermal operations, \textbf{TO}, is ensured by commutation of the unitary generating such operations with the total Hamiltonian. However in realistic scenarios, perturbations or disturbances in the system are unavoidable, which in turn may alter the commutation relation and hence in succession may affect the physical processes governed by \textbf{TO}. We call the altered set of operations as approximate thermal operations, \textbf{TO}$_\epsilon$, where $\epsilon$ denotes a degree of disturbance. We provide state transformation conditions under such operations, providing what can be referred to as approximate second laws. We show that in presence of feeble perturbations in the system's Hamiltonian, the states transform in such a way that diagonal elements of the system states start talking not only with each other but also with the off-diagonal elements. In parallel, the off-diagonal elements transform in a way such that they start connecting with diagonal elements and other off-diagonal elements. Such cross-talk is disallowed in the unperturbed second laws. As an application, we show that approximate thermal operations may lead to finite ergotropy extraction from quantum batteries, something that the exact ones are unable to.
翻訳日:2024-09-11 21:59:49 公開日:2024-09-09
# NLPのための小さな主張裁判所:小さなデータセットによる法的テキスト分類戦略の判断

A Small Claims Court for the NLP: Judging Legal Text Classification Strategies With Small Datasets ( http://arxiv.org/abs/2409.05972v1 )

ライセンス: Link先を確認
Mariana Yukari Noguti, Edduardo Vellasques, Luiz Eduardo Soares Oliveira, (参考訳) 言語モデリングの最近の進歩は、テキスト分類タスクにおけるラベル付きデータの必要性を著しく減らしている。 ラベルのないデータに基づいて事前トレーニングされたトランスフォーマーベースのモデルは、各タスクのスクラッチからトレーニングされたモデルのパフォーマンスを上回ります。 しかし、そのようなモデルの微調整に必要なラベル付きデータの量は、法的ドメインのような専門家レベルのアノテータを必要とするドメインにとっては、依然としてかなり高い。 本稿では,小ラベル付きデータセットと大量の未ラベルデータの使用を最適化するための最善策について検討し,50のトピックを予め定義した法域において分類処理を行う。 具体的には、ブラジルの検察官事務所に要求の記録を用いて、現在、手作業の記入に深い法的知識を必要とする被験者の1つに記述を割り当てることを目的としています。 このシナリオで分類器のパフォーマンスを最適化する作業は、ポルトガル語、特に法的領域で利用可能なリソースの少ないことを考えると、特に困難である。 以上の結果から,ロジスティック回帰やSVM,アンサンブルのランダム森林や勾配向上といった古典的教師付きモデルでは,BERT言語モデルと比較してワード2vecで抽出した埋め込みよりも優れた性能が得られた。 後者は、モデル自体のアーキテクチャを分類器として関連づけた優れた性能を示し、その点において以前のモデル全てを上回った。 最高の結果を得たUnsupervised Data Augmentation (UDA)は、BERT、データ拡張、半教師あり学習の戦略を共同で使用し、上記のタスクの精度は80.7%である。

Recent advances in language modelling has significantly decreased the need of labelled data in text classification tasks. Transformer-based models, pre-trained on unlabeled data, can outmatch the performance of models trained from scratch for each task. However, the amount of labelled data need to fine-tune such type of model is still considerably high for domains requiring expert-level annotators, like the legal domain. This paper investigates the best strategies for optimizing the use of a small labeled dataset and large amounts of unlabeled data and perform a classification task in the legal area with 50 predefined topics. More specifically, we use the records of demands to a Brazilian Public Prosecutor's Office aiming to assign the descriptions in one of the subjects, which currently demands deep legal knowledge for manual filling. The task of optimizing the performance of classifiers in this scenario is especially challenging, given the low amount of resources available regarding the Portuguese language, especially in the legal domain. Our results demonstrate that classic supervised models such as logistic regression and SVM and the ensembles random forest and gradient boosting achieve better performance along with embeddings extracted with word2vec when compared to BERT language model. The latter demonstrates superior performance in association with the architecture of the model itself as a classifier, having surpassed all previous models in that regard. The best result was obtained with Unsupervised Data Augmentation (UDA), which jointly uses BERT, data augmentation, and strategies of semi-supervised learning, with an accuracy of 80.7% in the aforementioned task.
翻訳日:2024-09-11 21:59:49 公開日:2024-09-09
# 位相非感受性操作によるコヒーレント状態の最適蒸留

Optimal Distillation of Coherent States with Phase-Insensitive Operations ( http://arxiv.org/abs/2409.05974v1 )

ライセンス: Link先を確認
Shiv Akshar Yadavalli, Iman Marvian, (参考訳) 光(または他のボソニック系)の複数のノイズコヒーレント状態のコピーを組み合わせることで、より低いノイズを持つ状態の単一モードが得られる。 一般相無感な操作下でのコヒーレントな熱状態からのコヒーレントな状態の蒸留について検討し、漸近的状態において最適である蒸留プロトコル、すなわち入力コピー数が1よりはるかに多い場合を求める。 注目すべきは、この状態において、出力状態の不完全性(1つの不完全性)と所望のコヒーレント状態とで定量化される誤差は、入力状態のコヒーレンス(RLD)の純度(右対数微分(RLD)フィッシャー情報量から得られる量)の逆数に比例し、その結果、この量の操作的解釈を明らかにすることである。 このプロトコルの心臓は、入力コヒーレント熱状態を高い振幅で最適に変換し、振幅と温度が著しく低い出力に変換する位相非感受性チャネルである。 この経路の下では、コヒーレンスの純度は漸近的に保存されている。 入力と所望の出力は共にガウス状態であるが、最適プロトコルはガウスチャネルにはならない。 ガウス位相非感受性チャネルのうち、最適蒸留プロトコルはビームスプリッターで実装できる単純な線形光学スキームである。

By combining multiple copies of noisy coherent states of light (or other bosonic systems), it is possible to obtain a single mode in a state with lesser noise, a process known as distillation or purification of coherent states. We investigate the distillation of coherent states from coherent thermal states under general phase-insensitive operations, and find a distillation protocol that is optimal in the asymptotic regime, i.e., when the number of input copies is much greater than 1. Remarkably, we find that in this regime, the error -- as quantified by infidelity (one minus the fidelity) of the output state with the desired coherent state -- is proportional to the inverse of the purity of coherence of the input state, a quantity obtained from the Right-Logarithmic-Derivative (RLD) Fisher information metric, hence revealing an operational interpretation of this quantity. The heart of this protocol is a phase-insensitive channel that optimally converts an input coherent thermal state with high amplitude, into an output with significantly lower amplitude and temperature. Under this channel, the purity of coherence remains asymptotically conserved. While both the input and desired output are Gaussian states, we find that the optimal protocol cannot be a Gaussian channel. Among Gaussian phase-insensitive channels, the optimal distillation protocol is a simple linear optical scheme that can be implemented with beam splitters.
翻訳日:2024-09-11 20:02:25 公開日:2024-09-09
# CoDiCast:不確かさ定量化による気象予測のための条件拡散モデル

CoDiCast: Conditional Diffusion Model for Weather Prediction with Uncertainty Quantification ( http://arxiv.org/abs/2409.05975v1 )

ライセンス: Link先を確認
Jimeng Shi, Bowen Jin, Jiawei Han, Giri Narasimhan, (参考訳) 正確な天気予報は科学と社会にとって重要である。 しかし、既存の手法は、高い精度、低い不確実性、高い計算効率を同時に持つことができていない。 一方,天気予報の不確かさを定量化するために,アンサンブル予測(多種多様な予測を生成する)の戦略がよく用いられる。 しかし、従来のアンサンブル数値天気予報(NWP)は計算集約的である。 一方、既存の機械学習ベースの天気予報(MLWP)アプローチは効率的で正確である。 それでも、それらは決定論的であり、天気予報の不確実性を捉えることはできない。 本研究では,正確なグローバル気象予報を生成するための条件拡散モデルであるCoDiCastを提案する。 鍵となるアイデアは、拡散モデルにおける逆偏極過程の条件付きバージョンをシミュレートすることであり、これは純粋なガウスノイズから始まり、将来の時点の現実的な天気シナリオを生成する。 各認知ステップは、近年の観測に基づいて条件付けされる。 アンサンブル予測は確率ガウス雑音からの繰り返しサンプリングによって達成され、不確かさの定量化を表す。 CoDiCastは欧州中距離気象予報センター(ECMWF)から10年間のERA5の再分析データに基づいて訓練されている。 実験の結果,提案手法は既存のデータ駆動手法よりも精度が高いことがわかった。 条件拡散モデルであるCoDiCastは、80GBメモリのコモディティA100 GPUマシンで、約12分で6時間ステップで5.625^\circ$°Cの3日間の天気予報を生成できる。 公開コードは \url{https://github.com/JimengShi/CoDiCast} で提供されている。

Accurate weather forecasting is critical for science and society. Yet, existing methods have not managed to simultaneously have the properties of high accuracy, low uncertainty, and high computational efficiency. On one hand, to quantify the uncertainty in weather predictions, the strategy of ensemble forecast (i.e., generating a set of diverse predictions) is often employed. However, traditional ensemble numerical weather prediction (NWP) is computationally intensive. On the other hand, most existing machine learning-based weather prediction (MLWP) approaches are efficient and accurate. Nevertheless, they are deterministic and cannot capture the uncertainty of weather forecasting. In this work, we propose CoDiCast, a conditional diffusion model to generate accurate global weather prediction, while achieving uncertainty quantification with ensemble forecasts and modest computational cost. The key idea is to simulate a conditional version of the reverse denoising process in diffusion models, which starts from pure Gaussian noise to generate realistic weather scenarios for a future time point. Each denoising step is conditioned on observations from the recent past. Ensemble forecasts are achieved by repeatedly sampling from stochastic Gaussian noise to represent uncertainty quantification. CoDiCast is trained on a decade of ERA5 reanalysis data from the European Centre for Medium-Range Weather Forecasts (ECMWF). Experimental results demonstrate that our approach outperforms several existing data-driven methods in accuracy. Our conditional diffusion model, CoDiCast, can generate 3-day global weather forecasts, at 6-hour steps and $5.625^\circ$ latitude-longitude resolution, for over 5 variables, in about 12 minutes on a commodity A100 GPU machine with 80GB memory. The open-souced code is provided at \url{https://github.com/JimengShi/CoDiCast}.
翻訳日:2024-09-11 20:02:25 公開日:2024-09-09
# FLoRA:不均一な低ランク適応を伴うファインチューニング大言語モデル

FLoRA: Federated Fine-Tuning Large Language Models with Heterogeneous Low-Rank Adaptations ( http://arxiv.org/abs/2409.05976v1 )

ライセンス: Link先を確認
Ziyao Wang, Zheyu Shen, Yexiao He, Guoheng Sun, Hongyi Wang, Lingjuan Lyu, Ang Li, (参考訳) 大規模言語モデル(LLM)の急速な開発はAIの進歩において重要な役割を担い、訓練済みのLLMは微調整によって様々な下流タスクに適応できる。 フェデレートラーニング(FL)は、クライアントのローカルデータをその場で計算することで、データ移動の必要性をなくし、プライバシーに配慮した微調整をさらに強化する。 しかし、その膨大なパラメータを考慮に入れた微調整 LLM は、FL に制約のある異種リソースを持つクライアントに対して課題を提起する。 従来はローランク適応 (LoRA) をフェデレートファインチューニングに用いていたが, 従来のFLアグリゲーション戦略をLoRAアダプタに用いた。 これらのアプローチにより、数学的に不正確な集約ノイズが発生し、微調整効率が低下し、不均一なLoRAに対処できなかった。 本研究では,既存のファインチューニング手法におけるLoRAアグリゲーションの数学的誤りを最初に強調する。 我々はFLORAと呼ばれる新しい手法を導入し、新しいスタックリングベースのアグリゲーション手法により、クライアント間で不均一なLoRAアダプタをフェデレートした微調整を可能にする。 我々のアプローチはノイズフリーであり、ヘテロジニアスなLoRAアダプタをシームレスにサポートしています。 広汎な実験により、FLORAは均一性および異種性の両方で優れた性能を示し、最先端の手法を超越している。 我々は,LLMの効率的な,プライバシー保護,高精度なファインタニングのためのマイルストーンとして,この作業が期待されている。 私たちのコードはhttps://github.com/ATP-1010/FederatedLLM.comで利用可能です。

The rapid development of Large Language Models (LLMs) has been pivotal in advancing AI, with pre-trained LLMs being adaptable to diverse downstream tasks through fine-tuning. Federated learning (FL) further enhances fine-tuning in a privacy-aware manner by utilizing clients' local data through in-situ computation, eliminating the need for data movement. However, fine-tuning LLMs, given their massive scale of parameters, poses challenges for clients with constrained and heterogeneous resources in FL. Previous methods employed low-rank adaptation (LoRA) for efficient federated fine-tuning but utilized traditional FL aggregation strategies on LoRA adapters. These approaches led to mathematically inaccurate aggregation noise, reducing fine-tuning effectiveness and failing to address heterogeneous LoRAs. In this work, we first highlight the mathematical incorrectness of LoRA aggregation in existing federated fine-tuning methods. We introduce a new approach called FLORA that enables federated fine-tuning on heterogeneous LoRA adapters across clients through a novel stacking-based aggregation method. Our approach is noise-free and seamlessly supports heterogeneous LoRA adapters. Extensive experiments demonstrate FLORA' s superior performance in both homogeneous and heterogeneous settings, surpassing state-of-the-art methods. We envision this work as a milestone for efficient, privacy-preserving, and accurate federated fine-tuning of LLMs. Our code is available at https://github.com/ATP-1010/FederatedLLM.
翻訳日:2024-09-11 20:02:25 公開日:2024-09-09
# 数学の数学的形式化問題解法とリーン4の異なる分野における定理証明のためのAI

AI for Mathematics Mathematical Formalized Problem Solving and Theorem Proving in Different Fields in Lean4 ( http://arxiv.org/abs/2409.05977v1 )

ライセンス: Link先を確認
Xichen Tang, (参考訳) 数学の定理を証明するために、Lean 4のようなコンピュータで検証可能な形式言語を使うことは、数学的形式化に大きな影響を与える。 リーン4は、数学的推論を前進させる大きな可能性を提供します。 しかし、既存の取り組みは、実質的なオンラインコーパスにおける数学的形式化言語に限られており、急速に進化する言語とのペースを維持することに専念している。 従来の証明と計算機化された証明のギャップを埋めるために、私の定理証明へのアプローチは、自然言語(NL)の証明に基づいたLarge Language Models(LLM)を用いて形式的なステップと完全証明を生成することである。 この方法は、基本構造と戦術を一般に導入し、AIが数学的形式化プロセスをどのように支援し、その性能を改善するかを決定し、IMOを中心にしてNLと比較したLean 4の問題解決の例と抽象代数学で証明されたサンプル定理を提示する。

Using computerized verifiable formal languages like Lean 4 to prove mathematical theorems has a significant impact on mathematical formalization. Lean 4 offers prominent potential for advancing mathematical reasoning. However, existing efforts are limited to mathematical formalization languages in substantial online corpora and are dedicated to keeping pace with rapidly evolving languages. To bridge the gap between the traditional and computerized proof, my approach to formalizing theorem proving involves generating formal steps and complete proofs using Large Language Models (LLMs) based on Natural Language (NL) proofs. The method is to introduce the basic structure and tactics in general, determine how AI can assist the mathematical formalization process to improve its performance, and give examples of solving problems in Lean 4 comparing to NL, mainly in IMO, and a sample theorem proving in abstract algebra.
翻訳日:2024-09-11 20:02:25 公開日:2024-09-09
# グラフトリガーによるブリジングとレストレスバンド:上昇と回転

Bridging Rested and Restless Bandits with Graph-Triggering: Rising and Rotting ( http://arxiv.org/abs/2409.05980v1 )

ライセンス: Link先を確認
Gianmarco Genalti, Marco Mussi, Nicola Gatti, Marcello Restelli, Matteo Castiglioni, Alberto Maria Metelli, (参考訳) Rested and Restless Banditsは、2つのよく知られたバンディット設定で、現実のシーケンシャルな意思決定問題をモデル化するのに役立ちます。 本研究では,グラフトリガーバンド(GTB)を提案する。これは安静時および安静時バンディットを一般化・拡張するための統合フレームワークである。 この設定では、腕の期待される報酬の進化は、腕の上に定義されたグラフによって制御される。 一対のアーム(i,j)$を接続するエッジは、アーム$i$がアーム$j$の進化を引き起こし、その逆も引き起こすという事実を表している。 興味深いことに、レストとレストレスのバンディットはどちらも、適切な(生成された)グラフに対する我々のモデルの特別なケースである。 この設定に関する関連するケーススタディとして、我々は2つの特定のモノトニック・バンディットに焦点を当てる:立ち上がり、腕の期待される報酬が増加するとトリガーの数が増えると増加し、反対の振る舞いが起こると腐る。 これらの場合、最適政策について検討する。 我々は,全てのシナリオに適切なアルゴリズムを提供し,それらの理論的保証について議論し,基礎となるグラフ構造の特定の特性を符号化するインスタンス依存項に関する学習問題の複雑さを強調した。

Rested and Restless Bandits are two well-known bandit settings that are useful to model real-world sequential decision-making problems in which the expected reward of an arm evolves over time due to the actions we perform or due to the nature. In this work, we propose Graph-Triggered Bandits (GTBs), a unifying framework to generalize and extend rested and restless bandits. In this setting, the evolution of the arms' expected rewards is governed by a graph defined over the arms. An edge connecting a pair of arms $(i,j)$ represents the fact that a pull of arm $i$ triggers the evolution of arm $j$, and vice versa. Interestingly, rested and restless bandits are both special cases of our model for some suitable (degenerated) graph. As relevant case studies for this setting, we focus on two specific types of monotonic bandits: rising, where the expected reward of an arm grows as the number of triggers increases, and rotting, where the opposite behavior occurs. For these cases, we study the optimal policies. We provide suitable algorithms for all scenarios and discuss their theoretical guarantees, highlighting the complexity of the learning problem concerning instance-dependent terms that encode specific properties of the underlying graph structure.
翻訳日:2024-09-11 20:02:25 公開日:2024-09-09
# クロスモーダル合成の強化:MRI-CT変換のためのサブボリュームマージ

Enhancing Cross-Modality Synthesis: Subvolume Merging for MRI-to-CT Conversion ( http://arxiv.org/abs/2409.05982v1 )

ライセンス: Link先を確認
Fuxin Fan, Jingna Qiu, Yixing Huang, Andreas Maier, (参考訳) より正確な組織減衰情報を提供するため、MRI(MRI)から発生する合成CT(sCT)は放射線治療計画の改善に寄与する。 本研究では,MRI画像からCTを合成するために,高度なSwinUNETRフレームワークを用いた。 さらに,予測過程に3次元サブボリュームマージ手法を導入する。 隣接するサブボリュームに対して最適な重複率を選択することにより、縫合アーティファクトを効果的に緩和し、sCTとラベル間の平均絶対誤差(MAE)を52.65HUから47.75HUに減少させる。 さらに、ガンマ値0.9の重み関数を実装すると、同じ重なり領域内で最低のMAEが得られる。 50%から70%のオーバーラップ率を設定することにより、画像品質と計算効率のバランスをとることができる。

Providing more precise tissue attenuation information, synthetic computed tomography (sCT) generated from magnetic resonance imaging (MRI) contributes to improved radiation therapy treatment planning. In our study, we employ the advanced SwinUNETR framework for synthesizing CT from MRI images. Additionally, we introduce a three-dimensional subvolume merging technique in the prediction process. By selecting an optimal overlap percentage for adjacent subvolumes, stitching artifacts are effectively mitigated, leading to a decrease in the mean absolute error (MAE) between sCT and the labels from 52.65 HU to 47.75 HU. Furthermore, implementing a weight function with a gamma value of 0.9 results in the lowest MAE within the same overlap area. By setting the overlap percentage between 50% and 70%, we achieve a balance between image quality and computational efficiency.
翻訳日:2024-09-11 20:02:25 公開日:2024-09-09
# 高度化と微細化:UAV検出・分類技術の進化

Advance and Refinement: The Evolution of UAV Detection and Classification Technologies ( http://arxiv.org/abs/2409.05985v1 )

ライセンス: Link先を確認
Vladislav Semenyuk, Ildar Kurmashev, Alberto Lupidi, Dmitriy Alyoshin, Liliya Kurmasheva, Alessandro Cantelli-Forti, (参考訳) このレビューでは、2020年から今日までの無人航空機(UAV)の検出・分類システムの進歩を詳細に分析する。 レーダー、無線周波数、光学、音響センサーなどの様々な検出手法を網羅し、高度なセンサー融合技術による統合を強調している。 UAV検出と分類を駆動する基本技術は、その精度と範囲に焦点をあてて、徹底的に検討されている。 さらに、人工知能と機械学習の最新の技術革新について論じ、これらのシステムの精度と効率を改善する上での彼らの影響について説明する。 このレビューは、UAV検出におけるさらなる技術的発展を予測し、性能と信頼性の両方を高めることが期待されている。

This review provides a detailed analysis of the advancements in unmanned aerial vehicle (UAV) detection and classification systems from 2020 to today. It covers various detection methodologies such as radar, radio frequency, optical, and acoustic sensors, and emphasizes their integration via sophisticated sensor fusion techniques. The fundamental technologies driving UAV detection and classification are thoroughly examined, with a focus on their accuracy and range. Additionally, the paper discusses the latest innovations in artificial intelligence and machine learning, illustrating their impact on improving the accuracy and efficiency of these systems. The review concludes by predicting further technological developments in UAV detection, which are expected to enhance both performance and reliability.
翻訳日:2024-09-11 20:02:25 公開日:2024-09-09
# ダークマター探索のためのトランスモン量子ビットモデリングとキャラクタリゼーション

Transmon qubit modeling and characterization for Dark Matter search ( http://arxiv.org/abs/2409.05988v1 )

ライセンス: Link先を確認
R. Moretti, D. Labranca, P. Campana, R. Carobene, M. Gobbo, M. A. Castellanos-Beltran, D. Olaya, P. F. Hopkins, L. Banchi, M. Borghesi, A. Candido, H. A. Corti, A. D'Elia, M. Faverzani, E. Ferri, A. Nucciotti, L. Origo, A. Pasquale, A. S. Piedjou Komnang, A. Rettaroli, S. Tocci, S. Carrazza, C. Gatti, A. Giachero, (参考訳) 本研究では, 超伝導トランスモン量子ビット回路の試作機の設計, シミュレーション, 実験評価を行い, ダークマター検出実験への応用の可能性について検討した。 本稿では,2つの非干渉トランスモン量子ビットと1つの固定周波数,もう1つの磁束を調整可能な平面回路設計について述べる。 有限要素シミュレーションを用いて重要なハミルトンパラメータを抽出し、成分ジオメトリを最適化した。 キュービットは20ドルmKで製造され、シミュレーションと測定されたキュービットパラメータの比較を可能にした。 遷移周波数と非調和性(それぞれ 1 % と 10 % )についてはよい一致を示したが,結合強度は30 % の差を示した。 我々は、測定されたコヒーレンス時間が期待を下回る可能性について論じる(T_1\sim\,$1-2 \textmu s)。 特に,エネルギー参加率評価のためのハイブリッド3D-2Dシミュレーション手法の適用例を示し,誘電体損失のより正確な推定を行った。 本研究は, 暗黒物質探索のための平面量子非破壊(QND)単一光子カウンタの開発における重要な第一歩である。

This study presents the design, simulation, and experimental characterization of a superconducting transmon qubit circuit prototype for potential applications in dark matter detection experiments. We describe a planar circuit design featuring two non-interacting transmon qubits, one with fixed frequency and the other flux tunable. Finite-element simulations were employed to extract key Hamiltonian parameters and optimize component geometries. The qubit was fabricated and then characterized at $20$ mK, allowing for a comparison between simulated and measured qubit parameters. Good agreement was found for transition frequencies and anharmonicities (within 1\% and 10\% respectively) while coupling strengths exhibited larger discrepancies (30\%). We discuss potential causes for measured coherence times falling below expectations ($T_1\sim\,$1-2 \textmu s) and propose strategies for future design improvements. Notably, we demonstrate the application of a hybrid 3D-2D simulation approach for energy participation ratio evaluation, yielding a more accurate estimation of dielectric losses. This work represents an important first step in developing planar Quantum Non-Demolition (QND) single-photon counters for dark matter searches, particularly for axion and dark photon detection schemes.
翻訳日:2024-09-11 20:02:25 公開日:2024-09-09
# 脳波アルツハイマー病データの分類におけるANNとkanの総合的比較

A Comprehensive Comparison Between ANNs and KANs For Classifying EEG Alzheimer's Data ( http://arxiv.org/abs/2409.05989v1 )

ライセンス: Link先を確認
Akshay Sunkara, Sriram Sattiraju, Aakarshan Kumar, Zaryab Kanjiani, Himesh Anumala, (参考訳) アルツハイマー病 (Alzheimer's Disease) は、世界中の何千人もの人に影響を及ぼす不治の認知疾患である。 アルツハイマー病の診断法はいくつか存在するが、これらの方法の多くは初期の段階ではアルツハイマー病を検出できない。 近年、アルツハイマー病の診断に脳波(EEG)技術を用いることが研究されている。 脳波は脳の電気信号を記録する非侵襲的な方法であり、脳波データはアルツハイマー病患者と非アルツハイマー病患者の間で明確な差異を示している。 過去には、脳波データからアルツハイマー病を予測するために人工ニューラルネットワーク(ANN)が用いられてきたが、これらのモデルによって偽陽性の診断が生じることがある。 本研究の目的は、ANNとKAN(Kolmogorov-Arnold Networks)の損失を、複数のタイプのエポック、学習率、ノード間で比較することである。 その結果、ANNは脳波信号からアルツハイマー病を予測するのにより正確であることが判明した。

Alzheimer's Disease is an incurable cognitive condition that affects thousands of people globally. While some diagnostic methods exist for Alzheimer's Disease, many of these methods cannot detect Alzheimer's in its earlier stages. Recently, researchers have explored the use of Electroencephalogram (EEG) technology for diagnosing Alzheimer's. EEG is a noninvasive method of recording the brain's electrical signals, and EEG data has shown distinct differences between patients with and without Alzheimer's. In the past, Artificial Neural Networks (ANNs) have been used to predict Alzheimer's from EEG data, but these models sometimes produce false positive diagnoses. This study aims to compare losses between ANNs and Kolmogorov-Arnold Networks (KANs) across multiple types of epochs, learning rates, and nodes. The results show that across these different parameters, ANNs are more accurate in predicting Alzheimer's Disease from EEG signals.
翻訳日:2024-09-11 20:02:25 公開日:2024-09-09
# FairHome:フェアハウジングとフェアレンディングのデータセット

FairHome: A Fair Housing and Fair Lending Dataset ( http://arxiv.org/abs/2409.05990v1 )

ライセンス: Link先を確認
Anusha Bagalkotkar, Aveek Karmakar, Gabriel Arnson, Ondrej Linda, (参考訳) フェアハウジングとフェアレンディングのデータセット(FairHome):9つの保護されたカテゴリで約75,000のサンプルを持つデータセット。 当社の知る限りでは、FairHomeは、住宅ドメインにおけるコンプライアンスリスクのためにバイナリラベルでラベル付けされた最初の公開データセットです。 実店舗取引の文脈で大規模言語モデル(LLM)を用いた場合,分類器を訓練し,潜在的な違反を検出することによって,そのようなデータセットの有用性と有効性を示す。 我々は,GPT-3.5,GPT-4,LLaMA-3,Mistral Largeといった最先端のLCMに対して,ゼロショットと少数ショットの両文脈でトレーニングした分類器をベンチマークした。 我々の分類器はF1スコア0.91で優れており、データセットの有効性を裏付けている。

We present a Fair Housing and Fair Lending dataset (FairHome): A dataset with around 75,000 examples across 9 protected categories. To the best of our knowledge, FairHome is the first publicly available dataset labeled with binary labels for compliance risk in the housing domain. We demonstrate the usefulness and effectiveness of such a dataset by training a classifier and using it to detect potential violations when using a large language model (LLM) in the context of real-estate transactions. We benchmark the trained classifier against state-of-the-art LLMs including GPT-3.5, GPT-4, LLaMA-3, and Mistral Large in both zero-shot and few-shot contexts. Our classifier outperformed with an F1-score of 0.91, underscoring the effectiveness of our dataset.
翻訳日:2024-09-11 20:02:25 公開日:2024-09-09
# MessIRve: 大規模なスペイン情報検索データセット

MessIRve: A Large-Scale Spanish Information Retrieval Dataset ( http://arxiv.org/abs/2409.05994v1 )

ライセンス: Link先を確認
Francisco Valentini, Viviana Cotik, Damián Furman, Ivan Bercovich, Edgar Altszyler, Juan Manuel Pérez, (参考訳) 情報検索(英語: Information Search, IR)とは、ユーザの問い合わせに応じて関連文書を検索するタスクである。 スペイン語は2番目に話されているネイティブ言語であるが、現在のIRベンチマークにはスペイン語のデータがないため、スペイン語話者のための情報アクセスツールの開発が妨げられている。 MessIRveは、GoogleのオートコンプリートAPIから約730万のクエリと、Wikipediaからソースされた関連ドキュメントを備えた、大規模なスペインのIRデータセットである。 MessIRveのクエリは、英語から翻訳されたり、方言のバリエーションを考慮していない他のデータセットとは異なり、多様なスペイン語圏を反映している。 データセットの大きなサイズは、小さなデータセットとは異なり、さまざまなトピックをカバーすることができる。 我々は、データセットの包括的記述、既存のデータセットとの比較、顕著なIRモデルのベースライン評価を提供する。 我々のコントリビューションは、スペインのIR研究を推進し、スペイン語話者の情報アクセスを改善することを目的としている。

Information retrieval (IR) is the task of finding relevant documents in response to a user query. Although Spanish is the second most spoken native language, current IR benchmarks lack Spanish data, hindering the development of information access tools for Spanish speakers. We introduce MessIRve, a large-scale Spanish IR dataset with around 730 thousand queries from Google's autocomplete API and relevant documents sourced from Wikipedia. MessIRve's queries reflect diverse Spanish-speaking regions, unlike other datasets that are translated from English or do not consider dialectal variations. The large size of the dataset allows it to cover a wide variety of topics, unlike smaller datasets. We provide a comprehensive description of the dataset, comparisons with existing datasets, and baseline evaluations of prominent IR models. Our contributions aim to advance Spanish IR research and improve information access for Spanish speakers.
翻訳日:2024-09-11 20:02:25 公開日:2024-09-09
# ラベルのないデータキャリブレーションと相関のシフトに適応する

Adapting to Shifting Correlations with Unlabeled Data Calibration ( http://arxiv.org/abs/2409.05996v1 )

ライセンス: Link先を確認
Minh Nguyen, Alan Q. Wang, Heejong Kim, Mert R. Sabuncu, (参考訳) サイト間の分散シフトは、不安定な相関を利用する傾向にあるため、モデル性能を著しく低下させる可能性がある。 したがって、多くの手法は、サイト全体で安定な機能を見つけ、不安定な機能を捨てようとする。 しかし、不安定な特徴は相補的な情報を持ち、適切に使用すれば精度が向上する可能性がある。 より最近の手法では、新しい場所で不安定な特徴に適応し、より高い精度を達成しようとしている。 しかし、それらは非現実的な仮定をするか、複数の相反する特徴にスケールできない。 本稿では,モデル予測を予測対象と共同設立者間のシフト相関に適応させ,不安定な特徴を安全に活用するフレキシブルな手法である一般事前調整(GPA)を提案する。 GPAは、これらのサイトからの未ラベルのサンプルを使用して、新しいサイトのターゲットと共同創設者の相互作用を推測することができる。 我々は,複数の実・合成データセット上でGPAを評価し,競争ベースラインを上回っていることを示す。

Distribution shifts between sites can seriously degrade model performance since models are prone to exploiting unstable correlations. Thus, many methods try to find features that are stable across sites and discard unstable features. However, unstable features might have complementary information that, if used appropriately, could increase accuracy. More recent methods try to adapt to unstable features at the new sites to achieve higher accuracy. However, they make unrealistic assumptions or fail to scale to multiple confounding features. We propose Generalized Prevalence Adjustment (GPA for short), a flexible method that adjusts model predictions to the shifting correlations between prediction target and confounders to safely exploit unstable features. GPA can infer the interaction between target and confounders in new sites using unlabeled samples from those sites. We evaluate GPA on several real and synthetic datasets, and show that it outperforms competitive baselines.
翻訳日:2024-09-11 20:02:25 公開日:2024-09-09
# TransformerRanker: 下流の分類タスクに最適な言語モデルを見つけるためのツール

TransformerRanker: A Tool for Efficiently Finding the Best-Suited Language Models for Downstream Classification Tasks ( http://arxiv.org/abs/2409.05997v1 )

ライセンス: Link先を確認
Lukas Garbas, Max Ploner, Alan Akbik, (参考訳) NLPの分類タスクは、通常、モデルハブから事前訓練された言語モデル(PLM)を選択し、手元のタスクのために微調整することで対処される。 しかし、現在利用可能な非常に多くのPLMを考えると、どのPLMが特定の下流タスクに最適な性能を発揮するかを決定するのが現実的な課題である。 本稿では,計算コストのかかる微調整を必要とせず,分類タスクのPLMを効率的にランク付けする軽量ライブラリであるTransformerRankerを紹介する。 提案ライブラリは,転送可能性推定(LogME, H-Score, kNN)とレイヤ集約オプションを組み合わせることで,PLMの最先端ランキング(Garbas et al , 2024)を実証的に提示する。 私たちは、軽量で使いやすいインターフェースを設計し、ユーザがHuggingFace TransformersやDatasetライブラリに直接接続できるようにしました。 ユーザは、ダウンストリームの分類タスクと PLM のリストのみを選択して、タスクに最も適しているであろう PLM のランキングを作成する必要がある。 TransformerRankerは、pipインストール可能なオープンソースライブラリhttps://github.com/flairNLP/transformer-rankerとして利用可能です。

Classification tasks in NLP are typically addressed by selecting a pre-trained language model (PLM) from a model hub, and fine-tuning it for the task at hand. However, given the very large number of PLMs that are currently available, a practical challenge is to determine which of them will perform best for a specific downstream task. With this paper, we introduce TransformerRanker, a lightweight library that efficiently ranks PLMs for classification tasks without the need for computationally costly fine-tuning. Our library implements current approaches for transferability estimation (LogME, H-Score, kNN), in combination with layer aggregation options, which we empirically showed to yield state-of-the-art rankings of PLMs (Garbas et al., 2024). We designed the interface to be lightweight and easy to use, allowing users to directly connect to the HuggingFace Transformers and Dataset libraries. Users need only select a downstream classification task and a list of PLMs to create a ranking of likely best-suited PLMs for their task. We make TransformerRanker available as a pip-installable open-source library https://github.com/flairNLP/transformer-ranker.
翻訳日:2024-09-11 20:02:25 公開日:2024-09-09
# より強力な誘導によるセマンティックセグメンテーションのための生成データ強化

Enhanced Generative Data Augmentation for Semantic Segmentation via Stronger Guidance ( http://arxiv.org/abs/2409.06002v1 )

ライセンス: Link先を確認
Quang-Huy Che, Duc-Tri Le, Vinh-Tiep Nguyen, (参考訳) データ拡張は、セマンティックセグメンテーションのようなラベル付きデータを必要とするタスクのためのトレーニングデータを作成するために広く使用されるテクニックである。 この方法は、多くの労力と集中的な労力を必要とする画素単位のアノテーションタスクに役立ちます。 従来のデータ拡張方法は、回転やフリップのような単純な変換を伴って、既存のものから新しいイメージを生成する。 しかし、これらの新しい画像はデータの主セマンティック軸に沿って多様性が欠如し、高レベルのセマンティック特性が変化しない可能性がある。 この問題に対処するために、生成モデルは、合成画像を生成してデータを増強するための有効なソリューションとして登場した。 制御可能な生成モデルは、元の画像からのプロンプトと視覚的参照を使用して、セマンティックセグメンテーションタスクのためのデータを増やす方法を提供する。 しかし、これらのモデルを使用することで、効果的なプロンプトと視覚的参照を作成し、オリジナルの内容と構造を正確に反映した合成画像を生成するといった課題を直接提示する。 本研究では,制御可能拡散モデルを用いたセマンティックセグメンテーションのための効果的なデータ拡張手法を提案する。 提案手法は,実画像におけるラベル付きクラスへの注意を高めるために,クラス・プロンプト・アペンディングとビジュアル・プライオリデーションを用いた効率的なプロンプト生成を含む。 これらの手法により、実画像中のセグメント化されたクラスを正確に描写する画像を生成することができる。 さらに,学習データセットのバランスデータを生成するために,合成画像と原画像とをマージする際の効率を確保するために,クラスバランスアルゴリズムを用いる。 提案手法をPASCAL VOCデータセット上で評価した結果,セマンティックセグメンテーションにおける画像の合成に極めて有効であることが判明した。

Data augmentation is a widely used technique for creating training data for tasks that require labeled data, such as semantic segmentation. This method benefits pixel-wise annotation tasks requiring much effort and intensive labor. Traditional data augmentation methods involve simple transformations like rotations and flips to create new images from existing ones. However, these new images may lack diversity along the main semantic axes in the data and not change high-level semantic properties. To address this issue, generative models have emerged as an effective solution for augmenting data by generating synthetic images. Controllable generative models offer a way to augment data for semantic segmentation tasks using a prompt and visual reference from the original image. However, using these models directly presents challenges, such as creating an effective prompt and visual reference to generate a synthetic image that accurately reflects the content and structure of the original. In this work, we introduce an effective data augmentation method for semantic segmentation using the Controllable Diffusion Model. Our proposed method includes efficient prompt generation using Class-Prompt Appending and Visual Prior Combination to enhance attention to labeled classes in real images. These techniques allow us to generate images that accurately depict segmented classes in the real image. In addition, we employ the class balancing algorithm to ensure efficiency when merging the synthetic and original images to generate balanced data for the training dataset. We evaluated our method on the PASCAL VOC datasets and found it highly effective for synthesizing images in semantic segmentation.
翻訳日:2024-09-11 20:02:25 公開日:2024-09-09
# OciorCOOL:より高速なビザンチン協定と信頼性の高い放送

OciorCOOL: Faster Byzantine Agreement and Reliable Broadcast ( http://arxiv.org/abs/2409.06008v1 )

ライセンス: Link先を確認
Jinyuan Chen, (参考訳) COOL (Chen'21) は誤りのない決定論的ビザンチン合意プロトコルで、$O(\max\{n\ell, n t \log t \})$ bits in four phases, given $n\geq 3t + 1$, for a network of $n$ node。 本研究では,1回の通信ラウンドを削減してCOOLを最適化できることを示す。 新しいプロトコルはOciorCOOLと呼ばれる。 さらに,OciorCOOLをベースとして,通信ラウンドを6回しか必要としない,最適な信頼性の高いブロードキャストプロトコルを設計する。

COOL (Chen'21) is an error-free and deterministic Byzantine agreement protocol that achieves consensus on an $\ell$-bit message with a communication complexity of $O(\max\{n\ell, n t \log t \})$ bits in four phases, given $n\geq 3t + 1$, for a network of $n$ nodes, where up to $t$ nodes may be dishonest. In this work we show that COOL can be optimized by reducing one communication round. The new protocol is called OciorCOOL. Additionally, building on OciorCOOL, we design an optimal reliable broadcast protocol that requires only six communication rounds.
翻訳日:2024-09-11 20:02:25 公開日:2024-09-09
# 適応的オープン量子ダイナミクスによる散逸状態生成の高速化

Accelerating Dissipative State Preparation with Adaptive Open Quantum Dynamics ( http://arxiv.org/abs/2409.06012v1 )

ライセンス: Link先を確認
Andrew Pocklington, Aashish A. Clerk, (参考訳) 様々な散逸状態の準備スキームは基本的な時間的絡み合いのトレードオフに悩まされ、安定状態がより絡み合うほど、安定状態への緩和が遅くなる。 ここでは、このトレードオフを完全に回避し、最大絡み合った状態の有限時間での散逸安定化を可能にするために、最小タイプの適応力学を用いる方法を示す。 我々のアプローチは単純なフェルミオン安定化スキームからインスピレーションを得ており、これは驚くほど絡み合いによって引き起こされる減速に対する免疫である。 本稿では,多体絡み合った量子ビット状態(スピン圧縮状態を含む)を離散化フロケ回路の形で高速化する手法と連続時間散逸ダイナミクスについて述べる。 私たちのアイデアは多くの実験的なプラットフォームと互換性があります。

A wide variety of dissipative state preparation schemes suffer from a basic time-entanglement tradeoff: the more entangled the steady state, the slower the relaxation to the steady state. Here, we show how a minimal kind of adaptive dynamics can be used to completely circumvent this tradeoff, and allow the dissipative stabilization of maximally entangled states with a finite time-scale. Our approach takes inspiration from simple fermionic stabilization schemes, which surprisingly are immune to entanglement-induced slowdown. We describe schemes for accelerated stabilization of many-body entangled qubit states (including spin squeezed states), both in the form of discretized Floquet circuits, as well as continuous time dissipative dynamics. Our ideas are compatible with a number of experimental platforms.
翻訳日:2024-09-11 19:51:02 公開日:2024-09-09
# リアルタイム低リソース環境におけるビジュアルプロンプテッドなキーワードローカライゼーションの改善

Improved Visually Prompted Keyword Localisation in Real Low-Resource Settings ( http://arxiv.org/abs/2409.06013v1 )

ライセンス: Link先を確認
Leanne Nortje, Dan Oneata, Herman Kamper, (参考訳) 画像クエリーが与えられた場合、視覚的に誘導されるキーワードローカライゼーション(VPKL)は、音声収集において、表現された単語の発生を見つけることを目的としている。 これは、低リソース言語(例えば、書かれていない場合)で書き起こしができない場合に便利である。 以前の研究では、VPKLはペア画像と非競合音声に基づいて訓練された視覚的接地音声モデルで実行可能であることが示された。 しかし、全ての実験は英語で行われた。 さらに、対照的な損失に対して正と負のペアを得るために転写が使用された。 本稿では,文字起こしのないペアを自動的にマイニングするための数発の学習手法を提案する。 英語では、パフォーマンスはわずかに低下する。 また、我々は初めて、VPKLを真の低リソース言語であるYorubaについて検討しました。 スコアは妥当だが、ここでは、ヨルバでは採掘が正確ではないため、地上の真理ペアを使用するよりもパフォーマンスが大幅に低下している。

Given an image query, visually prompted keyword localisation (VPKL) aims to find occurrences of the depicted word in a speech collection. This can be useful when transcriptions are not available for a low-resource language (e.g. if it is unwritten). Previous work showed that VPKL can be performed with a visually grounded speech model trained on paired images and unlabelled speech. But all experiments were done on English. Moreover, transcriptions were used to get positive and negative pairs for the contrastive loss. This paper introduces a few-shot learning scheme to mine pairs automatically without transcriptions. On English, this results in only a small drop in performance. We also - for the first time - consider VPKL on a real low-resource language, Yoruba. While scores are reasonable, here we see a bigger drop in performance compared to using ground truth pairs because the mining is less accurate in Yoruba.
翻訳日:2024-09-11 19:51:02 公開日:2024-09-09
# メカニカルシステム構成設計のための深部生成モデル

Deep Generative Model for Mechanical System Configuration Design ( http://arxiv.org/abs/2409.06016v1 )

ライセンス: Link先を確認
Yasaman Etesam, Hyunmin Cheong, Mohammadmehdi Ataei, Pradeep Kumar Jayaraman, (参考訳) ジェネレーティブAIは、さまざまな設計課題に対処する上で、顕著な進歩を遂げている。 生成AIが大きな価値をもたらす可能性のある重要な分野のひとつは、エンジニアリング設計である。 特に、設計要件を満たす機械システムを構築するために最適なコンポーネントセットとそのインターフェースを選択することは、エンジニアにとって最も困難で時間を要するタスクの1つです。 この構成設計タスクは、その分類学的性質、ソリューションが満たさなければならない複数の設計要件、潜在的なソリューションを評価するための物理シミュレーションに依存するため、本質的に困難である。 これらの特徴は、ブラックボックス関数を含む複数の制約で組合せ最適化問題を解くことである。 この課題に対処するために、設計問題に対するコンポーネントとインターフェースの最適な組み合わせを予測するための深層生成モデルを提案する。 提案手法を実証するために,まず文法,部品カタログ,物理シミュレータを用いて合成データセットを作成することで,ギヤトレイン合成問題を解く。 そして、このデータセット、GearFormerを使ってTransformerをトレーニングします。GearFormerは、それ自体で高品質なソリューションを生成するだけでなく、進化アルゴリズムやモンテカルロ木探索などの検索方法も強化します。 本稿では,GearFormerが特定の設計要件を満たすという点で,より高速な生成時間で,そのような検索方法よりも優れていることを示す。 さらに、GearFormerと検索の両方を活用するハイブリッド手法の利点を示し、ソリューションの品質をさらに向上させる。

Generative AI has made remarkable progress in addressing various design challenges. One prominent area where generative AI could bring significant value is in engineering design. In particular, selecting an optimal set of components and their interfaces to create a mechanical system that meets design requirements is one of the most challenging and time-consuming tasks for engineers. This configuration design task is inherently challenging due to its categorical nature, multiple design requirements a solution must satisfy, and the reliance on physics simulations for evaluating potential solutions. These characteristics entail solving a combinatorial optimization problem with multiple constraints involving black-box functions. To address this challenge, we propose a deep generative model to predict the optimal combination of components and interfaces for a given design problem. To demonstrate our approach, we solve a gear train synthesis problem by first creating a synthetic dataset using a grammar, a parts catalogue, and a physics simulator. We then train a Transformer using this dataset, named GearFormer, which can not only generate quality solutions on its own, but also augment search methods such as an evolutionary algorithm and Monte Carlo tree search. We show that GearFormer outperforms such search methods on their own in terms of satisfying the specified design requirements with orders of magnitude faster generation time. Additionally, we showcase the benefit of hybrid methods that leverage both GearFormer and search methods, which further improve the quality of the solutions.
翻訳日:2024-09-11 19:51:02 公開日:2024-09-09
# 深達度学習とデータ強化を併用した腰椎MRIのパイオニアリング精度

Pioneering Precision in Lumbar Spine MRI Segmentation with Advanced Deep Learning and Data Enhancement ( http://arxiv.org/abs/2409.06018v1 )

ライセンス: Link先を確認
Istiak Ahmed, Md. Tanzim Hossain, Md. Zahirul Islam Nahid, Kazi Shahriar Sanjid, Md. Shakib Shahariar Junayed, M. Monir Uddin, Mohammad Monirujjaman Khan, (参考訳) 本研究では, 深層学習技術を用いた腰椎セグメンテーションへの高度なアプローチを提案し, クラス不均衡やデータ前処理といった重要な課題に対処することに焦点を当てた。 低背痛患者のMRIスキャンは、脊椎、脊椎、椎間板(IVD)の3つの重要な分類を正確に表現するために、精査的に前処理されている。 データ前処理段階でのクラス不整合を是正することにより、トレーニングデータの忠実性を確保する。 改良されたU-Netモデルには、リークされたRectified Linear Units (ReLU) とGrorotの一様初期化器を備えたアップサンプルブロックを含む革新的なアーキテクチャ拡張が含まれており、死滅するReLU問題などの一般的な問題を緩和し、トレーニング中の安定性を向上させる。 カスタム複合損失関数の導入は、クラス不均衡に効果的に取り組み、セグメンテーション精度を大幅に改善する。 総合的なメトリクススイートを用いた評価は、このアプローチの優れたパフォーマンスを示し、既存の手法を上回り、腰椎セグメンテーションにおける現在のテクニックを進歩させる。 これらの所見は, 腰椎MRI, セグメンテーション診断の精度向上に有意な進展を認めた。

This study presents an advanced approach to lumbar spine segmentation using deep learning techniques, focusing on addressing key challenges such as class imbalance and data preprocessing. Magnetic resonance imaging (MRI) scans of patients with low back pain are meticulously preprocessed to accurately represent three critical classes: vertebrae, spinal canal, and intervertebral discs (IVDs). By rectifying class inconsistencies in the data preprocessing stage, the fidelity of the training data is ensured. The modified U-Net model incorporates innovative architectural enhancements, including an upsample block with leaky Rectified Linear Units (ReLU) and Glorot uniform initializer, to mitigate common issues such as the dying ReLU problem and improve stability during training. Introducing a custom combined loss function effectively tackles class imbalance, significantly improving segmentation accuracy. Evaluation using a comprehensive suite of metrics showcases the superior performance of this approach, outperforming existing methods and advancing the current techniques in lumbar spine segmentation. These findings hold significant advancements for enhanced lumbar spine MRI and segmentation diagnostic accuracy.
翻訳日:2024-09-11 19:51:02 公開日:2024-09-09
# 光周波数コムを用いたマルチチャネル超広帯域ライドバーグ電気測定

Multichannel, ultra-wideband Rydberg Electrometry with an Optical Frequency Comb ( http://arxiv.org/abs/2409.06019v1 )

ライセンス: Link先を確認
Nikunjkumar Prajapati, David A. Long, Alexandra B. Artusio-Glimpse, Sean M. Bresler, Christopher L. Holloway, (参考訳) ライドバーグ原子はマイクロ波とミリ波の正確で感度の高い検出器として機能する可能性があるが、その応答は選択されたマイクロ波遷移の周囲の1つの狭い周波数帯域に限られている。 結果として、アジャイルで広帯域の電磁受信機として機能する可能性は完全には実現されていない。 ここでは、3光子リドバーグ原子電気測定のためのカップリングレーザーとして、中赤外・周波数型光学周波数コムを用いた。 このアプローチにより,最大7個のRydberg状態の同時生成が可能となり,1GHzから40GHzまでの周波数範囲にわたるマルチチャネル検出が可能となった。 ワイドバンド多重化手法の汎用性と柔軟性は、Rydbergエレクトロメトリーの分野での変換効果を期待でき、高度な情報符号化と任意の信号検出の道を開くことができる。

While Rydberg atoms have shown tremendous potential to serve as accurate and sensitive detectors of microwaves and millimeter waves, their response is generally limited to a single narrow frequency band around a chosen microwave transition. As a result, their potential to serve as agile and wideband electromagnetic receivers has not been fully realized. Here we demonstrate the use of a mid-infrared, frequency agile optical frequency comb as the coupling laser for three-photon Rydberg atom electrometry. This approach allows us to simultaneously prepare as many as seven individual Rydberg states, allowing for multichannel detection across a frequency range from 1 GHz to 40 GHz. The generality and flexibility of this method for wideband multiplexing is anticipated to have transformative effects in the field of Rydberg electrometry, paving the way for advanced information coding and arbitrary signal detection.
翻訳日:2024-09-11 19:51:02 公開日:2024-09-09
# 量子近似合成のためのピープホール最適化

Peephole Optimization for Quantum Approximate Synthesis ( http://arxiv.org/abs/2409.06020v1 )

ライセンス: Link先を確認
Joseph Clark, Himanshu Thapliyal, (参考訳) 量子回路のピープホール最適化は、スケーラブルな量子回路最適化に標準回路合成アプローチを活用する方法を提供する。 この手法の応用の1つは、回路全体を一連のピープホールに分割し、分割された各サブ回路の複数の近似を生成することである。 次に、各サブ回路の1つの近似を選択して最適化結果回路を形成する。 本アーキテクチャの最終段階の改善として,エラー認識の追加や,結果の正しさの近似方法の改善などを提案する。 我々は、IBMQ FakeWashingtonシミュレータを用いて、一連のベンチマーク回路におけるこれらの改善について評価した。 その結果,Qiskitオプティマイザと比較して,最高の性能は,総変分距離(TVD)とJensen-Shannon Divergence(JSD)の平均18.2%,および15.8%の低減率であることがわかった。 また、TVDは11.4%、JSDは9.0%改善されている。

Peephole optimization of quantum circuits provides a method of leveraging standard circuit synthesis approaches into scalable quantum circuit optimization. One application of this technique partitions an entire circuit into a series of peepholes and produces multiple approximations of each partitioned subcircuit. A single approximation of each subcircuit is then selected to form optimized result circuits. We propose a series of improvements to the final phase of this architecture, which include the addition of error awareness and a better method of approximating the correctness of the result. We evaluated these proposed improvements on a set of benchmark circuits using the IBMQ FakeWashington simulator. The results demonstrate that our best-performing method provides an average reduction in Total Variational Distance (TVD) and Jensen-Shannon Divergence (JSD) of 18.2% and 15.8%, respectively, compared with the Qiskit optimizer. This also constitutes an improvement in TVD of 11.4% and JSD of 9.0% over existing solutions.
翻訳日:2024-09-11 19:51:02 公開日:2024-09-09
# SongCreator: 歌詞ベースのユニバーサルソングジェネレーション

SongCreator: Lyrics-based Universal Song Generation ( http://arxiv.org/abs/2409.06029v1 )

ライセンス: Link先を確認
Shun Lei, Yixuan Zhou, Boshi Tang, Max W. Y. Lam, Feng Liu, Hangyu Liu, Jingcheng Wu, Shiyin Kang, Zhiyong Wu, Helen Meng, (参考訳) 音楽は人間の文化の不可欠な部分であり、人間の知性と創造性を具現化している。 歌声、声楽曲、楽器の編曲など、以前の作品で歌唱のさまざまな側面が検討されてきたが、声楽と伴奏の両方で歌を創出することは、実際の世界での曲生成モデルの適用を妨げる重要な課題である。 そこで本研究では,この課題に対処するための曲生成システムであるSongCreatorを提案する。 モデルには2つの新しいデザインがある: 巧妙に設計された二重系列言語モデル(DSLM)は、歌生成のためのボーカルや伴奏に関する情報をキャプチャし、DSLMのための追加の注意マスク戦略により、モデルが歌を理解し、生成し、編集し、様々な歌生成タスクに適したものにする。 広範囲な実験は8つのタスクすべてに対して最先端または競争的なパフォーマンスを達成することでSongCreatorの有効性を実証する。 特に、前作の歌詞と歌詞とボーカルの差を大きく上回っている。 さらに、異なるプロンプトを通じて、生成された歌声の音響条件と伴奏を独立に制御することができ、その潜在的な適用性を示すことができる。 サンプルはhttps://songcreator.github.io/で公開しています。

Music is an integral part of human culture, embodying human intelligence and creativity, of which songs compose an essential part. While various aspects of song generation have been explored by previous works, such as singing voice, vocal composition and instrumental arrangement, etc., generating songs with both vocals and accompaniment given lyrics remains a significant challenge, hindering the application of music generation models in the real world. In this light, we propose SongCreator, a song-generation system designed to tackle this challenge. The model features two novel designs: a meticulously designed dual-sequence language model (DSLM) to capture the information of vocals and accompaniment for song generation, and an additional attention mask strategy for DSLM, which allows our model to understand, generate and edit songs, making it suitable for various song-related generation tasks. Extensive experiments demonstrate the effectiveness of SongCreator by achieving state-of-the-art or competitive performances on all eight tasks. Notably, it surpasses previous works by a large margin in lyrics-to-song and lyrics-to-vocals. Additionally, it is able to independently control the acoustic conditions of the vocals and accompaniment in the generated song through different prompts, exhibiting its potential applicability. Our samples are available at https://songcreator.github.io/.
翻訳日:2024-09-11 19:51:02 公開日:2024-09-09
# NESI:ニューラル明示的表面断面積による形状表現

NESI: Shape Representation via Neural Explicit Surface Intersection ( http://arxiv.org/abs/2409.06030v1 )

ライセンス: Link先を確認
Congyi Zhang, Jinfan Yang, Eric Hedlin, Suzuran Takikawa, Nicholas Vining, Kwang Moo Yi, Wenping Wang, Alla Sheffer, (参考訳) 3次元形状の圧縮表現はコンパクトで精度が高く、直接圧縮形式で効率的に処理できるが、デジタルメディア応用には極めて有用である。 この領域における最近のアプローチは、暗黙的あるいはパラメトリックな表現を学ぶことに焦点を当てている。 暗黙はインアウトクエリのようなタスクには適しているが、自然な2Dパラメータ化がなく、テクスチャや通常のマッピングのようなタスクを複雑にしている。 逆にパラメトリック表現は後者のタスクをサポートするが、占有クエリには不適である。 そこで我々は,これらのアプローチの代替として,局所的明示的曲面,すなわち高さ場の表面の交点に基づく新しい学習方法を提案する。 明示は暗黙的にもパラメトリック的にも簡単に表現できるので、NESIは占有クエリやパラメトリックアクセスを含む暗黙の代替手段よりも幅広い処理操作を直接サポートする。 容積ブール交叉を用いて、異なる向きの高野有界半空間の集合を用いて入力形状を表現する。 まず、逆向きの高さ場を用いて各入力を厳密に結び付け、DHF(Double Height-Field)ハルを形成する。 我々は、この船体を、内部の表面領域を捕捉する局所的な高さ場(HFs)と交差させることにより、その船体を改良する。 我々は、各入力を正確に捕捉するために必要なHFの数を最小化し、R^2のサブドメイン上で定義された神経関数としてDHF船体と局所HFの両方をコンパクトに符号化する。 この縮小次元符号化は高品質なコンパクト近似をもたらす。 同様のパラメータ数やストレージ容量が与えられた場合、NESIは、特に低いパラメータ数において、最先端と比較して近似誤差を著しく削減する。

Compressed representations of 3D shapes that are compact, accurate, and can be processed efficiently directly in compressed form, are extremely useful for digital media applications. Recent approaches in this space focus on learned implicit or parametric representations. While implicits are well suited for tasks such as in-out queries, they lack natural 2D parameterization, complicating tasks such as texture or normal mapping. Conversely, parametric representations support the latter tasks but are ill-suited for occupancy queries. We propose a novel learned alternative to these approaches, based on intersections of localized explicit, or height-field, surfaces. Since explicits can be trivially expressed both implicitly and parametrically, NESI directly supports a wider range of processing operations than implicit alternatives, including occupancy queries and parametric access. We represent input shapes using a collection of differently oriented height-field bounded half-spaces combined using volumetric Boolean intersections. We first tightly bound each input using a pair of oppositely oriented height-fields, forming a Double Height-Field (DHF) Hull. We refine this hull by intersecting it with additional localized height-fields (HFs) that capture surface regions in its interior. We minimize the number of HFs necessary to accurately capture each input and compactly encode both the DHF hull and the local HFs as neural functions defined over subdomains of R^2. This reduced dimensionality encoding delivers high-quality compact approximations. Given similar parameter count, or storage capacity, NESI significantly reduces approximation error compared to the state of the art, especially at lower parameter counts.
翻訳日:2024-09-11 19:51:02 公開日:2024-09-09
# 因果クイズの調査:人間の識別可能な言語特徴を用いた音声検出の強化

Investigating Causal Cues: Strengthening Spoofed Audio Detection with Human-Discernible Linguistic Features ( http://arxiv.org/abs/2409.06033v1 )

ライセンス: Link先を確認
Zahra Khanjani, Tolulope Ale, Jianwu Wang, Lavon Davis, Christine Mallinson, Vandana P. Janeja, (参考訳) 模倣、リプレイ攻撃、ディープフェイクなどのスプーフ付きオーディオは、情報の完全性に対する社会的課題を生み出している。 近年、研究者は社会言語学の専門家と共同で、人間の耳で識別できる、ピッチ、ポーズ、単語初期、単語最終リリースバースト(子音停止のバースト)、息の吸入または吸入の可聴性、および全体的な音質など、spoofed audio sample with Expert Defined Linguistic Features (EDLFs) をラベル付けしている。 これらのEDLFを用いて、従来の音声データの特徴を拡張した場合、ディープフェイク検出アルゴリズムがいくつか改善されていることが確認された。 本稿では,音声クリップ中の識別可能な言語特徴とラベルの因果発見と推論を行い,因果モデルの結果と専門家の根拠的真理検証ラベリングプロセスを比較した。 以上の結果から,この因果的モデルは,スプーフ音声の識別に言語的特徴を取り入れることの有用性と,AIモデルを強化するモデルや技術に人間の知識を組み込むための全体的なニーズと機会が示唆された。 この因果発見と推論は、一般的なAIベースのスプーフオーディオ検出器の性能向上を目的としたEDLFラベルの自動化だけでなく、スプーフオーディオの識別を人間に訓練する基盤として利用することができる。

Several types of spoofed audio, such as mimicry, replay attacks, and deepfakes, have created societal challenges to information integrity. Recently, researchers have worked with sociolinguistics experts to label spoofed audio samples with Expert Defined Linguistic Features (EDLFs) that can be discerned by the human ear: pitch, pause, word-initial and word-final release bursts of consonant stops, audible intake or outtake of breath, and overall audio quality. It is established that there is an improvement in several deepfake detection algorithms when they augmented the traditional and common features of audio data with these EDLFs. In this paper, using a hybrid dataset comprised of multiple types of spoofed audio augmented with sociolinguistic annotations, we investigate causal discovery and inferences between the discernible linguistic features and the label in the audio clips, comparing the findings of the causal models with the expert ground truth validation labeling process. Our findings suggest that the causal models indicate the utility of incorporating linguistic features to help discern spoofed audio, as well as the overall need and opportunity to incorporate human knowledge into models and techniques for strengthening AI models. The causal discovery and inference can be used as a foundation of training humans to discern spoofed audio as well as automating EDLFs labeling for the purpose of performance improvement of the common AI-based spoofed audio detectors.
翻訳日:2024-09-11 19:51:02 公開日:2024-09-09
# 合成による腫瘍の解析

Analyzing Tumors by Synthesis ( http://arxiv.org/abs/2409.06035v1 )

ライセンス: Link先を確認
Qi Chen, Yuxiang Lai, Xiaoxi Chen, Qixin Hu, Alan Yuille, Zongwei Zhou, (参考訳) コンピュータ支援による腫瘍検出は、米国で毎年実施されている8000万以上のCTスキャンの解釈を強化する大きな可能性を示している。 しかし, 腫瘍, 特に早期腫瘍を伴うCTスキャンの希少性により, 課題が生じた。 実際の腫瘍データを用いたAIの開発は、不足、アノテーションの難しさ、頻度の低下といった問題に直面している。 腫瘍合成は、医療画像における多数の腫瘍例を生成し、腫瘍検出とセグメンテーションのためのAIトレーニングを支援することで、これらの課題に対処する。 成功した合成は、様々な臓器にまたがる現実的で一般化可能な合成腫瘍を必要とする。 この章では、実データと合成データに基づいてAI開発をレビューし、がん画像研究のための合成データにおける2つの重要なトレンドを要約する。 Pixel2Cancerのようなモデリングベースの手法は、一般的なルールを使って時間をかけて腫瘍の発生をシミュレートする。 専門家の放射線学者による研究は、合成腫瘍は説得力のあるほど現実的であることを示している。 また、肝臓、膵臓、腎臓のケーススタディでは、合成腫瘍で訓練されたAIが、実際のデータで訓練されたAIに匹敵する、あるいは優れたパフォーマンスを達成できることが示された。 腫瘍合成は、データセットの拡大、AI信頼性の向上、腫瘍検出性能の向上、患者のプライバシの保護に大きく貢献する。

Computer-aided tumor detection has shown great potential in enhancing the interpretation of over 80 million CT scans performed annually in the United States. However, challenges arise due to the rarity of CT scans with tumors, especially early-stage tumors. Developing AI with real tumor data faces issues of scarcity, annotation difficulty, and low prevalence. Tumor synthesis addresses these challenges by generating numerous tumor examples in medical images, aiding AI training for tumor detection and segmentation. Successful synthesis requires realistic and generalizable synthetic tumors across various organs. This chapter reviews AI development on real and synthetic data and summarizes two key trends in synthetic data for cancer imaging research: modeling-based and learning-based approaches. Modeling-based methods, like Pixel2Cancer, simulate tumor development over time using generic rules, while learning-based methods, like DiffTumor, learn from a few annotated examples in one organ to generate synthetic tumors in others. Reader studies with expert radiologists show that synthetic tumors can be convincingly realistic. We also present case studies in the liver, pancreas, and kidneys reveal that AI trained on synthetic tumors can achieve performance comparable to, or better than, AI only trained on real data. Tumor synthesis holds significant promise for expanding datasets, enhancing AI reliability, improving tumor detection performance, and preserving patient privacy.
翻訳日:2024-09-11 19:51:02 公開日:2024-09-09
# ノイズ中間規模量子デバイスからの古典非線形力学系の定常統計

Steady-State Statistics of Classical Nonlinear Dynamical Systems from Noisy Intermediate-Scale Quantum Devices ( http://arxiv.org/abs/2409.06036v1 )

ライセンス: Link先を確認
Yash M. Lokare, Dingding Wei, Lucas Chan, Brenda M. Rubenstein, J. B. Marston, (参考訳) 古典的非線形力学系はしばしば定常確率分布関数(PDF)によって特徴づけられる。 通常、PDFは積分技術を用いて基礎となる運動方程式を解くことを含む数値シミュレーションから蓄積される。 別の方法として、直接統計シミュレーション(DSS)がある。 DSSのアプローチのひとつにFokker-Planck Equation (FPE)がある。 本稿では、FPEの定常解を求めるため、NISQ(Noisy Intermediate-Scale Quantum)コンピュータの有用性について検討する。 本稿では,量子位相推定法 (QPE) と変分量子固有解法 (VQE) を用いて, 1次元オルンシュタイン-ウレンベック問題に対するFPEのゼロモードを求める。 量子計算された定常確率分布関数(PDF)は、古典的に計算されたPDFと合理的に一致していることが示されている。 我々は高次元力学系への潜在的な拡張について論じる。

Classical nonlinear dynamical systems are often characterized by their steady-state probability distribution functions (PDFs). Typically, PDFs are accumulated from numerical simulations that involve solving the underlying dynamical equations of motion using integration techniques. An alternative procedure, direct statistical simulation (DSS), solves for the statistics directly. One approach to DSS is the Fokker-Planck Equation (FPE), which can be used to find the PDF of classical dynamical systems. Here, we investigate the utility of Noisy Intermediate-Scale Quantum (NISQ) computers to find steady-state solutions to the FPE. We employ the Quantum Phase Estimation (QPE) and the Variational Quantum Eigensolver (VQE) algorithms to find the zero-mode of the FPE for one-dimensional Ornstein-Uhlenbeck problems enabling comparison with exact solutions. The quantum computed steady-state probability distribution functions (PDFs) are demonstrated to be in reasonable agreement with the classically computed PDFs. We conclude with a discussion of potential extensions to higher-dimensional dynamical systems.
翻訳日:2024-09-11 19:51:02 公開日:2024-09-09
# 内視鏡映像におけるオンライン3D再構成と高密度追跡

Online 3D reconstruction and dense tracking in endoscopic videos ( http://arxiv.org/abs/2409.06037v1 )

ライセンス: Link先を確認
Michel Hayoz, Christopher Hahne, Thomas Kurmann, Max Allan, Guido Beldi, Daniel Candinas, ablo Márquez-Neila, Raphael Sznitman, (参考訳) 立体内視鏡画像データからの3次元シーン再構成は外科手術の進行に不可欠である。 本研究では,手術シーンの理解と介入支援を目的としたオンライン3次元シーン再構築と追跡のためのオンラインフレームワークを提案する。 本手法は, 粗い制御点の集合を通して組織変形をモデル化しながら, ガウススプラッティングを用いた標準的なシーン表現を動的に拡張する。 我々は、シーンパラメータを最適化し、一貫したトラッキングと正確な再構築を可能にする効率的なオンラインフィッティングアルゴリズムを提案する。 StereoMISデータセットの実験を通じて、我々のアプローチの有効性を実証し、最先端のトラッキング手法より優れ、オフラインの再構築技術に匹敵するパフォーマンスを実現する。 本研究は, 手術支援システムの能力向上に寄与する, 下流の様々な応用を可能にする。

3D scene reconstruction from stereo endoscopic video data is crucial for advancing surgical interventions. In this work, we present an online framework for online, dense 3D scene reconstruction and tracking, aimed at enhancing surgical scene understanding and assisting interventions. Our method dynamically extends a canonical scene representation using Gaussian splatting, while modeling tissue deformations through a sparse set of control points. We introduce an efficient online fitting algorithm that optimizes the scene parameters, enabling consistent tracking and accurate reconstruction. Through experiments on the StereoMIS dataset, we demonstrate the effectiveness of our approach, outperforming state-of-the-art tracking methods and achieving comparable performance to offline reconstruction techniques. Our work enables various downstream applications thus contributing to advancing the capabilities of surgical assistance systems.
翻訳日:2024-09-11 19:51:02 公開日:2024-09-09
# シリコンおよび異なるシード層上にスパッタしたタンタル薄膜:材料特性とコプラナー導波路共振器特性

Tantalum thin films sputtered on silicon and on different seed layers: material characterization and coplanar waveguide resonator performance ( http://arxiv.org/abs/2409.06041v1 )

ライセンス: Link先を確認
Moritz Singer, Benedikt Schoof, Harsh Gupta, Daniela Zahn, Johannes Weber, Marc Tornow, (参考訳) 超伝導量子ビットは、大規模量子コンピューティングのための有望なプラットフォームである。 ジョセフソン接合の他に、超伝導量子ビットのほとんどの部分は平らなパターンの超伝導薄膜でできている。 これまで、ほとんどの量子ビットアーキテクチャは超伝導層の選択材料としてニオブ (Nb) に依存してきた。 しかし、潜在的に損失が少ない様々な代替材料があり、結果として量子ビット性能が向上する可能性がある。 そのような材料の一つがタンタル(Ta)であり、高性能キュービット成分はすでに実証されている。 本研究では,最初に蒸着した窒化タンタル (TaN), 窒化チタン (TiN), 窒化アルミニウム (AlN) の異なるナノ厚さのシード層上に, 加熱および未加熱シリコン (Si) 基板上に直接Ta薄膜をスパッタ成膜したことを報告した。 薄膜は、表面形態、結晶構造、相組成、臨界温度、残留抵抗比(RRR)およびRF性能で特徴づけられる。 シリコン上に直接スパッタリングし,TaNまたはTiNシード層上に堆積したTaに対して,純α-Ta(600{\deg}C)を示す薄膜を得る。 コプラナー導波路 (CPW) 共振器測定により, 加熱したシリコン基板上に直接堆積したTaは, 単一光子状態下でQ_i$が1×10^6$に達すると, 内部品質係数が$T=100 {\displaystyle \rm mK}$になることがわかった。

Superconducting qubits are a promising platform for large-scale quantum computing. Besides the Josephson junction, most parts of a superconducting qubit are made of planar, patterned superconducting thin films. In the past, most qubit architectures have relied on niobium (Nb) as the material of choice for the superconducting layer. However, there is also a variety of alternative materials with potentially less losses, which may thereby result in increased qubit performance. One such material is tantalum (Ta), for which high-performance qubit components have already been demonstrated. In this study, we report the sputter-deposition of Ta thin films directly on heated and unheated silicon (Si) substrates as well as onto different, nanometer-thin seed layers from tantalum nitride (TaN), titanium nitride (TiN) or aluminum nitride (AlN) that were deposited first. The thin films are characterized in terms of surface morphology, crystal structure, phase composition, critical temperature, residual resistance ratio (RRR) and RF-performance. We obtain thin films indicative of pure alpha-Ta for high temperature (600{\deg}C) sputtering directly on silicon and for Ta deposited on TaN or TiN seed layers. Coplanar waveguide (CPW) resonator measurements show that the Ta deposited directly on the heated silicon substrate performs best with internal quality factors $Q_i$ reaching 1 x $10^6$ in the single-photon regime, measured at $T=100 {\space \rm mK}$.
翻訳日:2024-09-11 19:51:02 公開日:2024-09-09
# キャビティと相互作用する光学格子のフォトニックバンドとノーマルモード分割

Photonic bands and normal mode splitting in optical lattices interacting with cavities ( http://arxiv.org/abs/2409.06042v1 )

ライセンス: Link先を確認
Philippe Wilhelm Courteille, Dalila Rivero, Gustavo Henrique de França, Claudio Alves Pessoa Junior, Ana Cipris, Mayerlin Núñez Portela, Raul Celistrino Teixeira, Sebastian Slama, (参考訳) 光共振器と原子の強い集団的相互作用は、共振器の通常のモード分割を引き起こし、その幅は結合強度によって与えられる。 原子雲の低光学密度では、キャビティ内の光の強度分布はキャビティのモード関数によって決定される。 この状態において、結合原子空洞系の力学は開ディックモデルによって便利に記述され、周期的に順序付けられた雲と環の空洞で発生する正規モード分割を計算するために応用される。 また、タイトバインディング限界におけるワニエ・ブロッホ振動の証人として正規モード分割を用いる方法を示す。 高光学密度では、原子分布はモード関数の整形に寄与する。 この状態はオープンディックモデルから逃れるが、飽和パラメータが低い場合は転送行列モデルで扱うことができる。 後者のモデルを1次元格子に周期的に順序付けられた原子雲に適用することにより、通常のモード分割と競合するフォトニックバンドギャップの形成を観察する。 両モデルの限界について論じ、一般化理論への道筋を指摘する。

Strong collective interaction of atoms with an optical cavity causes normal mode splitting of the cavity's resonances, whose width is given by the collective coupling strength. At low optical density of the atomic cloud the intensity distribution of light in the cavity is ruled by the cavity's mode function, which is solely determined by its geometry. In this regime the dynamics of the coupled atom-cavity system is conveniently described by the open Dicke model, which we apply to calculating normal mode splitting generated by periodically ordered clouds in linear and ring cavities. We also show how to use normal mode splitting as witness for Wannier-Bloch oscillations in the tight-binding limit. At high optical density the atomic distribution contributes to shaping the mode function. This regime escapes the open Dicke model, but can be treated by a transfer matrix model provided the saturation parameter is low. Applying this latter model to an atomic cloud periodically ordered into a one-dimensional lattice, we observe the formation of photonic bands gaps competing with the normal mode splitting. We discuss the limitations of both models and point out possible pathways to generalized theories.
翻訳日:2024-09-11 19:51:02 公開日:2024-09-09
# 出力の言語的変動によるGPTモデルのイデオロギーバイアス源の同定

Identifying the sources of ideological bias in GPT models through linguistic variation in output ( http://arxiv.org/abs/2409.06043v1 )

ライセンス: Link先を確認
Christina Walker, Joan C. Timoneda, (参考訳) 現存する研究は、GPT-3.5や4のような生成AIモデルが社会的なステレオタイプとバイアスを永続させることを示している。 偏見の源泉は、イデオロギー(イデオロギー)である。 GPTモデルは政治に敏感なトピックに対してイデオロギー的スタンスを取るか? 本稿では、生成モデルにおけるイデオロギーバイアスを特定するための独自のアプローチを提案し、バイアスがトレーニングデータとフィルタリングアルゴリズムの両方から生じることを示す。 比較的な政治的態度を持つ国の言語変化を利用して、これらの言語におけるセンシティブな政治トピックに対する平均的なGPT応答のバイアスを評価する。 まず、GPTの出力は保守的な社会(ポーランド語)によく対応している言語では保守的であり、リベラルな社会(スウェーデン語)では独自の言語ではリベラルである。 この結果は、GPTモデルにおけるトレーニングデータバイアスの強い証拠となる。 第2に、GPT-3.5で見られる言語間の差異は、OpenAIのフィルタリングポリシーにより、GPT-4の方がはるかにリベラルであるにもかかわらず、GPT-4で持続する。 生成モデルトレーニングの主な特徴は、たとえトレーニングデータサイズに妥協が必要であったとしても、バイアスを減らすために、高品質でキュレートされたデータセットに焦点を合わせなければならない、ということです。 トレーニング後のフィルタリングレスポンスは、新しいバイアスのみを導入し、基礎となるトレーニングバイアスを除去しない。

Extant work shows that generative AI models such as GPT-3.5 and 4 perpetuate social stereotypes and biases. One concerning but less explored source of bias is ideology. Do GPT models take ideological stances on politically sensitive topics? In this article, we provide an original approach to identifying ideological bias in generative models, showing that bias can stem from both the training data and the filtering algorithm. We leverage linguistic variation in countries with contrasting political attitudes to evaluate bias in average GPT responses to sensitive political topics in those languages. First, we find that GPT output is more conservative in languages that map well onto conservative societies (i.e., Polish), and more liberal in languages used uniquely in liberal societies (i.e., Swedish). This result provides strong evidence of training data bias in GPT models. Second, differences across languages observed in GPT-3.5 persist in GPT-4, even though GPT-4 is significantly more liberal due to OpenAI's filtering policy. Our main takeaway is that generative model training must focus on high-quality, curated datasets to reduce bias, even if it entails a compromise in training data size. Filtering responses after training only introduces new biases and does not remove the underlying training biases.
翻訳日:2024-09-11 19:51:02 公開日:2024-09-09
# Min-Max問題の統計力学

Statistical Mechanics of Min-Max Problems ( http://arxiv.org/abs/2409.06053v1 )

ライセンス: Link先を確認
Yuma Ichikawa, Koji Hukushima, (参考訳) ミニマックス最適化問題(サドルポイント問題とも呼ばれる)は、フェアビームフォーミング、GAN(Generative Adversarial Network)、逆学習など、様々な分野への応用により、大きな注目を集めている。 しかし、これらのmin-max問題の性質を理解することは依然として重大な課題である。 本研究では,高次元極限における min-max 問題の平衡値の統計力学的定式化を行い,min と max の演算順序を適切に検討する。 最初のステップとして、この形式を双線形のmin-maxゲームや単純なGANに適用し、トレーニングデータ量と一般化誤差の関係を導出し、実データに対するフェイクと実データの最適比を示す。 この形式主義は、min-max問題に基づく様々な機械学習手法における平衡特性のより深い理論的解析の基礎を提供し、新しいアルゴリズムやアーキテクチャの開発を促進する。

Min-max optimization problems, also known as saddle point problems, have attracted significant attention due to their applications in various fields, such as fair beamforming, generative adversarial networks (GANs), and adversarial learning. However, understanding the properties of these min-max problems has remained a substantial challenge. This study introduces a statistical mechanical formalism for analyzing the equilibrium values of min-max problems in the high-dimensional limit, while appropriately addressing the order of operations for min and max. As a first step, we apply this formalism to bilinear min-max games and simple GANs, deriving the relationship between the amount of training data and generalization error and indicating the optimal ratio of fake to real data for effective learning. This formalism provides a groundwork for a deeper theoretical analysis of the equilibrium properties in various machine learning methods based on min-max problems and encourages the development of new algorithms and architectures.
翻訳日:2024-09-11 19:40:45 公開日:2024-09-09
# 拡張量子無限井戸の確率のプレート

Plateaux of probability for the expanded quantum infinite well ( http://arxiv.org/abs/2409.06058v1 )

ライセンス: Link先を確認
Fernando Chamizo, Dulcinea Raboso, Osvaldo P. Santillán, (参考訳) C. Aslangulが2008年に発見したように、標準の1次元量子無限ポテンシャルが最初は基底状態でうまく機能していた場合、系の進化によってある程度の確率のプラトーが現れる可能性があることが判明した。 この現象を説明する数学的枠組みを導入する。 注目すべきことに、これらのプレートの特徴づけは非自明な数理論的な考察に依存する。

If the standard 1D quantum infinite potential well initially in its ground state suffers a sudden expansion, it turns out that in the evolution of the system they may appear plateaux of probability for some fractional times, as noticed by C. Aslangul in 2008. We introduce a mathematical framework to explain this phenomenon. Remarkably, the characterization of these plateaux depends on nontrivial number theoretical considerations.
翻訳日:2024-09-11 19:40:45 公開日:2024-09-09
# DiffusionPen: 手書きテキスト生成のスタイル制御を目指して

DiffusionPen: Towards Controlling the Style of Handwritten Text Generation ( http://arxiv.org/abs/2409.06065v1 )

ライセンス: Link先を確認
Konstantina Nikolaidou, George Retsinas, Giorgos Sfikas, Marcus Liwicki, (参考訳) テキストとスタイルに条件付けされた手書きテキスト生成(HTG)は、ユーザ間の特性のばらつきと、トレーニング中に目に見えない新しい単語を形成する文字の無制限の組み合わせのために難しい課題である。 拡散モデルは最近、HTGで有望な結果を示したが、まだ未調査のままである。 遅延拡散モデルに基づく5ショットスタイルの手書きテキスト生成手法であるDiffusionPen(DiffPen)を提案する。 計量学習と分類を組み合わせたハイブリッド型抽出器を用いて,見知らぬ単語やスタイルのテキスト的特徴と文体的特徴の両方を抽出し,現実的な手書きサンプルを生成する。 さらに、マルチスタイルの混合とノイズの埋め込みによるデータの変動戦略を探索し、生成したデータの堅牢性と多様性を高める。 IAMオフライン手書きデータベースを用いた大規模な実験により,本手法は既存の手法を質的・定量的に上回り,その追加データにより手書き文字認識(HTR)システムの性能が向上することが示された。 コードは、https://github.com/koninik/DiffusionPen.comで入手できる。

Handwritten Text Generation (HTG) conditioned on text and style is a challenging task due to the variability of inter-user characteristics and the unlimited combinations of characters that form new words unseen during training. Diffusion Models have recently shown promising results in HTG but still remain under-explored. We present DiffusionPen (DiffPen), a 5-shot style handwritten text generation approach based on Latent Diffusion Models. By utilizing a hybrid style extractor that combines metric learning and classification, our approach manages to capture both textual and stylistic characteristics of seen and unseen words and styles, generating realistic handwritten samples. Moreover, we explore several variation strategies of the data with multi-style mixtures and noisy embeddings, enhancing the robustness and diversity of the generated data. Extensive experiments using IAM offline handwriting database show that our method outperforms existing methods qualitatively and quantitatively, and its additional generated data can improve the performance of Handwriting Text Recognition (HTR) systems. The code is available at: https://github.com/koninik/DiffusionPen.
翻訳日:2024-09-11 19:40:45 公開日:2024-09-09
# MLLM-FL:不均一・長期データを用いた多モーダル大言語モデルによるフェデレーション学習支援

MLLM-FL: Multimodal Large Language Model Assisted Federated Learning on Heterogeneous and Long-tailed Data ( http://arxiv.org/abs/2409.06067v1 )

ライセンス: Link先を確認
Jianyi Zhang, Hao Frank Yang, Ang Li, Xin Guo, Pu Wang, Haiming Wang, Yiran Chen, Hai Li, (参考訳) フェデレートラーニング(FL)に関する従来の研究は、異なるクライアント間でのデータの不均一性により、しばしば性能劣化に遭遇する。 GPT-4vやLLaVAのようなマルチモーダルな大規模言語モデル(MLLM)の最近の進歩を踏まえ、画像キャプションやマルチモーダルな質問応答といったマルチモーダルなタスクにおいて、優れた能力を示す。 マルチモーダル大言語モデル支援フェデレーションラーニング(MLLM-FL)と呼ばれる新しいフェデレーションラーニングフレームワークを導入する。 MLLMの高度なクロスモダリティ表現能力と広範なオープンボキャブラリにより、我々のフレームワークは、Webサイトや強力なサーバーサイドの計算資源からアクセス可能な、広範で未公開のオープンソースデータを活用することに長けています。 したがって、MLLM-FLは性能を向上するだけでなく、ローカルデバイスにおけるプライバシー漏洩のリスクや計算負荷の増大を回避し、従来の手法と区別する。 私たちのフレームワークには3つの重要なステージがあります。 当初、クライアントのローカルデータセットのローカルトレーニングの前に、私たちはモデルのグローバルなビジュアルテキスト事前トレーニングを行います。 この事前トレーニングは、マルチモーダルな大規模言語モデルの助けを借りて、オンラインで利用可能な広範囲なオープンソースデータを活用することで促進される。 その後、事前訓練されたモデルは、ローカルトレーニングのために様々なクライアントに分散される。 最後に、ローカルトレーニングされたモデルがサーバに送信されると、MLLMの監督の下でグローバルアライメントが行われ、パフォーマンスがさらに向上する。 確立されたベンチマーク実験の結果,FLの異なるクライアントにまたがるデータ不均一性や長期分布を伴う典型的なシナリオにおいて,我々のフレームワークが有望な性能を提供することが示された。

Previous studies on federated learning (FL) often encounter performance degradation due to data heterogeneity among different clients. In light of the recent advances in multimodal large language models (MLLMs), such as GPT-4v and LLaVA, which demonstrate their exceptional proficiency in multimodal tasks, such as image captioning and multimodal question answering. We introduce a novel federated learning framework, named Multimodal Large Language Model Assisted Federated Learning (MLLM-FL), which which employs powerful MLLMs at the server end to address the heterogeneous and long-tailed challenges. Owing to the advanced cross-modality representation capabilities and the extensive open-vocabulary prior knowledge of MLLMs, our framework is adept at harnessing the extensive, yet previously underexploited, open-source data accessible from websites and powerful server-side computational resources. Hence, the MLLM-FL not only enhances the performance but also avoids increasing the risk of privacy leakage and the computational burden on local devices, distinguishing it from prior methodologies. Our framework has three key stages. Initially, prior to local training on local datasets of clients, we conduct global visual-text pretraining of the model. This pretraining is facilitated by utilizing the extensive open-source data available online, with the assistance of multimodal large language models. Subsequently, the pretrained model is distributed among various clients for local training. Finally, once the locally trained models are transmitted back to the server, a global alignment is carried out under the supervision of MLLMs to further enhance the performance. Experimental evaluations on established benchmarks, show that our framework delivers promising performance in the typical scenarios with data heterogeneity and long-tail distribution across different clients in FL.
翻訳日:2024-09-11 19:40:45 公開日:2024-09-09
# 協調農業研究のための個人・公共データセット間のプライバシ保護データリンク

Privacy-Preserving Data Linkage Across Private and Public Datasets for Collaborative Agriculture Research ( http://arxiv.org/abs/2409.06069v1 )

ライセンス: Link先を確認
Osama Zafar, Rosemarie Santa Gonzalez, Gabriel Wilkins, Alfonso Morales, Erman Ayday, (参考訳) デジタル農業は、作物の収量、病気の回復力、土壌の健康を向上させる技術を活用し、農業研究において重要な役割を担っている。 しかし、価格の悪さ、価格の差別、保険コストの高騰、資源の操作といったプライバシー上の懸念が高まり、農夫が悪用される恐れのあるデータを共有するのを妨げている。 本研究では,デジタル農業における安全なデータ共有を実現するとともに,これらのリスクに対処するプライバシ保護フレームワークを提案する。 我々のフレームワークは、プライバシーを保護しながら包括的なデータ分析を可能にする。 利害関係者は、パブリックデータセットとプライベートデータセットをリンクする研究主導のポリシーを利用することができる。 提案アルゴリズムは,(1)私的データセットに基づく類似農家の識別,(2)時間や場所などの集計情報の提供,(3)価格や商品の可利用性の決定,(4)食品安全統計などの公共政策データとの関連性などにより,これを実現する。 このフレームワークを実世界のファーマーズマーケットデータセットで検証し、リンクされたプライバシ保存データに基づいてトレーニングされた機械学習モデルを通じて、その有効性を実証する。 結果は、食品の安全性と価格の問題に対処する政策立案者や研究者を支援している。 この研究は、データを統合・分析し、農業技術の進歩と開発を促進するセキュアな方法を提供することで、デジタル農業に大きく貢献する。

Digital agriculture leverages technology to enhance crop yield, disease resilience, and soil health, playing a critical role in agricultural research. However, it raises privacy concerns such as adverse pricing, price discrimination, higher insurance costs, and manipulation of resources, deterring farm operators from sharing data due to potential misuse. This study introduces a privacy-preserving framework that addresses these risks while allowing secure data sharing for digital agriculture. Our framework enables comprehensive data analysis while protecting privacy. It allows stakeholders to harness research-driven policies that link public and private datasets. The proposed algorithm achieves this by: (1) identifying similar farmers based on private datasets, (2) providing aggregate information like time and location, (3) determining trends in price and product availability, and (4) correlating trends with public policy data, such as food insecurity statistics. We validate the framework with real-world Farmer's Market datasets, demonstrating its efficacy through machine learning models trained on linked privacy-preserved data. The results support policymakers and researchers in addressing food insecurity and pricing issues. This work significantly contributes to digital agriculture by providing a secure method for integrating and analyzing data, driving advancements in agricultural technology and development.
翻訳日:2024-09-11 19:40:45 公開日:2024-09-09
# DetoxBench: マルチタスクフレーダと乱用検出のための大規模言語モデルのベンチマーク

DetoxBench: Benchmarking Large Language Models for Multitask Fraud & Abuse Detection ( http://arxiv.org/abs/2409.06072v1 )

ライセンス: Link先を確認
Joymallya Chakraborty, Wei Xia, Anirban Majumder, Dan Ma, Walid Chaabene, Naveed Janvekar, (参考訳) 大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な能力を示した。 しかし、詐欺や乱用検知などの高額な領域への実践的応用は、さらなる探究を必要とする領域として残されている。 既存のアプリケーションは、しばしば毒性やヘイトスピーチ検出のような特定のタスクに焦点を絞っている。 本稿では,実世界の様々なシナリオにおける不正・虐待的言語の検出・緩和におけるLLMの性能評価を目的とした総合ベンチマークスイートを提案する。 私たちのベンチマークには、スパムメールの検出、ヘイトスピーチ、偽造語など、さまざまなタスクが含まれています。 我々は、Arthropic、Mistral AI、AI21ファミリーのモデルを含む最先端のLLMを評価し、この重要な領域におけるそれらの能力の包括的な評価を提供する。 その結果,LLMは個別の不正行為や乱用検出タスクにおいて,優れたベースライン性能を示すが,その性能はタスクによって大きく異なることが示唆された。 これらの知見は、リスクの高いアプリケーションにおけるLCMの開発と展開に重要な意味を持つ。 我々のベンチマークスイートは、研究者や実践者がマルチタスク詐欺検出のためのLSMを体系的に評価し、より堅牢で信頼性が高く倫理的に整合した詐欺・虐待検知システムを作成するためのツールとして機能する。

Large language models (LLMs) have demonstrated remarkable capabilities in natural language processing tasks. However, their practical application in high-stake domains, such as fraud and abuse detection, remains an area that requires further exploration. The existing applications often narrowly focus on specific tasks like toxicity or hate speech detection. In this paper, we present a comprehensive benchmark suite designed to assess the performance of LLMs in identifying and mitigating fraudulent and abusive language across various real-world scenarios. Our benchmark encompasses a diverse set of tasks, including detecting spam emails, hate speech, misogynistic language, and more. We evaluated several state-of-the-art LLMs, including models from Anthropic, Mistral AI, and the AI21 family, to provide a comprehensive assessment of their capabilities in this critical domain. The results indicate that while LLMs exhibit proficient baseline performance in individual fraud and abuse detection tasks, their performance varies considerably across tasks, particularly struggling with tasks that demand nuanced pragmatic reasoning, such as identifying diverse forms of misogynistic language. These findings have important implications for the responsible development and deployment of LLMs in high-risk applications. Our benchmark suite can serve as a tool for researchers and practitioners to systematically evaluate LLMs for multi-task fraud detection and drive the creation of more robust, trustworthy, and ethically-aligned systems for fraud and abuse detection.
翻訳日:2024-09-11 19:40:45 公開日:2024-09-09
# SVS-GAN: セマンティックビデオ合成のためのGANの活用

SVS-GAN: Leveraging GANs for Semantic Video Synthesis ( http://arxiv.org/abs/2409.06074v1 )

ライセンス: Link先を確認
Khaled M. Seyam, Julian Wiederer, Markus Braun, Bin Yang, (参考訳) 近年,GAN(Generative Adversarial Networks)と拡散モデルを用いることで,セマンティック画像合成(SIS)への関心が高まっている。 この分野では、このタスクに適した特殊な損失関数の実装や、イメージ・ツー・イメージ(I2I)翻訳のより一般的なアプローチから逸脱するといった革新が見られた。 セマンティックビデオ合成(SVS)$\unicode{x2013}$the generation of temporally coherent, realial sequences from semantic map$\unicode{x2013}$is new formalized in this paper, これらのアプローチの多くは、ビデオ間翻訳のために設計された一般的な損失関数に依存するか、時間的コヒーレンスを達成するために追加のデータを必要とする。 本稿では,SVS用に特別に設計されたフレームワークであるSVS-GANについて紹介する。 提案手法は,SPADEブロックを利用した三重ピラミドジェネレータを含む。 さらに,OASIS損失に対するセマンティックセマンティックセグメンテーションを行う画像識別器に,U-Netベースのネットワークを用いる。 このアーキテクチャと客観的エンジニアリングの組み合わせにより、私たちのフレームワークは、SISとSVSの既存のギャップを埋めることを目的としており、CityscapesやKITTI-360のようなデータセット上で現在の最先端モデルよりも優れている。

In recent years, there has been a growing interest in Semantic Image Synthesis (SIS) through the use of Generative Adversarial Networks (GANs) and diffusion models. This field has seen innovations such as the implementation of specialized loss functions tailored for this task, diverging from the more general approaches in Image-to-Image (I2I) translation. While the concept of Semantic Video Synthesis (SVS)$\unicode{x2013}$the generation of temporally coherent, realistic sequences of images from semantic maps$\unicode{x2013}$is newly formalized in this paper, some existing methods have already explored aspects of this field. Most of these approaches rely on generic loss functions designed for video-to-video translation or require additional data to achieve temporal coherence. In this paper, we introduce the SVS-GAN, a framework specifically designed for SVS, featuring a custom architecture and loss functions. Our approach includes a triple-pyramid generator that utilizes SPADE blocks. Additionally, we employ a U-Net-based network for the image discriminator, which performs semantic segmentation for the OASIS loss. Through this combination of tailored architecture and objective engineering, our framework aims to bridge the existing gap between SIS and SVS, outperforming current state-of-the-art models on datasets like Cityscapes and KITTI-360.
翻訳日:2024-09-11 19:40:45 公開日:2024-09-09
# MTLSO:論理合成最適化のためのマルチタスク学習手法

MTLSO: A Multi-Task Learning Approach for Logic Synthesis Optimization ( http://arxiv.org/abs/2409.06077v1 )

ライセンス: Link先を確認
Faezeh Faez, Raika Karimi, Yingxue Zhang, Xing Li, Lei Chen, Mingxuan Yuan, Mahdi Biparva, (参考訳) 電子設計自動化(EDA、Electronic Design Automation)は、IC設計に不可欠であり、最近、AIベースの技術による効率向上の恩恵を受けている。 EDAの重要なステージであるロジック合成は、ハイレベルなハードウェア記述を最適化されたネットリストに変換する。 近年の研究では、AIG(And-Inverter Graphs)と合成レシピのペアに対して、QoR(Quality of Results)を予測するために機械学習を採用している。 しかし、利用可能なAIGの数が極めて限られているため、データ不足が過度に適合し、性能を著しく損なうことになる。 さらに、AIGの複雑さと多数のノードは、表現力のあるグラフレベルの表現を学習する上で、通常のGNNの効率を低下させる。 これらの課題に対処するため,論理合成最適化のためのマルチタスク学習手法であるMTLSOを提案する。 一方、異なるタスク間でモデルをトレーニングすることで、限られたデータの使用を最大化する。 これには、一次回帰タスクと並行してバイナリマルチラベルグラフ分類の補助タスクが導入され、モデルが多様な監督ソースの恩恵を受けることができる。 一方、我々は階層的なグラフ表現学習戦略を用いて、従来のGNNを超越した大規模AIGのグラフレベル表現を表現的に学習するモデルの能力を向上させる。 複数のデータセットにまたがる大規模な実験と最先端のベースラインに対する実験により,提案手法の優位性を実証し,遅延平均8.22\%,面積平均5.95\%を実現した。

Electronic Design Automation (EDA) is essential for IC design and has recently benefited from AI-based techniques to improve efficiency. Logic synthesis, a key EDA stage, transforms high-level hardware descriptions into optimized netlists. Recent research has employed machine learning to predict Quality of Results (QoR) for pairs of And-Inverter Graphs (AIGs) and synthesis recipes. However, the severe scarcity of data due to a very limited number of available AIGs results in overfitting, significantly hindering performance. Additionally, the complexity and large number of nodes in AIGs make plain GNNs less effective for learning expressive graph-level representations. To tackle these challenges, we propose MTLSO - a Multi-Task Learning approach for Logic Synthesis Optimization. On one hand, it maximizes the use of limited data by training the model across different tasks. This includes introducing an auxiliary task of binary multi-label graph classification alongside the primary regression task, allowing the model to benefit from diverse supervision sources. On the other hand, we employ a hierarchical graph representation learning strategy to improve the model's capacity for learning expressive graph-level representations of large AIGs, surpassing traditional plain GNNs. Extensive experiments across multiple datasets and against state-of-the-art baselines demonstrate the superiority of our method, achieving an average performance gain of 8.22\% for delay and 5.95\% for area.
翻訳日:2024-09-11 19:40:45 公開日:2024-09-09
# 材料と分子特性予測のための大規模言語モデルによる回帰

Regression with Large Language Models for Materials and Molecular Property Prediction ( http://arxiv.org/abs/2409.06080v1 )

ライセンス: Link先を確認
Ryan Jacobs, Maciej P. Polak, Lane E. Schultz, Hamed Mahdavi, Vasant Honavar, Dane Morgan, (参考訳) 大規模言語モデル(LLM)による物質的および分子的特性回帰タスクの実行能力は,従来のLLMの場合と大きく異なっていた。 我々は,Large Language Model Meta AI (LLaMA) 3を,QM9データセットのいくつかの分子特性と24の材料特性についてベンチマークした。 合成に基づく入力文字列のみをモデル入力とし、生成損失のみを微調整する。 SMILES表現を用いて微調整されたLLaMA3は、ランダムフォレストやQM9データセット上の完全連結ニューラルネットワークのような標準材料特性予測モデルに匹敵する有用な回帰結果を提供する。 驚くべきことに、LLaMA 3の誤差は、同じタスクに対して分子(例えば原子の種類やそれらの座標)のより粒度の細かい表現を用いて訓練された最先端のモデルよりも5~10倍高い。 興味深いことに、LLaMA 3 は GPT-3.5 や GPT-4o よりも優れた予測を提供する。 この研究はLLMの汎用性を強調し、LCMに似た生成モデルは、複雑な物理現象に対処するために従来の応用を超越する可能性があり、化学、材料科学、その他の科学分野における将来の研究と応用の道を開くことを示唆している。

We demonstrate the ability of large language models (LLMs) to perform material and molecular property regression tasks, a significant deviation from the conventional LLM use case. We benchmark the Large Language Model Meta AI (LLaMA) 3 on several molecular properties in the QM9 dataset and 24 materials properties. Only composition-based input strings are used as the model input and we fine tune on only the generative loss. We broadly find that LLaMA 3, when fine-tuned using the SMILES representation of molecules, provides useful regression results which can rival standard materials property prediction models like random forest or fully connected neural networks on the QM9 dataset. Not surprisingly, LLaMA 3 errors are 5-10x higher than those of the state-of-the-art models that were trained using far more granular representation of molecules (e.g., atom types and their coordinates) for the same task. Interestingly, LLaMA 3 provides improved predictions compared to GPT-3.5 and GPT-4o. This work highlights the versatility of LLMs, suggesting that LLM-like generative models can potentially transcend their traditional applications to tackle complex physical phenomena, thus paving the way for future research and applications in chemistry, materials science and other scientific domains.
翻訳日:2024-09-11 19:40:45 公開日:2024-09-09
# 量子確率熱力学への情報幾何学的アプローチ

Information geometry approach to quantum stochastic thermodynamics ( http://arxiv.org/abs/2409.06083v1 )

ライセンス: Link先を確認
Laetitia P. Bettmann, John Goold, (参考訳) 最近の進歩は、情報幾何学と古典確率熱力学、特に時間に関するフィッシャー情報(FI)との新たなつながりを明らかにしている。 ヒルベルト空間における量子フィッシャー計量の非特異性を認識し、任意の量子フィッシャー情報(QFI)が計量非依存的非一貫性部分と計量依存的コヒーレント寄与に分解できるという事実を利用する。 我々は,任意のQFIの非コヒーレント成分がエントロピー加速度に直結し,局所的な詳細バランスを持つGKSL力学に対して,一般化熱力学力とエントロピー流の変化率と,古典的な結果と平行に一致することを実証した。 さらに、状態空間における経路の幾何的不確かさと情報変化の時間積分率との古典的不確実性関係も量子系において成り立つことを示す。 我々は、コヒーレント力学による幾何学的作用から生じる非負の量子寄与を組み込むことにより、非平衡過程のエントロピー速度に縛られる古典幾何学的幾何学的境界を一般化する。 最後に、最近提案された量子熱力学Mpemba効果に情報幾何学的解析を適用し、この枠組みが熱力学現象を捉える能力を示す。

Recent advancements have revealed new links between information geometry and classical stochastic thermodynamics, particularly through the Fisher information (FI) with respect to time. Recognizing the non-uniqueness of the quantum Fisher metric in Hilbert space, we exploit the fact that any quantum Fisher information (QFI) can be decomposed into a metric-independent incoherent part and a metric-dependent coherent contribution. We demonstrate that the incoherent component of any QFI can be directly linked to entropic acceleration, and for GKSL dynamics with local detailed balance, to the rate of change of generalized thermodynamic forces and entropic flow, paralleling the classical results. Furthermore, we show that the classical uncertainty relation between the geometric uncertainty of a path in state space and the time-integrated rate of information change also holds for quantum systems. We generalise a classical geometric bound on the entropy rate for far-from-equilibrium processes by incorporating a non-negative quantum contribution that arises from the geometric action due to coherent dynamics. Finally, we apply an information-geometric analysis to the recently proposed quantum-thermodynamic Mpemba effect, demonstrating this framework's ability to capture thermodynamic phenomena.
翻訳日:2024-09-11 19:40:45 公開日:2024-09-09
# 対称性制約ニューラルネットワークによる金属板の損傷検出と局所化

Symmetry constrained neural networks for detection and localization of damage in metal plates ( http://arxiv.org/abs/2409.06084v1 )

ライセンス: Link先を確認
James Amarel, Christopher Rudolf, Athanasios Iliopoulos, John Michopoulos, Leslie N. Smith, (参考訳) 本稿では,薄板の損傷検出と局所化に応用した深層学習技術について述べる。 プレート4個の圧電トランスデューサを装着してテーブル上装置上に生成したデータを用いてラム波を発生させ,残りの3つのセンサが受信する前に関心領域をトラバースした。 プレートガイド波が接触荷重と相互作用するたびに損傷反射特性を示す材料応答の時系列データを分析するニューラルネットワークのトレーニングにおいて, 3.14 \pm 0.21$ mm平均距離誤差で局所化したモデルに加えて, 99%以上の精度で検出し, 回折限界内で試験例の60%以上をキャプチャした。 各タスクに対して、最も性能の良いモデルは、トランスデューサがほぼ均一なプレート上の正方形パターンに類似し配置されているという帰納バイアスに基づいて設計された。

The present paper is concerned with deep learning techniques applied to detection and localization of damage in a thin aluminum plate. We used data generated on a tabletop apparatus by mounting to the plate four piezoelectric transducers, each of which took turn to generate a Lamb wave that then traversed the region of interest before being received by the remaining three sensors. On training a neural network to analyze time-series data of the material response, which displayed damage-reflective features whenever the plate guided waves interacted with a contact load, we achieved a model that detected with greater than 99% accuracy in addition to a model that localized with $3.14 \pm 0.21$ mm mean distance error and captured more than 60% of test examples within the diffraction limit. For each task, the best-performing model was designed according to the inductive bias that our transducers were both similar and arranged in a square pattern on a nearly uniform plate.
翻訳日:2024-09-11 19:40:45 公開日:2024-09-09
# PDEと機械学習の障壁を越えた微分プログラミング

Differentiable programming across the PDE and Machine Learning barrier ( http://arxiv.org/abs/2409.06085v1 )

ライセンス: Link先を確認
Nacime Bouziani, David A. Ham, Ado Farsi, (参考訳) 機械学習と物理法則の組み合わせは、偏微分方程式(PDE)によって導かれる科学問題を、高速推論、ゼロショット一般化、新しい物理を発見する能力によって解決する大きな可能性を示している。 例えば、機械学習アルゴリズムの帰納的バイアスとしての基本的な物理法則の使用(物理駆動機械学習とも呼ばれる)や、未解決時空間スケールの閉包のような微分方程式で表現されない特徴を表現する機械学習の適用がある。 しかし、PDEの高度な数値と最先端の機械学習を結合して複雑な物理システムのシミュレーションを行うには、専門的なPDE問題解決フレームワークと業界標準の機械学習ツールを組み合わせる必要がある。 PDEソルバまたはニューラルネットのハンドローリングは、それを切断しない。 本研究では,機械学習とPDEベースのコンポーネントを結合したエンドツーエンドの差別化可能なモデルを,高性能なコード生成に頼りながら,科学者や技術者に極めて生産性の高い方法で記述する,汎用的な差別化可能なプログラミング抽象化を導入する。 私たちのインターフェースは任意のPDEベースのシステムと機械学習モデルの結合を自動化し、取り組まなかった新しいアプリケーションをアンロックします。 私たちのフレームワークはFiredrakeの有限要素ライブラリに採用され、PyTorchおよびJAXエコシステムと下流ライブラリをサポートしています。

The combination of machine learning and physical laws has shown immense potential for solving scientific problems driven by partial differential equations (PDEs) with the promise of fast inference, zero-shot generalisation, and the ability to discover new physics. Examples include the use of fundamental physical laws as inductive bias to machine learning algorithms, also referred to as physics-driven machine learning, and the application of machine learning to represent features not represented in the differential equations such as closures for unresolved spatiotemporal scales. However, the simulation of complex physical systems by coupling advanced numerics for PDEs with state-of-the-art machine learning demands the composition of specialist PDE solving frameworks with industry-standard machine learning tools. Hand-rolling either the PDE solver or the neural net will not cut it. In this work, we introduce a generic differentiable programming abstraction that provides scientists and engineers with a highly productive way of specifying end-to-end differentiable models coupling machine learning and PDE-based components, while relying on code generation for high performance. Our interface automates the coupling of arbitrary PDE-based systems and machine learning models and unlocks new applications that could not hitherto be tackled, while only requiring trivial changes to existing code. Our framework has been adopted in the Firedrake finite-element library and supports the PyTorch and JAX ecosystems, as well as downstream libraries.
翻訳日:2024-09-11 19:40:45 公開日:2024-09-09
# タスク親和性評価を用いたスケーラブルマルチタスク学習

Scalable Multitask Learning Using Gradient-based Estimation of Task Affinity ( http://arxiv.org/abs/2409.06091v1 )

ライセンス: Link先を確認
Dongyue Li, Aneesh Sharma, Hongyang R. Zhang, (参考訳) マルチタスク学習は、グラフニューラルネットワークから言語モデルの微調整まで、さまざまなタスクのモデルをトレーニングするために広く使われているパラダイムである。 タスクは互いに干渉する可能性があるため、それらの関係をモデル化するための重要な概念はタスク親和性である。 これには、タスクのペア間で計算される対のタスク親和性、タスクのサブセット間で計算される高次の親和性が含まれる。 いずれの計算も、計算集約的な様々なタスクの組み合わせからのデータに対する繰り返しの訓練を必要とする。 本稿では,この繰り返し学習を伴わずにタスク親和性を推定できる新しいアルゴリズムGrad-TAGを提案する。 Grad-TAGのキーとなるアイデアは、すべてのタスクに対して"ベース"モデルをトレーニングし、それから線形化手法を使用して、特定のタスクの組み合わせに対するモデルの損失を見積もることである。 線形化は、勾配に基づく損失の近似を計算し、勾配の低次元投影をロジスティック回帰の特徴として利用して、タスクの組み合わせのラベルを予測する。 線形化モデルは勾配に基づく近似が正確であるときの損失を確実に近似でき、また複数の大規模モデル上でそれを実証的に検証できることを示す。 そして,推定タスク親和性を考慮して,クラスタの平均密度を最大化し,類似タスクをクラスタ化する半定プログラムを設計する。 グラフ上の複数ラベル分類や言語モデルの微調整を含む7つのデータセット間でGrad-TAGの性能を評価する。 我々のタスク親和性評価は、真の親和性から2.7%以内であり、フルトレーニングでは、FLOPの3%しか必要としない。 21Mのエッジと500のラベリングタスクを持つ我々の最大のグラフでは、我々のアルゴリズムは112GPU時間のみを使用して、真の親和性から5%以内の距離で推定を行う。 以上の結果から,Grad-TAGは既存手法と比較して優れた性能と実行時トレードオフを実現していることがわかった。

Multitask learning is a widely used paradigm for training models on diverse tasks, with applications ranging from graph neural networks to language model fine-tuning. Since tasks may interfere with each other, a key notion for modeling their relationships is task affinity. This includes pairwise task affinity, computed among pairs of tasks, and higher-order affinity, computed among subsets of tasks. Naively computing either of them requires repeatedly training on data from various task combinations, which is computationally intensive. We present a new algorithm Grad-TAG that can estimate task affinities without this repeated training. The key idea of Grad-TAG is to train a "base" model for all tasks and then use a linearization technique to estimate the loss of the model for a specific task combination. The linearization works by computing a gradient-based approximation of the loss, using low-dimensional projections of gradients as features in a logistic regression to predict labels for the task combination. We show that the linearized model can provably approximate the loss when the gradient-based approximation is accurate, and also empirically verify that on several large models. Then, given the estimated task affinity, we design a semi-definite program for clustering similar tasks by maximizing the average density of clusters. We evaluate Grad-TAG's performance across seven datasets, including multi-label classification on graphs, and instruction fine-tuning of language models. Our task affinity estimates are within 2.7% distance to the true affinities while needing only 3% of FLOPs in full training. On our largest graph with 21M edges and 500 labeling tasks, our algorithm delivers estimates within 5% distance to the true affinities, using only 112 GPU hours. Our results show that Grad-TAG achieves excellent performance and runtime tradeoffs compared to existing approaches.
翻訳日:2024-09-11 19:40:45 公開日:2024-09-09
# 教師なし楽音伝達のための潜時拡散ブリッジ

Latent Diffusion Bridges for Unsupervised Musical Audio Timbre Transfer ( http://arxiv.org/abs/2409.06096v1 )

ライセンス: Link先を確認
Michele Mancusi, Yurii Halychansky, Kin Wai Cheuk, Chieh-Hsin Lai, Stefan Uhlich, Junghyun Koo, Marco A. Martínez-Ramírez, Wei-Hsiang Liao, Giorgio Fabbro, Yuhki Mitsufuji, (参考訳) 音楽の音色伝達は、旋律構造を保ちながら、音声信号の音色特性を変更するという難題である。 本稿では,ココホラレスデータセットを用いて訓練された二重拡散ブリッジに基づく新しい手法を提案する。 各拡散モデルは、ガウス事前を持つ特定の楽器で訓練される。 推測中、入力オーディオを対応するガウス先行にマッピングするソースモデルとしてモデルが指定され、ターゲットモデルとして別のモデルが指定され、このガウス先行からターゲットオーディオを再構成し、音色伝達を容易にする。 VAEGAN や Gaussian Flow Bridges (GFB) のような既存の教師なし音色伝達モデルとの比較を行った。 Fr'echet Audio Distance (FAD) とメロディ保存をVAEGANとGFBと比較して低ピッチ距離 (DPD) で再現できることを示す実験結果を得た。 さらに,ガウス前の音レベルである$\sigma$はメロディ保存の程度と音色伝達量を制御するために調整できることがわかった。

Music timbre transfer is a challenging task that involves modifying the timbral characteristics of an audio signal while preserving its melodic structure. In this paper, we propose a novel method based on dual diffusion bridges, trained using the CocoChorales Dataset, which consists of unpaired monophonic single-instrument audio data. Each diffusion model is trained on a specific instrument with a Gaussian prior. During inference, a model is designated as the source model to map the input audio to its corresponding Gaussian prior, and another model is designated as the target model to reconstruct the target audio from this Gaussian prior, thereby facilitating timbre transfer. We compare our approach against existing unsupervised timbre transfer models such as VAEGAN and Gaussian Flow Bridges (GFB). Experimental results demonstrate that our method achieves both better Fr\'echet Audio Distance (FAD) and melody preservation, as reflected by lower pitch distances (DPD) compared to VAEGAN and GFB. Additionally, we discover that the noise level from the Gaussian prior, $\sigma$, can be adjusted to control the degree of melody preservation and amount of timbre transferred.
翻訳日:2024-09-11 19:40:45 公開日:2024-09-09
# ClarQ-LLM:タスク指向ダイアログにおける情報の明確化と要求のためのベンチマーク

ClarQ-LLM: A Benchmark for Models Clarifying and Requesting Information in Task-Oriented Dialog ( http://arxiv.org/abs/2409.06097v1 )

ライセンス: Link先を確認
Yujian Gan, Changling Li, Jinxia Xie, Luou Wen, Matthew Purver, Massimo Poesio, (参考訳) ClarQ-LLMはバイリンガルな英語と中国語の会話タスク、会話エージェント、評価指標からなる評価フレームワークで、タスク指向の対話において、エージェントが明確化を問う能力を評価するための強力なベンチマークとして機能するように設計されている。 ベンチマークには31の異なるタスクタイプが含まれており、それぞれに情報検索者とプロバイダエージェント間の10のユニークな対話シナリオがある。 シナリオでは、不確実性を解決するために質問をし、タスクを完了するために必要な情報を集める必要がある。 固定された対話内容に基づいてエージェントを評価する従来のベンチマークとは異なり、ClarQ-LLMには、ベンチマークで元のヒューマンプロバイダを複製するプロバイダ会話エージェントが含まれている。 これにより、現在の検索エージェントと将来の検索エージェントの両方が、プロバイダエージェントと直接対話することで、対話を通じて情報収集タスクを完了させる機能をテストすることができます。 LLAMA3.1 405B 探索剤は最大成功率は 60.05 % しかなく、ClarQ-LLM が将来の研究に強い挑戦をしていることを示している。

We introduce ClarQ-LLM, an evaluation framework consisting of bilingual English-Chinese conversation tasks, conversational agents and evaluation metrics, designed to serve as a strong benchmark for assessing agents' ability to ask clarification questions in task-oriented dialogues. The benchmark includes 31 different task types, each with 10 unique dialogue scenarios between information seeker and provider agents. The scenarios require the seeker to ask questions to resolve uncertainty and gather necessary information to complete tasks. Unlike traditional benchmarks that evaluate agents based on fixed dialogue content, ClarQ-LLM includes a provider conversational agent to replicate the original human provider in the benchmark. This allows both current and future seeker agents to test their ability to complete information gathering tasks through dialogue by directly interacting with our provider agent. In tests, LLAMA3.1 405B seeker agent managed a maximum success rate of only 60.05\%, showing that ClarQ-LLM presents a strong challenge for future research.
翻訳日:2024-09-11 19:40:45 公開日:2024-09-09
# LSE-NeRF:RGBイベントステレオを用いた分解型ニューラルラディアンスフィールドの学習センサモデリング誤差

LSE-NeRF: Learning Sensor Modeling Errors for Deblured Neural Radiance Fields with RGB-Event Stereo ( http://arxiv.org/abs/2409.06104v1 )

ライセンス: Link先を確認
Wei Zhi Tang, Daniel Rebain, Kostantinos G. Derpanis, Kwang Moo Yi, (参考訳) 本稿では,高速なカメラモーションを伴ってもクリアなニューラル放射場(NeRF)を再構築する手法を提案する。 ぼやけたアーティファクトに対処するために、両眼で捉えたRGB画像とイベントカメラデータの両方を利用する。 重要なことは、クリアなNeRFを再構築する際には、単純なピンホールカメラモデルから生じる欠陥をカメラ計測毎に学習した埋め込みとして考慮し、さらに、イベントカメラ計測とRGBデータとを結びつけるマッパーを学ぶことである。 両眼設定に以前のデータセットがないため、RGBとイベントカメラの間の3Dプリントステレオ構成からキャプチャーされたイベントカメラデータセットを導入します。 実験により,導入したデータセットとEVIMOv2を評価し,再現性の向上につながることを示す。 私たちのコードとデータセットはhttps://github.com/ubc-vision/LSENeRF.orgで公開されています。

We present a method for reconstructing a clear Neural Radiance Field (NeRF) even with fast camera motions. To address blur artifacts, we leverage both (blurry) RGB images and event camera data captured in a binocular configuration. Importantly, when reconstructing our clear NeRF, we consider the camera modeling imperfections that arise from the simple pinhole camera model as learned embeddings for each camera measurement, and further learn a mapper that connects event camera measurements with RGB data. As no previous dataset exists for our binocular setting, we introduce an event camera dataset with captures from a 3D-printed stereo configuration between RGB and event cameras. Empirically, we evaluate our introduced dataset and EVIMOv2 and show that our method leads to improved reconstructions. Our code and dataset are available at https://github.com/ubc-vision/LSENeRF.
翻訳日:2024-09-11 19:30:39 公開日:2024-09-09
# SGC-VQGAN:Semantic Guided Clustering Codebookによる複雑なシーン表現を目指して

SGC-VQGAN: Towards Complex Scene Representation via Semantic Guided Clustering Codebook ( http://arxiv.org/abs/2409.06105v1 )

ライセンス: Link先を確認
Chenjing Ding, Chiyu Wang, Boshi Liu, Xi Guo, Weixuan Tang, Wei Wu, (参考訳) ベクトル量子化(VQ)は、離散コードブック表現を通じて特徴を決定論的に学習する手法である。 近年の研究では、視覚トークン化器を用いて視覚領域を識別し、自己教師付き表現学習を行っている。 しかし、これらのトークン化の顕著な制限はセマンティクスの欠如である。 さらに、不均衡なコードブックの配布やコードブックの崩壊といった問題は、非効率なコードブックの利用によってパフォーマンスに悪影響を及ぼす可能性がある。 これらの課題に対処するため、SGC-VQGANをセマンティックオンラインクラスタリング法で導入し、一貫性セマンティックラーニングによるトークンセマンティクスを強化する。 セグメンテーションモデルによる推論結果を利用して,コードブックの崩壊問題と不均衡なトークンセマンティクスに対処し,時間空間的に一貫したセマンティクスコードブックを構築する。 提案したピラミッド特徴学習パイプラインは、画像の詳細と意味の両方を同時にキャプチャするマルチレベル機能を統合している。 その結果、SGC-VQGANは、再構成品質と様々な下流タスクの両方においてSOTA性能を達成する。 その単純さは、追加のパラメータ学習を必要とせず、下流タスクに直接適用でき、大きな可能性を示す。

Vector quantization (VQ) is a method for deterministically learning features through discrete codebook representations. Recent works have utilized visual tokenizers to discretize visual regions for self-supervised representation learning. However, a notable limitation of these tokenizers is lack of semantics, as they are derived solely from the pretext task of reconstructing raw image pixels in an auto-encoder paradigm. Additionally, issues like imbalanced codebook distribution and codebook collapse can adversely impact performance due to inefficient codebook utilization. To address these challenges, We introduce SGC-VQGAN through Semantic Online Clustering method to enhance token semantics through Consistent Semantic Learning. Utilizing inference results from segmentation model , our approach constructs a temporospatially consistent semantic codebook, addressing issues of codebook collapse and imbalanced token semantics. Our proposed Pyramid Feature Learning pipeline integrates multi-level features to capture both image details and semantics simultaneously. As a result, SGC-VQGAN achieves SOTA performance in both reconstruction quality and various downstream tasks. Its simplicity, requiring no additional parameter learning, enables its direct application in downstream tasks, presenting significant potential.
翻訳日:2024-09-11 19:30:39 公開日:2024-09-09
# Doppelgänger氏の時計: 大規模言語モデルに対する分割的客観的アプローチ

Doppelgänger's Watch: A Split Objective Approach to Large Language Models ( http://arxiv.org/abs/2409.06107v1 )

ライセンス: Link先を確認
Shervin Ghasemlou, Ashish Katiyar, Aparajita Saraf, Seungwhan Moon, Mangesh Pujari, Pinar Donmez, Babak Damavandi, Anuj Kumar, (参考訳) 本稿では,大規模言語モデルにおける「世代管理」の問題について検討し,その中核的能力,有用性から,監督信号を分離するための新しいバイカスタラルアーキテクチャを提案する。 Doppelg\"angerは、基礎となる言語モデルと平行な新しいモジュールで、各トークンの生成を監督し、各トークンを含むシーケンスの監視スコアを同時に予測することを学ぶ。 本研究は, 理論的知見を提示し, 実験結果の報告を今後の発表に残す。

In this paper, we investigate the problem of "generation supervision" in large language models, and present a novel bicameral architecture to separate supervision signals from their core capability, helpfulness. Doppelg\"anger, a new module parallel to the underlying language model, supervises the generation of each token, and learns to concurrently predict the supervision score(s) of the sequences up to and including each token. In this work, we present the theoretical findings, and leave the report on experimental results to a forthcoming publication.
翻訳日:2024-09-11 19:30:38 公開日:2024-09-09
# 形状光ポンプを用いた量子トランスデューサからの共役マイクロ波光子を効率よく捕捉する

Efficiently catching entangled microwave photons from a quantum transducer with shaped optical pumps ( http://arxiv.org/abs/2409.06108v1 )

ライセンス: Link先を確認
Changchun Zhong, (参考訳) 量子トランスデューサは、マイクロ波と光の絡み合い発生器として働く際に、光通信チャネルとマイクロ波量子プロセッサをコヒーレントに接続する実用的な方法を提供する。 マイクロ波と光子の絡み合いを検証する量子トランスデューサに関する最近の実験は、その目標に近づく可能性を示唆している。 空飛ぶ光子を効率的に制御したり検出したりできるが、マイクロ波光子は空洞に保管するか、超伝導量子ビットの励起に変換してさらなる量子演算を行う必要がある。 しかし、任意の時間プロファイルを持つ単一マイクロ波光子を効率的に捕捉または検出することは依然として困難である。 本研究は、絡み合いに基づく量子トランスデューサの設定におけるこの課題に焦点を当て、光ポンプパルスを形作る解を提案する。 シュミットは出力の絡み合った状態を分解することにより、マイクロ波-光子対が光ポンプによって制御される特定の時間プロファイルを取ることを示す。 トランスデューサからのマイクロ波光子は、調整可能なカップリングを持つ受信キャビティによって完全に吸収され、超伝導量子ビットの励起に変換される準備ができており、さらなる量子演算が可能である。

Quantum transducer, when working as a microwave and optical entanglement generator, provides a practical way of coherently connecting optical communication channels and microwave quantum processors. The recent experiments on quantum transducer verifying entanglement between microwave and optical photons show the promise of approaching that goal. While flying optical photons can be efficiently controlled or detected, the microwave photon needs to be stored in a cavity or converted to the excitation of superconducting qubit for further quantum operations. However, to efficiently capture or detect a single microwave photon with arbitrary time profile remains challenging. This work focuses on this challenge in the setting of entanglement-based quantum transducer and proposes a solution by shaping the optical pump pulse. By Schmidt decomposing the output entangled state, we show the microwave-optical photon pair takes a specific temporal profile that is controlled by the optical pump. The microwave photon from the transducer can be absorbed near perfectly by a receiving cavity with tunable coupling and is ready to be converted to the excitation of superconducting qubits, enabling further quantum operations.
翻訳日:2024-09-11 19:30:38 公開日:2024-09-09
# 離散音声ユニットの完全性の推定

Estimating the Completeness of Discrete Speech Units ( http://arxiv.org/abs/2409.06109v1 )

ライセンス: Link先を確認
Sung-Lin Yeh, Hao Tang, (参考訳) 離散単位による音声表現は音声コーデックや音声生成に広く用いられている。 しかし、k-meansで音声情報や話者情報を混同したり、k-means以降の情報損失を仮定したりするなど、自己管理された離散単位に関する不確実な主張がいくつかある。 本研究では,情報理論の観点を用いて,情報量(情報完全性)と情報量(情報アクセシビリティ)(情報アクセシビリティ)を,残差ベクトル量子化前後に求める。 残差ベクトル量子化後の離散化HuBERT表現に対して,情報完全性と推定完全性に対する低い境界を示す。 我々は,HuBERT離散単位には話者情報が十分に存在しており,残音には音声情報が十分存在しており,ベクトル量子化が絡み合っていないことを示す。 この結果から, 離散単位の選択に関する総合的な評価が得られ, 残余の情報は廃棄されるよりも多く掘り下げるべきであることが示唆された。

Representing speech with discrete units has been widely used in speech codec and speech generation. However, there are several unverified claims about self-supervised discrete units, such as disentangling phonetic and speaker information with k-means, or assuming information loss after k-means. In this work, we take an information-theoretic perspective to answer how much information is present (information completeness) and how much information is accessible (information accessibility), before and after residual vector quantization. We show a lower bound for information completeness and estimate completeness on discretized HuBERT representations after residual vector quantization. We find that speaker information is sufficiently present in HuBERT discrete units, and that phonetic information is sufficiently present in the residual, showing that vector quantization does not achieve disentanglement. Our results offer a comprehensive assessment on the choice of discrete units, and suggest that a lot more information in the residual should be mined rather than discarded.
翻訳日:2024-09-11 19:30:38 公開日:2024-09-09
# PaRCE: 認識不確かさ下での安全ナビゲーションのための確率的・再構成に基づくコンピテンシー推定

PaRCE: Probabilistic and Reconstruction-Based Competency Estimation for Safe Navigation Under Perception Uncertainty ( http://arxiv.org/abs/2409.06111v1 )

ライセンス: Link先を確認
Sara Pohland, Claire Tomlin, (参考訳) 知覚に基づくナビゲーションシステムは、従来の深度に基づくナビゲーションスキームが不十分な複雑な地形における無人地上車両(UGV)ナビゲーションに有用である。 しかし、これらのデータ駆動手法はトレーニングデータに大きく依存しており、驚くべき、劇的な方法で失敗する可能性がある。 車両及び周辺環境の安全性を確保するため、ナビゲーションシステムは、認識モデルの予測的不確実性を認識でき、不確実性に直面して安全かつ効果的に応答できることが不可欠である。 認識の不確実性の下で安全なナビゲーションを可能にするため,確率的・再構成型能力推定法(PaRCE)を開発し,入力画像全体と画像内の特定領域との親しみ度を推定する。 総合能力スコアは, 正しく分類され, 誤分類され, アウト・オブ・ディストリビューション (OOD) のサンプルを正確に予測できることがわかった。 また,地域能力マップは画像間で親しみやすい地域と不慣れな地域を正確に区別できることを確認した。 次に、この能力情報を用いて、エラーの確率を低く保ちながら効果的なナビゲーションを可能にする計画制御方式を開発する。 能力認識方式は,能力意識のないベースラインコントローラに比べて,不慣れな障害物と衝突する回数を大幅に減少させることがわかった。 さらに、地域能力情報は、効率的なナビゲーションを可能にする上で非常に貴重である。

Perception-based navigation systems are useful for unmanned ground vehicle (UGV) navigation in complex terrains, where traditional depth-based navigation schemes are insufficient. However, these data-driven methods are highly dependent on their training data and can fail in surprising and dramatic ways with little warning. To ensure the safety of the vehicle and the surrounding environment, it is imperative that the navigation system is able to recognize the predictive uncertainty of the perception model and respond safely and effectively in the face of uncertainty. In an effort to enable safe navigation under perception uncertainty, we develop a probabilistic and reconstruction-based competency estimation (PaRCE) method to estimate the model's level of familiarity with an input image as a whole and with specific regions in the image. We find that the overall competency score can correctly predict correctly classified, misclassified, and out-of-distribution (OOD) samples. We also confirm that the regional competency maps can accurately distinguish between familiar and unfamiliar regions across images. We then use this competency information to develop a planning and control scheme that enables effective navigation while maintaining a low probability of error. We find that the competency-aware scheme greatly reduces the number of collisions with unfamiliar obstacles, compared to a baseline controller with no competency awareness. Furthermore, the regional competency information is very valuable in enabling efficient navigation.
翻訳日:2024-09-11 19:30:38 公開日:2024-09-09
# 非エルミート時間結晶の量子回路実現における雑音の影響

Effect of noise on quantum circuit realization of non-Hermitian time crystals ( http://arxiv.org/abs/2409.06113v1 )

ライセンス: Link先を確認
Weihua Xie, Michael Kolodrubetz, Vadim Oganesyan, (参考訳) 非エルミート量子力学は、ユニタリハミルトニアン力学とトレース保存非単位量子系力学の中間状態にある。 ユニタリ力学と非ユニタリ力学の耐雑音性の違いを考えると、ノイジー量子コンピュータにおける非エルミート力学の実装を考えることは興味深い。 本稿では,多体ダイナミクスが時間結晶性の形式である持続時間振動を生じさせる非エルミートイジング・フロケモデルについて述べる。 最も単純な2つの量子ビットの場合、ある微調整点において無限に長寿命の周期定常状態が存在する。 これらの振動は、理想的非エルミート力学のパラメータや、現代の量子デバイスで期待されるノイズや不完全性のレベルに対して、合理的に長寿命である。 一般化されたフロッケ解析を用いて、一般的な雑音の任意の弱値に対して無限長の振動が一般に失われ、それに対応する減衰率が計算されることを示す。 我々は,IBMのQiskitプラットフォームを用いてシミュレーションを行い,実験結果を確認した。

Non-Hermitian quantum dynamics lie in an intermediate regime between unitary Hamiltonian dynamics and trace-preserving non-unitary open quantum system dynamics. Given differences in the noise tolerance of unitary and non-unitary dynamics, it is interesting to consider implementing non-Hermitian dynamics on a noisy quantum computer. In this paper, we do so for a non-Hermitian Ising Floquet model whose many-body dynamics gives rise to persistent temporal oscillations, a form of time crystallinity. In the simplest two qubit case that we consider, there is an infinitely long-lived periodic steady state at certain fine-tuned points. These oscillations remain reasonably long-lived over a range of parameters in the ideal non-Hermitean dynamics and for the levels of noise and imperfection expected of modern day quantum devices. Using a generalized Floquet analysis, we show that infinitely long-lived oscillations are generically lost for arbitrarily weak values of common types of noise and compute corresponding damping rate. We perform simulations using IBM's Qiskit platform to confirm our findings; however, experiments on a real device (ibmq-lima) do not show remnants of these oscillations.
翻訳日:2024-09-11 19:30:38 公開日:2024-09-09
# NeIn: 望まないことを伝える

NeIn: Telling What You Don't Want ( http://arxiv.org/abs/2409.06481v1 )

ライセンス: Link先を確認
Nhat-Tan Bui, Dinh-Hieu Hoang, Quoc-Huy Trinh, Minh-Triet Tran, Truong Nguyen, Susan Gauch, (参考訳) 否定は、人間が望まない情報を伝達するために使用する基本的な言語概念である。 それにもかかわらず、視覚言語タスクにおける否定に焦点を当てた最小限の研究がある。 この研究の欠如は、視覚言語モデル(VLM)が否定を理解するのに苦労し、正確な結果を提供するのに苦労していることを意味する。 人間のレベルの知性を達成するための障壁の1つは、否定の研究を評価するための標準収集の欠如である。 本稿では,視覚言語領域内の否定を研究するための,最初の大規模データセットNegative Instruction(NeIn)を提案する。 私たちのデータセットは、ソースイメージ、オリジナルキャプション、否定文、ターゲットイメージの合計で530,694の4倍、トレーニング用の495,694のクエリと、複数の視覚言語タスクのベンチマークのための35,000のクエリで構成されています。 具体的には、大規模なビジョン言語データセットであるMS-COCOに基づいて、生成とフィルタリングという2つのステップでNeInを自動的に生成する。 生成フェーズでは、BLIPとMagicBrushという2つのVLMを利用してターゲット画像を生成し、ソース画像の内容を表す負の節を生成する。 その後のフィルタリングでは、BLIPを用いて誤サンプルを除去する。 さらに,画像編集モデルの否定的理解のための評価プロトコルを導入する。 命令ベースの画像編集タスクに複数のVLMにまたがるデータセットを用いた大規模な実験により、最近の最先端のVLMでさえ負のクエリを理解するのに苦労していることが示された。 プロジェクトページは以下の通り。

Negation is a fundamental linguistic concept used by humans to convey information that they do not desire. Despite this, there has been minimal research specifically focused on negation within vision-language tasks. This lack of research means that vision-language models (VLMs) may struggle to understand negation, implying that they struggle to provide accurate results. One barrier to achieving human-level intelligence is the lack of a standard collection by which research into negation can be evaluated. This paper presents the first large-scale dataset, Negative Instruction (NeIn), for studying negation within the vision-language domain. Our dataset comprises 530,694 quadruples, i.e., source image, original caption, negative sentence, and target image in total, including 495,694 queries for training and 35,000 queries for benchmarking across multiple vision-language tasks. Specifically, we automatically generate NeIn based on a large, existing vision-language dataset, MS-COCO, via two steps: generation and filtering. During the generation phase, we leverage two VLMs, BLIP and MagicBrush, to generate the target image and a negative clause that expresses the content of the source image. In the subsequent filtering phase, we apply BLIP to remove erroneous samples. Additionally, we introduce an evaluation protocol for negation understanding of image editing models. Extensive experiments using our dataset across multiple VLMs for instruction-based image editing tasks demonstrate that even recent state-of-the-art VLMs struggle to understand negative queries. The project page is: https://tanbuinhat.github.io/NeIn/
翻訳日:2024-09-11 17:48:44 公開日:2024-09-09
# UAVDB: UAV検出のための軌道誘導適応バウンディングボックス

UAVDB: Trajectory-Guided Adaptable Bounding Boxes for UAV Detection ( http://arxiv.org/abs/2409.06490v1 )

ライセンス: Link先を確認
Yu-Hsi Chen, (参考訳) ドローン技術の急速な発展に伴い、無人航空機(UAV)の正確な検出は、監視、セキュリティ、空域管理といった用途に欠かせないものとなっている。 本稿では,UAV検出タスクのための高忠実なバウンディングボックスを生成し,ラベル付けに要する労力を不要とする,新しいトラジェクトリ誘導手法であるPatch Intensity Convergence(PIC)手法を提案する。 PIC技術は、UAV検出のために明示的に作成されたデータベースであるUAVDBの開発基盤を形成する。 解像度の低い映像や単純な背景でUAVに注目する既存のデータセットとは異なり、UAVDBは数百ピクセルからほぼ1桁のサイズまで、さまざまなスケールでUAVをキャプチャするために高解像度のビデオを使用している。 この広範囲な変動は、異なるUAVサイズと距離にわたる検出アルゴリズムの包括的評価を可能にする。 PIC技術を用いることで、サイズ情報なしでも軌道データや位置データから検出データセットを効率的に生成できる。 YOLOv8シリーズ検出器を用いてUAVDBを広範囲にベンチマークし、詳細な性能解析を行った。 以上の結果から,UAVDBがUAV検出に欠かせない可能性,特に高分解能・長距離追跡のシナリオにおいて顕著であった。

With the rapid development of drone technology, accurate detection of Unmanned Aerial Vehicles (UAVs) has become essential for applications such as surveillance, security, and airspace management. In this paper, we propose a novel trajectory-guided method, the Patch Intensity Convergence (PIC) technique, which generates high-fidelity bounding boxes for UAV detection tasks and no need for the effort required for labeling. The PIC technique forms the foundation for developing UAVDB, a database explicitly created for UAV detection. Unlike existing datasets, which often use low-resolution footage or focus on UAVs in simple backgrounds, UAVDB employs high-resolution video to capture UAVs at various scales, ranging from hundreds of pixels to nearly single-digit sizes. This broad-scale variation enables comprehensive evaluation of detection algorithms across different UAV sizes and distances. Applying the PIC technique, we can also efficiently generate detection datasets from trajectory or positional data, even without size information. We extensively benchmark UAVDB using YOLOv8 series detectors, offering a detailed performance analysis. Our findings highlight UAVDB's potential as a vital database for advancing UAV detection, particularly in high-resolution and long-distance tracking scenarios.
翻訳日:2024-09-11 17:48:44 公開日:2024-09-09
# テキスト・画像拡散モデルにおける最適逆幅トレードオフの解明

Elucidating Optimal Reward-Diversity Tradeoffs in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2409.06493v1 )

ライセンス: Link先を確認
Rohit Jena, Ali Taghibakhshi, Sahil Jain, Gerald Shen, Nima Tajbakhsh, Arash Vahdat, (参考訳) テキスト・ツー・イメージ(T2I)拡散モデルは,テキスト・プロンプトから高忠実度画像を生成するための重要なツールとなっている。 しかし、フィルタリングされていないインターネットデータで訓練すると、これらのモデルは人間の好みに合わない、安全でない、不正確で、スタイリスティックに望ましくない画像を生成することができる。 これを解決するために、最近のアプローチでは、人間の嗜好データセットを微調整T2Iモデルや、これらの選好をキャプチャする報酬関数の最適化に取り入れている。 有効ではあるが、これらの手法は、モデルが報酬関数に過度に適合するハックに対して脆弱であり、生成された画像の多様性が失われる。 本稿では、報酬ハッキングの必然性を証明し、KL発散やLoRAスケーリングのような自然な正規化手法と拡散モデルの制限について研究する。 また,Annealed Importance Guidance(AIG)についても紹介する。これはAnnealed Importance Samplingにインスパイアされた推論時正規化であり,Pareto-Optimal reward-diversityのトレードオフを達成しつつベースモデルの多様性を維持している。 安定拡散モデルに対するAIGの利点を実証し、報酬最適化と画像の多様性の最適なバランスを図った。 さらに,ユーザスタディでは,AIGが様々なモデルアーキテクチャや報酬関数にまたがる生成画像の多様性と品質を改善することを確認している。

Text-to-image (T2I) diffusion models have become prominent tools for generating high-fidelity images from text prompts. However, when trained on unfiltered internet data, these models can produce unsafe, incorrect, or stylistically undesirable images that are not aligned with human preferences. To address this, recent approaches have incorporated human preference datasets to fine-tune T2I models or to optimize reward functions that capture these preferences. Although effective, these methods are vulnerable to reward hacking, where the model overfits to the reward function, leading to a loss of diversity in the generated images. In this paper, we prove the inevitability of reward hacking and study natural regularization techniques like KL divergence and LoRA scaling, and their limitations for diffusion models. We also introduce Annealed Importance Guidance (AIG), an inference-time regularization inspired by Annealed Importance Sampling, which retains the diversity of the base model while achieving Pareto-Optimal reward-diversity tradeoffs. Our experiments demonstrate the benefits of AIG for Stable Diffusion models, striking the optimal balance between reward optimization and image diversity. Furthermore, a user study confirms that AIG improves diversity and quality of generated images across different model architectures and reward functions.
翻訳日:2024-09-11 17:48:44 公開日:2024-09-09
# 異なるn-タプル離散時間結晶間の相転移からのサブスペース-熱的離散時間結晶

Subspace-thermal discrete time crystals from phase transitions between different n-tuple discrete time crystals ( http://arxiv.org/abs/2409.02848v2 )

ライセンス: Link先を確認
Hongye Yu, Tzu-Chieh Wei, (参考訳) 駆動周期の任意の倍数に対応する新しいフロケット時間結晶モデルを提案する。 このような$n$-tupleの離散時間結晶は、乱れた鎖のスピンを置換することによって理論的に構築され、実験的な実装に適している。 これらの周期の異なる時間結晶間の遷移は、サブスペース-熱的離散時間結晶と呼ばれる新しい物質相を生じさせ、サブスペース内の状態は早い段階で完全に熱化される。 しかし、システム全体が依然として周期的な運転の低調波に強く反応し、この期間は元々の2つの期間の最大公約数である。 既成の多体局在理論解析では、そのような部分空間-熱的時間結晶相の剛性は理解できない。 これを解決するために、ロバストな$2\pi/n$準エネルギーギャップの観点から新しい理論的枠組みを開発する。 その堅牢性は、有理予想の下で、ユニタリ作用素に対する新しい摂動理論によって解析的に証明される。 この証明は、混乱したシステムを蹴り上げることによって実現された他の既存の離散時間結晶のモデルを超えて適用され、新しい離散時間結晶モデルを構築する体系的な方法を提供する。 また、DTCチャージの概念を導入し、通常の離散時間結晶とサブスペース-熱的離散時間結晶の両方において、自発的に時間-翻訳対称性を破る観測可能なものを探索する。 さらに、我々の離散時間結晶モデルは、より高次元のスピン等級やクアディットに一般化することができる。

We propose a new Floquet time crystal model that responds in arbitrary multiples of the driving period. Such an $n$-tuple discrete time crystal is theoretically constructed by permuting spins in a disordered chain and is well suited for experiment implementations. Transitions between these time crystals with different periods give rise to a novel phase of matter that we call subspace-thermal discrete time crystals, where states within subspaces are fully thermalized at an early time. However, the whole system still robustly responds to the periodic driving subharmonically, with a period being the greatest common divisor of the original two periods. Existing theoretical analysis from many-body localization fails to understand the rigidity of such subspace-thermal time crystal phases. To resolve this, we develop a new theoretical framework from the perspective of the robust $2\pi/n$ quasi-energy gap. Its robustness is analytically proved, under a reasonable conjecture, by a new perturbation theory for unitary operators. The proof applies beyond the models considered here to other existing discrete time crystals realized by kicking disordered systems, thus offering a systematic way to construct new discrete time crystal models. We also introduce the notion of DTC-charges that allow us to probe the observables that spontaneously break the time-translation symmetry in both the regular discrete time crystals and subspace-thermal discrete time crystals. Moreover, our discrete time crystal models can be generalized to higher spin magnitudes or qudits, as well as higher spatial dimensions.
翻訳日:2024-09-11 12:24:07 公開日:2024-09-09
# Hermes:エッジデバイス上の大規模モデルに対するメモリ効率の良いパイプライン推論

Hermes: Memory-Efficient Pipeline Inference for Large Models on Edge Devices ( http://arxiv.org/abs/2409.04249v2 )

ライセンス: Link先を確認
Xueyuan Han, Zinuo Cai, Yichu Zhang, Chongxin Fan, Junhan Liu, Ruhui Ma, Rajkumar Buyya, (参考訳) トランスフォーマーベースの大規模モデルの応用は近年、多くの成功を収めている。 しかし,大規模モデルのパラメータの指数関数的増加は,エッジ展開に強い記憶障害をもたらす。 この課題に対処する以前の作業は、主にモデル構造を最適化し、メモリスワップメソッドを採用することに焦点を当てていた。 しかし、前者は推論精度を低下させ、後者は推論遅延を増大させる。 本稿では,メモリ効率の高いパイプライン実行機構であるPIPELOADを紹介する。 動的メモリ管理を取り入れることでメモリ使用量を削減し、並列モデルローディングを利用することで推論遅延を最小限にする。 PIPELOAD機構に基づいて,エッジデバイス上での大規模モデル推論に最適化されたHermesを提案する。 異なるサイズのトランスフォーマーモデル上でHermesを評価する。 提案実験は,BERTモデルとViTモデルにおける最新のパイプライン機構よりも最大4.24倍の推論速度,86.7%のメモリ消費,2.58倍の推論速度,90.3%のGPTモデルにおけるメモリ消費を実現していることを示す。

The application of Transformer-based large models has achieved numerous success in recent years. However, the exponential growth in the parameters of large models introduces formidable memory challenge for edge deployment. Prior works to address this challenge mainly focus on optimizing the model structure and adopting memory swapping methods. However, the former reduces the inference accuracy, and the latter raises the inference latency. This paper introduces PIPELOAD, a novel memory-efficient pipeline execution mechanism. It reduces memory usage by incorporating dynamic memory management and minimizes inference latency by employing parallel model loading. Based on PIPELOAD mechanism, we present Hermes, a framework optimized for large model inference on edge devices. We evaluate Hermes on Transformer-based models of different sizes. Our experiments illustrate that Hermes achieves up to 4.24 X increase in inference speed and 86.7% lower memory consumption than the state-of-the-art pipeline mechanism for BERT and ViT models, 2.58 X increase in inference speed and 90.3% lower memory consumption for GPT-style models.
翻訳日:2024-09-11 12:24:07 公開日:2024-09-09
# 工学設計のための説明可能なAI:エネルギー効率の良い建築設計によるシステム工学とコンポーネントベースディープラーニングの統一的アプローチ

Explainable AI for Engineering Design: A Unified Approach of Systems Engineering and Component- Based Deep Learning Demonstrated by Energy- Efficient Building Design ( http://arxiv.org/abs/2108.13836v7 )

ライセンス: Link先を確認
Philipp Geyer, Manav Mahan Singh, Xia Chen, (参考訳) 機械学習によって生成されたデータ駆動モデルは、設計とエンジニアリングのあらゆる分野において重要になる。 彼らは、より優れたパフォーマンスと持続可能性を備えた新しい人工物を作成する際に、意思決定者を支援する高い可能性を持っている。 しかしながら、これらのモデルの限定的な一般化とブラックボックスの性質は、限定的な説明可能性と再利用可能性をもたらす。 そこで我々は,機械学習(ML)による部分的コンポーネントモデル作成のためのコンポーネントベースアプローチを提案する。 このコンポーネントベースのアプローチは、ディープラーニングをシステム、エンジニアリング(SE)と整合させる。 コンポーネントベースのメソッドの重要な貢献は、コンポーネント間のインターフェイスでのアクティベーションが、解釈可能なエンジニアリング量であることである。 このように、階層的なコンポーネントシステムは、エンジニアリングや説明可能性のための情報を統合するディープニューラルネットワーク(DNN)を形成する。 アプローチは、モデル構造をシステム工学とドメイン知識の工学的手法に適応させる。 まず, 予測精度を解析することにより, コンポーネントベース手法のより優れた一般化を, トレーニングデータの外部で観測した。 特に, 構造が異なる代表設計では, 従来のモノリシック法に比べて, はるかに高い精度 (R2 = 0.94) を観測する(R2 = 0.71)。 次に、実例による説明可能性を説明し、SEとルールからの感度情報がどのように工学に役立つかを示す。 第3に、定性的および定量的手法による説明可能性の評価を行い、予備知識とデータ駆動型戦略の整合性を実証し、ホワイトボックスシミュレーション結果と比較して、コンポーネントインターフェースにおけるアクティベーションの正しさを示す(エンベロープコンポーネント: R2 = 0.92..0.99; ゾーン: R2 = 0.78.0.93)。

Data-driven models created by machine learning, gain in importance in all fields of design and engineering. They, have high potential to assist decision-makers in creating novel, artefacts with better performance and sustainability. However,, limited generalization and the black-box nature of these models, lead to limited explainability and reusability. To overcome this, situation, we propose a component-based approach to create, partial component models by machine learning (ML). This, component-based approach aligns deep learning with systems, engineering (SE). The key contribution of the component-based, method is that activations at interfaces between the components, are interpretable engineering quantities. In this way, the, hierarchical component system forms a deep neural network, (DNN) that a priori integrates information for engineering, explainability. The, approach adapts the model structure to engineering methods of, systems engineering and to domain knowledge. We examine the, performance of the approach by the field of energy-efficient, building design: First, we observed better generalization of the, component-based method by analyzing prediction accuracy, outside the training data. Especially for representative designs, different in structure, we observe a much higher accuracy, (R2 = 0.94) compared to conventional monolithic methods, (R2 = 0.71). Second, we illustrate explainability by exemplary, demonstrating how sensitivity information from SE and rules, from low-depth decision trees serve engineering. Third, we, evaluate explainability by qualitative and quantitative methods, demonstrating the matching of preliminary knowledge and data-driven, derived strategies and show correctness of activations at, component interfaces compared to white-box simulation results, (envelope components: R2 = 0.92..0.99; zones: R2 = 0.78..0.93).
翻訳日:2024-09-11 06:23:57 公開日:2024-09-09
# Bitcoinなどの暗号通貨におけるプライバシ保護手法の要約と分析

Summarizing and Analyzing the Privacy-Preserving Techniques in Bitcoin and other Cryptocurrencies ( http://arxiv.org/abs/2109.07634v3 )

ライセンス: Link先を確認
Chaitanya Rahalkar, Anushka Virgaonkar, (参考訳) Bitcoinや他の多くの類似の暗号通貨は10年以上前から存在しており、分散化され偽匿名の台帳ベースの取引に特化している。 多くのプロトコルの改善と変更により、Cryptocurrenciesの特徴的な特徴で知られている新しい変種が生み出された。 例えば、StorjcoinはProof-of-Storageベースの暗号通貨であり、それらが所有するストレージ量に基づいて仲間にインセンティブを与える。 Moneroのような暗号通貨は、プライバシー中心の暗号アルゴリズムを使ってユーザーのプライバシーを追求している。 Cryptocurrenciesは、トランザクションと台帳全体を公開することによって、ピア透明性を維持しようとしているが、ユーザのプライバシは時に侵害される。 Moneroや他の多くのプライバシ中心の暗号通貨は、プロトコルにいくつかの問題が見つかった後、元のBitcoinプロトコルから大幅に改善されている。 これらの欠陥のほとんどは、ユーザのプライバシに関連するものだった。 Bitcoinは偽匿名のユーザーIDを持っていると主張しているが、多くの攻撃はユーザーを匿名化することに成功している。 本稿では、Bitcoinや他の多くの類似の暗号通貨のプライバシーを侵害した、よく知られた攻撃と分析技術を紹介する。 また、異なるプライバシ保護アルゴリズムと、それらのアルゴリズムが解決した問題を分析し、研究する。 最後に、これらのプライバシーアルゴリズムを導入することの倫理、影響、合法性、受け入れについて触れる。

Bitcoin and many other similar Cryptocurrencies have been in existence for over a decade, prominently focusing on decentralized, pseudo-anonymous ledger-based transactions. Many protocol improvements and changes have resulted in new variants of Cryptocurrencies that are known for their peculiar characteristics. For instance, Storjcoin is a Proof-of-Storage-based Cryptocurrency that incentivizes its peers based on the amount of storage owned by them. Cryptocurrencies like Monero strive for user privacy by using privacy-centric cryptographic algorithms. While Cryptocurrencies strive to maintain peer transparency by making the transactions and the entire ledger public, user privacy is compromised at times. Monero and many other privacy-centric Cryptocurrencies have significantly improved from the original Bitcoin protocol after several problems were found in the protocol. Most of these deficiencies were related to the privacy of users. Even though Bitcoin claims to have pseudo-anonymous user identities, many attacks have managed to successfully de-anonymize users. In this paper, we present some well-known attacks and analysis techniques that have compromised the privacy of Bitcoin and many other similar Cryptocurrencies. We also analyze and study different privacy-preserving algorithms and the problems these algorithms manage to solve. Lastly, we touch upon the ethics, impact, legality, and acceptance of imposing these privacy algorithms.
翻訳日:2024-09-11 06:23:57 公開日:2024-09-09
# 複合・集束・光状態の一般化と応用

Generalising concentratable entanglement for practical applications: mixed, qudit, and optical states ( http://arxiv.org/abs/2112.04333v7 )

ライセンス: Link先を確認
Steph Foulds, Oliver Prove, Viv Kendon, (参考訳) 純粋な量子ビット状態に適用された絡み合いの検出と定量化のための制御SWAP試験は、状態の小さな誤差に対して堅牢であり、大規模な多ビット状態 [Foulds et al , QST 6 035002, 2021] に対して効率的である。 我々はこれを拡張し、関連する測度 \emph{concentratable entanglement} (CE) を量子情報処理における重要な実用的な応用を可能にする。 我々は,高次元(立方体)状態におけるテストの解析的確率式,多量子状態における2部切断の絡み合いの判定,およびいくつかの重要な絡み合い光学状態について述べる。 我々は、J. L. Beckey et al , Phys で与えられる収束可能な絡み合いの低い境界について検討する。 A 107, 062425 (2023) と、c-SWAPテストエラーに対して堅牢な混合状態集中型絡み合いの上界を予想する。 実験状態は常にわずかに混合されているため、我々の研究はc-SWAP試験とCE測定を絡み合いを特徴づける実験に適用するのに適している。

The controlled SWAP test for detecting and quantifying entanglement applied to pure qubit states is robust to small errors in the states, and efficient for large multi-qubit states [Foulds et al., QST 6 035002, 2021]. We extend this, and the related measure \emph{concentratable entanglement} (CE), to enable important practical applications in quantum information processing. We provide the analytical probability expressions for the test on higher dimensional (qudit) states, determination of entanglement across a bipartite cut in multi-qubit states, and some key types of entangled optical states. We investigate the lower bound of concentratable entanglement given in J. L. Beckey et al., Phys. Rev. A 107, 062425 (2023) and conjecture an upper bound of the mixed state concentrable entanglement that is robust to c-SWAP test errors. Since experimental states are always slightly mixed, our work makes the c-SWAP test and CE measure suitable for application in experiments to characterise entanglement.
翻訳日:2024-09-11 06:23:57 公開日:2024-09-09
# 頑健なリップシンクのためのデータ標準化

Data standardization for robust lip sync ( http://arxiv.org/abs/2202.06198v3 )

ライセンス: Link先を確認
Chun Wang, (参考訳) リップシンクは基本的なオーディオ・ビジュアルタスクである。 しかし、既存のリップシンクメソッドは、野生では堅牢ではない。 重要な原因の1つは、視覚入力側の要因を逸脱させることであり、唇の動き情報を抽出することが困難である。 これらの問題に対処するために,リップシンクのための視覚入力を標準化するデータ標準化パイプラインを提案する。 3次元顔再構成の最近の進歩に基づき,まず,原画像から連続的に唇の動き情報を解き放つモデルを作成する。 そして、入力から独立して予め定義された値に設定された注意因子に関連するその他の属性を全て含んで、アンタングルされた唇運動情報を用いて標準化画像を生成する。 合成画像を用いることで、既存のリップシンク法はデータ効率とロバスト性を向上し、アクティブな話者検出タスクの競合性能を達成する。

Lip sync is a fundamental audio-visual task. However, existing lip sync methods fall short of being robust in the wild. One important cause could be distracting factors on the visual input side, making extracting lip motion information difficult. To address these issues, this paper proposes a data standardization pipeline to standardize the visual input for lip sync. Based on recent advances in 3D face reconstruction, we first create a model that can consistently disentangle lip motion information from the raw images. Then, standardized images are synthesized with disentangled lip motion information, with all other attributes related to distracting factors set to predefined values independent of the input, to reduce their effects. Using synthesized images, existing lip sync methods improve their data efficiency and robustness, and they achieve competitive performance for the active speaker detection task.
翻訳日:2024-09-11 06:23:57 公開日:2024-09-09
# 連系車両センサデータにおける駆動サイクル異常評価のための深部畳み込みオートエンコーダ

Deep Convolutional Autoencoder for Assessment of Drive-Cycle Anomalies in Connected Vehicle Sensor Data ( http://arxiv.org/abs/2202.07592v3 )

ライセンス: Link先を確認
Anthony Geglio, Eisa Hedayati, Mark Tascillo, Dyche Anderson, Jonathan Barker, Timothy C. Havens, (参考訳) 本研究は,完全畳み込み型オートエンコーダを用いた車両における非教師なし故障の自動検出の実用的,新しい手法について検討する。 その結果,ハイブリッド電動車用パワートレインセンサの多変量時系列データから,パワートレイン故障に対応する異常を検出するアルゴリズムが得られた。 データはFord Motor Companyのエンジニアによって、複数の駆動サイクルのバリエーションに関する多数のセンサーから収集された。 本研究は, トレーニング済みオートエンコーダの異常検出能力の証明と, 自動エンコーダの異常検出に対する他の教師なし手法に対する適合性について検討する。 パワートレインセンサデータ上でオートエンコーダを試験した結果、オートエンコーダが適用したデータ再構成アプローチは、多変量系列の異常シーケンスを特定するための堅牢な手法であることがわかった。 これらの結果は、ハイブリッド電気自動車のパワートレインの不規則性は、組込み電子通信システムにおけるセンサ信号を介して伝達され、したがって、訓練されたアルゴリズムで機械的に識別可能であることを裏付ける。 追加の教師なし手法が試験され、オートエンコーダは、異常検出や他の新しい深層学習技術よりも優れた故障検出性能を示す。

This work investigates a practical and novel method for automated unsupervised fault detection in vehicles using a fully convolutional autoencoder. The results demonstrate the algorithm we developed can detect anomalies which correspond to powertrain faults by learning patterns in the multivariate time-series data of hybrid-electric vehicle powertrain sensors. Data was collected by engineers at Ford Motor Company from numerous sensors over several drive cycle variations. This study provides evidence of the anomaly detecting capability of our trained autoencoder and investigates the suitability of our autoencoder relative to other unsupervised methods for automatic fault detection in this data set. Preliminary results of testing the autoencoder on the powertrain sensor data indicate the data reconstruction approach availed by the autoencoder is a robust technique for identifying the abnormal sequences in the multivariate series. These results support that irregularities in hybrid-electric vehicles' powertrains are conveyed via sensor signals in the embedded electronic communication system, and therefore can be identified mechanistically with a trained algorithm. Additional unsupervised methods are tested and show the autoencoder performs better at fault detection than outlier detectors and other novel deep learning techniques.
翻訳日:2024-09-11 06:18:42 公開日:2024-09-09
# A-Roundの保証を得る - 認証されたロバスト性に対する浮動小数点攻撃

Getting a-Round Guarantees: Floating-Point Attacks on Certified Robustness ( http://arxiv.org/abs/2205.10159v5 )

ライセンス: Link先を確認
Jiankai Jin, Olga Ohrimenko, Benjamin I. P. Rubinstein, (参考訳) 敵の例は、わずかな入力摂動によって機械学習分類器の決定を変更できるため、セキュリティリスクを引き起こす。 証明されたロバスト性は、入力 $\mathbf{x}$ が与えられたとき、分類器が予測と証明された半径 $R$ を返し、任意の摂動が $\mathbf{x}$ と$R$有界ノルムに変化しないことを保証するような緩和として提案されている。 本研究では,ラウンドリングエラーの原因となる浮動小数点表現の制限により,これらの保証が無効化可能であることを示す。 我々は,この脆弱性を効果的に活用して,2つの脅威モデルにおける最先端認証に対する逆例を見つけるラウンドリング探索法を設計し,摂動の規範の計算方法が異なる。 この攻撃は、正確な認証保証を持つ線形分類器や、保守的な認証を持つニューラルネットワークに対して実行可能であることを示す。 弱い脅威モデルでは、ランダム線形分類器で50%以上、線形SVMでMNISTデータセットで最大23%、ニューラルネットワークで最大15%の攻撃成功率を示す。 強い脅威モデルでは、成功率は低いがポジティブである。 我々の攻撃によって悪用された浮動小数点誤差は、小さいものから大きいもの(例:10^{-13}$から10^{3}$)まで様々である。 最後に,ラウンドドインターバル演算に基づく形式的緩和手法を提案し,信頼性保証を提供するため,現代の計算アーキテクチャの限界を考慮したロバスト性証明の将来の実装を奨励する。

Adversarial examples pose a security risk as they can alter decisions of a machine learning classifier through slight input perturbations. Certified robustness has been proposed as a mitigation where given an input $\mathbf{x}$, a classifier returns a prediction and a certified radius $R$ with a provable guarantee that any perturbation to $\mathbf{x}$ with $R$-bounded norm will not alter the classifier's prediction. In this work, we show that these guarantees can be invalidated due to limitations of floating-point representation that cause rounding errors. We design a rounding search method that can efficiently exploit this vulnerability to find adversarial examples against state-of-the-art certifications in two threat models, that differ in how the norm of the perturbation is computed. We show that the attack can be carried out against linear classifiers that have exact certifiable guarantees and against neural networks that have conservative certifications. In the weak threat model, our experiments demonstrate attack success rates over 50% on random linear classifiers, up to 23% on the MNIST dataset for linear SVM, and up to 15% for a neural network. In the strong threat model, the success rates are lower but positive. The floating-point errors exploited by our attacks can range from small to large (e.g., $10^{-13}$ to $10^{3}$) - showing that even negligible errors can be systematically exploited to invalidate guarantees provided by certified robustness. Finally, we propose a formal mitigation approach based on rounded interval arithmetic, encouraging future implementations of robustness certificates to account for limitations of modern computing architecture to provide sound certifiable guarantees.
翻訳日:2024-09-11 06:18:42 公開日:2024-09-09
# 量子状態の適応的オンライン学習

Adaptive Online Learning of Quantum States ( http://arxiv.org/abs/2206.00220v2 )

ライセンス: Link先を確認
Xinyi Chen, Elad Hazan, Tongyang Li, Zhou Lu, Xinzhao Wang, Rui Yang, (参考訳) 効率的な量子状態学習(シャドウトモグラフィーとも呼ばれる)の問題は、POVMを通して未知の$d$次元の量子状態を理解することを目的としている。 これらの状態は、測定、環境ノイズ、または固有のハミルトン状態遷移などの要因によって進化する。 本稿では、適応型オンライン学習の手法を活用して、このような状態変化に追従する。 これらの変更可能な環境で学習するために考慮される重要な指標は、後悔の概念、特に適応性、ダイナミックな後悔の概念の強化である。 本稿では,オンラインシャドウトモグラフィーにおける適応的および動的後悔境界について述べる。 理論的な結果を支持するために,提案したモデルを検証する数値実験を含む。

The problem of efficient quantum state learning, also called shadow tomography, aims to comprehend an unknown $d$-dimensional quantum state through POVMs. Yet, these states are rarely static; they evolve due to factors such as measurements, environmental noise, or inherent Hamiltonian state transitions. This paper leverages techniques from adaptive online learning to keep pace with such state changes. The key metrics considered for learning in these mutable environments are enhanced notions of regret, specifically adaptive and dynamic regret. We present adaptive and dynamic regret bounds for online shadow tomography, which are polynomial in the number of qubits and sublinear in the number of measurements. To support our theoretical findings, we include numerical experiments that validate our proposed models.
翻訳日:2024-09-11 06:18:42 公開日:2024-09-09
# トーラスの最近の動向

Analyzing Trends in Tor ( http://arxiv.org/abs/2208.11149v3 )

ライセンス: Link先を確認
Chaitanya Rahalkar, Anushka Virgaonkar, Kethaki Varadan, (参考訳) Tor Networkは長年、インターネットの重要な部分を占めてきた。 Torは当初、匿名のインターネットブラウジングとインターネットベースのコミュニケーションのために海軍研究所で始まった。 匿名通信には使用せず、検閲回避や違法行為など、さまざまなユースケースに区分されている。 本稿では,Torネットワーク上での経験的測定を行い,Torの傾向を長年にわたって分析する。 測定データは、測定スクリプト、この領域における過去の研究、およびTorメトリクスディレクトリが提供する集計データから収集する。 このデータを使ってトレンドを分析し、異なるデータパラメータのトレンドに変動を引き起こしたインシデントを理解する。 Torユーザやタマネギサービス,Torリレー,ブリッジなどのTorパラメータの測定データを収集します。 また,検閲関連事象や傾向を,検閲関連指標の分析によって調査する。 最後に、Torにおける位置の多様性について触れ、Tor回路の選択と構成がTorリレーの帯域幅分布に与える影響について検討する。

The Tor Network has been a significant part of the Internet for years. Tor was originally started in the Naval Research Laboratory for anonymous Internet browsing and Internet-based communication. From being used for anonymous communications, it has now segmented into various other use-cases like censorship circumvention, performing illegal activities, etc. In this paper, we perform empirical measurements on the Tor network to analyze the trends in Tor over the years. We gather our measurements data through our measurement scripts, past research in this domain, and aggregated data provided by the Tor metrics directory. We use this data to analyze trends and understand the incidents that caused fluctuations in the trends of different data parameters. We collect measurements data for Tor parameters like Tor users, onion services, Tor relays, and bridges, etc. We also study censorshiprelated events and study trends by analyzing censorship-related metrics. Finally, we touch upon the location diversity in Tor and study how the Tor circuit selection and construction are impacted by the bandwidth distribution of Tor relays across geographies.
翻訳日:2024-09-11 06:18:42 公開日:2024-09-09
# 忠実度曲線に基づく絡み合いルーティング

Entanglement Routing Based on Fidelity Curves ( http://arxiv.org/abs/2303.12864v3 )

ライセンス: Link先を確認
Bruno C. Coutinho, Raul Monteiro, Luís Bugalho, Francisco A. Monteiro, (参考訳) 大規模量子ネットワーク上での絡み合いを効率的に分散する方法は、検討した技術に大きく依存するオープンな問題である。 本研究では,各リンクが絡み合い発生率と忠実度とのトレードオフによって特徴付けられる量子ネットワークについて考察する。 このようなネットワークでは、与えられた2つのノードを接続する最適な経路を見つけることと、ネットワーク多部絡みルーティングにおいて3つのノードを接続する最適な開始ノードを見つけることの2つの問題に目を向ける。 絡み合ったキュービットを一度に1つずつ分散する2つの絡み合った分布モデルと、多数の絡み合ったキュービットを同時に分散するフローモデルを考える。 本論文は,連続忠実度曲線(エンタングルメント生成忠実度 vs. レート)を主ルーティング指標とする,極めて一般的な手法を提案する。 多目的パスフィニングアルゴリズムと組み合わせて、各リンクを記述する忠実度曲線は、エンドツーエンドの忠実度と絡み合い生成率の両方を最大化するパスの集合を見つけることができる。 リンクモデルやネットワークを考えると、アルゴリズムは常に最適解に収束することが証明されている。 シミュレーションにより、実行時間はネットワークノード数とともに多項式的に増加する(ネットワークによっては1ドルから1.4ドルの間で増加する)。

How to efficiently distribute entanglement over large-scale quantum networks is still an open problem that greatly depends on the technology considered. In this work, we consider quantum networks where each link is characterized by a trade-off between the entanglement generation rate and fidelity. For such networks, we look at the two following problems: the one of finding the best path to connect any two given nodes, and the problem of finding the best starting node in order to connect three nodes in the network multipartite entanglement routing. Two entanglement distribution models are considered: one where entangled qubits are distributed one at a time, and a flow model where a large number of entangled qubits are distributed simultaneously. The paper proposes of a quite general methodology that uses continuous fidelity curves (i.e., entanglement generation fidelity vs. rate) as the main routing metric. Combined with multi-objective path-finding algorithms, the fidelity curves describing each link allow finding a set of paths that maximize both the end-to-end fidelity and the entanglement generation rate. For the link models and networks considered, it is proven that the algorithm always converges to the optimal solution. It is also shown through simulation that the execution time grows polynomially with the number of network nodes (growing with a power between $1$ and $1.4$, depending on the network)
翻訳日:2024-09-11 06:18:42 公開日:2024-09-09
# INK:天然のバックドアをモデル蒸留で攻撃

INK: Inheritable Natural Backdoor Attack Against Model Distillation ( http://arxiv.org/abs/2304.10985v3 )

ライセンス: Link先を確認
Xiaolei Liu, Ming Yi, Kangyi Ding, Bangzhou Xin, Yixiao Xu, Li Yan, Chao Shen, (参考訳) 深層学習モデルはバックドア攻撃に対して脆弱で、攻撃者はデータ中毒によって悪意ある振る舞いを注入し、その後、デプロイされたモデルを操作するトリガーを悪用する。 バックドアのステルス性と有効性を改善するため,従来の研究では,防御機構と手動検査の両方を標的とした様々な非受容攻撃手法が導入された。 しかしながら、毒素ベースの攻撃はすべて、トレーニングデータセットへの特権的なアクセスに依存している。 その結果,これらの攻撃に対する効果的な防御手段として,信頼されたデータセットを用いたモデル蒸留が出現した。 このギャップを埋めるために、我々は、モデル蒸留を標的とした継承可能な自然バックドア攻撃であるINKを導入する。 INKの背後にある重要な洞察は、すべてのデータセットで自然に発生する統計的特徴を使用することで、攻撃者はトレーニングデータに直接アクセスすることなく、バックドアトリガとしてそれらを活用できる。 具体的には、INKはバックドアトリガとしてイメージ分散を採用し、ラベルを操作することによってクリーンイメージとクリーンラベル攻撃の両方を可能にする。 バックドアが埋め込まれると、ディフェンダーが蒸留のために信頼できるデータセットを使用している場合でも、教師モデルから生徒モデルに移行する。 理論的解析と実験により,INKは変換ベース,探索ベース,蒸留ベースディフェンスに対して堅牢であることが示された。 例えば、INKは、既存のメソッドの平均成功率1.4 %に対して、98 % 以上の攻撃成功率を維持している。

Deep learning models are vulnerable to backdoor attacks, where attackers inject malicious behavior through data poisoning and later exploit triggers to manipulate deployed models. To improve the stealth and effectiveness of backdoors, prior studies have introduced various imperceptible attack methods targeting both defense mechanisms and manual inspection. However, all poisoning-based attacks still rely on privileged access to the training dataset. Consequently, model distillation using a trusted dataset has emerged as an effective defense against these attacks. To bridge this gap, we introduce INK, an inheritable natural backdoor attack that targets model distillation. The key insight behind INK is the use of naturally occurring statistical features in all datasets, allowing attackers to leverage them as backdoor triggers without direct access to the training data. Specifically, INK employs image variance as a backdoor trigger and enables both clean-image and clean-label attacks by manipulating the labels and image variance in an unauthenticated dataset. Once the backdoor is embedded, it transfers from the teacher model to the student model, even when defenders use a trusted dataset for distillation. Theoretical analysis and experimental results demonstrate the robustness of INK against transformation-based, search-based, and distillation-based defenses. For instance, INK maintains an attack success rate of over 98\% post-distillation, compared to an average success rate of 1.4\% for existing methods.
翻訳日:2024-09-11 04:24:51 公開日:2024-09-09
# グラフ注意に基づく部分観測可能平均場多元強化学習

Partially Observable Mean Field Multi-Agent Reinforcement Learning Based on Graph-Attention ( http://arxiv.org/abs/2304.12653v4 )

ライセンス: Link先を確認
Min Yang, Guanjun Liu, Ziyuan Zhou, (参考訳) 従来のマルチエージェント強化学習アルゴリズムは大規模マルチエージェント環境では難しい。 近年, 平均場理論の導入により, 多エージェント強化学習のスケーラビリティが向上している。 本稿では、各エージェントが一定の範囲内で他のエージェントを観察できる部分観測可能マルチエージェント強化学習(MARL)について考察する。 この部分的な観察性は、周囲のエージェントの行動の質を評価するエージェントの能力に影響を与える。 本稿では,より効果的な行動を選択するために,局所的な観測からより効果的な情報を取得する手法の開発に焦点をあてる。 この分野でのこれまでの作業では, 周辺エージェントの平均行動を更新するために, 確率分布や重み付き平均場を用いていたが, 周辺エージェントの特徴情報を十分に考慮しておらず, 局所的な最適化につながっている。 本稿では,グラフ認識(GAMFQ)に基づく半可観測平均場多エージェント強化学習(Partially Observable Mean Field Multi-Agent Reinforcement Learning)という,新しいマルチエージェント強化学習アルゴリズムを提案する。 GAMFQは、グラフアテンションモジュールと平均フィールドモジュールを使用して、エージェントが各ステップにおける他のエージェントのアクションにどのように影響されるかを記述する。 本発明のグラフアテンションモジュールは、グラフアテンションエンコーダと微分アテンション機構から構成されており、この機構は、中央エージェントに対する近隣エージェントの有効性を表すダイナミックグラフを出力する。 平均場モジュールは、有効近傍エージェントの平均効果として、中央エージェントに対する近傍エージェントの効果を近似する。 実験により、GAMFQは最先端の部分的に観測可能な平均場強化学習アルゴリズムを含むベースラインを上回っていることが示された。 本論文のコードは以下の通りである。

Traditional multi-agent reinforcement learning algorithms are difficultly applied in a large-scale multi-agent environment. The introduction of mean field theory has enhanced the scalability of multi-agent reinforcement learning in recent years. This paper considers partially observable multi-agent reinforcement learning (MARL), where each agent can only observe other agents within a fixed range. This partial observability affects the agent's ability to assess the quality of the actions of surrounding agents. This paper focuses on developing a method to capture more effective information from local observations in order to select more effective actions. Previous work in this field employs probability distributions or weighted mean field to update the average actions of neighborhood agents, but it does not fully consider the feature information of surrounding neighbors and leads to a local optimum. In this paper, we propose a novel multi-agent reinforcement learning algorithm, Partially Observable Mean Field Multi-Agent Reinforcement Learning based on Graph-Attention (GAMFQ) to remedy this flaw. GAMFQ uses a graph attention module and a mean field module to describe how an agent is influenced by the actions of other agents at each time step. This graph attention module consists of a graph attention encoder and a differentiable attention mechanism, and this mechanism outputs a dynamic graph to represent the effectiveness of neighborhood agents against central agents. The mean-field module approximates the effect of a neighborhood agent on a central agent as the average effect of effective neighborhood agents. Experiments show that GAMFQ outperforms baselines including the state-of-the-art partially observable mean-field reinforcement learning algorithms. The code for this paper is here \url{https://github.com/yangmin32/GPMF}.
翻訳日:2024-09-11 04:24:51 公開日:2024-09-09
# 非自己回帰型ニューラルマシン翻訳における両言語間の共有潜時空間

Shared Latent Space by Both Languages in Non-Autoregressive Neural Machine Translation ( http://arxiv.org/abs/2305.03511v2 )

ライセンス: Link先を確認
DongNyeong Heo, Heeyoul Choi, (参考訳) 非自己回帰型ニューラルマシン翻訳(NAT)は、翻訳品質を犠牲にして、自己回帰型ニューラルマシン翻訳(AT)と比較して、相当な翻訳速度を提供する。 潜在変数モデリングはこの品質ギャップを橋渡しする有望なアプローチとして現れており、特にNATにおける慢性多要素性問題に対処している。 遅延変数モデリングを用いた以前の研究では、ソースとターゲット文に条件付き潜在変数の後方分布を推定する補助モデルが追加された。 しかし、潜在変数における冗長な情報抽出、パラメータの数の増加、入力からいくつかの情報を無視する傾向など、いくつかの欠点を引き起こす。 本稿では,言語間の共用中間潜時空間を持つ,二重再構成の視点と高度な階層的潜時モデリングを融合した新しい潜時変数モデリングを提案する。 この潜在変数モデリングは、上記の欠点を仮説的に緩和または防止する。 実験の結果,提案手法はより優れた翻訳品質をもたらす優れた潜伏変数を推定することを示した。 最後に、WMTなどのベンチマーク翻訳タスクにおいて、提案手法は、最先端NATモデルを含む従来のNATベースラインと比較して、翻訳品質を著しく向上することを示した。

Non-autoregressive neural machine translation (NAT) offers substantial translation speed up compared to autoregressive neural machine translation (AT) at the cost of translation quality. Latent variable modeling has emerged as a promising approach to bridge this quality gap, particularly for addressing the chronic multimodality problem in NAT. In the previous works that used latent variable modeling, they added an auxiliary model to estimate the posterior distribution of the latent variable conditioned on the source and target sentences. However, it causes several disadvantages, such as redundant information extraction in the latent variable, increasing the number of parameters, and a tendency to ignore some information from the inputs. In this paper, we propose a novel latent variable modeling that integrates a dual reconstruction perspective and an advanced hierarchical latent modeling with a shared intermediate latent space across languages. This latent variable modeling hypothetically alleviates or prevents the above disadvantages. In our experiment results, we present comprehensive demonstrations that our proposed approach infers superior latent variables which lead better translation quality. Finally, in the benchmark translation tasks, such as WMT, we demonstrate that our proposed method significantly improves translation quality compared to previous NAT baselines including the state-of-the-art NAT model.
翻訳日:2024-09-11 04:24:51 公開日:2024-09-09
# YOLOv7-BRAとマルチモデル融合に基づく学生の授業行動検出

Student Classroom Behavior Detection based on YOLOv7-BRA and Multi-Model Fusion ( http://arxiv.org/abs/2305.07825v2 )

ライセンス: Link先を確認
Fan Yang, Tao Wang, Xiaofei Wang, (参考訳) 教室ビデオにおける生徒の行動の正確な検出は、教室のパフォーマンスを分析し、教育効果を向上させるのに役立つ。 しかし、動作検出における現在の精度は低い。 そこで本稿では, YOLOv7-BRA (YOLOv7 with Bi-level Routing Attention ) に基づく授業行動検出システムを提案する。 立ち上がり、座り、話すこと、聞くこと、歩くこと、手を上げること、読むこと、書くことを含む8つの異なる行動パターンを特定しました。 本研究では,11,248個のラベルと4,001個の画像を含むデータセットを構築し,教室環境における手を挙げる一般的な行動に着目した(Student Classroom Behavior dataset, SCB-Dataset)。 検出精度を向上させるため, YOLOv7ネットワークにバイフォーマーアテンションモジュールを付加した。 最後に、学生の教室行動データを得るために、YOLOv7 CrowdHuman、SlowFast、DeepSortモデルの結果を融合した。 SCB-Datasetの実験を行い、YOLOv7-BRAはmAP@0.5の87.1%を達成した。 SCBデータセットは、https://github.com/Whiffe/SCB-dataseからダウンロードできます。

Accurately detecting student behavior in classroom videos can aid in analyzing their classroom performance and improving teaching effectiveness. However, the current accuracy rate in behavior detection is low. To address this challenge, we propose the Student Classroom Behavior Detection system based on based on YOLOv7-BRA (YOLOv7 with Bi-level Routing Attention ). We identified eight different behavior patterns, including standing, sitting, speaking, listening, walking, raising hands, reading, and writing. We constructed a dataset, which contained 11,248 labels and 4,001 images, with an emphasis on the common behavior of raising hands in a classroom setting (Student Classroom Behavior dataset, SCB-Dataset). To improve detection accuracy, we added the biformer attention module to the YOLOv7 network. Finally, we fused the results from YOLOv7 CrowdHuman, SlowFast, and DeepSort models to obtain student classroom behavior data. We conducted experiments on the SCB-Dataset, and YOLOv7-BRA achieved an mAP@0.5 of 87.1%, resulting in a 2.2% improvement over previous results. Our SCB-dataset can be downloaded from: https://github.com/Whiffe/SCB-datase
翻訳日:2024-09-11 04:24:51 公開日:2024-09-09
# 絶対最大エントロピーの原理

The Principle of Uncertain Maximum Entropy ( http://arxiv.org/abs/2305.09868v3 )

ライセンス: Link先を確認
Kenneth Bogert, Matthew Kothe, (参考訳) 最大エントロピーの原理は、バイアスを最小限にしながら利用可能な情報と一致する分布を選択するための確立された手法である。 科学分野や機械学習で広く使われている。 しかし、定義されている原理は観測におけるノイズや誤差の影響を受けやすい。 これにより、現実の実践者は原則の緩やかなバージョンをアドホックな方法で使用せざるを得なくなり、解釈に悪影響を及ぼす。 この状況に対処するため、我々は、古典的な原理を一般化し、使用中の観測方法に関係なく解釈可能な解を提供する不確実な最大エントロピーと呼ぶ新しい原理を提案する。 我々は新しい原理の解を見つけるために凸近似と期待最大化に基づくアルゴリズムを導入する。 最後に、この新手法を理論的に2つのより単純な一般応用解と対比し、実験によりこれらの手法がより優れた精度を提供することを示す。

The principle of maximum entropy is a well-established technique for choosing a distribution that matches available information while minimizing bias. It finds broad use across scientific disciplines and in machine learning. However, the principle as defined by is susceptible to noise and error in observations. This forces real-world practitioners to use relaxed versions of the principle in an ad hoc way, negatively impacting interpretation. To address this situation, we present a new principle we call uncertain maximum entropy that generalizes the classic principle and provides interpretable solutions irrespective of the observational methods in use. We introduce a convex approximation and expectation-maximization based algorithm for finding solutions to our new principle. Finally, we contrast this new technique with two simpler generally applicable solutions theoretically and experimentally show our technique provides superior accuracy.
翻訳日:2024-09-11 04:24:51 公開日:2024-09-09
# 自然言語による人間の判断の再現

Using Natural Language Explanations to Rescale Human Judgments ( http://arxiv.org/abs/2305.14770v5 )

ライセンス: Link先を確認
Manya Wadhwa, Jifan Chen, Junyi Jessy Li, Greg Durrett, (参考訳) 大規模言語モデル(LLM)の台頭は、高品質な人間のラベル付きデータ、特に人間のフィードバックや評価のようなプロセスに重要なニーズをもたらした。 一般的な実践は、人間の判断に対してコンセンサスアノテーションを通じてデータをラベル付けすることである。 しかし、アノテータの主観的タスクに対する判断は、例に関する異なる質的な判断を反映し、異なる方法でラベル付けスキームにマッピングされるなど、様々な点で異なる場合がある。 本稿では,これらのニュアンスを自然言語による説明によって捉えることができることを示すとともに,LLMを用いて順序付けアノテーションや説明を再スケールする手法を提案する。 具体的には、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコアリングルーリックに固定された数値スコアを生成する。 これらのスコアは、アノテーションの例に対する基礎的な評価を反映すべきである。 このルーブリックはアノテーションの後に設計したり修正したりすることができ、本来の誤り分類が考案された時点では知られていなかったような区別も含む。 我々は,LLMがほぼ人間に近い性能を達成できる文書地上質問応答タスクにおいて,評価システム出力の文脈において,我々の手法を探求する。 提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。

The rise of large language models (LLMs) has brought a critical need for high-quality human-labeled data, particularly for processes like human feedback and evaluation. A common practice is to label data via consensus annotation over human judgments. However, annotators' judgments for subjective tasks can differ in many ways: they may reflect different qualitative judgments about an example, and they may be mapped to a labeling scheme in different ways. We show that these nuances can be captured by natural language explanations, and propose a method to rescale ordinal annotations and explanations using LLMs. Specifically, we feed annotators' Likert ratings and corresponding explanations into an LLM and prompt it to produce a numeric score anchored in a scoring rubric. These scores should reflect the annotators' underlying assessments of the example. The rubric can be designed or modified after annotation, and include distinctions that may not have been known when the original error taxonomy was devised. We explore our technique in the context of rating system outputs for a document-grounded question answering task, where LLMs achieve near-human performance. Our method rescales the raw judgments without impacting agreement and brings the scores closer to human judgments grounded in the same scoring rubric.
翻訳日:2024-09-11 04:24:51 公開日:2024-09-09
# MQuAKE:マルチホップ質問による言語モデルにおける知識編集の評価

MQuAKE: Assessing Knowledge Editing in Language Models via Multi-Hop Questions ( http://arxiv.org/abs/2305.14795v3 )

ライセンス: Link先を確認
Zexuan Zhong, Zhengxuan Wu, Christopher D. Manning, Christopher Potts, Danqi Chen, (参考訳) 大きな言語モデル(LLM)に格納されている情報は、すぐに時代遅れになり、スクラッチから再トレーニングすることは、多くの場合オプションではない。 これは最近、モデルの重みを更新することで、新しい事実を注入する様々なテクニックを生み出した。 現在の評価パラダイムは極めて限定的であり、主に編集された事実のリコールを検証するが、一つの事実を変更すると、モデルの関連する信念が不安定になる。 もし英国首相をリシ・スナックに編集したら、誰がイギリス首相と結婚するのか、別の答えを得るべきだ。 本稿では,MQuAKE (Multi-hop Question Answering for Knowledge Editing) というベンチマークを提示する。 現在の知識編集アプローチは、編集された事実を正確に思い出すことができるが、構築されたマルチホップの質問で破滅的に失敗する。 そこで我々は,単純なメモリベースアプローチであるMeLLoを提案する。これは,編集された事実と一致した回答を生成するために,言語モデルを反復的に促しながら,すべての編集された事実を外部に保存する。 MQuAKE は依然として挑戦的だが,MLLo は LLM (例えば OpenAI GPT-3.5-turbo) とよく似ており,従来のモデルエディタよりも大きな差がある。

The information stored in large language models (LLMs) falls out of date quickly, and retraining from scratch is often not an option. This has recently given rise to a range of techniques for injecting new facts through updating model weights. Current evaluation paradigms are extremely limited, mainly validating the recall of edited facts, but changing one fact should cause rippling changes to the model's related beliefs. If we edit the UK Prime Minister to now be Rishi Sunak, then we should get a different answer to Who is married to the British Prime Minister? In this work, we present a benchmark, MQuAKE (Multi-hop Question Answering for Knowledge Editing), comprising multi-hop questions that assess whether edited models correctly answer questions where the answer should change as an entailed consequence of edited facts. While we find that current knowledge-editing approaches can recall edited facts accurately, they fail catastrophically on the constructed multi-hop questions. We thus propose a simple memory-based approach, MeLLo, which stores all edited facts externally while prompting the language model iteratively to generate answers that are consistent with the edited facts. While MQuAKE remains challenging, we show that MeLLo scales well with LLMs (e.g., OpenAI GPT-3.5-turbo) and outperforms previous model editors by a large margin.
翻訳日:2024-09-11 04:24:51 公開日:2024-09-09
# 改良型YOLOv7に基づく学生の授業行動検出

Student Classroom Behavior Detection based on Improved YOLOv7 ( http://arxiv.org/abs/2306.03318v2 )

ライセンス: Link先を確認
Fan Yang, (参考訳) 教室ビデオにおける生徒の行動の正確な検出は、教室のパフォーマンスを分析し、教育効果を向上させるのに役立つ。 しかし、動作検出における現在の精度は低い。 そこで本研究では,改良型YOLOv7に基づく授業行動検出手法を提案する。 まず、学生教室行動データセット(SCB-Dataset)を作成しました。これは18.4kラベルと4.2kイメージを含み、手作り、読み書きの3つの振る舞いをカバーしています。 混み合ったシーンにおける検出精度を向上させるために,バイフォーマーアテンションモジュールとWise-IoUをYOLOv7ネットワークに統合した。 最後に、SCB-Datasetで実験を行い、モデルがmAP@0.5の79%を達成し、その結果、以前の結果よりも1.8%改善した。 SCB-Datasetとコードは、https://github.com/Whiffe/SCB-datasetでダウンロードできる。

Accurately detecting student behavior in classroom videos can aid in analyzing their classroom performance and improving teaching effectiveness. However, the current accuracy rate in behavior detection is low. To address this challenge, we propose the Student Classroom Behavior Detection method, based on improved YOLOv7. First, we created the Student Classroom Behavior dataset (SCB-Dataset), which includes 18.4k labels and 4.2k images, covering three behaviors: hand raising, reading, and writing. To improve detection accuracy in crowded scenes, we integrated the biformer attention module and Wise-IoU into the YOLOv7 network. Finally, experiments were conducted on the SCB-Dataset, and the model achieved an mAP@0.5 of 79%, resulting in a 1.8% improvement over previous results. The SCB-Dataset and code are available for download at: https://github.com/Whiffe/SCB-dataset.
翻訳日:2024-09-11 04:13:50 公開日:2024-09-09
# 古典的非平衡過程における非ブロック力学とトポロジー

Non-Bloch dynamics and topology in a classical non-equilibrium process ( http://arxiv.org/abs/2306.11105v2 )

ライセンス: Link先を確認
Bo Li, He-Ran Wang, Fei Song, Zhong Wang, (参考訳) 非エルミート皮膚効果は、開境界格子モデルにおける境界付近の固有状態の蓄積を指し、非ブロッホバンド理論を用いて体系的に特徴づけることができる。 ここでは、非ブロッホバンド理論を用いて、確率的反応拡散過程を非エルミート・キータエフ連鎖にマッピングする。 開境界スペクトルと一般化ブリルアンゾーンを正確に取得し、非ブロッホ位相から生じるロバストゼロモードを同定する。 特に、量子文脈におけるエルミートとは違い、ゼロモードはマルコフ過程における異常な動的交叉をサポートする。 非ブロック固有状態に対するハミルトニアンのスペクトル分解による興味深い力学効果を定量的に示すとともに,確率シミュレーションを高精度に行うことにより,その知見を裏付ける。 本研究は非平衡力学における非ブロッホトポロジーの意義と一般的な役割を明らかにする。

The non-Hermitian skin effect refers to the accumulation of eigenstates near the boundary in open boundary lattice models, which can be systematically characterized using the non-Bloch band theory. Here, we apply the non-Bloch band theory to investigate the stochastic reaction-diffusion process by mapping it to a non-Hermitian Kitaev chain. We exactly obtain the open boundary spectrum and the generalized Brillouin zone, and identify a robust zero mode arising from the non-Bloch topology. Notably, distinct from its Hermitian counterpart in the quantum context, the zero mode supports anomalous dynamical crossover in the Markov process. We quantitatively demonstrate the intriguing dynamical effects through the spectral decomposition of the Hamiltonian on the non-Bloch eigenstates, and confirm our findings by conducting stochastic simulations with high accuracy. Our study highlights the significant and general role of non-Bloch topology in non-equilibrium dynamics.
翻訳日:2024-09-11 04:13:49 公開日:2024-09-09
# PlaneRecTR++: 共同3次元平面再構成のための統一クエリ学習とポース推定

PlaneRecTR++: Unified Query Learning for Joint 3D Planar Reconstruction and Pose Estimation ( http://arxiv.org/abs/2307.13756v3 )

ライセンス: Link先を確認
Jingjia Shi, Shuaifeng Zhi, Kai Xu, (参考訳) 画像からの3次元平面再構成は通常、平面検出、セグメンテーション、パラメータ回帰、おそらくフレームごとの深さ予測のいくつかのサブタスクと、フレーム間の平面対応と相対的なカメラポーズ推定に分割することができる。 以前の作業では、これらのサブタスクを異なるネットワークモジュールで分割し、征服する傾向があり、全体としては2段階のパラダイムで定式化されている。 初期カメラのポーズと第1段から提供されるフレームごとの平面予測により、追加の平面対応ラベリングに依存する可能性のある設計モジュールが、マルチビュー平面のエンティティをマージして6DoFカメラのポーズを生成する。 既存のどの作業も、密接な関係のあるサブタスクを統一されたフレームワークに統合することはできませんが、それらを個別に、そして逐次的に扱います。 この発見とセマンティックエンティティ間の推論を充実させるためのクエリベースの学習の成功により、我々はPlaneRecTR++を提案する。このPlaneRecTR++は、トランスフォーマーベースのアーキテクチャで、マルチビュー再構成に関連するすべてのサブタスクを初めて統合し、コンパクトな単一ステージモデルでポーズ推定を行い、初期ポーズ推定や平面対応の監督を控える。 ScanNetv1、ScanNetv2、NYUv2-Plane、MatterPort3Dデータセット上で、我々の提案した統一学習は、サブタスク間で相互に利益を得ることを示す。

3D plane reconstruction from images can usually be divided into several sub-tasks of plane detection, segmentation, parameters regression and possibly depth prediction for per-frame, along with plane correspondence and relative camera pose estimation between frames. Previous works tend to divide and conquer these sub-tasks with distinct network modules, overall formulated by a two-stage paradigm. With an initial camera pose and per-frame plane predictions provided from the first stage, exclusively designed modules, potentially relying on extra plane correspondence labelling, are applied to merge multi-view plane entities and produce 6DoF camera pose. As none of existing works manage to integrate above closely related sub-tasks into a unified framework but treat them separately and sequentially, we suspect it potentially as a main source of performance limitation for existing approaches. Motivated by this finding and the success of query-based learning in enriching reasoning among semantic entities, in this paper, we propose PlaneRecTR++, a Transformer-based architecture, which for the first time unifies all sub-tasks related to multi-view reconstruction and pose estimation with a compact single-stage model, refraining from initial pose estimation and plane correspondence supervision. Extensive quantitative and qualitative experiments demonstrate that our proposed unified learning achieves mutual benefits across sub-tasks, obtaining a new state-of-the-art performance on public ScanNetv1, ScanNetv2, NYUv2-Plane, and MatterPort3D datasets.
翻訳日:2024-09-11 04:13:49 公開日:2024-09-09
# OAFuser:光電場セマンティックセグメンテーションのためのOmni-Aperture Fusionを目指して

OAFuser: Towards Omni-Aperture Fusion for Light Field Semantic Segmentation ( http://arxiv.org/abs/2307.15588v3 )

ライセンス: Link先を確認
Fei Teng, Jiaming Zhang, Kunyu Peng, Yaonan Wang, Rainer Stiefelhagen, Kailun Yang, (参考訳) 光界カメラは、複雑な角と空間の細部を捉えることができる。 これにより、複数の角度から複雑な光パターンや詳細を取得でき、画像セマンティックセグメンテーションの精度を大幅に向上させることができる。 しかし、2つの大きな問題が生じる: (1) 視野カメラの広範囲な角情報には大量の冗長データが含まれており、これは知的エージェントの限られたハードウェアリソースにとって圧倒的である。 2) 異なるマイクロレンズで収集したデータには相対変位差が存在する。 これらの問題に対処するために、中央から密集したコンテキストを活用し、サブアパーチャ画像から角情報を抽出し、意味的に一貫した結果を生成するOmni-Aperture Fusion Model (OAFuser)を提案する。 光電界カメラからの冗長な情報の合理化とネットワーク伝搬時の特徴損失の回避を同時に行うため,単純なサブアパーチャ・フュージョン・モジュール(SAFM)を提案する。 このモジュールは、角の特徴にサブアパーチャ画像を効率よく埋め込むことができ、各サブアパーチャ画像を最小の計算需要(約1GFlops)で処理することができる。 さらに,不整合な空間情報に視点をまたいで対処するため,不整合による特徴の活用と特徴の排除を防止するためにCARM(Central Angular Rectification Module)を提案する。 提案したOAFuserは、すべての評価指標から4つのUrbanLFデータセットの最先端のパフォーマンスを達成し、UrbanLF-Real Extendedデータセットの84.93%の新しい記録を+3.69%とした。 OAFuserのソースコードはhttps://github.com/FeiBryantkit/OAFuserで入手できる。

Light field cameras are capable of capturing intricate angular and spatial details. This allows for acquiring complex light patterns and details from multiple angles, significantly enhancing the precision of image semantic segmentation. However, two significant issues arise: (1) The extensive angular information of light field cameras contains a large amount of redundant data, which is overwhelming for the limited hardware resources of intelligent agents. (2) A relative displacement difference exists in the data collected by different micro-lenses. To address these issues, we propose an Omni-Aperture Fusion model (OAFuser) that leverages dense context from the central view and extracts the angular information from sub-aperture images to generate semantically consistent results. To simultaneously streamline the redundant information from the light field cameras and avoid feature loss during network propagation, we present a simple yet very effective Sub-Aperture Fusion Module (SAFM). This module efficiently embeds sub-aperture images in angular features, allowing the network to process each sub-aperture image with a minimal computational demand of only (around 1GFlops). Furthermore, to address the mismatched spatial information across viewpoints, we present a Center Angular Rectification Module (CARM) to realize feature resorting and prevent feature occlusion caused by misalignment. The proposed OAFuser achieves state-of-the-art performance on four UrbanLF datasets in terms of all evaluation metrics and sets a new record of 84.93% in mIoU on the UrbanLF-Real Extended dataset, with a gain of +3.69%. The source code for OAFuser is available at https://github.com/FeiBryantkit/OAFuser.
翻訳日:2024-09-11 04:13:49 公開日:2024-09-09
# 不確実性原理からのボース=アインシュタイン統計の導出

Derivation of Bose-Einstein statistics from the uncertainty principle ( http://arxiv.org/abs/2308.02069v3 )

ライセンス: Link先を確認
Paul Tangney, (参考訳) 古典力学系の任意の自由度のマイクロ状態は、その2次元位相空間の点によって表される。 無限に正確な測定は不可能であるため、測度はこの点の位置を有限な位相空間の領域に制限することができる。 本稿では、この有限領域が下から有界であると仮定することの意味を考察する。 十分に冷たい古典力学系の任意の自由度に同じ下界が適用されると、その自由度における系のエネルギーの分布はボース=アインシュタイン分布となることを証明します。

The microstate of any degree of freedom of any classical dynamical system can be represented by a point in its two dimensional phase space. Since infinitely precise measurements are impossible, a measurement can, at best, constrain the location of this point to a region of phase space whose area is finite. This paper explores the implications of assuming that this finite area is bounded from below. I prove that if the same lower bound applied to every degree of freedom of a sufficiently cold classical dynamical system, the distribution of the system's energy among its degrees of freedom would be a Bose-Einstein distribution.
翻訳日:2024-09-11 04:13:49 公開日:2024-09-09
# 宇宙系物質波干渉計における天体背景からのコントラスト損失

Contrast Loss from Astrophysical Backgrounds in Space-Based Matter-Wave Interferometers ( http://arxiv.org/abs/2308.02634v2 )

ライセンス: Link先を確認
Yufeng Du, Clara Murgui, Kris Pardo, Yikun Wang, Kathryn M. Zurek, (参考訳) 原子と物質間干渉計(Atom and matter interferometers)は、分離した時空の経路に沿って差分力を探査できる正確な量子センシング実験である。 ダークマター、重力波、エキゾチックな新しい物理を研究するために、様々な原子・物質干渉計の実験が提案されている。 これらの実験的な概念は、尋問時間とベースラインを最大化する空間ベースの設計を提案している。 しかし、天体物理学的な背景から生じるデコヒーレンスと位相シフトは、実験の標的感度を大きく損なうか破壊する可能性がある。 本研究では, 太陽光子, 太陽風, 宇宙線, 太陽ニュートリノ, ゾディアカルダストによるデコヒーレンス効果を宇宙原子および物質干渉計で計算した。 将来の宇宙ベースの原子と物質干渉計では、太陽風は適切な遮蔽を行うことなく、量子ノイズ限界を超えてデコヒーレンスを発生させる。 加えて、太陽光子は物質干渉計にとって重要な背景でもある。

Atom and matter interferometers are precise quantum sensing experiments that can probe differential forces along separated spacetime paths. Various atom and matter interferometer experiments have been proposed to study dark matter, gravitational waves, and exotic new physics. Increasingly, these experimental concepts have proposed space-based designs to maximize interrogation times and baselines. However, decoherence and phase shifts caused by astrophysical backgrounds could largely undermine or destroy the target sensitivity of the experiments. We calculate the decoherence effects induced by solar photons, the solar wind, cosmic rays, solar neutrinos and zodiacal dust on space-based atom and matter interferometers. We find that, in future space-based atom and matter interferometers, the solar wind generically produces decoherence beyond the quantum noise limit, without proper shielding. In addition, solar photons are also an important background for matter interferometers.
翻訳日:2024-09-11 04:13:49 公開日:2024-09-09
# FashionLOGO: Fashion Logo Embeddingsのためのマルチモーダル大規模言語モデルの提案

FashionLOGO: Prompting Multimodal Large Language Models for Fashion Logo Embeddings ( http://arxiv.org/abs/2308.09012v2 )

ライセンス: Link先を確認
Zhen Wang, Da Li, Yulin Su, Min Yang, Minghui Qiu, Walton Wang, (参考訳) ロゴ埋め込みモデルは、製品のロゴをベクターに変換し、Eコマースプラットフォーム内のロゴ認識と検出に利用できるようにする。 これにより知的財産権の行使が促進され、製品検索能力が向上する。 しかし、現在の手法では、ロゴの埋め込みは純粋に視覚的な問題として扱われている。 注目すべき問題は、視覚モデルがロゴよりも特徴を捉えていることだ。 代わりに、私たちはこれをマルチモーダルタスクとみなし、テキストを補助情報として使用して、視覚モデルによるロゴの理解を促進する。 MLLM(Multimodal Large Language Models)は、視覚的およびテキスト的理解において顕著な機能を示す。 そこで本研究では,MLLMに製品画像の適切なテキストを生成する方法を探るためのアプローチである「textbf{FashionLOGO}」を提案する。 テキスト埋め込みから補足的知識を自動的に学習できるクロスアテンション・トランスフォーマー・ブロックを採用する。 実世界のデータセットに関する広範な実験により、FashionLOGOは汎用的で堅牢なロゴ埋め込みを生成し、すべてのベンチマークで最先端のパフォーマンスを達成することができることが証明された。

Logo embedding models convert the product logos in images into vectors, enabling their utilization for logo recognition and detection within e-commerce platforms. This facilitates the enforcement of intellectual property rights and enhances product search capabilities. However, current methods treat logo embedding as a purely visual problem. A noteworthy issue is that visual models capture features more than logos. Instead, we view this as a multimodal task, using text as auxiliary information to facilitate the visual model's understanding of the logo. The emerging Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in both visual and textual understanding. Inspired by this, we propose an approach, \textbf{FashionLOGO}, to explore how to prompt MLLMs to generate appropriate text for product images, which can help visual models achieve better logo embeddings. We adopt a cross-attention transformer block that enables visual embedding to automatically learn supplementary knowledge from textual embedding. Our extensive experiments on real-world datasets prove that FashionLOGO is capable of generating generic and robust logo embeddings, achieving state-of-the-art performance in all benchmarks.
翻訳日:2024-09-11 04:13:49 公開日:2024-09-09
# 自動微分を用いた変動基底状態シミュレーションのための無限射影アンタングルペア状態法の導入

An introduction to infinite projected entangled-pair state methods for variational ground state simulations using automatic differentiation ( http://arxiv.org/abs/2308.12358v4 )

ライセンス: Link先を確認
Jan Naumann, Erik Lennart Weerda, Matteo Rizzi, Jens Eisert, Philipp Schmoll, (参考訳) テンソルネットワークは、量子物質の相の基底状態の大規模なクラスを忠実かつ効率的に捉えている。 しかし、その操作と収縮は長年にわたって挑戦されてきた。 歴史のほとんどにおいて、(無限の)射影された絡み合ったペア状態を用いた二次元量子格子系の基底状態シミュレーションは、時間進化ブロックデミテーションと呼ばれるものに依存している。 近年、量子状態の変分最適化に関する複数の提案が提案され、これまで知られていた手法の精度と収束問題を克服している。 テンソルネットワークアルゴリズムにおける自動微分の導入は、最終的に、基底状態と励起状態の変動シミュレーションの新しいフレキシブルな方法を可能にした。 本稿では,変分型iPEPSフレームワークの現状を概観し,自動微分の詳細な解説,様々な2次元格子を便利に組み込んだ汎用基盤の記述,実証的なベンチマーク結果について述べる。

Tensor networks capture large classes of ground states of phases of quantum matter faithfully and efficiently. Their manipulation and contraction has remained a challenge over the years, however. For most of the history, ground state simulations of two-dimensional quantum lattice systems using (infinite) projected entangled pair states have relied on what is called a time-evolving block decimation. In recent years, multiple proposals for the variational optimization of the quantum state have been put forward, overcoming accuracy and convergence problems of previously known methods. The incorporation of automatic differentiation in tensor networks algorithms has ultimately enabled a new, flexible way for variational simulation of ground states and excited states. In this work we review the state-of-the-art of the variational iPEPS framework, providing a detailed introduction to automatic differentiation, a description of a general foundation into which various two-dimensional lattices can be conveniently incorporated, and demonstrative benchmarking results.
翻訳日:2024-09-11 04:13:49 公開日:2024-09-09
# 多体局在ダイナミクスによる高能率古典的シャドウトモグラフィ

Efficient Classical Shadow Tomography through Many-body Localization Dynamics ( http://arxiv.org/abs/2309.01258v5 )

ライセンス: Link先を確認
Tian-Gang Zhou, Pengfei Zhang, (参考訳) 古典的なシャドウトモグラフィーは、最小限の測定で量子多体系から多くの特性を抽出する強力なツールとして機能する。 それにもかかわらず、少数体の演算子に最適な性能を与える手法は、超低温の原子ガスのような特定の量子シミュレーターにおいて挑戦的なタスクであるランダムな2量子ビットゲートの適用を必要とする。 そこで本研究では,多体局在化の力学を基礎とした代替手法を提案する。 フェノメロジ的モデルと数値的にTEBDアルゴリズムを併用したシャドウノルムの探索を通じて,本手法が浅い回路や測定誘起臨界に匹敵する顕著な効率を達成することを実証し,従来のシャドウプロトコルと比較して指数指数指数が大幅に向上した。 本研究は, サンプリングおよび再構成プロセス全体を包含する直接数値シミュレーションにより, 相関するものである。 その結果,提案手法は量子シミュレータの出力状態を解析するための説得力のある手法であることがわかった。

Classical shadow tomography serves as a potent tool for extracting numerous properties from quantum many-body systems with minimal measurements. Nevertheless, prevailing methods yielding optimal performance for few-body operators necessitate the application of random two-qubit gates, a task that can prove challenging on specific quantum simulators such as ultracold atomic gases. In this work, we introduce an alternative approach founded on the dynamics of many-body localization, a phenomenon extensively demonstrated in optical lattices. Through an exploration of the shadow norm -- both analytically, employing a phenomenological model, and numerically, utilizing the TEBD algorithm -- we demonstrate that our scheme achieves remarkable efficiency comparable to shallow circuits or measurement-induced criticality, resulting in a significant improvement in the exponential exponent compared to the previous classical shadow protocol. Our findings are corroborated through direct numerical simulations encompassing the entire sampling and reconstruction processes. Consequently, our results present a compelling methodology for analyzing the output states of quantum simulators.
翻訳日:2024-09-11 04:03:29 公開日:2024-09-09
# 敵対的攻撃はいかにして安定した正確な分類を妨害するか

How adversarial attacks can disrupt seemingly stable accurate classifiers ( http://arxiv.org/abs/2309.03665v2 )

ライセンス: Link先を確認
Oliver J. Sutton, Qinghua Zhou, Ivan Y. Tyukin, Alexander N. Gorban, Alexander Bastounis, Desmond J. Higham, (参考訳) 敵攻撃は、入力データに不連続な修正を加えることで、非正確な学習システムの出力を劇的に変化させる。 実証的な証拠は、入力データの大きなランダムな摂動に対して頑健なシステムでさえ、その入力の小さな、容易に構築された対角的な摂動に影響を受けやすいことを示している。 ここでは,これは高次元入力データを扱う分類器の基本的特徴であると考えられる。 本稿では,現実的なシステムにおいて観測される重要な振る舞いを高い確率で発生させる,単純な汎用的・汎用的なフレームワークを提案する。 この現象は、標準画像分類問題に基づいて訓練された実践的ニューラルネットワークにおいて直接観測され、大きな付加的ランダムノイズでさえ、ネットワークの対向的不安定を惹起することができない。 驚くべきことに、分類器の判断面を訓練と試験データから切り離す小さなマージンでさえ、ランダムにサンプリングされた摂動を用いて敵の感受性が検出されるのを防ぐことができる。 反対に、トレーニングやテスト中に付加音を用いることは、敵の例を根絶したり検出したりするのに非効率であり、より要求される敵の訓練が必要である。

Adversarial attacks dramatically change the output of an otherwise accurate learning system using a seemingly inconsequential modification to a piece of input data. Paradoxically, empirical evidence indicates that even systems which are robust to large random perturbations of the input data remain susceptible to small, easily constructed, adversarial perturbations of their inputs. Here, we show that this may be seen as a fundamental feature of classifiers working with high dimensional input data. We introduce a simple generic and generalisable framework for which key behaviours observed in practical systems arise with high probability -- notably the simultaneous susceptibility of the (otherwise accurate) model to easily constructed adversarial attacks, and robustness to random perturbations of the input data. We confirm that the same phenomena are directly observed in practical neural networks trained on standard image classification problems, where even large additive random noise fails to trigger the adversarial instability of the network. A surprising takeaway is that even small margins separating a classifier's decision surface from training and testing data can hide adversarial susceptibility from being detected using randomly sampled perturbations. Counterintuitively, using additive noise during training or testing is therefore inefficient for eradicating or detecting adversarial examples, and more demanding adversarial training is required.
翻訳日:2024-09-11 04:03:29 公開日:2024-09-09
# Auto-ACD: 音声言語表現学習のための大規模データセット

Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning ( http://arxiv.org/abs/2309.11500v4 )

ライセンス: Link先を確認
Luoyi Sun, Xuenan Xu, Mengyue Wu, Weidi Xie, (参考訳) 最近、AIコミュニティは、大規模なマルチモーダルデータセットによって駆動される強力な基盤モデルの開発に大きく取り組みました。 しかし、音声表現学習では、既存のデータセットは、不十分なボリューム、単純化された内容、厳しい収集手順といった制限に悩まされる。 高品質なキャプションを持つ音声データセットを確立するために,ビデオフレームやオーディオストリームなどのマルチモーダル入力を活用する,革新的な自動アプローチを提案する。 具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。 トレーニング済みのモデルやAPIを利用して、音声と視覚の同期を決定し、画像キャプション、オブジェクト検出、特定のビデオのオーディオタグを生成します。 次に、LLMを用いて、抽出したマルチモーダルな手がかりによって導かれる、各オーディオに同調的なキャプションを言い換える。 提案したデータセットの有効性を示すため,データセット上で広く使用されているモデルをトレーニングし,音声検索,音声キャプション,ゼロショット分類など,さまざまな下流タスクのパフォーマンス向上を示す。 さらに,環境情報を用いた新しいベンチマークを構築し,音声テキストタスクのベンチマークを提供する。

Recently, the AI community has made significant strides in developing powerful foundation models, driven by large-scale multimodal datasets. However, for audio representation learning, existing datasets suffer from limitations in the following aspects: insufficient volume, simplistic content, and arduous collection procedures. To establish an audio dataset with high-quality captions, we propose an innovative, automatic approach leveraging multimodal inputs, such as video frames, audio streams. Specifically, we construct a large-scale, high-quality, audio-language dataset, named as Auto-ACD, comprising over 1.5M audio-text pairs. We exploit a series of pre-trained models or APIs, to determine audio-visual synchronisation, generate image captions, object detection, or audio tags for specific videos. Subsequently, we employ LLM to paraphrase a congruent caption for each audio, guided by the extracted multi-modality clues. To demonstrate the effectiveness of the proposed dataset, we train widely used models on our dataset and show performance improvement on various downstream tasks, for example, audio-language retrieval, audio captioning, zero-shot classification. In addition, we establish a novel benchmark with environmental information and provide a benchmark for audio-text tasks.
翻訳日:2024-09-11 04:03:29 公開日:2024-09-09
# 敵対的機械学習における距離特徴の計算的絡み合いについて

On the Computational Entanglement of Distant Features in Adversarial Machine Learning ( http://arxiv.org/abs/2309.15669v5 )

ライセンス: Link先を確認
YenLung Lai, Xingbo Dong, Zhe Jin, (参考訳) 本研究では,超過度ニューラルネットワークにおける「計算エンタングルメント(Computational Enanglement)」という現象を紹介し,そのモデルが長さ収縮の効果と概念的に結びついた方法でノイズパターンを利用する。 より具体的には,過パラメータ化フィードフォワード線形ネットワークは,トレーニング中に遭遇したことのない試験サンプルであっても,ランダムノイズを適応することにより,損失をゼロにすることができることを示した。 この現象は長さの収縮に伴い、訓練されたサンプルと試験サンプルが時空図内の同じ点で収束する。 教師付き学習に依存するほとんどのモデルとは異なり、我々の手法はラベルや勾配に基づく最適化を必要とせずに教師なしで動作している。 さらに, 計算絡みの新たな応用法として, 人間の観測者に対して認識可能で頑健な非分布入力を変換する手法を提案する。 このことは、敵のサンプル生成における非破壊的特徴に関する従来の見解に挑戦し、基礎となるメカニズムに関する新たな洞察を提供する。 本研究は, モデル頑健性の向上と, 対角的文脈におけるニューラルネットワーク理解における計算絡みの重要性を強調した。

In this research, we introduce 'computational entanglement', a phenomenon in overparameterized neural networks where the model exploits noise patterns in ways conceptually linked to the effects of length contraction. More specific, our findings demonstrate that overparameterized feedforward linear networks can easily achieve zero loss by fitting random noise, even with test samples that were never encountered during training. This phenomenon accompanies length contraction, where trained and test samples converge at the same point within a spacetime diagram. Unlike most models that rely on supervised learning, our method operates unsupervised, without the need for labels or gradient-based optimization. Additionally, we show a novel application of computational entanglement: transforming adversarial examples-highly non-robuts inputs imperceptible to human observers-into outputs that are recognizable and robust. This challenges conventional views on non-robust features in adversarial example generation, providing new insights into the underlying mechanisms. Our results emphasize the importance of computational entanglement for enhancing model robustness and understanding neural networks in adversarial contexts.
翻訳日:2024-09-11 04:03:29 公開日:2024-09-09
# SCB-Dataset3: 学生の授業行動検出のためのベンチマーク

SCB-Dataset3: A Benchmark for Detecting Student Classroom Behavior ( http://arxiv.org/abs/2310.02522v2 )

ライセンス: Link先を確認
Fan Yang, Tao Wang, (参考訳) 生徒の授業行動を自動的に検出する深層学習手法は,授業成績を分析し,授業効果を向上させる上で有望なアプローチである。 しかし、学生行動に関する公開データセットの欠如は、この分野の研究者にとって課題となっている。 この問題に対処するために,実生活シナリオを表す学生クラスルーム行動データセット(SCB-dataset3)を提案する。 データセットは5686枚の画像と45578枚のラベルで構成されており、手作り、読み書き、電話の使用、頭をお辞儀、テーブルの上に傾ける6つの行動に焦点を当てている。 YOLOv5, YOLOv7, YOLOv8アルゴリズムを用いて, 平均精度(マップ)を最大80.3$\%の精度で評価した。 我々は,我々のデータセットが将来の学生行動検出研究の強固な基盤として機能し,この分野の進歩に寄与すると考えている。 SCB-dataset3 は https://github.com/Whiffe/SCB-dataset でダウンロードできます。

The use of deep learning methods to automatically detect students' classroom behavior is a promising approach for analyzing their class performance and improving teaching effectiveness. However, the lack of publicly available datasets on student behavior poses a challenge for researchers in this field. To address this issue, we propose the Student Classroom Behavior dataset (SCB-dataset3), which represents real-life scenarios. Our dataset comprises 5686 images with 45578 labels, focusing on six behaviors: hand-raising, reading, writing, using a phone, bowing the head, and leaning over the table. We evaluated the dataset using the YOLOv5, YOLOv7, and YOLOv8 algorithms, achieving a mean average precision (map) of up to 80.3$\%$. We believe that our dataset can serve as a robust foundation for future research in student behavior detection and contribute to advancements in this field. Our SCB-dataset3 is available for download at: https://github.com/Whiffe/SCB-dataset
翻訳日:2024-09-11 04:03:29 公開日:2024-09-09
# 時空間アテンションに基づく生徒の授業行動検出法

A Spatio-Temporal Attention-Based Method for Detecting Student Classroom Behaviors ( http://arxiv.org/abs/2310.02523v4 )

ライセンス: Link先を確認
Fan Yang, (参考訳) 授業映像から生徒の行動の正確な検出は,授業状況の分析と指導効率の向上に有用である。 しかし、学生の授業行動検出の精度が低いことが問題となっている。 この問題に対処するため,学生の授業行動検出のための時空間注意ベース手法(BDSTA)を提案する。 まず、SlowFastネットワークを使用して、動画から動きと環境情報の特徴マップを生成する。 次に、情報集約、圧縮、刺激プロセスを含む特徴マップに時空間注目モジュールを適用する。 その後、時間、チャネル、空間次元のアテンションマップを取得し、これらのアテンションマップに基づいてマルチラベルの行動分類を行う。 学生の授業行動データセットに存在する長期データ問題を解決するため、学習中のテールクラスデータにより重みを割り当てるために焦点損失関数を改良した。 STSCBという自作教室行動データセットを用いて実験を行った。 SlowFast モデルと比較すると,BDSTA を用いた学生行動分類の精度は8.94 %向上した。

Accurately detecting student behavior from classroom videos is beneficial for analyzing their classroom status and improving teaching efficiency. However, low accuracy in student classroom behavior detection is a prevalent issue. To address this issue, we propose a Spatio-Temporal Attention-Based Method for Detecting Student Classroom Behaviors (BDSTA). Firstly, the SlowFast network is used to generate motion and environmental information feature maps from the video. Then, the spatio-temporal attention module is applied to the feature maps, including information aggregation, compression and stimulation processes. Subsequently, attention maps in the time, channel and space dimensions are obtained, and multi-label behavior classification is performed based on these attention maps. To solve the long-tail data problem that exists in student classroom behavior datasets, we use an improved focal loss function to assign more weight to the tail class data during training. Experimental results are conducted on a self-made student classroom behavior dataset named STSCB. Compared with the SlowFast model, the average accuracy of student behavior classification detection improves by 8.94\% using BDSTA.
翻訳日:2024-09-11 04:03:29 公開日:2024-09-09
# ランダム行列理論を用いたディープラーニングの精度向上

Enhancing Accuracy in Deep Learning Using Random Matrix Theory ( http://arxiv.org/abs/2310.03165v3 )

ライセンス: Link先を確認
Leonid Berlyand, Etienne Sandier, Yitzchak Shmalo, Lei Zhang, (参考訳) 深層ニューラルネットワーク(DNN)のトレーニングにおけるランダム行列理論(RMT)の適用について検討し,DNNパラメータ(重み)の低減に寄与する層プルーニングに着目した。 数値計算の結果,DNNとCNNの精度は低下せず,パラメータの大幅な削減につながることが明らかとなった。 さらに,完全連結DNNのプルーニングにより精度が向上し,ランダム初期化のばらつきが低減される。 我々の数値は、この精度の向上は、損失景観の単純化によるものであることを示している。 次に、RTTに基づくPruning Theoremを証明し、これらの数値結果の厳密な数学的基盤を提供する。 この結果から,より効率的かつ正確なディープラーニングモデル構築のためのRTTの実践的応用に関する貴重な知見が得られた。

We explore the applications of random matrix theory (RMT) in the training of deep neural networks (DNNs), focusing on layer pruning that is reducing the number of DNN parameters (weights). Our numerical results show that this pruning leads to a drastic reduction of parameters while not reducing the accuracy of DNNs and CNNs. Moreover, pruning the fully connected DNNs actually increases the accuracy and decreases the variance for random initializations. Our numerics indicate that this enhancement in accuracy is due to the simplification of the loss landscape. We next provide rigorous mathematical underpinning of these numerical results by proving the RMT-based Pruning Theorem. Our results offer valuable insights into the practical application of RMT for the creation of more efficient and accurate deep-learning models.
翻訳日:2024-09-11 04:03:29 公開日:2024-09-09
# 量子コンピュータにおける資源効率の良いブール関数解法

Resource Efficient Boolean Function Solver on Quantum Computer ( http://arxiv.org/abs/2310.05013v2 )

ライセンス: Link先を確認
Xiang Li, Hanxiang Shen, Weiguo Gao, Yingzhou Li, (参考訳) 非線形ブール方程式系は幅広い応用において重要な役割を果たす。 グロバーのアルゴリズムは、量子コンピュータ上の非線形ブール方程式を解く最もよく知られた量子探索アルゴリズムの1つである。 本稿では,Groverのアルゴリズムフレームワークによる効率向上のための3つの新しい手法を提案する。 Wサイクル回路の構成は、一定数の量子ビットを与えられたブール方程式の解数を増やす再帰的アイデアを導入する。 そして, オラクル回路の深さを低減するため, グリージー圧縮法を提案する。 最後に、ランダム化されたグロバーのアルゴリズムは、繰り返しごとにランダムなオラクルを形成するために方程式のサブセットをランダムに選択し、さらに回路深さとアンシラ量子ビットの数を減少させる。 ブール二次方程式の数値計算結果から,提案手法の有効性が示された。

Nonlinear boolean equation systems play an important role in a wide range of applications. Grover's algorithm is one of the best-known quantum search algorithms in solving the nonlinear boolean equation system on quantum computers. In this paper, we propose three novel techniques to improve the efficiency under Grover's algorithm framework. A W-cycle circuit construction introduces a recursive idea to increase the solvable number of boolean equations given a fixed number of qubits. Then, a greedy compression technique is proposed to reduce the oracle circuit depth. Finally, a randomized Grover's algorithm randomly chooses a subset of equations to form a random oracle every iteration, which further reduces the circuit depth and the number of ancilla qubits. Numerical results on boolean quadratic equations demonstrate the efficiency of the proposed techniques.
翻訳日:2024-09-11 04:03:29 公開日:2024-09-09
# 真の3ビットエンタングルメントの決定論的光子源

Deterministic photon source of genuine three-qubit entanglement ( http://arxiv.org/abs/2310.12038v3 )

ライセンス: Link先を確認
Yijian Meng, Ming Lai Chan, Rasmus B. Nielsen, Martin H. Appel, Zhe Liu, Ying Wang, Nikolai Bart, Andreas D. Wieck, Arne Ludwig, Leonardo Midolo, Alexey Tiranov, Anders S. Sørensen, Peter Lodahl, (参考訳) 決定論的光子源は、量子光学の長期的な進歩を可能にする。 フォトニック共振器または導波管に埋め込まれた単一の量子エミッタは、所望の光モードに一度に1つの光子を放出するようにトリガーされることがある。 エミッタ内の1つのスピンをコヒーレントに制御することにより、多光子絡みを実現することができる。 平面型ナノフォトニック導波路に埋め込まれた量子ドットに閉じ込められた単一電子スピンに基づく3量子絡みの決定論的源を実証する。 我々は,高密度コヒーレントな光スピン回転を実現するために,スピン除去時間を$T_2^* \simeq 33$ nsに引き上げるために核スピン絞りを実装し,高密度スピン光子およびスピン光子-光子エンタングルメントの逐次生成のためのスピンエチョパルスシーケンスを実現する。 放出された光子は非常に区別がつかず、光子融合がより大きな絡み合った状態を実現するための鍵となる要件である。 この研究は多光子絡みのスケーラブルな決定論的源を示し、さらなる改善のための明確な経路を示し、フォトニック量子コンピューティングや量子ネットワークにおいて有望な応用を提供する。

Deterministic photon sources allow long-term advancements in quantum optics. A single quantum emitter embedded in a photonic resonator or waveguide may be triggered to emit one photon at a time into a desired optical mode. By coherently controlling a single spin in the emitter, multi-photon entanglement can be realized. We demonstrate a deterministic source of three-qubit entanglement based on a single electron spin trapped in a quantum dot embedded in a planar nanophotonic waveguide. We implement nuclear spin narrowing to increase the spin dephasing time to $T_2^* \simeq 33$ ns, which enables high-fidelity coherent optical spin rotations, and realize a spin-echo pulse sequence for sequential generation of high-fidelity spin-photon and spin-photon-photon entanglement. The emitted photons are highly indistinguishable, which is a key requirement for subsequent photon fusions to realize larger entangled states. This work presents a scalable deterministic source of multi-photon entanglement with a clear pathway for further improvements, offering promising applications in photonic quantum computing or quantum networks.
翻訳日:2024-09-11 03:52:53 公開日:2024-09-09
# Local Universal Explainer (LUX) -- 現実的、事実的、視覚的説明を伴うルールベースの説明器

Local Universal Explainer (LUX) -- a rule-based explainer with factual, counterfactual and visual explanations ( http://arxiv.org/abs/2310.14894v3 )

ライセンス: Link先を確認
Szymon Bobek, Grzegorz J. Nalepa, (参考訳) 説明可能な人工知能(XAI)は、近年で最も重要なAI分野の一つである。 また、説明の異なる側面に焦点を当てた複数のメソッドでもっとも断片化されたものの1つである。 これは、コンパクトで一貫した方法で一度に説明の完全なスペクトルを得るのが困難である。 この問題に対処するために、ルールベースの説明器であるLocal Universal Explainer(LUX)を提案する。 これは、決定木アルゴリズムの修正版に基づいており、斜め分割とSHAPのような重要なXAIメソッドとの統合を可能にする。 これは、他のアルゴリズムとは逆のデータ生成を制限するが、説明モデルの決定境界の形成と新しいSHAP誘導サンプリングアルゴリズムによる人工サンプルの生成に最も影響を与える、実データの高密度クラスタの形で局所的な概念を選択することに重点を置いている。 提案手法を実データと合成データセットで検証し, LORE, EXPLAN, Anchorなどの最先端のルールベースの説明器と比較した。 提案手法は, 単純性, 忠実性, 代表性, 一貫性の観点から, 既存手法よりも優れている。

Explainable artificial intelligence (XAI) is one of the most intensively developed area of AI in recent years. It is also one of the most fragmented with multiple methods that focus on different aspects of explanations. This makes difficult to obtain the full spectrum of explanation at once in a compact and consistent way. To address this issue, we present Local Universal Explainer (LUX), which is a rule-based explainer that can generate factual, counterfactual and visual explanations. It is based on a modified version of decision tree algorithms that allows for oblique splits and integration with feature importance XAI methods such as SHAP. It limits the use data generation in opposite to other algorithms, but is focused on selecting local concepts in a form of high-density clusters of real data that have the highest impact on forming the decision boundary of the explained model and generating artificial samples with novel SHAP-guided sampling algorithm. We tested our method on real and synthetic datasets and compared it with state-of-the-art rule-based explainers such as LORE, EXPLAN and Anchor. Our method outperforms the existing approaches in terms of simplicity, fidelity, representativeness, and consistency.
翻訳日:2024-09-11 03:52:53 公開日:2024-09-09
# 時空間ネットワークとマルチモデル融合に基づく学生の授業行動検出

Student Classroom Behavior Detection based on Spatio-Temporal Network and Multi-Model Fusion ( http://arxiv.org/abs/2310.16267v4 )

ライセンス: Link先を確認
Fan Yang, Xiaofei Wang, (参考訳) ディープラーニング手法を用いて生徒の授業行動を自動的に検出することは,授業成績を分析し,授業効果を向上させる上で有望なアプローチである。 しかし、学生の行動に関する時空間データセットが公開されていないことと、そのようなデータセットを手作業でラベル付けするコストが高いことが、この分野の研究者にとって大きな課題となっている。 この問題に対処するため,学生教室シナリオ(SCB-ST-Dataset4)における時空間行動データセットを画像データセットで拡張する手法を提案した。 SCB-ST-Dataset4は757265枚の画像と25810個のラベルで構成されており、手作り、読み書きの3つの行動に焦点を当てている。 提案手法は,手動ラベリングを必要とせず,時空間の行動データセットを高速に生成できる。 さらに,行動類似度指標(BSI)を提案し,行動類似度について検討した。 YOLOv5, YOLOv7, YOLOv8, SlowFastアルゴリズムを用いて, 平均精度(マップ)を82.3%まで向上させた。 最後に,様々な視点から生徒の行動関連データを生成するために,複数のモデルを融合させた。 さらに,本手法の有効性を実証した。 そして、SCB-ST-Dataset4は、将来の学生の行動検出研究のための堅牢な基盤を提供し、この分野の進歩に寄与する可能性がある。 SCB-ST-Dataset4 は https://github.com/Whiffe/SCB-dataset でダウンロードできる。

Using deep learning methods to detect students' classroom behavior automatically is a promising approach for analyzing their class performance and improving teaching effectiveness. However, the lack of publicly available spatio-temporal datasets on student behavior, as well as the high cost of manually labeling such datasets, pose significant challenges for researchers in this field. To address this issue, we proposed a method for extending the spatio-temporal behavior dataset in Student Classroom Scenarios (SCB-ST-Dataset4) through image dataset. Our SCB-ST-Dataset4 comprises 757265 images with 25810 labels, focusing on 3 behaviors: hand-raising, reading, writing. Our proposed method can rapidly generate spatio-temporal behavior datasets without requiring extra manual labeling. Furthermore, we proposed a Behavior Similarity Index (BSI) to explore the similarity of behaviors. We evaluated the dataset using the YOLOv5, YOLOv7, YOLOv8, and SlowFast algorithms, achieving a mean average precision (map) of up to 82.3%. Last, we fused multiple models to generate student behavior-related data from various perspectives. The experiment further demonstrates the effectiveness of our method. And SCB-ST-Dataset4 provides a robust foundation for future research in student behavior detection, potentially contributing to advancements in this field. The SCB-ST-Dataset4 is available for download at: https://github.com/Whiffe/SCB-dataset.
翻訳日:2024-09-11 03:52:53 公開日:2024-09-09
# クープマン作用素を用いた光量子系解析の高速化

Accelerating the analysis of optical quantum systems using the Koopman operator ( http://arxiv.org/abs/2310.16578v3 )

ライセンス: Link先を確認
Anna Hunstig, Sebastian Peitz, Hendrik Rose, Torsten Meier, (参考訳) 光子エコーの予測は、光量子系を理解するための重要な技術である。 しかし、通常は様々なパラメータと入力パルスを持つ多数のシミュレーションを必要とし、数値的な研究は計算に高価である。 本稿では,Koopman演算子をベースとしたデータ駆動サロゲートモデルを用いて,この処理を高速化し,多くの時間ステップで精度を維持した。 この目的のために、拡張動的モード分解を用いた双線型クープマンモデルを用いて、不均一に拡張された2レベル系のアンサンブルに対する光学ブロッホ方程式をシミュレートする。 これらのシステムは、半導体量子ドットのアンサンブルのような半導体ナノ構造におけるエキソニック共鳴の励起を記述するのに適している。 我々は,データ駆動型クープマンモデルに必要なシステムシミュレーション数を決定するための詳細な研究を行い,幅広いパラメータ設定で十分な精度を実現する。 我々は、光子エコーピークのL2誤差と相対誤差を分析し、制御位置が安定化にどのように関係するかを調べる。 適切な訓練をした後、量子アンサンブルの力学を正確に予測し、数値効率で予測することができる。

The prediction of photon echoes is a crucial technique for understanding optical quantum systems. However, it typically requires numerous simulations with varying parameters and input pulses, rendering numerical studies computationally expensive. This article investigates the use of data-driven surrogate models based on the Koopman operator to accelerate this process while maintaining accuracy over many time steps. To this end, we employ a bilinear Koopman model using extended dynamic mode decomposition to simulate the optical Bloch equations for an ensemble of inhomogeneously broadened two-level systems. These systems are well suited to describe the excitation of excitonic resonances in semiconductor nanostructures, such as ensembles of semiconductor quantum dots. We conduct a detailed study to determine the number of system simulations required for the resulting data-driven Koopman model to achieve sufficient accuracy across a wide range of parameter settings. We analyze the L2 error and the relative error of the photon echo peak and investigate how the control positions relate to stabilization. After proper training, our methods can predict the dynamics of the quantum ensemble accurately and with numerical efficiency.
翻訳日:2024-09-11 03:52:53 公開日:2024-09-09
# TivNe-SLAM:時変ニューラルラジアンス場による動的マッピングと追跡

TivNe-SLAM: Dynamic Mapping and Tracking via Time-Varying Neural Radiance Fields ( http://arxiv.org/abs/2310.18917v5 )

ライセンス: Link先を確認
Chengyao Duan, Zhiliu Yang, (参考訳) 従来のNeural Radiance Fields(NeRF)をSLAMフレームワークに統合する試みは、静的シーンの仮定に依存するか、地上の真理カメラのポーズを必要とする。 本稿では,動的シーンの追跡と再構成を行うための時間変化表現を提案する。 まず、トラッキングプロセスとマッピングプロセスという2つのプロセスが、我々のフレームワークで同時に維持されます。 トラッキングプロセスでは、全ての入力画像が一様にサンプリングされ、その後、自己監督パラダイムで漸進的に訓練される。 マッピングでは,動体マスクを利用して静的な背景から動的物体を識別し,動的領域からより多くのピクセルをサンプリングする。 第二に、両プロセスのパラメータ最適化は、第1段階が時間と3D位置を関連付けて変形場を標準場に変換する2段階からなる。 第2のステージは、標準フィールドの埋め込みと時間を関連付け、色と符号付き距離関数(SDF)を得る。 最後に、重なり合う速度に基づく新しいキーフレーム選択戦略を提案する。 提案手法は,2つの合成データセットと1つの実世界のデータセットを用いて評価し,既存のNeRFベースの動的SLAMシステムと比較して,トラッキングとマッピングの両面で競合する結果が得られることを示した。

Previous attempts to integrate Neural Radiance Fields (NeRF) into the Simultaneous Localization and Mapping (SLAM) framework either rely on the assumption of static scenes or require the ground truth camera poses, which impedes their application in real-world scenarios. This paper proposes a time-varying representation to track and reconstruct the dynamic scenes. Firstly, two processes, a tracking process and a mapping process, are maintained simultaneously in our framework. In the tracking process, all input images are uniformly sampled and then progressively trained in a self-supervised paradigm. In the mapping process, we leverage motion masks to distinguish dynamic objects from the static background, and sample more pixels from dynamic areas. Secondly, the parameter optimization for both processes is comprised of two stages: the first stage associates time with 3D positions to convert the deformation field to the canonical field. The second stage associates time with the embeddings of the canonical field to obtain colors and a Signed Distance Function (SDF). Lastly, we propose a novel keyframe selection strategy based on the overlapping rate. Our approach is evaluated on two synthetic datasets and one real-world dataset, and the experiments validate that our method achieves competitive results in both tracking and mapping when compared to existing state-of-the-art NeRF-based dynamic SLAM systems.
翻訳日:2024-09-11 03:52:53 公開日:2024-09-09
# 絡み合いの複雑さ

The Complexity of Being Entangled ( http://arxiv.org/abs/2311.04277v2 )

ライセンス: Link先を確認
Stefano Baiguera, Shira Chapman, Giuseppe Policastro, Tal Schwartzman, (参考訳) ニールセンの量子状態複雑性へのアプローチは、一元変換の多様体上の特定のノルムで計算された測地線の長さに状態を作るのに必要な最小の量子ゲート数に関係している。 バイパーティイトシステムでは,単一サブシステムに作用するゲートがコストがかからないノルムに対応する結合複雑性について検討する。 我々は、適切な計量を備えたシュミット係数の多様体上の測地学の研究に問題を還元する。 結合複雑性は分散コンピューティングや量子通信複雑性などの他の量と密接に関連しており、AdS/CFTの文脈においてホログラフィック双対が提案されている。 リーマンノルムを持つ有限次元系に対しては、結合複雑性と最小R'enyiエントロピーの正確な関係を見出す。 また、最もよく用いられる非リーマンノルム(いわゆる$F_1$ノルム)の分析結果を見つけ、量子計算やホログラフィーでユビキタスな状態複雑性の概念に対する低い境界を与える。 我々の結果は、サブシステム全体にわたって作用するジェネレータに割り当てられた大量のペナルティ要因に対して有効である、と我々は主張する。 文献に欠けていた$F_1$ノルムの場合, 単一のスピンに対して通常の複雑性(結合性ではない)を研究するために, この結果を借りることが実証された。 最後に、回路が少なくとも2ドルの局所的相互作用を含むような、多部結合複雑性と関連する(連続的な)回路複雑性のバウンダリを導出する。

Nielsen's approach to quantum state complexity relates the minimal number of quantum gates required to prepare a state to the length of geodesics computed with a certain norm on the manifold of unitary transformations. For a bipartite system, we investigate binding complexity, which corresponds to norms in which gates acting on a single subsystem are free of cost. We reduce the problem to the study of geodesics on the manifold of Schmidt coefficients, equipped with an appropriate metric. Binding complexity is closely related to other quantities such as distributed computing and quantum communication complexity, and has a proposed holographic dual in the context of AdS/CFT. For finite dimensional systems with a Riemannian norm, we find an exact relation between binding complexity and the minimal R\'enyi entropy. We also find analytic results for the most commonly used non-Riemannian norm (the so-called $F_1$ norm) and provide lower bounds for the associated notion of state complexity ubiquitous in quantum computation and holography. We argue that our results are valid for a large class of penalty factors assigned to generators acting across the subsystems. We demonstrate that our results can be borrowed to study the usual complexity (not-binding) for a single spin for the case of the $F_1$ norm which was previously lacking from the literature. Finally, we derive bounds for multi-partite binding complexities and the related (continuous) circuit complexity where the circuit contains at most $2$-local interactions.
翻訳日:2024-09-11 03:52:53 公開日:2024-09-09
# 固有ベイズ・クラメール・ラオ境界と共分散行列推定への応用

Intrinsic Bayesian Cramér-Rao Bound with an Application to Covariance Matrix Estimation ( http://arxiv.org/abs/2311.04748v3 )

ライセンス: Link先を確認
Florent Bouchard, Alexandre Renaux, Guillaume Ginolhac, Arnaud Breloy, (参考訳) 本稿では、推定するパラメータがリーマン多様体(リーマン計量で与えられる滑らかな多様体)に存在し、与えられた事前分布に従うような推定問題に対する新たな性能境界を提案する。 この設定において、選択されたリーマン計量は、パラメータ多様体の幾何学と推定誤差測度の本質的な概念を誘導する。 そのような誤差測度のパフォーマンスは、以前は非ベイジアンの場合(未知のパラメータが決定論的であると仮定された場合)に得られ、 \textit{intrinsic} Cram\'er-Rao 境界と呼ばれる。 提示された結果は以下のようになる: \textit{a}) 固有クラム=ラオのベイズ推定フレームワークへの拡張; \textit{b}) 上記の幾何学構造を考慮に入れたヴァン=トレーの不等式(ベイズ的クラム=ラオ境界)の一般化。 第二部では、この形式を利用して、データがガウス分布に従えば共分散行列推定の問題を研究し、その共分散行列は逆ウィッシュアート分布から引き出される。 この問題の性能境界は平均二乗誤差(ユークリッド計量)とエルミート正定行列(アフィン不変計量)の自然リーマン距離の両方に対して得られる。 数値シミュレーションにより、アフィン不変計量を用いて誤差を評価することは、ユークリッド計量を用いて観測されない最大平均二乗誤差推定器と最小平均二乗誤差推定器の興味深い性質を明らかにしている。

This paper presents a new performance bound for estimation problems where the parameter to estimate lies in a Riemannian manifold (a smooth manifold endowed with a Riemannian metric) and follows a given prior distribution. In this setup, the chosen Riemannian metric induces a geometry for the parameter manifold, as well as an intrinsic notion of the estimation error measure. Performance bound for such error measure were previously obtained in the non-Bayesian case (when the unknown parameter is assumed to deterministic), and referred to as \textit{intrinsic} Cram\'er-Rao bound. The presented result then appears either as: \textit{a}) an extension of the intrinsic Cram\'er-Rao bound to the Bayesian estimation framework; \textit{b}) a generalization of the Van-Trees inequality (Bayesian Cram\'er-Rao bound) that accounts for the aforementioned geometric structures. In a second part, we leverage this formalism to study the problem of covariance matrix estimation when the data follow a Gaussian distribution, and whose covariance matrix is drawn from an inverse Wishart distribution. Performance bounds for this problem are obtained for both the mean squared error (Euclidean metric) and the natural Riemannian distance for Hermitian positive definite matrices (affine invariant metric). Numerical simulation illustrate that assessing the error with the affine invariant metric is revealing of interesting properties of the maximum a posteriori and minimum mean square error estimator, which are not observed when using the Euclidean metric.
翻訳日:2024-09-11 03:52:53 公開日:2024-09-09
# LLMのオンライン化 - 機会と課題

Online Advertisements with LLMs: Opportunities and Challenges ( http://arxiv.org/abs/2311.07601v4 )

ライセンス: Link先を確認
Soheil Feizi, MohammadTaghi Hajiaghayi, Keivan Rezaei, Suho Shin, (参考訳) 本稿では,オンライン広告システムにおけるLarge Language Models(LLM)の活用の可能性について検討する。 提案手法は,LLM広告の修正,入札,予測,オークションモジュールから構成される。 各モジュールに対する異なる設計上の考慮事項が提示される。 これらの設計選択は、持続可能なシステムを維持するために必要な本質的なデシラタに基づいて評価され、議論される。 今後の研究には、実用性、効率性、実装上の課題に関する根本的な疑問が提起される。 最後に,LLMの機構設計における最近のアプローチについて,統一的な視点で概説する。

This paper explores the potential for leveraging Large Language Models (LLM) in the realm of online advertising systems. We introduce a general framework for LLM advertisement, consisting of modification, bidding, prediction, and auction modules. Different design considerations for each module are presented. These design choices are evaluated and discussed based on essential desiderata required to maintain a sustainable system. Further fundamental questions regarding practicality, efficiency, and implementation challenges are raised for future research. Finally, we exposit how recent approaches on mechanism design for LLM can be framed in our unified perspective.
翻訳日:2024-09-11 03:52:53 公開日:2024-09-09
# 量子コンピュータ上でのシュウィンガーモデルシミュレーションにおけるエンドツーエンドの複雑さ

End-to-end complexity for simulating the Schwinger model on quantum computers ( http://arxiv.org/abs/2311.17388v3 )

ライセンス: Link先を確認
Kazuki Sakamoto, Hayata Morisaki, Junichi Haruna, Etsuko Itou, Keisuke Fujii, Kosuke Mitarai, (参考訳) シュウィンガーモデルは最も単純なゲージ理論の一つである。 このモデルの位相的項は、古典モンテカルロ法における悪名高い符号問題につながることが知られている。 これとは対照的に、近年、ハミルトン形式論における量子コンピューティングが注目されている。 本研究では,従来のコンピュータでは計算が難しい物理量を計算するために,量子コンピュータに必要なリソースを推定する。 具体的には、シュウィンガーモデルハミルトンのブロックエンコーディングの効率的な実装を提案する。 ハミルトニアンの構造を考えると、このブロックエンコーディングは正規化係数$\mathcal{O}(N^3)$で、$\mathcal{O}(N+\log^2(N/\varepsilon))$ T ゲートで実装できる。 エンド・ツー・エンドのアプリケーションとして、真空永続振幅を計算する。 その結果,システムサイズが$N=128$,加法誤差が$\varepsilon=0.01$,伸長時間が$t$,格子が満足度が$t/2a=10$となる場合,真空パーシステンス振幅を約10^{13}$Tゲートで計算できることがわかった。 本研究では,FTQC と FTQC の初期における量子コンピュータの性能予測に関する知見を提供し,現実的な時間枠内で有意義な問題を解く上での課題を明らかにする。

The Schwinger model is one of the simplest gauge theories. It is known that a topological term of the model leads to the infamous sign problem in the classical Monte Carlo method. In contrast to this, recently, quantum computing in Hamiltonian formalism has gained attention. In this work, we estimate the resources needed for quantum computers to compute physical quantities that are challenging to compute on classical computers. Specifically, we propose an efficient implementation of block-encoding of the Schwinger model Hamiltonian. Considering the structure of the Hamiltonian, this block-encoding with a normalization factor of $\mathcal{O}(N^3)$ can be implemented using $\mathcal{O}(N+\log^2(N/\varepsilon))$ T gates. As an end-to-end application, we compute the vacuum persistence amplitude. As a result, we found that for a system size $N=128$ and an additive error $\varepsilon=0.01$, with an evolution time $t$ and a lattice spacing a satisfying $t/2a=10$, the vacuum persistence amplitude can be calculated using about $10^{13}$ T gates. Our results provide insights into predictions about the performance of quantum computers in the FTQC and early FTQC era, clarifying the challenges in solving meaningful problems within a realistic timeframe.
翻訳日:2024-09-11 03:42:43 公開日:2024-09-09
# W-HMR: 弱修正キャリブレーションによる世界空間でのモノクラーヒューマンメッシュ回復

W-HMR: Monocular Human Mesh Recovery in World Space with Weak-Supervised Calibration ( http://arxiv.org/abs/2311.17460v6 )

ライセンス: Link先を確認
Wei Yao, Hongwen Zhang, Yunlian Sun, Yebin Liu, Jinhui Tang, (参考訳) モノクロ画像から3次元の人間の動きを復元する従来の方法は、カメラ座標に依存するため、しばしば不足し、現実世界の応用では不正確である。 焦点距離ラベルの可用性と多様性の制限により、再構成された3次元人体における不整合問題がさらに悪化する。 これらの課題に対処するため,身体の歪み情報に基づいて焦点距離を予測し,精度の高い焦点距離ラベルを不要としたW-HMRを導入する。 提案手法は2次元監視精度と回復精度を向上させる。 さらに、不正確なカメラ回転予測に伴う誤差の蓄積を回避し、世界空間における可視的再構成のための身体配向を補正するOrientCorrectモジュールを提案する。 我々の貢献には、カメラのキャリブレーション技術、効果的な配向補正モジュール、およびカメラと世界の両方の座標における人間の運動回復の一般化性と精度を大幅に向上させるデカップリング戦略が含まれる。 W-HMRのロバスト性は、様々なデータセットに関する広範な実験を通じて検証され、既存の手法よりもその優位性を示している。 コードとデモはプロジェクトページ https://yw0208.github.io/w-hmr/ で公開されている。

Previous methods for 3D human motion recovery from monocular images often fall short due to reliance on camera coordinates, leading to inaccuracies in real-world applications. The limited availability and diversity of focal length labels further exacerbate misalignment issues in reconstructed 3D human bodies. To address these challenges, we introduce W-HMR, a weak-supervised calibration method that predicts "reasonable" focal lengths based on body distortion information, eliminating the need for precise focal length labels. Our approach enhances 2D supervision precision and recovery accuracy. Additionally, we present the OrientCorrect module, which corrects body orientation for plausible reconstructions in world space, avoiding the error accumulation associated with inaccurate camera rotation predictions. Our contributions include a novel weak-supervised camera calibration technique, an effective orientation correction module, and a decoupling strategy that significantly improves the generalizability and accuracy of human motion recovery in both camera and world coordinates. The robustness of W-HMR is validated through extensive experiments on various datasets, showcasing its superiority over existing methods. Codes and demos have been made available on the project page https://yw0208.github.io/w-hmr/.
翻訳日:2024-09-11 03:42:43 公開日:2024-09-09
# X-InstructBLIP: X-Modal 命令認識表現を LLM および創発的クロスモーダル推論に整合させるフレームワーク

X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning ( http://arxiv.org/abs/2311.18799v2 )

ライセンス: Link先を確認
Artemis Panagopoulou, Le Xue, Ning Yu, Junnan Li, Dongxu Li, Shafiq Joty, Ran Xu, Silvio Savarese, Caiming Xiong, Juan Carlos Niebles, (参考訳) 近年の研究では、画像から言語への投影を学習し、Large Language Models(LLMs)の印象的な推論能力を活用することで、視覚的推論タスクの大幅な進歩が達成されている。 本稿では,複数のモーダル性(イメージ,3D,オーディオ,ビデオ)を冷凍LDMに統合し,相互モーダル推論(2以上のモーダル入力)の創発的能力を示す,効率的かつ効率的なフレームワークを提案する。 提案手法では, Q-Formers と Linear Projections (LP) の2つの異なるプロジェクション機構について検討する。 16のベンチマークで4つのモダリティすべてにまたがる広範囲な実験を通して、我々は2つの手法を探索し、それらの適応性を統合的および分離的相互モーダル推論において評価する。 Q-Formerプロジェクションは、単一モダリティのシナリオにおいて優れた性能を示し、2つ以上のモダリティを含む連立的推論と差別的推論における適応性を示す。 しかし、タスク・モダリティデータが制限されたコンテキストでは、線形射影よりも一般化能力が低い。 このフレームワークを実現するために、さまざまなモダリティで利用可能なキャプションデータから高品質な命令チューニングデータセットを自動的に生成するスケーラブルなパイプラインを開発し、オーディオ用24KQAデータと3D用250KQAデータにコントリビュートする。 9KオーディオビデオQAサンプルと28K画像3DQAサンプルからなるDisCRn(Discriminative Cross-modal Reasoning)ベンチマークを導入する。

Recent research has achieved significant advancements in visual reasoning tasks through learning image-to-language projections and leveraging the impressive reasoning abilities of Large Language Models (LLMs). This paper introduces an efficient and effective framework that integrates multiple modalities (images, 3D, audio and video) to a frozen LLM and demonstrates an emergent ability for cross-modal reasoning (2+ modality inputs). Our approach explores two distinct projection mechanisms: Q-Formers and Linear Projections (LPs). Through extensive experimentation across all four modalities on 16 benchmarks, we explore both methods and assess their adaptability in integrated and separate cross-modal reasoning. The Q-Former projection demonstrates superior performance in single modality scenarios and adaptability in joint versus discriminative reasoning involving two or more modalities. However, it exhibits lower generalization capabilities than linear projection in contexts where task-modality data are limited. To enable this framework, we devise a scalable pipeline that automatically generates high-quality, instruction-tuning datasets from readily available captioning data across different modalities, and contribute 24K QA data for audio and 250K QA data for 3D. To facilitate further research in cross-modal reasoning, we introduce the DisCRn (Discriminative Cross-modal Reasoning) benchmark comprising 9K audio-video QA samples and 28K image-3D QA samples that require the model to reason discriminatively across disparate input modalities.
翻訳日:2024-09-11 03:42:43 公開日:2024-09-09
# TPA3D:高速テキストから3D生成のためのトライプレーンアテンション

TPA3D: Triplane Attention for Fast Text-to-3D Generation ( http://arxiv.org/abs/2312.02647v3 )

ライセンス: Link先を確認
Bin-Shih Wu, Hong-En Chen, Sheng-Yu Huang, Yu-Chiang Frank Wang, (参考訳) 大規模なテキスト3D対応データがないため、最近のテキスト・ツー・3D生成は主に3Dデータの合成に2D拡散モデルを活用することに依存している。 拡散法は通常、トレーニングと推論の両方にかなりの最適化時間を必要とするため、高速な3D生成にはGANベースのモデルを使うことが望ましい。 本研究では,高速テキスト・ツー・3D生成のための学習モデルであるTPA3D(Triplane Attention for text-guided 3D Generation)を提案する。 トレーニング中の3D形状データとレンダリングされた2D画像のみを用いて,TPA3Dは,対応する3Dメッシュデータを合成するための詳細な視覚的記述を検索するように設計されている。 これは,抽出した文と単語レベルのテキストの特徴に対する注意機構によって達成される。 実験の結果,TPA3Dは微細な記述に整合した高品質な3次元テクスチャ形状を生成できるが,計算効率は目覚ましい。

Due to the lack of large-scale text-3D correspondence data, recent text-to-3D generation works mainly rely on utilizing 2D diffusion models for synthesizing 3D data. Since diffusion-based methods typically require significant optimization time for both training and inference, the use of GAN-based models would still be desirable for fast 3D generation. In this work, we propose Triplane Attention for text-guided 3D generation (TPA3D), an end-to-end trainable GAN-based deep learning model for fast text-to-3D generation. With only 3D shape data and their rendered 2D images observed during training, our TPA3D is designed to retrieve detailed visual descriptions for synthesizing the corresponding 3D mesh data. This is achieved by the proposed attention mechanisms on the extracted sentence and word-level text features. In our experiments, we show that TPA3D generates high-quality 3D textured shapes aligned with fine-grained descriptions, while impressive computation efficiency can be observed.
翻訳日:2024-09-11 03:42:43 公開日:2024-09-09
# 固定効果を有する静的パネルモデルのダブル機械学習

Double Machine Learning for Static Panel Models with Fixed Effects ( http://arxiv.org/abs/2312.08174v4 )

ライセンス: Link先を確認
Paul Clarke, Annalivia Polselli, (参考訳) 因果推論の最近の進歩は、機械学習アルゴリズムの予測能力を利用する手法の開発が進んでいる。 本稿では、これらのアルゴリズムを用いて、共同創設者の高次元および非線形ニュアンス関数と二重機械学習(DML)を近似し、パネルデータから政策介入の影響を推測する。 我々は、線形モデルに対する相関ランダム効果、内部群および第一差分推定を、Robinson (1988) の偏線形回帰モデルから、個々の固定効果と不特定非線形共役効果を持つ静的パネルデータモデルへの拡張に拡張することにより、新しい推定器を提案する。 本稿では、イギリスにおける最低賃金の導入が投票行動に与える影響を示す観測パネルデータに対するDMLの例を示す。

Recent advances in causal inference have seen the development of methods which make use of the predictive power of machine learning algorithms. In this paper, we use these algorithms to approximate high-dimensional and non-linear nuisance functions of the confounders and double machine learning (DML) to make inferences about the effects of policy interventions from panel data. We propose new estimators by extending correlated random effects, within-group and first-difference estimation for linear models to an extension of Robinson (1988)'s partially linear regression model to static panel data models with individual fixed effects and unspecified non-linear confounding effects. We provide an illustrative example of DML for observational panel data showing the impact of the introduction of the minimum wage on voting behaviour in the UK.
翻訳日:2024-09-11 03:42:43 公開日:2024-09-09
# Diffusion Cocktail: 分割画像生成のためのドメイン特化拡散モデル混合

Diffusion Cocktail: Mixing Domain-Specific Diffusion Models for Diversified Image Generations ( http://arxiv.org/abs/2312.08873v2 )

ライセンス: Link先を確認
Haoming Liu, Yuanhe Guo, Shengjie Wang, Hongyi Wen, (参考訳) 高品質な画像生成が可能な拡散モデルは、拡張が容易であるという点で、例外なく人気がある。 アクティブユーザは、自己コンパイルされたデータセットのベースモデルを微調整することで、ドメイン固有の拡散モデルの大規模なコレクションを作成しました。 最近の研究は、様々なアーキテクチャコンポーネントにエンコードされた意味情報と視覚情報を明らかにすることで、単一の拡散モデルを改善することに重点を置いている。 しかし、これらの手法は、非常に利用可能な微調整拡散モデルの集合を見落としているため、それらの組み合わせ能力を新しい世代に活用する機会を逃している。 本研究では,複数の拡散モデル間でスタイルや内容情報を伝達するトレーニング不要な手法であるDiffusion Cocktail (Ditail)を提案する。 これにより、拡散モデルの集合を用いて多様化世代を実行できるため、単一のモデルでは達成不可能な新しい画像が得られる。 Ditailはまた、生成プロセスのきめ細かい制御を提供し、スタイルやコンテンツの柔軟な操作を可能にする。 これらの特性により、ディテールは拡散モデルによって導かれるスタイル転送、新しいスタイルの画像生成、プロンプトやコラージュ入力による画像操作など、多くの応用に優れる。

Diffusion models, capable of high-quality image generation, receive unparalleled popularity for their ease of extension. Active users have created a massive collection of domain-specific diffusion models by fine-tuning base models on self-collected datasets. Recent work has focused on improving a single diffusion model by uncovering semantic and visual information encoded in various architecture components. However, those methods overlook the vastly available set of fine-tuned diffusion models and, therefore, miss the opportunity to utilize their combined capacity for novel generation. In this work, we propose Diffusion Cocktail (Ditail), a training-free method that transfers style and content information between multiple diffusion models. This allows us to perform diversified generations using a set of diffusion models, resulting in novel images unobtainable by a single model. Ditail also offers fine-grained control of the generation process, which enables flexible manipulations of styles and contents. With these properties, Ditail excels in numerous applications, including style transfer guided by diffusion models, novel-style image generation, and image manipulation via prompts or collage inputs.
翻訳日:2024-09-11 03:42:43 公開日:2024-09-09
# SOVC: 主観的指向のビデオキャプション

SOVC: Subject-Oriented Video Captioning ( http://arxiv.org/abs/2312.13330v2 )

ライセンス: Link先を確認
Chang Teng, Yunchuan Ma, Guorong Li, Yuankai Qi, Laiyu Qing, Qingming Huang, (参考訳) ユーザのニーズに応じてビデオコンテンツを記述することは、長年の目標である。 既存の動画キャプション方式は大きな進歩を遂げているが、生成されたキャプションはユーザーが特に興味を持っているエンティティに焦点を当てていない可能性がある。 そこで本研究では,ビデオキャプションタスクであるSOVC(Subject-Oriented Video Captioning)を提案する。 この課題を支援するために,2つのビデオキャプションデータセット(MSVDとMSRVTT)をベースとして,各キャプション毎に各ビデオに注釈を付けることによって2つの動画キャプションデータセットを構築した。 これらのデータセットは、ユーザの関心のあるターゲットを記述するための道を開く。 この課題に対処するために,SOVCNetというタスクに適した手法を導入する。 被写体に関連するフレームをサンプリングして無関係な情報を最小化する主観的サンプリングモジュールと、被写体領域をハードプロンプトとして利用し、学習可能なソフトプロンプトを統合する主観的符号化モジュールと、モデルが被写体の活動に焦点を合わせ、下流生成タスクへの適応を促進するための主観的符号化モジュールとから構成される。 この課題に対する本手法の有効性を実験的に検証した。

Describing video content according to users' needs is a long-held goal. Although existing video captioning methods have made significant progress, the generated captions may not focus on the entity that users are particularly interested in. To address this problem, we propose a new video captioning task, Subject-Oriented Video Captioning (SOVC), which aims to allow users to specify the describing target via a bounding box. To support this task, we construct two subject-oriented video captioning datasets based on two widely used video captioning datasets: MSVD and MSRVTT, by annotating subjects in each video for each caption. These datasets pave the way for describing users' interested targets. To tackle this task, we introduce a method tailored to this task, named SOVCNet. It consists of two key components: a subject-oriented sampling module that samples frames related to the subject to minimize irrelevant information; and a subject-oriented encoding module that utilizes the subject areas as hard prompts and integrates learnable soft prompts, enhancing the model's focus on the subject's activities and facilitating adaptation to the downstream generation task. Extensive experimental results demonstrate the effectiveness of our method on this new task.
翻訳日:2024-09-11 03:42:43 公開日:2024-09-09
# 手続き的コンテンツ生成のための量子波動関数の崩壊

Quantum Wave Function Collapse for Procedural Content Generation ( http://arxiv.org/abs/2312.13853v2 )

ライセンス: Link先を確認
Raoul Heese, (参考訳) 量子コンピュータは本質的にランダム性を示すので、手続き的コンテンツ生成として考えるのは当然である。 本研究では、有名な(古典的な)波動関数崩壊アルゴリズムの量子バージョンを提案する。 この量子波関数崩壊アルゴリズムは、量子回路が所望の形式のコンテンツに対する特別な目的のランダム生成器として機能するように準備できるという考えに基づいている。 提案手法は,シミュレータやIBMの量子デバイス上で理論的,実験的に検討されている。

Quantum computers exhibit an inherent randomness, so it seems natural to consider them for procedural content generation. In this work, a quantum version of the famous (classical) wave function collapse algorithm is proposed. This quantum wave function collapse algorithm is based on the idea that a quantum circuit can be prepared in such a way that it acts as a special-purpose random generator for content of a desired form. The proposed method is presented theoretically and investigated experimentally on simulators and IBM Quantum devices.
翻訳日:2024-09-11 03:32:49 公開日:2024-09-09
# 強化アンラーニング

Reinforcement Unlearning ( http://arxiv.org/abs/2312.15910v5 )

ライセンス: Link先を確認
Dayong Ye, Tianqing Zhu, Congcong Zhu, Derui Wang, Kun Gao, Zewei Shi, Sheng Shen, Wanlei Zhou, Minhui Xue, (参考訳) 機械学習とは、データ所有者からの削除要求に基づいて、特定のトレーニングデータの影響を緩和するプロセスを指す。 しかし、未学習の研究で見過ごされてきた重要な分野は強化学習である。 強化学習は、エージェントが累積報酬を最大化するために環境内で最適な決定を行うように訓練することに焦点を当てる。 トレーニング中、エージェントは環境の特徴を記憶する傾向があるため、プライバシに大きな懸念が生じる。 データ保護規則に従って、環境の所有者はエージェントのトレーニングデータへのアクセスを無効化する権利を有しており、それによって新しい研究分野である'emph{reinforcement unlearning} の開発が必要とされる。 強化アンラーニングは、個々のデータサンプルではなく、環境全体を無効にすることに焦点を当てている。 この特異な特徴は3つの異なる課題を提示する。 1)環境の未学習スキームの提案方法 2 残留環境におけるエージェントの性能低下を回避する方法、及び 3)未学習の有効性を評価する方法。 これらの課題に対処するために,2つの強化アンラーニング手法を提案する。 第1の方法は、エージェントが以前取得した知識を徐々に消し去ることを目的とした、十進的強化学習に基づいている。 第2の方法は環境中毒攻撃を利用しており、エージェントは学習されていない環境を取り除くために、新しい、誤った知識を学ぶことを奨励する。 特に,第3の課題に取り組むために,「環境推論攻撃」の概念を導入し,未学習の結果を評価する。

Machine unlearning refers to the process of mitigating the influence of specific training data on machine learning models based on removal requests from data owners. However, one important area that has been largely overlooked in the research of unlearning is reinforcement learning. Reinforcement learning focuses on training an agent to make optimal decisions within an environment to maximize its cumulative rewards. During the training, the agent tends to memorize the features of the environment, which raises a significant concern about privacy. As per data protection regulations, the owner of the environment holds the right to revoke access to the agent's training data, thus necessitating the development of a novel and pressing research field, known as \emph{reinforcement unlearning}. Reinforcement unlearning focuses on revoking entire environments rather than individual data samples. This unique characteristic presents three distinct challenges: 1) how to propose unlearning schemes for environments; 2) how to avoid degrading the agent's performance in remaining environments; and 3) how to evaluate the effectiveness of unlearning. To tackle these challenges, we propose two reinforcement unlearning methods. The first method is based on decremental reinforcement learning, which aims to erase the agent's previously acquired knowledge gradually. The second method leverages environment poisoning attacks, which encourage the agent to learn new, albeit incorrect, knowledge to remove the unlearning environment. Particularly, to tackle the third challenge, we introduce the concept of ``environment inference attack'' to evaluate the unlearning outcomes.
翻訳日:2024-09-11 03:32:49 公開日:2024-09-09
# 分析駆動アタックグラフ生成のためのスケーラブルなフレームワーク

It Is Time To Steer: A Scalable Framework for Analysis-driven Attack Graph Generation ( http://arxiv.org/abs/2312.16513v2 )

ライセンス: Link先を確認
Alessandro Palma, Marco Angelini, (参考訳) アタックグラフ(AG)は、コンピュータネットワークに対するマルチステップ攻撃に対するサイバーリスクアセスメントをサポートする最も適したソリューションである。 現在の解決策は、アルゴリズムの観点から生成問題に対処し、生成が完了した後にのみ解析を仮定することであり、分析機能を実現するには待ち時間がかかりすぎることを示唆している。 さらに、長期にわたるネットワークの動的変化を捉えにくい。 これらの問題を緩和するために,アナリストがいつでもシステムに問い合わせることのできる新しいワークフローを通じて,従来のAG分析を再考する。 さらに,解析クエリをステアリングすることで,生成を高速化する機構を導入する。 提案手法の有効性を示すため,提案手法を定量的に検証し,前例のない規模のネットワークを実例とした実例を提示する。 これは、スケーラビリティと一般的な攻撃経路解析に適合するという点で、我々のアプローチの利点を実証するものである。

Attack Graph (AG) represents the best-suited solution to support cyber risk assessment for multi-step attacks on computer networks, although their generation suffers from poor scalability due to their combinatorial complexity. Current solutions propose to address the generation problem from the algorithmic perspective and postulate the analysis only after the generation is complete, thus implying too long waiting time before enabling analysis capabilities. Additionally, they poorly capture the dynamic changes in the networks due to long generation times. To mitigate these problems, this paper rethinks the classic AG analysis through a novel workflow in which the analyst can query the system anytime, thus enabling real-time analysis before the completion of the AG generation with quantifiable statistical significance. Further, we introduce a mechanism to accelerate the generation by steering it with the analysis query. To show the capabilities of the proposed framework, we perform an extensive quantitative validation and present a realistic case study on networks of unprecedented size. It demonstrates the advantages of our approach in terms of scalability and fitting to common attack path analyses.
翻訳日:2024-09-11 03:32:49 公開日:2024-09-09
# パラメータ推論のためのLiイオン電池モデルのPINNサロゲート(第1報)単一粒子モデルの実装と多要素階層

PINN surrogate of Li-ion battery models for parameter inference. Part I: Implementation and multi-fidelity hierarchies for the single-particle model ( http://arxiv.org/abs/2312.17329v3 )

ライセンス: Link先を確認
Malik Hassanaly, Peter J. Weddle, Ryan N. King, Subhayan De, Alireza Doostan, Corey R. Randall, Eric J. Dufek, Andrew M. Colclasure, Kandler Smith, (参考訳) リチウムイオン電池の老朽化を考慮に入れたエネルギー貯蔵需要を計画し、最適化するためには、電池内部状態を正確にかつ迅速に診断する技術を開発する必要がある。 本研究では、単一粒子モデル(SPM)や擬似2Dモデル(P2D)といった物理ベースのLiイオン電池モデルを、物理インフォームドニューラルネットワーク(PINN)サロゲートに置き換えることで、電池の内部状態を決定するために必要な計算資源を削減することを目的とする。 サーロゲートモデルは、電圧応答からバッテリ内部パラメータを決定するために、ベイズ校正のような高スループット技術を作成する。 この原稿は、パラメータ推論のためのLiイオン電池モデルのPINNサロゲートを導入した2部シリーズの最初のものである。 この第1部では、SPMのPINNサロゲートを構築するための方法が提示される。 複数のニューラルネットを複数の物理損失フィデリティでトレーニングする多要素階層的トレーニングは、支配方程式残差のトレーニングのみにおいて、サロゲート精度を著しく向上させることを示す。 実装はコンパニオンリポジトリ(https://github.com/NREL/pinnstripes)で利用可能である。 SPMのPINNサロゲートの開発に使用される技術は、P2DバッテリモデルのためのPINNサロゲートのパートIIで拡張され、両方のサロゲートのベイズ校正能力を探索する。

To plan and optimize energy storage demands that account for Li-ion battery aging dynamics, techniques need to be developed to diagnose battery internal states accurately and rapidly. This study seeks to reduce the computational resources needed to determine a battery's internal states by replacing physics-based Li-ion battery models -- such as the single-particle model (SPM) and the pseudo-2D (P2D) model -- with a physics-informed neural network (PINN) surrogate. The surrogate model makes high-throughput techniques, such as Bayesian calibration, tractable to determine battery internal parameters from voltage responses. This manuscript is the first of a two-part series that introduces PINN surrogates of Li-ion battery models for parameter inference (i.e., state-of-health diagnostics). In this first part, a method is presented for constructing a PINN surrogate of the SPM. A multi-fidelity hierarchical training, where several neural nets are trained with multiple physics-loss fidelities is shown to significantly improve the surrogate accuracy when only training on the governing equation residuals. The implementation is made available in a companion repository (https://github.com/NREL/pinnstripes). The techniques used to develop a PINN surrogate of the SPM are extended in Part II for the PINN surrogate for the P2D battery model, and explore the Bayesian calibration capabilities of both surrogates.
翻訳日:2024-09-11 03:32:49 公開日:2024-09-09
# パラメータ推論のためのLiイオン電池モデルのPINNサロゲート(第2報)擬似2Dモデルの正規化と応用

PINN surrogate of Li-ion battery models for parameter inference. Part II: Regularization and application of the pseudo-2D model ( http://arxiv.org/abs/2312.17336v3 )

ライセンス: Link先を確認
Malik Hassanaly, Peter J. Weddle, Ryan N. King, Subhayan De, Alireza Doostan, Corey R. Randall, Eric J. Dufek, Andrew M. Colclasure, Kandler Smith, (参考訳) ベイズパラメータ推論はLiイオン電池の診断を改善するのに有用であり、電池老化モデルを定式化するのに役立つ。 しかし、計算集約であり、複数のサイクル、複数の操作条件、あるいは複数の複製細胞に対して容易に繰り返すことはできない。 ベイズ校正の計算コストを削減するため、物理学に基づくモデルの数値解法を高速な代用器に置き換えることができる。 擬似2D(P2D)バッテリモデルのキャリブレーションのサロゲートとして物理インフォームドニューラルネットワーク(PINN)を開発した。 P2Dサロゲートでは, PINN単粒子モデル (SPM) と比較して, パラメータ推定のためにPINN SPMとP2Dサロゲートモデルの両方を訓練し, 支配方程式の直接数値解から得られたデータと比較した。 パラメータ推論研究では、これらのPINNを使用してカソードLi拡散と陽極交換電流密度のスケーリングパラメータを校正する能力を強調している。 P2Dモデルの計算速度を標準積分法と比較して2250倍にすることで、PINNサロゲートは迅速な健康診断を可能にする。 低データの可用性シナリオでは、テスト誤差はSPMサロゲートで2mV、P2Dサロゲートで10mVと推定された。

Bayesian parameter inference is useful to improve Li-ion battery diagnostics and can help formulate battery aging models. However, it is computationally intensive and cannot be easily repeated for multiple cycles, multiple operating conditions, or multiple replicate cells. To reduce the computational cost of Bayesian calibration, numerical solvers for physics-based models can be replaced with faster surrogates. A physics-informed neural network (PINN) is developed as a surrogate for the pseudo-2D (P2D) battery model calibration. For the P2D surrogate, additional training regularization was needed as compared to the PINN single-particle model (SPM) developed in Part I. Both the PINN SPM and P2D surrogate models are exercised for parameter inference and compared to data obtained from a direct numerical solution of the governing equations. A parameter inference study highlights the ability to use these PINNs to calibrate scaling parameters for the cathode Li diffusion and the anode exchange current density. By realizing computational speed-ups of 2250x for the P2D model, as compared to using standard integrating methods, the PINN surrogates enable rapid state-of-health diagnostics. In the low-data availability scenario, the testing error was estimated to 2mV for the SPM surrogate and 10mV for the P2D surrogate which could be mitigated with additional data.
翻訳日:2024-09-11 03:32:49 公開日:2024-09-09
# Kernel-U-Net:カスタムカーネルを用いた多変量時系列予測

Kernel-U-Net: Multivariate Time Series Forecasting using Custom Kernels ( http://arxiv.org/abs/2401.01479v3 )

ライセンス: Link先を確認
Jiang You, Arben Cela, René Natowicz, Jacob Ouanounou, Patrick Siarry, (参考訳) 時系列予測タスクは、過去の情報に基づいて将来のトレンドを予測する。 トランスフォーマーベースのU-Netアーキテクチャは、医用画像セグメンテーションの成功にもかかわらず、YFormerで証明されているように、時系列予測における表現性と計算効率に制限がある。 これらの課題に対処するために、我々は、柔軟でカーネルにカスタマイズ可能なU字型ニューラルネットワークアーキテクチャであるKernel-U-Netを紹介した。 カーネル-U-Netエンコーダは入力列を潜在ベクトルに圧縮し、その対称デコーダはこれらのベクトルを出力列に拡張する。 具体的には、カーネル-U-Netは、入力時系列をカーネル操作からパッチに分割する手順を分離し、カスタマイズされた実行カーネルの利便性を提供する。 我々の方法には2つの利点がある。 1)特定のデータセットに適応するためのカーネルのカスタマイズの柔軟性 2) 計算効率は向上し, トランスフォーマー層の複雑さは線形に低下した。 実世界の7つのデータセットの実験では、チャネルに依存しない設定の場合、Kernel-U-Netのパフォーマンスが既存の最先端モデルを上回るか、満たされることを示した。 Kernel-U-Netのソースコードは、さらなる研究とアプリケーションのために公開されている。

Time series forecasting task predicts future trends based on historical information. Transformer-based U-Net architectures, despite their success in medical image segmentation, have limitations in both expressiveness and computation efficiency in time series forecasting as evidenced in YFormer. To tackle these challenges, we introduce Kernel-U-Net, a flexible and kernel-customizable U-shape neural network architecture. The kernel-U-Net encoder compresses the input series into latent vectors, and its symmetric decoder subsequently expands these vectors into output series. Specifically, Kernel-U-Net separates the procedure of partitioning input time series into patches from kernel manipulation, thereby providing the convenience of customized executing kernels. Our method offers two primary advantages: 1) Flexibility in kernel customization to adapt to specific datasets; and 2) Enhanced computational efficiency, with the complexity of the Transformer layer reduced to linear. Experiments on seven real-world datasets, demonstrate that Kernel-U-Net's performance either exceeds or meets that of the existing state-of-the-art model in the majority of cases in channel-independent settings. The source code for Kernel-U-Net will be made publicly available for further research and application.
翻訳日:2024-09-11 03:32:49 公開日:2024-09-09
# 偶数体上の安定化器符号

Stabiliser codes over fields of even order ( http://arxiv.org/abs/2401.06618v2 )

ライセンス: Link先を確認
Simeon Ball, Edgar Moreno, Robin Simoens, (参考訳) GF(2^h) と GF(2)^h の間の自然同型は、局所次元 q=2^h の n 量子ビット上の安定化器符号と hn 量子ビット上の二項安定化器符号の間の単射を誘導することを証明する。 偶数体上の安定化符号は、いわゆるシンプレクティック極性空間の量子集合に対応する。 さらに、等価安定化器符号は同様の幾何学を持ち、[[4,0,3]_4安定化器符号と[[7,1,4]_4および[[8,0,5]_4安定化器符号の両方が存在しないことを証明するのに使うことができる。

We prove that the natural isomorphism between GF(2^h) and GF(2)^h induces a bijection between stabiliser codes on n quqits with local dimension q=2^h and binary stabiliser codes on hn qubits. This allows us to describe these codes geometrically: a stabiliser code over a field of even order corresponds to a so-called quantum set of symplectic polar spaces. Moreover, equivalent stabiliser codes have a similar geometry, which can be used to prove the uniqueness of a [[4,0,3]]_4 stabiliser code and the nonexistence of both a [[7,1,4]]_4 and an [[8,0,5]]_4 stabiliser code.
翻訳日:2024-09-11 03:32:49 公開日:2024-09-09
# 責任あるAIを実装するための倫理的トレードオフの解決

Resolving Ethics Trade-offs in Implementing Responsible AI ( http://arxiv.org/abs/2401.08103v4 )

ライセンス: Link先を確認
Conrad Sanderson, Emma Schleiger, David Douglas, Petra Kuhnert, Qinghua Lu, (参考訳) 高レベルのAI倫理原則を実践的なAI/MLシステムに運用することは、まだ進展しているが、基礎となるAI倫理の側面間の緊張を管理するための理論と実践のギャップがある。 初歩的なものから複雑なものまで、トレードオフを通じて緊張に対処するための5つのアプローチをカバーします。 アプローチは、考慮された文脈、スコープ、文脈を測定する方法、正当化の度合いのタイプによって異なる。 いずれのアプローチも、すべての組織、システム、アプリケーションに適していない可能性が高い。 この問題に対処するため、我々は以下のフレームワークを提案する。 一 緊張の積極的特定、 二 倫理面の優先及び重み付け 三 トレードオフ決定の正当化及び文書 提案するフレームワークは,潜在的な規制要件に適合する,十分に包括されたAI/MLシステムの実装を容易にすることを目的としている。

While the operationalisation of high-level AI ethics principles into practical AI/ML systems has made progress, there is still a theory-practice gap in managing tensions between the underlying AI ethics aspects. We cover five approaches for addressing the tensions via trade-offs, ranging from rudimentary to complex. The approaches differ in the types of considered context, scope, methods for measuring contexts, and degree of justification. None of the approaches is likely to be appropriate for all organisations, systems, or applications. To address this, we propose a framework which consists of: (i) proactive identification of tensions, (ii) prioritisation and weighting of ethics aspects, (iii) justification and documentation of trade-off decisions. The proposed framework aims to facilitate the implementation of well-rounded AI/ML systems that are appropriate for potential regulatory requirements.
翻訳日:2024-09-11 03:32:49 公開日:2024-09-09
# CMMMU:中国の大規模多分野マルチモーダル理解ベンチマーク

CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark ( http://arxiv.org/abs/2401.11944v3 )

ライセンス: Link先を確認
Ge Zhang, Xinrun Du, Bei Chen, Yiming Liang, Tongxu Luo, Tianyu Zheng, Kang Zhu, Yuyang Cheng, Chunpu Xu, Shuyue Guo, Haoran Zhang, Xingwei Qu, Junjie Wang, Ruibin Yuan, Yizhi Li, Zekun Wang, Yudong Liu, Yu-Hsuan Tsai, Fengji Zhang, Chenghua Lin, Wenhao Huang, Jie Fu, (参考訳) 大規模マルチモーダルモデル(LMM)の性能向上が進むにつれ,LMMの性能評価の必要性が高まっている。 さらに、中国語のような非英語の文脈において、LMMの高度な知識と推論能力を評価するには、さらに大きなギャップがある。 CMMMUは、中国における大学レベルの教科知識と意図的推論を必要とするタスクにおいて、LMMを評価するために設計された、中国の大規模多分野マルチモーダル理解(Multimodal Understanding)ベンチマークである。 CMMMUはMMMUのアノテーションと分析パターンにインスパイアされ、厳密に従っている。 CMMMUは、大学試験、クイズ、教科書から12kの質問を手作業で収集し、アート&デザイン、ビジネス、サイエンス、ヘルス&メディカル、人文科学、テクノロジー&エンジニアリングの6つの中核分野をカバーしている。 これらの質問は30の被験者に及び、図、図、地図、テーブル、音楽シート、化学構造など、39の非常に異質なイメージタイプで構成されている。 CMMMUは、中国語の文脈における複雑な認識とドメイン固有の知識による推論に焦点を当てている。 我々は11個のオープンソースLCMと1つのプロプライエタリなGPT-4V(ision)を評価した。 GPT-4Vでさえ42%の精度しか達成せず、改善の余地が大きいことを示している。 CMMMUは、人工知能の専門家に向けて次世代のLMMを構築するためのコミュニティを強化し、多様な言語コンテキストを提供することでLMMの民主化を促進する。

As the capabilities of large multimodal models (LMMs) continue to advance, evaluating the performance of LMMs emerges as an increasing need. Additionally, there is an even larger gap in evaluating the advanced knowledge and reasoning abilities of LMMs in non-English contexts such as Chinese. We introduce CMMMU, a new Chinese Massive Multi-discipline Multimodal Understanding benchmark designed to evaluate LMMs on tasks demanding college-level subject knowledge and deliberate reasoning in a Chinese context. CMMMU is inspired by and strictly follows the annotation and analysis pattern of MMMU. CMMMU includes 12k manually collected multimodal questions from college exams, quizzes, and textbooks, covering six core disciplines: Art & Design, Business, Science, Health & Medicine, Humanities & Social Science, and Tech & Engineering, like its companion, MMMU. These questions span 30 subjects and comprise 39 highly heterogeneous image types, such as charts, diagrams, maps, tables, music sheets, and chemical structures. CMMMU focuses on complex perception and reasoning with domain-specific knowledge in the Chinese context. We evaluate 11 open-source LLMs and one proprietary GPT-4V(ision). Even GPT-4V only achieves accuracies of 42%, indicating a large space for improvement. CMMMU will boost the community to build the next-generation LMMs towards expert artificial intelligence and promote the democratization of LMMs by providing diverse language contexts.
翻訳日:2024-09-11 03:32:49 公開日:2024-09-09
# 非逐次的タブラリデータの自己教師付き学習に関する調査研究

A Survey on Self-Supervised Learning for Non-Sequential Tabular Data ( http://arxiv.org/abs/2402.01204v3 )

ライセンス: Link先を確認
Wei-Yao Wang, Wei-Wei Du, Derek Xu, Wei Wang, Wen-Chih Peng, (参考訳) 自己教師付き学習(SSL)は、さまざまなドメインの最先端モデルに組み込まれており、SSLはコンテキスト化された堅牢な表現を学ぶためのラベルなしデータセットに基づいて、プレテキストタスクを定義している。 近年、SSLは表形式のデータ領域における表現学習能力の探求において新たなトレンドとなっている。 本調査は,非シーケンス表データ(SSL4NS-TD)におけるSSLの最近の進歩と課題を体系的にレビューし,要約することを目的としている。 まず、NS-TDの形式的定義を示し、関連する研究との相関を明らかにする。 次に、これらのアプローチは、予測学習、コントラスト学習、ハイブリッド学習の3つのグループに分類される。 さらに、SSL4NS-TDのアプリケーション問題として、自動データエンジニアリング、クロステーブル転送性、ドメイン知識の統合などが紹介されている。 さらに、NS-TDアプリケーションのための既存のベンチマークとデータセットについて詳述し、既存の表形式モデルの性能を分析する。 最後に,SSL4NS-TDの課題について論じ,今後の研究の方向性を示す。 当社の作業は、タブ状ドメインのSSL入力障壁の低減と、暗黙的なタブ状データの基礎の改善に関するさらなる研究を奨励する上で、有用であると期待しています。

Self-supervised learning (SSL) has been incorporated into many state-of-the-art models in various domains, where SSL defines pretext tasks based on unlabeled datasets to learn contextualized and robust representations. Recently, SSL has become a new trend in exploring the representation learning capability in the realm of tabular data, which is more challenging due to not having explicit relations for learning descriptive representations. This survey aims to systematically review and summarize the recent progress and challenges of SSL for non-sequential tabular data (SSL4NS-TD). We first present a formal definition of NS-TD and clarify its correlation to related studies. Then, these approaches are categorized into three groups - predictive learning, contrastive learning, and hybrid learning, with their motivations and strengths of representative methods in each direction. Moreover, application issues of SSL4NS-TD are presented, including automatic data engineering, cross-table transferability, and domain knowledge integration. In addition, we elaborate on existing benchmarks and datasets for NS-TD applications to analyze the performance of existing tabular models. Finally, we discuss the challenges of SSL4NS-TD and provide potential directions for future research. We expect our work to be useful in terms of encouraging more research on lowering the barrier to entry SSL for the tabular domain, and of improving the foundations for implicit tabular data.
翻訳日:2024-09-11 03:22:55 公開日:2024-09-09
# 非接触フェルミガスに対する1ボディー密度マトリックスのハーミシティ保存

Preserving the Hermiticity of the One-Body Density Matrix for a Non-Interacting Fermi Gas ( http://arxiv.org/abs/2402.02206v3 )

ライセンス: Link先を確認
L. M. Farrell, D. Eaton, P. Chitnelawong, K. Bencheikh, B. P. van Zyl, (参考訳) ゼロ温度非接触フェルミガスに対する1体密度行列(ODM)は、異なる$\hbar$-expansion技術により、半古典的状態においてほぼ得られる。 ODM を近似するそれぞれの方法は、エルミート行列と等等級行列の両方を$\hbar$ の任意の順序で生成することが期待できる。 しかし、Kirzhnits と Wigner-Kirkwood の手法はこれらの性質を得られないが、Grammaticos-Voros の手法はそうである。 ここでは、任意の$d$次元に対して、対称座標への適切な変更により、各メソッドが真に同一であり、エルミート的であり、等等式であることを示す。 この変数の変化は、様々な方法の矛盾を解消し、キルツニッツとウィグナー・カークウッドの非エルミート的および非イデミティヴな振る舞いは、半古典的な$\hbar$-expansionsに対して非対称的トランケーションを実行するアーティファクトであることを示す。 我々の研究は、もともとRedjati et al (2019 $\textit{J.)によって提案された$d$-dimensional Grammaticos-Voros ODMの最初の明示的な導出も提供する。 Phys Chem Solids}$ 134 313-8) は $d=1,2,3,4$ の式に基づいている。

The one-body density matrix (ODM) for a zero temperature non-interacting Fermi gas can be approximately obtained in the semiclassical regime through different $\hbar$-expansion techniques. One would expect that each method of approximating the ODM should yield equivalent density matrices which are both Hermitian and idempotent to any order in $\hbar$. However, the Kirzhnits and Wigner-Kirkwood methods do not yield these properties, while the Grammaticos-Voros method does. Here we show explicitly, for arbitrary $d$-dimensions through an appropriate change into symmetric coordinates, that each method is indeed identical, Hermitian, and idempotent. This change of variables resolves the inconsistencies between the various methods, showing that the non-Hermitian and non-idempotent behavior of the Kirzhnits and Wigner-Kirkwood methods is an artifact of performing a non-symmetric truncation to the semiclassical $\hbar$-expansions. Our work also provides the first explicit derivation of the $d$-dimensional Grammaticos-Voros ODM, originally proposed by Redjati et al (2019 $\textit{J. Phys. Chem. Solids}$ 134 313-8) based on their $d=1,2,3,4$ expressions.
翻訳日:2024-09-11 03:22:55 公開日:2024-09-09
# PET/CT画像におけるクロスアテンションを用いた多次元情報融合による3次元リンパ腫分離

3D Lymphoma Segmentation on PET/CT Images via Multi-Scale Information Fusion with Cross-Attention ( http://arxiv.org/abs/2402.02349v2 )

ライセンス: Link先を確認
Huan Huang, Liheng Qiu, Shenmiao Yang, Longxi Li, Jiaofen Nan, Yanting Li, Chuang Han, Fubao Zhu, Chen Zhao, Weihua Zhou, (参考訳) 背景: びまん性大細胞型B細胞リンパ腫 (DLBCL) の正確な分画は, 医用画像の複雑なパターンが原因で困難である。 目的: 本研究の目的は, 18F-Fluorodeoxyglucose (FDG) positron emission tomography (PET) と CT (CT) 画像を用いたDLBCLの精密セグメンテーション法を開発することである。 方法: シフトウインドウ変換器とマルチスケールインフォメーション・フュージョン(MSIF)モジュールを用いた3次元デュアルブランチ・エンコーダ・セグメンテーション法を提案する。 機能統合を強化するため、MSIFモジュールは、シフトウインドウフレームワークによるクロスアテンション機構を用いたマルチスケール機能融合を実行する。 MSIFモジュール内のゲートニューラルネットワークは、各モードからのコントリビューションを動的にバランスさせる。 このモデルはDice similarity Coefficient (DSC)損失関数を用いて最適化された。 さらに, 総代謝性腫瘍容積 (TMTV) を算出し, 統計学的解析を行った。 結果: このモデルは5倍のクロスバリデーションを用いて165名のDLBCL患者のデータセットを用いて訓練し, 評価した。 統計的解析の結果,比較法に比べて有意な改善が認められた(p < 0.05)。 また,TMTV測定における手動アノテーションとセグメンテーション結果を比較すると,ピアソン相関係数0.91,R^20.89が観察された。 結論:本研究では,PETおよびCT画像の相補的強度を利用したDLBCLの効果的な自動分割法を提案する。 本手法は,DLBCL患者に対する診断的解釈の改善と治療計画支援の可能性を秘めている。

Background: Accurate segmentation of diffuse large B-cell lymphoma (DLBCL) lesions is challenging due to their complex patterns in medical imaging. Objective: This study aims to develop a precise segmentation method for DLBCL using 18F-Fluorodeoxyglucose (FDG) positron emission tomography (PET) and computed tomography (CT) images. Methods: We propose a 3D dual-branch encoder segmentation method using shifted window transformers and a Multi-Scale Information Fusion (MSIF) module. To enhance feature integration, the MSIF module performs multi-scale feature fusion using cross-attention mechanisms with a shifted window framework. A gated neural network within the MSIF module dynamically balances the contributions from each modality. The model was optimized using the Dice Similarity Coefficient (DSC) loss function. Additionally, we computed the total metabolic tumor volume (TMTV) and performed statistical analyses. Results: The model was trained and validated on a dataset of 165 DLBCL patients using 5-fold cross-validation, achieving a DSC of 0.7512. Statistical analysis showed a significant improvement over comparative methods (p < 0.05). Additionally, a Pearson correlation coefficient of 0.91 and an R^2 of 0.89 were observed when comparing manual annotations to segmentation results for TMTV measurement. Conclusion: This study presents an effective automatic segmentation method for DLBCL that leverages the complementary strengths of PET and CT imaging. Our method has the potential to improve diagnostic interpretations and assist in treatment planning for DLBCL patients.
翻訳日:2024-09-11 03:22:55 公開日:2024-09-09
# 擬似軌道を用いた学習後進関数の解説

Explaining Learned Reward Functions with Counterfactual Trajectories ( http://arxiv.org/abs/2402.04856v2 )

ライセンス: Link先を確認
Jan Wehner, Frans Oliehoek, Luciano Cavalcante Siebert, (参考訳) 人間の振る舞いやフィードバックから報酬を学ぶことは、AIシステムを人間の価値と整合させるための有望なアプローチであるが、常に正しい報酬関数を抽出できない。 解釈可能性ツールは、学習した報酬関数の潜在的な欠陥を理解し評価することを可能にする。 本稿では,正則部分軌跡と正則部分軌跡とを対比することにより,強化学習における報酬関数を解釈するための対実的軌道説明(CTE)を提案する。 我々はCTEの6つの品質基準を導出し、これらの品質基準を最適化するCTEを生成するためのモンテカルロベースの新しいアルゴリズムを提案する。 最後に、CTEで学習することで、生成した説明がプロキシ・ヒューマンモデルにどの程度情報をもたらすかを測定する。 CTEは、プロキシ・ヒューマンモデルに対して明らかに有益であり、予測と未知の軌道上の報酬関数との類似性を高める。 さらに、トラジェクトリ間の報酬の差を正確に判断し、アウト・オブ・ディストリビューションの例に一般化する。 CTEは報酬の完全な理解に繋がるものではないが、我々の方法、より一般的にはXAI法の適応は、学習された報酬関数を解釈するための実りあるアプローチとして提示される。

Learning rewards from human behaviour or feedback is a promising approach to aligning AI systems with human values but fails to consistently extract correct reward functions. Interpretability tools could enable users to understand and evaluate possible flaws in learned reward functions. We propose Counterfactual Trajectory Explanations (CTEs) to interpret reward functions in reinforcement learning by contrasting an original with a counterfactual partial trajectory and the rewards they each receive. We derive six quality criteria for CTEs and propose a novel Monte-Carlo-based algorithm for generating CTEs that optimises these quality criteria. Finally, we measure how informative the generated explanations are to a proxy-human model by training it on CTEs. CTEs are demonstrably informative for the proxy-human model, increasing the similarity between its predictions and the reward function on unseen trajectories. Further, it learns to accurately judge differences in rewards between trajectories and generalises to out-of-distribution examples. Although CTEs do not lead to a perfect understanding of the reward, our method, and more generally the adaptation of XAI methods, are presented as a fruitful approach for interpreting learned reward functions.
翻訳日:2024-09-11 03:22:55 公開日:2024-09-09
# 量子回路訓練におけるバレン高原の経路探索戦略

Line Search Strategy for Navigating through Barren Plateaus in Quantum Circuit Training ( http://arxiv.org/abs/2402.05227v2 )

ライセンス: Link先を確認
Jakab Nádori, Gregory Morse, Zita Majnay-Takács, Zoltán Zimborás, Péter Rakyta, (参考訳) 変分量子アルゴリズムは、短期デバイスにおける量子優位性を示すための有望な候補と見なされている。 これらのアプローチは典型的には古典的な最適化ループを通してパラメータ化量子回路を訓練する。 しかし、それらはしばしば、バレンプラトー(BP)問題として知られる指数関数的に減少する勾配成分に起因する問題に遭遇する。 本研究は、回路トレーニング中のBPの悪影響を軽減するために設計された新しい最適化手法を提案する。 探索方向を最適化するためのアプローチは,コスト関数ランドスケープの遠隔的特徴に依存している。 これにより、外部制御機構を必要とせずに、バレン高原を移動する最適化パスが可能になる。 我々は16ドルキュービットと15,000ドルのエンタングゲートからなる量子回路に最適化戦略を適用し、BPに対する堅牢な抵抗を実証した。 さらに、進化的選択フレームワークを組み込むことで最適化戦略を拡張し、ランドスケープにおける局所最小化を回避する能力を高めた。 修正されたアルゴリズムは量子ゲート合成の応用に成功しており、従来の勾配に基づく最適化手法と比較して、高度に圧縮された量子回路を生成する効率が大幅に向上したことを示している。

Variational quantum algorithms are viewed as promising candidates for demonstrating quantum advantage on near-term devices. These approaches typically involve the training of parameterized quantum circuits through a classical optimization loop. However, they often encounter challenges attributed to the exponentially diminishing gradient components, known as the barren plateau (BP) problem. This work introduces a novel optimization method designed to alleviate the adverse effects of BPs during circuit training. Our approach to select the optimization search direction relies on the distant features of the cost-function landscape. This enables the optimization path to navigate around barren plateaus without the need for external control mechanisms. We have successfully applied our optimization strategy to quantum circuits comprising $16$ qubits and $15000$ entangling gates, demonstrating robust resistance against BPs. Additionally, we have extended our optimization strategy by incorporating an evolutionary selection framework, enhancing its ability to avoid local minima in the landscape. The modified algorithm has been successfully utilized in quantum gate synthesis applications, showcasing a significantly improved efficiency in generating highly compressed quantum circuits compared to traditional gradient-based optimization approaches.
翻訳日:2024-09-11 03:22:55 公開日:2024-09-09
# 転がり拡散モデル

Rolling Diffusion Models ( http://arxiv.org/abs/2402.09470v3 )

ライセンス: Link先を確認
David Ruhe, Jonathan Heek, Tim Salimans, Emiel Hoogeboom, (参考訳) 拡散モデルは最近、ビデオ、流体力学シミュレーション、気候データなどの時間データにますます適用されている。 これらの手法は、拡散過程におけるノイズの量に関して、後続のフレームを等しく扱うのが一般的である。 本稿では,スライディングウインドウを用いた新しいアプローチであるローリング拡散について検討する。 拡散過程は、後続の列に現れるフレームにより多くのノイズを割り当て、生成プロセスが展開する未来の不確実性を反映することによって、時間の経過とともに徐々に悪化する。 テンポラルダイナミクスが複雑である場合、ローリング拡散は標準拡散よりも優れていることを示す。 特に、この結果は、Kinetics-600ビデオデータセットを用いたビデオ予測タスクとカオス流体力学予測実験で実証される。

Diffusion models have recently been increasingly applied to temporal data such as video, fluid mechanics simulations, or climate data. These methods generally treat subsequent frames equally regarding the amount of noise in the diffusion process. This paper explores Rolling Diffusion: a new approach that uses a sliding window denoising process. It ensures that the diffusion process progressively corrupts through time by assigning more noise to frames that appear later in a sequence, reflecting greater uncertainty about the future as the generation process unfolds. Empirically, we show that when the temporal dynamics are complex, Rolling Diffusion is superior to standard diffusion. In particular, this result is demonstrated in a video prediction task using the Kinetics-600 video dataset and in a chaotic fluid dynamics forecasting experiment.
翻訳日:2024-09-11 03:22:55 公開日:2024-09-09
# マリファナ利用者の空間的クレービングパターン:高次グラフ注意ニューラルネットワークを用いたfMRI脳結合解析からの考察

Spatial Craving Patterns in Marijuana Users: Insights from fMRI Brain Connectivity Analysis with High-Order Graph Attention Neural Networks ( http://arxiv.org/abs/2403.00033v5 )

ライセンス: Link先を確認
Jun-En Ding, Shihao Yang, Anna Zilverstand, Kaustubh R. Kulkarni, Xiaosi Gu, Feng Liu, (参考訳) 大麻の過剰摂取は、かなりの心理的、社会的結果をもたらす可能性がある。 本研究では,マリファナ依存症分類のための高次グラフアテンションニューラルネットワーク(HOGANN)と,慢性マリファナ利用者の異常活動を示す局所脳ネットワーク群の解析を行った。 HOGANNは、機能的磁気共鳴画像(fMRI)から推定される、動的固有の機能的脳ネットワークを統合し、グラフ注意に基づく長期記憶(GAT-LSTM)を用いて、時間的ネットワークのダイナミクスを捉える。 我々は、近隣ノード間の情報融合とメッセージパッシングに高次アテンションモジュールを使用し、ネットワークコミュニティ分析を強化した。 我々のモデルは2つの異なるデータコホートにまたがって検証され、ベンチマークアルゴリズムよりもかなり高い分類精度が得られる。 さらに,脳機能ネットワーク,特に背側注意および前頭前部ネットワークに悪影響を及ぼすと考えられる,持続的なマリファナ摂取の影響を受けやすいサブネットと認知領域を識別した。 興味深いことに、我々のモデルは長期間の依存を示すコホートにおいて優れた性能を示し、長大麻の使用が脳ネットワークにおいてより顕著な変化を引き起こすことを示唆している。 モデルが有能に脳地図を識別し、分析のために重要な脳領域を規定する

The excessive consumption of marijuana can induce substantial psychological and social consequences. In this investigation, we propose an elucidative framework termed high-order graph attention neural networks (HOGANN) for the classification of Marijuana addiction, coupled with an analysis of localized brain network communities exhibiting abnormal activities among chronic marijuana users. HOGANN integrates dynamic intrinsic functional brain networks, estimated from functional magnetic resonance imaging (fMRI), using graph attention-based long short-term memory (GAT-LSTM) to capture temporal network dynamics. We employ a high-order attention module for information fusion and message passing among neighboring nodes, enhancing the network community analysis. Our model is validated across two distinct data cohorts, yielding substantially higher classification accuracy than benchmark algorithms. Furthermore, we discern the most pertinent subnetworks and cognitive regions affected by persistent marijuana consumption, indicating adverse effects on functional brain networks, particularly within the dorsal attention and frontoparietal networks. Intriguingly, our model demonstrates superior performance in cohorts exhibiting prolonged dependence, implying that prolonged marijuana usage induces more pronounced alterations in brain networks. The model proficiently identifies craving brain maps, thereby delineating critical brain regions for analysis
翻訳日:2024-09-11 03:12:39 公開日:2024-09-09
# iBA:3Dポイントクラウドのバックドア攻撃を自力でリコンストラクション

iBA: Backdoor Attack on 3D Point Cloud via Reconstructing Itself ( http://arxiv.org/abs/2403.05847v2 )

ライセンス: Link先を確認
Yuhao Bian, Shengjing Tian, Xiuping Liu, (参考訳) 3Dポイントクラウド処理のためのDeep Neural Networks(DNN)の広範な展開は、セキュリティ侵害、特にバックドア攻撃に対する感受性と非常に対照的である。 これらの攻撃はトレーニング中にハイジャックDNNを攻撃し、一度アクティベートされたデータにトリガーを埋め込むことで、ネットワークが未修正データの正常なパフォーマンスを維持しながら所定のエラーを発生させる。 このような高度な脅威に対して、3Dポイントネットワークの堅牢な防御機構についての研究が不十分であることを考えると、この脆弱性は重大なリスクをもたらす。 既存の攻撃は、基本的なクラウド前処理手法に抵抗するのに苦労するか、微妙な手動設計に依存している。 これらの課題に対処するために、自動エンコーダでクリーンポイントクラウドを再構築するだけでトリガを埋め込む、新しい効果的な3Dバックドアアタック手法であるMirrorAttackを紹介します。 MirrorAttackのデータ駆動の性質は、複雑な手動設計の必要性を排除している。 復元損失の最小化は、自動的に非受容性を向上する。 同時に、復元ネットワークは、トリガーに顕著な非線形性およびサンプル特異性を付与し、従来の前処理技術はそれを排除するのに効果がない。 また, 球面高調波変換に基づくトリガー平滑化モジュールを取り付け, 攻撃の強度を制御し, 定量化および定性化を行った結果, 提案手法の有効性を検証した。 我々は,防衛技術の介入により,様々な種類の犠牲者モデルに対して最先端のASRを実現する。 さらに、トリガーによって導入された最小の摂動は、様々な指標によって評価され、メソッドのステルスを証明し、その不可避性を確実にする。

The widespread deployment of Deep Neural Networks (DNNs) for 3D point cloud processing starkly contrasts with their susceptibility to security breaches, notably backdoor attacks. These attacks hijack DNNs during training, embedding triggers in the data that, once activated, cause the network to make predetermined errors while maintaining normal performance on unaltered data. This vulnerability poses significant risks, especially given the insufficient research on robust defense mechanisms for 3D point cloud networks against such sophisticated threats. Existing attacks either struggle to resist basic point cloud pre-processing methods, or rely on delicate manual design. Exploring simple, effective, imperceptible, and difficult-to-defend triggers in 3D point clouds is still challenging.To address these challenges, we introduce MirrorAttack, a novel effective 3D backdoor attack method, which implants the trigger by simply reconstructing a clean point cloud with an auto-encoder. The data-driven nature of the MirrorAttack obviates the need for complex manual design. Minimizing the reconstruction loss automatically improves imperceptibility. Simultaneously, the reconstruction network endows the trigger with pronounced nonlinearity and sample specificity, rendering traditional preprocessing techniques ineffective in eliminating it. A trigger smoothing module based on spherical harmonic transformation is also attached to regulate the intensity of the attack.Both quantitive and qualitative results verify the effectiveness of our method. We achieve state-of-the-art ASR on different types of victim models with the intervention of defensive techniques. Moreover, the minimal perturbation introduced by our trigger, as assessed by various metrics, attests to the method's stealth, ensuring its imperceptibility.
翻訳日:2024-09-11 03:12:39 公開日:2024-09-09
# 肝内変形矯正における境界拘束のない生体力学的モデルに基づく表面マッチング

Boundary Constraint-free Biomechanical Model-Based Surface Matching for Intraoperative Liver Deformation Correction ( http://arxiv.org/abs/2403.09964v2 )

ライセンス: Link先を確認
Zixin Yang, Richard Simon, Kelly Merrell, Cristian. A. Linte, (参考訳) 画像ガイド下肝手術において, 3D-3D非剛性登録法は, 術前モデルと術中表面を点群としてマッピングし, 組織変形の課題に対処する上で重要な役割を担っている。 通常、これらの手法は有限要素モデル(FEM)として表される生体力学モデルを含み、表面整合項を正規化するために用いられる。 本稿では,新しい3D-3D非剛性登録法を提案する。 従来の手法とは対照的に,本手法は表面整合項自体にFEMを独自に組み込んで,推定変形が登録過程を通して幾何的整合性を維持することを保証している。 さらに、FEMにおけるゼロ境界条件と印加力位置を決定する必要がなくなる。 柔らかいばねを剛性マトリックスに統合し,肝臓表面全体に力を分散させることで,その実現を図っている。 強靭性をさらに向上するため, 力量勾配に着目した正則化手法を導入する。 この正規化は空間的滑らかさを課し、術中データにおける不規則ノイズの過度な適合を防ぐのに役立つ。 最適化は高速化された近位勾配アルゴリズムにより達成され、提案手法によりさらに拡張され、最適ステップサイズが決定される。 本手法は,これまでに開発したファントムから収集したデータと2つの公開データセットを用いて,FEM正則化を特徴とする学習ベース手法と従来手法の両方と比較して評価・比較を行った。 我々の手法は一貫して性能を上回り、ベースライン技術に匹敵する。 コードとデータセットの両方が公開されている。

In image-guided liver surgery, 3D-3D non-rigid registration methods play a crucial role in estimating the mapping between the preoperative model and the intraoperative surface represented as point clouds, addressing the challenge of tissue deformation. Typically, these methods incorporate a biomechanical model, represented as a finite element model (FEM), used to regularize a surface matching term. This paper introduces a novel 3D-3D non-rigid registration method. In contrast to the preceding techniques, our method uniquely incorporates the FEM within the surface matching term itself, ensuring that the estimated deformation maintains geometric consistency throughout the registration process. Additionally, we eliminate the need to determine zero-boundary conditions and applied force locations in the FEM. We achieve this by integrating soft springs into the stiffness matrix and allowing forces to be distributed across the entire liver surface. To further improve robustness, we introduce a regularization technique focused on the gradient of the force magnitudes. This regularization imposes spatial smoothness and helps prevent the overfitting of irregular noise in intraoperative data. Optimization is achieved through an accelerated proximal gradient algorithm, further enhanced by our proposed method for determining the optimal step size. Our method is evaluated and compared to both a learning-based method and a traditional method that features FEM regularization using data collected on our custom-developed phantom, as well as two publicly available datasets. Our method consistently outperforms or is comparable to the baseline techniques. Both the code and dataset will be made publicly available.
翻訳日:2024-09-11 03:12:39 公開日:2024-09-09
# 直接選好最適化における品質から遠ざかる長さ

Disentangling Length from Quality in Direct Preference Optimization ( http://arxiv.org/abs/2403.19159v2 )

ライセンス: Link先を確認
Ryan Park, Rafael Rafailov, Stefano Ermon, Chelsea Finn, (参考訳) RLHF(Reinforcement Learning from Human Feedback)は、近年の大規模言語モデルの成功において重要な要素である。 しかしながら、RLHFは、冗長性のような人間の嗜好のバイアスを悪用することが知られている。 十分に構造化され、雄弁な答えは、ユーザによってより高く評価されることが多い。 古典的RLHF文学におけるこれらのバイアスを制御するために、いくつかのアプローチが開発されているが、直接選好最適化(DPO)のような直列アライメントアルゴリズムでは、この問題は比較的未検討のままである。 古典的なRLHFとは異なり、DPOは個別の報酬モデルや強化学習を直接訓練しないため、冗長性を制御するために開発された従来のアプローチは、この設定に直接適用できない。 私たちの仕事はいくつかの貢献をしている。 筆者らはDPO設定における長さ問題について初めて検討し,DPOの大幅な活用とアウト・オブ・ディストリビューション・ブートストラップの関連性を示した。 次に、モデル品質の改善を維持しながら、長さの悪用を防ぐ、原則的だが単純な正規化戦略を開発する。 GPT4審査員のよく知られた冗長性バイアスにも拘わらず、これらの効果が要約と対話におけるデータセット間で示され、長さ制御時の勝利率を最大20倍向上させる。

Reinforcement Learning from Human Feedback (RLHF) has been a crucial component in the recent success of Large Language Models. However, RLHF is know to exploit biases in human preferences, such as verbosity. A well-formatted and eloquent answer is often more highly rated by users, even when it is less helpful and objective. A number of approaches have been developed to control those biases in the classical RLHF literature, but the problem remains relatively under-explored for Direct Alignment Algorithms such as Direct Preference Optimization (DPO). Unlike classical RLHF, DPO does not train a separate reward model or use reinforcement learning directly, so previous approaches developed to control verbosity cannot be directly applied to this setting. Our work makes several contributions. For the first time, we study the length problem in the DPO setting, showing significant exploitation in DPO and linking it to out-of-distribution bootstrapping. We then develop a principled but simple regularization strategy that prevents length exploitation, while still maintaining improvements in model quality. We demonstrate these effects across datasets on summarization and dialogue, where we achieve up to 20\% improvement in win rates when controlling for length, despite the GPT4 judge's well-known verbosity bias.
翻訳日:2024-09-11 03:02:27 公開日:2024-09-09
# ロボットにおけるインテクストの模倣学習を可能にするKeypoint Action Token

Keypoint Action Tokens Enable In-Context Imitation Learning in Robotics ( http://arxiv.org/abs/2403.19578v2 )

ライセンス: Link先を確認
Norman Di Palo, Edward Johns, (参考訳) 市販のテキストベースのトランスフォーマーは、追加の訓練を伴わずに、数発のインコンテクストによる視覚的模倣学習を行い、視覚的な観察をデモの動作を模倣するアクションシーケンスにマッピングできることを実証する。 我々は、視覚的な観察(インプット)と行動(アウトプット)の軌跡を、私たちがKeypoint Action Tokens (KAT)と呼ぶフレームワークを介して、テキストプリトレーニングされたTransformer (GPT-4 Turbo)が取り込み、生成できるトークンのシーケンスに変換することで、これを実現する。 これらのトランスフォーマーは、言語のみに基づいて訓練されているにもかかわらず、トークン化された視覚的キーポイントの観察を行動軌跡に翻訳し、実世界の日常的な一連の作業において、ローデータ体制における最先端の模倣学習(拡散ポリシー)よりも同等かそれ以上に実行できることが示される。 典型的なように言語領域で操作する代わりに、KATはテキストベースのトランスフォーマーを利用して視覚と行動領域で操作し、デモデータの一般的なパターンを学習し、高い効率の模倣学習を行い、実施タスクのために自然言語モデルを再利用するための新たな道を示す。 ビデオはhttps://www.robot-learning.uk/keypoint-action-tokensで公開されている。

We show that off-the-shelf text-based Transformers, with no additional training, can perform few-shot in-context visual imitation learning, mapping visual observations to action sequences that emulate the demonstrator's behaviour. We achieve this by transforming visual observations (inputs) and trajectories of actions (outputs) into sequences of tokens that a text-pretrained Transformer (GPT-4 Turbo) can ingest and generate, via a framework we call Keypoint Action Tokens (KAT). Despite being trained only on language, we show that these Transformers excel at translating tokenised visual keypoint observations into action trajectories, performing on par or better than state-of-the-art imitation learning (diffusion policies) in the low-data regime on a suite of real-world, everyday tasks. Rather than operating in the language domain as is typical, KAT leverages text-based Transformers to operate in the vision and action domains to learn general patterns in demonstration data for highly efficient imitation learning, indicating promising new avenues for repurposing natural language models for embodied tasks. Videos are available at https://www.robot-learning.uk/keypoint-action-tokens.
翻訳日:2024-09-11 03:02:27 公開日:2024-09-09
# エピデミックモデリングにおけるグラフニューラルネットワークの展望

A Review of Graph Neural Networks in Epidemic Modeling ( http://arxiv.org/abs/2403.19852v4 )

ライセンス: Link先を確認
Zewen Liu, Guancheng Wan, B. Aditya Prakash, Max S. Y. Lau, Wei Jin, (参考訳) 新型コロナウイルスのパンデミックが始まって以来、疫学モデルの研究への関心が高まっている。 伝統的な力学モデルは、伝染病の伝染機構を数学的に記述する。 しかし、それらはしばしば、過度に単純化された仮定や固定された仮定の制限に悩まされ、これは複雑な関係情報の取得において、準最適予測力と非効率を引き起こす可能性がある。 結果として、グラフニューラルネットワーク(GNN)は、疫病研究において徐々に人気のあるツールとなっている。 本稿では,感染症対策におけるGNNの総合的な見直しと今後の方向性を明らかにすることを目的とする。 この目的を達成するために,疫学の課題と方法論の両方に階層的な分類を導入し,その領域内での展開の軌跡を提供する。 疫病対策においては、通常、疫病領域で雇用されているものと類似した分類を確立させる。 方法論としては,既存の研究をニューラルモデルとハイブリッドモデルに分類する。 次に,本手法の総合的,体系的な検討を行い,課題と技術的詳細の両方を包含する。 さらに,多様な視点から既存手法の限界について考察し,今後の研究方向性を体系的に提案する。 この調査は文学のギャップを埋め、この将来性のある分野の進展を促進することを目的としており、関連する論文の一覧はhttps://github.com/Emory-Melody/awesome-epidemic-modeling-papersにある。 我々は,GNNと疫学のコミュニティ間の相乗効果を促進し,その総合的な進歩に寄与することを期待している。

Since the onset of the COVID-19 pandemic, there has been a growing interest in studying epidemiological models. Traditional mechanistic models mathematically describe the transmission mechanisms of infectious diseases. However, they often suffer from limitations of oversimplified or fixed assumptions, which could cause sub-optimal predictive power and inefficiency in capturing complex relation information. Consequently, Graph Neural Networks(GNNs) have emerged as a progressively popular tool in epidemic research. In this paper, we endeavor to furnish a comprehensive review of GNNs in epidemic tasks and highlight potential future directions. To accomplish this objective, we introduce hierarchical taxonomies for both epidemic tasks and methodologies, offering a trajectory of development within this domain. For epidemic tasks, we establish a taxonomy akin to those typically employed within the epidemic domain. For methodology, we categorize existing work into Neural Models and Hybrid Models. Following this, we perform an exhaustive and systematic examination of the methodologies, encompassing both the tasks and their technical details. Furthermore, we discuss the limitations of existing methods from diverse perspectives and systematically propose future research directions. This survey aims to bridge literature gaps and promote the progression of this promising field, with a list of relevant papers at https://github.com/Emory-Melody/awesome-epidemic-modeling-papers. We hope that it will facilitate synergies between the communities of GNNs and epidemiology, and contribute to their collective progress.
翻訳日:2024-09-11 03:02:27 公開日:2024-09-09
# 旅行購入問題に対する深層強化学習

Deep Reinforcement Learning for Traveling Purchaser Problems ( http://arxiv.org/abs/2404.02476v4 )

ライセンス: Link先を確認
Haofeng Yuan, Rongping Zhu, Wanlu Yang, Shiji Song, Keyou You, Wei Fan, C. L. Philip Chen, (参考訳) 旅行購入問題(TPP)は、幅広い応用において重要な組合せ最適化問題である。 ルーティングと購入の結合のため、既存のTPPの作業はルート構築と購入計画を同時に扱うことが一般的であり、高い計算コストと厳密な設計を伴うヒューリスティックな手法をもたらすが、性能は限られている。 対照的に、我々はルート構築と購入計画を個別に扱う深層強化学習(DRL)に基づく新しいアプローチを提案し、グローバルな視点からソリューションを評価し、最適化する。 提案手法の主な構成要素は,TPP が市場生産関係を捉えるための二部グラフ表現と,その二部グラフから情報を抽出し,それを用いて経路を逐次構築するポリシネットワークである。 このフレームワークの重要な利点は、ポリシーネットワークを用いて効率的にルートを構築することができ、ルートが決定されると、関連する購入計画は線形プログラミングにより容易に導出でき、DRLを利用することで、ポリシーネットワークをトレーニングして、グローバルなソリューションの目的を最適化することができることである。 さらに、メタラーニング戦略を導入することで、ポリシーネットワークは大規模TPPインスタンス上で安定してトレーニングすることができ、トレーニング中に見たことのないはるかに大きなインスタンスであっても、さまざまなサイズや分布のインスタンスに対して適切に一般化することができる。 様々な合成TPPインスタンスとTPPLIBベンチマークの実験により、DRLベースのアプローチは、確立されたTPPヒューリスティックスを大幅に上回り、最適性ギャップを40%-90%削減し、特に大規模インスタンスにおいて実行時に有利であることを示す。

The traveling purchaser problem (TPP) is an important combinatorial optimization problem with broad applications. Due to the coupling between routing and purchasing, existing works on TPPs commonly address route construction and purchase planning simultaneously, which, however, leads to exact methods with high computational cost and heuristics with sophisticated design but limited performance. In sharp contrast, we propose a novel approach based on deep reinforcement learning (DRL), which addresses route construction and purchase planning separately, while evaluating and optimizing the solution from a global perspective. The key components of our approach include a bipartite graph representation for TPPs to capture the market-product relations, and a policy network that extracts information from the bipartite graph and uses it to sequentially construct the route. One significant benefit of our framework is that we can efficiently construct the route using the policy network, and once the route is determined, the associated purchasing plan can be easily derived through linear programming, while, leveraging DRL, we can train the policy network to optimize the global solution objective. Furthermore, by introducing a meta-learning strategy, the policy network can be trained stably on large-sized TPP instances, and generalize well across instances of varying sizes and distributions, even to much larger instances that are never seen during training. Experiments on various synthetic TPP instances and the TPPLIB benchmark demonstrate that our DRL-based approach can significantly outperform well-established TPP heuristics, reducing the optimality gap by 40%-90%, and also showing an advantage in runtime, especially on large-sized instances.
翻訳日:2024-09-11 03:02:27 公開日:2024-09-09
# MeshBrush: 内視鏡のための神経スチル化による解剖学的メッシュの塗装

MeshBrush: Painting the Anatomical Mesh with Neural Stylization for Endoscopy ( http://arxiv.org/abs/2404.02999v2 )

ライセンス: Link先を確認
John J. Han, Ayberk Acar, Nicholas Kavoussi, Jie Ying Wu, (参考訳) スタイルトランスファーは、医療内視鏡におけるシミュレートとリアルのギャップを埋めるための有望なアプローチである。 術前スキャン(MRIやCTなど)を経た合成内視鏡ビデオのレンダリングは、地上の真理カメラのポーズや深度マップと同様に、構造的に正確なシミュレーションを生成することができる。 CycleGANのようなイメージ・ツー・イメージ(I2I)翻訳モデルは、これらのシミュレーションから現実的な内視鏡像を模倣することができるが、時間的一貫性の欠如によりビデオ・ビデオ合成には適さないため、フレーム間のアーティファクトが生じる。 本稿では、時間的に一貫した動画を異なるレンダリングで合成するニューラルネットワークスタイリング手法であるMeshBrushを提案する。 MeshBrushは、既存のI2Iメソッドを活用しながら、患者の画像データの基礎となる幾何学を使用している。 学習した頂点ごとのテクスチャにより、スタイリングされたメッシュは、高忠実度出力を生成しながら一貫性を保証する。 我々は,メッシュスタイリングが,トレーニングネットワークや事前作業計画といった下流タスクの現実的なシミュレーションを作成する上で,有望なアプローチであることを実証した。 本手法は尿管内視鏡検査に応用できるが, 一般的な内視鏡および腹腔鏡下手術に応用できる。 コードはGitHubで公開される。

Style transfer is a promising approach to close the sim-to-real gap in medical endoscopy. Rendering synthetic endoscopic videos by traversing pre-operative scans (such as MRI or CT) can generate structurally accurate simulations as well as ground truth camera poses and depth maps. Although image-to-image (I2I) translation models such as CycleGAN can imitate realistic endoscopic images from these simulations, they are unsuitable for video-to-video synthesis due to the lack of temporal consistency, resulting in artifacts between frames. We propose MeshBrush, a neural mesh stylization method to synthesize temporally consistent videos with differentiable rendering. MeshBrush uses the underlying geometry of patient imaging data while leveraging existing I2I methods. With learned per-vertex textures, the stylized mesh guarantees consistency while producing high-fidelity outputs. We demonstrate that mesh stylization is a promising approach for creating realistic simulations for downstream tasks such as training networks and preoperative planning. Although our method is tested and designed for ureteroscopy, its components are transferable to general endoscopic and laparoscopic procedures. The code will be made public on GitHub.
翻訳日:2024-09-11 03:02:27 公開日:2024-09-09
# 深層学習モデルによるアスペクトベース感性分析の促進

Advancing Aspect-Based Sentiment Analysis through Deep Learning Models ( http://arxiv.org/abs/2404.03259v3 )

ライセンス: Link先を確認
Chen Li, Huidong Tang, Jinli Zhang, Xiujing Guo, Debo Cheng, Yasuhiko Morimoto, (参考訳) アスペクトに基づく感情分析は微粒度で感情極性を予測する。 グラフ畳み込みネットワーク (GCN) は感傷的特徴抽出に広く利用されているが, 構文的特徴抽出への応用は情報保存を損なう可能性がある。 本研究では,改良されたエッジ強化GCNであるSentiSysを導入し,特徴情報を保存しながら構文グラフをナビゲートし,性能を向上する。 具体的には、まず双方向長短期メモリ(Bi-LSTM)ネットワークと自己注意型トランスフォーマーを統合する。 この組み合わせは効果的なテキストエンコーディングを促進し、情報の喪失を防ぎ、長い依存テキストを予測する。 次に、メッセージパッシングを伴う双方向GCN(Bi-GCN)を使用して、エンティティ間の関係をエンコードする。 さらに、アスペクト固有のマスキング技術を用いて不要な情報をフィルタリングする。 提案モデルの有効性を検証するため,4つのベンチマークデータセットに対して広範囲な評価実験を行った。 実験結果から,SentiSysを用いたアスペクトベース感情分析の性能向上が示された。

Aspect-based sentiment analysis predicts sentiment polarity with fine granularity. While graph convolutional networks (GCNs) are widely utilized for sentimental feature extraction, their naive application for syntactic feature extraction can compromise information preservation. This study introduces an innovative edge-enhanced GCN, named SentiSys, to navigate the syntactic graph while preserving intact feature information, leading to enhanced performance. Specifically,we first integrate a bidirectional long short-term memory (Bi-LSTM) network and a self-attention-based transformer. This combination facilitates effective text encoding, preventing the loss of information and predicting long dependency text. A bidirectional GCN (Bi-GCN) with message passing is then employed to encode relationships between entities. Additionally, unnecessary information is filtered out using an aspect-specific masking technique. To validate the effectiveness of our proposed model, we conduct extensive evaluation experiments on four benchmark datasets. The experimental results demonstrate enhanced performance in aspect-based sentiment analysis with the use of SentiSys.
翻訳日:2024-09-11 03:02:27 公開日:2024-09-09
# 微調整, 量子化, LLM: 意図しない成果をナビゲートする

Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes ( http://arxiv.org/abs/2404.04392v3 )

ライセンス: Link先を確認
Divyanshu Kumar, Anurakt Kumar, Sahil Agarwal, Prashanth Harshangi, (参考訳) 大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。 しかしながら、これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。 これらの脆弱性は、悪意のあるコンテンツの生成、不正なアクション、機密情報の開示につながる可能性がある。 基礎的なLCMはアライメントトレーニングを行い、安全対策を取り入れるが、しばしば微調整や量化資源制約のある環境に置かれる。 本研究では,これらの変更がLLMの安全性に与える影響について検討する。 Mistral, Llama シリーズ, Qwen, MosaicML などの基礎モデルと, 微調整したモデルの評価を行った。 我々の包括的分析により、細調整は一般的にジェイルブレイク攻撃の成功率を増加させる一方、量子化は攻撃成功率に様々な影響を及ぼすことが明らかとなった。 重要なことに、適切に実装されたガードレールは、脱獄の試みに対する抵抗を著しく向上させる。 これらの知見はLLMの脆弱性の理解に寄与し、言語モデルの展開においてより堅牢な安全性戦略を開発するための洞察を提供する。

Large Language Models (LLMs) have gained widespread adoption across various domains, including chatbots and auto-task completion agents. However, these models are susceptible to safety vulnerabilities such as jailbreaking, prompt injection, and privacy leakage attacks. These vulnerabilities can lead to the generation of malicious content, unauthorized actions, or the disclosure of confidential information. While foundational LLMs undergo alignment training and incorporate safety measures, they are often subject to fine-tuning, or doing quantization resource-constrained environments. This study investigates the impact of these modifications on LLM safety, a critical consideration for building reliable and secure AI systems. We evaluate foundational models including Mistral, Llama series, Qwen, and MosaicML, along with their fine-tuned variants. Our comprehensive analysis reveals that fine-tuning generally increases the success rates of jailbreak attacks, while quantization has variable effects on attack success rates. Importantly, we find that properly implemented guardrails significantly enhance resistance to jailbreak attempts. These findings contribute to our understanding of LLM vulnerabilities and provide insights for developing more robust safety strategies in the deployment of language models.
翻訳日:2024-09-11 03:02:27 公開日:2024-09-09
# Open Edgeコンピューティングプラットフォームを分離する - エコシステム、ユースケース、セキュリティリスク

Dissecting Open Edge Computing Platforms: Ecosystem, Usage, and Security Risks ( http://arxiv.org/abs/2404.09681v2 )

ライセンス: Link先を確認
Yu Bi, Mingshuo Yang, Yong Fang, Xianghang Mi, Shanqing Guo, Shujun Tang, Haixin Duan, (参考訳) 近年、オープンエッジコンピューティングプラットフォーム(OECP)は、大規模なエッジノード、広範囲の使用と採用、およびエッジノードとして参加するサードパーティへのオープン性を主張している。 たとえば、中国で運用されている主要なOECPであるOneThingCloudは、500万のエッジノード、70TBの帯域幅、1500PBのストレージを宣伝している。 しかし、これらのOECPの技術的なメカニズムやエッジコンピューティング活動への関与についてはほとんど情報がない。 さらに、既知のエッジコンピューティングパラダイムとは違って、OECPは、エッジノードとしてサードパーティが参加し、コンピューティングや帯域幅リソースの貢献によって収益を得ることのできるオープンなエコシステムを特徴としている。 本研究では,エッジノードの配置とエッジトラフィックの効率的な半自動解析,そして慎重に設計されたセキュリティ実験によって実現された2つの代表OECPについて,最初の実証的研究を行った。 その結果, 技術的メカニズム, エッジノードの状況, 使用状況と採用状況, 実際のセキュリティ/プライバシリスクに関して, 新たな知見と洞察が得られた。 特に、数百万の毎日アクティブエッジノードが観測されており、ネットワーク空間に広く分布し、16のインターネットサービスのエンドユーザーへのコンテンツ配信が広く採用されている。 また、関連する関係者(例えば、長期およびクロスエッジノード認証の暴露、さまざまなカテゴリの悪意のある活動とのコロケーション、TLS認証の失敗、エンドユーザーに対する広範囲な情報漏洩など)からの承認とともに、複数の実践的およびセキュリティリスクが特定されている。

Emerging in recent years, open edge computing platforms (OECPs) claim large-scale edge nodes, the extensive usage and adoption, as well as the openness to any third parties to join as edge nodes. For instance, OneThingCloud, a major OECP operated in China, advertises 5 million edge nodes, 70TB bandwidth, and 1,500PB storage. However, little information is publicly available for such OECPs with regards to their technical mechanisms and involvement in edge computing activities. Furthermore, different from known edge computing paradigms, OECPs feature an open ecosystem wherein any third party can participate as edge nodes and earn revenue for the contribution of computing and bandwidth resources, which, however, can introduce byzantine or even malicious edge nodes and thus break the traditional threat model for edge computing. In this study, we conduct the first empirical study on two representative OECPs, which is made possible through the deployment of edge nodes across locations, the efficient and semi-automatic analysis of edge traffic as well as the carefully designed security experiments. As the results, a set of novel findings and insights have been distilled with regards to their technical mechanisms, the landscape of edge nodes, the usage and adoption, and the practical security/privacy risks. Particularly, millions of daily active edge nodes have been observed, which feature a wide distribution in the network space and the extensive adoption in content delivery towards end users of 16 popular Internet services. Also, multiple practical and concerning security risks have been identified along with acknowledgements received from relevant parties, e.g., the exposure of long-term and cross-edge-node credentials, the co-location with malicious activities of diverse categories, the failures of TLS certificate verification, the extensive information leakage against end users, etc.
翻訳日:2024-09-11 02:52:35 公開日:2024-09-09
# 1次元ガウス混合モデルのパラメータ推定問題に対するフーリエアプローチ

A Fourier Approach to the Parameter Estimation Problem for One-dimensional Gaussian Mixture Models ( http://arxiv.org/abs/2404.12613v2 )

ライセンス: Link先を確認
Xinyu Liu, Hai Zhang, (参考訳) 本論文の目的は2つある。 まず,一次元ガウス混合モデル(GMM)のパラメータを推定するための新しいアルゴリズムを提案する。 このアルゴリズムは、混合物の独立および同一分布(すなわちd)サンプルから得られたフーリエデータに固有のハンケル構造を利用する。 統一分散を持つGMMに対して、フーリエデータを用いて機能する特異値比を導入し、分散と成分番号を同時に解決する。 推定器の一貫性が導出される。 モーメント法や最大極大法などの古典的アルゴリズムと比較して、提案アルゴリズムはガウス成分の数や優れた初期推定の事前知識を必要としない。 数値実験は、推定精度と計算コストにおいて優れた性能を示す。 第二に、i.d サンプルの数が有限であれば、混合モデルにおいてガウス成分の個数やモデル順序を推定する問題に根本的な制限があることを明らかにする。 単一分散の場合、各成分間の最小分離距離が一定の閾値を超え、下記の値でフェールした場合のみ、モデル順序を推定可能であることを示す。 我々は、i.dサンプルの数、分散、ガウス成分の数という観点から、このしきい値に対する下界を計算分解限界と呼ぶ。 数値実験により、モデル秩序の推定において、この相転移現象が確認される。 さらに,本アルゴリズムはEMアルゴリズムと比較して,確率,AIC,BICのスコアがよいことを示す。

The purpose of this paper is twofold. First, we propose a novel algorithm for estimating parameters in one-dimensional Gaussian mixture models (GMMs). The algorithm takes advantage of the Hankel structure inherent in the Fourier data obtained from independent and identically distributed (i.i.d) samples of the mixture. For GMMs with a unified variance, a singular value ratio functional using the Fourier data is introduced and used to resolve the variance and component number simultaneously. The consistency of the estimator is derived. Compared to classic algorithms such as the method of moments and the maximum likelihood method, the proposed algorithm does not require prior knowledge of the number of Gaussian components or good initial guesses. Numerical experiments demonstrate its superior performance in estimation accuracy and computational cost. Second, we reveal that there exists a fundamental limit to the problem of estimating the number of Gaussian components or model order in the mixture model if the number of i.i.d samples is finite. For the case of a single variance, we show that the model order can be successfully estimated only if the minimum separation distance between the component means exceeds a certain threshold value and can fail if below. We derive a lower bound for this threshold value, referred to as the computational resolution limit, in terms of the number of i.i.d samples, the variance, and the number of Gaussian components. Numerical experiments confirm this phase transition phenomenon in estimating the model order. Moreover, we demonstrate that our algorithm achieves better scores in likelihood, AIC, and BIC when compared to the EM algorithm.
翻訳日:2024-09-11 02:52:35 公開日:2024-09-09
# ジェネレーティブAIの著作権問題に対する経済的解決策

An Economic Solution to Copyright Challenges of Generative AI ( http://arxiv.org/abs/2404.13964v4 )

ライセンス: Link先を確認
Jiachen T. Wang, Zhun Deng, Hiroaki Chiba-Okabe, Boaz Barak, Weijie J. Su, (参考訳) 生成人工知能(AI)システムは、テキスト、画像、ビデオ、その他のメディアを生成するために、大規模なデータコーパスで訓練されている。 このようなシステムは、データコントリビュータのトレーニングに関する著作権権に侵害されるのではないか、という懸念が高まっている。 生成AIの著作権問題に対処するため、我々は、AI生成コンテンツ作成への貢献に比例して著作権所有者を補償する枠組みを提案する。 コントリビューションの計量は、現代の生成AIモデルの確率的性質を活用し、経済学における協調ゲーム理論の技法を用いて定量的に決定される。 このフレームワークは、AI開発者が高品質なトレーニングデータにアクセスすることで、モデルパフォーマンスを向上させるプラットフォームを可能にする。 一方、著作権所有者は公正な補償を受け、生成モデルトレーニングのための関連データの継続的な提供を推進している。 実験により,本フレームワークは,著作権所有者間の収益の公平かつ解釈可能な分配を確保するため,美術作品生成において最も関連性の高いデータソースの同定に成功していることが示された。

Generative artificial intelligence (AI) systems are trained on large data corpora to generate new pieces of text, images, videos, and other media. There is growing concern that such systems may infringe on the copyright interests of training data contributors. To address the copyright challenges of generative AI, we propose a framework that compensates copyright owners proportionally to their contributions to the creation of AI-generated content. The metric for contributions is quantitatively determined by leveraging the probabilistic nature of modern generative AI models and using techniques from cooperative game theory in economics. This framework enables a platform where AI developers benefit from access to high-quality training data, thus improving model performance. Meanwhile, copyright owners receive fair compensation, driving the continued provision of relevant data for generative model training. Experiments demonstrate that our framework successfully identifies the most relevant data sources used in artwork generation, ensuring a fair and interpretable distribution of revenues among copyright owners.
翻訳日:2024-09-11 02:52:35 公開日:2024-09-09
# TextGaze: 自然言語による視線制御可能な顔生成

TextGaze: Gaze-Controllable Face Generation with Natural Language ( http://arxiv.org/abs/2404.17486v2 )

ライセンス: Link先を確認
Hengfei Wang, Zhongqun Zhang, Yihua Cheng, Hyung Jin Chang, (参考訳) 特定の視線情報による顔画像の生成は注目されている。 既存のアプローチは、通常、顔生成のために直接視線値を入力し、これは非自然であり、トレーニングのために注釈付き視線データセットを必要とするため、その応用は制限される。 本稿では,新しい視線制御可能な顔生成タスクを提案する。 本稿では,人間の視線と頭の動きを記述したテキスト記述を入力し,対応する顔画像を生成する。 我々の研究はまず、視線と頭ポーズの密集した分布にまたがる90万以上のテキスト記述を含む、迷路のテキストデータセットを紹介した。 さらに,視線制御可能なテキスト・ツー・フェイス方式を提案する。 本手法は,スケッチ条件付き顔拡散モジュールとモデルに基づくスケッチ拡散モジュールを含む。 顔のランドマークとアイセグメンテーションマップに基づいて顔スケッチを定義する。 顔拡散モジュールは、顔スケッチから顔画像を生成し、スケッチ拡散モジュールは、3D顔モデルを用いて、テキスト記述から顔スケッチを生成する。 FFHQデータセットを用いた実験により,本手法の有効性が示された。 今後の研究のために、データセットとコードを公開します。

Generating face image with specific gaze information has attracted considerable attention. Existing approaches typically input gaze values directly for face generation, which is unnatural and requires annotated gaze datasets for training, thereby limiting its application. In this paper, we present a novel gaze-controllable face generation task. Our approach inputs textual descriptions that describe human gaze and head behavior and generates corresponding face images. Our work first introduces a text-of-gaze dataset containing over 90k text descriptions spanning a dense distribution of gaze and head poses. We further propose a gaze-controllable text-to-face method. Our method contains a sketch-conditioned face diffusion module and a model-based sketch diffusion module. We define a face sketch based on facial landmarks and eye segmentation map. The face diffusion module generates face images from the face sketch, and the sketch diffusion module employs a 3D face model to generate face sketch from text description. Experiments on the FFHQ dataset show the effectiveness of our method. We will release our dataset and code for future research.
翻訳日:2024-09-11 02:42:12 公開日:2024-09-09
# CLFT:自律運転におけるセマンティックセグメンテーションのためのカメラ-LiDARフュージョントランス

CLFT: Camera-LiDAR Fusion Transformer for Semantic Segmentation in Autonomous Driving ( http://arxiv.org/abs/2404.17793v3 )

ライセンス: Link先を確認
Junyi Gu, Mauro Bellone, Tomáš Pivoňka, Raivo Sell, (参考訳) 自律走行のためのカメラとLiDARに基づくセマンティックオブジェクトセグメンテーションに関する批判的研究は、近年のディープラーニングの発展に大きく寄与した。 具体的には、視覚変換器は、コンピュータビジョンアプリケーションにマルチヘッドアテンション機構をうまく導入した新しいグラウンドブレーカーである。 そこで本稿では,自律運転に適用したセマンティックセグメンテーションのためのカメラ-LiDAR融合を実現するビジョントランスフォーマーネットワークを提案する。 提案手法は、2方向ネットワーク上での視覚変換器のプログレッシブ・アセンブル・ストラテジーを用いており、その結果をトランスフォーマ・デコーダ層上でのクロスフュージョン・ストラテジーに統合する。 他の文献とは異なり、我々のカメラ-LiDAR融合変換器は雨や低照度といった困難な条件下で評価され、堅牢な性能を示している。 本稿は、カメラオンリー、LiDARオンリー、カメラ-LiDARフュージョンという、車種と人間のクラスに対するセグメンテーション結果について報告する。 セマンティックセグメンテーション用に設計された他のネットワークに対して,CLFTのコヒーレントなベンチマーク実験を行う。 この実験は,マルチモーダルセンサフュージョンとバックボーンアーキテクチャの2つの観点から,CLFTの性能を独立に評価することを目的としている。 CLFTネットワークは,FCN(Fully-Convolutional-Neural-Network-based)カメラ-LiDAR融合ニューラルネットワークと比較して,ダークウェット条件の挑戦に対して最大10%改善したことを示す。 トランスバックボーンによるネットワークとは対照的に、単一のモダリティ入力を使用すると、全アラウンド改善は5-10%である。

Critical research about camera-and-LiDAR-based semantic object segmentation for autonomous driving significantly benefited from the recent development of deep learning. Specifically, the vision transformer is the novel ground-breaker that successfully brought the multi-head-attention mechanism to computer vision applications. Therefore, we propose a vision-transformer-based network to carry out camera-LiDAR fusion for semantic segmentation applied to autonomous driving. Our proposal uses the novel progressive-assemble strategy of vision transformers on a double-direction network and then integrates the results in a cross-fusion strategy over the transformer decoder layers. Unlike other works in the literature, our camera-LiDAR fusion transformers have been evaluated in challenging conditions like rain and low illumination, showing robust performance. The paper reports the segmentation results over the vehicle and human classes in different modalities: camera-only, LiDAR-only, and camera-LiDAR fusion. We perform coherent controlled benchmark experiments of CLFT against other networks that are also designed for semantic segmentation. The experiments aim to evaluate the performance of CLFT independently from two perspectives: multimodal sensor fusion and backbone architectures. The quantitative assessments show our CLFT networks yield an improvement of up to 10% for challenging dark-wet conditions when comparing with Fully-Convolutional-Neural-Network-based (FCN) camera-LiDAR fusion neural network. Contrasting to the network with transformer backbone but using single modality input, the all-around improvement is 5-10%.
翻訳日:2024-09-11 02:42:12 公開日:2024-09-09
# フェルミオン型機械学習

Fermionic Machine Learning ( http://arxiv.org/abs/2404.19032v2 )

ライセンス: Link先を確認
Jérémie Gince, Jean-Michel Pagé, Marco Armenta, Ayana Sarkar, Stefanos Kourtis, (参考訳) フェミオン量子計算に基づく機械学習フレームワークであるフェミオン型機械学習(FermiML)を紹介する。 フェルミMLモデルは、自由マヨラナフェルミオンの系に正確にマッピングされる量子回路の制限されたクラスであるパラメータ化マッチゲート回路によって表現される。 FermiMLフレームワークは、パラメータ化された量子回路に基づく任意の量子機械学習(QML)モデルのフェルミオン系を構築することができる。 重要なことは、マッチゲート回路は効率よく古典的にシミュレートできるため、FermiMLは大規模な実世界のデータセット上のQMLメソッドのユーティリティベンチマークのためのフレキシブルなフレームワークである。 我々は、ランダム量子カーネルを用いた分類の文脈において、制限なしのPQCに対してFermiMLをベンチマークすることで、FermiMLの探索を開始する。 標準データセット(Digits と Wisconsin Breast Cancer)の実験を通じて、FermiMLカーネルはサポートベクターマシンを用いた分類タスクにおいて、制限なしのPQCカーネルと同等であることを示した。 さらに、FermiMLカーネルは、数十の関連する機能を持つデータセットを含む、多クラス分類における制限なしの候補よりも優れていることが判明した。 したがって、FermiMLが以前QMLに到達できなかったレシストラクチャを探索する上でどのように役立つかを示す。

We introduce fermionic machine learning (FermiML), a machine learning framework based on fermionic quantum computation. FermiML models are expressed in terms of parameterized matchgate circuits, a restricted class of quantum circuits that map exactly to systems of free Majorana fermions. The FermiML framework allows for building fermionic counterparts of any quantum machine learning (QML) model based on parameterized quantum circuits, including models that produce highly entangled quantum states. Importantly, matchgate circuits are efficiently simulable classically, thus rendering FermiML a flexible framework for utility benchmarks of QML methods on large real-world datasets. We initiate the exploration of FermiML by benchmarking it against unrestricted PQCs in the context of classification with random quantum kernels. Through experiments on standard datasets (Digits and Wisconsin Breast Cancer), we demonstrate that FermiML kernels are on-par with unrestricted PQC kernels in classification tasks using support-vector machines. Furthermore, we find that FermiML kernels outperform their unrestricted candidates on multi-class classification, including on datasets with several tens of relevant features. We thus show how FermiML enables us to explore regimes previously inaccessible to QML methods.
翻訳日:2024-09-11 02:42:12 公開日:2024-09-09
# Espresso: テキスト・画像モデルにおけるロバストな概念フィルタリング

Espresso: Robust Concept Filtering in Text-to-Image Models ( http://arxiv.org/abs/2404.19227v5 )

ライセンス: Link先を確認
Anudeep Das, Vasisht Duddu, Rui Zhang, N. Asokan, (参考訳) 拡散ベースのテキスト・ツー・イメージモデルは、インターネットから取り除かれた大規模なデータセットでトレーニングされており、受け入れがたい概念(著作権侵害や安全でない)を含んでいる可能性がある。 我々は、容認できない概念による画像の生成を防止し、許容可能な概念を有効に保存し、敵のプロンプトによる回避に対して堅牢な概念除去技術(CRT)が必要である。 以前のCRTは、これらすべての要件を同時に満たしていない。 本稿では,Contrastive Language-Image Pre-Training (CLIP) に基づく最初のロバストな概念フィルタであるEspressoを紹介する。 CLIPは、許容できない概念と許容できる概念の両方のテキスト埋め込みとの距離を用いて、生成画像中の許容できない概念を識別する。 これにより、容認不可能で許容できる概念のテキスト埋め込みを分離し、ユーティリティのためのイメージ埋め込みとのペアを保ちながら、堅牢性のための微調整が可能になります。 我々は,様々なCRTを評価し,それらに対する攻撃を行い,Espressoは実用性を維持しつつ,従来のCRTよりも効果的で堅牢であることを示すパイプラインを提案する。

Diffusion based text-to-image models are trained on large datasets scraped from the Internet, potentially containing unacceptable concepts (e.g., copyright infringing or unsafe). We need concept removal techniques (CRTs) which are effective in preventing the generation of images with unacceptable concepts, utility-preserving on acceptable concepts, and robust against evasion with adversarial prompts. None of the prior CRTs satisfy all these requirements simultaneously. We introduce Espresso, the first robust concept filter based on Contrastive Language-Image Pre-Training (CLIP). We configure CLIP to identify unacceptable concepts in generated images using the distance of their embeddings to the text embeddings of both unacceptable and acceptable concepts. This lets us fine-tune for robustness by separating the text embeddings of unacceptable and acceptable concepts while preserving their pairing with image embeddings for utility. We present a pipeline to evaluate various CRTs, attacks against them, and show that Espresso, is more effective and robust than prior CRTs, while retaining utility.
翻訳日:2024-09-11 02:42:12 公開日:2024-09-09
# 2次元超伝導量子ビットアレイにおける合成磁気ベクトルポテンシャルの実装

Implementing a synthetic magnetic vector potential in a 2D superconducting qubit array ( http://arxiv.org/abs/2405.00873v5 )

ライセンス: Link先を確認
Ilan T. Rosen, Sarah Muschinske, Cora N. Barrett, Arkya Chatterjee, Max Hays, Michael DeMarco, Amir Karamlou, David Rower, Rabindra Das, David K. Kim, Bethany M. Niedzielski, Meghan Schuldt, Kyle Serniak, Mollie E. Schwartz, Jonilyn L. Yoder, Jeffrey A. Grover, William D. Oliver, (参考訳) 超伝導量子プロセッサは、ハードウェア固有の精度制御、高速動作、サイトの解決された読み出しにより、アナログ量子シミュレーションの魅力的なプラットフォームである。 結合した超伝導量子ビットの配列は、Bose-Hubbardモデルに従って相互作用する粒子の力学を自然にエミュレートする。 しかし、多くの興味深い凝縮マター現象は電磁場の存在によってのみ現れる。 ここでは超伝導量子シミュレータを用いて電磁場における荷電粒子の動力学をエミュレートする。 すべての量子ビットに連続変調音を印加することにより、広範に調整可能な合成磁気ベクトルポテンシャルを実現する。 空間変化ベクトルポテンシャルは時間反転対称性を破り、ゲージ不変の合成磁場を生成し、時間変化ベクトルポテンシャルは合成電場を生成する。 電界中を伝播する荷電粒子の逆偏向であるホール効果が, 合成電磁場の存在下では存在することを実証する。

Superconducting quantum processors are a compelling platform for analog quantum simulation due to the precision control, fast operation, and site-resolved readout inherent to the hardware. Arrays of coupled superconducting qubits natively emulate the dynamics of interacting particles according to the Bose-Hubbard model. However, many interesting condensed-matter phenomena emerge only in the presence of electromagnetic fields. Here, we emulate the dynamics of charged particles in an electromagnetic field using a superconducting quantum simulator. We realize a broadly adjustable synthetic magnetic vector potential by applying continuous modulation tones to all qubits. We verify that the synthetic vector potential obeys requisite properties of electromagnetism: a spatially-varying vector potential breaks time-reversal symmetry and generates a gauge-invariant synthetic magnetic field, and a temporally-varying vector potential produces a synthetic electric field. We demonstrate that the Hall effect--the transverse deflection of a charged particle propagating in an electromagnetic field--exists in the presence of the synthetic electromagnetic field.
翻訳日:2024-09-11 02:42:12 公開日:2024-09-09
# Ethereumのビルダー市場の分散化

Decentralization of Ethereum's Builder Market ( http://arxiv.org/abs/2405.01329v3 )

ライセンス: Link先を確認
Sen Yang, Kartik Nayak, Fan Zhang, (参考訳) ブロックチェーンは、分散化の原則から派生した強力なセキュリティ特性によって、500億ドル以上の価値を持つエコシステムを保護します。 今日のブロックチェーンは分散化されているか? 本稿では,そのビルダ市場であるEthereumにおいて,最も分散化されていない部分の1つを実証的に研究した。 ビルダー市場は、検証者間で最大抽出可能な価値(MEV)を公平に分配し、検証者集中を避けるために導入された。 この記事執筆時点で、3人のビルダーがEthereumの大多数(80%以上)のブロックを作成し、関連する集中化要因を生み出した。 しかし、コミュニティはそのような中央集権化は問題なく、ビルダーの中央集権化はバリデータの中央集権化に繋がらないと主張している。 本研究では,ビルダー集中化の原因と意義を疑問視し,それが許容できるというこの信念に挑戦する。 我々の主な発見は、ビルダーの集中化がバリデータから大きな損失を招き、もし制御されていない場合、バリデータ集中に繋がる可能性があるということです。 また、中央集権化によって不正確なMEVオラクルとしてビルダー市場に頼っているため、採用予定のMEV緩和ソリューションも影響を受けている。 我々の調査はビルダー集中化の背景にある2つの理由を明らかにした。 本稿では,既存のMEVサプライチェーンの構造変化と,新しいサプライチェーン構造に基づくソリューションを提案する。 しかし、新たなサプライチェーン構造が長期にわたって持続可能かどうかを分析するためには、今後の作業が必要である。

Blockchains protect an ecosystem worth more than $500bn with strong security properties derived from the principle of decentralization. Is today's blockchain decentralized? In this paper, we empirically studied one of the least decentralized parts of Ethereum, its builder market. The builder market was introduced to fairly distribute Maximal Extractable Values (MEV) among validators and avoid validator centralization. As of the time of writing, three builders produced the vast majority (more than 80%) of blocks in Ethereum, creating a concerning centralization factor. However, the community believes that such centralization is okay, arguing that builder centralization will not lead to validator centralization. In this empirical study, we interrogate the causes and implications of builder centralization and challenge this belief that it is acceptable. Our main finding is that builder centralization has led to a significant loss by validators and, if left uncontrolled, could lead to validator centralization. Moreover, MEV mitigation solutions slated for adoption are affected too because they rely on the builder market as an MEV oracle, which is made inaccurate by centralization. Our investigation revealed two reasons behind builder centralization. We propose a structural change to the existing MEV supply chain and a solution based on the new supply chain structure. However, future work is required to analyze if the new supply chain structure is sustainable in the long term, which we leave open.
翻訳日:2024-09-11 02:42:12 公開日:2024-09-09
# 運動論的に制約された量子東西モデルにおける異常輸送

Anomalous transport in the kinetically constrained quantum East-West model ( http://arxiv.org/abs/2405.02102v3 )

ライセンス: Link先を確認
Pietro Brighi, Marko Ljubotina, (参考訳) 我々は,反射対称性を破ることのできる単一パラメータを用いて,カオス的に保存される粒子の運動的拘束モデルについて検討する。 広範な数値シミュレーションにより, 領域壁状態は, 局所化から弾道輸送まで, 反射破れパラメータの値に依存する様々な動的挙動を示すことがわかった。 驚くべきことに、そのような異常な振る舞いは、一般的な相互作用モデルに対する期待と一致して拡散的にスケールしているように見える無限温度力学では反映されない。 しかし、粒子密度勾配を調べた結果、反射対称性の欠如が無限温度の力学に影響を与え、非対称な動的構造因子が生じることが示された。 これは通常の拡散とは不一致であり、このモデルが熱力学極限において無限温度で異常なダイナミクスを示すことも示唆している。 最後に、模型のスペクトルにおける低絡み合った固有状態、量子的な多くの天体の傷跡を観測する。

We study a chaotic particle-conserving kinetically constrained model, with a single parameter which allows us to break reflection symmetry. Through extensive numerical simulations we find that the domain wall state shows a variety of dynamical behaviors from localization all the way to ballistic transport, depending on the value of the reflection breaking parameter. Surprisingly, such anomalous behavior is not mirrored in infinite-temperature dynamics, which appear to scale diffusively, in line with expectations for generic interacting models. However, studying the particle density gradient, we show that the lack of reflection symmetry affects infinite-temperature dynamics, resulting in an asymmetric dynamical structure factor. This is in disagreement with normal diffusion and suggests that the model may also exhibit anomalous dynamics at infinite temperature in the thermodynamic limit. Finally, we observe low-entangled eigenstates in the spectrum of the model, a telltale sign of quantum many body scars.
翻訳日:2024-09-11 02:42:12 公開日:2024-09-09
# 潜在結晶対称性で保護される高次トポロジー

Higher-order topology protected by latent crystalline symmetries ( http://arxiv.org/abs/2405.02704v2 )

ライセンス: Link先を確認
L. Eek, M. Röntgen, A. Moustaj, C. Morais Smith, (参考訳) 回転対称性は、Cn対称高次トポロジカル結晶絶縁体における分数角電荷の存在に必要な要件ではないことを示す。 代わりに、系の等スペクトル還元を行うと明らかになる潜在回転対称性を持つことは十分である。 本稿では,潜在結晶対称系に対する充填異常の概念を導入し,修正トポロジカル不変量を提案する。 したがって、Cn対称性で保護される2次元の高階位相の概念は、潜在対称性で保護されるように一般化される。 我々の主張は、Cn対称性がない場合に非自明なコーナー電荷を示すモデルの具体的な例によって裏付けられている。 この研究は、トポロジカル結晶絶縁体の分類を拡張し、潜在対称性を含む。

We demonstrate that rotation symmetry is not a necessary requirement for the existence of fractional corner charges in Cn-symmetric higher-order topological crystalline insulators. Instead, it is sufficient to have a latent rotation symmetry, which may be revealed upon performing an isospectral reduction on the system. We introduce the concept of a filling anomaly for latent crystalline symmetric systems, and propose modified topological invariants. The notion of higher-order topology in two dimensions protected by Cn symmetry is thus generalized to a protection by latent symmetry. Our claims are corroborated by concrete examples of models that show non-trivial corner charge in the absence of Cn-symmetry. This work extends the classification of topological crystalline insulators to include latent symmetries.
翻訳日:2024-09-11 02:31:55 公開日:2024-09-09
# 深部振動ニューラルネット

Deep Oscillatory Neural Network ( http://arxiv.org/abs/2405.03725v2 )

ライセンス: Link先を確認
Nurani Rajagopal Rohan, Vigneswaran C, Sayan Ghosh, Kishore Rajendran, Gaurav A, V Srinivasa Chakravarthy, (参考訳) 本稿では,脳にインスパイアされた新しいディープニューラルネットワークモデルであるDeep Oscillatory Neural Network (DONN)を提案する。 Recurrent Neural Networksのようなディープニューラルネットワークは、実際にシーケンス処理能力を持っているが、ネットワークの内部状態は脳に似た振動活性を示すように設計されていない。 このモチベーションにより、DONNは振動する内部ダイナミクスを持つように設計されている。 DONNのニューロンは、非線形神経発振器か、SigmoidalやReLUを活性化する従来のニューロンである。 モデルで使用される神経発振器はホップ発振器であり、複雑な領域で記述される力学である。 入力は3つの可能なモードでニューラル発振器に提示できる。 シグモイドニューロンとReLUニューロンも複素値拡張を用いる。 全ての重み付け段階も複雑に評価されている。 トレーニングは出力誤差を最小化することで重量変化の一般的な原理に従い、したがって複雑なバックプロパゲーションと全体的な類似性を持つ。 また、Oscillatory Convolutional Neural Networkとして知られる畳み込みネットワークへのDONNの一般化も提案されている。 提案した2つの発振ネットワークは、信号処理と画像/ビデオ処理における様々なベンチマーク問題に適用される。 提案したモデルの性能は、同じデータセット上で公表された結果に匹敵するか、優れているかのいずれかである。

We propose a novel, brain-inspired deep neural network model known as the Deep Oscillatory Neural Network (DONN). Deep neural networks like the Recurrent Neural Networks indeed possess sequence processing capabilities but the internal states of the network are not designed to exhibit brain-like oscillatory activity. With this motivation, the DONN is designed to have oscillatory internal dynamics. Neurons of the DONN are either nonlinear neural oscillators or traditional neurons with sigmoidal or ReLU activation. The neural oscillator used in the model is the Hopf oscillator, with the dynamics described in the complex domain. Input can be presented to the neural oscillator in three possible modes. The sigmoid and ReLU neurons also use complex-valued extensions. All the weight stages are also complex-valued. Training follows the general principle of weight change by minimizing the output error and therefore has an overall resemblance to complex backpropagation. A generalization of DONN to convolutional networks known as the Oscillatory Convolutional Neural Network is also proposed. The two proposed oscillatory networks are applied to a variety of benchmark problems in signal and image/video processing. The performance of the proposed models is either comparable or superior to published results on the same data sets.
翻訳日:2024-09-11 02:31:55 公開日:2024-09-09
# 機械学習による大規模言語モデルの構築

Large Language Models Synergize with Automated Machine Learning ( http://arxiv.org/abs/2405.03727v3 )

ライセンス: Link先を確認
Jinglue Xu, Jialong Li, Zhen Liu, Nagar Anthel Venkatesh Suryanarayanan, Guoyuan Zhou, Jia Guo, Hitoshi Iba, Kenji Tei, (参考訳) 近年,大規模言語モデル (LLM) によるプログラム合成が普及している。 しかし、機械学習(ML)タスクのためのプログラム合成は依然として大きな課題となっている。 本稿では、LLMと自動機械学習(autoML)を組み合わせることで、MLプログラムをターゲットとしたプログラム合成の新しい形式について検討する。 具体的には、MLタスクのテキスト記述のみを活用することで、データ準備からモデリング、後処理に至るまで、MLワークフロー全体のコード生成と最適化を完全に自動化することを目的としています。 MLプログラムの長さと多様性を管理するため,各プログラムを小さく,管理可能な部分に分割することを提案する。 各部品はLLMによって別々に生成され、適合性を慎重に考慮する。 適合性を確保するため,我々はMLプログラムのテスト手法を設計する。 従来のプログラム合成とは異なり、二項評価(すなわち正しいか間違っているか)に依存し、MLプログラムの評価は二項判定以上のものを必要とする。 提案手法は,これらのプログラムの数値評価と最適化を自動化し,オートML手法を用いて最適な候補を選択する。 各種MLタスクに対する実験では、MLプログラムを生成するための12タスク中10タスクにおいて、既存のメソッドよりも優れています。 さらに、AutoMLは生成されたMLプログラムのパフォーマンスを大幅に改善する。 テキストによるタスク記述を前提とした実験では,本手法は完全かつ最適化されたMLプログラムを完全自律的なプロセスで生成する。 本手法の実装はhttps://github.com/JLX0/llm-automl.comで公開されている。

Recently, program synthesis driven by large language models (LLMs) has become increasingly popular. However, program synthesis for machine learning (ML) tasks still poses significant challenges. This paper explores a novel form of program synthesis, targeting ML programs, by combining LLMs and automated machine learning (autoML). Specifically, our goal is to fully automate the generation and optimization of the code of the entire ML workflow, from data preparation to modeling and post-processing, utilizing only textual descriptions of the ML tasks. To manage the length and diversity of ML programs, we propose to break each ML program into smaller, manageable parts. Each part is generated separately by the LLM, with careful consideration of their compatibilities. To ensure compatibilities, we design a testing technique for ML programs. Unlike traditional program synthesis, which typically relies on binary evaluations (i.e., correct or incorrect), evaluating ML programs necessitates more than just binary judgments. Our approach automates the numerical evaluation and optimization of these programs, selecting the best candidates through autoML techniques. In experiments across various ML tasks, our method outperforms existing methods in 10 out of 12 tasks for generating ML programs. In addition, autoML significantly improves the performance of the generated ML programs. In experiments, given the textual task description, our method, Text-to-ML, generates the complete and optimized ML program in a fully autonomous process. The implementation of our method is available at https://github.com/JLX0/llm-automl.
翻訳日:2024-09-11 02:31:55 公開日:2024-09-09
# 多ビットキャビティQEDシステムのエントロピックダイナミクスの研究

Investigating entropic dynamics of multiqubit cavity QED system ( http://arxiv.org/abs/2405.05696v3 )

ライセンス: Link先を確認
Hui-hui Miao, (参考訳) 多ビット空洞量子力学系のエントロピー力学をシミュレートし、エントロピーの様々な側面を探索する。 Tavis-Cummings-Hubbardモデルの修正版では、原子は光ツイーザーを介して光学キャビティに保持され、トンネル効果によって異なるキャビティの間をジャンプすることができる。 原子と空洞との相互作用は異なる電子遷移をもたらし、対応する種類の光子の生成と消滅をもたらす。 電子スピンとパウリ排他原理が考慮される。 モデルには共有結合の形成と崩壊、フォノンの生成と消滅も導入されている。 システムは二部構成です。 あらゆる種類の相互作用がエントロピーに与える影響について研究した。 そして、異なる部分系のフォン・ノイマンエントロピーを比較する。 その結果,システムパラメータを選択的に選択することで,エントロピー力学を制御できることが示され,各サブシステムのエントロピー値が不等式関係を満たすことが示唆された。

Entropic dynamics of a multiqubit cavity quantum electrodynamics system is simulated and various aspects of entropy are explored. In the modified version of the Tavis-Cummings-Hubbard model, atoms are held in optical cavities through optical tweezers and can jump between different cavities through the tunneling effect. The interaction of atom with the cavity results in different electronic transitions and the creation and annihilation of corresponding types of photon. Electron spin and the Pauli exclusion principle are considered. Formation and break of covalent bond and creation and annihilation of phonon are also introduced into the model. The system is bipartite. The effect of all kinds of interactions on entropy is studied. And the von Neumann entropy of different subsystems is compared. The results show that the entropic dynamics can be controlled by selectively choosing system parameters, and the entropy values of different subsystems satisfy certain inequality relationships.
翻訳日:2024-09-11 02:31:55 公開日:2024-09-09
# 自然言語処理と言語学

Natural Language Processing RELIES on Linguistics ( http://arxiv.org/abs/2405.05966v2 )

ライセンス: Link先を確認
Juri Opitz, Shira Wein, Nathan Schneider, (参考訳) 大きな言語モデル(LLM)は、文法や意味的一貫性を捉えるために特別に設計されたモジュールなしで、特定の言語で高度に流動的なテキストを生成することができるようになった。 これはNLPにおける言語学の専門知識の将来にとって何を意味するのか? 我々は,NLPが言語学に依存している,あるいは言語学的思考が新たな方向を照らすことができる,いくつかの側面を強調した。 我々は,言語学がNLPに寄与する6つの主要な側面を包括する頭字語RELIES(Resources, Evaluation, Low-resource settings, Interpretability, Explanation, the Study of Language)について論じる。 このリストは徹底的ではないし、言語学もこれらのテーマの全ての取り組みの参照ポイントではない。しかしマクロレベルでは、これらのファセットは人間の言語の機械システム vis-\`a-vis システムを研究することの持続的重要性を浮き彫りにしている。

Large Language Models (LLMs) have become capable of generating highly fluent text in certain languages, without modules specially designed to capture grammar or semantic coherence. What does this mean for the future of linguistic expertise in NLP? We highlight several aspects in which NLP (still) relies on linguistics, or where linguistic thinking can illuminate new directions. We argue our case around the acronym RELIES that encapsulates six major facets where linguistics contributes to NLP: Resources, Evaluation, Low-resource settings, Interpretability, Explanation, and the Study of language. This list is not exhaustive, nor is linguistics the main point of reference for every effort under these themes; but at a macro level, these facets highlight the enduring importance of studying machine systems vis-\`a-vis systems of human language.
翻訳日:2024-09-11 02:31:55 公開日:2024-09-09
# ユニバーサル摂動のためのクロス入力認定訓練

Cross-Input Certified Training for Universal Perturbations ( http://arxiv.org/abs/2405.09176v2 )

ライセンス: Link先を確認
Changming Xu, Gagandeep Singh, (参考訳) 信頼できる機械学習における既存の仕事は、主にシングルインプットの敵対的摂動に焦点を当てている。 多くの現実世界の攻撃シナリオでは、入力非依存の敵攻撃、例えば普遍的敵対的摂動(UAP)はより実現可能である。 現在の認定訓練方法は、単一入力の摂動に対して頑健なモデルを訓練するが、最適クリーニングとUAPの精度を達成し、実用的な応用に適用性を制限する。 UAP攻撃者に対して堅牢なネットワークの認証トレーニングのための新しい手法CITRUSを提案する。 提案手法は標準精度(最大10.3\%)で従来の認定トレーニング手法より優れており,より実用性の高いUAP精度測定においてSOTA性能を実現することができる。

Existing work in trustworthy machine learning primarily focuses on single-input adversarial perturbations. In many real-world attack scenarios, input-agnostic adversarial attacks, e.g. universal adversarial perturbations (UAPs), are much more feasible. Current certified training methods train models robust to single-input perturbations but achieve suboptimal clean and UAP accuracy, thereby limiting their applicability in practical applications. We propose a novel method, CITRUS, for certified training of networks robust against UAP attackers. We show in an extensive evaluation across different datasets, architectures, and perturbation magnitudes that our method outperforms traditional certified training methods on standard accuracy (up to 10.3\%) and achieves SOTA performance on the more practical certified UAP accuracy metric.
翻訳日:2024-09-11 02:31:55 公開日:2024-09-09
# 卵巣癌亜型分類における病理組織学的基盤モデルの総合的評価

A Comprehensive Evaluation of Histopathology Foundation Models for Ovarian Cancer Subtype Classification ( http://arxiv.org/abs/2405.09990v2 )

ライセンス: Link先を確認
Jack Breen, Katie Allen, Kieran Zucker, Lucy Godson, Nicolas M. Orsi, Nishant Ravikumar, (参考訳) 大規模事前学習型トランスフォーマーは、強力なタスク固有の人工知能モデルを基盤とする一般化基盤モデルとして、ますます発展しつつある。 病理学の基礎モデルは、多くのタスクにおいて大きな可能性を示しているが、分析は通常、特定のタスクに調整されていない任意のハイパーパラメータによって制限されている。 これまでで最も厳密な単一タスクによる病理組織学的基盤モデルの検証,特に卵巣癌形態学的亜型化について報告した。 3つのImageNet事前学習特徴抽出器と14の病理組織学的基盤モデルを用いて,注意に基づく複数インスタンス学習分類器を比較した。 トレーニングセットはLeeds teaching Hospitals NHS Trustの卵巣癌434例の1864枚の全スライド画像で構成された。 5段階の分類性能を5倍のクロスバリデーションにより評価し,これらのクロスバリデーションモデルを用いて,トランスカナディアン・スタディとOCEANチャレンジデータセットのホールドアウトテストと外部検証を行った。 ベストパフォーマンスモデルはH-optimus-0ファンデーションモデルを使用しており、テストセットで89%、97%、74%のバランスの取れたアキュラティを5クラスに設定した。 正規化と拡張によりImageNetで事前訓練されたResNetのパフォーマンスが向上したが、14のファンデーションモデルのうち13よりも向上した。 下流分類器のハイパーパラメータチューニングにより、中央値1.9%のバランスの取れた精度が向上し、多くの改善が統計的に有意である。 病理組織学的基盤モデルは卵巣がんの亜型化に明らかな利益をもたらし、臨床効果が有意な程度に分類性能を向上するが、計算負担は増大する。 このようなモデルは、難しい症例を診断する病理学者に第2の意見を与え、総合的な病理診断の正確性、客観性、効率を改善する可能性がある。

Large pretrained transformers are increasingly being developed as generalised foundation models which can underpin powerful task-specific artificial intelligence models. Histopathology foundation models show great promise across many tasks, but analyses have typically been limited by arbitrary hyperparameters that were not tuned to the specific task. We report the most rigorous single-task validation of histopathology foundation models to date, specifically in ovarian cancer morphological subtyping. Attention-based multiple instance learning classifiers were compared using three ImageNet-pretrained feature extractors and fourteen histopathology foundation models. The training set consisted of 1864 whole slide images from 434 ovarian carcinoma cases at Leeds Teaching Hospitals NHS Trust. Five-class classification performance was evaluated through five-fold cross-validation, and these cross-validation models were ensembled for hold-out testing and external validation on the Transcanadian Study and OCEAN Challenge datasets. The best-performing model used the H-optimus-0 foundation model, with five-class balanced accuracies of 89%, 97%, and 74% in the test sets. Normalisations and augmentations aided the performance of the ImageNet-pretrained ResNets, but these were still outperformed by 13 of the 14 foundation models. Hyperparameter tuning the downstream classifiers improved performance by a median 1.9% balanced accuracy, with many improvements being statistically significant. Histopathology foundation models offer a clear benefit to ovarian cancer subtyping, improving classification performance to a degree where clinical utility is tangible, albeit with an increased computational burden. Such models could provide a second opinion to histopathologists diagnosing challenging cases and may improve the accuracy, objectivity, and efficiency of pathological diagnoses overall.
翻訳日:2024-09-11 02:31:55 公開日:2024-09-09
# 同一性を有する繰り返しニューラルカスケードの表現性について

On the Expressivity of Recurrent Neural Cascades with Identity ( http://arxiv.org/abs/2405.11657v2 )

ライセンス: Link先を確認
Nadezda Alexandrovna Knorozova, Alessandro Ronca, (参考訳) リカレントニューラルカスケード(Recurrent Neural Cascades、RNC)は、リカレントニューラル・ネットワークの一種で、リカレント・ニューラル・ネットワーク間の循環的依存を持たない。 正の繰り返し重みを持つそれらのサブクラス RNC+ は、多くの確立された時間論理の表現性である星のない正規言語と密接に関連していることが示されている。 既存の表現性の結果は、RCC+が取得した正規言語が星のない言語であることを示し、RCC+が正規言語以外の言語を捕捉する可能性を明らかにしている。 我々は、単位元を含む言語、すなわち、出力に影響を与えることなく任意の回数を発生させることができる入力について、この可能性を排除する。 すなわち、アイデンティティー要素の存在下では、RCC+によって取得された言語は、まさにスターフリーな正規言語であることを示す。 アイデンティティ要素は時間的パターンにおいてユビキタスであり、その結果は多数のアプリケーションに適用できる。 私たちの結果の意味は、表現力を超えます。 RNC+とセミオートマタのカスケード間の密接な構造対応を確立し、全てのニューロンが3状態のセミオートマトンで等価に捕捉可能であることを示した。 この結果の顕著な結果は、RCC+が三状態半オートマタのカスケードほど簡潔ではないことである。

Recurrent Neural Cascades (RNC) are the class of recurrent neural networks with no cyclic dependencies among recurrent neurons. Their subclass RNC+ with positive recurrent weights has been shown to be closely connected to the star-free regular languages, which are the expressivity of many well-established temporal logics. The existing expressivity results show that the regular languages captured by RNC+ are the star-free ones, and they leave open the possibility that RNC+ may capture languages beyond regular. We exclude this possibility for languages that include an identity element, i.e., an input that can occur an arbitrary number of times without affecting the output. Namely, in the presence of an identity element, we show that the languages captured by RNC+ are exactly the star-free regular languages. Identity elements are ubiquitous in temporal patterns, and hence our results apply to a large number of applications. The implications of our results go beyond expressivity. At their core, we establish a close structural correspondence between RNC+ and semiautomata cascades, showing that every neuron can be equivalently captured by a three-state semiautomaton. A notable consequence of this result is that RNC+ are no more succinct than cascades of three-state semiautomata.
翻訳日:2024-09-11 02:31:55 公開日:2024-09-09
# 視覚言語モデルにおける損失機会:視覚言語モデルに対するオンラインテスト時間適応の比較研究

A Lost Opportunity for Vision-Language Models: A Comparative Study of Online Test-Time Adaptation for Vision-Language Models ( http://arxiv.org/abs/2405.14977v2 )

ライセンス: Link先を確認
Mario Döbler, Robert A. Marsden, Tobias Raichle, Bin Yang, (参考訳) ディープラーニングでは、分散シフトに対するモデルの堅牢性を維持することが重要です。 この研究は、CLIPとその変種に特に重点を置いて、ビジョン言語の基礎モデルをテスト時に適用するための幅広い可能性を探究する。 本研究は,多種多様な実世界のシナリオにおける分布シフト時のロバスト性向上を目的として,プロンプトベースの手法と既存のテスト時間適応手法を体系的に検討した。 具体的には、手作りのプロンプト、即興のアンサンブル、素早い学習技術など、様々な素早いエンジニアリング戦略をカバーしている。 さらに,テキスト空間のみのアンサンブルに比べて平均性能を大幅に向上させる視覚テキスト空間アンサンブルを導入する。 オンラインテストタイム適応は,分散シフトによる性能低下を緩和するために有効であることが示されているので,本来視覚のみの分類モデルのために設計された既存のテストタイム適応手法の有効性を評価するために,その範囲を広げた。 複数のデータセットと多種多様なモデルアーキテクチャにまたがる広範な実験的評価を通じて、本研究はこれらの適応戦略の有効性を実証する。 https://github.com/mariodoebler/test-time-adaptation

In deep learning, maintaining model robustness against distribution shifts is critical. This work explores a broad range of possibilities to adapt vision-language foundation models at test-time, with a particular emphasis on CLIP and its variants. The study systematically examines prompt-based techniques and existing test-time adaptation methods, aiming to improve the robustness under distribution shift in diverse real-world scenarios. Specifically, the investigation covers various prompt engineering strategies, including handcrafted prompts, prompt ensembles, and prompt learning techniques. Additionally, we introduce a vision-text-space ensemble that substantially enhances average performance compared to text-space-only ensembles. Since online test-time adaptation has shown to be effective to mitigate performance drops under distribution shift, the study extends its scope to evaluate the effectiveness of existing test-time adaptation methods that were originally designed for vision-only classification models. Through extensive experimental evaluations conducted across multiple datasets and diverse model architectures, the research demonstrates the effectiveness of these adaptation strategies. Code is available at: https://github.com/mariodoebler/test-time-adaptation
翻訳日:2024-09-11 02:21:54 公開日:2024-09-09
# LoQT: 量子化事前トレーニングのための低ランクアダプタ

LoQT: Low-Rank Adapters for Quantized Pre-Training ( http://arxiv.org/abs/2405.16528v3 )

ライセンス: Link先を確認
Sebastian Loeschcke, Mads Toftrup, Michael J. Kastoryano, Serge Belongie, Vésteinn Snæbjarnarson, (参考訳) 大規模なニューラルネットワークのトレーニングには、かなりの計算資源が必要である。 低ランクアダプタと量子化の進歩にもかかわらず、消費者ハードウェア上でのLCMのようなモデルの事前訓練は、モデルのシャーディング、トレーニング中のオフロード、層ごとの勾配更新なしでは不可能である。 これらの制約に対処するため、量子化モデルを効率的に訓練するLoQTを提案する。 LoQTは勾配に基づくテンソル分解を用いて、定期的に量子化されたフルランクの重み行列にマージされる低ランクのトレーニング可能な重み行列を初期化する。 提案手法は事前学習と微調整の両方に適しており,言語モデリングと下流タスク適応の実験的な実証を行った。 LoQTは、コンシューマグレードの24GB GPU上で、7Bパラメータまでのモデルの効率的なトレーニングを可能にする。 また,同一ハードウェア上での層間勾配更新による13Bパラメータモデルのトレーニングの実現可能性を示す。

Training of large neural networks requires significant computational resources. Despite advances using low-rank adapters and quantization, pretraining of models such as LLMs on consumer hardware has not been possible without model sharding, offloading during training, or per-layer gradient updates. To address these limitations, we propose LoQT, a method for efficiently training quantized models. LoQT uses gradient-based tensor factorization to initialize low-rank trainable weight matrices that are periodically merged into quantized full-rank weight matrices. Our approach is suitable for both pretraining and fine-tuning of models, which we demonstrate experimentally for language modeling and downstream task adaptation. We find that LoQT enables efficient training of models up to 7B parameters on a consumer-grade 24GB GPU. We also demonstrate the feasibility of training a 13B parameter model using per-layer gradient updates on the same hardware.
翻訳日:2024-09-11 02:21:54 公開日:2024-09-09
# 有限温度ライドバーグアレイ:量子相と絡み合い特性

Finite-temperature Rydberg arrays: quantum phases and entanglement characterization ( http://arxiv.org/abs/2405.18477v2 )

ライセンス: Link先を確認
Nora Reinić, Daniel Jaschke, Darvin Wanisch, Pietro Silvi, Simone Montangero, (参考訳) アナログ量子シミュレータの最も顕著なプラットフォームの一つとして、Rydberg原子配列は量子相と遷移を探索するための有望なツールである。 1次元Rydberg系の基底状態特性は、既に徹底的に検討されているが、解析は有限温度シナリオに向けて拡張されている。 本研究では, 熱平衡における量子多体状態を構築するためのテンソルネットワークに基づく数値ツールボックスを開発し, 古典的相関や絡み合いモノトンを探索する。 有限系サイズの熱ゆらぎにより連続的に収縮する秩序相を観察した。 さらに, 半系分岐の絡み合いと絡み合いの負性性を調べることにより, 絡み合いの共形スケーリング則が0温度臨界点から低温状態へ広がることを数値的に確認する。

As one of the most prominent platforms for analog quantum simulators, Rydberg atom arrays are a promising tool for exploring quantum phases and transitions. While the ground state properties of one-dimensional Rydberg systems are already thoroughly examined, we extend the analysis towards the finite-temperature scenario. For this purpose, we develop a tensor network-based numerical toolbox for constructing the quantum many-body states at thermal equilibrium, which we exploit to probe classical correlations as well as entanglement monotones. We clearly observe ordered phases continuously shrinking due to thermal fluctuations at finite system sizes. Moreover, by examining the entanglement of formation and entanglement negativity of a half-system bipartition, we numerically confirm that a conformal scaling law of entanglement extends from the zero-temperature critical points into the low-temperature regime.
翻訳日:2024-09-11 02:21:54 公開日:2024-09-09
# EventZoom: 強化されたニューロモーフィックビジョンのためのイベントベースのデータ拡張への進歩的なアプローチ

EventZoom: A Progressive Approach to Event-Based Data Augmentation for Enhanced Neuromorphic Vision ( http://arxiv.org/abs/2405.18880v2 )

ライセンス: Link先を確認
Yiting Dong, Xiang He, Guobin Shen, Dongcheng Zhao, Yang Li, Yi Zeng, (参考訳) ダイナミックビジョンセンサ(DVS)は、高時間分解能と低消費電力でイベントデータをキャプチャし、従来のビデオキャプチャ法と比較して、動的およびリアルタイムのシナリオで視覚処理を行うためのより効率的なソリューションを提供する。 イベントデータ拡張は、イベントデータセットのスケールと多様性の制限を克服するための重要な方法である。 比較実験により, 空間的完全性と時間的連続性という2つの要因が, 事象データに特有の空間性および高ダイナミックレンジ特性を維持することを保証する事象データ拡張能力に著しく影響を及ぼすことが示された。 しかし、既存の拡張手法は空間的完全性や時間的連続性の維持を無視することが多い。 そこで我々は,イベントデータ拡張戦略であるEventZoomを開発した。これは時間的プログレッシブな戦略を採用し,プログレッシブなスケーリングとシフトを通じて,変換されたサンプルを元のサンプルに埋め込む。 スケーリングプロセスは、収穫に伴う空間情報損失を回避し、プログレッシブ戦略は、時間情報の中断や急激な変化を防止する。 さまざまな教師付き学習フレームワークでEventZoomを検証しました。 実験の結果、EventZoomはSOTAのパフォーマンスで既存のイベントデータ拡張メソッドより一貫して優れています。 イベント拡張アルゴリズムの実現可能性を検証するために,Semi-supervisedとUnsupervised Learningを同時に使用し,イベントベースのデータ拡張ツールとしてEventZoomの適用性と有効性を実証した。

Dynamic Vision Sensors (DVS) capture event data with high temporal resolution and low power consumption, presenting a more efficient solution for visual processing in dynamic and real-time scenarios compared to conventional video capture methods. Event data augmentation serve as an essential method for overcoming the limitation of scale and diversity in event datasets. Our comparative experiments demonstrate that the two factors, spatial integrity and temporal continuity, can significantly affect the capacity of event data augmentation, which are guarantee for maintaining the sparsity and high dynamic range characteristics unique to event data. However, existing augmentation methods often neglect the preservation of spatial integrity and temporal continuity. To address this, we developed a novel event data augmentation strategy EventZoom, which employs a temporal progressive strategy, embedding transformed samples into the original samples through progressive scaling and shifting. The scaling process avoids the spatial information loss associated with cropping, while the progressive strategy prevents interruptions or abrupt changes in temporal information. We validated EventZoom across various supervised learning frameworks. The experimental results show that EventZoom consistently outperforms existing event data augmentation methods with SOTA performance. For the first time, we have concurrently employed Semi-supervised and Unsupervised learning to verify feasibility on event augmentation algorithms, demonstrating the applicability and effectiveness of EventZoom as a powerful event-based data augmentation tool in handling real-world scenes with high dynamics and variability environments.
翻訳日:2024-09-11 02:21:54 公開日:2024-09-09
# Bi-Directional Transformers vs. Word2vec: Lifted Compiled Codeにおける脆弱性の発見

Bi-Directional Transformers vs. word2vec: Discovering Vulnerabilities in Lifted Compiled Code ( http://arxiv.org/abs/2405.20611v2 )

ライセンス: Link先を確認
Gary A. McCully, John D. Hastings, Shengjie Xu, Adam Fortier, (参考訳) コンパイルされたバイナリ内の脆弱性の検出は、高レベルのコード構造や、アーキテクチャ依存関係、コンパイラ、最適化オプションなどの他の要素が失われているため、難しい。 これらの障害に対処するために,Word2vec,BERT,RoBERTaを用いた自然言語処理(NLP)埋め込み技術を用いて,中間表現(LLVM IR)コードから意味学を学ぶ。 長い短期記憶(LSTM)ニューラルネットワークは、Julietデータセットから約48kのLLVM関数を使用して生成されたエンコーダからの埋め込みをトレーニングした。 この研究は、LLVMコードを用いて構築された複数双方向トランスフォーマー(BERT, RoBERTa)埋め込みを用いたWord2vecモデルの比較において、コンパイルされたバイナリの脆弱性を検出するためにニューラルネットワークをトレーニングした。 word2vec Skip-Gramモデルは、脆弱性の検出、CBOW、BERT、RoBERTaよりも優れた検証精度を92%達成した。 このことは、データサンプルの限られた数(例:48K)が双方向トランスフォーマーベースモデルのトレーニングに使用される場合、複雑なコンテキスト埋め込みは、このタスクに対してより単純な word2vec モデルよりも利点をもたらすものではないことを示唆している。 比較結果は、コンパイラに依存しないセマンティックコード表現を学習し、コンパイルされたバイナリの脆弱性を機械学習で検出する最適な埋め込みを選択するための新しい洞察を提供する。

Detecting vulnerabilities within compiled binaries is challenging due to lost high-level code structures and other factors such as architectural dependencies, compilers, and optimization options. To address these obstacles, this research explores vulnerability detection using natural language processing (NLP) embedding techniques with word2vec, BERT, and RoBERTa to learn semantics from intermediate representation (LLVM IR) code. Long short-term memory (LSTM) neural networks were trained on embeddings from encoders created using approximately 48k LLVM functions from the Juliet dataset. This study is pioneering in its comparison of word2vec models with multiple bidirectional transformer (BERT, RoBERTa) embeddings built using LLVM code to train neural networks to detect vulnerabilities in compiled binaries. word2vec Skip-Gram models achieved 92% validation accuracy in detecting vulnerabilities, outperforming word2vec Continuous Bag of Words (CBOW), BERT, and RoBERTa. This suggests that complex contextual embeddings may not provide advantages over simpler word2vec models for this task when a limited number (e.g. 48K) of data samples are used to train the bidirectional transformer-based models. The comparative results provide novel insights into selecting optimal embeddings for learning compiler-independent semantic code representations to advance machine learning detection of vulnerabilities in compiled binaries.
翻訳日:2024-09-11 02:21:54 公開日:2024-09-09
# 字幕なし, 問題なし: 字幕なし3D-CLIPアライメントとCLIP知識とLLMによるハードネガティクス

No Captions, No Problem: Captionless 3D-CLIP Alignment with Hard Negatives via CLIP Knowledge and LLMs ( http://arxiv.org/abs/2406.02202v2 )

ライセンス: Link先を確認
Cristian Sbrolli, Matteo Matteucci, (参考訳) 本研究では,3次元オブジェクトのテキスト記述がない場合に,コントラスト的テキストイメージ3次元アライメントを強化する方法を提案する。 I2I$と$(I2L)^2$という2つの教師なしの手法を導入し、CLIPのテキストと2Dデータに関する知識を活用して、2つの3Dサンプル間のニューラル認知類似性を計算する。 提案手法を用いて3次元のハードネガティブをマイニングし、カスタムロス関数によるハードネガティブ重み付けによるマルチモーダルコントラストパイプラインを構築した。 提案手法の異なる構成を学習し、3次元分類におけるモデルの精度、モーダル間探索ベンチマーク、画像から画像への形状と形状の検索について評価する。 提案手法は, 明示的なテキストアライメントがなくても, ゼロショットと標準3Dの分類において, 同等あるいは優れた性能を達成し, 画像から形状までの検索と形状・画像検索の両方を従来手法と比較して有意に改善することを示した。

In this study, we explore an alternative approach to enhance contrastive text-image-3D alignment in the absence of textual descriptions for 3D objects. We introduce two unsupervised methods, $I2I$ and $(I2L)^2$, which leverage CLIP knowledge about textual and 2D data to compute the neural perceived similarity between two 3D samples. We employ the proposed methods to mine 3D hard negatives, establishing a multimodal contrastive pipeline with hard negative weighting via a custom loss function. We train on different configurations of the proposed hard negative mining approach, and we evaluate the accuracy of our models in 3D classification and on the cross-modal retrieval benchmark, testing image-to-shape and shape-to-image retrieval. Results demonstrate that our approach, even without explicit text alignment, achieves comparable or superior performance on zero-shot and standard 3D classification, while significantly improving both image-to-shape and shape-to-image retrieval compared to previous methods.
翻訳日:2024-09-11 02:11:38 公開日:2024-09-09
# 拡散モデルにおけるフォースガイドサンプリングによる抗体設計の改善

Improving Antibody Design with Force-Guided Sampling in Diffusion Models ( http://arxiv.org/abs/2406.05832v2 )

ライセンス: Link先を確認
Paulina Kulytė, Francisco Vargas, Simon Valentin Mathis, Yu Guang Wang, José Miguel Hernández-Lobato, Pietro Liò, (参考訳) 免疫防御に不可欠な抗体は、ウイルスなどの抗原を結合・中和するために主に相補性決定領域(CDR)に依存する。 これらのCDRの設計は、抗体の標的に対する親和性と特異性を決定する。 生成モデル、特に拡散確率モデル(DDPM)は、CDR領域の構造に基づく設計を前進させる可能性を示している。 しかし、限定的な抗体-抗原構造のデータセットのみが利用可能であり、配布外インタフェースへの一般化は依然として課題である。 原子間相互作用を近似した物理ベースの力場は、ターゲットインターフェースの設計をより良く形成するために、粗いが普遍的な情報源を提供する。 この基礎情報を拡散モデルに統合することは、非常に望ましい。 本稿では、力場エネルギーに基づくフィードバックを統合することで拡散モデルのサンプリングプロセスを強化する新しい手法を提案する。 我々のモデルであるDiffForceは、拡散サンプリングプロセスの導出に力を使い、2つの分布を効果的にブレンドする。 より広範な実験により,本手法はCDRを低エネルギーでサンプリングし,生成した抗体の構造と配列を増強する。

Antibodies, crucial for immune defense, primarily rely on complementarity-determining regions (CDRs) to bind and neutralize antigens, such as viruses. The design of these CDRs determines the antibody's affinity and specificity towards its target. Generative models, particularly denoising diffusion probabilistic models (DDPMs), have shown potential to advance the structure-based design of CDR regions. However, only a limited dataset of bound antibody-antigen structures is available, and generalization to out-of-distribution interfaces remains a challenge. Physics based force-fields, which approximate atomic interactions, offer a coarse but universal source of information to better mold designs to target interfaces. Integrating this foundational information into diffusion models is, therefore, highly desirable. Here, we propose a novel approach to enhance the sampling process of diffusion models by integrating force field energy-based feedback. Our model, DiffForce, employs forces to guide the diffusion sampling process, effectively blending the two distributions. Through extensive experiments, we demonstrate that our method guides the model to sample CDRs with lower energy, enhancing both the structure and sequence of the generated antibodies.
翻訳日:2024-09-11 02:11:38 公開日:2024-09-09
# EpiLearn: エピデミックモデリングにおける機械学習のためのPythonライブラリ

EpiLearn: A Python Library for Machine Learning in Epidemic Modeling ( http://arxiv.org/abs/2406.06016v2 )

ライセンス: Link先を確認
Zewen Liu, Yunxiao Li, Mingyang Wei, Guancheng Wan, Max S. Y. Lau, Wei Jin, (参考訳) EpiLearnは、疫病データをモデリング、シミュレーション、分析するために開発されたPythonツールキットである。 流行モデルにも対処するパッケージがいくつか存在するが、機械モデルや伝統的な統計ツールに制限されることが多い。 機械学習が世界を形作るにつれ、これらのパッケージと最新のモデルの間のギャップが大きくなる。 EpiLearnは、このギャップを埋めて、疫病モデルにおける革新的な研究を刺激するために、機械学習に基づく疫病モデルの評価のサポートを提供するだけでなく、シミュレーション、可視化、変換などの疫病データを分析する包括的なツールも組み込んでいる。 疫学者とデータ科学者の双方の便宜のために、私たちは2つのタスクにおける疫学モデルのトレーニングと評価のための統合されたフレームワークを提供する:予測とソース検出。 新しいモデルの開発を容易にするために、EpiLearnはモジュラー設計に従っており、柔軟性と使いやすくしている。 また、実世界やシミュレートされた疫病データを可視化するインタラクティブなWebアプリケーションも開発されている。 私たちのパッケージはhttps://github.com/Emory-Melody/EpiLearn.comから入手可能です。

EpiLearn is a Python toolkit developed for modeling, simulating, and analyzing epidemic data. Although there exist several packages that also deal with epidemic modeling, they are often restricted to mechanistic models or traditional statistical tools. As machine learning continues to shape the world, the gap between these packages and the latest models has become larger. To bridge the gap and inspire innovative research in epidemic modeling, EpiLearn not only provides support for evaluating epidemic models based on machine learning, but also incorporates comprehensive tools for analyzing epidemic data, such as simulation, visualization, transformations, etc. For the convenience of both epidemiologists and data scientists, we provide a unified framework for training and evaluation of epidemic models on two tasks: Forecasting and Source Detection. To facilitate the development of new models, EpiLearn follows a modular design, making it flexible and easy to use. In addition, an interactive web application is also developed to visualize the real-world or simulated epidemic data. Our package is available at https://github.com/Emory-Melody/EpiLearn.
翻訳日:2024-09-11 02:11:38 公開日:2024-09-09
# 二重種原子配列の高速測定と多ビットゲート

Fast measurements and multiqubit gates in dual species atomic arrays ( http://arxiv.org/abs/2406.07356v2 )

ライセンス: Link先を確認
D. Petrosyan, S. Norrell, C. Poole, M. Saffman, (参考訳) ルビジウムおよびセシウム原子量子ビットの配列における高速シンドローム測定のためのアプローチを提案し,解析する。 このスキームは、種間の$\textsf{CNOT}_k$ gateを実装し、1つのセシウムアンシラ量子ビットを$k\geq 1$ rubidium qubitsで絡めて状態測定に使用する。 種間相互作用強度と種間相互作用強度の異なるRydberg状態を利用することで、この提案は統合時間の5ドル以下で$\mathcal{F}>0.9999$のシンドローム測定フィリティを提供する。

We propose and analyze an approach for fast syndrome measurements in an array of rubidium and cesium atomic qubits. The scheme works by implementing an inter-species $\textsf{CNOT}_k$ gate, entangling one cesium ancilla qubit with $k\geq 1$ rubidium qubits which are then used for state measurement. Utilizing Rydberg states with different inter- and intra-species interaction strengths, the proposal provides a syndrome measurement fidelity of $\mathcal{F}>0.9999$ in less than 5 $\mu$s of integration time.
翻訳日:2024-09-11 02:11:38 公開日:2024-09-09
# GLAD:教師なし異常検出のためのグローバルおよび局所適応拡散モデルによるより良い再構成を目指して

GLAD: Towards Better Reconstruction with Global and Local Adaptive Diffusion Models for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2406.07487v3 )

ライセンス: Link先を確認
Hang Yao, Ming Liu, Haolin Wang, Zhicun Yin, Zifei Yan, Xiaopeng Hong, Wangmeng Zuo, (参考訳) 拡散モデルは教師なし異常検出タスクにおいて優れた性能を示した。 拡散モデルは、通常のデータのみを用いて訓練されているため、特定のノイズを加えたテスト画像の通常の画像を再構成する傾向がある。 しかしながら、これらの手法は全ての潜在的な異常を等しく扱い、2つの主要な問題を引き起こす可能性がある。 世界的視点から見ると、異なる異常による画像再構成の難しさは不均一である。 そこで, 拡散モデルから抽出した画像内容と先行値との差を評価することにより, サンプル毎に, 同一設定を使わずに, サンプル毎に特定の認知ステップを予測することを提案する。 局所的な見地からすると、異常領域の再構成は、同じ画像であっても通常の領域と異なる。 理論的には、拡散モデルは各ステップのノイズを予測し、典型的には標準ガウス分布に従う。 しかし、異常と潜在的な正規分布の違いにより、異常領域の予測ノイズは標準ガウス分布から必然的に逸脱する。 そこで本研究では,標準ガウス分布の限界を突破するよう拡散モデルに促すために,学習中に合成異常サンプルを導入し,推論中に空間適応型特徴融合方式を用いることを提案する。 本稿では,非教師付き異常検出のためのグローバルかつ局所的な適応拡散モデル(GLAD)を提案する。 一般に使用されている3つの異常検出データセット (MVTec-AD, MPDD, VisA) と私たちが統合したプリント基板データセット (PCB-Bank) を用いて, 提案手法の有効性を示した。

Diffusion models have shown superior performance on unsupervised anomaly detection tasks. Since trained with normal data only, diffusion models tend to reconstruct normal counterparts of test images with certain noises added. However, these methods treat all potential anomalies equally, which may cause two main problems. From the global perspective, the difficulty of reconstructing images with different anomalies is uneven. Therefore, instead of utilizing the same setting for all samples, we propose to predict a particular denoising step for each sample by evaluating the difference between image contents and the priors extracted from diffusion models. From the local perspective, reconstructing abnormal regions differs from normal areas even in the same image. Theoretically, the diffusion model predicts a noise for each step, typically following a standard Gaussian distribution. However, due to the difference between the anomaly and its potential normal counterpart, the predicted noise in abnormal regions will inevitably deviate from the standard Gaussian distribution. To this end, we propose introducing synthetic abnormal samples in training to encourage the diffusion models to break through the limitation of standard Gaussian distribution, and a spatial-adaptive feature fusion scheme is utilized during inference. With the above modifications, we propose a global and local adaptive diffusion model (abbreviated to GLAD) for unsupervised anomaly detection, which introduces appealing flexibility and achieves anomaly-free reconstruction while retaining as much normal information as possible. Extensive experiments are conducted on three commonly used anomaly detection datasets (MVTec-AD, MPDD, and VisA) and a printed circuit board dataset (PCB-Bank) we integrated, showing the effectiveness of the proposed method.
翻訳日:2024-09-11 02:11:38 公開日:2024-09-09
# 利活用とユーティリティのバランス: 大規模言語モデルにおける認知バイアスの緩和

Balancing Rigor and Utility: Mitigating Cognitive Biases in Large Language Models for Multiple-Choice Questions ( http://arxiv.org/abs/2406.10999v3 )

ライセンス: Link先を確認
Liman Wang, Hanyang Zhong, Wenting Cao, Zeyuan Sun, (参考訳) 本稿では,大規模言語モデル(LLM)の意思決定過程における認知バイアスの役割を考察し,すべてのバイアスを取り除くという従来の目標に挑戦する。 適切なバランスをとると、合理的な偏差やヒューリスティックなショートカットによって意思決定効率を高めることができる。 ヒューリスティックなモデレーションと停止オプションを導入し、不確実な場合の応答を抑えることで、エラー率を減らし、意思決定精度を向上し、意思決定率を最適化する。 専門家のコラボレーションを通じて開発されたBa balance Rigor and Utility(BRU)データセットを用いて、認知バイアスの検査がLLM決定を人間の推論とより緊密に一致させ、信頼性を高め、今後の改善のための戦略を提案することを示す。 このアプローチは、認知バイアスを活用する新しい方法を提供し、様々なアプリケーションにおけるLCMの実用性を改善する。

This paper examines the role of cognitive biases in the decision-making processes of large language models (LLMs), challenging the conventional goal of eliminating all biases. We show that certain cognitive biases when properly balanced, can enhance decision-making efficiency through rational deviations and heuristic shortcuts. By introducing heuristic moderation and an abstention option, which allows LLMs to withhold responses when uncertain, we reduce error rates, improve decision accuracy, and optimize decision rates. Using the Balance Rigor and Utility (BRU) dataset, developed through expert collaboration, our findings demonstrate that targeted inspection of cognitive biases aligns LLM decisions more closely with human reasoning, enhancing reliability and suggesting strategies for future improvements. This approach offers a novel way to leverage cognitive biases to improve the practical utility of LLMs across various applications.
翻訳日:2024-09-11 02:01:46 公開日:2024-09-09
# 動的コスト制約付きサブセット選択のためのバイアスパレート最適化

Biased Pareto Optimization for Subset Selection with Dynamic Cost Constraints ( http://arxiv.org/abs/2406.12383v2 )

ライセンス: Link先を確認
Dan-Xuan Liu, Chao Qian, (参考訳) コスト制約付きサブセット選択は、与えられた予算を超えることなく単調な目的関数を最大化するための基底セットからサブセットを選択することを目的としており、影響の最大化や最大カバレッジなど様々な応用がある。 現実のシナリオでは、利用可能なリソースを表す予算は時間とともに変化する可能性があるため、アルゴリズムは新しい予算に迅速に適応する必要がある。 しかし、この動的な環境では、従来のアルゴリズムは理論的な保証を欠いているか、長い時間を要するかのいずれかである。 最先端のアルゴリズムであるPOMCは静的問題に対するPareto最適化手法であり、動的問題に対する考慮を欠いている。 本稿では,BPODCを提案し,偏りのある選択と動的環境に適したウォームアップ戦略でPOMCを向上する。 我々は予算変更に適応しながら既存の計算結果を活用するBPODCの能力に焦点を当てる。 BPODCは予算変更時に最もよく知られた$(\alpha_f/2)(1-e^{-\alpha_f})$-approximationを維持できることを示す。 影響の最大化と最大カバレッジの実験により、BPODCは静的グリードアルゴリズムよりも実行時間が短いため、予算変更に対してより効率的かつ迅速に適応できることが示された。

Subset selection with cost constraints aims to select a subset from a ground set to maximize a monotone objective function without exceeding a given budget, which has various applications such as influence maximization and maximum coverage. In real-world scenarios, the budget, representing available resources, may change over time, which requires that algorithms must adapt quickly to new budgets. However, in this dynamic environment, previous algorithms either lack theoretical guarantees or require a long running time. The state-of-the-art algorithm, POMC, is a Pareto optimization approach designed for static problems, lacking consideration for dynamic problems. In this paper, we propose BPODC, enhancing POMC with biased selection and warm-up strategies tailored for dynamic environments. We focus on the ability of BPODC to leverage existing computational results while adapting to budget changes. We prove that BPODC can maintain the best known $(\alpha_f/2)(1-e^{-\alpha_f})$-approximation guarantee when the budget changes. Experiments on influence maximization and maximum coverage show that BPODC adapts more effectively and rapidly to budget changes, with a running time that is less than that of the static greedy algorithm.
翻訳日:2024-09-11 02:01:46 公開日:2024-09-09
# 加速フレーム内のパンチャラトナム・ベリー相に及ぼす熱浴の影響

Influence of thermal bath on Pancharatnam-Berry phase in an accelerated frame ( http://arxiv.org/abs/2406.13416v2 )

ライセンス: Link先を確認
Debasish Ghosh, Bibhas Ranjan Majhi, (参考訳) 均一に加速された原子はパンチャラトナム・ベリー相を量子状態に捕捉し、位相因子は背景量子場の真空変動に依存する。 磁場の熱的性質が誘導相にさらに影響を与えることを観察する。 興味深いことに、誘導相はウンルーと実際の熱浴の間の交換対称性を捉えている。 この観測は、ウンルー熱浴が本物の熱浴を模倣しているという主張をさらに支持している。 さらに, システムパラメータの一定値と高温では, 温度0の条件に比べて位相が向上する。 しかし、相を実験的に観察するために必要な温度は非常に高く、この方法でのウンルー効果の検出は現在の技術では不可能である。

A uniformly accelerated atom captures Pancharatnam-Berry phase in its quantum state and the phase factor depends on the vacuum fluctuation of the background quantum fields. We observe that the thermal nature of the fields further affects the induced phase. Interestingly the induced phase captures the exchange symmetry between the Unruh and real thermal baths. This observation further supports the claim that the Unruh thermal bath mimics a real thermal bath. Moreover for certain values of system parameters and at high temperature, the phase is enhanced compared to zero temperature situation. However the required temperature to observe the phase experimentally is so high that the detection of Unruh effect through this is not possible within the current technology.
翻訳日:2024-09-11 02:01:46 公開日:2024-09-09
# SUM: 視覚アテンションモデリングのためのMambaによるSaliency Unification

SUM: Saliency Unification through Mamba for Visual Attention Modeling ( http://arxiv.org/abs/2406.17815v2 )

ライセンス: Link先を確認
Alireza Hosseini, Amirhossein Kazerouni, Saeed Akhavan, Michael Brudno, Babak Taati, (参考訳) 視覚刺激の解釈と優先順位付けに重要な視覚アテンションモデリングは、マーケティング、マルチメディア、ロボット工学などの応用において重要な役割を果たす。 従来のサリエンシ予測モデル、特に畳み込みニューラルネットワーク(CNN)やトランスフォーマーに基づくモデルは、大規模な注釈付きデータセットを活用することで顕著な成功を収めている。 しかし、トランスフォーマーを用いた現在の最先端(SOTA)モデルは計算コストが高い。 さらに、イメージタイプごとに別々のモデルが必要であることが多く、統一されたアプローチが欠如している。 本稿では,Mamba と U-Net の効率的な長距離依存性モデリングを統合し,多様な画像型に対する統一モデルを提供する新しいアプローチである,Mamba (SUM) によるSaliency Unificationを提案する。 新たなConditional Visual State Space (C-VSS)ブロックを使用することで、SUMは自然のシーン、Webページ、商用画像など、さまざまなイメージタイプに動的に対応し、さまざまなデータタイプにわたって普遍的な適用性を確保する。 5つのベンチマークの総合的な評価は、SUMが異なる視覚特性にシームレスに適応し、既存のモデルより一貫して優れていることを示している。 これらの結果から、SUMは視覚的アテンションモデリングを推進するための汎用的で強力なツールであり、様々な種類の視覚コンテンツに適用可能な堅牢なソリューションを提供する。

Visual attention modeling, important for interpreting and prioritizing visual stimuli, plays a significant role in applications such as marketing, multimedia, and robotics. Traditional saliency prediction models, especially those based on Convolutional Neural Networks (CNNs) or Transformers, achieve notable success by leveraging large-scale annotated datasets. However, the current state-of-the-art (SOTA) models that use Transformers are computationally expensive. Additionally, separate models are often required for each image type, lacking a unified approach. In this paper, we propose Saliency Unification through Mamba (SUM), a novel approach that integrates the efficient long-range dependency modeling of Mamba with U-Net to provide a unified model for diverse image types. Using a novel Conditional Visual State Space (C-VSS) block, SUM dynamically adapts to various image types, including natural scenes, web pages, and commercial imagery, ensuring universal applicability across different data types. Our comprehensive evaluations across five benchmarks demonstrate that SUM seamlessly adapts to different visual characteristics and consistently outperforms existing models. These results position SUM as a versatile and powerful tool for advancing visual attention modeling, offering a robust solution universally applicable across different types of visual content.
翻訳日:2024-09-11 02:01:46 公開日:2024-09-09
# FreeCG: 機械学習力場のためのClebsch-Gordan変換の設計空間を自由に

FreeCG: Free the Design Space of Clebsch-Gordan Transform for Machine Learning Force Fields ( http://arxiv.org/abs/2407.02263v4 )

ライセンス: Link先を確認
Shihao Shao, Haoran Geng, Zun Wang, Qinghua Cui, (参考訳) 機械学習力場(MLFF)は、化学、物理学、材料科学、その他多くの関連分野において非常に重要である。 Clebsch-Gordan変換(CG変換)は、多体相互作用を効果的に符号化し、MLFFの多くのモデルにとって重要なビルディングブロックである。 しかし、MLFFの置換等価性要件は、CG変換の設計空間を制限し、すなわち、各エッジに対して集中的なCG変換を行なわなければならず、全てのエッジに対しても同様に操作を行なわなければならない。 この制約は、計算要求を同時に増加させながらモデルの表現性を低下させる。 この課題を克服するために、我々はまず、実際のエッジ情報から生成された置換不変抽象エッジ上にCG変換層を実装した。 提案手法は, 決定対称性を損なうことなく, 層設計において完全な自由を実現できることを示す。 この自由な設計空間を基盤として,スパースパス,抽象エッジシャッフル,アテンションエンハンサを備えたグループCG変換を提案し,強力かつ効率的なCG変換層を形成する。 提案手法はFreeCGと呼ばれ, MD17, rMD17, MD22の強制予測を達成し, QM9データセットにおける特性予測にまで拡張され, 15%以上の改善と最大20%を超える最大値が得られた。 現実世界の幅広い応用は、高い実用性を示している。 FreeCGは、将来の幾何学的ニューラルネットワーク設計において、効率的かつ表現力のあるCG変換を実行するための新しいパラダイムを導入している。 これを示すために、最近のSOTAであるQuinNetも、我々のパラダイムの下で拡張されています。 コードは公開されます。

Machine Learning Force Fields (MLFFs) are of great importance for chemistry, physics, materials science, and many other related fields. The Clebsch-Gordan Transform (CG transform) effectively encodes many-body interactions and is thus an important building block for many models of MLFFs. However, the permutation-equivariance requirement of MLFFs limits the design space of CG transform, that is, intensive CG transform has to be conducted for each neighboring edge and the operations should be performed in the same manner for all edges. This constraint results in reduced expressiveness of the model while simultaneously increasing computational demands. To overcome this challenge, we first implement the CG transform layer on the permutation-invariant abstract edges generated from real edge information. We show that this approach allows complete freedom in the design of the layer without compromising the crucial symmetry. Developing on this free design space, we further propose group CG transform with sparse path, abstract edges shuffling, and attention enhancer to form a powerful and efficient CG transform layer. Our method, known as FreeCG, achieves state-of-the-art (SOTA) results in force prediction for MD17, rMD17, MD22, and is well extended to property prediction in QM9 datasets with several improvements greater than 15% and the maximum beyond 20%. The extensive real-world applications showcase high practicality. FreeCG introduces a novel paradigm for carrying out efficient and expressive CG transform in future geometric neural network designs. To demonstrate this, the recent SOTA, QuinNet, is also enhanced under our paradigm. Code will be publicly available.
翻訳日:2024-09-11 01:51:43 公開日:2024-09-09
# 多光子偏光グリーンベルガーホーンゼイリンジャー状態を用いた分散相のエクササイズ量子フィッシャー行列結果

Exact Quantum Fisher Matrix Results for Distributed Phases Using Multiphoton Polarization Greenberger Horne Zeilinger States ( http://arxiv.org/abs/2407.02605v2 )

ライセンス: Link先を確認
Jiaxuan Wang, Girish Agarwal, (参考訳) 近年,分散センシングの研究が盛んに行われている。 これは優れた発展であるが、光の絡み合った状態のような他の量子プローブの使用を調べることが望ましい。 本研究では,多光子偏光結合型グリーンベルガーHorne Zeilinger(GHZ)状態を用いて,異なる空間ノードにおける複数の未知位相を推定する分散センシングに着目し,量子気象学のツールを用いて量子フィッシャー情報行列(QFIM)を計算する。 しかし、QFIMは特異であることが判明し、興味のあるパラメータに対する量子クレーマー・ラオ境界の決定を妨げている。 最近の実験では、QFIMの反転を必要としないCram\'er-Rao境界の弱い形式と競合している。 これらのより弱い境界がどれほど関係があるか、また正確なクレーマー・ラオ境界にどの程度近づくかを理解することが望ましい。 したがって、この特異点の理由を解析し、冗長位相を除去することにより、非特異QFIMを得ることができ、正確な量子クレーマー・ラオ境界を導出することができる。 非特異QFIMを用いて、分散位相の算術平均がハイゼンベルク制限であることを示す。 量子距離境界は射影測定によって飽和し、フィッシャー情報行列 (FIM) を決定できることを示した。 すると、この特異性がどのように解決されるかを示す。

In recent times, distributed sensing has been extensively studied using squeezed states. While this is an excellent development, it is desirable to investigate the use of other quantum probes, such as entangled states of light. In this study, we focus on distributed sensing, i.e., estimating multiple unknown phases at different spatial nodes using multiphoton polarization-entangled Greenberger Horne Zeilinger (GHZ) states distributed across different nodes.We utilize tools of quantum metrology and calculate the quantum Fisher information matrix (QFIM). However, the QFIM turns out to be singular, hindering the determination of quantum Cramer-Rao bounds for the parameters of interest. Recent experiments have contended with a weaker form of the Cram\'er-Rao bound, which does not require the inversion of the QFIM. It is desirable to understand how relevant these weaker bounds are and how closely they approach the exact Cramer-Rao bounds. We thus analyze the reason for this singularity and, by removing a redundant phase, obtain a nonsingular QFIM, allowing us to derive exact quantum Cramer-Rao bounds. Using the nonsingular QFIM, we show that the arithmetic average of the distributed phases is Heisenberg-limited. We demonstrate that the quantum metrological bounds can be saturated by projective measurements, enabling us to determine the Fisher information matrix (FIM), which is also singular. We then show how this singularity can be resolved.
翻訳日:2024-09-11 01:51:43 公開日:2024-09-09
# 実例からの値ペナライズされた補助制御による説明のない効率的な模倣

Efficient Imitation Without Demonstrations via Value-Penalized Auxiliary Control from Examples ( http://arxiv.org/abs/2407.03311v2 )

ライセンス: Link先を確認
Trevor Ablett, Bryan Chan, Jayce Haoran Wang, Jonathan Kelly, (参考訳) 成功例から学ぶことは、強化学習への謝罪的なアプローチであるが、特に複雑なタスクや長期のタスクにおいて、挑戦的な探索問題を提示している。 本研究は、単純な補助タスクの例を追加することで、サンプルベースでの探索を著しく改善するアルゴリズムである例からの値ペン化補助制御(VPACE)を導入する。 例えば、操作タスクは、オブジェクトが到達したり、つかんだり、持ち上げられたりする際の補助的な例を持つかもしれない。 実例に基づく学習にスケジュールされた補助的制御を適用すれば、価値過大評価や性能低下につながることが示されている。 上記のレベルの値ペナルティで問題を解決します。 シミュレーションと実際のロボット環境の両面で、我々のアプローチは、有界値の推定を維持しながら、課題に対する学習効率を大幅に改善することを示します。 サンプルベース学習,逆強化学習,探索ボーナスに対する既存のアプローチとの比較を行った。 予備的な結果は、VPACEが完全な軌跡や真のスパース報酬を使用するという、より一般的なアプローチよりも効率的に学習できることを示唆している。 ビデオ、コード、データセット:https://papers.starslab.ca/vpace.com

Learning from examples of success is an ap pealing approach to reinforcement learning but it presents a challenging exploration problem, especially for complex or long-horizon tasks. This work introduces value-penalized auxiliary control from examples (VPACE), an algorithm that significantly improves exploration in example-based control by adding examples of simple auxiliary tasks. For instance, a manipulation task may have auxiliary examples of an object being reached for, grasped, or lifted. We show that the na\"{i}ve application of scheduled auxiliary control to example-based learning can lead to value overestimation and poor performance. We resolve the problem with an above-success-level value penalty. Across both simulated and real robotic environments, we show that our approach substantially improves learning efficiency for challenging tasks, while maintaining bounded value estimates. We compare with existing approaches to example-based learning, inverse reinforcement learning, and an exploration bonus. Preliminary results also suggest that VPACE may learn more efficiently than the more common approaches of using full trajectories or true sparse rewards. Videos, code, and datasets: https://papers.starslab.ca/vpace.
翻訳日:2024-09-11 01:51:43 公開日:2024-09-09
# AriGraph: LLMエージェントのエピソードメモリを用いた知識グラフワールドモデル学習

AriGraph: Learning Knowledge Graph World Models with Episodic Memory for LLM Agents ( http://arxiv.org/abs/2407.04363v2 )

ライセンス: Link先を確認
Petr Anokhin, Nikita Semenov, Artyom Sorokin, Dmitry Evseev, Mikhail Burtsev, Evgeny Burnaev, (参考訳) LLM(Large Language Models)の能力の進歩は、自律エージェントを開発するための有望な基盤を生み出した。 適切なツールを使って、これらのエージェントは知識を蓄積して更新することで、新しい環境におけるタスクを解くことができる。 現在のLCMベースのエージェントは、観測、要約、検索強化の完全な履歴を使用して過去の経験を処理する。 しかし、これらの非構造化メモリ表現は、複雑な意思決定に不可欠な推論や計画を促進するものではない。 本研究では,環境を探索しながらセマンティックメモリとエピソードメモリを統合したメモリグラフの構築と更新を行う新しい手法であるAriGraphを紹介する。 提案するメモリアーキテクチャを計画と意思決定で拡張したAriadne LLMエージェントが,対話型テキストゲーム環境における複雑なタスクを,人間プレイヤーでも効果的に処理できることを実証した。 以上の結果から,本手法は,複雑性の異なる様々な問題において,他の確立されたメモリ手法や強力なRLベースラインを著しく上回ることを示す。 さらに、AriGraphは、静的なマルチホップ質問応答において、専用の知識グラフベースのメソッドと比較して、競合性能を示す。

Advancements in the capabilities of Large Language Models (LLMs) have created a promising foundation for developing autonomous agents. With the right tools, these agents could learn to solve tasks in new environments by accumulating and updating their knowledge. Current LLM-based agents process past experiences using a full history of observations, summarization, retrieval augmentation. However, these unstructured memory representations do not facilitate the reasoning and planning essential for complex decision-making. In our study, we introduce AriGraph, a novel method wherein the agent constructs and updates a memory graph that integrates semantic and episodic memories while exploring the environment. We demonstrate that our Ariadne LLM agent, consisting of the proposed memory architecture augmented with planning and decision-making, effectively handles complex tasks within interactive text game environments difficult even for human players. Results show that our approach markedly outperforms other established memory methods and strong RL baselines in a range of problems of varying complexity. Additionally, AriGraph demonstrates competitive performance compared to dedicated knowledge graph-based methods in static multi-hop question-answering.
翻訳日:2024-09-11 01:51:43 公開日:2024-09-09
# CLAMP-ViT:ViTの適応後量子化のための対照的なデータ自由学習

CLAMP-ViT: Contrastive Data-Free Learning for Adaptive Post-Training Quantization of ViTs ( http://arxiv.org/abs/2407.05266v2 )

ライセンス: Link先を確認
Akshat Ramachandran, Souvik Kundu, Tushar Krishna, (参考訳) 視覚変換器(ViT)のためのデータフリー後学習量子化法であるCLAMP-ViTを提案する。 我々は、最近の手法の限界、特に意味のあるパッチ間の関係を活用できないこと、そして単純で意味的に曖昧なデータを生成すること、量子化の精度に影響を及ぼす。 CLAMP-ViTは2段階のアプローチを採用し、データ生成とモデル量子化の間に循環的に適応する。 具体的には、よりリッチで意味のあるデータを生成するために、パッチレベルのコントラスト学習スキームを組み込む。 さらに,固定および混合精度の量子化のための階層的進化的探索におけるコントラスト学習を活用し,非滑らかなロスランドスケープの効果を緩和しながら最適な量子化パラメータを同定する。 様々な視覚タスクにわたる広範囲な評価は、CLAMP-ViTの優位性を示し、性能改善により、分類におけるトップ1の精度が最大3%向上し、オブジェクト検出のための0.6mAP、既存の代替よりも類似またはより良い圧縮比でのセグメンテーションのための1.5mIoUが得られた。 コードはhttps://github.com/georgia-tech-synergy-lab/CLAMP-ViT.gitで公開されている。

We present CLAMP-ViT, a data-free post-training quantization method for vision transformers (ViTs). We identify the limitations of recent techniques, notably their inability to leverage meaningful inter-patch relationships, leading to the generation of simplistic and semantically vague data, impacting quantization accuracy. CLAMP-ViT employs a two-stage approach, cyclically adapting between data generation and model quantization. Specifically, we incorporate a patch-level contrastive learning scheme to generate richer, semantically meaningful data. Furthermore, we leverage contrastive learning in layer-wise evolutionary search for fixed- and mixed-precision quantization to identify optimal quantization parameters while mitigating the effects of a non-smooth loss landscape. Extensive evaluations across various vision tasks demonstrate the superiority of CLAMP-ViT, with performance improvements of up to 3% in top-1 accuracy for classification, 0.6 mAP for object detection, and 1.5 mIoU for segmentation at similar or better compression ratio over existing alternatives. Code is available at https://github.com/georgia-tech-synergy-lab/CLAMP-ViT.git
翻訳日:2024-09-11 01:51:43 公開日:2024-09-09
# パンデノジング:重み付き表現による高スペクトル画像デノジング

Pan-denoising: Guided Hyperspectral Image Denoising via Weighted Represent Coefficient Total Variation ( http://arxiv.org/abs/2407.06064v2 )

ライセンス: Link先を確認
Shuang Xu, Qiao Ke, Jiangjun Peng, Xiangyong Cao, Zixiang Zhao, (参考訳) 本稿では,高スペクトル像(HSI)デノナイズのための新しいパラダイムを紹介し,これを「textit{pan-denoising}」と呼ぶ。 あるシーンでは、パンクロマティック(PAN)画像がHSIに似た構造やテクスチャを撮影するが、ノイズが少ない。 これにより、PAN画像の利用により、HSI denoisingプロセスのガイドが可能になる。 その結果、パンデノゲーションは、従来のHSIデノゲーション手法の内部情報モデリング以上の基盤構造や詳細を明らかにする可能性がある。 しかし、この追加の事前の適切なモデリングは重要な課題である。 この問題を軽減するために,本論文では,PWRCTV(Panchromatic Weighted Representation Coefficient Total Variation)という新しい正規化用語を提案する。 PAN画像の勾配図を用いて、各ピクセルごとに異なるテレビ正規化の重みを自動的に割り当て、滑らかな領域の重みがより大きく、エッジの重みがより小さい。 この正規化は、乗算器の交互方向法を用いて解くパンデノイングモデルの基礎となる。 合成および実世界のデータセットに関する大規模な実験は、PWRCTVがメトリクスと視覚的品質の点でいくつかの最先端の手法より優れていることを示した。 さらに,HSI分類実験により,PWRCTVは前処理として下流分類タスクの性能を向上させることができることを確認した。 コードとデータはhttps://github.com/shuangxu96/PWRCTVで公開されている。

This paper introduces a novel paradigm for hyperspectral image (HSI) denoising, which is termed \textit{pan-denoising}. In a given scene, panchromatic (PAN) images capture similar structures and textures to HSIs but with less noise. This enables the utilization of PAN images to guide the HSI denoising process. Consequently, pan-denoising, which incorporates an additional prior, has the potential to uncover underlying structures and details beyond the internal information modeling of traditional HSI denoising methods. However, the proper modeling of this additional prior poses a significant challenge. To alleviate this issue, the paper proposes a novel regularization term, Panchromatic Weighted Representation Coefficient Total Variation (PWRCTV). It employs the gradient maps of PAN images to automatically assign different weights of TV regularization for each pixel, resulting in larger weights for smooth areas and smaller weights for edges. This regularization forms the basis of a pan-denoising model, which is solved using the Alternating Direction Method of Multipliers. Extensive experiments on synthetic and real-world datasets demonstrate that PWRCTV outperforms several state-of-the-art methods in terms of metrics and visual quality. Furthermore, an HSI classification experiment confirms that PWRCTV, as a preprocessing method, can enhance the performance of downstream classification tasks. The code and data are available at https://github.com/shuangxu96/PWRCTV.
翻訳日:2024-09-11 01:51:43 公開日:2024-09-09
# 6Gにおける通信と制御の協調設計--LCMを用いた逐次決定-

Communication and Control Co-Design in 6G: Sequential Decision-Making with LLMs ( http://arxiv.org/abs/2407.06227v2 )

ライセンス: Link先を確認
Xianfu Chen, Celimuge Wu, Yi Shen, Yusheng Ji, Tsutomu Yoshinaga, Qiang Ni, Charilaos C. Zarakovitis, Honggang Zhang, (参考訳) 本稿では,6世代無線ネットワークにおける制御システムについて考察する。 制御性能の最適化は、コミュニケーションと制御サブシステムの間の複雑な相互作用から生じる技術的課題に直面し、共同設計を求める。 システムダイナミクスを考慮し、マルコフ決定プロセスとしてコミュニケーションと離散時間地平線制御の逐次的共同設計決定を定式化し、実用的なオフライン学習フレームワークを提案する。 提案するフレームワークは,大規模言語モデルを強化学習の要素に統合する。 本稿では,セマンティックス・アウェア・コミュニケーションとコントロール・コデザインの年代を事例として,提案する学習フレームワークの可能性を実証する。 さらに,提案するオフライン学習フレームワークを実世界の実装で実現可能にするためのオープンな課題について論じ,今後の研究の方向性を明らかにする。

This article investigates a control system within the context of six-generation wireless networks. The control performance optimization confronts the technical challenges that arise from the intricate interactions between communication and control sub-systems, asking for a co-design. Accounting for the system dynamics, we formulate the sequential co-design decision-makings of communication and control over the discrete time horizon as a Markov decision process, for which a practical offline learning framework is proposed. Our proposed framework integrates large language models into the elements of reinforcement learning. We present a case study on the age of semantics-aware communication and control co-design to showcase the potentials from our proposed learning framework. Furthermore, we discuss the open issues remaining to make our proposed offline learning framework feasible for real-world implementations, and highlight the research directions for future explorations.
翻訳日:2024-09-11 01:51:43 公開日:2024-09-09
# 相互作用する準周期鎖における固有状態状態間の相互独立性検出のための教師なし機械学習

Unsupervised machine learning for detecting mutual independence among eigenstate regimes in interacting quasiperiodic chains ( http://arxiv.org/abs/2407.06253v2 )

ライセンス: Link先を確認
Colin Beveridge, Kathleen Hart, Cassio Rodrigo Cristani, Xiao Li, Enrico Barbierato, Yi-Ting Hsu, (参考訳) 熱的でも多体局在的でもない多体固有状態(MBL)は、適度な準周期ポテンシャルを持つ相互作用鎖で数値的に発見された。 これらの非エルゴードの固有状態(NEE)からなるエネルギー状態は、エネルギー分解されたMBLと熱相の間の多体移動エッジとして広く研究されている。 近年、NEE体制はさらに、異なる演算子が異なる時間スケールで拡散した場合に一般的に起こる前温現象であると提案されている。 ここでは, 固有状態エンタングルメントスペクトル(ES)のレンズにおけるNEE, MBL, および熱状態間の相互独立性を数値的に検討する。 ESに埋め込まれた複雑さと豊富な情報を考慮し,一般相間の相互独立性を定量化するための教師なし学習手法を開発した。 提案手法はまず,RGB色データを用いて位相を表現し,弱いポテンシャル強度から強いポテンシャル強度の一般オーブリーアンドレモデルのESに適用する。 MBLとサーマルレジームは相互に独立しているが,NEEレジームは従来の2つに依存しており,ポテンシャル強度が低下するにつれて円滑に現れる。 我々の数値的な発見は、NEE体制におけるESデータが、MBLのような高速崩壊と熱のような長い尾の両方を示すという事実に起因している。

Many-body eigenstates that are neither thermal nor many-body-localized (MBL) were numerically found in certain interacting chains with moderate quasiperiodic potentials. The energy regime consisting of these non-ergodic but extended (NEE) eigenstates has been extensively studied for being a possible many-body mobility edge between the energy-resolved MBL and thermal phases. Recently, the NEE regime was further proposed to be a prethermal phenomenon that generally occurs when different operators spread at sizably different timescales. Here, we numerically examine the mutual independence among the NEE, MBL, and thermal regimes in the lens of eigenstate entanglement spectra (ES). Given the complexity and rich information embedded in ES, we develop an unsupervised learning approach that is designed to quantify the mutual independence among general phases. Our method is first demonstrated on an illustrative toy example that uses RGB color data to represent phases, then applied to the ES of an interacting generalized Aubry Andre model from weak to strong potential strength. We find that while the MBL and thermal regimes are mutually independent, the NEE regime is dependent on the former two and smoothly appears as the potential strength decreases. We attribute our numerically finding to the fact that the ES data in the NEE regime exhibits both an MBL-like fast decay and a thermal-like long tail.
翻訳日:2024-09-11 01:51:43 公開日:2024-09-09
# 準安定イオン量子ビットを用いた量子シミュレーションにおける光散乱誤差の厳密解モデル

Exactly-solved model of light-scattering errors in quantum simulations with metastable trapped-ion qubits ( http://arxiv.org/abs/2407.09349v2 )

ライセンス: Link先を確認
Phillip C. Lotshaw, Brian C. Sawyer, Creston D. Herold, Gilles Buchs, (参考訳) 準安定原子量子ビットのイジングダイナミクスにおける光散乱モデルの解析を行い、Foss-Feig {\it et al }~[Phys]のアプローチを一般化した。 ~Rev。 ~A {\bf 87}, 042101 (2013)] は、キュービット多様体の外側の漏れを含む。 メタスタブルレベルが$^{40}$Ca$^+$イオンである実験のシミュレーションにおいて,これらの基本的な誤差の影響を解析する。 漏れ量子ビットによって生じる「有効磁場」は、グリーンベルガー・ホルン・ザイリンガー状態の準備や強いカップリングを持つ量子シミュレーションのためにスピン-スピン相関関数に大きな影響を及ぼすが、スピンスクイージングはより弱いカップリングを使い、数百個のイオンでもシミュレートされた漏れ誤差にほとんど無感である。 我々の理論と結果は将来,様々な準安定量子ビット実験のモデル化に有用であることが期待されている。

We analytically solve a model for light scattering in Ising dynamics of metastable atomic qubits, generalizing the approach of Foss-Feig {\it et al.}~[Phys.~Rev.~A {\bf 87}, 042101 (2013)] to include leakage outside the qubit manifold. We analyze the influence of these fundamental errors in simulations of proposed experiments with metastable levels of $^{40}$Ca$^+$ ions. We find that ``effective magnetic fields" generated by leaked qubits have significant impacts on spin-spin correlation functions for Greenberger-Horne-Zeilinger state preparation or for quantum simulations with strong coupling, while spin squeezing uses a much weaker coupling and is largely insensitive to the simulated leakage errors, even with a few hundred ions. Our theory and results are expected to be useful in modeling a variety of metastable qubit experiments in the future.
翻訳日:2024-09-11 01:41:10 公開日:2024-09-09
# Animate3D:マルチビュービデオ拡散によるどんな3Dモデルでもアニメーション化

Animate3D: Animating Any 3D Model with Multi-view Video Diffusion ( http://arxiv.org/abs/2407.11398v2 )

ライセンス: Link先を確認
Yanqin Jiang, Chaohui Yu, Chenjie Cao, Fan Wang, Weiming Hu, Jin Gao, (参考訳) 近年の4D生成技術は、事前訓練されたテキストや単一ビューの画像条件付きモデルを蒸留することによって、主に4Dコンテンツを生成することに重点を置いている。 多視点特性を持つオフ・ザ・シェルフの3Dアセットを利用するのは不便であり、それらの結果は、監視信号の固有のあいまいさによる時空間的不整合に悩まされる。 本稿では,静的な3Dモデルをアニメーションする新しいフレームワークであるAnimate3Dを紹介する。 中心となる考え方は2つあります。 1) 静的な3Dオブジェクトの多視点レンダリングを前提とした新しい多視点ビデオ拡散モデル(MV-VDM)を提案し, 提案した大規模多視点ビデオデータセット(MV-Video)をトレーニングした。 2) MV-VDMをベースとした4次元スコア蒸留サンプリング(4D-SDS)と4次元スコア蒸留サンプリング(4D-SDS)を組み合わせたフレームワークを導入し,3次元オブジェクトのアニメーション化に多視点ビデオ拡散の先駆けを生かした。 具体的には,MV-VDMに対して,空間的・時間的整合性を高めるために3次元およびビデオ拡散モデルを統合することで,新しい時空間アテンションモジュールを設計する。 さらに,静的な3次元モデルのマルチビューレンダリングを条件として利用し,そのアイデンティティを保持する。 まず,生成したマルチビュービデオから直接動きを再構成し,次に4D-SDSを導入して外観と動きを改良する。 正確なモーション学習の恩恵を受ければ、簡単なメッシュアニメーションが実現できます。 定性的かつ定量的な実験は、Animate3Dが以前のアプローチよりも大幅に優れていることを示した。 データ、コード、モデルは公開されます。

Recent advances in 4D generation mainly focus on generating 4D content by distilling pre-trained text or single-view image-conditioned models. It is inconvenient for them to take advantage of various off-the-shelf 3D assets with multi-view attributes, and their results suffer from spatiotemporal inconsistency owing to the inherent ambiguity in the supervision signals. In this work, we present Animate3D, a novel framework for animating any static 3D model. The core idea is two-fold: 1) We propose a novel multi-view video diffusion model (MV-VDM) conditioned on multi-view renderings of the static 3D object, which is trained on our presented large-scale multi-view video dataset (MV-Video). 2) Based on MV-VDM, we introduce a framework combining reconstruction and 4D Score Distillation Sampling (4D-SDS) to leverage the multi-view video diffusion priors for animating 3D objects. Specifically, for MV-VDM, we design a new spatiotemporal attention module to enhance spatial and temporal consistency by integrating 3D and video diffusion models. Additionally, we leverage the static 3D model's multi-view renderings as conditions to preserve its identity. For animating 3D models, an effective two-stage pipeline is proposed: we first reconstruct motions directly from generated multi-view videos, followed by the introduced 4D-SDS to refine both appearance and motion. Benefiting from accurate motion learning, we could achieve straightforward mesh animation. Qualitative and quantitative experiments demonstrate that Animate3D significantly outperforms previous approaches. Data, code, and models will be open-released.
翻訳日:2024-09-11 01:41:10 公開日:2024-09-09
# 拡散変換器の16億パラメータへのスケーリング

Scaling Diffusion Transformers to 16 Billion Parameters ( http://arxiv.org/abs/2407.11633v3 )

ライセンス: Link先を確認
Zhengcong Fei, Mingyuan Fan, Changqian Yu, Debang Li, Junshi Huang, (参考訳) 本稿では,拡散変換器のスパースバージョンであるDiT-MoEについて述べる。 DiT-MoEには、共有専門家ルーティングと専門家レベルのバランス損失という2つのシンプルな設計が含まれている。 条件付き画像生成に適用した場合、専門家の専門化を深く分析すると、興味深い結果が得られます。 一 専門家の選択は、異なるクラス条件情報に敏感でありながら、空間的位置及び騒音の段階による嗜好を示す。 (二)MoE層が深くなるにつれて、専門家の選抜は徐々に、特定の空間的位置から分散とバランスへと変化していく。 三 専門家の専門化は、早い段階でより集中し、半後徐々に一様になる傾向にある。 本稿では、まず低周波空間情報をモデル化し、次に高周波複素情報をモデル化する拡散過程に起因する。 上記のガイダンスに基づき、一連のDiT-MoEは、高密度ネットワークと同等の性能を実験的に達成するが、推論時に計算負荷をはるかに少なくする。 さらに、合成画像データを用いてDiT-MoEの可能性を示し、新しいSoTA FID-50Kスコアが512$\times$512の解像度設定で1.80となる16.5Bパラメータで拡散モデルをスケーリングする。 プロジェクトページ:https://github.com/feizc/DiT-MoE。

In this paper, we present DiT-MoE, a sparse version of the diffusion Transformer, that is scalable and competitive with dense networks while exhibiting highly optimized inference. The DiT-MoE includes two simple designs: shared expert routing and expert-level balance loss, thereby capturing common knowledge and reducing redundancy among the different routed experts. When applied to conditional image generation, a deep analysis of experts specialization gains some interesting observations: (i) Expert selection shows preference with spatial position and denoising time step, while insensitive with different class-conditional information; (ii) As the MoE layers go deeper, the selection of experts gradually shifts from specific spacial position to dispersion and balance. (iii) Expert specialization tends to be more concentrated at the early time step and then gradually uniform after half. We attribute it to the diffusion process that first models the low-frequency spatial information and then high-frequency complex information. Based on the above guidance, a series of DiT-MoE experimentally achieves performance on par with dense networks yet requires much less computational load during inference. More encouragingly, we demonstrate the potential of DiT-MoE with synthesized image data, scaling diffusion model at a 16.5B parameter that attains a new SoTA FID-50K score of 1.80 in 512$\times$512 resolution settings. The project page: https://github.com/feizc/DiT-MoE.
翻訳日:2024-09-11 01:41:10 公開日:2024-09-09
# R-SFLLM:大規模言語モデルによるフェデレーション学習を分割するレジリエントフレームワーク

R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models ( http://arxiv.org/abs/2407.11654v2 )

ライセンス: Link先を確認
Aladin Djuhera, Vlad C. Andrei, Xinyang Li, Ullrich J. Mönich, Holger Boche, Walid Saad, (参考訳) Split Federated Learning(SFL)は、大規模なMLモデルのコンポーネントをリモートサーバにアウトソースする分散機械学習(ML)における計算効率のパラダイムである。 SFLにおける重要な課題は、特に無線チャネル上に展開する場合、学習過程を危険にさらす可能性のある敵ジャミングに対する送信モデルパラメータの感受性である。 これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。 本稿では,ML学習損失分散表現を導出し,平均二乗誤差(MSE)により上界にあることを示すことにより,SFLにおけるLLM単語の埋め込みの影響について厳密な洞察を与える。 この分析に基づき、無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。 R-SFLLMは、無線センシングデータを利用して、ビームフォーミング、ユーザスケジューリング、リソース割り当てを共同最適化しながら、新しい、センシング支援型アンチジャミング戦略を考案する目的で、ジャミング方向情報(DoAs)を収集する。 BERTとRoBERTaモデルを用いた大規模な実験は、R-SFLLMの有効性を示し、様々な自然言語処理(NLP)タスクとデータセット間で、ベースラインに近いパフォーマンスを実現する。 提案手法では、制御ノイズ露光により、トレーニング中の摂動パラメータに対するLLMのレジリエンスが著しく向上する逆方向のトレーニングコンポーネントも導入する。 その結果、RoBERTaのようなよりノイズに敏感なモデルは、特にリソース割り当てが不公平な場合、この機能の恩恵を受けることがわかった。 また、特に最悪のケース・ジャミングは、最悪のケース・モデルの結果に変換されることが示され、したがって、ジャミング・レジリエントなSFLプロトコルの必要性が要求される。

Split federated learning (SFL) is a compute-efficient paradigm in distributed machine learning (ML), where components of large ML models are outsourced to remote servers. A significant challenge in SFL, particularly when deployed over wireless channels, is the susceptibility of transmitted model parameters to adversarial jamming that could jeopardize the learning process. This is particularly pronounced for word embedding parameters in large language models (LLMs), which are crucial for language understanding. In this paper, rigorous insights are provided into the influence of jamming LLM word embeddings in SFL by deriving an expression for the ML training loss divergence and showing that it is upper-bounded by the mean squared error (MSE). Based on this analysis, a physical layer framework is developed for resilient SFL with LLMs (R-SFLLM) over wireless networks. R-SFLLM leverages wireless sensing data to gather information on the jamming directions-of-arrival (DoAs) for the purpose of devising a novel, sensing-assisted anti-jamming strategy while jointly optimizing beamforming, user scheduling, and resource allocation. Extensive experiments using BERT and RoBERTa models demonstrate R-SFLLM's effectiveness, achieving close-to-baseline performance across various natural language processing (NLP) tasks and datasets. The proposed methodology further introduces an adversarial training component, where controlled noise exposure significantly enhances the LLM's resilience to perturbed parameters during training. The results show that more noise-sensitive models, such as RoBERTa, benefit from this feature, especially when resource allocation is unfair. It is also shown that worst-case jamming in particular translates into worst-case model outcomes, thereby necessitating the need for jamming-resilient SFL protocols.
翻訳日:2024-09-11 01:41:10 公開日:2024-09-09
# ニューラルネットワークにおける不変因果知識蒸留

Invariant Causal Knowledge Distillation in Neural Networks ( http://arxiv.org/abs/2407.11802v2 )

ライセンス: Link先を確認
Nikolaos Giakoumoglou, Tania Stathaki, (参考訳) 知識蒸留(KD)は、あるニューラルネットワークから別のニューラルネットワークへ、多くの場合、より大きく訓練されたモデル(教師)からより小さく、より効率的なモデル(学生)へ、知識を伝達する。 従来のKD手法は、教師と学生のネットワークの確率的出力間のKL(Kullback-Leibler)のばらつきを最小限に抑える。 しかし、このアプローチはしばしば教師のネットワークに埋め込まれた重要な構造的知識を見落としている。 本稿では,教師の出力に関して,学生モデルの表現が差別的かつ不変であることを保証することによって,KDを強化するための新しい手法である,不変性蒸留(ICD)を紹介する。 我々のアプローチは因果推論の原則に基づいており、対照的な学習と明示的な不変性のペナルティを組み合わせ、教師の表現からはるかに多くの情報を取得する。 ICDは、フレキシブルな教師と学生のアライメントのために、効率的でパラメータフリーなアプローチを使用している。 我々は、ICDの理論的基礎を提供し、広範囲な実験を通してその効果を実証する。 CIFAR-100 と ImageNet ILSVRC-2012 の結果,ICD は従来の KD 技術より優れ,最先端の手法よりも優れていた。 学生モデルは、正確性の観点からも教師モデルを超えている場合もある。 さらに,Tiny ImageNetやSTL-10などの他のデータセットに適用し,優れたクロスデータセットの一般化を示す。 コードはhttps://github.com/giakoumoglou/distillers.comで入手できる。

Knowledge distillation (KD) involves transferring the knowledge from one neural network to another, often from a larger, well-trained model (teacher) to a smaller, more efficient model (student). Traditional KD methods minimize the Kullback-Leibler (KL) divergence between the probabilistic outputs of the teacher and student networks. However, this approach often overlooks crucial structural knowledge embedded within the teacher's network. In this paper, we introduce Invariant Consistency Distillation (ICD), a novel methodology designed to enhance KD by ensuring that the student model's representations are both discriminative and invariant with respect to the teacher's outputs. Our approach is based on causal inference principles and combines contrastive learning with an explicit invariance penalty, capturing significantly more information from the teacher's representation. ICD uses an efficient, parameter-free approach for flexible teacher-student alignment. We provide a theoretical foundation for ICD and demonstrate its effectiveness through extensive experiments. Our results on CIFAR-100 and ImageNet ILSVRC-2012 show that ICD outperforms traditional KD techniques and surpasses state-of-the-art methods. In some cases, the student model even exceeds the teacher model in terms of accuracy. Furthermore, we successfully apply our method to other datasets, such as Tiny ImageNet and STL-10, demonstrating superior cross-dataset generalization. Code is available at https://github.com/giakoumoglou/distillers.
翻訳日:2024-09-11 01:41:10 公開日:2024-09-09
# Stepping Stones: Audio-Visual Semantic Segmentationのためのプログレッシブトレーニング戦略

Stepping Stones: A Progressive Training Strategy for Audio-Visual Semantic Segmentation ( http://arxiv.org/abs/2407.11820v2 )

ライセンス: Link先を確認
Juncheng Ma, Peiwen Sun, Yaoting Wang, Di Hu, (参考訳) オーディオ・ビジュアル・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セメンテーション(AVSS)は、映像中の音源のピクセルレベルのローカライゼーションを実現することを目的としており、AVSの拡張として、音声・視覚シーンのセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティクス(AVSS)は、さらに音声・視覚シーンのセマンティック・理解を追求している。 しかし、AVSSタスクは音声と視覚の対応と意味理解を同時に行う必要があるため、従来の手法では、エンドツーエンドのトレーニングにおいて、このマッシュアップを扱うのに苦労しており、学習とサブ最適化が不十分であったことが観察された。 そこで本研究では,AVSSタスクを局所化から意味理解までの2つの単純なサブタスクに分解し,各ステージで完全に最適化し,ステップバイステップのグローバル最適化を実現するための2段階のトレーニング戦略である「textit{Stepping Stones}」を提案する。 このトレーニング戦略は既存の手法の一般化と有効性も証明している。 AVSタスクの性能をさらに向上するために,適応型音声クエリジェネレータを組み込み,マスキングされた注意をトランスフォーマーデコーダに統合し,視覚的特徴と音声的特徴の適応的融合を容易にする,新しいフレームワークであるAdaptive Audio Visual Segmentationを提案する。 3つのAVSベンチマークのすべてにおいて,本手法が最先端の成果を達成できることを実証した。 プロジェクトのホームページはhttps://gewu-lab.github.io/stepping_stones/.comからアクセスできる。

Audio-Visual Segmentation (AVS) aims to achieve pixel-level localization of sound sources in videos, while Audio-Visual Semantic Segmentation (AVSS), as an extension of AVS, further pursues semantic understanding of audio-visual scenes. However, since the AVSS task requires the establishment of audio-visual correspondence and semantic understanding simultaneously, we observe that previous methods have struggled to handle this mashup of objectives in end-to-end training, resulting in insufficient learning and sub-optimization. Therefore, we propose a two-stage training strategy called \textit{Stepping Stones}, which decomposes the AVSS task into two simple subtasks from localization to semantic understanding, which are fully optimized in each stage to achieve step-by-step global optimization. This training strategy has also proved its generalization and effectiveness on existing methods. To further improve the performance of AVS tasks, we propose a novel framework Adaptive Audio Visual Segmentation, in which we incorporate an adaptive audio query generator and integrate masked attention into the transformer decoder, facilitating the adaptive fusion of visual and audio features. Extensive experiments demonstrate that our methods achieve state-of-the-art results on all three AVS benchmarks. The project homepage can be accessed at https://gewu-lab.github.io/stepping_stones/.
翻訳日:2024-09-11 01:41:10 公開日:2024-09-09
# リレーショナル表現蒸留

Relational Representation Distillation ( http://arxiv.org/abs/2407.12073v3 )

ライセンス: Link先を確認
Nikolaos Giakoumoglou, Tania Stathaki, (参考訳) 知識蒸留(KD)は、大きく訓練された教師モデルからより小さく、より効率的な学生モデルに知識を移す効果的な方法である。 その成功にもかかわらず、KDの主な課題の1つは、学生の計算効率を維持しながら、複雑な知識の効率的な伝達を保証することである。 明示的負のインスタンスを促進することを目的とした従来の研究とは異なり、関係性表現蒸留(RRD)を導入している。 本手法は,教師モデルと学生モデルの関係を探索し,強化するために,ペアワイズな類似性を利用する。 自己監督学習の原則に触発されて、正確な複製よりも類似性に焦点を当てた、リラックスした対照的な損失を使用する。 本手法は,教師サンプルの出力分布を大容量メモリバッファに整列させ,厳密な負のインスタンス差分を伴わずに生徒モデルの堅牢性と性能を向上させる。 CIFAR-100 と ImageNet ILSVRC-2012 では,従来の KD よりも優れた性能を示し,KD と組み合わせることで教師ネットワークよりも優れた性能を示す。 Tiny ImageNetやSTL-10といった他のデータセットへの転送も成功している。 コードはhttps://github.com/giakoumoglou/distillers.comで入手できる。

Knowledge distillation (KD) is an effective method for transferring knowledge from a large, well-trained teacher model to a smaller, more efficient student model. Despite its success, one of the main challenges in KD is ensuring the efficient transfer of complex knowledge while maintaining the student's computational efficiency. Unlike previous works that applied contrastive objectives promoting explicit negative instances with little attention to the relationships between them, we introduce Relational Representation Distillation (RRD). Our approach leverages pairwise similarities to explore and reinforce the relationships between the teacher and student models. Inspired by self-supervised learning principles, it uses a relaxed contrastive loss that focuses on similarity rather than exact replication. This method aligns the output distributions of teacher samples in a large memory buffer, improving the robustness and performance of the student model without the need for strict negative instance differentiation. Our approach demonstrates superior performance on CIFAR-100 and ImageNet ILSVRC-2012, outperforming traditional KD and sometimes even outperforms the teacher network when combined with KD. It also transfers successfully to other datasets like Tiny ImageNet and STL-10. Code is available at https://github.com/giakoumoglou/distillers.
翻訳日:2024-09-11 01:41:10 公開日:2024-09-09
# 時空間グラフラプラシアンを用いた時間進化ネットワークのクラスタリング

Clustering Time-Evolving Networks Using the Spatio-Temporal Graph Laplacian ( http://arxiv.org/abs/2407.12864v2 )

ライセンス: Link先を確認
Maia Trower, Nataša Djurdjevac Conrad, Stefan Klus, (参考訳) 時間進化グラフは、ソーシャルネットワーク、トラフィックフロー、生物学的プロセスなどの複雑な力学系をモデル化する際に頻繁に発生する。 これらの時間変化グラフ構造におけるコミュニティを特定し解析する技術を開発することは重要な課題である。 本研究では,正準相関解析(CCA)を用いて,既存のスペクトルクラスタリングアルゴリズムを静的グラフから動的グラフへ一般化し,クラスタの時間的進化を捉える。 この拡張正準相関フレームワークに基づいて、時空間グラフLaplacianを定義し、そのスペクトル特性について検討する。 これらの概念を転送演算子を介して力学系理論に結合し,既存の手法と比較してベンチマークグラフ上での手法の利点を説明する。 時空間グラフ Laplacian は、有向グラフと無向グラフに対する時間的時間的クラスタ構造進化の明確な解釈を可能にすることを示す。

Time-evolving graphs arise frequently when modeling complex dynamical systems such as social networks, traffic flow, and biological processes. Developing techniques to identify and analyze communities in these time-varying graph structures is an important challenge. In this work, we generalize existing spectral clustering algorithms from static to dynamic graphs using canonical correlation analysis (CCA) to capture the temporal evolution of clusters. Based on this extended canonical correlation framework, we define the spatio-temporal graph Laplacian and investigate its spectral properties. We connect these concepts to dynamical systems theory via transfer operators, and illustrate the advantages of our method on benchmark graphs by comparison with existing methods. We show that the spatio-temporal graph Laplacian allows for a clear interpretation of cluster structure evolution over time for directed and undirected graphs.
翻訳日:2024-09-11 01:41:10 公開日:2024-09-09
# 360VFI: 全方向ビデオフレーム補間のためのデータセットとベンチマーク

360VFI: A Dataset and Benchmark for Omnidirectional Video Frame Interpolation ( http://arxiv.org/abs/2407.14066v3 )

ライセンス: Link先を確認
Wenxuan Lu, Mengshun Hu, Yansheng Qiu, Liang Liao, Zheng Wang, (参考訳) ヘッドマウントの360{\deg}ディスプレイとポータブルの360{\deg}カメラは大幅に進歩し、視聴者はリアルで没入感のある体験を得られるようになった。 しかし、全方向ビデオの多くはフレームレートが低く、視覚疲労につながる可能性があるため、一般的な平面フレーム補間手法は従来のビデオ専用に設計されているため、全方向ビデオ補間には適さない。 本稿では,Omnidirectional Video Frame Interpolationのためのベンチマークデータセットである360VFIを紹介する。 本稿では,全方向ビデオの歪みをネットワークに導入し,歪みを変調する実用的な実装を提案する。 具体的には、等角射影(ERP)フォーマットのユニークな特徴を先行情報として用いたピラミッド歪み感性特徴抽出器を提案する。 さらに,アフィン変換を用いて中間フレームの合成を容易にするデコーダを考案した。 360VFIは、Omnidirectional Video Frame Interpolationの課題を探求する最初のデータセットとベンチマークである。 提案した360VFIデータセットに4つの異なる歪み条件シーンを示し,補間中の歪みに起因する課題を評価する。 さらに, 全方向歪みのモデル化により, 全方向ビデオ補間を効果的に改善できることを示した。

Head-mounted 360{\deg} displays and portable 360{\deg} cameras have significantly progressed, providing viewers a realistic and immersive experience. However, many omnidirectional videos have low frame rates that can lead to visual fatigue, and the prevailing plane frame interpolation methodologies are unsuitable for omnidirectional video interpolation because they are designed solely for traditional videos. This paper introduces the benchmark dataset, 360VFI, for Omnidirectional Video Frame Interpolation. We present a practical implementation that introduces a distortion prior from omnidirectional video into the network to modulate distortions. Specifically, we propose a pyramid distortion-sensitive feature extractor that uses the unique characteristics of equirectangular projection (ERP) format as prior information. Moreover, we devise a decoder that uses an affine transformation to further facilitate the synthesis of intermediate frames. 360VFI is the first dataset and benchmark that explores the challenge of Omnidirectional Video Frame Interpolation. Through our benchmark analysis, we present four different distortion condition scenes in the proposed 360VFI dataset to evaluate the challenges triggered by distortion during interpolation. Besides, experimental results demonstrate that Omnidirectional Video Interpolation can be effectively improved by modeling for omnidirectional distortion.
翻訳日:2024-09-11 01:41:10 公開日:2024-09-09
# サービス品質調整のための精度混合専門家の混合

Mixture of Experts with Mixture of Precisions for Tuning Quality of Service ( http://arxiv.org/abs/2407.14417v2 )

ライセンス: Link先を確認
HamidReza Imani, Abdolah Amirany, Tarek El-Ghazawi, (参考訳) リソース制約のある環境に大規模なMixture-of-Experts(MoE)モデルをデプロイする需要が高まっているため、高いメモリと計算要求に対処するための効率的なアプローチが必要である。 さらに、タスクが異なるユーザ定義の制約に収まり、利用可能なリソースがマルチテナント環境で時間とともに変化することを考慮すれば、柔軟な構成空間を提供するアプローチを設計する必要がある。 本稿では,MoEモデルを効率よく展開するための適応型サービス方式を提案する。 量子化された専門家の数を動的に決定し、CPUとGPUにまたがる分布を測定することで、当社のアプローチはParetoフロンティアを探索し、スループットとモデル品質をチューニングするためのきめ細かい設定を提供する。 3つの言語モデリングベンチマークのためのMixtral 8x7B MoEモデルを用いたNVIDIA A100 GPUの評価は、トークン生成のスループットが毎秒0.63から13.00に調整可能であることを示す。 この拡張は、それぞれ最大量子化の下で、WikiText2、TB、C4データセットに対して3.81から4.00、13.59から14.17、および7.24から7.40の限界パープレキシティが増大する。 これらの結果は、メモリ使用量と出力品質の両方が重要である動的かつ精度に敏感なアプリケーションにおいて、我々のアプローチの実用性を強調している。

The increasing demand for deploying large Mixture-of-Experts (MoE) models in resource-constrained environments necessitates efficient approaches to address their high memory and computational requirements challenges. Moreover, given that tasks come in different user-defined constraints and the available resources change over time in multi-tenant environments, it is necessary to design an approach which provides a flexible configuration space. This paper presents an adaptive serving approach for the efficient deployment of MoE models, capitalizing on partial quantization of the experts. By dynamically determining the number of quantized experts and their distribution across CPU and GPU, our approach explores the Pareto frontier and offers a fine-grained range of configurations for tuning throughput and model quality. Our evaluation on an NVIDIA A100 GPU using a Mixtral 8x7B MoE model for three language modelling benchmarks demonstrates that the throughput of token generation can be adjusted from 0.63 to 13.00 token per second. This enhancement comes with a marginal perplexity increase of 3.81 to 4.00, 13.59 to 14.17, and 7.24 to 7.40 for WikiText2, PTB, and C4 datasets respectively under maximum quantization. These results highlight the practical applicability of our approach in dynamic and accuracy-sensitive applications where both memory usage and output quality are important.
翻訳日:2024-09-11 01:41:10 公開日:2024-09-09
# ChatQA 2: 長期的コンテキストとRAGの能力で、プロプライエタリなLLMにギャップを埋める

ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities ( http://arxiv.org/abs/2407.14482v2 )

ライセンス: Link先を確認
Peng Xu, Wei Ping, Xianchao Wu, Chejian Xu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro, (参考訳) 本稿では,Llama 3.0ベースの128Kコンテキストウインドウを用いたChatQA 2を紹介し,長期コンテキスト理解と検索拡張生成(RAG)機能において,オープンソースLLMと主要なプロプライエタリモデル(GPT-4-Turbo)のギャップを埋めるように設計された。 これらの2つの機能は、1つのプロンプトに収まらない大量の情報を処理し、下流のタスクや計算予算によって相補的な処理を行うのに不可欠である。 そこで本研究では,Llama3-70Bベースのコンテキストウィンドウを8Kから128Kのトークンに拡張し,モデルの命令追従,RAG性能,長期コンテキスト理解能力を向上させる3段階の命令チューニングプロセスを提案する。 Llama3-ChatQA-2-70BモデルはGPT-4-Turbo-2024-04-09、Qwen2-72B-Instruct、Llama3.1-70B-Instructといった既存の最先端モデルよりも優れており、100Kトークンを超える超長いタスクや、4Kコンテキストウィンドウのみを使用したRAGベンチマークでは、シーケンス長の強いコンテキスト能力を示している。 さらに,同種の長文LLMを用いて,直接長文とRAGソリューションの広範な比較を行った。 興味深いことに,RAGを用いた長文LLMの性能は,多数のチャンクを検索した場合に向上する。 トップkチャンクの大規模なセットでは、RAGは32Kベンチマークと現実世界の128Kタスクの両方で、最先端のロングコンテキストモデル(Llama3-ChatQA-2-70BとQwen2-72B-Instruct)を使用して、常に直接のロングコンテキストソリューションより優れている。 この分野での研究を進めるために、私たちはモデルウェイト、トレーニングデータ、コミュニティのための評価設定をオープンソースにした。

In this work, we introduce ChatQA 2, an Llama 3.0-based model with a 128K context window, designed to bridge the gap between open-source LLMs and leading proprietary models (e.g., GPT-4-Turbo) in long-context understanding and retrieval-augmented generation (RAG) capabilities. These two capabilities are essential for LLMs to process large volumes of information that cannot fit into a single prompt and are complementary to each other, depending on the downstream tasks and computational budgets. We present a detailed continued training recipe to extend the context window of Llama3-70B-base from 8K to 128K tokens, along with a three-stage instruction tuning process to enhance the model's instruction-following, RAG performance, and long-context understanding capabilities. Our results demonstrate that the Llama3-ChatQA-2-70B model outperforms most existing state-of-the-art models, including GPT-4-Turbo-2024-04-09, Qwen2-72B-Instruct, and Llama3.1-70B-Instruct, on ultra-long tasks beyond 100K tokens, as well as on the RAG benchmark using only a 4K context window, showing the strong long context capability across varying sequence lengths. We further provide extensive comparisons between direct long-context and RAG solutions using the same state-of-the-art long-context LLMs. Interestingly, we find that the performance of strong long-context LLMs using RAG improves when retrieving a larger number of chunks. With a large set of top-k chunks, RAG consistently outperforms direct long-context solution using the same state-of-the-art long-context models (e.g., Llama3-ChatQA-2-70B and Qwen2-72B-Instruct) on both 32K benchmarks and real-world 128K tasks. To advance research in this field, we open-sourced the model weights, training data, and the evaluation setup for the for the community: https://chatqa2-project.github.io/
翻訳日:2024-09-11 01:25:35 公開日:2024-09-09
# テキスト-SQLタスクにおける大規模言語モデルの適用に関する調査

A Survey on Employing Large Language Models for Text-to-SQL Tasks ( http://arxiv.org/abs/2407.15186v3 )

ライセンス: Link先を確認
Liang Shi, Zhengju Tang, Nan Zhang, Xiaotong Zhang, Zhi Yang, (参考訳) リレーショナルデータベースに格納されるデータの量の増加により、様々な分野において、このデータの効率的なクエリと利用の必要性が高まっている。 しかし、SQLクエリを書くには特別な知識が必要です。 テキストからSQLへの構文解析は、自然言語クエリをSQLクエリに変換することでこの問題を解決する。 LLM(Large Language Models)の最近の発展を活かすため、様々な新しい手法が登場し、迅速なエンジニアリングと微調整に重点が置かれている。 この調査では、テキストからSQLまでのタスクにおけるLLMの概要、ベンチマークデータセットの議論、迅速なエンジニアリング、微調整方法、今後の研究方向性について概説する。 このレビューは、読者がこの分野の最近の進歩をより深く理解し、その将来的な軌道についての洞察を得られることを願っている。

The increasing volume of data stored in relational databases has led to the need for efficient querying and utilization of this data in various sectors. However, writing SQL queries requires specialized knowledge, which poses a challenge for non-professional users trying to access and query databases. Text-to-SQL parsing solves this issue by converting natural language queries into SQL queries, thus making database access more accessible for non-expert users. To take advantage of the recent developments in Large Language Models (LLMs), a range of new methods have emerged, with a primary focus on prompt engineering and fine-tuning. This survey provides a comprehensive overview of LLMs in text-to-SQL tasks, discussing benchmark datasets, prompt engineering, fine-tuning methods, and future research directions. We hope this review will enable readers to gain a broader understanding of the recent advances in this field and offer some insights into its future trajectory.
翻訳日:2024-09-11 01:25:35 公開日:2024-09-09
# 完全なパッシブ量子会議キーアグリーメント

Fully Passive Quantum Conference Key Agreement ( http://arxiv.org/abs/2407.15761v2 )

ライセンス: Link先を確認
Jinjie Li, Wenyuan Wang, H. F. Chau, (参考訳) 量子会議鍵協定(CKA)は、多人数通信のためのセキュアな方法を提供する。 最近開発された干渉に基づく準備・測定量子CKAは、測定デバイス独立性の利点、すなわち検出器側からのサイドチャネルに免疫を持つ。 さらに、単一光子干渉を用いることにより、特に高損失チャネルのキーレート性能が向上する。 一方、ソース変調側から全てのサイドチャネルを除去する完全受動的QKDスキームが提案されている。 我々は、完全に受動的なアイデアを、多ユーザ通信のための高レベルの実装セキュリティを持つ干渉ベースのCKAに拡張する。

Quantum Conference Key Agreement (CKA) provides a secure method for multi-party communication. A recently developed interference-based prepare-and-measure quantum CKA possesses the advantages of measurement-device-independence, namely, being immune to side-channels from the detector side. Besides, it achieves good key rate performance, especially for high-loss channels, due to the use of single photon interference. Meanwhile, several fully passive QKD schemes have been proposed, which eliminate all side channels from the source modulation side. We extend the fully passive idea to an interference-based CKA, which has a high level of implementation security for many-user communication.
翻訳日:2024-09-11 01:25:35 公開日:2024-09-09
# PromptCCD: 連続的なカテゴリー発見のためのガウス混合プロンプトプールの学習

PromptCCD: Learning Gaussian Mixture Prompt Pool for Continual Category Discovery ( http://arxiv.org/abs/2407.19001v2 )

ライセンス: Link先を確認
Fernando Julio Cendra, Bingchen Zhao, Kai Han, (参考訳) 従来型の完全教師付き連続学習においても継続するオープンな問題である破滅的な忘れ込みの課題を緩和しつつ、ラベルのないデータの連続ストリームで新しいカテゴリを自動的に発見することを目的とした、連続カテゴリー発見(Continuous Category Discovery, CCD)の問題に取り組む。 この課題に対処するために,ガウス混合モデル(GMM)をCCDのプロンプト手法として用いた,シンプルで効果的なフレームワークであるPromptCCDを提案する。 PromptCCDのコアにはGMP(Gaussian Mixture Prompting)モジュールがある。 さらに、GMPはカテゴリ番号のオンザフライ推定を可能にし、PromptCCDはカテゴリ番号の事前知識なしでラベルなしデータのカテゴリを発見できる。 我々は、一般化カテゴリー発見(GCD)の標準評価基準をCCDに拡張し、様々な公開データセットの最先端手法をベンチマークする。 PromptCCDは既存の方法よりも優れており、その有効性を示している。 プロジェクトページ: https://visual-ai.github.io/promptccd

We tackle the problem of Continual Category Discovery (CCD), which aims to automatically discover novel categories in a continuous stream of unlabeled data while mitigating the challenge of catastrophic forgetting -- an open problem that persists even in conventional, fully supervised continual learning. To address this challenge, we propose PromptCCD, a simple yet effective framework that utilizes a Gaussian Mixture Model (GMM) as a prompting method for CCD. At the core of PromptCCD lies the Gaussian Mixture Prompting (GMP) module, which acts as a dynamic pool that updates over time to facilitate representation learning and prevent forgetting during category discovery. Moreover, GMP enables on-the-fly estimation of category numbers, allowing PromptCCD to discover categories in unlabeled data without prior knowledge of the category numbers. We extend the standard evaluation metric for Generalized Category Discovery (GCD) to CCD and benchmark state-of-the-art methods on diverse public datasets. PromptCCD significantly outperforms existing methods, demonstrating its effectiveness. Project page: https://visual-ai.github.io/promptccd .
翻訳日:2024-09-11 01:25:35 公開日:2024-09-09
# 散乱波束の2次非局所シフト:Goos-HänchenとImbert-Fedorov効果で何が測定できるのか?

Second-order nonlocal shifts of scattered wave-packets: What can be measured by Goos-Hänchen and Imbert-Fedorov effects ? ( http://arxiv.org/abs/2408.00375v3 )

ライセンス: Link先を確認
K. Morawetz, (参考訳) 表面における任意のエネルギー分散を伴うウェーブパペットの散乱を解析した。 散乱シフトの2階まで拡大すると、既知のグース・アンチェンやイムベルト・フェドロフ空間オフセットに加えて、ウィグナー遅延時間、新しい運動量、周波数シフトが現れる。 さらに、散乱波パケットの幅も変更され、多重散乱によるパルスの縮小につながる可能性がある。 縦・横の誘電関数を特徴とする誘電体モデルでは、シフトを解析的に計算する。 Goos-H\ と Imbert-Fedorov シフトから、縦方向と横方向の誘電関数にアクセスできる。 散乱ビームに対する完全な配向結晶対称性軸は、イムベルト=フェドロフ効果を示さない。 等質材料には、グース・アンチェンとイムベルト・フェドロフ効果が欠如していることが判明した。 反対に、ウィグナー遅延時間と時間パルス幅の縮小は、ビーム幾何学に依存しない誘電関数にアクセスすることができる。

The scattering of wavepackets with arbitrary energy dispersion on surfaces has been analyzed. Expanding up to second order in scattering shifts, it is found that besides the known Goos-H\"anchen or Imbert-Fedorov spatial offset, as well as the Wigner delay time, new momentum and frequency shifts appear. Furthermore, the width of the scattered wave packet becomes modified as well, which can lead to a shrinking of pulses by multiple scattering. For a model of dielectric material characterized by a longitudinal and transverse dielectric function the shifts are calculated analytically. From the Goos-H\"anchen and Imbert-Fedorov shifts one can access the longitudinal and transversal dielectric function. Perfectly aligned crystal symmetry axes with respect to scattering beam shows no Imbert-Fedorov effect. It is found that the Goos-H\"anchen and Imbert-Fedorov effect are absent for homogeneous materials. Oppositely it is found that the Wigner delay time and the shrinking of the temporal pulse width allows to access the dielectric function independent on the beam geometry.
翻訳日:2024-09-11 01:25:35 公開日:2024-09-09
# LLMエージェントによるテキスト・ツー・イメージのジェイルブレイク

Jailbreaking Text-to-Image Models with LLM-Based Agents ( http://arxiv.org/abs/2408.00523v2 )

ライセンス: Link先を確認
Yingkai Dong, Zheng Li, Xiangtao Meng, Ning Yu, Shanqing Guo, (参考訳) 近年の進歩により,大規模言語モデル(LLM)を用いた自律エージェントによるタスク解決機能が大幅に向上した。 しかし、ほとんどのLLMベースのエージェントは対話、プログラミング、または特殊ドメインに焦点を当てており、生成的AI安全タスクに対処する可能性はほとんど探索されていない。 本稿では,ジェネレーティブAIモデルを対象とした高度なLLMベースのマルチエージェントフレームワークであるAtlasを提案し,特に安全フィルタを内蔵したテキスト・ツー・イメージ(T2I)モデルに対するジェイルブレイク攻撃に焦点を当てた。 Atlasは2つのエージェント、すなわち突然変異剤と選択剤から構成されており、それぞれが4つの主要なモジュール(視覚言語モデル(VLM)またはLLM脳、計画、記憶、ツール使用)から構成されている。 突然変異剤は、そのVLM脳を用いて、プロンプトがT2Iモデルの安全フィルターをトリガーするかどうかを判定する。 その後、選択剤のLDM脳と反復的に協調し、フィルターをバイパスする可能性が最も高い新しい候補ジェイルブレイクプロンプトを生成する。 マルチエージェント通信に加えて、インコンテキスト学習(ICL)メモリ機構とCOT(チェーン・オブ・シント)アプローチを活用し、過去の成功と失敗から学習し、アトラスの性能を向上させる。 我々の評価では、Atlasはブラックボックス設定でマルチモーダル安全フィルタを備えた最先端のT2Iモデルをジェイルブレイクすることに成功した。 さらにAtlasは、クエリ効率と生成された画像の品質の両方において、既存のメソッドよりも優れています。 この研究は、人気のあるテキスト・画像生成モデルの安全性の脆弱性を研究する上で、LLMベースのエージェントが成功したことを実証するものである。 我々は,急速に発展するテキスト・画像生成分野に対応するため,コミュニティに対して,我々のような高度な技術を検討するよう促す。

Recent advancements have significantly improved automated task-solving capabilities using autonomous agents powered by large language models (LLMs). However, most LLM-based agents focus on dialogue, programming, or specialized domains, leaving their potential for addressing generative AI safety tasks largely unexplored. In this paper, we propose Atlas, an advanced LLM-based multi-agent framework targeting generative AI models, specifically focusing on jailbreak attacks against text-to-image (T2I) models with built-in safety filters. Atlas consists of two agents, namely the mutation agent and the selection agent, each comprising four key modules: a vision-language model (VLM) or LLM brain, planning, memory, and tool usage. The mutation agent uses its VLM brain to determine whether a prompt triggers the T2I model's safety filter. It then collaborates iteratively with the LLM brain of the selection agent to generate new candidate jailbreak prompts with the highest potential to bypass the filter. In addition to multi-agent communication, we leverage in-context learning (ICL) memory mechanisms and the chain-of-thought (COT) approach to learn from past successes and failures, thereby enhancing Atlas's performance. Our evaluation demonstrates that Atlas successfully jailbreaks several state-of-the-art T2I models equipped with multi-modal safety filters in a black-box setting. Additionally, Atlas outperforms existing methods in both query efficiency and the quality of generated images. This work convincingly demonstrates the successful application of LLM-based agents in studying the safety vulnerabilities of popular text-to-image generation models. We urge the community to consider advanced techniques like ours in response to the rapidly evolving text-to-image generation field.
翻訳日:2024-09-11 01:25:35 公開日:2024-09-09
# 空間データに対する主成分分析による予測と近似精度のバランス

Principal component analysis balancing prediction and approximation accuracy for spatial data ( http://arxiv.org/abs/2408.01662v2 )

ライセンス: Link先を確認
Si Cheng, Magali N. Blanco, Timothy V. Larson, Lianne Sheppard, Adam Szpiro, Ali Shojaie, (参考訳) 次元減少は、しばしば多変量空間データの統計的モデリングや予測の第一歩である。 しかし,既存の次元低減技術の多くは,観測の空間的相関を考慮せず,下流モデリングタスクを低次元表現を見つける際に考慮しない。 我々は、下流モデルにおける元のデータに対する近似の近接性と低次元スコアの有用性を、2つの相補的、時には矛盾する、次元減少の指標として定式化する。 本稿では,既存の手法がこの枠組みにどのような影響を及ぼすかを説明し,最適なトレードオフを実現するフレキシブルな次元削減アルゴリズムを提案する。 本アルゴリズムは, 大気汚染モデルと空間転写学の2つの応用と同様に, シミュレーション研究を通じて, 計算学的に単純な形状を導出し, その性能を示す。

Dimension reduction is often the first step in statistical modeling or prediction of multivariate spatial data. However, most existing dimension reduction techniques do not account for the spatial correlation between observations and do not take the downstream modeling task into consideration when finding the lower-dimensional representation. We formalize the closeness of approximation to the original data and the utility of lower-dimensional scores for downstream modeling as two complementary, sometimes conflicting, metrics for dimension reduction. We illustrate how existing methodologies fall into this framework and propose a flexible dimension reduction algorithm that achieves the optimal trade-off. We derive a computationally simple form for our algorithm and illustrate its performance through simulation studies, as well as two applications in air pollution modeling and spatial transcriptomics.
翻訳日:2024-09-11 01:25:35 公開日:2024-09-09
# SiamMo: シームズモーション中心の3Dオブジェクト追跡

SiamMo: Siamese Motion-Centric 3D Object Tracking ( http://arxiv.org/abs/2408.01688v2 )

ライセンス: Link先を確認
Yuxiang Yang, Yingqi Deng, Jing Zhang, Hongjie Gu, Zhekang Dong, (参考訳) 現在の3Dオブジェクト追跡手法は主に、テクスチャレスで不完全なLiDAR点雲に苦しむシームズマッチングベースのパラダイムに依存している。 逆に、動き中心のパラダイムは外観マッチングを回避し、これらの問題を克服する。 しかし、複雑なマルチステージパイプラインと、単一ストリームアーキテクチャの時間的モデリング能力は、その可能性を制限する。 本稿では,シームズ運動中心追跡手法であるSiamMoを紹介する。 従来のシングルストリームアーキテクチャとは異なり、動作中心のトラッキングにSiamese機能抽出を用いる。 これにより、時間融合からの特徴抽出が切り離され、トラッキング性能が著しく向上する。 さらに,複数のスケールでSamese機能を統合するための時空間特徴集約モジュールを設計し,動作情報を効果的に取得する。 また、オブジェクトサイズを動作推定にエンコードするBox-aware Feature Encodingモジュールも導入した。 SiamMoは純粋にモーション中心のトラッカーで、セグメンテーションやボックスリファインメントといった追加のプロセスを必要としない。 ホイッスルやベルがなければ、SiamMoは複数のベンチマークで最先端のメソッドを超越するだけでなく、挑戦的なシナリオにおいて例外的な堅牢性を示す。 SiamMoは、KITTIトラッキングベンチマークで90.1\%の精度で新しい記録を樹立し、高い推論速度は108 FPSを維持した。 コードはhttps://github.com/HDU-VRLab/SiamMo.comで公開される。

Current 3D single object tracking methods primarily rely on the Siamese matching-based paradigm, which struggles with textureless and incomplete LiDAR point clouds. Conversely, the motion-centric paradigm avoids appearance matching, thus overcoming these issues. However, its complex multi-stage pipeline and the limited temporal modeling capability of a single-stream architecture constrain its potential. In this paper, we introduce SiamMo, a novel and simple Siamese motion-centric tracking approach. Unlike the traditional single-stream architecture, we employ Siamese feature extraction for motion-centric tracking. This decouples feature extraction from temporal fusion, significantly enhancing tracking performance. Additionally, we design a Spatio-Temporal Feature Aggregation module to integrate Siamese features at multiple scales, capturing motion information effectively. We also introduce a Box-aware Feature Encoding module to encode object size priors into motion estimation. SiamMo is a purely motion-centric tracker that eliminates the need for additional processes like segmentation and box refinement. Without whistles and bells, SiamMo not only surpasses state-of-the-art methods across multiple benchmarks but also demonstrates exceptional robustness in challenging scenarios. SiamMo sets a new record on the KITTI tracking benchmark with 90.1\% precision while maintaining a high inference speed of 108 FPS. The code will be released at https://github.com/HDU-VRLab/SiamMo.
翻訳日:2024-09-11 01:15:13 公開日:2024-09-09
# 真に一貫性のない操作による状態変換性

State convertibility under genuinely incoherent operations ( http://arxiv.org/abs/2408.02885v2 )

ライセンス: Link先を確認
Zhaofang Bai, Shuanping Du, (参考訳) 状態変換性は、量子コヒーレンス(英語版)の資源理論の研究において基本的なものである。 これは、あるコヒーレントな状態が、非コヒーレントな操作のみを使用して、いつ他のコヒーレントな状態に変換できるかを特定することを目的としている。 本稿では、真に一貫性のない操作下での状態変換性を完全に評価する。 その結果、コヒーレンスの堅牢性の凸性は中心的な役割を担っていることがわかった。 これに基づいて、厳密な不整合操作の下で純状態から混合状態への変換可能性を決定する大域化条件が提供される。 さらに、固定対角要素を持つ全ての状態の集合における最大コヒーレントな状態が決定される。 コヒーレンスの堅牢性の凸性もまた、コヒーレント状態の非対角部分間の変換を決定することができる。 これは、不整合操作下での混合状態に対する状態変換可能性の問題に完全に答える大きなステップかもしれない。

State convertibility is fundamental in the study of resource theory of quantum coherence. It is aimed at identifying when it is possible to convert a given coherent state to another using only incoherent operations. In this paper, we give a complete characterization of state convertibility under genuinely incoherent operations. It is found that convexity of the robustness of coherence plays a central role. Based on this, the majorization condition of determining convertibility from pure states to mixed states under strictly incoherent operations is provided. Moreover, maximally coherent states in the set of all states with fixed diagonal elements are determined. It is somewhat surprising that convexity of the robustness of coherence can also decide conversion between off-diagonal parts of coherent states. This might be a big step to answer completely the question of state convertibility for mixed states under incoherent operations.
翻訳日:2024-09-11 01:15:13 公開日:2024-09-09
# LLM内蔵移動ロボットシステムに対するプロンプトインジェクションアタックに関する研究

A Study on Prompt Injection Attack Against LLM-Integrated Mobile Robotic Systems ( http://arxiv.org/abs/2408.03515v2 )

ライセンス: Link先を確認
Wenxiao Zhang, Xiangrui Kong, Conan Dewitt, Thomas Braunl, Jin B. Hong, (参考訳) GPT-4oのような大規模言語モデル(LLM)をロボットシステムに統合することは、組み込み人工知能の大幅な進歩を示している。 これらのモデルはマルチモーダルプロンプトを処理でき、よりコンテキスト対応の応答を生成することができる。 しかし、この統合には課題はない。 主な懸念事項の1つは、ロボットナビゲーションタスクでLLMを使用する際の潜在的なセキュリティリスクである。 これらのタスクは、安全かつ効果的な操作を保証するために、正確で信頼性の高い応答を必要とする。 マルチモーダルプロンプトは、ロボットの理解を高める一方で、悪意ある悪用が可能な複雑さも導入する。 例えば、モデルを誤解させるように設計された敵の入力は、誤ったあるいは危険なナビゲーション決定につながる可能性がある。 本研究は,LSM統合システムにおける移動ロボットの性能に及ぼす即時注入の影響について検討し,これらのリスクを軽減するための安全な迅速な戦略を探究する。 本研究は、ロバスト防御機構の実装により、攻撃検知とシステム性能の双方において、約30.8%の大幅な全体的な改善が示され、ミッション指向タスクにおけるセキュリティと信頼性の向上における重要な役割を強調した。

The integration of Large Language Models (LLMs) like GPT-4o into robotic systems represents a significant advancement in embodied artificial intelligence. These models can process multi-modal prompts, enabling them to generate more context-aware responses. However, this integration is not without challenges. One of the primary concerns is the potential security risks associated with using LLMs in robotic navigation tasks. These tasks require precise and reliable responses to ensure safe and effective operation. Multi-modal prompts, while enhancing the robot's understanding, also introduce complexities that can be exploited maliciously. For instance, adversarial inputs designed to mislead the model can lead to incorrect or dangerous navigational decisions. This study investigates the impact of prompt injections on mobile robot performance in LLM-integrated systems and explores secure prompt strategies to mitigate these risks. Our findings demonstrate a substantial overall improvement of approximately 30.8% in both attack detection and system performance with the implementation of robust defence mechanisms, highlighting their critical role in enhancing security and reliability in mission-oriented tasks.
翻訳日:2024-09-11 01:15:13 公開日:2024-09-09
# 概念導体:テキスト・画像合成における複数のパーソナライズされた概念のオーケストレーション

Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis ( http://arxiv.org/abs/2408.03632v3 )

ライセンス: Link先を確認
Zebin Yao, Fangxiang Feng, Ruifan Li, Xiaojie Wang, (参考訳) テキスト・ツー・イメージ・モデルのカスタマイズは大きな進歩を遂げているが、複数のパーソナライズされた概念を生成することは難しい課題である。 現在の手法では、複数の概念を扱う際に属性の漏洩とレイアウトの混乱に悩まされ、概念の忠実度とセマンティック一貫性が低下する。 本研究では,マルチコンセプトのカスタマイズにおいて,視覚的忠実度と正確なレイアウトを確保するために設計された,新しいトレーニングフリーフレームワークであるConcept Conductorを紹介する。 コンセプションコンダクタは、複数のカスタムモデルのサンプリングプロセスを分離し、異なる概念間の属性の漏洩を防止し、自己注意に基づく空間ガイダンスを通じて誤ったレイアウトを修正する。 また,各概念の生成領域を特定するために形状認識マスクを用いた概念注入手法を提案する。 この技術は,注目層における特徴融合を通じてパーソナライズされた概念の構造と外観を注入し,最終的な画像の調和を確保する。 大規模定性的かつ定量的な実験により、Concept Conductorは、各概念の視覚的詳細を保存しながら、正確なレイアウトを持つ合成イメージを一貫して生成できることが示されている。 既存のベースラインと比較して、Concept Conductorは大幅なパフォーマンス向上を示している。 本手法は,様々な概念の組み合わせをサポートし,視覚的に類似した概念を扱う場合でも高い忠実性を維持する。 コードとモデルはhttps://github.com/Nihukat/Concept-Conductor.comで公開されている。

The customization of text-to-image models has seen significant advancements, yet generating multiple personalized concepts remains a challenging task. Current methods struggle with attribute leakage and layout confusion when handling multiple concepts, leading to reduced concept fidelity and semantic consistency. In this work, we introduce a novel training-free framework, Concept Conductor, designed to ensure visual fidelity and correct layout in multi-concept customization. Concept Conductor isolates the sampling processes of multiple custom models to prevent attribute leakage between different concepts and corrects erroneous layouts through self-attention-based spatial guidance. Additionally, we present a concept injection technique that employs shape-aware masks to specify the generation area for each concept. This technique injects the structure and appearance of personalized concepts through feature fusion in the attention layers, ensuring harmony in the final image. Extensive qualitative and quantitative experiments demonstrate that Concept Conductor can consistently generate composite images with accurate layouts while preserving the visual details of each concept. Compared to existing baselines, Concept Conductor shows significant performance improvements. Our method supports the combination of any number of concepts and maintains high fidelity even when dealing with visually similar concepts. The code and models are available at https://github.com/Nihukat/Concept-Conductor.
翻訳日:2024-09-11 01:15:13 公開日:2024-09-09
# アンサンブルのない不安定性同定によるカオス力学の高精度深層学習に基づくフィルタリング

Accurate deep learning-based filtering for chaotic dynamics by identifying instabilities without an ensemble ( http://arxiv.org/abs/2408.04739v2 )

ライセンス: Link先を確認
Marc Bocquet, Alban Farchi, Tobias S. Finn, Charlotte Durand, Sibo Cheng, Yumeng Chen, Ivo Pasmans, Alberto Carrassi, (参考訳) 本研究では,データ同化(DA)スキームの深層学習によるカオス力学の発見能力について検討する。 その焦点は、状態軌跡とそれらの観測から、単純な残差畳み込みニューラルネットワークを用いてシーケンシャルDAの分析ステップを学習することであり、ダイナミクスが知られていると仮定している。 Lorenz 96 は時空間カオスを呈し,DA 性能のソリッドベンチマークが存在する。 学習した解析結果から得られた状態の精度は、最もよく調整可能なアンサンブルカルマンフィルタに近づき、変分DAの代替よりもはるかに優れている。 重要なことは、これは予測ステップにおいて単一の状態であっても伝播しながら達成できる。 アンサンブルを使わずにアンサンブルフィルタリング精度を実現する理由を考察する。 解析スキームは, アンサンブルに基づく共分散表現を伴わずに, 予測状態のみから不安定な部分空間に軽度に対応して, 重要な動的摂動を実際に同定する。 このことは、解析スキームが非自律ランダム力学系と見なされるDA過程に関連する乗法的エルゴード定理を学習したことを示している。

We investigate the ability to discover data assimilation (DA) schemes meant for chaotic dynamics with deep learning. The focus is on learning the analysis step of sequential DA, from state trajectories and their observations, using a simple residual convolutional neural network, while assuming the dynamics to be known. Experiments are performed with the Lorenz 96 dynamics, which display spatiotemporal chaos and for which solid benchmarks for DA performance exist. The accuracy of the states obtained from the learned analysis approaches that of the best possibly tuned ensemble Kalman filter, and is far better than that of variational DA alternatives. Critically, this can be achieved while propagating even just a single state in the forecast step. We investigate the reason for achieving ensemble filtering accuracy without an ensemble. We diagnose that the analysis scheme actually identifies key dynamical perturbations, mildly aligned with the unstable subspace, from the forecast state alone, without any ensemble-based covariances representation. This reveals that the analysis scheme has learned some multiplicative ergodic theorem associated to the DA process seen as a non-autonomous random dynamical system.
翻訳日:2024-09-11 01:15:13 公開日:2024-09-09
# プレプロセッシングと圧縮:内在次元を通した画像領域における隠れ表現再構成の理解

Pre-processing and Compression: Understanding Hidden Representation Refinement Across Imaging Domains via Intrinsic Dimension ( http://arxiv.org/abs/2408.08381v3 )

ライセンス: Link先を確認
Nicholas Konz, Maciej A. Mazurowski, (参考訳) 近年,ニューラルネットワークの隠蔽表現の内在次元(ID)などの幾何学的特性が層を通してどのように変化するか,一般化能力などの重要なモデル行動を予測する方法が注目されている。 しかし、このような行動が自然画像や医用画像などのネットワークのトレーニングデータの領域によって大きく変化するという証拠が浮上し始めた。 ここでは,ネットワークの学習した表現のIDが階層を通してどのように変化するのかを,本質的には,ネットワークが予測に使用する入力データの情報内容を連続的に洗練するかを特徴付けることによって,この調査をさらに進める。 6つのネットワークアーキテクチャにまたがる11の自然画像と医療画像のデータセットを分析し、ネットワークを通してのIDの変化が、自然画像と医療画像のモデルとで顕著に異なることを発見した。 具体的には、医用画像モデルは、ネットワークの初期に表現IDがピークに達し、これらの領域の下流タスクに一般的に使用される画像特徴とそれらの抽象性の違いが示唆される。 さらに,このピーク表現IDと入力空間内のデータのIDとの強い相関関係を見出した。 全体として、本研究は、隠れ表現情報の内容に関する自然画像領域と非自然画像領域のネットワーク行動の顕著な相違を強調し、ネットワークの学習した特徴がトレーニングデータによってどのように形成されるかについて、さらなる知見を提供する。

In recent years, there has been interest in how geometric properties such as intrinsic dimension (ID) of a neural network's hidden representations change through its layers, and how such properties are predictive of important model behavior such as generalization ability. However, evidence has begun to emerge that such behavior can change significantly depending on the domain of the network's training data, such as natural versus medical images. Here, we further this inquiry by exploring how the ID of a network's learned representations changes through its layers, in essence, characterizing how the network successively refines the information content of input data to be used for predictions. Analyzing eleven natural and medical image datasets across six network architectures, we find that how ID changes through the network differs noticeably between natural and medical image models. Specifically, medical image models peak in representation ID earlier in the network, implying a difference in the image features and their abstractness that are typically used for downstream tasks in these domains. Additionally, we discover a strong correlation of this peak representation ID with the ID of the data in its input space, implying that the intrinsic information content of a model's learned representations is guided by that of the data it was trained on. Overall, our findings emphasize notable discrepancies in network behavior between natural and non-natural imaging domains regarding hidden representation information content, and provide further insights into how a network's learned features are shaped by its training data.
翻訳日:2024-09-11 01:15:13 公開日:2024-09-09
# QEDCartographer: Reward-free Reinforcement Learning を用いた形式検証の自動化

QEDCartographer: Automating Formal Verification Using Reward-Free Reinforcement Learning ( http://arxiv.org/abs/2408.09237v4 )

ライセンス: Link先を確認
Alex Sanchez-Stern, Abhishek Varghese, Zhanna Kaufman, Dylan Zhang, Talia Ringer, Yuriy Brun, (参考訳) 形式的検証は信頼性の高いソフトウェアを作成するための有望な方法であるが,手作業による検証証明の難しさにより,実用性は著しく制限されている。 近年の手法では、定理証明器を用いて証明空間を探索し、いくつかの証明合成を自動化している。 残念なことに、定理証明器は最も粗末な進捗推定のみを提供し、事実上無向探索をもたらす。 この問題に対処するために、教師付きと強化学習を組み合わせた自動証明合成ツールであるQEDCartographerを作成し、より効果的に証明空間を探索する。 QEDCartographerは証明の分岐構造を取り入れ、報酬のない探索を可能にし、形式検証に固有のスパース報酬問題を克服する。 オープンソースCoqプロジェクトの68.5K定理のCoqGymベンチマークを用いて,QEDCartographerを評価した。 QEDCartographerはテストセット定理の21.4%を自動的に証明している。 従来の検索ベースの証明合成ツールであるTok、Tac、ASTactic、Passport、Proverbot9001は、教師あり学習のみに依存しており、それぞれ9.6%、9.8%、10.9%、12.5%、19.8%を証明している。 62のツールを組み合わせたDidiaは19.2%を証明している。 最も効果的な先行ツールであるProverbot9001と比較して、QEDCartographerは29%高速で34%の短い証明を生成する。 QEDCartographerと非学習ベースのCoqHammerは30.3%、CoqHammerは26.6%である。 本研究は,強化学習が証明合成ツールの探索機構を改善するための実りある研究方向であることを実証する。

Formal verification is a promising method for producing reliable software, but the difficulty of manually writing verification proofs severely limits its utility in practice. Recent methods have automated some proof synthesis by guiding a search through the proof space using a theorem prover. Unfortunately, the theorem prover provides only the crudest estimate of progress, resulting in effectively undirected search. To address this problem, we create QEDCartographer, an automated proof-synthesis tool that combines supervised and reinforcement learning to more effectively explore the proof space. QEDCartographer incorporates the proofs' branching structure, enabling reward-free search and overcoming the sparse reward problem inherent to formal verification. We evaluate QEDCartographer using the CoqGym benchmark of 68.5K theorems from 124 open-source Coq projects. QEDCartographer fully automatically proves 21.4% of the test-set theorems. Previous search-based proof-synthesis tools Tok, Tac, ASTactic, Passport, and Proverbot9001, which rely only on supervised learning, prove 9.6%, 9.8%, 10.9%, 12.5%, and 19.8%, respectively. Diva, which combines 62 tools, proves 19.2%. Comparing to the most effective prior tool, Proverbot9001, QEDCartographer produces 34% shorter proofs 29% faster, on average over the theorems both tools prove. Together, QEDCartographer and non-learning-based CoqHammer prove 30.3% of the theorems, while CoqHammer alone proves 26.6%. Our work demonstrates that reinforcement learning is a fruitful research direction for improving proof-synthesis tools' search mechanisms.
翻訳日:2024-09-11 01:15:13 公開日:2024-09-09
# 幾何学的半教師付き学習によるストリートビュー画像からの細粒度建物機能認識

Fine-Grained Building Function Recognition from Street-View Images via Geometry-Aware Semi-Supervised Learning ( http://arxiv.org/abs/2408.09460v3 )

ライセンス: Link先を確認
Weijia Li, Jinhua Yu, Dairong Chen, Yi Lin, Runmin Dong, Xiang Zhang, Conghui He, Haohuan Fu, (参考訳) 本研究では,多ソースデータ間の幾何的関係を利用して,半教師付き学習における擬似ラベルの精度を高め,各種ビルディング関数分類システムへの適用性を拡大する,精密なビルディング関数認識のための幾何認識型半教師付きフレームワークを提案する。 まず,ストリートビュー画像におけるファサード情報の正確な取得を容易にするオンライン半教師付き事前学習ステージを設計する。 第2段階では,幾何対応の粗いアノテーション生成モジュールを提案する。 このモジュールは、幾何学的関係に基づくGISデータとストリートビューデータを効果的に組み合わせ、擬似アノテーションの精度を向上させる。 第3段階では、新たに生成された粗いアノテーションを既存のラベル付きデータセットと組み合わせ、大規模に複数の都市にまたがる建物のきめ細かい機能認識を実現する。 大規模実験により,提案手法は建物の微細な機能認識において優れた性能を示すことが示された。 同じ分類体系内では、完全に監督された手法と最先端の半監督された手法と比較して、7.6\%と4.8\%の改善が達成されている。 さらに,OmniCity(ニューヨーク)で訓練されたモデルを,異なるビル機能分類システムを備えた新都市(ロサンゼルス,ボストン)に拡張するなど,都市横断シナリオでも良好に機能する。 本研究は, より効率的なデータ更新と資源配分を容易にするため, 最小限のアノテーションを必要とする大規模マルチシティアプリケーションに対して, 新たなソリューションを提供する。

In this work, we propose a geometry-aware semi-supervised framework for fine-grained building function recognition, utilizing geometric relationships among multi-source data to enhance pseudo-label accuracy in semi-supervised learning, broadening its applicability to various building function categorization systems. Firstly, we design an online semi-supervised pre-training stage, which facilitates the precise acquisition of building facade location information in street-view images. In the second stage, we propose a geometry-aware coarse annotation generation module. This module effectively combines GIS data and street-view data based on the geometric relationships, improving the accuracy of pseudo annotations. In the third stage, we combine the newly generated coarse annotations with the existing labeled dataset to achieve fine-grained functional recognition of buildings across multiple cities at a large scale. Extensive experiments demonstrate that our proposed framework exhibits superior performance in fine-grained functional recognition of buildings. Within the same categorization system, it achieves improvements of 7.6\% and 4.8\% compared to fully-supervised methods and state-of-the-art semi-supervised methods, respectively. Additionally, our method also performs well in cross-city scenarios, i.e., extending the model trained on OmniCity (New York) to new cities (i.e., Los Angeles and Boston) with different building function categorization systems. This study offers a new solution for large-scale multi-city applications with minimal annotation requirements, facilitating more efficient data updates and resource allocation in urban management.
翻訳日:2024-09-11 01:05:18 公開日:2024-09-09
# PanoSent:マルチモーダル対話型アスペクトベース感性分析のためのパノプティカル指数抽出ベンチマーク

PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2408.09481v2 )

ライセンス: Link先を確認
Meng Luo, Hao Fei, Bobo Li, Shengqiong Wu, Qian Liu, Soujanya Poria, Erik Cambria, Mong-Li Lee, Wynne Hsu, (参考訳) 既存のAspect-based Sentiment Analysis (ABSA) は、広範囲の努力と進歩を受けてきたが、マルチモーダル、会話コンテキスト、微粒度をシームレスに統合し、変化する感情のダイナミクスと認知因果的論理を包含する、より包括的な研究ターゲットを定義することにはまだギャップがある。 本稿では,2つの新しいサブタスクが提案されるマルチモーダル対話型ABSAを導入することで,ギャップを埋める。 1) マルチターンマルチモーダル対話からパノラマ的認識, 目標, アスペクト, 意見, 感情, 理性, 合理性を抽出する。 2) 因果関係から会話中における動的感情変化を検知する感性フリップ解析を行った。 タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。 課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。 提案手法の有効性を検証し,本手法の有効性を検証した。 この作業はABSAコミュニティの新たな時代を開くことが期待されており、私たちのコードとデータはhttps://PanoSent.github.io/で公開されている。

While existing Aspect-based Sentiment Analysis (ABSA) has received extensive effort and advancement, there are still gaps in defining a more holistic research target seamlessly integrating multimodality, conversation context, fine-granularity, and also covering the changing sentiment dynamics as well as cognitive causal rationales. This paper bridges the gaps by introducing a multimodal conversational ABSA, where two novel subtasks are proposed: 1) Panoptic Sentiment Sextuple Extraction, panoramically recognizing holder, target, aspect, opinion, sentiment, rationale from multi-turn multi-party multimodal dialogue. 2) Sentiment Flipping Analysis, detecting the dynamic sentiment transformation throughout the conversation with the causal reasons. To benchmark the tasks, we construct PanoSent, a dataset annotated both manually and automatically, featuring high quality, large scale, multimodality, multilingualism, multi-scenarios, and covering both implicit and explicit sentiment elements. To effectively address the tasks, we devise a novel Chain-of-Sentiment reasoning framework, together with a novel multimodal large language model (namely Sentica) and a paraphrase-based verification mechanism. Extensive evaluations demonstrate the superiority of our methods over strong baselines, validating the efficacy of all our proposed methods. The work is expected to open up a new era for the ABSA community, and thus all our codes and data are open at https://PanoSent.github.io/
翻訳日:2024-09-11 01:05:18 公開日:2024-09-09
# マイクロ波駆動Rydberg原子における折りたたみ多重性と隠れ臨界点

Folded multistability and hidden critical point in microwave-driven Rydberg atoms ( http://arxiv.org/abs/2408.10514v2 )

ライセンス: Link先を確認
Yu Ma, Bang Liu, Li-Hua Zhang, Ya-Jun Wang, Zheng-Yuan Zhang, Shi-Yao Shao, Qing Li, Han-Chao Chen, Jun Zhang, Tian-Yu Han, Qi-Feng Wang, Jia-Dou Nan, Yi-Ming Yin, Dong-Yang Zhu, Bao-Sen Shi, Dong-Sheng Ding, (参考訳) ライドバーグ原子とマイクロ波場の相互作用は、平衡、エキゾチック相、および多体物理学における臨界現象から複雑な力学を研究するための貴重な枠組みとなる。 このユニークな相互作用により、非線形性や相転移の様々な状態を探ることができる。 ここでは、Z3対称性の破れに伴うマイクロ波場強度の変化により、安定状態の状態から強い相互作用を持つリドベルク原子の多重性への相転移を観察する。 相転移の間、システムは隠れた臨界点を経験し、マルチスタブル状態の特定が困難である。 システムの初期状態を変更することで、隠れた多安定状態を特定し、位相遷移の隠れた軌跡を明らかにすることができ、隠れた臨界点まで追跡することができる。 さらに,スペクトルの複数相転移を観測し,高次対称性の破れを示唆する。 報告された結果は、散逸性リドバーグ原子系における乗算可能性の操作に光を当て、非平衡多体物理学の応用に期待を持てる。

The interactions between Rydberg atoms and microwave fields provide a valuable framework for studying the complex dynamics out of equilibrium, exotic phases, and critical phenomena in many-body physics. This unique interplay allows us to explore various regimes of nonlinearity and phase transitions. Here, we observe a phase transition from the state in the regime of bistability to that in multistability in strongly interacting Rydberg atoms by varying the microwave field intensity, accompanying with the breaking of Z3-symmetry. During the phase transition, the system experiences a hidden critical point, in which the multistable states are difficult to be identified. Through changing the initial state of system, we can identify a hidden multistable state and reveal a hidden trajectory of phase transition, allowing us to track to a hidden critical point. In addition, we observe multiple phase transitions in spectra, suggesting higher-order symmetry breaking. The reported results shed light on manipulating multistability in dissipative Rydberg atoms systems and hold promise in the applications of non-equilibrium many-body physics.
翻訳日:2024-09-11 01:05:18 公開日:2024-09-09
# RAGLAB:Retrieval-Augmented Generationのためのモジュール型で研究指向の統一フレームワーク

RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation ( http://arxiv.org/abs/2408.11381v2 )

ライセンス: Link先を確認
Xuanwang Zhang, Yunze Song, Yidong Wang, Shuyun Tang, Xinfeng Li, Zhengran Zeng, Zhen Wu, Wei Ye, Wenyuan Xu, Yue Zhang, Xinyu Dai, Shikun Zhang, Qingsong Wen, (参考訳) 大きな言語モデル(LLM)は対話、推論、知識保持における人間レベルの能力を示す。 しかし、最も先進的なLLMでさえ、幻覚やその知識のリアルタイム更新といった課題に直面している。 現在の研究では、LLMに外部知識(Retrieval Augmented Generation (RAG)と呼ばれる技術)を組み込むことによって、このボトルネックに対処している。 しかし、2つの重要な問題がRAGの開発を制約した。 第一に、新しいRAGアルゴリズム間の包括的および公正な比較の欠如が増している。 第2に,LlamaIndexやLangChainといったオープンソースツールでは,高レベルの抽象化が採用されているため,透明性の欠如や,新たなアルゴリズムや評価指標の開発能力の制限が実現している。 このギャップを埋めるために、モジュール的で研究指向のオープンソースライブラリであるRAGLABを紹介します。 RAGLABは既存の6つのアルゴリズムを再現し、RAGアルゴリズムを調査するための包括的なエコシステムを提供する。 RAGLABを利用して、10ベンチマークで6つのRAGアルゴリズムを公正に比較する。 RAGLABでは、様々なアルゴリズムの性能を効率よく比較し、新しいアルゴリズムを開発することができる。

Large Language Models (LLMs) demonstrate human-level capabilities in dialogue, reasoning, and knowledge retention. However, even the most advanced LLMs face challenges such as hallucinations and real-time updating of their knowledge. Current research addresses this bottleneck by equipping LLMs with external knowledge, a technique known as Retrieval Augmented Generation (RAG). However, two key issues constrained the development of RAG. First, there is a growing lack of comprehensive and fair comparisons between novel RAG algorithms. Second, open-source tools such as LlamaIndex and LangChain employ high-level abstractions, which results in a lack of transparency and limits the ability to develop novel algorithms and evaluation metrics. To close this gap, we introduce RAGLAB, a modular and research-oriented open-source library. RAGLAB reproduces 6 existing algorithms and provides a comprehensive ecosystem for investigating RAG algorithms. Leveraging RAGLAB, we conduct a fair comparison of 6 RAG algorithms across 10 benchmarks. With RAGLAB, researchers can efficiently compare the performance of various algorithms and develop novel algorithms.
翻訳日:2024-09-11 01:05:18 公開日:2024-09-09
# 復号時間学習と真正比較による大規模言語モデルのファクタリティ向上

Improving Factuality in Large Language Models via Decoding-Time Hallucinatory and Truthful Comparators ( http://arxiv.org/abs/2408.12325v2 )

ライセンス: Link先を確認
Dingkang Yang, Dongling Xiao, Jinjie Wei, Mingcheng Li, Zhaoyu Chen, Ke Li, Lihua Zhang, (参考訳) その顕著な能力にもかかわらず、Large Language Models (LLM) は、検証可能な事実、すなわち不信の幻覚内容に矛盾する応答を生成する傾向にある。 既存の取り組みは一般的に、モデルパラメータの最適化や意味表現の編集に重点を置いている。 加えて、幻覚は一般的に下流のタスクに多面的なパターンを示し、タスク全体でのモデル全体のパフォーマンスを制限する。 本稿では、応答幻覚を軽減するための比較器駆動型デコード時間(CDT)フレームワークを提案する。 まず,マルチタスク微調整サンプルを用いた幻覚・真理コンパレータを構築する。 本稿では,異なる幻覚や真実のパターンを個別のタスク命令で捉える能力を高めるための,専門家戦略のプロトタイプとガイダンスの組み合わせを提案する。 CDTは、ターゲットのLSMとこれらのコンパレータのロジット差を対比することにより、次点の予測を事実性-ロバスト分布に制約する。 複数の下流タスクに関する体系的な実験は、我々のフレームワークがモデルの性能と応答の事実性を著しく改善できることを示している。

Despite their remarkable capabilities, Large Language Models (LLMs) are prone to generate responses that contradict verifiable facts, i.e., unfaithful hallucination content. Existing efforts generally focus on optimizing model parameters or editing semantic representations, which compromise the internal factual knowledge of target LLMs. In addition, hallucinations typically exhibit multifaceted patterns in downstream tasks, limiting the model's holistic performance across tasks. In this paper, we propose a Comparator-driven Decoding-Time (CDT) framework to alleviate the response hallucination. Firstly, we construct hallucinatory and truthful comparators with multi-task fine-tuning samples. In this case, we present an instruction prototype-guided mixture of experts strategy to enhance the ability of the corresponding comparators to capture different hallucination or truthfulness patterns in distinct task instructions. CDT constrains next-token predictions to factuality-robust distributions by contrasting the logit differences between the target LLMs and these comparators. Systematic experiments on multiple downstream tasks show that our framework can significantly improve the model performance and response factuality.
翻訳日:2024-09-11 01:05:18 公開日:2024-09-09
# 変圧器を用いた時間的行動検出のための長期事前訓練

Long-term Pre-training for Temporal Action Detection with Transformers ( http://arxiv.org/abs/2408.13152v2 )

ライセンス: Link先を確認
Jihwan Kim, Miso Lee, Jae-Pil Heo, (参考訳) 時間的行動検出(TAD)は、現実の動画アプリケーションには難しいが、基本的なものである。 近年、DADのDETRベースのモデルは、そのユニークな利点により普及している。 しかし、トランスフォーマーは巨大なデータセットを必要とするため、残念なことにTADにおけるデータ不足は、深刻な変性を引き起こす。 本稿では,データ不足による2つの重要な問題,すなわち注意崩壊と不均衡性能について述べる。 そこで本研究では,変圧器に適した新たな事前学習戦略であるLong-Term Pre-Training(LTP)を提案する。 LTPには2つの主要コンポーネントがある。 1)クラスワイド合成。 2) 長期プレテキストタスク。 まず,対象クラスと非対象クラスのビデオスニペットを融合して,長大な映像特徴を合成する。 これらは、トリミングデータから生成されるにもかかわらず、TADで使用される未トリミングデータに類似している。 さらに、長期依存を学習するための2種類の長期前文タスクを考案した。 彼らは第2から第4の行動や短期の行動の発見などの長期的条件を課している。 広範囲にわたる実験により, DETR を用いた ActivityNet-v1.3 と THUMOS14 の最先端性能が大幅に向上した。 さらに, LTP はTAD におけるデータ不足問題を著しく軽減することを示した。

Temporal action detection (TAD) is challenging, yet fundamental for real-world video applications. Recently, DETR-based models for TAD have been prevailing thanks to their unique benefits. However, transformers demand a huge dataset, and unfortunately data scarcity in TAD causes a severe degeneration. In this paper, we identify two crucial problems from data scarcity: attention collapse and imbalanced performance. To this end, we propose a new pre-training strategy, Long-Term Pre-training (LTP), tailored for transformers. LTP has two main components: 1) class-wise synthesis, 2) long-term pretext tasks. Firstly, we synthesize long-form video features by merging video snippets of a target class and non-target classes. They are analogous to untrimmed data used in TAD, despite being created from trimmed data. In addition, we devise two types of long-term pretext tasks to learn long-term dependency. They impose long-term conditions such as finding second-to-fourth or short-duration actions. Our extensive experiments show state-of-the-art performances in DETR-based methods on ActivityNet-v1.3 and THUMOS14 by a large margin. Moreover, we demonstrate that LTP significantly relieves the data scarcity issues in TAD.
翻訳日:2024-09-11 01:05:18 公開日:2024-09-09
# 六方晶窒化ホウ素のスピン対からの量子放出

Quantum Emission from Coupled Spin Pairs in Hexagonal Boron Nitride ( http://arxiv.org/abs/2408.13515v2 )

ライセンス: Link先を確認
Song Li, Anton Pershin, Adam Gali, (参考訳) 広帯域ギャップ材料における光学的に対応可能な欠陥量子ビットは、室温量子情報処理の候補として好ましい。 2次元(2次元)ヘキサゴナル窒化ホウ素(hBN)は、量子メモリで明るい量子エミッタをホストし、2次元材料のポテンシャルを利用して欠陥量子ビットのスケーラブルな調製を実現する、魅力的な固体プラットフォームである。 室温の明るい欠陥量子ビットは近年hBNで報告されているが、その微視的起源は、光学遷移の性質と光学的に検出された磁気共鳴(ODMR)の性質が解明されていない。 ここでは、光スペクトルのばらつき、光寿命および量子エミッタのスペクトル安定性を、アブイニシアト計算を用いてhBN内のドナー・アクセプター対(DAP)に結合する。 DAPは、ドナーパートナーに依存しない非ゼロ磁場において、S=1/2基底状態の欠陥対のアクセプター対に対してODMR信号を示すことができる。 ドナー・アクセプターペアモデルとその遷移機構は、量子アプリケーションのためのhBNにおける欠陥量子ビット識別と性能最適化のためのレシピを提供する。

Optically addressable defect qubits in wide band gap materials are favorable candidates for room temperature quantum information processing. The two-dimensional (2D) hexagonal boron nitride (hBN) is an attractive solid state platform with a great potential for hosting bright quantum emitters with quantum memories with leveraging the potential of 2D materials for realizing scalable preparation of defect qubits. Although, room temperature bright defect qubits have been recently reported in hBN but their microscopic origin, the nature of the optical transition as well as the optically detected magnetic resonance (ODMR) have been remained elusive. Here we connect the variance in the optical spectra, optical lifetimes and spectral stability of quantum emitters to donor-acceptor pairs (DAP) in hBN by means of ab initio calculations. We find that DAPs can exhibit ODMR signal for the acceptor counterpart of the defect pair with S=1/2 ground state at non-zero magnetic fields depending on the donor partner. The donor-acceptor pair model and its transition mechanisms provide a recipe towards defect qubit identification and performance optimization in hBN for quantum applications.
翻訳日:2024-09-11 01:05:18 公開日:2024-09-09
# Instruct-SkillMix: LLMインストラクションチューニングのための強力なパイプライン

Instruct-SkillMix: A Powerful Pipeline for LLM Instruction Tuning ( http://arxiv.org/abs/2408.14774v2 )

ライセンス: Link先を確認
Simran Kaur, Simon Park, Anirudh Goyal, Sanjeev Arora, (参考訳) Instruct-SkillMixは、多種多様な高品質なSFTデータを作成するための自動化アプローチである。 Instruct-SkillMixパイプラインには2つのステージがあり、それぞれが既存の強力なLLMを利用する: 1)スキル抽出: LLMを使用して、既存のデータセットから、またはモデルを直接プロンプトすることで、命令追従のコア"スキル"を抽出する; (2)データ生成: 強力なLLMを使用して、ランダムに選択されたこれらのスキルのペアを示す(命令、応答)データを生成する。 ここでは、ランダムなスキルの組み合わせは多様性と難易度を促進する。 Instruct-SkillMixから生成されたデータに対するVanilla SFT(つまり、PPO、DPO、RLメソッド)は、AlpacaEval 2.0、MT-Bench、WildBenchなどのベンチマークに続く命令に強い利益をもたらす。 わずか4ドルのサンプルで、LLaMA-3-8B-BaseはAlpacaEval 2.0で42.76%の勝利率を達成した。 我々の知る限り、これはSFT(RL法を使用せず、Claude 3 OpusやLLaMA-3.1-405B-Instructのようなプロプライエタリなモデルと競合する全てのモデルで最先端のパフォーマンスを実現する。 アブレーション研究は、素直なクラウドソーシングによるオープンなインストラクションチューニングデータセットの作成が難しい理由を示唆している。 Instruct-SkillMixの例の20 %$で低品質の回答(シャーカー)を導入すると、パフォーマンスが低下し、時には壊滅的に低下する。 Instruct-SkillMixパイプラインは柔軟性があり、他の設定に適応できる。

We introduce Instruct-SkillMix, an automated approach for creating diverse, high quality SFT data. The Instruct-SkillMix pipeline involves two stages, each leveraging an existing powerful LLM: (1) Skill extraction: uses the LLM to extract core "skills" for instruction-following, either from existing datasets, or by directly prompting the model; (2) Data generation: uses the powerful LLM to generate (instruction, response) data that exhibit a randomly chosen pair of these skills. Here, the use of random skill combinations promotes diversity and difficulty. Vanilla SFT (i.e., no PPO, DPO, or RL methods) on data generated from Instruct-SkillMix leads to strong gains on instruction following benchmarks such as AlpacaEval 2.0, MT-Bench, and WildBench. With just $4$K examples, LLaMA-3-8B-Base achieves 42.76% length-controlled win rate on AlpacaEval 2.0. To our knowledge, this achieves state-of-the-art performance among all models that have only undergone SFT (no RL methods) and competes with proprietary models such as Claude 3 Opus and LLaMA-3.1-405B-Instruct. Ablation studies also suggest plausible reasons for why creating open instruction-tuning datasets via naive crowd-sourcing has proved difficult. Introducing low quality answers ("shirkers") in $20\%$ of Instruct-SkillMix examples causes performance to plummet, sometimes catastrophically. The Instruct-SkillMix pipeline is flexible and is adaptable to other settings.
翻訳日:2024-09-10 23:12:22 公開日:2024-09-09
# CL4KGE:知識グラフ埋め込みのためのカリキュラム学習方法

CL4KGE: A Curriculum Learning Method for Knowledge Graph Embedding ( http://arxiv.org/abs/2408.14840v2 )

ライセンス: Link先を確認
Yang Liu, Chuan Zhou, Peng Zhang, Yanan Cao, Yongchao Liu, Zhao Li, Hongyang Chen, (参考訳) 知識グラフ埋め込み(KGE)は、知識グラフ内のエンティティと関係の表現を学習するための基礎的なタスクであり、エンティティ間の論理的および記号的相互関係を近似するのに十分な表現を包括的に構築することを目的としている。 本稿では,KGsにおける各三重項(<$head entity, relation, tail entity$>$)の学習の難しさを理論的解析を用いて測定する。 本測定値に基づいて, 効率的な \textbf{C}urriculum \textbf{L}earning に基づくトレーニング戦略である \textbf{CL4KGE} を提案する。 この方法は、KGEモデルのトレーニングを支援する難易度測定器とトレーニングスケジューラを含む。 当社のアプローチは,KGEモデルの範囲内でプラグインとして機能する柔軟性を備えており,KGの大多数に適応性の利点が加えられている。 提案手法は一般的なKGEモデルで評価され, 提案手法が改良されていることを示す。 計量としてのZカウントの使用により、KGsにおける挑戦的な三重項の識別が可能となり、効果的なトレーニング戦略の策定に役立っている。

Knowledge graph embedding (KGE) constitutes a foundational task, directed towards learning representations for entities and relations within knowledge graphs (KGs), with the objective of crafting representations comprehensive enough to approximate the logical and symbolic interconnections among entities. In this paper, we define a metric Z-counts to measure the difficulty of training each triple ($<$head entity, relation, tail entity$>$) in KGs with theoretical analysis. Based on this metric, we propose \textbf{CL4KGE}, an efficient \textbf{C}urriculum \textbf{L}earning based training strategy for \textbf{KGE}. This method includes a difficulty measurer and a training scheduler that aids in the training of KGE models. Our approach possesses the flexibility to act as a plugin within a wide range of KGE models, with the added advantage of adaptability to the majority of KGs in existence. The proposed method has been evaluated on popular KGE models, and the results demonstrate that it enhances the state-of-the-art methods. The use of Z-counts as a metric has enabled the identification of challenging triples in KGs, which helps in devising effective training strategies.
翻訳日:2024-09-10 23:12:22 公開日:2024-09-09
# Diffusion-Occ:3D Point Cloud Completion via Occupancy Diffusion

Diffusion-Occ: 3D Point Cloud Completion via Occupancy Diffusion ( http://arxiv.org/abs/2408.14846v2 )

ライセンス: Link先を確認
Guoqing Zhang, Jian Liu, (参考訳) 点雲は3次元データを取得するのに不可欠であるが、解像度や閉塞などの制限により不完全性に悩まされることが多い。 従来のメソッドは通常、ポイントクラウド補完のための差別的なフレームワーク内のポイントベースのアプローチに依存します。 本稿では,Diffusion Point Cloud Completion のための新しいフレームワークである \textbf{Diffusion-Occ} を紹介する。 Diffusion-Occは2段階の粗大なアプローチを採用している。 第1段階では、粗度ボクセル予測ネットワーク(CDNet)が部分点を処理して粗度ボクセルを予測する。 第2段階では, 変圧器アーキテクチャに基づく条件付き占有拡散モデルであるOccGenを導入し, PVF(Point-Voxel Fuse)ブロックで拡張した。 このブロックは粗密度ボクセルと部分点を統合し、大域的特徴と局所的特徴の両方を利用して包括的完備化を行う。 占有領域をしきい値にすることで、それを完全点雲に変換する。 さらに,本手法では,訓練と推論の双方において,効果的な一段階サンプリングを可能にするために,多種多様な訓練混合物と効率的な拡散パラメタライゼーションを用いる。 実験の結果,Diffusion-Occは既存の差別的・生成的手法よりも優れていた。

Point clouds are crucial for capturing three-dimensional data but often suffer from incompleteness due to limitations such as resolution and occlusion. Traditional methods typically rely on point-based approaches within discriminative frameworks for point cloud completion. In this paper, we introduce \textbf{Diffusion-Occ}, a novel framework for Diffusion Point Cloud Completion. Diffusion-Occ utilizes a two-stage coarse-to-fine approach. In the first stage, the Coarse Density Voxel Prediction Network (CDNet) processes partial points to predict coarse density voxels, streamlining global feature extraction through voxel classification, as opposed to previous regression-based methods. In the second stage, we introduce the Occupancy Generation Network (OccGen), a conditional occupancy diffusion model based on a transformer architecture and enhanced by our Point-Voxel Fuse (PVF) block. This block integrates coarse density voxels with partial points to leverage both global and local features for comprehensive completion. By thresholding the occupancy field, we convert it into a complete point cloud. Additionally, our method employs diverse training mixtures and efficient diffusion parameterization to enable effective one-step sampling during both training and inference. Experimental results demonstrate that Diffusion-Occ outperforms existing discriminative and generative methods.
翻訳日:2024-09-10 23:12:22 公開日:2024-09-09
# YOLO-Stutter:エンド・ツー・エンド領域-ワイズ音声障害検出

YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection ( http://arxiv.org/abs/2408.15297v2 )

ライセンス: Link先を確認
Xuanru Zhou, Anshul Kashyap, Steve Li, Ayati Sharma, Brittany Morin, David Baquirin, Jet Vonk, Zoe Ezzes, Zachary Miller, Maria Luisa Gorno Tempini, Jiachen Lian, Gopala Krishna Anumanchipalli, (参考訳) 難解な音声検出は、混乱した音声分析と音声言語学習のボトルネックとなる。 現在の最先端モデルは、効率性と堅牢性に欠け、テンプレート設計に敏感なルールベースのシステムによって管理されている。 本稿では,時間的精度で不規則を検出する最初のエンドツーエンド手法であるYOLO-Stutterを提案する。 YOLO-Stutterは、不完全な音声テキストアライメントを入力とし、次いで空間的特徴集約器と時間的依存抽出器を用いて、領域境界とクラス予測を行う。 また, VCTK-Stutter と VCTK-TTS という2つのディフルエンシコーパスを導入し, 繰り返し, ブロック, 欠落, 置換, 延長などの自然な音声のディフルエンシをシミュレートした。 我々のエンドツーエンドの手法は、シミュレーションデータと実際の失語症音声の両方において、最小限のトレーニング可能なパラメータで最先端の性能を達成する。 コードとデータセットはhttps://github.com/rorizzz/YOLO-Stutterでオープンソース化される

Dysfluent speech detection is the bottleneck for disordered speech analysis and spoken language learning. Current state-of-the-art models are governed by rule-based systems which lack efficiency and robustness, and are sensitive to template design. In this paper, we propose YOLO-Stutter: a first end-to-end method that detects dysfluencies in a time-accurate manner. YOLO-Stutter takes imperfect speech-text alignment as input, followed by a spatial feature aggregator, and a temporal dependency extractor to perform region-wise boundary and class predictions. We also introduce two dysfluency corpus, VCTK-Stutter and VCTK-TTS, that simulate natural spoken dysfluencies including repetition, block, missing, replacement, and prolongation. Our end-to-end method achieves state-of-the-art performance with a minimum number of trainable parameters for on both simulated data and real aphasia speech. Code and datasets are open-sourced at https://github.com/rorizzz/YOLO-Stutter
翻訳日:2024-09-10 23:12:22 公開日:2024-09-09
# 時間的行動検出のための予測フィードバックDETR

Prediction-Feedback DETR for Temporal Action Detection ( http://arxiv.org/abs/2408.16729v2 )

ライセンス: Link先を確認
Jihwan Kim, Miso Lee, Cheol-Ho Cho, Jihyun Lee, Jae-Pil Heo, (参考訳) 時間的行動検出(TAD)は、現実世界の動画アプリケーションでは基本的だが困難である。 トランスのユニークな利点を生かして、様々なDETRベースのアプローチがTADで採用されている。 しかし, 最近, 自己注意時の注意崩壊は, DAD用DETRの性能劣化を引き起こすことが確認された。 本稿は,DETRを用いたTAD法におけるクロスアテンションにおけるアテンション崩壊問題に,新たに対処するものである。 さらに,クロスアテンションは予測と異なるパターンを示し,ショートカット現象を示した。 そこで本研究では, 崩壊を回復し, クロスアテンション, セルフアテンションを予測と整合させる予測フィードバックDETR(Pred-DETR)を提案する。 具体的には,予測の関係から,新たな予測フィードバック目標を導出する。 その結果、Pred-DETRは崩壊を著しく軽減し、THUMOS14、ActivityNet-v1.3、HACS、FineActionといった様々な挑戦的なベンチマークでDETRベースの手法の最先端のパフォーマンスを達成する。

Temporal Action Detection (TAD) is fundamental yet challenging for real-world video applications. Leveraging the unique benefits of transformers, various DETR-based approaches have been adopted in TAD. However, it has recently been identified that the attention collapse in self-attention causes the performance degradation of DETR for TAD. Building upon previous research, this paper newly addresses the attention collapse problem in cross-attention within DETR-based TAD methods. Moreover, our findings reveal that cross-attention exhibits patterns distinct from predictions, indicating a short-cut phenomenon. To resolve this, we propose a new framework, Prediction-Feedback DETR (Pred-DETR), which utilizes predictions to restore the collapse and align the cross- and self-attention with predictions. Specifically, we devise novel prediction-feedback objectives using guidance from the relations of the predictions. As a result, Pred-DETR significantly alleviates the collapse and achieves state-of-the-art performance among DETR-based methods on various challenging benchmarks including THUMOS14, ActivityNet-v1.3, HACS, and FineAction.
翻訳日:2024-09-10 23:12:22 公開日:2024-09-09
# HelixFold3による生体分子構造予測技術

Technical Report of HelixFold3 for Biomolecular Structure Prediction ( http://arxiv.org/abs/2408.16975v2 )

ライセンス: Link先を確認
Lihang Liu, Shanzhuo Zhang, Yang Xue, Xianbin Ye, Kunrui Zhu, Yuxin Li, Yang Liu, Wenlai Zhao, Hongkun Yu, Zhihua Wu, Xiaonan Zhang, Xiaomin Fang, (参考訳) AlphaFoldシリーズはタンパク質構造予測を顕著な精度で変換し、しばしば実験手法と一致する。 AlphaFold2、AlphaFold-Multimer、そして最新のAlphaFold3は、単一のタンパク質鎖、タンパク質複合体、生体分子構造を予測する重要なステップである。 AlphaFold2とAlphaFold-Multimerはオープンソースであり、迅速で信頼性の高い予測を促進する。 これらの課題に対処するため、PaddleHelixチームは、AlphaFold3の機能の再現を目的としたHelixFold3を開発している。 HelixFold3は、以前のモデルと広範なデータセットからの洞察を用いて、従来のリガンド、核酸、タンパク質の構造を予測するためにAlphaFold3に匹敵する精度を達成する。 HelixFold3の最初のリリースは、学術研究のためのGitHub上のオープンソースとして利用可能であり、生体分子研究の進歩と発見の加速を約束している。 また、PaddleHelixのウェブサイトでhttps://paddlehelix.baidu.com/app/all/helixfold3/forecast.comでオンラインサービスを提供しています。

The AlphaFold series has transformed protein structure prediction with remarkable accuracy, often matching experimental methods. AlphaFold2, AlphaFold-Multimer, and the latest AlphaFold3 represent significant strides in predicting single protein chains, protein complexes, and biomolecular structures. While AlphaFold2 and AlphaFold-Multimer are open-sourced, facilitating rapid and reliable predictions, AlphaFold3 remains partially accessible through a limited online server and has not been open-sourced, restricting further development. To address these challenges, the PaddleHelix team is developing HelixFold3, aiming to replicate AlphaFold3's capabilities. Using insights from previous models and extensive datasets, HelixFold3 achieves an accuracy comparable to AlphaFold3 in predicting the structures of conventional ligands, nucleic acids, and proteins. The initial release of HelixFold3 is available as open source on GitHub for academic research, promising to advance biomolecular research and accelerate discoveries. We also provide online service at PaddleHelix website at https://paddlehelix.baidu.com/app/all/helixfold3/forecast.
翻訳日:2024-09-10 23:12:22 公開日:2024-09-09
# カテゴリ的データクラスタリング:K-modesより25年

Categorical data clustering: 25 years beyond K-modes ( http://arxiv.org/abs/2408.17244v2 )

ライセンス: Link先を確認
Tai Dinh, Wong Hauchi, Philippe Fournier-Viger, Daniil Lisik, Minh-Quyet Ha, Hieu-Chi Dam, Van-Nam Huynh, (参考訳) 分類データのクラスタリングはコンピュータ科学において一般的で重要なタスクであり、様々なアプリケーションに深く影響する。 純粋に数値的なデータとは異なり、分類データは名目データのような固有の順序を欠くことが多く、順序データのような様々なレベルの順序を持つため、効率的な組織化と分析のために専門的な方法論が必要である。 このレビューは、K-modesの導入から始まる過去25年間のカテゴリデータクラスタリングを包括的に合成する。 これは、健康科学、自然科学、社会科学、教育、工学、経済学など様々な分野における分類学的データクラスタリングの重要な役割を解明するものである。 複数のベンチマーク分類データセット上で,クラスタリング手法を区別し,最新のアルゴリズムの性能を明らかにする。 最後に、この分野における課題と機会について論じる。

The clustering of categorical data is a common and important task in computer science, offering profound implications across a spectrum of applications. Unlike purely numerical data, categorical data often lack inherent ordering as in nominal data, or have varying levels of order as in ordinal data, thus requiring specialized methodologies for efficient organization and analysis. This review provides a comprehensive synthesis of categorical data clustering in the past twenty-five years, starting from the introduction of K-modes. It elucidates the pivotal role of categorical data clustering in diverse fields such as health sciences, natural sciences, social sciences, education, engineering and economics. Practical comparisons are conducted for algorithms having public implementations, highlighting distinguishing clustering methodologies and revealing the performance of recent algorithms on several benchmark categorical datasets. Finally, challenges and opportunities in the field are discussed.
翻訳日:2024-09-10 23:12:22 公開日:2024-09-09
# 大規模言語モデルを用いた情報抽出に関する実証的研究

An Empirical Study on Information Extraction using Large Language Models ( http://arxiv.org/abs/2409.00369v3 )

ライセンス: Link先を確認
Ridong Han, Chaohao Yang, Tao Peng, Prayag Tiwari, Xiang Wan, Lu Liu, Benyou Wang, (参考訳) ヒューマンライクな大規模言語モデル(LLM)、特にOpenAIのGPTファミリーで最も強力で人気のあるモデルは、多くの自然言語処理(NLP)関連タスクに非常に役立つことが証明されている。 そのため、構造化されていない平文から情報を抽出する基本的NLPタスクである情報抽出(IE)にLLMを適用する様々な試みがなされている。 LLMの情報抽出能力の最新の進歩を示すために,評価基準,ロバスト性,エラータイプという4つの視点から,GPT-4(この記事執筆時のGPTの最新版)の情報抽出能力を評価する。 この結果から, GPT-4 と State-of-the-art (SOTA) IE メソッドの間には, 可視的な性能差があることが示唆された。 この問題を軽減するために、LLMの人間的な特徴を考慮し、他のLLMやNLPタスクに一般化可能な一連の単純なプロンプトベースの手法の効果を提案、分析する。 GPT-4の情報抽出能力の向上に向け,本手法の有効性と今後の課題について検討した。

Human-like large language models (LLMs), especially the most powerful and popular ones in OpenAI's GPT family, have proven to be very helpful for many natural language processing (NLP) related tasks. Therefore, various attempts have been made to apply LLMs to information extraction (IE), which is a fundamental NLP task that involves extracting information from unstructured plain text. To demonstrate the latest representative progress in LLMs' information extraction ability, we assess the information extraction ability of GPT-4 (the latest version of GPT at the time of writing this paper) from four perspectives: Performance, Evaluation Criteria, Robustness, and Error Types. Our results suggest a visible performance gap between GPT-4 and state-of-the-art (SOTA) IE methods. To alleviate this problem, considering the LLMs' human-like characteristics, we propose and analyze the effects of a series of simple prompt-based methods, which can be generalized to other LLMs and NLP tasks. Rich experiments show our methods' effectiveness and some of their remaining issues in improving GPT-4's information extraction ability.
翻訳日:2024-09-10 22:55:38 公開日:2024-09-09
# 無線画像における身体と背景の分離 : 実用的なPythonコード

Separation of Body and Background in Radiological Images. A Practical Python Code ( http://arxiv.org/abs/2409.00442v2 )

ライセンス: Link先を確認
Seyedeh Fahimeh Hosseini, Faezeh Shalbafzadeh, Behzad Amanpour-Gharaei, (参考訳) MRI(MRI)やCT(CT)画像などの放射線画像は、典型的には身体部分と暗黒背景から構成される。 多くの分析では、体の部分と背景を分離する必要がある。 本稿では,2次元および3次元の放射線画像において,身体領域と背景領域を分離するように設計されたPythonコードについて述べる。 脳,頸部,腹部の様々な部位のMRIおよびCT画像を用いて,このアルゴリズムを検証した。 さらに、8ビット符号なし整数 (UINT8) フォーマットへのデータ変換のために調整された強度正規化法と外周制限法を導入し、その体-裏面分離への影響を検討した。 私たちのPythonコードは、適切な引用で使用できます。

Radiological images, such as magnetic resonance imaging (MRI) and computed tomography (CT) images, typically consist of a body part and a dark background. For many analyses, it is necessary to separate the body part from the background. In this article, we present a Python code designed to separate body and background regions in 2D and 3D radiological images. We tested the algorithm on various MRI and CT images of different body parts, including the brain, neck, and abdominal regions. Additionally, we introduced a method for intensity normalization and outlier restriction, adjusted for data conversion into 8-bit unsigned integer (UINT8) format, and examined its effects on body-background separation. Our Python code is available for use with proper citation.
翻訳日:2024-09-10 22:55:38 公開日:2024-09-09
# オンラインファンタジースポーツにおけるアップセールの影響評価

Assessing the Impact of Upselling in Online Fantasy Sports ( http://arxiv.org/abs/2409.00629v2 )

ライセンス: Link先を確認
Aayush Chaudhary, (参考訳) 本研究では,ユーザエンゲージメントに対するアップセールの影響について検討する。 我々は,ファンタジースポーツプラットフォームDream11上でのユーザの預金行動のモデル化を行う。 次に, 強度パラメーターを用いて, 販売効果を評価する実験フレームワークを開発した。 ユーザ寄託行動のライブ実験により, 利用者のリコールが減少し, 売り上げ増加がみられた。 以上の結果から,販売力の増加はユーザの預金量を増加させ,同時にユーザの満足度やコンバージョン率を低下させることが示唆された。 我々は、堅牢なカウンターファクト分析を行い、因果メタラーナーを訓練し、最適なトレードオフ点に達するために、利用者の誇張強度レベルをパーソナライズする。

This study explores the impact of upselling on user engagement. We model users' deposit behaviour on the fantasy sports platform Dream11. Subsequently, we develop an experimental framework to evaluate the effect of upselling using an intensity parameter. Our live experiments on user deposit behaviour reveal decreased user recall with heightened upselling intensity. Our findings indicate that increased upselling intensity improves user deposit metrics and concurrently diminishes user satisfaction and conversion rates. We conduct robust counterfactual analysis and train causal meta-learners to personalise users' upselling intensity levels to reach an optimal trade-off point.
翻訳日:2024-09-10 22:55:38 公開日:2024-09-09
# OD-VAE:潜時ビデオ拡散モデル改善のための全次元ビデオ圧縮機

OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model ( http://arxiv.org/abs/2409.01199v2 )

ライセンス: Link先を確認
Liuhan Chen, Zongjian Li, Bin Lin, Bin Zhu, Qian Wang, Shenghai Yuan, Xing Zhou, Xinhua Cheng, Li Yuan, (参考訳) 可変オートエンコーダ (VAE) は遅延表現に動画を圧縮し、遅延ビデオ拡散モデル (LVDM) に先行する重要なコンポーネントである。 再現品質が同じであれば、ビデオに対するVAEの圧縮が十分であればなるほど、LVDMはより効率的になります。 しかし、ほとんどのLVDMは、ビデオの圧縮が空間次元でのみ行われ、時間次元ではしばしば無視される2D画像VAEを使用している。 正確な再現を約束しながら、より簡潔な潜在表現を得るために、VAE内のビデオの時間的圧縮を実行する方法はめったにない。 このギャップを埋めるために、時間的・空間的に動画を圧縮できるOD-VAEという全次元圧縮VAEを提案する。 OD-VAEのより十分な圧縮は、ビデオ再構成に大きな課題をもたらすが、細かな設計によって高い再構成精度を達成することができる。 映像再構成品質と圧縮速度のトレードオフを改善するために、OD-VAEの4つの変種を導入分析する。 さらに、OD-VAEをより効率的にトレーニングするための新しいテール初期化を設計し、GPUメモリに制限のある任意の長さの動画をOD-VAEが扱えるようにするための新しい推論戦略を提案する。 ビデオ再構成とLVDMに基づくビデオ生成に関する総合的な実験により,提案手法の有効性と有効性を示した。

Variational Autoencoder (VAE), compressing videos into latent representations, is a crucial preceding component of Latent Video Diffusion Models (LVDMs). With the same reconstruction quality, the more sufficient the VAE's compression for videos is, the more efficient the LVDMs are. However, most LVDMs utilize 2D image VAE, whose compression for videos is only in the spatial dimension and often ignored in the temporal dimension. How to conduct temporal compression for videos in a VAE to obtain more concise latent representations while promising accurate reconstruction is seldom explored. To fill this gap, we propose an omni-dimension compression VAE, named OD-VAE, which can temporally and spatially compress videos. Although OD-VAE's more sufficient compression brings a great challenge to video reconstruction, it can still achieve high reconstructed accuracy by our fine design. To obtain a better trade-off between video reconstruction quality and compression speed, four variants of OD-VAE are introduced and analyzed. In addition, a novel tail initialization is designed to train OD-VAE more efficiently, and a novel inference strategy is proposed to enable OD-VAE to handle videos of arbitrary length with limited GPU memory. Comprehensive experiments on video reconstruction and LVDM-based video generation demonstrate the effectiveness and efficiency of our proposed methods.
翻訳日:2024-09-10 22:55:38 公開日:2024-09-09
# ガイド・アンド・リスケール:効果的なチューニング自由な実画像編集のためのセルフガイド機構

Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing ( http://arxiv.org/abs/2409.01322v2 )

ライセンス: Link先を確認
Vadim Titov, Madina Khalmatova, Alexandra Ivanova, Dmitry Vetrov, Aibek Alanov, (参考訳) 近年の大規模テキスト・画像生成モデルの発展にもかかわらず、実際の画像をこれらのモデルで操作することは難しい問題である。 既存の編集方法の主な制限は、入力画像のイメージ固有の外観を維持するために、幅広い画像編集において一貫した品質で実行できないか、あるいは時間を要するハイパーパラメータチューニングや拡散モデルの微調整を必要とすることである。 本稿では,誘導機構による拡散サンプリングプロセスの修正に基づく新しい手法を提案する。 本研究では,入力画像の全体構造と編集すべきでない局所的な外観を保存するための自己誘導技術について検討する。 特に,画像の局所的および大域的構造を保存することを目的としたレイアウト保存エネルギー関数を明示的に導入する。 さらに,本研究では,世代間における分類器フリーガイダンスとガイドの基準のバランスをとることで,雑音分布の保存を可能にするノイズ再スケーリング機構を提案する。 このような誘導的アプローチは、拡散モデルと正確な反転過程を微調整する必要はない。 その結果,提案手法は高速かつ高品質な編集機構を提供する。 本実験では,人為的評価と定量的解析により,提案手法により,人間に好適な編集が可能であり,原画像の編集品質と保存のトレードオフが良好であることを示す。 私たちのコードはhttps://github.com/FusionBrainLab/Guide-and-Rescale.comで利用可能です。

Despite recent advances in large-scale text-to-image generative models, manipulating real images with these models remains a challenging problem. The main limitations of existing editing methods are that they either fail to perform with consistent quality on a wide range of image edits or require time-consuming hyperparameter tuning or fine-tuning of the diffusion model to preserve the image-specific appearance of the input image. We propose a novel approach that is built upon a modified diffusion sampling process via the guidance mechanism. In this work, we explore the self-guidance technique to preserve the overall structure of the input image and its local regions appearance that should not be edited. In particular, we explicitly introduce layout-preserving energy functions that are aimed to save local and global structures of the source image. Additionally, we propose a noise rescaling mechanism that allows to preserve noise distribution by balancing the norms of classifier-free guidance and our proposed guiders during generation. Such a guiding approach does not require fine-tuning the diffusion model and exact inversion process. As a result, the proposed method provides a fast and high-quality editing mechanism. In our experiments, we show through human evaluation and quantitative analysis that the proposed method allows to produce desired editing which is more preferable by humans and also achieves a better trade-off between editing quality and preservation of the original image. Our code is available at https://github.com/FusionBrainLab/Guide-and-Rescale.
翻訳日:2024-09-10 22:55:38 公開日:2024-09-09
# DiffCSG:ラスタ化による差別化可能なCSG

DiffCSG: Differentiable CSG via Rasterization ( http://arxiv.org/abs/2409.01421v2 )

ライセンス: Link先を確認
Haocheng Yuan, Adrien Bousseau, Hao Pan, Chengquan Zhang, Niloy J. Mitra, Changjian Li, (参考訳) 異なるレンダリングは、シーンパラメータ(形状、材料、照明)を最適化し、ターゲット画像に最適なものにすることができるため、逆レンダリングと機械学習の鍵となる要素である。 異なるレンダリングでは、各シーンパラメータは、異なる操作を通じてピクセル値に関連付ける必要がある。 3Dメッシュレンダリングアルゴリズムは異なる方法で実装されているが、これらのアルゴリズムは一般的な形状のパラメトリック表現であるコンストラクティブ・ソリッド・ジオメトリー(CSG)に直接拡張されない。 CSGモデルを異なる方法でレンダリングするアルゴリズムDiffCSGを提案する。 我々のアルゴリズムはCSGラスタライゼーションに基づいており、結果として得られるメッシュを明示的に計算することなくプリミティブ間のブール演算の結果を表示し、ブラックボックスメッシュ処理をバイパスする。 本稿では,CSGラスタ化を異なるレンダリングパイプライン内に実装する方法について述べる。 我々のアルゴリズムはシンプルで高速で、現代の機械学習に簡単に組み込むことができ、CSGプリミティブの直接および画像ベースの編集を含む、コンピュータ支援設計のための幅広いアプリケーションを可能にする。 コードとデータ:https://yyyyyhc.github.io/DiffCSG/。

Differentiable rendering is a key ingredient for inverse rendering and machine learning, as it allows to optimize scene parameters (shape, materials, lighting) to best fit target images. Differentiable rendering requires that each scene parameter relates to pixel values through differentiable operations. While 3D mesh rendering algorithms have been implemented in a differentiable way, these algorithms do not directly extend to Constructive-Solid-Geometry (CSG), a popular parametric representation of shapes, because the underlying boolean operations are typically performed with complex black-box mesh-processing libraries. We present an algorithm, DiffCSG, to render CSG models in a differentiable manner. Our algorithm builds upon CSG rasterization, which displays the result of boolean operations between primitives without explicitly computing the resulting mesh and, as such, bypasses black-box mesh processing. We describe how to implement CSG rasterization within a differentiable rendering pipeline, taking special care to apply antialiasing along primitive intersections to obtain gradients in such critical areas. Our algorithm is simple and fast, can be easily incorporated into modern machine learning setups, and enables a range of applications for computer-aided design, including direct and image-based editing of CSG primitives. Code and data: https://yyyyyhc.github.io/DiffCSG/.
翻訳日:2024-09-10 22:55:38 公開日:2024-09-09
# CNNにおける全ネットワークフィルタリングへの階層的アプローチ

A Greedy Hierarchical Approach to Whole-Network Filter-Pruning in CNNs ( http://arxiv.org/abs/2409.03777v2 )

ライセンス: Link先を確認
Kiran Purohit, Anurag Reddy Parvathgari, Sourangshu Bhattacharya, (参考訳) 多くのコンピュータビジョンタスクにおいて、ディープ畳み込みニューラルネットワーク(CNN)は印象的なパフォーマンスを実現している。 しかし、それらの大きなモデルサイズは、大量の計算資源を必要とするため、既存の事前訓練されたCNNからの冗長なフィルタをプルーニングすることが、リソース制約のあるデバイスの効率的なモデルを開発する上で必須の課題である。 全体ネットワークフィルタプルーニングアルゴリズムは、各層から異なるフィルタ分を抽出するので、柔軟性が向上する。 現在のネットワーク全体のプルーニング手法は、トレーニングデータセットを使用して各プルーニングフィルタの損失を計算する必要があるか、あるいは各レイヤのプルーニング率を決定するための様々なヒューリスティック/学習基準を使用する必要があるため、計算的に高価である。 本稿では,全ネットワークフィルタプルーニングにおける2段階階層的手法を提案する。 低レベルのアルゴリズム(フィルタプルーニングと呼ばれる)は、フィルタ重みの線形近似に基づくスパース近似の定式化を用いる。 直交的追従に基づく欲求選択と、欲求的後進プルーニングアプローチの2つのアルゴリズムを探索する。 後方プルーニングアルゴリズムは、新しいクローズドフォームエラー基準を用いて、各段階で最適なフィルタを効率よく選択し、アルゴリズム全体をはるかに高速にする。 高レベルアルゴリズム(層選択と呼ばれる)は、グローバルプルーニング基準を用いて最良プルーニングされた層(フィルタ選択アルゴリズムを用いてプルーニングする)を強引に選択する。 本研究では,(1)階層的相対誤差(HBGS)と(2)最終分類誤差(HBGTS)の2つの異なるグローバルプルーニング基準のアルゴリズムを提案する。 我々のアルゴリズムは、ResNet18、ResNet32、ResNet56、VGG16、ResNext101の最先端のプルーニング手法より優れている。 本稿では,ResNext101のRAM要件を7.6GBから1.5GBに削減し,CIFAR-10の精度を損なうことなくFLOPSの94%削減を実現する。

Deep convolutional neural networks (CNNs) have achieved impressive performance in many computer vision tasks. However, their large model sizes require heavy computational resources, making pruning redundant filters from existing pre-trained CNNs an essential task in developing efficient models for resource-constrained devices. Whole-network filter pruning algorithms prune varying fractions of filters from each layer, hence providing greater flexibility. Current whole-network pruning methods are either computationally expensive due to the need to calculate the loss for each pruned filter using a training dataset, or use various heuristic / learned criteria for determining the pruning fractions for each layer. This paper proposes a two-level hierarchical approach for whole-network filter pruning which is efficient and uses the classification loss as the final criterion. The lower-level algorithm (called filter-pruning) uses a sparse-approximation formulation based on linear approximation of filter weights. We explore two algorithms: orthogonal matching pursuit-based greedy selection and a greedy backward pruning approach. The backward pruning algorithm uses a novel closed-form error criterion for efficiently selecting the optimal filter at each stage, thus making the whole algorithm much faster. The higher-level algorithm (called layer-selection) greedily selects the best-pruned layer (pruning using the filter-selection algorithm) using a global pruning criterion. We propose algorithms for two different global-pruning criteria: (1) layer-wise relative error (HBGS), and (2) final classification error (HBGTS). Our suite of algorithms outperforms state-of-the-art pruning methods on ResNet18, ResNet32, ResNet56, VGG16, and ResNext101. Our method reduces the RAM requirement for ResNext101 from 7.6 GB to 1.5 GB and achieves a 94% reduction in FLOPS without losing accuracy on CIFAR-10.
翻訳日:2024-09-10 22:55:38 公開日:2024-09-09
# MRStyle:マルチモード参照によるカラースタイル転送のための統一フレームワーク

MRStyle: A Unified Framework for Color Style Transfer with Multi-Modality Reference ( http://arxiv.org/abs/2409.05250v1 )

ライセンス: Link先を確認
Jiancheng Huang, Yu Gao, Zequn Jie, Yujie Zhong, Xintong Han, Lin Ma, (参考訳) 本稿では、画像やテキストを含む多モード参照を用いたカラースタイルの転送を可能にする、総合的なフレームワークであるMRStyleを紹介する。 両モードの統一型特徴空間を実現するために、まず、画像参照のためのスタイリングされた3Dルックアップテーブルを生成するIRStyleと呼ばれるニューラルネットワークを開発する。 これにより、視覚的アーティファクトの排除、メモリ使用率の低い高解像度イメージの効率的な処理、カラースタイルの大幅な変化がある状況においてもスタイル一貫性の維持という、3つの大きなメリットが得られる。 テキスト参照では、安定拡散前のテキスト特徴とIRStyleのスタイル特徴とを一致させて、テキスト誘導カラースタイル転送(TRStyle)を行う。 我々のTRStyle法はトレーニングと推論の両方において極めて効率的であり、オープンセットのテキスト誘導転送結果を生成する。 画像およびテキスト設定の広汎な実験により,提案手法は定性評価と定量的評価の両方において,最先端の手法よりも優れていることが示された。

In this paper, we introduce MRStyle, a comprehensive framework that enables color style transfer using multi-modality reference, including image and text. To achieve a unified style feature space for both modalities, we first develop a neural network called IRStyle, which generates stylized 3D lookup tables for image reference. This is accomplished by integrating an interaction dual-mapping network with a combined supervised learning pipeline, resulting in three key benefits: elimination of visual artifacts, efficient handling of high-resolution images with low memory usage, and maintenance of style consistency even in situations with significant color style variations. For text reference, we align the text feature of stable diffusion priors with the style feature of our IRStyle to perform text-guided color style transfer (TRStyle). Our TRStyle method is highly efficient in both training and inference, producing notable open-set text-guided transfer results. Extensive experiments in both image and text settings demonstrate that our proposed method outperforms the state-of-the-art in both qualitative and quantitative evaluations.
翻訳日:2024-09-10 16:22:22 公開日:2024-09-09
# エポキシフリースケーラブル量子センサ用超高真空エンベロープに陽極結合したフォトニック集積回路を用いた原子尋問の実証

Demonstration of atom interrogation using photonic integrated circuits anodically bonded to ultra-high vacuum envelopes for epoxy-free scalable quantum sensors ( http://arxiv.org/abs/2409.05254v1 )

ライセンス: Link先を確認
Sterling E. McBride, Cale M. Gentry, Christopher Holland, Colby Bellew, Kaitlin R. Moore, Alan Braun, (参考訳) 量子センサへのフォトニック集積回路(PIC)の信頼性の高い統合は、センサーのサイズを大幅に削減し、製造のスケーラビリティを緩和し、センサーが高加速度、振動、温度変化を受けるアプリケーションの性能を向上させる可能性がある。 従来の量子センサーの集合では、自由空間光学は不正確な点と温度依存的な不整合が生じる。 さらに、センサ真空封筒内の自由空間光学またはPICの接点にエポキシまたはシール剤を用いると、センサ真空劣化が生じ、スケールが困難になる。 本稿では,PICと真空封筒のアノード結合によるヘメティック結合について述べる。 本研究では,(1)格子放出プローブを用いた冷原子試料の分光法,(2)露光した隆起導波管からのエバネッセンス場を用いたアルカリ原子の分光法,の2つの実験により,この組立の有用性を実証する。 この研究は量子センサー製造のスケーラビリティへの道の鍵となる過程を示している

Reliable integration of photonic integrated circuits (PICs) into quantum sensors has the potential to drastically reduce sensor size, ease manufacturing scalability, and improve performance in applications where the sensor is subject to high accelerations, vibrations, and temperature changes. In a traditional quantum sensor assembly, free-space optics are subject to pointing inaccuracies and temperature-dependent misalignment. Moreover, the use of epoxy or sealants for affixing either free-space optics or PICs within a sensor vacuum envelope leads to sensor vacuum degradation and is difficult to scale. In this paper, we describe the hermetic integration of a PIC with a vacuum envelope via anodic bonding. We demonstrate utility of this assembly with two proof-of-concept atom-interrogation experiments: (1) spectroscopy of a cold-atom sample using a grating-emitted probe; (2) spectroscopy of alkali atoms using an evanescent field from an exposed ridge waveguide. This work shows a key process step on a path to quantum sensor manufacturing scalability
翻訳日:2024-09-10 16:22:22 公開日:2024-09-09
# 仮想染色による肺・心臓移植生検のラベルフリー評価

Label-free evaluation of lung and heart transplant biopsies using virtual staining ( http://arxiv.org/abs/2409.05255v1 )

ライセンス: Link先を確認
Yuzhu Li, Nir Pillar, Tairan Liu, Guangdong Ma, Yuxuan Qi, Kevin de Haan, Yijie Zhang, Xilin Yang, Adrian J. Correa, Guangqian Xiao, Kuang-Yu Jen, Kenneth A. Iczkowski, Yulun Wu, William Dean Wallace, Aydogan Ozcan, (参考訳) 臓器移植は、最終段階の臓器不全に対する主要な治療戦略として機能する。 しかし,アログラフト拒絶は臓器移植の一般的な合併症である。 移植拒絶のタイムリーな検出と診断には組織学的評価が不可欠であり,ゴールド・スタンダードのままである。 それにもかかわらず、従来の組織化学的染色プロセスは時間がかかり、コストがかかり、労働集約的である。 本稿では, 肺・心臓移植生検のための仮想染色ニューラルネットワークのパネルについて紹介する。 具体的には,Hematoxylin and Eosin (H&E), Masson's Trichrome (MT), Elastic Verhoeff-Van Gieson (EVG) 染色,およびH&EおよびMT染色を実質的に生成した。 その後の3人の病理学者によるブラインド評価の結果、仮想染色ネットワークは、様々な組織の特徴にまたがる、良質な組織化学的特徴によく似た、高品質な組織像を連続的に生成することが確認された。 移植生検の評価に仮想染色画像を使用することで、従来の組織化学的染色で得られたものと同等の診断結果が得られ、肺サンプルの82.4%、心臓サンプルの91.7%が一致した。 さらに、仮想染色モデルは、同じ自己蛍光入力から複数の染色を生成し、従来のワークフローで染色された隣り合う部分の間で観察される構造的ミスマッチを排除し、組織、専門家の時間、染色コストを節約する。

Organ transplantation serves as the primary therapeutic strategy for end-stage organ failures. However, allograft rejection is a common complication of organ transplantation. Histological assessment is essential for the timely detection and diagnosis of transplant rejection and remains the gold standard. Nevertheless, the traditional histochemical staining process is time-consuming, costly, and labor-intensive. Here, we present a panel of virtual staining neural networks for lung and heart transplant biopsies, which digitally convert autofluorescence microscopic images of label-free tissue sections into their brightfield histologically stained counterparts, bypassing the traditional histochemical staining process. Specifically, we virtually generated Hematoxylin and Eosin (H&E), Masson's Trichrome (MT), and Elastic Verhoeff-Van Gieson (EVG) stains for label-free transplant lung tissue, along with H&E and MT stains for label-free transplant heart tissue. Subsequent blind evaluations conducted by three board-certified pathologists have confirmed that the virtual staining networks consistently produce high-quality histology images with high color uniformity, closely resembling their well-stained histochemical counterparts across various tissue features. The use of virtually stained images for the evaluation of transplant biopsies achieved comparable diagnostic outcomes to those obtained via traditional histochemical staining, with a concordance rate of 82.4% for lung samples and 91.7% for heart samples. Moreover, virtual staining models create multiple stains from the same autofluorescence input, eliminating structural mismatches observed between adjacent sections stained in the traditional workflow, while also saving tissue, expert time, and staining costs.
翻訳日:2024-09-10 16:22:22 公開日:2024-09-09
# UPCS:対話生成のための曖昧なペルソナ構築

UPCS: Unbiased Persona Construction for Dialogue Generation ( http://arxiv.org/abs/2409.05257v1 )

ライセンス: Link先を確認
Kuiyun Chen, Yanbin Wei, (参考訳) 対話やストーリーテリングシステムのようなナラティブシステムは、パーソナライズされたインタラクションを強化するためにペルソナプロファイルを利用することが多い。 既存のペルソナプロファイルは、しばしばバイアスを示し、システムの完全性と公平性にリスクを及ぼす。 そこで本研究では, キャラクタ記述を8次元に分類する UPCS フレームワークを提案する。 UPCSの精度,多様性,バイアス除去,ユーザ満足度は,信頼性の高い物語システムにおけるペルソナ構築の著しい進歩を示している。

Narrative systems, such as dialogue and storytelling systems, often utilize persona profiles to enhance personalized interactions. Existing persona profiles frequently exhibit biases, posing risks to system integrity and fairness. To address this, we introduce the UPCS framework, which categorizes character descriptions into eight dimensions, including bias mitigation strategies. Experimental results demonstrate UPCS's superiority in accuracy, diversity, bias elimination, and user satisfaction, marking a significant advancement in persona construction for reliable narrative systems.
翻訳日:2024-09-10 16:22:22 公開日:2024-09-09
# 機械学習研究の自動化に向けて

Towards Automated Machine Learning Research ( http://arxiv.org/abs/2409.05258v1 )

ライセンス: Link先を確認
Shervin Ardeshir, (参考訳) 本稿では,大規模言語モデル(LLM)によって促進されるコンポーネントレベルの革新を通じて,機械学習研究の段階的な進歩を自動化するためのトップダウンアプローチについて検討する。 本フレームワークは,新しいコンポーネントを体系的に生成し,その実現可能性を評価し,既存のベースラインに対して性能を評価する。 このアプローチの重要な違いは、これらの新しいコンポーネントの生成方法にある。 従来のAutoMLやNASメソッドと異なり、事前に定義されたハードコードされたベースコンポーネントよりもボトムアップの組合せ探索に頼っている場合が多いが、この手法はLLMに埋め込まれたクロスドメイン知識を活用して、ハードコードされた事前定義セットに制限されないかもしれない新しいコンポーネントを提案する。 予測仮説の優先順位付けに報奨モデルを導入することにより,仮説生成および評価プロセスの効率化を目指す。 このアプローチが新たな探索道を提供し、この分野における対話に貢献することを願っている。

This paper explores a top-down approach to automating incremental advances in machine learning research through component-level innovation, facilitated by Large Language Models (LLMs). Our framework systematically generates novel components, validates their feasibility, and evaluates their performance against existing baselines. A key distinction of this approach lies in how these novel components are generated. Unlike traditional AutoML and NAS methods, which often rely on a bottom-up combinatorial search over predefined, hardcoded base components, our method leverages the cross-domain knowledge embedded in LLMs to propose new components that may not be confined to any hard-coded predefined set. By incorporating a reward model to prioritize promising hypotheses, we aim to improve the efficiency of the hypothesis generation and evaluation process. We hope this approach offers a new avenue for exploration and contributes to the ongoing dialogue in the field.
翻訳日:2024-09-10 16:22:22 公開日:2024-09-09
# ビデオ分類のためのスケーラブルフレームサンプリング:検索空間を縮小した半最適手法

Scalable Frame Sampling for Video Classification: A Semi-Optimal Policy Approach with Reduced Search Space ( http://arxiv.org/abs/2409.05260v1 )

ライセンス: Link先を確認
Junho Lee, Jeongwoo Shin, Seung Woo Ko, Seongsu Ha, Joonseok Lee, (参考訳) T$フレームを持つビデオが与えられた場合、フレームサンプリングは固定ビデオ分類器のパフォーマンスを最大化するために$N \ll T$フレームを選択するタスクである。 ブルートフォース検索だけでなく、既存のほとんどのメソッドは、その巨大な検索スペースである$\binom{T}{N}$(特に$N$が大きくなると)に悩まされる。 この課題に対処するために、探索空間を$O(T^N)$から$O(T)$へ還元する新しい視点を導入する。 O(T^N)$空間全体を探索する代わりに、提案した半最適ポリシーは、フレーム毎の信頼度を用いて各フレームの独立推定値に基づいて上位の$N$フレームを選択する。 我々は, 準最適政策が, 特に実践的な条件下で, 最適政策を効率的に近似できることを確認した。 さらに、さまざまなデータセットやモデルアーキテクチャに関する広範な実験を通じて、準最適ポリシーの学習によって、N$とT$のサイズに関わらず、安定かつ高いパフォーマンスが保証されることを示した。

Given a video with $T$ frames, frame sampling is a task to select $N \ll T$ frames, so as to maximize the performance of a fixed video classifier. Not just brute-force search, but most existing methods suffer from its vast search space of $\binom{T}{N}$, especially when $N$ gets large. To address this challenge, we introduce a novel perspective of reducing the search space from $O(T^N)$ to $O(T)$. Instead of exploring the entire $O(T^N)$ space, our proposed semi-optimal policy selects the top $N$ frames based on the independently estimated value of each frame using per-frame confidence, significantly reducing the computational complexity. We verify that our semi-optimal policy can efficiently approximate the optimal policy, particularly under practical settings. Additionally, through extensive experiments on various datasets and model architectures, we demonstrate that learning our semi-optimal policy ensures stable and high performance regardless of the size of $N$ and $T$.
翻訳日:2024-09-10 16:22:22 公開日:2024-09-09
# サンプルからのサブモジュールシークエンシングの学習

Learning Submodular Sequencing from Samples ( http://arxiv.org/abs/2409.05265v1 )

ライセンス: Link先を確認
Jing Yuan, Shaojie Tang, (参考訳) 本稿では, 逐次部分モジュラー最大化の問題に対処し, 複合部分モジュラー関数を最適化するために, 列内の項目の選択とランク付けを行う。 ユーティリティ関数へのアクセスを前提とする以前の作業のほとんどとは対照的に、我々はサンプルのセットのみを与えられると仮定する。 各サンプルは、アイテムとその関連ユーティリティのランダムなシーケンスを含む。 本稿では,2段階の均一分布から得られる多項式的なサンプルを与えられた場合,各部分モジュラ関数の曲率に依存する近似比が得られるアルゴリズムを提案する。 本研究は,オンライン小売プラットフォーム上での製品ランキングなど,実用機能に関する知識の完全化が不可能な,さまざまな現実シナリオに適用した。 我々のアルゴリズムはこのような文脈で経験的に有用な解を与えるので、限られたデータがタスクのシーケンシングに非常に役立つことが証明できる。 技術的観点から、我々の結果は、セット関数の最適化からシーケンス依存関数への一般化により、「サンプルからの最適化」に関する先行研究を拡張した。

This paper addresses the problem of sequential submodular maximization: selecting and ranking items in a sequence to optimize some composite submodular function. In contrast to most of the previous works, which assume access to the utility function, we assume that we are given only a set of samples. Each sample includes a random sequence of items and its associated utility. We present an algorithm that, given polynomially many samples drawn from a two-stage uniform distribution, achieves an approximation ratio dependent on the curvature of individual submodular functions. Our results apply in a wide variety of real-world scenarios, such as ranking products in online retail platforms, where complete knowledge of the utility function is often impossible to obtain. Our algorithm gives an empirically useful solution in such contexts, thus proving that limited data can be of great use in sequencing tasks. From a technical perspective, our results extend prior work on ``optimization from samples'' by generalizing from optimizing a set function to a sequence-dependent function.
翻訳日:2024-09-10 16:22:22 公開日:2024-09-09
# 低照度画像強調のためのチャネル補正とガンマ補正による大気散乱駆動注意の再考

Rethinking the Atmospheric Scattering-driven Attention via Channel and Gamma Correction Priors for Low-Light Image Enhancement ( http://arxiv.org/abs/2409.05274v1 )

ライセンス: Link先を確認
Shyang-En Weng, Cheng-Yen Hsiao, Shaou-Gang Miaou, (参考訳) 低照度画像の強調は、深層学習モデルの計算負担を伴うエッジデバイスの軽量設計と同様に、コンピュータビジョンにおいて依然として重要な課題である。 本稿では,CPGA-Net+と呼ばれるChannel-Prior and Gamma-Estimation Network(CPGA-Net)の拡張版を紹介する。 これらのイノベーションにより、CPGA-Net+は、高効率で軽量な最先端手法を超越して、画像強調タスクにおける優れたパフォーマンスを実現することができる。 本研究は,本モデルの有効性を実証し,資源制約環境における可能性を示すものである。

Low-light image enhancement remains a critical challenge in computer vision, as does the lightweight design for edge devices with the computational burden for deep learning models. In this article, we introduce an extended version of Channel-Prior and Gamma-Estimation Network (CPGA-Net), termed CPGA-Net+, which incorporates an attention mechanism driven by a reformulated Atmospheric Scattering Model and effectively addresses both global and local image processing through Plug-in Attention with gamma correction. These innovations enable CPGA-Net+ to achieve superior performance on image enhancement tasks, surpassing lightweight state-of-the-art methods with high efficiency. Our results demonstrate the model's effectiveness and show the potential applications in resource-constrained environments.
翻訳日:2024-09-10 16:22:22 公開日:2024-09-09
# RexUniNLU:Universal NLUのための明示的スキーマインストラクタを用いた再帰的手法

RexUniNLU: Recursive Method with Explicit Schema Instructor for Universal NLU ( http://arxiv.org/abs/2409.05275v1 )

ライセンス: Link先を確認
Chengyuan Liu, Shihang Wang, Fubang Zhao, Kun Kuang, Yangyang Kang, Weiming Lu, Changlong Sun, Fei Wu, (参考訳) 情報抽出 (IE) とテキスト分類 (CLS) はNLUの基本柱として機能し、出力を事前に確立されたスキーマに分類するために入力シーケンスの分析に依存する。 しかし、この観点からIEとCLSタスクを統一できるエンコーダベースのモデルはありません。 我々は,NLUタスク内で共有される基盤について,Universal NLUのための明示的スキーマインストラクタを用いた再帰的手法を提案する。 具体的には、まず、以前のUIEモデルでは未解決のままである四重項や四重項を含む、ほぼ全ての抽出スキーマをカバーする公式な定式化により、真の普遍情報抽出(UIE)を再定義する。 そして、この定式化を全ての CLS およびマルチモーダル NLU タスクに拡張する。 そこで我々は,IE および CLS のすべてのタスクを包含し,スキーマと入力シーケンス間の誤った接続を防止する,IE と CLS の明示的なスキーマ制約を利用する汎用 NLU ソリューション RexUniNLU を紹介する。 異なるスキーマ間の干渉を避けるため、位置IDとアテンションマスク行列をリセットする。 大規模な実験はIE, CLS, 英語, 中国語, マルチモーダリティで行われ, 有効性と優越性を明らかにした。 私たちのコードは公開されています。

Information Extraction (IE) and Text Classification (CLS) serve as the fundamental pillars of NLU, with both disciplines relying on analyzing input sequences to categorize outputs into pre-established schemas. However, there is no existing encoder-based model that can unify IE and CLS tasks from this perspective. To fully explore the foundation shared within NLU tasks, we have proposed a Recursive Method with Explicit Schema Instructor for Universal NLU. Specifically, we firstly redefine the true universal information extraction (UIE) with a formal formulation that covers almost all extraction schemas, including quadruples and quintuples which remain unsolved for previous UIE models. Then, we expands the formulation to all CLS and multi-modal NLU tasks. Based on that, we introduce RexUniNLU, an universal NLU solution that employs explicit schema constraints for IE and CLS, which encompasses all IE and CLS tasks and prevent incorrect connections between schema and input sequence. To avoid interference between different schemas, we reset the position ids and attention mask matrices. Extensive experiments are conducted on IE, CLS in both English and Chinese, and multi-modality, revealing the effectiveness and superiority. Our codes are publicly released.
翻訳日:2024-09-10 16:00:52 公開日:2024-09-09
# 短期的・長期的人物再同定のための不整合表現

Disentangled Representations for Short-Term and Long-Term Person Re-Identification ( http://arxiv.org/abs/2409.05277v1 )

ライセンス: Link先を確認
Chanho Eom, Wonkyung Lee, Geon Lee, Bumsub Ham, (参考訳) 興味ある人物の問い合わせ画像から人像を抽出する「人物再識別(reID)」の問題に対処する。 主な課題は、異なる人物が同じ属性を持つことができるため、クラス内の変動に頑健な人物表現を学習することであり、例えば、視点の変化を伴う人物の外観が異なるように見える。 近年のreID法では,変化の特定の要因(例えば,人間のポーズ)に対してのみ差別的特徴が注目されており,それには対応する監視信号(例えば,ポーズアノテーション)が必要である。 この問題に対処するために,人物画像を識別関連・非関連機能に分類することを提案する。 アイデンティティ関連の特徴には、特定の人物(例えば衣服)を特定するのに有用な情報が含まれている。 そこで本研究では,IDシャッフルGAN(Identity shuffle GAN)と呼ばれる,新たな生成的敵ネットワークを提案する。 個人画像から識別関連や無関係な特徴を、補助的な監視信号なしで識別ラベルのみを活用するアイデンティティシャッフル技術で切り離す。 同一性非関連特徴の分布を制限するか、同一性非関連特徴の非関連性を奨励し、非絡み合いプロセスを容易にする。 実験によりIS-GANの有効性が検証され, Market-1501, CUHK03, DukeMTMC-reIDなどの標準reIDベンチマークにおける最先端性能が示された。 さらに,Celeb-reIDデータセット上で,長期のreIDタスク上での人物表現のアンタングル化のメリットを実証する。

We address the problem of person re-identification (reID), that is, retrieving person images from a large dataset, given a query image of the person of interest. A key challenge is to learn person representations robust to intra-class variations, as different persons could have the same attribute, and persons' appearances look different, e.g., with viewpoint changes. Recent reID methods focus on learning person features discriminative only for a particular factor of variations (e.g., human pose), which also requires corresponding supervisory signals (e.g., pose annotations). To tackle this problem, we propose to factorize person images into identity-related and unrelated features. Identity-related features contain information useful for specifying a particular person (e.g., clothing), while identity-unrelated ones hold other factors (e.g., human pose). To this end, we propose a new generative adversarial network, dubbed identity shuffle GAN (IS-GAN). It disentangles identity-related and unrelated features from person images through an identity-shuffling technique that exploits identification labels alone without any auxiliary supervisory signals. We restrict the distribution of identity-unrelated features or encourage the identity-related and unrelated features to be uncorrelated, facilitating the disentanglement process. Experimental results validate the effectiveness of IS-GAN, showing state-of-the-art performance on standard reID benchmarks, including Market-1501, CUHK03, and DukeMTMC-reID. We further demonstrate the advantages of disentangling person representations on a long-term reID task, setting a new state of the art on a Celeb-reID dataset.
翻訳日:2024-09-10 16:00:52 公開日:2024-09-09
# BrainDecoder: 脳波信号のスタイルベースのビジュアルデコーディング

BrainDecoder: Style-Based Visual Decoding of EEG Signals ( http://arxiv.org/abs/2409.05279v1 )

ライセンス: Link先を確認
Minsuk Choi, Hiroshi Ishikawa, (参考訳) 脳波(EEG)から視覚刺激の神経表現をデコードすることで、脳の活動と認知に関する貴重な洞察が得られる。 近年の深層学習の進歩は脳波の視覚的デコーディングの分野を著しく強化し、視覚刺激のセマンティックな内容の再構築に重点を置いている。 本稿では,映像の色彩やテクスチャといったスタイルの再構築を重視した新しいビジュアルデコードパイプラインを提案する。 従来の方法とは異なり、この `style-based' アプローチは、画像とテキストの CLIP 空間で個別に学習し、EEG 信号からよりニュアンスな情報抽出を容易にする。 テキストアライメントのキャプションも以前よりもシンプルにしています。 定量的および定性的な評価は,視覚刺激のスタイルをよりよく保存し,神経信号からよりきめ細かな意味情報を抽出することを示す。 特に、定量化結果の大幅な改善を実現し、人気の高いBrain2Imageデータセットに新しい最先端のデータセットを設定する。

Decoding neural representations of visual stimuli from electroencephalography (EEG) offers valuable insights into brain activity and cognition. Recent advancements in deep learning have significantly enhanced the field of visual decoding of EEG, primarily focusing on reconstructing the semantic content of visual stimuli. In this paper, we present a novel visual decoding pipeline that, in addition to recovering the content, emphasizes the reconstruction of the style, such as color and texture, of images viewed by the subject. Unlike previous methods, this ``style-based'' approach learns in the CLIP spaces of image and text separately, facilitating a more nuanced extraction of information from EEG signals. We also use captions for text alignment simpler than previously employed, which we find work better. Both quantitative and qualitative evaluations show that our method better preserves the style of visual stimuli and extracts more fine-grained semantic information from neural signals. Notably, it achieves significant improvements in quantitative results and sets a new state-of-the-art on the popular Brain2Image dataset.
翻訳日:2024-09-10 16:00:52 公開日:2024-09-09
# RotCAtt-TransUNet++: 高度心分離のための新しいディープニューラルネットワーク

RotCAtt-TransUNet++: Novel Deep Neural Network for Sophisticated Cardiac Segmentation ( http://arxiv.org/abs/2409.05280v1 )

ライセンス: Link先を確認
Quoc-Bao Nguyen-Le, Tuan-Hy Le, Anh-Triet Do, Quoc-Huy Trinh, (参考訳) 心臓血管疾患は世界的な健康上の問題であり、世界的死亡率に大きく寄与している。 これらの疾患に伴う死亡率の低減には, 心臓画像データの正確なセグメンテーションが不可欠である。 しかしながら、CNNベースのアプローチやTransformerベースのアプローチを含む現在の最先端(SOTA)ニューラルネットワークは、特に冠状動脈のようなz軸に沿った複雑な長距離の詳細を含むデータセットにおいて、スライス間接続とスライス内詳細の両方をキャプチャする際の課題に直面している。 既存の方法はまた、心筋からの非心筋成分の識別に苦慮し、セグメンテーションの不正確さと「スプレーディング」現象をもたらす。 これらの問題に対処するために,複雑心構造の堅牢なセグメンテーションのために設計された新しいアーキテクチャであるRotCAtt-TransUNet++を紹介する。 提案手法は,マルチスケール機能アグリゲーションとエンコーダ内のネストスキップ接続により,グローバルなコンテキストモデリングを強化する。 トランスフォーマー層はスライス内相互作用のキャプチャを容易にし、回転アテンション機構はスライス間接続を処理する。 チャネルワイドのクロスアテンションゲートは、マルチスケール情報とデコーダ機能を統合し、セマンティックギャップを効果的にブリッジする。 複数のデータセットにまたがる実験結果から, 冠状動脈と心筋のほぼ完全なアノテーションが得られた。 アブレーション研究により,我々の回転注意機構は,意味次元空間に埋め込まれたベクトル化されたパッチを変換することにより,セグメンテーションの精度を著しく向上することが確認された。

Cardiovascular disease is a major global health concern, contributing significantly to global mortality. Accurately segmenting cardiac medical imaging data is crucial for reducing fatality rates associated with these conditions. However, current state-of-the-art (SOTA) neural networks, including CNN-based and Transformer-based approaches, face challenges in capturing both inter-slice connections and intra-slice details, especially in datasets featuring intricate, long-range details along the z-axis like coronary arteries. Existing methods also struggle with differentiating non-cardiac components from the myocardium, resulting in segmentation inaccuracies and the "spraying" phenomenon. To address these issues, we introduce RotCAtt-TransUNet++, a novel architecture designed for robust segmentation of intricate cardiac structures. Our approach enhances global context modeling through multiscale feature aggregation and nested skip connections in the encoder. Transformer layers facilitate capturing intra-slice interactions, while a rotatory attention mechanism handles inter-slice connectivity. A channel-wise cross-attention gate integrates multiscale information and decoder features, effectively bridging semantic gaps. Experimental results across multiple datasets demonstrate superior performance over current methods, achieving near-perfect annotation of coronary arteries and myocardium. Ablation studies confirm that our rotatory attention mechanism significantly improves segmentation accuracy by transforming embedded vectorized patches in semantic dimensional space.
翻訳日:2024-09-10 16:00:52 公開日:2024-09-09
# 確率最適化と可変化による樹木確率推定の改善

Improving Tree Probability Estimation with Stochastic Optimization and Variance Reduction ( http://arxiv.org/abs/2409.05282v1 )

ライセンス: Link先を確認
Tianyu Xie, Musu Yuan, Minghua Deng, Cheng Zhang, (参考訳) 樹木トポロジーの確率推定は系統学的推論における基本的な課題の1つである。 最近提案されたサブスプリットベイズネットワーク(SBN)は、系統樹の階層構造を適切に活用することにより、木トポロジーの確率推定のための強力な確率的グラフィカルモデルを提供する。 しかし、SBNパラメータの学習に現在使われている期待最大化(EM)法は、大きなデータセットにスケールアップされない。 本稿では,SBNを学習するための計算効率のよい方法をいくつか紹介し,分散化が性能向上の鍵となることを示す。 さらに,変分ベイズ系統推定(VBPI)におけるSBNパラメータの最適化を改善するために,分散低減手法を導入する。 総合的な合成および実データ実験により,本手法は,SBNを用いたベイズ系統推定だけでなく,樹木トポロジカル推定のタスクにおいて,従来のベースライン法よりも優れていることが示された。

Probability estimation of tree topologies is one of the fundamental tasks in phylogenetic inference. The recently proposed subsplit Bayesian networks (SBNs) provide a powerful probabilistic graphical model for tree topology probability estimation by properly leveraging the hierarchical structure of phylogenetic trees. However, the expectation maximization (EM) method currently used for learning SBN parameters does not scale up to large data sets. In this paper, we introduce several computationally efficient methods for training SBNs and show that variance reduction could be the key for better performance. Furthermore, we also introduce the variance reduction technique to improve the optimization of SBN parameters for variational Bayesian phylogenetic inference (VBPI). Extensive synthetic and real data experiments demonstrate that our methods outperform previous baseline methods on the tasks of tree topology probability estimation as well as Bayesian phylogenetic inference using SBNs.
翻訳日:2024-09-10 16:00:52 公開日:2024-09-09
# 言語モデルにおける真理と政治的バイアスの関係について

On the Relationship between Truth and Political Bias in Language Models ( http://arxiv.org/abs/2409.05283v1 )

ライセンス: Link先を確認
Suyash Fulay, William Brannon, Shrestha Mohanty, Cassandra Overney, Elinor Poole-Dayan, Deb Roy, Jad Kabbara, (参考訳) 言語モデルアライメントの研究は、モデルが有用で害のないだけでなく、真実で偏見のないものであることを保証するためにしばしば試みる。 しかし、これらの目的を同時に最適化することは、ある側面の改善が他の側面にどのように影響するかを曖昧にする可能性がある。 本研究では,言語モデルアライメントと政治科学の両立に不可欠な2つの概念の関係を分析することに注力する。 我々は、様々な人気真実性データセットの報酬モデルを訓練し、その後、彼らの政治的偏見を評価する。 以上の結果から,これらのデータセットの真正性に対する報酬モデルの最適化は,政治的偏見を左右する傾向にあることが明らかとなった。 また、既存のオープンソース報酬モデル(つまり、標準的な人間の嗜好データセットでトレーニングされたモデル)も、同様のバイアスを示しており、より大きなモデルではバイアスが大きいこともわかりました。 これらの結果は、真理を表現するために使用されるデータセットと、真理と政治の関係に関する言語モデルについて、重要な疑問を提起する。

Language model alignment research often attempts to ensure that models are not only helpful and harmless, but also truthful and unbiased. However, optimizing these objectives simultaneously can obscure how improving one aspect might impact the others. In this work, we focus on analyzing the relationship between two concepts essential in both language model alignment and political science: \textit{truthfulness} and \textit{political bias}. We train reward models on various popular truthfulness datasets and subsequently evaluate their political bias. Our findings reveal that optimizing reward models for truthfulness on these datasets tends to result in a left-leaning political bias. We also find that existing open-source reward models (i.e. those trained on standard human preference datasets) already show a similar bias and that the bias is larger for larger models. These results raise important questions about both the datasets used to represent truthfulness and what language models capture about the relationship between truth and politics.
翻訳日:2024-09-10 16:00:52 公開日:2024-09-09
# 力学からマルコフランダム場を効果的に学習する

Efficiently Learning Markov Random Fields from Dynamics ( http://arxiv.org/abs/2409.05284v1 )

ライセンス: Link先を確認
Jason Gaitonde, Ankur Moitra, Elchanan Mossel, (参考訳) 高次元統計学における重要な課題は、無向グラフィカルモデルのパラメータや依存構造、すなわちマルコフランダム場(MRF)を学ぶことである。 この問題に関する以前の研究の多くは、MSF分布からのサンプル、すなわち最先端のアルゴリズムへのアクセスを$n^{\Theta(k)}$ランタイムで成功させ、$n$は次元、$k$は相互作用の順序である。 しかし、ノイズ問題によるスパースパリティからのよく知られた還元は、スパース、オーダー-$k$ MRFからのサンプルが与えられた場合、任意の学習アルゴリズムは、おそらくは$n^{\Omega(k)}$時間を必要とすることを示し、大きな計算改善の可能性を妨げている。 本研究では、自然の動的サンプルから学ぶ際に、これらのMRFを学習するための基本的な障壁が驚くほど完全に回避可能であることを実証する。 有界なMRFでは、依存構造とパラメータは、長さ$O(n \log n)$とランタイム$O(n^2 \log n)$のグラウバー力学の軌跡を用いて復元できることを示す。 暗黙定数はモデルの次数と非退化パラメータにのみ依存するが、次元は$n$ではない。 特に、力学から MRF を学ぶことは、標準硬度仮定の下でのサンプルから学ぶよりも、$\textit{provably computerlyly easier}$である。

An important task in high-dimensional statistics is learning the parameters or dependency structure of an undirected graphical model, or Markov random field (MRF). Much of the prior work on this problem assumes access to i.i.d. samples from the MRF distribution and state-of-the-art algorithms succeed using $n^{\Theta(k)}$ runtime, where $n$ is the dimension and $k$ is the order of the interactions. However, well-known reductions from the sparse parity with noise problem imply that given i.i.d. samples from a sparse, order-$k$ MRF, any learning algorithm likely requires $n^{\Omega(k)}$ time, impeding the potential for significant computational improvements. In this work, we demonstrate that these fundamental barriers for learning MRFs can surprisingly be completely circumvented when learning from natural, dynamical samples. We show that in bounded-degree MRFs, the dependency structure and parameters can be recovered using a trajectory of Glauber dynamics of length $O(n \log n)$ with runtime $O(n^2 \log n)$. The implicit constants depend only on the degree and non-degeneracy parameters of the model, but not the dimension $n$. In particular, learning MRFs from dynamics is $\textit{provably computationally easier}$ than learning from i.i.d. samples under standard hardness assumptions.
翻訳日:2024-09-10 16:00:52 公開日:2024-09-09
# 質問応答の検索と解法

Seek and Solve Reasoning for Table Question Answering ( http://arxiv.org/abs/2409.05286v1 )

ライセンス: Link先を確認
Ruya Jiang, Chun Wang, Weihong Deng, (参考訳) 表に基づく質問回答(TQA)は、表のデータに基づいて質問に答える。 テーブル構造と質問ロジックの複雑さは、このタスクをLLM(Large Language Models)でさえ難しくする。 本稿では,LLMの推論機能を活用して,TQA性能を向上させる。 人間がTQAタスクを解く方法に触発されて、私たちはLLMにまず関連する情報を求め、質問に答えるように指示するSeek-and-Solveパイプラインを提案します。 2つの段階は推論レベルで統合され、それらのチェーン・オブ・ソート(CoT)パスはコヒーレントなSeek-and-Solve CoT(SS-CoT)に統合される。 さらに,パイプラインから抽出した単一段階のTQA分解プロンプトについて述べる。 実験では、SS-CoTパスのサンプルをデモとして使用して、複雑なTQAタスクを解決するために、TQA解決プロンプトがLLMを効果的に誘導し、パフォーマンスと信頼性を改善した。 本結果は,複雑なTQAタスクを解く上で,LLMの推論能力を適切に引き出すことの重要性を強調した。

Table-based Question Answering (TQA) involves answering questions based on tabular data. The complexity of table structures and question logic makes this task difficult even for Large Language Models (LLMs). This paper improves TQA performance by leveraging LLMs' reasoning capabilities. Inspired by how humans solve TQA tasks, we propose a Seek-and-Solve pipeline that instructs the LLM to first seek relevant information and then answer questions. The two stages are integrated at the reasoning level, and their Chain of Thought (CoT) paths are integrated into a coherent Seek-and-Solve CoT (SS-CoT). Furthermore, we present a compact single-stage TQA-solving prompt distilled from the pipeline. Experiments demonstrate that under In-Context Learning settings, using samples with SS-CoT paths as demonstrations, the TQA-solving prompt can effectively guide the LLM to solve complex TQA tasks, resulting in improved performance and reliability. Our results highlight the importance of properly eliciting LLMs' reasoning capabilities in solving complex TQA tasks.
翻訳日:2024-09-10 16:00:52 公開日:2024-09-09
# フェデレーションとマルチタスク強化学習の高速化に向けて

Towards Fast Rates for Federated and Multi-Task Reinforcement Learning ( http://arxiv.org/abs/2409.05291v1 )

ライセンス: Link先を確認
Feng Zhu, Robert W. Heath Jr., Aritra Mitra, (参考訳) 我々は、各エージェントがマルコフ決定プロセス(MDP)としてモデル化された環境と相互作用する、$N$エージェントを含む設定を考える。 エージェントのMDPは報酬機能が異なるため、異質な目的/タスクを捕捉する。 エージェントの集合的目標は、中央サーバーを介して断続的に通信し、環境全体にわたる長期累積報酬の平均を最大化するポリシーを見つけることである。 このトピックに関する制限された既存の作業は、漸近的なレートのみを提供するか、偏見のあるポリシーを生成するか、コラボレーションのメリットを確立できないかのどちらかです。 そこで我々はFast-FedPGを提案する。Fast-FedPG - 慎重に設計されたバイアス補正機構を備えた新しいフェデレートポリシー勾配アルゴリズムである。 勾配支配条件下では,アルゴリズムが保証することを示す。 (i)厳密な勾配を持つ高速線型収束、及び (II) 線形スピードアップを楽しむサブリニアレートは、ノイズのある、切り詰められたポリシー勾配を持つエージェントの数である。 特に、それぞれの場合において収束は、不均一性によって引き起こされる偏見のない大域的最適政策である。 勾配支配がなければ、我々はコラボレーションの恩恵を受け続けるレートで一階定常点への収束を確立する。

We consider a setting involving $N$ agents, where each agent interacts with an environment modeled as a Markov Decision Process (MDP). The agents' MDPs differ in their reward functions, capturing heterogeneous objectives/tasks. The collective goal of the agents is to communicate intermittently via a central server to find a policy that maximizes the average of long-term cumulative rewards across environments. The limited existing work on this topic either only provide asymptotic rates, or generate biased policies, or fail to establish any benefits of collaboration. In response, we propose Fast-FedPG - a novel federated policy gradient algorithm with a carefully designed bias-correction mechanism. Under a gradient-domination condition, we prove that our algorithm guarantees (i) fast linear convergence with exact gradients, and (ii) sub-linear rates that enjoy a linear speedup w.r.t. the number of agents with noisy, truncated policy gradients. Notably, in each case, the convergence is to a globally optimal policy with no heterogeneity-induced bias. In the absence of gradient-domination, we establish convergence to a first-order stationary point at a rate that continues to benefit from collaboration.
翻訳日:2024-09-10 16:00:52 公開日:2024-09-09
# Mpox Narrative on Instagram: 感情、ヘイトスピーチ、不安分析のためのMpox上のInstagram投稿のラベル付き多言語データセット

Mpox Narrative on Instagram: A Labeled Multilingual Dataset of Instagram Posts on Mpox for Sentiment, Hate Speech, and Anxiety Analysis ( http://arxiv.org/abs/2409.05292v1 )

ライセンス: Link先を確認
Nirmalya Thakur, (参考訳) WHOは、世界保健機関(WHO)の国際的懸念の公衆衛生非常事態を宣言している。 ソーシャルメディアのマイニングに関する以前の研究は、mpoxのアウトブレイクに関するInstagram投稿のデータセットの開発に重点を置いていなかった。 本研究は, この研究ギャップに対処し, この分野に2つの科学的貢献を行うことを目的としている。 まず、2022年7月23日から2024年9月5日までに発行されたmpoxに関する60,127のInstagram投稿の多言語データセットを示す。 データセットはhttps://dx.doi.org/10.21227/7fvc-y093で公開されている。 これらの投稿のそれぞれについて、データセット内の別々の属性として、ポストID、ポスト説明、出版日時、言語、翻訳版(Google Translate APIを使用して英訳が行われた)が提示される。 このデータセットを開発した後、感情分析、ヘイトスピーチ検出、不安やストレス検出を行った。 このプロセスには各ポストを分類することが含まれる。 (i)恐怖、驚き、喜び、悲しみ、怒り、嫌悪、中立という感情階級の1つ (二)憎むこと、憎まないこと、 (3)不安・ストレス、または不安・ストレスは検出されなかった。 これらの結果はデータセット内の別の属性として示されます。 次に、感情分析、ヘイトスピーチ分析、不安やストレス分析の結果について述べる。 恐怖、驚き、喜び、悲しみ、怒り、嫌悪、中立性の差は27.95%、2.57%、8.69%、5.94%、2.69%、1.53%、50.64%であった。 ヘイトスピーチの検出に関しては、95.75%の投稿にはヘイトが含まれておらず、残りの4.25%にはヘイトが含まれていた。 最後に、投稿の72.05%は不安/ストレスを示しておらず、残りの27.95%はある種の不安/ストレスを表している。

The world is currently experiencing an outbreak of mpox, which has been declared a Public Health Emergency of International Concern by WHO. No prior work related to social media mining has focused on the development of a dataset of Instagram posts about the mpox outbreak. The work presented in this paper aims to address this research gap and makes two scientific contributions to this field. First, it presents a multilingual dataset of 60,127 Instagram posts about mpox, published between July 23, 2022, and September 5, 2024. The dataset, available at https://dx.doi.org/10.21227/7fvc-y093, contains Instagram posts about mpox in 52 languages. For each of these posts, the Post ID, Post Description, Date of publication, language, and translated version of the post (translation to English was performed using the Google Translate API) are presented as separate attributes in the dataset. After developing this dataset, sentiment analysis, hate speech detection, and anxiety or stress detection were performed. This process included classifying each post into (i) one of the sentiment classes, i.e., fear, surprise, joy, sadness, anger, disgust, or neutral, (ii) hate or not hate, and (iii) anxiety/stress detected or no anxiety/stress detected. These results are presented as separate attributes in the dataset. Second, this paper presents the results of performing sentiment analysis, hate speech analysis, and anxiety or stress analysis. The variation of the sentiment classes - fear, surprise, joy, sadness, anger, disgust, and neutral were observed to be 27.95%, 2.57%, 8.69%, 5.94%, 2.69%, 1.53%, and 50.64%, respectively. In terms of hate speech detection, 95.75% of the posts did not contain hate and the remaining 4.25% of the posts contained hate. Finally, 72.05% of the posts did not indicate any anxiety/stress, and the remaining 27.95% of the posts represented some form of anxiety/stress.
翻訳日:2024-09-10 16:00:52 公開日:2024-09-09
# TERD: 拡散モデルをバックドアから保護するための統一フレームワーク

TERD: A Unified Framework for Safeguarding Diffusion Models Against Backdoors ( http://arxiv.org/abs/2409.05294v1 )

ライセンス: Link先を確認
Yichuan Mo, Hui Huang, Mingjie Li, Ang Li, Yisen Wang, (参考訳) 拡散モデルは画像生成において顕著な成功を収めてきたが、バックドア攻撃に対して非常に脆弱であり、事前に定義されたトリガーを提示すると、特定の望ましくない出力を生成することによって、その整合性を損なう。 本稿では,この危険な脅威から拡散モデルを保護する方法について検討する。 具体的には,現在の攻撃に対する統一モデリングを構築するバックドアディフェンスフレームワークであるTERDを提案する。 さらに、先行分布からサンプリングしたノイズによるトリガーの初期近似と、差分多段サンプリング器による改善というトリガー回帰戦略が採用されている。 さらに,逆トリガによるノイズ空間からのバックドア検出を提案し,拡散モデルに対する第1のバックドア入力検出アプローチと,逆分布と良分布のKL分散を計算する新しいモデル検出アルゴリズムを提案する。 大規模な評価では、TERDはさまざまな解像度のデータセット間で100%正の正のレート(TPR)と正の負のレート(TNR)を保証している。 TERDは、他の確率微分方程式(SDE)ベースのモデルにも優れた適応性を示す。 私たちのコードはhttps://github.com/PKU-ML/TERD.comで公開されています。

Diffusion models have achieved notable success in image generation, but they remain highly vulnerable to backdoor attacks, which compromise their integrity by producing specific undesirable outputs when presented with a pre-defined trigger. In this paper, we investigate how to protect diffusion models from this dangerous threat. Specifically, we propose TERD, a backdoor defense framework that builds unified modeling for current attacks, which enables us to derive an accessible reversed loss. A trigger reversion strategy is further employed: an initial approximation of the trigger through noise sampled from a prior distribution, followed by refinement through differential multi-step samplers. Additionally, with the reversed trigger, we propose backdoor detection from the noise space, introducing the first backdoor input detection approach for diffusion models and a novel model detection algorithm that calculates the KL divergence between reversed and benign distributions. Extensive evaluations demonstrate that TERD secures a 100% True Positive Rate (TPR) and True Negative Rate (TNR) across datasets of varying resolutions. TERD also demonstrates nice adaptability to other Stochastic Differential Equation (SDE)-based models. Our code is available at https://github.com/PKU-ML/TERD.
翻訳日:2024-09-10 16:00:52 公開日:2024-09-09
# 組込みシステムにおけるポスト量子暗号の評価:性能解析

Evaluating Post-Quantum Cryptography on Embedded Systems: A Performance Analysis ( http://arxiv.org/abs/2409.05298v1 )

ライセンス: Link先を確認
Ben Dong, Qian Wang, (参考訳) NIST(National Institute of Standards and Technology)は、量子コンピューティングの時代に使用されるポスト量子暗号(PQC)アルゴリズムの選定を完了した。 鍵の確立と署名生成のためのTLSプロトコルに統合されているにもかかわらず、リソース制約のある通信システムにおいて、これらの新しい標準化されたアルゴリズムをプロファイリングする研究は限られている。 本研究では,組込みシステム上に構築されたTLSサーバとクライアントの両方にPQCを統合する。 さらに、PQCペアの性能オーバーヘッドを、現在使われている非PQCスキームと比較する。

The National Institute of Standards and Technology (NIST) has finalized the selection of post-quantum cryptographic (PQC) algorithms for use in the era of quantum computing. Despite their integration into TLS protocol for key establishment and signature generation, there is limited study on profiling these newly standardized algorithms in resource-constrained communication systems. In this work, we integrate PQC into both TLS servers and clients built upon embedded systems. Additionally, we compare the performance overhead of PQC pairs to currently used non-PQC schemes.
翻訳日:2024-09-10 16:00:52 公開日:2024-09-09
# モバイルエッジネットワークにおける資源効率の良い生成AIモデル展開

Resource-Efficient Generative AI Model Deployment in Mobile Edge Networks ( http://arxiv.org/abs/2409.05303v1 )

ライセンス: Link先を確認
Yuxin Liang, Peng Yang, Yuanyuan He, Feng Lyu, (参考訳) AIGC(Artificial Intelligence-Generated Content)は、コンテンツ制作と制作の変革期である。 エッジサーバは、例えば、クラウドベースのソリューションと比較してAIGCサービスのホスティングにおいて、サービス遅延とバックホールトラフィック負荷の削減といった魅力的なメリットを約束します。 しかし、エッジで利用可能なリソースの不足は、生成AIモデルをデプロイする上で大きな課題を生じさせる。 本稿では、一般的な生成型AIモデルのリソースと遅延要求を特徴付けることにより、プリロードフェーズにおけるI/O遅延で表されるモデル切替遅延と同様に、ストレージとGPUメモリの消費が、モデル間で有意かつ異なることが分かる。 これらの多次元結合因子は、効率的なエッジモデルの配置決定を困難にします。 そこで我々は,エッジ上に生成するAIモデルのデプロイメントを適切に管理することを目的とした,協調的なエッジクラウドフレームワークを提案する。 具体的には、最適化問題としてモデルの異種性を考慮したエッジモデル配置問題を定式化し、それを解決するためのモデルレベル決定アルゴリズムを提案する。 プールされたリソース共有を可能にし、エッジ生成AIモデルのデプロイメントにおけるリソース消費と遅延の間のトレードオフを最適化する。 シミュレーションの結果,提案アルゴリズムの有効性をベースラインと比較し,特徴を考慮したモデル展開決定を提供することで,全体のコスト削減の可能性を示した。

The surging development of Artificial Intelligence-Generated Content (AIGC) marks a transformative era of the content creation and production. Edge servers promise attractive benefits, e.g., reduced service delay and backhaul traffic load, for hosting AIGC services compared to cloud-based solutions. However, the scarcity of available resources on the edge pose significant challenges in deploying generative AI models. In this paper, by characterizing the resource and delay demands of typical generative AI models, we find that the consumption of storage and GPU memory, as well as the model switching delay represented by I/O delay during the preloading phase, are significant and vary across models. These multidimensional coupling factors render it difficult to make efficient edge model deployment decisions. Hence, we present a collaborative edge-cloud framework aiming to properly manage generative AI model deployment on the edge. Specifically, we formulate edge model deployment problem considering heterogeneous features of models as an optimization problem, and propose a model-level decision selection algorithm to solve it. It enables pooled resource sharing and optimizes the trade-off between resource consumption and delay in edge generative AI model deployment. Simulation results validate the efficacy of the proposed algorithm compared with baselines, demonstrating its potential to reduce overall costs by providing feature-aware model deployment decisions.
翻訳日:2024-09-10 16:00:52 公開日:2024-09-09
# 記号勾配を持つニューラルネットワーク潜時空間の閉形式解釈

Closed-Form Interpretation of Neural Network Latent Spaces with Symbolic Gradients ( http://arxiv.org/abs/2409.05305v1 )

ライセンス: Link先を確認
Zakaria Patel, Sebastian J. Wetzel, (参考訳) 多くの科学分野において、オートエンコーダやシームズネットワークのような人工ニューラルネットワークが潜在空間において有意義な概念を符号化していることが示されている。 しかし、事前の知識がなければ、この情報を人間に読まれる形で検索するための包括的な枠組みは存在しない。 これらの概念を抽出するために,人工ニューラルネットワークの潜在空間におけるニューロンのクローズドフォーム解釈の枠組みを導入する。 解釈フレームワークは、トレーニングされたニューラルネットワークを同じ概念をエンコードする同値クラスの関数に埋め込むことに基づいている。 記号探索空間で定義される同値類と可読方程式の交点を見出すことにより,これらのニューラルネットワークを解釈する。 このアプローチは、シームズニューラルネットワークの潜在空間から行列の不変量と保存された量の力学系を取得することで実証される。

It has been demonstrated in many scientific fields that artificial neural networks like autoencoders or Siamese networks encode meaningful concepts in their latent spaces. However, there does not exist a comprehensive framework for retrieving this information in a human-readable form without prior knowledge. In order to extract these concepts, we introduce a framework for finding closed-form interpretations of neurons in latent spaces of artificial neural networks. The interpretation framework is based on embedding trained neural networks into an equivalence class of functions that encode the same concept. We interpret these neural networks by finding an intersection between the equivalence class and human-readable equations defined by a symbolic search space. The approach is demonstrated by retrieving invariants of matrices and conserved quantities of dynamical systems from latent spaces of Siamese neural networks.
翻訳日:2024-09-10 16:00:52 公開日:2024-09-09
# 対称性を考慮した差分学習に基づくAL:冗長性を考慮したLipreading Model

RAL:Redundancy-Aware Lipreading Model Based on Differential Learning with Symmetric Views ( http://arxiv.org/abs/2409.05307v1 )

ライセンス: Link先を確認
Zejun gu, Junxia jiang, (参考訳) 唇読みは、唇の動きのシーケンスを分析することによって話者の音声を解釈する。 現在、ほとんどのモデルは唇の左右半分を対称的な全体と見なしており、その違いを徹底的に研究していない。 しかし、唇の左右半分は必ずしも対称ではなく、両者の微妙な違いは豊かな意味情報を含んでいる。 本稿では,この問題を解決するために,対称ビュー(DLSV)を用いた差分学習戦略を提案する。 さらに、入力画像には認識結果とは無関係な多くの冗長な情報が含まれており、モデルの性能を劣化させる可能性がある。 冗長性認識手術(RAO)を行い,それを削減する。 最後に、対称ビューと各ビュー内の関係情報を活用するために、適応的なクロスビュー・インタラクション・モジュール(ACVI)を設計する。 LRWおよびLRW-1000データセットに関する実験は、我々のアプローチの有効性を十分に証明している。

Lip reading involves interpreting a speaker's speech by analyzing sequences of lip movements. Currently, most models regard the left and right halves of the lips as a symmetrical whole, lacking a thorough investigation of their differences. However, the left and right halves of the lips are not always symmetrical, and the subtle differences between them contain rich semantic information. In this paper, we propose a differential learning strategy with symmetric views (DLSV) to address this issue. Additionally, input images often contain a lot of redundant information unrelated to recognition results, which can degrade the model's performance. We present a redundancy-aware operation (RAO) to reduce it. Finally, to leverage the relational information between symmetric views and within each view, we further design an adaptive cross-view interaction module (ACVI). Experiments on LRW and LRW-1000 datasets fully demonstrate the effectiveness of our approach.
翻訳日:2024-09-10 16:00:52 公開日:2024-09-09
# LiDAR-ビジュアルシステムのためのニューラルサーフェス再構成とレンダリング

Neural Surface Reconstruction and Rendering for LiDAR-Visual Systems ( http://arxiv.org/abs/2409.05310v1 )

ライセンス: Link先を確認
Jianheng Liu, Chunran Zheng, Yunfei Wan, Bowen Wang, Yixi Cai, Fu Zhang, (参考訳) 本稿では,NRF(Neural Radiance Fields)とニューラル距離場(Neural Distance Fields,NDF)を統合したLiDAR視覚システムのための統一された表面再構成・レンダリングフレームワークを提案する。 本研究では, 空間を自由, 占有, 未知, 背景領域に分類するために, 可視的占有マップを用いてNeRFとNDFの構造的ギャップに対処する。 この分類は、シーンの完全な外観と構造の回復を促進する。 空間変化スケールのSDF-to-density変換を用いて,NDFとNeRFのトレーニングを統一する。 提案手法は, 高精度な構造レンダリングのための適応球追跡サンプリング戦略を用いて, 学習したNDFを構造認識型NeRFトレーニングに活用する。 その見返りとして、NRFはNDFの欠落やファジィ構造を回復する構造をさらに洗練する。 拡張実験は,提案手法の様々なシナリオにおける優れた品質と汎用性を示す。 コミュニティの利益を得るために、コードは \url{https://github.com/hku-mars/M2Mapping} でリリースされる。

This paper presents a unified surface reconstruction and rendering framework for LiDAR-visual systems, integrating Neural Radiance Fields (NeRF) and Neural Distance Fields (NDF) to recover both appearance and structural information from posed images and point clouds. We address the structural visible gap between NeRF and NDF by utilizing a visible-aware occupancy map to classify space into the free, occupied, visible unknown, and background regions. This classification facilitates the recovery of a complete appearance and structure of the scene. We unify the training of the NDF and NeRF using a spatial-varying scale SDF-to-density transformation for levels of detail for both structure and appearance. The proposed method leverages the learned NDF for structure-aware NeRF training by an adaptive sphere tracing sampling strategy for accurate structure rendering. In return, NeRF further refines structural in recovering missing or fuzzy structures in the NDF. Extensive experiments demonstrate the superior quality and versatility of the proposed method across various scenarios. To benefit the community, the codes will be released at \url{https://github.com/hku-mars/M2Mapping}.
翻訳日:2024-09-10 15:50:59 公開日:2024-09-09
# グラフベース学習による骨格モデルの適合

Fitting Skeletal Models via Graph-based Learning ( http://arxiv.org/abs/2409.05311v1 )

ライセンス: Link先を確認
Nicolás Gaggion, Enzo Ferrante, Beatriz Paniagua, Jared Vicory, (参考訳) 骨格化は、ただの境界ではなく、物体の内部をモデル化する一般的な形状解析技術である。 テンプレートベースの骨格モデルを満たすことは、多くの手動パラメータチューニングを必要とする時間を要するプロセスである。 近年,オブジェクト境界からs-repsを生成する機械学習手法が提案されている。 本研究では,グラフ畳み込みネットワークを利用して高密度セグメンテーションマスクから骨格表現(s-reps)を生成する新しいスケルトン化手法を提案する。 本手法は, 人工海馬と実際の海馬のセグメンテーションの両方で評価され, 有望な結果と高速な推測が得られた。

Skeletonization is a popular shape analysis technique that models an object's interior as opposed to just its boundary. Fitting template-based skeletal models is a time-consuming process requiring much manual parameter tuning. Recently, machine learning-based methods have shown promise for generating s-reps from object boundaries. In this work, we propose a new skeletonization method which leverages graph convolutional networks to produce skeletal representations (s-reps) from dense segmentation masks. The method is evaluated on both synthetic data and real hippocampus segmentations, achieving promising results and fast inference.
翻訳日:2024-09-10 15:50:59 公開日:2024-09-09
# オープンワールドダイナミックプロンプトと連続視覚表現学習

Open-World Dynamic Prompt and Continual Visual Representation Learning ( http://arxiv.org/abs/2409.05312v1 )

ライセンス: Link先を確認
Youngeun Kim, Jun Fang, Qin Zhang, Zhaowei Cai, Yantao Shen, Rahul Duggal, Dripta S. Raychaudhuri, Zhuowen Tu, Yifan Xing, Onkar Dabeer, (参考訳) オープンワールドは本質的に動的であり、絶え間なく進化する概念と分布によって特徴づけられる。 この動的なオープンワールド環境における連続学習(CL)は、目に見えないテストタイムクラスに効果的に一般化する上で大きな課題となる。 この課題に対処するために,オープンワールドの視覚表現学習に適した,実用的なCL設定を提案する。 この設定では、後続のデータストリームは、以前のトレーニングフェーズで見られるクラスとは相容れない新しいクラスを体系的に導入する。 そこで本研究では,シンプルなPrompt-based CL (PCL) 法である Dynamic Prompt and Representation Learner (DPaRL) を提案する。 我々のDPaRLは、従来のPCL法で静的なプロンプトプールに依存するのとは対照的に、推論のための動的プロンプトを生成することを学ぶ。 さらに、DPaRLはトレーニング段階ごとに動的プロンプト生成と識別表現を共同で学習するのに対し、PCL以前の手法はプロセス全体を通してのみプロンプト学習を洗練させる。 実験の結果,Recall@1の性能は平均4.7%向上した。

The open world is inherently dynamic, characterized by ever-evolving concepts and distributions. Continual learning (CL) in this dynamic open-world environment presents a significant challenge in effectively generalizing to unseen test-time classes. To address this challenge, we introduce a new practical CL setting tailored for open-world visual representation learning. In this setting, subsequent data streams systematically introduce novel classes that are disjoint from those seen in previous training phases, while also remaining distinct from the unseen test classes. In response, we present Dynamic Prompt and Representation Learner (DPaRL), a simple yet effective Prompt-based CL (PCL) method. Our DPaRL learns to generate dynamic prompts for inference, as opposed to relying on a static prompt pool in previous PCL methods. In addition, DPaRL jointly learns dynamic prompt generation and discriminative representation at each training stage whereas prior PCL methods only refine the prompt learning throughout the process. Our experimental results demonstrate the superiority of our approach, surpassing state-of-the-art methods on well-established open-world image retrieval benchmarks by an average of 4.7\% improvement in Recall@1 performance.
翻訳日:2024-09-10 15:50:59 公開日:2024-09-09
# Tele-LLMs:通信用大規模言語モデルのシリーズ

Tele-LLMs: A Series of Specialized Large Language Models for Telecommunications ( http://arxiv.org/abs/2409.05314v1 )

ライセンス: Link先を確認
Ali Maatouk, Kenny Chirino Ampudia, Rex Ying, Leandros Tassiulas, (参考訳) 大規模言語モデル(LLM)の出現は、自然言語処理から医学や金融といった分野まで、様々な分野に大きく影響している。 しかし、急速な普及にもかかわらず、LLMの電気通信への応用は限定的であり、ドメイン固有の特殊化に欠ける汎用モデルに依存していることが多い。 この特殊化の欠如は、特に電気通信特有の技術用語とその関連する数学的表現を扱う場合、パフォーマンスの低下をもたらす。 本稿では、まず、関連するソースから収集した総合的な通信資料データセットであるTele-Dataと、ドメインに合わせた大規模Q&AデータセットであるTele-Evalの作成と普及によって、このギャップに対処する。 広範にわたる実験を通じて,LLMを電気通信分野に適用するための最も効果的な訓練手法について検討する。 また、異なるサイズのモデルが適応中にどのように振る舞うかを調査し、トレーニングデータがこの振る舞いに与える影響を分析する。 これらの知見を活用して,通信に適した1Bパラメータから8Bパラメータまで,最初の言語モデルであるTele-LLMsを開発し,オープンソース化した。 評価の結果,これらのモデルはTele-Evalの汎用モデルよりも優れており,これまでに獲得した能力を保ちながら,破滅的な忘れ込み現象を回避することができた。

The emergence of large language models (LLMs) has significantly impacted various fields, from natural language processing to sectors like medicine and finance. However, despite their rapid proliferation, the applications of LLMs in telecommunications remain limited, often relying on general-purpose models that lack domain-specific specialization. This lack of specialization results in underperformance, particularly when dealing with telecommunications-specific technical terminology and their associated mathematical representations. This paper addresses this gap by first creating and disseminating Tele-Data, a comprehensive dataset of telecommunications material curated from relevant sources, and Tele-Eval, a large-scale question-and-answer dataset tailored to the domain. Through extensive experiments, we explore the most effective training techniques for adapting LLMs to the telecommunications domain, ranging from examining the division of expertise across various telecommunications aspects to employing parameter-efficient techniques. We also investigate how models of different sizes behave during adaptation and analyze the impact of their training data on this behavior. Leveraging these findings, we develop and open-source Tele-LLMs, the first series of language models ranging from 1B to 8B parameters, specifically tailored for telecommunications. Our evaluations demonstrate that these models outperform their general-purpose counterparts on Tele-Eval while retaining their previously acquired capabilities, thus avoiding the catastrophic forgetting phenomenon.
翻訳日:2024-09-10 15:50:59 公開日:2024-09-09
# 機械固有フィルタバンクからのスペクトル時間変調表現を用いた機械異常音検出

Machine Anomalous Sound Detection Using Spectral-temporal Modulation Representations Derived from Machine-specific Filterbanks ( http://arxiv.org/abs/2409.05319v1 )

ライセンス: Link先を確認
Kai Li, Khalid Zaman, Xingfeng Li, Masato Akagi, Masashi Unoki, (参考訳) 工場機械の故障の早期発見は産業応用において重要である。 機械異常音検出(ASD)では、異なる機械はその物理特性に基づいて独自の振動周波数範囲を示す。 一方、人間の聴覚システムは、機械音の時間的・スペクトル的ダイナミクスの追跡に長けている。 したがって、人間の聴覚システムの計算聴覚モデルと機械固有の特性を統合することは、マシンASDに対する効果的なアプローチである。 まず,フィッシャー比(F比)を用いて4種類の機械の周波数重要度を定量化した。 量子化された周波数の重要度は、機械固有の非一様フィルタバンク(NUFB)の設計に使われ、ログ非一様スペクトル(LNS)の特徴を抽出した。 設計されたNUFBは、F比が比較的高い周波数領域において、帯域幅が狭く、フィルタ分布密度が高い。 最後に、LNS特徴から導かれるスペクトルおよび時間変調表現を提案した。 これらのLSNの特徴と変調表現は、ASDのためのオートエンコーダニューラルネットワークベースの検出器に入力される。 6dBの信号対雑音(SNR)を用いた産業機械調査検査データセットのトレーニングセットの定量化結果から、異なる機械の正常音と異常音の識別情報が周波数領域で非一様に符号化されていることが明らかとなった。 NUFBを用いてこれらの重要な周波数領域を強調することにより、LSS機能は様々なSNR条件下でのAUC(受信動作特性曲線の下での領域)の計量を用いて性能を著しく向上させることができる。 さらに、変調表現はパフォーマンスをさらに向上させることができる。 特に、時間変調はファン、ポンプ、スライダーに有効であり、スペクトル変調は特にバルブに有効である。

Early detection of factory machinery malfunctions is crucial in industrial applications. In machine anomalous sound detection (ASD), different machines exhibit unique vibration-frequency ranges based on their physical properties. Meanwhile, the human auditory system is adept at tracking both temporal and spectral dynamics of machine sounds. Consequently, integrating the computational auditory models of the human auditory system with machine-specific properties can be an effective approach to machine ASD. We first quantified the frequency importances of four types of machines using the Fisher ratio (F-ratio). The quantified frequency importances were then used to design machine-specific non-uniform filterbanks (NUFBs), which extract the log non-uniform spectrum (LNS) feature. The designed NUFBs have a narrower bandwidth and higher filter distribution density in frequency regions with relatively high F-ratios. Finally, spectral and temporal modulation representations derived from the LNS feature were proposed. These proposed LNS feature and modulation representations are input into an autoencoder neural-network-based detector for ASD. The quantification results from the training set of the Malfunctioning Industrial Machine Investigation and Inspection dataset with a signal-to-noise (SNR) of 6 dB reveal that the distinguishing information between normal and anomalous sounds of different machines is encoded non-uniformly in the frequency domain. By highlighting these important frequency regions using NUFBs, the LNS feature can significantly enhance performance using the metric of AUC (area under the receiver operating characteristic curve) under various SNR conditions. Furthermore, modulation representations can further improve performance. Specifically, temporal modulation is effective for fans, pumps, and sliders, while spectral modulation is particularly effective for valves.
翻訳日:2024-09-10 15:50:59 公開日:2024-09-09
# FIF-UNet: 医用画像分割のための特徴相互作用と融合を用いた効率的なUNet

FIF-UNet: An Efficient UNet Using Feature Interaction and Fusion for Medical Image Segmentation ( http://arxiv.org/abs/2409.05324v1 )

ライセンス: Link先を確認
Xiaolin Gou, Chuanlin Liao, Jizhe Zhou, Fengshuo Ye, Yi Lin, (参考訳) 今日では、複雑な特徴表現をキャプチャできるため、医療画像のセグメンテーションにおいて、事前訓練されたエンコーダが広く使われている。 しかし、既存のモデルは、事前訓練されたエンコーダによって得られたリッチな特徴を効果的に活用することができず、その結果、最適部分分割結果が得られた。 本研究では、FIF-UNetと呼ばれる新しいU字型モデルを提案し、3つのプラグ・アンド・プレイモジュールを含む上記の問題に対処する。 チャネル空間相互作用モジュール (CSI) を提案し, エンコーダステージと対応するデコーダステージの相互作用を確立することにより, 情報的特徴を得る。 カジュアルなconv-SEモジュール(CoSE)は、異なる特徴チャネルに重みを適応的に割り当てることで、重要な特徴の表現を強化するように設計されている。 マルチレベル融合モジュール(MLF)は、デコーダステージからマルチスケール機能を融合させ、正確で堅牢な最終セグメンテーションを保証する。 SynapseデータセットとACDCデータセットの総合的な実験により、提案されたFIF-UNetは、それぞれ86.05%と92.58%の平均的なDICEを達成する既存の最先端手法よりも優れていることが示された。

Nowadays, pre-trained encoders are widely used in medical image segmentation because of their ability to capture complex feature representations. However, the existing models fail to effectively utilize the rich features obtained by the pre-trained encoder, resulting in suboptimal segmentation results. In this work, a novel U-shaped model, called FIF-UNet, is proposed to address the above issue, including three plug-and-play modules. A channel spatial interaction module (CSI) is proposed to obtain informative features by establishing the interaction between encoder stages and corresponding decoder stages. A cascaded conv-SE module (CoSE) is designed to enhance the representation of critical features by adaptively assigning importance weights on different feature channels. A multi-level fusion module (MLF) is proposed to fuse the multi-scale features from the decoder stages, ensuring accurate and robust final segmentation. Comprehensive experiments on the Synapse and ACDC datasets demonstrate that the proposed FIF-UNet outperforms existing state-of-the-art methods, which achieves the highest average DICE of 86.05% and 92.58%, respectively.
翻訳日:2024-09-10 15:50:59 公開日:2024-09-09
# 不均一な探索空間に対する移動学習を用いたサンプル効率のベイズ最適化

Sample-Efficient Bayesian Optimization with Transfer Learning for Heterogeneous Search Spaces ( http://arxiv.org/abs/2409.05325v1 )

ライセンス: Link先を確認
Aryan Deshwal, Sait Cakmak, Yuhou Xia, David Eriksson, (参考訳) ベイズ最適化(BO)はブラックボックス関数の標本効率最適化のための強力な手法である。 しかし、機能評価が極めて少ない環境では、BOを成功させるためには、過去の実験から情報を転送する必要があるかもしれない。 これらの関連する実験は、全く同じチューナブルパラメータ(探索空間)を持たず、異種探索空間の移動学習によるBOの必要性を動機付けている。 本稿では,この設定のための2つの方法を提案する。 最初のアプローチは、条件付きカーネルを持つガウス過程(GP)モデルを利用して、異なる検索空間間で情報を転送する。 第2のアプローチでは、欠落したパラメータをGPモデルのハイパーパラメータとして扱い、他のGPハイパーパラメータと共同で推論したり、固定値にセットしたりすることができる。 これらの2つの手法は,いくつかのベンチマーク問題において良好に動作することを示す。

Bayesian optimization (BO) is a powerful approach to sample-efficient optimization of black-box functions. However, in settings with very few function evaluations, a successful application of BO may require transferring information from historical experiments. These related experiments may not have exactly the same tunable parameters (search spaces), motivating the need for BO with transfer learning for heterogeneous search spaces. In this paper, we propose two methods for this setting. The first approach leverages a Gaussian process (GP) model with a conditional kernel to transfer information between different search spaces. Our second approach treats the missing parameters as hyperparameters of the GP model that can be inferred jointly with the other GP hyperparameters or set to fixed values. We show that these two methods perform well on several benchmark problems.
翻訳日:2024-09-10 15:50:59 公開日:2024-09-09
# ICPR 2024 未構造交通と逆気象条件下におけるドライブシーンの安全なセグメンテーションに関するコンペティション

ICPR 2024 Competition on Safe Segmentation of Drive Scenes in Unstructured Traffic and Adverse Weather Conditions ( http://arxiv.org/abs/2409.05327v1 )

ライセンス: Link先を確認
Furqan Ahmed Shaik, Sandeep Nagar, Aiswarya Maturi, Harshit Kumar Sankhla, Dibyendu Ghosh, Anshuman Majumdar, Srikanth Vidapanakal, Kunal Chaudhary, Sunny Manchanda, Girish Varma, (参考訳) ICPR 2024コンペティションは、自律運転の困難な条件下で、最先端のセマンティックセグメンテーションモデルを評価し、ベンチマークするための厳格なプラットフォームとして機能した。 IDD-AWデータセットは、5000枚の高品質なRGB-NIR画像ペアで構成され、それぞれがピクセルレベルでアノテートされ、雨、霧、低光、雪などの悪天候下で捕獲された。 競争の重要な側面は、伝統的なmIoUで見過ごされる可能性のある不適切な予測をペナルティ化するために設計されたセーフ平均連合間距離(Safe mean Intersection over Union, セーフmIoU)メトリクスの使用と改善であった。 この革新的な指標は、自動運転システムの開発における安全性の重要性を強調した。 参加者は、セマンティックセグメンテーションに優れたモデルを示し、非構造的および有害な条件下での安全性と堅牢性を優先した。 競争の結果はドメインに新しいベンチマークを設定し、現実のシナリオにおける自動運転車のデプロイにおける安全性の重要性を強調した。 このコンペティションからのコントリビューションは、多様な予測不可能な環境での運用における重要な課題に対処するため、自動運転技術のさらなる革新を促進することが期待されている。

The ICPR 2024 Competition on Safe Segmentation of Drive Scenes in Unstructured Traffic and Adverse Weather Conditions served as a rigorous platform to evaluate and benchmark state-of-the-art semantic segmentation models under challenging conditions for autonomous driving. Over several months, participants were provided with the IDD-AW dataset, consisting of 5000 high-quality RGB-NIR image pairs, each annotated at the pixel level and captured under adverse weather conditions such as rain, fog, low light, and snow. A key aspect of the competition was the use and improvement of the Safe mean Intersection over Union (Safe mIoU) metric, designed to penalize unsafe incorrect predictions that could be overlooked by traditional mIoU. This innovative metric emphasized the importance of safety in developing autonomous driving systems. The competition showed significant advancements in the field, with participants demonstrating models that excelled in semantic segmentation and prioritized safety and robustness in unstructured and adverse conditions. The results of the competition set new benchmarks in the domain, highlighting the critical role of safety in deploying autonomous vehicles in real-world scenarios. The contributions from this competition are expected to drive further innovation in autonomous driving technology, addressing the critical challenges of operating in diverse and unpredictable environments.
翻訳日:2024-09-10 15:50:59 公開日:2024-09-09
# Kan-based Fusion of Dual-Domain for Audio-Driven Facial Landmarks Generation

KAN-Based Fusion of Dual-Domain for Audio-Driven Facial Landmarks Generation ( http://arxiv.org/abs/2409.05330v1 )

ライセンス: Link先を確認
Hoang-Son Vo-Thanh, Quang-Vinh Nguyen, Soo-Hyung Kim, (参考訳) 音声駆動音声顔生成は、高い適用性のため、広く研究されているトピックである。 音声による会話顔の再構築は、教育、医療、オンライン会話、バーチャルアシスタント、バーチャルリアリティーなどの分野に大きく貢献する。 初期の研究は口の動きの変化にのみ焦点をあてることが多かったため、実際的な応用は限られていた。 近年、研究者たちは顔のポーズ、首、肩など、顔全体を構築する新しいアプローチを提案している。 これを実現するためには,ランドマークを通じて生成する必要がある。 しかし、オーディオとうまく一致した安定したランドマークを作ることは難しい。 本稿では,音声からランドマークを生成する頑健なモデルであるKFusion of Dual-Domainを提案する。 音声を2つの異なる領域に分けて感情情報と顔の文脈を学習し,感性モデルに基づく融合機構を用いる。 我々のモデルは最近のモデルと比較して高い効率を示す。 このことは、将来、音声駆動の会話顔生成問題の開発の基礎となる。

Audio-driven talking face generation is a widely researched topic due to its high applicability. Reconstructing a talking face using audio significantly contributes to fields such as education, healthcare, online conversations, virtual assistants, and virtual reality. Early studies often focused solely on changing the mouth movements, which resulted in outcomes with limited practical applications. Recently, researchers have proposed a new approach of constructing the entire face, including face pose, neck, and shoulders. To achieve this, they need to generate through landmarks. However, creating stable landmarks that align well with the audio is a challenge. In this paper, we propose the KFusion of Dual-Domain model, a robust model that generates landmarks from audio. We separate the audio into two distinct domains to learn emotional information and facial context, then use a fusion mechanism based on the KAN model. Our model demonstrates high efficiency compared to recent models. This will lay the groundwork for the development of the audio-driven talking face generation problem in the future.
翻訳日:2024-09-10 15:50:59 公開日:2024-09-09
# 極性インポストロンでワインに水を注ぐ

Turning Water to Wine With Polar Impostorons ( http://arxiv.org/abs/2409.05332v1 )

ライセンス: Link先を確認
Gerard McCaul, Matthias Runge, Michael Woerner, Diyar Talbayev, Thomas Elsaesser, Denys I. Bondar, (参考訳) 量子制御の理論による驚くべき結果は、物理系の特性を操作できる程度である。 原子状態モデルと多体状態モデルの両方では、ある物質の光学的応答が動的に異なる系の反応を模倣する「駆動型インポスタ」を作る可能性を認めている。 ここでは、これらの手法を極性液体中のポラロンに応用する。 このような準粒子は、その環境の多くの自由度と相互作用する溶存電子を記述する。 ポラロン周波数は、液体中の電子濃度に依存するが、ポンプ磁場によって制御され、3つの異なる液体のポラロン周波数が同一になる。 この実験は、これまでのところ純粋に理論的な現象である「極性インポストロン」の実現可能性を示している。

A surprising result from the theory of quantum control is the degree to which the properties of a physical system can be manipulated. Both atomic and many-body solid state models admit the possibility of creating a 'driven imposter', in which the optical response of one material mimics that of a dynamically distinct system. Here we apply these techniques to polarons in polar liquids. Such quasiparticles describe solvated electrons interacting with many-body degrees of freedom of their environment. The polaron frequency, which depends on the electron concentration in the liquid, is controlled with a pump field, rendering the polaron frequency of three different liquids identical. The experiments demonstrate the feasibility of 'polar impostorons', a so far purely theoretical phenomenon.
翻訳日:2024-09-10 15:50:59 公開日:2024-09-09
# 圧縮ニューラルネットワーク表現のためのラグランジアンハッシュ

Lagrangian Hashing for Compressed Neural Field Representations ( http://arxiv.org/abs/2409.05334v1 )

ライセンス: Link先を確認
Shrisudhan Govindarajan, Zeno Sambugaro, Akhmedkhan, Shabanov, Towaki Takikawa, Daniel Rebain, Weiwei Sun, Nicola Conci, Kwang Moo Yi, Andrea Tagliasacchi, (参考訳) ラグランジアン・ハッシング(Lagrangian Hashing)は、情報表現の手段として特徴を備えた点(例えば3次元ガウス格子(英語版)やポイントNeRF)を用いた高速トレーニングNeRF法の特徴を組み合わせた、ニューラルネットワークの表現である。 InstantNGP表現の階層型ハッシュテーブルの高分解能層に点ベース表現を組み込むことにより、これを実現する。 私たちの点には影響の場が備わっているので、我々の表現はハッシュテーブルに格納されたガウスの混合と解釈できる。 我々は,表現予算を十分に適切に表現する必要がある地域へのガウス人の移動を促すための損失を提案する。 我々の主な発見は、我々の表現は、品質を損なうことなく、よりコンパクトな表現を用いて信号の再構成を可能にすることである。

We present Lagrangian Hashing, a representation for neural fields combining the characteristics of fast training NeRF methods that rely on Eulerian grids (i.e.~InstantNGP), with those that employ points equipped with features as a way to represent information (e.g. 3D Gaussian Splatting or PointNeRF). We achieve this by incorporating a point-based representation into the high-resolution layers of the hierarchical hash tables of an InstantNGP representation. As our points are equipped with a field of influence, our representation can be interpreted as a mixture of Gaussians stored within the hash table. We propose a loss that encourages the movement of our Gaussians towards regions that require more representation budget to be sufficiently well represented. Our main finding is that our representation allows the reconstruction of signals using a more compact representation without compromising quality.
翻訳日:2024-09-10 15:50:59 公開日:2024-09-09
# 住宅価格予測のためのマルチモーダルディープラーニングに基づくアプローチ

A Multi-Modal Deep Learning Based Approach for House Price Prediction ( http://arxiv.org/abs/2409.05335v1 )

ライセンス: Link先を確認
Md Hasebul Hasan, Md Abid Jahan, Mohammed Eunus Ali, Yuan-Fang Li, Timos Sellis, (参考訳) 住宅不動産セクターの重要な側面である住宅価格の正確な予測は、幅広い利害関係者にとって重要な関心事である。 しかし, 住宅価格の予測は, 住宅の特徴, 立地, 周辺地域などの影響を受けやすいため, 複雑な作業である。 近年の深層学習技術を含む幅広いアルゴリズムを活用して住宅価格を正確に予測しようとする試みは数多くあったが、既存のアプローチではテキストや視覚的特徴など幅広い要素を考慮できなかった。 本稿では, 住宅価格予測システムにおいて, 住宅価格予測システムにおいて, 特徴, テキスト記述, 地理空間近傍, 住宅画像などの属性を包括的に組み込むことで, このギャップを解消する。 具体的には、異なるタイプのデータを活用して住宅のより正確な表現を学習するマルチモーダル深層学習手法を提案する。 特に, 住宅属性, 地理空間近傍, そして最も重要なものは, 住宅を表わすテキスト記述や画像から, そして最後に, 下流回帰モデルを用いて, この共同学習した埋め込みベクトルから住宅価格を予測する。 実世界のデータセットを用いた実験結果から,住宅の広告表示のテキスト埋め込みと住宅画像の画像埋め込みは,原属性や空間埋め込みに加えて,住宅価格予測精度を大幅に向上させることができることがわかった。 関連するソースコードとデータセットは、以下のURLで公開されている。

Accurate prediction of house price, a vital aspect of the residential real estate sector, is of substantial interest for a wide range of stakeholders. However, predicting house prices is a complex task due to the significant variability influenced by factors such as house features, location, neighborhood, and many others. Despite numerous attempts utilizing a wide array of algorithms, including recent deep learning techniques, to predict house prices accurately, existing approaches have fallen short of considering a wide range of factors such as textual and visual features. This paper addresses this gap by comprehensively incorporating attributes, such as features, textual descriptions, geo-spatial neighborhood, and house images, typically showcased in real estate listings in a house price prediction system. Specifically, we propose a multi-modal deep learning approach that leverages different types of data to learn more accurate representation of the house. In particular, we learn a joint embedding of raw house attributes, geo-spatial neighborhood, and most importantly from textual description and images representing the house; and finally use a downstream regression model to predict the house price from this jointly learned embedding vector. Our experimental results with a real-world dataset show that the text embedding of the house advertisement description and image embedding of the house pictures in addition to raw attributes and geo-spatial embedding, can significantly improve the house price prediction accuracy. The relevant source code and dataset are publicly accessible at the following URL: https://github.com/4P0N/mhpp
翻訳日:2024-09-10 15:50:59 公開日:2024-09-09
# 早期の畳み込みニューラルネットワーク

Early-exit Convolutional Neural Networks ( http://arxiv.org/abs/2409.05336v1 )

ライセンス: Link先を確認
Edanur Demir, Emre Akbas, (参考訳) 本稿では,推論中の畳み込みニューラルネットワーク(CNN)の計算コストを削減する手法を提案する。 従来、入力データは、固定されたニューラルネットワークアーキテクチャを通過する。 しかし、簡単な例は処理の初期段階で分類でき、従来のネットワークでは考慮していない。 本稿では、入力に基づいて計算コストを適応させる「Early-exit CNNs」(略してEENets)を紹介する。 EENetsには複数のエグジットブロックがあり、それぞれが信頼性ブランチとソフトマックスブランチで構成されている。 信頼ブランチは、その位置での出口(つまり推論プロセスの停止)の信頼スコアを計算し、ソフトマックスブランチは分類確率ベクトルを出力する。 両方のブランチは学習可能で、パラメータは分離される。 EENetsのトレーニングでは、古典的な分類損失に加えて、推論の計算コストも考慮される。 結果として、ネットワークは多くの信頼性分岐を入力に適応させ、簡単な例では少ない計算に費やされる。 推論は従来のフィードフォワードネットワークと同様に機能するが、信頼分岐の出力が特定の閾値より大きい場合、推論はその特定の例で停止する。 EENetsの考え方はResNetsのような利用可能なCNNアーキテクチャに適用できる。 MNIST、SVHN、CIFAR10、Tiny-ImageNetのデータセットに関する総合的な実験を通して、アーリーエグジット(EE) ResNetは、非EEバージョンと同様の精度を達成し、計算コストを20%まで削減することを示した。 コードはhttps://github.com/eksuas/eenets.pytorchで入手できる。

This paper is aimed at developing a method that reduces the computational cost of convolutional neural networks (CNN) during inference. Conventionally, the input data pass through a fixed neural network architecture. However, easy examples can be classified at early stages of processing and conventional networks do not take this into account. In this paper, we introduce 'Early-exit CNNs', EENets for short, which adapt their computational cost based on the input by stopping the inference process at certain exit locations. In EENets, there are a number of exit blocks each of which consists of a confidence branch and a softmax branch. The confidence branch computes the confidence score of exiting (i.e. stopping the inference process) at that location; while the softmax branch outputs a classification probability vector. Both branches are learnable and their parameters are separate. During training of EENets, in addition to the classical classification loss, the computational cost of inference is taken into account as well. As a result, the network adapts its many confidence branches to the inputs so that less computation is spent for easy examples. Inference works as in conventional feed-forward networks, however, when the output of a confidence branch is larger than a certain threshold, the inference stops for that specific example. The idea of EENets is applicable to available CNN architectures such as ResNets. Through comprehensive experiments on MNIST, SVHN, CIFAR10 and Tiny-ImageNet datasets, we show that early-exit (EE) ResNets achieve similar accuracy with their non-EE versions while reducing the computational cost to 20% of the original. Code is available at https://github.com/eksuas/eenets.pytorch
翻訳日:2024-09-10 15:50:59 公開日:2024-09-09
# Graffin: バランスの取れないノードの分類におけるタオルのためのスタンド

Graffin: Stand for Tails in Imbalanced Node Classification ( http://arxiv.org/abs/2409.05339v1 )

ライセンス: Link先を確認
Xiaorui Qi, Yanlong Wen, Xiaojie Yuan, (参考訳) グラフ表現学習(GRL)モデルは多くのシナリオで成功している。 実世界のグラフはノードラベルや次数などの不均衡な分布を持ち、GRLに重要な課題を残している。 不均衡な入力は不均衡な出力につながる可能性がある。 しかし、既存のほとんどの研究はそれを無視し、入力グラフの分布がバランスが取れていると仮定し、実際の状況と一致しないため、テールデータ上でのモデル性能が悪化する。 ヘッドデータの優位性は、グラフニューラルネットワーク(GNN)のトレーニングにおいて、テールデータを過小評価する。 そこで本稿では,プラグイン可能なテールデータ拡張モジュールであるGraffinを提案する。 繰り返しニューラルネットワーク(RNN)にインスパイアされたGraffinは、テール表現の不均衡を軽減するために、グラフシリアライゼーション技術を通じてヘッド機能をテールデータに流す。 局所構造と大域構造は、近傍情報とシーケンス情報の組み合わせ効果の下でノード表現を形成するために融合され、テールデータのセマンティクスが強化される。 ノード分類タスクにおける4つの実世界のデータセット上でのGraffinの性能を検証する。 その結果、モデル全体の性能を著しく低下させることなく、Graffinはテールデータへの適応性を向上できることがわかった。

Graph representation learning (GRL) models have succeeded in many scenarios. Real-world graphs have imbalanced distribution, such as node labels and degrees, which leaves a critical challenge to GRL. Imbalanced inputs can lead to imbalanced outputs. However, most existing works ignore it and assume that the distribution of input graphs is balanced, which cannot align with real situations, resulting in worse model performance on tail data. The domination of head data makes tail data underrepresented when training graph neural networks (GNNs). Thus, we propose Graffin, a pluggable tail data augmentation module, to address the above issues. Inspired by recurrent neural networks (RNNs), Graffin flows head features into tail data through graph serialization techniques to alleviate the imbalance of tail representation. The local and global structures are fused to form the node representation under the combined effect of neighborhood and sequence information, which enriches the semantics of tail data. We validate the performance of Graffin on four real-world datasets in node classification tasks. Results show that Graffin can improve the adaptation to tail data without significantly degrading the overall model performance.
翻訳日:2024-09-10 15:50:59 公開日:2024-09-09
# グループメンバシップ仕様の誤り下でのロバストな非適応型グループテスト

Robust Non-adaptive Group Testing under Errors in Group Membership Specifications ( http://arxiv.org/abs/2409.05345v1 )

ライセンス: Link先を確認
Shuvayan Banerjee, Radhendushka Srivastava, James Saunderson, Ajit Rajwade, (参考訳) グループテスト(GT)は、$n < p$ `groups'でテストを実行することで、欠陥状態を決定することを目的としている。 欠陥サンプルの数が$p$に比べて非常に少ないと仮定すると、GTアルゴリズムは少数のグループでさえも全ての$p$サンプルの状態の良好な回復を提供してきた。 しかし、既存の方法の多くは、グループメンバーシップが正確に指定されていると仮定している。 この仮定は、様々なリソース制約のため、すべてのアプリケーションで常に当てはまるとは限らない。 例えば、技術者が実験室でグループを準備するとき、不正確なサンプルのサブセットを無意識に混ぜ合わせるなど、このようなエラーが発生する可能性がある。 本稿では,グループメンバシップ仕様の誤りを処理できる新しいGT法であるDebiased Robust Lasso Test Method (DRLT) を提案する。 DRLT法は, 一般的なスパルス回帰手法であるLassoによる推定値において, 偏差を低減し, 偏差を低減させる手法に基づいている。 また,推定器が生成した復元誤差の理論的上限も提供する。 我々のアプローチは、それぞれ2つの慎重に設計された仮説テストと組み合わせられる。 一 グループメンバーシップ明細書に誤りがある場合の欠陥サンプルの特定及び 二 不正会員の特定 DRLTアプローチは、グループメンバーシップ仕様の誤りなどの要因により、いくつかの測定値が外れ値を含む重要なケースを扱うために、LASSOのような統計推定器のバイアス緩和に関する文献を拡張している。 提案手法は, 欠陥サンプルと誤って特定されたグループを識別するために, いくつかのベースラインおよび頑健な回帰手法より優れていることを示す数値的な結果を得た。

Given $p$ samples, each of which may or may not be defective, group testing (GT) aims to determine their defect status by performing tests on $n < p$ `groups', where a group is formed by mixing a subset of the $p$ samples. Assuming that the number of defective samples is very small compared to $p$, GT algorithms have provided excellent recovery of the status of all $p$ samples with even a small number of groups. Most existing methods, however, assume that the group memberships are accurately specified. This assumption may not always be true in all applications, due to various resource constraints. Such errors could occur, eg, when a technician, preparing the groups in a laboratory, unknowingly mixes together an incorrect subset of samples as compared to what was specified. We develop a new GT method, the Debiased Robust Lasso Test Method (DRLT), that handles such group membership specification errors. The proposed DRLT method is based on an approach to debias, or reduce the inherent bias in, estimates produced by Lasso, a popular and effective sparse regression technique. We also provide theoretical upper bounds on the reconstruction error produced by our estimator. Our approach is then combined with two carefully designed hypothesis tests respectively for (i) the identification of defective samples in the presence of errors in group membership specifications, and (ii) the identification of groups with erroneous membership specifications. The DRLT approach extends the literature on bias mitigation of statistical estimators such as the LASSO, to handle the important case when some of the measurements contain outliers, due to factors such as group membership specification errors. We present numerical results which show that our approach outperforms several baselines and robust regression techniques for identification of defective samples as well as erroneously specified groups.
翻訳日:2024-09-10 15:50:59 公開日:2024-09-09
# GDFlow:先進ドライバ支援システムのためのNCDEベース正規化フローによる異常検出

GDFlow: Anomaly Detection with NCDE-based Normalizing Flow for Advanced Driver Assistance System ( http://arxiv.org/abs/2409.05346v1 )

ライセンス: Link先を確認
Kangjun Lee, Minha Kim, Youngho Jun, Simon S. Woo, (参考訳) 電気自動車では、Adaptive Cruise Control (ACC) in Advanced Driver Assistance Systems (ADAS) は、運転条件、道路傾斜度、予め定義された減速強度、およびユーザのブレーキパターンに基づいてブレーキを支援するように設計されている。 しかし、ADASの開発中に収集された運転データは一般的に制限されており、多様性が欠如している。 この欠陥は、異なるユーザーにとって遅刻または攻撃的なブレーキにつながる。 重要な点として、ADASの予期せぬ、あるいは一貫性のないブレーキパターンなどの異常を効果的に識別する必要がある。 本稿では, 通常の運転パターンの分布を連続的に学習するために, ニューラルネットワークを用いた正規化フロー (NF) とニューラル制御微分方程式 (NCDE) を併用したモデルであるグラフニューラル制御微分方程式正規化フロー (GDFlow) を提案する。 従来のクラスタリングや異常検出アルゴリズムと比較して,センサデータから時空間情報を効果的に取得し,運転パターンの連続的な変化をより正確にモデル化する。 さらに,分布境界付近の正規データの推定精度を向上し,正規パターンと異常パターンを識別するモデルの能力を向上する。 我々は,Hyundai IONIQ5とGV80EVから収集した実世界の電気自動車運転データを用いて,GDFlowを検証する。 さらに,本モデルでは,4つの時系列ベンチマークデータセットにおいて,最新の異常検出手法よりも優れていた。 提案手法は,既存の手法に比べて推論時間に優れた効率性を示す。

For electric vehicles, the Adaptive Cruise Control (ACC) in Advanced Driver Assistance Systems (ADAS) is designed to assist braking based on driving conditions, road inclines, predefined deceleration strengths, and user braking patterns. However, the driving data collected during the development of ADAS are generally limited and lack diversity. This deficiency leads to late or aggressive braking for different users. Crucially, it is necessary to effectively identify anomalies, such as unexpected or inconsistent braking patterns in ADAS, especially given the challenge of working with unlabelled, limited, and noisy datasets from real-world electric vehicles. In order to tackle the aforementioned challenges in ADAS, we propose Graph Neural Controlled Differential Equation Normalizing Flow (GDFlow), a model that leverages Normalizing Flow (NF) with Neural Controlled Differential Equations (NCDE) to learn the distribution of normal driving patterns continuously. Compared to the traditional clustering or anomaly detection algorithms, our approach effectively captures the spatio-temporal information from different sensor data and more accurately models continuous changes in driving patterns. Additionally, we introduce a quantile-based maximum likelihood objective to improve the likelihood estimate of the normal data near the boundary of the distribution, enhancing the model's ability to distinguish between normal and anomalous patterns. We validate GDFlow using real-world electric vehicle driving data that we collected from Hyundai IONIQ5 and GV80EV, achieving state-of-the-art performance compared to six baselines across four dataset configurations of different vehicle types and drivers. Furthermore, our model outperforms the latest anomaly detection methods across four time series benchmark datasets. Our approach demonstrates superior efficiency in inference time compared to existing methods.
翻訳日:2024-09-10 15:40:55 公開日:2024-09-09
# TriplePlay: CLIPによる非IIDデータとリソース効率の向上

TriplePlay: Enhancing Federated Learning with CLIP for Non-IID Data and Resource Efficiency ( http://arxiv.org/abs/2409.05347v1 )

ライセンス: Link先を確認
Ahmed Imteaj, Md Zarif Hossain, Saika Zaman, Abdur R. Shahid, (参考訳) CLIPによって実証された事前学習モデルの急速な進歩と複雑さの増大は、プライバシ保護人工知能の重要なコンポーネントであるフェデレートラーニング(FL)の課題と同様に、大きな機会を提供する。 この研究は、プライバシー、効率、不均一なデータランドスケープに対する適応性を高めるために、FLフレームワークにCLIPのような大規模な基盤モデルを統合することの難しさを掘り下げている。 これは、非IIDデータ分散によって引き起こされる課題、そのような複雑なモデルを活用する際の計算と通信のオーバーヘッド、データセット内のクラスの歪んだ表現に特に対処する。 本稿では,CLIPをアダプタとして統合したフレームワークであるTriplePlayを提案する。 提案手法は,量子化と低ランク適応技術による資源需要の低減を図りながら,資源需要の公平性を確保するための長期分布問題に対処し,TriplePlayがGPU使用コストを効果的に削減し,通信オーバーヘッドを低減して収束を達成できることをシミュレーションにより実証した。

The rapid advancement and increasing complexity of pretrained models, exemplified by CLIP, offer significant opportunities as well as challenges for Federated Learning (FL), a critical component of privacy-preserving artificial intelligence. This research delves into the intricacies of integrating large foundation models like CLIP within FL frameworks to enhance privacy, efficiency, and adaptability across heterogeneous data landscapes. It specifically addresses the challenges posed by non-IID data distributions, the computational and communication overheads of leveraging such complex models, and the skewed representation of classes within datasets. We propose TriplePlay, a framework that integrates CLIP as an adapter to enhance FL's adaptability and performance across diverse data distributions. This approach addresses the long-tail distribution challenge to ensure fairness while reducing resource demands through quantization and low-rank adaptation techniques.Our simulation results demonstrate that TriplePlay effectively decreases GPU usage costs and speeds up the learning process, achieving convergence with reduced communication overhead.
翻訳日:2024-09-10 15:40:55 公開日:2024-09-09
# 過パラメータ化変分オートエンコーダの収束解析について:ニューラル・タンジェント・カーネル・パースペクティブ

On the Convergence Analysis of Over-Parameterized Variational Autoencoders: A Neural Tangent Kernel Perspective ( http://arxiv.org/abs/2409.05349v1 )

ライセンス: Link先を確認
Li Wang, Wei Huang, (参考訳) 変分自動エンコーダ(VAE)は、生成タスクの強力な確率モデルとして登場した。 しかし、それらの収束性は厳密には証明されていない。 収束を証明することの難しさは、トレーニング目的の非凸性や、VAEアーキテクチャにおける確率ニューラルネットワーク(SNN)の実装によって本質的に困難である。 本稿では, ニューラルタンジェントカーネル (NTK) 技術を用いて, VAE で使用される SNN の最適化軌道を特徴付けることにより, これらの課題に対処する。 これらの手法は超ワイドニューラルネットワークの最適化と一般化の挙動を制御している。 軽微な仮定の下でのVAE収束の数学的証明により、VAE最適化力学の理論的理解を推し進める。 さらに,過パラメータSNNが直面する最適化問題とKernel Ridge Regression(KRR)問題との新たな接続を確立する。 我々の発見は、VAEの理論的基礎に貢献するだけでなく、先進的なカーネル手法を用いた生成モデルの最適化を研究するための新たな道を開いた。 我々の理論的主張は実験シミュレーションによって検証される。

Variational Auto-Encoders (VAEs) have emerged as powerful probabilistic models for generative tasks. However, their convergence properties have not been rigorously proven. The challenge of proving convergence is inherently difficult due to the highly non-convex nature of the training objective and the implementation of a Stochastic Neural Network (SNN) within VAE architectures. This paper addresses these challenges by characterizing the optimization trajectory of SNNs utilized in VAEs through the lens of Neural Tangent Kernel (NTK) techniques. These techniques govern the optimization and generalization behaviors of ultra-wide neural networks. We provide a mathematical proof of VAE convergence under mild assumptions, thus advancing the theoretical understanding of VAE optimization dynamics. Furthermore, we establish a novel connection between the optimization problem faced by over-parameterized SNNs and the Kernel Ridge Regression (KRR) problem. Our findings not only contribute to the theoretical foundation of VAEs but also open new avenues for investigating the optimization of generative models using advanced kernel methods. Our theoretical claims are verified by experimental simulations.
翻訳日:2024-09-10 15:40:55 公開日:2024-09-09
# 先行マップで運転する: 自動走行車マッピングのための統一ベクトル事前符号化

Driving with Prior Maps: Unified Vector Prior Encoding for Autonomous Vehicle Mapping ( http://arxiv.org/abs/2409.05352v1 )

ライセンス: Link先を確認
Shuang Zeng, Xinyuan Chang, Xinran Liu, Zheng Pan, Xing Wei, (参考訳) ハイディフィニションマップ(HDマップ)は、自動運転車の正確なナビゲーションと意思決定に不可欠である。 オンボードセンサーを用いたHDマップのオンライン構築は有望な解決策として現れてきたが、これらの手法は閉塞や悪天候による不完全なデータによって妨げられる。 本稿では,これらの制約に対応するために,事前マップのパワーを活用し,オンラインHDマップ構築のロバスト性と精度を大幅に向上させることにより,これらの制約に対処するPriorDriveフレームワークを提案する。 当社のアプローチでは,OpenStreetMapの標準定義マップ(SDマップ)やベンダの古いHDマップ,過去の車両データからローカルに構築されたマップなど,さまざまな事前マップを統合している。 この事前情報をオンラインマッピングモデルに効果的にエンコードするために,多様な地図要素の表現を標準化するHybrid Prior Representation (HPQuery)を導入する。 PriorDriveのコアとなるUnified Vector Encoder (UVE)は、ベクトルデータを処理するためにデュアルエンコーディング機構を使用している。 ベクトル内エンコーダはきめ細かなローカル特徴をキャプチャし、ベクトル間エンコーダはグローバルコンテキストを統合する。 さらに,UVEがベクトルデータの事前分布を学習し,エンコーダの一般化性と性能を向上させるためのセグメントレベルおよびポイントレベルの事前学習戦略を提案する。 nuScenesデータセットの広範なテストを通じて、PrediorDriveは様々なオンラインマッピングモデルと高い互換性を持ち、マップ予測機能を大幅に改善することを示した。 PriorDriveフレームワークによる事前マップの統合は、シングルパーセプションデータの課題に対する堅牢なソリューションを提供し、より信頼性の高い自動運転車ナビゲーションを実現する。

High-Definition Maps (HD maps) are essential for the precise navigation and decision-making of autonomous vehicles, yet their creation and upkeep present significant cost and timeliness challenges. The online construction of HD maps using on-board sensors has emerged as a promising solution; however, these methods can be impeded by incomplete data due to occlusions and inclement weather. This paper proposes the PriorDrive framework to addresses these limitations by harnessing the power of prior maps, significantly enhancing the robustness and accuracy of online HD map construction. Our approach integrates a variety of prior maps, such as OpenStreetMap's Standard Definition Maps (SD maps), outdated HD maps from vendors, and locally constructed maps from historical vehicle data. To effectively encode this prior information into online mapping models, we introduce a Hybrid Prior Representation (HPQuery) that standardizes the representation of diverse map elements. At the core of PriorDrive is the Unified Vector Encoder (UVE), which employs a dual encoding mechanism to process vector data. The intra-vector encoder captures fine-grained local features, while the inter-vector encoder integrates global context. Furthermore, we propose a segment-level and point-level pre-training strategy that enables the UVE to learn the prior distribution of vector data, thereby improving the encoder's generalizability and performance. Through extensive testing on the nuScenes dataset, we demonstrate that PriorDrive is highly compatible with various online mapping models and substantially improves map prediction capabilities. The integration of prior maps through the PriorDrive framework offers a robust solution to the challenges of single-perception data, paving the way for more reliable autonomous vehicle navigation.
翻訳日:2024-09-10 15:40:55 公開日:2024-09-09
# 効率よいベイズ実験設計のための再帰ネストフィルタ

Recursive Nested Filtering for Efficient Amortized Bayesian Experimental Design ( http://arxiv.org/abs/2409.05354v1 )

ライセンス: Link先を確認
Sahel Iqbal, Hany Abdulsamad, Sara Pérez-Vieites, Simo Särkkä, Adrien Corenflos, (参考訳) 本稿では,非交換性条件下での逐次ベイズ実験設計のための新しい完全再帰的アルゴリズムであるInterside-Out Nested Particle Filter (IO-NPF)を紹介する。 我々は、非マルコフ状態空間モデルにおける最大推定としてポリシーの最適化を定式化し、(ほとんどの場合)$\mathcal{O}(T^2)$計算複雑性を実験数で達成する。 理論的収束保証を提供し、軌道縮退を低減するために後方サンプリングアルゴリズムを導入する。 IO-NPFはシーケンシャルなベイズの実験設計に対して実用的で拡張性があり、確実に一貫したアプローチを提供し、既存の手法よりも優れた効率性を示している。

This paper introduces the Inside-Out Nested Particle Filter (IO-NPF), a novel, fully recursive, algorithm for amortized sequential Bayesian experimental design in the non-exchangeable setting. We frame policy optimization as maximum likelihood estimation in a non-Markovian state-space model, achieving (at most) $\mathcal{O}(T^2)$ computational complexity in the number of experiments. We provide theoretical convergence guarantees and introduce a backward sampling algorithm to reduce trajectory degeneracy. IO-NPF offers a practical, extensible, and provably consistent approach to sequential Bayesian experimental design, demonstrating improved efficiency over existing methods.
翻訳日:2024-09-10 15:40:55 公開日:2024-09-09
# IndicVoices-R:インドTSスケーリングのための多言語多話者音声コーパスのアンロック

IndicVoices-R: Unlocking a Massive Multilingual Multi-speaker Speech Corpus for Scaling Indian TTS ( http://arxiv.org/abs/2409.05356v1 )

ライセンス: Link先を確認
Ashwin Sankar, Srija Anand, Praveen Srinivasa Varadhan, Sherry Thomas, Mehak Singal, Shridhar Kumar, Deovrat Mehendale, Aditi Krishana, Giri Raju, Mitesh Khapra, (参考訳) 最近のTTS(text-to-Speech)合成の進歩は、広範囲なWebデータで訓練された大規模なモデルが、非常に自然に聞こえる出力を生み出すことを示している。 しかし、インドの言語では、LibriVoxやYouTubeのようなプラットフォーム上で、高品質で手書きの字幕データがないため、そのようなデータは少ない。 このギャップに対処するため、我々は、高品質なTSトレーニングデータを生成するために、低品質環境で収集された自然な会話を含む既存の大規模ASRデータセットを拡張した。 我々のパイプラインは、英語で訓練され、インド語に適用される音声強調モデルの言語間一般化を活用している。 その結果、インド最大の多言語TTSデータセットであるIndicVoices-R(IV-R)が、22のインドの言語で10,496人の話者から1,704時間の高品質なスピーチを処理した。 IV-Rは、LJSpeech、LibriTTS、IndicTTSといったゴールドスタンダードのTSデータセットの品質と一致する。 また、インド音声におけるTSモデルのゼロショット、少数ショット、多ショット話者一般化機能を評価し、年齢、性別、スタイルの多様性を保証するIV-Rベンチマークも導入した。 高品質なIndicTTSデータセットとIV-Rデータセットの組み合わせによる英語事前学習モデルの微調整は、IndicTTSデータセットのみの微調整に比べて、ゼロショット話者の一般化が優れていることを示す。 さらに,本評価では,事前データセットに基づいて訓練したTSモデルにおいて,インド音声のゼロショット一般化が制限されていることを明らかにする。 私たちはすべてのデータとコードをオープンソース化し、22のインドの公式言語で最初のTSモデルをリリースしました。

Recent advancements in text-to-speech (TTS) synthesis show that large-scale models trained with extensive web data produce highly natural-sounding output. However, such data is scarce for Indian languages due to the lack of high-quality, manually subtitled data on platforms like LibriVox or YouTube. To address this gap, we enhance existing large-scale ASR datasets containing natural conversations collected in low-quality environments to generate high-quality TTS training data. Our pipeline leverages the cross-lingual generalization of denoising and speech enhancement models trained on English and applied to Indian languages. This results in IndicVoices-R (IV-R), the largest multilingual Indian TTS dataset derived from an ASR dataset, with 1,704 hours of high-quality speech from 10,496 speakers across 22 Indian languages. IV-R matches the quality of gold-standard TTS datasets like LJSpeech, LibriTTS, and IndicTTS. We also introduce the IV-R Benchmark, the first to assess zero-shot, few-shot, and many-shot speaker generalization capabilities of TTS models on Indian voices, ensuring diversity in age, gender, and style. We demonstrate that fine-tuning an English pre-trained model on a combined dataset of high-quality IndicTTS and our IV-R dataset results in better zero-shot speaker generalization compared to fine-tuning on the IndicTTS dataset alone. Further, our evaluation reveals limited zero-shot generalization for Indian voices in TTS models trained on prior datasets, which we improve by fine-tuning the model on our data containing diverse set of speakers across language families. We open-source all data and code, releasing the first TTS model for all 22 official Indian languages.
翻訳日:2024-09-10 15:40:55 公開日:2024-09-09
# 保証誤差境界によるデータ削減のための注意に基づく機械学習手法

Attention Based Machine Learning Methods for Data Reduction with Guaranteed Error Bounds ( http://arxiv.org/abs/2409.05357v1 )

ライセンス: Link先を確認
Xiao Li, Jaemoon Lee, Anand Rangarajan, Sanjay Ranka, (参考訳) 高エネルギー物理学、計算流体力学、気候科学などの分野における科学的応用は、高速度で大量のデータを生成する。 データ生産の急激な成長は、コンピューティングパワー、ネットワーク能力、ストレージ能力の進歩を超越している。 この課題に対処するためには、データ圧縮や削減技術が不可欠である。 これらの科学的データセットは、各格子点がテンソルに対応する構造的およびブロック的多次元メッシュからなる基盤データ構造を持つ。 データリダクション技術は、これらの応用においてユビキタスな強い空間的・時間的相関を利用することが重要である。 さらに、CFDのようなアプリケーション、100以上の種とそれらの属性からなるプロセステンソルをグリッドポイント毎に適用する。 還元技術は各テンソルの要素間の相互関係を活用できるはずである。 本稿では,ブロック単位の圧縮設定を用いた注目に基づく階層圧縮手法を提案する。 本稿では,ブロック間相関をキャプチャするアテンションベースハイパーブロックオートエンコーダと,ブロック固有情報をキャプチャするブロックワイドエンコーダを提案する。 PCAベースの後処理ステップを使用して、各データブロックのエラー境界を保証する。 提案手法は,データブロック内およびデータブロック間の時空間的および時空間的相関を効果的に取得する。 現状のSZ3と比較して,本手法は多変数S3Dデータセットの最大8倍の圧縮比を達成できる。 E3SMデータセットとXGCデータセットを用いて単変量設定で評価すると, 圧縮比が最大3倍, 圧縮比が2倍になる。

Scientific applications in fields such as high energy physics, computational fluid dynamics, and climate science generate vast amounts of data at high velocities. This exponential growth in data production is surpassing the advancements in computing power, network capabilities, and storage capacities. To address this challenge, data compression or reduction techniques are crucial. These scientific datasets have underlying data structures that consist of structured and block structured multidimensional meshes where each grid point corresponds to a tensor. It is important that data reduction techniques leverage strong spatial and temporal correlations that are ubiquitous in these applications. Additionally, applications such as CFD, process tensors comprising hundred plus species and their attributes at each grid point. Reduction techniques should be able to leverage interrelationships between the elements in each tensor. In this paper, we propose an attention-based hierarchical compression method utilizing a block-wise compression setup. We introduce an attention-based hyper-block autoencoder to capture inter-block correlations, followed by a block-wise encoder to capture block-specific information. A PCA-based post-processing step is employed to guarantee error bounds for each data block. Our method effectively captures both spatiotemporal and inter-variable correlations within and between data blocks. Compared to the state-of-the-art SZ3, our method achieves up to 8 times higher compression ratio on the multi-variable S3D dataset. When evaluated on single-variable setups using the E3SM and XGC datasets, our method still achieves up to 3 times and 2 times higher compression ratio, respectively.
翻訳日:2024-09-10 15:40:55 公開日:2024-09-09
# BAMDPシェーピング:本質的なモチベーションとリワードシェーピングのための統一理論フレームワーク

BAMDP Shaping: a Unified Theoretical Framework for Intrinsic Motivation and Reward Shaping ( http://arxiv.org/abs/2409.05358v1 )

ライセンス: Link先を確認
Aly Lidayan, Michael Dennis, Stuart Russell, (参考訳) 内因性モチベーション(IM)と報酬形成は、擬似回帰を加えることで強化学習(RL)エージェントの探索を導くための一般的な方法である。 しかし、これらの報酬を設計することは困難であり、パフォーマンスに反感を与える可能性がある。 この問題を解決するため,ベイズ適応マルコフ決定過程 (BAMDP) において報酬形成を特徴付け,RL過程を,経験を通して可能なMPPを更新するものとして定式化することで探索の価値を定式化する。 RLアルゴリズムはBAMDPポリシーとみなすことができ、BAMDPを直接解くことによって最適なアルゴリズムを見つけようとするのではなく、擬似回帰アルゴリズムがどのように準最適アルゴリズムを導くかを理解するための理論的枠組みとして利用する。 BAMDP状態値を収集した情報の値と物理状態の事前値とに分解することにより、Psuedo-RewardsがRLアルゴリズムの2つの項の誤推定を補正し、IMの新たなタイプと報酬形成アプローチを導出することにより、どのようにしてPsuedo-Rewardsが役立つかを示す。 擬似逆転が BAMDP ポテンシャル型整形関数 (BAMPF) である場合、RL アルゴリズムの最適あるいはほぼ最適な振舞いを保ち、そうでなければ最適な学習者さえも破壊できることを示すため、ポテンシャル型整形定理を BAMDP に慎重に拡張する。 BAMDP状態の潜在的な機能として、環境に関する仮定を表現し、既存の擬似リワードをBAMPFに設計・変換する方法についてガイダンスを提示する。

Intrinsic motivation (IM) and reward shaping are common methods for guiding the exploration of reinforcement learning (RL) agents by adding pseudo-rewards. Designing these rewards is challenging, however, and they can counter-intuitively harm performance. To address this, we characterize them as reward shaping in Bayes-Adaptive Markov Decision Processes (BAMDPs), which formalizes the value of exploration by formulating the RL process as updating a prior over possible MDPs through experience. RL algorithms can be viewed as BAMDP policies; instead of attempting to find optimal algorithms by solving BAMDPs directly, we use it at a theoretical framework for understanding how pseudo-rewards guide suboptimal algorithms. By decomposing BAMDP state value into the value of the information collected plus the prior value of the physical state, we show how psuedo-rewards can help by compensating for RL algorithms' misestimation of these two terms, yielding a new typology of IM and reward shaping approaches. We carefully extend the potential-based shaping theorem to BAMDPs to prove that when pseudo-rewards are BAMDP Potential-based shaping Functions (BAMPFs), they preserve optimal, or approximately optimal, behavior of RL algorithms; otherwise, they can corrupt even optimal learners. We finally give guidance on how to design or convert existing pseudo-rewards to BAMPFs by expressing assumptions about the environment as potential functions on BAMDP states.
翻訳日:2024-09-10 15:40:55 公開日:2024-09-09
# FedBrain-Distill: Ensemble Knowledge Distillation を用いた非IIDデータを用いたコミュニケーション効率の良いフェデレーション脳腫瘍分類

FedBrain-Distill: Communication-Efficient Federated Brain Tumor Classification Using Ensemble Knowledge Distillation on Non-IID Data ( http://arxiv.org/abs/2409.05359v1 )

ライセンス: Link先を確認
Rasoul Jafari Gohari, Laya Aliahmadipour, Ezat Valipour, (参考訳) 脳は人体でもっとも複雑な器官の1つである。 その複雑さのため、脳腫瘍の分類は依然として重大な課題であり、脳腫瘍は特に深刻な医療上の問題となっている。 機械学習(ML)やMRI(MRI)などの技術は、医師や医療機関が様々な種類の腫瘍を分類する方法を舗装している。 しかし、これらの技術は患者のプライバシーを侵害する制限に悩まされる。 フェデレートラーニング(FL)はそのような問題を解決するために最近導入されましたが、FL自体は通信コストやモデルアーキテクチャへの依存性といった制限に悩まされており、すべてのモデルに同じアーキテクチャを持たせざるを得ません。 本稿では、ユーザプライバシを維持し、モデルアーキテクチャの観点からFLクライアントの独立性を保証するFL設定において、知識蒸留(KD)を活用するアプローチであるFedBrain-Distillを提案する。 FedBrain-Distillは、簡単な学生モデルに知識を注ぐ教師のアンサンブルを使用している。 FedBrain-Distillの評価は、実世界のFigshare脳腫瘍データセット上で、独立および独立分散(IID)および非IIDデータの両方に対して、かなりの低通信コストで高精度な結果を示した。 データをIDデータと非IIDデータに分割するためにDirichletディストリビューションを使用しました。 実装の詳細はすべてGithubリポジトリからアクセスできます。

Brain is one the most complex organs in the human body. Due to its complexity, classification of brain tumors still poses a significant challenge, making brain tumors a particularly serious medical issue. Techniques such as Machine Learning (ML) coupled with Magnetic Resonance Imaging (MRI) have paved the way for doctors and medical institutions to classify different types of tumors. However, these techniques suffer from limitations that violate patients privacy. Federated Learning (FL) has recently been introduced to solve such an issue, but the FL itself suffers from limitations like communication costs and dependencies on model architecture, forcing all models to have identical architectures. In this paper, we propose FedBrain-Distill, an approach that leverages Knowledge Distillation (KD) in an FL setting that maintains the users privacy and ensures the independence of FL clients in terms of model architecture. FedBrain-Distill uses an ensemble of teachers that distill their knowledge to a simple student model. The evaluation of FedBrain-Distill demonstrated high-accuracy results for both Independent and Identically Distributed (IID) and non-IID data with substantial low communication costs on the real-world Figshare brain tumor dataset. It is worth mentioning that we used Dirichlet distribution to partition the data into IID and non-IID data. All the implementation details are accessible through our Github repository.
翻訳日:2024-09-10 15:40:55 公開日:2024-09-09
# ボース・アインシュタイン凝縮体の動的トンネルにおけるマクロな自己トッピング

Macroscopic self-trapping in the dynamical tunneling of a Bose-Einstein condensate ( http://arxiv.org/abs/2409.05364v1 )

ライセンス: Link先を確認
Sebastian Wüster, Joy Cree, Matthew J. Davis, (参考訳) ボース=アインシュタイン凝縮体は変調された1次元の非調和ポテンシャルで、位相空間における正則運動の島々の間の動的トンネルを示すことができる。 反発性原子相互作用の増大に伴い、動的トンネルは自己トッピング[S]により停止すると予測される。 W\"uster et al Phys。 レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・ 109 080401 (2012) このトンネル振動の抑制は、二重井戸ポテンシャルで反発的に相互作用するボース=アインシュタイン凝縮体の2モード力学で起こるのと同じ現象に関係している。 本稿では,非線形フロケット状態に基づく動的トンネルの2モードモデルを提案し,近似の妥当性について検討する。 異なるトラップ強度,変調振幅,有効プランク定数に対する非線形動的トンネル特性を特徴付ける。 線形フロケ状態を用いることで、トンネルが停止する限界非線形性の式を導出する。 最後に、選択された非線形フロケット状態の動的不安定性を実証し、実験においてフロケット状態を初期化する方法を示す。 我々の詳細な調査により、非線形動的トンネルの研究において、アクセス可能なパラメータ構造を目標とする実験が可能となる。

A Bose-Einstein condensate in a modulated, one-dimensional, anharmonic potential can exhibit dynamical tunneling between islands of regular motion in phase space. With increasingly repulsive atomic interactions, dynamical tunneling is predicted to cease due to self-trapping [S. W\"uster et al. Phys. Rev. Lett. 109 080401 (2012)]. This suppression of tunneling oscillations is related to the same phenomenon that occurs in the two-mode dynamics of a repulsively interacting Bose-Einstein condensate in a double-well potential. Here we present a two-mode model for dynamical tunnelling based on nonlinear Floquet states and examine the range of validity of the approximation. We characterise nonlinear dynamical tunneling for different trap strengths, modulation amplitudes, and effective Planck constants. Using the linear Floquet states we derive an expression for the critical nonlinearity beyond which tunneling ceases. Finally we demonstrate the dynamical instability of selected nonlinear Floquet states and show how to initialise some Floquet states in experiments. Our detailed survey will enable experiments to target accessible parameter regimes for the study of nonlinear dynamical tunneling.
翻訳日:2024-09-10 15:40:55 公開日:2024-09-09
# 自然言語における診断推論:計算モデルと応用

Diagnostic Reasoning in Natural Language: Computational Model and Application ( http://arxiv.org/abs/2409.05367v1 )

ライセンス: Link先を確認
Nils Dycke, Matej Zečević, Ilia Kuznetsov, Beatrix Suess, Kristian Kersting, Iryna Gurevych, (参考訳) 診断的推論は多くの領域で専門家の仕事の鍵となる要素である。 専門知識を必要とする、困難で時間を要する活動であり、AI研究は、自動化システムがこのプロセスをサポートする方法を調査してきた。 しかし、自然言語の複雑さのため、言語関連タスクに対する診断推論のためのAIの応用は不足している。 このギャップを埋めるために,言語基底タスク(NL-DAR)の文脈における診断誘導推論(DAR)について検討する。 本稿では, パールの構造因果モデルに基づくNL-DARの新しいモデリングフレームワークを提案する。 得られたデータセットを用いて、NL-DARにおける人間の意思決定プロセスを調査し、LLMがテキストによる構造化意思決定を支援する可能性を決定する。 我々のフレームワーク、オープンリソース、ツールは、LLMの時代、学術領域などにおける協調的診断推論の実証的研究の基盤となった。

Diagnostic reasoning is a key component of expert work in many domains. It is a hard, time-consuming activity that requires expertise, and AI research has investigated the ways automated systems can support this process. Yet, due to the complexity of natural language, the applications of AI for diagnostic reasoning to language-related tasks are lacking. To close this gap, we investigate diagnostic abductive reasoning (DAR) in the context of language-grounded tasks (NL-DAR). We propose a novel modeling framework for NL-DAR based on Pearl's structural causal models and instantiate it in a comprehensive study of scientific paper assessment in the biomedical domain. We use the resulting dataset to investigate the human decision-making process in NL-DAR and determine the potential of LLMs to support structured decision-making over text. Our framework, open resources and tools lay the groundwork for the empirical study of collaborative diagnostic reasoning in the age of LLMs, in the scholarly domain and beyond.
翻訳日:2024-09-10 15:40:55 公開日:2024-09-09
# 深層学習モデルの応用特化圧縮

Application Specific Compression of Deep Learning Models ( http://arxiv.org/abs/2409.05368v1 )

ライセンス: Link先を確認
Rohit Raj Rai, Angana Borah, Amit Awekar, (参考訳) 大規模なディープラーニングモデルは圧縮され、特定のアプリケーションにデプロイされる。 しかし,現在のDeep Learningモデル圧縮手法では,対象アプリケーションに関する情報は利用できない。 その結果、圧縮されたモデルはアプリケーションに依存しない。 私たちのゴールは、モデル圧縮プロセスをカスタマイズして、ターゲットアプリケーションにより良いパフォーマンスをもたらす圧縮モデルを作成することです。 提案手法であるアプリケーション固有圧縮(ASC)は,対象とするアプリケーションに特化して冗長な大規模ディープラーニングモデルのコンポーネントを同定し,特定する。 私たちの作業の直感は、与えられたアプリケーションのデータ表現の更新に大きく貢献しないネットワークの一部を創り出すことです。 抽出QA, 自然言語推論, パラフレーズ同定の3つの応用について, BERTファミリを用いて実験を行った。 ASC法を用いて作成したカスタマイズ圧縮モデルは,既存のモデル圧縮法や既製の圧縮モデルよりも優れた性能を示す。

Large Deep Learning models are compressed and deployed for specific applications. However, current Deep Learning model compression methods do not utilize the information about the target application. As a result, the compressed models are application agnostic. Our goal is to customize the model compression process to create a compressed model that will perform better for the target application. Our method, Application Specific Compression (ASC), identifies and prunes components of the large Deep Learning model that are redundant specifically for the given target application. The intuition of our work is to prune the parts of the network that do not contribute significantly to updating the data representation for the given application. We have experimented with the BERT family of models for three applications: Extractive QA, Natural Language Inference, and Paraphrase Identification. We observe that customized compressed models created using ASC method perform better than existing model compression methods and off-the-shelf compressed models.
翻訳日:2024-09-10 15:40:55 公開日:2024-09-09
# KARGEN:大規模言語モデルを用いた知識向上型自動放射線学レポート作成

KARGEN: Knowledge-enhanced Automated Radiology Report Generation Using Large Language Models ( http://arxiv.org/abs/2409.05370v1 )

ライセンス: Link先を確認
Yingshu Li, Zhanyu Wang, Yunyi Liu, Lei Wang, Lingqiao Liu, Luping Zhou, (参考訳) 物語生成,論理的推論,常識的知識統合のための大規模言語モデル(LLM)の頑健な能力に配慮し,LLMを活用して自動放射線学レポート生成(R2Gen)を強化する。 LLM内の豊富な知識にもかかわらず、R2Genのような特定のタスクに対するこれらの大きなモデル内の関連知識を効率的に引き起こすことは、重要な研究課題である。 本稿では,LLMに基づく知識向上型自動放射線学レポートジェネレーションフレームワークであるKARGENについて述べる。 凍結したLDMを使用してレポートを生成するこのフレームワークは、知識グラフを統合して、LCM内の胸部疾患関連知識を解放し、生成されたレポートの臨床的有用性を向上する。 これは、知識グラフを利用して、設計された方法で疾患に関連する特徴を蒸留することで達成される。 放射線学報告は, 正常および疾患関連所見の両方を包含しているため, 抽出したグラフ関連疾患の特徴は, 局所像の特徴と統合され, いずれの側面も関与する。 我々は,最も関連性の高い特徴を自動的に優先順位付けし,選択するための2つの融合法について検討する。 融合した特徴は、LSMによって病気に敏感で、品質が向上した報告を生成するために使用される。 提案手法はMIMIC-CXRとIU-Xrayのデータセットに対して有望な結果を示す。

Harnessing the robust capabilities of Large Language Models (LLMs) for narrative generation, logical reasoning, and common-sense knowledge integration, this study delves into utilizing LLMs to enhance automated radiology report generation (R2Gen). Despite the wealth of knowledge within LLMs, efficiently triggering relevant knowledge within these large models for specific tasks like R2Gen poses a critical research challenge. This paper presents KARGEN, a Knowledge-enhanced Automated radiology Report GENeration framework based on LLMs. Utilizing a frozen LLM to generate reports, the framework integrates a knowledge graph to unlock chest disease-related knowledge within the LLM to enhance the clinical utility of generated reports. This is achieved by leveraging the knowledge graph to distill disease-related features in a designed way. Since a radiology report encompasses both normal and disease-related findings, the extracted graph-enhanced disease-related features are integrated with regional image features, attending to both aspects. We explore two fusion methods to automatically prioritize and select the most relevant features. The fused features are employed by LLM to generate reports that are more sensitive to diseases and of improved quality. Our approach demonstrates promising results on the MIMIC-CXR and IU-Xray datasets.
翻訳日:2024-09-10 15:40:55 公開日:2024-09-09
# 正規化量子系の完全性関係

Completeness Relation in Renormalized Quantum Systems ( http://arxiv.org/abs/2409.05372v1 )

ライセンス: Link先を確認
Fatih Erman, O. Teoman Turgut, (参考訳) 本研究では、量子力学の本質的な仮定である固有ベクトルの完全性関係が、離散スペクトルを持つ初期ハミルトニアンが、2次元および3次元コンパクト多様体あるいはユークリッド空間の点で支持されるデルタポテンシャル(正規化スキームによって正確になされる)によって修正された場合、依然として真であることが示される。 定式化は、容易に$N$の中央ケースに拡張することができ、デルタ相互作用が平面や空間の曲線上で支持される場合である。

In this work, we show that the completeness relation for the eigenvectors, which is an essential assumption of quantum mechanics, remains true if the initial Hamiltonian, having a discrete spectrum, is modified by a delta potential (to be made precise by a renormalization scheme) supported at a point in two and three-dimensional compact manifolds or Euclidean spaces. The formulation can be easily extended to $N$ center case, and the case where delta interaction is supported on curves in the plane or space.
翻訳日:2024-09-10 15:40:55 公開日:2024-09-09
# 代数的アプローチを用いた4\times 4$ constant Yang-Baxter作用素のヒエタリンタの分類

Hietarinta's classification of $4\times 4$ constant Yang-Baxter operators using algebraic approach ( http://arxiv.org/abs/2409.05375v1 )

ライセンス: Link先を確認
Somnath Maity, Vivek Kumar Singh, Pramod Padmanabhan, Vladimir Korepin, (参考訳) ヤン・バクスター作用素の分類は、量子コンピュータ上の積分可能量子システムのシミュレーション研究における重要な第一歩である。 初期のイニシアチブの1つは、2次元局所ヒルベルト空間 (qubit representation) に対する定数ヤン・バクスター解の分類においてヒエタリンタによってなされた。 彼は置換作用素によって生成されるものを含む可逆解の11の族を得た。 これらの手法は 4 × 4 の解に対してうまく機能するが、高次元表現には難しくなる。 本研究では、代数構造から ans\"{a}tze を用いて、定数ヤン・バクスター解を表現独立に構成することで、この制限を克服する。 キュービット表現が選択されたとき、11のヒエタリンタ族のうち10を再現する4つの異なる代数構造を用いる。 この方法には、可換作用素の集合、クリフォード代数、テンパーリー・リーブ代数、および分割代数が含まれる。 これらのメソッドで$(2,2)$ Hietarinta クラスは得られない。

Classifying Yang-Baxter operators is an essential first step in the study of the simulation of integrable quantum systems on quantum computers. One of the earliest initiatives was taken by Hietarinta in classifying constant Yang-Baxter solutions for a two-dimensional local Hilbert space (qubit representation). He obtained 11 families of invertible solutions, including the one generated by the permutation operator. While these methods work well for 4 by 4 solutions, they become cumbersome for higher dimensional representations. In this work, we overcome this restriction by constructing the constant Yang-Baxter solutions in a representation independent manner by using ans\"{a}tze from algebraic structures. We use four different algebraic structures that reproduce 10 of the 11 Hietarinta families when the qubit representation is chosen. The methods include a set of commuting operators, Clifford algebras, Temperley-Lieb algebras, and partition algebras. We do not obtain the $(2,2)$ Hietarinta class with these methods.
翻訳日:2024-09-10 15:40:55 公開日:2024-09-09
# 学生-教師ネットワークによるメモリレスマルチモーダル異常検出と符号付き遠隔学習

Memoryless Multimodal Anomaly Detection via Student-Teacher Network and Signed Distance Learning ( http://arxiv.org/abs/2409.05378v1 )

ライセンス: Link先を確認
Zhongbin Sun, Xiaolong Li, Yiran Li, Yue Ma, (参考訳) 教師なし異常検出はコンピュータビジョンの課題であり、2Dベースの異常検出方法が広く研究されている。 しかし、RGB画像と3D点雲に基づくマルチモーダル異常検出には、さらなる調査が必要である。 既存の手法は主に2Dベースの異常検出でよく使われるメモリバンクベースの手法にインスパイアされている。 本研究では,RGB画像と3次元点雲からそれぞれ学習するために,学生-教師ネットワークと符号付き距離関数を用いたマルチモーダル異常検出のための新しいメモリレス手法MDSSを提案し,その2つのモードから異常情報を補完する。 具体的には,通常のRGB画像とマスクを動的損失でトレーニングし,学生と教師の出力の相違から異常スコアマップを得ることができた。 さらに、符号付き距離関数は通常の点雲から学習して点と面の間の符号付き距離を予測し、得られた符号付き距離を用いて異常スコアマップを生成する。 その後、異常スコアマップを整列して最終異常スコアマップを生成して検出する。 実験の結果,MDSSはSOTAメモリバンク方式のShape-guidedと同等だが安定であり,他のベースライン方式よりも優れた性能を示した。

Unsupervised anomaly detection is a challenging computer vision task, in which 2D-based anomaly detection methods have been extensively studied. However, multimodal anomaly detection based on RGB images and 3D point clouds requires further investigation. The existing methods are mainly inspired by memory bank based methods commonly used in 2D-based anomaly detection, which may cost extra memory for storing mutimodal features. In present study, a novel memoryless method MDSS is proposed for multimodal anomaly detection, which employs a light-weighted student-teacher network and a signed distance function to learn from RGB images and 3D point clouds respectively, and complements the anomaly information from the two modalities. Specifically, a student-teacher network is trained with normal RGB images and masks generated from point clouds by a dynamic loss, and the anomaly score map could be obtained from the discrepancy between the output of student and teacher. Furthermore, the signed distance function learns from normal point clouds to predict the signed distances between points and surface, and the obtained signed distances are used to generate anomaly score map. Subsequently, the anomaly score maps are aligned to generate the final anomaly score map for detection. The experimental results indicate that MDSS is comparable but more stable than the SOTA memory bank based method Shape-guided, and furthermore performs better than other baseline methods.
翻訳日:2024-09-10 15:30:45 公開日:2024-09-09
# PersonaTalk: ビジュアルダビングでペルソナに注意を喚起する

PersonaTalk: Bring Attention to Your Persona in Visual Dubbing ( http://arxiv.org/abs/2409.05379v1 )

ライセンス: Link先を確認
Longhao Zhang, Shuang Liang, Zhipeng Ge, Tianshu Hu, (参考訳) 音声駆動型視覚ダビングでは、正確な唇同期を合成しながら話者のペルソナを保ち、強調することは非常に難しい。 既存の方法は、話者の独特の発話スタイルを捉えたり、顔の詳細を保存したりするには不十分である。 本稿では、高忠実でパーソナライズされた視覚的ダビングのための、幾何学的構成と顔レンダリングを含む注目に基づく2段階のフレームワークであるPersonaTalkを提案する。 第1段階では,音声特徴に発話スタイルを注入するスタイル認識型音声符号化モジュールを,クロスアテンション層を通じて提案する。 スタイリングされたオーディオ機能は、スピーカーのテンプレート形状を駆動し、リップ同期ジオメトリを取得するために使用される。 第2段階では、ターゲットジオメトリのテクスチャをレンダリングするために、デュアルアテンションフェースレンダラーが導入された。 これは2つの平行なクロスアテンション層、すなわちLip-AttentionとFace-Attentionで構成され、それぞれ異なる参照フレームからテクスチャをサンプリングして顔全体をレンダリングする。 私たちの革新的なデザインでは、複雑な顔の詳細を十分に保存することができる。 総合的な実験とユーザスタディは、視覚的品質、リップシンク精度、ペルソナ保存の観点から、他の最先端手法に対する私たちの優位性を実証している。 さらに、ペルソナTalkは、個人固有のフレームワークとして、最先端の個人固有の手法として、競争性能を達成することができる。 Project Page: https://grisoon.github.io/PersonaTalk/.com

For audio-driven visual dubbing, it remains a considerable challenge to uphold and highlight speaker's persona while synthesizing accurate lip synchronization. Existing methods fall short of capturing speaker's unique speaking style or preserving facial details. In this paper, we present PersonaTalk, an attention-based two-stage framework, including geometry construction and face rendering, for high-fidelity and personalized visual dubbing. In the first stage, we propose a style-aware audio encoding module that injects speaking style into audio features through a cross-attention layer. The stylized audio features are then used to drive speaker's template geometry to obtain lip-synced geometries. In the second stage, a dual-attention face renderer is introduced to render textures for the target geometries. It consists of two parallel cross-attention layers, namely Lip-Attention and Face-Attention, which respectively sample textures from different reference frames to render the entire face. With our innovative design, intricate facial details can be well preserved. Comprehensive experiments and user studies demonstrate our advantages over other state-of-the-art methods in terms of visual quality, lip-sync accuracy and persona preservation. Furthermore, as a person-generic framework, PersonaTalk can achieve competitive performance as state-of-the-art person-specific methods. Project Page: https://grisoon.github.io/PersonaTalk/.
翻訳日:2024-09-10 15:30:45 公開日:2024-09-09
# Prim2Room: プリミティブからのレイアウト制御可能なルームメッシュ生成

Prim2Room: Layout-Controllable Room Mesh Generation from Primitives ( http://arxiv.org/abs/2409.05380v1 )

ライセンス: Link先を確認
Chengzeng Feng, Jiacheng Wei, Cheng Chen, Yang Li, Pan Ji, Fayao Liu, Hongdong Li, Guosheng Lin, (参考訳) 2次元レイアウト条件と3次元プリミティブ検索を利用して、正確な3次元レイアウト仕様を容易に作成できる新しいルームメッシュ生成フレームワークであるPrim2Roomを提案する。 制御と精度に欠ける既存の手法から、本手法は室内環境の詳細なカスタマイズを可能にする。 従来手法の限界を克服するために,事前に定義されたカメラトラジェクトリよりも有利な視点から家具のテクスチャや幾何学を生成できる適応的視点選択アルゴリズムを導入する。 さらに、生成したオブジェクトとその対応するプリミティブ間のアライメントを確保するために、非剛性深度登録を用いるとともに、形状変化が多様性を維持することを可能にする。 提案手法は,生成した3Dシーンの精度と美的魅力を高めるだけでなく,詳細な部屋デザインのためのユーザフレンドリーなプラットフォームも提供する。

We propose Prim2Room, a novel framework for controllable room mesh generation leveraging 2D layout conditions and 3D primitive retrieval to facilitate precise 3D layout specification. Diverging from existing methods that lack control and precision, our approach allows for detailed customization of room-scale environments. To overcome the limitations of previous methods, we introduce an adaptive viewpoint selection algorithm that allows the system to generate the furniture texture and geometry from more favorable views than predefined camera trajectories. Additionally, we employ non-rigid depth registration to ensure alignment between generated objects and their corresponding primitive while allowing for shape variations to maintain diversity. Our method not only enhances the accuracy and aesthetic appeal of generated 3D scenes but also provides a user-friendly platform for detailed room design.
翻訳日:2024-09-10 15:30:45 公開日:2024-09-09
# メタプロンプト学習と勾配正規化による画像品質評価のためのCLIP適応の強化

Boosting CLIP Adaptation for Image Quality Assessment via Meta-Prompt Learning and Gradient Regularization ( http://arxiv.org/abs/2409.05381v1 )

ライセンス: Link先を確認
Xudong Li, Zihao Huang, Runze Hu, Yan Zhang, Liujuan Cao, Rongrong Ji, (参考訳) 画像品質評価(IQA)は、複雑な歪み条件、多様な画像コンテンツ、限られたデータ可用性のため、コンピュータビジョンの分野で未解決の課題である。 既存のBlind IQA (BIQA) の手法は、IQAデータセットの作成が要求される性質のため、労働集約的かつコストがかかるモデルをトレーニングするための広範囲な人間のアノテーションに大きく依存している。 本稿では,ラベル付きサンプルへの依存を軽減するため,GRMP-IQAフレームワーク(Gradient-Regulated Meta-Prompt IQA Framework)を提案する。 このフレームワークは、強力なビジュアル言語事前訓練モデルであるCLIPを、下流のIQAタスクに迅速に適用することを目的としており、データ制限のあるシナリオの精度を大幅に向上することを目的としている。 具体的には、GRMP-IQAはMeta-Prompt事前学習モジュールとQuality-Aware Gradient Regularizationの2つの主要なモジュールから構成されている。 Meta Prompt事前学習モジュールは、メタ学習パラダイムを活用して、さまざまな歪みにまたがる共有メタ知識を持つソフトプロンプトを事前訓練することで、さまざまなIQAタスクへの迅速な適応を可能にする。 一方、Quality-Aware Gradient Regularizationは、微調整中の更新勾配を調整し、品質関連機能に注目し、セマンティック情報への過度な適合を防止するように設計されている。 5つの標準BIQAデータセットに対する大規模な実験は、制限されたデータ設定下での最先端BIQA手法よりも優れた性能を示し、すなわち、SRCC値が0.836(LIVECでは0.760)と0.853(KonIQでは0.812)である。 特に、トレーニングデータの20%しか利用していないGRMP-IQAは、既存の完全に教師されたBIQA手法よりも優れています。

Image Quality Assessment (IQA) remains an unresolved challenge in the field of computer vision, due to complex distortion conditions, diverse image content, and limited data availability. The existing Blind IQA (BIQA) methods heavily rely on extensive human annotations to train models, which is both labor-intensive and costly due to the demanding nature of creating IQA datasets. To mitigate the dependence on labeled samples, this paper introduces a novel Gradient-Regulated Meta-Prompt IQA Framework (GRMP-IQA). This framework aims to fast adapt the powerful visual-language pre-trained model, CLIP, to downstream IQA tasks, significantly improving accuracy in scenarios with limited data. Specifically, the GRMP-IQA comprises two key modules: Meta-Prompt Pre-training Module and Quality-Aware Gradient Regularization. The Meta Prompt Pre-training Module leverages a meta-learning paradigm to pre-train soft prompts with shared meta-knowledge across different distortions, enabling rapid adaptation to various IQA tasks. On the other hand, the Quality-Aware Gradient Regularization is designed to adjust the update gradients during fine-tuning, focusing the model's attention on quality-relevant features and preventing overfitting to semantic information. Extensive experiments on five standard BIQA datasets demonstrate the superior performance to the state-of-the-art BIQA methods under limited data setting, i.e., achieving SRCC values of 0.836 (vs. 0.760 on LIVEC) and 0.853 (vs. 0.812 on KonIQ). Notably, utilizing just 20\% of the training data, our GRMP-IQA outperforms most existing fully supervised BIQA methods.
翻訳日:2024-09-10 15:30:45 公開日:2024-09-09
# ビデオ異常検出のためのディープラーニング

Deep Learning for Video Anomaly Detection: A Review ( http://arxiv.org/abs/2409.05383v1 )

ライセンス: Link先を確認
Peng Wu, Chengyu Pan, Yuting Yan, Guansong Pang, Peng Wang, Yanning Zhang, (参考訳) ビデオ異常検出(VAD)は、ビデオの正常性から逸脱する行動や事象を発見することを目的としている。 コンピュータビジョン分野における長年の課題として、VADは大きな進歩を目の当たりにしてきた。 ディープラーニングの時代には、継続的に増加する能力と能力のアーキテクチャの爆発により、VADタスクにはさまざまなディープラーニングベースのメソッドが常に出現し、検出アルゴリズムの一般化能力を大幅に改善し、アプリケーションシナリオを拡大しています。 そのため、多くの方法や文献が総合的な調査を必要としている。 本稿では, 半教師付き, 弱教師付き, 完全教師付き, 未教師付き, オープンセット型の5つのカテゴリのスペクトルを網羅し, 事前訓練された大規模モデルに基づいて, 半教師付きVADと小モデルベース手法にのみ焦点を絞った過去のレビューの限界を緩和する, 最新のVAD作品について検討する。 異なるレベルの監督レベルを持つVADタスクに対して、よく組織化された分類法を構築し、異なるタイプのメソッドの特徴を深く議論し、それらの性能比較を示す。 さらに、このレビューには、前述のすべてのVADタスクをカバーする公開データセット、オープンソースコード、評価指標が含まれる。 最後に,VADコミュニティにとって重要な研究指針をいくつか提示する。

Video anomaly detection (VAD) aims to discover behaviors or events deviating from the normality in videos. As a long-standing task in the field of computer vision, VAD has witnessed much good progress. In the era of deep learning, with the explosion of architectures of continuously growing capability and capacity, a great variety of deep learning based methods are constantly emerging for the VAD task, greatly improving the generalization ability of detection algorithms and broadening the application scenarios. Therefore, such a multitude of methods and a large body of literature make a comprehensive survey a pressing necessity. In this paper, we present an extensive and comprehensive research review, covering the spectrum of five different categories, namely, semi-supervised, weakly supervised, fully supervised, unsupervised and open-set supervised VAD, and we also delve into the latest VAD works based on pre-trained large models, remedying the limitations of past reviews in terms of only focusing on semi-supervised VAD and small model based methods. For the VAD task with different levels of supervision, we construct a well-organized taxonomy, profoundly discuss the characteristics of different types of methods, and show their performance comparisons. In addition, this review involves the public datasets, open-source codes, and evaluation metrics covering all the aforementioned VAD tasks. Finally, we provide several important research directions for the VAD community.
翻訳日:2024-09-10 15:30:45 公開日:2024-09-09
# 相互解像認識のためのハイブリッド順序関係知識の蒸留

Look One and More: Distilling Hybrid Order Relational Knowledge for Cross-Resolution Image Recognition ( http://arxiv.org/abs/2409.05384v1 )

ライセンス: Link先を確認
Shiming Ge, Kangkai Zhang, Haolin Liu, Yingying Hua, Shengwei Zhao, Xin Jin, Hao Wen, (参考訳) 近年の深層モデルによって達成された多くの画像認識タスクにおいて大きな成功を収めたにもかかわらず、低解像度画像の認識に直接適用することは、解像度劣化時に情報的詳細が欠如しているために、低精度に悩まされる可能性がある。 しかし、これらの画像は、対応する高解像度画像に精通している被験者には今でも認識可能である。 そこで本研究では,ハイブリット・リレーショナル・リレーショナル・リレーショナル・ナレッジ・蒸留による低解像度画像認識を容易にするための教師学習手法を提案する。 提案手法は,教師ストリームを高精度に高精細画像を認識するために事前訓練し,教師の行動を模倣して低精細画像の識別を学習し,余分な補助ストリームを橋渡しとして導入し,教師から生徒への知識伝達を支援する。 精度の低下を抑えるための十分な知識を抽出するために、学生の学習は複数の損失を伴って監督され、様々な順序関係構造における類似性を保っている。 このように、慣れ親しんだ低解像度画像の欠落した詳細を復元する能力は効果的に向上し、より優れた知識伝達につながる。 距離学習,低分解能画像分類,低分解能顔認識タスクに関する大規模な実験は,縮小モデルを用いて,我々のアプローチの有効性を示した。

In spite of great success in many image recognition tasks achieved by recent deep models, directly applying them to recognize low-resolution images may suffer from low accuracy due to the missing of informative details during resolution degradation. However, these images are still recognizable for subjects who are familiar with the corresponding high-resolution ones. Inspired by that, we propose a teacher-student learning approach to facilitate low-resolution image recognition via hybrid order relational knowledge distillation. The approach refers to three streams: the teacher stream is pretrained to recognize high-resolution images in high accuracy, the student stream is learned to identify low-resolution images by mimicking the teacher's behaviors, and the extra assistant stream is introduced as bridge to help knowledge transfer across the teacher to the student. To extract sufficient knowledge for reducing the loss in accuracy, the learning of student is supervised with multiple losses, which preserves the similarities in various order relational structures. In this way, the capability of recovering missing details of familiar low-resolution images can be effectively enhanced, leading to a better knowledge transfer. Extensive experiments on metric learning, low-resolution image classification and low-resolution face recognition tasks show the effectiveness of our approach, while taking reduced models.
翻訳日:2024-09-10 15:30:45 公開日:2024-09-09
# 大規模言語モデルを用いたロバストな知識集中型質問応答モデルの構築に向けて

Towards Building a Robust Knowledge Intensive Question Answering Model with Large Language Models ( http://arxiv.org/abs/2409.05385v1 )

ライセンス: Link先を確認
Hong Xingyun Hong, Shao Yan Shao, Wang Zhilin Wang, Duan Manni Duan, Jin Xiongnan, (参考訳) LLMの開発は質問応答のインテリジェンスと流布度を大幅に向上させ、検索強化の出現により、モデルが外部情報をよりよく活用できるようになった。 しかし、抽出された情報にノイズや誤りがあることは、LLMの堅牢性に困難をもたらす。 本研究では、複数の干渉下でモデルの性能を評価するために、まず、クリティカル情報欠如、ノイズ、コンフリクトなど、さまざまなシナリオをシミュレートした機械学習理解データセットに基づいてデータセットを構築する。 ノイズのある外部情報によるモデル精度低下の問題に対処するため,LLMのノイズに対する頑健性を高めるためのデータ拡張に基づく微調整手法を提案する。 さらに,外部情報の識別能力を維持するために,コントラスト学習手法を用いる。 その結果,提案手法はモデルの識別能力を高めつつ,モデルロバスト性を向上させることが示唆された。

The development of LLMs has greatly enhanced the intelligence and fluency of question answering, while the emergence of retrieval enhancement has enabled models to better utilize external information. However, the presence of noise and errors in retrieved information poses challenges to the robustness of LLMs. In this work, to evaluate the model's performance under multiple interferences, we first construct a dataset based on machine reading comprehension datasets simulating various scenarios, including critical information absence, noise, and conflicts. To address the issue of model accuracy decline caused by noisy external information, we propose a data augmentation-based fine-tuning method to enhance LLM's robustness against noise. Additionally, contrastive learning approach is utilized to preserve the model's discrimination capability of external information. We have conducted experiments on both existing LLMs and our approach, the results are evaluated by GPT-4, which indicates that our proposed methods improve model robustness while strengthening the model's discrimination capability.
翻訳日:2024-09-10 15:30:45 公開日:2024-09-09
# ファイングラインドモーションスタイル転送のためのデカップリングコンタクト

Decoupling Contact for Fine-Grained Motion Style Transfer ( http://arxiv.org/abs/2409.05387v1 )

ライセンス: Link先を確認
Xiangjun Tang, Linjun Wu, He Wang, Yiqian Wu, Bo Hu, Songnan Li, Xu Gong, Yuchen Liao, Qilong Kou, Xiaogang Jin, (参考訳) モーションスタイルの転送は、その内容を維持しながら動きのスタイルを変え、コンピュータアニメーションやゲームに有用である。 接触は動きの自然さと質を高めつつ、鮮明に表現するために明示的に制御されるべき動きスタイル伝達の不可欠な要素である。 しかし、動作スタイルの伝達において微粒な制御を実現するために接触を分離して制御する方法は不明である。 本稿では,動作の自然さと時空間の変動を両立させながら,接触のきめ細かい制御を行う新しいスタイル転送手法を提案する。 経験的証拠に基づき, 股関節の速度を介して間接的に接触を制御することを提案し, それぞれ軌跡と接触タイミングに分解することができる。 そこで本研究では,動きと軌道/接触タイミング/スタイルの相関関係を明示的にモデル化し,それぞれを分離制御する新しいモデルを提案する。 我々のアプローチは運動多様体を中心に構築されており、腰の制御をトランスフォーマーベースのデコーダに簡単に組み込むことができる。 動作を直接生成できるだけでなく、既存の方法の事後処理として使用することで、品質と接触制御性を向上させることができる。 また,我々の経験的証拠に基づいて動きの相関パターンを計測し,動きの自然性の観点からの人間の知覚とよく一致させる新しい指標を提案する。 提案手法は,広範に評価され,スタイルの表現性や動きの質の観点から,既存の手法よりも優れていた。

Motion style transfer changes the style of a motion while retaining its content and is useful in computer animations and games. Contact is an essential component of motion style transfer that should be controlled explicitly in order to express the style vividly while enhancing motion naturalness and quality. However, it is unknown how to decouple and control contact to achieve fine-grained control in motion style transfer. In this paper, we present a novel style transfer method for fine-grained control over contacts while achieving both motion naturalness and spatial-temporal variations of style. Based on our empirical evidence, we propose controlling contact indirectly through the hip velocity, which can be further decomposed into the trajectory and contact timing, respectively. To this end, we propose a new model that explicitly models the correlations between motions and trajectory/contact timing/style, allowing us to decouple and control each separately. Our approach is built around a motion manifold, where hip controls can be easily integrated into a Transformer-based decoder. It is versatile in that it can generate motions directly as well as be used as post-processing for existing methods to improve quality and contact controllability. In addition, we propose a new metric that measures a correlation pattern of motions based on our empirical evidence, aligning well with human perception in terms of motion naturalness. Based on extensive evaluation, our method outperforms existing methods in terms of style expressivity and motion quality.
翻訳日:2024-09-10 15:30:45 公開日:2024-09-09
# 周期パターンの新しい表現法とその非拘束異常検出への応用

A Novel Representation of Periodic Pattern and Its Application to Untrained Anomaly Detection ( http://arxiv.org/abs/2409.05389v1 )

ライセンス: Link先を確認
Peng Ye, Chengyu Tao, Juan Du, (参考訳) 炭素繊維繊維やディスプレイパネルなど、周期的なテクスチャや表面を持つ様々な工業製品がある。 これらの製品の従来の画像に基づく品質検査法では、通常の画像から周期的なパターンを識別し(異常やノイズを伴わない)、その後、矛盾した外観の異常なピクセルを検出する必要がある。 しかし、未知の異常や測定ノイズの存在下で、単一の画像から周期パターンを正確に抽出することは依然として困難である。 この課題に対処するため,本論文では,連続パラメータの集合上で定義された周期像の新たな自己表現を提案する。 このように、周期的パターン学習は、スパース異常とガウス雑音を同時にモデル化し、周期的スパース分解と呼ばれる共同最適化フレームワークに組み込むことができる。 最後に, 周期的仮定を厳密に満たさない実世界の産業画像に対して, 異常検出性能を高めるために, 新たな画素レベルの異常評価戦略を提案する。 シミュレーションおよび実世界のケーススタディは、周期的パターン学習と異常検出のための提案手法の有効性を示した。

There are a variety of industrial products that possess periodic textures or surfaces, such as carbon fiber textiles and display panels. Traditional image-based quality inspection methods for these products require identifying the periodic patterns from normal images (without anomaly and noise) and subsequently detecting anomaly pixels with inconsistent appearances. However, it remains challenging to accurately extract the periodic pattern from a single image in the presence of unknown anomalies and measurement noise. To deal with this challenge, this paper proposes a novel self-representation of the periodic image defined on a set of continuous parameters. In this way, periodic pattern learning can be embedded into a joint optimization framework, which is named periodic-sparse decomposition, with simultaneously modeling the sparse anomalies and Gaussian noise. Finally, for the real-world industrial images that may not strictly satisfy the periodic assumption, we propose a novel pixel-level anomaly scoring strategy to enhance the performance of anomaly detection. Both simulated and real-world case studies demonstrate the effectiveness of the proposed methodology for periodic pattern learning and anomaly detection.
翻訳日:2024-09-10 15:30:45 公開日:2024-09-09
# TAVP: クロスドメインなFew-shotセグメンテーションのためのタスク適応型ビジュアルプロンプト

TAVP: Task-Adaptive Visual Prompt for Cross-domain Few-shot Segmentation ( http://arxiv.org/abs/2409.05393v1 )

ライセンス: Link先を確認
Jiaqi Yang, Ye Huang, Xiangjian He, Linlin Shen, Guoping Qiu, (参考訳) 大規模事前学習の背景には、画像理解において大きな視覚モデル(LVM)が大きな可能性を示している。 最近のSAM(Segment Anything Model)の出現は、画像セグメンテーションの分野に質的なシフトをもたらし、フレキシブルなインタラクティブなキューと強力な学習機能をサポートした。 しかし、そのパフォーマンスはクロスドメインや少数ショットのアプリケーションでは不十分であることが多い。 学習能力を維持しながら、基礎モデルから新しいアプリケーションに事前知識を移すことは、調査する価値がある。 本研究は,Cross-dominan few-shot segmentation (CD-FSS)の新しいパラダイムであるSAMに基づくタスク適応型プロンプトフレームワークを提案する。 まず,MFF(Multi-level Feature Fusion)を用いて特徴抽出を行った。 さらに、追加のClass Domain Task-Adaptive Auto-Prompt (CDTAP)モジュールと、クラスドメインに依存しない特徴抽出と高品質の学習可能なプロンプト生成のためのセグメンテーションブランチが組み合わされた。 この大きな進歩は、包括的なモデル構造と特殊なプロトタイプ計算と並行して、ユニークな生成的アプローチを用いている。 SAMの事前の知識が破棄されないことを保証する一方で、新しいブランチはプロトタイプを通じてカテゴリとドメイン情報を分離し、CD-FSSの適応を導く。 我々は最近のSOTA(State-of-the-art)手法と比較して,3つのベンチマークで最高の結果を得た。 包括的実験により,タスク固有および重み付き指導の後で,SAMの特徴情報をCD-FSSでよりよく学習できることが確認された。

Under the backdrop of large-scale pre-training, large visual models (LVM) have demonstrated significant potential in image understanding. The recent emergence of the Segment Anything Model (SAM) has brought a qualitative shift in the field of image segmentation, supporting flexible interactive cues and strong learning capabilities. However, its performance often falls short in cross-domain and few-shot applications. Transferring prior knowledge from foundation models to new applications while preserving learning capabilities is worth exploring. This work proposes a task-adaptive prompt framework based on SAM, a new paradigm for Cross-dominan few-shot segmentation (CD-FSS). First, a Multi-level Feature Fusion (MFF) was used for integrated feature extraction. Besides, an additional Class Domain Task-Adaptive Auto-Prompt (CDTAP) module was combined with the segmentation branch for class-domain agnostic feature extraction and high-quality learnable prompt production. This significant advancement uses a unique generative approach to prompts alongside a comprehensive model structure and specialized prototype computation. While ensuring that the prior knowledge of SAM is not discarded, the new branch disentangles category and domain information through prototypes, guiding it in adapting the CD-FSS. We have achieved the best results on three benchmarks compared to the recent state-of-the-art (SOTA) methods. Comprehensive experiments showed that after task-specific and weighted guidance, the abundant feature information of SAM can be better learned for CD-FSS.
翻訳日:2024-09-10 15:30:45 公開日:2024-09-09
# VLMのシェイキング:視覚・言語モデリングのためのトランスフォーマーと構造化状態空間モデルの比較

Shaking Up VLMs: Comparing Transformers and Structured State Space Models for Vision & Language Modeling ( http://arxiv.org/abs/2409.05395v1 )

ライセンス: Link先を確認
Georgios Pantazopoulos, Malvina Nikandrou, Alessandro Suglia, Oliver Lemon, Arash Eshghi, (参考訳) 本研究では,最新の構造化状態空間モデル(SSM)であるMambaを用いて,視覚言語モデル(VLM)におけるトランスフォーマーの置き換えについて検討する。 制御条件下で最大3Bパラメータを検証し,マンバベースのVLMがキャプション,質問応答,読解においてトランスフォーマーベースのVLMよりも優れていることを示す。 しかし,トランスフォーマーは視覚的グラウンドリングにおいて高い性能を実現し,性能ギャップが拡大することがわかった。 この現象を説明するために2つの仮説を探求する。 1)隠蔽状態の更新に対するタスク非依存の視覚的エンコーディングの効果,及び 2) 文脈内マルチモーダル検索の観点から視覚的グラウンド化を行うのが困難である。 以上の結果から,タスク認識符号化ではグラウンド化によるパフォーマンス向上が最小であることが示唆されるが,コンテクスト内マルチモーダル検索では,Transformerの方がMambaより有意に優れていた。 全体として、Mambaは、正しい出力がイメージの要約に依存するが、コンテキストから明示的な情報を検索する必要がある場合に苦労するタスクに対して、有望なパフォーマンスを示す。

This study explores replacing Transformers in Visual Language Models (VLMs) with Mamba, a recent structured state space model (SSM) that demonstrates promising performance in sequence modeling. We test models up to 3B parameters under controlled conditions, showing that Mamba-based VLMs outperforms Transformers-based VLMs in captioning, question answering, and reading comprehension. However, we find that Transformers achieve greater performance in visual grounding and the performance gap widens with scale. We explore two hypotheses to explain this phenomenon: 1) the effect of task-agnostic visual encoding on the updates of the hidden states, and 2) the difficulty in performing visual grounding from the perspective of in-context multimodal retrieval. Our results indicate that a task-aware encoding yields minimal performance gains on grounding, however, Transformers significantly outperform Mamba at in-context multimodal retrieval. Overall, Mamba shows promising performance on tasks where the correct output relies on a summary of the image but struggles when retrieval of explicit information from the context is required.
翻訳日:2024-09-10 15:30:45 公開日:2024-09-09
# FacialFlowNet: 逆データセットと分解モデルによる顔の光学的フロー推定の改善

FacialFlowNet: Advancing Facial Optical Flow Estimation with a Diverse Dataset and a Decomposed Model ( http://arxiv.org/abs/2409.05396v1 )

ライセンス: Link先を確認
Jianzhi Lu, Ruian He, Shili Zhou, Weimin Tan, Bo Yan, (参考訳) 顔の動きは、高度と意図を伝える上で重要な役割を担い、顔の光学的流れは、そのダイナミックで詳細な表現を提供する。 しかし、データセットの不足と現代のベースラインは、顔光フロー研究の進歩を妨げる。 本稿では,新しい大規模顔光フローデータセットであるFacalFlowNet(FFN)と,顔フローを分解できる最初の方法であるDecomposed Facial Flow Model(DecFlow)を提案する。 FFNは9,635のアイデンティティと105,970のイメージペアで構成され、顔と頭部の詳細な動作分析に前例のない多様性を提供する。 DecFlowは、顔のセマンティック認識エンコーダと分解フローデコーダを備え、顔のフローを正確に推定し、頭と表情コンポーネントに分解する。 総合的な実験により、FFNは様々な光学的フロー法で顔の流れ推定の精度を著しく向上させ、エンドポイントエラー(EPE)を最大11%減少させる(3.91から3.48)。 さらに、DecFlowはFFNと組み合わせることで、合成シナリオと実世界のシナリオの両方において既存の手法よりも優れ、表情解析の強化を実現している。 分解された表現フローは、マイクロ表現認識において18%(69.1%から82.1%)の精度向上を達成する。 これらの貢献は、顔の動き解析と光学的フロー推定において重要な進歩を示している。 コードとデータセットが見つかる。

Facial movements play a crucial role in conveying altitude and intentions, and facial optical flow provides a dynamic and detailed representation of it. However, the scarcity of datasets and a modern baseline hinders the progress in facial optical flow research. This paper proposes FacialFlowNet (FFN), a novel large-scale facial optical flow dataset, and the Decomposed Facial Flow Model (DecFlow), the first method capable of decomposing facial flow. FFN comprises 9,635 identities and 105,970 image pairs, offering unprecedented diversity for detailed facial and head motion analysis. DecFlow features a facial semantic-aware encoder and a decomposed flow decoder, excelling in accurately estimating and decomposing facial flow into head and expression components. Comprehensive experiments demonstrate that FFN significantly enhances the accuracy of facial flow estimation across various optical flow methods, achieving up to an 11% reduction in Endpoint Error (EPE) (from 3.91 to 3.48). Moreover, DecFlow, when coupled with FFN, outperforms existing methods in both synthetic and real-world scenarios, enhancing facial expression analysis. The decomposed expression flow achieves a substantial accuracy improvement of 18% (from 69.1% to 82.1%) in micro-expressions recognition. These contributions represent a significant advancement in facial motion analysis and optical flow estimation. Codes and datasets can be found.
翻訳日:2024-09-10 15:30:45 公開日:2024-09-09
# 拡散モデルを用いた逐次後部サンプリング

Sequential Posterior Sampling with Diffusion Models ( http://arxiv.org/abs/2409.05399v1 )

ライセンス: Link先を確認
Tristan S. W. Stevens, Oisín Nolan, Jean-Luc Robert, Ruud J. G. van Sloun, (参考訳) 拡散モデルは、複雑な分布をモデル化し、効果的な後続サンプリングを行う能力によって急速に人気が高まっている。 残念ながら、これらの生成モデルの反復的な性質は、計算コストが高く、超音波画像のようなリアルタイムの逐次逆問題には適さない。 フレーム列間の強い時間構造を考慮し、遷移力学をモデル化し、条件付き画像合成における逐次拡散後サンプリングの効率を向上する手法を提案する。 ビデオビジョン変換器(ViViT)トランジションモデルを用いて、従来の拡散出力に基づくシーケンスデータをモデル化することにより、逆拡散軌跡を低雑音スケールで初期化し、収束に必要なイテレーション数を大幅に削減できる。 本研究では, 高フレームレート心エコー画像のリアルタイムデータセットに対するアプローチの有効性を実証し, 実時間後方サンプリングが可能な25$\times$の推論を加速しながら, フル拡散軌跡と同じ性能が得られることを示す。 さらに, 過度な動作の場合, 遷移モデルの追加によりPSNRは最大8\%向上することを示した。 提案手法は,画像の拡散モデルとリアルタイム推論を必要とする他の領域における拡散モデルのリアルタイム適用の可能性を開く。

Diffusion models have quickly risen in popularity for their ability to model complex distributions and perform effective posterior sampling. Unfortunately, the iterative nature of these generative models makes them computationally expensive and unsuitable for real-time sequential inverse problems such as ultrasound imaging. Considering the strong temporal structure across sequences of frames, we propose a novel approach that models the transition dynamics to improve the efficiency of sequential diffusion posterior sampling in conditional image synthesis. Through modeling sequence data using a video vision transformer (ViViT) transition model based on previous diffusion outputs, we can initialize the reverse diffusion trajectory at a lower noise scale, greatly reducing the number of iterations required for convergence. We demonstrate the effectiveness of our approach on a real-world dataset of high frame rate cardiac ultrasound images and show that it achieves the same performance as a full diffusion trajectory while accelerating inference 25$\times$, enabling real-time posterior sampling. Furthermore, we show that the addition of a transition model improves the PSNR up to 8\% in cases with severe motion. Our method opens up new possibilities for real-time applications of diffusion models in imaging and other domains requiring real-time inference.
翻訳日:2024-09-10 15:30:45 公開日:2024-09-09
# NLLB-E5: スケーラブルな多言語検索モデル

NLLB-E5: A Scalable Multilingual Retrieval Model ( http://arxiv.org/abs/2409.05401v1 )

ライセンス: Link先を確認
Arkadeep Acharya, Rudra Murthy, Vishwajeet Kumar, Jaydeep Sen, (参考訳) 多言語情報検索の大幅な進歩にもかかわらず、複数の言語、特にIndic言語のような低リソース言語を効果的にサポートできるモデルの欠如は、依然として重要な課題である。 本稿では,NLLB-E5: A Scalable Multilingual Retrieval Modelを提案する。 NLLB-E5は翻訳タスクにNLLBエンコーダの内蔵多言語機能を利用する。 本研究は,多言語学習データを必要とせず,すべての主要なIndic言語を含む複数の言語を扱うゼロショット検索手法を提供するため,多言語検索器E5からの蒸留手法を提案する。 我々は、Hindi-BEIRを含む既存のベンチマークの包括的なスイートでモデルを評価し、多様な言語やタスクにわたる堅牢なパフォーマンスを強調した。 課題とドメイン固有の課題を明らかにし,検索性能,特に低リソース言語について貴重な知見を提供する。 NLLB-E5は、包括的で拡張性があり、言語に依存しないテキスト検索モデルの必要性に対処し、多言語情報アクセスの分野を前進させ、世界中の何百万人ものユーザーにとってデジタル的傾向を促進する。

Despite significant progress in multilingual information retrieval, the lack of models capable of effectively supporting multiple languages, particularly low-resource like Indic languages, remains a critical challenge. This paper presents NLLB-E5: A Scalable Multilingual Retrieval Model. NLLB-E5 leverages the in-built multilingual capabilities in the NLLB encoder for translation tasks. It proposes a distillation approach from multilingual retriever E5 to provide a zero-shot retrieval approach handling multiple languages, including all major Indic languages, without requiring multilingual training data. We evaluate the model on a comprehensive suite of existing benchmarks, including Hindi-BEIR, highlighting its robust performance across diverse languages and tasks. Our findings uncover task and domain-specific challenges, providing valuable insights into the retrieval performance, especially for low-resource languages. NLLB-E5 addresses the urgent need for an inclusive, scalable, and language-agnostic text retrieval model, advancing the field of multilingual information access and promoting digital inclusivity for millions of users globally.
翻訳日:2024-09-10 15:30:45 公開日:2024-09-09
# HyperSMOTE:不均衡ノード分類のためのハイパーグラフに基づくオーバーサンプリングアプローチ

HyperSMOTE: A Hypergraph-based Oversampling Approach for Imbalanced Node Classifications ( http://arxiv.org/abs/2409.05402v1 )

ライセンス: Link先を確認
Ziming Zhao, Tiehua Zhang, Zijian Yi, Zhishu Shen, (参考訳) ハイパーグラフは、従来のグラフと比較して、ノード間の高次関係をモデル化し抽出する能力が優れているため、一様データとマルチモーダルデータの両方のシナリオでますます活用されている。 しかし、現在のハイパーグラフモデルは、この不均衡がモデルのより一般的なクラスへのバイアスを引き起こす可能性があるため、不均衡なデータに関連する課題に直面している。 GraphSMOTEのような既存の技術は、グラフデータにおけるマイノリティサンプルの分類精度を改善しているが、ハイパーグラフのユニークな構造に対処する際はまだ不足している。 SMOTEの概念に触発されて,ハイパーグラフ学習におけるクラス不均衡問題を軽減するソリューションとしてHyperSMOTEを提案する。 最初はマイノリティクラスノードを合成し、続いてノードが元のハイパーグラフに統合される。 マイノリティクラスとその周辺地域のサンプルに基づいて新しいノードを合成する。 同時に、新しいノードをハイパーグラフに統合する際の問題を解決するために、拡張ノードをハイパーエッジに適応的に関連付けるために、元のハイパーグラフ出現行列に基づいてデコーダを訓練する。 我々は,Cora,Cora-CA,Citeseerなどの複数の単一モーダルデータセットと多モーダル会話データセットMELDを用いて,HyperSMOTEの有効性を検証するとともに,平均性能が3.38%,Citeseerが2.97%の精度で向上したことを示す。

Hypergraphs are increasingly utilized in both unimodal and multimodal data scenarios due to their superior ability to model and extract higher-order relationships among nodes, compared to traditional graphs. However, current hypergraph models are encountering challenges related to imbalanced data, as this imbalance can lead to biases in the model towards the more prevalent classes. While the existing techniques, such as GraphSMOTE, have improved classification accuracy for minority samples in graph data, they still fall short when addressing the unique structure of hypergraphs. Inspired by SMOTE concept, we propose HyperSMOTE as a solution to alleviate the class imbalance issue in hypergraph learning. This method involves a two-step process: initially synthesizing minority class nodes, followed by the nodes integration into the original hypergraph. We synthesize new nodes based on samples from minority classes and their neighbors. At the same time, in order to solve the problem on integrating the new node into the hypergraph, we train a decoder based on the original hypergraph incidence matrix to adaptively associate the augmented node to hyperedges. We conduct extensive evaluation on multiple single-modality datasets, such as Cora, Cora-CA and Citeseer, as well as multimodal conversation dataset MELD to verify the effectiveness of HyperSMOTE, showing an average performance gain of 3.38% and 2.97% on accuracy, respectively.
翻訳日:2024-09-10 15:30:45 公開日:2024-09-09
# マルチモーダル複合編集と検索に関する調査

A Survey of Multimodal Composite Editing and Retrieval ( http://arxiv.org/abs/2409.05405v1 )

ライセンス: Link先を確認
Suyan Li, Fuxiang Huang, Lei Zhang, (参考訳) 情報が多様で多様である実世界では、検索システムを改善するために様々なデータ型を理解し、活用することが研究の焦点となっている。 マルチモーダル合成検索は、テキスト、画像、オーディオなどの様々なモダリティを統合し、より正確でパーソナライズされ、文脈に関連のある結果を提供する。 本研究は, 画像テキスト合成編集, 画像テキスト合成検索, その他のマルチモーダル合成検索を網羅し, 多モーダル合成編集と深度検索について深く理解することを目的としている。 本調査では,アプリケーションシナリオ,メソッド,ベンチマーク,実験,今後の方向性を体系的に整理する。 マルチモーダル学習は大規模モデル時代においてホットな話題であり、PAMIジャーナルに発表されたトランスフォーマーを用いたマルチモーダル学習および視覚言語モデルに関するいくつかの調査も見てきた。 我々の知る限り、本調査は、既存のレビューに対するマルチモーダル融合をタイムリーに補完する、マルチモーダル複合検索に関する文献の総合的なレビューである。 この調査はhttps://github.com/fuxianghuang1/Multimodal-Composite-Editing-and-Retrievalで見ることができる。

In the real world, where information is abundant and diverse across different modalities, understanding and utilizing various data types to improve retrieval systems is a key focus of research. Multimodal composite retrieval integrates diverse modalities such as text, image and audio, etc. to provide more accurate, personalized, and contextually relevant results. To facilitate a deeper understanding of this promising direction, this survey explores multimodal composite editing and retrieval in depth, covering image-text composite editing, image-text composite retrieval, and other multimodal composite retrieval. In this survey, we systematically organize the application scenarios, methods, benchmarks, experiments, and future directions. Multimodal learning is a hot topic in large model era, and have also witnessed some surveys in multimodal learning and vision-language models with transformers published in the PAMI journal. To the best of our knowledge, this survey is the first comprehensive review of the literature on multimodal composite retrieval, which is a timely complement of multimodal fusion to existing reviews. To help readers' quickly track this field, we build the project page for this survey, which can be found at https://github.com/fuxianghuang1/Multimodal-Composite-Editing-and-Retrieval.
翻訳日:2024-09-10 15:20:29 公開日:2024-09-09
# KRONC:3Dカー再構成のためのキーポイントベースロバストカメラ最適化

KRONC: Keypoint-based Robust Camera Optimization for 3D Car Reconstruction ( http://arxiv.org/abs/2409.05407v1 )

ライセンス: Link先を確認
Davide Di Nucci, Alessandro Simoni, Matteo Tomei, Luca Ciuffreda, Roberto Vezzani, Rita Cucchiara, (参考訳) 画像の集合から始まる物体やシーンの3次元表現は、長年にわたって広く議論されてきた話題であり、NeRFベースのアプローチの普及により、さらなる注目を集めている。 しかし、過小評価される前提条件は、カメラのポーズや、より具体的には、外因性キャリブレーションパラメータの推定に関する知識である。 汎用的なStructure-from-Motion法は前処理のステップとして利用できるが、その計算負荷が高く、ビュー間で十分なオーバーラップを保証するために多くのフレームを必要とする。 KRONCは、オブジェクトに関する事前知識を活用して、セマンティックキーポイントを通してその表現を再構築することで、ビューポーズを推論する新しいアプローチである。 車両シーンに焦点を当てたKRONCは、キーポイントのバックプロジェクションを特異点に収束させることを目的とした光最適化問題の解として、ビューの位置を推定することができる。 この手法を検証するために、現実世界の車のシーンの特定のデータセットが収集された。 実験では、非常に粗い初期化から始まるカメラポーズの優れた推定値を生成するKRONCの能力を確認する。 結果は、計算の大幅な節約を伴うStructure-from-Motionメソッドに匹敵する。 コードとデータは公開されます。

The three-dimensional representation of objects or scenes starting from a set of images has been a widely discussed topic for years and has gained additional attention after the diffusion of NeRF-based approaches. However, an underestimated prerequisite is the knowledge of camera poses or, more specifically, the estimation of the extrinsic calibration parameters. Although excellent general-purpose Structure-from-Motion methods are available as a pre-processing step, their computational load is high and they require a lot of frames to guarantee sufficient overlapping among the views. This paper introduces KRONC, a novel approach aimed at inferring view poses by leveraging prior knowledge about the object to reconstruct and its representation through semantic keypoints. With a focus on vehicle scenes, KRONC is able to estimate the position of the views as a solution to a light optimization problem targeting the convergence of keypoints' back-projections to a singular point. To validate the method, a specific dataset of real-world car scenes has been collected. Experiments confirm KRONC's ability to generate excellent estimates of camera poses starting from very coarse initialization. Results are comparable with Structure-from-Motion methods with huge savings in computation. Code and data will be made publicly available.
翻訳日:2024-09-10 15:20:29 公開日:2024-09-09
# 変換モードの共振器拡張による低雑音量子周波数変換

Low-noise quantum frequency conversion with cavity enhancement of converted mode ( http://arxiv.org/abs/2409.05408v1 )

ライセンス: Link先を確認
Shoichi Murakami, Toshiki Kobayashi, Shigehito Miki, Hirotaka Terai, Tsuyoshi Kodama, Tsuneaki Sawaya, Akihiko Ohtomo, Hideki Shimoi, Takashi Yamamoto, Rikizo Ikuta, (参考訳) 量子状態を維持しながら光子の周波数を変換する量子周波数変換(QFC)は、量子インターネットと量子相互接続を実現するための重要な技術である。 可視光から1500nmの波長への周波数変換に基づくQFCでは、QFCに使用される強いポンプ光によって生成されるノイズ光子が周波数変換された光子を汚染し、QFC後の光子の量子特性を劣化させることが広く知られている。 従来のQFC実験では、ノイズ光子は外部の狭帯域周波数フィルタシステムを用いて除去される。 一方,本研究では,変換モードのみに共振器構造を組み込んだ小型QFCデバイスを実装した。 共振器構造は所望のQFC効率だけでなくノイズ光子生成率も向上するが,共振器強化QFCと比較的広い帯域通過フィルタは,外部狭帯域フィルタのQFCに匹敵する信号対雑音比を実現する。 実験では, 単一光子を780 nmから1540 nmで測定し, 非古典的な光子統計をQFC後に明らかにした。

Quantum frequency conversion (QFC) which converts the frequencies of photons while preserving the quantum state is an essential technology for realizing the quantum internet and quantum interconnect. For the QFC based on the frequency downconversion from visible to the telecom wavelengths around 1500 nm, it is widely known that noise photons produced by the strong pump light used for QFC contaminate the frequency-converted photon, which degrades the quality of the quantum property of the photon after QFC. In conventional QFC experiments, noise photons are removed using external narrowband frequency filter systems. In contrast, in this study, we implement a compact QFC device integrating the cavity structure only for the converted mode. While the cavity structure can enhance not only the desired QFC efficiency but also the noise photon generation rate, we show that the cavity-enhanced QFC followed by a relatively wide bandpass filter achieves the signal-to-noise ratio comparable to the QFCs with external narrowband filters. We experimentally demonstrate the cavity-enhanced QFC using a single photon at 780 nm to 1540 nm, in which the non-classical photon statistics is clearly observed after QFC.
翻訳日:2024-09-10 15:20:29 公開日:2024-09-09
# 言葉から詩へ:視覚言語モデルによる新しいオブジェクトポーズ推定の強化

From Words to Poses: Enhancing Novel Object Pose Estimation with Vision Language Models ( http://arxiv.org/abs/2409.05413v1 )

ライセンス: Link先を確認
Tessa Pulli, Stefan Thalhammer, Simon Schwaiger, Markus Vincze, (参考訳) ロボットは現実のシナリオで対話し、新しい状況に継続的に適応する必要があると期待されている。 新規な物体を検出して把握するために、ゼロショットポーズ推定器は事前の知識なしにポーズを決定する。 近年、視覚言語モデル (VLM) は、言語入力と画像入力の理解を確立することで、ロボット工学の応用においてかなりの進歩を見せている。 本研究では,VLMのゼロショット機能を活用し,これを6次元オブジェクトポーズ推定に変換する。 本稿では,言語埋め込みを用いたゼロショット6Dオブジェクトのポーズ推定のための新しいフレームワークを提案する。 言語埋め込み型NeRF再構成の関連性マップに基づいてオブジェクトの粗い位置を導出し、ポイントクラウド登録法を用いてポーズ推定を計算する。 さらに、オープンセットオブジェクトのポーズ推定に対するLERFの適合性について分析する。 関連性マップのアクティベーションしきい値などのハイパーパラメータについて検討し、インスタンスレベルとカテゴリレベルのゼロショット機能について検討する。 さらに,現実の環境でロボットによる把握実験を行うことも計画している。

Robots are increasingly envisioned to interact in real-world scenarios, where they must continuously adapt to new situations. To detect and grasp novel objects, zero-shot pose estimators determine poses without prior knowledge. Recently, vision language models (VLMs) have shown considerable advances in robotics applications by establishing an understanding between language input and image input. In our work, we take advantage of VLMs zero-shot capabilities and translate this ability to 6D object pose estimation. We propose a novel framework for promptable zero-shot 6D object pose estimation using language embeddings. The idea is to derive a coarse location of an object based on the relevancy map of a language-embedded NeRF reconstruction and to compute the pose estimate with a point cloud registration method. Additionally, we provide an analysis of LERF's suitability for open-set object pose estimation. We examine hyperparameters, such as activation thresholds for relevancy maps and investigate the zero-shot capabilities on an instance- and category-level. Furthermore, we plan to conduct robotic grasping experiments in a real-world setting.
翻訳日:2024-09-10 15:20:29 公開日:2024-09-09
# CipherDM:拡散モデルサンプリングのためのセキュアな3要素推論

CipherDM: Secure Three-Party Inference for Diffusion Model Sampling ( http://arxiv.org/abs/2409.05414v1 )

ライセンス: Link先を確認
Xin Zhao, Xiaojun Chen, Xudong Chen, He Li, Tingyu Fan, Zhendong Zhao, (参考訳) 拡散モデル(DM)は画像生成において最先端の合成結果を達成し,様々な分野に適用してきた。 しかし、DMは使用中のユーザーのプライバシーを著しく侵害することがあるため、プライバシーの保護は緊急の問題となる。 セキュアなマルチパーティ計算(MPC)などの従来のプライバシコンピューティングスキームをDMに直接使用することは、計算と通信の重大な課題に直面している。 これらの課題に対処するため、安全サンプリングのためにMDC技術を適用した最初の新規で汎用的で普遍的なフレームワークであるCipherDMを提案し、複数のDMベースのタスクで広く実装できる。 我々は、サンプリング遅延の分解、時間を要する部分の発見、およびSoftMax、SiLU、Mishなどの非線形アクティベーションを演算するためのセキュアなMPCプロトコルの設計を徹底的に分析する。 CipherDMは、MNISTデータセットを使用して人気のあるアーキテクチャ(DDPM、DDIM)とディフューザによってデプロイされたSDで評価される。 SPUの直接実装と比較して、我々の手法は実行時間を約1.084\times \sim 2.328\timesで改善し、通信コストを約1.212\times \sim 1.791\timesで削減する。

Diffusion Models (DMs) achieve state-of-the-art synthesis results in image generation and have been applied to various fields. However, DMs sometimes seriously violate user privacy during usage, making the protection of privacy an urgent issue. Using traditional privacy computing schemes like Secure Multi-Party Computation (MPC) directly in DMs faces significant computation and communication challenges. To address these issues, we propose CipherDM, the first novel, versatile and universal framework applying MPC technology to DMs for secure sampling, which can be widely implemented on multiple DM based tasks. We thoroughly analyze sampling latency breakdown, find time-consuming parts and design corresponding secure MPC protocols for computing nonlinear activations including SoftMax, SiLU and Mish. CipherDM is evaluated on popular architectures (DDPM, DDIM) using MNIST dataset and on SD deployed by diffusers. Compared to direct implementation on SPU, our approach improves running time by approximately 1.084\times \sim 2.328\times, and reduces communication costs by approximately 1.212\times \sim 1.791\times.
翻訳日:2024-09-10 15:20:29 公開日:2024-09-09
# 巨大高次相関と極多光子事象を持つ超広帯域光

Super-bunching light with giant high-order correlations and extreme multi-photon events ( http://arxiv.org/abs/2409.05419v1 )

ライセンス: Link先を確認
Chengbing Qin, Yuanyuan Li, Yu Yan, Jiamin Li, Xiangdong Li, Yunrui Song, Xuedong Zhang, Shuangping Han, Zihua Liu, Yanqiang Guo, Guofeng Zhang, Ruiyun Chen, Jianyong Hu, Zhichun Yang, Xinhui Liu, Liantuan Xiao, Suotang Jia, (参考訳) 強い相関を持つN-光子の束を発光する古典的でない光源は、量子力学の基礎的なテストから量子情報処理まで、分野間重要な汎用的な資源を表現している。 しかし、高次相関、gN(0)量子化光子相関は依然として数百に制限されている。 本稿では,光子数分布の測定により,g2(0)が5.86*104,g5(0)が2.72*108まで到達したフォトニック結晶ファイバの超広帯域光源について報告する。 巨大なg2(0)値の下では、スーパーバンチ光源はアップターンテール光子分布とユビキタス極端多光子事象を呈し、1パルスあたり平均1.99*10-4光子の平均で1つの光パルスから31光子が決定される。 この極端な事象の確率は、ポアソン分布を持つコヒーレントレーザーと比較して10139倍に向上している。 励起レーザーのパワーを変化させることで、この光源の光子数分布とそれに対応する高次相関は、ポアソニアンからスーパーバンチ分布に実質的に調整することができる。 これらの現象は、明るい励起光によって励起されるフォトニック結晶繊維の同期非線形相互作用によるものであり、理論シミュレーションは実験結果とよく一致している。 本研究は,超高次相関や極端多光子現象による非古典的光源の実現,高次相関イメージング,極端非線形光学効果,量子情報処理,多光子物理学との光-物質相互作用の探索などを行う。

Non-classical light sources emitting bundles of N-photons with strong correlation represent versatile resources of interdisciplinary importance with applications ranging from fundamental tests of quantum mechanics to quantum information processing. Yet, high-order correlations, gN(0),quantifying photon correlation, are still limited to hundreds. Here, we report the generation of a super-bunching light source in photonic crystal fiber with g2(0) reaching 5.86*104 and g5(0) up to 2.72*108, through measuring its photon number probability distributions. under giant g2(0) values, the super-bunching light source presents upturned-tail photon distributions and ubiquitous extreme multi-photon events, where 31 photons from a single light pulse at a mean of 1.99*10-4 photons per pulse have been determined. The probability of this extreme event has been enhanced by 10139 folds compared to a coherent laser with Poissonian distribution. By varying the power of the pumping laser, both photon number distributions and corresponding high-order correlations of this light source can be substantially tailored from Poissonian to super-bunching distributions. These phenomena are attributed to the synchronized nonlinear interactions in photonic crystal fibers pumping by bright squeezed light, and the theoretical simulations agree well with the experimental results. Our research showcases the ability to achieve non-classical light sources with giant high-order correlations and extreme multi-photon events, paving the way for high-order correlation imaging, extreme nonlinear optical effects, quantum information processing, and exploring light-matter interactions with multi-photon physics.
翻訳日:2024-09-10 15:20:29 公開日:2024-09-09
# AD-Net: 頑健な皮膚病変に対するガイドデコーダを用いた注意ベース拡張畳み込み残基ネットワーク

AD-Net: Attention-based dilated convolutional residual network with guided decoder for robust skin lesion segmentation ( http://arxiv.org/abs/2409.05420v1 )

ライセンス: Link先を確認
Asim Naveed, Syed S. Naqvi, Tariq M. Khan, Shahzaib Iqbal, M. Yaqoob Wani, Haroon Ahmed Khan, (参考訳) 皮膚がん治療や早期診断に使用されるコンピュータ支援診断ツールでは,皮膚病変の分節が重要である。 しかし、外観、コントラスト、テクスチャ、ぼやけた病変の境界に固有の違いがあるため、正確なセグメンテーションを達成することは困難である。 本研究では,アテンションベースの空間的特徴拡張ブロック(ASFEB)を組み込んだ拡張畳み込み残差ネットワークを用いて,ガイド付きデコーダ戦略を用いたロバストなアプローチを提案する。 各拡張畳み込み残差ブロックでは、拡張畳み込みを用いて、異なる拡張率で受容場を広げる。 符号化器の空間的特徴情報を改善するために,スキップ接続に注意に基づく空間的特徴強調ブロックを用いた。 提案手法におけるASFEBは,平均および最大プール操作から得られた特徴写像を組み合わせたものである。 これらの組み合わせは、グローバル平均プールと畳み込み操作のアクティブな結果を用いて重み付けされる。 さらに、各デコーダブロックを個別の損失関数を用いて最適化し、提案したAD-Netの機能学習プロセスを強化するガイド付きデコーダ戦略を組み込んだ。 提案したAD-Netは、ピアメソッドに比べてモデルパラメータを少なくする必要があるという大きな利点を示している。 このパラメータの削減は、トレーニングに必要なラベル付きデータの数に直接影響を与え、トレーニングプロセス中により高速な収束を促進する。 提案したAD-Netの有効性を,4つの公開ベンチマークデータセットを用いて評価した。 我々は,AD-Netの有効性を検証するために,Wilcoxon符号ランク試験を行った。 その結果,データ拡張戦略を実装しなくても,本手法が他の最先端手法を上回ることが示唆された。

In computer-aided diagnosis tools employed for skin cancer treatment and early diagnosis, skin lesion segmentation is important. However, achieving precise segmentation is challenging due to inherent variations in appearance, contrast, texture, and blurry lesion boundaries. This research presents a robust approach utilizing a dilated convolutional residual network, which incorporates an attention-based spatial feature enhancement block (ASFEB) and employs a guided decoder strategy. In each dilated convolutional residual block, dilated convolution is employed to broaden the receptive field with varying dilation rates. To improve the spatial feature information of the encoder, we employed an attention-based spatial feature enhancement block in the skip connections. The ASFEB in our proposed method combines feature maps obtained from average and maximum-pooling operations. These combined features are then weighted using the active outcome of global average pooling and convolution operations. Additionally, we have incorporated a guided decoder strategy, where each decoder block is optimized using an individual loss function to enhance the feature learning process in the proposed AD-Net. The proposed AD-Net presents a significant benefit by necessitating fewer model parameters compared to its peer methods. This reduction in parameters directly impacts the number of labeled data required for training, facilitating faster convergence during the training process. The effectiveness of the proposed AD-Net was evaluated using four public benchmark datasets. We conducted a Wilcoxon signed-rank test to verify the efficiency of the AD-Net. The outcomes suggest that our method surpasses other cutting-edge methods in performance, even without the implementation of data augmentation strategies.
翻訳日:2024-09-10 15:20:29 公開日:2024-09-09
# STLMエンジニアリングレポート: ドロップアウト

STLM Engineering Report: Dropout ( http://arxiv.org/abs/2409.05423v1 )

ライセンス: Link先を確認
Dylan Hillier, Leon Guertler, Bobby Cheng, Cheston Tan, (参考訳) 本研究では,現代の言語モデル,特に<100M>パラメータのスケールに関するモデルの文脈におけるドロップアウトの関連性について検討する。 第一に、小型で高品質なデータセットが与えられたモデルのサンプル効率を改善する体制、第二に、モデルが不適合な大きなデータセットに適合する品質を改善する体制において、その妥当性について検討する。 従来の知恵と一致して, 降雨はオーバーフィットシナリオにおいて有効であり, さらに, 過剰なデータの場合においても, モデルの適合性向上に何らかの関連性があることが, 以前の研究で示唆された。 このプロセスでは、この性能向上の背後にあるメカニズムに関する既存の説明は、言語モデリングでは適用できないことがわかった。

In this work we explore the relevance of dropout for modern language models, particularly in the context of models on the scale of <100M parameters. We explore it's relevance firstly in the regime of improving the sample efficiency of models given small, high quality datasets, and secondly in the regime of improving the quality of its fit on larger datasets where models may underfit. We find that concordant with conventional wisdom, dropout remains effective in the overfitting scenario, and that furthermore it may have some relevance for improving the fit of models even in the case of excess data, as suggested by previous research. In the process we find that the existing explanation for the mechanism behind this performance gain is not applicable in the case of language modelling.
翻訳日:2024-09-10 15:20:29 公開日:2024-09-09
# 能動3次元物体検出のための分布の相違と特徴の不均一性

Distribution Discrepancy and Feature Heterogeneity for Active 3D Object Detection ( http://arxiv.org/abs/2409.05425v1 )

ライセンス: Link先を確認
Huang-Yu Chen, Jia-Fong Yeh, Jia-Wei Liao, Pin-Hsuan Peng, Winston H. Hsu, (参考訳) LiDARベースの3Dオブジェクト検出は、自律走行とロボット工学の発展にとって重要な技術である。 しかし、データアノテーションの高コストは、その進歩を制限する。 本稿では,空間的特徴とモデル埋め込みを同時に考慮し,インスタンスレベルとフレームレベルの両方の観点から情報を評価する,分散離散性と特徴ヘテロジニティ(DDFH)という,新しい効果的なアクティブラーニング手法を提案する。 分散離散性は、ラベル付きおよびラベル付き分布内のインスタンスの違いと新規性を評価し、限られたデータで効率的に学習することを可能にする。 機能の均一性は、フレーム内のインスタンス機能の均一性を保証し、冗長なインスタンスや類似のインスタンスを避けながら機能の多様性を維持し、アノテーションのコストを最小限にする。 最後に、複数のインジケータをQuantile Transformを使って効率的に集約し、情報を統一した尺度を提供する。 DDFHは、KITTIとWaymoのデータセットにおける現在の最先端(SOTA)メソッドよりも優れており、バウンディングボックスアノテーションのコストを56.3%削減し、ワンステージモデルと2ステージモデルの両方で作業する場合の堅牢性を示している。

LiDAR-based 3D object detection is a critical technology for the development of autonomous driving and robotics. However, the high cost of data annotation limits its advancement. We propose a novel and effective active learning (AL) method called Distribution Discrepancy and Feature Heterogeneity (DDFH), which simultaneously considers geometric features and model embeddings, assessing information from both the instance-level and frame-level perspectives. Distribution Discrepancy evaluates the difference and novelty of instances within the unlabeled and labeled distributions, enabling the model to learn efficiently with limited data. Feature Heterogeneity ensures the heterogeneity of intra-frame instance features, maintaining feature diversity while avoiding redundant or similar instances, thus minimizing annotation costs. Finally, multiple indicators are efficiently aggregated using Quantile Transform, providing a unified measure of informativeness. Extensive experiments demonstrate that DDFH outperforms the current state-of-the-art (SOTA) methods on the KITTI and Waymo datasets, effectively reducing the bounding box annotation cost by 56.3% and showing robustness when working with both one-stage and two-stage models.
翻訳日:2024-09-10 15:20:29 公開日:2024-09-09
# TextToucher: 細粒のテキスト・ツー・タッチ・ジェネレーション

TextToucher: Fine-Grained Text-to-Touch Generation ( http://arxiv.org/abs/2409.05427v1 )

ライセンス: Link先を確認
Jiahang Tu, Hao Fu, Fengyu Yang, Hanbin Zhao, Chao Zhang, Hui Qian, (参考訳) 触覚は多モードの大型モデルや具現化インテリジェンスの開発において重要な役割を担っている。 触覚データを最小限のコストで収集するために,視覚と触覚の変換による触覚画像の生成を試みた。 しかし、テキストモダリティと比較すると、視覚的モダリティ駆動の触覚生成は人間の触覚を正確に表現することはできない。 本研究では,触覚画像の特徴を,物体レベル(触覚テクスチャ,触覚形状)とセンサレベル(ゲル状態)の2つの粒度から詳細に分析する。 テキスト記述によるこれらの情報の粒度をモデル化し、高品質な触覚サンプルを生成するための細粒度テキストタッチ生成法(TextToucher)を提案する。 具体的には、オブジェクトレベルの触覚情報に関する文章を構築するためのマルチモーダルな大規模言語モデルを導入し、学習可能なテキストプロンプトを用いて、センサレベルの触覚情報を表現する。 テクスト情報を組み込んだ触覚生成プロセスの指針として,テキスト情報の二重粒を融合させ,拡散トランスフォーマアーキテクチャ内での多結晶テキストコンディショニング手法を探索する。 さらに,テキスト駆動型触覚データの品質を正確に評価するために,CTTP(Contrastive Text-Touch Pre-training)メトリクスを提案する。 大規模な実験は、TextToucherメソッドの優位性を示します。 ソースコードは \url{https://github.com/TtuHamg/TextToucher} で入手できる。

Tactile sensation plays a crucial role in the development of multi-modal large models and embodied intelligence. To collect tactile data with minimal cost as possible, a series of studies have attempted to generate tactile images by vision-to-touch image translation. However, compared to text modality, visual modality-driven tactile generation cannot accurately depict human tactile sensation. In this work, we analyze the characteristics of tactile images in detail from two granularities: object-level (tactile texture, tactile shape), and sensor-level (gel status). We model these granularities of information through text descriptions and propose a fine-grained Text-to-Touch generation method (TextToucher) to generate high-quality tactile samples. Specifically, we introduce a multimodal large language model to build the text sentences about object-level tactile information and employ a set of learnable text prompts to represent the sensor-level tactile information. To better guide the tactile generation process with the built text information, we fuse the dual grains of text information and explore various dual-grain text conditioning methods within the diffusion transformer architecture. Furthermore, we propose a Contrastive Text-Touch Pre-training (CTTP) metric to precisely evaluate the quality of text-driven generated tactile data. Extensive experiments demonstrate the superiority of our TextToucher method. The source codes will be available at \url{https://github.com/TtuHamg/TextToucher}.
翻訳日:2024-09-10 15:20:29 公開日:2024-09-09
# コヒーレント量子フィードバックによるノイズ抑制--シュル{ö}dinger 画像アプローチ

Noise Suppression via Coherent Quantum Feedback: a Schr{ö}dinger Picture Approach ( http://arxiv.org/abs/2409.05431v1 )

ライセンス: Link先を確認
Shikun Zhang, Guofeng Zhang, (参考訳) 本稿では,コヒーレントフィードバックによる有限次元量子系の雑音抑制の可能性を検討する。 標的軌道に従って進化すると予想される量子プラントの場合、ノイズ効果は植物状態軌道を所望の軌道から変形させる可能性がある。 そして、ノイズに対処するコヒーレントなフィードバックプロトコルを設計できることが期待されている。 過渡的雑音に対処するにあたっては,音の影響のある軌道を漸近的に所望の方向へ戻すことができるコヒーレントフィードバックプロトコルについて,いくつかの条件を提示する。 永続雑音の拒絶については、長期限界における目標軌道とフィードバック補正軌道との誤差を効果的に抑制できるプロトコル上の条件が与えられる。 また、与えられた条件を満たすコヒーレントフィードバックプロトコルの構築も可能である。 理論的結果は,2ビットプラントと2レベル制御器の例で示される。

In this article, we explore the possibility of achieving noise suppression for finite-dimensional quantum systems through coherent feedback. For a quantum plant which is expected to evolve according to a target trajectory, noise effect potentially deforms the plant state trajectory from the desired one. It is then hoped that a coherent feedback protocol can be designed that counteracts noise. In terms of coping with transient noise, we present several conditions on coherent feedback protocols under which noise-affected trajectories can be driven back towards desired ones asymptotically. As for rejecting persistent noise, conditions on protocols are given which ensure that the error between the target and feedback-corrected trajectories in the long-time limit can be effectively suppressed. Moreover, a possible construction of coherent feedback protocols which satisfies the given conditions is provided. Our theoretical results are illustrated by an example which involves a two-qubit plant and a two-level controller.
翻訳日:2024-09-10 15:20:29 公開日:2024-09-09
# 深層強化学習における国家指導行動パーシステンス

State-Novelty Guided Action Persistence in Deep Reinforcement Learning ( http://arxiv.org/abs/2409.05433v1 )

ライセンス: Link先を確認
Jianshu Hu, Paul Weng, Yutong Ban, (参考訳) 強力で有望なアプローチであるにもかかわらず、深層強化学習(DRL)は依然としてサンプルの非効率に悩まされており、探索・探索ジレンマに対処するより高度な技術を活用することで顕著に改善することができる。 そのようなテクニックの1つは、アクション永続性(つまり、複数のステップでアクションを繰り返すこと)に依存している。 しかし、アクション永続性を利用する以前の作業は、固定された戦略を適用するか、繰り返し数を選択するために付加的な値関数(またはポリシー)を学ぶ。 本稿では,状態空間の現在の探査状況に基づいて動的に動作の持続性を調整する手法を提案する。 このようにして、我々の方法は付加価値関数やポリシーの訓練を必要としない。 さらに、反復確率のスムーズなスケジューリングを使用することで、探索と搾取のバランスがより効果的になる。 さらに,本手法は時間的持続性を組み込むため,様々な基礎探査戦略にシームレスに統合することができる。 最後に, DMControlタスクの多種多様な実験により, 動作継続法がサンプル効率を著しく向上することを示した。

While a powerful and promising approach, deep reinforcement learning (DRL) still suffers from sample inefficiency, which can be notably improved by resorting to more sophisticated techniques to address the exploration-exploitation dilemma. One such technique relies on action persistence (i.e., repeating an action over multiple steps). However, previous work exploiting action persistence either applies a fixed strategy or learns additional value functions (or policy) for selecting the repetition number. In this paper, we propose a novel method to dynamically adjust the action persistence based on the current exploration status of the state space. In such a way, our method does not require training of additional value functions or policy. Moreover, the use of a smooth scheduling of the repeat probability allows a more effective balance between exploration and exploitation. Furthermore, our method can be seamlessly integrated into various basic exploration strategies to incorporate temporal persistence. Finally, extensive experiments on different DMControl tasks demonstrate that our state-novelty guided action persistence method significantly improves the sample efficiency.
翻訳日:2024-09-10 15:20:29 公開日:2024-09-09
# 強化学習のためのセミファクチュアルな説明

Semifactual Explanations for Reinforcement Learning ( http://arxiv.org/abs/2409.05435v1 )

ライセンス: Link先を確認
Jasmina Gajcin, Jovan Jeromela, Ivana Dusparic, (参考訳) 強化学習(Reinforcement Learning、RL)は、エージェントが試行錯誤を通じて環境から学習する学習パラダイムである。 ディープ強化学習(DRL)アルゴリズムは、ニューラルネットワークを使用してエージェントのポリシーを表現し、その決定を解釈しにくくする。 DRLエージェントの動作を説明するには,ユーザの信頼を向上し,エンゲージメントを高め,実際のタスクとの統合を容易にする必要がある。 半現実的な説明は、「車が2倍の速度で動いていても、衝突を避けるために探索する必要がある」というような「たとえ仮に」シナリオを提供することによって結果を説明することを目的としている。 セミファクチュアルは、異なる要因が結果に与える影響を理解し、リソースの最適化を支援するのに役立つ。 心理学で広く研究され、教師付き学習に活用される一方で、セミファクトリアルはRLシステムの決定を説明するために使われていない。 本研究では,RLエージェントの半実的説明を生成するための最初のアプローチを開発する。 まず、RLで望ましい半実説明の5つの特性を定義し、次にSGRL-RewindとSGRL-Advanceを導入し、RLで半実説明を生成するアルゴリズムを提案する。 2つの標準RL環境におけるアルゴリズムの評価を行い、それらが到達しやすく、エージェントのポリシーをより良く表現し、ベースラインよりも多様であるセミファクトアルを生成することを発見した。 最後に,エージェントの行動に関する半実的説明に対する参加者の認識を評価するために,ユーザスタディを実施し,分析する。

Reinforcement Learning (RL) is a learning paradigm in which the agent learns from its environment through trial and error. Deep reinforcement learning (DRL) algorithms represent the agent's policies using neural networks, making their decisions difficult to interpret. Explaining the behaviour of DRL agents is necessary to advance user trust, increase engagement, and facilitate integration with real-life tasks. Semifactual explanations aim to explain an outcome by providing "even if" scenarios, such as "even if the car were moving twice as slowly, it would still have to swerve to avoid crashing". Semifactuals help users understand the effects of different factors on the outcome and support the optimisation of resources. While extensively studied in psychology and even utilised in supervised learning, semifactuals have not been used to explain the decisions of RL systems. In this work, we develop a first approach to generating semifactual explanations for RL agents. We start by defining five properties of desirable semifactual explanations in RL and then introducing SGRL-Rewind and SGRL-Advance, the first algorithms for generating semifactual explanations in RL. We evaluate the algorithms in two standard RL environments and find that they generate semifactuals that are easier to reach, represent the agent's policy better, and are more diverse compared to baselines. Lastly, we conduct and analyse a user study to assess the participant's perception of semifactual explanations of the agent's actions.
翻訳日:2024-09-10 15:20:29 公開日:2024-09-09
# $\mathcal{P}\mathcal{T}$-不変系における境界臨界性とエキゾチックトポロジカル半金属の分解

Breakdown of boundary criticality and exotic topological semimetals in $\mathcal{P}\mathcal{T}$-invariant systems ( http://arxiv.org/abs/2409.05437v1 )

ライセンス: Link先を確認
Hong Wu, Jun-Hong An, (参考訳) 最近、アルトランド・ジルンバウアー対称性クラスを越えて、通常の位相位相のバルク境界対応に違反することが判明し、PT不変系は、バルクバンドギャップの閉鎖と再開に伴う位相位相の異なる順序間の遷移を禁止し、いわゆる境界臨界性を持つ実際のチャーン絶縁体をサポートすることが判明した。 ここでは、周期駆動がPT不変系の境界臨界性を損なう可能性があると仮定する。 境界臨界性から解放された場合、静的ケースに欠落する多彩な一階位相と二階位相は、ゼロモードとPi/Tモードの両方で見られる。 この結果が3次元PT不変系に応用されることで、エキゾチックな二階ディラックとナイダルラインの半金属と、共存する表面とヒンジフェルミアークを発見できる。 PT不変系のトポロジカル位相の族を豊かにすることで、新しいトポロジカル位相を探索する有用な方法が得られます。

It was recently found that, going beyond the tendfold Altland-Zirnbauer symmetry classes and violating the bulk-boundary correspondence of the usual topological phases, PT-invariant systems support a real Chern insulator with the so-called boundary criticality, which forbids the transition between different orders of topological phases accompanied by the closing and reopening of the bulk-band gap. Here, we fnd that the periodic driving can break the boundary criticality of a PT-invariant system. Setting free from the the boundary criticality, diverse first- and second-order topological phases absent in the static case are found in both the zero and Pi/T modes. The application of our result in the three-dimensional PT-invariant system permits us to discover exotic second-order Dirac and nodal-line semimetals with coexisting surface and hinge Fermi arcs. Enriching the family of the topological phases in PT-invariant systems, our result provides us a useful way to explore novel topological phases.
翻訳日:2024-09-10 15:20:29 公開日:2024-09-09
# 連続指数変換およびシャンクス変換を用いた摂動法に関連する発散級数の収束

Convergence in divergent series related to perturbation methods using continued exponential and Shanks transformations ( http://arxiv.org/abs/2409.05438v1 )

ライセンス: Link先を確認
Venkat Abhignan, (参考訳) ダイバージェント解は摂動法でユビキタスである。 我々は、ヘリウムのエネルギー固有値、スターク効果、水素に対するゼーマン効果の摂動アプローチにおいて、連続指数関数などの連続関数を用いて発散系列を収束させる。 文献で広く使われているPad\'e近似とよく似た収束特性が得られることを観察する。 収束に影響を与える自由パラメータは使用されず、摂動級数の最初の数項のみが実装される。

Divergent solutions are ubiquitous with perturbation methods. We use continued function such as continued exponential to converge divergent series in perturbation approaches for energy eigenvalues of Helium, Stark effect and Zeeman effect on Hydrogen. We observe that convergence properties are obtained similar to that of the Pad\'e approximation which is extensively used in literature. Free parameters are not used which influence the convergence and only first few terms in the perturbation series are implemented.
翻訳日:2024-09-10 15:20:29 公開日:2024-09-09
# スカラー理論の位相とPT対称性

Phases of scalar theories and PT symmetry ( http://arxiv.org/abs/2409.05439v1 )

ライセンス: Link先を確認
Leqian Chen, Sarben Sarkar, (参考訳) 量子機械的アンハーモニック振動子型ハミルトニアンは、パリティ対称性のエネルギー固有値と弱いカップリングのためのPT対称相との間に関係があることが示されている。 そのような関係の可能性については、Ai, Bender, Sarkar が経路積分を用いて基底状態エネルギーの想像上の部分を調べる際に予想された。 弱い結合限界において、この予想は基底状態エネルギーの実部や励起状態エネルギーにも当てはまることを示す。 しかし、この予想は強い結合に対して偽である。 零時空次元における分割関数の類似関係は、強い結合における多成分スカラー場を除いて、多くの場合において有効である。

For quantum mechanical anharmonic oscillator-type Hamiltonians, it is shown that there is a relation between the energy eigenvalues of parity symmetric and PT-symmetric phases for weak coupling. The possibility of such a relation was conjectured by Ai, Bender and Sarkar on examining the imaginary part of the ground state energy using path integrals. In the weak coupling limit, we show that the conjecture is true also for the real part of the ground state energy and of the excited state energies. However, the conjecture is false for strong coupling. The analogous relation for partition functions in zero spacetime dimensions is valid for many cases, except for multi-component scalar fields in strong coupling.
翻訳日:2024-09-10 15:10:24 公開日:2024-09-09
# ポールトラップにおける時間依存振動子の研究への貢献 : 半古典的アプローチ

Contributions to the study of time dependent oscillators in Paul traps. Semiclassical approach ( http://arxiv.org/abs/2409.05441v1 )

ライセンス: Link先を確認
Bogdan M. Mihalcea, (参考訳) 振動する四重極場に閉じ込められたイオンの量子力学を、2つのよく知られたエレガントなアプローチから研究する。 ハミルトンの運動方程式(Schr\"{o}dinger と Heisenberg の表現)はヒル方程式と同値である。 調和振動子(HO)に関連する線形独立解を求める。 運動の定数でもある断熱不変量もハイゼンベルク表現に基づいて導入される。 したがって、非自律系の状態は、後続の時点で決定することができる。 閉じ込められたイオンに対する量子状態はフォック状態(数)であることが示され、閉じ込められたイオンに対するシュル「{o}ディンガー方程式の正確な解はまさに準エネルギー状態である。 半古典力学は、閉じ込められたイオンの多体系に対しても研究され、そこでは、シュルンディンガー方程式に関連する波動関数が、エルミート多項式によって乗算されたガウスパッケージとして準備される。 また、調査中のシステムの時間的進化とプロパゲータの供給についても論じる。

We investigate quantum dynamics for an ion confined within an oscillating quadrupole field, starting from two well known and elegant approaches. It is established that the Hamilton equations of motion, in both Schr\"{o}dinger and Heisenberg representations, are equivalent to the Hill equation. One searches for a linear independent solution associated to a harmonic oscillator (HO). An adiabatic invariant, which is also a constant of motion, is introduced based on the Heisenberg representation. Thus, the state of the non-autonomous system can be determined at any subsequent moment of time. The quantum states for trapped ions are demonstrated to be Fock (number) states, while the exact solutions of the Schr\"{o}dinger equation for a trapped ion are exactly the quasienergy states. Semiclassical dynamics is also investigated for many-body systems of trapped ions, where the wavefunction associated to the Schr\"{o}dinger equation is prepared as a Gauss package multiplied by a Hermite polynomial. We also discuss time evolution for the system under investigation and supply the propagator.
翻訳日:2024-09-10 15:10:24 公開日:2024-09-09
# EndoOmni: ノイズラベルからのロバスト自己学習による内視鏡におけるゼロショットクロスデータセット深さ推定

EndoOmni: Zero-Shot Cross-Dataset Depth Estimation in Endoscopy by Robust Self-Learning from Noisy Labels ( http://arxiv.org/abs/2409.05442v1 )

ライセンス: Link先を確認
Qingyao Tian, Zhen Chen, Huai Liao, Xinyan Huang, Lujie Li, Sebastien Ourselin, Hongbin Liu, (参考訳) 単一画像深度推定は、局所化、再構成、拡張現実といった内視鏡的タスクに不可欠である。 既存の手術シーンのほとんどの方法は、領域内深さの推定に焦点を合わせ、実際の応用性を制限する。 この制約は、トレーニング用の医療データの不足と低いラベル付け品質に起因している。 本研究では,ゼロショットクロスドメイン深度推定のための最初の基礎モデルであるEndoOmniについて述べる。 多様な学習データの可能性を活用するために,教師モデルを用いて擬似ラベルを生成する先進的な自己学習パラダイムを改良し,大規模ラベル付き・未ラベルデータに基づいて訓練された学生モデルを指導する。 深度ラベルの固有ノイズによる学習障害に対処するため,教師モデルからの信頼度と深度ラベルを併用し,学生モデルトレーニングを共同指導する頑健なトレーニングフレームワークを提案する。 さらに,ラベル信頼度に基づいて学習重みを適応的に調整する重み付きスケール・アンド・シフト不変損失を提案し,ノイズの多い画素の影響を低減しつつ,よりクリーンなラベル画素に学習バイアスを与える。 ゼロショット相対深度推定実験により,エンドオムニは医療画像における最先端の手法を41倍,既存の基礎モデルを25倍の精度で改善した。 さらに,本モデルは,ドメイン内シナリオとドメイン外シナリオの両方において優れた性能を維持しながら,微調整からメートル法までの距離推定を行うための強力な初期化を提供する。 ソースコードは公開されます。

Single-image depth estimation is essential for endoscopy tasks such as localization, reconstruction, and augmented reality. Most existing methods in surgical scenes focus on in-domain depth estimation, limiting their real-world applicability. This constraint stems from the scarcity and inferior labeling quality of medical data for training. In this work, we present EndoOmni, the first foundation model for zero-shot cross-domain depth estimation for endoscopy. To harness the potential of diverse training data, we refine the advanced self-learning paradigm that employs a teacher model to generate pseudo-labels, guiding a student model trained on large-scale labeled and unlabeled data. To address training disturbance caused by inherent noise in depth labels, we propose a robust training framework that leverages both depth labels and estimated confidence from the teacher model to jointly guide the student model training. Moreover, we propose a weighted scale-and-shift invariant loss to adaptively adjust learning weights based on label confidence, thus imposing learning bias towards cleaner label pixels while reducing the influence of highly noisy pixels. Experiments on zero-shot relative depth estimation show that our EndoOmni improves state-of-the-art methods in medical imaging for 41\% and existing foundation models for 25\% in terms of absolute relative error on specific dataset. Furthermore, our model provides strong initialization for fine-tuning to metric depth estimation, maintaining superior performance in both in-domain and out-of-domain scenarios. The source code will be publicly available.
翻訳日:2024-09-10 15:10:24 公開日:2024-09-09
# 大規模言語モデルにおける結合の表現論的解析

Representational Analysis of Binding in Large Language Models ( http://arxiv.org/abs/2409.05448v1 )

ライセンス: Link先を確認
Qin Dai, Benjamin Heinzerling, Kentaro Inui, (参考訳) 複雑な推論にはエンティティのトラッキングが不可欠だ。 コンテキスト内エンティティ追跡を実行するには、言語モデル(LM)がエンティティを属性(例えば、コンテナをコンテンツにバインドする)にバインドし、エンティティの属性をリコールする必要がある。 例えば、'The coffee is in Box Z', the stone is in Box M', the map is in Box H'', to infer ``Box Z contains the coffee'' という文脈では、LMは ``Box Z'' を ``coffee'' に結合しなければならない。 Feng と Steinhardt (2023) は LM の結合挙動を説明するため、Binding ID 機構を導入し、LM がBinding ID (BI) と呼ばれる抽象概念を使ってエンティティと属性のペアを内部的にマークしていることを述べる。 しかし、BI決定情報をエンティティアクティベーションから直接は取得していない。 本研究では,BI情報のプロトタイプをローカライズすることで,バインディングID機構の新たなビューを提供する。 具体的には、主にエンティティと属性の順序を符号化し、BIのプロトタイプとして結合を因果的に決定する、LMの隠れ状態(またはアクティベーション)に低ランクな部分空間が存在することを明らかにする。 この部分空間を特定するために、我々は原理的成分分析を最初の試みとして選択し、有効であることが実証的に証明されている。 さらに、サブスペース内の方向に沿って表現を編集する場合、LMは特定のエンティティを他の属性に結び付ける傾向にあることもわかりました。 例えば、BIエンコーディング方向に沿ってアクティベーションをパッチすることで、LM に ``Box Z が Stone' を含むと ``Box Z が map'' を含むと推測させることができる。

Entity tracking is essential for complex reasoning. To perform in-context entity tracking, language models (LMs) must bind an entity to its attribute (e.g., bind a container to its content) to recall attribute for a given entity. For example, given a context mentioning ``The coffee is in Box Z, the stone is in Box M, the map is in Box H'', to infer ``Box Z contains the coffee'' later, LMs must bind ``Box Z'' to ``coffee''. To explain the binding behaviour of LMs, Feng and Steinhardt (2023) introduce a Binding ID mechanism and state that LMs use a abstract concept called Binding ID (BI) to internally mark entity-attribute pairs. However, they have not directly captured the BI determinant information from entity activations. In this work, we provide a novel view of the Binding ID mechanism by localizing the prototype of BI information. Specifically, we discover that there exists a low-rank subspace in the hidden state (or activation) of LMs, that primarily encodes the order of entity and attribute and which is used as the prototype of BI to causally determine the binding. To identify this subspace, we choose principle component analysis as our first attempt and it is empirically proven to be effective. Moreover, we also discover that when editing representations along directions in the subspace, LMs tend to bind a given entity to other attributes accordingly. For example, by patching activations along the BI encoding direction we can make the LM to infer ``Box Z contains the stone'' and ``Box Z contains the map''.
翻訳日:2024-09-10 15:10:24 公開日:2024-09-09
# 光キャビティを用いた放射状開口系の検出

Detection of radiatively open systems using an optical cavity ( http://arxiv.org/abs/2409.05451v1 )

ライセンス: Link先を確認
V. I. Gokul, Arun Bahuleyan, Raghuveer Singh Yadav, S. P. Dinesh, V. R. Thakar, Rahul Sawant, S. A. Rangwala, (参考訳) 我々は, 放射的に開放された遷移を伴う冷水原子アンサンブルのキャビティに基づく検出手法を実験的に実証した。 本手法は, 原子とキャビティモードとの強い結合を利用して, 原子アンサンブルの非共鳴探傷を行い, 検出サイクルの損失を劇的に減少させる。 次に、この周波数測定の実用性を示し、理論的モデリングにより少数の原子や分子を検出する。 最も一般的に使われている蛍光法と比較すると、空洞に基づくスキームは、最小限の破壊でシステムの進化を迅速かつ長期にわたって検出できることを示している。

We experimentally demonstrate a cavity-based detection scheme for a cold atomic ensemble with a radiatively open transition. Our method exploits the collective strong coupling of atoms to the cavity mode, which results in off-resonant probing of the atomic ensemble, leading to a dramatic reduction in losses from the detection cycle. We then show the viability of this frequency measurement for detecting a small number of atoms and molecules by theoretical modelling. Compared with the most commonly used fluorescence method, we show that the cavity-based scheme allows rapid and prolonged detection of the system's evolution with minimal destruction.
翻訳日:2024-09-10 15:10:24 公開日:2024-09-09
# Gottesman-Kitaev-Preskill Logical Qubitsのためのユニバーサル量子ゲートセット

Universal Quantum Gate Set for Gottesman-Kitaev-Preskill Logical Qubits ( http://arxiv.org/abs/2409.05455v1 )

ライセンス: Link先を確認
V. G. Matsos, C. H. Valahu, M. J. Millican, T. Navickas, X. C. Kolesnikow, M. J. Biercuk, T. R. Tan, (参考訳) 大規模で普遍的な量子コンピュータの実現は、情報処理のパラダイムシフトをもたらすことを約束し、従来のコンピュータでは難解な問題を解く能力を提供する。 フォールトトレラント量子情報処理(QIP)を実現するための鍵となる制限要因は、近い将来に利用可能なデバイスサイズを超過する物理と論理の量子ビットの比率が大きいことである。 Gottesman, Kitaev, Preskill (GKP) による別のアプローチでは、1つの論理量子ビットを単一の調和振動子に符号化し、より複雑な符号化と引き換えにこのハードウェアオーバーヘッドを軽減する。 この複雑さのため、GKP符号を用いた現在の実験は単一量子ビット符号化と演算に限られている。 本稿では,GKP符号に対する普遍ゲートセットの実験実験について報告する。 我々の手法は、閉じ込められたイオンの機械的運動に符号化された有限エネルギーGKP状態にエネルギー保存量子ゲートを決定的に実装する。 これは、イオンのスピンと運動の間の相互作用を動的に変調する新しい最適制御戦略によって達成される。 論理過程の忠実度が0.960、論理過程の忠実度が0.680である2量子エンタングルゲートを実証する。 また、振動子の基底状態からGKPベル状態を直接1ステップで生成し、論理状態の忠実度は0.842である。 全体的なスキームは既存のハードウェアアーキテクチャと互換性があり、最適制御戦略をフォールトトレランスへの重要な加速として活用する機会を強調している。

The realisation of a universal quantum computer at scale promises to deliver a paradigm shift in information processing, providing the capability to solve problems that are intractable with conventional computers. A key limiting factor of realising fault-tolerant quantum information processing (QIP) is the large ratio of physical-to-logical qubits that outstrip device sizes available in the near future. An alternative approach proposed by Gottesman, Kitaev, and Preskill (GKP) encodes a single logical qubit into a single harmonic oscillator, alleviating this hardware overhead in exchange for a more complex encoding. Owing to this complexity, current experiments with GKP codes have been limited to single-qubit encodings and operations. Here, we report on the experimental demonstration of a universal gate set for the GKP code, which includes single-qubit gates and -- for the first time -- a two-qubit entangling gate between logical code words. Our scheme deterministically implements energy-preserving quantum gates on finite-energy GKP states encoded in the mechanical motion of a trapped ion. This is achieved by a novel optimal control strategy that dynamically modulates an interaction between the ion's spin and motion. We demonstrate single-qubit gates with a logical process fidelity as high as 0.960 and a two-qubit entangling gate with a logical process fidelity of 0.680. We also directly create a GKP Bell state from the oscillators' ground states in a single step with a logical state fidelity of 0.842. The overall scheme is compatible with existing hardware architectures, highlighting the opportunity to leverage optimal control strategies as a key accelerant towards fault tolerance.
翻訳日:2024-09-10 15:10:24 公開日:2024-09-09
# 階層グラフとしてのArgumentation Frameworkの拡張を可視化する

Visualizing Extensions of Argumentation Frameworks as Layered Graphs ( http://arxiv.org/abs/2409.05457v1 )

ライセンス: Link先を確認
Martin Nöllenburg, Christian Pirker, Anna Rapberger, Stefan Woltran, Jules Wulms, (参考訳) 議論フレームワーク(AF)の可視化は、議論ツールの幅広い適用を可能にするために不可欠である。 しかし、それらの視覚化は、セマンティクスと標準的なグラフィカル表現を使用するツールの付随部分としてのみ考慮されることが多い。 本稿では,AFを3層グラフレイアウトとして拡張(入力の一部として)とともに描画する新しい可視化手法を提案する。 我々の技術は、ユーザがより簡単に可視化されたAFを探索し、拡張をよりよく理解し、セマンティクスを計算するためのアルゴリズムを検証するのを支援する。 このレイアウトの視覚的明瞭度と美学を最適化するために,我々は3層描画におけるエッジ交差を最小限に抑えることを提案する。 正確なILPベースのアプローチで行うが、高速ヒューリスティックパイプラインも提案する。 定量的評価の結果,大ケースにおいてもヒューリスティックが実現可能である一方で,ほとんどのケースでは最適図面の2倍の交差が生じることがわかった。

The visualization of argumentation frameworks (AFs) is crucial for enabling a wide applicability of argumentative tools. However, their visualization is often considered only as an accompanying part of tools for computing semantics and standard graphical representations are used. We introduce a new visualization technique that draws an AF, together with an extension (as part of the input), as a 3-layer graph layout. Our technique supports the user to more easily explore the visualized AF, better understand extensions, and verify algorithms for computing semantics. To optimize the visual clarity and aesthetics of this layout, we propose to minimize edge crossings in our 3-layer drawing. We do so by an exact ILP-based approach, but also propose a fast heuristic pipeline. Via a quantitative evaluation, we show that the heuristic is feasible even for large instances, while producing at most twice as many crossings as an optimal drawing in most cases.
翻訳日:2024-09-10 15:10:24 公開日:2024-09-09
# Beyond Flatland: 治療効果推定のためのマッチング手法に関する幾何学的考察

Beyond Flatland: A Geometric Take on Matching Methods for Treatment Effect Estimation ( http://arxiv.org/abs/2409.05459v1 )

ライセンス: Link先を確認
Melanie F. Pradier, Javier González, (参考訳) マッチングは、共変量情報の観点から最もよく似たペアリング処理と制御ユニットによる治療効果を推定する因果推論において一般的なアプローチである。 しかし、古典的なマッチング法は、マッチングに意味のある距離を定義することが不可欠であるデータ多様体の幾何学を完全に無視する。 そこで本研究では,既存の因果関係から誘導される固有データ形状を考慮した処理効果を推定する手法であるGeoMatchingを提案する。 まず、元の入力データの不確実性と幾何を考慮に入れた低次元、潜在リーマン多様体を学ぶ。 第二に、学習された潜在リーマン計量に基づいて、潜在空間におけるマッチングによる治療効果を推定する。 合成および実世界のシナリオにおいて理論的洞察と実証結果を提供し、入力次元を増大させたとしても、GeoMatchingがより効果的に治療効果を推定できることを示した。

Matching is a popular approach in causal inference to estimate treatment effects by pairing treated and control units that are most similar in terms of their covariate information. However, classic matching methods completely ignore the geometry of the data manifold, which is crucial to define a meaningful distance for matching, and struggle when covariates are noisy and high-dimensional. In this work, we propose GeoMatching, a matching method to estimate treatment effects that takes into account the intrinsic data geometry induced by existing causal mechanisms among the confounding variables. First, we learn a low-dimensional, latent Riemannian manifold that accounts for uncertainty and geometry of the original input data. Second, we estimate treatment effects via matching in the latent space based on the learned latent Riemannian metric. We provide theoretical insights and empirical results in synthetic and real-world scenarios, demonstrating that GeoMatching yields more effective treatment effect estimators, even as we increase input dimensionality, in the presence of outliers, or in semi-supervised scenarios.
翻訳日:2024-09-10 15:10:24 公開日:2024-09-09
# DriveScape:高解像度制御可能なマルチビュー駆動ビデオ生成を目指して

DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation ( http://arxiv.org/abs/2409.05463v1 )

ライセンス: Link先を確認
Wei Wu, Xi Guo, Weixuan Tang, Tingxuan Huang, Chiyu Wang, Dongyue Chen, Chenjing Ding, (参考訳) 生成モデルの最近の進歩は、自律運転知覚モデルの訓練に欠かせない現実的な運転映像を合成するための有望なソリューションを提供する。 しかし,従来のアプローチでは,空間的時間的整合性を維持しながら3次元情報を統合することの難しさや,統一モデルから効果的に学習することの難しさから,多視点映像生成に苦慮することが多い。 本稿では,多視点3Dコンディション誘導ビデオ生成のためのエンドツーエンドフレームワークDriveScapeを提案する。 DriveScapeは、カメラデータを統合して、空間的時間的包摂性を確保するだけでなく、双方向変調トランスモジュールを導入し、3D道路構造情報を効果的に整合させる。 その結果,本手法は映像生成の正確な制御を可能にし,リアリズムを著しく向上させ,マルチビュー・ドライビング・ビデオを生成するための堅牢なソリューションを提供する。 FIDスコア8.34、FVDスコア76.39、および様々な知覚タスクにおける優れたパフォーマンスを示す。 これにより、自動運転におけるより正確な環境シミュレーションの道が開ける。 コードはプロジェクトのホームページで公開されます。

Recent advancements in generative models have provided promising solutions for synthesizing realistic driving videos, which are crucial for training autonomous driving perception models. However, existing approaches often struggle with multi-view video generation due to the challenges of integrating 3D information while maintaining spatial-temporal consistency and effectively learning from a unified model. In this paper, we propose an end-to-end framework named DriveScape for multi-view, 3D condition-guided video generation. DriveScape not only streamlines the process by integrating camera data to ensure comprehensive spatial-temporal coverage, but also introduces a Bi-Directional Modulated Transformer module to effectively align 3D road structural information. As a result, our approach enables precise control over video generation, significantly enhancing realism and providing a robust solution for generating multi-view driving videos. Our framework achieves state-of-the-art results on the nuScenes dataset, demonstrating impressive generative quality metrics with an FID score of 8.34 and an FVD score of 76.39, as well as superior performance across various perception tasks. This paves the way for more accurate environmental simulations in autonomous driving. Code will be available at our project homepage.
翻訳日:2024-09-10 15:10:24 公開日:2024-09-09
# 量子場理論における正規化ツールとしての一般化されたアベル・プラナ公式

Generalized Abel-Plana formula as a renormalization tool in quantum field theory ( http://arxiv.org/abs/2409.05465v1 )

ライセンス: Link先を確認
A. A. Saharian, (参考訳) 場の量子論において、場の作用素の双線型である物理可観測体の真空期待値は分岐する。 これらの期待値の調査において最も重要なポイントは、発散表現の正規化、発散の分離、再正規化である。 境界問題では、期待値は発散級数と対応する積分の差の形で表される。 平面境界に関する問題において、その差分に対する有限積分表現はアベル・プラナ和式によって与えられる。 このコントリビューションでは、和が与えられた函数の零点を超える級数のより一般的なクラスに対する同様の表現を得ることのできるアベル・プラナの公式の一般化を考える。 応用は、非自明な空間位相と曲面境界を持つ場の理論的問題において議論される。

In quantum field theory the vacuum expectation values of physical observables, bilinear in the field operator, diverge. Among the most important points in the investigations of those expectation values is the regularization of divergent expressions, separation of divergences and the renormalization. In problems with boundaries the expectation values are expressed in the form of the difference of the divergent series and the corresponding integral. In problems with planar boundaries a finite integral representation for that difference is provided by the Abel-Plana summation formula. In the present contribution we consider the generalization of the Abel-Plana formula that allows to obtain similar representations for more general classes of series where the summation goes over the zeros of a given function. Applications are discussed in quantum field theoretical problems with nontrivial spatial topology and curved boundaries.
翻訳日:2024-09-10 15:10:24 公開日:2024-09-09
# Proto-OOD:OODオブジェクト検出をプロトタイプの特徴的類似性で強化する

Proto-OOD: Enhancing OOD Object Detection with Prototype Feature Similarity ( http://arxiv.org/abs/2409.05466v1 )

ライセンス: Link先を確認
Junkun Chen, Jilin Mei, Liang Chen, Fangzhou Zhao, Yu Hu, (参考訳) 対象検出器の限られたトレーニングサンプルは、通常、低い精度のアウト・オブ・ディストリビューション(OOD)オブジェクト検出をもたらす。 我々は、同じクラスの特徴ベクトルが特徴空間において密集する傾向にあるのに対し、異なるクラスの特徴ベクトルはより散らばっていることを観察した。 この洞察は、OOD検出に機能類似性を活用する動機となります。 この目的のために設計された新しいネットワークアーキテクチャProto-OODを導入する。 Proto-OODは, 入力特徴とプロトタイプの類似性を評価することにより, 対照的な損失によるプロトタイプの表現性を向上し, OODデータを識別する。 負の埋め込み生成器を使用して負の埋め込みを生成し、類似モジュールをトレーニングする。 Proto-OOD は Pascal VOC を ID データセットとして、MS-COCO を OOD データセットとして使用する場合、MS-COCO データセットでは FPR95 が大幅に低下し、パスカルVOC データセットでは mAP が向上する。 さらに,既存の評価基準の限界を特定し,拡張評価プロトコルを提案する。

The limited training samples for object detectors commonly result in low accuracy out-of-distribution (OOD) object detection. We have observed that feature vectors of the same class tend to cluster tightly in feature space, whereas those of different classes are more scattered. This insight motivates us to leverage feature similarity for OOD detection. Drawing on the concept of prototypes prevalent in few-shot learning, we introduce a novel network architecture, Proto-OOD, designed for this purpose. Proto-OOD enhances prototype representativeness through contrastive loss and identifies OOD data by assessing the similarity between input features and prototypes. It employs a negative embedding generator to create negative embedding, which are then used to train the similarity module. Proto-OOD achieves significantly lower FPR95 in MS-COCO dataset and higher mAP for Pascal VOC dataset, when utilizing Pascal VOC as ID dataset and MS-COCO as OOD dataset. Additionally, we identify limitations in existing evaluation metrics and propose an enhanced evaluation protocol.
翻訳日:2024-09-10 15:10:24 公開日:2024-09-09
# PVP-Recon:スパークビュー表面再構成のためのウォーピング整合によるプログレッシブビュープランニング

PVP-Recon: Progressive View Planning via Warping Consistency for Sparse-View Surface Reconstruction ( http://arxiv.org/abs/2409.05474v1 )

ライセンス: Link先を確認
Sheng Ye, Yuze He, Matthieu Lin, Jenny Sheng, Ruoyu Fan, Yiheng Han, Yubin Hu, Ran Yi, Yu-Hui Wen, Yong-Jin Liu, Wenping Wang, (参考訳) ニューラルな暗黙表現は、密集した多面的表面再構成に革命をもたらしたが、その性能はスパース入力ビューによって著しく低下した。 幾らかの先駆的な研究は、追加の幾何学的先行やマルチシーンの一般化性を活用することで、スパースビュー再構築の課題に取り組むことを目指している。 しかし、経験的に決定された視点の下の画像を用いて、入力ビューの不完全な選択が依然として妨げられている。 PVP-Reconは、画像キャプチャのためのスパース視点の最適セットを形成するために、次のベストビューを段階的に計画する、新規で効果的なスパースビュー表面再構成手法である。 PVP-Reconは、最大3つのビューで初期表面の再構築を開始し、新たに追加されたビューの情報ゲインを反映した新しいワープスコアに基づいて決定される新しいビューを徐々に追加する。 このプログレッシブ・ビュー・プランニング・プログレッシブ・プランニング・プログレッシブ・プログレッシブ・トレーニング・スキームと指向性ヘッセン・ロスによって強化されたマルチレゾリューション・ハッシュ機能を利用するニューラル・SDFベースの再構築モジュールがインターリーブされる。 3つのベンチマークデータセットの定量的および定性的な実験により、我々のフレームワークは、制約された入力予算で高品質な再構築を実現し、既存のベースラインを上回ります。

Neural implicit representations have revolutionized dense multi-view surface reconstruction, yet their performance significantly diminishes with sparse input views. A few pioneering works have sought to tackle the challenge of sparse-view reconstruction by leveraging additional geometric priors or multi-scene generalizability. However, they are still hindered by the imperfect choice of input views, using images under empirically determined viewpoints to provide considerable overlap. We propose PVP-Recon, a novel and effective sparse-view surface reconstruction method that progressively plans the next best views to form an optimal set of sparse viewpoints for image capturing. PVP-Recon starts initial surface reconstruction with as few as 3 views and progressively adds new views which are determined based on a novel warping score that reflects the information gain of each newly added view. This progressive view planning progress is interleaved with a neural SDF-based reconstruction module that utilizes multi-resolution hash features, enhanced by a progressive training scheme and a directional Hessian loss. Quantitative and qualitative experiments on three benchmark datasets show that our framework achieves high-quality reconstruction with a constrained input budget and outperforms existing baselines.
翻訳日:2024-09-10 15:10:24 公開日:2024-09-09
# 変分量子回路設計のための強化学習

Reinforcement Learning for Variational Quantum Circuits Design ( http://arxiv.org/abs/2409.05475v1 )

ライセンス: Link先を確認
Simone Foderà, Gloria Turati, Riccardo Nembrini, Maurizio Ferrari Dacrema, Paolo Cremonesi, (参考訳) 変分量子アルゴリズムは、量子コンピュータの最適化問題を解くための有望なツールとして登場した。 これらのアルゴリズムはアンサッツと呼ばれるパラメトリック量子回路を利用しており、パラメータは古典的なオプティマイザによって調整され、あるコスト関数を最適化する。 しかし、重要な課題は、特定の問題に対処する効果的な回路を設計することである。 本研究では、強力で柔軟な強化学習パラダイムを利用して、変分アルゴリズムのアンサーゼとして使用できる量子回路を自律的に生成できるエージェントを訓練し、最適化問題を解く。 このエージェントは、さまざまなグラフトポロジとサイズから構築されたMaximum Cut、Maximum Clique、Minimum Vertex Coverなど、さまざまな問題インスタンスでトレーニングされている。 エージェントが生成した回路とそれに対応する解を解析した結果,提案手法が有効なアンサーゼを生成できることが判明した。 我々のゴールは、新しい特定のアンザッツを提案することではありませんが、エージェントがいかにして、最大カット問題に有効な新しいアンザイズ族を発見したかを観察し、それを$R_{yz}$-connectと呼びます。 種々のグラフトポロジ,サイズ,問題型のインスタンス間で、最先端の量子アルゴリズムと比較することにより、これらのアンサーゼの1つの特性について検討する。 R_{yz}$-connect 回路は最大カット問題に対して高い近似比を達成し,さらに提案手法の有効性を検証した。 本研究は、研究者が様々なタスクに応用できる効果的な量子回路を設計するための強化学習技術の可能性を強調した。

Variational Quantum Algorithms have emerged as promising tools for solving optimization problems on quantum computers. These algorithms leverage a parametric quantum circuit called ansatz, where its parameters are adjusted by a classical optimizer with the goal of optimizing a certain cost function. However, a significant challenge lies in designing effective circuits for addressing specific problems. In this study, we leverage the powerful and flexible Reinforcement Learning paradigm to train an agent capable of autonomously generating quantum circuits that can be used as ansatzes in variational algorithms to solve optimization problems. The agent is trained on diverse problem instances, including Maximum Cut, Maximum Clique and Minimum Vertex Cover, built from different graph topologies and sizes. Our analysis of the circuits generated by the agent and the corresponding solutions shows that the proposed method is able to generate effective ansatzes. While our goal is not to propose any new specific ansatz, we observe how the agent has discovered a novel family of ansatzes effective for Maximum Cut problems, which we call $R_{yz}$-connected. We study the characteristics of one of these ansatzes by comparing it against state-of-the-art quantum algorithms across instances of varying graph topologies, sizes, and problem types. Our results indicate that the $R_{yz}$-connected circuit achieves high approximation ratios for Maximum Cut problems, further validating our proposed agent. In conclusion, our study highlights the potential of Reinforcement Learning techniques in assisting researchers to design effective quantum circuits which could have applications in a wide number of tasks.
翻訳日:2024-09-10 15:10:24 公開日:2024-09-09
# ν$-函数に関するいくつかの新しい考察

Some new considerations about the $ν$-function ( http://arxiv.org/abs/2409.05476v1 )

ライセンス: Link先を確認
Dušan Popov, (参考訳) 本稿では、連続スペクトルを持つ量子系に対する一般化された超幾何コヒーレント状態の正規化関数の役割を$\nu$-関数が果たす前に導かれる結果から始める。 我々はこの考えを一般化し、新しい函数、一般化された$\nu$-函数を得る。 離散連続極限を定義することによって、前回の例では、一般化された$\nu$-函数を含む新しい積分の定式化と解を許容する一連の興味深い性質を明らかにした。 私たちの知る限りでは、私たちによって得られた結果は文学には現れない。

The present paper starts from a previously deduced result, in which the $\nu$-function plays the role of the normalization function of generalized hypergeometric coherent states for quantum systems with a continuous spectrum. We have generalized this idea, obtaining a new function, the generalized $\nu$-function. By defining a discrete-continuous limit, we revealed a series of interesting properties that, in the last instance, allow the formulation and solution of new integrals involving the generalized $\nu$-functions which depend on both scalar arguments as well as those containing creation and annihilation operators, which generate the generalized hypergeometric coherent states. To our knowledge, the results obtained by us do not appear in the literature.
翻訳日:2024-09-10 15:10:24 公開日:2024-09-09
# 変圧器を用いた時間グラフニューラルネットワークの再構成

Retrofitting Temporal Graph Neural Networks with Transformer ( http://arxiv.org/abs/2409.05477v1 )

ライセンス: Link先を確認
Qiang Huang, Xiao Yan, Xin Wang, Susie Xi Rao, Zhichao Han, Fangcheng Fu, Wentao Zhang, Jiawei Jiang, (参考訳) テンポラルグラフニューラルネットワーク(TGNN)は、時間情報をグラフベースの操作に組み込むことで、通常のGNNより優れている。 しかし、TGNNは特別なモデル(TGN、TGAT、APANなど)を採用しており、適切なトレーニングフレームワーク(TGL、ETCなど)を必要とする。 本稿では,TGNNのバックボーンモデルとしてTransformerデコーダを用いたTF-TGNを提案する。 特にTransformerは言語モデリングにおいて大きな成功を収めており、コミュニティは高性能カーネル(例えば、フラッシュアテンションとメモリ効率の注意)と効率的な分散トレーニングスキーム(例えば、PyTorch FSDP、DeepSpeed、Megatron-LM)を開発した。 我々は,TGNNが言語モデリングに類似していること,すなわち,TGNNにおける時系列的に発生するノードとその隣接ノード間のメッセージアグリゲーション操作を,シーケンスモデリングとして構造化することができることを観察した。 この類似性に加えて、接尾辞の埋め込み、自己ループによる時間グラフの注意、TF-TGNを機能させるために因果マスキングの自己注意を含む一連のアルゴリズム設計も取り入れている。 トレーニング中、既存のシステムはグラフトポロジを変換し、グラフサンプリングを行うのが遅い。 そこで本研究では,CSRフォーマット変換とグラフサンプリングを並列化する手法を提案する。 また、Transformerのコードベースを適用して、TF-TGNを複数のGPUで効率的にトレーニングする。 9つのグラフを実験し、2つの最先端TGNNトレーニングフレームワークと比較した。 その結果、TF-TGNは既存のSOTA TGNNと同等またはそれ以上の精度でトレーニングを2.20以上加速できることがわかった。 TF-TGNはhttps://github.com/qianghuangwhu/TF-TGNで利用可能である。

Temporal graph neural networks (TGNNs) outperform regular GNNs by incorporating time information into graph-based operations. However, TGNNs adopt specialized models (e.g., TGN, TGAT, and APAN ) and require tailored training frameworks (e.g., TGL and ETC). In this paper, we propose TF-TGN, which uses Transformer decoder as the backbone model for TGNN to enjoy Transformer's codebase for efficient training. In particular, Transformer achieves tremendous success for language modeling, and thus the community developed high-performance kernels (e.g., flash-attention and memory-efficient attention) and efficient distributed training schemes (e.g., PyTorch FSDP, DeepSpeed, and Megatron-LM). We observe that TGNN resembles language modeling, i.e., the message aggregation operation between chronologically occurring nodes and their temporal neighbors in TGNNs can be structured as sequence modeling. Beside this similarity, we also incorporate a series of algorithm designs including suffix infilling, temporal graph attention with self-loop, and causal masking self-attention to make TF-TGN work. During training, existing systems are slow in transforming the graph topology and conducting graph sampling. As such, we propose methods to parallelize the CSR format conversion and graph sampling. We also adapt Transformer codebase to train TF-TGN efficiently with multiple GPUs. We experiment with 9 graphs and compare with 2 state-of-the-art TGNN training frameworks. The results show that TF-TGN can accelerate training by over 2.20 while providing comparable or even superior accuracy to existing SOTA TGNNs. TF-TGN is available at https://github.com/qianghuangwhu/TF-TGN.
翻訳日:2024-09-10 15:10:24 公開日:2024-09-09
# 恒星活動と太陽系外惑星周期回転のための強化機械学習

Advancing Machine Learning for Stellar Activity and Exoplanet Period Rotation ( http://arxiv.org/abs/2409.05482v1 )

ライセンス: Link先を確認
Fatemeh Fazel Hesar, Bernard Foing, Ana M. Heras, Mojtaba Raouf, Victoria Foing, Shima Javanmardi, Fons J. Verbeek, (参考訳) 本研究では、NASAケプラーミッションで得られた補正光曲線データから、機械学習モデルを用いて恒星回転周期を推定した。 従来の方法では、光曲線データにおけるノイズや変動性のために、回転周期を正確に見積もることに苦労することが多い。 LS-PeriodogramとTransit Least Squaresのテクニックからの最初の期間見積を使用して、データをトレーニング、検証、テストセットに分割するワークフロー。 我々は、決定木、ランダムフォレスト、K-Nearest Neighbors、Gradient Boostingなどの機械学習アルゴリズムを採用し、予測精度とロバスト性を改善するためにVoting Ensembleアプローチを利用した。 この分析には、複数のケプラーIDからのデータが含まれており、軌道周期と惑星半径に関する詳細な指標を提供している。 評価の結果,投票アンサンブルモデルが最も正確であり,RMSEは決定木モデルより約50倍,K-Nearest Neighborsモデルより17倍低いことがわかった。 ランダムフォレストモデルは投票アンサンブルと互換性があり、精度が高いことを示している。 対照的に、グラディエントブースティングモデルは他のアプローチと比べてRMSEが劣っている。 予測回転周期と測光基準周期を比較した結果,機械学習モデルでは高い予測精度が得られた。 結果は、特にアンサンブル法は、恒星の自転周期を正確に推定する問題を効果的に解き、太陽系外惑星や恒星天体物理学の研究を進める上で重要な意味を持つことを示している。

This study applied machine learning models to estimate stellar rotation periods from corrected light curve data obtained by the NASA Kepler mission. Traditional methods often struggle to estimate rotation periods accurately due to noise and variability in the light curve data. The workflow involved using initial period estimates from the LS-Periodogram and Transit Least Squares techniques, followed by splitting the data into training, validation, and testing sets. We employed several machine learning algorithms, including Decision Tree, Random Forest, K-Nearest Neighbors, and Gradient Boosting, and also utilized a Voting Ensemble approach to improve prediction accuracy and robustness. The analysis included data from multiple Kepler IDs, providing detailed metrics on orbital periods and planet radii. Performance evaluation showed that the Voting Ensemble model yielded the most accurate results, with an RMSE approximately 50\% lower than the Decision Tree model and 17\% better than the K-Nearest Neighbors model. The Random Forest model performed comparably to the Voting Ensemble, indicating high accuracy. In contrast, the Gradient Boosting model exhibited a worse RMSE compared to the other approaches. Comparisons of the predicted rotation periods to the photometric reference periods showed close alignment, suggesting the machine learning models achieved high prediction accuracy. The results indicate that machine learning, particularly ensemble methods, can effectively solve the problem of accurately estimating stellar rotation periods, with significant implications for advancing the study of exoplanets and stellar astrophysics.
翻訳日:2024-09-10 15:00:05 公開日:2024-09-09
# CRADLE-VAE:反現実的推論に基づくアーチファクト歪みを用いた単一セル遺伝子摂動モデルの実現

CRADLE-VAE: Enhancing Single-Cell Gene Perturbation Modeling with Counterfactual Reasoning-based Artifact Disentanglement ( http://arxiv.org/abs/2409.05484v1 )

ライセンス: Link先を確認
Seungheun Baek, Soyon Park, Yan Ting Chok, Junhyun Lee, Jueon Park, Mogan Gim, Jaewoo Kang, (参考訳) 様々な摂動に対する細胞応答を予測することは、薬物発見とパーソナライズされた治療に重要な焦点を置き、深層学習モデルがこの取り組みに重要な役割を果たしている。 シングルセルデータセットには、そのようなモデルの予測可能性を妨げる技術的アーティファクトが含まれており、この分野で高い評価を受けている品質管理の問題を引き起こす。 そこで本研究では,単一細胞遺伝子摂動モデルに適した因果生成フレームワークであるCRADLE-VAEを提案する。 トレーニングを通じて、CRADLE-VAEは、単一のセルデータセットに存在する技術的アーティファクトと摂動効果の根底にある潜伏分布をモデル化する。 副次的推論を用いて、潜伏した基底空間を変調することで、これらのアーティファクトを効果的に解体し、高品質なセル応答データを生成するための堅牢な特徴を学習する。 実験により, 本手法は治療効果評価性能だけでなく, 生成品質も向上することが示された。 CRADLE-VAEのコードベースはhttps://github.com/dmis-lab/CRADLE-VAEで公開されている。

Predicting cellular responses to various perturbations is a critical focus in drug discovery and personalized therapeutics, with deep learning models playing a significant role in this endeavor. Single-cell datasets contain technical artifacts that may hinder the predictability of such models, which poses quality control issues highly regarded in this area. To address this, we propose CRADLE-VAE, a causal generative framework tailored for single-cell gene perturbation modeling, enhanced with counterfactual reasoning-based artifact disentanglement. Throughout training, CRADLE-VAE models the underlying latent distribution of technical artifacts and perturbation effects present in single-cell datasets. It employs counterfactual reasoning to effectively disentangle such artifacts by modulating the latent basal spaces and learns robust features for generating cellular response data with improved quality. Experimental results demonstrate that this approach improves not only treatment effect estimation performance but also generative quality as well. The CRADLE-VAE codebase is publicly available at https://github.com/dmis-lab/CRADLE-VAE.
翻訳日:2024-09-10 15:00:05 公開日:2024-09-09
# Elsevier Arena: 化学・生物学・健康基礎言語モデルの人間による評価

Elsevier Arena: Human Evaluation of Chemistry/Biology/Health Foundational Large Language Models ( http://arxiv.org/abs/2409.05486v1 )

ライセンス: Link先を確認
Camilo Thorne, Christian Druckenbrodt, Kinga Szarkowska, Deepika Goyal, Pranita Marajan, Vijay Somanath, Corey Harper, Mao Yan, Tony Scerri, (参考訳) 大規模な言語モデルの品質と能力は、現在、自動ベンチマーク評価で完全に評価することはできない。 代わりに、従来の定性的な手法を自然言語生成文学から拡張する人間の評価が必要である。 最近のベストプラクティスの1つは、特定のモデルに対する人間の評価者の好みをキャプチャするA/Bテストフレームワークの使用である。 本稿では,エルゼビアで行われた生物医学領域(健康,生物学,化学・薬学)に焦点を当てたヒト評価実験について述べる。 大規模な (8.8B パラメータ) デコーダのみの基底変換器は比較的小さな (135B トークン) で訓練されているが、高度にキュレートされたエルゼビアデータセットのコレクションは OpenAI の GPT-3.5-turbo と Meta の基本 7B パラメータ Llama 2 モデルと比較される。 結果は、一般的にIRRスコアが低かったとしても、GPT-3.5-turboが好まれており、会話能力を持つモデルが好まれており、非常に大きなデータセットでトレーニングされていることを示している。 しかし同時に、より小さいが十分に訓練されたトレーニングセットでの訓練の少ないモデルでは、バイオメディカル領域で実行可能な代替手段が生まれる可能性があることを示唆している。

The quality and capabilities of large language models cannot be currently fully assessed with automated, benchmark evaluations. Instead, human evaluations that expand on traditional qualitative techniques from natural language generation literature are required. One recent best-practice consists in using A/B-testing frameworks, which capture preferences of human evaluators for specific models. In this paper we describe a human evaluation experiment focused on the biomedical domain (health, biology, chemistry/pharmacology) carried out at Elsevier. In it a large but not massive (8.8B parameter) decoder-only foundational transformer trained on a relatively small (135B tokens) but highly curated collection of Elsevier datasets is compared to OpenAI's GPT-3.5-turbo and Meta's foundational 7B parameter Llama 2 model against multiple criteria. Results indicate -- even if IRR scores were generally low -- a preference towards GPT-3.5-turbo, and hence towards models that possess conversational abilities, are very large and were trained on very large datasets. But at the same time, indicate that for less massive models training on smaller but well-curated training sets can potentially give rise to viable alternatives in the biomedical domain.
翻訳日:2024-09-10 15:00:05 公開日:2024-09-09
# ミスコンプレッションの分類法--ニューラルコンプレッションのための画像鑑定の作成

A Taxonomy of Miscompressions: Preparing Image Forensics for Neural Compression ( http://arxiv.org/abs/2409.05490v1 )

ライセンス: Link先を確認
Nora Hofer, Rainer Böhme, (参考訳) ニューラル圧縮は、損失のある画像圧縮に革命をもたらす可能性がある。 生成モデルに基づいて、近年のスキームは、高い知覚的品質で前例のない圧縮率を達成するが、意味的忠実性を損なう。 圧縮された画像の詳細は光学的に不完全に見えるが、オリジナルと意味的に異なるため、圧縮エラーを検出できないか、あるいは検出できない。 問題空間を探索し, ミスプレッションの暫定分類法を提案する。 3種類の「何が起こるか」を定義し、シンボルを変更するミス圧縮を示すバイナリの「高影響」フラグを持つ。 本稿では,リスクコミュニケーションの促進と緩和研究について論じる。

Neural compression has the potential to revolutionize lossy image compression. Based on generative models, recent schemes achieve unprecedented compression rates at high perceptual quality but compromise semantic fidelity. Details of decompressed images may appear optically flawless but semantically different from the originals, making compression errors difficult or impossible to detect. We explore the problem space and propose a provisional taxonomy of miscompressions. It defines three types of 'what happens' and has a binary 'high impact' flag indicating miscompressions that alter symbols. We discuss how the taxonomy can facilitate risk communication and research into mitigations.
翻訳日:2024-09-10 15:00:05 公開日:2024-09-09
# 洗練されたフラウチャー-強い文脈性に基づくレナーパラドックス

A refined Frauchiger--Renner paradox based on strong contextuality ( http://arxiv.org/abs/2409.05491v1 )

ライセンス: Link先を確認
Laurens Walleghem, Rui Soares Barbosa, Matthew Pusey, Stefan Weigert, (参考訳) Frauchiger-Rennerパラドックス(英語版)は、エージェントが他のエージェントを量子的にモデル化し、互いの知識を推論するシナリオによって、自分自身の使用を記述するために量子理論が用いられるときの不整合を導出する。我々は、論理的文脈性(\`a la Hardy)がFRパラドックスの重要な要素であることを観察し、強い文脈的GHZ-Merminシナリオに基づくより強いパラドックスを提供する。 FRパラドックスとは対照的に、このGHZ-FRパラドックスは後選択も量子的にモデル化された観測者による推論も必要としない。 超オブザーバを含む量子論の普遍性を受け入れるならば、これらの拡張されたウィグナーの友人パラドックスを解決するために、ペレスの定式を自然に拡張することを提案する。

The Frauchiger--Renner paradox derives an inconsistency when quantum theory is used to describe the use of itself, by means of a scenario where agents model other agents quantumly and reason about each other's knowledge. We observe that logical contextuality (\`a la Hardy) is the key ingredient of the FR paradox, and we provide a stronger paradox based on the strongly contextual GHZ--Mermin scenario. In contrast to the FR paradox, this GHZ--FR paradox neither requires post-selection nor any reasoning by observers who are modelled quantumly. If one accepts the universality of quantum theory including superobservers, we propose a natural extension of Peres's dictum to resolve these extended Wigner's friend paradoxes.
翻訳日:2024-09-10 15:00:05 公開日:2024-09-09
# 高解像度衛星画像のための大気補正統合LULCセグメンテーションモデル

An Atmospheric Correction Integrated LULC Segmentation Model for High-Resolution Satellite Imagery ( http://arxiv.org/abs/2409.05494v1 )

ライセンス: Link先を確認
Soham Mukherjee, Yash Dixit, Naman Srivastava, Joel D Joy, Rohan Olikara, Koesha Sinha, Swarup E, Rakshit Ramesh, (参考訳) 大規模マルチスペクトル画像とディープラーニングモデルの統合は、土地利用と土地被覆(LULC)の分類に革命をもたらした。 しかし, 大気表面反射率の精度を向上するためには, 測定値のディジタル数値を補正する必要がある。 本研究では、高分解能CARTOSAT-3マルチスペクトル(MX)画像の大気中反射率と透過率を推定するために、ルックアップテーブルに基づく放射光伝達シミュレーションを用いる。 修正表面反射率データはその後、教師付きおよび半教師付きセグメンテーションモデルで使用され、特に疎ラベルデータを用いた場合、多クラス(建物、道路、木、水域)のLULCセグメンテーション精度の安定性を実証した。

The integration of fine-scale multispectral imagery with deep learning models has revolutionized land use and land cover (LULC) classification. However, the atmospheric effects present in Top-of-Atmosphere sensor measured Digital Number values must be corrected to retrieve accurate Bottom-of-Atmosphere surface reflectance for reliable analysis. This study employs look-up-table-based radiative transfer simulations to estimate the atmospheric path reflectance and transmittance for atmospherically correcting high-resolution CARTOSAT-3 Multispectral (MX) imagery for several Indian cities. The corrected surface reflectance data were subsequently used in supervised and semi-supervised segmentation models, demonstrating stability in multi-class (buildings, roads, trees and water bodies) LULC segmentation accuracy, particularly in scenarios with sparsely labelled data.
翻訳日:2024-09-10 15:00:05 公開日:2024-09-09
# 機械学習による灯台光センサの故障検出

Using machine learning for fault detection in lighthouse light sensors ( http://arxiv.org/abs/2409.05495v1 )

ライセンス: Link先を確認
Michael Kampouridis, Nikolaos Vastardis, George Rayment, (参考訳) 灯台は、危険な海岸線、浅瀬、サンゴ礁、岩などの危険な地域や、港の入り口や航空航行を知らせることによって、海洋の安全を確保する上で重要な役割を担っている。 これは、日時に基づいて活性化または不活性化するフォトレジストレータセンサーを使用することによって達成される。 しかし、重要な問題はこれらのセンサーの潜在的な機能不全であり、光の動作タイミングが徐々にずれることになる。 本稿では,このような異常を自動的に検出する,革新的な機械学習手法を提案する。 決定木,無作為林,極勾配促進,多層パーセプトロンの4つの異なるアルゴリズムを評価した。 以上の結果より, 多層パーセプトロンが最も有効であり, 10~15分以内の時間差を検出できることが示唆された。 この精度は、灯台光センサーの欠陥検出を自動化するための非常に効率的なツールとなる。

Lighthouses play a crucial role in ensuring maritime safety by signaling hazardous areas such as dangerous coastlines, shoals, reefs, and rocks, along with aiding harbor entries and aerial navigation. This is achieved through the use of photoresistor sensors that activate or deactivate based on the time of day. However, a significant issue is the potential malfunction of these sensors, leading to the gradual misalignment of the light's operational timing. This paper introduces an innovative machine learning-based approach for automatically detecting such malfunctions. We evaluate four distinct algorithms: decision trees, random forest, extreme gradient boosting, and multi-layer perceptron. Our findings indicate that the multi-layer perceptron is the most effective, capable of detecting timing discrepancies as small as 10-15 minutes. This accuracy makes it a highly efficient tool for automating the detection of faults in lighthouse light sensors.
翻訳日:2024-09-10 15:00:05 公開日:2024-09-09
# スケーラブルで効率的な時系列因果発見のためのVarLiNGAMの最適化

Optimizing VarLiNGAM for Scalable and Efficient Time Series Causal Discovery ( http://arxiv.org/abs/2409.05500v1 )

ライセンス: Link先を確認
Ziyang Jiao, Ce Guo, Wayne Luk, (参考訳) 因果発見は、時系列データにベクトル自己回帰モデルと線形非ガウス非巡回モデルを組み合わせたVarLiNGAMのような従来の手法の計算要求により、ますます複雑になっているデータ内の因果関係を特定するように設計されている。 本研究は,時系列データに特化して因果発見を最適化することを目的としている。 時系列因果発見は、時間的依存と潜在的な時間ラグの影響を考慮する必要があるため、特に困難である。 特殊化されたデータセット生成器を設計し、VarLiNGAMモデルの計算複雑性を \(O(m^3 \cdot n) \) から \(O(m^3 + m^2 \cdot n) \) に低減することにより、大規模なデータセット処理の実現可能性を大幅に改善する。 提案手法は、高度な計算プラットフォーム上で検証され、シミュレーション、実世界、大規模データセット間でテストされ、効率と性能が向上したことを示す。 最適化されたアルゴリズムは、元のアルゴリズムと比較して7倍から13倍のスピードアップを達成した。 我々の手法は、現在の因果発見能力の境界を押し上げ、より堅牢でスケーラブルで、現実のシナリオに適用できるようにし、医療や金融といった様々な分野におけるブレークスルーを促進することを目的としている。

Causal discovery is designed to identify causal relationships in data, a task that has become increasingly complex due to the computational demands of traditional methods such as VarLiNGAM, which combines Vector Autoregressive Model with Linear Non-Gaussian Acyclic Model for time series data. This study is dedicated to optimising causal discovery specifically for time series data, which is common in practical applications. Time series causal discovery is particularly challenging due to the need to account for temporal dependencies and potential time lag effects. By designing a specialised dataset generator and reducing the computational complexity of the VarLiNGAM model from \( O(m^3 \cdot n) \) to \( O(m^3 + m^2 \cdot n) \), this study significantly improves the feasibility of processing large datasets. The proposed methods have been validated on advanced computational platforms and tested across simulated, real-world, and large-scale datasets, showcasing enhanced efficiency and performance. The optimised algorithm achieved 7 to 13 times speedup compared with the original algorithm and around 4.5 times speedup compared with the GPU-accelerated version on large-scale datasets with feature sizes between 200 and 400. Our methods aim to push the boundaries of current causal discovery capabilities, making them more robust, scalable, and applicable to real-world scenarios, thus facilitating breakthroughs in various fields such as healthcare and finance.
翻訳日:2024-09-10 15:00:05 公開日:2024-09-09
# 有機色中心からの室温自己キャビティラシング

Room-temperature self-cavity lasing from organic color centers ( http://arxiv.org/abs/2409.05504v1 )

ライセンス: Link先を確認
Minna Zhang, Hao Wu, Xuri Yao, Jiyang Ma, Mark Oxborrow, Qing Zhao, (参考訳) 結晶の点欠陥である色中心は、ホスト材料の光学特性を変化させる上で重要な役割を担い、量子情報処理の分野で広く応用できる。 最先端のカラーセンターの大半は無機であるが、難易度の高い素材準備や利用可能なセンターの不足といった制限がある。 対照的に、有機色中心は、準備の容易さと調整可能な機能のために近年注目を集めている。 ここでは、通常マイクロ波量子エレクトロニクスに使用される有機色中心系であるペンタセンドープp-テルフェニル(Pc:Ptp)が室温での自己キャビティレーザー放射能を初めて実証した。 レーザー放出は、強い偏光と高い異方性によって特徴づけられ、結晶内の色中心分子のユニークなパッキングに起因する。 光コヒーレンス(光コヒーレンス)は、増幅された自然発光(ASE)の過程を識別し、Pc:Ptpで溶出する効果の指標である。 この研究は、光物質相互作用のためのコンパクトで効率的なプラットフォームとしてのPc:Ptpの可能性を強調し、この有機色中心系に基づく固体量子デバイスの性能を高めるための重要な約束を提供する。

Color centers, which are point defects in crystals, play a crucial role in altering the optical properties of their host materials, enabling widespread applications in the field of quantum information processing. While the majority of the state-of-the-art color centers are inorganic, they come with limitations such as the challenging material preparations and insufficient amount of available centers. In contrast, organic color centers have recently gained attention due to their ease of preparations and tailorable functionalities. Here, pentacene-doped p-terphenyl (Pc:Ptp), an organic color-center system normally used for microwave quantum electronics, is demonstrated for the first time its ability of self-cavity laser emission at room temperature. The laser emission is characterized by strong polarization and high anisotropy, attributed to the unique packing of the color-center molecules within the crystal. The optical coherence is found to be a figure of merit to distinguish the processes of the amplified spontaneous emission (ASE) and lasing in Pc:Ptp. This work highlights the potential of Pc:Ptp as a compact and efficient platform for light-matter interactions , offering significant promise for enhancing the performance of solid-state quantum devices based on this organic color-center system.
翻訳日:2024-09-10 15:00:05 公開日:2024-09-09
# 複合空間領域における時空間予測学習のための一般低次ニューラル演算子

A general reduced-order neural operator for spatio-temporal predictive learning on complex spatial domains ( http://arxiv.org/abs/2409.05508v1 )

ライセンス: Link先を確認
Qinglu Meng, Yingguang Li, Zhiliang Deng, Xu Liu, Gengxiang Chen, Qiutong Wu, Changqing Liu, Xiaozhong Hao, (参考訳) 複素空間領域上の時空間過程(PL-STP)の予測学習は、様々な科学・工学分野において重要な役割を果たす。 本稿では,PL-STPにおける不等ドメインマッピングに着目し,それらを増加ドメインと減少ドメインマッピングに分類する。 近年のディープラーニングの進歩は、観測データから直接演算子を学習する神経演算子(NO)の大きな可能性を明らかにしている。 しかし、既存のNOは入力空間と出力空間を同じ領域とする必要があり、不等領域写像の予測精度と安定性を確保することが課題となる。 そこで本研究では,Riemannian Manifolds (RO-NORM) 上に,不等領域エンコーダ/デコーダ(unqual- domain encoder/decoder)と同一領域近似器(on- domain approximator)という2つの部分からなる一般低次ニューラル演算子について述べる。 古典的モード分解における変数分離によって動機づけられた不等領域エンコーダ/デコーダは、空間的(または時間的)基底と対応する時間的(または空間的に)分散な重み関数の間の積の和として時空間関数を再構成するために、事前計算された基底を用いて、元の不等領域マッピングを同じドメインマッピングに変換することができる。 これにより、変換されたマッピングをモデル化するために、同じドメイン近似子NORMが適用される。 提案手法の性能は, パラメトリックPDE, エンジニアリング, バイオメディカルアプリケーションを含む6つのベンチマークケースで評価され, ベースラインアルゴリズムであるDeepONet, POD-DeepONet, PCA-Net, バニラNORMと比較された。 実験により, PL-STPの予測精度およびトレーニング効率において, RO-NORMの優位性が示された。

Predictive learning for spatio-temporal processes (PL-STP) on complex spatial domains plays a critical role in various scientific and engineering fields, with its essence being the construction of operators between infinite-dimensional function spaces. This paper focuses on the unequal-domain mappings in PL-STP and categorising them into increase-domain and decrease-domain mapping. Recent advances in deep learning have revealed the great potential of neural operators (NOs) to learn operators directly from observational data. However, existing NOs require input space and output space to be the same domain, which pose challenges in ensuring predictive accuracy and stability for unequal-domain mappings. To this end, this study presents a general reduced-order neural operator named Reduced-Order Neural Operator on Riemannian Manifolds (RO-NORM), which consists of two parts: the unequal-domain encoder/decoder and the same-domain approximator. Motivated by the variable separation in classical modal decomposition, the unequal-domain encoder/decoder uses the pre-computed bases to reformulate the spatio-temporal function as a sum of products between spatial (or temporal) bases and corresponding temporally (or spatially) distributed weight functions, thus the original unequal-domain mapping can be converted into a same-domain mapping. Consequently, the same-domain approximator NORM is applied to model the transformed mapping. The performance of our proposed method has been evaluated on six benchmark cases, including parametric PDEs, engineering and biomedical applications, and compared with four baseline algorithms: DeepONet, POD-DeepONet, PCA-Net, and vanilla NORM. The experimental results demonstrate the superiority of RO-NORM in prediction accuracy and training efficiency for PL-STP.
翻訳日:2024-09-10 15:00:05 公開日:2024-09-09
# 補間・補間・補間・補間:新しい次元への一般化

Interpolation, Extrapolation, Hyperpolation: Generalising into new dimensions ( http://arxiv.org/abs/2409.05513v1 )

ライセンス: Link先を確認
Toby Ord, (参考訳) 本稿では、補間と外挿というより馴染み深い概念に匹敵する、限られたデータポイントから一般化する方法であるハイパーポーリングの概念を紹介する。 ハイパーポーレーション(英: Hyperpolation)とは、既存のデータの部分空間(または多様体)の外側にある新しい位置における関数の値を推定するタスクである。 ハイパーポーレーションは可能であり、芸術や科学における創造性との関係を探求する。 また、機械学習におけるハイパーポーラレーションの役割についても検討し、現在のAIシステムにおける基本的な創造性の欠如が、ハイパーポーラレーションの限られた能力と深く結びついていることを示唆する。

This paper introduces the concept of hyperpolation: a way of generalising from a limited set of data points that is a peer to the more familiar concepts of interpolation and extrapolation. Hyperpolation is the task of estimating the value of a function at new locations that lie outside the subspace (or manifold) of the existing data. We shall see that hyperpolation is possible and explore its links to creativity in the arts and sciences. We will also examine the role of hyperpolation in machine learning and suggest that the lack of fundamental creativity in current AI systems is deeply connected to their limited ability to hyperpolate.
翻訳日:2024-09-10 15:00:05 公開日:2024-09-09
# 積分可能性の指標としての実験における時間的絡み合いの測定

Measuring temporal entanglement in experiments as a hallmark for integrability ( http://arxiv.org/abs/2409.05517v1 )

ライセンス: Link先を確認
Aleix Bou-Comas, Carlos Ramos Marimón, Jan T. Schneider, Stefano Carignano, Luca Tagliacozzo, (参考訳) 一般化時間エントロピーを測定するプロトコルを開発することにより,多体量子系を探索する新しい実験手法を提案する。 我々は、最近提案された一般化時間エントロピー(Phys. Rev. Research 6, 033021)が、局所演算子をプローブとして、二重クエンチプロトコルによって誘導される複製系の平衡外ダイナミクスを観測するために等価であることを示した。 この等価性は、一次元系に対する最先端テンソルネットワークシミュレーションによって確認され、一般化された時間エントロピーを実験的に測定できる可能性を検証する。 この結果から, 横場イジングモデルが支配する力学は, 可積分ハミルトニアンと, 追加の平行場を持つ同一モデルによって駆動される力学と質的に異なることが明らかとなった。 したがって、一般化された時間エントロピーは、異なる動的クラスを識別するためのツールとして役立つことを示唆している。 この研究は、一次元多体量子系における一般化時間エントロピー特性の最初の実用的応用であり、積分性を実験的に検出するための新しい経路を提供する。 我々は、このプロトコルを実装するための実験的な要件を、最先端の量子シミュレーターで概説する。

We introduce a novel experimental approach to probe many-body quantum systems by developing a protocol to measure generalized temporal entropies. We demonstrate that the recently proposed generalized temporal entropies [Phys. Rev. Research 6, 033021] are equivalent to observing the out-of-equilibrium dynamics of a replicated system induced by a double quench protocol using local operators as probes. This equivalence, confirmed through state-of-the-art tensor network simulations for one-dimensional systems, validates the feasibility of measuring generalized temporal entropies experimentally. Our results reveal that the dynamics governed by the transverse field Ising model integrable Hamiltonian differ qualitatively from those driven by the same model with an additional parallel field, breaking integrability. They thus suggest that generalized temporal entropies can serve as a tool for identifying different dynamical classes. This work represents the first practical application of generalized temporal entropy characterization in one-dimensional many-body quantum systems and offers a new pathway for experimentally detecting integrability. We conclude by outlining the experimental requirements for implementing this protocol with state of the art quantum simulators.
翻訳日:2024-09-10 15:00:05 公開日:2024-09-09
# 大規模言語モデルにおける調和推論

Harmonic Reasoning in Large Language Models ( http://arxiv.org/abs/2409.05521v1 )

ライセンス: Link先を確認
Anna Kruspe, (参考訳) 大規模言語モデル(LLM)は非常に人気があり、芸術における創造的なタスクを含む様々な目的に使われている。 しかしながら、これらのモデルは特定の推論タスク、特に論理的思考や数え上げに関わるタスクに支障をきたすことがある。 本稿では,LLMが音符を間隔から抽出し,和音や音階を識別するなど,音楽的タスクの理解と理性について考察する。 GPT-3.5 および GPT-4o を用いて,これらのタスクの処理方法について検討した。 以上の結果から,LLMは音節間隔でうまく機能するが,和音や音階の認識など,より複雑な作業に苦慮していることが明らかとなった。 このことは、現在のLLM能力の明確な限界を指摘し、それらをより良くする必要があるかを示し、芸術的および他の複雑な領域での考え方や働き方を改善するのに役立ちます。 また、記述されたタスクのベンチマークデータセットを自動生成する。

Large Language Models (LLMs) are becoming very popular and are used for many different purposes, including creative tasks in the arts. However, these models sometimes have trouble with specific reasoning tasks, especially those that involve logical thinking and counting. This paper looks at how well LLMs understand and reason when dealing with musical tasks like figuring out notes from intervals and identifying chords and scales. We tested GPT-3.5 and GPT-4o to see how they handle these tasks. Our results show that while LLMs do well with note intervals, they struggle with more complicated tasks like recognizing chords and scales. This points out clear limits in current LLM abilities and shows where we need to make them better, which could help improve how they think and work in both artistic and other complex areas. We also provide an automatically generated benchmark data set for the described tasks.
翻訳日:2024-09-10 15:00:05 公開日:2024-09-09
# 2次非制約二元最適化を用いた議論問題の符号化

An encoding of argumentation problems using quadratic unconstrained binary optimization ( http://arxiv.org/abs/2409.05524v1 )

ライセンス: Link先を確認
Marco Baioletti, Francesco Santini, (参考訳) 本稿では,NP-Compe問題から準拘束的二項最適化(QUBO)問題への抽象論法を符号化する手法を開発する。 この形式では、QUBO問題の解は二乗変数 (0/1) 上の二次函数を最小化することを含み、そこで係数は対称二乗行列(あるいは同値な上三角版)で表される。 QUBOの定式化により、QuantumやDigital Annealersといった新しいコンピューティングアーキテクチャを活用することができる。 より伝統的なアプローチは近似解法の開発から成り、この場合、本質的な複雑性に対処するために用いられる。 論証や議論の実施における古典的問題の正しさと適用性を証明するために,実験を行った。 実験中,本手法を文献の他の2つの近似解法と比較した。 最後の実験では、ローカルマシン上でSimulated Annealingアルゴリズムを使用した。 また、D-Wave Ocean SDKとLeap Quantum Cloud ServiceからQuantum Annealerをテストしました。

In this paper, we develop a way to encode several NP-Complete problems in Abstract Argumentation to Quadratic Unconstrained Binary Optimization (QUBO) problems. In this form, a solution for a QUBO problem involves minimizing a quadratic function over binary variables (0/1), where the coefficients can be represented by a symmetric square matrix (or an equivalent upper triangular version). With the QUBO formulation, exploiting new computing architectures, such as Quantum and Digital Annealers, is possible. A more conventional approach consists of developing approximate solvers, which, in this case, are used to tackle the intrinsic complexity. We performed tests to prove the correctness and applicability of classical problems in Argumentation and enforcement of argument sets. We compared our approach to two other approximate solvers in the literature during tests. In the final experimentation, we used a Simulated Annealing algorithm on a local machine. Also, we tested a Quantum Annealer from the D-Wave Ocean SDK and the Leap Quantum Cloud Service.
翻訳日:2024-09-10 15:00:05 公開日:2024-09-09
# QiBERT -- BERTを特徴とするオンライン会話メッセージの分類

QiBERT -- Classifying Online Conversations Messages with BERT as a Feature ( http://arxiv.org/abs/2409.05530v1 )

ライセンス: Link先を確認
Bruno D. Ferreira-Saraiva, Zuil Pirola, João P. Matos-Carvalho, Manuel Marques-Pita, (参考訳) 近年のオンラインコミュニケーションの進展と日常生活における利用状況は,新たなテキストデータ,短いテキストのジャンルの爆発的な増加を引き起こしている。 したがって、このタイプのテキストをその内容に基づいて分類する必要性は、多くの分野において重要な意味を持つ。 オンライン討論は例外ではなく、ユーザーが意見や位置、好みなどの情報にアクセスできるようになる。 本稿では,ポルトガルの学校(短文)におけるオンライン社会会話から得られたデータを用いて,行動傾向を観察し,学生が刺激を受けた場合の議論に関わり続けるかどうかを確認することを目的とする。 このプロジェクトでは、BERTベースのモデルを通じて、最先端(SoA)機械学習(ML)アルゴリズムとメソッドを使用して、発話が議論の対象の内外かどうかを分類する。 SBERT埋め込みを特徴として、教師付き学習を用いて、オンラインメッセージの分類における平均精度0.95を超える結果を得た。 このような改善は、社会科学者が人間のコミュニケーション、行動、議論、説得をよりよく理解するのに役立ちます。

Recent developments in online communication and their usage in everyday life have caused an explosion in the amount of a new genre of text data, short text. Thus, the need to classify this type of text based on its content has a significant implication in many areas. Online debates are no exception, once these provide access to information about opinions, positions and preferences of its users. This paper aims to use data obtained from online social conversations in Portuguese schools (short text) to observe behavioural trends and to see if students remain engaged in the discussion when stimulated. This project used the state of the art (SoA) Machine Learning (ML) algorithms and methods, through BERT based models to classify if utterances are in or out of the debate subject. Using SBERT embeddings as a feature, with supervised learning, the proposed model achieved results above 0.95 average accuracy for classifying online messages. Such improvements can help social scientists better understand human communication, behaviour, discussion and persuasion.
翻訳日:2024-09-10 15:00:05 公開日:2024-09-09
# HMAFlow:階層運動場アライメントによるより正確な光学流れの学習

HMAFlow: Learning More Accurate Optical Flow via Hierarchical Motion Field Alignment ( http://arxiv.org/abs/2409.05531v1 )

ライセンス: Link先を確認
Dianbo Ma, Kousuke Imamura, Ziyan Gao, Xiangjie Wang, Satoshi Yamane, (参考訳) 光フロー推定は、基本的で長期にわたる視覚的タスクである。 本研究では,これらの難易度,特に小物体の光学的フロー推定を改善するために,HMAFlowと呼ばれる新しい手法を提案する。 提案モデルは主に,階層型運動場アライメント(HMA)モジュールと相関自己認識(CSA)モジュールの2つのコアコンポーネントから構成される。 さらに,Multi-Scale correlation Search (MCS) レイヤを用いて4次元コストボリュームを再構築し,共通コストボリュームにおける平均プールを複数の検索範囲を用いた検索戦略に置き換える。 実験により,本モデルが他の最先端手法と比較して最高の一般化性能を達成できることが実証された。 具体的には、RAFTと比較して、Sintelオンラインベンチマークのクリーンパスとファイナルパスにおいて、相対誤差の14.2%と3.4%の削減を実現している。 KITTIテストベンチマークでは、HMAFlowがRAFTとGMAをそれぞれ6.8%と7.7%で上回っている。 将来の調査を容易にするため、私たちのコードはhttps://github.com/BooTurbo/HMAFlow.comで公開されます。

Optical flow estimation is a fundamental and long-standing visual task. In this work, we present a novel method, dubbed HMAFlow, to improve optical flow estimation in these tough scenes, especially with small objects. The proposed model mainly consists of two core components: a Hierarchical Motion Field Alignment (HMA) module and a Correlation Self-Attention (CSA) module. In addition, we rebuild 4D cost volumes by employing a Multi-Scale Correlation Search (MCS) layer and replacing average pooling in common cost volumes with an search strategy using multiple search ranges. Experimental results demonstrate that our model achieves the best generalization performance in comparison to other state-of-the-art methods. Specifically, compared with RAFT, our method achieves relative error reductions of 14.2% and 3.4% on the clean pass and final pass of the Sintel online benchmark, respectively. On the KITTI test benchmark, HMAFlow surpasses RAFT and GMA in the Fl-all metric by a relative margin of 6.8% and 7.7%, respectively. To facilitate future research, our code will be made available at https://github.com/BooTurbo/HMAFlow.
翻訳日:2024-09-10 14:50:09 公開日:2024-09-09
# CoBo: 双方向最適化による協調学習

CoBo: Collaborative Learning via Bilevel Optimization ( http://arxiv.org/abs/2409.05539v1 )

ライセンス: Link先を確認
Diba Hashemi, Lie He, Martin Jaggi, (参考訳) 協調学習は、複数のクライアント間のコミュニケーションを有効にすることで、複数のクライアントをより効果的に訓練するための重要なツールである。 しかし、役に立つクライアントを特定することは困難であり、しばしば大きなオーバーヘッドをもたらす。 本稿では,2つの相互接続最適化問題として,クライアント選択とモデル学習をモデル化し,協調学習のための新しい二段階最適化問題を提案する。 本稿では,これらの問題を理論的収束保証で効率的に処理する,スケーラブルで柔軟なSGD型交互最適化アルゴリズムであるCoBoを紹介する。 実証的には、CoBoは、80のクライアントに分散したデータセットを含む、高い不均一性のあるタスクにおいて、一般的なパーソナライズアルゴリズムを9.3%の精度で上回り、優れたパフォーマンスを実現している。

Collaborative learning is an important tool to train multiple clients more effectively by enabling communication among clients. Identifying helpful clients, however, presents challenging and often introduces significant overhead. In this paper, we model client-selection and model-training as two interconnected optimization problems, proposing a novel bilevel optimization problem for collaborative learning. We introduce CoBo, a scalable and elastic, SGD-type alternating optimization algorithm that efficiently addresses these problem with theoretical convergence guarantees. Empirically, CoBo achieves superior performance, surpassing popular personalization algorithms by 9.3% in accuracy on a task with high heterogeneity, involving datasets distributed among 80 clients.
翻訳日:2024-09-10 14:50:09 公開日:2024-09-09
# 野生における画像品質評価のためのリッチな主観的品質情報探索

Exploring Rich Subjective Quality Information for Image Quality Assessment in the Wild ( http://arxiv.org/abs/2409.05540v1 )

ライセンス: Link先を確認
Xiongkuo Min, Yixuan Gao, Yuqin Cao, Guangtao Zhai, Wenjun Zhang, Huifang Sun, Chang Wen Chen, (参考訳) ワイルドイメージ品質評価(IQA)モデルでは、一般的に平均世論スコア(MOS)の品質ラベルでトレーニングされるが、品質評価に含まれる主観的品質情報(例えば、意見スコア(SOS)の標準偏差や、世論スコア(DOS)の分布など)は欠落している。 本稿では,リッチIQAと呼ばれる新しいIQA手法を提案し,MOSを超えるリッチな主観的評価情報を探索し,野生における画像品質を予測する。 RichIQAは、(1)畳み込み視覚変換器(CvT)の強力な特徴表現能力を活用し、ヒト脳の短期記憶機構を模倣する3段階画像品質予測ネットワーク、(2)MOS、SOS、DOSなどの主観的品質情報を併用して品質予測ネットワークを訓練する多ラベルトレーニング戦略である。 この2つの新しい設計により、RichIQAは分布の観点から画像品質を予測することができ、そこから平均画像品質を得ることができる。 総合的な実験結果から,3段階ネットワークは,主観的品質評価におけるポテンシャルを十分に活用し,ネットワークの予測性能と一般化性を高めるとともに,リッチな品質情報を予測するように調整されていることが確認された。 RichIQAは、リッチな主観的評価ラベルを持つ複数の大規模IQAデータベースにおいて、最先端の競合より優れている。 RichIQAのコードはGitHubで公開されている。

Traditional in the wild image quality assessment (IQA) models are generally trained with the quality labels of mean opinion score (MOS), while missing the rich subjective quality information contained in the quality ratings, for example, the standard deviation of opinion scores (SOS) or even distribution of opinion scores (DOS). In this paper, we propose a novel IQA method named RichIQA to explore the rich subjective rating information beyond MOS to predict image quality in the wild. RichIQA is characterized by two key novel designs: (1) a three-stage image quality prediction network which exploits the powerful feature representation capability of the Convolutional vision Transformer (CvT) and mimics the short-term and long-term memory mechanisms of human brain; (2) a multi-label training strategy in which rich subjective quality information like MOS, SOS and DOS are concurrently used to train the quality prediction network. Powered by these two novel designs, RichIQA is able to predict the image quality in terms of a distribution, from which the mean image quality can be subsequently obtained. Extensive experimental results verify that the three-stage network is tailored to predict rich quality information, while the multi-label training strategy can fully exploit the potentials within subjective quality rating and enhance the prediction performance and generalizability of the network. RichIQA outperforms state-of-the-art competitors on multiple large-scale in the wild IQA databases with rich subjective rating labels. The code of RichIQA will be made publicly available on GitHub.
翻訳日:2024-09-10 14:50:09 公開日:2024-09-09
# 量子アニーリングと古典的解法:最適化問題の応用、課題、限界

Quantum annealing versus classical solvers: Applications, challenges and limitations for optimisation problems ( http://arxiv.org/abs/2409.05542v1 )

ライセンス: Link先を確認
Finley Alexander Quinton, Per Arne Sevle Myhr, Mostafa Barani, Pedro Crespo del Granado, Hongyu Zhang, (参考訳) 量子コンピューティングは急速に進歩しており、古典システムに対する計算上の優位性のために量子ビットの重ね合わせと絡み合いの力を活用している。 しかし、スケーラビリティはこれらのマシンにとって大きな課題となる。 古典的および量子コンピューティングインスタンス間のハイブリッドワークフローを実装することで、D-Waveはこの境界を産業利用の領域に押し上げることに成功した。 さらに、最近、混合整数線形プログラミング(MILP)問題に開かれ、最適化分野における多くの関連する問題に適用可能となった。 しかし、様々な問題カテゴリに適合する範囲と計算上の優位性はいまだ不明である。 本研究は,CPLEX,Gurobi, IPOPTなどの業界主導の問題解決者に対して,D-Waveのハイブリッド・ソルバの性能をベンチマークするために,多種多様なケーススタディを適用して総合的な検証を行う。 この結果は、D-Waveのハイブリッドソルバが、現在整数二次目的関数に対して最も有利であり、二次的制約の可能性を示していることを示唆している。 これを説明するために,実世界のエネルギー問題,特にMILP単位コミットメント問題に適用した。 D-Waveはそのような問題を解決することができるが、その性能は従来のものとはまだ一致していない。

Quantum computing is rapidly advancing, harnessing the power of qubits' superposition and entanglement for computational advantages over classical systems. However, scalability poses a primary challenge for these machines. By implementing a hybrid workflow between classical and quantum computing instances, D-Wave has succeeded in pushing this boundary to the realm of industrial use. Furthermore, they have recently opened up to mixed integer linear programming (MILP) problems, expanding their applicability to many relevant problems in the field of optimisation. However, the extent of their suitability for diverse problem categories and their computational advantages remains unclear. This study conducts a comprehensive examination by applying a selection of diverse case studies to benchmark the performance of D-Wave's hybrid solver against that of industry-leading solvers such as CPLEX, Gurobi, and IPOPT. The findings indicate that D-Wave's hybrid solver is currently most advantageous for integer quadratic objective functions and shows potential for quadratic constraints. To illustrate this, we applied it to a real-world energy problem, specifically the MILP unit commitment problem. While D-Wave can solve such problems, its performance has not yet matched that of its classical counterparts.
翻訳日:2024-09-10 14:50:09 公開日:2024-09-09
# 真のランダムビットストリームの効率的な品質推定

Efficient Quality Estimation of True Random Bit-streams ( http://arxiv.org/abs/2409.05543v1 )

ライセンス: Link先を確認
Cesare Caratozzolo, Valeria Rossi, Kamil Witek, Alberto Trombetta, Massimo Caccia, (参考訳) ランダムなビットストリームの生成は、様々なアプリケーション、特にサイバーセキュリティにおいて必要である。 予測可能性やシステムの妥協に伴うリスクを軽減するためには、高品質で堅牢なランダム性の確保が不可欠である。 真の乱数が最も予測不能なレベルを提供する。 しかし、乱数生成のために悪用されたプロセスの潜在的なバイアスを注意深く監視する必要がある。 本稿では,真のランダムビットストリームにおける異常検出のためのオンライン手順の実装とその特徴について報告する。 NIST Adaptive Proportion and Repetition Count testは、モノビットとRUNSに依存する統計分析によって補完される。 この手順は、ビットストリーム生成と同時に実装され、実行され、ソースのエントロピーの見積も提供される。 このアプローチの実験的検証は、量子シリコンベースのエントロピー源によって生成されたビットストリーム上で実行される。

Generating random bit streams is required in various applications, most notably cyber-security. Ensuring high-quality and robust randomness is crucial to mitigate risks associated with predictability and system compromise. True random numbers provide the highest unpredictability levels. However, potential biases in the processes exploited for the random number generation must be carefully monitored. This paper reports the implementation and characterization of an on-line procedure for the detection of anomalies in a true random bit stream. It is based on the NIST Adaptive Proportion and Repetition Count tests, complemented by statistical analysis relying on the Monobit and RUNS. The procedure is firmware implemented and performed simultaneously with the bit stream generation, and providing as well an estimate of the entropy of the source. The experimental validation of the approach is performed upon the bit streams generated by a quantum, silicon-based entropy source.
翻訳日:2024-09-10 14:50:09 公開日:2024-09-09
# 量子アルゴリズムによる多次元電子分光における非マルコフダイナミクスのシミュレーション

Simulating Non-Markovian Dynamics in Multidimensional Electronic Spectroscopy via Quantum Algorithm ( http://arxiv.org/abs/2409.05548v1 )

ライセンス: Link先を確認
Federico Gallina, Matteo Bruschi, Roberto Cacciari, Barbara Fresch, (参考訳) 時間分解電子分光の数値モデリングにおける分子環境の影響を含むことは、計算分光において重要な課題である。 本稿では, 構造化環境下でのマルチクロモフォア系の光応答のシミュレーションとその量子アルゴリズムとしての実装について述べる。 手続きの重要なステップは、マルコフの量子マスター方程式に従って進化する有限個の量子状態をもたらすシステム環境問題の擬モード埋め込みである。 この定式化は、線形および非線形応答関数をシミュレートするために設計された量子アルゴリズムに統合された衝突モデルによって解決される。 ワークフローは、高速(メモリレス)および有限メモリ環境と相互作用する原型励起ダイマーのスペクトルをシミュレートすることによって検証される。 その結果, 非線形分光の動的特性をシミュレーションするための擬モード埋め込みの可能性が示され, 線形形状, スペクトル拡散, 遅延時間に沿った緩和が示された。 一方、量子回路の明示的な合成は、将来のフォールトトレラント量子コンピュータによって約束される多体ダイナミクスの効率的な量子シミュレーションを利用する非線形分光の完全な量子シミュレーションプロトコルを提供する。

Including the effect of the molecular environment in the numerical modeling of time-resolved electronic spectroscopy remains an important challenge in computational spectroscopy. In this contribution, we present a general approach for the simulation of the optical response of multi-chromophore systems in a structured environment and its implementation as a quantum algorithm. A key step of the procedure is the pseudomode embedding of the system-environment problem resulting in a finite set of quantum states evolving according to a Markovian quantum master equation. This formulation is then solved by a collision model integrated into a quantum algorithm designed to simulate linear and nonlinear response functions. The workflow is validated by simulating spectra for the prototypical excitonic dimer interacting with fast (memoryless) and finite-memory environments. The results demonstrate, on the one hand, the potential of the pseudomode embedding for simulating the dynamical features of nonlinear spectroscopy, including lineshape, spectral diffusion, and relaxations along delay times. On the other hand, the explicit synthesis of quantum circuits provides a fully quantum simulation protocol of nonlinear spectroscopy harnessing the efficient quantum simulation of many-body dynamics promised by the future generation of fault-tolerant quantum computers.
翻訳日:2024-09-10 14:50:09 公開日:2024-09-09
# 信じているか? 視覚摂動を用いた視覚言語ナビゲーションの強化

Seeing is Believing? Enhancing Vision-Language Navigation using Visual Perturbations ( http://arxiv.org/abs/2409.05552v1 )

ライセンス: Link先を確認
Xuesong Zhang, Jia Li, Yunbo Xu, Zhenzhen Hu, Richang Hong, (参考訳) 自然言語の指示で案内されるエンボディエージェントの自律ナビゲーションは、視覚・言語ナビゲーション(VLN)において深刻な課題である。 微粒で多次元的な視覚表現の学習が顕著に進んでいるにもかかわらず、トレーニング環境に過度に適合する傾向は、満足のいく一般化性能をもたらす。 本研究では,多様な視覚的入力の探索と活用を目的とした多機能マルチブランチアーキテクチャ(MBA)を提案する。 具体的には,地中深度画像,非連続的な視野と統合された視覚入力,およびランダムノイズに注入された視覚入力表現の多様性を増強し,元のRGB観測に過度に適合しないようにする3つの異なる視覚変種を紹介する。 これらの多様な入力を適応的に融合するために、提案したMBAはベースエージェントモデルをマルチブランチ変種に拡張し、各ブランチが異なる視覚的入力を処理する。 驚くべきことに、ランダムノイズでさえ、目に見えない環境でのナビゲーション性能をさらに向上させることができる。 3つのVLNベンチマーク(R2R,REVERIE,SOON)で行った大規模な実験により,提案手法が最先端の結果と等しくなるか,さらに超えた結果が得られた。 ソースコードは公開されます。

Autonomous navigation for an embodied agent guided by natural language instructions remains a formidable challenge in vision-and-language navigation (VLN). Despite remarkable recent progress in learning fine-grained and multifarious visual representations, the tendency to overfit to the training environments leads to unsatisfactory generalization performance. In this work, we present a versatile Multi-Branch Architecture (MBA) aimed at exploring and exploiting diverse visual inputs. Specifically, we introduce three distinct visual variants: ground-truth depth images, visual inputs integrated with incongruent views, and those infused with random noise to enrich the diversity of visual input representation and prevent overfitting to the original RGB observations. To adaptively fuse these varied inputs, the proposed MBA extend a base agent model into a multi-branch variant, where each branch processes a different visual input. Surprisingly, even random noise can further enhance navigation performance in unseen environments. Extensive experiments conducted on three VLN benchmarks (R2R, REVERIE, SOON) demonstrate that our proposed method equals or even surpasses state-of-the-art results. The source code will be publicly available.
翻訳日:2024-09-10 14:50:09 公開日:2024-09-09
# SciAgents:マルチエージェント・インテリジェントグラフ推論による科学的発見の自動化

SciAgents: Automating scientific discovery through multi-agent intelligent graph reasoning ( http://arxiv.org/abs/2409.05556v1 )

ライセンス: Link先を確認
Alireza Ghafarollahi, Markus J. Buehler, (参考訳) 人工知能の鍵となる課題は、新しいドメインを探索し、複雑なパターンを識別し、これまで目に見えなかった膨大な科学的データとのつながりを明らかにすることによって、科学的理解を自律的に進めるシステムを作ることである。 本研究では,(1)多様な科学的概念を整理・相互接続するための大規模存在論的知識グラフの利用,(2)大規模言語モデル(LLM)とデータ検索ツールのスイート,(3)その場学習機能を備えたマルチエージェントシステム,の3つの中核概念を活用するアプローチであるSciAgentsを提案する。 SciAgentsは、生物学的にインスピレーションを受けた物質に適用し、以前は無関係と考えられていた隠された学際的な関係を明らかにし、従来の人間による研究手法を超越したスケール、精度、探索力を達成した。 この枠組みは研究仮説を自律的に生成し、基礎となるメカニズム、設計原則、予期せぬ材料特性を解明する。 これらの機能をモジュール形式で統合することにより、インテリジェントシステムは、物質発見、批判、既存の仮説を改善し、既存の研究に関する最新のデータを取得し、その強みと限界を強調します。 我々のケーススタディでは、生成AI、オントロジ表現、マルチエージェントモデリングを組み合わせたスケーラブルな能力を示し、生物学的システムと同じような「知性の短絡」を活用している。 これにより、材料発見のための新たな道が開かれ、自然のデザイン原則を解き放つことにより、先進的な材料の開発が加速される。

A key challenge in artificial intelligence is the creation of systems capable of autonomously advancing scientific understanding by exploring novel domains, identifying complex patterns, and uncovering previously unseen connections in vast scientific data. In this work, we present SciAgents, an approach that leverages three core concepts: (1) the use of large-scale ontological knowledge graphs to organize and interconnect diverse scientific concepts, (2) a suite of large language models (LLMs) and data retrieval tools, and (3) multi-agent systems with in-situ learning capabilities. Applied to biologically inspired materials, SciAgents reveals hidden interdisciplinary relationships that were previously considered unrelated, achieving a scale, precision, and exploratory power that surpasses traditional human-driven research methods. The framework autonomously generates and refines research hypotheses, elucidating underlying mechanisms, design principles, and unexpected material properties. By integrating these capabilities in a modular fashion, the intelligent system yields material discoveries, critique and improve existing hypotheses, retrieve up-to-date data about existing research, and highlights their strengths and limitations. Our case studies demonstrate scalable capabilities to combine generative AI, ontological representations, and multi-agent modeling, harnessing a `swarm of intelligence' similar to biological systems. This provides new avenues for materials discovery and accelerates the development of advanced materials by unlocking Nature's design principles.
翻訳日:2024-09-10 14:50:09 公開日:2024-09-09
# ニューラルネットワークを用いたマイクロ波空洞におけるシュレーディンガー猫状態の調製

Preparing Schrödinger cat states in a microwave cavity using a neural network ( http://arxiv.org/abs/2409.05557v1 )

ライセンス: Link先を確認
Hector Hutin, Pavlo Bilous, Chengzhi Ye, Sepideh Abdollahi, Loris Cros, Tom Dvir, Tirth Shah, Yonatan Cohen, Audrey Bienfait, Florian Marquardt, Benjamin Huard, (参考訳) 量子コンピューティングデバイスのスケールアップには、より複雑な量子制御タスクの解決が必要である。 機械学習は、結果として生じる課題に取り組むための有望なアプローチとして提案されている。 しかし、まだ実験的な実装は少ない。 本研究では, 量子ビットに分散的に結合したキャビティ内において, ニューラルネットワークによるSchr\"odinger cat状態の調製実験を行った。 量子状態全体に対して最適化された制御パルスを出力するようにニューラルネットワークに教えることが可能であることを示す。 シミュレーションのトレーニングを受けた後、ネットワークはターゲットの量子状態を入力として記述し、異なる状態に対する追加の最適化や再トレーニングを必要とせずに、実験のためのパルス形状を迅速に生成する。 我々の実験結果は、ディープニューラルネットワークとトランスファーラーニングが、様々な量子制御タスクに対して、いかに効率的に同時解を生成できるかをより一般的に示しており、状態準備だけでなく、パラメタライズド量子ゲートにも恩恵をもたらすだろう。

Scaling up quantum computing devices requires solving ever more complex quantum control tasks. Machine learning has been proposed as a promising approach to tackle the resulting challenges. However, experimental implementations are still scarce. In this work, we demonstrate experimentally a neural-network-based preparation of Schr\"odinger cat states in a cavity coupled dispersively to a qubit. We show that it is possible to teach a neural network to output optimized control pulses for a whole family of quantum states. After being trained in simulations, the network takes a description of the target quantum state as input and rapidly produces the pulse shape for the experiment, without any need for time-consuming additional optimization or retraining for different states. Our experimental results demonstrate more generally how deep neural networks and transfer learning can produce efficient simultaneous solutions to a range of quantum control tasks, which will benefit not only state preparation but also parametrized quantum gates.
翻訳日:2024-09-10 14:50:09 公開日:2024-09-09
# マスクを通して見る:CAPTCHAの逆例を再考する

Seeing Through the Mask: Rethinking Adversarial Examples for CAPTCHAs ( http://arxiv.org/abs/2409.05558v1 )

ライセンス: Link先を確認
Yahya Jabary, Andreas Plesner, Turlan Kuzhagaliyev, Roger Wattenhofer, (参考訳) 現代のCAPTCHAはコンピュータにとって難しいが人間にとっては容易なビジョンタスクに大きく依存している。 しかし、画像認識モデルの進歩は、このようなCAPTCHAに重大な脅威をもたらす。 これらのモデルは、よく隠された「ランダム」ノイズを発生させ、画像に追加したり、画像に物体を隠すことで、簡単に騙せることができる。 しかし、これらの手法はモデル固有のため、CAPTCHAが全てのモデルを騙すのに役に立たない。 この研究で我々は、意味情報を保存し、それを人間によって解決できるようにしながら、画像により重要な変更を加えることで、多くの最先端モデルを騙すことができることを示した。 具体的には、様々な強度のマスクを追加することで、すべてのモデルに対して精度@1(Acc@1)が50%以上低下し、視覚変換器のようなロバストなモデルでは80%のAcc@1が低下することを示す。 これらのマスクは現代の画像分類器を効果的に騙すことができるため、機械が人間に追いついていないことを示している。

Modern CAPTCHAs rely heavily on vision tasks that are supposedly hard for computers but easy for humans. However, advances in image recognition models pose a significant threat to such CAPTCHAs. These models can easily be fooled by generating some well-hidden "random" noise and adding it to the image, or hiding objects in the image. However, these methods are model-specific and thus can not aid CAPTCHAs in fooling all models. We show in this work that by allowing for more significant changes to the images while preserving the semantic information and keeping it solvable by humans, we can fool many state-of-the-art models. Specifically, we demonstrate that by adding masks of various intensities the Accuracy @ 1 (Acc@1) drops by more than 50%-points for all models, and supposedly robust models such as vision transformers see an Acc@1 drop of 80%-points. These masks can therefore effectively fool modern image classifiers, thus showing that machines have not caught up with humans -- yet.
翻訳日:2024-09-10 14:50:09 公開日:2024-09-09
# causeJudger: 帰納的論理推論のためのLCMによる原因の特定

CauseJudger: Identifying the Cause with LLMs for Abductive Logical Reasoning ( http://arxiv.org/abs/2409.05559v1 )

ライセンス: Link先を確認
Jinwei He, Feng Lu, (参考訳) 大規模言語モデル(LLM)は、共通感覚、算術、推論タスクを含む様々な推論タスクの解決に利用されてきた。 しかし、思考パターンと無関係な前提の逆転が困難であるため、帰納的論理的推論における原因の真偽をどう判断するかは未解明のままである。 本研究では,人間の思考過程における仮説と検証法および無関係情報の同定から着想を得て,思考を逆から前方へ変換し,無関係情報を除去することにより,可能な原因の真偽を識別する,因果推論(Coudger, CJ)と呼ばれる LLM 帰納的論理的推論のための新たな枠組みを提案する。 さらに,因果論理と呼ばれる決定処理のための帰納的論理推論データセットを構築した。 本実験では, 総合実験とアブレーション実験によるCJの有効性と, データセットのケーススタディ, 公開データセットの再構築について検討した。 特にCJの実装は効率的であり、LLMへの2つの呼び出ししか必要としない。 gpt-3.5を使用する場合、CJはZero-Shot-CoTに比べて最大41%の精度向上を達成する。 さらに、gpt-4では、CJはすべてのデータセットで90%を超える精度を達成している。

Large language models (LLMs) have been utilized in solving diverse reasoning tasks, encompassing common sense, arithmetic and deduction tasks. However, with difficulties of reversing thinking patterns and irrelevant premises, how to determine the authenticity of the cause in abductive logical reasoning remains underexplored. Inspired by hypothesis and verification method and identification of irrelevant information in human thinking process, we propose a new framework for LLMs abductive logical reasoning called CauseJudger (CJ), which identifies the authenticity of possible cause by transforming thinking from reverse to forward and removing irrelevant information. In addition, we construct an abductive logical reasoning dataset for decision task called CauseLogics, which contains 200,000 tasks of varying reasoning lengths. Our experiments show the efficiency of CJ with overall experiments and ablation experiments as well as case studies on our dataset and reconstructed public dataset. Notably, CJ's implementation is efficient, requiring only two calls to LLM. Its impact is profound: when using gpt-3.5, CJ achieves a maximum correctness improvement of 41% compared to Zero-Shot-CoT. Moreover, with gpt-4, CJ attains an accuracy exceeding 90% across all datasets.
翻訳日:2024-09-10 14:50:09 公開日:2024-09-09
# LEROjD:ライダー拡張レーダー専用物体検出

LEROjD: Lidar Extended Radar-Only Object Detection ( http://arxiv.org/abs/2409.05564v1 )

ライセンス: Link先を確認
Patrick Palmer, Martin Krüger, Stefan Schütte, Richard Altendorfer, Ganesh Adam, Torsten Bertram, (参考訳) 正確な3Dオブジェクト検出は、自動走行には不可欠である。 ライダーセンサーはこの作業に適しているが、高価であり、悪天候条件に制限がある。 3+1Dイメージングレーダーセンサーは、低コストで堅牢な代替手段を提供するが、低解像度と高騒音のため課題に直面している。 既存の3+1Dイメージングレーダデータセットには、レーダーとライダーのデータが含まれており、クロスモーダルモデルの改善を可能にしている。 ライダーは推論中に使用するべきではないが、レーダーのみの物体検出器の訓練を支援することができる。 我々は、ライダーからレーダー領域に知識を伝達する2つの戦略と、レーダー専用物体検出器を探索する。 1.シーケンシャルライダーポイント・クラウド・シンアウトによるマルチステージトレーニング 2.クロスモーダルな知識蒸留 マルチステージプロセスでは3つの薄切り法が検討されている。 その結果, 教員の体重を初期化することにより, 多段階訓練による平均精度が4.2ポイント, 知識蒸留による3.9ポイントの有意な成績が得られた。 これらのアプローチの主な利点は、アーキテクチャを変更することなく他の3次元オブジェクト検出ネットワークに適用できることである。 私たちのコードはhttps://github.com/rst-tu-dortmund/lerojdで利用可能です。

Accurate 3D object detection is vital for automated driving. While lidar sensors are well suited for this task, they are expensive and have limitations in adverse weather conditions. 3+1D imaging radar sensors offer a cost-effective, robust alternative but face challenges due to their low resolution and high measurement noise. Existing 3+1D imaging radar datasets include radar and lidar data, enabling cross-modal model improvements. Although lidar should not be used during inference, it can aid the training of radar-only object detectors. We explore two strategies to transfer knowledge from the lidar to the radar domain and radar-only object detectors: 1. multi-stage training with sequential lidar point cloud thin-out, and 2. cross-modal knowledge distillation. In the multi-stage process, three thin-out methods are examined. Our results show significant performance gains of up to 4.2 percentage points in mean Average Precision with multi-stage training and up to 3.9 percentage points with knowledge distillation by initializing the student with the teacher's weights. The main benefit of these approaches is their applicability to other 3D object detection networks without altering their architecture, as we show by analyzing it on two different object detectors. Our code is available at https://github.com/rst-tu-dortmund/lerojd
翻訳日:2024-09-10 14:50:09 公開日:2024-09-09
# Sigmoid および tanh Fuzzy General Grey Cognitive Maps の収束性について

On the Convergence of Sigmoid and tanh Fuzzy General Grey Cognitive Maps ( http://arxiv.org/abs/2409.05565v1 )

ライセンス: Link先を確認
Xudong Gao, Xiao Guang Gao, Jia Rong, Ni Li, Yifeng Niu, Jun Chen, (参考訳) ファジィ・ジェネラル・グレイ・認知マップ(FGGCM)とファジィ・グレイ・認知マップ(FGCM)は不確実性の観点からファジィ・認知マップ(FCM)の拡張である。 FGGCMは、複数の間隔で一般の灰色の数を処理することができ、不確実性に対処することができる。 FGCMとFGCMの収束については、多くの文献で議論されているが、FGGCMの収束については詳しくは議論されていない。 この研究のギャップを埋めることを目的としている。 まず、一般の灰色の数空間とそのベクトル空間の計量をミンコフスキー不等式を用いて与えて証明する。 コーシー列が収束列であるという特徴を利用して、これらの2つの空間の完全性を示す。 この前提で、バナッハの不動点定理とブラウダー=ゴーデ=カークの不動点定理をラグランジュの平均値定理とコーシーの不等式と組み合わせることで、FGGCMがタン関数やシグモノイド函数を活性化関数として用いるとき、一意の不動点に収束するのに十分な条件を導出する。 FGGCMの核とグレーネスが一意の固定点に収束する十分な条件も別々に提供される。 最後に、Web ExperienceとCivil Engineering FCMに基づいて、重みを一般の灰色の数に修正することで、シグモイドとタンを活性化関数として対応するFGGCMを設計した。 FCMとFGCMの収束定理と比較し,本論文で提案した定理の有効性を検証した。 また、FCMの収束定理は、この論文で提案された定理の特別な場合であることを示した。 FGGCMの収束に関する研究は、FGGCMを特定の定点で設計するために必要なFGGCMの学習アルゴリズムを導く上で非常に重要である。

Fuzzy General Grey Cognitive Map (FGGCM) and Fuzzy Grey Cognitive Map (FGCM) are extensions of Fuzzy Cognitive Map (FCM) in terms of uncertainty. FGGCM allows for the processing of general grey number with multiple intervals, enabling FCM to better address uncertain situations. Although the convergence of FCM and FGCM has been discussed in many literature, the convergence of FGGCM has not been thoroughly explored. This paper aims to fill this research gap. First, metrics for the general grey number space and its vector space is given and proved using the Minkowski inequality. By utilizing the characteristic that Cauchy sequences are convergent sequences, the completeness of these two space is demonstrated. On this premise, utilizing Banach fixed point theorem and Browder-Gohde-Kirk fixed point theorem, combined with Lagrange's mean value theorem and Cauchy's inequality, deduces the sufficient conditions for FGGCM to converge to a unique fixed point when using tanh and sigmoid functions as activation functions. The sufficient conditions for the kernels and greyness of FGGCM to converge to a unique fixed point are also provided separately. Finally, based on Web Experience and Civil engineering FCM, designed corresponding FGGCM with sigmoid and tanh as activation functions by modifying the weights to general grey numbers. By comparing with the convergence theorems of FCM and FGCM, the effectiveness of the theorems proposed in this paper was verified. It was also demonstrated that the convergence theorems of FCM are special cases of the theorems proposed in this paper. The study for convergence of FGGCM is of great significance for guiding the learning algorithm of FGGCM, which is needed for designing FGGCM with specific fixed points, lays a solid theoretical foundation for the application of FGGCM in fields such as control, prediction, and decision support systems.
翻訳日:2024-09-10 14:50:09 公開日:2024-09-09
# グラフ構造自己コントラストを用いたMLP上のグラフ構造情報のモデル化

Learning to Model Graph Structural Information on MLPs via Graph Structure Self-Contrasting ( http://arxiv.org/abs/2409.05573v1 )

ライセンス: Link先を確認
Lirong Wu, Haitao Lin, Guojiang Zhao, Cheng Tan, Stan Z. Li, (参考訳) 近年、グラフニューラルネットワーク(GNN)によるグラフ関連タスクの処理で大きな成功を収めている。 しかし、既存のほとんどのGNNはメッセージパッシングに基づいて特徴集約と変換を行い、各層におけるグラフ畳み込みによってノードの特徴と結合することで、構造情報が前方伝播に明示的に関与する。 結果として、微妙な特徴ノイズや構造摂動は、重大なエラー伝播を引き起こし、非常にロバスト性が低下する。 本稿では,グラフデータトレーニングにおける構造情報の役割を再考し,構造情報をモデル化する唯一の方法ではないことを示す。 そこで我々は,グラフ構造情報をメッセージパッシングなしで学習する簡易かつ効果的なグラフ構造自己コントラスト(GSSC)フレームワークを提案する。 提案するフレームワークは,GNNのような明示的なメッセージ伝搬を代用して,事前知識として構造情報を暗黙的に組み込んで,監視信号の計算を誘導する,MLP(Multi-Layer Perceptrons)に基づいている。 具体的には、まず、近傍の潜在的非形式的あるいはノイズの多いエッジを取り除くために構造的スペーシングを適用し、次いで、スペーシングされた地区で構造的自己コントラストを行い、堅牢なノード表現を学習する。 最後に、構造スペーシフィケーションと自己コントラストを二段階最適化問題として定式化し、統一されたフレームワークで解決する。 大規模な実験は、GSSCフレームワークが他の主要な競合相手よりも優れた一般化とロバスト性で真に励まされる性能が得られることを質的に定量的に証明している。

Recent years have witnessed great success in handling graph-related tasks with Graph Neural Networks (GNNs). However, most existing GNNs are based on message passing to perform feature aggregation and transformation, where the structural information is explicitly involved in the forward propagation by coupling with node features through graph convolution at each layer. As a result, subtle feature noise or structure perturbation may cause severe error propagation, resulting in extremely poor robustness. In this paper, we rethink the roles played by graph structural information in graph data training and identify that message passing is not the only path to modeling structural information. Inspired by this, we propose a simple but effective Graph Structure Self-Contrasting (GSSC) framework that learns graph structural information without message passing. The proposed framework is based purely on Multi-Layer Perceptrons (MLPs), where the structural information is only implicitly incorporated as prior knowledge to guide the computation of supervision signals, substituting the explicit message propagation as in GNNs. Specifically, it first applies structural sparsification to remove potentially uninformative or noisy edges in the neighborhood, and then performs structural self-contrasting in the sparsified neighborhood to learn robust node representations. Finally, structural sparsification and self-contrasting are formulated as a bi-level optimization problem and solved in a unified framework. Extensive experiments have qualitatively and quantitatively demonstrated that the GSSC framework can produce truly encouraging performance with better generalization and robustness than other leading competitors.
翻訳日:2024-09-10 14:50:09 公開日:2024-09-09
# JavaVFC: オープンソースソフトウェアによるJavaの脆弱性修正

JavaVFC: Java Vulnerability Fixing Commits from Open-source Software ( http://arxiv.org/abs/2409.05576v1 )

ライセンス: Link先を確認
Tan Bui, Yan Naing Tun, Yiran Cheng, Ivana Clairine Irsan, Ting Zhang, Hong Jin Kang, (参考訳) 我々は、Java脆弱性分析の研究を進めるために、Java脆弱性修正コミット(VFC)の包括的なデータセットを提案する。 私たちのデータセットは、GitHub上の何千ものオープンソースプロジェクトから派生したもので、JavaVFCとJavaVFC拡張の2つのバリエーションで構成されています。 このデータセットは、ヒューリスティックなルールと複数の手動ラベリングを含む厳密なプロセスによって構築された。 最初は、コミットメッセージに基づいて候補VFCをフィルタリングするためにキーワードを使用し、その後、反復的な手動ラベリングによってこのキーワードセットを洗練しました。 最終ラベリングラウンドは3つのアノテーターの中で精度0.7のスコアを得た。 改良されたキーワードセットを、50以上のGitHubスターを持つ34,321のオープンソースJavaリポジトリに適用した結果、手作業で検証されたVFCが784、JavaVFCが16,837で拡張されたVFCが16,837で自動的に識別された。 どちらの変種も、アクセスと分析を簡単にするための標準化されたJSONLフォーマットで提示される。 このデータセットは、VFC識別、きめ細かい脆弱性検出、自動脆弱性修正など、さまざまな研究作業をサポートしている。 JavaVFCとJavaVFCの拡張版はhttps://zenodo.org/records/13731781で公開されている。

We present a comprehensive dataset of Java vulnerability-fixing commits (VFCs) to advance research in Java vulnerability analysis. Our dataset, derived from thousands of open-source Java projects on GitHub, comprises two variants: JavaVFC and JavaVFC-extended. The dataset was constructed through a rigorous process involving heuristic rules and multiple rounds of manual labeling. We initially used keywords to filter candidate VFCs based on commit messages, then refined this keyword set through iterative manual labeling. The final labeling round achieved a precision score of 0.7 among three annotators. We applied the refined keyword set to 34,321 open-source Java repositories with over 50 GitHub stars, resulting in JavaVFC with 784 manually verified VFCs and JavaVFC-extended with 16,837 automatically identified VFCs. Both variants are presented in a standardized JSONL format for easy access and analysis. This dataset supports various research endeavors, including VFC identification, fine-grained vulnerability detection, and automated vulnerability repair. The JavaVFC and JavaVFC-extended are publicly available at https://zenodo.org/records/13731781.
翻訳日:2024-09-10 14:50:09 公開日:2024-09-09
# リカレントニューラルネットワークの近似境界と回帰への応用

Approximation Bounds for Recurrent Neural Networks with Application to Regression ( http://arxiv.org/abs/2409.05577v1 )

ライセンス: Link先を確認
Yuling Jiao, Yang Wang, Bokai Yan, (参考訳) 深部ReLUリカレントニューラルネットワーク(RNN)の近似能力について検討し,RNNを用いた非パラメトリック最小二乗回帰の収束特性について検討した。 我々は、過去の情報と現在の情報にのみ依存するH\"older関数を、過去の関数と呼ばれる、RNNの各時間ステップにおける出力が近似できるという意味で、H\"older smooth functionに対するRNNの近似誤差の上限を導出する。 これにより、慎重に構築されたRNNは、過去の依存するH\"古い関数の列を同時に近似することができる。 回帰問題における経験的リスク最小化器の予測誤差に対して、これらの近似結果を非漸近上界の導出に応用する。 我々の誤差境界は、指数関数的に$\beta$-mixing と i.d. のデータ仮定の両方の下で最小値の最適値を達成する。 以上の結果から,RNNの性能に関する統計的保証が得られる。

We study the approximation capacity of deep ReLU recurrent neural networks (RNNs) and explore the convergence properties of nonparametric least squares regression using RNNs. We derive upper bounds on the approximation error of RNNs for H\"older smooth functions, in the sense that the output at each time step of an RNN can approximate a H\"older function that depends only on past and current information, termed a past-dependent function. This allows a carefully constructed RNN to simultaneously approximate a sequence of past-dependent H\"older functions. We apply these approximation results to derive non-asymptotic upper bounds for the prediction error of the empirical risk minimizer in regression problem. Our error bounds achieve minimax optimal rate under both exponentially $\beta$-mixing and i.i.d. data assumptions, improving upon existing ones. Our results provide statistical guarantees on the performance of RNNs.
翻訳日:2024-09-10 14:39:56 公開日:2024-09-09
# 小型光クロック用熱ストロンチウムビームを用いたラムゼーボーデ原子干渉計

Ramsey-Borde Atom Interferometry with a Thermal Strontium Beam for a Compact Optical Clock ( http://arxiv.org/abs/2409.05581v1 )

ライセンス: Link先を確認
Oliver Fartmann, Martin Jutisz, Amir Mahdian, Vladimir Schkolnik, Ingmari C. Tietje, Conrad Zimmermann, Markus Krutzik, (参考訳) 小型光原子時計は、フィールドアプリケーションやクロックネットワークにおいてますます重要になっている。 ラムゼイ・ボーデ干渉計(RBI)と熱原子線を用いたシステムは、低温原子時計よりも複雑な光蒸気セルクロックよりも高い安定性を提供するため、光学原子時計の技術的ギャップを埋めることを約束しているようである。 ここでは,689nmの狭い1S0->3P1結合線を用いて,ストロンチウム原子を用いたRBIを実演し,60kHzのスペクトル特性を示した。 レーザパワーの異なるラムゼイ蛍光体を数値解析し, 数値モデルと比較した。 461nmにおける1S0->1P1遷移は蛍光検出に用いられる。 RBI信号の勾配と蛍光検出ノイズを分析すると、4x10-14 / sqrt{tau} の短期安定性が推定される。 461nmレーザーをロックするための原子線源,周波数変調分光法,レーザーパワー安定化法,689nmレーザーの高精細キャビティ事前安定化法などの実験装置について述べる。 我々のシステムは、モバイルおよび宇宙アプリケーションにおける将来のクロックシステムのための地上テストベッドとして機能する。

Compact optical atomic clocks have become increasingly important in field applications and clock networks. Systems based on Ramsey-Borde interferometry (RBI) with a thermal atomic beam seem promising to fill a technology gap in optical atomic clocks, as they offer higher stability than optical vapour cell clocks while being less complex than cold atomic clocks. Here, we demonstrate RBI with strontium atoms, utilizing the narrow 1S0 -> 3P1 intercombination line at 689 nm, yielding a 60 kHz broad spectral feature. The obtained Ramsey fringes for varying laser power are analyzed and compared with a numerical model. The 1S0 -> 1P1 transition at 461 nm is used for fluorescence detection. Analyzing the slope of the RBI signal and the fluorescence detection noise yields an estimated short-term stability of 4x10-14 / sqrt{tau}. We present our experimental setup in detail, including the atomic beam source, frequency-modulation spectroscopy to lock the 461 nm laser, laser power stabilization and the high-finesse cavity pre-stabilization of the 689 nm laser. Our system serves as a ground testbed for future clock systems in mobile and space applications.
翻訳日:2024-09-10 14:39:56 公開日:2024-09-09
# 視覚・言語ナビゲーションインストラクション生成のための空間認識型話者

Spatially-Aware Speaker for Vision-and-Language Navigation Instruction Generation ( http://arxiv.org/abs/2409.05583v1 )

ライセンス: Link先を確認
Muraleekrishna Gopinathan, Martin Masek, Jumana Abu-Khalaf, David Suter, (参考訳) Embodied AIは、自然言語でコミュニケーションするだけでなく、textit{understand}を指定して、人間の言語命令を実行するロボットの開発を目指している。 そこで本研究では,ロボットが従うべき高精度なナビゲーション命令を生成するタスクについて検討する。 近年の研究では、画像列からのステップバイステップインストラクションの生成において大きな飛躍が見られたが、生成したインストラクションは、オブジェクトやランドマークへの参照という点では、多様性に欠けていた。 既存の話者モデルは、評価指標を回避し、低品質の文に対しても高いスコアを得る戦略を学ぶ。 本研究では,環境の構造的知識と意味的知識を利用してよりリッチな命令を生成する命令生成システムであるSAS(Spatially-Aware Speaker)を提案する。 学習には,言語評価指標が導入した体系的バイアスを回避するために,相手設定で報酬学習手法を用いる。 実験により,本手法は既存の命令生成モデルよりも優れ,標準指標を用いて評価する。 私たちのコードは \url{https://github.com/gmuraleekrishna/SAS} で利用可能です。

Embodied AI aims to develop robots that can \textit{understand} and execute human language instructions, as well as communicate in natural languages. On this front, we study the task of generating highly detailed navigational instructions for the embodied robots to follow. Although recent studies have demonstrated significant leaps in the generation of step-by-step instructions from sequences of images, the generated instructions lack variety in terms of their referral to objects and landmarks. Existing speaker models learn strategies to evade the evaluation metrics and obtain higher scores even for low-quality sentences. In this work, we propose SAS (Spatially-Aware Speaker), an instruction generator or \textit{Speaker} model that utilises both structural and semantic knowledge of the environment to produce richer instructions. For training, we employ a reward learning method in an adversarial setting to avoid systematic bias introduced by language evaluation metrics. Empirically, our method outperforms existing instruction generation models, evaluated using standard metrics. Our code is available at \url{https://github.com/gmuraleekrishna/SAS}.
翻訳日:2024-09-10 14:39:56 公開日:2024-09-09
# 潜在3次元脳MRI

Latent 3D Brain MRI Counterfactual ( http://arxiv.org/abs/2409.05585v1 )

ライセンス: Link先を確認
Wei Peng, Tian Xia, Fabio De Sousa Ribeiro, Tomas Bosschieter, Ehsan Adeli, Qingyu Zhao, Ben Glocker, Kilian M. Pohl, (参考訳) 構造脳MRI研究におけるサンプルの数は、しばしば、ディープラーニングモデルを適切に訓練するには小さすぎる。 生成モデルは、データ分布を効果的に学習し、高忠実度MRIを生成することにより、この問題に対処することを約束する。 しかし、トレーニングデータによって定義された分布の外で、多様で高品質なデータを生成するのに苦労している。 この問題に対処する方法の1つは、3次元ボリュームカウンターファクトリー向けに開発された因果モデルを使用することである。 しかし、高次元空間における因果関係を正確にモデル化することは、これらのモデルが一般的に低品質の3次元脳MRIを生成するのに困難である。 これらの課題に対処するため,潜在空間内に構造因果モデル(Structure Causal Model, SCM)を構築する2段階の手法を提案する。 第一段階では、VQ-VAEを用いてMRIボリュームのコンパクトな埋め込みを学習する。 その後、この潜在空間に因果モデルを統合するとともに、閉形式一般化線形モデル(GLM)を用いて3段階の逆処理を実行する。 実世界の高分解能MRIデータ (1mm) を用いて実験を行い, 高品質な3次元MRIカウンターファクトを生成できることを実証した。

The number of samples in structural brain MRI studies is often too small to properly train deep learning models. Generative models show promise in addressing this issue by effectively learning the data distribution and generating high-fidelity MRI. However, they struggle to produce diverse, high-quality data outside the distribution defined by the training data. One way to address the issue is using causal models developed for 3D volume counterfactuals. However, accurately modeling causality in high-dimensional spaces is a challenge so that these models generally generate 3D brain MRIS of lower quality. To address these challenges, we propose a two-stage method that constructs a Structural Causal Model (SCM) within the latent space. In the first stage, we employ a VQ-VAE to learn a compact embedding of the MRI volume. Subsequently, we integrate our causal model into this latent space and execute a three-step counterfactual procedure using a closed-form Generalized Linear Model (GLM). Our experiments conducted on real-world high-resolution MRI data (1mm) demonstrate that our method can generate high-quality 3D MRI counterfactuals.
翻訳日:2024-09-10 14:39:56 公開日:2024-09-09
# 作業計画と運動計画のヒューリスティックとしての解釈責任共有

Interpretable Responsibility Sharing as a Heuristic for Task and Motion Planning ( http://arxiv.org/abs/2409.05586v1 )

ライセンス: Link先を確認
Arda Sarp Yenicesu, Sepehr Nourmohammadi, Berk Cicek, Ozgur S. Oguz, (参考訳) 本稿では、人間構築環境と固有のバイアスを利用して、家庭内ロボットの計画効率を向上させる「解釈責任共有」(Interpretable Responsibility Sharing、IRS)という、タスクと運動計画のための新しいヒューリスティックなヒューリスティックな手法を紹介する。 補助的なオブジェクト(例:トレイ、ピッチャー)が家庭で一般的に見られるため、IRSはこれらの要素を体系的に組み込んでタスクの実行を簡素化し最適化する。 このヒューリスティックは、複雑なタスクを管理可能なサブプロブレムに分割し、補助的なオブジェクトがエンボディエージェントとタスクの責任を共有するという新しい概念である責任共有(Responsibility Sharing, RS)に根ざしている。 この部門は、人間の使用パターンを反映するだけでなく、人間の空間内でのナビゲーションや操作をより効果的に行うロボットを支援している。 意思決定のために最適化ルール合成(ORS)を統合することにより、IRSは補助オブジェクトの使用が戦略的かつ文脈的にも認識されることを保証し、ロボット計画の解釈可能性と有効性を向上させる。 各種家庭内課題を対象とした実験により、IRSはタスク実行に要する労力を削減し、全体的な意思決定プロセスを強化することにより、従来の手法を著しく上回ることを示した。 このアプローチは人間の直感的な手法と調和するだけでなく、多様な国内環境に適用可能なスケーラブルなソリューションも提供します。 コードはhttps://github.com/asyncs/IRS.comで入手できる。

This article introduces a novel heuristic for Task and Motion Planning (TAMP) named Interpretable Responsibility Sharing (IRS), which enhances planning efficiency in domestic robots by leveraging human-constructed environments and inherent biases. Utilizing auxiliary objects (e.g., trays and pitchers), which are commonly found in household settings, IRS systematically incorporates these elements to simplify and optimize task execution. The heuristic is rooted in the novel concept of Responsibility Sharing (RS), where auxiliary objects share the task's responsibility with the embodied agent, dividing complex tasks into manageable sub-problems. This division not only reflects human usage patterns but also aids robots in navigating and manipulating within human spaces more effectively. By integrating Optimized Rule Synthesis (ORS) for decision-making, IRS ensures that the use of auxiliary objects is both strategic and context-aware, thereby improving the interpretability and effectiveness of robotic planning. Experiments conducted across various household tasks demonstrate that IRS significantly outperforms traditional methods by reducing the effort required in task execution and enhancing the overall decision-making process. This approach not only aligns with human intuitive methods but also offers a scalable solution adaptable to diverse domestic environments. Code is available at https://github.com/asyncs/IRS.
翻訳日:2024-09-10 14:39:56 公開日:2024-09-09
# DSDFormer:ロバスト高精度ドライバ抽出のための革新的トランスフォーマー・マンバフレームワーク

DSDFormer: An Innovative Transformer-Mamba Framework for Robust High-Precision Driver Distraction Identification ( http://arxiv.org/abs/2409.05587v1 )

ライセンス: Link先を確認
Junzhou Chen, Zirui Zhang, Jing Yu, Heqiang Huang, Ronghui Zhang, Xuemiao Xu, Bin Sheng, Hong Yan, (参考訳) ドライバーの気晴らしは依然として交通事故の主要な原因であり、世界中の道路安全にとって重大な脅威となっている。 インテリジェント交通システムが進化するにつれて、ドライバーの注意を正確にリアルタイムに識別することが不可欠になっている。 しかし、既存の手法では、トレーニングデータセットでノイズの多いラベルと競合しながら、グローバルなコンテキストときめ細かいローカル特徴の両方をキャプチャするのに苦労している。 DSDFormerは、TransformerとMambaアーキテクチャの長所をDual State Domain Attention (DSDA)メカニズムで統合し、長距離依存と堅牢な運転行動認識のための詳細な特徴抽出のバランスを可能にする新しいフレームワークである。 さらに、ビデオシーケンスの時空間相関を利用してノイズラベルを洗練させる教師なしアプローチであるTRCL(Temporal Reasoning Confident Learning)を導入する。 本モデルは,AUC-V1,AUC-V2,100-Driverのデータセット上での最先端性能を実現し,NVIDIA Jetson AGX Orinプラットフォーム上でのリアルタイム処理効率を実証する。 DSDFormer と TRCL は運転注意障害検出の精度とロバスト性を向上し,道路安全性を高めるスケーラブルなソリューションを提供する。

Driver distraction remains a leading cause of traffic accidents, posing a critical threat to road safety globally. As intelligent transportation systems evolve, accurate and real-time identification of driver distraction has become essential. However, existing methods struggle to capture both global contextual and fine-grained local features while contending with noisy labels in training datasets. To address these challenges, we propose DSDFormer, a novel framework that integrates the strengths of Transformer and Mamba architectures through a Dual State Domain Attention (DSDA) mechanism, enabling a balance between long-range dependencies and detailed feature extraction for robust driver behavior recognition. Additionally, we introduce Temporal Reasoning Confident Learning (TRCL), an unsupervised approach that refines noisy labels by leveraging spatiotemporal correlations in video sequences. Our model achieves state-of-the-art performance on the AUC-V1, AUC-V2, and 100-Driver datasets and demonstrates real-time processing efficiency on the NVIDIA Jetson AGX Orin platform. Extensive experimental results confirm that DSDFormer and TRCL significantly improve both the accuracy and robustness of driver distraction detection, offering a scalable solution to enhance road safety.
翻訳日:2024-09-10 14:39:56 公開日:2024-09-09
# MemoRAG: メモリにインスパイアされた知識発見による次世代RAGへの移行

MemoRAG: Moving towards Next-Gen RAG Via Memory-Inspired Knowledge Discovery ( http://arxiv.org/abs/2409.05591v1 )

ライセンス: Link先を確認
Hongjin Qian, Peitian Zhang, Zheng Liu, Kelong Mao, Zhicheng Dou, (参考訳) Retrieval-Augmented Generation (RAG)は、検索ツールを活用して外部データベースにアクセスし、最適化されたコンテキストを通じて大規模言語モデル(LLM)の生成品質を向上させる。 しかし,既存の検索手法は,明示されたクエリと十分に構造化された知識との関連性マッチングしか行えず,曖昧な情報要求や構造化されていない知識を含むタスクを処理できないため,本質的に制約されている。 したがって、既存のRAGシステムは、簡単な質問応答タスクに主に有効である。 本研究では,長期記憶によって強化された新しい検索拡張生成パラダイムである「textbf{MemoRAG}」を提案する。 MemoRAGはデュアルシステムアーキテクチャを採用している。 一方、データベースのグローバルメモリを形成するために、textit{light but long-range} LLMを使用している。 タスクが提示されると、ドラフト回答が生成され、検索ツールがデータベース内の有用な情報を見つける。 一方、検索した情報に基づいて究極の回答を生成する「textit{expensive but expressive} LLM」を利用する。 この汎用フレームワーク上に構築したMemoRAGは,そのクレーリング機構と記憶能力を向上させることで,さらに性能を最適化する。 実験では,従来のRAGが失敗する複雑なタスクや,RAGが一般的に適用される単純なタスクなど,さまざまな評価タスクにおいて優れたパフォーマンスを実現している。

Retrieval-Augmented Generation (RAG) leverages retrieval tools to access external databases, thereby enhancing the generation quality of large language models (LLMs) through optimized context. However, the existing retrieval methods are constrained inherently, as they can only perform relevance matching between explicitly stated queries and well-formed knowledge, but unable to handle tasks involving ambiguous information needs or unstructured knowledge. Consequently, existing RAG systems are primarily effective for straightforward question-answering tasks. In this work, we propose \textbf{MemoRAG}, a novel retrieval-augmented generation paradigm empowered by long-term memory. MemoRAG adopts a dual-system architecture. On the one hand, it employs a \textit{light but long-range} LLM to form the global memory of database. Once a task is presented, it generates draft answers, cluing the retrieval tools to locate useful information within the database. On the other hand, it leverages an \textit{expensive but expressive} LLM, which generates the ultimate answer based on the retrieved information. Building on this general framework, we further optimize MemoRAG's performance by enhancing its cluing mechanism and memorization capacity. In our experiment, MemoRAG achieves superior performance across a variety of evaluation tasks, including both complex ones where conventional RAG fails and straightforward ones where RAG is commonly applied.
翻訳日:2024-09-10 14:39:56 公開日:2024-09-09
# ExDDI: 薬物と薬物の相互作用予測と自然言語

ExDDI: Explaining Drug-Drug Interaction Predictions with Natural Language ( http://arxiv.org/abs/2409.05592v1 )

ライセンス: Link先を確認
Zhaoyue Sun, Jiazheng Li, Gabriele Pergola, Yulan He, (参考訳) 薬物・薬物相互作用(DDI)の予測は医薬品の安全性向上に不可欠である。 DDI予測におけるこれまでの取り組みは、一般的に二分分類やDDIカテゴリの予測に重点を置いており、これらの予測に対する信頼を高める説明的洞察が欠如している。 本研究では、DDI予測のための自然言語説明を生成することを提案し、モデルが予測と同時に基礎となる薬物力学と薬物動態機構を明らかにすることを可能にした。 そこで,DDInter と DrugBank から DDI の説明を収集し,広範囲な実験と分析のための様々なモデルを開発した。 我々のモデルは、既知の薬物間の未知のDDIについて正確な説明を提供することができる。 本稿では、DDI予測の分野に新しいツールを提供し、DDI予測のための説明生成に関するさらなる研究の基盤となる。

Predicting unknown drug-drug interactions (DDIs) is crucial for improving medication safety. Previous efforts in DDI prediction have typically focused on binary classification or predicting DDI categories, with the absence of explanatory insights that could enhance trust in these predictions. In this work, we propose to generate natural language explanations for DDI predictions, enabling the model to reveal the underlying pharmacodynamics and pharmacokinetics mechanisms simultaneously as making the prediction. To do this, we have collected DDI explanations from DDInter and DrugBank and developed various models for extensive experiments and analysis. Our models can provide accurate explanations for unknown DDIs between known drugs. This paper contributes new tools to the field of DDI prediction and lays a solid foundation for further research on generating explanations for DDI predictions.
翻訳日:2024-09-10 14:39:56 公開日:2024-09-09
# SynMorph: 混合サンプルを用いた合成顔形態データの生成

SynMorph: Generating Synthetic Face Morphing Dataset with Mated Samples ( http://arxiv.org/abs/2409.05595v1 )

ライセンス: Link先を確認
Haoyu Zhang, Raghavendra Ramachandra, Kiran Raja, Christoph Busch, (参考訳) 顔認識システムの脆弱性を克服するためには、顔認識攻撃検出(MAD)アルゴリズムが不可欠になっている。 プライバシーの懸念と制約による大規模かつ公開可能なデータセットの欠如を解決するため,2450のアイデンティティと100k以上の形態を持つ合成顔形態データセットを生成する新しい手法を提案する。 提案する合成顔変形データセットは, 高品質なサンプル, 異種変態アルゴリズム, 単変態攻撃検出アルゴリズム, 差動変態攻撃検出アルゴリズムの一般化に特有である。 実験では, 顔画像の品質評価と脆弱性解析を適用し, 生体試料の品質と顔認識システムに対する攻撃電位の観点から, 提案した合成顔形態データセットを評価する。 その結果、既存のSOTA合成データセットと代表的な非合成データセットとをベンチマークし、SOTAと比較して改善を示す。 さらに、異なるプロトコルを設計し、提案した合成データセットを用いて、モーフィング攻撃検出アルゴリズムを訓練する適用性について検討する。

Face morphing attack detection (MAD) algorithms have become essential to overcome the vulnerability of face recognition systems. To solve the lack of large-scale and public-available datasets due to privacy concerns and restrictions, in this work we propose a new method to generate a synthetic face morphing dataset with 2450 identities and more than 100k morphs. The proposed synthetic face morphing dataset is unique for its high-quality samples, different types of morphing algorithms, and the generalization for both single and differential morphing attack detection algorithms. For experiments, we apply face image quality assessment and vulnerability analysis to evaluate the proposed synthetic face morphing dataset from the perspective of biometric sample quality and morphing attack potential on face recognition systems. The results are benchmarked with an existing SOTA synthetic dataset and a representative non-synthetic and indicate improvement compared with the SOTA. Additionally, we design different protocols and study the applicability of using the proposed synthetic dataset on training morphing attack detection algorithms.
翻訳日:2024-09-10 14:39:56 公開日:2024-09-09
# 量子カオス系における有限時間量子-古典対応

Finite time quantum-classical correspondence in quantum chaotic systems ( http://arxiv.org/abs/2409.05596v1 )

ライセンス: Link先を確認
Qian Wang, Marko Robnik, (参考訳) 量子古典的対応の重要性は、多くの量子カオスの研究で認識されているが、それがまだ有限時間力学を保っているかどうかはまだ分かっていない。 この問題は、量子カオス測度が、有限時間古典軌道のカオス性にどのように関係するかを詳細に分析することによって、この問題に対処する。 時間依存システムと多体システムの両方において、両者の良好な対応が明らかにされている。 特に, 有限時間軌道のカオス性に対する量子カオス測度の依存性は, 系に依存しない関数によってよく捉えることができることを示す。 これは有限時間量子古典対応の普遍的妥当性を強く示唆する。 量子古典的対応についてより深く理解し、量子エルゴディディティを研究するための時間の役割を強調した。

Although the importance of the quantum-classical correspondence has been recognized in numerous studies of quantum chaos, whether it still holds for finite time dynamics remains less known. We address this question in this work by performing a detailed analysis of how the quantum chaotic measure relates to the chaoticity of the finite time classical trajectories. A good correspondence between them has been revealed in both time dependent and many-body systems. In particular, we show that the dependence of the quantum chaotic measure on the chaoticity of finite time trajectories can be well captured by a function that is independent of the system. This strongly implies the universal validity of the finite time quantum-classical correspondence. Our findings provide a deeper understanding of the quantum-classical correspondence and highlight the role of time for studying quantum ergodicity.
翻訳日:2024-09-10 14:39:56 公開日:2024-09-09
# 再サンプリング/重み付けは不均衡分類における特徴学習を改善するか:おもちゃモデルによる研究

When resampling/reweighting improves feature learning in imbalanced classification?: A toy-model study ( http://arxiv.org/abs/2409.05598v1 )

ライセンス: Link先を確認
Tomoyuki Obuchi, Toshiyuki Tanaka, (参考訳) クラス不均衡の存在下での特徴学習性能に対するクラスワイドリサンプリング/リウェイト効果を明らかにすることを目的とした二分分類のおもちゃモデルについて検討した。 本分析では, 特徴量に対するデータセットサイズ比を有限に保ちながら, 特徴量の高次元限界を捉え, 統計力学から非剛性レプリカ法を用いる。 その結果, 損失や分類器の選択に関係なく, 再サンプリング/再重み付けの状況が最高の特徴学習性能を与えるケースが存在することが明らかとなり, 最新の研究成果をCao et al (2019), Kang et al (2019)で裏付けている。 また、結果の鍵は損失と問題設定の対称性であることも明らかにした。 そこで本研究では,マルチクラス設定に対して同じ特性を示すモデルを提案する。 これらのことは、クラスワイズ再サンプリング/リウェイト化が不均衡な分類に有効であることを示す。

A toy model of binary classification is studied with the aim of clarifying the class-wise resampling/reweighting effect on the feature learning performance under the presence of class imbalance. In the analysis, a high-dimensional limit of the feature is taken while keeping the dataset size ratio against the feature dimension finite and the non-rigorous replica method from statistical mechanics is employed. The result shows that there exists a case in which the no resampling/reweighting situation gives the best feature learning performance irrespectively of the choice of losses or classifiers, supporting recent findings in Cao et al. (2019); Kang et al. (2019). It is also revealed that the key of the result is the symmetry of the loss and the problem setting. Inspired by this, we propose a further simplified model exhibiting the same property for the multiclass setting. These clarify when the class-wise resampling/reweighting becomes effective in imbalanced classification.
翻訳日:2024-09-10 14:39:56 公開日:2024-09-09
# より長く(必然的に)強い:強化音声認識と翻訳のための句読取長行訓練

Longer is (Not Necessarily) Stronger: Punctuated Long-Sequence Training for Enhanced Speech Recognition and Translation ( http://arxiv.org/abs/2409.05601v1 )

ライセンス: Link先を確認
Nithin Rao Koluguri, Travis Bartley, Hainan Xu, Oleksii Hrinchuk, Jagadeesh Balam, Boris Ginsburg, Georg Kucsko, (参考訳) 本稿では,音声認識タスクと翻訳タスクのためのシーケンス・ツー・シーケンスモデルのトレーニング手法を提案する。 従来の訓練モデルでは、小文字や部分句読点・大文字化(PnC)文のみを含む短節の訓練ではなく、適切な句読点・大文字化文を含む長文の訓練を提案する。 我々は、FastConformerアーキテクチャを用いて、最大60秒のシーケンスを持つ10億のパラメータモデルを、十分に注意を払って訓練することができる。 しかし, PnC を用いたトレーニングは全体的な性能を向上させる一方で, 各種評価設定における40秒以上のシーケンスのトレーニングでは, 精度が低下することがわかった。 提案手法は,Earnings-21およびEarnings-22ベンチマークにおいて,25%の相対的単語誤り率(WER)が向上し,句読点とキャピタライゼーション精度が大幅に向上する。 さらに、長い音声セグメントのトレーニングは、音声認識や翻訳ベンチマーク全体にわたって、全体のモデルの精度を高める。 NVIDIA NeMoはモデルウェイトとトレーニングコードをオープンソースとして公開している。

This paper presents a new method for training sequence-to-sequence models for speech recognition and translation tasks. Instead of the traditional approach of training models on short segments containing only lowercase or partial punctuation and capitalization (PnC) sentences, we propose training on longer utterances that include complete sentences with proper punctuation and capitalization. We achieve this by using the FastConformer architecture which allows training 1 Billion parameter models with sequences up to 60 seconds long with full attention. However, while training with PnC enhances the overall performance, we observed that accuracy plateaus when training on sequences longer than 40 seconds across various evaluation settings. Our proposed method significantly improves punctuation and capitalization accuracy, showing a 25% relative word error rate (WER) improvement on the Earnings-21 and Earnings-22 benchmarks. Additionally, training on longer audio segments increases the overall model accuracy across speech recognition and translation benchmarks. The model weights and training code are open-sourced though NVIDIA NeMo.
翻訳日:2024-09-10 14:39:56 公開日:2024-09-09
# ハードウェア非依存評価のためのエネルギー消費の正規化

Normalizing Energy Consumption for Hardware-Independent Evaluation ( http://arxiv.org/abs/2409.05602v1 )

ライセンス: Link先を確認
Constance Douwes, Romain Serizel, (参考訳) 信号処理における機械学習(ML)モデルの利用の増加は、特にリソース集約的なトレーニングフェーズにおいて、その環境への影響に関する懸念を引き起こしている。 本研究では,各ハードウェアプラットフォームにまたがるエネルギー消費を正規化し,公平かつ一貫した比較を容易にする手法を提案する。 我々は、異なるGPU上で異なるMLアーキテクチャをトレーニングするのに使用されるエネルギーを測定し、オーディオタグ付けタスクに焦点をあてて、異なる正規化戦略を評価する。 提案手法は,基準点数,回帰値の種類,および計算量を含めることが正規化過程に大きく影響を与えることを示す。 2つの基準点の適切な選択は、浮動小数点演算とパラメータの数を組み込むことで、エネルギー消費予測の精度を向上させるとともに、ロバストな正規化をもたらす。 本手法は, より正確なエネルギー消費評価を支援することにより, 環境保全型MLプラクティスの開発を促進する。

The increasing use of machine learning (ML) models in signal processing has raised concerns about their environmental impact, particularly during resource-intensive training phases. In this study, we present a novel methodology for normalizing energy consumption across different hardware platforms to facilitate fair and consistent comparisons. We evaluate different normalization strategies by measuring the energy used to train different ML architectures on different GPUs, focusing on audio tagging tasks. Our approach shows that the number of reference points, the type of regression and the inclusion of computational metrics significantly influences the normalization process. We find that the appropriate selection of two reference points provides robust normalization, while incorporating the number of floating-point operations and parameters improves the accuracy of energy consumption predictions. By supporting more accurate energy consumption evaluation, our methodology promotes the development of environmentally sustainable ML practices.
翻訳日:2024-09-10 14:39:56 公開日:2024-09-09
# CustomContrast: 主観駆動型テキスト・画像のカスタマイズのためのマルチレベルコントラスト的視点

CustomContrast: A Multilevel Contrastive Perspective For Subject-Driven Text-to-Image Customization ( http://arxiv.org/abs/2409.05606v1 )

ライセンス: Link先を確認
Nan Chen, Mengqi Huang, Zhuowei Chen, Yang Zheng, Lei Zhang, Zhendong Mao, (参考訳) 対象駆動型テキスト・ツー・イメージ(T2I)のカスタマイズは、学術と産業に大きな関心を寄せている。 このタスクにより、事前訓練されたモデルが、ユニークな主題に基づいて新しい画像を生成することができる。 既存の研究では、特定の画像の無関係な属性(例えば、ビュー、ポーズ、背景など)を本質的な属性として誤解させるような、単一の画像のすべての詳細を捉えることに焦点を当てた自己再構成的な視点が採用されている。 このミスコンストラクションは、対象の無関係な属性や本質的な属性の過度な適合または過度な適合、すなわち、これらの属性が同時に過剰に表現されるか、あるいは過度に表現され、類似性と可制御性の間のトレードオフを引き起こす。 本研究は,対象の内在属性を非関連属性からコントラスト学習を通じて切り離すことによって,対象の内在属性を非関連属性から切り離すことによって,理想的対象表現が達成できる,と論じる。 具体的には、MCL(Multilevel Contrastive Learning)パラダイムとMFI(Multimodal Feature Injection)エンコーダを含む新しいフレームワークであるCustomContrastを提案する。 MCLパラダイムは、クロスモーダルなセマンティック・コントラッシブ・ラーニングとマルチスケールなセマンティック・コントラッシブ・ラーニングを通じて、高レベルのセマンティクスから低レベルの外観に至るまで、被験者の本質的な特徴を抽出するために用いられる。 コントラスト学習を容易にするために,MFIエンコーダを導入する。 広範囲な実験は、主題の類似性とテキスト制御性におけるCustomContrastの有効性を示している。

Subject-driven text-to-image (T2I) customization has drawn significant interest in academia and industry. This task enables pre-trained models to generate novel images based on unique subjects. Existing studies adopt a self-reconstructive perspective, focusing on capturing all details of a single image, which will misconstrue the specific image's irrelevant attributes (e.g., view, pose, and background) as the subject intrinsic attributes. This misconstruction leads to both overfitting or underfitting of irrelevant and intrinsic attributes of the subject, i.e., these attributes are over-represented or under-represented simultaneously, causing a trade-off between similarity and controllability. In this study, we argue an ideal subject representation can be achieved by a cross-differential perspective, i.e., decoupling subject intrinsic attributes from irrelevant attributes via contrastive learning, which allows the model to focus more on intrinsic attributes through intra-consistency (features of the same subject are spatially closer) and inter-distinctiveness (features of different subjects have distinguished differences). Specifically, we propose CustomContrast, a novel framework, which includes a Multilevel Contrastive Learning (MCL) paradigm and a Multimodal Feature Injection (MFI) Encoder. The MCL paradigm is used to extract intrinsic features of subjects from high-level semantics to low-level appearance through crossmodal semantic contrastive learning and multiscale appearance contrastive learning. To facilitate contrastive learning, we introduce the MFI encoder to capture cross-modal representations. Extensive experiments show the effectiveness of CustomContrast in subject similarity and text controllability.
翻訳日:2024-09-10 14:39:56 公開日:2024-09-09
# Adapted-MoE: 異常検出のためのテスト時間適応とエキスパートの混合

Adapted-MoE: Mixture of Experts with Test-Time Adaption for Anomaly Detection ( http://arxiv.org/abs/2409.05611v1 )

ライセンス: Link先を確認
Tianwu Lei, Silin Chen, Bohan Wang, Zhengkai Jiang, Ningmu Zou, (参考訳) 異常を識別する正常標本の表現に基づく非教師付き異常検出法は,近年顕著な進歩を遂げている。 しかし、既存の手法では、トレーニングデータセット内のサンプルを識別するための単一の決定境界のみを学習し、実世界の同じカテゴリであっても、通常のサンプルの特徴分布の変化を無視する。 さらに,テストセットと列車セットの間には,まだ分布バイアスが存在するとは考えられなかった。 そこで本研究では、ルーティングネットワークと一連のエキスパートモデルを含むAdapted-MoEを提案する。 具体的には,同じカテゴリのサンプルをサブクラスの特徴空間にルーティングする表現学習に基づくルーティングネットワークを提案する。 次に、一連の専門家モデルを用いて、様々な正規サンプルの表現を学び、いくつかの独立した決定境界を構築する。 本研究では,未確認のサンプル表現と専門家モデルで学習した特徴分布の偏りを取り除くために,テスト時間適応を提案する。 実験は、3つのカテゴリ、すなわちTexture ADベンチマークから複数のサブクラスを提供するデータセット上で実施される。 Adapted-MoEはベースラインモデルの性能を大幅に改善し、2.18%-7.20%と1.57%-16.30%のI-AUROCとP-AUROCが増加し、現在の最先端の手法を上回った。 私たちのコードはhttps://github.com/で公開されています。

Most unsupervised anomaly detection methods based on representations of normal samples to distinguish anomalies have recently made remarkable progress. However, existing methods only learn a single decision boundary for distinguishing the samples within the training dataset, neglecting the variation in feature distribution for normal samples even in the same category in the real world. Furthermore, it was not considered that a distribution bias still exists between the test set and the train set. Therefore, we propose an Adapted-MoE which contains a routing network and a series of expert models to handle multiple distributions of same-category samples by divide and conquer. Specifically, we propose a routing network based on representation learning to route same-category samples into the subclasses feature space. Then, a series of expert models are utilized to learn the representation of various normal samples and construct several independent decision boundaries. We propose the test-time adaption to eliminate the bias between the unseen test sample representation and the feature distribution learned by the expert model. Our experiments are conducted on a dataset that provides multiple subclasses from three categories, namely Texture AD benchmark. The Adapted-MoE significantly improves the performance of the baseline model, achieving 2.18%-7.20% and 1.57%-16.30% increase in I-AUROC and P-AUROC, which outperforms the current state-of-the-art methods. Our code is available at https://github.com/.
翻訳日:2024-09-10 14:39:56 公開日:2024-09-09
# G-NeLF:新しいビュー合成のためのメモリとデータ効率の良いハイブリッドニューラルネットワーク

G-NeLF: Memory- and Data-Efficient Hybrid Neural Light Field for Novel View Synthesis ( http://arxiv.org/abs/2409.05617v1 )

ライセンス: Link先を確認
Lutao Jiang, Lin Wang, (参考訳) 暗黙の神経表現への関心が高まり、Neural Light Field (NeLF) は直接光線の色を予測するために導入された。 ニューラルラジアンス場(NeRF)とは異なり、NeLFは空間の各点の色と体積密度を予測することで点の表現を作らない。 しかし、現在のNeLFメソッドは、まずNeRFモデルをトレーニングし、10Kビューを合成して、パフォーマンスを改善するためにNeLFをトレーニングする必要があるため、課題に直面している。 また,NeLF法のレンダリング品質はNeRF法に比べて低い。 本稿では,空間認識機能を利用してニューラルネットワークの推論能力の可能性を解き放ち,NeLFトレーニングの難しさを克服する汎用グリッドベースNeLFアプローチであるG-NeLFを提案する。 具体的には、光線表現として細工された格子から導出した空間認識特徴系列を用いる。 多分解能ハッシュテーブルの適応性に関する実証的研究から、非常に限られた数のパラメータで空間全体を表現できる新しいグリッドベースのNeLF線表現を導入する。 シーケンス特性をよりよく活用するために、光伝搬過程をシミュレートし、より効率的な色推定を可能にする軽量な光色デコーダを設計する。 G-NeLFは、大きなストレージオーバーヘッドを必要とせず、以前の最先端のNeLFを超えるためのモデルサイズがわずか 0.95 MBであるように訓練することができる。 さらに、グリッドベースのNeRF法(例えばInstant-NGP)と比較して、パラメータの10分の1しか利用せず、高い性能を実現している。 私たちのコードは受け入れ次第解放されます。

Following the burgeoning interest in implicit neural representation, Neural Light Field (NeLF) has been introduced to predict the color of a ray directly. Unlike Neural Radiance Field (NeRF), NeLF does not create a point-wise representation by predicting color and volume density for each point in space. However, the current NeLF methods face a challenge as they need to train a NeRF model first and then synthesize over 10K views to train NeLF for improved performance. Additionally, the rendering quality of NeLF methods is lower compared to NeRF methods. In this paper, we propose G-NeLF, a versatile grid-based NeLF approach that utilizes spatial-aware features to unleash the potential of the neural network's inference capability, and consequently overcome the difficulties of NeLF training. Specifically, we employ a spatial-aware feature sequence derived from a meticulously crafted grid as the ray's representation. Drawing from our empirical studies on the adaptability of multi-resolution hash tables, we introduce a novel grid-based ray representation for NeLF that can represent the entire space with a very limited number of parameters. To better utilize the sequence feature, we design a lightweight ray color decoder that simulates the ray propagation process, enabling a more efficient inference of the ray's color. G-NeLF can be trained without necessitating significant storage overhead and with the model size of only 0.95 MB to surpass previous state-of-the-art NeLF. Moreover, compared with grid-based NeRF methods, e.g., Instant-NGP, we only utilize one-tenth of its parameters to achieve higher performance. Our code will be released upon acceptance.
翻訳日:2024-09-10 14:29:55 公開日:2024-09-09
# 状態調製のための量子多重化器の簡易化

Quantum Multiplexer Simplification for State Preparation ( http://arxiv.org/abs/2409.05618v1 )

ライセンス: Link先を確認
José A. de Carvalho, Carlos A. Batista, Tiago M. L. de Veras, Israel F. Araujo, Adenilton J. da Silva, (参考訳) 量子状態の初期化(QSP)は、量子アルゴリズムにおける基本的なサブルーチンである。 最悪の場合、QSPアルゴリズムは、構築に必要な多制御ゲートを適用するため、コストがかかる。 本稿では,ある量子状態がサブステートに分解できるかどうかを検出するアルゴリズムを提案する。 この単純化は、量子多重化器の制御を排除し、回路深さとCNOTゲートの数を大幅に削減し、以前のQSPアルゴリズムよりも実行時間とコンパイル時間を改善する。 深度とCNOTゲート数の観点からは,本手法は文献の手法と競合する。 しかし, 実行時間とコンパイル効率に関しては, より優れた結果が得られ, 実験により, キュービット数を増やすことにより, 時間効率の差が増大することが示された。

The initialization of quantum states or Quantum State Preparation (QSP) is a basic subroutine in quantum algorithms. In the worst case, general QSP algorithms are expensive due to the application of multi-controlled gates required to build them. Here, we propose an algorithm that detects whether a given quantum state can be factored into substates, increasing the efficiency of compiling the QSP circuit when we initialize states with some level of disentanglement. The simplification is done by eliminating controls of quantum multiplexers, significantly reducing circuit depth and the number of CNOT gates with a better execution and compilation time than the previous QSP algorithms. Considering efficiency in terms of depth and number of CNOT gates, our method is competitive with the methods in the literature. However, when it comes to run-time and compilation efficiency, our result is significantly better, and the experiments show that by increasing the number of qubits, the gap between the temporal efficiency of the methods increases.
翻訳日:2024-09-10 14:29:55 公開日:2024-09-09
# クラス増分学習のための共同入力と出力の調整

Joint Input and Output Coordination for Class-Incremental Learning ( http://arxiv.org/abs/2409.05620v1 )

ライセンス: Link先を確認
Shuai Wang, Yibing Zhan, Yong Luo, Han Hu, Wei Yu, Yonggang Wen, Dacheng Tao, (参考訳) 急激な破滅的な忘れが原因で、増分学習は簡単ではない。 インクリメンタル学習中に古いタスクに少量のデータを保存することは実現可能な解決策であるが、現在の戦略はまだ実現していない。 1) クラスバイアス問題に適切に対処し 2新旧の課題間の相互干渉を緩和し、 3)タスク内のクラスバイアスの問題を考える。 これにより,これらの問題に対処するための共同入力・出力調整(JIOC)機構を提案する。 このメカニズムは、出力スコアの勾配に応じて異なるデータカテゴリに異なる重みを割り当て、知識蒸留(KD)を使用して、古いタスクと新しいタスクの出力間の相互干渉を減らす。 提案するメカニズムは汎用的で柔軟性があり、メモリストレージを使用する様々な漸進的な学習アプローチに組み込むことができる。 大規模な実験により,我々の機構は性能を著しく向上させることができることがわかった。

Incremental learning is nontrivial due to severe catastrophic forgetting. Although storing a small amount of data on old tasks during incremental learning is a feasible solution, current strategies still do not 1) adequately address the class bias problem, and 2) alleviate the mutual interference between new and old tasks, and 3) consider the problem of class bias within tasks. This motivates us to propose a joint input and output coordination (JIOC) mechanism to address these issues. This mechanism assigns different weights to different categories of data according to the gradient of the output score, and uses knowledge distillation (KD) to reduce the mutual interference between the outputs of old and new tasks. The proposed mechanism is general and flexible, and can be incorporated into different incremental learning approaches that use memory storage. Extensive experiments show that our mechanism can significantly improve their performance.
翻訳日:2024-09-10 14:29:55 公開日:2024-09-09
# 配向拡散係数に対する前方KL正規化選好最適化

Forward KL Regularized Preference Optimization for Aligning Diffusion Policies ( http://arxiv.org/abs/2409.05622v1 )

ライセンス: Link先を確認
Zhao Shan, Chenyou Fan, Shuang Qiu, Jiyuan Shi, Chenjia Bai, (参考訳) 拡散モデルは、政策学習における高度に表現力のあるモデル機能を活用することで、シーケンシャルな意思決定において顕著な成功を収めた。 拡散政策の学習における中心的な問題は、様々なタスクにおいて、政策の出力と人間の意図を一致させることである。 これを実現するために、従来の手法では、リターン条件付きポリシー生成や強化学習(Reinforcement Learning, RL)ベースのポリシー最適化が実施されていたが、どちらも事前に定義された報酬関数に依存している。 そこで本研究では,拡散ポリシの整合性向上のための新しいフレームワーク,フォワードKLの規則化参照最適化を提案し,拡散ポリシを直接選好と整合させる。 まず、好みを考慮せずにオフラインデータセットから拡散ポリシーをトレーニングし、その後、直接選好最適化による選好データにポリシーを整列する。 アライメントフェーズの間、拡散政策において直接選好学習を定式化し、前向きのKL正規化を優先最適化に使用して、アウト・オブ・ディストリビューション動作の発生を回避する。 メタワールド操作とD4RLタスクの広範な実験を行う。 その結果,提案手法は好みとの整合性が優れ,従来の最先端アルゴリズムよりも優れていた。

Diffusion models have achieved remarkable success in sequential decision-making by leveraging the highly expressive model capabilities in policy learning. A central problem for learning diffusion policies is to align the policy output with human intents in various tasks. To achieve this, previous methods conduct return-conditioned policy generation or Reinforcement Learning (RL)-based policy optimization, while they both rely on pre-defined reward functions. In this work, we propose a novel framework, Forward KL regularized Preference optimization for aligning Diffusion policies, to align the diffusion policy with preferences directly. We first train a diffusion policy from the offline dataset without considering the preference, and then align the policy to the preference data via direct preference optimization. During the alignment phase, we formulate direct preference learning in a diffusion policy, where the forward KL regularization is employed in preference optimization to avoid generating out-of-distribution actions. We conduct extensive experiments for MetaWorld manipulation and D4RL tasks. The results show our method exhibits superior alignment with preferences and outperforms previous state-of-the-art algorithms.
翻訳日:2024-09-10 14:29:55 公開日:2024-09-09
# タイミング攻撃に対する差別的プライバシのためのフレームワーク

A Framework for Differential Privacy Against Timing Attacks ( http://arxiv.org/abs/2409.05623v1 )

ライセンス: Link先を確認
Zachary Ratliff, Salil Vadhan, (参考訳) 差分プライバシー(DP)の標準的な定義は、隣り合うデータセット上のメカニズムの出力分布が区別できないことを保証します。 しかし、DPの実際の実装は、しばしば実行時ディストリビューションを通して情報を公開することができ、タイミングアタックの影響を受けやすい。 本研究では、タイミング側チャネルの存在下での差分プライバシーを確保するための一般的な枠組みを確立する。 出力に加えてプログラムのランタイムを観察する相手に対して、差分的にプライベートなままのプログラムをキャプチャする、タイミングプライバシという新たな概念を定義する。 我々のフレームワークは、タイミング安定なコンポーネントプログラムのチェーン化とランダムな遅延を伴ってタイミングプライバシを実現するDPプログラムの取得を可能にする。 重要なことは、私たちの定義では、異なるプライバシー手段を使用してタイミングのプライバシーを測定し、プライバシーを出力することができることです。 本稿では,RAM および Word RAM の計算モデルにおける標準 DP 計算プログラムを提供することにより,我々のフレームワークのインスタンス化方法を説明する。 さらに,OpenDPプログラミングフレームワークの自然な拡張を通じて,私たちのフレームワークをコードでどのように実現できるかを示す。

The standard definition of differential privacy (DP) ensures that a mechanism's output distribution on adjacent datasets is indistinguishable. However, real-world implementations of DP can, and often do, reveal information through their runtime distributions, making them susceptible to timing attacks. In this work, we establish a general framework for ensuring differential privacy in the presence of timing side channels. We define a new notion of timing privacy, which captures programs that remain differentially private to an adversary that observes the program's runtime in addition to the output. Our framework enables chaining together component programs that are timing-stable followed by a random delay to obtain DP programs that achieve timing privacy. Importantly, our definitions allow for measuring timing privacy and output privacy using different privacy measures. We illustrate how to instantiate our framework by giving programs for standard DP computations in the RAM and Word RAM models of computation. Furthermore, we show how our framework can be realized in code through a natural extension of the OpenDP Programming Framework.
翻訳日:2024-09-10 14:29:55 公開日:2024-09-09
# 衛星画像におけるスケール優先物体検出のための正規化接続

Renormalized Connection for Scale-preferred Object Detection in Satellite Imagery ( http://arxiv.org/abs/2409.05624v1 )

ライセンス: Link先を確認
Fan Zhang, Lingling Li, Licheng Jiao, Xu Liu, Fang Liu, Shuyuan Yang, Biao Hou, (参考訳) 衛星画像は、その長距離イメージングのために、小型/小型の物体の検出や、興味のある小さな物体の正確な位置特定や検出といった、様々なスケールで好まれるタスクをもたらす。 本稿では,効率的な特徴抽出の観点から再正規化群理論を実装するために,知識発見ネットワーク(KDN)を設計する。 KDN上の再正規化接続(RC)は、マルチスケール機能の 'synergistic focus' を可能にする。 我々は、KDNの観測に基づいて、n21Cと呼ばれる異なる接続強度を持つRCのクラスを抽象化し、FPNベースのマルチブランチ検出器に一般化する。 スケール優先タスクに関する一連のFPN実験において、FPNの「分極と対流」という考え方は、多数の大規模負のサンプルと背景雑音からの干渉により、検出器の学習を正しい方向に著しく妨げていることがわかった。 さらに、これらの負のサンプルは、焦点損失関数によって排除できない。 RCは、FPNベースの検出器のマルチレベル特徴の `divide-and-conquer' メカニズムを広範囲のスケール優先タスクに拡張し、特定の学習目標に対するマルチレベル特徴の相乗効果を実現する。 さらに、2つの側面における干渉活性化が大幅に減少し、検出器はより正しい方向に学習する。 n21に埋め込まれた17のよく設計された検知アーキテクチャの大規模な実験により、RCの有効性と効率が検証された。 特に、RCの最も単純な線形形式であるE421Cは、すべてのタスクにおいてよく機能し、RGTのスケーリング特性を満たす。 当社のアプローチは、コンピュータビジョンコミュニティからリモートセンシングコミュニティに、多数のよく設計された検出器を転送することを期待しています。

Satellite imagery, due to its long-range imaging, brings with it a variety of scale-preferred tasks, such as the detection of tiny/small objects, making the precise localization and detection of small objects of interest a challenging task. In this article, we design a Knowledge Discovery Network (KDN) to implement the renormalization group theory in terms of efficient feature extraction. Renormalized connection (RC) on the KDN enables ``synergistic focusing'' of multi-scale features. Based on our observations of KDN, we abstract a class of RCs with different connection strengths, called n21C, and generalize it to FPN-based multi-branch detectors. In a series of FPN experiments on the scale-preferred tasks, we found that the ``divide-and-conquer'' idea of FPN severely hampers the detector's learning in the right direction due to the large number of large-scale negative samples and interference from background noise. Moreover, these negative samples cannot be eliminated by the focal loss function. The RCs extends the multi-level feature's ``divide-and-conquer'' mechanism of the FPN-based detectors to a wide range of scale-preferred tasks, and enables synergistic effects of multi-level features on the specific learning goal. In addition, interference activations in two aspects are greatly reduced and the detector learns in a more correct direction. Extensive experiments of 17 well-designed detection architectures embedded with n21s on five different levels of scale-preferred tasks validate the effectiveness and efficiency of the RCs. Especially the simplest linear form of RC, E421C performs well in all tasks and it satisfies the scaling property of RGT. We hope that our approach will transfer a large number of well-designed detectors from the computer vision community to the remote sensing community.
翻訳日:2024-09-10 14:29:55 公開日:2024-09-09
# ナイーブベイを用いた分類のための最適投影法

Optimal Projections for Classification with Naive Bayes ( http://arxiv.org/abs/2409.05635v1 )

ライセンス: Link先を確認
David P. Hofmeyr, Francois Kamper, Michail M. Melonas, (参考訳) ネイブベイズ分類モデルでは、クラス条件密度は、基準基底方向に沿った境界密度の積として推定される。 本研究では, 関連する分類モデルの識別能力を高めることを目的として, この分解の代替的基盤を得るという課題について検討する。 この問題を射影探索として定式化し, 分類を行う最適線形射影を求める。 予測されたデータのネイブベイズ因数分解を用いて確率を推定する多項確率に基づいて最適性を決定する。 投影追跡は次元の縮小と可視化の付加的な利点を提供する。 本稿では、クラス条件付き独立成分分析と直感的な関係を論じ、これが実際的な応用においてどのように視覚的に実現されているかを示す。 得られた分類モデルの性能は, 公開されているベンチマークデータセットの大規模なコレクションを用いて検討し, 関連する代替案と比較した。 提案手法は,他の確率的判別分析モデルよりも大幅に優れており,Support Vector Machinesと高い競争力を持つことがわかった。

In the Naive Bayes classification model the class conditional densities are estimated as the products of their marginal densities along the cardinal basis directions. We study the problem of obtaining an alternative basis for this factorisation with the objective of enhancing the discriminatory power of the associated classification model. We formulate the problem as a projection pursuit to find the optimal linear projection on which to perform classification. Optimality is determined based on the multinomial likelihood within which probabilities are estimated using the Naive Bayes factorisation of the projected data. Projection pursuit offers the added benefits of dimension reduction and visualisation. We discuss an intuitive connection with class conditional independent components analysis, and show how this is realised visually in practical applications. The performance of the resulting classification models is investigated using a large collection of (162) publicly available benchmark data sets and in comparison with relevant alternatives. We find that the proposed approach substantially outperforms other popular probabilistic discriminant analysis models and is highly competitive with Support Vector Machines.
翻訳日:2024-09-10 14:29:54 公開日:2024-09-09
# 高分解能樹高推定のための3D-SARトモグラフィと機械学習

3D-SAR Tomography and Machine Learning for High-Resolution Tree Height Estimation ( http://arxiv.org/abs/2409.05636v1 )

ライセンス: Link先を確認
Grace Colverd, Jumpei Takami, Laura Schade, Karol Bot, Joseph A. Gallego-Mejia, (参考訳) 森林バイオマスの正確な推定は、地球規模の炭素循環モデリングと気候変動の緩和に不可欠である。 バイオマス計算の鍵となる木の高さは、合成開口レーダ(SAR)技術を用いて測定することができる。 本研究では,ESAバイオマス衛星ミッションの準備のために,SLC(Single Look Complex)画像とトモグラフィーキューブの2つのSAR製品から森林高度データを機械学習で抽出する。 我々は,ドイツのアイフェル国立公園のSARおよびLiDARデータを含むTtomoSenseデータセットを用いて,標高推定モデルの開発と評価を行った。 提案手法には,古典的手法,3次元U-Netを用いたディープラーニング,ベイズ最適化手法などが含まれる。 種々のSAR周波数と偏光線を試験することにより、将来の高さとバイオマスモデリングのベースラインを確立する。 森林の高さが2.82m以内になると予測されるモデルでは、30m前後の天蓋の絶対誤差が予想され、地球規模の炭素在庫を計測し、気候活動を支援する能力が向上した。

Accurately estimating forest biomass is crucial for global carbon cycle modelling and climate change mitigation. Tree height, a key factor in biomass calculations, can be measured using Synthetic Aperture Radar (SAR) technology. This study applies machine learning to extract forest height data from two SAR products: Single Look Complex (SLC) images and tomographic cubes, in preparation for the ESA Biomass Satellite mission. We use the TomoSense dataset, containing SAR and LiDAR data from Germany's Eifel National Park, to develop and evaluate height estimation models. Our approach includes classical methods, deep learning with a 3D U-Net, and Bayesian-optimized techniques. By testing various SAR frequencies and polarimetries, we establish a baseline for future height and biomass modelling. Best-performing models predict forest height to be within 2.82m mean absolute error for canopies around 30m, advancing our ability to measure global carbon stocks and support climate action.
翻訳日:2024-09-10 14:29:54 公開日:2024-09-09
# 可視赤外人物再識別のためのプロトタイプ駆動多機能生成

Prototype-Driven Multi-Feature Generation for Visible-Infrared Person Re-identification ( http://arxiv.org/abs/2409.05642v1 )

ライセンス: Link先を確認
Jiarui Li, Zhen Qiu, Yilin Yang, Yuqi Li, Zeyu Dong, Chuanguang Yang, (参考訳) 可視的・赤外線的人物再識別における主な課題は、可視的(視覚)像と赤外線的(赤外線)像の違いである。 これらの課題は、様々な視点と不規則な動きによってさらに複雑である。 既存の手法は、しばしば水平分割に頼って部分レベルの特徴を整列し、不正確さを導入し、モダリティの相違を減少させる効果が制限される。 本稿では,多彩な特徴を構築し,モジュールアライメントのための潜在的に類似した特徴をマイニングすることによって,モジュール間不一致を緩和することを目的とした,新しいプロトタイプ駆動多機能生成フレームワークを提案する。 PDMはMFGM(Multi-Feature Generation Module)とPLM(Prototype Learning Module)の2つの主要なコンポーネントから構成される。 MFGMは、歩行者を表現するために、モダリティ共有された特徴から密に分散した多様性特徴を生成する。 さらに、PLMは学習可能なプロトタイプを使用して、可視光と赤外線の局所的な特徴間の潜在意味的類似性を発掘し、それによってクロスモーダルなインスタンスレベルのアライメントを容易にする。 そこで本研究では,コサインの不均一性を損なうことにより,リッチな局所特徴抽出のためのプロトタイプの多様性を向上する。 SYSU-MM01 と LLCM のデータセットを用いた大規模な実験により,本手法が最先端の性能を実現することを示す。 私たちのコードはhttps://github.com/mmunhappy/ICASSP2025-PDMで公開されています。

The primary challenges in visible-infrared person re-identification arise from the differences between visible (vis) and infrared (ir) images, including inter-modal and intra-modal variations. These challenges are further complicated by varying viewpoints and irregular movements. Existing methods often rely on horizontal partitioning to align part-level features, which can introduce inaccuracies and have limited effectiveness in reducing modality discrepancies. In this paper, we propose a novel Prototype-Driven Multi-feature generation framework (PDM) aimed at mitigating cross-modal discrepancies by constructing diversified features and mining latent semantically similar features for modal alignment. PDM comprises two key components: Multi-Feature Generation Module (MFGM) and Prototype Learning Module (PLM). The MFGM generates diversity features closely distributed from modality-shared features to represent pedestrians. Additionally, the PLM utilizes learnable prototypes to excavate latent semantic similarities among local features between visible and infrared modalities, thereby facilitating cross-modal instance-level alignment. We introduce the cosine heterogeneity loss to enhance prototype diversity for extracting rich local features. Extensive experiments conducted on the SYSU-MM01 and LLCM datasets demonstrate that our approach achieves state-of-the-art performance. Our codes are available at https://github.com/mmunhappy/ICASSP2025-PDM.
翻訳日:2024-09-10 14:29:54 公開日:2024-09-09
# 解析設計パルスを用いたキャビティ内三状態分子の配向最大化

Maximizing orientation of a three-state molecule in a cavity with analytically designed pulses ( http://arxiv.org/abs/2409.05648v1 )

ライセンス: Link先を確認
Li-Bao Fan, Hai-Ji Li, Qi Chen, Hang Zhou, Heng Liu, Chuan-Cun Shu, (参考訳) 単一分子の最低3つの回転状態と単一モードキャビティを強く結合させることにより,分子偏光子の精密制御を理論的に検討する。 基本周波数共振器(\omega_c = 2B$, 回転定数$B$)を最低2つの回転状態と共振する基本周波数共振器(\omega_c = 4B$)と、第1および第2の励起回転状態と結合する第2ハーモニック共振器(\omega_c = 4B$)の2つの異なる共振器構成について検討した。 2つの偏光子配置に基づく2つの制御スキームを提案し、対応するパルス領域の定理を導出し、キャビティがない場合の分子と同一な理論上の最大配向を0.7746とする。 制御スキームは、その基底回転状態にある硫化カルボニル(OCS)分子で解析される。 数値シミュレーションの結果,分子偏光子の配向度を制御フィールドの帯域幅と位相に比例する理論制御方式を実証し,解析した。 この研究は、解析的に設計されたパルスを用いて、キャビティ内の超低温三状態分子の最大磁場自由配向を達成するための貴重な基準を提供する。

We theoretically explore the precise control of a molecular polariton by strongly coupling the lowest three rotational states of a single molecule with a single-mode cavity. We examine two distinct cavity resonance configurations: a fundamental frequency cavity ($\omega_c = 2B$ with the rotational constant $B$) resonating with the lowest two rotational states, and a second harmonic cavity ($\omega_c = 4B$) coupling with the first and second excited rotational states. We propose two control schemes based on the two polariton configurations and derive the corresponding pulse-area theorems to achieve a theoretical maximum orientation of 0.7746, identical to the molecule in the absence of the cavity. The control schemes are analyzed in Carbonyl Sulfide (OCS) molecules in their ground rotational state. Our numerical simulation results demonstrate the theoretical control schemes and analyze the sensitivity of the molecular polariton orientation degree to the control field bandwidth and phases. This work provides a valuable reference for achieving maximum field-free orientation of ultracold three-state molecules in a cavity using analytically designed pulses.
翻訳日:2024-09-10 14:29:54 公開日:2024-09-09
# 連続物体検出のためのラベル伝搬によるリプレイ強化

Replay Consolidation with Label Propagation for Continual Object Detection ( http://arxiv.org/abs/2409.05650v1 )

ライセンス: Link先を確認
Riccardo De Monte, Davide Dalle Pezze, Marina Ceccon, Francesco Pasti, Francesco Paissan, Elisabetta Farella, Gian Antonio Susto, Nicola Bellotto, (参考訳) 物体検出は、ロボット工学や自律運転などの多くの応用において、非常に関連性の高いコンピュータビジョン問題である。 継続学習~(CL)は、モデルが以前獲得した知識を維持しながら、段階的に新しい情報を学習する環境を考える。 ディープラーニングモデルは、新しいデータをトレーニングしながら、古い知識を破滅的に忘れてしまう傾向があるため、これは特に難しい。 特に、オブジェクト検出のための連続学習~(CLOD)は、分類のためのCLに比べてさらに困難である。 CLODでは、以前のタスクからのイメージには、将来のタスクでラベル付けされた未知のクラスが含まれている可能性がある。 これらのアノテーションの欠如は、リプレイベースのアプローチにタスク干渉の問題を引き起こす。 その結果、文献におけるほとんどの研究は蒸留に基づくアプローチに焦点をあてている。 しかし、これらのアプローチはタスク間でクラスが強く重複している場合にのみ有効である。 近年の手法の課題に対処するため,RCLPOD (Replay Consolidation with Label Propagation for Object Detection) と呼ばれるCLODの解法を提案する。 このリプレイ法に基づき,バッファメモリサンプルの強化によるタスク干渉問題を回避する。 提案手法はCLOD文献における既存の手法と比較して評価され,VOCやCOCOといった既存のベンチマークよりも優れた性能を示した。

Object Detection is a highly relevant computer vision problem with many applications such as robotics and autonomous driving. Continual Learning~(CL) considers a setting where a model incrementally learns new information while retaining previously acquired knowledge. This is particularly challenging since Deep Learning models tend to catastrophically forget old knowledge while training on new data. In particular, Continual Learning for Object Detection~(CLOD) poses additional difficulties compared to CL for Classification. In CLOD, images from previous tasks may contain unknown classes that could reappear labeled in future tasks. These missing annotations cause task interference issues for replay-based approaches. As a result, most works in the literature have focused on distillation-based approaches. However, these approaches are effective only when there is a strong overlap of classes across tasks. To address the issues of current methodologies, we propose a novel technique to solve CLOD called Replay Consolidation with Label Propagation for Object Detection (RCLPOD). Based on the replay method, our solution avoids task interference issues by enhancing the buffer memory samples. Our method is evaluated against existing techniques in CLOD literature, demonstrating its superior performance on established benchmarks like VOC and COCO.
翻訳日:2024-09-10 14:29:54 公開日:2024-09-09
# 英語Winogender Schemas for Consistency, Coverage, and Grammatical Casesの再検討

Revisiting English Winogender Schemas for Consistency, Coverage, and Grammatical Case ( http://arxiv.org/abs/2409.05653v1 )

ライセンス: Link先を確認
Vagrant Gautam, Julius Steuer, Eileen Bingert, Ray Johns, Anne Lauscher, Dietrich Klakow, (参考訳) コア参照解決におけるバイアスとロバスト性の測定は重要な目標ですが、そのような測定は、私たちがそれを使って測定するツールに匹敵するものではありません。 ウィノゲンダースキーマ(Rudinger et al , 2018)は、基準解決における性別バイアスを評価するために提案された影響力のあるデータセットであるが、より詳しく見てみると、異なる代名詞の文法的ケースを同じように扱うこと、テンプレート制約の違反、タイポグラフィ的エラーなど、信頼できる評価に使用することを損なうインスタンスの問題が明らかになる。 これらの問題を識別して修正し、新しいデータセットとしてWinogender 2.0を提供しています。 我々の変更は、言語モデルFLAN-T5のモデルサイズだけでなく、最先端の教師付きコア参照解決システムの性能にも影響し、F1は平均0.1ポイント低下した。 また,2進法を超えているコア参照分解能の偏差を評価するための新しい手法を提案する。 本手法と, 文法的な場合のバランスをとる新たなデータセットを用いて, 差分特性が代名詞集合だけでなく, それらの集合の表面形状にも異なることを実証的に示す。

While measuring bias and robustness in coreference resolution are important goals, such measurements are only as good as the tools we use to measure them with. Winogender schemas (Rudinger et al., 2018) are an influential dataset proposed to evaluate gender bias in coreference resolution, but a closer look at the data reveals issues with the instances that compromise their use for reliable evaluation, including treating different grammatical cases of pronouns in the same way, violations of template constraints, and typographical errors. We identify these issues and fix them, contributing a new dataset: Winogender 2.0. Our changes affect performance with state-of-the-art supervised coreference resolution systems as well as all model sizes of the language model FLAN-T5, with F1 dropping on average 0.1 points. We also propose a new method to evaluate pronominal bias in coreference resolution that goes beyond the binary. With this method and our new dataset which is balanced for grammatical case, we empirically demonstrate that bias characteristics vary not just across pronoun sets, but also across surface forms of those sets.
翻訳日:2024-09-10 14:29:54 公開日:2024-09-09
# 局所軌道変調による一般化可能なスキルの対話的インクリメンタル学習

Interactive incremental learning of generalizable skills with local trajectory modulation ( http://arxiv.org/abs/2409.05655v1 )

ライセンス: Link先を確認
Markus Knauer, Alin Albu-Schäffer, Freek Stulp, João Silvério, (参考訳) 実証から学ぶことの一般化(LfD)の問題は、特に多くのアプローチが出現した運動プリミティブの文脈において、長年にわたって大きな注目を集めてきた。 最近、二つの重要なアプローチが認識されるようになった。 実演軌跡を変調して局所的にスキルを適応させるのに対して、異なる座標系に対して動きを符号化するいわゆるタスクパラメータ化モデルでは、一般化の確率の積を用いる。 前者は精密で局所的な変調に適しているが、後者はワークスペースの広い領域を一般化することを目的としており、しばしば複数のオブジェクトを含む。 両方のアプローチを同時に活用することで一般化の質に対処することはほとんど注目されていない。 本研究では,軌道分布の局所的および大域的変調を同時に活用するインタラクティブな模倣学習フレームワークを提案する。 カーネル・ムーブメント・プリミティブ(KMP)フレームワークを基盤として,人間の直感フィードバックによるスキル・モジュレーションの新たなメカニズムを導入する。 当社のアプローチでは特に,インクリメンタルかつインタラクティブなバイスポイントの概念を活用しています。 1)モデル精度を局所的に改善する。 2)実行中にタスクに新しいオブジェクトを追加し、 3)デモが提供されていない地域にスキルを拡大する。 トルク制御 7-DoF, DLR SARA ロボットを用いて軸受リングローディングタスクの評価を行った。

The problem of generalization in learning from demonstration (LfD) has received considerable attention over the years, particularly within the context of movement primitives, where a number of approaches have emerged. Recently, two important approaches have gained recognition. While one leverages via-points to adapt skills locally by modulating demonstrated trajectories, another relies on so-called task-parameterized models that encode movements with respect to different coordinate systems, using a product of probabilities for generalization. While the former are well-suited to precise, local modulations, the latter aim at generalizing over large regions of the workspace and often involve multiple objects. Addressing the quality of generalization by leveraging both approaches simultaneously has received little attention. In this work, we propose an interactive imitation learning framework that simultaneously leverages local and global modulations of trajectory distributions. Building on the kernelized movement primitives (KMP) framework, we introduce novel mechanisms for skill modulation from direct human corrective feedback. Our approach particularly exploits the concept of via-points to incrementally and interactively 1) improve the model accuracy locally, 2) add new objects to the task during execution and 3) extend the skill into regions where demonstrations were not provided. We evaluate our method on a bearing ring-loading task using a torque-controlled, 7-DoF, DLR SARA robot.
翻訳日:2024-09-10 14:29:54 公開日:2024-09-09
# データアトリビューションに対する敵対的攻撃

Adversarial Attacks on Data Attribution ( http://arxiv.org/abs/2409.05657v1 )

ライセンス: Link先を確認
Xinhe Wang, Pingbang Hu, Junwei Deng, Jiaqi W. Ma, (参考訳) データ属性は、トレーニングデータの価値を測定し、データプロバイダを補うために使用されるAIモデルの出力に対する個々のトレーニングデータポイントの貢献を定量化することを目的としている。 金融決定と補償機構への影響を考えると、データ帰属手法の対角的堅牢性に批判的な疑問が生じる。 しかし、この問題に対処する体系的な研究はほとんど行われていない。 本研究は、敵の目標と能力について明確な仮定で脅威モデルを詳述し、データ属性に対する原則的敵攻撃手法を提案することによって、このギャップを埋めることを目的としている。 本稿では,2つの手法,シャドウアタック(Shadow Attack)とアウトレイラアタック(Outlier Attack)を提案する。 シャドーアタック(シャドーアタック)は、AIアプリケーションにおけるデータ配布に関する知識を活用し、メンバシップ推論攻撃で一般的に使用されるテクニックである"シャドートレーニング(Shadow training)"を通じて、敵の摂動を導出する。 対照的に、Outlier攻撃はデータ配布に関する知識を前提とせず、ターゲットモデルの予測にブラックボックスクエリのみに依存する。 多くのデータ属性メソッドに存在する帰納バイアス(アウトリーなデータポイントは影響を受けやすい)を活用し、操作されたデータセットを生成するために逆例を使用する。 画像分類やテキスト生成タスクにおいて、シャドウアタックはデータ属性ベースの補償を少なくとも200%増加させ、アウトリエアタックは185%から643%の補償インフレーションを達成する。

Data attribution aims to quantify the contribution of individual training data points to the outputs of an AI model, which has been used to measure the value of training data and compensate data providers. Given the impact on financial decisions and compensation mechanisms, a critical question arises concerning the adversarial robustness of data attribution methods. However, there has been little to no systematic research addressing this issue. In this work, we aim to bridge this gap by detailing a threat model with clear assumptions about the adversary's goal and capabilities, and by proposing principled adversarial attack methods on data attribution. We present two such methods, Shadow Attack and Outlier Attack, both of which generate manipulated datasets to adversarially inflate the compensation. The Shadow Attack leverages knowledge about the data distribution in the AI applications, and derives adversarial perturbations through "shadow training", a technique commonly used in membership inference attacks. In contrast, the Outlier Attack does not assume any knowledge about the data distribution and relies solely on black-box queries to the target model's predictions. It exploits an inductive bias present in many data attribution methods - outlier data points are more likely to be influential - and employs adversarial examples to generate manipulated datasets. Empirically, in image classification and text generation tasks, the Shadow Attack can inflate the data-attribution-based compensation by at least 200%, while the Outlier Attack achieves compensation inflation ranging from 185% to as much as 643%.
翻訳日:2024-09-10 14:29:54 公開日:2024-09-09
# N-Gramインデクシングによるトレーサプリフィックスによるビジネスプロセス状態の効率的なオンライン計算

Efficient Online Computation of Business Process State From Trace Prefixes via N-Gram Indexing ( http://arxiv.org/abs/2409.05658v1 )

ライセンス: Link先を確認
David Chapela-Campa, Marlon Dumas, (参考訳) プロセスモデルとプロセスの進行中ケースのトレースプレフィックスを含むイベントログが与えられた場合、各ケースをモデル内の対応する状態(マーキング)にマップする。 この状態計算操作は、ログアニメーションや短期シミュレーションのような他のプロセスマイニング操作の構成要素である。 この状態計算問題に対するアプローチは、モデルに対して各トレースプレフィックスのトークンベースのリプレイを実行することである。 しかし、トレースプレフィックスがプロセスモデルの振舞いに厳密に従わない場合、トークンの再生はプロセスの初期状態から到達できない状態を生成する可能性がある。 もう一つのアプローチは、まず各実行中のケースのトレースプレフィックスとモデルの間のアライメントを計算し、次にアライメントされたトレースプレフィックスを再生する。 しかし、(prefix-)アライメントは計算コストが高い。 本稿では,現在進行中の事例のトレースプレフィックスが与えられた場合,n-gramとして状態を表わす指標を用いて,その状態を一定時間に計算する手法を提案する。 実験により,提案手法の精度はプレフィックスアライメント手法に匹敵するが,スループットは毎秒数十万トレースであることがわかった。

This paper addresses the following problem: Given a process model and an event log containing trace prefixes of ongoing cases of a process, map each case to its corresponding state (i.e., marking) in the model. This state computation operation is a building block of other process mining operations, such as log animation and short-term simulation. An approach to this state computation problem is to perform a token-based replay of each trace prefix against the model. However, when a trace prefix does not strictly follow the behavior of the process model, token replay may produce a state that is not reachable from the initial state of the process. An alternative approach is to first compute an alignment between the trace prefix of each ongoing case and the model, and then replay the aligned trace prefix. However, (prefix-)alignment is computationally expensive. This paper proposes a method that, given a trace prefix of an ongoing case, computes its state in constant time using an index that represents states as n-grams. An empirical evaluation shows that the proposed approach has an accuracy comparable to that of the prefix-alignment approach, while achieving a throughput of hundreds of thousands of traces per second.
翻訳日:2024-09-10 14:29:54 公開日:2024-09-09
# 組込みプラットフォーム上でのリアルタイム人間行動認識

Real-Time Human Action Recognition on Embedded Platforms ( http://arxiv.org/abs/2409.05662v1 )

ライセンス: Link先を確認
Ruiqi Wang, Zichen Wang, Peiqi Gao, Mingzhen Li, Jaehwan Jeong, Yihang Xu, Yejin Lee, Lisa Connor, Chenyang Lu, (参考訳) コンピュータビジョンと深層学習の進歩により,映像に基づく人間行動認識(HAR)が実用化されている。 しかし、計算パイプラインの複雑さのため、ライブビデオストリーム上でHARを実行すると、組み込みプラットフォームでは過度な遅延が発生する。 この作業は、HARのリアルタイムパフォーマンス課題に4つのコントリビューションで取り組みます。 1) 最先端HARパイプラインにおける遅延ボトルネックとして標準光学フロー(OF)抽出手法を同定する実験的検討。 2) 新たな効率的な動作特徴抽出器の必要性を浮き彫りにした,標準手法と深層学習手法との遅延精度のトレードオフを探る。 3) 動作特徴抽出のための新しい単一ショットニューラルネットワークアーキテクチャであるIce(Integrated Motion Feature Extractor)の設計。 4)組み込みプラットフォームに適したリアルタイムHARシステムRT-HAREの開発。 Nvidia Jetson Xavier NXプラットフォームの実験結果によると、RT-HAREはリアルタイムHARを毎秒30フレームのフレームレートで実現し、高いレベルの認識精度を実現している。

With advancements in computer vision and deep learning, video-based human action recognition (HAR) has become practical. However, due to the complexity of the computation pipeline, running HAR on live video streams incurs excessive delays on embedded platforms. This work tackles the real-time performance challenges of HAR with four contributions: 1) an experimental study identifying a standard Optical Flow (OF) extraction technique as the latency bottleneck in a state-of-the-art HAR pipeline, 2) an exploration of the latency-accuracy tradeoff between the standard and deep learning approaches to OF extraction, which highlights the need for a novel, efficient motion feature extractor, 3) the design of Integrated Motion Feature Extractor (IMFE), a novel single-shot neural network architecture for motion feature extraction with drastic improvement in latency, 4) the development of RT-HARE, a real-time HAR system tailored for embedded platforms. Experimental results on an Nvidia Jetson Xavier NX platform demonstrated that RT-HARE realizes real-time HAR at a video frame rate of 30 frames per second while delivering high levels of recognition accuracy.
翻訳日:2024-09-10 14:19:16 公開日:2024-09-09
# フェルミオン型光学超格子による化学シミュレーション

Simulating Chemistry with Fermionic Optical Superlattices ( http://arxiv.org/abs/2409.05663v1 )

ライセンス: Link先を確認
Fotios Gkritsis, Daniel Dux, Jin Zhang, Naman Jain, Christian Gogolin, Philipp M. Preiss, (参考訳) 量子化学における変分最適化のための量子数保存Ans\atzeは、光学超格子における超低温フェルミオンへのエレガントなマッピングであることを示す。 ネイティブハバード力学を用いて任意の分子ハミルトニアンの試験基底状態を作成し、格子内で分子エネルギーを測定できる。 この方式では、相互作用と化学的ポテンシャルを局所的に制御し、トンネル力学をグローバルに制御する必要があるが、光ツイーザー、シャットリング操作、長距離相互作用の必要性を予見する。 分子ハミルトニアンから格子演算の列への完全なコンパイルパイプラインを記述し、量子シミュレーションと化学の具体的なリンクを提供する。 我々の研究は、現在のフェルミオン型光学格子系に、Double Factorization(英語版)やQuantum Tailored Coupled Cluster(英語版)のような最近の量子アルゴリズム技術の応用を可能にする。 我々は、小さな非自明なハードウェア実験のために、詳細な量子リソース推定を提供する。

We show that quantum number preserving Ans\"atze for variational optimization in quantum chemistry find an elegant mapping to ultracold fermions in optical superlattices. Using native Hubbard dynamics, trial ground states for arbitrary molecular Hamiltonians can be prepared and their molecular energies measured in the lattice. The scheme requires local control over interactions and chemical potentials and global control over tunneling dynamics, but foregoes the need for optical tweezers, shuttling operations, or long-range interactions. We describe a complete compilation pipeline from the molecular Hamiltonian to the sequence of lattice operations, thus providing a concrete link between quantum simulation and chemistry. Our work enables the application of recent quantum algorithmic techniques, such as Double Factorization and quantum Tailored Coupled Cluster, to present-day fermionic optical lattice systems with significant improvements in the required number of experimental repetitions. We provide detailed quantum resource estimates for small non-trivial hardware experiments.
翻訳日:2024-09-10 14:19:16 公開日:2024-09-09
# K-Fold Causal BARTによるCATE推定

K-Fold Causal BART for CATE Estimation ( http://arxiv.org/abs/2409.05665v1 )

ライセンス: Link先を確認
Hugo Gobato Souto, Francisco Louzada Neto, (参考訳) 本研究では,K-Fold Causal Bayesian Additive Regression Trees (K-Fold Causal BART) という新しいモデルを提案し,評価することを目的としている。 この研究では、モデルのパフォーマンスを検証するために、広く認識されているInfant Health and Development Program(IHDP)ベンチマークデータセットを含む、合成および半合成データセットを使用している。 合成シナリオにおける有望な結果にもかかわらず、IHDPデータセットは、提案されたモデルがATEとCATE推定の最先端ではないことを明らかにしている。 それでも、この研究はいくつかの新しい洞察を与えている。 1) ps-BARTモデルは、他のベンチマークモデル(BCFモデルを含む)と比較して、より一般化したCATEとATE推定に好適な選択である可能性が高い。 2) BCFモデルの性能は, 処理効果の不均一性の増加とともに著しく低下する一方, ps-BARTモデルは頑健である。 3 治療効果の不均一性が低い場合、CATEの不確実性定量化においてモデルは過信される傾向にある。 4) 2番目のK-Fold法は、CATE推定における過度な適合を避けるために不要であり、性能を向上することなく計算コストを増大させる。 詳細な分析は, データセットの特徴を理解し, ニュアンス評価手法を用いることの重要性を明らかにする。 The conclusion of Curth et al (2021) that indirect Strategy for CATE Estimation is superior for the IHDP dataset is contradicted by the results of this study。 これらの知見は既存の仮定に挑戦し、因果推論手法を強化するための今後の研究の方向性を提案する。

This research aims to propose and evaluate a novel model named K-Fold Causal Bayesian Additive Regression Trees (K-Fold Causal BART) for improved estimation of Average Treatment Effects (ATE) and Conditional Average Treatment Effects (CATE). The study employs synthetic and semi-synthetic datasets, including the widely recognized Infant Health and Development Program (IHDP) benchmark dataset, to validate the model's performance. Despite promising results in synthetic scenarios, the IHDP dataset reveals that the proposed model is not state-of-the-art for ATE and CATE estimation. Nonetheless, the research provides several novel insights: 1. The ps-BART model is likely the preferred choice for CATE and ATE estimation due to better generalization compared to the other benchmark models - including the Bayesian Causal Forest (BCF) model, which is considered by many the current best model for CATE estimation, 2. The BCF model's performance deteriorates significantly with increasing treatment effect heterogeneity, while the ps-BART model remains robust, 3. Models tend to be overconfident in CATE uncertainty quantification when treatment effect heterogeneity is low, 4. A second K-Fold method is unnecessary for avoiding overfitting in CATE estimation, as it adds computational costs without improving performance, 5. Detailed analysis reveals the importance of understanding dataset characteristics and using nuanced evaluation methods, 6. The conclusion of Curth et al. (2021) that indirect strategies for CATE estimation are superior for the IHDP dataset is contradicted by the results of this research. These findings challenge existing assumptions and suggest directions for future research to enhance causal inference methodologies.
翻訳日:2024-09-10 14:19:16 公開日:2024-09-09
# 深層学習による放射線治療中のヒト・チェレンコフ画像における生体組織学的特徴のロバストリアルタイム分割

Robust Real-time Segmentation of Bio-Morphological Features in Human Cherenkov Imaging during Radiotherapy via Deep Learning ( http://arxiv.org/abs/2409.05666v1 )

ライセンス: Link先を確認
Shiru Wang, Yao Chen, Lesley A. Jarvis, Yucheng Tang, David J. Gladstone, Kimberley S. Samkoe, Brian W. Pogue, Petr Bruza, Rongxiao Zhang, (参考訳) チェレンコフイメージングは、放射線治療(RT)中に患者に大量のX線や電子線をリアルタイムに可視化することを可能にする。 これらの画像に見られる血管などの生体形態学的特徴は、正確なRT治療に不可欠な位置決めと運動管理の検証に使用できる患者固有のシグネチャである。 しかし,従来の特徴分節処理の速度と精度が遅いため,これまでこの生物学的特徴量追跡の協調的な分析は行われなかった。 本研究は,映像フレームレート処理を実現するための,そのようなアプリケーションのための最初のディープラーニングフレームワークを実証した。 チェレンコフ画像におけるこれらの特徴の限定アノテーションの課題に対処するために、転写学習戦略を適用した。 ResNetセグメンテーションフレームワークの事前トレーニングには,20,529個のパッチ網膜画像を含む基底撮影データセットが使用された。 その後、注釈付血管マスクを用いたチェレンコフデータセット(19例の乳がん患者212例から1,483例)を用いて、正確なセグメンテーション予測のためのモデルを微調整した。 この深層学習の枠組みは、皮膚下静脈、傷、色素皮膚を含む19例の患者に対して、チェレンコフによる生体形態学的特徴の一貫性と迅速なセグメンテーションを実現した。 モデルによる平均セグメンテーションはDiceスコア0.85を達成し、インスタンス当たり0.7ミリ秒未満の処理時間を必要とした。 本モデルは,従来の手動分割法と比較して,入力画像のばらつきや速度に優れた一貫性を示し,リアルタイム監視におけるオンライン分割の基礎を築いた。

Cherenkov imaging enables real-time visualization of megavoltage X-ray or electron beam delivery to the patient during Radiation Therapy (RT). Bio-morphological features, such as vasculature, seen in these images are patient-specific signatures that can be used for verification of positioning and motion management that are essential to precise RT treatment. However until now, no concerted analysis of this biological feature-based tracking was utilized because of the slow speed and accuracy of conventional image processing for feature segmentation. This study demonstrated the first deep learning framework for such an application, achieving video frame rate processing. To address the challenge of limited annotation of these features in Cherenkov images, a transfer learning strategy was applied. A fundus photography dataset including 20,529 patch retina images with ground-truth vessel annotation was used to pre-train a ResNet segmentation framework. Subsequently, a small Cherenkov dataset (1,483 images from 212 treatment fractions of 19 breast cancer patients) with known annotated vasculature masks was used to fine-tune the model for accurate segmentation prediction. This deep learning framework achieved consistent and rapid segmentation of Cherenkov-imaged bio-morphological features on another 19 patients, including subcutaneous veins, scars, and pigmented skin. Average segmentation by the model achieved Dice score of 0.85 and required less than 0.7 milliseconds processing time per instance. The model demonstrated outstanding consistency against input image variances and speed compared to conventional manual segmentation methods, laying the foundation for online segmentation in real-time monitoring in a prospective setting.
翻訳日:2024-09-10 14:19:16 公開日:2024-09-09
# アンラーニング・コンシールメント : 拡散モデルにおけるアンラーニングの批判的分析と評価指標

Unlearning or Concealment? A Critical Analysis and Evaluation Metrics for Unlearning in Diffusion Models ( http://arxiv.org/abs/2409.05668v1 )

ライセンス: Link先を確認
Aakash Sen Sharma, Niladri Sarkar, Vikram Chundawat, Ankur A Mali, Murari Mandal, (参考訳) 近年の研究では、拡散モデルにおける概念の除去と目標忘れの方法に大きな関心が寄せられている。 本稿では,既存の拡散モデルアンラーニング手法の重大な脆弱性を明らかにするために,包括的ホワイトボックス解析を行う。 既存の手法で未学習に使用する目的関数が,対象概念(忘れられがちな概念)を,対応するプロンプトに対して分離することにつながることを示す。 これは隠蔽であり、本来の未学習ではない。 現在の手法の非効率性は、主に特定のプロンプトセットの生成確率を減らし、推論プロセスで使用される中間ガイダンスの多様さを無視することに起因する。 本稿では,拡散モデルにおける非学習のための4つの手法について,厳密な理論的および実証的研究を行った。 本稿では,CRS(Concept Retrieval Score)とCCS(Concept Confidence Score)の2つの新しい評価指標を紹介する。 これらの指標は、未学習の拡散モデルから忘れられた概念を復元できる敵攻撃設定の成功に基づいている。 CRSは、未学習の後の未学習モデルと完全に訓練されたモデルの潜在表現の類似度を測定する。 本報告では, 忘れられた概念の検索範囲を, ガイダンスの量の増加とともに報告する。 CCSは、対象概念を操作されたデータに割り当てる際のモデルの信頼性を定量化する。 これは、未学習モデルの世代が、ガイダンスの量の増加とともに、元のドメイン知識と整合する可能性を報告している。 拡散モデルのための厳密な指標を用いた既存の未学習手法の評価は、真の未学習概念の能力に重大な欠点があることを示唆している。 ソースコード:https://respailab.github.io/unlearning-or-concealment

Recent research has seen significant interest in methods for concept removal and targeted forgetting in diffusion models. In this paper, we conduct a comprehensive white-box analysis to expose significant vulnerabilities in existing diffusion model unlearning methods. We show that the objective functions used for unlearning in the existing methods lead to decoupling of the targeted concepts (meant to be forgotten) for the corresponding prompts. This is concealment and not actual unlearning, which was the original goal. The ineffectiveness of current methods stems primarily from their narrow focus on reducing generation probabilities for specific prompt sets, neglecting the diverse modalities of intermediate guidance employed during the inference process. The paper presents a rigorous theoretical and empirical examination of four commonly used techniques for unlearning in diffusion models. We introduce two new evaluation metrics: Concept Retrieval Score (CRS) and Concept Confidence Score (CCS). These metrics are based on a successful adversarial attack setup that can recover forgotten concepts from unlearned diffusion models. The CRS measures the similarity between the latent representations of the unlearned and fully trained models after unlearning. It reports the extent of retrieval of the forgotten concepts with increasing amount of guidance. The CCS quantifies the confidence of the model in assigning the target concept to the manipulated data. It reports the probability of the unlearned model's generations to be aligned with the original domain knowledge with increasing amount of guidance. Evaluating existing unlearning methods with our proposed stringent metrics for diffusion models reveals significant shortcomings in their ability to truly unlearn concepts. Source Code: https://respailab.github.io/unlearning-or-concealment
翻訳日:2024-09-10 14:19:16 公開日:2024-09-09
# 事前データフィットネットワークによるゼロショットアウトレイラ検出:モデル選択バイゴーン!

Zero-shot Outlier Detection via Prior-data Fitted Networks: Model Selection Bygone! ( http://arxiv.org/abs/2409.05672v1 )

ライセンス: Link先を確認
Yuchen Shen, Haomin Wen, Leman Akoglu, (参考訳) 外乱検知(OD)は、環境モニタリング、サイバーセキュリティ、ファイナンス、医療に多くの応用があるため、膨大な文献がある。 本質的に教師なしのタスクであるモデル選択は、ラベルの監督なしにOD(アルゴリズムとハイパーパラメータの選択の両方)にとって重要なボトルネックである。 古典的アルゴリズムとディープ・ニューラル・アーキテクチャの両方から選択すべきテクニックが多数あり、いくつかの研究でハイパーパラメータの感度が報告されているが、この文献は教師なしのモデル選択にかなり重点を置いており、実際にはODの有効利用を制限している。 本稿では,FoMo-0Dを提案する。0/0ショットODにおいて,モデル選択のハードルを完全に回避する変形的な新しい方向を探索し,新たな地盤を破る。 FoMo-0Dの背後にある基本的な考え方は、Muler et al (2022)によって最近導入されたPresideed-data Fitted Networksである。 基本的には、FoMo-0Dは、表データ上のゼロ/0ショットODのための事前訓練されたファンデーションモデルであり、単一のフォワードパスによって、推論時に任意のテストデータの(外)ラベルを直接予測することができる。 26のベースライン法に対する57の公開ベンチマークデータセットに対する大規模な実験では、FoMo-0Dは上位2のベースラインと統計的に変わらないが、ベースラインの大部分をはるかに上回り、平均推定時間は7.7msである。

Outlier detection (OD) has a vast literature as it finds numerous applications in environmental monitoring, cybersecurity, finance, and medicine to name a few. Being an inherently unsupervised task, model selection is a key bottleneck for OD (both algorithm and hyperparameter selection) without label supervision. There is a long list of techniques to choose from -- both classical algorithms and deep neural architectures -- and while several studies report their hyperparameter sensitivity, the literature is quite slim on unsupervised model selection -- limiting the effective use of OD in practice. In this paper we present FoMo-0D, for zero/0-shot OD exploring a transformative new direction that bypasses the hurdle of model selection altogether (!), thus breaking new ground. The fundamental idea behind FoMo-0D is the Prior-data Fitted Networks, recently introduced by Muller et al.(2022), which trains a Transformer model on a large body of synthetically generated data from a prior data distribution. In essence, FoMo-0D is a pretrained Foundation Model for zero/0-shot OD on tabular data, which can directly predict the (outlier/inlier) label of any test data at inference time, by merely a single forward pass -- making obsolete the need for choosing an algorithm/architecture, tuning its associated hyperparameters, and even training any model parameters when given a new OD dataset. Extensive experiments on 57 public benchmark datasets against 26 baseline methods show that FoMo-0D performs statistically no different from the top 2nd baseline, while significantly outperforming the majority of the baselines, with an average inference time of 7.7 ms per test sample.
翻訳日:2024-09-10 14:19:16 公開日:2024-09-09
# エンドツーエンドASRモデルを用いたリアルタイム転写の評価

Evaluation of real-time transcriptions using end-to-end ASR models ( http://arxiv.org/abs/2409.05674v1 )

ライセンス: Link先を確認
Carlos Arriaga, Alejandro Pozo, Javier Conde, Alvaro Alonso, (参考訳) 音声認識(ASR)や音声テキスト(STT)はここ数年で大きく進歩している。 パイプラインに基づく従来のアーキテクチャは、モデルのトレーニングプロセスを簡素化し、合理化するための統合エンドツーエンド(E2E)アーキテクチャに置き換えられている。 さらに、弱教師付き学習のような新しいAIトレーニング手法は、モデルトレーニングのための高品質なオーディオデータセットの必要性を減らした。 しかし、これらの進歩にもかかわらず、リアルタイムの転写の研究はほとんど、あるいは全く行われていない。 リアルタイムのシナリオでは、音声は事前に記録されておらず、入力された音声は、ASRシステムによって処理されるように断片化されなければならない。 リアルタイムの要件を達成するためには、これらのフラグメントを可能な限り短くしてレイテンシを低減する必要がある。 しかし、音声は、発話を2つの別々の断片に分割すると誤った書き起こしが発生するため、いかなる時点でも分割することはできない。 また、短いフラグメントはASRモデルのコンテキストを減らします。 そのため、異なる分割アルゴリズムを設計し、テストし、結果の転写の質と遅延を最適化する必要がある。 本稿では、3つの音声分割アルゴリズムを異なるASRモデルで評価し、転写品質とエンドツーエンド遅延の両方に与える影響を判定する。 アルゴリズムは一定間隔での断片化、音声活動検出(VAD)、フィードバックによる断片化である。 その結果、音声の断片化なしに同じモデルの性能を比較して、この分割の効果を判定する。 その結果, VADフラグメンテーションは最高の品質を最高の遅延で提供するのに対し, 一定間隔でのフラグメンテーションは最低品質と最低遅延を与えることがわかった。 新たに提案されたフィードバックアルゴリズムは, 1.5-2s遅延の低減のためにWERの2-4%増加をVADスプリッティングと交換する。

Automatic Speech Recognition (ASR) or Speech-to-text (STT) has greatly evolved in the last few years. Traditional architectures based on pipelines have been replaced by joint end-to-end (E2E) architectures that simplify and streamline the model training process. In addition, new AI training methods, such as weak-supervised learning have reduced the need for high-quality audio datasets for model training. However, despite all these advancements, little to no research has been done on real-time transcription. In real-time scenarios, the audio is not pre-recorded, and the input audio must be fragmented to be processed by the ASR systems. To achieve real-time requirements, these fragments must be as short as possible to reduce latency. However, audio cannot be split at any point as dividing an utterance into two separate fragments will generate an incorrect transcription. Also, shorter fragments provide less context for the ASR model. For this reason, it is necessary to design and test different splitting algorithms to optimize the quality and delay of the resulting transcription. In this paper, three audio splitting algorithms are evaluated with different ASR models to determine their impact on both the quality of the transcription and the end-to-end delay. The algorithms are fragmentation at fixed intervals, voice activity detection (VAD), and fragmentation with feedback. The results are compared to the performance of the same model, without audio fragmentation, to determine the effects of this division. The results show that VAD fragmentation provides the best quality with the highest delay, whereas fragmentation at fixed intervals provides the lowest quality and the lowest delay. The newly proposed feedback algorithm exchanges a 2-4% increase in WER for a reduction of 1.5-2s delay, respectively, to the VAD splitting.
翻訳日:2024-09-10 14:19:16 公開日:2024-09-09
# 雑音環境下でのハイパーグラフ状態によるクォート状態の量子テレポーテーション

Quantum teleportation of a qutrit state via a hypergraph state in a noisy environment ( http://arxiv.org/abs/2409.05675v1 )

ライセンス: Link先を確認
Souvik Giri, Supriyo Dutta, (参考訳) 量子テレポーテーションの概念は、量子通信の理論において基本的なものである。 異なる物理シナリオで量子テレポーテーションのモデルを開発することは、この方向の研究の現代的なトレンドである。 この研究はハイパーグラフ理論と量子テレポーテーションのインターフェースにある。 ノイズの多い環境でのクォート状態のための新しいテレポーテーションプロトコルを提案する。 このプロトコルは、量子情報を運ぶために、パーティ間で量子チャネルとして共有された量子ハイパーグラフ状態を利用する。 共有状態の生成の間に異なる量子ノイズが作用する可能性がある。 本稿では,Wyel演算子を用いた四重項に対して一般化された6種類の雑音について考察する。 これらは、クエット・フリップノイズ、クット・フェーズ・フリップノイズ、非偏極ノイズ、マルコフ振幅減衰チャネル、マルコフ振幅減衰チャネル、非マルコフ偏極ノイズである。 チャネルとして使用する要件を満たすクエトリットハイパーグラフは5つしかない。 私たちはそれら全てをこの作品に含めている。 異なるハイパーグラフ状態と異なるノイズに対して、量子テレポーテーションの忠実度の分析式を探索する。

The concept of quantum teleportation is fundamental in the theory of quantum communication. Developing models of quantum teleportation in different physical scenario is a modern trend of research in this direction. This work is at the interface of hypergraph theory and quantum teleportation. We propose a new teleportation protocol for qutrit states in a noisy environment. This protocol utilizes a shared quantum hypergraph state between parties as quantum channels, to carry quantum information. During the preparation of the shared state different quantum noise may act on it. In this article, we consider six types of noises which are generalized for qutrits using Wyel operators. They are the qutrit-flip noise, qutrit-phase-flip noise, depolarizing noise, Markovian and non-Markovian amplitude damping channel, Markovian and non-Markovian dephasing channel, and non-Markovian depolarization noise. There are only five qutrit hypergraph states which satisfies our requirements to be used as a channel. We consider all of them in this work. For different hypergraph states and different noises we work out the analytical expressions of quantum teleportation fidelity.
翻訳日:2024-09-10 14:19:16 公開日:2024-09-09
# 影推定のための量子IC-POVMの回路最適化

Circuit optimization of qubit IC-POVMs for shadow estimation ( http://arxiv.org/abs/2409.05676v1 )

ライセンス: Link先を確認
Zhou You, Qing Liu, You Zhou, (参考訳) 量子システムから情報を抽出することは、量子物理学と情報処理において重要である。 シャドー推定のようなランダム化測定に基づく手法は、そのようなタスクを効果的に達成する上での利点を示す。 しかし、ランダム化された測定にはランダムなユニタリ進化の応用が必要であり、これは実験的設定や回路パラメータの頻繁な調整を必然的に必要としており、実用的な実装の課題を提起している。 これらの制約に対処するため、正の演算子値測定(POVM)が統合され、リアルタイムのシングルセットシャドウ推定を実現している。 本研究では,情報完備なPOVM(IC-POVM)の実装回路におけるCNOTゲート数を削減することで,POVMに基づくシャドウ推定を推し進め,特に対称なIC-POVM(SIC-POVM)を次元拡張フレームワークを通じて高速化する。 単一キュービットの最小IC-POVMは少なくとも2つのCNOTゲートで実装でき、SIC-POVMは1つのCNOTゲートで実装可能であることを示す。 特に,任意のSIC-POVMのコンパイル回路の簡潔な形式と,ゲートパラメータを決定するための効率的なアルゴリズムを提供する。 さらに、最適化された回路コンパイルをシャドウ推定に適用し、ノイズ耐性性能を示し、様々なSIC-POVMをコンパイルする際の柔軟性を強調した。 本研究は,量子プラットフォーム上でのqubit IC-POVMの実用化の道を開くものである。

Extracting information from quantum systems is crucial in quantum physics and information processing. Methods based on randomized measurements, like shadow estimation, show advantages in effectively achieving such tasks. However, randomized measurements require the application of random unitary evolution, which unavoidably necessitates frequent adjustments to the experimental setup or circuit parameters, posing challenges for practical implementations. To address these limitations, positive operator-valued measurements (POVMs) have been integrated to realize real-time single-setting shadow estimation. In this work, we advance the POVM-based shadow estimation by reducing the CNOT gate count for the implementation circuits of informationally complete POVMs (IC-POVMs), in particular, the symmetric IC-POVMs (SIC-POVMs), through the dimension dilation framework. We show that any single-qubit minimal IC-POVM can be implemented using at most 2 CNOT gates, while an SIC-POVM can be implemented with only 1 CNOT gate. In particular, we provide a concise form of the compilation circuit of any SIC-POVM along with an efficient algorithm for the determination of gate parameters. Moreover, we apply the optimized circuit compilation to shadow estimation, showcasing its noise-resilient performance and highlighting the flexibility in compiling various SIC-POVMs. Our work paves the way for the practical applications of qubit IC-POVMs on quantum platforms.
翻訳日:2024-09-10 14:19:16 公開日:2024-09-09
# RegNLP in Action: 自動情報検索と回答生成によるコンプライアンスの実現

RegNLP in Action: Facilitating Compliance Through Automated Information Retrieval and Answer Generation ( http://arxiv.org/abs/2409.05677v1 )

ライセンス: Link先を確認
Tuba Gokhan, Kexin Wang, Iryna Gurevych, Ted Briscoe, (参考訳) 政府の規制機関が発行する規制文書は、規則、ガイドライン、および組織が法的遵守のために従わなければならない基準を定めている。 これらの文書は、その長さ、複雑さ、頻繁な更新を特徴とするものであり、継続的なコンプライアンスを確保するために、組織の一部に時間と専門知識の相当な割り当てが必要であり、規制規則や義務のアクセスと解釈を簡素化することを目的とした多分野のサブフィールドである。 本稿では,RegNLPにおける自動質問・回答生成タスクを定義し,Abu Dhabi Global Markets (ADGM) の金融規制文書収集から抽出した27,869の質問を含むObliQAデータセットを作成し,ベースラインを設計し,RePASを用いて評価する。

Regulatory documents, issued by governmental regulatory bodies, establish rules, guidelines, and standards that organizations must adhere to for legal compliance. These documents, characterized by their length, complexity and frequent updates, are challenging to interpret, requiring significant allocation of time and expertise on the part of organizations to ensure ongoing compliance.Regulatory Natural Language Processing (RegNLP) is a multidisciplinary subfield aimed at simplifying access to and interpretation of regulatory rules and obligations. We define an Automated Question-Passage Generation task for RegNLP, create the ObliQA dataset containing 27,869 questions derived from the Abu Dhabi Global Markets (ADGM) financial regulation document collection, design a baseline Regulatory Information Retrieval and Answer Generation system, and evaluate it with RePASs, a novel evaluation metric that tests whether generated answers accurately capture all relevant obligations and avoid contradictions.
翻訳日:2024-09-10 14:19:16 公開日:2024-09-09
# AnomalyCD:高分解能・時系列観測による地球異常変化検出のベンチマーク

AnomalyCD: A benchmark for Earth anomaly change detection with high-resolution and time-series observations ( http://arxiv.org/abs/2409.05679v1 )

ライセンス: Link先を確認
Jingtao Li, Qian Zhu, Xinyu Wang, Hengwei Zhao, Yanfei Zhong, (参考訳) 様々な地球の異常が安定的でバランスの取れた状態を破壊し、死者と資産の深刻な破壊を引き起こした。 大規模かつ高精度な観測の利点により、異常監視や局所化に高解像度のリモートセンシング画像が広く用いられている。 深層表現によって駆動される既存の手法は、主に分類と変化検出技術において顕著な進歩を遂げている。 しかし, ラベル付きサンプルは異常発生の確率が低いため取得が困難であり, トレーニングされたモデルは固定された異常カテゴリーに限られており, 少ないサンプルや未知の異常に対する適用を妨げている。 本稿では, 時系列観測を受理し, 歴史的変化パターンから異常変化の同定を学習する異常変化検出(AnomalyCD)手法を提案する。 既存の技術と比較すると、AnomalyCDは固定されていない時間ステップを処理し、人間の監督なしに様々な異常を統一的にローカライズすることができる。 AnomalyCDをベンチマークするために、さまざまな地球異常(AnomalyCDDデータセット)に特化した時系列画像を用いた高分解能データセットを構築した。 AnomalyCDDには高解像度(0.15~2.39 m/ピクセル)、時系列(3~7時間ステップ)、大規模画像(1927.93 km2)が大域的に広範に収集されており、我々はAnomalyCDD技術を実装したゼロショットベースラインモデル(AnomalyCDM)を開発した。 AnomalyCDMは効率を向上させるための2段階のワークフローとして設計されており、シーンごとに再トレーニングすることなく、見えない画像を直接処理することができる。

Various Earth anomalies have destroyed the stable, balanced state, resulting in fatalities and serious destruction of property. With the advantages of large-scale and precise observation, high-resolution remote sensing images have been widely used for anomaly monitoring and localization. Powered by the deep representation, the existing methods have achieved remarkable advances, primarily in classification and change detection techniques. However, labeled samples are difficult to acquire due to the low probability of anomaly occurrence, and the trained models are limited to fixed anomaly categories, which hinders the application for anomalies with few samples or unknown anomalies. In this paper, to tackle this problem, we propose the anomaly change detection (AnomalyCD) technique, which accepts time-series observations and learns to identify anomalous changes by learning from the historical normal change pattern. Compared to the existing techniques, AnomalyCD processes an unfixed number of time steps and can localize the various anomalies in a unified manner, without human supervision. To benchmark AnomalyCD, we constructed a high-resolution dataset with time-series images dedicated to various Earth anomalies (the AnomalyCDD dataset). AnomalyCDD contains high-resolution (from 0.15 to 2.39 m/pixel), time-series (from 3 to 7 time steps), and large-scale images (1927.93 km2 in total) collected globally Furthermore, we developed a zero-shot baseline model (AnomalyCDM), which implements the AnomalyCD technique by extracting a general representation from the segment anything model (SAM) and conducting temporal comparison to distinguish the anomalous changes from normal changes. AnomalyCDM is designed as a two-stage workflow to enhance the efficiency, and has the ability to process the unseen images directly, without retraining for each scene.
翻訳日:2024-09-10 14:19:16 公開日:2024-09-09
# Cherenkov 画像による乳房放射線治療における変形性組織移動を伴う患者の位置同定

Cherenkov Imaged Bio-morphological Features Verify Patient Positioning with Deformable Tissue Translocation in Breast Radiotherapy ( http://arxiv.org/abs/2409.05680v1 )

ライセンス: Link先を確認
Yao Chen, Savannah M. Decker, Petr Bruza, David J. Gladstone, Lesley A. Jarvis, Brian W. Pogue, Kimberley S. Samkoe, Rongxiao Zhang, (参考訳) 正確な患者の位置決めは、正確な放射線治療用線量送達に必須であり、位置決め誤差は治療結果に大きな影響を及ぼす可能性がある。 本研究は,チェレンコフ画像解析による乳癌放射線治療中の局所組織変化の追跡手法を提案する。 第一の目的は、チェレンコフをベースとした局所位置精度の定量化アルゴリズムの開発と試験であり、特に放射線治療において理想的な定量法が欠如しているロコ領域の変形に対するものである。 組織ファントムを用いたチェレンコフ画像において, 血管の検出と分画が発達し, その後, 乳房全摘術(n=10。 剛性および非剛性な登録法を併用して, フラクタル内およびフラクタル内位置の変動を検出する。 このアプローチは、剛性登録からのグローバルシフトと、非剛性登録からのロコ領域変形の2次元変動マップの2つの部分における位置決めのばらつきを定量化した。 この手法は人為的な胸部ファントム実験を用いて検証され、既知の治療用カウチの翻訳と呼吸運動をシミュレートして、フラクション内およびフラクション内不確かさを評価し、最大20mmまでのカウチの翻訳の平均精度0.83mmとした。 乳がん10例の臨床チェレンコフデータから,第1分率に対して3.7+2.4mm,第1分率で95%,第3分率で最大3.3+1.9mm,第2分率で3.7+2.4mmの差が認められた。 本研究は, 従来の撮像技術では捉えられなかったロコ領域の変形に対処する上で, グローバルおよび局所的な位置決め変動を定量化するためのチェレンコフ法を提案する。

Accurate patient positioning is critical for precise radiotherapy dose delivery, as positioning errors can significantly affect treatment outcomes. This study introduces a novel method for tracking loco-regional tissue deformation through Cherenkov image analysis during fractionated breast cancer radiotherapy. The primary goal was to develop and test an algorithm for Cherenkov-based regional position accuracy quantification, specifically for loco-regional deformations, which lack ideal quantification methods in radiotherapy. Blood vessel detection and segmentation were developed in Cherenkov images using a tissue phantom with incremental movements, and later applied to images from fractionated whole breast radiotherapy in human patients (n=10). A combined rigid and non-rigid registration technique was used to detect inter- and intra-fractional positioning variations. This approach quantified positioning variations in two parts: a global shift from rigid registration and a two-dimensional variation map of loco-regional deformation from non-rigid registration. The methodology was validated using an anthropomorphic chest phantom experiment, where known treatment couch translations and respiratory motion were simulated to assess inter- and intra-fractional uncertainties, yielding an average accuracy of 0.83 mm for couch translations up to 20 mm. Analysis of clinical Cherenkov data from ten breast cancer patients showed an inter-fraction setup variation of 3.7 plus minus 2.4 mm relative to the first fraction and loco-regional deformations (95th percentile) of up to 3.3 plus minus 1.9 mm. This study presents a Cherenkov-based approach to quantify global and local positioning variations, demonstrating feasibility in addressing loco-regional deformations that conventional imaging techniques fail to capture.
翻訳日:2024-09-10 14:19:16 公開日:2024-09-09
# SX-Stitch: 術中X線画像ストレッチのためのVMS-UNetベースの効率的なフレームワーク

SX-Stitch: An Efficient VMS-UNet Based Framework for Intraoperative Scoliosis X-Ray Image Stitching ( http://arxiv.org/abs/2409.05681v1 )

ライセンス: Link先を確認
Yi Li, Heting Gao, Mingde He, Jinqian Liang, Jason Gu, Wei Liu, (参考訳) C-arm X-ray マシンの視野は限られており、脊柱構造の総合的解析が制限されている。 本論文は,SX-Stitch と名づけられた側頭症手術における術中X線画像縫合法について述べる。 切除と縫合の2段階に分けられる。 本研究では,Spine-UNet(VMS-UNet)のビジョン・マンバ(Vision Mamba)という医用画像分割モデルを提案する。このモデルでは,状態空間Mambaを用いて,線形複雑性を維持しながら長距離コンテキスト情報をキャプチャし,SimAMアテンション機構を組み込み,セグメンテーション性能を著しく向上する。 その後、全エネルギー関数を非順序画像の順序付けに最適化し、最適なシームを最適化するためにハイブリッドエネルギー関数を導入し、パララックスアーティファクトを効果的に除去する。 臨床データセットでは、Sx-StitchはSOTA方式よりも質的かつ定量的に優れていることを示した。

In scoliosis surgery, the limited field of view of the C-arm X-ray machine restricts the surgeons' holistic analysis of spinal structures .This paper presents an end-to-end efficient and robust intraoperative X-ray image stitching method for scoliosis surgery,named SX-Stitch. The method is divided into two stages:segmentation and stitching. In the segmentation stage, We propose a medical image segmentation model named Vision Mamba of Spine-UNet (VMS-UNet), which utilizes the state space Mamba to capture long-distance contextual information while maintaining linear computational complexity, and incorporates the SimAM attention mechanism, significantly improving the segmentation performance.In the stitching stage, we simplify the alignment process between images to the minimization of a registration energy function. The total energy function is then optimized to order unordered images, and a hybrid energy function is introduced to optimize the best seam, effectively eliminating parallax artifacts. On the clinical dataset, Sx-Stitch demonstrates superiority over SOTA schemes both qualitatively and quantitatively.
翻訳日:2024-09-10 14:19:16 公開日:2024-09-09
# LayeredFlow: 非線形多層光流のリアルタイムベンチマーク

LayeredFlow: A Real-World Benchmark for Non-Lambertian Multi-Layer Optical Flow ( http://arxiv.org/abs/2409.05688v1 )

ライセンス: Link先を確認
Hongyu Wen, Erich Liang, Jia Deng, (参考訳) 非ランベルト的オブジェクトの3D理解は、多くの有用なアプリケーションにおいて重要な課題であるが、既存のアルゴリズムはそのようなオブジェクトを扱うのに苦労している。 この分野での進歩に対する大きな障害のひとつは、全体論的な非ランベルトベンチマークの欠如である。ほとんどのベンチマークは、シーンとオブジェクトの多様性が低く、透明な表面で隠されたオブジェクトに対して、多層的な3Dアノテーションを提供しない。 本稿では,非ランベルト的物体の光学的流れに対する多層基底真理アノテーションを含む実世界のベンチマークであるLayeredFlowを紹介する。 従来のベンチマークと比較すると、我々のベンチマークでは、150kの高品質な光学フローと185の屋内・屋外シーンと360のユニークなオブジェクトのステレオペアで、シーンとオブジェクトの多様性が向上している。 評価データとしてLayeredFlowを用い,多層光フローと呼ばれる新しいタスクを提案する。 このタスクのためのトレーニングデータを提供するために,非ランベルト的対象に適した30シーン内60k画像を含む大規模高密度アノテーション付き合成データセットを提案する。 合成データセットのトレーニングにより,多層光学フローの予測が可能となり,既存の光学フロー法を微調整することで,拡散物体の性能を損なうことなく,非ランベルト天体の性能を高めることが期待できる。 データはhttps://layeredflow.cs.princeton.edu.comで入手できる。

Achieving 3D understanding of non-Lambertian objects is an important task with many useful applications, but most existing algorithms struggle to deal with such objects. One major obstacle towards progress in this field is the lack of holistic non-Lambertian benchmarks -- most benchmarks have low scene and object diversity, and none provide multi-layer 3D annotations for objects occluded by transparent surfaces. In this paper, we introduce LayeredFlow, a real world benchmark containing multi-layer ground truth annotation for optical flow of non-Lambertian objects. Compared to previous benchmarks, our benchmark exhibits greater scene and object diversity, with 150k high quality optical flow and stereo pairs taken over 185 indoor and outdoor scenes and 360 unique objects. Using LayeredFlow as evaluation data, we propose a new task called multi-layer optical flow. To provide training data for this task, we introduce a large-scale densely-annotated synthetic dataset containing 60k images within 30 scenes tailored for non-Lambertian objects. Training on our synthetic dataset enables model to predict multi-layer optical flow, while fine-tuning existing optical flow methods on the dataset notably boosts their performance on non-Lambertian objects without compromising the performance on diffuse objects. Data is available at https://layeredflow.cs.princeton.edu.
翻訳日:2024-09-10 14:19:16 公開日:2024-09-09
# キャビティ中の励起原子による分子動力学制御

Controlling molecular dynamics by exciting atoms in a cavity ( http://arxiv.org/abs/2409.05690v1 )

ライセンス: Link先を確認
András Csehi, Ágnes Vibók, Lorenz S. Cederbaum, Gábor J. Halász, (参考訳) 空洞に原子と分子を配置すると、原子のレベルを刺激することで分子動力学を初期化する。 このアプローチは、分子動力学を実質的に引き起こすために光源を選択する範囲を大きくする。 原子、分子、フォトニック集団の相互作用により、リッチ・ダイナミクスが生まれる。 キャビティ光子は、原子と分子の間のメディエーターの役割を担っており、光子集団は概してかなり低く、その進化は分子のそれに続く。 空洞は損失を受けることが知られている。 損失にもかかわらず、原子の存在は長期にわたる力学を生じさせ、これは実験的な研究に関係があることが示されている。 より多くの原子や分子の存在は、ダイナミクスをさらに強化することが期待されている。

Placing an atom and a molecule in a cavity opens the door to initialize molecular dynamics by exciting a level of the atom. This approach enlarges the range of choosing the light source to trigger molecular dynamics substantially. The interplay of the atomic, molecular and photonic populations gives rise to rich dynamics. The cavity photon plays the role of a mediator between the atom and the molecule and it is found that the photonic population is rather low throughout and its evolution follows that of the molecule. Cavities are known to be subject to losses. In spite of the losses it is demonstrated that the presence of the atom gives rise to a long-lived dynamics which should be of relevance for experimental investigations. The presence of more atoms and molecules is expected to further enrich the dynamics.
翻訳日:2024-09-10 14:19:16 公開日:2024-09-09
# OpenStreetMapデータから米国ビルディングタイプを抽出する

Extracting the U.S. building types from OpenStreetMap data ( http://arxiv.org/abs/2409.05692v1 )

ライセンス: Link先を確認
Henrique F. de Arruda, Sandro M. Reia, Shiyang Ruan, Kuldip S. Atwal, Hamdi Kavak, Taylor Anderson, Dieter Pfoser, (参考訳) ビルのタイプ情報は、人口推定、交通計画、都市計画、緊急対応用途に不可欠である。 必須ではあるが、そのようなデータは容易には利用できないことが多い。 この問題を緩和するため、この研究はアメリカ合衆国全土をカバーする住宅・非住宅の分類を提供することで包括的なデータセットを作成する。 そこで我々は,ビルディングフットプリントと利用可能なOpenStreetMap情報に基づいて,ビルディングタイプを分類するための教師なし機械学習手法を提案し,活用する。 分類結果は、アメリカ合衆国内の一部の郡に対する権威的根拠真理データを用いて検証される。 この検証は、非住宅の建物分類の高精度化と、住宅用建物の高いリコールを示す。 我々は、データセットから小屋やガレージを除去するなど、分類の質を改善するための様々なアプローチを特定した。 さらに、誤分類の分析により、主にOSMのメタデータの欠如と不足が原因であることが判明した。 この研究の主な成果は67,705,475の建物を分類したデータセットである。 このデータが、都市や交通計画者を含む科学コミュニティにとって価値のあるものであることを願っています。

Building type information is crucial for population estimation, traffic planning, urban planning, and emergency response applications. Although essential, such data is often not readily available. To alleviate this problem, this work creates a comprehensive dataset by providing residential/non-residential building classification covering the entire United States. We propose and utilize an unsupervised machine learning method to classify building types based on building footprints and available OpenStreetMap information. The classification result is validated using authoritative ground truth data for select counties in the U.S. The validation shows a high precision for non-residential building classification and a high recall for residential buildings. We identified various approaches to improving the quality of the classification, such as removing sheds and garages from the dataset. Furthermore, analyzing the misclassifications revealed that they are mainly due to missing and scarce metadata in OSM. A major result of this work is the resulting dataset of classifying 67,705,475 buildings. We hope that this data is of value to the scientific community, including urban and transportation planners.
翻訳日:2024-09-10 14:06:46 公開日:2024-09-09
# 宇宙通信用量子キーレスプライベート通信

Quantum Keyless Private Communication with Decoy States for Space Channels ( http://arxiv.org/abs/2409.05694v1 )

ライセンス: Link先を確認
Angeles Vazquez-Castro, Andreas Winter, Hugo Zbinden, (参考訳) 光空間ネットワークにおけるセキュアな通信の需要が高まっているため、物理層でスケーラブルなセキュリティソリューションを開発することが不可欠である。 この文脈では、量子状態を介して古典的な情報を伝達するキーレス量子プライベート通信プロトコルの漸近セキュリティ解析を示す。 従来の文献と異なり,本プロトコルは真情報から得られたダミー状態(デコイ状態)を最適に送信し,盗聴者を欺く。 光オンオフ鍵(OOK)とバイナリ位相シフト鍵(BPSK)を複数の検出シナリオで解析する。 我々のプロトコルは、ボブがイヴに関して技術的に不利な状況にあるときにいつでも、状態を変えずにプロトコルを著しく改善します。 我々のプロトコルは、Eveが量子力学の法則にのみ制限されている場合でも、Bobが検出する光子のエネルギーの最大90-99.9 %$(検出シナリオに依存する)を盗聴器が集めたときの正の秘密容量を保証する。 本研究は、損失を指摘できる光衛星間リンク(ISL)研究ケースの設計に適用し、このプロトコルによりリンクマージンが安全であることが保証される新しい設計手法を提案する。 したがって、Eavesdropper や Channel state の thr 位置を知る必要はなく、通信路がセキュアなマージン以下に落ちると、プロトコルは停止する。 我々のプロトコルは最先端の宇宙実証技術で実装できる。 最後に、(まだ利用できない)量子状態技術を使用する場合の秘密性の可能性を示す。

With the increasing demand for secure communication in optical space networks, it is essential to develop physical-layer scalable security solutions. In this context, we present the asymptotic security analysis of a keyless quantum private communication protocol that transmits classical information over quantum states. Different from the previous literature, our protocol sends dummy (decoy) states optimally obtained from the true information to deceive the eavesdropper. We analyze optical on-off keying (OOK) and binary phase shift keying (BPSK) for several detection scenarios. Our protocol significantly improves the protocol without decoy states whenever Bob is at a technological disadvantage with respect to Eve. Our protocol guarantees positive secrecy capacity when the eavesdropper gathers up to $90-99.9\%$ (depending on the detection scenario) of the photon energy that Bob detects, even when Eve is only limited by the laws of quantum mechanics. We apply our results to the design of an optical inter-satellite link (ISL) study case with pointing losses, and introduce a new design methodology whereby the link margin is guaranteed to be secure by our protocol. Hence, our design does not require knowing thr location of the eavesdropper and or channel state: the protocol aborts whenever the channel drops below the secured margin. Our protocol can be implemented with the state of the art space proof technology. Finally, we also show the potential secrecy advantage when using (not yet available) squeezed quantum states technology.
翻訳日:2024-09-10 14:06:46 公開日:2024-09-09
# 因子化によるセグメンテーション:基礎モデル特徴の分解による病理学のための教師なしセマンティックセグメンテーション

Segmentation by Factorization: Unsupervised Semantic Segmentation for Pathology by Factorizing Foundation Model Features ( http://arxiv.org/abs/2409.05697v1 )

ライセンス: Link先を確認
Jacob Gildenblat, Ofir Hadar, (参考訳) 本稿では,事前学習したディープラーニングモデルからセグメンテーションマスクを生成する病理学の教師なしセグメンテーション手法であるセグメンテーション・バイ・ファクタライゼーション(F-SEG)を紹介する。 F-SEGは、最近開発された病理基盤モデルを含む事前訓練されたディープニューラルネットワークをセマンティックセグメンテーションに使用することができる。 モデルによって抽出された空間的特徴をセグメンテーションマスクとその関連する概念特徴に分解することで、追加のトレーニングや微調整を必要とせずにこれを実現する。 The Cancer Genome Atlas Program (TCGA)において,複数の深層学習モデルから抽出した特徴に基づいて,複数のクラスタに対するクラスタリングモデルを訓練することにより,H&E画像のための一般的な組織表現型を作成し,そのクラスタが,市販の深層学習モデルを用いて対応するセグメンテーションマスクの分解にどのように使用できるかを示す。 以上の結果から,F-SEGはH&E画像に対して堅牢な非教師付きセグメンテーション機能を提供し,そのセグメンテーション品質は病理基盤モデルを用いて大幅に向上することが示された。 病理学における教師なしセグメンテーションの性能評価法について検討し,提案する。

We introduce Segmentation by Factorization (F-SEG), an unsupervised segmentation method for pathology that generates segmentation masks from pre-trained deep learning models. F-SEG allows the use of pre-trained deep neural networks, including recently developed pathology foundation models, for semantic segmentation. It achieves this without requiring additional training or finetuning, by factorizing the spatial features extracted by the models into segmentation masks and their associated concept features. We create generic tissue phenotypes for H&E images by training clustering models for multiple numbers of clusters on features extracted from several deep learning models on The Cancer Genome Atlas Program (TCGA), and then show how the clusters can be used for factorizing corresponding segmentation masks using off-the-shelf deep learning models. Our results show that F-SEG provides robust unsupervised segmentation capabilities for H&E pathology images, and that the segmentation quality is greatly improved by utilizing pathology foundation models. We discuss and propose methods for evaluating the performance of unsupervised segmentation in pathology.
翻訳日:2024-09-10 14:06:46 公開日:2024-09-09
# MANA-Net: 市場予測の強化を目的としたニュース重み付けによる集積感均質化の緩和

MANA-Net: Mitigating Aggregated Sentiment Homogenization with News Weighting for Enhanced Market Prediction ( http://arxiv.org/abs/2409.05698v1 )

ライセンス: Link先を確認
Mengyu Wang, Tiejun Ma, (参考訳) ニュースデータから市場感情を抽出することは市場予測に有効であると広く認識されている。 しかし、既存の金融感情の使用方法は、複数のニュースアイテムからの感情を管理するために、平等で静的な集約に依存しているため、依然として単純である。 これは「集積感均質化(Aggregated Sentiment Homogenization)」と呼ばれる重要な問題につながります。 この現象は、多数の感情を集約し、感情分布の平均値に向かって表現が収束し、独特で重要な情報を滑らかにするときに起こる。 その結果、集約された感情表現はニュースデータの予測値を大きく失う。 この問題に対処するため,マーケットアテンション重み付きニュース集約ネットワーク(MANA-Net)を導入する。 MANA-Netは、ニュース感情と価格変化の関係を学習し、個々のニュースアイテムに様々な重みを割り当てる。 市場予測のためにニュースアグリゲーションのステップを統合することで、MANA-Netは、予測に直接最適化されたトレーニング可能な感情表現を可能にする。 S&P500とNASDAQ100の指標を用いてMANA-Netを評価し,2003年から2018年にかけての金融ニュースについて検討した。 実験の結果,MANA-Netは近年の市場予測手法に優れており,利益と損失は1.1%,シャープ比は0.252となっている。

It is widely acknowledged that extracting market sentiments from news data benefits market predictions. However, existing methods of using financial sentiments remain simplistic, relying on equal-weight and static aggregation to manage sentiments from multiple news items. This leads to a critical issue termed ``Aggregated Sentiment Homogenization'', which has been explored through our analysis of a large financial news dataset from industry practice. This phenomenon occurs when aggregating numerous sentiments, causing representations to converge towards the mean values of sentiment distributions and thereby smoothing out unique and important information. Consequently, the aggregated sentiment representations lose much predictive value of news data. To address this problem, we introduce the Market Attention-weighted News Aggregation Network (MANA-Net), a novel method that leverages a dynamic market-news attention mechanism to aggregate news sentiments for market prediction. MANA-Net learns the relevance of news sentiments to price changes and assigns varying weights to individual news items. By integrating the news aggregation step into the networks for market prediction, MANA-Net allows for trainable sentiment representations that are optimized directly for prediction. We evaluate MANA-Net using the S&P 500 and NASDAQ 100 indices, along with financial news spanning from 2003 to 2018. Experimental results demonstrate that MANA-Net outperforms various recent market prediction methods, enhancing Profit & Loss by 1.1% and the daily Sharpe ratio by 0.252.
翻訳日:2024-09-10 14:06:46 公開日:2024-09-09
# 学習型ラベリングを用いたCNNによる手書き認識システムの構築

Boosting CNN-based Handwriting Recognition Systems with Learnable Relaxation Labeling ( http://arxiv.org/abs/2409.05699v1 )

ライセンス: Link先を確認
Sara Ferro, Alessandro Torcinovich, Arianna Traviglia, Marcello Pelillo, (参考訳) 手書き認識システムの最大の課題は、従来のモデルがしばしば抱える問題である、長距離コンテキスト依存の管理である。 これを緩和するために、近年、コンテキスト認識ラベリングを強化し、最先端の性能を達成するために注意機構が採用されている。 しかし、パターン認識と画像解析の分野では、ラベル付け問題における文脈情報の利用は長い歴史を持ち、少なくとも1970年代初期までさかのぼる。 当時開発された様々なアプローチの中で、緩和ラベリング(RL)プロセスは際立った役割を担い、この分野において10年以上の選択方法となっている。 最近のトランスフォーマーベースのアーキテクチャとは対照的に、RLプロセスは文脈制約の使用に対する原則的なアプローチを提供し、変動的不等式とゲーム理論に基づく固い理論基盤を持ち、収束保証を伴う効果的なアルゴリズムを提供する。 本稿では,2つの異なる手法の強みを統合した手書き文字認識手法を提案する。 本稿では, アルゴリズムの収束を加速し, システム全体の性能を向上させるスペーシフィケーション手法を提案する。 複数のベンチマークデータセットに対する実験は、RLプロセスが一般化能力を向上させることを示し、場合によってはトランスフォーマーベースのアーキテクチャを超越することさえある。

The primary challenge for handwriting recognition systems lies in managing long-range contextual dependencies, an issue that traditional models often struggle with. To mitigate it, attention mechanisms have recently been employed to enhance context-aware labelling, thereby achieving state-of-the-art performance. In the field of pattern recognition and image analysis, however, the use of contextual information in labelling problems has a long history and goes back at least to the early 1970's. Among the various approaches developed in those years, Relaxation Labelling (RL) processes have played a prominent role and have been the method of choice in the field for more than a decade. Contrary to recent transformer-based architectures, RL processes offer a principled approach to the use of contextual constraints, having a solid theoretic foundation grounded on variational inequality and game theory, as well as effective algorithms with convergence guarantees. In this paper, we propose a novel approach to handwriting recognition that integrates the strengths of two distinct methodologies. In particular, we propose integrating (trainable) RL processes with various well-established neural architectures and we introduce a sparsification technique that accelerates the convergence of the algorithm and enhances the overall system's performance. Experiments over several benchmark datasets show that RL processes can improve the generalisation ability, even surpassing in some cases transformer-based architectures.
翻訳日:2024-09-10 14:06:46 公開日:2024-09-09
# pFedGPA:個人化フェデレーション学習のための拡散に基づく生成パラメータ集約

pFedGPA: Diffusion-based Generative Parameter Aggregation for Personalized Federated Learning ( http://arxiv.org/abs/2409.05701v1 )

ライセンス: Link先を確認
Jiahao Lai, Jiaqi Li, Jian Xu, Yanru Wu, Boshi Tang, Siqi Chen, Yongfeng Huang, Wenbo Ding, Yang Li, (参考訳) フェデレートラーニング(FL)は、データをローカルに保持し、モデルパラメータのみをクライアントと中央サーバ間で共有する、モデルトレーニングのための分散アプローチを提供する。 フェデレート平均化(FedAvg)のような伝統的な手法は、これらのパラメータを線形に集約し、通常不均一なデータ分布に基づいて訓練され、パラメータ空間の複雑な高次元の性質を見渡す可能性がある。 これにより、集約されたモデルの性能が低下する可能性がある。 パーソナライズされたFLアプローチは、不均一なデータ問題をある程度緩和することができるが、線形集約の制限は未解決のままである。 この問題を緩和するために,拡散モデルの生成的アプローチを調査し,パーソナライズされたFL, \texttt{pFedGPA} のための新しい生成的パラメータ集約フレームワークを提案する。 本フレームワークでは,サーバ上に拡散モデルを構築し,多様なパラメータ分布を統合するとともに,各クライアントのパーソナライズされたパラメータの集合を効率的に生成するパラメータ逆変換法を提案する。 この反転法は、アップロードされたパラメータを潜在コードに変換し、最後にパーソナライズされたパラメータを生成するためにサンプリングをデノナイズすることで集約する。 高容量拡散モデルを用いて、クライアントのモデルパラメータの特定のデータ分布への依存性を符号化することにより、各クライアントのパラメータ分布の複雑さから、すべてのクライアントのモデルパラメータの全体分布の複雑さを効果的に分離することができる。 実験結果は,提案手法が複数のデータセットにまたがる優れた性能を示し,ベースラインアプローチを超越した結果となった。

Federated Learning (FL) offers a decentralized approach to model training, where data remains local and only model parameters are shared between the clients and the central server. Traditional methods, such as Federated Averaging (FedAvg), linearly aggregate these parameters which are usually trained on heterogeneous data distributions, potentially overlooking the complex, high-dimensional nature of the parameter space. This can result in degraded performance of the aggregated model. While personalized FL approaches can mitigate the heterogeneous data issue to some extent, the limitation of linear aggregation remains unresolved. To alleviate this issue, we investigate the generative approach of diffusion model and propose a novel generative parameter aggregation framework for personalized FL, \texttt{pFedGPA}. In this framework, we deploy a diffusion model on the server to integrate the diverse parameter distributions and propose a parameter inversion method to efficiently generate a set of personalized parameters for each client. This inversion method transforms the uploaded parameters into a latent code, which is then aggregated through denoising sampling to produce the final personalized parameters. By encoding the dependence of a client's model parameters on the specific data distribution using the high-capacity diffusion model, \texttt{pFedGPA} can effectively decouple the complexity of the overall distribution of all clients' model parameters from the complexity of each individual client's parameter distribution. Our experimental results consistently demonstrate the superior performance of the proposed method across multiple datasets, surpassing baseline approaches.
翻訳日:2024-09-10 14:06:46 公開日:2024-09-09
# 量子ボランティアのジレンマ

Quantum Volunteer's Dilemma ( http://arxiv.org/abs/2409.05708v1 )

ライセンス: Link先を確認
Dax Enshan Koh, Kaavya Kumar, Siong Thye Goh, (参考訳) ボランティアのジレンマ(ボランティアのジレンマ、英: volunteer's dilemma)は、ゲーム理論においてよく知られたゲームであり、ボランティアが個人的コストを負担していることを認識し、集団的な利益のためにボランティアを行うかどうかを決める際に、競合プレイヤーが直面する問題をモデル化するゲームである。 本研究では、古典的ボランティアのジレンマの量子変種を導入し、プレイヤーが量子戦略を利用できるようにすることでこれを一般化する。 Eisert-Wilkens-Lewenstein量子化フレームワークを用いて、任意の数のプレイヤーでマルチプレイヤー量子ボランティアのジレンマシナリオを分析し、ボランティアの費用はボランティア間で等しく分配される。 プレイヤーが期待するペイオフに対して解析式を導出し、古典ゲームに対する量子ゲームの優位性を実証する。 特に、量子ボランティアのジレンマは古典ゲームにおける一意対称ナッシュ平衡と比較して、より大きな期待値を持つ対称ナッシュ平衡を持ち、プレイヤーは混合戦略を使用する。 さらに、我々が同定した量子ナッシュ平衡がパレート最適であることが示される。 この結果から,選手が量子規則に従う場合のボランティアのジレンマシナリオにおける明確なダイナミクスが明らかとなり,量子設定における意思決定の戦略的優位性が強調された。

The volunteer's dilemma is a well-known game in game theory that models the conflict players face when deciding whether to volunteer for a collective benefit, knowing that volunteering incurs a personal cost. In this work, we introduce a quantum variant of the classical volunteer's dilemma, generalizing it by allowing players to utilize quantum strategies. Employing the Eisert-Wilkens-Lewenstein quantization framework, we analyze a multiplayer quantum volunteer's dilemma scenario with an arbitrary number of players, where the cost of volunteering is shared equally among the volunteers. We derive analytical expressions for the players' expected payoffs and demonstrate the quantum game's advantage over the classical game. In particular, we prove that the quantum volunteer's dilemma possesses symmetric Nash equilibria with larger expected payoffs compared to the unique symmetric Nash equilibrium of the classical game, wherein players use mixed strategies. Furthermore, we show that the quantum Nash equilibria we identify are Pareto optimal. Our findings reveal distinct dynamics in volunteer's dilemma scenarios when players adhere to quantum rules, underscoring a strategic advantage of decision-making in quantum settings.
翻訳日:2024-09-10 14:06:46 公開日:2024-09-09
# 深層学習に基づく還元次数モデルによる高次元パラメトリゼーションシステムのリアルタイム最適制御

Real-time optimal control of high-dimensional parametrized systems by deep learning-based reduced order models ( http://arxiv.org/abs/2409.05709v1 )

ライセンス: Link先を確認
Matteo Tomasetto, Andrea Manzoni, Francesco Braghin, (参考訳) 非常に短い時間で所望の目標に向けてシステムをステアリングすることは、計算の観点からは困難である。 実際、最適制御問題の本質的に反復的な性質は、制御される物理系の複数のシミュレーションを必要とする。 さらに、下層のシナリオが変更されるたびに、コントロールアクションを更新する必要がある。 例えば有限要素法に基づくフルオーダーモデルは、通常必要とされる計算負担のため、これらの要件を満たしない。 一方、Reduced Basis法のような従来の縮小順序モデリング手法は、侵入的であり、モードの線形重ね合わせに依存し、非線形時間依存力学に対処する際の効率の欠如がある。 本研究では,複数のシナリオにおけるパラメタライズPDEの観点で記述されたシステムの迅速な制御のための,非侵入的深層学習に基づくリダクション秩序モデリング(DL-ROM)手法を提案する。 特に、最適なフルオーダースナップショットは、適切な直交分解またはディープオートエンコーダ(またはその組み合わせ)によって生成、適切に縮小され、フィードフォワードニューラルネットワークは、シナリオパラメータから最適解へのマップ学習に利用される。 したがって、非線形次元の減少により、低次元かつ分散した状態変数と制御動作を考えることができる。 以後 (i)データ生成 (二)次元減少、及び 三 オフラインフェーズにおけるニューラルネットワークのトレーニング、最適制御戦略をオンラインフェーズで迅速に検索すること。 提案手法により得られた計算速度と高精度を, ナヴィエ・ストークス方程式をモデルとした非圧縮性流れにおけるエネルギー散逸の最小化から熱伝達における熱活性冷却まで, 異なるPDE制約最適化問題に基づいて評価した。

Steering a system towards a desired target in a very short amount of time is challenging from a computational standpoint. Indeed, the intrinsically iterative nature of optimal control problems requires multiple simulations of the physical system to be controlled. Moreover, the control action needs to be updated whenever the underlying scenario undergoes variations. Full-order models based on, e.g., the Finite Element Method, do not meet these requirements due to the computational burden they usually entail. On the other hand, conventional reduced order modeling techniques such as the Reduced Basis method, are intrusive, rely on a linear superimposition of modes, and lack of efficiency when addressing nonlinear time-dependent dynamics. In this work, we propose a non-intrusive Deep Learning-based Reduced Order Modeling (DL-ROM) technique for the rapid control of systems described in terms of parametrized PDEs in multiple scenarios. In particular, optimal full-order snapshots are generated and properly reduced by either Proper Orthogonal Decomposition or deep autoencoders (or a combination thereof) while feedforward neural networks are exploited to learn the map from scenario parameters to reduced optimal solutions. Nonlinear dimensionality reduction therefore allows us to consider state variables and control actions that are both low-dimensional and distributed. After (i) data generation, (ii) dimensionality reduction, and (iii) neural networks training in the offline phase, optimal control strategies can be rapidly retrieved in an online phase for any scenario of interest. The computational speedup and the high accuracy obtained with the proposed approach are assessed on different PDE-constrained optimization problems, ranging from the minimization of energy dissipation in incompressible flows modelled through Navier-Stokes equations to the thermal active cooling in heat transfer.
翻訳日:2024-09-10 14:06:46 公開日:2024-09-09
# 談話理解誘導を用いた視覚的接地対話における参照表現生成

Referring Expression Generation in Visually Grounded Dialogue with Discourse-aware Comprehension Guiding ( http://arxiv.org/abs/2409.05721v1 )

ライセンス: Link先を確認
Bram Willemsen, Gabriel Skantze, (参考訳) 本稿では,識別的かつ言論に適した参照表現(REs)を生成する視覚的接地対話における表現生成(REG)へのアプローチを提案する。 我々の方法は2段階のプロセスを構成する。 まず、REGをテキストおよび画像条件付き次世代予測タスクとしてモデル化する。 REは、先行する言語文脈と参照者の視覚的表現に基づいて自己回帰的に生成される。 第2に,我々のREGモデルで生成した候補REsを,その言論依存的識別力に基づいて再帰する生成・参照戦略の一部として,談話認識理解指導(discourse-aware comprehension guideiding)の利用を提案する。 人間の評価結果から,本提案手法は,reranked REsのテキスト画像検索精度において,greedy decoding を用いて生成した手法と比較して高い精度で差別的 REs の生成に有効であることが示唆された。

We propose an approach to referring expression generation (REG) in visually grounded dialogue that is meant to produce referring expressions (REs) that are both discriminative and discourse-appropriate. Our method constitutes a two-stage process. First, we model REG as a text- and image-conditioned next-token prediction task. REs are autoregressively generated based on their preceding linguistic context and a visual representation of the referent. Second, we propose the use of discourse-aware comprehension guiding as part of a generate-and-rerank strategy through which candidate REs generated with our REG model are reranked based on their discourse-dependent discriminatory power. Results from our human evaluation indicate that our proposed two-stage approach is effective in producing discriminative REs, with higher performance in terms of text-image retrieval accuracy for reranked REs compared to those generated using greedy decoding.
翻訳日:2024-09-10 14:06:46 公開日:2024-09-09
# 私の車は何を言ったか? 自動運転車の説明ミス、コンテキスト、個人的トラストが快適さ、信頼性、満足感、運転信頼に影響を及ぼす

What Did My Car Say? Autonomous Vehicle Explanation Errors, Context, and Personal Traits Impact Comfort, Reliance, Satisfaction, and Driving Confidence ( http://arxiv.org/abs/2409.05731v1 )

ライセンス: Link先を確認
Robert Kaufman, Aaron Broukhim, David Kirsh, Nadir Weibel, (参考訳) 自動運転車(AV)の判断に関する説明は信頼を築けるかもしれないが、説明には誤りが含まれる可能性がある。 シミュレーション運転研究(n = 232)では,AVの誤り,運転状況の特徴(害や運転困難を知覚する),個人特性(事前信頼と専門知識)が,AVに依存する乗客の快適さ,制御の好み,AV能力に対する信頼感,説明満足度にどのように影響するかを検証した。 エラーはすべての結果に悪影響を及ぼした。 意外なことに、同じ運転にもかかわらず、説明ミスによりAVの運転能力の評価は低下した。 重大さと潜在的な害は、エラーの負の影響を増幅した。 文脈的危害と運転困難は結果評価に直接影響を与え、エラーと結果の関係に影響を及ぼした。 事前の信頼と専門知識は、成果評価に肯定的な関連があった。 その結果、信頼、信頼、満足、信頼を育むために、正確で、文脈的に適応し、パーソナライズされたAV説明の必要性を強調した。 我々は、信頼できるAV説明システムの設計、研究、展開の勧告を締めくくる。

Explanations for autonomous vehicle (AV) decisions may build trust, however, explanations can contain errors. In a simulated driving study (n = 232), we tested how AV explanation errors, driving context characteristics (perceived harm and driving difficulty), and personal traits (prior trust and expertise) affected a passenger's comfort in relying on an AV, preference for control, confidence in the AV's ability, and explanation satisfaction. Errors negatively affected all outcomes. Surprisingly, despite identical driving, explanation errors reduced ratings of the AV's driving ability. Severity and potential harm amplified the negative impact of errors. Contextual harm and driving difficulty directly impacted outcome ratings and influenced the relationship between errors and outcomes. Prior trust and expertise were positively associated with outcome ratings. Results emphasize the need for accurate, contextually adaptive, and personalized AV explanations to foster trust, reliance, satisfaction, and confidence. We conclude with design, research, and deployment recommendations for trustworthy AV explanation systems.
翻訳日:2024-09-10 14:06:46 公開日:2024-09-09
# 医用多言語大言語モデルの民主化に向けて : 2段階指導微調整アプローチ

Towards Democratizing Multilingual Large Language Models For Medicine Through A Two-Stage Instruction Fine-tuning Approach ( http://arxiv.org/abs/2409.05732v1 )

ライセンス: Link先を確認
Meng Zhou, Surajsinh Parmar, Anubhav Bhatti, (参考訳) オープンソースの多言語医療用大規模言語モデル (LLM) は、様々な地域において言語的に多様な人口を提供する可能性を秘めている。 一般のLSMを医療に適応させるには、しばしば継続的な事前訓練が必要であるが、このアプローチは計算に高価であり、時には実用的ではない。 モデルが様々なシナリオにおいて効果的に理解し、推論する必要があるというより広範なドメイン知識が欠如しているため、特定のタスクのインストラクションの微調整が常に最適なパフォーマンスを保証するとは限らない。 これらの課題に対処するために、MMed-IFTとMMed-IFT-MCという2つの多言語命令微調整データセットを導入し、6言語で200万以上の高品質な医療サンプルを含む。 第1段階はMMed-IFTを用いて一般的な医療知識を注入し,第2段階はMMed-IFT-MCを用いたタスク固有の複数選択質問を行う。 提案手法は,英語と多言語両方のベンチマークにおいて,計算効率と性能のバランスを保ちながら,競合する結果を得る。 将来、データセットとモデルウェイトを \url{https://github.com/SpassMed/Med-Llama3} で公開する予定です。

Open-source, multilingual medical large language models (LLMs) have the potential to serve linguistically diverse populations across different regions. Adapting generic LLMs for healthcare often requires continual pretraining, but this approach is computationally expensive and sometimes impractical. Instruction fine-tuning on a specific task may not always guarantee optimal performance due to the lack of broader domain knowledge that the model needs to understand and reason effectively in diverse scenarios. To address these challenges, we introduce two multilingual instruction fine-tuning datasets, MMed-IFT and MMed-IFT-MC, containing over 200k high-quality medical samples in six languages. We propose a two-stage training paradigm: the first stage injects general medical knowledge using MMed-IFT, while the second stage fine-tunes task-specific multiple-choice questions with MMed-IFT-MC. Our method achieves competitive results on both English and multilingual benchmarks, striking a balance between computational efficiency and performance. We plan to make our dataset and model weights public at \url{https://github.com/SpassMed/Med-Llama3} in the future.
翻訳日:2024-09-10 14:06:46 公開日:2024-09-09
# マルコフ連鎖変動推定法 : 確率近似法

Markov Chain Variance Estimation: A Stochastic Approximation Approach ( http://arxiv.org/abs/2409.05733v1 )

ライセンス: Link先を確認
Shubhada Agrawal, Prashanth L. A., Siva Theja Maguluri, (参考訳) マルコフ連鎖上で定義される関数の漸近的分散を推定する問題は、定常平均の統計的推測の重要なステップである。 我々は各ステップで$O(1)$計算を必要とする最初の再帰的推定器を設計し、履歴サンプルやラン長に関する事前知識を保存する必要がなく、証明可能な有限標本保証付き平均二乗誤差(MSE)に対する最適$O(\frac{1}{n})$収束率を持つ。 ここで、$n$は生成されたサンプルの総数を指す。 以前はMSEの収束率が最もよく知られていたのは、ジャックニフ付き推定器によって達成された$O(\frac{\log n}{n})$であり、これら他の望ましい性質も享受していない。 我々の推定子は、ポアソン方程式の解の項による漸近分散の等価な定式化の線形確率近似に基づいている。 我々は,ベクトル値関数の共分散行列の推定,マルコフ鎖の定常分散の推定,および基礎となるマルコフ鎖の状態空間が大きくなるような条件下での漸近分散の推定など,いくつかの方向の近似器を一般化する。 また, 平均報酬強化学習(RL)における推定器の応用について述べる。 この文脈でポリシー評価に適した時間差型アルゴリズムを設計する。 表型および線形関数近似の設定について検討する。 我々の研究は、分散制約付きRLのためのアクター・クリティカルなスタイルのアルゴリズムを開発するための道を開いた。

We consider the problem of estimating the asymptotic variance of a function defined on a Markov chain, an important step for statistical inference of the stationary mean. We design the first recursive estimator that requires $O(1)$ computation at each step, does not require storing any historical samples or any prior knowledge of run-length, and has optimal $O(\frac{1}{n})$ rate of convergence for the mean-squared error (MSE) with provable finite sample guarantees. Here, $n$ refers to the total number of samples generated. The previously best-known rate of convergence in MSE was $O(\frac{\log n}{n})$, achieved by jackknifed estimators, which also do not enjoy these other desirable properties. Our estimator is based on linear stochastic approximation of an equivalent formulation of the asymptotic variance in terms of the solution of the Poisson equation. We generalize our estimator in several directions, including estimating the covariance matrix for vector-valued functions, estimating the stationary variance of a Markov chain, and approximately estimating the asymptotic variance in settings where the state space of the underlying Markov chain is large. We also show applications of our estimator in average reward reinforcement learning (RL), where we work with asymptotic variance as a risk measure to model safety-critical applications. We design a temporal-difference type algorithm tailored for policy evaluation in this context. We consider both the tabular and linear function approximation settings. Our work paves the way for developing actor-critic style algorithms for variance-constrained RL.
翻訳日:2024-09-10 14:06:46 公開日:2024-09-09
# 異種データに基づくLLMベースのQ\&Aのためのシステムとベンチマーク

A System and Benchmark for LLM-based Q\&A on Heterogeneous Data ( http://arxiv.org/abs/2409.05735v1 )

ライセンス: Link先を確認
Achille Fokoue, Srideepika Jayaraman, Elham Khabiri, Jeffrey O. Kephart, Yingjie Li, Dhruv Shah, Youssef Drissi, Fenno F. Heath III, Anu Bhamidipaty, Fateh A. Tipu, Robert J. Baseman, (参考訳) 多くの産業環境では,スプレッドシートやデータベース,API,あるいはその組み合わせなど,構造化データソースから回答が得られそうな質問をユーザが求めている。 多くの場合、ユーザは適切なデータソースを識別したり、アクセスする方法を知らない。 この問題がさらに複雑になるのは、複数の(そして潜在的にサイロ化された)データソースを組み立てて答えを導出する必要がある場合である。 近年,Large Language Models (LLMs) を利用したテキストからSQLへの様々なアプリケーションが,自然言語で質問を行うことによって,これらの問題に対処している。 しかし、これらのアプリケーションは、そのような環境に代表されるデータソースの不均一性に対処できないため、現実的な産業環境では実用的ではない。 本稿では,データベースとAPIの両方へのシームレスな自然言語アクセスを可能にするsiwarexプラットフォームを導入することで,不均一性に対処する。 siwarexの有効性を示すために、人気のあるSpiderデータセットとベンチマークを拡張し、データ検索APIによってテーブルの一部を置き換える。 私たちは、siwarexがデータソースの不均一性に対処する上で、よい仕事をしていることに気付きました。 修正されたスパイダーベンチマークが近く研究コミュニティで利用可能に

In many industrial settings, users wish to ask questions whose answers may be found in structured data sources such as a spreadsheets, databases, APIs, or combinations thereof. Often, the user doesn't know how to identify or access the right data source. This problem is compounded even further if multiple (and potentially siloed) data sources must be assembled to derive the answer. Recently, various Text-to-SQL applications that leverage Large Language Models (LLMs) have addressed some of these problems by enabling users to ask questions in natural language. However, these applications remain impractical in realistic industrial settings because they fail to cope with the data source heterogeneity that typifies such environments. In this paper, we address heterogeneity by introducing the siwarex platform, which enables seamless natural language access to both databases and APIs. To demonstrate the effectiveness of siwarex, we extend the popular Spider dataset and benchmark by replacing some of its tables by data retrieval APIs. We find that siwarex does a good job of coping with data source heterogeneity. Our modified Spider benchmark will soon be available to the research community
翻訳日:2024-09-10 14:06:46 公開日:2024-09-09
# 限られた地盤条件下での物体グラスピングにおけるロバスト損失関数

Robust Loss Functions for Object Grasping under Limited Ground Truth ( http://arxiv.org/abs/2409.05742v1 )

ライセンス: Link先を確認
Yangfan Deng, Mengyao Zhang, Yong Zhao, (参考訳) 物体の把握は、ロボットが環境を十分に認識し、相互作用できるようにする重要な技術である。 しかし、実際の応用では、モデルの精度を低下させる畳み込みニューラルネットワークを訓練している間に、研究者は真実の欠如やノイズに直面している。 したがって、ニューラルネットワークの精度を向上させるために、これらの問題に対処するために異なる損失関数を提案する。 提案手法は, 擬似ラベル法と協調して有効に機能する未ラベル標本に対して, 新たに予測されたカテゴリ確率法を定義する。 さらに、ノイズの多い基底事実に対しては、ラベルノイズの破損に抵抗する対称損失関数が導入された。 提案された損失関数は強力で堅牢で使いやすくなっている。 典型的な把握ニューラルネットワークに基づく実験結果から,本手法は性能を2~13%向上できることが示された。

Object grasping is a crucial technology enabling robots to perceive and interact with the environment sufficiently. However, in practical applications, researchers are faced with missing or noisy ground truth while training the convolutional neural network, which decreases the accuracy of the model. Therefore, different loss functions are proposed to deal with these problems to improve the accuracy of the neural network. For missing ground truth, a new predicted category probability method is defined for unlabeled samples, which works effectively in conjunction with the pseudo-labeling method. Furthermore, for noisy ground truth, a symmetric loss function is introduced to resist the corruption of label noises. The proposed loss functions are powerful, robust, and easy to use. Experimental results based on the typical grasping neural network show that our method can improve performance by 2 to 13 percent.
翻訳日:2024-09-10 14:06:46 公開日:2024-09-09
# LLMは、常に幻覚になる。それで生きていく必要がある

LLMs Will Always Hallucinate, and We Need to Live With This ( http://arxiv.org/abs/2409.05746v1 )

ライセンス: Link先を確認
Sourav Banerjee, Ayushi Agarwal, Saloni Singla, (参考訳) 大規模言語モデルがドメインにまたがってよりユビキタスになるにつれて、それら固有の制限を批判的に検討することが重要になる。 この研究は、言語モデルにおける幻覚は時折エラーであるだけでなく、これらのシステムの必然的な特徴であると主張している。 幻覚は LLM の基本数学的および論理的構造に由来することを実証する。 したがって、アーキテクチャの改善、データセットの強化、ファクトチェックメカニズムを通じてそれらを取り除くことは不可能である。 我々の分析は、計算理論とゴデルの第一不完全性理論に基づいており、これはハルティング、経験、受容問題といった問題の不決定性に言及している。 学習データコンパイルから事実検索,意図分類,テキスト生成に至るまで,LLMプロセスのすべての段階が幻覚を発生させる確率がゼロではないことを実証する。 この研究は、これらのシステムの本質的な性質として、構造的幻覚の概念を導入している。 幻覚の数学的確実性を確立することによって、完全に緩和できるという一般的な概念に挑戦する。

As Large Language Models become more ubiquitous across domains, it becomes important to examine their inherent limitations critically. This work argues that hallucinations in language models are not just occasional errors but an inevitable feature of these systems. We demonstrate that hallucinations stem from the fundamental mathematical and logical structure of LLMs. It is, therefore, impossible to eliminate them through architectural improvements, dataset enhancements, or fact-checking mechanisms. Our analysis draws on computational theory and Godel's First Incompleteness Theorem, which references the undecidability of problems like the Halting, Emptiness, and Acceptance Problems. We demonstrate that every stage of the LLM process-from training data compilation to fact retrieval, intent classification, and text generation-will have a non-zero probability of producing hallucinations. This work introduces the concept of Structural Hallucination as an intrinsic nature of these systems. By establishing the mathematical certainty of hallucinations, we challenge the prevailing notion that they can be fully mitigated.
翻訳日:2024-09-10 14:06:46 公開日:2024-09-09
# 構造化会話型AI(CAI)システムを用いた新しいアイデア生成ツール

A Novel Idea Generation Tool using a Structured Conversational AI (CAI) System ( http://arxiv.org/abs/2409.05747v1 )

ライセンス: Link先を確認
B. Sankar, Dibakar Sen, (参考訳) 本稿では、初心者デザイナーが一般的に見られる初期遅延やアイデアのボトルネックを軽減するための創造的アイデア生成ツールとして、会話型AI対応能動的思考インタフェースを提案する。 動的でインタラクティブで、文脈に応答するアプローチであり、人工知能(AI)における自然言語処理(NLP)の領域から、さまざまな設計問題に対する潜在的なアイデアの複数のステートメントを生成するために、LLM(Large Language Model)を積極的に巻き込む。 このようなAIモデルとアイデアの統合は、連続的な対話ベースのインタラクション、コンテキストに敏感な会話、多彩なアイデア生成の促進に役立つ、アクティブな理想化(Active Ideation)シナリオと呼ばれるものを生み出します。 従来の手法と新しいCAIベースのインターフェースを使って、与えられた問題に対するアイデアを生成するために、30人の初心者デザイナーによるパイロットスタディが実施された。 フラレンシー、ノベルティ、バラエティの主なパラメータは、専門家のパネルによって質的に結果を比較するために使用された。 その結果,多種多様で斬新なアイデアを生み出すためのツールの有効性が示された。 インターフェースは、設計者にとってより均一で便利なものにするために、各アイデアステージにプロンプトエンジニアリングによる構造化された対話スタイルを組み込むことによって強化された。 このような構造化されたCAIインタフェースの応答は、より簡潔で、その後の設計段階、すなわち概念化に整合していることが判明した。 そこで本論文は,創造的製品設計プロセスの初期段階において,ジェネレーティブAI(Gen-AI)を用いたリッチな可能性を確立した。

This paper presents a novel conversational AI-enabled active ideation interface as a creative idea-generation tool to assist novice designers in mitigating the initial latency and ideation bottlenecks that are commonly observed. It is a dynamic, interactive, and contextually responsive approach, actively involving a large language model (LLM) from the domain of natural language processing (NLP) in artificial intelligence (AI) to produce multiple statements of potential ideas for different design problems. Integrating such AI models with ideation creates what we refer to as an Active Ideation scenario, which helps foster continuous dialogue-based interaction, context-sensitive conversation, and prolific idea generation. A pilot study was conducted with thirty novice designers to generate ideas for given problems using traditional methods and the new CAI-based interface. The key parameters of fluency, novelty, and variety were used to compare the outcomes qualitatively by a panel of experts. The findings demonstrated the effectiveness of the proposed tool for generating prolific, diverse and novel ideas. The interface was enhanced by incorporating a prompt-engineered structured dialogue style for each ideation stage to make it uniform and more convenient for the designers. The resulting responses of such a structured CAI interface were found to be more succinct and aligned towards the subsequent design stage, namely conceptualization. The paper thus established the rich potential of using Generative AI (Gen-AI) for the early ill-structured phase of the creative product design process.
翻訳日:2024-09-10 13:56:09 公開日:2024-09-09
# ReL-SAR:畳み込み変換器とBYOLを用いた骨格行動認識のための表現学習

ReL-SAR: Representation Learning for Skeleton Action Recognition with Convolutional Transformers and BYOL ( http://arxiv.org/abs/2409.05749v1 )

ライセンス: Link先を確認
Safwen Naimi, Wassim Bouachir, Guillaume-Alexandre Bilodeau, (参考訳) 頑丈で一般化可能なスケルトン動作認識特徴を抽出するためには、よく計算された大量のデータが必要であるが、これはアノテーションや計算コストの妨げとなる課題である。 したがって、教師なし表現学習は、ラベルのない骨格データを活用する上で最も重要なものである。 本研究では,骨格行動認識のための教師なし表現学習について検討する。 そこで我々はReL-SARという軽量な畳み込みトランスフォーマー・フレームワークを設計し,スケルトン配列の空間的および時間的手がかりを共同でモデル化するために,畳み込み層と注目層の相補性を利用した。 また骨格関節の選択・置換戦略を用いて骨格データからより情報的な記述を確実にする。 最後に,Bootstrap Your Own Latent (BYOL) を利用して,ラベルのない骨格配列データから堅牢な表現を学習する。 我々は, MCAD, IXMAS, JHMDB, NW-UCLA という限られたサイズのデータセットに対して非常に競争力のある結果を得た。 再現性と再利用性を確保するため、すべての実装パラメータを含むソースコードがhttps://github.com/SafwenNaimi/Representation-Learning-for-Skeleton-Action-Recognition-with-Convolut ional-Transformers-and-BYOLで提供されている。

To extract robust and generalizable skeleton action recognition features, large amounts of well-curated data are typically required, which is a challenging task hindered by annotation and computation costs. Therefore, unsupervised representation learning is of prime importance to leverage unlabeled skeleton data. In this work, we investigate unsupervised representation learning for skeleton action recognition. For this purpose, we designed a lightweight convolutional transformer framework, named ReL-SAR, exploiting the complementarity of convolutional and attention layers for jointly modeling spatial and temporal cues in skeleton sequences. We also use a Selection-Permutation strategy for skeleton joints to ensure more informative descriptions from skeletal data. Finally, we capitalize on Bootstrap Your Own Latent (BYOL) to learn robust representations from unlabeled skeleton sequence data. We achieved very competitive results on limited-size datasets: MCAD, IXMAS, JHMDB, and NW-UCLA, showing the effectiveness of our proposed method against state-of-the-art methods in terms of both performance and computational efficiency. To ensure reproducibility and reusability, the source code including all implementation parameters is provided at: https://github.com/SafwenNaimi/Representation-Learning-for-Skeleton-Action-Recognition-with-Convolut ional-Transformers-and-BYOL
翻訳日:2024-09-10 13:56:09 公開日:2024-09-09
# ヘテロフィックなGNNとホモフィリーメトリクスは本当に有効か? : 落とし穴の評価と新しいベンチマーク

Are Heterophily-Specific GNNs and Homophily Metrics Really Effective? Evaluation Pitfalls and New Benchmarks ( http://arxiv.org/abs/2409.05755v1 )

ライセンス: Link先を確認
Sitao Luan, Qincheng Lu, Chenqing Hua, Xinyu Wang, Jiaqi Zhu, Xiao-Wen Chang, Guy Wolf, Jian Tang, (参考訳) 過去10年間で、グラフニューラルネットワーク(GNN)は、リレーショナルデータによる機械学習タスクで大きな成功を収めました。 しかし、近年の研究では、特にノードレベルのタスクにおいて、ヘテロフィリーがGNNの大幅な性能劣化を引き起こすことが報告されている。 異種特異的なGNNの有効性を検証するために、多くの異種性ベンチマークデータセットが提案されている。 それでも、新しいモデルやメトリクスの適切な評価を著しく妨げる、複数の落とし穴が存在する。 本稿では,最も深刻な落とし穴を3つ挙げる。 1) ハイパーパラメータチューニングの欠如 2) 真の挑戦的ヘテロ親和性データセットのモデル評価が不十分である。 3) 合成グラフ上でのホモフィリメトリックの定量的評価ベンチマークの欠落。 これらの課題を克服するために、私たちはまず、最も広く使用されているベンチマークデータセット27ドルで、ベースラインモデルをトレーニングし、それらを悪性、良性、曖昧な異種性データセットの3つのグループに分類し、タスクの真に困難なサブセットを特定しました。 私たちの知る限りでは、このような分類を最初に提案するのは私たちです。 ヘテロフィリン特異的なSOTA(State-of-the-arts)GNNを、ヘテロ親水性データセットの異なるグループで微調整したハイパーパラメータで再評価する。 モデル性能に基づいて、異種問題に対処する上での有効性を再評価する。 最終的に、我々は3つの異なる世代アプローチを持つ合成グラフ上で、11ドル人気のホモフィリーメトリクスを評価した。 厳密に比較するために,Fr'echet距離に基づく最初の定量的評価手法を提案する。

Over the past decade, Graph Neural Networks (GNNs) have achieved great success on machine learning tasks with relational data. However, recent studies have found that heterophily can cause significant performance degradation of GNNs, especially on node-level tasks. Numerous heterophilic benchmark datasets have been put forward to validate the efficacy of heterophily-specific GNNs and various homophily metrics have been designed to help people recognize these malignant datasets. Nevertheless, there still exist multiple pitfalls that severely hinder the proper evaluation of new models and metrics. In this paper, we point out three most serious pitfalls: 1) a lack of hyperparameter tuning; 2) insufficient model evaluation on the real challenging heterophilic datasets; 3) missing quantitative evaluation benchmark for homophily metrics on synthetic graphs. To overcome these challenges, we first train and fine-tune baseline models on $27$ most widely used benchmark datasets, categorize them into three distinct groups: malignant, benign and ambiguous heterophilic datasets, and identify the real challenging subsets of tasks. To our best knowledge, we are the first to propose such taxonomy. Then, we re-evaluate $10$ heterophily-specific state-of-the-arts (SOTA) GNNs with fine-tuned hyperparameters on different groups of heterophilic datasets. Based on the model performance, we reassess their effectiveness on addressing heterophily challenge. At last, we evaluate $11$ popular homophily metrics on synthetic graphs with three different generation approaches. To compare the metrics strictly, we propose the first quantitative evaluation method based on Fr\'echet distance.
翻訳日:2024-09-10 13:56:09 公開日:2024-09-09
# 新しい有限差分フーリエ変換とその量子回路実装

A Novel Finite Fractional Fourier Transform and its Quantum Circuit Implementation on Qudits ( http://arxiv.org/abs/2409.05759v1 )

ライセンス: Link先を確認
Emmanuel Floratos, Archimedes Pavlidis, (参考訳) 離散分数フーリエ変換(DFrFT)の新しい数論的定義を提案する。 このアプローチでは、DFrFT は、算術回転群 $SO_{2}[\mathbb{Z}_N]$ の生成元に関する$N \times N$ 次元ユニタリ表現として定義され、これは、離散トロイダル位相空間格子 $\mathbb{Z}_N \times \mathbb{Z}_N$ の点に作用する$\bmod N$ の有限集合である。 我々は、Finite Quantum Mechanics (FQM) の技法を用いて、群 $SO_{2}[\mathbb{Z}_{p^n}]$ の$p^n$ 次元ユニタリ行列表現を明示的に構成する。 これは算術分数フーリエ変換(AFrFT)の定義である。 この定義に従うと、二次位相を持つ対角作用素のための新しい量子サブ回路と、乗算器のための新しい量子サブ回路を定数で導入することにより、$n$$$p$-dimensional qudits with $p$ a prime integer で AFrFT のための効率的な量子回路の構築を進める。 私たちが導入する量子サブ回路は、より一般的な群の任意の要素、例えば線形正準変換群(LCT)、SL_{2}[\mathbb{Z}_N]$のトロイダル位相空間格子の量子回路を構成することができる集合を提供する。 副生成物として、quditとqubitケースの両方に対する対角および乗算器量子回路の拡張が与えられるが、これは様々な用途でのみ有用である。 また、効率的なAFrFT量子回路の深さ、幅、ゲートの複雑さを分析し、そのゲートの複雑さを$O(n^2)$、深さ$O(n)$、深さ$n$と見積もると同時に、クォーディット間の局所的な相互作用を許容する構造を持つ。

We present a new number theoretic definition of discrete fractional Fourier transform (DFrFT) . In this approach the DFrFT is defined as the $N \times N$ dimensional unitary representation of the generator of the arithmetic rotational group $SO_{2}[\mathbb{Z}_N]$, which is the finite set of $\bmod N$ integer, $2\times 2$ matrices acting on the points of the discrete toroidal phase space lattice $\mathbb{Z}_N \times \mathbb{Z}_N$, preserving the euclidean distance $\bmod N$. We construct explicitly, using techniques of the Finite Quantum Mechanics (FQM), the $p^n$ dimensional unitary matrix representation of the group $SO_{2}[\mathbb{Z}_{p^n}]$ and especially we work out in detail the one which corresponds to the generator. This is our definition of the arithmetic fractional Fourier transform (AFrFT). Following this definition, we proceed to the construction of efficient quantum circuits for the AFrFT, on sets of $n$ $p$-dimensional qudits with $p$ a prime integer, by introducing novel quantum subcircuits for diagonal operators with quadratic phases as well as new quantum subcircuits for multipliers by a constant. The quantum subcircuits that we introduce provide a set capable to construct quantum circuits for any element of a more general group, the group of Linear Canonical Transformations (LCT), $SL_{2}[\mathbb{Z}_N]$ of the toroidal phase space lattice. As a byproduct, extensions of the diagonal and multiplier quantum circuits for both the qudit and qubit case are given, which are useful alone in various applications. Also, we analyze the depth, width and gate complexity of the efficient AFrFT quantum circuit and we estimate its gate complexity which is of the order $O(n^2)$, its depth which is of the order $O(n)$ with depth $n$, while at the same time it has a structure permitting local interactions between the qudits.
翻訳日:2024-09-10 13:56:09 公開日:2024-09-09
# 合意に基づく分散量子カーネル学習による音声認識

Consensus-based Distributed Quantum Kernel Learning for Speech Recognition ( http://arxiv.org/abs/2409.05770v1 )

ライセンス: Link先を確認
Kuan-Cheng Chen, Wenxuan Ma, Xiaotian Xu, (参考訳) 本稿では,分散量子コンピューティングによる音声認識向上を目的としたコンセンサスベースの分散量子カーネル学習(CDQKL)フレームワークを提案する。CDQKLは,集中型量子カーネル学習におけるスケーラビリティとデータプライバシの課題に対処する。 計算タスクを古典的なチャネルを介して接続された量子端末に分散することでこれを実現している。 このアプローチにより、ローカルトレーニングデータを共有せずにモデルパラメータの交換が可能となり、データのプライバシが維持され、計算効率が向上する。 ベンチマーク音声感情認識データセットの実験的評価により、CDQKLは集中型および局所的な量子カーネル学習モデルと比較して、競合する分類精度とスケーラビリティを実現することが示された。 CDQKLの分散した性質は、プライバシー保護と計算効率の利点を提供し、通信、自動車、金融といったデータに敏感な分野に適している。 この結果から,CDQKLは大規模機械学習タスクにおいて分散量子コンピューティングを効果的に活用できることが示唆された。

This paper presents a Consensus-based Distributed Quantum Kernel Learning (CDQKL) framework aimed at improving speech recognition through distributed quantum computing.CDQKL addresses the challenges of scalability and data privacy in centralized quantum kernel learning. It does this by distributing computational tasks across quantum terminals, which are connected through classical channels. This approach enables the exchange of model parameters without sharing local training data, thereby maintaining data privacy and enhancing computational efficiency. Experimental evaluations on benchmark speech emotion recognition datasets demonstrate that CDQKL achieves competitive classification accuracy and scalability compared to centralized and local quantum kernel learning models. The distributed nature of CDQKL offers advantages in privacy preservation and computational efficiency, making it suitable for data-sensitive fields such as telecommunications, automotive, and finance. The findings suggest that CDQKL can effectively leverage distributed quantum computing for large-scale machine-learning tasks.
翻訳日:2024-09-10 13:56:09 公開日:2024-09-09
# fMRIによる言語モデルにおける2相抽象化プロセスの検証

Evidence from fMRI Supports a Two-Phase Abstraction Process in Language Models ( http://arxiv.org/abs/2409.05771v1 )

ライセンス: Link先を確認
Emily Cheng, Richard J. Antonello, (参考訳) 研究は、大きな言語モデルから抽出された中間的隠れ状態が、自然言語刺激に対する測定された脳反応を予測することができることを何度も示してきた。 しかし、この高い予測性能を実現する表現特性についてはほとんど知られていない。 なぜそれは中間層であり、出力層ではないのか? 本研究では,fMRIにおける言語符号化モデルからの証拠が,LLM内の2相抽象化プロセスの存在を裏付けることを示す。 我々は、この抽象過程が言語モデルを訓練する過程で自然に発生し、この抽象過程の最初の「構成」フェーズがトレーニングが進むにつれて、より少ない層に圧縮されることを示すために、多様体学習法を用いる。 最後に,レイヤワイド符号化性能とLLMの表現の内在的次元性との間に強い対応性を示す。 我々は、この対応がLLMの本質的な構成性から導かれるという最初の証拠を与えるが、その次の単語予測特性は持っていない。

Research has repeatedly demonstrated that intermediate hidden states extracted from large language models are able to predict measured brain response to natural language stimuli. Yet, very little is known about the representation properties that enable this high prediction performance. Why is it the intermediate layers, and not the output layers, that are most capable for this unique and highly general transfer task? In this work, we show that evidence from language encoding models in fMRI supports the existence of a two-phase abstraction process within LLMs. We use manifold learning methods to show that this abstraction process naturally arises over the course of training a language model and that the first "composition" phase of this abstraction process is compressed into fewer layers as training continues. Finally, we demonstrate a strong correspondence between layerwise encoding performance and the intrinsic dimensionality of representations from LLMs. We give initial evidence that this correspondence primarily derives from the inherent compositionality of LLMs and not their next-word prediction properties.
翻訳日:2024-09-10 13:56:09 公開日:2024-09-09
# 創造性と視覚コミュニケーション - ロボットカメラによるスコア共有

Creativity and Visual Communication from Machine to Musician: Sharing a Score through a Robotic Camera ( http://arxiv.org/abs/2409.05773v1 )

ライセンス: Link先を確認
Ross Greer, Laura Fleig, Shlomo Dubnov, (参考訳) 本稿では,「誘導ハーモニー」音楽ゲーム内にロボットカメラを実装することで,視覚コミュニケーションと音楽インタラクションの統合について検討する。 我々は,人間ミュージシャンとロボットシステムとの共創造行動を検討することを目的とする。 本研究は、即興ゲーム作品などの既存の手法を探求し、PTZカメラを用いたロボット参加を含むように、これらの概念を拡張したものである。 ロボットシステムは、ミュージシャンの非言語的手がかりを解釈し、応答し、協調的で適応的な音楽体験を作り出す。 この最初のケーススタディは、直感的な視覚コミュニケーションチャネルの重要性を浮き彫りにしている。 また、視覚的キューツールキットの精細化や、人間と機械の共創造性を更に理解するためのデータ収集手法など、今後の研究方向も提案する。 我々の発見は、人間の創造性、特に音楽的環境において、マシンインテリジェンスに対するより広範な理解に寄与する。

This paper explores the integration of visual communication and musical interaction by implementing a robotic camera within a "Guided Harmony" musical game. We aim to examine co-creative behaviors between human musicians and robotic systems. Our research explores existing methodologies like improvisational game pieces and extends these concepts to include robotic participation using a PTZ camera. The robotic system interprets and responds to nonverbal cues from musicians, creating a collaborative and adaptive musical experience. This initial case study underscores the importance of intuitive visual communication channels. We also propose future research directions, including parameters for refining the visual cue toolkit and data collection methods to understand human-machine co-creativity further. Our findings contribute to the broader understanding of machine intelligence in augmenting human creativity, particularly in musical settings.
翻訳日:2024-09-10 13:56:09 公開日:2024-09-09
# 純熱シャドウのための量子資源

Quantum Resources for Pure Thermal Shadows ( http://arxiv.org/abs/2409.05777v1 )

ライセンス: Link先を確認
Arnav Sharma, Kevin Obenland, (参考訳) Gibbs状態の特性の計算は、量子化学と量子機械学習において重要なタスクである。 従来の研究は、古典的なシャドウと量子信号処理を組み合わせて、純熱シャドウと呼ばれる新しい推定器にGibs状態予測値を$M$observablesで予測する量子アルゴリズムを提案している。 本研究では,本アルゴリズムで使用される回路の資源分析を行い,量子信号処理がシステムサイズの増加に伴ってゲート数や深さに最も寄与することが確認された。 これに対して私たちが使用している実装は、より効率的なランダムなユニタリ生成ステップという形で、アルゴリズムの改善も備えています。 さらに,資源分析がもたらす影響を考慮すると,その潜在的な有効性は,大規模でクールなシステムのギブス状態からサンプリングしたフォールトトレラントデバイスに制約される可能性があると論じる。

Calculating the properties of Gibbs states is an important task in Quantum Chemistry and Quantum Machine Learning. Previous work has proposed a quantum algorithm which predicts Gibbs state expectation values for $M$ observables from only $\log{M}$ measurements, by combining classical shadows and quantum signal processing for a new estimator called Pure Thermal Shadows. In this work, we perform resource analysis for the circuits used in this algorithm, finding that quantum signal processing contributes most significantly to gate count and depth as system size increases. The implementation we use for this also features an improvement to the algorithm in the form of more efficient random unitary generation steps. Moreover, given the ramifications of the resource analysis, we argue that its potential utility could be constrained to Fault Tolerant devices sampling from the Gibbs state of a large, cool system.
翻訳日:2024-09-10 13:56:09 公開日:2024-09-09
# 機械学習を用いた分野特化ETFの方向変化予測のための高度なLSTMニューラルネットワーク

Advanced LSTM Neural Networks for Predicting Directional Changes in Sector-Specific ETFs Using Machine Learning Techniques ( http://arxiv.org/abs/2409.05778v1 )

ライセンス: Link先を確認
Rifa Gowani, Zaryab Kanjiani, (参考訳) 株式のトレーディングや投資はフルタイムのキャリアである一方、追加の収入源であるものもある。 すべての投資家の中でユニバーサルは、利益を回したいという願望だ。 この目標を達成するための鍵は多様化です。 収益性や利益率の最大化には、セクターにまたがる投資が不可欠だ。 本研究は,ポートフォリオリターンを最大化するための多様化の原則を実践する上で,機械学習手法の実用性を評価することを目的とする。 これをテストするために、VanguardのセクターベースのETFを用いて、9つの異なるセクターと2200以上の株にわたるLong-Short Term Memory(LSTM)モデルを評価する。 全分野にわたるR2乗値は、平均0.8651、VNQ ETFは0.942である、有望な結果を示した。 これらの結果は、LSTMモデルが様々な産業セクターの方向性変化を正確に予測し、投資家のポートフォリオの多様化と成長を支援するための、実用的で実行可能なモデルであることを示唆している。

Trading and investing in stocks for some is their full-time career, while for others, it's simply a supplementary income stream. Universal among all investors is the desire to turn a profit. The key to achieving this goal is diversification. Spreading investments across sectors is critical to profitability and maximizing returns. This study aims to gauge the viability of machine learning methods in practicing the principle of diversification to maximize portfolio returns. To test this, the study evaluates the Long-Short Term Memory (LSTM) model across nine different sectors and over 2,200 stocks using Vanguard's sector-based ETFs. The R-squared value across all sectors showed promising results, with an average of 0.8651 and a high of 0.942 for the VNQ ETF. These findings suggest that the LSTM model is a capable and viable model for accurately predicting directional changes across various industry sectors, helping investors diversify and grow their portfolios.
翻訳日:2024-09-10 13:56:09 公開日:2024-09-09
# ニューラルネットワークのスケーリング法則をモジュラリティで破る

Breaking Neural Network Scaling Laws with Modularity ( http://arxiv.org/abs/2409.05780v1 )

ライセンス: Link先を確認
Akhilan Boopathy, Sunshine Jiang, William Yue, Jaedong Hwang, Abhiram Iyer, Ila Fiete, (参考訳) モジュラーニューラルネットワークは、視覚的な質問応答からロボット工学まで、タスクにおいて非モジュラーニューラルネットワークを上回っている。 これらの性能改善は、実世界の問題の構成構造と組合せ構造をモデル化するモジュラーネットワークの優れた能力に起因すると考えられている。 しかし、モジュラリティが一般化可能性をどのように改善するかの理論的な説明と、ネットワークのトレーニング中にタスクのモジュラリティをどのように活用するかは、いまだ解明されていない。 ニューラルネットワークの一般化を説明するための最近の理論的進歩から,タスクを一般化するために必要なトレーニングデータの量は,タスクの入力の内在的な次元によってどのように変化するかを検討する。 非モジュラーネットワークはタスク次元の指数的なサンプル数を必要とするが、モジュラーネットワークのサンプル複雑性はタスク次元とは無関係である: モジュラーネットワークは高次元で一般化できる。 そこで我々は,この利点を生かし,高次元のモジュラータスクにおいて,内分布と外分布の両面において改良された一般化を実証的に示すために,モジュラーネットワークのための新しい学習ルールを開発する。

Modular neural networks outperform nonmodular neural networks on tasks ranging from visual question answering to robotics. These performance improvements are thought to be due to modular networks' superior ability to model the compositional and combinatorial structure of real-world problems. However, a theoretical explanation of how modularity improves generalizability, and how to leverage task modularity while training networks remains elusive. Using recent theoretical progress in explaining neural network generalization, we investigate how the amount of training data required to generalize on a task varies with the intrinsic dimensionality of a task's input. We show theoretically that when applied to modularly structured tasks, while nonmodular networks require an exponential number of samples with task dimensionality, modular networks' sample complexity is independent of task dimensionality: modular networks can generalize in high dimensions. We then develop a novel learning rule for modular networks to exploit this advantage and empirically show the improved generalization of the rule, both in- and out-of-distribution, on high-dimensional, modular tasks.
翻訳日:2024-09-10 13:56:09 公開日:2024-09-09
# 統一ニューラルネットワークスケーリング法則とスケールタイム等価性

Unified Neural Network Scaling Laws and Scale-time Equivalence ( http://arxiv.org/abs/2409.05782v1 )

ライセンス: Link先を確認
Akhilan Boopathy, Ila Fiete, (参考訳) ニューラルネットワークのサイズが拡大するがデータセットがそうでないため、どの程度のパフォーマンス向上が期待できるのかを理解することが不可欠である。 このように、テストエラーがネットワークサイズやデータボリュームによってどのように変化するかを特徴付けるニューラルネットワークスケーリング法則が、ますます重要になっている。 しかし、既存のスケーリング法則は限られた制度でのみ適用され、二重降下のようなよく知られた現象を取り入れたり予測したりしないことが多い。 ここでは、モデルのサイズ、トレーニング時間、データボリュームの3つの要素がどのように相互作用し、ディープニューラルネットワークの性能を決定するかという、新しい理論的特徴を示す。 まず、ニューラルネットワークのサイズを拡大し、トレーニング時間を比例的に増加させることで、理論的かつ経験的な等価性を確立する。 スケールタイムの等価性は、大規模なモデルが小規模な期間でトレーニングされる現在のプラクティスに挑戦し、より小さなモデルが長期にわたってトレーニングされた場合の有効性に合致する可能性があることを示唆している。 また、拡張エポックのために訓練された小規模ネットワークから大規模ネットワークの性能を予測する新たな手法も提案されている。 次に、スケールタイム同値と二重降下の線形モデル解析を組み合わせ、統一された理論的スケーリング法則を得る。 これらの法則は、より大規模なモデルにおける一般化のためのデータ要求の削減、過パラメータ化モデルにおけるラベルノイズに対する感度の向上、モデルスケールの増加が必ずしも性能を向上しないインスタンスなど、これまで説明されていなかったいくつかの現象を説明する。 私たちの発見は、ニューラルネットワークの実践的な展開に重要な意味を持ち、トレーニングや微調整の大規模なモデルへの、よりアクセスしやすく効率的なパスを提供しています。

As neural networks continue to grow in size but datasets might not, it is vital to understand how much performance improvement can be expected: is it more important to scale network size or data volume? Thus, neural network scaling laws, which characterize how test error varies with network size and data volume, have become increasingly important. However, existing scaling laws are often applicable only in limited regimes and often do not incorporate or predict well-known phenomena such as double descent. Here, we present a novel theoretical characterization of how three factors -- model size, training time, and data volume -- interact to determine the performance of deep neural networks. We first establish a theoretical and empirical equivalence between scaling the size of a neural network and increasing its training time proportionally. Scale-time equivalence challenges the current practice, wherein large models are trained for small durations, and suggests that smaller models trained over extended periods could match their efficacy. It also leads to a novel method for predicting the performance of large-scale networks from small-scale networks trained for extended epochs, and vice versa. We next combine scale-time equivalence with a linear model analysis of double descent to obtain a unified theoretical scaling law, which we confirm with experiments across vision benchmarks and network architectures. These laws explain several previously unexplained phenomena: reduced data requirements for generalization in larger models, heightened sensitivity to label noise in overparameterized models, and instances where increasing model scale does not necessarily enhance performance. Our findings hold significant implications for the practical deployment of neural networks, offering a more accessible and efficient path to training and fine-tuning large models.
翻訳日:2024-09-10 13:56:09 公開日:2024-09-09
# NeurLZ: エラー制御によるニューラルラーニングに基づく科学データにおける損失圧縮性能の体系的向上について

NeurLZ: On Systematically Enhancing Lossy Compression Performance for Scientific Data based on Neural Learning with Error Control ( http://arxiv.org/abs/2409.05785v1 )

ライセンス: Link先を確認
Wenqi Jia, Youyuan Liu, Zhewen Hu, Jinzhen Wang, Boyuan Zhang, Wei Niu, Junzhou Huang, Stavros Kalafatis, Sian Jin, Miao Yin, (参考訳) 大規模科学シミュレーションは、ストレージとI/Oに重大な課題をもたらす巨大なデータセットを生成する。 従来の圧縮技術では性能が向上するが、圧縮率、データ品質、スループットのバランスは依然として難しい。 そこで我々は,科学データのための新しいクロスフィールド学習と誤り制御圧縮フレームワークNeurLZを提案する。 DNNモデルのスキップ、クロスフィールド学習、エラー制御を統合することで、このフレームワークは圧縮性能を著しく向上することを目的としている。 1) 高忠実度詳細保持のための軽量スキップモデルを設計し、予測精度をさらに向上する。 2)データ予測精度を大幅に向上するクロスフィールド学習手法を導入し,圧縮率を大幅に改善した。 (3) ユーザ要求に応じて厳密なエラー境界を提供するためのエラー制御手法を開発する。 我々はNyx(宇宙シミュレーション)、Miranda(大規模乱流シミュレーション)、Hurricane(ウェザーシミュレーション)などの実世界のHPCアプリケーションデータセット上でNeurLZを評価した。 実験により、我々のフレームワークは同じデータ歪み下で最大90%のビットレートの相対的な削減を実現していることが示された。

Large-scale scientific simulations generate massive datasets that pose significant challenges for storage and I/O. While traditional lossy compression techniques can improve performance, balancing compression ratio, data quality, and throughput remains difficult. To address this, we propose NeurLZ, a novel cross-field learning-based and error-controlled compression framework for scientific data. By integrating skipping DNN models, cross-field learning, and error control, our framework aims to substantially enhance lossy compression performance. Our contributions are three-fold: (1) We design a lightweight skipping model to provide high-fidelity detail retention, further improving prediction accuracy. (2) We adopt a cross-field learning approach to significantly improve data prediction accuracy, resulting in a substantially improved compression ratio. (3) We develop an error control approach to provide strict error bounds according to user requirements. We evaluated NeurLZ on several real-world HPC application datasets, including Nyx (cosmological simulation), Miranda (large turbulence simulation), and Hurricane (weather simulation). Experiments demonstrate that our framework achieves up to a 90% relative reduction in bit rate under the same data distortion, compared to the best existing approach.
翻訳日:2024-09-10 13:56:09 公開日:2024-09-09
# ポイントトラッキングのためのオブジェクト優先順位の活用

Leveraging Object Priors for Point Tracking ( http://arxiv.org/abs/2409.05786v1 )

ライセンス: Link先を確認
Bikram Boote, Anh Thai, Wenqi Jia, Ozgur Kara, Stefan Stojanov, James M. Rehg, Sangmin Lee, (参考訳) ポイントトラッキングは、コンピュータビジョンにおける基本的な問題であり、多くのARやロボット工学への応用がある。 長期点追跡における共通の障害モードは、予測されたポイントが属するオブジェクトを離れ、背景または他のオブジェクトに着地した場合に発生する。 我々はこれを、追跡の学習において、オブジェクト性特性を正しく捉えていないと認識している。 このような事前作業の制限に対処するために,オブジェクトのインスタンスの境界内に留まるように強制することで,オブジェクトの先行を意識するポイントを誘導する,新しいオブジェクト性正規化手法を提案する。 トレーニング時にオブジェクトネスの手がかりをキャプチャすることで、テスト中にオブジェクトマスクを計算する必要がなくなる。 さらに,特徴レベルのオブジェクトをより効果的にキャプチャするための特徴表現を強化するために,文脈的注意を生かした。 その結果,提案手法は3点追跡ベンチマーク上での最先端性能を実現し,アブレーションによる有効性をさらに検証した。 ソースコードは、https://github.com/RehgLab/tracking_objectness.comで入手できる。

Point tracking is a fundamental problem in computer vision with numerous applications in AR and robotics. A common failure mode in long-term point tracking occurs when the predicted point leaves the object it belongs to and lands on the background or another object. We identify this as the failure to correctly capture objectness properties in learning to track. To address this limitation of prior work, we propose a novel objectness regularization approach that guides points to be aware of object priors by forcing them to stay inside the the boundaries of object instances. By capturing objectness cues at training time, we avoid the need to compute object masks during testing. In addition, we leverage contextual attention to enhance the feature representation for capturing objectness at the feature level more effectively. As a result, our approach achieves state-of-the-art performance on three point tracking benchmarks, and we further validate the effectiveness of our components via ablation studies. The source code is available at: https://github.com/RehgLab/tracking_objectness
翻訳日:2024-09-10 13:56:09 公開日:2024-09-09
# 条件付き変分オートエンコーダとディープニューラルネットワークを用いた不確かさの定量化と領域一般化による臨界熱流束の予測

Predicting Critical Heat Flux with Uncertainty Quantification and Domain Generalization Using Conditional Variational Autoencoders and Deep Neural Networks ( http://arxiv.org/abs/2409.05790v1 )

ライセンス: Link先を確認
Farah Alsafadi, Aidan Furlong, Xu Wu, (参考訳) 深部生成モデル(DGM)は、現実的なデータサンプルを生成するのに強力であることが証明されている。 データセットの基盤となる分布を学習する能力により、元のトレーニングデータセットと密接に類似した合成データサンプルを生成することが可能になるため、データの不足という課題に対処できる。 本研究では,2006年のGroeneveldルックアップテーブルの生成に用いた臨界熱流束(CHF)測定データを増大させる条件付き変分オートエンコーダ(CVAE)モデルを構築し,DGMの能力について検討した。 従来の手法と比較して、このアプローチをどのように判断するかを判断するために、細調整されたディープニューラルネットワーク(DNN)回帰モデルを作成し、同じデータセットで評価した。 CVAEモデルとDNNモデルはどちらも平均的な相対誤差が小さく、CVAEモデルはより良好な結果を維持した。 モデルの予測の不確実性を定量化するために,CVAEモデルの繰り返しサンプリングとDNNモデルのアンサンブルを行い,不確実性定量化(UQ)を行った。 UQの後、DNNアンサンブルはベースラインのDNNモデルと比較して顕著に性能が向上し、CVAEモデルは非UQモデルと同様の結果を得た。 CVAEモデルでは, 予測的相対的標準偏差の評価後, 変動性が著しく低下し, 高い信頼度が得られた。 ドメインの一般化を評価するため、両方のモデルはトレーニングドメイン内外の両方を予測する際に小さな平均エラー値を達成し、トレーニングドメイン外の予測はわずかに大きなエラーを示す。 CVAEモデルは,CHF値の予測ではDNN回帰モデルに匹敵するが,不確実性は良好であった。

Deep generative models (DGMs) have proven to be powerful in generating realistic data samples. Their capability to learn the underlying distribution of a dataset enable them to generate synthetic data samples that closely resemble the original training dataset, thus addressing the challenge of data scarcity. In this work, we investigated the capabilities of DGMs by developing a conditional variational autoencoder (CVAE) model to augment the critical heat flux (CHF) measurement data that was used to generate the 2006 Groeneveld lookup table. To determine how this approach compared to traditional methods, a fine-tuned deep neural network (DNN) regression model was created and evaluated with the same dataset. Both the CVAE and DNN models achieved small mean absolute relative errors, with the CVAE model maintaining more favorable results. To quantify the uncertainty in the model's predictions, uncertainty quantification (UQ) was performed with repeated sampling of the CVAE model and ensembling of the DNN model. Following UQ, the DNN ensemble notably improved performance when compared to the baseline DNN model, while the CVAE model achieved similar results to its non-UQ results. The CVAE model was shown to have significantly less variability and a higher confidence after assessment of the prediction-wise relative standard deviations. Evaluating domain generalization, both models achieved small mean error values when predicting both inside and outside the training domain, with predictions outside the training domain showing slightly larger errors. Overall, the CVAE model was comparable to the DNN regression model in predicting CHF values but with better uncertainty behavior.
翻訳日:2024-09-10 13:56:09 公開日:2024-09-09
# 人の反応時間による嗜好に基づく線形帯域の強化

Enhancing Preference-based Linear Bandits via Human Response Time ( http://arxiv.org/abs/2409.05798v1 )

ライセンス: Link先を確認
Shen Li, Yuyang Zhang, Zhaolin Ren, Claire Liang, Na Li, Julie A. Shah, (参考訳) 二元的人間の選択フィードバックは、その単純さのためにインタラクティブな選好学習に広く使われているが、選好強度に関する限られた情報を提供する。 この制限を克服するために、人間の反応時間は、相補的な情報として、逆に好みの強さと相関する。 我々の研究は、人間の選択と応答時間を共同でモデル化するEZ拡散モデルと、嗜好に基づく線形包帯を統合する。 本稿では、線形回帰問題として、選択時間と応答時間の両方を用いてユーティリティ推定問題を再構成する計算効率の良いユーティリティ推定器を提案する。 従来の選択のみの推定器との理論的および実証的な比較では、強い好み("easy" クエリ)を持つクエリの場合、選択は限定的な情報を提供するのに対し、応答時間は好みの強さに関する貴重な補完的な情報を提供する。 その結果、レスポンスタイムを組み込むことで、簡単なクエリがより便利になる。 この利点は,3つの実世界のデータセットに基づいてシミュレーションを行い,応答時間が組み込まれた場合の学習の高速化を連続的に示す固定予算ベストアーム識別問題において実証する。

Binary human choice feedback is widely used in interactive preference learning for its simplicity, but it provides limited information about preference strength. To overcome this limitation, we leverage human response times, which inversely correlate with preference strength, as complementary information. Our work integrates the EZ-diffusion model, which jointly models human choices and response times, into preference-based linear bandits. We introduce a computationally efficient utility estimator that reformulates the utility estimation problem using both choices and response times as a linear regression problem. Theoretical and empirical comparisons with traditional choice-only estimators reveal that for queries with strong preferences ("easy" queries), choices alone provide limited information, while response times offer valuable complementary information about preference strength. As a result, incorporating response times makes easy queries more useful. We demonstrate this advantage in the fixed-budget best-arm identification problem, with simulations based on three real-world datasets, consistently showing accelerated learning when response times are incorporated.
翻訳日:2024-09-10 13:56:09 公開日:2024-09-09
# PDAF:話者認証のための音声障害注意フレームワーク

PDAF: A Phonetic Debiasing Attention Framework For Speaker Verification ( http://arxiv.org/abs/2409.05799v1 )

ライセンス: Link先を確認
Massa Baali, Abdulhamid Aldoobi, Hira Dhamyal, Rita Singh, Bhiksha Raj, (参考訳) 話者認証システムは音声によるアイデンティティの認証に不可欠である。 伝統的に、これらのシステムは特徴ベクトルの比較に焦点を合わせ、音声の内容を見渡す。 しかし,本論文では,話者認証における重要な手がかりとして,音素の頻度や持続時間の尺度である音素支配の重要性を強調することで,この問題に対処する。 音声の優位性によるバイアスを軽減するために,既存の注目フレームワークを統合した新しいPhoneme Debiasing Attention Framework(PDAF)が導入された。 PDAFは各音素の重み付けを調整し、特徴抽出に影響を与える。 このアプローチは、音声によるより正確で信頼性の高いID認証を実現する方法である。 さらに,様々な重み付け手法を用いて,話者認証システムの有効性に対する音声特徴の影響を評価する。

Speaker verification systems are crucial for authenticating identity through voice. Traditionally, these systems focus on comparing feature vectors, overlooking the speech's content. However, this paper challenges this by highlighting the importance of phonetic dominance, a measure of the frequency or duration of phonemes, as a crucial cue in speaker verification. A novel Phoneme Debiasing Attention Framework (PDAF) is introduced, integrating with existing attention frameworks to mitigate biases caused by phonetic dominance. PDAF adjusts the weighting for each phoneme and influences feature extraction, allowing for a more nuanced analysis of speech. This approach paves the way for more accurate and reliable identity authentication through voice. Furthermore, by employing various weighting strategies, we evaluate the influence of phonetic features on the efficacy of the speaker verification system.
翻訳日:2024-09-10 13:46:22 公開日:2024-09-09
# 深部ニューラルネットワークにおける入力空間モード接続性

Input Space Mode Connectivity in Deep Neural Networks ( http://arxiv.org/abs/2409.05800v1 )

ライセンス: Link先を確認
Jakub Vrabel, Ori Shem-Ur, Yaron Oz, David Krueger, (参考訳) 我々は、ロスランドスケープモード接続の概念をディープニューラルネットワークの入力空間に拡張する。 モード接続はもともとパラメータ空間内で研究され、勾配降下によって得られる様々な解(損失最小化器)の間に低損失経路が存在することを記述した。 深層ネットワークの入力空間にその存在を示す理論的および実証的な証拠を提示し,その現象の広範な性質を明らかにする。 類似した予測を持つ異なる入力画像が一般に接続されていることを観察し、訓練されたモデルでは、経路は単純で、線形経路からの偏差はわずかである。 提案手法は,特徴可視化のための入力最適化手法を用いて生成した実・補間・合成入力を利用する。 高次元空間における入力空間モード接続は、訓練されていないモデルでも起こる幾何学的効果であり、パーコレーション理論によって説明できると推測する。 我々は、モード接続を利用して、敵の例に関する新たな洞察を得るとともに、敵検出の可能性を示す。 さらに,ディープネットワークの解釈可能性に関する応用について論じる。

We extend the concept of loss landscape mode connectivity to the input space of deep neural networks. Mode connectivity was originally studied within parameter space, where it describes the existence of low-loss paths between different solutions (loss minimizers) obtained through gradient descent. We present theoretical and empirical evidence of its presence in the input space of deep networks, thereby highlighting the broader nature of the phenomenon. We observe that different input images with similar predictions are generally connected, and for trained models, the path tends to be simple, with only a small deviation from being a linear path. Our methodology utilizes real, interpolated, and synthetic inputs created using the input optimization technique for feature visualization. We conjecture that input space mode connectivity in high-dimensional spaces is a geometric effect that takes place even in untrained models and can be explained through percolation theory. We exploit mode connectivity to obtain new insights about adversarial examples and demonstrate its potential for adversarial detection. Additionally, we discuss applications for the interpretability of deep networks.
翻訳日:2024-09-10 13:46:22 公開日:2024-09-09
# 差動位相シフト測定における欠陥の緩和-プラグ・アンド・プレイアーキテクチャによるデバイス非依存量子キー分布

Mitigating imperfections in Differential Phase Shift Measurement-Device-Independent Quantum Key Distribution via Plug-and-Play architecture ( http://arxiv.org/abs/2409.05802v1 )

ライセンス: Link先を確認
Nilesh Sharma, Shashank Kumar Ranu, Prabha Mandayam, Anil Prabhakar, (参考訳) 測定デバイスに依存しない量子鍵分布(MDI-QKD)は、もともと検出器側チャネル攻撃の問題に対処し、長い距離で有限な安全な鍵レートを実現する手段として提案されていた。 しかし、MDI-QKDにおける2つの音源から測定装置へのチャネルの非対称特性は、セキュア鍵の抽出を成功させるための制約を課している。 本研究では,差動位相シフト(DPS)符号化に基づくMDI-QKDのプラグアンドプレイ方式を提案する。 具体的には、測定装置に着くパルス間のパルス幅ミスマッチと偏光ミスマッチの効果を解析する。 偏光ミスマッチは共通参照フレームを共有する仮定でモデル化され、最大許容ミスマッチは11度となる。 さらに, チャネル長の非対称性が176.5kmで香港・奥羽・マンデルの可視光度0.37となり, 偏光ベースのMDI-QKDプロトコルのキーレートがゼロとなることを示す。 そこで我々は,DPS-MDI-QKDのプラグ・アンド・プレイアーキテクチャをこれらの問題の解決策として提示し,MDIプロトコルの実践的な実装の道を開く。

Measurement-device-independent quantum key distribution (MDI-QKD) was originally proposed as a means to address the issue of detector side-channel attacks and enable finite secure key rates over longer distances. However, the asymmetric characteristics of the channels from the two sources to the measurement device in MDI-QKD impose constraints on successfully extracting a secure key. In this work, we present a plug-and-play scheme for MDI-QKD based on differential phase shift (DPS) encoding. Specifically, we analyze the effects of pulse-width mismatch and polarization mismatch between the pulses arriving at the measurement device. The polarization mismatch is modeled with an assumption of sharing a common reference frame, and the maximum allowable mismatch is found to be 11 degrees. Furthermore, we show that a channel length asymmetry of 176.5 km results in Hong-Ou-Mandel interference visibility of 0.37, thereby leading to zero secure key rates for a polarization-based MDI-QKD protocol. We then present a plug-and-play architecture for DPS-MDI-QKD as a solution to some of these issues, thereby paving the way for practical implementations of MDI protocols.
翻訳日:2024-09-10 13:46:22 公開日:2024-09-09
# セルコメン : 単一細胞と組織摂動モデルのための空間因果性ゆがみ

Celcomen: spatial causal disentanglement for single-cell and tissue perturbation modeling ( http://arxiv.org/abs/2409.05804v1 )

ライセンス: Link先を確認
Stathis Megas, Daniel G. Chen, Krzysztof Polanski, Moshe Eliasof, Carola-Bibiane Schonlieb, Sarah A. Teichmann, (参考訳) セルコメンは数学的因果関係の枠組みを利用して、空間転写学と単一セルデータにおいて、細胞内および細胞間遺伝子制御プログラムを生成グラフニューラルネットワークを介して切り離す。 遺伝子と遺伝子間の相互作用を学習し、摂動後の反事実空間転写学を生成できるため、実験的に到達不能なサンプルへのアクセスを提供する。 本研究は,ヒトグリオ芽腫,ヒト胎児脾臓およびマウス肺がん検体を用いて,その解離,識別性および偽造予測能力について,シミュレーションおよび臨床的に関連のあるヒトグリオ芽腫,マウス脾臓,マウス肺がん検体を用いて検証した。 セルコメンは疾患や治療によって引き起こされる変化をモデル化する手段を提供し、ヒトの健康に関連する単一細胞空間的に解決された組織反応に対する新たな洞察を提供する。

Celcomen leverages a mathematical causality framework to disentangle intra- and inter- cellular gene regulation programs in spatial transcriptomics and single-cell data through a generative graph neural network. It can learn gene-gene interactions, as well as generate post-perturbation counterfactual spatial transcriptomics, thereby offering access to experimentally inaccessible samples. We validated its disentanglement, identifiability, and counterfactual prediction capabilities through simulations and in clinically relevant human glioblastoma, human fetal spleen, and mouse lung cancer samples. Celcomen provides the means to model disease and therapy induced changes allowing for new insights into single-cell spatially resolved tissue responses relevant to human health.
翻訳日:2024-09-10 13:46:22 公開日:2024-09-09
# 高忠実ヘラルド量子状態の調製と測定

High-fidelity heralded quantum state preparation and measurement ( http://arxiv.org/abs/2409.05805v1 )

ライセンス: Link先を確認
A. S. Sotirova, J. D. Leppard, A. Vazquez-Brennan, S. M. Decoppet, F. Pokorny, M. Malinowski, C. J. Ballance, (参考訳) 本研究では,標準SPAM法と一連のインシーケンス計測を組み合わせた高忠実な量子状態準備・測定(SPAM)のための新しいプロトコルを提案する。 このプロトコルは、長寿命の(可転移性)レベルを持つあらゆる量子系に適用でき、それと結合することなく、このレベル外の集団を検出する手段である。 我々は,このプロトコルを3つの異なる量子ビット符号化に対して,1つのトラップされた$^{137}\mathrm{Ba}^+$ ionで使用することを示す。 これら3つのうち最も低いSPAM不完全性は、7(4) \times 10^{-6}$(光学量子ビット)、5(4) \times 10^{-6}$(金属準位量子ビット)、8(4) \times 10^{-6}$(地上準位量子ビット)である。

We present a novel protocol for high-fidelity qubit state preparation and measurement (SPAM) that combines standard SPAM methods with a series of in-sequence measurements to detect and remove errors. The protocol can be applied in any quantum system with a long-lived (metastable) level and a means to detect population outside of this level without coupling to it. We demonstrate the use of the protocol for three different qubit encodings in a single trapped $^{137}\mathrm{Ba}^+$ ion. For all three, we achieve the lowest reported SPAM infidelities of $7(4) \times 10^{-6}$ (optical qubit), $5(4) \times 10^{-6}$ (metastable-level qubit), and $8(4) \times 10^{-6}$ (ground-level qubit).
翻訳日:2024-09-10 13:46:22 公開日:2024-09-09
# 大規模言語モデルにおける中国語知識の体系化のベンチマーク

Benchmarking Chinese Knowledge Rectification in Large Language Models ( http://arxiv.org/abs/2409.05806v1 )

ライセンス: Link先を確認
Tianhe Lu, Jizhan Fang, Yunzhi Yao, Xin Xu, Ningyu Zhang, Huajun Chen, (参考訳) 大きな言語モデル(LLM)は、顕著な生成能力を示すが、特に幻覚の形で、欠陥がないわけではない。 LLMが特定の言語やドメインに適用されると、この問題はさらに顕著になる。 例えば、LLMは、特定の知識が欠如しているため、中国の古代詩や格言、イディオムを扱う際に、ナンセンスな情報を生成することがある。 そこで本稿では,LLMにおける中国語の知識を知識編集によって修正するためのベンチマークを提案する。 具体的には,古典的テキストやイディオム,Baidu Tieba Ruozhiba のコンテンツなど,さまざまな資料から 7 種類の知識を収集し,中国語固有のポリフォニー,アンチテーゼ,論理的構造を記述した新しい中国語データセット CKnowEdit を導入する。 このデータセットの分析を通して、中国語を習得する上で現在LLMが直面している課題を明らかにする。 さらに,本データセットを用いた知識編集技術の評価では,中国の知識の正当性向上のかなりの範囲が明らかにされている。 コードとデータセットはhttps://github.com/zjunlp/EasyEdit.comで入手できる。

While Large Language Models (LLMs) exhibit remarkable generative capabilities, they are not without flaws, particularly in the form of hallucinations. This issue is even more pronounced when LLMs are applied to specific languages and domains. For example, LLMs may generate nonsense information when handling Chinese ancient poetry, proverbs, or idioms, owing to the lack of specific knowledge. To this end, this paper introduces a benchmark for rectifying Chinese knowledge in LLMs via knowledge editing. Specifically, we introduce a new Chinese dataset, CKnowEdit, by collecting seven type of knowledge from various sources, including classical texts, idioms, and content from Baidu Tieba Ruozhiba, thereby accounting for the unique polyphony, antithesis, and logical constructs inherent in the Chinese language. Through the analysis of this dataset, we uncover the challenges faced by current LLMs in mastering Chinese. Furthermore, our evaluation of state-of-the-art knowledge editing techniques on this dataset unveil the substantial scope for advancement in the rectification of Chinese knowledge. Code and dataset are available at https://github.com/zjunlp/EasyEdit.
翻訳日:2024-09-10 13:46:22 公開日:2024-09-09
# ソフトウェアテストの未来 - AIによるテストケースの生成と検証

The Future of Software Testing: AI-Powered Test Case Generation and Validation ( http://arxiv.org/abs/2409.05808v1 )

ライセンス: Link先を確認
Mohammad Baqar, Rajat Khanda, (参考訳) ソフトウェアテストはソフトウェア開発ライフサイクル(SDLC)において重要なフェーズであり、製品がリリース前に必要な機能、パフォーマンス、品質のベンチマークを満たすことを保証する。 自動化の進歩にもかかわらず、従来のテストケースの生成と検証の方法は、長いタイムライン、ヒューマンエラー、不完全なテストカバレッジ、手作業による介入のコストなど、依然として重大な課題に直面している。 これらの制限はしばしば、ソフトウェアの品質とユーザの満足度を損なう、製品リリースの遅れや未検出の欠陥につながります。 人工知能(AI)をソフトウェアテストに統合することは、これらの永続的な課題に対する有望な解決策を提供する。 AI駆動のテストメソッドは、包括的なテストケースの作成を自動化し、変更を動的に適応し、マシンラーニングを活用してコードベースの高リスク領域を特定する。 このアプローチは、全体のテストカバレッジを拡張しながら、回帰テストの効率を高める。 さらに、AIを活用したツールは、継続的テストと自己修復のテストケースを可能にし、手作業による監視を大幅に削減し、フィードバックループを加速し、最終的にはより高速で信頼性の高いソフトウェアリリースにつながる。 本稿では、テストケースの生成と検証の改善におけるAIの変革の可能性について検討し、テストプロセスの効率性、正確性、スケーラビリティの向上に焦点をあてる。 また、高品質なトレーニングデータの必要性、モデルの透明性の確保、自動化と人間の監視のバランス維持など、テストにAIを適用する上での課題にも対処する。 ケーススタディと実世界の応用例を通じて、AIがレガシーおよびモダンなソフトウェアシステム間のテスト効率を大幅に向上させる方法について説明する。

Software testing is a crucial phase in the software development lifecycle (SDLC), ensuring that products meet necessary functional, performance, and quality benchmarks before release. Despite advancements in automation, traditional methods of generating and validating test cases still face significant challenges, including prolonged timelines, human error, incomplete test coverage, and high costs of manual intervention. These limitations often lead to delayed product launches and undetected defects that compromise software quality and user satisfaction. The integration of artificial intelligence (AI) into software testing presents a promising solution to these persistent challenges. AI-driven testing methods automate the creation of comprehensive test cases, dynamically adapt to changes, and leverage machine learning to identify high-risk areas in the codebase. This approach enhances regression testing efficiency while expanding overall test coverage. Furthermore, AI-powered tools enable continuous testing and self-healing test cases, significantly reducing manual oversight and accelerating feedback loops, ultimately leading to faster and more reliable software releases. This paper explores the transformative potential of AI in improving test case generation and validation, focusing on its ability to enhance efficiency, accuracy, and scalability in testing processes. It also addresses key challenges associated with adapting AI for testing, including the need for high quality training data, ensuring model transparency, and maintaining a balance between automation and human oversight. Through case studies and examples of real-world applications, this paper illustrates how AI can significantly enhance testing efficiency across both legacy and modern software systems.
翻訳日:2024-09-10 13:46:22 公開日:2024-09-09
# 自動レンズライブラリ生成とドメイン適応による普遍計算収差補正のためのフレキシブルフレームワーク

A Flexible Framework for Universal Computational Aberration Correction via Automatic Lens Library Generation and Domain Adaptation ( http://arxiv.org/abs/2409.05809v1 )

ライセンス: Link先を確認
Qi Jiang, Yao Gao, Shaohua Gao, Zhonghua Yi, Lei Sun, Hao Shi, Kailun Yang, Kaiwei Wang, Jian Bai, (参考訳) CAC(Universal Computational Aberration Correction)パラダイムは、新しいレンズ設計に対応するために、反復的なデータ準備とモデルトレーニングを伴わずに、軽量で高品質なイメージングに刺激的なソリューションを提供する。 しかし、これらのアプローチにおけるトレーニングデータベース、すなわちレンズライブラリ(LensLibs)は、現実世界の収差挙動を限定的にカバーしている。 本研究では,一般化能力と柔軟性の両方を考慮して,汎用CACのためのOmniLensフレームワークを構築した。 OmniLens はユニバーサル CAC の概念をより広範な概念に拡張し、ベースモデルは事前訓練されたモデルによるゼロショット CAC、微調整用の小さなレンズ固有のデータによる少数ショット CAC、レンズ記述不明のレンズに対するドメイン適応 CAC を含む3つのケースで訓練される。 OmniLensのデータ基盤に関して、我々はまず、LensLibを自動構築する進化ベースの自動光学設計(EAOD)パイプラインを提案します。 ネットワーク設計において,ゼロショットCACと少数ショットCACを促進するために,高品質なコードブックのガイダンスを導入する。 さらに,光劣化における暗チャネル先行の統計的観測に基づいて,基底モデルと対象記述未知のレンズの収差画像との整合性を考慮した教師なし正則化項を設計する。 我々はOmniLensを、様々な構造と収差挙動を持つ4つのローエンドレンズに対して検証した。 注目すべきは、AODLibでトレーニングされたベースモデルは強力な一般化能力を示し、ゼロショット設定でレンズ固有のパフォーマンスの97%を達成していることだ。

Emerging universal Computational Aberration Correction (CAC) paradigms provide an inspiring solution to light-weight and high-quality imaging without repeated data preparation and model training to accommodate new lens designs. However, the training databases in these approaches, i.e., the lens libraries (LensLibs), suffer from their limited coverage of real-world aberration behaviors. In this work, we set up an OmniLens framework for universal CAC, considering both the generalization ability and flexibility. OmniLens extends the idea of universal CAC to a broader concept, where a base model is trained for three cases, including zero-shot CAC with the pre-trained model, few-shot CAC with a little lens-specific data for fine-tuning, and domain adaptive CAC using domain adaptation for lens-descriptions-unknown lens. In terms of OmniLens's data foundation, we first propose an Evolution-based Automatic Optical Design (EAOD) pipeline to construct LensLib automatically, coined AODLib, whose diversity is enriched by an evolution framework, with comprehensive constraints and a hybrid optimization strategy for achieving realistic aberration behaviors. For network design, we introduce the guidance of high-quality codebook priors to facilitate zero-shot CAC and few-shot CAC, which enhances the model's generalization ability, while also boosting its convergence in a few-shot case. Furthermore, based on the statistical observation of dark channel priors in optical degradation, we design an unsupervised regularization term to adapt the base model to the target descriptions-unknown lens using its aberration images without ground truth. We validate OmniLens on 4 manually designed low-end lenses with various structures and aberration behaviors. Remarkably, the base model trained on AODLib exhibits strong generalization capabilities, achieving 97% of the lens-specific performance in a zero-shot setting.
翻訳日:2024-09-10 13:46:22 公開日:2024-09-09
# 超伝導回路におけるボソニックグリッド状態を用いたハードウェア効率の良いフォールトトレラント量子コンピューティング

Hardware-Efficient Fault Tolerant Quantum Computing with Bosonic Grid States in Superconducting Circuits ( http://arxiv.org/abs/2409.05813v1 )

ライセンス: Link先を確認
Marc-Antoine Lemonde, Dany Lachance-Quirion, Guillaume Duclos-Cianci, Nicholas E. Frattini, Florian Hopfmueller, Chloe Gauvin-Ndiaye, Julien Camirand-Lemyre, Philippe St-Jean, (参考訳) 量子コンピューティングは古典的に難解な問題を解くという約束を持っている。 これを実現するには、スケーラブルでハードウェア効率のよい量子プロセッサが必要である。 この観点の原稿は、超伝導回路において、ボソニック符号、特にグリッド状態符号化がスケーラブルなフォールトトレラント量子コンピューティングへの経路を提供する方法について記述している。 ボソニックモードのヒルベルト空間を利用することで、量子エラー補正は単一の物理単位レベルで動作することができるため、フォールトトレラントな量子コンピューティングをスケールさせるためにハードウェア要件を大幅に削減できる。 有名なGottesman-Kitaev-Preskill (GKP) コードを超えて、単一キュービットを符号化するために複数のボソニックモードを用いることで、制御エラーに対する保護が強化され、全体的なエラー訂正能力が向上する方法について論じる。 近年、このアーキテクチャの重要なコンポーネントの実証が成功していることから、MHz論理クロックレートのゲートベースの量子コンピューティングプロセッサにおいて、フォールトトレランスを達成するための最短経路を提供すると論じている。

Quantum computing holds the promise of solving classically intractable problems. Enabling this requires scalable and hardware-efficient quantum processors with vanishing error rates. This perspective manuscript describes how bosonic codes, particularly grid state encodings, offer a pathway to scalable fault-tolerant quantum computing in superconducting circuits. By leveraging the large Hilbert space of bosonic modes, quantum error correction can operate at the single physical unit level, therefore reducing drastically the hardware requirements to bring fault-tolerant quantum computing to scale. Going beyond the well-known Gottesman-Kitaev-Preskill (GKP) code, we discuss how using multiple bosonic modes to encode a single qubit offers increased protection against control errors and enhances its overall error-correcting capabilities. Given recent successful demonstrations of critical components of this architecture, we argue that it offers the shortest path to achieving fault tolerance in gate-based quantum computing processors with a MHz logical clock rate.
翻訳日:2024-09-10 13:46:22 公開日:2024-09-09
# パープレキシティ相関を用いた事前学習データの改善

Improving Pretraining Data Using Perplexity Correlations ( http://arxiv.org/abs/2409.05816v1 )

ライセンス: Link先を確認
Tristan Thrush, Christopher Potts, Tatsunori Hashimoto, (参考訳) 品質事前学習データは、しばしば高性能言語モデルの鍵と見なされる。 しかし,データ選択実験に必要な事前学習に要する費用がかかるため,事前学習データの理解の進展は遅かった。 我々は、これらのコストを回避し、LLMトレーニングなしで高品質な事前学習データを選択するフレームワークを提案する。 本研究は,多くの事前学習テキストにおけるLCM損失とダウンストリームベンチマーク性能との相関性,および高相関文書の選択が効果的な事前学習データ選択方法であることを示す。 我々は,数万のWebドメインのテキスト上で,Open LLM Leaderboardから採取した90個のLLMのサンプルを用いて,パープレキシティとベンチマークの相関関係の推定を中心に,データ選択のための新しい統計フレームワークを構築した。 8つのベンチマークにおける1億6000万のパラメータスケールの事前学習実験において,本手法は,手動のBigram分類器であるDataComp-LMの最良のデータセレクタとマッチングしながら,各ベンチマークにおいてDSIRよりも優れていた。

Quality pretraining data is often seen as the key to high-performance language models. However, progress in understanding pretraining data has been slow due to the costly pretraining runs required for data selection experiments. We present a framework that avoids these costs and selects high-quality pretraining data without any LLM training of our own. Our work is based on a simple observation: LLM losses on many pretraining texts are correlated with downstream benchmark performance, and selecting high-correlation documents is an effective pretraining data selection method. We build a new statistical framework for data selection centered around estimates of perplexity-benchmark correlations and perform data selection using a sample of 90 LLMs taken from the Open LLM Leaderboard on texts from tens of thousands of web domains. In controlled pretraining experiments at the 160M parameter scale on 8 benchmarks, our approach outperforms DSIR on every benchmark, while matching the best data selector found in DataComp-LM, a hand-engineered bigram classifier.
翻訳日:2024-09-10 13:46:22 公開日:2024-09-09
# VFA:基礎モデルと人間の視覚周波数解析

VFA: Vision Frequency Analysis of Foundation Models and Human ( http://arxiv.org/abs/2409.05817v1 )

ライセンス: Link先を確認
Mohammad-Javad Darvishi-Bayazi, Md Rifat Arefin, Jocelyn Faubert, Irina Rish, (参考訳) 機械学習モデルは現実世界のシナリオでは分散シフトに苦しむが、人間は堅牢な適応を示す。 人間の知覚とよりよく一致したモデルは、より高い分布外一般化を達成できるかもしれない。 本研究では,大規模コンピュータビジョンモデルの特徴が人間の能力や頑健さにどのように影響するかを検討する。 本研究は,モデルとデータサイズを増大させ,リッチな意味情報と複数のモダリティを取り入れることで,モデルと人間の知覚との整合性や全体的ロバスト性を高めることを示唆する。 我々の経験的分析は、分布外精度と人間のアライメントとの間に強い相関関係を示す。

Machine learning models often struggle with distribution shifts in real-world scenarios, whereas humans exhibit robust adaptation. Models that better align with human perception may achieve higher out-of-distribution generalization. In this study, we investigate how various characteristics of large-scale computer vision models influence their alignment with human capabilities and robustness. Our findings indicate that increasing model and data size and incorporating rich semantic information and multiple modalities enhance models' alignment with human perception and their overall robustness. Our empirical analysis demonstrates a strong correlation between out-of-distribution accuracy and human alignment.
翻訳日:2024-09-10 13:46:22 公開日:2024-09-09
# 量子LDPC符号における誤り訂正のための非局所リソース

Non-local resources for error correction in quantum LDPC codes ( http://arxiv.org/abs/2409.05818v1 )

ライセンス: Link先を確認
Omprakash Chandra, Gopikrishnan Muraleedharan, Gavin K. Brennen, (参考訳) フォールトトレラント量子コンピューティングのスケーリングは、量子計算の可能性を実現するために不可欠である。 表面コードは、その効果的なエラー抑制能力のために、過去10年間で最も良い選択でした。 しかし、エンコーディングレートが低く、大規模量子計算には大量の物理量子ビットを必要とする。 対照的に、ハイパーグラフ製品符号は、符号化レートとブロックサイズによる距離スケールの両方が有望な選択肢である。 それにもかかわらず、その非局所安定器は、安定器の測定に長距離接続を必要とするため、重要な実験的な課題を生じさせた。 最近の進歩は、高忠実度キャビティによって可能となる非局所多体ゲートを決定的に実行する方法を示し、非局所猫状態の創出を可能にしている。 我々は,非局所資源をディヴィンチェンツォ・アライフリス法に統合し,耐故障安定度測定を行った。 本手法を長距離量子ハイパーグラフ製品コードに適用し,空洞誤差モデルを含む回路レベルのノイズシミュレーションを行い,有望なしきい値を達成する。 さらに、安定化器の測定をスケジューリングし、回路の並列化性を向上する三層構造配置を提案する。

Scaling fault-tolerant quantum computing is essential to realize the potential of quantum computation. Surface code has been the best choice over the last decade because of its effective error suppression capability. However, it suffers from a low encoding rate, requiring a vast number of physical qubits for large-scale quantum computation. In contrast, hypergraph product codes present a promising alternative, as both their encoding rate and distance scale with block size. Despite this, their non-local stabilizers necessitate long-range connectivity for stabilizer measurements, posing significant experimental challenges. Recent advancements have shown how to deterministically perform high-fidelity cavity enabled non-local many-body gates, enabling the creation of non-local cat states. We integrate the non-local resource into the DiVincenzo-Aliferis method for fault-tolerant stabilizer measurement. We apply the scheme to long-range quantum hypergraph product codes, performing circuit-level noise simulations including the the cavity error model, achieving a promising threshold. Additionally, we propose a tri-layer architectural layout for scheduling stabilizer measurements, enhancing circuit parallelizability.
翻訳日:2024-09-10 13:46:22 公開日:2024-09-09
# GASP:物理シミュレーションのためのガウス散乱

GASP: Gaussian Splatting for Physic-Based Simulations ( http://arxiv.org/abs/2409.05819v1 )

ライセンス: Link先を確認
Piotr Borycki, Weronika Smolak, Joanna Waczyńska, Marcin Mazur, Sławomir Tadeja, Przemysław Spurek, (参考訳) 物理シミュレーションは実世界の様々な応用における3Dシーンのモデリングと利用において最重要である。 しかし、Gaussian Splatting (GS)のような最先端の3Dシーンレンダリング技術との統合は依然として困難である。 既存のモデルでは、三角形や四面体メッシュ、マーチングキューブ、ケージメッシュなどのメッシュ機構が追加されている。 代替として、3次元ガウス成分と整合するように、基底となるニュートン力学を修正できる。 現在のモデルは変形写像の1階近似をとり、線形変換によって局所的に力学を近似する。 対照的に、我々のGaussian Splatting for Physics-Based Simulations (GASP) モデルは、3つの点(メッシュフェイス)でパラメータ化されるような写像(修正なし)と平坦なガウス分布を用いる。 その後、各3D点(メッシュフェースノード)を3D空間内の離散実体として扱う。 したがって、ガウス成分のモデル化の問題は、3Dポイントでの動作に還元される。 さらに、メッシュ面に関する情報を使用して、トライアングルの使用を容易にする物理モデルにさらなる特性を組み込むことができる。 結果の解は、ブラックボックスとして扱われるあらゆる物理エンジンに統合できる。 本研究で示されたように,提案モデルは,3次元オブジェクトレンダリング用に設計された多様なベンチマークデータセットに対して,優れた性能を示す。

Physics simulation is paramount for modeling and utilization of 3D scenes in various real-world applications. However, its integration with state-of-the-art 3D scene rendering techniques such as Gaussian Splatting (GS) remains challenging. Existing models use additional meshing mechanisms, including triangle or tetrahedron meshing, marching cubes, or cage meshes. As an alternative, we can modify the physics grounded Newtonian dynamics to align with 3D Gaussian components. Current models take the first-order approximation of a deformation map, which locally approximates the dynamics by linear transformations. In contrast, our Gaussian Splatting for Physics-Based Simulations (GASP) model uses such a map (without any modifications) and flat Gaussian distributions, which are parameterized by three points (mesh faces). Subsequently, each 3D point (mesh face node) is treated as a discrete entity within a 3D space. Consequently, the problem of modeling Gaussian components is reduced to working with 3D points. Additionally, the information on mesh faces can be used to incorporate further properties into the physics model, facilitating the use of triangles. Resulting solution can be integrated into any physics engine that can be treated as a black box. As demonstrated in our studies, the proposed model exhibits superior performance on a diverse range of benchmark datasets designed for 3D object rendering.
翻訳日:2024-09-10 13:46:22 公開日:2024-09-09
# 大規模言語モデルはプログラミングプラットフォームへの脅威か? : 探索的研究

Are Large Language Models a Threat to Programming Platforms? An Exploratory Study ( http://arxiv.org/abs/2409.05824v1 )

ライセンス: Link先を確認
Md Mustakim Billah, Palash Ranjan Roy, Zadia Codabux, Banani Roy, (参考訳) LeetCode、Codeforces、HackerRankといった競合するプログラミングプラットフォームは、しばしば採用者がスクリーニングに使用するプログラミングスキルを評価している。 ChatGPT、Gemini、Meta AIといった先進的な大規模言語モデル(LLM)の台頭に伴い、これらのプラットフォームにおける問題解決能力は評価が必要である。 本研究では,LLMがプラットフォーム間のさまざまなプログラミング課題に対処し,リアルタイムおよびオフラインのパフォーマンスに関する洞察を提供し,人間プログラマと比較する能力について検討する。 私たちはLeetCodeから98の問題、Codeforcesから126の問題を15のカテゴリでテストしました。 CodeforcesとLeetCodeの9つのオンラインコンテストが、リアルタイムのパフォーマンスを評価するために、HackerRankの2つの認定テストとともに実施された。 LLMのガイドにはプロンプトとフィードバック機構が使用され、様々なシナリオで相関関係が検討された。 LLMは、ChatGPT (LeetCodeで71.43%の成功) のように、LeetCodeやHackerRankの認定に優れていたが、特にCodeforcesの仮想コンテストで苦労した。 彼らはLeetCodeアーカイブのユーザよりもパフォーマンスが良く、時間とメモリ効率に優れていたが、難しいCodeforcesコンテストではパフォーマンスが劣っていた。 脅威はすぐには発生しないが、これらのプラットフォームでのLLMのパフォーマンスは問題であり、将来の改善には対処する必要がある。

Competitive programming platforms like LeetCode, Codeforces, and HackerRank evaluate programming skills, often used by recruiters for screening. With the rise of advanced Large Language Models (LLMs) such as ChatGPT, Gemini, and Meta AI, their problem-solving ability on these platforms needs assessment. This study explores LLMs' ability to tackle diverse programming challenges across platforms with varying difficulty, offering insights into their real-time and offline performance and comparing them with human programmers. We tested 98 problems from LeetCode, 126 from Codeforces, covering 15 categories. Nine online contests from Codeforces and LeetCode were conducted, along with two certification tests on HackerRank, to assess real-time performance. Prompts and feedback mechanisms were used to guide LLMs, and correlations were explored across different scenarios. LLMs, like ChatGPT (71.43% success on LeetCode), excelled in LeetCode and HackerRank certifications but struggled in virtual contests, particularly on Codeforces. They performed better than users in LeetCode archives, excelling in time and memory efficiency but underperforming in harder Codeforces contests. While not immediately threatening, LLMs performance on these platforms is concerning, and future improvements will need addressing.
翻訳日:2024-09-10 13:46:22 公開日:2024-09-09
# 真理発見量的双極性論証フレームワークにおける属性記述の適用

Applying Attribution Explanations in Truth-Discovery Quantitative Bipolar Argumentation Frameworks ( http://arxiv.org/abs/2409.05831v1 )

ライセンス: Link先を確認
Xiang Yin, Nico Potyka, Francesca Toni, (参考訳) 段階的意味論に基づく議論の強みを説明することは、ますます注目を集めている。 例えば、文献における様々な研究は、量的双極性論証フレームワーク(QBAF)における議論やエッジの属性スコアを計算することによって説明を提供する。 これらの説明は、Argument Attribution Explanations (AAEs) とRelation Attribution Explanations (RAEs) と呼ばれ、一般的に、属性スコアの計算に、削除ベースおよびシェープリーベースの技術を用いる。 AAEとRAEは、非環状QBAFを持ついくつかの用途で有用であることが証明されているが、それらは環状QBAFに対してほとんど探索されていない。 さらに、既存のアプリケーションはAAEかRAEにのみフォーカスする傾向がありますが、直接比較することはできません。 本稿では,AAEとRAEの両方をTD-QBAF(True Discovery QBAF)に適用し,ソース(Webサイトなど)とその主張(ウィルスの重症度など)の信頼性を評価し,複雑なサイクルを特徴付ける。 AAEとRAEの両方が興味深い説明を提供し、非自明で驚くべき洞察を与えることができることがわかりました。

Explaining the strength of arguments under gradual semantics is receiving increasing attention. For example, various studies in the literature offer explanations by computing the attribution scores of arguments or edges in Quantitative Bipolar Argumentation Frameworks (QBAFs). These explanations, known as Argument Attribution Explanations (AAEs) and Relation Attribution Explanations (RAEs), commonly employ removal-based and Shapley-based techniques for computing the attribution scores. While AAEs and RAEs have proven useful in several applications with acyclic QBAFs, they remain largely unexplored for cyclic QBAFs. Furthermore, existing applications tend to focus solely on either AAEs or RAEs, but do not compare them directly. In this paper, we apply both AAEs and RAEs, to Truth Discovery QBAFs (TD-QBAFs), which assess the trustworthiness of sources (e.g., websites) and their claims (e.g., the severity of a virus), and feature complex cycles. We find that both AAEs and RAEs can provide interesting explanations and can give non-trivial and surprising insights.
翻訳日:2024-09-10 13:46:22 公開日:2024-09-09
# デジタルデザインに先駆けて信頼を築きたいという願望

The Quest to Build Trust Earlier in Digital Design ( http://arxiv.org/abs/2409.05832v1 )

ライセンス: Link先を確認
Benjamin Tan, (参考訳) コンピュータシステムの複雑さは、生涯にわたってセキュリティと信頼を維持する上での課題を示している。 ハードウェアがセキュアなシステムの基盤を形成するにつれ、信頼性を改善し、セキュリティ上の問題に対処する上で、コンピュータハードウェアエンジニアをサポートするツールや技術が必要です。 本稿では,デジタル設計プロセスの初期段階,特にハードウェア記述言語を用いた設計において,デジタルハードウェアのセキュリティを高めるためのツールとテクニックのビジョンを強調する。 設計チームが直面している課題について議論し、ハードウェアセキュリティの弱点を可能な限り早く理解し、特定し、緩和するための最近の文献を探求する。 オープンソースハードウェア開発で生まれる機会を強調し、この領域で進行中の研究をガイドするいくつかのオープンな質問をスケッチします。

The ever-rising complexity of computer systems presents challenges for maintaining security and trust throughout their lifetime. As hardware forms the foundation of a secure system, we need tools and techniques that support computer hardware engineers to improve trust and help them address security concerns. This paper highlights a vision for tools and techniques to enhance the security of digital hardware in earlier stages of the digital design process, especially during design with hardware description languages. We discuss the challenges that design teams face and explore some recent literature on understanding, identifying, and mitigating hardware security weaknesses as early as possible. We highlight the opportunities that emerge with open-source hardware development and sketch some open questions that guide ongoing research in this domain.
翻訳日:2024-09-10 13:36:22 公開日:2024-09-09
# 鳥の視線知覚のための視覚駆動型2次元微調整フレームワーク

Vision-Driven 2D Supervised Fine-Tuning Framework for Bird's Eye View Perception ( http://arxiv.org/abs/2409.05834v1 )

ライセンス: Link先を確認
Lei He, Qiaoyi Wang, Honglin Sun, Qing Xu, Bolin Gao, Shengbo Eben Li, Jianqiang Wang, Keqiang Li, (参考訳) 視覚野鳥の視線(BEV)知覚は、知覚能力に優れており、特に都市知的運転の領域において、コストのかかるLiDARベースの知覚システムを徐々に置き換えている。 しかし、この種の認識はいまだにLiDARデータに頼って地上の真実データベースを構築している。 さらに、ほとんどの大量生産された自動運転システムは、周囲のカメラセンサーのみを備えており、正確なアノテーションのためのLiDARデータが欠如している。 この課題に対処するために,新しいシーンデータにおけるモデルの一般化能力の向上を目的とした,視覚的2次元意味認識に基づくBEV知覚ネットワークの微調整手法を提案する。 本手法は,2次元認識技術の成熟と発展を考慮し,低コストなBEV基盤の真理への依存を著しく低減し,将来有望な産業応用の可能性を示す。 nuScenes と Waymo の公開データセットを用いた大規模な実験と比較分析により,提案手法の有効性を実証した。

Visual bird's eye view (BEV) perception, due to its excellent perceptual capabilities, is progressively replacing costly LiDAR-based perception systems, especially in the realm of urban intelligent driving. However, this type of perception still relies on LiDAR data to construct ground truth databases, a process that is both cumbersome and time-consuming. Moreover, most massproduced autonomous driving systems are only equipped with surround camera sensors and lack LiDAR data for precise annotation. To tackle this challenge, we propose a fine-tuning method for BEV perception network based on visual 2D semantic perception, aimed at enhancing the model's generalization capabilities in new scene data. Considering the maturity and development of 2D perception technologies, our method significantly reduces the dependency on high-cost BEV ground truths and shows promising industrial application prospects. Extensive experiments and comparative analyses conducted on the nuScenes and Waymo public datasets demonstrate the effectiveness of our proposed method.
翻訳日:2024-09-10 13:36:22 公開日:2024-09-09
# 化学系のエンド・ツー・エンド量子シミュレーション

End-to-End Quantum Simulation of a Chemical System ( http://arxiv.org/abs/2409.05835v1 )

ライセンス: Link先を確認
Wim van Dam, Hongbin Liu, Guang Hao Low, Adam Paetznick, Andres Paz, Marcus Silva, Aarthi Sundaram, Krysta Svore, Matthias Troyer, (参考訳) 我々は、キラル分子を生成する触媒反応のケーススタディにおいて、ハイパフォーマンスコンピューティング(HPC)、信頼性量子コンピューティング、AIの最初のエンドツーエンド統合を実演する。 本稿では, 強い相関関係を持つ反応構成を決定するためのハイブリッド計算ワークフローを提案し, それらの構成に対して, その活性部位の基底状態エネルギーを推定する。 組み合わせる 1)AutoRXNやAutoCASのようなHPCツールを用いて、大規模化学空間内の強相関化学を系統的に同定する 2) 量子コンピューティングの段階での論理量子ビットの利用により、強く相関した活性部位の量子基底状態が作成され、物理量子ビットと比較して論理量子ビットの利点が証明される。 3) 古典的な影を持つ論理量子ビットの最適化量子測定を用いて、エネルギーを含む基底状態の様々な特性を正確に予測する。 このデモンストレーションにおけるHPC、信頼性のある量子コンピューティング、AIの組み合わせは、測定可能な量子優位性を提供するために、どのようにして大規模量子コンピュータと古典コンピューティングを統合する必要があるかの原則の証明となる。

We demonstrate the first end-to-end integration of high-performance computing (HPC), reliable quantum computing, and AI in a case study on catalytic reactions producing chiral molecules. We present a hybrid computation workflow to determine the strongly correlated reaction configurations and estimate, for one such configuration, its active site's ground state energy. We combine 1) the use of HPC tools like AutoRXN and AutoCAS to systematically identify the strongly correlated chemistry within a large chemical space with 2) the use of logical qubits in the quantum computing stage to prepare the quantum ground state of the strongly correlated active site, demonstrating the advantage of logical qubits compared to physical qubits, and 3) the use of optimized quantum measurements of the logical qubits with so-called classical shadows to accurately predict various properties of the ground state including energies. The combination of HPC, reliable quantum computing, and AI in this demonstration serves as a proof of principle of how future hybrid chemistry applications will require integration of large-scale quantum computers with classical computing to be able to provide a measurable quantum advantage.
翻訳日:2024-09-10 13:36:22 公開日:2024-09-09
# MMEvol: Evol-Instructによるマルチモーダル大言語モデルの強化

MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct ( http://arxiv.org/abs/2409.05840v1 )

ライセンス: Link先を確認
Run Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Xiaobo Xia, Fei Huang, Jingkuan Song, Yongbin Li, (参考訳) MLLM(Multimodal Large Language Models)の開発は大きな進歩を遂げている。 しかし、マルチモーダル命令データの量と品質は、その進行に重大なボトルネックとして現れている。 手動でマルチモーダルな命令データを作成することは、時間を要することと非効率的なことの両方であり、高い複雑さの命令を生成する上での課題を提起する。 さらに、ブラックボックスの商用モデル(例えば、GPT-4o、GPT-4V)からの命令データを蒸留すると、単純な命令データが得られ、それらのモデルのパフォーマンスが制限される。 多様な複雑な命令データをキュレートするという課題は、いまだに深刻である。 MMEvolは、微粒な知覚の進化、認知的推論の進化、相互作用の進化を組み合わせた、新しいマルチモーダル・インストラクション・データ進化フレームワークである。 この反復的なアプローチは、データ品質のボトルネックを突破し、複雑で多様な画像テキスト命令データセットを生成する。 初期の命令セットSEED-163Kから、MMEvolを用いて、命令型の多様性を体系的に拡張し、推論ステップを統合して認知能力を高め、画像から詳細な情報を抽出し、視覚的理解と堅牢性を向上させる。 我々のデータの有効性を総合的に評価するために、進化したデータを用いてLLaVA-NeXTを訓練し、13の視覚言語タスクで実験を行う。 シードデータを用いてトレーニングしたベースラインと比較して,本手法は平均3.1ポイントの精度向上を実現し,9つのタスクでSOTA(State-of-the-art)性能に達する。

The development of Multimodal Large Language Models (MLLMs) has seen significant advancements. However, the quantity and quality of multimodal instruction data have emerged as significant bottlenecks in their progress. Manually creating multimodal instruction data is both time-consuming and inefficient, posing challenges in producing instructions of high complexity. Moreover, distilling instruction data from black-box commercial models (e.g., GPT-4o, GPT-4V) often results in simplistic instruction data, which constrains performance to that of these models. The challenge of curating diverse and complex instruction data remains substantial. We propose MMEvol, a novel multimodal instruction data evolution framework that combines fine-grained perception evolution, cognitive reasoning evolution, and interaction evolution. This iterative approach breaks through data quality bottlenecks to generate a complex and diverse image-text instruction dataset, thereby empowering MLLMs with enhanced capabilities. Beginning with an initial set of instructions, SEED-163K, we utilize MMEvol to systematically broadens the diversity of instruction types, integrates reasoning steps to enhance cognitive capabilities, and extracts detailed information from images to improve visual understanding and robustness. To comprehensively evaluate the effectiveness of our data, we train LLaVA-NeXT using the evolved data and conduct experiments across 13 vision-language tasks. Compared to the baseline trained with seed data, our approach achieves an average accuracy improvement of 3.1 points and reaches state-of-the-art (SOTA) performance on 9 of these tasks.
翻訳日:2024-09-10 13:36:22 公開日:2024-09-09
# 単位分数時間記述におけるJaynes-Cummingsモデル

Jaynes-Cummings model in a unitary fractional-time description ( http://arxiv.org/abs/2409.05841v1 )

ライセンス: Link先を確認
Danilo Cius, (参考訳) 分数時間Schr\"odinger方程式から導かれる時間進化作用素は、時間が発展するにつれてベクトル状態のノルムを保たないため、非単項的とみなされる。 しかし、時間に依存しない非エルミート量子フォーマリズムから時差動力学を考えると、トレスレス2レベルハミルトニアンに対してユニタリ進化が達成できることが示されている。 これは、時間依存計量作用素を埋め込んだ動的ヒルベルト空間を、系がユニタリな方法で進化し、標準的な量子力学的確率の適切な解釈を可能にすることを考えることで達成される。 本研究では,2レベル原子の原子集団逆転や,原子が励起状態に始まり,場が最初にコヒーレントな状態にあるときの原子場絡みといった,よく知られた力学特性の分数次パラメータ$\alpha$による修正を考察するために,Jaynes-Cummingsモデルにユニタリ記述を適用した。

The time-evolution operator derived from the fractional-time Schr\"odinger equation is considered non-unitary because it fails to preserve the norm of the vector state as time evolves. However, considering the time-dependent non-Hermitian quantum formalism to the time-fractional dynamics, it has been demonstrated that a unitary evolution can be achieved for a traceless two-level Hamiltonian. This is accomplished by considering a dynamical Hilbert space embedding a time-dependent metric operator, with respect to which the system evolves in a unitary manner, allowing for the proper interpretation of standard quantum mechanical probabilities. In this work, we apply the unitary description to the Jaynes-Cummings model in the fractional-time scenario for investigating the modification in terms of the fractional-order parameter $\alpha$ of the well-known dynamical properties, such as the atomic population inversion of the two-level atom, and the atom-field entanglement when the atom starts in its excited state and field is initially in a coherent state.
翻訳日:2024-09-10 13:36:22 公開日:2024-09-09
# 同時交換パルスを用いた交換専用量子ビットの高速量子ゲート

Fast quantum gates for exchange-only qubits using simultaneous exchange pulses ( http://arxiv.org/abs/2409.05843v1 )

ライセンス: Link先を確認
Irina Heinz, Felix Borjans, Matthew Curry, Roza Kotlyar, Florian Luthi, Mateusz T. Mądzik, Fahd A. Mohiyaddin, Nathaniel Bishop, Guido Burkard, (参考訳) 交換専用量子ビットの利点は、隣接するスピン間の電圧制御された交換相互作用のみを用いた普遍的な制御である。 妥協として、クォービット演算はブロッホ球の非直交回転軸から構成されなければならない。 本稿では,同時交換パルスを用いた単一量子ゲートと2量子ゲートの実装を高速化することを目的とする。 単一量子ゲートを高速に実行可能なパルス列を導入し、2量子ゲートにおける3つのスピンのサブシーケンスがより少ないステップで実装可能であることを示す。 我々の発見は、特に、シーケンシャルパルス間の現実的なアイドル時間におけるゲートシーケンスを高速化することができ、量子ドットのより相互接続性を高めることで、この利点が増大することを示す。 さらに、位相演算が2量子ゲートの構築に有利な計算と漏れ状態の相対位相を導入することを実証する。 理論解析の他に、SiGe量子ドットデバイスにおける$X$回転の同時交換実装を実験的に実証し、その特性をシーケンシャル交換パルスと比較した。

The benefit of exchange-only qubits compared to other spin qubit types is the universal control using only voltage controlled exchange interactions between neighboring spins. As a compromise, qubit operations have to be constructed from non-orthogonal rotation axes of the Bloch sphere and result in rather long pulsing sequences. This paper aims to develop a faster implementation of single-qubit and two-qubit gates using simultaneous exchange pulses. We introduce pulse sequences in which single-qubit gates could be executed faster and show that subsequences on three spins in two-qubit gates could be implemented in fewer steps. Our findings can particularly speed up gate sequences for realistic idle times between sequential pulses and we show that this advantage increases with more interconnectivity of the quantum dots. We further demonstrate how a phase operation can introduce a relative phase between the computational and some of the leakage states, which can be advantageous for the construction of two-qubit gates. In addition to our theoretical analysis, we experimentally demonstrate and characterize a simultaneous exchange implementation of $X$ rotations in a SiGe quantum dot device and compare to the state of the art with sequential exchange pulses.
翻訳日:2024-09-10 13:36:22 公開日:2024-09-09
# 量子強化学習(QRL)入門

An Introduction to Quantum Reinforcement Learning (QRL) ( http://arxiv.org/abs/2409.05846v1 )

ライセンス: Link先を確認
Samuel Yen-Chi Chen, (参考訳) 量子コンピューティング(QC)と機械学習(ML)の最近の進歩は、これら2つの最先端フィールドの統合に大きな関心を惹き付けている。 各種ML技術の中で、強化学習(RL)は複雑なシーケンシャルな意思決定問題に対処する能力で際立っている。 RLはすでに、古典的なMLコミュニティでかなりの成功を収めている。 現在、QRL(Quantum Reinforcement Learning)の新興分野は、量子コンピューティングの原理を取り入れたRLアルゴリズムの強化を目指している。 本稿では、より広範なAIとMLコミュニティのために、このエキサイティングな領域を紹介します。

Recent advancements in quantum computing (QC) and machine learning (ML) have sparked considerable interest in the integration of these two cutting-edge fields. Among the various ML techniques, reinforcement learning (RL) stands out for its ability to address complex sequential decision-making problems. RL has already demonstrated substantial success in the classical ML community. Now, the emerging field of Quantum Reinforcement Learning (QRL) seeks to enhance RL algorithms by incorporating principles from quantum computing. This paper offers an introduction to this exciting area for the broader AI and ML community.
翻訳日:2024-09-10 13:36:22 公開日:2024-09-09
# LSVOS Challenge Report: Large-scale Complex and Long Video Object Segmentation

LSVOS Challenge Report: Large-scale Complex and Long Video Object Segmentation ( http://arxiv.org/abs/2409.05847v1 )

ライセンス: Link先を確認
Henghui Ding, Lingyi Hong, Chang Liu, Ning Xu, Linjie Yang, Yuchen Fan, Deshui Miao, Yameng Gu, Xin Li, Zhenyu He, Yaowei Wang, Ming-Hsuan Yang, Jinming Chai, Qin Ma, Junpei Zhang, Licheng Jiao, Fang Liu, Xinyu Liu, Jing Zhang, Kexin Zhang, Xu Liu, LingLing Li, Hao Fang, Feiyu Pan, Xiankai Lu, Wei Zhang, Runmin Cong, Tuyen Tran, Bin Cao, Yisi Zhang, Hanyi Wang, Xingjian He, Jing Liu, (参考訳) 既存のベンチマークで現在のビデオセグメンテーションモデルの性能が期待できるにもかかわらず、これらのモデルは複雑なシーンに苦戦している。 本稿では,第6回大規模ビデオオブジェクトセグメンテーション(LSVOS)チャレンジとECCV 2024ワークショップについて紹介する。 今年の課題には、ビデオオブジェクトセグメンテーション(VOS)とビデオオブジェクトセグメンテーション(RVOS)という2つのタスクが含まれている。 今年は、従来のYouTube-VOSとYouTube-RVOSベンチマークを、最新のデータセットMOSE、LVOS、MeViSに置き換えて、より困難な複雑な環境下でVOSを評価する。 今年の挑戦は、8か国以上の20以上の機関から129の登録チームが集まった。 このレポートには、チャレンジとデータセットの導入、トップ7チームが使用する方法の2つのトラックが含まれている。 詳細はホームページ https://lsvos.github.io/ で確認できます。

Despite the promising performance of current video segmentation models on existing benchmarks, these models still struggle with complex scenes. In this paper, we introduce the 6th Large-scale Video Object Segmentation (LSVOS) challenge in conjunction with ECCV 2024 workshop. This year's challenge includes two tasks: Video Object Segmentation (VOS) and Referring Video Object Segmentation (RVOS). In this year, we replace the classic YouTube-VOS and YouTube-RVOS benchmark with latest datasets MOSE, LVOS, and MeViS to assess VOS under more challenging complex environments. This year's challenge attracted 129 registered teams from more than 20 institutes across over 8 countries. This report include the challenge and dataset introduction, and the methods used by top 7 teams in two tracks. More details can be found in our homepage https://lsvos.github.io/.
翻訳日:2024-09-10 13:36:22 公開日:2024-09-09
# 量子ワッサースタインコンパイル:量子アースモーバー距離を用いたユニタリコンパイル

Quantum Wasserstein Compilation: Unitary Compilation using the Quantum Earth Mover's Distance ( http://arxiv.org/abs/2409.05849v1 )

ライセンス: Link先を確認
Marvin Richter, Abhishek Y. Dubey, Axel Plinge, Christopher Mutschler, Daniel D. Scherer, Michael J. Hartmann, (参考訳) 量子コンピュータの発展にもかかわらず、量子アルゴリズムの実践的応用は、いわゆるノイズの多い中間量子デバイスの範囲外にとどまっている。 現在、量子回路コンパイル(QCC)は、あらゆる量子アルゴリズムの実行において重要なコンポーネントである。 回路をハードウェア固有のゲートに翻訳するだけでなく、回路の深さを最適化し、ノイズに適応できる。 変分量子回路コンパイル(VQCC)は、与えられたユニタリ変換を再現する目的に応じて、アンザッツのパラメータを最適化する。 本研究では,次数1の量子ワッサーシュタイン距離に基づく量子ワッサースタインコンパイル(QWC)コスト関数と呼ばれるVQCC対象関数を提案する。 本稿では,QWCのコスト関数が2つの回路の平均不整合によって上界にあることを示す。 生成逆数ネットワークにおいて、局所的なパウリ可観測値の測定に基づく推定方法を用いて、所定の量子回路を学習する。 単層ハードウェアの効率的なアンザッツ(HEA)を目標とアンザッツの両方にコンパイルし,ロシミットエコーテスト(LET)やヒルベルト・シュミットテスト(HST)などのコスト関数と比較することにより,QWCコスト関数の有効性を実証した。 最後に、コスト関数としてのQWCは、我々が考慮している特定の問題に対して不毛の台地を緩和できることを示す。

Despite advances in the development of quantum computers, the practical application of quantum algorithms remains outside the current range of so-called noisy intermediate-scale quantum devices. Now and beyond, quantum circuit compilation (QCC) is a crucial component of any quantum algorithm execution. Besides translating a circuit into hardware-specific gates, it can optimize circuit depth and adapt to noise. Variational quantum circuit compilation (VQCC) optimizes the parameters of an ansatz according to the goal of reproducing a given unitary transformation. In this work, we present a VQCC-objective function called the quantum Wasserstein compilation (QWC) cost function based on the quantum Wasserstein distance of order 1. We show that the QWC cost function is upper bound by the average infidelity of two circuits. An estimation method based on measurements of local Pauli-observable is utilized in a generative adversarial network to learn a given quantum circuit. We demonstrate the efficacy of the QWC cost function by compiling a single-layer hardware efficient ansatz (HEA) as both the target and the ansatz and comparing other cost functions such as the Loschmidt echo test (LET) and the Hilbert-Schmidt test (HST). Finally, our experiments demonstrate that QWC as a cost function can mitigate the barren plateaus for the particular problem we consider.
翻訳日:2024-09-10 13:36:22 公開日:2024-09-09
# 人間と画像モデルにおける多視点オブジェクト整合性の評価

Evaluating Multiview Object Consistency in Humans and Image Models ( http://arxiv.org/abs/2409.05862v1 )

ライセンス: Link先を確認
Tyler Bonnen, Stephanie Fu, Yutong Bai, Thomas O'Connell, Yoni Friedman, Nancy Kanwisher, Joshua B. Tenenbaum, Alexei A. Efros, (参考訳) 人間の観察者と視覚モデルとのアライメントを直接評価するベンチマークを3次元形状推論タスクで導入する。 我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学からの実験的デザインを利用する:一組のイメージを与えられた参加者は、かなりの視点の変化にもかかわらず、同じ/異なる物体を含むものを識別する。 一般的な物体(例:椅子)や抽象的な形状(例:手続き的に生成された「ナンセンス」物体)を含む多様な画像から抽出する。 2000以上のユニークなイメージセットを構築した後、これらのタスクを人間の被験者に管理し、500人以上の参加者から35Kの行動データを収集した。 これには明確な選択行動や、反応時間や視線データなどの中間測度が含まれる。 次に、一般的な視覚モデル(例えば、DINOv2、MAE、CLIP)の性能を評価する。 人間はあらゆるモデルよりも広いマージンで優れています。 マルチスケール評価手法を用いて、モデルと人間の相似性と相違点を同定する。人間モデルの性能は相関するが、人間は挑戦的な試行により多くの時間/処理を割り当てる。 すべてのイメージ、データ、コードは、プロジェクトページからアクセスできます。

We introduce a benchmark to directly evaluate the alignment between human observers and vision models on a 3D shape inference task. We leverage an experimental design from the cognitive sciences which requires zero-shot visual inferences about object shape: given a set of images, participants identify which contain the same/different objects, despite considerable viewpoint variation. We draw from a diverse range of images that include common objects (e.g., chairs) as well as abstract shapes (i.e., procedurally generated `nonsense' objects). After constructing over 2000 unique image sets, we administer these tasks to human participants, collecting 35K trials of behavioral data from over 500 participants. This includes explicit choice behaviors as well as intermediate measures, such as reaction time and gaze data. We then evaluate the performance of common vision models (e.g., DINOv2, MAE, CLIP). We find that humans outperform all models by a wide margin. Using a multi-scale evaluation approach, we identify underlying similarities and differences between models and humans: while human-model performance is correlated, humans allocate more time/processing on challenging trials. All images, data, and code can be accessed via our project page.
翻訳日:2024-09-10 13:36:22 公開日:2024-09-09
# 急速閉ループ交通シミュレーション

Promptable Closed-loop Traffic Simulation ( http://arxiv.org/abs/2409.05863v1 )

ライセンス: Link先を確認
Shuhan Tan, Boris Ivanovic, Yuxiao Chen, Boyi Li, Xinshuo Weng, Yulong Cao, Philipp Krähenbühl, Marco Pavone, (参考訳) シミュレーションは安全で効率的な自動運転開発の基礎となっている。 コアとなるシミュレーションシステムは、現実的でリアクティブで制御可能なトラフィックパターンを生成する必要がある。 本稿では,マルチモーダルなクローズドループ交通シミュレーションフレームワークProSimを提案する。 ProSimを使うと、ユーザーは複雑な数値、分類、テキストのプロンプトを与え、各エージェントの行動と意図を指示することができる。 ProSimはその後、クローズドループ方式でトラフィックシナリオをロールアウトし、各エージェントと他のトラフィック参加者とのインタラクションをモデル化する。 実験の結果,ProSimは異なるユーザプロンプトを与えられた場合,高いプロンプト制御性を実現し,プロンプトを付与しない場合,Waymo Sim Agents Challengeでの競争性能を達成できた。 ProSim-Instruct-520kは,1000万以上のテキストプロンプトを持つマルチモーダル・プロセサリオ・ペア駆動データセットで,実世界520万以上の運転シナリオを対象としている。 ProSimのコードとProSim-Instruct-520kのデータおよびラベルツールをhttps://ariostgx.github.io/ProSimでリリースします。

Simulation stands as a cornerstone for safe and efficient autonomous driving development. At its core a simulation system ought to produce realistic, reactive, and controllable traffic patterns. In this paper, we propose ProSim, a multimodal promptable closed-loop traffic simulation framework. ProSim allows the user to give a complex set of numerical, categorical or textual prompts to instruct each agent's behavior and intention. ProSim then rolls out a traffic scenario in a closed-loop manner, modeling each agent's interaction with other traffic participants. Our experiments show that ProSim achieves high prompt controllability given different user prompts, while reaching competitive performance on the Waymo Sim Agents Challenge when no prompt is given. To support research on promptable traffic simulation, we create ProSim-Instruct-520k, a multimodal prompt-scenario paired driving dataset with over 10M text prompts for over 520k real-world driving scenarios. We will release code of ProSim as well as data and labeling tools of ProSim-Instruct-520k at https://ariostgx.github.io/ProSim.
翻訳日:2024-09-10 13:36:22 公開日:2024-09-09
# Neural MP: 汎用的なニューラルモーションプランナ

Neural MP: A Generalist Neural Motion Planner ( http://arxiv.org/abs/2409.05864v1 )

ライセンス: Link先を確認
Murtaza Dalal, Jiahui Yang, Russell Mendonca, Youssef Khaky, Ruslan Salakhutdinov, Deepak Pathak, (参考訳) 運動計画の現在のパラダイムは、膨大な時間と計算資源を消費する新しい問題に対して、スクラッチからソリューションを生成する。 複雑で散らかったシーンでは、モーションプランニングのアプローチはソリューションを作るのに数分かかることが多い。 運動計画問題にデータ駆動学習を大規模に適用することで,これを実現する。 提案手法は, シミュレーションの複雑なシーンを多数構築し, モーションプランナーから専門家のデータを収集し, 反応的なジェネラリストポリシーに抽出する。 そして、これを軽量な最適化と組み合わせて、現実世界のデプロイメントのための安全なパスを得ます。 実世界におけるランダムなポーズ,シーン,障害物を伴う4つの環境における64の動作計画タスクについて,現状のサンプリング,最適化,学習に基づく計画手法よりも23%,17%,79%の動作計画成功率の向上が示された。 mihdalal.github.io/neuralmotionplannerの動画

The current paradigm for motion planning generates solutions from scratch for every new problem, which consumes significant amounts of time and computational resources. For complex, cluttered scenes, motion planning approaches can often take minutes to produce a solution, while humans are able to accurately and safely reach any goal in seconds by leveraging their prior experience. We seek to do the same by applying data-driven learning at scale to the problem of motion planning. Our approach builds a large number of complex scenes in simulation, collects expert data from a motion planner, then distills it into a reactive generalist policy. We then combine this with lightweight optimization to obtain a safe path for real world deployment. We perform a thorough evaluation of our method on 64 motion planning tasks across four diverse environments with randomized poses, scenes and obstacles, in the real world, demonstrating an improvement of 23%, 17% and 79% motion planning success rate over state of the art sampling, optimization and learning based planning methods. Video results available at mihdalal.github.io/neuralmotionplanner
翻訳日:2024-09-10 13:36:22 公開日:2024-09-09
# ロボットユーティリティモデル:新しい環境におけるゼロショット展開のための一般的なポリシー

Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments ( http://arxiv.org/abs/2409.05865v1 )

ライセンス: Link先を確認
Haritheja Etukuru, Norihito Naka, Zijin Hu, Seungjae Lee, Julian Mehu, Aaron Edsinger, Chris Paxton, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah, (参考訳) ロボットモデル、特に大量のデータで訓練されたモデルは、最近、現実世界の操作とナビゲーションの能力を多用している。 いくつかの独立した取り組みは、環境に十分なトレーニングデータを与えると、ロボットポリシーはその環境のバリエーションを示すために一般化できることを示した。 しかし、あらゆる新しい環境にロボットモデルを微調整する必要があることは、オープンワールドの問題に対してゼロショットでデプロイできる言語やビジョンのモデルとは対照的である。 本研究では、ゼロショットロボットポリシーを訓練し、デプロイするためのフレームワークであるロボットユーティリティモデル(RUM)を提案する。 RUMを効率的に作成するために,モバイル操作タスクのデータを迅速に収集し,マルチモーダルな模倣学習によるポリシーに統合し,安価なコモディティロボットであるHello Robot Stretchに外部mLLM検証器を配置する新しいツールを開発した。 キャビネットドアのオープン、引き出しのオープン、ナプキンのピックアップ、紙袋のピックアップ、転倒物の再配向の5つのユーティリティモデルを訓練する。 我々のシステムは、目に見えない物体と相互作用する新しい環境において、平均して90%の成功率を達成する。 さらに、ユーティリティモデルは、追加のデータやトレーニング、微調整なしで、さまざまなロボットやカメラのセットアップでも成功することができる。 主に、トレーニングアルゴリズムやポリシークラスよりもデータを学ぶことの重要性、データのスケーリングに関するガイダンス、多種多様な高品質なデモの必要性、そして個々の環境におけるパフォーマンスを改善するためのロボットのイントロスペクションとリトライのレシピについて学ぶ。 私たちのコード、データ、モデル、ハードウェアデザイン、そして実験とデプロイメントのビデオはオープンソースで、プロジェクトのWebサイト(https://robotutilitymodels.com)で見ることができる。

Robot models, particularly those trained with large amounts of data, have recently shown a plethora of real-world manipulation and navigation capabilities. Several independent efforts have shown that given sufficient training data in an environment, robot policies can generalize to demonstrated variations in that environment. However, needing to finetune robot models to every new environment stands in stark contrast to models in language or vision that can be deployed zero-shot for open-world problems. In this work, we present Robot Utility Models (RUMs), a framework for training and deploying zero-shot robot policies that can directly generalize to new environments without any finetuning. To create RUMs efficiently, we develop new tools to quickly collect data for mobile manipulation tasks, integrate such data into a policy with multi-modal imitation learning, and deploy policies on-device on Hello Robot Stretch, a cheap commodity robot, with an external mLLM verifier for retrying. We train five such utility models for opening cabinet doors, opening drawers, picking up napkins, picking up paper bags, and reorienting fallen objects. Our system, on average, achieves 90% success rate in unseen, novel environments interacting with unseen objects. Moreover, the utility models can also succeed in different robot and camera set-ups with no further data, training, or fine-tuning. Primary among our lessons are the importance of training data over training algorithm and policy class, guidance about data scaling, necessity for diverse yet high-quality demonstrations, and a recipe for robot introspection and retrying to improve performance on individual environments. Our code, data, models, hardware designs, as well as our experiment and deployment videos are open sourced and can be found on our project website: https://robotutilitymodels.com
翻訳日:2024-09-10 13:36:22 公開日:2024-09-09
# 個人意思決定からみたPM2.5予測評価フレームワーク

A Framework for Evaluating PM2.5 Forecasts from the Perspective of Individual Decision Making ( http://arxiv.org/abs/2409.05866v1 )

ライセンス: Link先を確認
Renato Berlinghieri, David R. Burt, Paolo Giani, Arlene M. Fiore, Tamara Broderick, (参考訳) 気候変動によって森林火災の頻度が増加し、大気汚染によって健康リスクが生じる。 天気予報が降水に関する活動を計画するのと同じように、信頼性の高い大気質予測は、個人が大気汚染に曝されることを減らすのに役立つ。 本研究は, 大陸内における細かな物質(PM2.5)の予測を, 個別意思決定の文脈で評価するものである。 比較では、より多くのデータソースを取り入れ、機械学習ツールを使用することで実現可能な大気汚染予測の改善に意義ある余地があることを示唆している。 将来の機械学習開発とベンチマークを容易にするため,個別意思決定のための大気汚染予測を評価・比較するための枠組みを構築した。 我々は、緩和策をいつ使うかという決定を捉えるために、新たな損失を導入する。 予測を比較する際に可視化の重要性を強調した。 最後に、アーカイブされた予測予測をダウンロードして比較するためのコードを提供します。

Wildfire frequency is increasing as the climate changes, and the resulting air pollution poses health risks. Just as people routinely use weather forecasts to plan their activities around precipitation, reliable air quality forecasts could help individuals reduce their exposure to air pollution. In the present work, we evaluate several existing forecasts of fine particular matter (PM2.5) within the continental United States in the context of individual decision-making. Our comparison suggests there is meaningful room for improvement in air pollution forecasting, which might be realized by incorporating more data sources and using machine learning tools. To facilitate future machine learning development and benchmarking, we set up a framework to evaluate and compare air pollution forecasts for individual decision making. We introduce a new loss to capture decisions about when to use mitigation measures. We highlight the importance of visualizations when comparing forecasts. Finally, we provide code to download and compare archived forecast predictions.
翻訳日:2024-09-10 13:36:22 公開日:2024-09-09
# Flashキャッシュ: レイディアンスキャッシュベースの逆レンダリングにおけるバイアス低減

Flash Cache: Reducing Bias in Radiance Cache Based Inverse Rendering ( http://arxiv.org/abs/2409.05867v1 )

ライセンス: Link先を確認
Benjamin Attal, Dor Verbin, Ben Mildenhall, Peter Hedman, Jonathan T. Barron, Matthew O'Toole, Pratul P. Srinivasan, (参考訳) 3D再構成のための最先端技術は、主にボリュームシーン表現に基づいており、光線に沿って到着する色を計算するために複数の点をサンプリングする必要がある。 これらの表現を、より一般的な逆レンダリング(幾何、材料、および観測画像からの光を再構成する)に利用することは、そのようなボリューム表現を再帰的にパストレーシングするコストが高いため、難しい。 最近の研究は、任意の方向から到達した定常な無限バウンスレーダを格納するデータ構造である、レーダランスキャッシュを使用することでこの問題を緩和している。 しかし、これらの解はレンダリングに偏りをもたらす近似と、より重要なのは最適化に使用される勾配に依存する。 計算効率を保ちながらこれらの近似を回避する手法を提案する。 特に, レンダリング方程式の偏りのない推定器のばらつきを低減するために, (1) 入射照明用オクルージョン対応重要サンプリング器, (2) 高品質で高価なボリュームキャッシュから放射能の制御変数として使用できる高速キャッシュアーキテクチャの2つの手法を利用する。 これらのバイアスを除去することで、逆レンダリングに基づくレーダランスキャッシュの一般化が向上し、スペクトル反射のような光輸送効果に挑戦する際の品質が向上することを示す。

State-of-the-art techniques for 3D reconstruction are largely based on volumetric scene representations, which require sampling multiple points to compute the color arriving along a ray. Using these representations for more general inverse rendering -- reconstructing geometry, materials, and lighting from observed images -- is challenging because recursively path-tracing such volumetric representations is expensive. Recent works alleviate this issue through the use of radiance caches: data structures that store the steady-state, infinite-bounce radiance arriving at any point from any direction. However, these solutions rely on approximations that introduce bias into the renderings and, more importantly, into the gradients used for optimization. We present a method that avoids these approximations while remaining computationally efficient. In particular, we leverage two techniques to reduce variance for unbiased estimators of the rendering equation: (1) an occlusion-aware importance sampler for incoming illumination and (2) a fast cache architecture that can be used as a control variate for the radiance from a high-quality, but more expensive, volumetric cache. We show that by removing these biases our approach improves the generality of radiance cache based inverse rendering, as well as increasing quality in the presence of challenging light transport effects such as specular reflections.
翻訳日:2024-09-10 13:36:22 公開日:2024-09-09
# 防衛対応アーキテクチャバックドアによる大規模言語モデルの脆弱性の解明

Exploiting the Vulnerability of Large Language Models via Defense-Aware Architectural Backdoor ( http://arxiv.org/abs/2409.01952v2 )

ライセンス: Link先を確認
Abdullah Arafat Miah, Yu Bi, (参考訳) ディープニューラルネットワーク(DNN)は、バックドア攻撃に対する脆弱性として長年認識されてきた。 微調整の過程で有毒な訓練データを提供することで、攻撃者は被害者モデルにバックドアを埋め込むことができる。 これにより、特定のテキストトリガーパターンを満たす入力サンプルを、攻撃者の選択したターゲットラベルに分類することができる。 このようなブラックボックス攻撃はコンピュータビジョンと自然言語処理(NLP)の両方でよく研究されているが、ホワイトボックス攻撃の哲学に依存するバックドア攻撃はほとんど研究されていない。 本稿では,基盤となるモデルアーキテクチャ内に隠蔽する新しいタイプのバックドアアタックを導入するための第一歩を踏み出す。 具体的には、トリガー検出とノイズ注入という2つの機能からなるバックドアモジュールを設計することを提案する。 モデルアーキテクチャレイヤのアドオンモジュールは、入力トリガトークンの存在を検出し、ガウスノイズを使って層重みを変更することで、ベースラインモデルの特徴分布を乱すことができる。 我々は,5つの大言語データセットの2つのモデルアーキテクチャ設定を用いて,攻撃方法を評価するための広範囲な実験を行った。 大規模言語モデルのトレーニング不要なアーキテクチャバックドアが真の脅威となることを実証する。 最先端の作業とは違って、厳密な微調整と再訓練プロセスや、出力確率ベースの防御方法(BDDR)を回避できる。 すべてのコードとデータはhttps://github.com/SiSL-URI/Arch_Backdoor_LLMで利用可能である。

Deep neural networks (DNNs) have long been recognized as vulnerable to backdoor attacks. By providing poisoned training data in the fine-tuning process, the attacker can implant a backdoor into the victim model. This enables input samples meeting specific textual trigger patterns to be classified as target labels of the attacker's choice. While such black-box attacks have been well explored in both computer vision and natural language processing (NLP), backdoor attacks relying on white-box attack philosophy have hardly been thoroughly investigated. In this paper, we take the first step to introduce a new type of backdoor attack that conceals itself within the underlying model architecture. Specifically, we propose to design separate backdoor modules consisting of two functions: trigger detection and noise injection. The add-on modules of model architecture layers can detect the presence of input trigger tokens and modify layer weights using Gaussian noise to disturb the feature distribution of the baseline model. We conduct extensive experiments to evaluate our attack methods using two model architecture settings on five different large language datasets. We demonstrate that the training-free architectural backdoor on a large language model poses a genuine threat. Unlike the-state-of-art work, it can survive the rigorous fine-tuning and retraining process, as well as evade output probability-based defense methods (i.e. BDDR). All the code and data is available https://github.com/SiSL-URI/Arch_Backdoor_LLM.
翻訳日:2024-09-10 13:26:07 公開日:2024-09-09
# Adaptive Class Emergence Training:プログレッシブターゲット進化によるニューラルネットワークの安定性と一般化の促進

Adaptive Class Emergence Training: Enhancing Neural Network Stability and Generalization through Progressive Target Evolution ( http://arxiv.org/abs/2409.02410v2 )

ライセンス: Link先を確認
Jaouad Dabounou, (参考訳) 人工知能、特にディープニューラルネットワークの最近の進歩は、複雑なタスクで達成可能な領域の境界を押し上げている。 分類問題におけるニューラルネットワークのトレーニング方法は、1ホット符号化ベクターのような静的な目標出力に依存することが多く、不安定な最適化とデータ内の非線形性を扱うのが困難になる可能性がある。 本稿では,Nullベクトルから1ホット符号化ベクトルへの目標出力を,学習過程を通じて段階的に進化させる新たなトレーニング手法を提案する。 この段階的な遷移により、ネットワークは分類タスクの複雑さの増大によりスムーズに適応し、過度な適合のリスクを低減し、一般化を促進する平衡状態を維持することができる。 有限要素解析における構造平衡の概念から着想を得た我々のアプローチは、合成と実世界の両方のデータセットに関する広範な実験を通じて検証されてきた。 提案手法は, 高速収束, 精度の向上, 一般化性の向上を実現している。 このプログレッシブトレーニングフレームワークは、従来の方法に代わる堅牢な代替手段を提供し、より効率的で安定したニューラルネットワークトレーニングのための新たな視点を開放する。

Recent advancements in artificial intelligence, particularly deep neural networks, have pushed the boundaries of what is achievable in complex tasks. Traditional methods for training neural networks in classification problems often rely on static target outputs, such as one-hot encoded vectors, which can lead to unstable optimization and difficulties in handling non-linearities within data. In this paper, we propose a novel training methodology that progressively evolves the target outputs from a null vector to one-hot encoded vectors throughout the training process. This gradual transition allows the network to adapt more smoothly to the increasing complexity of the classification task, maintaining an equilibrium state that reduces the risk of overfitting and enhances generalization. Our approach, inspired by concepts from structural equilibrium in finite element analysis, has been validated through extensive experiments on both synthetic and real-world datasets. The results demonstrate that our method achieves faster convergence, improved accuracy, and better generalization, especially in scenarios with high data complexity and noise. This progressive training framework offers a robust alternative to classical methods, opening new perspectives for more efficient and stable neural network training.
翻訳日:2024-09-10 13:26:07 公開日:2024-09-09
# 大規模言語モデルにおける選好学習の統一的視点に向けて:調査

Towards a Unified View of Preference Learning for Large Language Models: A Survey ( http://arxiv.org/abs/2409.02795v3 )

ライセンス: Link先を確認
Bofei Gao, Feifan Song, Yibo Miao, Zefan Cai, Zhe Yang, Liang Chen, Helan Hu, Runxin Xu, Qingxiu Dong, Ce Zheng, Wen Xiao, Ge Zhang, Daoguang Zan, Keming Lu, Bowen Yu, Dayiheng Liu, Zeyu Cui, Jian Yang, Lei Sha, Houfeng Wang, Zhifang Sui, Peiyi Wang, Tianyu Liu, Baobao Chang, (参考訳) 大きな言語モデル(LLM)は、非常に強力な能力を示す。 成功するための重要な要因の1つは、LLMの出力を人間の好みに合わせることである。 このアライメントプロセスは、LLMの性能を効率的に向上するために、少量のデータしか必要としないことが多い。 効果的な分野ではあるが、この分野の研究は複数の領域にまたがっており、関連する手法は比較的複雑である。 異なる方法間の関係は未探索であり、好みのアライメントの発達を制限している。 これを踏まえ、我々は既存の一般的なアライメント戦略を異なるコンポーネントに分割し、現在のアライメント戦略を研究するための統一されたフレームワークを提供し、それら間の接続を確立する。 本研究では、選好学習におけるすべての戦略を、モデル、データ、フィードバック、アルゴリズムの4つの構成要素に分解する。 この統合されたビューは、既存のアライメントアルゴリズムの深い理解を提供すると同時に、異なる戦略の強みを相乗化する可能性も開きます。 さらに,本論文では,読者の包括的理解を促進するために,既存アルゴリズムの詳細な実例を示す。 最後に、我々の統一的な視点に基づいて、大きな言語モデルと人間の嗜好を整合させるための課題と今後の研究方向性について検討する。

Large Language Models (LLMs) exhibit remarkably powerful capabilities. One of the crucial factors to achieve success is aligning the LLM's output with human preferences. This alignment process often requires only a small amount of data to efficiently enhance the LLM's performance. While effective, research in this area spans multiple domains, and the methods involved are relatively complex to understand. The relationships between different methods have been under-explored, limiting the development of the preference alignment. In light of this, we break down the existing popular alignment strategies into different components and provide a unified framework to study the current alignment strategies, thereby establishing connections among them. In this survey, we decompose all the strategies in preference learning into four components: model, data, feedback, and algorithm. This unified view offers an in-depth understanding of existing alignment algorithms and also opens up possibilities to synergize the strengths of different strategies. Furthermore, we present detailed working examples of prevalent existing algorithms to facilitate a comprehensive understanding for the readers. Finally, based on our unified perspective, we explore the challenges and future research directions for aligning large language models with human preferences.
翻訳日:2024-09-10 13:26:07 公開日:2024-09-09
# 効率的な自己組織化による時系列分類におけるロバスト性向上

Boosting Certificate Robustness for Time Series Classification with Efficient Self-Ensemble ( http://arxiv.org/abs/2409.02802v2 )

ライセンス: Link先を確認
Chang Dong, Zhengyang Li, Liangwei Zheng, Weitong Chen, Wei Emma Zhang, (参考訳) 近年,時系列領域における敵対的堅牢性の問題が注目されている。 しかし、利用可能な防御機構は限定的であり、理論的保証は提供されていないが、敵の訓練が主流である。 ランダム化Smoothingは、$\ell_p$-ball攻撃の下で、ロバスト性半径の証明可能な下界を証明できることから、スタンドアウト手法として登場した。 その成功を認め、時系列分野の研究はこれらの側面に焦点を合わせ始めた。 しかし、既存の研究は主に時系列の予測、あるいは時系列分類のための統計的特徴増強の非$\ell_p$ロバスト性(TSC)に焦点を当てている。 我々のレビューでは、ランダム化SmoothingはTSCで控えめに動作し、堅牢性の低いデータセットに効果的な保証を提供するのに苦労している。 そこで本研究では,分類マージンのばらつきを低減し,より大きな半径を証明し,予測ラベルの確率信頼度を低くする自己アンサンブル手法を提案する。 このアプローチはまた、Deep Ensemble~(DE)の計算オーバーヘッド問題にも対処するが、競争力は保たれており、場合によっては頑健性の観点からも優れる。 理論的解析と実験結果の両方が本手法の有効性を検証し, ベースライン法と比較してロバストネス試験において優れた性能を示した。

Recently, the issue of adversarial robustness in the time series domain has garnered significant attention. However, the available defense mechanisms remain limited, with adversarial training being the predominant approach, though it does not provide theoretical guarantees. Randomized Smoothing has emerged as a standout method due to its ability to certify a provable lower bound on robustness radius under $\ell_p$-ball attacks. Recognizing its success, research in the time series domain has started focusing on these aspects. However, existing research predominantly focuses on time series forecasting, or under the non-$\ell_p$ robustness in statistic feature augmentation for time series classification~(TSC). Our review found that Randomized Smoothing performs modestly in TSC, struggling to provide effective assurances on datasets with poor robustness. Therefore, we propose a self-ensemble method to enhance the lower bound of the probability confidence of predicted labels by reducing the variance of classification margins, thereby certifying a larger radius. This approach also addresses the computational overhead issue of Deep Ensemble~(DE) while remaining competitive and, in some cases, outperforming it in terms of robustness. Both theoretical analysis and experimental results validate the effectiveness of our method, demonstrating superior performance in robustness testing compared to baseline approaches.
翻訳日:2024-09-10 13:26:07 公開日:2024-09-09
# HiPrompt: 階層型MLLMプロンプトを用いたチューニング不要な高分解能生成

HiPrompt: Tuning-free Higher-Resolution Generation with Hierarchical MLLM Prompts ( http://arxiv.org/abs/2409.02919v3 )

ライセンス: Link先を確認
Xinyu Liu, Yingqing He, Lanqing Guo, Xiang Li, Bu Jin, Peng Li, Yan Li, Chi-Min Chan, Qifeng Chen, Wei Xue, Wenhan Luo, Qifeng Liu, Yike Guo, (参考訳) 事前訓練された拡散モデルを用いた高解像度画像生成の可能性は非常に大きいが、これらのモデルは、特に4K解像度以上へのスケーリングにおいて、オブジェクトの反復や構造的アーティファクトの問題に悩まされることが多い。 問題の原因は,複数の尺度を生成するための単一のプロンプトが不十分な有効性をもたらすことにある。 これに対し、階層的なプロンプトを導入して上記の問題に対処する、新しいチューニング不要なソリューションであるHiPromptを提案する。 階層的なプロンプトは、グローバルとローカルの両方のガイダンスを提供する。 具体的には、グローバルガイダンスは、全体の内容を記述するユーザ入力から導き、ローカルガイダンスは、MLLMからのパッチワイズ記述を利用して、地域構造とテクスチャ生成を精巧にガイドする。 さらに、逆復調過程において、生成した雑音を低周波及び高周波空間成分に分解する。 これらのコンポーネントは、パッチに関する詳細な記述やより広範な画像レベルのプロンプトなど、複数のプロンプトレベルに条件付けされている。 さらに、生成者は局所的な空間領域にもっと集中し、生成した画像が高定義で一貫性のある局所的および大域的意味論、構造、テクスチャを維持することを保証できる。 広汎な実験により、HiPromptは高解像度画像生成における最先端の作業より優れており、オブジェクトの反復が著しく減少し、構造的品質が向上することが示された。

The potential for higher-resolution image generation using pretrained diffusion models is immense, yet these models often struggle with issues of object repetition and structural artifacts especially when scaling to 4K resolution and higher. We figure out that the problem is caused by that, a single prompt for the generation of multiple scales provides insufficient efficacy. In response, we propose HiPrompt, a new tuning-free solution that tackles the above problems by introducing hierarchical prompts. The hierarchical prompts offer both global and local guidance. Specifically, the global guidance comes from the user input that describes the overall content, while the local guidance utilizes patch-wise descriptions from MLLMs to elaborately guide the regional structure and texture generation. Furthermore, during the inverse denoising process, the generated noise is decomposed into low- and high-frequency spatial components. These components are conditioned on multiple prompt levels, including detailed patch-wise descriptions and broader image-level prompts, facilitating prompt-guided denoising under hierarchical semantic guidance. It further allows the generation to focus more on local spatial regions and ensures the generated images maintain coherent local and global semantics, structures, and textures with high definition. Extensive experiments demonstrate that HiPrompt outperforms state-of-the-art works in higher-resolution image generation, significantly reducing object repetition and enhancing structural quality.
翻訳日:2024-09-10 13:26:07 公開日:2024-09-09
# 量子時計としての特性時間演算子

Characteristic time operators as quantum clocks ( http://arxiv.org/abs/2409.03364v2 )

ライセンス: Link先を確認
Ralph Adrian E. Farrales, Eric A. Galapon, (参考訳) 我々は[E.A. Galapon, Proc. R. Soc. Lond. A, 458:2671 (2002)]で導入された特性時間作用素 $\mathsf{T}$ を考える。 ある成長条件を持つ半有界離散ハミルトン群 $\mathsf{H}$ に対して、$\mathsf{T}$ は標準関係 $[\mathsf{T},\mathsf{H}]|\psi\rangle=i\hbar|\psi\rangle$ for $|\psi\rangle$ を満たす。 $\mathsf{T}$ は共変ではないが、時不変集合 $\mathscr{T}$ と呼ばれる全測度 0 の集合における正準関係を満たすことを示す。 それぞれの時間の近傍において、$t$ in $\mathscr{T}$, $\mathsf{T}$ は依然として $\mathsf{H}$ に共役であり、その期待値はパラメトリック時間を与える。 その二次元射影は$\mathscr{T}$ の近傍における時間-エネルギーの不確実性関係を飽和させ、パウリ行列 $\sigma_y$ に比例する。 したがって、互換性のある可観測値を測定することで、$\mathscr{T}$の近傍の時間を示す量子時計を構築することができる。

We consider the characteristic time operator $\mathsf{T}$ introduced in [E. A. Galapon, Proc. R. Soc. Lond. A, 458:2671 (2002)] which is bounded and self-adjoint. For a semibounded discrete Hamiltonian $\mathsf{H}$ with some growth condition, $\mathsf{T}$ satisfies the canonical relation $[\mathsf{T},\mathsf{H}]|\psi\rangle=i\hbar|\psi\rangle$ for $|\psi\rangle$ in a dense subspace of the Hilbert space. While $\mathsf{T}$ is not covariant, we show that it still satisfies the canonical relation in a set of times of total measure zero called the time invariant set $\mathscr{T}$. In the neighborhood of each time $t$ in $\mathscr{T}$, $\mathsf{T}$ is still canonically conjugate to $\mathsf{H}$ and its expectation value gives the parametric time. Its two-dimensional projection saturates the time-energy uncertainty relation in the neighborhood of $\mathscr{T}$, and is proportional to the Pauli matrix $\sigma_y$. Thus, one can construct a quantum clock that tells the time in the neighborhood of $\mathscr{T}$ by measuring a compatible observable.
翻訳日:2024-09-10 13:26:06 公開日:2024-09-09
# mPLUG-DocOwl2: OCRフリーマルチページ文書理解のための高分解能圧縮

mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding ( http://arxiv.org/abs/2409.03420v2 )

ライセンス: Link先を確認
Anwen Hu, Haiyang Xu, Liang Zhang, Jiabo Ye, Ming Yan, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou, (参考訳) MLLM(Multimodel Large Language Models)は,文書画像の解像度を向上することにより,OCRのない文書理解性能を実現している。 しかし、これは単一のドキュメントイメージに対して数千のビジュアルトークンを生成するコストがかかり、特にマルチページドキュメント理解において、過剰なGPUメモリと推論時間の短縮につながる。 本研究では,これらの課題に対処するために,高解像度の文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。 この圧縮モジュールにより、多ページ文書の理解能力を強化し、トークン効率と質問応答性能のバランスをとるために、DocOwl2を3段階のトレーニングフレームワークであるシングルイメージ事前学習、マルチイメージ継続事前学習、マルチタスクファインタニングで開発する。 DocOwl2は、マルチページ文書理解ベンチマークに新たな最先端を設定し、最初のトークンレイテンシを50%以上削減し、マルチページ質問応答、エビデンスページによる説明、クロスページ構造理解の高度な機能を示す。 さらに、同様のデータでトレーニングされたシングルイメージのMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。 私たちのコード、モデル、データはhttps://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2で公開されています。

Multimodel Large Language Models(MLLMs) have achieved promising OCR-free Document Understanding performance by increasing the supported resolution of document images. However, this comes at the cost of generating thousands of visual tokens for a single document image, leading to excessive GPU memory and slower inference times, particularly in multi-page document comprehension. In this work, to address these challenges, we propose a High-resolution DocCompressor module to compress each high-resolution document image into 324 tokens, guided by low-resolution global visual features. With this compression module, to strengthen multi-page document comprehension ability and balance both token efficiency and question-answering performance, we develop the DocOwl2 under a three-stage training framework: Single-image Pretraining, Multi-image Continue-pretraining, and Multi-task Finetuning. DocOwl2 sets a new state-of-the-art across multi-page document understanding benchmarks and reduces first token latency by more than 50%, demonstrating advanced capabilities in multi-page questioning answering, explanation with evidence pages, and cross-page structure understanding. Additionally, compared to single-image MLLMs trained on similar data, our DocOwl2 achieves comparable single-page understanding performance with less than 20% of the visual tokens. Our codes, models, and data are publicly available at https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.
翻訳日:2024-09-10 13:26:06 公開日:2024-09-09
# UV-Mamba:高解像度リモートセンシング画像における都市境界同定のためのDCN強化状態空間モデル

UV-Mamba: A DCN-Enhanced State Space Model for Urban Village Boundary Identification in High-Resolution Remote Sensing Images ( http://arxiv.org/abs/2409.03431v3 )

ライセンス: Link先を確認
Lulin Li, Ben Chen, Xuechao Zou, Junliang Xing, Pin Tao, (参考訳) 多様な地理的環境、複雑な景観、高密度集落のため、リモートセンシング画像を用いた都市集落境界の自動識別は極めて困難な課題である。 本稿では,高解像度リモートセンシング画像の正確な境界検出のための,UV-Mambaと呼ばれる新しい,効率的なニューラルネットワークモデルを提案する。 UV-Mambaは、変形可能な畳み込みを組み込んで、画像サイズが増大する状態空間モデルで発生する長周期モデリングにおけるメモリ損失問題を緩和する。 そのアーキテクチャはエンコーダ・デコーダ・フレームワークを使用し、4つの変形可能な状態空間拡張ブロックを持つエンコーダと、抽出されたセマンティック情報を統合するデコーダを備えている。 我々は,UV-Mambaが最先端の性能を達成することを示す2つの大規模データセットの実験を行った。 具体的には、北京と西安のデータセットで73.3%と78.1%のIoUをそれぞれ達成し、前回のベストモデルよりも1.2%と3.4%のIoUの改善を示し、推論速度は6倍、パラメータ数は40倍に向上した。 ソースコードと事前訓練されたモデルはhttps://github.com/Devin-Egber/UV-Mamba.comで入手できる。

Due to the diverse geographical environments, intricate landscapes, and high-density settlements, the automatic identification of urban village boundaries using remote sensing images remains a highly challenging task. This paper proposes a novel and efficient neural network model called UV-Mamba for accurate boundary detection in high-resolution remote sensing images. UV-Mamba mitigates the memory loss problem in lengthy sequence modeling, which arises in state space models with increasing image size, by incorporating deformable convolutions. Its architecture utilizes an encoder-decoder framework and includes an encoder with four deformable state space augmentation blocks for efficient multi-level semantic extraction and a decoder to integrate the extracted semantic information. We conducted experiments on two large datasets showing that UV-Mamba achieves state-of-the-art performance. Specifically, our model achieves 73.3% and 78.1% IoU on the Beijing and Xi'an datasets, respectively, representing improvements of 1.2% and 3.4% IoU over the previous best model while also being 6x faster in inference speed and 40x smaller in parameter count. Source code and pre-trained models are available at https://github.com/Devin-Egber/UV-Mamba.
翻訳日:2024-09-10 13:26:06 公開日:2024-09-09
# 量子状態判別のためのニューラルプロセッシングアプローチ

A neural processing approach to quantum state discrimination ( http://arxiv.org/abs/2409.03748v2 )

ライセンス: Link先を確認
Saeed A. Khan, Fangjun Hu, Gerasimos Angelatos, Michael Hatridge, Hakan E. Türeci, (参考訳) 線形量子増幅は弱い量子信号の処理に不可欠であることが証明されているが、原理的に非線形演算を必要とする相関のような高次量子特徴を抽出している。 しかし、量子信号の非線形処理は、しばしば非イデアル性や余剰ノイズと関連付けられ、非線形性を利用する一般的な枠組みが欠如しているため、そのような規則は避けられる。 本稿では,広帯域のボソニック量子非線形プロセッサ(QNP)の一般量子信号処理原理を明らかにする枠組みを提案する。 量子信号源を監視するQNPの量子コヒーレントな記述を用いて、入射量子信号の高次特性を計算するために量子非線形性を利用でき、線形増幅器では不可能な線形測定可能な可観測器に濃縮することができることを示す。 第2に、QNPは、独自のノイズを含む量子ゆらぎに対するコヒーレントな非線形制御を提供し、伝達された情報を抑制することなく観測可能なノイズ抑圧を可能にする。 ニューラルケースと異なり,QNPによる雑音分布は非古典的相関を示し,絡み合いなどの資源を活用する新たな手段を提供する。 最後に,実測鎖における単純なQNPであっても,量子状態判別などの実用的なタスクにおいて,信号対雑音比の増大が期待できることを示す。 我々の研究は、非線形量子システムを一般的な計算装置として活用するための経路を提供し、非線形量子情報処理の新しいパラダイムを可能にする。

Although linear quantum amplification has proven essential to the processing of weak quantum signals, extracting higher-order quantum features such as correlations in principle demands nonlinear operations. However, nonlinear processing of quantum signals is often associated with non-idealities and excess noise, and absent a general framework to harness nonlinearity, such regimes are typically avoided. Here we present a framework to uncover general quantum signal processing principles of a broad class of bosonic quantum nonlinear processors (QNPs), inspired by a remarkably analogous paradigm in nature: the processing of environmental stimuli by nonlinear, noisy neural ensembles, to enable perception. Using a quantum-coherent description of a QNP monitoring a quantum signal source, we show that quantum nonlinearity can be harnessed to calculate higher-order features of an incident quantum signal, concentrating them into linearly-measurable observables, a transduction not possible using linear amplifiers. Secondly, QNPs provide coherent nonlinear control over quantum fluctuations including their own added noise, enabling noise suppression in an observable without suppressing transduced information, a paradigm that bears striking similarities to optimal neural codings that allow perception even under highly stochastic neural dynamics. Unlike the neural case, we show that QNP-engineered noise distributions can exhibit non-classical correlations, providing a new means to harness resources such as entanglement. Finally, we show that even simple QNPs in realistic measurement chains can provide enhancements of signal-to-noise ratio for practical tasks such as quantum state discrimination. Our work provides pathways to utilize nonlinear quantum systems as general computation devices, and enables a new paradigm for nonlinear quantum information processing.
翻訳日:2024-09-10 13:16:17 公開日:2024-09-09
# WildVis: 数百万のチャットログを対象とするオープンソースのビジュアライザ

WildVis: Open Source Visualizer for Million-Scale Chat Logs in the Wild ( http://arxiv.org/abs/2409.03753v2 )

ライセンス: Link先を確認
Yuntian Deng, Wenting Zhao, Jack Hessel, Xiang Ren, Claire Cardie, Yejin Choi, (参考訳) 現実世界の会話データの増加は、研究者がユーザーとチャットボットのインタラクションを研究するエキサイティングな機会を提供する。 しかし、このデータの膨大な量は、個々の会話を手動で調べることができない。 この課題を克服するために、高速で多目的で大規模な会話分析を可能にする対話型ツールWildVisを紹介した。 WildVisは、基準リストに基づいてテキストと埋め込みスペースの検索と視覚化機能を提供する。 百万規模のデータセットを管理するため,検索インデックスの構築,事前計算と圧縮の埋め込み,キャッシュなどの最適化を行い,数秒以内に応答性のあるユーザインタラクションを保証した。 チャットボットの誤用調査の促進,データセット間のトピック分布の可視化と比較,ユーザ固有の会話パターンの特徴付け,という3つのケーススタディを通じてWildVisの有用性を実証した。 WildVisはオープンソースで、拡張可能で、追加のデータセットとカスタマイズされた検索と視覚化機能をサポートする。

The increasing availability of real-world conversation data offers exciting opportunities for researchers to study user-chatbot interactions. However, the sheer volume of this data makes manually examining individual conversations impractical. To overcome this challenge, we introduce WildVis, an interactive tool that enables fast, versatile, and large-scale conversation analysis. WildVis provides search and visualization capabilities in the text and embedding spaces based on a list of criteria. To manage million-scale datasets, we implemented optimizations including search index construction, embedding precomputation and compression, and caching to ensure responsive user interactions within seconds. We demonstrate WildVis' utility through three case studies: facilitating chatbot misuse research, visualizing and comparing topic distributions across datasets, and characterizing user-specific conversation patterns. WildVis is open-source and designed to be extendable, supporting additional datasets and customized search and visualization functionalities.
翻訳日:2024-09-10 13:16:17 公開日:2024-09-09
# データセットにおける欠陥ラベルが人文推定に及ぼす影響

The Influence of Faulty Labels in Data Sets on Human Pose Estimation ( http://arxiv.org/abs/2409.03887v2 )

ライセンス: Link先を確認
Arnold Schwarz, Levente Hernadi, Felix Bießmann, Kristian Hildebrand, (参考訳) 本研究では,トレーニングデータの質がHPE(Human Pose Estimation)のモデル性能に影響を及ぼすことを示す実証的証拠を提供する。 マイナーエラーから厳密なラベル付けまで、広く使用されているデータセットにおける不正確なラベルは、学習やパフォーマンスメトリクスの歪曲に悪影響を及ぼす可能性がある。 我々は、ラベル不正確さの程度と性質を示すために、人気のあるHPEデータセットの詳細な分析を行う。 この結果から, 種々の実世界のアプリケーションに対して, より堅牢で正確なHPEモデルの開発が促進されることが示唆された。 クリーン化データによる性能向上を示す。

In this study we provide empirical evidence demonstrating that the quality of training data impacts model performance in Human Pose Estimation (HPE). Inaccurate labels in widely used data sets, ranging from minor errors to severe mislabeling, can negatively influence learning and distort performance metrics. We perform an in-depth analysis of popular HPE data sets to show the extent and nature of label inaccuracies. Our findings suggest that accounting for the impact of faulty labels will facilitate the development of more robust and accurate HPE models for a variety of real-world applications. We show improved performance with cleansed data.
翻訳日:2024-09-10 13:16:17 公開日:2024-09-09
# レコメンダシステムの公正性を理解する:医療の展望

Understanding Fairness in Recommender Systems: A Healthcare Perspective ( http://arxiv.org/abs/2409.03893v2 )

ライセンス: Link先を確認
Veronica Kecki, Alan Said, (参考訳) AIによる意思決定システムの公平性は、特にこれらのシステムが直接人間の生活に影響を与える場合、重要な関心事となっている。 本稿では,医療レコメンデーションにおける公正に対する一般の理解について考察する。 調査では、参加者が4つのフェアネス指標(デモグラフィックパリティ、平等度、平等度、ポジティブ予測値)から選択して、これらの概念に対する理解を評価するために、さまざまな医療シナリオを調査しました。 その結果,フェアネスは複雑で,しばしば誤解される概念であり,推奨システムにおけるフェアネス指標に関する一般の理解度は低いことが明らかとなった。 本研究は,これらのシステムを用いた情報意思決定を支援するために,アルゴリズムフェアネスの強化と教育の必要性を強調した。 さらに、公平性に対する一大のアプローチは不十分であり、公平なAIシステムを開発する上で、文脈に敏感な設計の重要性が指摘されている。

Fairness in AI-driven decision-making systems has become a critical concern, especially when these systems directly affect human lives. This paper explores the public's comprehension of fairness in healthcare recommendations. We conducted a survey where participants selected from four fairness metrics -- Demographic Parity, Equal Accuracy, Equalized Odds, and Positive Predictive Value -- across different healthcare scenarios to assess their understanding of these concepts. Our findings reveal that fairness is a complex and often misunderstood concept, with a generally low level of public understanding regarding fairness metrics in recommender systems. This study highlights the need for enhanced information and education on algorithmic fairness to support informed decision-making in using these systems. Furthermore, the results suggest that a one-size-fits-all approach to fairness may be insufficient, pointing to the importance of context-sensitive designs in developing equitable AI systems.
翻訳日:2024-09-10 13:16:17 公開日:2024-09-09
# 曲線調和振動子に対するデムコフ・フラドキンテンソル

Demkov-Fradkin tensor for curved harmonic oscillators ( http://arxiv.org/abs/2409.03900v2 )

ライセンス: Link先を確認
Şengül Kuru, Javier Negro, Sergio Salamanca, (参考訳) 本研究では、パラメータ $\kappa$ の定数曲率を持つ空間における量子曲線調和振動子に対する対称性のデムコフ・フラドキンテンソルを得る。 このテンソルを構築するために、まず次の条件を満たす基本作用素の集合を発見した。 i) それらの製品は,問題の対称性を与える。実際,ハミルトニアンは,そのような製品の組み合わせである。 二 固有関数の空間及び固有値を代数的に生成すること。 三 曲率ゼロの極限において、平坦振動子のよく知られた生成/消滅演算子に入ること。 そのような基本作用素の適切な積は、曲線化されたデムコフ・フラドキンテンソルを生成する。 しかし、これらの基本作用素はハイゼンベルク可換作用素を満足せず、別のリー代数を閉じる。 副生成物として、古典的曲線調和振動子に対する古典的デムコフ・フラドキンテンソルが同じ方法で得られた。 作用素は$so_\kappa(4)$ Lie環を閉じ、スペクトルと固有函数は代数的方法で明示的に解かれ、古典的な場合、軌道は計算された。

In this work, we obtain the Demkov-Fradkin tensor of symmetries for the quantum curved harmonic oscillator in a space with constant curvature given by a parameter $\kappa$. In order to construct this tensor we have firstly found a set of basic operators which satisfy the following conditions: i) their products give symmetries of the problem; in fact the Hamiltonian is a combination of such products; ii) they generate the space of eigenfunctions as well as the eigenvalues in an algebraic way; iii) in the limit of zero curvature, they come into the well known creation/annihilation operators of the flat oscillator. The appropriate products of such basic operators will produce the curved Demkov-Fradkin tensor. However, these basic operators do not satisfy Heisenberg commutators but close another Lie algebra. As a by-product, the classical Demkov-Fradkin tensor for the classical curved harmonic oscillator has been obtained by the same method. The case of two dimensions has been worked out in detail: the operators close a $so_\kappa(4)$ Lie algebra; the spectrum and eigenfunctions are explicitly solved in an algebraic way and in the classical case the trajectories have been computed.
翻訳日:2024-09-10 13:16:17 公開日:2024-09-09
# 非二乗係数行列を持つ線形系に対する量子多列反復アルゴリズム

Quantum multi-row iteration algorithm for linear systems with non-square coefficient matrices ( http://arxiv.org/abs/2409.04010v2 )

ライセンス: Link先を確認
Weitao Lin, Guojing Tian, Xiaoming Sun, (参考訳) 量子線形系アルゴリズムの分野では、量子コンピューティングは古典計算よりも指数関数計算の優位性を実現している。 しかし、焦点は平方係数行列であり、非平方行列に対処する量子アルゴリズムはほとんどない。 Ax = b $ where $ A $$ \in\mathbb{R}^{m \times n} $ で定義されるこのような問題に対して、古典的マルチロー反復法にインスパイアされた量子アルゴリズムを提案し、量子コンパレータと量子ランダムアクセスメモリ(QRAM)に基づく明示的な量子回路を提供する。 量子マルチロー反復アルゴリズムの時間的複雑さは、O(K \log m)$で、反復ステップの数を表す$K$であり、古典的なバージョンと比較して指数的なスピードアップを示している。 古典的マルチロー反復アルゴリズムの収束に基づいて,我々の量子アルゴリズムは[Phys. A, 101, 022322 (2020)]で示される量子ワンロー反復アルゴリズムよりも早く収束することが証明された。 さらに,本アルゴリズムは係数行列に対する需要を小さくし,不整合系の解法や二次最適化問題に適している。

In the field of quantum linear system algorithms, quantum computing has realized exponential computational advantages over classical computing. However, the focus has been on square coefficient matrices, with few quantum algorithms addressing non-square matrices. Towards this kind of problems defined by $ Ax = b $ where $ A $$ \in\mathbb{R}^{m \times n} $, we propose a quantum algorithm inspired by the classical multi-row iteration method and provide an explicit quantum circuit based on the quantum comparator and Quantum Random Access Memory (QRAM). The time complexity of our quantum multi-row iteration algorithm is $ O(K \log m) $, with $ K $ representing the number of iteration steps, which demonstrates an exponential speedup compared to the classical version. Based on the convergence of the classical multi-row iteration algorithm, we prove that our quantum algorithm converges faster than the quantum one-row iteration algorithm presented in [Phys. Rev. A, 101, 022322 (2020)]. Moreover, our algorithm places less demand on the coefficient matrix, making it suitable for solving inconsistent systems and quadratic optimization problems.
翻訳日:2024-09-10 13:16:17 公開日:2024-09-09
# 分散高精度多目的量子探索アルゴリズム

Distributed exact multi-objective quantum search algorithm ( http://arxiv.org/abs/2409.04039v2 )

ライセンス: Link先を確認
Hao Li, Daowen Qiu, Le Luo, (参考訳) 多目的探索とは、構造化されていないデータベース内のいくつかの目的のいずれかを探索することを意味する。 グローバーのアルゴリズムは、古典的よりも多目的探索において2次加速度を持つ。 グローバーのアルゴリズムにおける反復作用素は重要な要素であり、振幅増幅において重要な役割を果たす。 本稿では、2つの分散反復演算子を設計し、2つの新しい分散Groverのアルゴリズムに次のような利点がある:(1)GroverのアルゴリズムとLongによる修正Groverのアルゴリズムと比較して、分散アルゴリズムはより少ないキュービットを必要とする;(2)Qiuらによって提案された分散Groverのアルゴリズムと比較して、分散アルゴリズムの1つは正確である。 もちろん、我々の分散アルゴリズムはどちらもかなり量子通信を必要とし、コストとしてより複雑なユニタリ演算子を伴いますが、ノイズ中間スケール量子(NISQ)時代には、物理的な実現可能性にある程度の利点があるかもしれません。

Multi-objective search means searching for any one of several objectives in an unstructured database. Grover's algorithm has quadratic acceleration in multi-objection search than classical ones. Iterated operator in Grover's algorithm is a key element and plays an important role in amplitude amplification. In this paper, we design two distributed iterated operators and therefore two new distributed Grover's algorithms are obtained with the following advantages: (1) Compared to Grover's algorithm and the modified Grover's algorithm by Long, our distributed algorithms require fewer qubits; (2) Compared to the distributed Grover's algorithm proposed by Qiu et al., one of our distributed algorithms is exact. Of course, both our distributed algorithms require quite quantum communication and involve a number of more complicated unitary operators as cost, but there still may have certain advantage of physical realizability in the Noisy Intermediate-Scale Quantum (NISQ) era.
翻訳日:2024-09-10 13:16:17 公開日:2024-09-09
# 歩行者追跡のためのオフライン専門家からのオンライン残留学習

Online Residual Learning from Offline Experts for Pedestrian Tracking ( http://arxiv.org/abs/2409.04069v2 )

ライセンス: Link先を確認
Anastasios Vlachos, Anastasios Tsiamis, Aren Karapetyan, Efe C. Balta, John Lygeros, (参考訳) 本稿では,未知のターゲットをデータから予測する問題について考察する。 オンライン適応とオフライン学習予測を組み合わせたオンライン残留学習(ORL)を提案する。 より低いレベルでは、予測水平線の前後で生成された複数のオフライン予測を用いる。 我々は、再帰的最小二乗アルゴリズムを用いて、真のターゲット状態に関する各残差をオンラインで学習することで、すべてのオフライン予測を増強する。 より高いレベルでは、強化された下位レベルの予測器を専門家として扱い、エキスパートアドバイザフレームワークによる予測を採用する。 我々は適応型ソフトマックス重み付け方式を用いて集合予測を行い、後悔の観点からORLの保証を行う。 我々は,オンライン歩行者軌道予測の設定における性能向上のためにORLを用いている。 スタンフォード大学のDrone Datasetのデータから、ORLは両世界の最高のパフォーマンスを示すことができることを示す。

In this paper, we consider the problem of predicting unknown targets from data. We propose Online Residual Learning (ORL), a method that combines online adaptation with offline-trained predictions. At a lower level, we employ multiple offline predictions generated before or at the beginning of the prediction horizon. We augment every offline prediction by learning their respective residual error concerning the true target state online, using the recursive least squares algorithm. At a higher level, we treat the augmented lower-level predictors as experts, adopting the Prediction with Expert Advice framework. We utilize an adaptive softmax weighting scheme to form an aggregate prediction and provide guarantees for ORL in terms of regret. We employ ORL to boost performance in the setting of online pedestrian trajectory prediction. Based on data from the Stanford Drone Dataset, we show that ORL can demonstrate best-of-both-worlds performance.
翻訳日:2024-09-10 13:16:17 公開日:2024-09-09
# AnyMatch -- 小さな言語モデルとの効率的なゼロショットエンティティマッチング

AnyMatch -- Efficient Zero-Shot Entity Matching with a Small Language Model ( http://arxiv.org/abs/2409.04073v2 )

ライセンス: Link先を確認
Zeyu Zhang, Paul Groth, Iacer Calixto, Sebastian Schelter, (参考訳) エンティティマッチング(EM)は、2つのレコードが同じ現実世界のエンティティを指すかどうかを決定する問題である。 多くのEMアプローチの大きな欠点は、ラベル付き例に依存することである。 したがって、ラベル付きサンプルが見えないターゲットデータセットで利用できないゼロショットエンティティマッチングの難しい設定に焦点を当てる。 近年,大規模言語モデル (LLM) はゼロショットEMに対して有望な結果を示しているが,低スループットと高デプロイメントコストで適用性とスケーラビリティが制限されている。 我々は、転送学習設定で微調整された小さな言語モデルであるAnyMatchでゼロショットEM問題を再検討する。 本稿では,AutoMLフィルタを用いてマッチングする困難なペアを選択し,属性レベルの追加例を生成し,データ内のラベルの不均衡を制御することによって,モデルのための微調整データを生成する新しいデータ選択手法を提案する。 我々は,9つのベンチマークデータセットにおいて,13のベースラインと比較して,予測品質と展開コストを広範囲に評価する。 我々は、AnyMatchは、パラメータサイズが小さいにもかかわらず、競争力のある予測品質を提供しており、F1スコア全体では2番目に高く、数十億のパラメータを持つモデルを使用する他のアプローチよりも優れています。 さらに、AnyMatchの予測品質は、プロプライエタリな1兆パラメータモデルGPT-4による最先端手法MatchGPTの4.4%以内であるが、AnyMatchではパラメータが桁違いに少なく、3,899倍の推論コスト(1000トークンあたりのドル)を必要とする。

Entity matching (EM) is the problem of determining whether two records refer to same real-world entity, which is crucial in data integration, e.g., for product catalogs or address databases. A major drawback of many EM approaches is their dependence on labelled examples. We thus focus on the challenging setting of zero-shot entity matching where no labelled examples are available for an unseen target dataset. Recently, large language models (LLMs) have shown promising results for zero-shot EM, but their low throughput and high deployment cost limit their applicability and scalability. We revisit the zero-shot EM problem with AnyMatch, a small language model fine-tuned in a transfer learning setup. We propose several novel data selection techniques to generate fine-tuning data for our model, e.g., by selecting difficult pairs to match via an AutoML filter, by generating additional attribute-level examples, and by controlling label imbalance in the data. We conduct an extensive evaluation of the prediction quality and deployment cost of our model, in a comparison to thirteen baselines on nine benchmark datasets. We find that AnyMatch provides competitive prediction quality despite its small parameter size: it achieves the second-highest F1 score overall, and outperforms several other approaches that employ models with hundreds of billions of parameters. Furthermore, our approach exhibits major cost benefits: the average prediction quality of AnyMatch is within 4.4% of the state-of-the-art method MatchGPT with the proprietary trillion-parameter model GPT-4, yet AnyMatch requires four orders of magnitude less parameters and incurs a 3,899 times lower inference cost (in dollars per 1,000 tokens).
翻訳日:2024-09-10 13:16:17 公開日:2024-09-09
# 雑音ゲートを持つベイズネットによるインテリジェントチューリングシステム

Intelligent tutoring systems by Bayesian nets with noisy gates ( http://arxiv.org/abs/2409.04102v2 )

ライセンス: Link先を確認
Alessandro Antonucci, Francesca Mangili, Claudio Bonesana, Giorgia Adorni, (参考訳) ベイジアンネットのような直進的なグラフィカルモデルは、純粋に自動で学習者とリアルタイムで対話できるインテリジェントなチューリングシステムを実装するためにしばしば使用される。 このようなモデルに対処する場合、パラメータの数に縛られることは、複数の理由から重要である。 第一に、これらのモデルは一般的に専門家の知識に基づいているため、実践者が採用を妨げている可能性がある。 さらに、モデルパラメータの数は推論の複雑さに影響を与えるが、リアルタイムフィードバックにはクエリの高速な計算が必要である。 我々は、チューリングシステムで使用される基底ベイズネットにおける条件付き確率表のコンパクトなパラメトリゼーションのための不確実性のある論理ゲートを提唱する。 本稿では、モデルパラメータのセマンティクスと、そのようなアプローチをこの領域に適用するために必要な仮定について論じる。 また、計算を高速化する専用の推論スキームも作成する。

Directed graphical models such as Bayesian nets are often used to implement intelligent tutoring systems able to interact in real-time with learners in a purely automatic way. When coping with such models, keeping a bound on the number of parameters might be important for multiple reasons. First, as these models are typically based on expert knowledge, a huge number of parameters to elicit might discourage practitioners from adopting them. Moreover, the number of model parameters affects the complexity of the inferences, while a fast computation of the queries is needed for real-time feedback. We advocate logical gates with uncertainty for a compact parametrization of the conditional probability tables in the underlying Bayesian net used by tutoring systems. We discuss the semantics of the model parameters to elicit and the assumptions required to apply such approach in this domain. We also derive a dedicated inference scheme to speed up computations.
翻訳日:2024-09-10 13:16:17 公開日:2024-09-09
# ダイアグラム形式化による多モード幾何問題解法

Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver ( http://arxiv.org/abs/2409.04214v2 )

ライセンス: Link先を確認
Zeren Zhang, Jo-Ku Cheng, Jingyang Deng, Lu Tian, Jinwen Ma, Ziran Qin, Xiaokai Zhang, Na Zhu, Tuo Leng, (参考訳) 数学的推論は、AIモデル、特に言語信号と視覚信号の両方を必要とする幾何学的問題において、現在も進行中の課題である。 ほとんどのMLLMの視覚エンコーダは自然の場面で訓練されているため、幾何学図の理解に苦慮し、テキストのみを処理するLLMよりも幾何学的問題解決に優れる。 この制限は、幾何学的関係を表現する効果的な方法の欠如によって増幅される。 これらの問題に対処するために、視覚的特徴、幾何学的形式言語、自然言語表現を統合した新しいフレームワークであるダイアグラム形式化拡張幾何問題解法(DFE-GPS)を導入する。 我々は新しい合成データアプローチを提案し、幾何学的構造をよりよく理解するために視覚エンコーダを強化するために、形式的および自然言語のキャプションを付加した大規模な幾何学的データセット、SynthGeo228Kを作成する。 我々のフレームワークは,MLLMの幾何学図処理能力を改善し,フォーマルなgeo7kデータセット上のオープンなタスクに応用範囲を広げる。

Mathematical reasoning remains an ongoing challenge for AI models, especially for geometry problems that require both linguistic and visual signals. As the vision encoders of most MLLMs are trained on natural scenes, they often struggle to understand geometric diagrams, performing no better in geometry problem solving than LLMs that only process text. This limitation is amplified by the lack of effective methods for representing geometric relationships. To address these issues, we introduce the Diagram Formalization Enhanced Geometry Problem Solver (DFE-GPS), a new framework that integrates visual features, geometric formal language, and natural language representations. We propose a novel synthetic data approach and create a large-scale geometric dataset, SynthGeo228K, annotated with both formal and natural language captions, designed to enhance the vision encoder for a better understanding of geometric structures. Our framework improves MLLMs' ability to process geometric diagrams and extends their application to open-ended tasks on the formalgeo7k dataset.
翻訳日:2024-09-10 13:16:17 公開日:2024-09-09
# 平面走査プローブ顕微鏡によるナノスケールでのベクトル磁場イメージング

Planar scanning probe microscopy enables vector magnetic field imaging at the nanoscale ( http://arxiv.org/abs/2409.04252v2 )

ライセンス: Link先を確認
Paul Weinbrenner, Patricia Klar, Christian Giese, Luis Flacke, Manuel Müller, Matthias Althammer, Stephan Geprägs, Rudolf Gross, Friedemann Reinhard, (参考訳) 平面走査型プローブ顕微鏡は,近年,先端型走査型プローブイメージングの新たなアプローチとして注目されている。 磁場に敏感な窒素空洞(NV)中心をドープしたバルクダイヤモンドのような拡張された平面センサーを、平面サンプルのナノスケールの近接でスキャンすることができる。 これまでのところ、この技術は光学近接場顕微鏡に限られており、興味のあるサンプルのナノファブリケーションを必要としている。 ここでは、この技術をNV中心を用いた磁気計測に拡張し、試料側ナノファブリケーションの必要性を除去する修正を提案する。 薄膜磁気異方体における磁気渦の3次元ベクトル磁場を直接撮像し、同じ走査プローブ内で異なる方向のNV中心で繰り返し走査する。 この結果から,同じ走査プローブ内の複数の量子ビットを用いた量子センシングへの扉が開かれた。

Planar scanning probe microscopy is a recently emerging alternative approach to tip-based scanning probe imaging. It can scan an extended planar sensor, such as a polished bulk diamond doped with magnetic-field-sensitive nitrogen-vacancy (NV) centers, in nanometer-scale proximity of a planar sample. So far, this technique has been limited to optical near-field microscopy, and has required nanofabrication of the sample of interest. Here we extend this technique to magnetometry using NV centers, and present a modification that removes the need for sample-side nanofabrication. We harness this new ability to perform a hitherto infeasible measurement - direct imaging of the three-dimensional vector magnetic field of magnetic vortices in a thin film magnetic heterostructure, based on repeated scanning with NV centers with different orientations within the same scanning probe. Our result opens the door to quantum sensing using multiple qubits within the same scanning probe, a prerequisite for the use of entanglement-enhanced and massively parallel schemes.
翻訳日:2024-09-10 13:16:17 公開日:2024-09-09
# AttentionX:分散最適化の観点からの合意の不一致を警告する

AttentionX: Exploiting Consensus Discrepancy In Attention from A Distributed Optimization Perspective ( http://arxiv.org/abs/2409.04275v2 )

ライセンス: Link先を確認
Guoqiang Zhang, Richard Heusdens, (参考訳) 本稿では,分散最適化の観点からのコンセンサス差を利用して,変圧器の標準アテンションを拡張し,アテンションXと呼ぶ。 また, pear-to-pear (P2P) ネットワーク上での分散最適化問題を, 最適化過程で定義された線形エッジ制約によって, 近隣ノードが徐々にコンセンサスに到達し, 反復的に解くために設計されている。 特にPDMMの各イテレーションでは、ネットワークの各ノードがまず近隣から情報収集を行い、次にローカル情報融合を行う。 高レベルの観点からは、$KQ$-softmax-based weighted summation of $V$-representations in Attentionは近隣の情報収集に対応し、一方、トランスフォーマーのフィードフォワードネットワーク(FFN)による特徴処理はローカル情報融合に対応している。 PDMMはラグランジアン乗算器を利用して、線形エッジ制約の残差エラーという形で歴史的コンセンサス差を捉え、アルゴリズムが収束するのに重要な役割を果たす。 PDMMにインスパイアされた我々は、標準注意の出力更新圧縮にコンセンサスの不一致を組み込むために、AttentionXを提案する。 AttentionXにおけるコンセンサスの違いは、$V$-representations と $V$-representions の重み付け和と、それ自身をスケールした$V$-representions との差を指す。 ViTおよびnanoGPTの実験は有望な性能を示した。

In this paper, we extend the standard Attention in transformer by exploiting the consensus discrepancy from a distributed optimization perspective, referred to as AttentionX. It is noted that the primal-dual method of multipliers (PDMM) \cite{Zhang16PDMM} is designed to iteratively solve a broad class of distributed optimization problems over a pear-to-pear (P2P) network, where neighbouring nodes gradually reach consensus as specified by predefined linear edge-constraints in the optimization process. In particular, at each iteration of PDMM, each node in a network first performs information-gathering from neighbours and then performs local information-fusion. From a high-level point of view, the $KQ$-softmax-based weighted summation of $V$-representations in Attention corresponds information-gathering from neighbours while the feature-processing via the feed-forward network (FFN) in transformer corresponds to local information fusion. PDMM exploits the Lagrangian multipliers to capture the historical consensus discrepancy in the form of residual errors of the linear edge-constraints, which plays a crucial role for the algorithm to converge. Inspired by PDMM, we propose AttentionX to incorporate the consensus discrepancy in the output update-expression of the standard Attention. The consensus discrepancy in AttentionX refers to the difference between the weighted summation of $V$-representations and scaled $V$-representions themselves. Experiments on ViT and nanoGPT show promising performance.
翻訳日:2024-09-10 13:16:17 公開日:2024-09-09
# 質問応答型高精細ビデオイベント

Question-Answering Dense Video Events ( http://arxiv.org/abs/2409.04388v2 )

ライセンス: Link先を確認
Hangyu Qin, Junbin Xiao, Angela Yao, (参考訳) MLLM(Multimodal Large Language Models)は,単一イベントビデオの質問応答において優れた性能を示した。 本稿では,長時間にわたる複数の事象を忠実に理解し,原因を解明するためにMLLMに挑戦する。 この研究を容易にするために、DeVE-QA - 10.6Kの長ビデオ上での26Kイベントに関する78Kの質問を含むデータセットを構築した。 次に、DVE-QAにおいて、シングルイベントのQAにおいて優れた既存のMLLMが、よく機能するのに苦労していることをベンチマークし、示す。 改良のために,階層型キャプションモジュール,時間的イベントメモリモジュール,自己整合性チェックモジュールを強調表示した新しい学習自由MLLM手法であるDeViを提案する。 大規模な実験では、DeViは密集した質問に答え、関連するビデオの瞬間をグラウンド化するのに優れていることが示されている。 既存のMLLMと比較して、DeVE-QA と NExT-GQA でそれぞれ G(round)QA の精度が4.1%、G(round)QA が3.7%向上している。

Multimodal Large Language Models (MLLMs) have shown excellent performance in question-answering of single-event videos. In this paper, we present question-answering dense video events, a novel task that requires answering and grounding the dense-event questions in long videos, thus challenging MLLMs to faithfully comprehend and reason about multiple events occurring over extended time periods. To facilitate the study, we construct DeVE-QA - a dataset featuring 78K questions about 26K events on 10.6K long videos. We then benchmark and show that existing MLLMs excelling at single-event QA struggle to perform well in DeVE-QA. For improvement, we propose DeVi, a novel training-free MLLM approach that highlights a hierarchical captioning module, a temporal event memory module, and a self-consistency checking module to respectively detect, contextualize and memorize, and ground dense-events in long videos for question answering. Extensive experiments show that DeVi is superior at answering dense-event questions and grounding relevant video moments. Compared with existing MLLMs, it achieves a remarkable increase of 4.1 percent and 3.7 percent for G(round)QA accuracy on DeVE-QA and NExT-GQA respectively.
翻訳日:2024-09-10 13:16:17 公開日:2024-09-09
# HiSC4D:ウェアラブルIMUとLiDARを用いた大規模空間における人間中心インタラクションと4次元シーンキャプチャ

HiSC4D: Human-centered interaction and 4D Scene Capture in Large-scale Space Using Wearable IMUs and LiDAR ( http://arxiv.org/abs/2409.04398v2 )

ライセンス: Link先を確認
Yudi Dai, Zhiyong Wang, Xiping Lin, Chenglu Wen, Lan Xu, Siqi Shen, Yuexin Ma, Cheng Wang, (参考訳) 室内外の大規模シーン、多様な人間の動き、豊かな人間と人間の相互作用、人間と環境の相互作用を含む動的デジタル世界を正確かつ効率的に作成することを目的とした、新しいヒューマン中心のインタラクションと4Dシーンキャプチャー手法であるHiSC4Dを紹介した。 ボディマウントのIMUとヘッドマウントのLiDARを利用することで、HiSC4Dは外部デバイスやマップを必要とせずに、非拘束空間における自我中心の人間の動きを捉えることができる。 これにより、人間中心のインタラクションや、さまざまな環境での4Dシーンキャプチャの柔軟性とアクセシビリティが向上する。 IMUが人間の空間的制約のないポーズをキャプチャできるが、長期間の使用は困難であり、LiDARはグローバルなローカライゼーションには適しているが、局所的な位置と向きは粗いが、HiSC4Dは、全てのセンサを調和させ、環境の手がかりを活用する共同最適化手法を採用し、大きなシーンで長期のキャプチャーに有望な結果をもたらす。 4つの大きなシーン(200〜5000$m^2$)に8つのシーケンスを含むデータセットを組み,SMPLアノテーションとダイナミックなシーンによる正確な4次元動作の36kフレーム,収穫された人点雲31kフレーム,環境のメッシュを提供する。 バスケットボールジムや商業通りなどの様々なシナリオは、毎日の挨拶や1対1のバスケットボールの試合、ツアーガイドといった挑戦的な人間の動きとともに、HiSC4Dの有効性と一般化能力を示している。 データセットとコードはwww.lidar Humanmotion.net/hisc4dで公開されている。

We introduce HiSC4D, a novel Human-centered interaction and 4D Scene Capture method, aimed at accurately and efficiently creating a dynamic digital world, containing large-scale indoor-outdoor scenes, diverse human motions, rich human-human interactions, and human-environment interactions. By utilizing body-mounted IMUs and a head-mounted LiDAR, HiSC4D can capture egocentric human motions in unconstrained space without the need for external devices and pre-built maps. This affords great flexibility and accessibility for human-centered interaction and 4D scene capturing in various environments. Taking into account that IMUs can capture human spatially unrestricted poses but are prone to drifting for long-period using, and while LiDAR is stable for global localization but rough for local positions and orientations, HiSC4D employs a joint optimization method, harmonizing all sensors and utilizing environment cues, yielding promising results for long-term capture in large scenes. To promote research of egocentric human interaction in large scenes and facilitate downstream tasks, we also present a dataset, containing 8 sequences in 4 large scenes (200 to 5,000 $m^2$), providing 36k frames of accurate 4D human motions with SMPL annotations and dynamic scenes, 31k frames of cropped human point clouds, and scene mesh of the environment. A variety of scenarios, such as the basketball gym and commercial street, alongside challenging human motions, such as daily greeting, one-on-one basketball playing, and tour guiding, demonstrate the effectiveness and the generalization ability of HiSC4D. The dataset and code will be publicated on www.lidarhumanmotion.net/hisc4d available for research purposes.
翻訳日:2024-09-10 13:16:17 公開日:2024-09-09