このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240810となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# トランスフォーマーを用いたソフトボディ運動の定性的シミュレーションのためのニューロアニメーション
Transformer-based Neuro-Animator for Qualitative Simulation of Soft Body Movement ( http://arxiv.org/abs/2408.15258v1 ) ライセンス: Link先を確認 | Somnuk Phon-Amnuaisuk, | (参考訳) 人間の心は、基礎となる物理学を理解することなく、フラッターや風力の下で手を振っている旗のような物理学の法則によって支配される物体の動きを熱心にシミュレートする。
これは、人間の認知が直感的な予測プロセスを用いて物理的事象の展開を予測することを示唆している。
この過程は記憶のリコールによって引き起こされ、質的に可能な精神像が得られるが、現実の物理学では正確にはそうではないかもしれない。
数学的計算に明示的に関与することなく過去の経験から動的事象を定性的に可視化し記述する人間の能力から着想を得た上で,近年のトランスフォーマーアーキテクチャを神経アニメーターモデルとして応用することを検討した。
ビジュアルトランスフォーマーモデルは、前回の動きの情報を \emph{t-n} $\cdots$ \emph{t} time step から指定して、 \emph{t+1} time step におけるフラグの動きを予測するために訓練される。
その結果, 視覚変換器をベースとしたアーキテクチャは, フラッグ動作の時間的埋め込みをうまく学習し, 異なる風力下でのフラッグスイングの合理的な品質シミュレーションを実現することができた。
The human mind effortlessly simulates the movements of objects governed by the laws of physics, such as a fluttering, or a waving flag under wind force, without understanding the underlying physics. This suggests that human cognition can predict the unfolding of physical events using an intuitive prediction process. This process might result from memory recall, yielding a qualitatively believable mental image, though it may not be exactly according to real-world physics. Drawing inspiration from the intriguing human ability to qualitatively visualize and describe dynamic events from past experiences without explicitly engaging in mathematical computations, this paper investigates the application of recent transformer architectures as a neuro-animator model. The visual transformer model is trained to predict flag motions at the \emph{t+1} time step, given information of previous motions from \emph{t-n} $\cdots$ \emph{t} time steps. The results show that the visual transformer-based architecture successfully learns temporal embedding of flag motions and produces reasonable quality simulations of flag waving under different wind forces. | 翻訳日:2024-09-01 16:42:01 公開日:2024-08-10 |
# 人工データ、リアルインサイト:データエコシステムを合成データで拡張する機会とリスクを評価する
Artificial Data, Real Insights: Evaluating Opportunities and Risks of Expanding the Data Ecosystem with Synthetic Data ( http://arxiv.org/abs/2408.15260v1 ) ライセンス: Link先を確認 | Richard Timpone, Yongwei Yang, | (参考訳) Synthetic Dataは新しいものではないが、Generative AIの最近の進歩は、研究ツールボックスを拡張し、新たな機会とリスクを生み出すことへの関心を高めている。
この記事では、Synthetic Dataドメインの全範囲を分類します。
我々は,計算社会科学の進歩と,経験から理論,計算モデルへの進化の要素を統合する科学的発見の第4パラダイムのアイデアを結びつけて,研究エコシステムにおけるその位置について論じる。
さらに、真理、美、正義の枠組みを活用して、情報を用いて価値を加え、洞察を引き出すため、ユースケースによって評価基準がどのように異なるかについて議論する。
さまざまな種類の合成データを整理するフレームワークを構築する上で、生成AIを使用して合成量的および質的なデータセットを作成し、合成人口、専門家システム、調査データ置換、ペルソナボットを含む幅広いスペクトルについて議論する、詳細な例を用いて、機会と課題を説明する。
Synthetic Data is not new, but recent advances in Generative AI have raised interest in expanding the research toolbox, creating new opportunities and risks. This article provides a taxonomy of the full breadth of the Synthetic Data domain. We discuss its place in the research ecosystem by linking the advances in computational social science with the idea of the Fourth Paradigm of scientific discovery that integrates the elements of the evolution from empirical to theoretic to computational models. Further, leveraging the framework of Truth, Beauty, and Justice, we discuss how evaluation criteria vary across use cases as the information is used to add value and draw insights. Building a framework to organize different types of synthetic data, we end by describing the opportunities and challenges with detailed examples of using Generative AI to create synthetic quantitative and qualitative datasets and discuss the broader spectrum including synthetic populations, expert systems, survey data replacement, and personabots. | 翻訳日:2024-09-01 16:42:01 公開日:2024-08-10 |
# Civiverse: オープンソーステキスト・画像モデルによるユーザエンゲージメント分析用データセット
Civiverse: A Dataset for Analyzing User Engagement with Open-Source Text-to-Image Models ( http://arxiv.org/abs/2408.15261v1 ) ライセンス: Link先を確認 | Maria-Teresa De Rosa Palmini, Laura Wagner, Eva Cetinic, | (参考訳) テキスト・ツー・イメージ(TTI)システム、特にオープンソースフレームワークを利用するシステムは、人工知能(AI)生成ビジュアルの生産においてますます普及している。
既存の文献では、生成されたコンテンツのバイアス、知的財産権の懸念、有害なステレオタイプの強化など、TTI技術の様々な問題点を探求しているが、オープンソースTTIフレームワークは、まだ文化的観点から体系的に検討されていない。
この研究は、TTI AI専用のオープンソースプラットフォームであるCitvitAIプラットフォームを分析して、このギャップに対処する。
我々は、何百万もの画像と関連するメタデータを含むCiviverseプロンプトデータセットを紹介する。
生成技術に関連する社会問題に対処するためには,特にテキストプロンプトの意味的特徴を考察することに注力する。
この分析は、ユーザの意図、好み、行動に関する洞察を与え、それによってこれらのモデルのアウトプットを形作る。
本研究は, 意味的コンテンツの均質化に焦点をあてた上で, 明示的コンテンツの生成を優先する傾向を示した。
これらの知見は、誤魔性、有害なステレオタイプ、そしてこれらのモデルにおける視覚文化の統一性について、さらなる研究の必要性を浮き彫りにしている。
Text-to-image (TTI) systems, particularly those utilizing open-source frameworks, have become increasingly prevalent in the production of Artificial Intelligence (AI)-generated visuals. While existing literature has explored various problematic aspects of TTI technologies, such as bias in generated content, intellectual property concerns, and the reinforcement of harmful stereotypes, open-source TTI frameworks have not yet been systematically examined from a cultural perspective. This study addresses this gap by analyzing the CivitAI platform, a leading open-source platform dedicated to TTI AI. We introduce the Civiverse prompt dataset, encompassing millions of images and related metadata. We focus on prompt analysis, specifically examining the semantic characteristics of text prompts, as it is crucial for addressing societal issues related to generative technologies. This analysis provides insights into user intentions, preferences, and behaviors, which in turn shape the outputs of these models. Our findings reveal a predominant preference for generating explicit content, along with a focus on homogenization of semantic content. These insights underscore the need for further research into the perpetuation of misogyny, harmful stereotypes, and the uniformity of visual culture within these models. | 翻訳日:2024-09-01 16:42:01 公開日:2024-08-10 |
# AI駆動ソフトウェア開発におけるイノベーションと倫理のバランスをとる
Balancing Innovation and Ethics in AI-Driven Software Development ( http://arxiv.org/abs/2408.10252v1 ) ライセンス: Link先を確認 | Mohammad Baqar, | (参考訳) 本稿では,GitHub CopilotやChatGPTといったAIツールをソフトウェア開発プロセスに統合することの倫理的意味を批判的に考察する。
コードオーナシップ、バイアス、説明責任、プライバシ、雇用市場への影響の可能性などについて検討する。
これらのAIツールは、生産性と効率の面で大きなメリットを提供する一方で、複雑な倫理的課題も導入している。
この論文は、AIのソフトウェア開発への統合が社会に責任と利益をもたらすことを保証するためには、これらの課題に対処することが不可欠である、と論じている。
This paper critically examines the ethical implications of integrating AI tools like GitHub Copilot and ChatGPT into the software development process. It explores issues such as code ownership, bias, accountability, privacy, and the potential impact on the job market. While these AI tools offer significant benefits in terms of productivity and efficiency, they also introduce complex ethical challenges. The paper argues that addressing these challenges is essential to ensuring that AI's integration into software development is both responsible and beneficial to society | 翻訳日:2024-08-25 14:11:11 公開日:2024-08-10 |
# マイクロバイオームデータ解析のための事前誘導条件拡散モデル
Pretrained-Guided Conditional Diffusion Models for Microbiome Data Analysis ( http://arxiv.org/abs/2408.07709v1 ) ライセンス: Link先を確認 | Xinyuan Shi, Fangfang Zhu, Wenwen Min, | (参考訳) 新たな証拠は、ヒトのがんがヒトのマイクロバイオームと複雑に結びついており、分離不能なつながりを形成していることを示している。
しかし, サンプルサイズが制限され, 収集中のデータ損失が著しいため, 欠落したデータに対処する機械学習手法が提案されている。
これらの手法は、データ計算の精度を高めるために、患者の既知の臨床情報を十分に活用していない。
そこで我々は,マイクロバイオームデータ計算とデノベーションのための新しい訓練済み条件拡散モデルmbVDiTを紹介した。
また、VAEを使用して他の公開マイクロバイオームデータセットを統合し、モデルパフォーマンスを向上させる。
3種類の異なる癌型から得られたマイクロバイオームデータセットの結果,既存手法と比較して,本手法の有効性が示された。
Emerging evidence indicates that human cancers are intricately linked to human microbiomes, forming an inseparable connection. However, due to limited sample sizes and significant data loss during collection for various reasons, some machine learning methods have been proposed to address the issue of missing data. These methods have not fully utilized the known clinical information of patients to enhance the accuracy of data imputation. Therefore, we introduce mbVDiT, a novel pre-trained conditional diffusion model for microbiome data imputation and denoising, which uses the unmasked data and patient metadata as conditional guidance for imputating missing values. It is also uses VAE to integrate the the other public microbiome datasets to enhance model performance. The results on the microbiome datasets from three different cancer types demonstrate the performance of our methods in comparison with existing methods. | 翻訳日:2024-08-16 15:59:30 公開日:2024-08-10 |
# コンカレント・インテリジェンス・チュータリングのための階層的マルチアーマッドバンドと可変難易度問題
Hierarchical Multi-Armed Bandits for the Concurrent Intelligent Tutoring of Concepts and Problems of Varying Difficulty Levels ( http://arxiv.org/abs/2408.07208v1 ) ライセンス: Link先を確認 | Blake Castleman, Uzay Macar, Ansaf Salleb-Aouissi, | (参考訳) 21世紀には遠隔教育が盛んになり、知的な家庭教師制度が興隆した。
特に、マルチアーム・バンディット(MAB)の知的家庭教師は、学生問題推奨のための探検と探検のトレードオフの風景を横断する際、顕著な能力を持っている。
しかし、以前の文献にはオープンソースのMABインテリジェンスチューターが欠如しており、これら教育用MABレコメンデーションシステムの潜在的な応用を阻害している。
本稿では,MABの知的チューリング技術に関する最近の文献を,概念や問題を通じて学生を同時進行させ,理想的な推奨問題障害を判定し,潜時記憶減衰を評価することのできる,オープンソースかつ簡単に展開可能な階層型MABアルゴリズムに組み合わせる。
我々は,500人の学生のシミュレーショングループを用いて,ベイジアン知識追跡を用いて,学生のコンテンツ熟達度を推定するアルゴリズムを評価した。
その結果,本アルゴリズムは難易度に依存しない場合,学生の成功を著しく向上させ,さらに問題分散適応が加わったことにより,この指標が顕著に向上することが示唆された。
Remote education has proliferated in the twenty-first century, yielding rise to intelligent tutoring systems. In particular, research has found multi-armed bandit (MAB) intelligent tutors to have notable abilities in traversing the exploration-exploitation trade-off landscape for student problem recommendations. Prior literature, however, contains a significant lack of open-sourced MAB intelligent tutors, which impedes potential applications of these educational MAB recommendation systems. In this paper, we combine recent literature on MAB intelligent tutoring techniques into an open-sourced and simply deployable hierarchical MAB algorithm, capable of progressing students concurrently through concepts and problems, determining ideal recommended problem difficulties, and assessing latent memory decay. We evaluate our algorithm using simulated groups of 500 students, utilizing Bayesian Knowledge Tracing to estimate students' content mastery. Results suggest that our algorithm, when turned difficulty-agnostic, significantly boosts student success, and that the further addition of problem-difficulty adaptation notably improves this metric. | 翻訳日:2024-08-15 14:35:46 公開日:2024-08-10 |
# FedRobo: 最適な化学噴霧のためのフェデレーション学習型自律型インターロボット
FedRobo: Federated Learning Driven Autonomous Inter Robots Communication For Optimal Chemical Sprays ( http://arxiv.org/abs/2408.06382v1 ) ライセンス: Link先を確認 | Jannatul Ferdaus, Sameera Pisupati, Mahedi Hasan, Sathwick Paladugu, | (参考訳) フェデレートラーニングは、中央集権的なデータ収集に頼ることなく、ロボットが互いの経験から学ぶことを可能にする。
各ロボットは、作物の状態と化学噴霧の有効性のモデルを独立に維持し、艦隊内の他のロボットと定期的に共有する。
通信プロトコルは、作物の状態、天候、その他の重要な要因に関する情報の交換を容易にすることで、化学噴霧の応用を最適化するように設計されている。
連合学習アルゴリズムは、この共有データを利用して、化学噴霧戦略を継続的に洗練し、無駄を減らし、収穫量を改善する。
このアプローチは、作物保護のためのスケーラブルで効率的なソリューションを提供することによって、農業産業に革命をもたらす可能性がある。
しかし、セキュアで堅牢な通信プロトコルの開発、複数のソースからのデータを効果的に統合するフェデレーション学習アルゴリズムの設計、自律ロボットの安全性と信頼性の確保など、大きな課題が残っている。
クラスタベースのフェデレーション学習アプローチは,グローバルサーバの計算負荷を効果的に低減し,クライアント間の通信オーバーヘッドを最小限にする。
Federated Learning enables robots to learn from each other's experiences without relying on centralized data collection. Each robot independently maintains a model of crop conditions and chemical spray effectiveness, which is periodically shared with other robots in the fleet. A communication protocol is designed to optimize chemical spray applications by facilitating the exchange of information about crop conditions, weather, and other critical factors. The federated learning algorithm leverages this shared data to continuously refine the chemical spray strategy, reducing waste and improving crop yields. This approach has the potential to revolutionize the agriculture industry by offering a scalable and efficient solution for crop protection. However, significant challenges remain, including the development of a secure and robust communication protocol, the design of a federated learning algorithm that effectively integrates data from multiple sources, and ensuring the safety and reliability of autonomous robots. The proposed cluster-based federated learning approach also effectively reduces the computational load on the global server and minimizes communication overhead among clients. | 翻訳日:2024-08-14 19:48:49 公開日:2024-08-10 |
# 学習可能な空間による拡張畳み込み
Dilated Convolution with Learnable Spacings ( http://arxiv.org/abs/2408.06383v1 ) ライセンス: Link先を確認 | Ismail Khalfaoui-Hassani, | (参考訳) この論文は、Dilated Convolution with Learnable Spacings (DCLS)法を提示し、評価する。
コンピュータビジョン、音声、音声処理の分野における様々な教師あり学習実験を通じて、DCLS法は、標準および高度な畳み込み技術よりも優れていることを証明した。
この研究は、DCLS法の開発に先立つ文献と既存の畳み込み技術の分析から始まり、いくつかの段階に分けられる。
特に私たちは,我々のアプローチのニュアンスや独自性を捉える上で,私たち自身と密接な関係を持つ手法に関心を持っていました。
我々の研究の要点は、畳み込みニューラルネットワーク(CNN)と、畳み込みと視覚的注意の両方に依存するハイブリッドアーキテクチャへのDCLS法の導入と適用である。
DCLSは、分類、セマンティックセグメンテーション、オブジェクト検出といったタスクに特に有効であることが示されている。
当初は双線型補間法を用いていたが、この研究では他の補間法も検討し、ガウス補間が性能をわずかに改善することを発見した。
DCLS法はさらに、スパイクニューラルネットワーク(SNN)にも適用され、ニューラルネットワーク内でシナプス遅延学習を可能にし、最終的にはいわゆるニューロモルフィックチップに転送される。
以上の結果から,DCLS法はSNN音声分類における新たな最先端技術として注目されている。
これらのタスクは、高テンポラルなコンポーネントを持つデータセットを含む。
さらに,マルチラベル音声分類タスクにおいて,DCLSが人工知能ニューラルネットワークの精度を大幅に向上できることを示す。
我々は,選択した実験装置,その限界,方法の限界,その結果について論じる。
This thesis presents and evaluates the Dilated Convolution with Learnable Spacings (DCLS) method. Through various supervised learning experiments in the fields of computer vision, audio, and speech processing, the DCLS method proves to outperform both standard and advanced convolution techniques. The research is organized into several steps, starting with an analysis of the literature and existing convolution techniques that preceded the development of the DCLS method. We were particularly interested in the methods that are closely related to our own and that remain essential to capture the nuances and uniqueness of our approach. The cornerstone of our study is the introduction and application of the DCLS method to convolutional neural networks (CNNs), as well as to hybrid architectures that rely on both convolutional and visual attention approaches. DCLS is shown to be particularly effective in tasks such as classification, semantic segmentation, and object detection. Initially using bilinear interpolation, the study also explores other interpolation methods, finding that Gaussian interpolation slightly improves performance. The DCLS method is further applied to spiking neural networks (SNNs) to enable synaptic delay learning within a neural network that could eventually be transferred to so-called neuromorphic chips. The results show that the DCLS method stands out as a new state-of-the-art technique in SNN audio classification for certain benchmark tasks in this field. These tasks involve datasets with a high temporal component. In addition, we show that DCLS can significantly improve the accuracy of artificial neural networks for the multi-label audio classification task. We conclude with a discussion of the chosen experimental setup, its limitations, the limitations of our method, and our results. | 翻訳日:2024-08-14 19:48:49 公開日:2024-08-10 |
# ViC:Virtual Compilerは、アセンブリーコード検索に必要なもの
ViC: Virtual Compiler Is All You Need For Assembly Code Search ( http://arxiv.org/abs/2408.06385v1 ) ライセンス: Link先を確認 | Zeyu Gao, Hao Wang, Yuanda Wang, Chao Zhang, | (参考訳) アセンブリコード検索は、リバースエンジニアの負担を軽減するために不可欠である。
その重要性にもかかわらず、この重要なタスクは、高品質なデータセットの構築に関わる複雑さによって妨げられている。
本稿では,汎用コンパイラをエミュレートするLarge Language Model(LLM)のトレーニングについて検討する。
Ubuntuパッケージを活用して200億のトークンのデータセットをコンパイルすることで、任意の言語のソースコードをアセンブリコードにコンパイル可能な、Virtual Compiler(ViC)としてのCodeLlamaの事前トレーニングをさらに継続します。
このアプローチにより、実際のコンパイラを必要とせずに、さまざまなプログラミング言語で仮想コンパイルが可能となり、セマンティックな等価性を保ち、アセンブリコードデータセット構築の可能性を広げることができます。
さらに,ViCを用いて,アセンブリコード検索のための十分な大規模なデータセットを構築する。
この広範なデータセットを利用することで、アセンブリコード検索のパフォーマンスが大幅に向上し、私たちのモデルはベースラインを26%上回っています。
Assembly code search is vital for reducing the burden on reverse engineers, allowing them to quickly identify specific functions using natural language within vast binary programs. Despite its significance, this critical task is impeded by the complexities involved in building high-quality datasets. This paper explores training a Large Language Model (LLM) to emulate a general compiler. By leveraging Ubuntu packages to compile a dataset of 20 billion tokens, we further continue pre-train CodeLlama as a Virtual Compiler (ViC), capable of compiling any source code of any language to assembly code. This approach allows for virtual compilation across a wide range of programming languages without the need for a real compiler, preserving semantic equivalency and expanding the possibilities for assembly code dataset construction. Furthermore, we use ViC to construct a sufficiently large dataset for assembly code search. Employing this extensive dataset, we achieve a substantial improvement in assembly code search performance, with our model surpassing the leading baseline by 26%. | 翻訳日:2024-08-14 19:48:49 公開日:2024-08-10 |
# モンテカルロから境界値問題のニューラルネットワーク近似へ
From Monte Carlo to neural networks approximations of boundary value problems ( http://arxiv.org/abs/2209.01432v3 ) ライセンス: Link先を確認 | Lucian Beznea, Iulian Cimpean, Oana Lupascu-Stamate, Ionel Popescu, Arghir Zarnescu, | (参考訳) 本稿では,ポアソン方程式の一般有界領域におけるホルダーデータに対する解の確率的およびニューラルネットワーク近似について検討する。
私たちは2つの基本的な目標を目指しています。
一つ目は、ポアソン方程式の解はモンテカルロ法によって超ノルムで数値的に近似できること、また、ウォーク・オン・スフィアズ・アルゴリズムの修正版を加速法として用いた場合、これを効率的に行うことができることである。
これにより、所定の近似誤差と、誤差の次元および逆数における多項式の複雑さに対して効率的な推定値が得られる。
重要な特徴は、サンプルの総数は近似が実行される点に依存しないことである。
第二の目的として、得られたモンテカルロ解法はポアソン問題に対して建設的な方法でReLUディープニューラルネットワーク(DNN)解を描画し、そのサイズは次元$d$と所望の誤差のほとんどの多項式に依存することを示した。
実際、ランダムDNNは、その次元における小さな近似誤差と低い多項式複雑性を高い確率で提供することを示す。
In this paper we study probabilistic and neural network approximations for solutions to Poisson equation subject to Holder data in general bounded domains of $\mathbb{R}^d$. We aim at two fundamental goals. The first, and the most important, we show that the solution to Poisson equation can be numerically approximated in the sup-norm by Monte Carlo methods, and that this can be done highly efficiently if we use a modified version of the walk on spheres algorithm as an acceleration method. This provides estimates which are efficient with respect to the prescribed approximation error and with polynomial complexity in the dimension and the reciprocal of the error. A crucial feature is that the overall number of samples does not not depend on the point at which the approximation is performed. As a second goal, we show that the obtained Monte Carlo solver renders in a constructive way ReLU deep neural network (DNN) solutions to Poisson problem, whose sizes depend at most polynomialy in the dimension $d$ and in the desired error. In fact we show that the random DNN provides with high probability a small approximation error and low polynomial complexity in the dimension. | 翻訳日:2024-08-14 01:29:38 公開日:2024-08-10 |
# 連続状態と行動空間における強化学習の幾何学について
On the Geometry of Reinforcement Learning in Continuous State and Action Spaces ( http://arxiv.org/abs/2301.00009v2 ) ライセンス: Link先を確認 | Saket Tiwari, Omer Gottesman, George Konidaris, | (参考訳) 強化学習の進歩は、連続した状態と行動空間を持つ複雑なタスクに成功している。
実際にはこれらの進歩にもかかわらず、ほとんどの理論的な研究は有限状態と作用空間に関係している。
幾何レンズを用いて連続状態と行動空間の理論的理解を構築することを提案する。
我々の研究の中心は、遷移力学が高次元名目状態空間に埋め込まれた到達可能な状態の低次元多様体を誘導するという考えである。
我々は、ある条件下では、この多様体の次元性は、作用空間の次元性プラス 1 であることを示す。
これは、状態空間の幾何学と作用空間の次元を結びつける、この種の最初の結果である。
この上限を4つのMuJoCo環境に対して実証的に相関付けします。
この低次元表現でポリシーを学習することで、結果の適用性をさらに実証する。
そこで我々は,DDPGを用いたポリシーに則って,低次元表現へのマッピングを,ディープニューラルネットワークの狭い隠蔽層として学習するアルゴリズムを導入する。
実験の結果,4つの MuJoCo コントロールスイートタスクに対して,この方法で学習したポリシが同等以上のパフォーマンスを示すことがわかった。
Advances in reinforcement learning have led to its successful application in complex tasks with continuous state and action spaces. Despite these advances in practice, most theoretical work pertains to finite state and action spaces. We propose building a theoretical understanding of continuous state and action spaces by employing a geometric lens. Central to our work is the idea that the transition dynamics induce a low dimensional manifold of reachable states embedded in the high-dimensional nominal state space. We prove that, under certain conditions, the dimensionality of this manifold is at most the dimensionality of the action space plus one. This is the first result of its kind, linking the geometry of the state space to the dimensionality of the action space. We empirically corroborate this upper bound for four MuJoCo environments. We further demonstrate the applicability of our result by learning a policy in this low dimensional representation. To do so we introduce an algorithm that learns a mapping to a low dimensional representation, as a narrow hidden layer of a deep neural network, in tandem with the policy using DDPG. Our experiments show that a policy learnt this way perform on par or better for four MuJoCo control suite tasks. | 翻訳日:2024-08-14 01:29:38 公開日:2024-08-10 |
# 個別タスク型を用いたクラウドソーシングのためのスペクトルクラスタリング
Spectral Clustering for Crowdsourcing with Inherently Distinct Task Types ( http://arxiv.org/abs/2302.07393v2 ) ライセンス: Link先を確認 | Saptarshi Mandal, Seo Taek Kong, Dimitrios Katselis, R. Srikant, | (参考訳) Dawid-Skeneモデル(英語版)は、ノイズの多い労働者の反応から地道ラベルを推定するクラウドソーシングアルゴリズムの分析において、最も広く想定されているモデルである。
本研究は,作業者が異なるスキルセットを持ち,その正確さがタスクの種類に依存する,クラウドソーシングアプリケーションによって動機付けられている。
重み付き多数決(WMV)は,各作業者毎の1重みベクトルで,ダウィド・スケンモデルにおいて最適なラベル推定誤差を達成するが,多型モデルでは異なる種類の重みを求める必要があることを示す。
本稿では,2種類のタスクが存在する場合に着目し,タスクを2つのグループに分割するスペクトル法を提案する。
我々の分析によると、ワーカー数$n$がタスク数$d$と対数的にスケールすれば、タスクタイプは完全に復元できる。
Dawid-Skeneモデル用に設計された任意のアルゴリズムは、ラベルを推測するためにそれぞれのタイプに独立して適用することができる。
数値実験により,地平線ラベル推定前のクラスタリングタスクが,実践的応用におけるクラウドソーシングアルゴリズムの性能を高めることを示す。
The Dawid-Skene model is the most widely assumed model in the analysis of crowdsourcing algorithms that estimate ground-truth labels from noisy worker responses. In this work, we are motivated by crowdsourcing applications where workers have distinct skill sets and their accuracy additionally depends on a task's type. While weighted majority vote (WMV) with a single weight vector for each worker achieves the optimal label estimation error in the Dawid-Skene model, we show that different weights for different types are necessary for a multi-type model. Focusing on the case where there are two types of tasks, we propose a spectral method to partition tasks into two groups that cluster tasks by type. Our analysis reveals that task types can be perfectly recovered if the number of workers $n$ scales logarithmically with the number of tasks $d$. Any algorithm designed for the Dawid-Skene model can then be applied independently to each type to infer the labels. Numerical experiments show how clustering tasks by type before estimating ground-truth labels enhances the performance of crowdsourcing algorithms in practical applications. | 翻訳日:2024-08-14 01:18:23 公開日:2024-08-10 |
# ニアリニア・クアドラティック・レギュレータのグローバル最適政策への政策勾配の収束
Policy Gradient Converges to the Globally Optimal Policy for Nearly Linear-Quadratic Regulators ( http://arxiv.org/abs/2303.08431v4 ) ライセンス: Link先を確認 | Yinbin Han, Meisam Razaviyayn, Renyuan Xu, | (参考訳) 意思決定者への部分的な情報を持つ非線形制御系は、様々な応用で広く使われている。
このような非線形システムの研究の一歩として, ほぼ線形2次制御系における最適政策を見つけるための強化学習手法について検討する。
特に,線形成分と非線形成分を組み合わせた動的システムを考える。
非線形成分が小さなリプシッツ係数を持つカーネルからなると仮定すると、コスト関数の最適化景観を特徴づける。
コスト関数は一般に非凸であるが、大域最適化器の近傍で局所的な強い凸性と滑らか性を確立する。
さらに,これらの特性を利用する初期化機構を提案する。
開発を基盤として,線形レートで世界的最適政策に収束することが保証される政策勾配アルゴリズムを設計する。
Nonlinear control systems with partial information to the decision maker are prevalent in a variety of applications. As a step toward studying such nonlinear systems, this work explores reinforcement learning methods for finding the optimal policy in the nearly linear-quadratic regulator systems. In particular, we consider a dynamic system that combines linear and nonlinear components, and is governed by a policy with the same structure. Assuming that the nonlinear component comprises kernels with small Lipschitz coefficients, we characterize the optimization landscape of the cost function. Although the cost function is nonconvex in general, we establish the local strong convexity and smoothness in the vicinity of the global optimizer. Additionally, we propose an initialization mechanism to leverage these properties. Building on the developments, we design a policy gradient algorithm that is guaranteed to converge to the globally optimal policy with a linear rate. | 翻訳日:2024-08-14 01:18:23 公開日:2024-08-10 |
# ボソニックデバイス上でのコンパイル動作に対するハミルトニアンシミュレーション手法の活用
Leveraging Hamiltonian Simulation Techniques to Compile Operations on Bosonic Devices ( http://arxiv.org/abs/2303.15542v2 ) ライセンス: Link先を確認 | Christopher Kang, Micheline B. Soley, Eleanor Crane, S. M. Girvin, Nathan Wiebe, | (参考訳) 回路QEDは、キュービットと発振器モードの組み合わせを可能にする。
様々な利用可能なゲート集合にもかかわらず、多くのハイブリッド・クビット・ボソン(発振器)演算は、しばしば難解で解釈不能な最適制御理論(OCT)を通してのみ実現可能である。
ハミルトンのシミュレーション、リー・トロッターとベーカー・カンプベル=ハウスドルフの積公式でよく用いられる2つの行列積公式、例えば、消滅多項式や生成演算子、例えば$a^p {a^\dagger}^q$ for integer $p, q。
本研究は、ハイブリットボソン量子ビットデバイスをよりよく制御するために、ハミルトンシミュレーションの手法を適用する方法を示す。
Circuit QED enables the combined use of qubits and oscillator modes. Despite a variety of available gate sets, many hybrid qubit-boson (i.e., oscillator) operations are realizable only through optimal control theory (OCT) which is oftentimes intractable and uninterpretable. We introduce an analytic approach with rigorously proven error bounds for realizing specific classes of operations via two matrix product formulas commonly used in Hamiltonian simulation, the Lie--Trotter and Baker--Campbell--Hausdorff product formulas. We show how this technique can be used to realize a number of operations of interest, including polynomials of annihilation and creation operators, i.e., $a^p {a^\dagger}^q$ for integer $p, q$. We show examples of this paradigm including: obtaining universal control within a subspace of the entire Fock space of an oscillator, state preparation of a fixed photon number in the cavity, simulation of the Jaynes--Cummings Hamiltonian, simulation of the Hong-Ou-Mandel effect and more. This work demonstrates how techniques from Hamiltonian simulation can be applied to better control hybrid boson-qubit devices. | 翻訳日:2024-08-14 01:18:22 公開日:2024-08-10 |
# 大規模言語モデルによるニュースソースの信頼性評価の精度と政治的バイアス
Accuracy and Political Bias of News Source Credibility Ratings by Large Language Models ( http://arxiv.org/abs/2304.00228v2 ) ライセンス: Link先を確認 | Kai-Cheng Yang, Filippo Menczer, | (参考訳) 検索エンジンはますます大きな言語モデル(LLM)を活用して直接的な回答を生成するようになり、AIチャットボットは新鮮なデータのためにインターネットにアクセスするようになった。
数十億のユーザのための情報キュレーターとして、LLMは異なるソースの正確性と信頼性を評価する必要がある。
本稿は,OpenAI,Google,Metaの3大プロバイダから広く使用されている8つのLCMを監査し,信頼性と高品質な情報ソースを低信頼性のプロバイダから識別する能力を評価する。
LLMは、ほとんどのテストされたニュースメディアを評価できるが、より大規模なモデルは、情報不足のために評価の提供を拒否する傾向にあるのに対し、より小さなモデルは、その評価において幻覚を起こす傾向にある。
評価が提供される資料では、LLMは彼らの間で高いレベルの合意(平均的スピアマンの$\rho = 0.81$)を示すが、その評価は人間の専門家による評価(平均的$\rho = 0.59$)と適度に一致している。
米国内で異なる政治的傾向を持つニュースソースを分析し、デフォルト設定で全てのLCMが獲得する信頼性評価のリベラルな偏見を観察する。
加えて、LDMに党派的アイデンティティを割り当てることは、評価において政治的に矛盾する強いバイアスをもたらす。
これらの知見は、ニュースや政治情報の収集にLLMを使うことに重要な意味を持つ。
Search engines increasingly leverage large language models (LLMs) to generate direct answers, and AI chatbots now access the Internet for fresh data. As information curators for billions of users, LLMs must assess the accuracy and reliability of different sources. This paper audits eight widely used LLMs from three major providers -- OpenAI, Google, and Meta -- to evaluate their ability to discern credible and high-quality information sources from low-credibility ones. We find that while LLMs can rate most tested news outlets, larger models more frequently refuse to provide ratings due to insufficient information, whereas smaller models are more prone to hallucination in their ratings. For sources where ratings are provided, LLMs exhibit a high level of agreement among themselves (average Spearman's $\rho = 0.81$), but their ratings align only moderately with human expert evaluations (average $\rho = 0.59$). Analyzing news sources with different political leanings in the US, we observe a liberal bias in credibility ratings yielded by all LLMs in default configurations. Additionally, assigning partisan identities to LLMs consistently results in strong politically congruent bias in the ratings. These findings have important implications for the use of LLMs in curating news and political information. | 翻訳日:2024-08-14 01:18:22 公開日:2024-08-10 |
# 相対論的量子力学の新しい時空間アプローチによる量子計測の謎の解明
Unraveling the Mystery of Quantum Measurement with A New Space-Time Approach to Relativistic Quantum Mechanics ( http://arxiv.org/abs/2306.01026v2 ) ライセンス: Link先を確認 | Wei Wen, | (参考訳) 量子測定は量子力学の分野における基本的な概念である。
量子測定の作用により、測定された量子系の重ね合わせ状態は、量子力学と古典力学の矛盾を和らげるだけでなく、読み出しやリセットを含む量子状態操作を促進する。
その重要性にもかかわらず、ランダム性、即時性、不可逆性、好ましくない基底の4つの基本的な問題は、量子計測のより広範な応用と量子力学の全体的な理解に重大な課題を呈し続けている。
本研究では、これらの問題に体系的に対処するために、相対論的量子力学に新しい時空アプローチを用いる。
我々のアプローチは、量子測定と量子ユニタリ進化の間の複雑な関係の包括的解明と、非局所相関と相対論的理論の相互依存性の詳細な分析を提供する。
これにより、量子力学の伝統的な時間進化方程式を超えて、より基本的な力学理論が明らかとなり、量子測定の公理は当然、コローナリーとして現れる。
これらの知見は関連分野の発展に寄与し、我々の研究は量子力学の領域における将来の研究や応用に潜在的に影響を及ぼす可能性がある。
Quantum measurement is a fundamental concept in the field of quantum mechanics. The action of quantum measurement, leading the superposition state of the measured quantum system into a definite output state, not only reconciles contradictions between quantum and classical mechanics but also facilitates quantum state manipulations, including reading and resetting. Despite its significance, four fundamental issues -- randomness, instantaneousness, irreversibility, and preferred-basis -- continue to pose significant challenges to the broader application of quantum measurement and our overall understanding of quantum mechanics. In this work, we employ a new space-time approach to relativistic quantum mechanics to address these issues systematically. Our approach provides a comprehensive elucidation of the intricate connections between quantum measurement and quantum unitary evolution, as well as an in-depth analysis for the interdependence of non-local correlations and relativistic theories. We thereby reveal a more fundamental dynamical theory, beyond the traditional time-evolution equation in quantum mechanics, where the axioms of quantum measurement naturally emerge as a corollary. These findings contribute to the advancement of related fields, and our work holds potential implications for future research and applications in the realm of quantum mechanics. | 翻訳日:2024-08-14 01:08:32 公開日:2024-08-10 |
# 大規模で複雑でリアルな安全衣服とヘルメット検出:データセットと方法
Large, Complex, and Realistic Safety Clothing and Helmet Detection: Dataset and Method ( http://arxiv.org/abs/2306.02098v2 ) ライセンス: Link先を確認 | Fusheng Yu, Jiang Li, Xiaoping Wang, Shaojin Wu, Junjie Zhang, Zhigang Zeng, | (参考訳) 安全服やヘルメットの検出は、建設作業員の安全を確保するための最重要課題である。
しかし、この領域におけるディープラーニングモデルの開発は、高品質なデータセットの不足によって妨げられている。
本研究では,大型で複雑で現実的な安全衣服とヘルメット検出データセットを構築した。
SFCHDは、12,373のイメージ、7のカテゴリ、50,552のアノテーションからなる2つの真正化学プラントに由来する。
SFCHDデータセットを4:1の比率でトレーニングとテストセットに分割し、いくつかの古典的オブジェクト検出アルゴリズムを適用してその有用性を検証する。
さらに,空間的およびチャネル的アテンション機構からインスピレーションを得て,空間的およびチャネル的アテンションに基づく低照度化(SCALE)モジュールを設計する。
SCALEは、高い柔軟性を持つプラグイン・アンド・プレイコンポーネントです。
ExDarkとSFCHDの両方のデータセットにおけるSCALEモジュールの広範囲な評価は、低照度条件下での検出器の性能向上において、その効果を実証的に実証している。
データセットとコードはhttps://github.com/lijfrank-open/SFCHD-SCALEで公開されている。
Detecting safety clothing and helmets is paramount for ensuring the safety of construction workers. However, the development of deep learning models in this domain has been impeded by the scarcity of high-quality datasets. In this study, we construct a large, complex, and realistic safety clothing and helmet detection (SFCHD) dataset. SFCHD is derived from two authentic chemical plants, comprising 12,373 images, 7 categories, and 50,552 annotations. We partition the SFCHD dataset into training and testing sets with a ratio of 4:1 and validate its utility by applying several classic object detection algorithms. Furthermore, drawing inspiration from spatial and channel attention mechanisms, we design a spatial and channel attention-based low-light enhancement (SCALE) module. SCALE is a plug-and-play component with a high degree of flexibility. Extensive evaluations of the SCALE module on both the ExDark and SFCHD datasets have empirically demonstrated its efficacy in enhancing the performance of detectors under low-light conditions. The dataset and code are publicly available at https://github.com/lijfrank-open/SFCHD-SCALE. | 翻訳日:2024-08-14 01:08:32 公開日:2024-08-10 |
# センサを用いた個人健康モニタリングシステムにおけるセマンティックWeb技術:システマティックマッピングによる研究
Semantic web technologies in sensor-based personal health monitoring systems: A systematic mapping study ( http://arxiv.org/abs/2306.04335v2 ) ライセンス: Link先を確認 | Mbithe Nzomo, Deshendran Moodley, | (参考訳) 近年、病気の早期発見、予防、予測に注目が集まっている。
これにより、センサ技術やモノのインターネットの進歩とともに、パーソナルヘルスモニタリングシステムの開発への取り組みが加速された。
本研究では,センサを用いた個人健康モニタリングシステムにおけるセマンティックWeb技術の利用状況について分析する。
体系的なアプローチでは、43のシステムが現在の最先端のシステムとして選択される。
我々は、インターオペラビリティ、コンテキスト認識、状況検出、状況予測、意思決定支援、説明可能性、不確実性処理の7つの主要な課題に対して、選択されたシステムが対処する範囲を批判的に分析する。
本稿では,各課題の管理におけるセマンティックWeb技術の役割と限界について論じる。
次に、使用するデータと装置、システムとコンポーネントの開発、評価の厳格さ、研究成果のアクセシビリティに基づいて、選択したシステムの品質評価を行う。
最後に,新しいシステムの設計と開発のためのガイダンスを提供する参照アーキテクチャを提案する。
本研究は、この分野の総合的なマッピングを提供し、最先端における不確実性を特定し、今後の研究に推奨するものである。
In recent years, there has been an increased focus on early detection, prevention, and prediction of diseases. This, together with advances in sensor technology and the Internet of Things, has led to accelerated efforts in the development of personal health monitoring systems. This study analyses the state of the art in the use of Semantic Web technologies in sensor-based personal health monitoring systems. Using a systematic approach, a total of 43 systems are selected as representative of the current state of the art. We critically analyse the extent to which the selected systems address seven key challenges: interoperability, context awareness, situation detection, situation prediction, decision support, explainability, and uncertainty handling. We discuss the role and limitations of Semantic Web technologies in managing each challenge. We then conduct a quality assessment of the selected systems based on the data and devices used, system and components development, rigour of evaluation, and accessibility of research outputs. Finally, we propose a reference architecture to provide guidance for the design and development of new systems. This study provides a comprehensive mapping of the field, identifies inadequacies in the state of the art, and provides recommendations for future research. | 翻訳日:2024-08-14 01:08:32 公開日:2024-08-10 |
# 有限表現法による高次元圧縮器問題の解法
A Finite Expression Method for Solving High-Dimensional Committor Problems ( http://arxiv.org/abs/2306.12268v2 ) ライセンス: Link先を確認 | Zezheng Song, Maria K. Cameron, Haizhao Yang, | (参考訳) 遷移経路理論 (TPT) は、選択された準安定状態のペア$A$と$B$の間の稀な遷移事象を定量化する数学的枠組みである。
TPTの中心はコミッタ関数であり、位相空間の任意の開始点から$A$の前に準安定状態$B$を打つ確率を記述する。
コミッタが計算されると、トランジッションチャネルとトランジッションレートが簡単に見つかる。
コミッタは、適切な境界条件を持つ後方コルモゴロフ方程式の解である。
しかし、それを解くことは、周囲空間の全体領域を網羅する必要があるため、高次元において難しい課題である。
本研究では,有限表現法 (FEX, Liang, Yang, 2022) をコミッタの計算ツールとして検討する。
FEXは、有限個の非線形関数と二進算術演算を含む代数式でコミッタを近似する。
表現テンプレートの最適非線形関数、二項演算、数値係数は、強化学習によって検出される。
FEXベースのコミッタソルバは、いくつかの高次元ベンチマーク問題でテストされる。
ニューラルネットワークベースの解法よりも、同等か良い結果が得られる。
最も重要なことは、FEXが解の代数的構造を正確に識別し、コミッタ問題を低次元のものに還元し、任意の精度でコミッタを見つけることができることである。
Transition path theory (TPT) is a mathematical framework for quantifying rare transition events between a pair of selected metastable states $A$ and $B$. Central to TPT is the committor function, which describes the probability to hit the metastable state $B$ prior to $A$ from any given starting point of the phase space. Once the committor is computed, the transition channels and the transition rate can be readily found. The committor is the solution to the backward Kolmogorov equation with appropriate boundary conditions. However, solving it is a challenging task in high dimensions due to the need to mesh a whole region of the ambient space. In this work, we explore the finite expression method (FEX, Liang and Yang (2022)) as a tool for computing the committor. FEX approximates the committor by an algebraic expression involving a fixed finite number of nonlinear functions and binary arithmetic operations. The optimal nonlinear functions, the binary operations, and the numerical coefficients in the expression template are found via reinforcement learning. The FEX-based committor solver is tested on several high-dimensional benchmark problems. It gives comparable or better results than neural network-based solvers. Most importantly, FEX is capable of correctly identifying the algebraic structure of the solution which allows one to reduce the committor problem to a low-dimensional one and find the committor with any desired accuracy. | 翻訳日:2024-08-14 01:08:32 公開日:2024-08-10 |
# モロー・吉田変量輸送:正規分布最適化問題の解法のための一般的な枠組み
Moreau-Yoshida Variational Transport: A General Framework For Solving Regularized Distributional Optimization Problems ( http://arxiv.org/abs/2307.16358v2 ) ライセンス: Link先を確認 | Dai Hai Nguyen, Tetsuya Sakurai, | (参考訳) 確率分布のクラス上で定義された複合目的関数を最小化する一般的な最適化問題を考える。
目的は2つの汎函数からなる: 1つは変分表現を持ち、もう1つは非滑らか凸正則化関数の期待作用素の項で表される。
このような正規化された分布最適化問題は、正規化された推定と生成のために、近位モンテカルロサンプリング、ベイズ推定、生成モデルなど、機械学習や統計学に広く現れる。
本稿では,正規分布最適化問題の解法として,モロー・吉田変分輸送(MYVT)と呼ばれる新しい手法を提案する。
まず,本手法ではモロー・吉田エンベロープを用いて非平滑関数のスムーズな近似を行う。
第2に、変動表現を利用して凹凸サドル点問題として近似問題を再構成し、そのサドル点を近似する効率的な原始双対アルゴリズムを開発する。
さらに,提案手法の有効性を実証するために,理論的解析と実験結果の報告を行う。
We consider a general optimization problem of minimizing a composite objective functional defined over a class of probability distributions. The objective is composed of two functionals: one is assumed to possess the variational representation and the other is expressed in terms of the expectation operator of a possibly nonsmooth convex regularizer function. Such a regularized distributional optimization problem widely appears in machine learning and statistics, such as proximal Monte-Carlo sampling, Bayesian inference and generative modeling, for regularized estimation and generation. We propose a novel method, dubbed as Moreau-Yoshida Variational Transport (MYVT), for solving the regularized distributional optimization problem. First, as the name suggests, our method employs the Moreau-Yoshida envelope for a smooth approximation of the nonsmooth function in the objective. Second, we reformulate the approximate problem as a concave-convex saddle point problem by leveraging the variational representation, and then develope an efficient primal-dual algorithm to approximate the saddle point. Furthermore, we provide theoretical analyses and report experimental results to demonstrate the effectiveness of the proposed method. | 翻訳日:2024-08-14 00:58:29 公開日:2024-08-10 |
# TinyLVLM-eHub:大規模視覚言語モデルの包括的かつ効率的な評価を目指して
TinyLVLM-eHub: Towards Comprehensive and Efficient Evaluation for Large Vision-Language Models ( http://arxiv.org/abs/2308.03729v2 ) ライセンス: Link先を確認 | Wenqi Shao, Meng Lei, Yutao Hu, Peng Gao, Kaipeng Zhang, Fanqing Meng, Peng Xu, Siyuan Huang, Hongsheng Li, Yu Qiao, Ping Luo, | (参考訳) LVLM(Large Vision-Language Models)の最近の進歩は、複雑なマルチモーダルタスクに対処する上で大きな進歩を見せている。
これら最先端の開発の中で、GoogleのBardは目覚ましいマルチモーダル機能で、包括的な理解とさまざまなドメインでの推論を促進している。
この研究は、Tiny LVLM-eHubという名前の軽量なLVLM-eHubを提案し、特にBardに焦点を当てた、LVLMのマルチモーダル能力の早期かつ総合的な評価を提示する。
バニラ版と比較して、Tiny LVLM-eHubはいくつかの魅力的な特性を持っている。
まず、標準的なテキスト関連ビジュアルベンチマークの42ドルを定量的に評価することで、視覚的知覚、視覚的知識獲得、視覚的推論、視覚的コモンセンス、オブジェクト幻覚、エンボディドインテリジェンスを含む6つのカテゴリのマルチモーダル能力を体系的に評価する。
第2に,ChatGPT Ensemble Evaluation (CEE) を用いてLVLMの予測を詳細に分析し,単語マッチング手法と比較して,頑健で正確な評価を行い,人的評価との整合性の向上を示す。
第3に、わずか2.1ドルのイメージテキストペアで構成されており、実践者が自身のオフラインLVLMを評価するのを容易にする。
広範にわたる実験的分析により、バードは、オブジェクト幻覚を除いて、ほとんどのマルチモーダル能力において、以前のLVLMよりも優れており、それでもバードは影響を受けやすいことを示した。
ティニーLVLM-eHubは様々なLVLMのベースライン評価として機能し、マルチモーダル技術の進歩を目的とした革新的な戦略を奨励している。
我々のプロジェクトは、 \url{https://github.com/OpenGVLab/Multi-Modality-Arena}で公開されています。
Recent advancements in Large Vision-Language Models (LVLMs) have demonstrated significant progress in tackling complex multimodal tasks. Among these cutting-edge developments, Google's Bard stands out for its remarkable multimodal capabilities, promoting comprehensive comprehension and reasoning across various domains. This work presents an early and holistic evaluation of LVLMs' multimodal abilities, with a particular focus on Bard, by proposing a lightweight variant of LVLM-eHub, named Tiny LVLM-eHub. In comparison to the vanilla version, Tiny LVLM-eHub possesses several appealing properties. Firstly, it provides a systematic assessment of six categories of multimodal capabilities, including visual perception, visual knowledge acquisition, visual reasoning, visual commonsense, object hallucination, and embodied intelligence, through quantitative evaluation of $42$ standard text-related visual benchmarks. Secondly, it conducts an in-depth analysis of LVLMs' predictions using the ChatGPT Ensemble Evaluation (CEE), which leads to a robust and accurate evaluation and exhibits improved alignment with human evaluation compared to the word matching approach. Thirdly, it comprises a mere $2.1$K image-text pairs, facilitating ease of use for practitioners to evaluate their own offline LVLMs. Through extensive experimental analysis, this study demonstrates that Bard outperforms previous LVLMs in most multimodal capabilities except object hallucination, to which Bard is still susceptible. Tiny LVLM-eHub serves as a baseline evaluation for various LVLMs and encourages innovative strategies aimed at advancing multimodal techniques. Our project is publicly available at \url{https://github.com/OpenGVLab/Multi-Modality-Arena}. | 翻訳日:2024-08-14 00:58:29 公開日:2024-08-10 |
# トランザクションとスマートコントラクトの攻撃を検出する協調学習フレームワーク
Collaborative Learning Framework to Detect Attacks in Transactions and Smart Contracts ( http://arxiv.org/abs/2308.15804v3 ) ライセンス: Link先を確認 | Tran Viet Khoa, Do Hai Son, Chi-Hieu Nguyen, Dinh Thai Hoang, Diep N. Nguyen, Tran Thi Thuy Quynh, Trong-Minh Hoang, Nguyen Viet Ha, Eryk Dutkiewicz, Abu Alsheikh, Nguyen Linh Trung, | (参考訳) ブロックチェーンシステムの脆弱性を悪用する悪意のあるアクティビティがエスカレートしているため、堅牢な攻撃検出メカニズムには緊急の要件がある。
この課題に対処するために、ブロックチェーントランザクションとスマートコントラクトの攻撃を検出するために、トランザクションの特徴を分析することによって、新しい協調学習フレームワークを提案する。
当社のフレームワークは,マシンコードレベルでの複雑な攻撃(不正にユーザからコインを取り出す悪意のあるコードを注入するなど)など,さまざまな種類のブロックチェーン攻撃を分類する機能を備えています。
これを実現するために、提案フレームワークは、トランザクション機能を視覚表現に変換するユニークなツールを導入し、低レベルのマシンコードの効率的な分析と分類を容易にする。
さらに,分散マイニングノードにおける多様な攻撃タイプをリアルタイムに検出できる高度な協調学習モデルを提案する。
我々のモデルは、マイニングノードからすべてのデータを集中サーバに収集することなく、ブロックチェーンシステムのスマートコントラクトやトランザクションの攻撃を効率的に検出できる。
提案するフレームワークの性能を評価するため,プライベートEthereumネットワークをベースとしたパイロットシステムをデプロイし,複数の攻撃シナリオを実行し,新たなデータセットを生成する。
私たちの知る限り、私たちのデータセットは、ブロックチェーンシステムにおけるサイバー攻撃検出のための研究所で合成された、最も包括的で多様なトランザクションとスマートコントラクトのコレクションです。
我々のフレームワークは、広範囲なシミュレーションによって約94%の精度を達成し、リアルタイム実験では91%のスループットで毎秒2,150トランザクションを処理している。
With the escalating prevalence of malicious activities exploiting vulnerabilities in blockchain systems, there is an urgent requirement for robust attack detection mechanisms. To address this challenge, this paper presents a novel collaborative learning framework designed to detect attacks in blockchain transactions and smart contracts by analyzing transaction features. Our framework exhibits the capability to classify various types of blockchain attacks, including intricate attacks at the machine code level (e.g., injecting malicious codes to withdraw coins from users unlawfully), which typically necessitate significant time and security expertise to detect. To achieve that, the proposed framework incorporates a unique tool that transforms transaction features into visual representations, facilitating efficient analysis and classification of low-level machine codes. Furthermore, we propose an advanced collaborative learning model to enable real-time detection of diverse attack types at distributed mining nodes. Our model can efficiently detect attacks in smart contracts and transactions for blockchain systems without the need to gather all data from mining nodes into a centralized server. In order to evaluate the performance of our proposed framework, we deploy a pilot system based on a private Ethereum network and conduct multiple attack scenarios to generate a novel dataset. To the best of our knowledge, our dataset is the most comprehensive and diverse collection of transactions and smart contracts synthesized in a laboratory for cyberattack detection in blockchain systems. Our framework achieves a detection accuracy of approximately 94% through extensive simulations and 91% in real-time experiments with a throughput of over 2,150 transactions per second. | 翻訳日:2024-08-14 00:58:29 公開日:2024-08-10 |
# MS23D:3次元特徴層構築のための多次元意味的特徴点を用いた3次元物体検出手法
MS23D: A 3D Object Detection Method Using Multi-Scale Semantic Feature Points to Construct 3D Feature Layer ( http://arxiv.org/abs/2308.16518v9 ) ライセンス: Link先を確認 | Yongxin Shao, Aihong Tan, Binrui Wang, Tianhong Yan, Zhetao Sun, Yiyang Zhang, Jiaxin Liu, | (参考訳) LiDAR点雲は、三次元空間における物体の動きと姿勢を効果的に描写することができる。
多くの研究では、点雲の酸化による3次元物体の検出が達成されている。
しかし、自律運転のシナリオでは、点雲の空間性と空洞性は、ボキセルベースの方法にいくつかの困難をもたらす。
点雲の広がりは、物体の幾何学的特徴を記述するのを困難にしている。
点雲の空洞性は、3次元特徴の集約に困難をもたらす。
我々はMS23Dと呼ばれる2段階の3Dオブジェクト検出フレームワークを提案する。
1) マルチブランチからのボクセル特徴点を用いた3次元特徴層の構築手法を提案する。
異なる分岐からのボクセル特徴点を用いて,よりリッチなセマンティック特徴を持つ比較的コンパクトな3D特徴層を構築する。
さらに, 距離重み付きサンプリング手法を提案し, ダウンサンプリングによる前景点の損失を低減し, 3次元特徴層がより多くの前景点を保持することができるようにした。
2) 点雲の空洞化に反応して, 物体の遠心点と深度特徴点とのオフセットを予測し, 物体の遠心点にできるだけ接近させる。
これにより、これらの特徴点と豊富な意味的特徴の集約が可能になる。
浅層からの特徴点については、物体の幾何学的特徴を記述するために、物体の表面に保持する。
提案手法の有効性を,KITTIデータセットとONCEデータセットの両方で評価した。
LiDAR point clouds can effectively depict the motion and posture of objects in three-dimensional space. Many studies accomplish the 3D object detection by voxelizing point clouds. However, in autonomous driving scenarios, the sparsity and hollowness of point clouds create some difficulties for voxel-based methods. The sparsity of point clouds makes it challenging to describe the geometric features of objects. The hollowness of point clouds poses difficulties for the aggregation of 3D features. We propose a two-stage 3D object detection framework, called MS23D. (1) We propose a method using voxel feature points from multi-branch to construct the 3D feature layer. Using voxel feature points from different branches, we construct a relatively compact 3D feature layer with rich semantic features. Additionally, we propose a distance-weighted sampling method, reducing the loss of foreground points caused by downsampling and allowing the 3D feature layer to retain more foreground points. (2) In response to the hollowness of point clouds, we predict the offsets between deep-level feature points and the object's centroid, making them as close as possible to the object's centroid. This enables the aggregation of these feature points with abundant semantic features. For feature points from shallow-level, we retain them on the object's surface to describe the geometric features of the object. To validate our approach, we evaluated its effectiveness on both the KITTI and ONCE datasets. | 翻訳日:2024-08-14 00:58:29 公開日:2024-08-10 |
# XpookyNet: 絡み合い検出のための畳み込みニューラルネットワークによる量子システム解析の進歩
XpookyNet: Advancement in Quantum System Analysis through Convolutional Neural Networks for Detection of Entanglement ( http://arxiv.org/abs/2309.03890v4 ) ライセンス: Link先を確認 | Ali Kookani, Yousef Mafi, Payman Kazemikhah, Hossein Aghababa, Kazim Fouladi, Masoud Barati, | (参考訳) 量子情報理論における機械学習モデルの応用は、この分野の本質である絡み合いと量子状態の認識によって、近年急増している。
しかし、これらの研究の多くは既存のプレハブモデルに依存しており、精度が不十分である。
この研究は、量子システムに適したカスタムディープ畳み込みニューラルネットワーク(CNN)モデルを導入することで、このギャップを埋めることを目的としている。
我々の提案したCNNモデルであるXpookyNetは、量子システム固有の複素数データを扱うという課題を効果的に克服し、98.5%の精度を達成する。
このカスタムモデルの開発は、量子状態を分析し、理解する能力を高める。
しかし、第一に、量子状態は、私たちが現在研究しているケースの1つである完全かつ部分的に絡み合った状態を調べるために、より正確に分類されるべきである。
機械学習と量子情報理論が量子システム分析に統合されるにつれて、様々な視点とアプローチが出現し、この分野における革新的な洞察とブレークスルーの道を開いた。
The application of machine learning models in quantum information theory has surged in recent years, driven by the recognition of entanglement and quantum states, which are the essence of this field. However, most of these studies rely on existing prefabricated models, leading to inadequate accuracy. This work aims to bridge this gap by introducing a custom deep convolutional neural network (CNN) model explicitly tailored to quantum systems. Our proposed CNN model, the so-called XpookyNet, effectively overcomes the challenge of handling complex numbers data inherent to quantum systems and achieves an accuracy of 98.5%. Developing this custom model enhances our ability to analyze and understand quantum states. However, first and foremost, quantum states should be classified more precisely to examine fully and partially entangled states, which is one of the cases we are currently studying. As machine learning and quantum information theory are integrated into quantum systems analysis, various perspectives, and approaches emerge, paving the way for innovative insights and breakthroughs in this field. | 翻訳日:2024-08-14 00:58:29 公開日:2024-08-10 |
# 相互距離予測によるシーン認識型人間の動き予測
Scene-aware Human Motion Forecasting via Mutual Distance Prediction ( http://arxiv.org/abs/2310.00615v4 ) ライセンス: Link先を確認 | Chaoyue Xing, Wei Mao, Miaomiao Liu, | (参考訳) 本稿では,シーン認識型3次元動作予測の課題に対処する。
このタスクの重要な課題は、人間とシーンの相互作用をモデル化することによって、シーンと整合した将来の人間の動きを予測することである。
近年の研究では、人間とシーンの相互作用に対する明示的な制約がゴーストモーションの発生を妨げていることが示されているが、それらは部分的な人間の動き、例えば人間のグローバルな動き、あるいはシーンに接触する少数の関節にのみ制約を与え、残りの動きは拘束されないままである。
この制限に対処するため,人体とシーン間の相互距離との人間とシーンの相互作用をモデル化する。
このような相互距離は局所的な動きと大域的な動きの両方を制約し、結果として全身的な動きは予測される。
特に、相互距離制約は、人メッシュ上の各頂点からシーン表面への署名された距離と、人メッシュへのベースシーンの距離の2つの成分から構成される。
さらに、符号付き距離関数(SDF)ボリュームから学習したグローバルシーン表現を導入し、グローバルシーン表現と相互距離からの明示的制約とのコヒーレンスを確保する。
2つのステップでパイプラインを構築し、まず将来の相互距離を予測し、次に将来の人間の動きを予測する。
トレーニング中、予測されたポーズと相互距離の一貫性を明示的に促進する。
既存の合成および実データセットに対する広範囲な評価は、我々のアプローチが最先端の手法を一貫して上回っていることを示している。
In this paper, we tackle the problem of scene-aware 3D human motion forecasting. A key challenge of this task is to predict future human motions that are consistent with the scene by modeling the human-scene interactions. While recent works have demonstrated that explicit constraints on human-scene interactions can prevent the occurrence of ghost motion, they only provide constraints on partial human motion e.g., the global motion of the human or a few joints contacting the scene, leaving the rest of the motion unconstrained. To address this limitation, we propose to model the human-scene interaction with the mutual distance between the human body and the scene. Such mutual distances constrain both the local and global human motion, resulting in a whole-body motion constrained prediction. In particular, mutual distance constraints consist of two components, the signed distance of each vertex on the human mesh to the scene surface and the distance of basis scene points to the human mesh. We further introduce a global scene representation learned from a signed distance function (SDF) volume to ensure coherence between the global scene representation and the explicit constraint from the mutual distance. We develop a pipeline with two sequential steps: predicting the future mutual distances first, followed by forecasting future human motion. During training, we explicitly encourage consistency between predicted poses and mutual distances. Extensive evaluations on the existing synthetic and real datasets demonstrate that our approach consistently outperforms the state-of-the-art methods. | 翻訳日:2024-08-14 00:48:29 公開日:2024-08-10 |
# 因果一貫性のある説明のためのディープ・バックトラック対策
Deep Backtracking Counterfactuals for Causally Compliant Explanations ( http://arxiv.org/abs/2310.07665v4 ) ライセンス: Link先を確認 | Klaus-Rudolf Kladny, Julius von Kügelgen, Bernhard Schölkopf, Michael Muehlebach, | (参考訳) カウンターファクトリーは、変化した状況下で何が観察されたかという疑問に答え、そのため貴重な洞察を与えることができる。
反事実の古典的介入解釈は広く研究されているが、バックトラックはすべての因果法がそのまま維持される研究の少ない代替手段となっている。
本研究では, 深部生成成分からなる構造因果モデルにおいて, バックトラック・カウンティファクト(DeepBC)と呼ばれる, バックトラック・カウンティファクトを計算するための実用的手法を提案する。
本稿では,Langevin Monte Carlo サンプリングと制約付き最適化を併用した2種類の手法を提案する。
特別な場合として、我々の定式化は、対実的説明の分野における手法に還元される。
これらと比較すると、我々のアプローチは因果的に適合し、多目的でモジュラーな代替手段である。
我々はこれらの特性をMNISTとCelebAの修正版で実験的に実証した。
Counterfactuals answer questions of what would have been observed under altered circumstances and can therefore offer valuable insights. Whereas the classical interventional interpretation of counterfactuals has been studied extensively, backtracking constitutes a less studied alternative where all causal laws are kept intact. In the present work, we introduce a practical method called deep backtracking counterfactuals (DeepBC) for computing backtracking counterfactuals in structural causal models that consist of deep generative components. We propose two distinct versions of our method--one utilizing Langevin Monte Carlo sampling and the other employing constrained optimization--to generate counterfactuals for high-dimensional data. As a special case, our formulation reduces to methods in the field of counterfactual explanations. Compared to these, our approach represents a causally compliant, versatile and modular alternative. We demonstrate these properties experimentally on a modified version of MNIST and CelebA. | 翻訳日:2024-08-14 00:48:29 公開日:2024-08-10 |
# 通信ネットワークにおけるリソース割り当てを利用した非同期メッセージパッシングとゼロ階最適化に基づく分散学習
Asynchronous Message-Passing and Zeroth-Order Optimization Based Distributed Learning with a Use-Case in Resource Allocation in Communication Networks ( http://arxiv.org/abs/2311.04604v2 ) ライセンス: Link先を確認 | Pourya Behmandpoor, Marc Moonen, Panagiotis Patrinos, | (参考訳) 分散学習と適応は大きな関心を集め、機械学習や信号処理に広く応用されている。
共有メモリ最適化やマルチタスク学習,コンセンサスに基づく学習(例えば,グラフ上でのフェデレーション学習や学習など)など,さまざまなアプローチが,局所的な報酬やグローバルな報酬の最適化に重点を置いている一方で,相互接続のさらなる検討の必要性も残っている。
本論文は、エージェントが共通のタスク(すなわち、集約された局所的な報酬に等しいグローバルな報酬を最適化する)に向けて協調し、個別のタスク(すなわち、局所的な報酬に個々の局所的なパラメータを最適化する)を効果的に行うシナリオに焦点を当てる。
各エージェントのアクションは、相互作用を通じて他のエージェントのパフォーマンスに影響を与える可能性がある。
特に、各エージェントは局所的なゼロ次オラクル(すなわち、報酬関数値)のみにアクセスでき、勾配ベクトルよりもスカラー値が他のエージェントと共有され、通信帯域幅の効率とエージェントのプライバシが向上する。
エージェントはパラメータの更新にゼロ階最適化を使用し、それらの間の非同期メッセージパッシングは、有界だがおそらくランダムな通信遅延を受ける。
本稿では, 理論的収束解析を行い, 非凸問題に対する収束速度を確立する。
さらに、通信ネットワークにおける深層学習に基づくリソース割り当てのユースケースに対処し、送信者として行動するエージェントが、グローバルな報酬、例えばデータレートの合計を最大化するために、それぞれのポリシーを協調的に訓練する数値実験を行う。
Distributed learning and adaptation have received significant interest and found wide-ranging applications in machine learning and signal processing. While various approaches, such as shared-memory optimization, multi-task learning, and consensus-based learning (e.g., federated learning and learning over graphs), focus on optimizing either local rewards or a global reward, there remains a need for further exploration of their interconnections. This paper specifically focuses on a scenario where agents collaborate towards a common task (i.e., optimizing a global reward equal to aggregated local rewards) while effectively having distinct individual tasks (i.e., optimizing individual local parameters in a local reward). Each agent's actions can potentially impact other agents' performance through interactions. Notably, each agent has access to only its local zeroth-order oracle (i.e., reward function value) and shares scalar values, rather than gradient vectors, with other agents, leading to communication bandwidth efficiency and agent privacy. Agents employ zeroth-order optimization to update their parameters, and the asynchronous message-passing between them is subject to bounded but possibly random communication delays. This paper presents theoretical convergence analyses and establishes a convergence rate for nonconvex problems. Furthermore, it addresses the relevant use-case of deep learning-based resource allocation in communication networks and conducts numerical experiments in which agents, acting as transmitters, collaboratively train their individual policies to maximize a global reward, e.g., a sum of data rates. | 翻訳日:2024-08-14 00:38:36 公開日:2024-08-10 |
# 弱値増幅におけるスクイーズ光の導入による空間計測の精度向上
Precision Enhancement in Spatial Measurement by Introducing Squeezed Light into Weak Value Amplification ( http://arxiv.org/abs/2311.16622v2 ) ライセンス: Link先を確認 | Chaoxia Zhang, Yongchao Chen, Gang Chen, Hengxin Sun, Jing Zhang, Kui Liu, Rongguo Yang, Jiangrui Gao, | (参考訳) TEM10圧縮真空ビームを注入することにより、弱値増幅(WVA)システムとスプリットライクな検出に基づく光学空間測定において、精度向上を実証する。
標準量子限界を超える高精度の光学空間測定を実験的に実現するために、WVA技術と圧縮ビーム注入を組み合わせるのはこれが初めてである。
その結果、マッハ・ツェンダー干渉計の真空入力ポートに圧縮ビームを加えることにより、500kHzで1.3倍の精度向上が達成される。
最小測定可能な変位は1.08pmから0.85pmに減少し、対応する最小測定可能な傾きは0.86pradから0.67pradに減少する。
また、低周波帯における空間測定も実施し、SNRを4kHzで2dB改善する。
我々の研究は、重力波干渉計の校正や超高分解能量子イメージングなどに応用できる光空間計測の高精度化に有効な方法を提供する。
The precision enhancement is demonstrated in an optical spatial measurement based on weak value amplification (WVA) system and split-like detection, by injecting a TEM10 squeezed vacuum beam. It is the first time combining the WVA technique and squeezed beam injection to experimentally realize high-precision optical spatial measurement beyond the standard quantum limit. As a result, the precision enhancement of 1.3 times can be achieved at 500kHz by adding a squeezed beam in the vacuum input port of the Mach-Zehnder interferometer. The minimum measurable displacement is reduced from 1.08pm to 0.85pm and the corresponding minimum measurable tilt is reduced from 0.86prad to 0.67prad. Moreover, the spatial measurement at low-frequency band is also implemented and the SNR is improved 2dB at 4kHz. Our work provides an effective method to accomplish higher precision in optical spatial measurement, which has potential applications in gravitational wave interferometer calibration, super-resolution quantum imaging, etc. | 翻訳日:2024-08-14 00:38:36 公開日:2024-08-10 |
# 安定したメッセンジャー: メッセージ駆動画像生成のためのステガノグラフィー
Stable Messenger: Steganography for Message-Concealed Image Generation ( http://arxiv.org/abs/2312.01284v2 ) ライセンス: Link先を確認 | Quang Nguyen, Truong Vu, Cuong Pham, Anh Tran, Khoi Nguyen, | (参考訳) デジタルの世界では、機密情報の保護が最重要課題だ。
本論文は、特にステガノグラフィに焦点をあてて、デジタル保護を深く掘り下げている。
従来は個々のビットの復号化を主眼とした研究であったが, より包括的な評価のために, 復号化メッセージの全体性を評価する新しい指標である 'message accuracy'' を導入することで, この制限に対処する。
さらに、メッセージの精度を向上させるために調整された適応的普遍的損失であるLog-Sum-Exponential (LSE)損失を提案し、最近のアプローチのメッセージの精度を大幅に向上させる。
さらに,先進的なステガノグラフィ画像生成のために,事前学習した安定拡散を利用して,画像品質とメッセージリカバリのトレードオフを改善するために,新しい潜在認識符号化技術である‘Approach’を導入する。
実験結果を通じて,新しいLSE損失と潜在認識符号化技術の優れた性能を実証した。
この包括的なアプローチは、評価指標の進化、損失関数の精製、画像隠蔽技術の革新において重要なステップであり、より堅牢で信頼性の高い情報保護を目指している。
In the ever-expanding digital landscape, safeguarding sensitive information remains paramount. This paper delves deep into digital protection, specifically focusing on steganography. While prior research predominantly fixated on individual bit decoding, we address this limitation by introducing ``message accuracy'', a novel metric evaluating the entirety of decoded messages for a more holistic evaluation. In addition, we propose an adaptive universal loss tailored to enhance message accuracy, named Log-Sum-Exponential (LSE) loss, thereby significantly improving the message accuracy of recent approaches. Furthermore, we also introduce a new latent-aware encoding technique in our framework named \Approach, harnessing pretrained Stable Diffusion for advanced steganographic image generation, giving rise to a better trade-off between image quality and message recovery. Throughout experimental results, we have demonstrated the superior performance of the new LSE loss and latent-aware encoding technique. This comprehensive approach marks a significant step in evolving evaluation metrics, refining loss functions, and innovating image concealment techniques, aiming for more robust and dependable information protection. | 翻訳日:2024-08-14 00:38:36 公開日:2024-08-10 |
# Model Breadcrumbs: スパースマスクによるマルチタスクモデルマージのスケールアップ
Model Breadcrumbs: Scaling Multi-Task Model Merging with Sparse Masks ( http://arxiv.org/abs/2312.06795v2 ) ライセンス: Link先を確認 | MohammadReza Davari, Eugene Belilovsky, | (参考訳) AIシステムの急速な発展は、基礎モデルの出現に大きく影響されている。
ターゲット問題に対する一般的なアプローチは、これらのトレーニング済み基礎モデルを特定のターゲットタスクのために微調整することであり、その結果、様々なタスクに微調整されたモデルの急速な拡散をもたらす。
この研究は、補助的なタスクのスペクトルから導かれた同じ基礎モデルの複数の微調整をマージする問題に焦点を当てる。
事前学習したモデルの重み空間内でモデル適応を誘導する疎定義の重み集合からなる,新しい簡易な方法であるモデルブレッドクラブを導入する。
これらのパンクランプは、微調整前後に事前訓練されたモデルから重量を減らし、その後、減量と無視可能な摂動を除去するスペーサー化プロセスによって構成される。
実験では,複数のタスクをまたいだ性能を同時に向上するモデルブレッドクラブの有効性を実証した。
このコントリビューションは、オープンソースのソフトウェア開発の根底にあるコラボレーティブな原則を思い起こさせ、機械学習モデルを確実に更新するコミュニティ主導の取り組みを促進する、アップダブル機械学習の進化するパラダイムと一致している。
提案手法はより効率的であることが示されており,従来の提案では追加タスク毎にハイパーパラメータチューニングを必要としない。
様々なモデル、タスク、モダリティを含む広範な実験を通じて、モデルブレッドクラブの統合は、マルチタスクモデルの構築と基礎モデルのアップデートの促進にシンプルで、効率的で、非常に効果的なアプローチを提供すると断定する。
The rapid development of AI systems has been greatly influenced by the emergence of foundation models. A common approach for targeted problems involves fine-tuning these pre-trained foundation models for specific target tasks, resulting in a rapid spread of models fine-tuned across a diverse array of tasks. This work focuses on the problem of merging multiple fine-tunings of the same foundation model derived from a spectrum of auxiliary tasks. We introduce a new simple method, Model Breadcrumbs, which consists of a sparsely defined weight set that guides model adaptation within the weight space of a pre-trained model. These breadcrumbs are constructed by subtracting the weights from a pre-trained model before and after fine-tuning, followed by a sparsification process that eliminates weight outliers and negligible perturbations. Our experiments demonstrate the effectiveness of Model Breadcrumbs to simultaneously improve performance across multiple tasks. This contribution aligns with the evolving paradigm of updatable machine learning, reminiscent of the collaborative principles underlying open-source software development, fostering a community-driven effort to reliably update machine learning models. Our method is shown to be more efficient and unlike previous proposals does not require hyperparameter tuning for each new task added. Through extensive experimentation involving various models, tasks, and modalities we establish that integrating Model Breadcrumbs offers a simple, efficient, and highly effective approach for constructing multi-task models and facilitating updates to foundation models. | 翻訳日:2024-08-14 00:28:29 公開日:2024-08-10 |
# NVS-Adapter:単一画像からのプラグイン・アンド・プレイの新規ビュー合成
NVS-Adapter: Plug-and-Play Novel View Synthesis from a Single Image ( http://arxiv.org/abs/2312.07315v2 ) ライセンス: Link先を確認 | Yoonwoo Jeong, Jinwoo Lee, Chiheon Kim, Minsu Cho, Doyup Lee, | (参考訳) 大規模テキスト・トゥ・イメージ(T2I)モデルの伝達学習は、最近、単一の画像から多種多様なオブジェクトのノベルビュー・シンセサイザー(NVS)に顕著な可能性を示している。
従来の手法では、NVSのマルチビューデータセット上で大規模モデルをトレーニングすることが多いが、T2Iモデルのパラメータ全体を微調整すると、高コストが要求されるだけでなく、新しいドメインで多様な画像を生成する際のT2Iモデルの一般化能力も低下する。
本研究では,T2Iモデルの汎用能力をフル活用しつつ,新しい視覚オブジェクトのマルチビューを合成するための,T2IモデルのプラグアンドプレイモジュールであるNVS-Adapterを提案する。
NVS-Adapterは2つの主要コンポーネントから構成される。ビュー一貫性のクロスアテンションは、ビュー特徴の局所的な詳細を一致させるために視覚対応を学習し、グローバルセマンティックコンディショニングは生成されたビューのセマンティック構造を参照ビューと整合させる。
実験結果から,NVS-Adapterは幾何的に一貫したマルチビューを効果的に合成し,T2Iモデルを完全に微調整することなくベンチマーク上で高い性能を達成できることが示された。
コードとデータは ~\href{https://postech-cvlab.github.io/nvsadapter/}{https://postech-cvlab.github.io/nvsadapter/} で公開されている。
Transfer learning of large-scale Text-to-Image (T2I) models has recently shown impressive potential for Novel View Synthesis (NVS) of diverse objects from a single image. While previous methods typically train large models on multi-view datasets for NVS, fine-tuning the whole parameters of T2I models not only demands a high cost but also reduces the generalization capacity of T2I models in generating diverse images in a new domain. In this study, we propose an effective method, dubbed NVS-Adapter, which is a plug-and-play module for a T2I model, to synthesize novel multi-views of visual objects while fully exploiting the generalization capacity of T2I models. NVS-Adapter consists of two main components; view-consistency cross-attention learns the visual correspondences to align the local details of view features, and global semantic conditioning aligns the semantic structure of generated views with the reference view. Experimental results demonstrate that the NVS-Adapter can effectively synthesize geometrically consistent multi-views and also achieve high performance on benchmarks without full fine-tuning of T2I models. The code and data are publicly available in ~\href{https://postech-cvlab.github.io/nvsadapter/}{https://postech-cvlab.github.io/nvsadapter/}. | 翻訳日:2024-08-14 00:28:29 公開日:2024-08-10 |
# 医用画像におけるCLIP : 包括的調査
CLIP in Medical Imaging: A Comprehensive Survey ( http://arxiv.org/abs/2312.07353v5 ) ライセンス: Link先を確認 | Zihao Zhao, Yuxiao Liu, Han Wu, Mei Wang, Yonghao Li, Sheng Wang, Lin Teng, Disheng Liu, Zhiming Cui, Qian Wang, Dinggang Shen, | (参考訳) Contrastive Language-Image Pre-Training (CLIP) は、シンプルだが効果的な事前学習パラダイムであり、視覚モデルにテキスト管理を導入することに成功した。
様々なタスクにおいて有望な結果を示しており、その一般化可能性と解釈可能性に起因している。
CLIPの使用は最近、医療画像領域への関心が高まり、医療ビジョンと言語を調整するための事前訓練パラダイムとして機能し、多様な臨床タスクにおいて重要な要素となっている。
この将来性のある方向性をより深く理解することを目的として、この調査は、CLIP事前トレーニングとCLIP駆動アプリケーションの両方に関して、医療画像領域におけるCLIPパラダイムの詳細な調査を提供する。
本研究は,まずCLIP方法論の基礎を概説することから始める。
2) 医療領域におけるCLIP事前訓練の適応について検討し, 医用画像の特徴と報告のCLIPの最適化方法について検討した。
さらに,CLIP事前学習モデルの,分類,密集予測,クロスモーダルタスクなど,様々なタスクにおける実用的活用について検討する。
(4) 医用画像領域におけるCLIPの既存の限界について考察し, 医用画像領域の要求に対処するための先進的な方向性を提案する。
この包括的調査は、CLIPパラダイムの全体的理解と、その潜在的な影響を、医学画像分析の分野の研究者に提供することを期待する。
プロジェクトのページはhttps://github.com/zhaozh10/Awesome-CLIP-in-Medical-Imagingにある。
Contrastive Language-Image Pre-training (CLIP), a simple yet effective pre-training paradigm, successfully introduces text supervision to vision models. It has shown promising results across various tasks, attributable to its generalizability and interpretability. The use of CLIP has recently gained increasing interest in the medical imaging domain, serving both as a pre-training paradigm for aligning medical vision and language, and as a critical component in diverse clinical tasks. With the aim of facilitating a deeper understanding of this promising direction, this survey offers an in-depth exploration of the CLIP paradigm within the domain of medical imaging, regarding both refined CLIP pre-training and CLIP-driven applications. In this study, We (1) start with a brief introduction to the fundamentals of CLIP methodology. (2) Then, we investigate the adaptation of CLIP pre-training in the medical domain, focusing on how to optimize CLIP given characteristics of medical images and reports. (3) Furthermore, we explore the practical utilization of CLIP pre-trained models in various tasks, including classification, dense prediction, and cross-modal tasks. (4) Finally, we discuss existing limitations of CLIP in the context of medical imaging and propose forward-looking directions to address the demands of medical imaging domain. We expect that this comprehensive survey will provide researchers in the field of medical image analysis with a holistic understanding of the CLIP paradigm and its potential implications. The project page can be found on https://github.com/zhaozh10/Awesome-CLIP-in-Medical-Imaging. | 翻訳日:2024-08-14 00:28:29 公開日:2024-08-10 |
# ロバスト予測のためのクープマンモード分解機能
Featurizing Koopman Mode Decomposition For Robust Forecasting ( http://arxiv.org/abs/2312.09146v5 ) ライセンス: Link先を確認 | David Aristoff, Jeremy Copperman, Nathan Mankovich, Alexander Davies, | (参考訳) 本稿では、遅延埋め込みと学習したマハラノビス距離を用いて高次元力学系の解析と予測を行う、高度なクープマンモード分解(KMD)技術(Featurized Koopman Mode Decomposition (FKMD))を紹介する。
遅延埋め込みは観測空間を拡張し、基礎となる多様体構造をよりよく捉え、マハラノビス距離は系の力学に基づいて観測を調整する。
これにより、優れた特徴が事前に分かっていない場合に、KMDを偉業するのに役立つ。
FKMDは高次元線形発振器, 部分的に観察される高次元ローレンツ誘引器, およびがん研究からの細胞シグナル伝達問題に対する予測を改善した。
This article introduces an advanced Koopman mode decomposition (KMD) technique -- coined Featurized Koopman Mode Decomposition (FKMD) -- that uses delay embedding and a learned Mahalanobis distance to enhance analysis and prediction of high dimensional dynamical systems. The delay embedding expands the observation space to better capture underlying manifold structure, while the Mahalanobis distance adjusts observations based on the system's dynamics. This aids in featurizing KMD in cases where good features are not a priori known. We show that FKMD improves predictions for a high-dimensional linear oscillator, a high-dimensional Lorenz attractor that is partially observed, and a cell signaling problem from cancer research. | 翻訳日:2024-08-14 00:28:29 公開日:2024-08-10 |
# DreamTalk: 感情的な会話のヘッドジェネレーションが拡散確率モデルに出会ったとき
DreamTalk: When Emotional Talking Head Generation Meets Diffusion Probabilistic Models ( http://arxiv.org/abs/2312.09767v3 ) ライセンス: Link先を確認 | Yifeng Ma, Shiwei Zhang, Jiayu Wang, Xiang Wang, Yingya Zhang, Zhidong Deng, | (参考訳) 感情的なトーキング・ヘッドジェネレーションは注目を集めている。
従来は、主にGANをベースとした手法では、多様な感情にまたがる満足な結果を一貫して生み出すのに苦慮しており、パーソナライズされた感情を便利に特定することはできない。
本研究では,この課題に対処するために,強力な拡散モデルを活用するとともに,感情的な話し声を発生させる際の拡散モデルの可能性を明らかにするために,巧妙な設計を採用するフレームワークであるDreamTalkを提案する。
具体的には、DreamTalkは3つの重要なコンポーネントで構成されている。
拡散に基づく認知ネットワークは、様々な感情にまたがる高品質な音声駆動の顔の動きを一貫して合成することができる。
唇運動の精度と感情のフルネスを高めるために,感情の強さを保ちながらリップシンクをガイドできるスタイルアウェアな唇専門家を紹介した。
パーソナライズされた感情をより便利に特定するために、拡散に基づくスタイル予測器を使用して、パーソナライズされた感情を直接オーディオから予測し、追加の感情参照の必要性をなくす。
つまりDreamTalkは、さまざまな感情にまたがる鮮やかな会話の表情を一貫して生成し、パーソナライズされた感情を便利に特定できる。
大規模な実験はDreamTalkの有効性と優位性を検証する。
コードはhttps://github.com/ali-vilab/dreamtalk.comで公開されている。
Emotional talking head generation has attracted growing attention. Previous methods, which are mainly GAN-based, still struggle to consistently produce satisfactory results across diverse emotions and cannot conveniently specify personalized emotions. In this work, we leverage powerful diffusion models to address the issue and propose DreamTalk, a framework that employs meticulous design to unlock the potential of diffusion models in generating emotional talking heads. Specifically, DreamTalk consists of three crucial components: a denoising network, a style-aware lip expert, and a style predictor. The diffusion-based denoising network can consistently synthesize high-quality audio-driven face motions across diverse emotions. To enhance lip-motion accuracy and emotional fullness, we introduce a style-aware lip expert that can guide lip-sync while preserving emotion intensity. To more conveniently specify personalized emotions, a diffusion-based style predictor is utilized to predict the personalized emotion directly from the audio, eliminating the need for extra emotion reference. By this means, DreamTalk can consistently generate vivid talking faces across diverse emotions and conveniently specify personalized emotions. Extensive experiments validate DreamTalk's effectiveness and superiority. The code is available at https://github.com/ali-vilab/dreamtalk. | 翻訳日:2024-08-14 00:28:29 公開日:2024-08-10 |
# DAIRstega:Roulette Wheelを用いた動的間隔型生成言語ステレオグラフィ
DAIRstega: Dynamically Allocated Interval-Based Generative Linguistic Steganography with Roulette Wheel ( http://arxiv.org/abs/2401.15656v4 ) ライセンス: Link先を確認 | Yihao Wang, Ruiqi Song, Lingxiao Li, Ru Zhang, Jianyi Liu, | (参考訳) 言語ステガノグラフィー(LS)タスクは、秘密に基づいてステガノグラフィーテキスト(ステゴ)を生成することを目的としている。
認証された受信者だけが秘密を認識して抽出し、それによってプライバシーを保護することができる。
しかし、既存のジェネレーティブLSスキームは、候補プール内のトークンの条件付き確率を考慮せず、全てのトークンに1つまたは同じ数の符号を割り当てることが多い。
確率の低いトークンは、ステゴスの品質に影響を与える秘密を埋め込むために選択される。
その結果、ステゴは知覚し、検出し易い。
本稿ではDAIRstegaと呼ばれる動的に割り当てられた間隔に基づくLSスキームを提案する。
DAIRstega はルーレットホイールの概念を使い、ルーレット領域(すなわち間隔の長さ)を割り当てる基礎としてトークンの条件付き確率を取る。
これにより、より大きな条件確率のトークンが割り当てられる。
秘密はより大きな確率でトークンを選択する可能性が高い。
割当過程において、確率と割当間隔長の間のいくつかの関数を設計する。
LSの目に見えない特性に基づき,関数の設計に必要な制約を3つ与える。
フォームを単純化するため、アロケーション関数の式を凝縮する。
さらに、DAIRstegaは追加の命令を受け取り、ステゴを制御的に生成する。
豊かな実験により、提案された埋め込み方法とDAIRstegaは、強い知覚的、統計的、意味的隠蔽と抗ステガナリシス能力を示す既存の方法やLSスキームよりも優れていることが示されている。
このスキームは高品質な長ステゴスを生成することができ、このタスクの欠陥を改善することができる。
実験では、DAIRstegaが安全な透かしとして使用でき、開発にいくつかのアイデアを提供することも確認された。
Linguistic steganography (LS) tasks aim to generate steganographic text (stego) based on secret. Only authorized receivers can perceive and extract secrets, thereby protecting privacy. However, existing generative LS schemes often do not consider the conditional probability of tokens in the candidate pool, and allocate one or the same number of codings to all tokens. The tokens with lower probabilities are selected to embed secrets that will affect the quality of stegos. As a result, the stegos are easy to perceive and detect. This paper proposes the LS scheme based on dynamically allocated intervals, called DAIRstega. DAIRstega uses the idea of the roulette wheel and takes the conditional probabilities of tokens as the main basis for allocating the roulette area (i.e., the interval length). Thus, the token with a larger conditional probability is allocated more. The secret will be more likely to select the tokens with larger probabilities. In the allocation process, we design some functions between probability and allocated interval length. Based on the invisible characteristics of LS, we give three constraints that need to be met to design the function. To simplify the form, the expression of the allocation function is condensed. Furthermore, DAIRstega can receive additional instruction and controllably generate stegos. Rich experiments show that the proposed embedding way and DAIRstega perform superior to the existing ways and LS schemes, which shows strong perceptual, statistical, and semantic concealment and anti-steganalysis ability. This scheme can also generate high-quality longer stegos, improving the deficiencies in this task. The experiment also verified that DAIRstega can be used as a secure watermarking scheme, providing some ideas for its development. | 翻訳日:2024-08-14 00:07:59 公開日:2024-08-10 |
# エッジデバイスにおける冗長性を考慮した連続学習
Redundancy-Aware Efficient Continual Learning on Edge Devices ( http://arxiv.org/abs/2401.16694v3 ) ライセンス: Link先を確認 | Sheng Li, Geng Yuan, Yawen Wu, Yue Dai, Tianyu Wang, Chao Wu, Alex K. Jones, Jingtong Hu, Yanzhi Wang, Xulong Tang, | (参考訳) ロボット支援の高齢者ケアやオブジェクト認識など、多くの新興アプリケーションでは、一般的にディープラーニングニューラルネットワーク(DNN)を採用し、エッジデバイスにDNNモデルをデプロイする必要がある。
これらの応用は自然に必要です
一 ストリーミングの推論要求の処理及び処理
二 デプロイ可能なシナリオの変更に対応するために、デプロイされたモデルを微調整すること。
継続的な学習(CL)はこれらのニーズを満たすために広く採用されている。
CLは、継続的モデルの微調整とオーバータイム推論の両方を処理できる人気のあるディープラーニングパラダイムである。
しかし、不適切なモデル微調整方式は、かなりの冗長性を伴い、かなりの時間とエネルギーを消費する可能性があるため、エッジデバイスにCLを適用することは困難である。
本稿では,推論精度,微調整実行時間,エネルギー効率を最適化する効率的なエッジ連続学習フレームワークであるETunerを提案する。
実験結果から,ETunerは全体の微調整実行時間を64%削減し,エネルギー消費量を56%削減し,即時モデル微調整アプローチよりも平均推定精度を1.75%向上した。
Many emerging applications, such as robot-assisted eldercare and object recognition, generally employ deep learning neural networks (DNNs) and require the deployment of DNN models on edge devices. These applications naturally require i) handling streaming-in inference requests and ii) fine-tuning the deployed models to adapt to possible deployment scenario changes. Continual learning (CL) is widely adopted to satisfy these needs. CL is a popular deep learning paradigm that handles both continuous model fine-tuning and overtime inference requests. However, an inappropriate model fine-tuning scheme could involve significant redundancy and consume considerable time and energy, making it challenging to apply CL on edge devices. In this paper, we propose ETuner, an efficient edge continual learning framework that optimizes inference accuracy, fine-tuning execution time, and energy efficiency through both inter-tuning and intra-tuning optimizations. Experimental results show that, on average, ETuner reduces overall fine-tuning execution time by 64%, energy consumption by 56%, and improves average inference accuracy by 1.75% over the immediate model fine-tuning approach. | 翻訳日:2024-08-14 00:07:59 公開日:2024-08-10 |
# TrustAgent: エージェント・コンスティチューションによる安全で信頼できるLLMエージェントを目指して
TrustAgent: Towards Safe and Trustworthy LLM-based Agents through Agent Constitution ( http://arxiv.org/abs/2402.01586v3 ) ライセンス: Link先を確認 | Wenyue Hua, Xianjun Yang, Mingyu Jin, Wei Cheng, Ruixiang Tang, Yongfeng Zhang, | (参考訳) LLMをベースとしたエージェントの台頭は、タスク計画に革命をもたらす可能性を示し、大きな注目を集めている。
これらのエージェントが高リスクドメインに統合されることを考えると、信頼性と安全性が不可欠である。
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。
提案枠組みは,計画立案前のモデルに安全知識を注入する事前計画戦略,計画立案時の安全性を高める内計画戦略,計画後検査による安全性を確保する後計画戦略の3つの戦略要素を通じて,エージェント憲法の厳格な遵守を保証する。
提案手法は,計画中の潜在的リスクを特定し緩和することにより,複数の領域にわたるLLMエージェントの安全性を効果的に向上できることを示す。
さらなる分析により、フレームワークは安全性を向上するだけでなく、エージェントの有用性も向上することが明らかとなった。
さらに, 憲法を遵守する上で, LLM推論能力の重要性を強調した。
本稿では,LLMをベースとしたエージェントを人間中心の環境に安全に統合する方法について述べる。
データとコードはhttps://github.com/agiresearch/TrustAgent.comで入手できる。
The rise of LLM-based agents shows great potential to revolutionize task planning, capturing significant attention. Given that these agents will be integrated into high-stake domains, ensuring their reliability and safety is crucial. This paper presents an Agent-Constitution-based agent framework, TrustAgent, with a particular focus on improving the LLM-based agent safety. The proposed framework ensures strict adherence to the Agent Constitution through three strategic components: pre-planning strategy which injects safety knowledge to the model before plan generation, in-planning strategy which enhances safety during plan generation, and post-planning strategy which ensures safety by post-planning inspection. Our experimental results demonstrate that the proposed framework can effectively enhance an LLM agent's safety across multiple domains by identifying and mitigating potential dangers during the planning. Further analysis reveals that the framework not only improves safety but also enhances the helpfulness of the agent. Additionally, we highlight the importance of the LLM reasoning ability in adhering to the Constitution. This paper sheds light on how to ensure the safe integration of LLM-based agents into human-centric environments. Data and code are available at https://github.com/agiresearch/TrustAgent. | 翻訳日:2024-08-14 00:07:59 公開日:2024-08-10 |
# Twisted Unitary $t$-groupsの量子コード
Quantum Codes from Twisted Unitary $t$-groups ( http://arxiv.org/abs/2402.01638v4 ) ライセンス: Link先を確認 | Eric Kubischta, Ian Teixeira, | (参考訳) ツイスト付きユニタリ$t$-群は、既約表現によるツイスト化の下でのユニタリ$t$-群の一般化である。
次に、Knill-Laflamme誤差補正条件に表現論的手法を適用し、ねじれたユニタリ$t$-群が距離$d=t+1$の量子符号に自動的に対応することを示す。
これらの符号には多くの逆ゲートがあり、自然にエラーを拡散しないので、耐故障性に優れている。
We introduce twisted unitary $t$-groups, a generalization of unitary $t$-groups under a twisting by an irreducible representation. We then apply representation theoretic methods to the Knill-Laflamme error correction conditions to show that twisted unitary $t$-groups automatically correspond to quantum codes with distance $d=t+1$. By construction these codes have many transversal gates, which naturally do not spread errors and thus are useful for fault tolerance. | 翻訳日:2024-08-14 00:07:59 公開日:2024-08-10 |
# 新規共有による分散多エージェント協調探索の確立
Settling Decentralized Multi-Agent Coordinated Exploration by Novelty Sharing ( http://arxiv.org/abs/2402.02097v2 ) ライセンス: Link先を確認 | Haobin Jiang, Ziluo Ding, Zongqing Lu, | (参考訳) 分散型多エージェント強化学習における探索は2つの課題に直面している。
一つは、世界国家の新規性は利用できないが、局所的な観察の新規性は偏っていることである。
もう1つは、エージェントが協調した方法で探索する方法です。
これらの課題に対処するために, 単純で効果的なマルチエージェント協調探索法である MACE を提案する。
エージェントはローカルノベルティのみを通信することで、他のエージェントのローカルノベルティを考慮し、グローバルノベルティを近似することができる。
さらに,あるエージェントの行動が他のエージェントの蓄積された新規性に与える影響を測定するため,重み付けされた相互情報も新たに導入した。
我々は、エージェントが他のエージェントの探索により多くの影響を与えるよう奨励し、協調した探索を促進するために、後見において本質的な報酬として変換する。
実験により, MACEは, スパース報酬を伴う3つのマルチエージェント環境において, 優れた性能を発揮することを示す。
Exploration in decentralized cooperative multi-agent reinforcement learning faces two challenges. One is that the novelty of global states is unavailable, while the novelty of local observations is biased. The other is how agents can explore in a coordinated way. To address these challenges, we propose MACE, a simple yet effective multi-agent coordinated exploration method. By communicating only local novelty, agents can take into account other agents' local novelty to approximate the global novelty. Further, we newly introduce weighted mutual information to measure the influence of one agent's action on other agents' accumulated novelty. We convert it as an intrinsic reward in hindsight to encourage agents to exert more influence on other agents' exploration and boost coordinated exploration. Empirically, we show that MACE achieves superior performance in three multi-agent environments with sparse rewards. | 翻訳日:2024-08-14 00:07:59 公開日:2024-08-10 |
# CMA-ESを用いた脊椎手術ナビゲーションにおける剛体2D/3Dレジストレーションの最適化ベースライン
An Optimization-based Baseline for Rigid 2D/3D Registration Applied to Spine Surgical Navigation Using CMA-ES ( http://arxiv.org/abs/2402.05642v2 ) ライセンス: Link先を確認 | Minheng Chen, Tonglong Li, Zhirun Zhang, Youyong Kong, | (参考訳) 整形外科ロボットのナビゲーションシステムには,堅牢で効率的な2D/3D登録フレームワークが不可欠である。
外科用器具やインプラントの正確な位置情報を提供することができる。
近年、人工知能技術は急速に進歩しているが、従来の最適化に基づく登録手法は2D/3D登録の分野では不可欠であり、この手法の例外的な精度は、学習ベースの手法の処理後ステップと見なすことができるため、登録のための信頼性の高い保証を提供する。
本稿では,CMA-ESアルゴリズムに基づく粗粒度登録フレームワークを提案する。
脊椎の異なる部位のデータを用いて,本手法の集中的な試験を行った。
以上の結果から,本フレームワークが実際の整形外科手術データに及ぼす影響が示唆された。
この研究は、これまでの研究で使われている最適化に基づく手法を補完する追加の拡張と見なすことができる。
A robust and efficient optimization-based 2D/3D registration framework is crucial for the navigation system of orthopedic surgical robots. It can provide precise position information of surgical instruments and implants during surgery. While artificial intelligence technology has advanced rapidly in recent years, traditional optimization-based registration methods remain indispensable in the field of 2D/3D registration.he exceptional precision of this method enables it to be considered as a post-processing step of the learning-based methods, thereby offering a reliable assurance for registration. In this paper, we present a coarse-to-fine registration framework based on the CMA-ES algorithm. We conducted intensive testing of our method using data from different parts of the spine. The results shows the effectiveness of the proposed framework on real orthopedic spine surgery clinical data. This work can be viewed as an additional extension that complements the optimization-based methods employed in our previous studies. | 翻訳日:2024-08-13 23:57:57 公開日:2024-08-10 |
# Q-Bench+: シングルイメージからペアへの低レベルビジョンに基づくマルチモーダル基礎モデルのベンチマーク
Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs ( http://arxiv.org/abs/2402.07116v2 ) ライセンス: Link先を確認 | Zicheng Zhang, Haoning Wu, Erli Zhang, Guangtao Zhai, Weisi Lin, | (参考訳) MLLM(Multi-modality Large Language Models)の急速な開発により、コンピュータビジョンのパラダイムシフトが進み、汎用的な基礎モデルへと移行した。
しかし、低レベルの視覚知覚と理解におけるMLLMの評価は、まだ明らかになっていない領域である。
この目的のために、低レベルな視覚に関する人間の言語応答をエミュレートするためのベンチマーク設定を、低レベルな属性(例えば、明度、明度)に関連する視覚的質問応答による低レベルな視覚知覚(A1)と、低レベルなテキスト記述のためのMLLMの評価に基づく低レベルな視覚記述(A2)を設計する。
さらに、対比較が応答のあいまいさを回避し、多くの人間実験で採用されていることを考慮し、MLLMの低レベルな認識関連質問応答と記述評価を単一画像から画像ペアに拡張する。
具体的には,2,990枚の画像と1,999枚の画像対からなるLLVisionQA+データセットについて,その低レベルな特徴に関するオープンな質問を伴って,LLVisionQA+データセット(A1)について述べるとともに,低レベルな499枚の画像と450枚の画像に対してMLLMを評価するLLDescribe+データセットを提案する。
さらに,画像品質評価(IQA)データセットを用いて,評価評価(A3)能力,すなわちスコアの予測を,すべてのMLLMが定量的な品質評価を生成できるように,ソフトマックスベースのアプローチを用いて評価する。
24個のMLLMを用いて、複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが単一の画像評価(例えば人間)よりもペア比較において高い精度を示す。
われわれのベンチマークは、MLLMのこれらの初期段階の能力の解明と強化に関するさらなる研究を動機付けることを願っている。
Datasetsはhttps://github.com/Q-Future/Q-Bench.comから入手できる。
The rapid development of Multi-modality Large Language Models (MLLMs) has navigated a paradigm shift in computer vision, moving towards versatile foundational models. However, evaluating MLLMs in low-level visual perception and understanding remains a yet-to-explore domain. To this end, we design benchmark settings to emulate human language responses related to low-level vision: the low-level visual perception (A1) via visual question answering related to low-level attributes (e.g. clarity, lighting); and the low-level visual description (A2), on evaluating MLLMs for low-level text descriptions. Furthermore, given that pairwise comparison can better avoid ambiguity of responses and has been adopted by many human experiments, we further extend the low-level perception-related question-answering and description evaluations of MLLMs from single images to image pairs. Specifically, for perception (A1), we carry out the LLVisionQA+ dataset, comprising 2,990 single images and 1,999 image pairs each accompanied by an open-ended question about its low-level features; for description (A2), we propose the LLDescribe+ dataset, evaluating MLLMs for low-level descriptions on 499 single images and 450 pairs. Additionally, we evaluate MLLMs on assessment (A3) ability, i.e. predicting score, by employing a softmax-based approach to enable all MLLMs to generate quantifiable quality ratings, tested against human opinions in 7 image quality assessment (IQA) datasets. With 24 MLLMs under evaluation, we demonstrate that several MLLMs have decent low-level visual competencies on single images, but only GPT-4V exhibits higher accuracy on pairwise comparisons than single image evaluations (like humans). We hope that our benchmark will motivate further research into uncovering and enhancing these nascent capabilities of MLLMs. Datasets will be available at https://github.com/Q-Future/Q-Bench. | 翻訳日:2024-08-13 23:57:57 公開日:2024-08-10 |
# LlaSMol: 大規模で包括的で高品質なインストラクションチューニングデータセットによる化学用大規模言語モデルの改善
LlaSMol: Advancing Large Language Models for Chemistry with a Large-Scale, Comprehensive, High-Quality Instruction Tuning Dataset ( http://arxiv.org/abs/2402.09391v4 ) ライセンス: Link先を確認 | Botao Yu, Frazier N. Baker, Ziqi Chen, Xia Ning, Huan Sun, | (参考訳) 化学は、薬物発見や物質科学など、多くの領域において重要な役割を担っている。
GPT-4のような大規模言語モデル(LLM)は、自然言語処理タスクにおいて顕著な能力を示すが、既存の研究では、それらの化学タスクにおける性能が著しく低いことが示されている。
しかし,本研究で開発したLCMは,より高度なGPT-4およびClaude 3 Opusよりもかなり優れた性能を発揮できることを示す。
そこで我々はSMolInstructを提案する。SMolInstructは大規模で包括的で高品質な命令チューニングデータセットである。
14の選抜された化学タスクと300万以上のサンプルが含まれており、化学のためのLCMの訓練と評価のためのしっかりとした基礎を築いている。
SMolInstructを使ってオープンソースのLCMの集合を微調整し、その中のMistralが化学タスクの最良のベースモデルであることを示す。
我々の分析は、提案したデータセットが性能改善を促進する上で重要な役割を担っていることをさらに示している。
Chemistry plays a crucial role in many domains, such as drug discovery and material science. While large language models (LLMs) such as GPT-4 exhibit remarkable capabilities on natural language processing tasks, existing research indicates that their performance on chemistry tasks is discouragingly low. In this paper, however, we demonstrate that our developed LLMs can achieve very strong results on a comprehensive set of chemistry tasks, outperforming the most advanced GPT-4 and Claude 3 Opus by a substantial margin. To accomplish this, we propose SMolInstruct, a large-scale, comprehensive, and high-quality dataset for instruction tuning. It contains 14 selected chemistry tasks and over three million samples, laying a solid foundation for training and evaluating LLMs for chemistry. Using SMolInstruct, we fine-tune a set of open-source LLMs, among which, we find that Mistral serves as the best base model for chemistry tasks. Our analysis further demonstrates the critical role of the proposed dataset in driving the performance improvements. | 翻訳日:2024-08-13 23:57:57 公開日:2024-08-10 |
# LLMによる時系列予測:モデルの能力の理解と向上
Time Series Forecasting with LLMs: Understanding and Enhancing Model Capabilities ( http://arxiv.org/abs/2402.10835v3 ) ライセンス: Link先を確認 | Hua Tang, Chong Zhang, Mingyu Jin, Qinkai Yu, Zhenting Wang, Xiaobo Jin, Yongfeng Zhang, Mengnan Du, | (参考訳) 大規模言語モデル(LLM)は多くの分野に適用され、近年急速に発展してきた。
古典的な機械学習タスクとして、時系列予測は近年LLMによって強化されている。
近年の研究では,大規模言語モデルについて,さらなる微調整を伴わない「emph{zero-shot} 時系列推論器」として扱うことで,優れた性能を実現している。
しかし、ゼロショット環境下での時系列予測にLLMを適用する際には、未解明の研究問題がある。
例えば、入力時系列に対するLLMの好みは、あまり理解されていない。
本稿では,従来の時系列予測モデルと比較することにより,時系列予測の文脈におけるLSMの多くの興味深い特性を観察する。
まず、LLMは明確なパターンや傾向を持つ時系列を予測できるが、周期性に欠けるデータセットでは課題に直面している。
この観察は、LLMがデータセットの根底にある周期を認識する能力によって説明できる。
さらに, 入力戦略について検討し, 外部知識を取り入れ, 自然言語のパラフレーズを取り入れることで, 時系列におけるLLMの予測性能が大幅に向上することが確認された。
本研究は,異なる条件下での時系列予測におけるLLMの利点と限界について考察した。
Large language models (LLMs) have been applied in many fields and have developed rapidly in recent years. As a classic machine learning task, time series forecasting has recently been boosted by LLMs. Recent works treat large language models as \emph{zero-shot} time series reasoners without further fine-tuning, which achieves remarkable performance. However, there are some unexplored research problems when applying LLMs for time series forecasting under the zero-shot setting. For instance, the LLMs' preferences for the input time series are less understood. In this paper, by comparing LLMs with traditional time series forecasting models, we observe many interesting properties of LLMs in the context of time series forecasting. First, our study shows that LLMs perform well in predicting time series with clear patterns and trends, but face challenges with datasets lacking periodicity. This observation can be explained by the ability of LLMs to recognize the underlying period within datasets, which is supported by our experiments. In addition, the input strategy is investigated, and it is found that incorporating external knowledge and adopting natural language paraphrases substantially improve the predictive performance of LLMs for time series. Overall, our study contributes insight into LLMs' advantages and limitations in time series forecasting under different conditions. | 翻訳日:2024-08-13 23:57:57 公開日:2024-08-10 |
# 複雑な問合せ応答のための条件付き論理メッセージパッシング変換器
Conditional Logical Message Passing Transformer for Complex Query Answering ( http://arxiv.org/abs/2402.12954v2 ) ライセンス: Link先を確認 | Chongzhi Zhang, Zhiping Peng, Junhao Zheng, Qianli Ma, | (参考訳) 知識グラフ(KG)上の複雑なクエリアンサーリング(CQA)は難しい課題です。
KGは通常不完全であるため、マルチホップ論理的推論によってCQAを解くニューラルネットワークが提案されている。
しかし、そのほとんどはワンホップクエリとマルチホップクエリの両方で同時にうまく機能しない。
最近の研究は、事前訓練されたニューラルネットワーク予測器に基づく論理的メッセージパッシング機構を提案する。
シングルホップクエリとマルチホップクエリの両方で有効であるが、クエリグラフ内の定数ノードと変数ノードの違いを無視する。
さらに、ノード埋め込み更新段階では、このメカニズムは異なるメッセージの重要性を動的に測定することができず、ノードと受信メッセージに関連する暗黙的な論理的依存関係をキャプチャできるかどうかも不明である。
本稿では,事前学習したニューラルネットワーク予測器を用いた場合の定数と変数の差を考慮した条件付き論理メッセージパッシングトランス(CLMPT)を提案し,ノードタイプで条件付きメッセージパッシングを行う。
我々は,本手法が性能に影響を与えずに計算コストを削減できることを実証的に検証した。
さらに、CLMPTは変換器を使用して受信したメッセージを集約し、対応するノードの埋め込みを更新する。
自己アテンション機構により、CLMPTは受信メッセージと対応するノードからなる入力セットの要素に適応重みを割り当て、様々な要素間の論理的依存関係を明示的にモデル化することができる。
実験の結果, CLMPTは最先端のニューラルCQAモデルであることがわかった。
https://github.com/qianlima-lab/CLMPT.com
Complex Query Answering (CQA) over Knowledge Graphs (KGs) is a challenging task. Given that KGs are usually incomplete, neural models are proposed to solve CQA by performing multi-hop logical reasoning. However, most of them cannot perform well on both one-hop and multi-hop queries simultaneously. Recent work proposes a logical message passing mechanism based on the pre-trained neural link predictors. While effective on both one-hop and multi-hop queries, it ignores the difference between the constant and variable nodes in a query graph. In addition, during the node embedding update stage, this mechanism cannot dynamically measure the importance of different messages, and whether it can capture the implicit logical dependencies related to a node and received messages remains unclear. In this paper, we propose Conditional Logical Message Passing Transformer (CLMPT), which considers the difference between constants and variables in the case of using pre-trained neural link predictors and performs message passing conditionally on the node type. We empirically verified that this approach can reduce computational costs without affecting performance. Furthermore, CLMPT uses the transformer to aggregate received messages and update the corresponding node embedding. Through the self-attention mechanism, CLMPT can assign adaptive weights to elements in an input set consisting of received messages and the corresponding node and explicitly model logical dependencies between various elements. Experimental results show that CLMPT is a new state-of-the-art neural CQA model. https://github.com/qianlima-lab/CLMPT. | 翻訳日:2024-08-13 23:57:57 公開日:2024-08-10 |
# LIEDER:言論エンティティ認識のための言語的インフォームド評価
LIEDER: Linguistically-Informed Evaluation for Discourse Entity Recognition ( http://arxiv.org/abs/2403.06301v2 ) ライセンス: Link先を確認 | Xiaomeng Zhu, Robert Frank, | (参考訳) 談話エンティティ(英: Discourse Entity、DE)とは、テキスト内で導入された新規で既知のエンティティを識別するタスクである。
以前の研究では、大きな言語モデルには基礎があるが、もし不完全であるなら、De認識能力(SchusterとLinzen、2022年)は評価されていない。
本稿では,言語モデルが持つ4つの重要な意味的特性(存在,独特性,複数性,新規性)について,言語モデルが持つ知識を詳細に調べることのできる,言語学的インフォームド・アセスメント・フォー・ディスコース・エンティティ・認識(LIEDER)データセットを提案する。
我々は,現在最先端の大規模言語モデルが,新規性以外のすべての特性に対して感受性を示す証拠を見いだし,人間レベルの言語理解能力にはまだ達していないことを示す。
Discourse Entity (DE) recognition is the task of identifying novel and known entities introduced within a text. While previous work has found that large language models have basic, if imperfect, DE recognition abilities (Schuster and Linzen, 2022), it remains largely unassessed which of the fundamental semantic properties that govern the introduction and subsequent reference to DEs they have knowledge of. We propose the Linguistically-Informed Evaluation for Discourse Entity Recognition (LIEDER) dataset that allows for a detailed examination of language models' knowledge of four crucial semantic properties: existence, uniqueness, plurality, and novelty. We find evidence that state-of-the-art large language models exhibit sensitivity to all of these properties except novelty, which demonstrates that they have yet to reach human-level language understanding abilities. | 翻訳日:2024-08-13 23:48:12 公開日:2024-08-10 |
# LN3Diff:高速3次元生成のためのスケーラブル潜在ニューラルネットワーク拡散
LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation ( http://arxiv.org/abs/2403.12019v2 ) ライセンス: Link先を確認 | Yushi Lan, Fangzhou Hong, Shuai Yang, Shangchen Zhou, Xuyi Meng, Bo Dai, Xingang Pan, Chen Change Loy, | (参考訳) ニューラルレンダリングの分野は、生成モデルと微分可能なレンダリング技術の進歩により、大きな進歩をみせた。
2次元拡散は成功したが、統一された3次元拡散パイプラインは依然として未解決のままである。
本稿では,このギャップに対処し,高速で高品質で汎用的な条件付き3D生成を可能にするLN3Diffという新しいフレームワークを提案する。
提案手法では,3次元アーキテクチャと可変オートエンコーダ(VAE)を用いて,入力画像を構造化されたコンパクトな3次元ラテント空間に符号化する。
潜伏剤は、トランスフォーマーベースのデコーダによって、高容量の3Dニューラルフィールドに復号される。
この3D対応潜伏空間上での拡散モデルをトレーニングすることにより,ShapeNetの3D生成における最先端性能を実現し,各データセットにおけるモノラルな3D再構成と条件付き3D生成において優れた性能を示す。
さらに、既存の3次元拡散法を推論速度で上回り、インスタンスごとの最適化を必要としない。
提案するLN3Diffは3次元生成モデリングの大幅な進歩を示し、3次元視覚およびグラフィックスタスクにおける様々な応用を約束する。
The field of neural rendering has witnessed significant progress with advancements in generative models and differentiable rendering techniques. Though 2D diffusion has achieved success, a unified 3D diffusion pipeline remains unsettled. This paper introduces a novel framework called LN3Diff to address this gap and enable fast, high-quality, and generic conditional 3D generation. Our approach harnesses a 3D-aware architecture and variational autoencoder (VAE) to encode the input image into a structured, compact, and 3D latent space. The latent is decoded by a transformer-based decoder into a high-capacity 3D neural field. Through training a diffusion model on this 3D-aware latent space, our method achieves state-of-the-art performance on ShapeNet for 3D generation and demonstrates superior performance in monocular 3D reconstruction and conditional 3D generation across various datasets. Moreover, it surpasses existing 3D diffusion methods in terms of inference speed, requiring no per-instance optimization. Our proposed LN3Diff presents a significant advancement in 3D generative modeling and holds promise for various applications in 3D vision and graphics tasks. | 翻訳日:2024-08-13 23:38:15 公開日:2024-08-10 |
# マイクロファブリック化原子気相セルを用いた広帯域帯域マイクロ波スペクトル解析装置
Broad Instantaneous Bandwidth Microwave Spectrum Analyzer with a Microfabricated Atomic Vapor Cell ( http://arxiv.org/abs/2403.15155v2 ) ライセンス: Link先を確認 | Yongqi Shi, Thomas Ruster, Melvyn Ho, Sylvain Karlen, Jacques Haesler, Philipp Treutlein, | (参考訳) 本研究では, マイクロファブリケート気相セル中のホット$^{87}\mathrm{Rb}$原子を用いた広帯域マイクロ波スペクトル解析について報告する。
センサーは、同位体的に純粋な$^{87}\mathrm{Rb}$と$$\mathrm{N}_2$バッファーガスで満たされたMEMS原子蒸気セルで、原子の運動を局在させる。
興味のあるマイクロ波信号はコプラナー導波路を介してセルに結合され、原子の光学的に励起された基底状態間のスピンフリップ遷移を誘導する。
大きな勾配の静的磁場は、入力されたマイクロ波信号の$\textit{ frequency spectrum}$を、位置依存の$\textit{spin-flip pattern}$にマッピングする。
本実験では,13GHz,3MHzの周波数分解能,2kHzのリフレッシュレート,および1s測定時間で-23dBmのシングルトンマイクロ波パワー検出限界を有するマイクロ波スペクトル解析器を試作した。
光ポンピング、マイクロ波相互作用、$^{87}\mathrm{Rb}$原子の拡散、レーザー吸収の過程を考慮し、画像信号をシミュレートする理論モデルを構築した。
印加磁場勾配によって制限された最適化セットアップで25GHz以上の瞬時帯域に到達することが期待されている。
本実験は,電子ヘテロダイン検出に基づく従来のマイクロ波スペクトル解析装置に代わる実用的代替手段を提供する。
We report on broad instantaneous bandwidth microwave spectrum analysis with hot $^{87}\mathrm{Rb}$ atoms in a microfabricated vapor cell in a large magnetic field gradient. The sensor is a MEMS atomic vapor cell filled with isotopically pure $^{87}\mathrm{Rb}$ and $\mathrm{N}_2$ buffer gas to localize the motion of the atoms. The microwave signals of interest are coupled through a coplanar waveguide to the cell, inducing spin flip transitions between optically pumped ground states of the atoms. A static magnetic field with large gradient maps the $\textit{frequency spectrum}$ of the input microwave signals to a position-dependent $\textit{spin-flip pattern}$ on absorption images of the cell recorded with a laser beam onto a camera. In our proof-of-principle experiment, we demonstrate a microwave spectrum analyzer that has $\approx$ 1 GHz instantaneous bandwidth centered around 13 GHz, 3 MHz frequency resolution, 2 kHz refresh rate, and a -23 dBm single-tone microwave power detection limit in 1 s measurement time. A theoretical model is constructed to simulate the image signals by considering the processes of optical pumping, microwave interaction, diffusion of $^{87}\mathrm{Rb}$ atoms, and laser absorption. We expect to reach more than 25 GHz instantaneous bandwidth in an optimized setup, limited by the applied magnetic field gradient. Our demonstration offers a practical alternative to conventional microwave spectrum analyzers based on electronic heterodyne detection. | 翻訳日:2024-08-13 23:38:15 公開日:2024-08-10 |
# 人間の判断に適応する:大規模言語モデル評価におけるペアワイズ・プライオリティの役割
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators ( http://arxiv.org/abs/2403.16950v3 ) ライセンス: Link先を確認 | Yinhong Liu, Han Zhou, Zhijiang Guo, Ehsan Shareghi, Ivan Vulić, Anna Korhonen, Nigel Collier, | (参考訳) 大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
しかし、LLMは依然として評価のバイアスを示しており、人間の評価と一致した一貫性のある評価を生成するのに苦労することが多い。
本研究ではまず,LLM評価器と人的判断の相違を系統的に検討し,LLM評価器を効果的に整合させるには,バイアス軽減を目的とした既存の校正方法が不十分であることを明らかにした。
RLHFにおける選好データの利用に触発されて、評価をランキング問題として定式化し、LLMを用いてペアワイズ比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索法であるPairwise-preference Search(PairS)を導入する。
PairSは、代表評価タスクにおける最先端のパフォーマンスを実現し、直接スコアよりも大幅に改善されている。
さらに, LLMの遷移度を定量化する上でのペア選好の役割について考察し, PairSのキャリブレーションによるメリットを実証する。
Large Language Models (LLMs) have demonstrated promising capabilities as automatic evaluators in assessing the quality of generated natural language. However, LLMs still exhibit biases in evaluation and often struggle to generate coherent evaluations that align with human assessments. In this work, we first conduct a systematic study of the misalignment between LLM evaluators and human judgement, revealing that existing calibration methods aimed at mitigating biases are insufficient for effectively aligning LLM evaluators. Inspired by the use of preference data in RLHF, we formulate the evaluation as a ranking problem and introduce Pairwise-preference Search (PairS), an uncertainty-guided search method that employs LLMs to conduct pairwise comparisons and efficiently ranks candidate texts. PairS achieves state-of-the-art performance on representative evaluation tasks and demonstrates significant improvements over direct scoring. Furthermore, we provide insights into the role of pairwise preference in quantifying the transitivity of LLMs and demonstrate how PairS benefits from calibration. | 翻訳日:2024-08-13 23:38:15 公開日:2024-08-10 |
# 少ない希少現象から希少現象を学習する言語モデル:行方不明AANNを事例として
Language Models Learn Rare Phenomena from Less Rare Phenomena: The Case of the Missing AANNs ( http://arxiv.org/abs/2403.19827v2 ) ライセンス: Link先を確認 | Kanishka Misra, Kyle Mahowald, | (参考訳) 言語モデルは、希少な構文現象を学習するが、それが一般化と記憶の融合に起因する範囲は、大きなオープンな問題である。
そこで我々は,人体規模の体系的に操作されたコーパスのトランスフォーマー言語モデルを反復的に訓練し,英語+形容詞+Numeral+Noun(AANN)構築(「美しい5日間」)という稀な文法現象の学習を評価した。
AANN文を削除した対実コーパスに対して, デフォルトコーパスでこの構成がいかにうまく学習されたかを比較した。
AANNは、構成の体系的に摂動された変種よりも、依然として学習されていることが分かりました。
追加の対物コーパスを用いて、この学習は関連する構成(例えば ``a few days'' )からの一般化によって起こることを示唆する。
さらなる実験により、この学習は、入力により多くのばらつきがある場合に強化されることが示された。
この結果から,少ない希少な現象から一般化することで,LMが希少な文法現象を学習できることを示す。
データとコード:https://github.com/kanishkamisra/aannalysis。
Language models learn rare syntactic phenomena, but the extent to which this is attributable to generalization vs. memorization is a major open question. To that end, we iteratively trained transformer language models on systematically manipulated corpora which were human-scale in size, and then evaluated their learning of a rare grammatical phenomenon: the English Article+Adjective+Numeral+Noun (AANN) construction (``a beautiful five days''). We compared how well this construction was learned on the default corpus relative to a counterfactual corpus in which AANN sentences were removed. We found that AANNs were still learned better than systematically perturbed variants of the construction. Using additional counterfactual corpora, we suggest that this learning occurs through generalization from related constructions (e.g., ``a few days''). An additional experiment showed that this learning is enhanced when there is more variability in the input. Taken together, our results provide an existence proof that LMs can learn rare grammatical phenomena by generalization from less rare phenomena. Data and code: https://github.com/kanishkamisra/aannalysis. | 翻訳日:2024-08-13 23:38:15 公開日:2024-08-10 |
# LITE:マルチモーダル大言語モデルによる環境生態系のモデル化
LITE: Modeling Environmental Ecosystems with Multimodal Large Language Models ( http://arxiv.org/abs/2404.01165v2 ) ライセンス: Link先を確認 | Haoran Li, Junqi Liu, Zexian Wang, Shiyuan Luo, Xiaowei Jia, Huaxiu Yao, | (参考訳) 環境生態系のモデリングは,地球環境の持続可能な管理において重要な役割を担っている。
空間と時間における重要な環境変数の正確な予測は、インフォームドポリシーや意思決定に役立つため、人々の生活を改善することができる。
近年,深層学習に基づく手法は,環境変数の予測のための空間的・時間的関係をモデル化する上で有望であることが示されている。
しかし、これらの手法は不完全な特徴や分布の変化を扱うのに不足することが多く、これは測定器におけるデータ収集と誤動作のかなりのコストのために、環境データでよく見られる。
これらの課題に対処するため,環境生態系モデリングのための多モーダル大規模言語モデルLITEを提案する。
具体的には、LITEは環境変数を自然言語記述や線グラフ画像に変換することで、異なる環境変数を統一する。
そして、LITEは統一エンコーダを使用して、異なるモードの空間的時間的ダイナミクスと相関をキャプチャする。
この段階において、不完全な特徴はスパース・ミックス・オブ・エキスパート・フレームワークによって示唆され、分布シフトは過去の観測から多粒度情報を取り入れることで処理される。
最後に、ドメイン命令で導かれる言語モデルを用いて、予測のためのマルチモーダル表現を融合させる。
実験により, LITEは, 環境空間的予測の精度を, 最良基準に比べて有意に向上し, 予測誤差は41.25%減少した。
これはその効果を正当化する。
私たちのデータとコードはhttps://github.com/hrlics/LITE.comで公開されています。
The modeling of environmental ecosystems plays a pivotal role in the sustainable management of our planet. Accurate prediction of key environmental variables over space and time can aid in informed policy and decision-making, thus improving people's livelihood. Recently, deep learning-based methods have shown promise in modeling the spatial-temporal relationships for predicting environmental variables. However, these approaches often fall short in handling incomplete features and distribution shifts, which are commonly observed in environmental data due to the substantial cost of data collection and malfunctions in measuring instruments. To address these issues, we propose LITE -- a multimodal large language model for environmental ecosystems modeling. Specifically, LITE unifies different environmental variables by transforming them into natural language descriptions and line graph images. Then, LITE utilizes unified encoders to capture spatial-temporal dynamics and correlations in different modalities. During this step, the incomplete features are imputed by a sparse Mixture-of-Experts framework, and the distribution shift is handled by incorporating multi-granularity information from past observations. Finally, guided by domain instructions, a language model is employed to fuse the multimodal representations for the prediction. Our experiments demonstrate that LITE significantly enhances performance in environmental spatial-temporal prediction across different domains compared to the best baseline, with a 41.25% reduction in prediction error. This justifies its effectiveness. Our data and code are available at https://github.com/hrlics/LITE. | 翻訳日:2024-08-13 23:27:39 公開日:2024-08-10 |
# 雑音指向適応リマッピングによる量子近似最適化の改善
Improving Quantum Approximate Optimization by Noise-Directed Adaptive Remapping ( http://arxiv.org/abs/2404.01412v2 ) ライセンス: Link先を確認 | Filip B. Maciejewski, Jacob Biamonte, Stuart Hadfield, Davide Venturelli, | (参考訳) 本研究では,ある種類の雑音を利用して二元最適化問題を解くためのヒューリスティックアルゴリズムであるノイズ指向適応リマッピング(NDAR)を提案する。
我々は、グローバルなアトラクタ状態を特徴とするダイナミックスを備えたノイズの多い量子プロセッサへのアクセスを検討する。
標準的な設定では、そのようなノイズは量子最適化性能に有害である。
我々のアルゴリズムは、ノイズアトラクターを高品質な解に変換する方法で、コスト関数ハミルトニアンを反復的にゲージ変換することでノイズアトラクター状態をブートストラップする。
この変換は、前のステップの結果に基づいて、アトラクタをハミルトニアンの高品質な解に効果的に変換する。
その結果、ノイズはノイズを邪魔するのではなく、変分最適化に役立ちます。
我々は,リゲッティの量子デバイスを用いた実験において,改良された量子近似最適化アルゴリズム(QAOA)を提案する。
NDAR を用いた深度 $p=1$ QAOA のみを用いて,n=82$ qubits 上のランダムな完全連結グラフに対して 0.9$-$0.96$ の近似比を報告する。
これは、標準の$p=1$ QAOAで同じ関数呼び出し数で0.34$-$0.51$と比較する。
We present Noise-Directed Adaptive Remapping (NDAR), a heuristic algorithm for approximately solving binary optimization problems by leveraging certain types of noise. We consider access to a noisy quantum processor with dynamics that features a global attractor state. In a standard setting, such noise can be detrimental to the quantum optimization performance. Our algorithm bootstraps the noise attractor state by iteratively gauge-transforming the cost-function Hamiltonian in a way that transforms the noise attractor into higher-quality solutions. The transformation effectively changes the attractor into a higher-quality solution of the Hamiltonian based on the results of the previous step. The end result is that noise aids variational optimization, as opposed to hindering it. We present an improved Quantum Approximate Optimization Algorithm (QAOA) runs in experiments on Rigetti's quantum device. We report approximation ratios $0.9$-$0.96$ for random, fully connected graphs on $n=82$ qubits, using only depth $p=1$ QAOA with NDAR. This compares to $0.34$-$0.51$ for standard $p=1$ QAOA with the same number of function calls. | 翻訳日:2024-08-13 23:27:39 公開日:2024-08-10 |
# 合成データから学ぶベストプラクティスと教訓
Best Practices and Lessons Learned on Synthetic Data ( http://arxiv.org/abs/2404.07503v2 ) ライセンス: Link先を確認 | Ruibo Liu, Jerry Wei, Fangyu Liu, Chenglei Si, Yanzhe Zhang, Jinmeng Rao, Steven Zheng, Daiyi Peng, Diyi Yang, Denny Zhou, Andrew M. Dai, | (参考訳) AIモデルの成功は、データ不足、プライバシの懸念、高コストによる取得が困難な、大規模で多様で高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望な解決策として現れてきた。
本稿では,合成データ研究の概要と応用,課題,今後の方向性について論じる。
我々は,先行技術による実証的証拠を提示し,その有効性を示し,その事実性,忠実性,不偏性を保証することの重要性を強調した。
我々は、より強力で包括的で信頼できる言語モデルを構築するために、合成データの責任ある利用の必要性を強調します。
The success of AI models relies on the availability of large, diverse, and high-quality datasets, which can be challenging to obtain due to data scarcity, privacy concerns, and high costs. Synthetic data has emerged as a promising solution by generating artificial data that mimics real-world patterns. This paper provides an overview of synthetic data research, discussing its applications, challenges, and future directions. We present empirical evidence from prior art to demonstrate its effectiveness and highlight the importance of ensuring its factuality, fidelity, and unbiasedness. We emphasize the need for responsible use of synthetic data to build more powerful, inclusive, and trustworthy language models. | 翻訳日:2024-08-13 23:27:39 公開日:2024-08-10 |
# kNN-CLIP: Retrievalは、大規模語彙を継続的に拡張するトレーニング不要なセグメンテーションを可能にする
kNN-CLIP: Retrieval Enables Training-Free Segmentation on Continually Expanding Large Vocabularies ( http://arxiv.org/abs/2404.09447v2 ) ライセンス: Link先を確認 | Zhongrui Gui, Shuyang Sun, Runjia Li, Jianhao Yuan, Zhaochong An, Karsten Roth, Ameya Prabhu, Philip Torr, | (参考訳) 連続セグメンテーションは、大規模で継続的な拡大する語彙の正確なセグメンテーションのためのトレーニングデータを用いてオープン語彙セグメンテーションモデルを改善するという課題に、まだ取り組んでいない。
従来型連続訓練は致命的な破滅的な忘れ込みを招き,ゼロショットセグメンテーションベースラインを上回りません。
そこで本研究では,学習自由戦略であるkNN-CLIPを導入し,モデルにセマンティクスと汎視的セグメンテーションのためのデータベースを組み込んだモデルを構築した。
我々は、kNN-CLIPが、再学習や大きなメモリコストを必要とせずに、継続的に成長する語彙に適応できることを実証した。
kNN-CLIPは、オープン語彙のセグメンテーション手法により、データの単一パスで任意のドメイン上で語彙を拡張することができ、コンパクトな埋め込みのみを格納できる。
このアプローチは計算コストとメモリコストを最小化する。
kNN-CLIPは、大語彙セマンティクスとパノプティクスセグメンテーションデータセットにまたがる最先端のパフォーマンスを実現する。
我々は、kNN-CLIPがより効率的で適応可能な連続セグメンテーションを実現し、実世界の大語彙連続セグメンテーション手法の進歩の道を開く上で、重要な一歩となることを願っている。
Continual segmentation has not yet tackled the challenge of improving open-vocabulary segmentation models with training data for accurate segmentation across large, continually expanding vocabularies. We discover that traditional continual training results in severe catastrophic forgetting, failing to outperform a zero-shot segmentation baseline. We introduce a novel training-free strategy, kNN-CLIP, which augments the model with a database of instance embeddings for semantic and panoptic segmentation that achieves zero forgetting. We demonstrate that kNN-CLIP can adapt to continually growing vocabularies without the need for retraining or large memory costs. kNN-CLIP enables open-vocabulary segmentation methods to expand their vocabularies on any domain with a single pass through the data, while only storing compact embeddings. This approach minimizes both compute and memory costs. kNN-CLIP achieves state-of-the-art performance across large-vocabulary semantic and panoptic segmentation datasets. We hope kNN-CLIP represents a significant step forward in enabling more efficient and adaptable continual segmentation, paving the way for advances in real-world large-vocabulary continual segmentation methods. | 翻訳日:2024-08-13 23:27:39 公開日:2024-08-10 |
# 量子コンピューティング:インタラクティブなビジュアル量子回路シミュレータを中心に構築されたオンラインコース
Quantum Computing for All: Online Courses Built Around Interactive Visual Quantum Circuit Simulator ( http://arxiv.org/abs/2404.10328v2 ) ライセンス: Link先を確認 | Juha Reinikainen, Vlad Stirbu, Teiko Heinosaari, Vesa Lappalainen, Tommi Mikkonen, | (参考訳) 量子コンピューティングは高度に抽象的な科学分野であり、将来の情報技術に非常に実用的な関係があることが期待されている。
これにより、教育者は様々なバックグラウンドを持ち、量子物理学の事前知識を持たない学生に量子コンピューティングを教える新しい方法を模索せざるを得ない。
我々は,インタラクティブな量子回路シミュレータをベースとしたオンラインコースを開発した。
即時フィードバックと自動評価タスクにより、すべての学生のバックグラウンドに関わらず、量子コンピューティングへの参入障壁が低下する。
Quantum computing is a highly abstract scientific discipline, which, however, is expected to have great practical relevance in future information technology. This forces educators to seek new methods to teach quantum computing for students with diverse backgrounds and with no prior knowledge of quantum physics. We have developed an online course built around an interactive quantum circuit simulator designed to enable easy creation and maintenance of course material with ranging difficulty. The immediate feedback and automatically evaluated tasks lowers the entry barrier to quantum computing for all students, regardless of their background. | 翻訳日:2024-08-13 23:17:20 公開日:2024-08-10 |
# DESTEIN:ユニバーサルステアリングペアとヘッドワイドアクティベーションフュージョンによる言語モデルのデトックス化のナビゲート
DESTEIN: Navigating Detoxification of Language Models via Universal Steering Pairs and Head-wise Activation Fusion ( http://arxiv.org/abs/2404.10464v3 ) ライセンス: Link先を確認 | Yu Li, Han Jiang, Chuanyang Gong, Zhihua Wei, | (参考訳) 言語モデル (LM) は様々なタスクにまたがる顕著な成果にもかかわらず、有害なアウトプットを生成するための妥当性は依然として大きな関心事である。
ファインチューニングや補助モデルを含む現在のソリューションは、通常、広範囲な計算資源を必要とし、大きな言語モデル(LLM)におけるそれらの実用性を妨げている。
本稿では,資源・時間コストの低い活性化空間における表現工学の適用により,LMをデトックス化する新しい手法であるDeSteinを提案する。
具体的には,活性化空間における算術演算を通じて,自己誘導的,普遍的ステアリング対からデトックス化ベクトルを導出する。
推論中、デトキシフィケーションベクトルと元の表現を頭部的に融合させることによりデトキシフィケーションが達成される。
実験結果から,本手法は様々な指標に対する従来の最先端手法よりも優れており,良好な生成品質と多様性を維持していることがわかった。
さらに,一連のホワイトボックスLLMを用いて,DeSteinの実用性とスケーラビリティを検証した。
このメソッドはhttps://github.com/LizLizLi/DeSteinでオープンソース化されている。
警告: いくつかのモデル出力には、非常に攻撃的あるいは乱雑なテキストが含まれている可能性がある。
Despite the remarkable achievements of language models (LMs) across a broad spectrum of tasks, their propensity for generating toxic outputs remains a prevalent concern. Current solutions involving finetuning or auxiliary models usually require extensive computational resources, hindering their practicality in large language models (LLMs). In this paper, we propose DeStein, a novel method that detoxifies LMs by applying representation engineering in activation spaces with lower resource and time costs. Specifically, we derive detoxification vectors from self-induced, universal steering pairs through arithmetic operations in activation spaces. During inference, detoxification is achieved by fusing the detoxification vectors with the original representations in a head-wise manner. Empirical results demonstrate that our method significantly outperforms previous state-of-the-art approaches on various metrics, while also maintaining satisfactory generation quality and diversity. We further validate the practicality and scalability of DeStein with a series of white-box LLMs. The method is open-sourced at https://github.com/LizLizLi/DeStein. Warning: Some example model outputs may contain highly offensive or disturbing text. | 翻訳日:2024-08-13 23:17:20 公開日:2024-08-10 |
# 量子ドットの絡み合い:動的サセプティビリティと量子漁業情報から
Entanglement in Quantum Dots: Insights from Dynamic Susceptibility and Quantum Fisher Information ( http://arxiv.org/abs/2404.15477v3 ) ライセンス: Link先を確認 | Jahanfar Abouie, Daryoosh Vashaee, | (参考訳) 本研究では,量子ドット(QD)の粒子間クーロン相互作用を電荷エネルギーと交換結合項に分解するハミルトニアンの下での絡み合い特性について検討した。
この形式主義は典型的には電荷とスピン成分を分離するが、閉じ込めによって引き起こされるエネルギー分割は系の予期せぬ絡みを引き起こす。
動的感受性と量子フィッシャー情報(QFI)を解析することにより、交換定数、温度変動、閉じ込め効果に影響される興味深い挙動を明らかにする。
Ising QDsは、QDが乱れた常磁性相にあるストーナー不安定点よりはるかに低い位置にあり、予想外の温度低下によって絡み合いが減少し、従来の期待に反する。
逆に、異方性ハイゼンベルク模型は等方点付近の強い絡み合いを示す。
本研究は,QDにおける交換相互作用と絡み合いの複雑な相互作用に注目し,トポロジカルな絡み合いと絡み合いの影響に関する今後の研究の基盤となっている。
全体として、この研究は量子技術におけるQDの絡み合いの理解と潜在的な応用に寄与する。
This study investigates the entanglement properties of quantum dots (QDs) under a universal Hamiltonian where the Coulomb interaction between particles (electrons or holes) decouples into a charging energy and an exchange coupling term. While this formalism typically decouples the charge and spin components, the confinement-induced energy splitting can induce unexpected entanglement in the system. By analyzing the dynamic susceptibility and quantum Fisher information (QFI), we uncover intriguing behaviors influenced by exchange constants, temperature variations, and confinement effects. In Ising QDs, far below the Stoner instability point where the QD is in a disordered paramagnetic phase, temperature reductions unexpectedly lead to decreased entanglement, challenging conventional expectations. Conversely, anisotropic Heisenberg models exhibit enhanced entanglement near isotropic points. Our findings highlight the intricate interplay between exchange interactions and entanglement in QDs, laying the groundwork for future studies on topological entanglement and the influence of entanglement on material properties. Overall, this work contributes to advancing our understanding of entanglement in QDs and its potential applications in quantum technologies. | 翻訳日:2024-08-13 23:17:20 公開日:2024-08-10 |
# V2A-Mark: 操作のローカライゼーションと著作権保護のためのVersatile Deep Visual-Audio Watermarking
V2A-Mark: Versatile Deep Visual-Audio Watermarking for Manipulation Localization and Copyright Protection ( http://arxiv.org/abs/2404.16824v3 ) ライセンス: Link先を確認 | Xuanyu Zhang, Youmin Xu, Runyi Li, Jiwen Yu, Weiqi Li, Zhipei Xu, Jian Zhang, | (参考訳) AIによって生成されたビデオは、短いビデオ制作、映画製作、パーソナライズされたメディアに革命をもたらし、ビデオローカル編集が必須のツールとなった。
しかし、この進歩は現実とフィクションの境界を曖昧にし、マルチメディアの法医学における課題を浮き彫りにしている。
この緊急問題を解決するために、V2A-Markは、一般化性、特異関数、単一モダリティ焦点などの現在のビデオ改ざん法医学の限界に対処するために提案されている。
ビデオ・イン・ビデオ・ステガノグラフィーの脆弱さと深いロバストな透かしとを組み合わせることで,オリジナルビデオフレームやオーディオに視覚・オーディオのローカライズ・透かしや著作権の透かしを埋め込むことが可能となり,正確な操作のローカライゼーションと著作権保護が可能となった。
また、局所化精度を高め、ロバスト性を復号化するために、時間的アライメントと融合モジュールと劣化の促進学習を設計する。
一方,サンプルレベルの音声ローカライズ手法と,オーディオフレームとビデオフレームの情報とを結合するクロスモーダル著作権抽出機構を導入する。
V2A-Markの有効性は、AIGCビデオ時代におけるビデオ編集の持続可能な発展に欠かせない、ローカライズ精度と著作権の精度において、その優位性を強調して、視覚オーディオの改ざんデータセット上で検証されている。
AI-generated video has revolutionized short video production, filmmaking, and personalized media, making video local editing an essential tool. However, this progress also blurs the line between reality and fiction, posing challenges in multimedia forensics. To solve this urgent issue, V2A-Mark is proposed to address the limitations of current video tampering forensics, such as poor generalizability, singular function, and single modality focus. Combining the fragility of video-into-video steganography with deep robust watermarking, our method can embed invisible visual-audio localization watermarks and copyright watermarks into the original video frames and audio, enabling precise manipulation localization and copyright protection. We also design a temporal alignment and fusion module and degradation prompt learning to enhance the localization accuracy and decoding robustness. Meanwhile, we introduce a sample-level audio localization method and a cross-modal copyright extraction mechanism to couple the information of audio and video frames. The effectiveness of V2A-Mark has been verified on a visual-audio tampering dataset, emphasizing its superiority in localization precision and copyright accuracy, crucial for the sustainable development of video editing in the AIGC video era. | 翻訳日:2024-08-13 23:17:20 公開日:2024-08-10 |
# 化学製造プロセスにおける断層検出のための3層深層学習ネットワークランダムツリー
Three-layer deep learning network random trees for fault detection in chemical production process ( http://arxiv.org/abs/2405.00311v3 ) ライセンス: Link先を確認 | Ming Lu, Zhen Gao, Ying Zou, Zuguo Chen, Pei Li, | (参考訳) 技術の発達に伴い、化学製造プロセスはますます複雑で大規模になり、特に故障検出が重要になっている。
しかし、現在の刑事法は、大規模生産プロセスの複雑さに対処するのに苦労している。
本稿では,ディープラーニングと機械学習技術の強みを統合し,双方向の長期・短期記憶型ニューラルネットワーク,完全連結型ニューラルネットワークの利点と,三層深層学習型ニューラルネットワークランダムツリー(TDLN-trees)と呼ばれる新しい故障検出モデルを提案する。
まず、ディープラーニングコンポーネントは、産業データから時間的特徴を抽出し、それらを組み合わせて高レベルのデータ表現に変換する。
次に、機械学習コンポーネントは、最初のステップで抽出された特徴を処理し、分類する。
テネシー・イーストマン法に基づく実験解析により,提案手法の優位性を検証した。
With the development of technology, the chemical production process is becoming increasingly complex and large-scale, making fault detection particularly important. However, current detective methods struggle to address the complexities of large-scale production processes. In this paper, we integrate the strengths of deep learning and machine learning technologies, combining the advantages of bidirectional long and short-term memory neural networks, fully connected neural networks, and the extra trees algorithm to propose a novel fault detection model named three-layer deep learning network random trees (TDLN-trees). First, the deep learning component extracts temporal features from industrial data, combining and transforming them into a higher-level data representation. Second, the machine learning component processes and classifies the features extracted in the first step. An experimental analysis based on the Tennessee Eastman process verifies the superiority of the proposed method. | 翻訳日:2024-08-13 23:07:09 公開日:2024-08-10 |
# AdaMole: 低ランク適応エキスパートの適応混合を用いた微調整大言語モデル
AdaMoLE: Fine-Tuning Large Language Models with Adaptive Mixture of Low-Rank Adaptation Experts ( http://arxiv.org/abs/2405.00361v2 ) ライセンス: Link先を確認 | Zefang Liu, Jiahua Luo, | (参考訳) 本稿では,Low-Rank Adaptation (LoRA) Expertsを通じて,大規模言語モデル(LLM)を微調整する新しい手法であるAdaMoLEを紹介する。
AdaMoLEは、専門家を活性化するための静的トップk戦略を採用する従来の方法を超えて、専用のしきい値ネットワークを使用してアクティベーションしきい値を動的に調整し、さまざまなタスクの複雑さに適応的に応答する。
単一のLoRAを複数のLoRA専門家に置き換え、しきい値メカニズムにゲーティング関数を統合することで、AdaMoLEは入力コンテキストに基づいて、最も適切な専門家を効果的に選択し、活性化する。
様々なコモンセンス推論や自然言語処理タスクに対する広範な評価は,AdaMoLEがベースライン性能を上回ることを示す。
この強化は、AdaMoLEがLoRAの専門家を適応的に選別することの利点を強調し、専門家数の増加を伴わないモデルの有効性を向上させる。
実験による検証により、AdaMoLEはLLMの強化のための堅牢なアプローチであるだけでなく、適応的な専門家選択機構の研究にも有用であることが示唆され、多種多様な言語処理タスクにおけるモデル性能の最適化の範囲が拡大される可能性がある。
We introduce AdaMoLE, a novel method for fine-tuning large language models (LLMs) through an Adaptive Mixture of Low-Rank Adaptation (LoRA) Experts. Moving beyond conventional methods that employ a static top-k strategy for activating experts, AdaMoLE dynamically adjusts the activation threshold using a dedicated threshold network, adaptively responding to the varying complexities of different tasks. By replacing a single LoRA in a layer with multiple LoRA experts and integrating a gating function with the threshold mechanism, AdaMoLE effectively selects and activates the most appropriate experts based on the input context. Our extensive evaluations across a variety of commonsense reasoning and natural language processing tasks show that AdaMoLE exceeds baseline performance. This enhancement highlights the advantages of AdaMoLE's adaptive selection of LoRA experts, improving model effectiveness without a corresponding increase in the expert count. The experimental validation not only confirms AdaMoLE as a robust approach for enhancing LLMs but also suggests valuable directions for future research in adaptive expert selection mechanisms, potentially broadening the scope for optimizing model performance across diverse language processing tasks. | 翻訳日:2024-08-13 23:07:09 公開日:2024-08-10 |
# 仮想アナログ音響効果モデリングのためのリカレントニューラルネットワークの比較検討
Comparative Study of Recurrent Neural Networks for Virtual Analog Audio Effects Modeling ( http://arxiv.org/abs/2405.04124v3 ) ライセンス: Link先を確認 | Riccardo Simionato, Stefano Fasciani, | (参考訳) アナログ電子回路は、音楽機器の重要なカテゴリの中核にある。
電子部品の非線形特性は、アナログ音楽機器に独特の音色と音質を与え、非常に好ましい。
人工ニューラルネットワークは、アナログオーディオ効果回路、特にリカレントネットワークのエミュレーションで急速に人気を集めている。
ニューラルネットワークは歪み回路を正確にモデル化することに成功したが、パラメータ条件付けと低レイテンシ応答を考慮したアーキテクチャの改善が必要である。
本稿では,最近の機械学習の仮想アナログモデリングへの応用について検討する。
我々は、ステートスペースモデルと線形リカレントユニットを、より一般的なLong Short Term Memoryネットワークと比較する。
これらはシーケンス・ツー・シーケンス・モデリングのタスクにおいて有望な能力を示し、信号履歴符号化の顕著な改善を示している。
我々の比較研究は、様々な音響効果を持つブラックボックスニューラルモデリング技術を用いている。
音響信号のエネルギー包絡、周波数内容、過渡性を正確に再現するモデルの能力を評価するために、複数の指標を用いて性能と限界を評価する。
制御パラメータを組み込むには、Feature wise Linear Modulation法を用いる。
長期記憶ネットワークは歪みや等化器のエミュレートにおいて精度が向上し、ステートスペースモデルはエンコーダデコーダ構造に統合された場合の長期記憶ネットワークに続き、飽和や圧縮のエミュレーションにおいて他より優れる。
長期間の変動特性を考慮すると、状態空間モデルは最大の精度を示す。
長期記憶(Long Short Term Memory)、特にリニア・リカレント・ユニット・ネットワーク(Linear Recurrent Unit Network)は、オーディオ・アーティファクトを導入する傾向がある。
Analog electronic circuits are at the core of an important category of musical devices. The nonlinear features of their electronic components give analog musical devices a distinctive timbre and sound quality, making them highly desirable. Artificial neural networks have rapidly gained popularity for the emulation of analog audio effects circuits, particularly recurrent networks. While neural approaches have been successful in accurately modeling distortion circuits, they require architectural improvements that account for parameter conditioning and low latency response. In this article, we explore the application of recent machine learning advancements for virtual analog modeling. We compare State Space models and Linear Recurrent Units against the more common Long Short Term Memory networks. These have shown promising ability in sequence to sequence modeling tasks, showing a notable improvement in signal history encoding. Our comparative study uses these black box neural modeling techniques with a variety of audio effects. We evaluate the performance and limitations using multiple metrics aiming to assess the models' ability to accurately replicate energy envelopes, frequency contents, and transients in the audio signal. To incorporate control parameters we employ the Feature wise Linear Modulation method. Long Short Term Memory networks exhibit better accuracy in emulating distortions and equalizers, while the State Space model, followed by Long Short Term Memory networks when integrated in an encoder decoder structure, outperforms others in emulating saturation and compression. When considering long time variant characteristics, the State Space model demonstrates the greatest accuracy. The Long Short Term Memory and, in particular, Linear Recurrent Unit networks present more tendency to introduce audio artifacts. | 翻訳日:2024-08-13 23:07:09 公開日:2024-08-10 |
# PolygloToxicity Prompts:大規模言語モデルにおける神経毒性の多言語的評価
PolygloToxicityPrompts: Multilingual Evaluation of Neural Toxic Degeneration in Large Language Models ( http://arxiv.org/abs/2405.09373v3 ) ライセンス: Link先を確認 | Devansh Jain, Priyanshu Kumar, Samuel Gehman, Xuhui Zhou, Thomas Hartvigsen, Maarten Sap, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、その広範なグローバル展開をもたらし、包括的および多言語毒性評価に対する安全性の要求を確実にしている。
しかし、既存の毒性ベンチマークは圧倒的に英語に重点を置いており、他の言語にLSMをデプロイする重大なリスクを負っている。
PTP(PolygloToxicity Prompts)は、17言語にまたがる自然発生425Kの大規模多言語毒性評価ベンチマークである。
我々は、Webテキストに自然に発生する毒性の不足を克服し、1億以上のWebテキスト文書を自動的にスクラップすることで、様々なリソースを持つ言語にまたがるカバレッジを確保する。
PTPを用いて,60 LLMのベンチマークにより,モデルサイズ,プロンプト言語,指示および選好学習法が毒性に及ぼす影響について検討した。
特に,言語資源の減少やモデルサイズの増加に伴い,毒性が増大することがわかった。
指導・嗜好調整は毒性を低下させるが、選好調整法の選択は大きな影響を与えない。
LLMの安全確保と今後の研究分野のハイライトに光を当てた。
Recent advances in large language models (LLMs) have led to their extensive global deployment, and ensuring their safety calls for comprehensive and multilingual toxicity evaluations. However, existing toxicity benchmarks are overwhelmingly focused on English, posing serious risks to deploying LLMs in other languages. We address this by introducing PolygloToxicityPrompts (PTP), the first large-scale multilingual toxicity evaluation benchmark of 425K naturally occurring prompts spanning 17 languages. We overcome the scarcity of naturally occurring toxicity in web-text and ensure coverage across languages with varying resources by automatically scraping over 100M web-text documents. Using PTP, we investigate research questions to study the impact of model size, prompt language, and instruction and preference-tuning methods on toxicity by benchmarking over 60 LLMs. Notably, we find that toxicity increases as language resources decrease or model size increases. Although instruction- and preference-tuning reduce toxicity, the choice of preference-tuning method does not have any significant impact. Our findings shed light on crucial shortcomings of LLM safeguarding and highlight areas for future research. | 翻訳日:2024-08-13 23:07:09 公開日:2024-08-10 |
# 高速コミッタマシン:カーネルによる解釈可能な予測
The fast committor machine: Interpretable prediction with kernels ( http://arxiv.org/abs/2405.10410v3 ) ライセンス: Link先を確認 | D. Aristoff, M. Johnson, G. Simpson, R. J. Webber, | (参考訳) 確率的システムの研究において、コミッタ関数は、初期設定から始まるシステムが、セット$A$の前にセット$B$に達する確率を記述する。
本稿では, 高速コミッタマシン (FCM) と呼ばれる, コミッタを近似するための効率的かつ解釈可能なアルゴリズムを提案する。
FCMは、シミュレーションされた軌跡データを使用して、コミッタのカーネルベースのモデルを構築する。
カーネル関数は、$A$から$B$遷移を最適に記述する低次元部分空間を強調するように構成される。
カーネルモデルの係数はランダム化された線形代数を用いて決定され、データポイント数で線形にスケールするランタイムとなる。
三重井戸電位とアラニンジペプチドを含む数値実験では、FCMは精度が高く、同じ数のパラメータを持つニューラルネットワークよりも速く訓練する。
FCMはニューラルネットよりも解釈可能である。
In the study of stochastic systems, the committor function describes the probability that a system starting from an initial configuration $x$ will reach a set $B$ before a set $A$. This paper introduces an efficient and interpretable algorithm for approximating the committor, called the "fast committor machine" (FCM). The FCM uses simulated trajectory data to build a kernel-based model of the committor. The kernel function is constructed to emphasize low-dimensional subspaces that optimally describe the $A$ to $B$ transitions. The coefficients in the kernel model are determined using randomized linear algebra, leading to a runtime that scales linearly in the number of data points. In numerical experiments involving a triple-well potential and alanine dipeptide, the FCM yields higher accuracy and trains more quickly than a neural network with the same number of parameters. The FCM is also more interpretable than the neural net. | 翻訳日:2024-08-13 23:07:09 公開日:2024-08-10 |
# FTMixer:時系列モデリングのための周波数・時間領域表現融合
FTMixer: Frequency and Time Domain Representations Fusion for Time Series Modeling ( http://arxiv.org/abs/2405.15256v2 ) ライセンス: Link先を確認 | Zhengnan Li, Yunxiao Qin, Xilong Cheng, Yuting Tan, | (参考訳) 時系列データは時間領域と周波数領域の両方で表現することができ、時間領域は局所的な依存関係を強調し、周波数領域はグローバルな依存関係を強調します。
局所的およびグローバルな依存関係を捕捉する際の両方のドメインの強みを活用するために、周波数と時間ドメインミキサー(FTMixer)を提案する。
本稿では,周波数領域のグローバルな特性を活用するために,周波数チャネル変換(FCC)モジュールを導入する。
周波数領域変換におけるウィンドウ化の概念に触発されて、ローカル依存関係をキャプチャするWindowing Frequency Convolution(WFC)モジュールを提示する。
WFCモジュールはまず各ウィンドウ内で周波数変換を適用し、続いてウィンドウ間で畳み込みを行う。
さらに、これらのローカル依存をよりよく捉えるために、時間領域と周波数領域のパッチを混在させるチャネルに依存しないスキームを用いる。
特に、FTMixerは複素数ベースの離散フーリエ変換(DFT)の代わりに実数を持つ離散コサイン変換(DCT)を採用し、周波数領域における現代のディープラーニング演算子の直接利用を可能にしている。
7つの実世界の時系列データセットの大規模な実験結果は、予測性能と計算効率の両方の観点から、FTMixerの優位性を示している。
Time series data can be represented in both the time and frequency domains, with the time domain emphasizing local dependencies and the frequency domain highlighting global dependencies. To harness the strengths of both domains in capturing local and global dependencies, we propose the Frequency and Time Domain Mixer (FTMixer). To exploit the global characteristics of the frequency domain, we introduce the Frequency Channel Convolution (FCC) module, designed to capture global inter-series dependencies. Inspired by the windowing concept in frequency domain transformations, we present the Windowing Frequency Convolution (WFC) module to capture local dependencies. The WFC module first applies frequency transformation within each window, followed by convolution across windows. Furthermore, to better capture these local dependencies, we employ channel-independent scheme to mix the time domain and frequency domain patches. Notably, FTMixer employs the Discrete Cosine Transformation (DCT) with real numbers instead of the complex-number-based Discrete Fourier Transformation (DFT), enabling direct utilization of modern deep learning operators in the frequency domain. Extensive experimental results across seven real-world long-term time series datasets demonstrate the superiority of FTMixer, in terms of both forecasting performance and computational efficiency. | 翻訳日:2024-08-13 21:12:59 公開日:2024-08-10 |
# ガウス派を侮辱するな - 散乱と許容メディアのモデリングとレンダリングのためのボリューム・レイトレーシッド・プリミティブ
Don't Splat your Gaussians: Volumetric Ray-Traced Primitives for Modeling and Rendering Scattering and Emissive Media ( http://arxiv.org/abs/2405.15425v2 ) ライセンス: Link先を確認 | Jorge Condor, Sebastien Speierer, Lukas Bode, Aljaz Bozic, Simon Green, Piotr Didyk, Adrian Jarabo, | (参考訳) 多くのコンピュータグラフィックスアプリケーションでは、効率的なシーン表現が不可欠である。
表面と体積の両方を同時に扱うことができる一般的な統一表現は、依然として研究課題である。
近年,3次元ガウスの混合を利用したシーン再構成法に触発されて,単純なカーネルベースボリュームプリミティブの混合を用いて散乱媒体と放射媒体のモデリングを形式化し,一般化した。
我々は,異なるカーネルに対して,透過性およびフリーフライ距離サンプリングのためのクローズドフォームソリューションを導入し,本手法を市販のボリュームパストレーサ内で効率的に利用するためのいくつかの最適化を提案する。
本手法は,散乱媒体の前方および逆レンダリングのための他の形態のボリュームモデリングに代わる,コンパクトで効率的な代替手段であることを示す。
さらに,この手法を放射場最適化およびレンダリングに適用し,レイトレーシングの定式化により,現在の最先端技術と比較してさらなる柔軟性を提供する。
また,エパネチニコフカーネルを導入し,シーン再構築作業において従来のガウスカーネルに代わる効率的な代替手段としての可能性を示した。
このアプローチの汎用性と物理ベースの性質により、ラディアンスフィールドを超えて、カーネルベースのモデリングと、散乱、リライティング、複雑なカメラモデルなどのパストレーシング可能な機能をレンダリングすることが可能になります。
Efficient scene representations are essential for many computer graphics applications. A general unified representation that can handle both surfaces and volumes simultaneously, remains a research challenge. Inspired by recent methods for scene reconstruction that leverage mixtures of 3D Gaussians to model radiance fields, we formalize and generalize the modeling of scattering and emissive media using mixtures of simple kernel-based volumetric primitives. We introduce closed-form solutions for transmittance and free-flight distance sampling for different kernels, and propose several optimizations to use our method efficiently within any off-the-shelf volumetric path tracer. We demonstrate our method as a compact and efficient alternative to other forms of volume modeling for forward and inverse rendering of scattering media. Furthermore, we adapt and showcase our method in radiance field optimization and rendering, providing additional flexibility compared to current state of the art given its ray-tracing formulation. We also introduce the Epanechnikov kernel and demonstrate its potential as an efficient alternative to the traditionally-used Gaussian kernel in scene reconstruction tasks. The versatility and physically-based nature of our approach allows us to go beyond radiance fields and bring to kernel-based modeling and rendering any path-tracing enabled functionality such as scattering, relighting and complex camera models. | 翻訳日:2024-08-13 21:12:59 公開日:2024-08-10 |
# Augmented Physics:静的テキストダイアグラムから対話型および埋め込み型物理シミュレーションを作成する
Augmented Physics: Creating Interactive and Embedded Physics Simulations from Static Textbook Diagrams ( http://arxiv.org/abs/2405.18614v2 ) ライセンス: Link先を確認 | Aditya Gunturu, Yi Wen, Nandi Zhang, Jarin Thundathil, Rubaiat Habib Kazi, Ryo Suzuki, | (参考訳) 静的教科書図から組込みインタラクティブな物理シミュレーションを作成するための機械学習統合オーサリングツールであるAugmented Physicsを紹介した。
近年のコンピュータビジョンの進歩であるセグメント・アニーシングやマルチモーダル・LLMの活用により,本システムでは,物理教科書から図表を半自動抽出し,抽出した内容に基づいてインタラクティブなシミュレーションを生成することができる。
これらのインタラクティブなダイアグラムはスキャンされた教科書ページにシームレスに統合され、光学、回路、キネマティックスといった様々な物理概念の対話的でパーソナライズされた学習体験を容易にする。
7人の物理インストラクターによる説明研究から、我々は4つの重要な強化戦略を探求する。
1【拡張実験】
2)アニメーション図。
3)双方向結合,及び
4)パラメータ可視化。
技術評価,ユーザビリティスタディ(N=12),エキスパートインタビュー(N=12。
その結果,本システムは,物理教育において,よりエンゲージメントとパーソナライズされた学習体験を促進することが示唆された。
We introduce Augmented Physics, a machine learning-integrated authoring tool designed for creating embedded interactive physics simulations from static textbook diagrams. Leveraging recent advancements in computer vision, such as Segment Anything and Multi-modal LLMs, our web-based system enables users to semi-automatically extract diagrams from physics textbooks and generate interactive simulations based on the extracted content. These interactive diagrams are seamlessly integrated into scanned textbook pages, facilitating interactive and personalized learning experiences across various physics concepts, such as optics, circuits, and kinematics. Drawing from an elicitation study with seven physics instructors, we explore four key augmentation strategies: 1) augmented experiments, 2) animated diagrams, 3) bi-directional binding, and 4) parameter visualization. We evaluate our system through technical evaluation, a usability study (N=12), and expert interviews (N=12). Study findings suggest that our system can facilitate more engaging and personalized learning experiences in physics education. | 翻訳日:2024-08-13 21:12:59 公開日:2024-08-10 |
# FTS: 忠実なタイムセーブを見つけるためのフレームワーク
FTS: A Framework to Find a Faithful TimeSieve ( http://arxiv.org/abs/2405.19647v2 ) ライセンス: Link先を確認 | Songning Lai, Ninghui Feng, Jiechao Gao, Hao Wang, Haochen Sui, Xin Zou, Jiayu Yang, Wenshuo Chen, Hang Zhao, Xuming Hu, Yutao Yue, | (参考訳) 時系列予測の分野は近年大きな注目を集め、TimeSieveのような先進的なモデルの開発に拍車をかけた。
しかし、ある分析では、ランダムな種子に対する高い感度、入力と層ノイズの摂動、パラメトリックな摂動など、ある種の不誠実さの問題を明らかにしている。
これらの課題を認識し、信頼性と堅牢な予測を一貫して提供するモデルである \textbf{\underline{F}aithful \underline{T}ime\underline{S}ieve \underline{S}ieve \underline{(FTS)}} の概念を定義する。
これらの課題に対処するため,TimeSieveにおける不信の識別と修正を目的とした新しいフレームワークを提案する。
我々のフレームワークは、モデルの安定性と忠実性を高めるために設計されており、その出力が上記の要因の影響を受けにくいことを保証します。
実験により,提案手法の有効性が検証され,モデルの振舞いにおける忠実性の向上が示された。
The field of time series forecasting has garnered significant attention in recent years, prompting the development of advanced models like TimeSieve, which demonstrates impressive performance. However, an analysis reveals certain unfaithfulness issues, including high sensitivity to random seeds, input and layer noise perturbations and parametric perturbations. Recognizing these challenges, we embark on a quest to define the concept of \textbf{\underline{F}aithful \underline{T}ime\underline{S}ieve \underline{(FTS)}}, a model that consistently delivers reliable and robust predictions. To address these issues, we propose a novel framework aimed at identifying and rectifying unfaithfulness in TimeSieve. Our framework is designed to enhance the model's stability and faithfulness, ensuring that its outputs are less susceptible to the aforementioned factors. Experimentation validates the effectiveness of our proposed framework, demonstrating improved faithfulness in the model's behavior. | 翻訳日:2024-08-13 21:12:59 公開日:2024-08-10 |
# DenoDet: SAR画像におけるターゲット検出のための変形可能なマルチサブスペース機能としての注意
DenoDet: Attention as Deformable Multi-Subspace Feature Denoising for Target Detection in SAR Images ( http://arxiv.org/abs/2406.02833v2 ) ライセンス: Link先を確認 | Yimian Dai, Minrui Zou, Yuxuan Li, Xiang Li, Kang Ni, Jian Yang, | (参考訳) SAR(Synthetic Aperture Radar)のターゲット検出は、固有のスペックルノイズや、小型であいまいなターゲットの出現によって長い間妨げられてきた。
ディープニューラルネットワークはSARターゲット検出を先進的に進めているが、本質的な低周波バイアスと静的な後トレーニングの重みはコヒーレントノイズに悩まされ、不均一な地形にわたって微妙な詳細を保存している。
従来のSAR画像デノベーションにより、畳み込みバイアスを校正し、高周波数に注意を払い、マルチサブスペースデノベーションの観点からターゲットを検出する自然なマルチスケールサブスペース表現を形成するために、明示的な周波数領域変換によって支援されるネットワークであるDenoDetを提案する。
我々はトランスデノ(TransDeno)を設計する。トランスデノ(TransDeno)は変換領域のソフトしきい値処理として動作し、サルエントターゲット信号の保存とノイズの減衰によりサブスペースを動的にデノイングする。
また、サブスペース処理の粒度を適応的に調整するために、入力特徴に条件付けられた群を動的に変化させる変形可能なグループ完全連結層(DeGroFC)を提案する。
ベルとホイッスルがなければ、プラグ&プレイのTransDenoは複数のSARターゲット検出データセットに対して最先端のスコアを設定する。
コードはhttps://github.com/GrokCV/GrokSARで入手できる。
Synthetic Aperture Radar (SAR) target detection has long been impeded by inherent speckle noise and the prevalence of diminutive, ambiguous targets. While deep neural networks have advanced SAR target detection, their intrinsic low-frequency bias and static post-training weights falter with coherent noise and preserving subtle details across heterogeneous terrains. Motivated by traditional SAR image denoising, we propose DenoDet, a network aided by explicit frequency domain transform to calibrate convolutional biases and pay more attention to high-frequencies, forming a natural multi-scale subspace representation to detect targets from the perspective of multi-subspace denoising. We design TransDeno, a dynamic frequency domain attention module that performs as a transform domain soft thresholding operation, dynamically denoising across subspaces by preserving salient target signals and attenuating noise. To adaptively adjust the granularity of subspace processing, we also propose a deformable group fully-connected layer (DeGroFC) that dynamically varies the group conditioned on the input features. Without bells and whistles, our plug-and-play TransDeno sets state-of-the-art scores on multiple SAR target detection datasets. The code is available at https://github.com/GrokCV/GrokSAR. | 翻訳日:2024-08-13 21:03:04 公開日:2024-08-10 |
# 言語モデルは合理的か?コヒーレンス規範と信念修正の事例
Are language models rational? The case of coherence norms and belief revision ( http://arxiv.org/abs/2406.03442v2 ) ライセンス: Link先を確認 | Thomas Hofweber, Peter Hase, Elias Stengel-Eskin, Mohit Bansal, | (参考訳) 合理性の規範は機械学習モデル、特に言語モデルに適用されますか?
本稿では,有理ノルムの特別な部分集合であるコヒーレンスノルムに着目して,この問題を考察する。
我々は、論理的コヒーレンス規範と、信念の強さに結びついたコヒーレンス規範の両方を考慮する。
後者を理解するために,最小アセット接続(MAC)を導入し,言語モデルにおける信念の強さを捉えた信頼の新たな説明を提案する。
この提案は、モデル内部の次のトークン確率に基づいて、信念の強さを均一に割り当てる。
コヒーレンスに結びついた有理ノルムはいくつかの言語モデルに適用できるが、他のモデルには適用されない。
この問題は、合理性は行動の予測と説明に密接に結びついているので、AIの安全性とアライメントに関する考慮と、モデル行動のより一般的な理解に結びついている。
Do norms of rationality apply to machine learning models, in particular language models? In this paper we investigate this question by focusing on a special subset of rational norms: coherence norms. We consider both logical coherence norms as well as coherence norms tied to the strength of belief. To make sense of the latter, we introduce the Minimal Assent Connection (MAC) and propose a new account of credence, which captures the strength of belief in language models. This proposal uniformly assigns strength of belief simply on the basis of model internal next token probabilities. We argue that rational norms tied to coherence do apply to some language models, but not to others. This issue is significant since rationality is closely tied to predicting and explaining behavior, and thus it is connected to considerations about AI safety and alignment, as well as understanding model behavior more generally. | 翻訳日:2024-08-13 21:03:04 公開日:2024-08-10 |
# 審査員の判断:LLMによるペアワイズ比較評価における位置バイアスの体系的調査
Judging the Judges: A Systematic Investigation of Position Bias in Pairwise Comparative Assessments by LLMs ( http://arxiv.org/abs/2406.07791v2 ) ライセンス: Link先を確認 | Lin Shi, Weicheng Ma, Soroush Vosoughi, | (参考訳) LLM-as-a-Judgeは、様々なタスク、しかし固有のバイアス、特に位置バイアス(特に、プロンプトにおける彼らの位置に基づく回答の体系的な選好)に対する有望な代替手段を提供し、その効果を損なう。
本研究は,反復的整合性,位置整合性,位置整合性などの指標を用いて,位置バイアスを体系的に研究・定量化する枠組みを開発することにより,この問題を考察する。
我々はMTBenchベンチマークとDevBenchベンチマークから22タスクにわたる9つの判断モデルと40近い回答生成モデルを用いて実験を行い、約80,000の評価インスタンスを生成する。
この総合的な評価は、裁判官やタスク間でのバイアスの顕著な変化を明らかにします。
GPT-4は、しばしば位置整合性と公平性に優れるが、よりコスト効率の良いモデルでは、特定のタスクにおいて、整合性、公平性、コストの基本的なトレードオフを強調しながら、比較可能あるいはそれ以上に優れた性能を発揮する。
また, 位置偏差がランダムな変動によるものではないことを確認し, 繰り返しによる判定の整合性を示した。
本研究は,位置バイアスを理解するための新しい概念を導入し,評価のための多次元フレームワークを提供することによって,この分野に大きく貢献する。
これらの洞察は、最適な審査モデルの選択を導き、ベンチマーク設計を強化し、将来の効果的なデバイアスング戦略の研究の基礎を築き、最終的にLLM評価器の信頼性を高めます。
LLM-as-a-Judge offers a promising alternative to human judges across various tasks, yet inherent biases, particularly position bias - a systematic preference for answers based on their position in the prompt - compromise its effectiveness. Our study investigates this issue by developing a framework to systematically study and quantify position bias using metrics such as repetitional consistency, positional consistency, and positional fairness. We conduct experiments with 9 judge models across 22 tasks from the MTBench and DevBench benchmarks and nearly 40 answer-generating models, generating approximately 80,000 evaluation instances. This comprehensive assessment reveals significant variations in bias across judges and tasks. Although GPT-4 often excels in positional consistency and fairness, some more cost-effective models perform comparably or even better in specific tasks, highlighting essential trade-offs between consistency, fairness, and cost. Our results also demonstrate high consistency of judgment across repetitions, confirming that position bias is not due to random variations. This research significantly contributes to the field by introducing new concepts for understanding position bias and providing a multi-dimensional framework for evaluation. These insights guide the selection of optimal judge models, enhance benchmark design, and lay the foundation for future research into effective debiasing strategies, ultimately enhancing the reliability of LLM evaluators. | 翻訳日:2024-08-13 21:03:04 公開日:2024-08-10 |
# 強対称性からの高絡み状態
Highly-entangled stationary states from strong symmetries ( http://arxiv.org/abs/2406.08567v2 ) ライセンス: Link先を確認 | Yahui Li, Frank Pollmann, Nicholas Read, Pablo Sala, | (参考訳) 強い非アベリア保存量の存在は、ユニタリ量子チャネルにおいても非常に絡み合った定常状態をもたらす。
我々は、二部対数否定性、R'enyi Negativities、および1つの対称部分空間に制限された定常状態に対する作用素空間絡みの正確な式を、自明な部分空間に焦点をあてて導出する。
これらは、すべての強保存量を特徴づける可換体がリー代数の普遍包絡代数またはリード=セール可換環に対応するような開量子進化に適用されることを証明している。
後者は、システムサイズが指数関数的に大きい量子断片化の例である。
より小さな鎖の分割上の可換体の次元の対数によって与えられるこれらの量に対する一般上界を求める。
アベリアの例として、強いU($1$)対称性と古典的な断片化が任意の対称部分空間において分離可能な定常状態をもたらすことを示す。
対照的に、非アベリアSU$(N)$対称性の場合、対数論とR\enyi Negativitiesはどちらもシステムサイズと対数論的にスケールする。
最後に、R\'enyi negativities with $n>2$ scale with system size, the logarithmic negativity ( as generalized R\'enyi negativities with $n<2$) は、Read-Saleur commutantsの体積法スケーリングを示す。
我々の導出は、無限大系の極限においてホップ代数構造を持つ可換性に依存し、したがって有限群や量子群にも適用される。
We find that the presence of strong non-Abelian conserved quantities can lead to highly entangled stationary states even for unital quantum channels. We derive exact expressions for the bipartite logarithmic negativity, R\'enyi negativities, and operator space entanglement for stationary states restricted to one symmetric subspace, with focus on the trivial subspace. We prove that these apply to open quantum evolutions whose commutants, characterizing all strongly conserved quantities, correspond to either the universal enveloping algebra of a Lie algebra or to the Read-Saleur commutants. The latter provides an example of quantum fragmentation, whose dimension is exponentially large in system size. We find a general upper bound for all these quantities given by the logarithm of the dimension of the commutant on the smaller bipartition of the chain. As Abelian examples, we show that strong U($1$) symmetries and classical fragmentation lead to separable stationary states in any symmetric subspace. In contrast, for non-Abelian SU$(N)$ symmetries, both logarithmic and R\'enyi negativities scale logarithmically with system size. Finally, we prove that while R\'enyi negativities with $n>2$ scale logarithmically with system size, the logarithmic negativity (as well as generalized R\'enyi negativities with $n<2$) exhibits a volume law scaling for the Read-Saleur commutants. Our derivations rely on the commutant possessing a Hopf algebra structure in the limit of infinitely large systems, and hence also apply to finite groups and quantum groups. | 翻訳日:2024-08-13 21:03:04 公開日:2024-08-10 |
# 双方向AIアライメントに向けて: 明確化, 枠組み, 今後の方向性の体系的レビュー
Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions ( http://arxiv.org/abs/2406.09264v3 ) ライセンス: Link先を確認 | Hua Shen, Tiffany Knearem, Reshmi Ghosh, Kenan Alkiek, Kundan Krishna, Yachuan Liu, Ziqiao Ma, Savvas Petridis, Yi-Hao Peng, Li Qiwei, Sushrita Rakshit, Chenglei Si, Yutong Xie, Jeffrey P. Bigham, Frank Bentley, Joyce Chai, Zachary Lipton, Qiaozhu Mei, Rada Mihalcea, Michael Terry, Diyi Yang, Meredith Ringel Morris, Paul Resnick, David Jurgens, | (参考訳) 汎用AIの最近の進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
しかしながら、人間-AIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の協調作業を妨げる重要な障害となる。
特に、MLと哲学指向のアライメント研究は、AIアライメントを、進行中の相互アライメント問題ではなく、静的で一方向のプロセス(つまり、AIシステムの目的が人間と一致することを保証すること)とみなすことが多い。
この観点は、長期の相互作用とアライメントの動的変化を無視している。
これらのギャップを理解するために、2019年から2024年1月までに発行された400以上の論文を体系的にレビューし、ヒューマン・コンピュータ・インタラクション(HCI)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがる。
人間のAIアライメントを特徴づけ、定義し、スコープ化します。
そこで本研究では,「双方向型AIアライメント」の概念的枠組みを提示し,文学を人間中心の視点から整理する。
このフレームワークは両方を包含する
1)AIを人間に合わせる従来の研究は、AIが人間によって決定された結果を生み出すことを確実にしている。
2) 個人や社会が認知的・行動的にAIの進歩に適応することを支援することを目的として,人間をAIに整合させる概念を提案する。
さらに,文献のギャップや傾向,人的価値,インタラクション技術など,文献分析から得られた重要な知見を明らかにした。
今後の研究の道を開くために,我々は3つの重要な課題を思いつき,今後の研究に推奨する。
Recent advancements in general-purpose AI have highlighted the importance of guiding AI systems towards the intended goals, ethical principles, and values of individuals and groups, a concept broadly recognized as alignment. However, the lack of clarified definitions and scopes of human-AI alignment poses a significant obstacle, hampering collaborative efforts across research domains to achieve this alignment. In particular, ML- and philosophy-oriented alignment research often views AI alignment as a static, unidirectional process (i.e., aiming to ensure that AI systems' objectives match humans) rather than an ongoing, mutual alignment problem. This perspective largely neglects the long-term interaction and dynamic changes of alignment. To understand these gaps, we introduce a systematic review of over 400 papers published between 2019 and January 2024, spanning multiple domains such as Human-Computer Interaction (HCI), Natural Language Processing (NLP), Machine Learning (ML). We characterize, define and scope human-AI alignment. From this, we present a conceptual framework of "Bidirectional Human-AI Alignment" to organize the literature from a human-centered perspective. This framework encompasses both 1) conventional studies of aligning AI to humans that ensures AI produces the intended outcomes determined by humans, and 2) a proposed concept of aligning humans to AI, which aims to help individuals and society adjust to AI advancements both cognitively and behaviorally. Additionally, we articulate the key findings derived from literature analysis, including literature gaps and trends, human values, and interaction techniques. To pave the way for future studies, we envision three key challenges and give recommendations for future research. | 翻訳日:2024-08-13 21:03:04 公開日:2024-08-10 |
# 2層物理インフォームニューラルネットワークのトレーニングにおける入射勾配の収束性
Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks ( http://arxiv.org/abs/2407.02827v2 ) ライセンス: Link先を確認 | Xianliang Xu, Ting Du, Wang Kong, Ye Li, Zhongyi Huang, | (参考訳) 最適化アルゴリズムは物理インフォームドニューラルネットワーク(PINN)のトレーニングに不可欠である。
共通勾配降下法(GD)アルゴリズムと比較して、暗黙勾配降下法(IGD)はある種のマルチスケール問題に対処する上で優れる。
本稿では、過パラメータ化された2層PINNのトレーニングにおけるIGDの収束解析について述べる。
まず、Sigmoidal関数、Softplus関数、tanh関数などの一般的な滑らかな活性化関数に対するグラム行列の正の定性を示す。
そして、過パラメータ化により、ランダムに初期化されたIGDが線形収束速度で大域的最適解を収束させることを証明できる。
さらに,GDと比較してIGDのトレーニングダイナミクスが異なるため,サンプルサイズとグラム行列の最小固有値とは独立に学習率を選択することができる。
さらに, 収束解析における新しい手法は, ネットワーク幅に対してより穏やかな要件を課している。
最後に, 実験結果から理論的知見が得られた。
Optimization algorithms are crucial in training physics-informed neural networks (PINNs), as unsuitable methods may lead to poor solutions. Compared to the common gradient descent (GD) algorithm, implicit gradient descent (IGD) outperforms it in handling certain multi-scale problems. In this paper, we provide convergence analysis for the IGD in training over-parameterized two-layer PINNs. We first demonstrate the positive definiteness of Gram matrices for some general smooth activation functions, such as sigmoidal function, softplus function, tanh function, and others. Then, over-parameterization allows us to prove that the randomly initialized IGD converges a globally optimal solution at a linear convergence rate. Moreover, due to the distinct training dynamics of IGD compared to GD, the learning rate can be selected independently of the sample size and the least eigenvalue of the Gram matrix. Additionally, the novel approach used in our convergence analysis imposes a milder requirement on the network width. Finally, empirical results validate our theoretical findings. | 翻訳日:2024-08-13 20:53:08 公開日:2024-08-10 |
# KeyVideoLLM: 大規模ビデオキーボード選択に向けて
KeyVideoLLM: Towards Large-scale Video Keyframe Selection ( http://arxiv.org/abs/2407.03104v3 ) ライセンス: Link先を確認 | Hao Liang, Jiapeng Li, Tianyi Bai, Xijie Huang, Linzhuang Sun, Zhengren Wang, Conghui He, Bin Cui, Chong Chen, Wentao Zhang, | (参考訳) 近年,Webビデオの普及に伴い,大規模ビデオデータセットの管理と理解がますます重要になっている。
Video Large Language Models (VideoLLMs) は、その強力なビデオ理解能力により近年出現している。
しかしながら、VideoLLMのトレーニングと推論プロセスは膨大な量のデータを必要とし、特に効率性、堅牢性、有効性に関して、データ管理に重大な課題を提示している。
本研究では,テキストフレームの類似性に基づくキーフレーム選択手法であるKeyVideoLLMを提案する。
具体的には、KeyVideoLLMは最大60.9倍のデータ圧縮速度を達成し、ディスクスペースの要求を大幅に低減し、高い効率性を示す。
さらに、すべてのビデオフォーマットとスケールで100%の選択成功率を維持し、既存のキーフレーム選択方法と比較して最大200倍の処理速度を向上し、ハイパーパラメータチューニングを必要としない。
KeyVideoLLMは、その卓越した効率と堅牢性に加えて、トレーニングと推論の段階において、ビデオ質問応答タスクのモデルパフォーマンスをさらに向上させる。
特に、さまざまなデータセットに関する最新技術(SoTA)の実験結果を一貫して達成している。
Recently, with the rise of web videos, managing and understanding large-scale video datasets has become increasingly important. Video Large Language Models (VideoLLMs) have emerged in recent years due to their strong video understanding capabilities. However, training and inference processes for VideoLLMs demand vast amounts of data, presenting significant challenges to data management, particularly regarding efficiency, robustness, and effectiveness. In this work, we present KeyVideoLLM, a text-video frame similarity-based keyframe selection method designed to manage VideoLLM data efficiently, robustly, and effectively. Specifically, KeyVideoLLM achieves a remarkable data compression rate of up to 60.9 times, substantially lowering disk space requirements, which proves its high efficiency. Additionally, it maintains a 100% selection success rate across all video formats and scales, enhances processing speed by up to 200 times compared to existing keyframe selection methods, and does not require hyperparameter tuning. Beyond its outstanding efficiency and robustness, KeyVideoLLM further improves model performance in video question-answering tasks during both training and inference stages. Notably, it consistently achieved the state-of-the-art (SoTA) experimental results on diverse datasets. | 翻訳日:2024-08-13 20:53:08 公開日:2024-08-10 |
# MEEGとAT-DGNN:音楽導入とグラフ学習による脳波認識の改善
MEEG and AT-DGNN: Improving EEG Emotion Recognition with Music Introducing and Graph-based Learning ( http://arxiv.org/abs/2407.05550v2 ) ライセンス: Link先を確認 | Minghao Xiao, Zhengxi Zhu, Bin Jiang, Meixia Qu, Wenyu Wang, | (参考訳) 神経心理学の研究は、認知タスク中の脳領域における協調活動の不可欠な役割を強調している。
本研究は、音楽誘発脳波(EEG)記録のマルチモーダルコンパイルであるMEEGデータセットの構築により、既存の脳波データセットを拡張し、さらに、音楽に対する感情応答中の脳ネットワークトポロジーについて検討する。
MEEGデータセットは、様々な原子価と覚醒レベルにわたる様々な音楽刺激に対する感情的な反応を捉え、音楽的文脈における脳波パターンの詳細な分析を可能にする。
本稿では,脳波の感情認識のための新しいフレームワークである動的グラフニューラルネットワーク(AT-DGNN)を用いた注意に基づく時間学習について紹介する。
注意機構を動的グラフニューラルネットワーク(DGNN)と統合することにより、AT-DGNNモデルは複雑な局所脳波とグローバル脳波のダイナミクスを捉え、83.74%の覚醒精度と86.01%の原子価で優れた性能を示す。
DEAPのような従来のデータセットとの比較分析は、我々のモデルの有効性を強調し、強力な感情刺激としての音楽の可能性を強調している。
本研究は,脳-コンピュータインタフェース(BCI)におけるグラフベースの学習手法を進歩させ,脳波に基づく感情認識の精度を大幅に向上させ,脳の各領域における認知機能の理解を深める。
ソースコードとデータセットはhttps://github.com/xmh1011/AT-DGNNでアクセスできる。
Neuropsychological research highlights the essential role of coordinated activities across brain regions during cognitive tasks. This study expands the existing EEG datasets by constructing the MEEG dataset, a multi-modal compilation of music-induced electroencephalogram (EEG) recordings, and further investigates the brain network topology during emotional responses to music. The MEEG dataset, capturing emotional responses to various musical stimuli across different valence and arousal levels, enables an in-depth analysis of brainwave patterns within musical contexts. We introduce the Attention-based Temporal Learner with Dynamic Graph Neural Network (AT-DGNN), a novel framework for EEG emotion recognition. By integrating an attention mechanism with a dynamic graph neural network (DGNN), the AT-DGNN model captures complex local and global EEG dynamics, demonstrating superior performance with accuracy of 83.74% in arousal and 86.01% in valence, outperforming current state-of-the-art (SOTA) methods. Comparative analyses with traditional datasets like DEAP underscore our model's effectiveness, highlighting the potential of music as a potent emotional stimulus. This study advances graph-based learning techniques in brain-computer interfaces (BCI), significantly enhancing the precision of EEG-based emotion recognition and deepening our understanding of cognitive functions in various brain regions. The source code and dataset are accessible at https://github.com/xmh1011/AT-DGNN. | 翻訳日:2024-08-13 20:43:18 公開日:2024-08-10 |
# Cohesive Conversations: Multi-Agent Simulated Dialoguesにおける認証性向上
Cohesive Conversations: Enhancing Authenticity in Multi-Agent Simulated Dialogues ( http://arxiv.org/abs/2407.09897v2 ) ライセンス: Link先を確認 | KuanChao Chu, Yi-Pei Chen, Hideki Nakayama, | (参考訳) 本稿では,Large Language Models (LLM) を用いたシミュレーションにおけるマルチエージェント対話の品質について検討する。
複数のセッションにおける対話や記憶の分析は、誤情報の伝播によって悪化する反復、矛盾、幻覚といった重要な問題を明らかにした。
これらの課題に対処するために,過去の対話からの証拠収集,発話修正のためのLCM分析を含む包括的プロセスを通じて発話誤りを検出し,修正する新しいスクリーニング,診断,再生(SDR)フレームワークを提案する。
SDRフレームワークを生成エージェント(Park et al , 2023)に組み込むことで, 生成した対話の多様性, 一貫性, 事実性を向上する。
本研究は,多エージェントシミュレーションにおける対話品質向上のための先駆的なアプローチを示し,今後の研究の基準を確立する。
This paper investigates the quality of multi-agent dialogues in simulations powered by Large Language Models (LLMs). Analyzing dialogues and memory over multiple sessions revealed significant issues such as repetition, inconsistency, and hallucination, exacerbated by the propagation of erroneous information. To combat these challenges, we propose a novel Screening, Diagnosis, and Regeneration (SDR) framework that detects and corrects utterance errors through a comprehensive process involving immediate issue identification, evidence gathering from past dialogues, and LLM analysis for utterance revision. By incorporating our SDR framework to Generative Agents (Park et al., 2023), we enhance the diversity, consistency, and factualness of the generated dialogues. This work presents a pioneering approach to enhancing dialogue quality in multi-agent simulations, establishing a new standard for future research in the field. | 翻訳日:2024-08-13 20:43:18 公開日:2024-08-10 |
# Thought-like-Pro: 自己駆動型Prolog-based Chain-of-Thoughtによる大規模言語モデルの推論の強化
Thought-Like-Pro: Enhancing Reasoning of Large Language Models through Self-Driven Prolog-based Chain-of-Thought ( http://arxiv.org/abs/2407.14562v2 ) ライセンス: Link先を確認 | Xiaoyu Tan, Yongxin Deng, Xihe Qiu, Weidi Xu, Chao Qu, Wei Chu, Yinghui Xu, Yuan Qi, | (参考訳) 大規模言語モデル(LLM)は汎用アシスタントとして非常に優れた性能を示し、様々な推論タスクに優れています。
この成果は、人工知能(AGI)の実現に向けた重要な一歩である。
これらの進歩にもかかわらず、LLMの有効性は、しばしば採用される特定の推進戦略に依存し、多様な推論タスクをまたいだ学習と一般化を促進するための堅牢な枠組みが欠如している。
これらの課題に対処するために,我々は,新しい学習フレームワークであるTHOUGHT-LIKE-PROを導入する。このフレームワークでは,擬似学習を利用して,記号的プロログ論理エンジンによって生成された推論軌道から検証され,翻訳されるChain-of-Thought(CoT)プロセスを模倣する。
このフレームワークは自己駆動的な方法で進行し、LLMは与えられた命令からルールとステートメントを定式化し、シンボルPrologエンジンを利用して結果を導出する。
その後、LLMはProlog由来の逐次推論軌道を、模倣学習のために自然言語のCoTに変換する。
実験の結果,提案手法はLLMの推論能力を大幅に向上させ,分布外推論タスクにまたがる堅牢な一般化を示すことが示唆された。
Large language models (LLMs) have shown exceptional performance as general-purpose assistants, excelling across a variety of reasoning tasks. This achievement represents a significant step toward achieving artificial general intelligence (AGI). Despite these advancements, the effectiveness of LLMs often hinges on the specific prompting strategies employed, and there remains a lack of a robust framework to facilitate learning and generalization across diverse reasoning tasks. To address these challenges, we introduce a novel learning framework, THOUGHT-LIKE-PRO In this framework, we utilize imitation learning to imitate the Chain-of-Thought (CoT) process which is verified and translated from reasoning trajectories generated by a symbolic Prolog logic engine. This framework proceeds in a self-driven manner, that enables LLMs to formulate rules and statements from given instructions and leverage the symbolic Prolog engine to derive results. Subsequently, LLMs convert Prolog-derived successive reasoning trajectories into natural language CoT for imitation learning. Our empirical findings indicate that our proposed approach substantially enhances the reasoning abilities of LLMs and demonstrates robust generalization across out-of-distribution reasoning tasks. | 翻訳日:2024-08-13 20:33:33 公開日:2024-08-10 |
# 赤外線サーモグラフィによるフィーバー検出:機械学習技術による精度向上
Fever Detection with Infrared Thermography: Enhancing Accuracy through Machine Learning Techniques ( http://arxiv.org/abs/2407.15302v2 ) ライセンス: Link先を確認 | Parsa Razmara, Tina Khezresmaeilzadeh, B. Keith Jenkins, | (参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、世界保健システムにおける高度な診断ツールの必要性を浮き彫りにした。
赤外線サーモグラフィー(IRT)は、体温を測定するための重要な非接触法であり、新型コロナウイルス(COVID-19)などの感染症に関連する発熱状態を特定するのに不可欠である。
従来の非接触赤外線温度計(NCIT)は、読書において大きな変動を示すことが多い。
そこで我々は,温度測定の精度と信頼性を高めるために,機械学習アルゴリズムをIRTと統合した。
本研究は, ヒューリスティックな特徴工学技術を用いて, 特徴の生理的意義と統計的意義に着目し, 様々な回帰モデルを体系的に評価した。
これらの手法を用いた畳み込みニューラルネットワーク(CNN)モデルは,0.2223の最低RMSEを達成した。
非ニューラルネットワークモデルの中で、Binning法はRMSE 0.2296で最高の性能を達成した。
我々の研究は、高度な機能工学と機械学習を組み合わせることで、診断ツールの有効性を向上し、他の非接触またはリモートセンシングバイオメディカルアプリケーションにまで拡張する可能性を強調した。
本稿では,これらの方法論を包括的に分析し,非侵襲的医療診断分野における今後の研究の基盤を提供する。
The COVID-19 pandemic has underscored the necessity for advanced diagnostic tools in global health systems. Infrared Thermography (IRT) has proven to be a crucial non-contact method for measuring body temperature, vital for identifying febrile conditions associated with infectious diseases like COVID-19. Traditional non-contact infrared thermometers (NCITs) often exhibit significant variability in readings. To address this, we integrated machine learning algorithms with IRT to enhance the accuracy and reliability of temperature measurements. Our study systematically evaluated various regression models using heuristic feature engineering techniques, focusing on features' physiological relevance and statistical significance. The Convolutional Neural Network (CNN) model, utilizing these techniques, achieved the lowest RMSE of 0.2223, demonstrating superior performance compared to results reported in previous literature. Among non-neural network models, the Binning method achieved the best performance with an RMSE of 0.2296. Our findings highlight the potential of combining advanced feature engineering with machine learning to improve diagnostic tools' effectiveness, with implications extending to other non-contact or remote sensing biomedical applications. This paper offers a comprehensive analysis of these methodologies, providing a foundation for future research in the field of non-invasive medical diagnostics. | 翻訳日:2024-08-13 20:33:33 公開日:2024-08-10 |
# ベクトル場データの視覚解析のための不確実性を考慮した深部神経表現
Uncertainty-Aware Deep Neural Representations for Visual Analysis of Vector Field Data ( http://arxiv.org/abs/2407.16119v2 ) ライセンス: Link先を確認 | Atul Kumar, Siddharth Garg, Soumya Dutta, | (参考訳) 近年,Deep Neural Networks (DNN) が普及し,科学的可視化タスクへの応用が進んでいる。
高度なDNNは優れた一般化能力を示しているが、予測品質、信頼性、堅牢性、不確実性などの理解要素は不可欠である。
これらの洞察は、アプリケーション科学者が情報的な決定を下すのに役立つ。
しかし、DNNには予測の不確実性を測定するための固有のメカニズムが欠如しており、様々な可視化タスクに適した堅牢な不確実性認識モデルを構築するための異なるフレームワークが作成される。
本研究では,定常ベクトル場を効果的にモデル化するために,不確実性を考慮した暗黙的ニューラル表現を開発する。
本研究では,(1)Deep Ensembleと(2)Monte Carlo Dropoutの2つの基本的不確実性推定手法の有効性を総合的に評価する。
いくつかのベクトルデータセットを用いて詳細な探索を行ったところ、不確実性を考慮したモデルがベクトル場の特徴の情報可視化結果を生成することが示唆された。
さらに,予測の不確実性を取り入れることで,DNNモデルのレジリエンスと解釈性が向上し,非自明なベクトル場データの解析に適用できる。
The widespread use of Deep Neural Networks (DNNs) has recently resulted in their application to challenging scientific visualization tasks. While advanced DNNs demonstrate impressive generalization abilities, understanding factors like prediction quality, confidence, robustness, and uncertainty is crucial. These insights aid application scientists in making informed decisions. However, DNNs lack inherent mechanisms to measure prediction uncertainty, prompting the creation of distinct frameworks for constructing robust uncertainty-aware models tailored to various visualization tasks. In this work, we develop uncertainty-aware implicit neural representations to model steady-state vector fields effectively. We comprehensively evaluate the efficacy of two principled deep uncertainty estimation techniques: (1) Deep Ensemble and (2) Monte Carlo Dropout, aimed at enabling uncertainty-informed visual analysis of features within steady vector field data. Our detailed exploration using several vector data sets indicate that uncertainty-aware models generate informative visualization results of vector field features. Furthermore, incorporating prediction uncertainty improves the resilience and interpretability of our DNN model, rendering it applicable for the analysis of non-trivial vector field data sets. | 翻訳日:2024-08-13 20:33:33 公開日:2024-08-10 |
# AIによるエネルギーアルゴリズム取引:隠れマルコフモデルとニューラルネットワークの統合
AI-Powered Energy Algorithmic Trading: Integrating Hidden Markov Models with Neural Networks ( http://arxiv.org/abs/2407.19858v3 ) ライセンス: Link先を確認 | Tiago Monteiro, | (参考訳) 定量的ファイナンスにおいては、機械学習手法はアルファ生成に不可欠である。
本研究では,HMM(Hidden Markov Models)とニューラルネットワークを組み合わせた新たなアプローチを提案する。
新型コロナウイルス(2019-2022)の期間、この二重モデルアプローチはシャープ比0.77で83%のリターンを達成した。
リスク管理を強化するために2つのリスクモデルが組み込まれており、揮発性の期間に効率性を示す。
この方法論は、堅牢なフレームワークと実験的な再現性のために選択されたQuantConnectプラットフォーム上で実装された。
将来の価格変動を予測するこのシステムは、適切なアルゴリズム機能を保証するために3年間のウォームアップを含む。
ブローカーの支払いも検討しながら、安定的で予測可能なパフォーマンスを確保するため、高流動で大容量のエネルギー株をターゲットにしている。
デュアルモデルアルファシステムは、ログリターンを使用して、過去のパフォーマンスに基づいて最適な状態を選択する。
状態予測と過去のデータに基づくニューラルネットワーク出力を組み合わせて、トレーディング信号を生成する。
本研究では,トレーディングシステムのアーキテクチャ,データ前処理,トレーニング,パフォーマンスについて検討した。
完全なコードとバックテストデータはQuantConnectの条項で利用可能だ。
In quantitative finance, machine learning methods are essential for alpha generation. This study introduces a new approach that combines Hidden Markov Models (HMM) and neural networks, integrated with Black-Litterman portfolio optimization. During the COVID period (2019-2022), this dual-model approach achieved a 83% return with a Sharpe ratio of 0.77. It incorporates two risk models to enhance risk management, showing efficiency during volatile periods. The methodology was implemented on the QuantConnect platform, which was chosen for its robust framework and experimental reproducibility. The system, which predicts future price movements, includes a three-year warm-up to ensure proper algorithm function. It targets highly liquid, large-cap energy stocks to ensure stable and predictable performance while also considering broker payments. The dual-model alpha system utilizes log returns to select the optimal state based on the historical performance. It combines state predictions with neural network outputs, which are based on historical data, to generate trading signals. This study examined the architecture of the trading system, data pre-processing, training, and performance. The full code and backtesting data are available under the QuantConnect terms. | 翻訳日:2024-08-13 20:23:30 公開日:2024-08-10 |
# SynthVLM:視覚言語モデルのための高効率・高品質合成データ
SynthVLM: High-Efficiency and High-Quality Synthetic Data for Vision Language Models ( http://arxiv.org/abs/2407.20756v3 ) ライセンス: Link先を確認 | Zheng Liu, Hao Liang, Xijie Huang, Wentao Xiong, Qinhan Yu, Linzhuang Sun, Chong Chen, Conghui He, Bin Cui, Wentao Zhang, | (参考訳) 近年,Web画像の出現に伴い,大規模画像データセットの管理と理解がますます重要になっている。
Vision Large Language Models (VLLM)が最近登場した。
しかし、これらのモデルのトレーニングには大量のデータが必要であり、効率性、有効性、データ品質、プライバシといった課題を提起する。
本稿では,VLLMのための新しいデータ合成パイプラインであるSynthVLMを紹介する。
画像からキャプションを生成する既存の方法とは異なり、SynthVLMは高度な拡散モデルと高品質なキャプションを使用して、キャプションから高解像度の画像を自動的に生成し、選択し、正確に整列された画像テキストペアを作成する。
これらのペアを活用することで、様々な視覚質問応答タスクにおける最先端(SoTA)のパフォーマンス、高いアライメント品質の維持、高度な言語能力の維持を実現します。
さらに、SynthVLMは従来のGPT-4ビジョンベースのキャプション生成手法をはるかに上回り、計算オーバーヘッドを大幅に削減する。
重要なことに、本手法は純粋に生成されたデータに依存するため、プライバシの保護が保証され、100kのデータポイント(公式データセットサイズのわずか18%)でSoTAのパフォーマンスが達成される。
Recently, with the rise of web images, managing and understanding large-scale image datasets has become increasingly important. Vision Large Language Models (VLLMs) have recently emerged due to their robust vision-understanding capabilities. However, training these models requires vast amounts of data, posing challenges to efficiency, effectiveness, data quality, and privacy. In this paper, we introduce SynthVLM, a novel data synthesis pipeline for VLLMs. Unlike existing methods that generate captions from images, SynthVLM employs advanced diffusion models and high-quality captions to automatically generate and select high-resolution images from captions, creating precisely aligned image-text pairs. Leveraging these pairs, we achieve state-of-the-art (SoTA) performance on various vision question answering tasks, maintaining high alignment quality and preserving advanced language abilities. Moreover, SynthVLM surpasses traditional GPT-4 Vision-based caption generation methods in performance while significantly reducing computational overhead. Crucially, our method's reliance on purely generated data ensures the preservation of privacy, achieving SoTA performance with just 100k data points (only 18% of the official dataset size). | 翻訳日:2024-08-13 20:23:30 公開日:2024-08-10 |
# 合成共感:高品質な合成共感データを目指して
Synth-Empathy: Towards High-Quality Synthetic Empathy Data ( http://arxiv.org/abs/2407.21669v2 ) ライセンス: Link先を確認 | Hao Liang, Linzhuang Sun, Jingxuan Wei, Xijie Huang, Linkun Sun, Bihui Yu, Conghui He, Wentao Zhang, | (参考訳) 近年,大規模言語モデル(LLM)の急速な進歩に伴い,共感的応答能力の向上が重要視されている。
その結果,共感的データセットの管理と理解の重要性が高まっている。
しかし、共感的なデータは典型的には人間のラベルで書かれており、不十分なデータセットと人間の労働を浪費する。
本研究では,低品質データを破棄しながら,高品質な共感データを自動的に生成するLLMベースのデータ生成・品質・多様性選択パイプラインであるSynth-Empathyを提案する。
低共感モデルから生成されたデータにより、共感的応答性能をさらに向上し、複数のベンチマークで最先端(SoTA)結果が得られる。
さらに,本モデルでは,様々な評価ベンチマーク上でのSoTA性能を実現し,実世界のアプリケーションにおけるその有効性とロバスト性を実証する。
さらに、データ量と品質のトレードオフを示し、共感的データ生成と選択に関する洞察を提供する。
In recent years, with the rapid advancements in large language models (LLMs), achieving excellent empathetic response capabilities has become a crucial prerequisite. Consequently, managing and understanding empathetic datasets have gained increasing significance. However, empathetic data are typically human-labeled, leading to insufficient datasets and wasted human labor. In this work, we present Synth-Empathy, an LLM-based data generation and quality and diversity selection pipeline that automatically generates high-quality empathetic data while discarding low-quality data. With the data generated from a low empathetic model, we are able to further improve empathetic response performance and achieve state-of-the-art (SoTA) results across multiple benchmarks. Moreover, our model achieves SoTA performance on various human evaluation benchmarks, demonstrating its effectiveness and robustness in real-world applications. Furthermore, we show the trade-off between data quantity and quality, providing insights into empathetic data generation and selection. | 翻訳日:2024-08-13 20:23:30 公開日:2024-08-10 |
# 300mmウエハプロセスを用いたMOS二重量子ドットの交換制御
Exchange control in a MOS double quantum dot made using a 300 mm wafer process ( http://arxiv.org/abs/2408.01241v2 ) ライセンス: Link先を確認 | Jacob F. Chittock-Wood, Ross C. C. Leon, Michael A. Fogarty, Tara Murphy, Sofia M. Patomäki, Giovanni A. Oakes, Felix-Ekkehard von Horstig, Nathan Johnson, Julien Jussot, Stefan Kubicek, Bogdan Govoreanu, David F. Wise, M. Fernando Gonzalez-Zalba, John J. L. Morton, | (参考訳) 半導体産業の先進的な製造能力を活用することで、歩留まり、均一性、統合性を高めることで、シリコンベースの量子プロセッサのスケールアップを支援することが約束される。
300mmウエハ金属-酸化物-半導体(MOS)プロセスで作製された量子ドットの最近の研究は、個々のスピン量子ビットの制御と読み出しを示しているが、量子プロセッサは2量子ビットの相互作用を必要とする。
ここでは、スピン量子ビット用にカスタマイズされた300mmウエハMOSプロセスを使用し、スピン-スピン交換相互作用を用いた2つの電子スピンのコヒーレント制御を示し、$\sqrt{\text{SWAP}}$のようなエンタングルゲートの基礎を形成する。
ゲート劣化時間は最大$T_2^{*}\approx500$ns, ゲート品質係数は10。
我々はさらに、エコーシーケンスを用いて最大1桁までコヒーレンスを拡大する。
読み出しには、分散測定のスピンプロジェクティブな性質を維持しながら信号を増幅する、分散読出技術である高周波電子カスケードを導入する。
本研究は,分散センシング技術との統合とともに,2量子演算のための産業用グレードプラットフォームを実証した。
Leveraging the advanced manufacturing capabilities of the semiconductor industry promises to help scale up silicon-based quantum processors by increasing yield, uniformity and integration. Recent studies of quantum dots fabricated on 300 mm wafer metal-oxide-semiconductor (MOS) processes have shown control and readout of individual spin qubits, yet quantum processors require two-qubit interactions to operate. Here, we use a 300 mm wafer MOS process customized for spin qubits and demonstrate coherent control of two electron spins using the spin-spin exchange interaction, forming the basis of an entangling gate such as $\sqrt{\text{SWAP}}$. We observe gate dephasing times of up to $T_2^{*}\approx500$ ns and a gate quality factor of 10. We further extend the coherence by up to an order of magnitude using an echo sequence. For readout, we introduce a dispersive readout technique, the radiofrequency electron cascade, that amplifies the signal while retaining the spin-projective nature of dispersive measurements. Our results demonstrate an industrial grade platform for two-qubit operations, alongside integration with dispersive sensing techniques. | 翻訳日:2024-08-13 20:13:45 公開日:2024-08-10 |
# 自己教師付き事前学習モデルと潜在特徴分布最適化に基づく画像クラスタリングアルゴリズム
Image Clustering Algorithm Based on Self-Supervised Pretrained Models and Latent Feature Distribution Optimization ( http://arxiv.org/abs/2408.01920v2 ) ライセンス: Link先を確認 | Qiuyu Zhu, Liheng Hu, Sijin Wang, | (参考訳) 複雑な自然画像の面において、既存の深層クラスタリングアルゴリズムは、教師付き分類法に比べてクラスタリング精度が著しく低いため、実用的ではない。
本稿では,自己教師付き事前学習モデルと潜在特徴分布最適化に基づく画像クラスタリングアルゴリズムを提案し,クラスタリング性能を大幅に向上させる。
1) 複雑な自然画像に対して, 自己教師付き事前学習モデルとその微調整を活用することにより, 潜在特徴の識別能力を効果的に向上し, クラスタリング性能が向上することがわかった。
2)潜伏特徴空間では,各トレーニングサンプルのk-アレスト近傍画像を探索し,トレーニングサンプルと隣接近傍の距離を短縮することにより,潜伏特徴の識別能力をさらに向上し,クラスタリング性能を向上させることができる。
(3) 潜時特徴空間では, 標本特徴量と最寄りのクラスタセントロイドとの距離を減少させることで, 潜時特徴量の分布を最適化し, クラスタリング性能を向上させることができる。
複数のデータセットの実験を通じて、我々の手法は最新のクラスタリングアルゴリズムより優れ、最先端のクラスタリング結果が得られる。
CIFAR-10 や STL-10 など,データセット内のカテゴリ数が少ない場合,クラスタリングアルゴリズムは事前学習モデルを用いずに教師付き手法と類似した精度で,事前学習モデルを用いた教師付き手法よりもわずかに低い。
コードリンクアルゴリズムはhttps://github.com/LihengHu/semiである。
In the face of complex natural images, existing deep clustering algorithms fall significantly short in terms of clustering accuracy when compared to supervised classification methods, making them less practical. This paper introduces an image clustering algorithm based on self-supervised pretrained models and latent feature distribution optimization, substantially enhancing clustering performance. It is found that: (1) For complex natural images, we effectively enhance the discriminative power of latent features by leveraging self-supervised pretrained models and their fine-tuning, resulting in improved clustering performance. (2) In the latent feature space, by searching for k-nearest neighbor images for each training sample and shortening the distance between the training sample and its nearest neighbor, the discriminative power of latent features can be further enhanced, and clustering performance can be improved. (3) In the latent feature space, reducing the distance between sample features and the nearest predefined cluster centroids can optimize the distribution of latent features, therefore further improving clustering performance. Through experiments on multiple datasets, our approach outperforms the latest clustering algorithms and achieves state-of-the-art clustering results. When the number of categories in the datasets is small, such as CIFAR-10 and STL-10, and there are significant differences between categories, our clustering algorithm has similar accuracy to supervised methods without using pretrained models, slightly lower than supervised methods using pre-trained models. The code linked algorithm is https://github.com/LihengHu/semi. | 翻訳日:2024-08-13 20:13:45 公開日:2024-08-10 |
# IVISIT: システムシミュレーション、可視化、最適化、パラメータ管理のためのインタラクティブビジュアルシミュレーションツール
IVISIT: An Interactive Visual Simulation Tool for system simulation, visualization, optimization, and parameter management ( http://arxiv.org/abs/2408.03341v2 ) ライセンス: Link先を確認 | Andreas Knoblauch, | (参考訳) IVISITは、Python/Numpyをベースにした汎用的なインタラクティブなビジュアルシミュレーションツールで、システムシミュレーション、パラメータ最適化、パラメータ管理、システムダイナミクスの可視化、例えばニューラルネットワークシミュレーション、機械学習アプリケーション、コンピュータビジョンシステムの開発に使用することができる。
アプリケーションの迅速なプロトタイピングと,スライダやイメージ,テキストボックス,オプションリスト,チェックボックス,TkinterとMatplotlibをベースとしたボタンといったインタラクティブなGUI要素を使用して,システムプロパティの可視化と操作を行うためのクラスを提供する。
パラメータとシミュレーション設定は、SQLiteデータベース関数に基づいて保存および管理できる。
本稿では,IVISITの主要なアーキテクチャと機能について解説し,インタラクティブなアプリケーションを迅速に実装し,パラメータ設定を管理するための簡単な例を示す。
IVISIT is a generic interactive visual simulation tool that is based on Python/Numpy and can be used for system simulation, parameter optimization, parameter management, and visualization of system dynamics as required, for example,for developing neural network simulations, machine learning applications, or computer vision systems. It provides classes for rapid prototyping of applications and visualization and manipulation of system properties using interactive GUI elements like sliders, images, textboxes, option lists, checkboxes and buttons based on Tkinter and Matplotlib. Parameters and simulation configurations can be stored and managed based on SQLite database functions. This technical report describes the main architecture and functions of IVISIT, and provides easy examples how to rapidly implement interactive applications and manage parameter settings. | 翻訳日:2024-08-13 20:04:01 公開日:2024-08-10 |
# SAM2-Adapter: 下流タスクにおけるセグメンテーションの評価と適応:カモフラージュ、シャドウ、医用画像セグメンテーションなど
SAM2-Adapter: Evaluating & Adapting Segment Anything 2 in Downstream Tasks: Camouflage, Shadow, Medical Image Segmentation, and More ( http://arxiv.org/abs/2408.04579v2 ) ライセンス: Link先を確認 | Tianrun Chen, Ankang Lu, Lanyun Zhu, Chaotao Ding, Chunan Yu, Deyi Ji, Zejian Li, Lingyun Sun, Papa Mao, Ying Zang, | (参考訳) ファンデーションモデルとしても知られる大規模なモデルの出現は、さまざまなイメージセグメンテーションシナリオで顕著な成功を収めたSegment Anything(SAM)のようなモデルによって、AI研究のランドスケープを大きく変えた。
その進歩にもかかわらず、SAMはカモフラージュされた物体や医療画像のような複雑な低レベルセグメンテーションタスクを扱う際の制限に直面した。
これに対して2023年にはSAM-Adapterを導入し,これらの課題に対する性能向上を実証した。
現在、拡張アーキテクチャとより大きなトレーニングコーパスを備えた後継であるSegment Anything 2 (SAM2)のリリースで、これらの課題を再評価しています。
本稿ではSAM2-Adapterについて紹介する。SAM2で観測される永続的制限を克服し、医療画像のセグメンテーション、カモフラージュされたオブジェクト検出、シャドー検出などの特定の下流タスクにおいて、新しいSOTA(State-of-the-art)を実現するために設計された最初のアダプタである。
SAM2-AdapterはSAM-Adapterの強みの上に構築されており、多様なアプリケーションに対する一般化性と構成性の向上を提供する。
SAM2-Adapterの有効性について検討した。
我々は,SAM2モデルとSAM2-Adapterを併用して,より優れたセグメンテーション結果が得られる可能性を示し,研究コミュニティがSAM2モデルを活用することを奨励する。
コード、事前訓練されたモデル、およびデータ処理プロトコルはhttp://tianrun-chen.github.io/SAM-Adaptor/で利用可能である。
The advent of large models, also known as foundation models, has significantly transformed the AI research landscape, with models like Segment Anything (SAM) achieving notable success in diverse image segmentation scenarios. Despite its advancements, SAM encountered limitations in handling some complex low-level segmentation tasks like camouflaged object and medical imaging. In response, in 2023, we introduced SAM-Adapter, which demonstrated improved performance on these challenging tasks. Now, with the release of Segment Anything 2 (SAM2), a successor with enhanced architecture and a larger training corpus, we reassess these challenges. This paper introduces SAM2-Adapter, the first adapter designed to overcome the persistent limitations observed in SAM2 and achieve new state-of-the-art (SOTA) results in specific downstream tasks including medical image segmentation, camouflaged (concealed) object detection, and shadow detection. SAM2-Adapter builds on the SAM-Adapter's strengths, offering enhanced generalizability and composability for diverse applications. We present extensive experimental results demonstrating SAM2-Adapter's effectiveness. We show the potential and encourage the research community to leverage the SAM2 model with our SAM2-Adapter for achieving superior segmentation outcomes. Code, pre-trained models, and data processing protocols are available at http://tianrun-chen.github.io/SAM-Adaptor/ | 翻訳日:2024-08-13 20:04:01 公開日:2024-08-10 |
# SAMSA: 多くのデータモダリティのための効率的なトランスフォーマ
SAMSA: Efficient Transformer for Many Data Modalities ( http://arxiv.org/abs/2408.05391v1 ) ライセンス: Link先を確認 | Minh Lenhat, Viet Anh Nguyen, Khoa Nguyen, Duong Duc Hieu, Dao Huu Hung, Truong Son Hy, | (参考訳) 自己保持機構の汎用性は、ほぼ全てのデータモダリティにおいてトランスフォーマーに大きな成功を収め、二次的な複雑さと訓練の難しさに制限を与えた。
一方、効率的な変換器は、変換器の二次的な複雑さを克服するために、巧妙なデータモダリティに依存した構成に依存することが多い。
これは、現代の基礎モデリングの柱の1つである異なるデータモダリティへの彼らの応用を著しく妨げている。
本稿では, SAMSA-SAMpling-Self-Attentionを提案することによって, 効率的な基礎モデル構築の基盤となる課題について述べる。
我々のメカニズムは、私たちが発見した代替手法を使わずに、微分可能なサンプリングに基づいています。
これにより、自己アテンションモジュールは、データによって定義される最も重要なトークンセットに参加することができる。
さらに、推論において微分可能性を必要としないため、我々の手法のスパース定式化はオーバーヘッドを少なくし、さらに計算コストを下げる。
要するにSAMSAは、多くのベンチマークにおいて、他の非常に特殊なモデルと比較して、推論が高速でありながら、競争力やSOTA結果さえも達成した。
完全な自己アテンションに対して、実際の推論時間は著しく減少するが、性能は無視できる劣化からパフォーマンスの低下まで様々である。
私たちはリポジトリでソースコードをリリースします。
The versatility of self-attention mechanism earned transformers great success in almost all data modalities, with limitations on the quadratic complexity and difficulty of training. Efficient transformers, on the other hand, often rely on clever data-modality-dependent construction to get over the quadratic complexity of transformers. This greatly hinders their applications on different data modalities, which is one of the pillars of contemporary foundational modeling. In this paper, we lay the groundwork for efficient foundational modeling by proposing SAMSA - SAMpling-Self-Attention, a context-aware linear complexity self-attention mechanism that works well on multiple data modalities. Our mechanism is based on a differentiable sampling without replacement method we discovered. This enables the self-attention module to attend to the most important token set, where the importance is defined by data. Moreover, as differentiability is not needed in inference, the sparse formulation of our method costs little time overhead, further lowering computational costs. In short, SAMSA achieved competitive or even SOTA results on many benchmarks, while being faster in inference, compared to other very specialized models. Against full self-attention, real inference time significantly decreases while performance ranges from negligible degradation to outperformance. We release our source code in the repository: https://github.com/HySonLab/SAMSA | 翻訳日:2024-08-13 19:21:55 公開日:2024-08-10 |
# fastkqr: カーネル量子回帰の高速アルゴリズム
fastkqr: A Fast Algorithm for Kernel Quantile Regression ( http://arxiv.org/abs/2408.05393v1 ) ライセンス: Link先を確認 | Qian Tang, Yuwen Gu, Boxiang Wang, | (参考訳) 量子回帰は、多種多様な応用分野の応用を見てきた堅牢で異質な学習のための強力なツールである。
しかし、その広範な応用は、非滑らかな量子的損失関数から生じる相当な計算要求によってしばしば妨げられる。
本稿では、再生されたカーネルヒルベルト空間における量子レグレッションの計算を大幅に向上させる、fastkqrという新しいアルゴリズムを提案する。
fastkqrのコアは、近似よりも正確に回帰量子を魔法のように生成する有限な平滑化アルゴリズムである。
アルゴリズムをさらに高速化するために,我々は,行列計算を慎重に再利用する新しいスペクトル手法でfastkqrを装備する。
さらに、データ駆動の交差ペナルティにより、フレキシブルなカーネル量子化レグレッションに対応するためにfastkqrを拡張し、複数のレベルで量子化曲線を渡る際の解釈可能性の問題に対処する。
我々は公開Rパッケージにfastkqrを実装した。
大規模なシミュレーションと実応用により、fastkqrは最先端のアルゴリズムの精度と一致するが、最大で桁違いに高速に動作可能であることが示される。
Quantile regression is a powerful tool for robust and heterogeneous learning that has seen applications in a diverse range of applied areas. However, its broader application is often hindered by the substantial computational demands arising from the non-smooth quantile loss function. In this paper, we introduce a novel algorithm named fastkqr, which significantly advances the computation of quantile regression in reproducing kernel Hilbert spaces. The core of fastkqr is a finite smoothing algorithm that magically produces exact regression quantiles, rather than approximations. To further accelerate the algorithm, we equip fastkqr with a novel spectral technique that carefully reutilizes matrix computations. In addition, we extend fastkqr to accommodate a flexible kernel quantile regression with a data-driven crossing penalty, addressing the interpretability challenges of crossing quantile curves at multiple levels. We have implemented fastkqr in a publicly available R package. Extensive simulations and real applications show that fastkqr matches the accuracy of state-of-the-art algorithms but can operate up to an order of magnitude faster. | 翻訳日:2024-08-13 19:11:07 公開日:2024-08-10 |
# ド・ブロイのようなパイロット波系におけるボヘミア力学の収束
Convergence to Bohmian mechanics in a de Broglie-like pilot-wave system ( http://arxiv.org/abs/2408.05396v1 ) ライセンス: Link先を確認 | David Darrow, | (参考訳) ボヘミア力学は、量子波動関数を決定論的粒子軌道で補い、量子論の動的言語を提供する。
しかし、ボヘミア粒子はその導波に影響を与えないので、代わりに波動場は系の幾何学によって規定されなければならない。
この性質は量子力学との整合性を確保するために広く考えられているが、近年、粒子と波の双方向結合を特徴とする古典的なパイロット波系を理解するために多くの研究がなされている。
クーダー・アンド・フォート(2006)の「ウォーキング・ドロップレット」システムとその様々な抽象化を含むこれらのシステムは、古典システムの限界を調査し、量子力学と古典力学の接点を提供する。
本研究では、この古典的なパイロット波理論でボヘミア力学を橋渡しする一般的な結果を示す。
ダローとブッシュ(2024年)は、最近ラグランジアン・パイロット・ウェーブ・フレームワークを導入し、古典的なシステムにおける量子的振る舞いを研究した。
ここでは、カップリングの異なる選択により、ド・ブロイのような系は、非相対論的極限において、正確に単粒子ボヘミア力学に還元されることを示す。
最後に, 本研究の応用として, ド・ブロイのような位置測定用アナログの開発について述べる。
Bohmian mechanics supplements the quantum wavefunction with deterministic particle trajectories, offering an alternate, dynamical language for quantum theory. However, the Bohmian particle does not affect its guiding wave, so the wave field must instead be prescribed by the system geometry. While this property is widely assumed necessary to ensure agreement with quantum mechanics, much work has recently been dedicated to understanding classical pilot-wave systems, which feature a two-way coupling between particle and wave. These systems, including the "walking droplet" system of Couder and Fort (2006) and its various abstractions, allow us to investigate the limits of classical systems and offer a touchstone between quantum and classical dynamics. In this work, we present a general result that bridges Bohmian mechanics with this classical pilot-wave theory. Namely, Darrow and Bush (2024) recently introduced a Lagrangian pilot-wave framework to study quantum-like behaviours in classical systems; with a particular choice of particle-wave coupling, they recover key dynamics hypothesised in de Broglie's early "double-solution" theory. We here show that, with a different choice of coupling, their de Broglie-like system reduces exactly to single-particle Bohmian mechanics in the non-relativistic limit. Finally, we present an application of the present work in developing an analogue for position measurement in a de Broglie-like setting. | 翻訳日:2024-08-13 19:11:07 公開日:2024-08-10 |
# PersonViT: 個人再識別のための大規模自己監督型視覚変換器
PersonViT: Large-scale Self-supervised Vision Transformer for Person Re-Identificat ( http://arxiv.org/abs/2408.05398v1 ) ライセンス: Link先を確認 | Bin Hu, Xinggang Wang, Wenyu Liu, | (参考訳) Person Re-Identification (ReID) は、重複しないカメラ画像中の関連個人を検索することを目的としており、公共の安全分野に幅広い応用がある。
近年、視覚変換器(ViT)と自己教師あり学習技術の開発により、自己教師あり事前学習に基づく人物ReIDの性能が大幅に向上している。
Person ReIDは、人体の高度に識別された局所的な微細な特徴を抽出する必要があるが、従来のViTは、文脈に関連したグローバルな特徴を抽出するのが得意であり、局所的な人体の特徴に焦点を絞ることが困難である。
本稿では,最近登場したMasked Image Modeling (MIM) の自己教師付き学習手法について紹介し,マスク付き画像モデリングと識別的コントラスト学習を組み合わせた大規模教師なし事前学習を通じて,高品質なグローバル・ローカルな特徴を効果的に抽出し,人物ReIDタスクにおける教師付き微調整訓練を行う。
マスク付き画像モデリング(PersonViT)を用いた人物特徴抽出手法は、教師なし、スケーラブルで強力な一般化能力の優れた特徴を有し、教師付き人物ReIDの難しいアノテーションの問題を克服し、MSMT17、Market1501、DukeMTMC-reID、Occluded-Dukeなどの公開ベンチマークデータセットに対して最先端の結果を得る。
PersonViT メソッドのコードと事前訓練されたモデルは https://github.com/hustvl/PersonViT でリリースされ、人物 ReID fie のさらなる研究を促進する。
Person Re-Identification (ReID) aims to retrieve relevant individuals in non-overlapping camera images and has a wide range of applications in the field of public safety. In recent years, with the development of Vision Transformer (ViT) and self-supervised learning techniques, the performance of person ReID based on self-supervised pre-training has been greatly improved. Person ReID requires extracting highly discriminative local fine-grained features of the human body, while traditional ViT is good at extracting context-related global features, making it difficult to focus on local human body features. To this end, this article introduces the recently emerged Masked Image Modeling (MIM) self-supervised learning method into person ReID, and effectively extracts high-quality global and local features through large-scale unsupervised pre-training by combining masked image modeling and discriminative contrastive learning, and then conducts supervised fine-tuning training in the person ReID task. This person feature extraction method based on ViT with masked image modeling (PersonViT) has the good characteristics of unsupervised, scalable, and strong generalization capabilities, overcoming the problem of difficult annotation in supervised person ReID, and achieves state-of-the-art results on publicly available benchmark datasets, including MSMT17, Market1501, DukeMTMC-reID, and Occluded-Duke. The code and pre-trained models of the PersonViT method are released at https://github.com/hustvl/PersonViT to promote further research in the person ReID fie | 翻訳日:2024-08-13 19:11:07 公開日:2024-08-10 |
# メッシュ変形による薄型眼鏡フレームの1次元再構成
Mesh deformation-based single-view 3D reconstruction of thin eyeglasses frames with differentiable rendering ( http://arxiv.org/abs/2408.05402v1 ) ライセンス: Link先を確認 | Fan Zhang, Ziyue Ji, Weiguang Kang, Weiqing Li, Zhiyong Su, | (参考訳) VR(Virtual Reality)とAR(Augmented Reality)技術のサポートにより、この3Dバーチャルグラス試用アプリケーションは、自宅の快適な場所で完璧な眼鏡を選ぶための"トライオン"オプションを提供する新しいトレンドソリューションとして、順調に進んでいる。
ガラスフレームの再構築は, テクスチャの特徴の不足, 細い要素, 厳密な自己閉塞などの特徴が欠如していることから, 従来の奥行きと画像ベースで行うことは極めて困難である。
本稿では,1枚のRGB画像から高精度3次元フルフレーム眼鏡モデルを復元し,先行知識とドメイン固有知識を活用するメッシュ変形に基づく再構成フレームワークを提案する。
具体的には、合成眼鏡フレームデータセットの構築に基づいて、予め定義されたキーポイントを持つクラス固有の眼鏡フレームテンプレートを最初に定義する。
そして, 入力された眼鏡フレーム画像が細く, テクスチャがほとんどないので, 粗い方法で予め定義されたキーポイントを検出するキーポイント検出器と精細化器を設計し, カメラのポーズを正確に推定する。
その後、微分可能レンダリングを用いて、テンプレートメッシュ上でフリーフォーム変形(FFD)を段階的に実行することにより、正確な幾何を生成する新しい最適化手法を提案する。
我々は,レンダリング結果と対応するRGB入力との整合性を強制する一連の損失関数を定義し,固有構造,シルエット,キーポイント,ピクセルごとのシェーディング情報などの制約を利用する。
合成データセットと実画像の両方の実験結果から,提案アルゴリズムの有効性が示された。
With the support of Virtual Reality (VR) and Augmented Reality (AR) technologies, the 3D virtual eyeglasses try-on application is well on its way to becoming a new trending solution that offers a "try on" option to select the perfect pair of eyeglasses at the comfort of your own home. Reconstructing eyeglasses frames from a single image with traditional depth and image-based methods is extremely difficult due to their unique characteristics such as lack of sufficient texture features, thin elements, and severe self-occlusions. In this paper, we propose the first mesh deformation-based reconstruction framework for recovering high-precision 3D full-frame eyeglasses models from a single RGB image, leveraging prior and domain-specific knowledge. Specifically, based on the construction of a synthetic eyeglasses frame dataset, we first define a class-specific eyeglasses frame template with pre-defined keypoints. Then, given an input eyeglasses frame image with thin structure and few texture features, we design a keypoint detector and refiner to detect predefined keypoints in a coarse-to-fine manner to estimate the camera pose accurately. After that, using differentiable rendering, we propose a novel optimization approach for producing correct geometry by progressively performing free-form deformation (FFD) on the template mesh. We define a series of loss functions to enforce consistency between the rendered result and the corresponding RGB input, utilizing constraints from inherent structure, silhouettes, keypoints, per-pixel shading information, and so on. Experimental results on both the synthetic dataset and real images demonstrate the effectiveness of the proposed algorithm. | 翻訳日:2024-08-13 19:11:07 公開日:2024-08-10 |
# パイロット波理論の問題点--批判的評価
The trouble with pilot-wave theory: a critical evaluation ( http://arxiv.org/abs/2408.05403v1 ) ライセンス: Link先を確認 | Antony Valentini, | (参考訳) パイロット波理論に対する反対は、通常の物理学と奇異な違いが多すぎること、理論が十分に大きく異なること、パイロット波理論の物理学が結局量子物理学と全く同じであること、の3つの互いに矛盾するカテゴリにしばしば現れる。
パイロット波理論の簡単なレビューの後、これらの反論を批判的に評価する。
パイロット波理論の根本的性質は、しばしば誤解されるか、見過ごされるかを示す。
我々は、その力学の新規性を強調し、測定の理解にその意味を明らかにするとともに、ローレンツ不変性、保存法、ボルン・ルールについて論じる。
パイロット波理論に関するアインシュタインの初期の研究を検証し、もはや説得力のない理由から、アインシュタインはそれを断念したと論じる。
我々は、量子力学と経験的に異なる一般化された非平衡理論として、この理論を自身の用語で理解するよう促す。
Objections to pilot-wave theory frequently come in three mutually-contradictory categories: that the theory is too bizarrely different from ordinary physics, that the theory is not radically different enough, and that the physics of pilot-wave theory is after all just the same as quantum physics. After a brief review of pilot-wave theory, we critically evaluate these objections. We show how the radical nature of pilot-wave theory is often misunderstood or overlooked. We highlight the novelty of its dynamics, and clarify its implications for our understanding of measurement, as well as discussing the status of Lorentz invariance, conservation laws, and the Born rule. We examine Einstein's early work on pilot-wave theory and argue that he turned away from it for reasons which are no longer compelling. We urge that the theory be understood on its own terms, as a generalised nonequilibrium theory empirically distinct from quantum mechanics, with all its potentially revolutionary implications. | 翻訳日:2024-08-13 19:11:07 公開日:2024-08-10 |
# LaiDA:メタファー成分同定のためのデータ拡張による言語学的文脈学習
LaiDA: Linguistics-aware In-context Learning with Data Augmentation for Metaphor Components Identification ( http://arxiv.org/abs/2408.05404v1 ) ライセンス: Link先を確認 | Hongde Liu, Chenyuan He, Feiyang Meng, Changyong Niu, Yuxiang Jia, | (参考訳) メタファーコンポーネント識別(MCI)は、メタファの機械的理解の向上に寄与し、下流の自然言語処理タスクを促進する。
しかし、複雑性、多様性、背景知識への依存は、MCIにとって大きな課題となる。
大規模言語モデル(LLM)は、その強力な意味分析と広範な常識知識により、複雑な自然言語テキストの正確な理解のための新しい道を提供する。
本研究では,Linguistics-aware In-context Learning with Data Augmentation (LaiDA)という,LLMに基づく新しいフレームワークを提案する。
具体的には、ChatGPTと教師付き微調整を使用して、高品質なデータセットをカスタマイズする。
LaiDAには、事前トレーニング用のsimileデータセットが組み込まれている。
グラフアテンションネットワークエンコーダは言語的にリッチな特徴表現を生成し、同様の例を検索する。
その後、LLMは言語的に類似した例を統合するプロンプトで微調整される。
レイダはNLPCC2024共有タスク9のサブタスク2で2位にランクインし、その効果を示した。
コードとデータはhttps://github.com/WXLJZ/LaiDA.comで公開されている。
Metaphor Components Identification (MCI) contributes to enhancing machine understanding of metaphors, thereby advancing downstream natural language processing tasks. However, the complexity, diversity, and dependency on context and background knowledge pose significant challenges for MCI. Large language models (LLMs) offer new avenues for accurate comprehension of complex natural language texts due to their strong semantic analysis and extensive commonsense knowledge. In this research, a new LLM-based framework is proposed, named Linguistics-aware In-context Learning with Data Augmentation (LaiDA). Specifically, ChatGPT and supervised fine-tuning are utilized to tailor a high-quality dataset. LaiDA incorporates a simile dataset for pre-training. A graph attention network encoder generates linguistically rich feature representations to retrieve similar examples. Subsequently, LLM is fine-tuned with prompts that integrate linguistically similar examples. LaiDA ranked 2nd in Subtask 2 of NLPCC2024 Shared Task 9, demonstrating its effectiveness. Code and data are available at https://github.com/WXLJZ/LaiDA. | 翻訳日:2024-08-13 19:11:07 公開日:2024-08-10 |
# 一般化アダマール試験による効率的な量子勾配と高次導関数推定
Efficient Quantum Gradient and Higher-order Derivative Estimation via Generalized Hadamard Test ( http://arxiv.org/abs/2408.05406v1 ) ライセンス: Link先を確認 | Dantong Li, Dikshant Dulal, Mykhailo Ohorodnikov, Hanrui Wang, Yongshan Ding, | (参考訳) Noisy Intermediate-Scale Quantum(NISQ)コンピューティングの文脈では、パラメータ化量子回路(PQC)は、量子センシング、最適制御、最適化、短期量子ハードウェアでの機械学習といった課題に対処するための、有望なパラダイムである。
勾配に基づく手法はPQCの挙動を理解するのに不可欠であり、勾配のない手法と比較して変分量子アルゴリズム(VQA)の収束率に大きな利点があることを証明している。
しかしながら、有限差分、パラメータシフト規則、アダマール試験、直接アダマール試験などの既存の勾配推定法は、特定のPQCに対して最適下勾配回路を得ることが多い。
これらの制約に対処するために、一階勾配推定法に適用されたフレキシブル・アダマールテスト(Flexible Hadamard Test)を導入する。
この反転は、PQC勾配を効率的に計算するための測定最適化手法の使用を促進する。
さらに、高次偏微分を評価する指数的なコストを克服するため、単一回路を用いて$k^{th}$次偏微分を計算する$k$fold Hadamard Testを提案する。
さらに、PQC内の個々のパラメータに対する最適勾配推定手法を適応的に選択する統一勾配法である量子自動微分(QAD)を導入する。
これは、我々の知る限り、すべてのパラメータに単一のメソッドを均一に適用するという従来の慣行から逸脱した最初の実装である。
厳密な数値実験により,提案した1次勾配法の有効性を実証し,実PQCアプリケーションの回路実行回数を最大$O(N)$に改善したことを示す。
我々の研究は、量子コンピューティングのNISQ時代に実用的なユーティリティを提供するVQA計算の加速に貢献している。
In the context of Noisy Intermediate-Scale Quantum (NISQ) computing, parameterized quantum circuits (PQCs) represent a promising paradigm for tackling challenges in quantum sensing, optimal control, optimization, and machine learning on near-term quantum hardware. Gradient-based methods are crucial for understanding the behavior of PQCs and have demonstrated substantial advantages in the convergence rates of Variational Quantum Algorithms (VQAs) compared to gradient-free methods. However, existing gradient estimation methods, such as Finite Difference, Parameter Shift Rule, Hadamard Test, and Direct Hadamard Test, often yield suboptimal gradient circuits for certain PQCs. To address these limitations, we introduce the Flexible Hadamard Test, which, when applied to first-order gradient estimation methods, can invert the roles of ansatz generators and observables. This inversion facilitates the use of measurement optimization techniques to efficiently compute PQC gradients. Additionally, to overcome the exponential cost of evaluating higher-order partial derivatives, we propose the $k$-fold Hadamard Test, which computes the $k^{th}$-order partial derivative using a single circuit. Furthermore, we introduce Quantum Automatic Differentiation (QAD), a unified gradient method that adaptively selects the best gradient estimation technique for individual parameters within a PQC. This represents the first implementation, to our knowledge, that departs from the conventional practice of uniformly applying a single method to all parameters. Through rigorous numerical experiments, we demonstrate the effectiveness of our proposed first-order gradient methods, showing up to an $O(N)$ factor improvement in circuit execution count for real PQC applications. Our research contributes to the acceleration of VQA computations, offering practical utility in the NISQ era of quantum computing. | 翻訳日:2024-08-13 19:11:07 公開日:2024-08-10 |
# RSL-BA:シャッターラインバンドル調整
RSL-BA: Rolling Shutter Line Bundle Adjustment ( http://arxiv.org/abs/2408.05409v1 ) ライセンス: Link先を確認 | Yongcong Zhang, Bangyan Liao, Yifei Xue, Chen Lu, Peidong Liu, Yizhen Lao, | (参考訳) この線は人工環境において一般的な要素であり、本質的に空間構造情報を符号化しているため、実用的な用途において特徴表現をより堅牢に選択することができる。
その明らかな利点にもかかわらず、従来のローリングシャッターバンドル調整(RSBA)法は、特に退化環境において、ロバスト性に欠けるスパース特徴点しかサポートしていない。
本稿では,最初のローリングシャッターラインベースバンドル調整ソリューションであるRSL-BAを紹介する。
具体的には,まず,Pl\ "ucker line parameterization" を用いたローリングシャッターカメララインプロジェクション理論を確立する。
その後、安定かつ効率的な一連の再射誤差定式化を導出する。
最後に,本手法が3つの共通退化を防止できることを理論的,実験的に実証した。
大規模合成および実データ実験により,本手法は既存の点ベース転がりシャッター束調整法に匹敵する効率と精度が得られた。
The line is a prevalent element in man-made environments, inherently encoding spatial structural information, thus making it a more robust choice for feature representation in practical applications. Despite its apparent advantages, previous rolling shutter bundle adjustment (RSBA) methods have only supported sparse feature points, which lack robustness, particularly in degenerate environments. In this paper, we introduce the first rolling shutter line-based bundle adjustment solution, RSL-BA. Specifically, we initially establish the rolling shutter camera line projection theory utilizing Pl\"ucker line parameterization. Subsequently, we derive a series of reprojection error formulations which are stable and efficient. Finally, we theoretically and experimentally demonstrate that our method can prevent three common degeneracies, one of which is first discovered in this paper. Extensive synthetic and real data experiments demonstrate that our method achieves efficiency and accuracy comparable to existing point-based rolling shutter bundle adjustment solutions. | 翻訳日:2024-08-13 19:11:07 公開日:2024-08-10 |
# 音声は全方向ビデオの視覚的注意にどのように影響するか? データベースとモデル
How Does Audio Influence Visual Attention in Omnidirectional Videos? Database and Model ( http://arxiv.org/abs/2408.05411v1 ) ライセンス: Link先を確認 | Yuxin Zhu, Huiyu Duan, Kaiwei Zhang, Yucheng Zhu, Xilei Zhu, Long Teng, Xiongkuo Min, Guangtao Zhai, | (参考訳) 全方向ビデオ(ODV)における視聴者の注意力の理解と予測は、仮想現実および拡張現実アプリケーションにおけるユーザのエンゲージメントを高めるために不可欠である。
音声と視覚の両方のモダリティは、ODVの唾液濃度予測に必須であるが、これら2つのモダリティの併用は、主に大規模オーディオ視覚の唾液濃度データベースの欠如と包括的分析により制限されている。
本稿では、主観的視点と客観的視点の両方から、ODVの音声視覚的注意を包括的に調査する。
162個のODVと、ミュート、モノ、アンビソニクスを含む3つのオーディオモードの下で60人の被験者から収集された対応する眼球運動データを含む全方位ビデオのための新しい音声-視覚情報データベースAVS-ODVデータベースを最初に紹介する。
構築されたAVS-ODVデータベースに基づいて,音声がODVの視覚的注意に与える影響を詳細に分析する。
AVS-ODVデータベースをベースとして,視覚のみのモデルや音声視覚モデルを含む多数の最先端のサリエンシモデルをテストすることで,ODVに対する音声視覚的サリエンシ予測の研究を前進させるため,新たなベンチマークを確立する。
さらに,現行モデルの限界を踏まえ,U-Netアーキテクチャに基づいて構築され,階層的にマルチモーダルな組込み空間からオーディオと視覚機能を融合した,一方向のオーディオ・ビジュアル・サリエンシ予測ネットワーク(OmniAVS)を提案する。
OmniAVSモデルは、ODV AVS予測と従来のAVS予測の両方において、他の最先端モデルよりも優れていた。
AVS-ODVデータベースとOmniAVSモデルは、将来の研究を促進するためにリリースされる。
Understanding and predicting viewer attention in omnidirectional videos (ODVs) is crucial for enhancing user engagement in virtual and augmented reality applications. Although both audio and visual modalities are essential for saliency prediction in ODVs, the joint exploitation of these two modalities has been limited, primarily due to the absence of large-scale audio-visual saliency databases and comprehensive analyses. This paper comprehensively investigates audio-visual attention in ODVs from both subjective and objective perspectives. Specifically, we first introduce a new audio-visual saliency database for omnidirectional videos, termed AVS-ODV database, containing 162 ODVs and corresponding eye movement data collected from 60 subjects under three audio modes including mute, mono, and ambisonics. Based on the constructed AVS-ODV database, we perform an in-depth analysis of how audio influences visual attention in ODVs. To advance the research on audio-visual saliency prediction for ODVs, we further establish a new benchmark based on the AVS-ODV database by testing numerous state-of-the-art saliency models, including visual-only models and audio-visual models. In addition, given the limitations of current models, we propose an innovative omnidirectional audio-visual saliency prediction network (OmniAVS), which is built based on the U-Net architecture, and hierarchically fuses audio and visual features from the multimodal aligned embedding space. Extensive experimental results demonstrate that the proposed OmniAVS model outperforms other state-of-the-art models on both ODV AVS prediction and traditional AVS predcition tasks. The AVS-ODV database and OmniAVS model will be released to facilitate future research. | 翻訳日:2024-08-13 19:11:07 公開日:2024-08-10 |
# オーディオ認識スタイル参照によるリップシンクのスタイル保存
Style-Preserving Lip Sync via Audio-Aware Style Reference ( http://arxiv.org/abs/2408.05412v1 ) ライセンス: Link先を確認 | Weizhi Zhong, Jichang Li, Yinqi Cai, Liang Lin, Guanbin Li, | (参考訳) オーディオ駆動型リップシンクは、マルチメディア領域に広く応用されているため、近年注目されている。
個人が同じ発話をする際に異なる唇の形を示すが、これは個人の独特の話し方によるもので、音声駆動の唇シンクでは顕著な課題である。
このようなタスクの以前の手法は、パーソナライズされた話し方スタイルのモデリングを回避し、その結果、一般的なスタイルに適合するサブ最適リップシンクが生じることが多かった。
最近のリップシンク技術は、スタイル参照ビデオから情報を集約することで、任意のオーディオのためのリップシンクを誘導しようとするが、スタイルアグリゲーションにおける不正確さのため、発話スタイルを十分に保存することはできない。
本研究は,入力音声とスタイル参照ビデオからの参照音声の関係を効果的に活用して,スタイル保存型オーディオ駆動リップシンクに対処する,革新的なオーディオ認識スタイル参照スキームを提案する。
具体的には、まず、入力音声に対応する唇の動きを予測するための高度なトランスフォーマーベースモデルを開発し、スタイル参照ビデオから、クロスアテンション層を介して集約されたスタイル情報によって拡張する。
その後, 口唇の動きをよりリアルな話し顔映像に表現するために, 条件付き潜伏拡散モデル, 変調畳み込み層による唇の動きの統合, 空間的クロスアテンション層による参照顔画像の融合を考案した。
広汎な実験により, 提案手法の有効性を検証し, 正確な唇のシンク, 発話スタイルの保存, 高忠実でリアルな話し声ビデオの生成を行った。
Audio-driven lip sync has recently drawn significant attention due to its widespread application in the multimedia domain. Individuals exhibit distinct lip shapes when speaking the same utterance, attributed to the unique speaking styles of individuals, posing a notable challenge for audio-driven lip sync. Earlier methods for such task often bypassed the modeling of personalized speaking styles, resulting in sub-optimal lip sync conforming to the general styles. Recent lip sync techniques attempt to guide the lip sync for arbitrary audio by aggregating information from a style reference video, yet they can not preserve the speaking styles well due to their inaccuracy in style aggregation. This work proposes an innovative audio-aware style reference scheme that effectively leverages the relationships between input audio and reference audio from style reference video to address the style-preserving audio-driven lip sync. Specifically, we first develop an advanced Transformer-based model adept at predicting lip motion corresponding to the input audio, augmented by the style information aggregated through cross-attention layers from style reference video. Afterwards, to better render the lip motion into realistic talking face video, we devise a conditional latent diffusion model, integrating lip motion through modulated convolutional layers and fusing reference facial images via spatial cross-attention layers. Extensive experiments validate the efficacy of the proposed approach in achieving precise lip sync, preserving speaking styles, and generating high-fidelity, realistic talking face videos. | 翻訳日:2024-08-13 19:11:07 公開日:2024-08-10 |
# ランドマークに基づく拡散モデルによる高忠実度・リップ同期音声合成
High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model ( http://arxiv.org/abs/2408.05416v1 ) ライセンス: Link先を確認 | Weizhi Zhong, Junfan Lin, Peixin Chen, Liang Lin, Guanbin Li, | (参考訳) 音声駆動の音声顔ビデオ生成は、その大きな産業的可能性から注目を集めている。
従来の手法では、音声から視覚コンテンツへの直接マッピングの学習に重点を置いていた。
進歩にもかかわらず、マッピングプロセスの曖昧さに苦しむことが多く、結果に欠陥が生じます。
もう一つの戦略は、仲介者としての顔の構造的表現(例えば、顔のランドマーク)である。
このマルチステージアプローチは外観の詳細をよりよく保存するが、異なるステージの独立した最適化のためにエラーの蓄積に悩まされる。
さらに、従来のほとんどの手法は、生成的敵ネットワークに依存しており、不安定性とモード崩壊を訓練する傾向がある。
これらの課題に対処するために, 顔のランドマークを中間表現として活用し, エンドツーエンドの最適化を実現する, 音声合成のための新しいランドマークベース拡散モデルを提案する。
具体的には、まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれるイノベーティブな条件付けモジュールを導入し,合成された動きとランドマークで表現された動きとを識別可能なクロスアテンションによって整合させることで,唇の同期を改善するためにエンドツーエンドの最適化を可能にする。
さらに、TalkFormerは暗黙的な機能ワープを使用して、参照イメージ機能とターゲットモーションを一致させて、より外観の詳細を保存する。
広汎な実験により,提案手法は高忠実度・リップ同期音声音声を合成し,参照画像からより詳細な被写体像を保存できることが実証された。
Audio-driven talking face video generation has attracted increasing attention due to its huge industrial potential. Some previous methods focus on learning a direct mapping from audio to visual content. Despite progress, they often struggle with the ambiguity of the mapping process, leading to flawed results. An alternative strategy involves facial structural representations (e.g., facial landmarks) as intermediaries. This multi-stage approach better preserves the appearance details but suffers from error accumulation due to the independent optimization of different stages. Moreover, most previous methods rely on generative adversarial networks, prone to training instability and mode collapse. To address these challenges, our study proposes a novel landmark-based diffusion model for talking face generation, which leverages facial landmarks as intermediate representations while enabling end-to-end optimization. Specifically, we first establish the less ambiguous mapping from audio to landmark motion of lip and jaw. Then, we introduce an innovative conditioning module called TalkFormer to align the synthesized motion with the motion represented by landmarks via differentiable cross-attention, which enables end-to-end optimization for improved lip synchronization. Besides, TalkFormer employs implicit feature warping to align the reference image features with the target motion for preserving more appearance details. Extensive experiments demonstrate that our approach can synthesize high-fidelity and lip-synced talking face videos, preserving more subject appearance details from the reference image. | 翻訳日:2024-08-13 19:11:07 公開日:2024-08-10 |
# インタフェースラプラス学習: 半監督学習を支援する学習可能なインタフェース用語
Interface Laplace Learning: Learnable Interface Term Helps Semi-Supervised Learning ( http://arxiv.org/abs/2408.05419v1 ) ライセンス: Link先を確認 | Tangjun Wang, Chenglong Bao, Zuoqiang Shi, | (参考訳) グラフに基づく半教師付き学習のための新しいフレームワークであるInterface Laplace Learningを導入する。
関数値が非滑らかなクラス間でのインタフェースの存在を観察することによって,インタフェース項を組み込んだLaplace学習モデルを導入する。
このモデルは、すべての未ラベルの点で関数が滑らかであるという長年の仮定に挑戦する。
提案手法では,インタフェース位置におけるLaplace学習モデルにインタフェース項を追加する。
kホップ近傍の指標を用いてインタフェース位置を近似し,人工設計なしでラベル付きデータからインタフェース項を学習する実用的なアルゴリズムを提案する。
我々は,MNIST,FashionMNIST,CIFAR-10データセットのラベルレートが極端に低い場合において,インタフェースラプラス学習が他の半教師付き学習手法よりも優れた性能を発揮することを示す広範な実験を行った。
We introduce a novel framework, called Interface Laplace learning, for graph-based semi-supervised learning. Motivated by the observation that an interface should exist between different classes where the function value is non-smooth, we introduce a Laplace learning model that incorporates an interface term. This model challenges the long-standing assumption that functions are smooth at all unlabeled points. In the proposed approach, we add an interface term to the Laplace learning model at the interface positions. We provide a practical algorithm to approximate the interface positions using k-hop neighborhood indices, and to learn the interface term from labeled data without artificial design. Our method is efficient and effective, and we present extensive experiments demonstrating that Interface Laplace learning achieves better performance than other recent semi-supervised learning approaches at extremely low label rates on the MNIST, FashionMNIST, and CIFAR-10 datasets. | 翻訳日:2024-08-13 19:11:07 公開日:2024-08-10 |
# EPAM-Net:ビデオ行動認識のための効率の良いPose-Driven Attention-Guided Multimodal Network
EPAM-Net: An Efficient Pose-driven Attention-guided Multimodal Network for Video Action Recognition ( http://arxiv.org/abs/2408.05421v1 ) ライセンス: Link先を確認 | Ahmed Abdelkawy, Asem Ali, Aly Farag, | (参考訳) 既存のマルチモーダルベースのヒューマンアクション認識アプローチは計算コストが高く、リアルタイムシナリオにおける適用性を制限するか、あるいは複数のデータモダリティの空間時間情報を利用することができない。
本研究では,ビデオにおける行動認識のための効果的なポーズ駆動型注意誘導型マルチモーダルネットワーク(EPAM-Net)を提案する。
具体的には、RGBビデオとそのスケルトン配列から時空間的特徴をキャプチャするために、RGBとポーズストリームの両方にX3Dネットワークを適用した。
次に、スケルトンの特徴を利用して、空間的時間的注意ブロックを用いて、キーフレームとその空間的空間領域に焦点を当てた視覚ネットワークストリームを支援する。
最後に、最終的な分類のために、提案するネットワークの2つのストリームのスコアを融合させる。
実験の結果,NTU-D 60 と NTU RGB-D 120 ベンチマークの競合性能が得られた。
さらに,FLOP(浮動小数点演算,乗算加算数)の6.2-9.9倍,ネットワークパラメータの9-9.6倍の削減を実現している。
コードはhttps://github.com/ahmed-nady/Multimodal-Action-Recognitionで入手できる。
Existing multimodal-based human action recognition approaches are either computationally expensive, which limits their applicability in real-time scenarios, or fail to exploit the spatial temporal information of multiple data modalities. In this work, we present an efficient pose-driven attention-guided multimodal network (EPAM-Net) for action recognition in videos. Specifically, we adapted X3D networks for both RGB and pose streams to capture spatio-temporal features from RGB videos and their skeleton sequences. Then skeleton features are utilized to help the visual network stream focusing on key frames and their salient spatial regions using a spatial temporal attention block. Finally, the scores of the two streams of the proposed network are fused for final classification. The experimental results show that our method achieves competitive performance on NTU-D 60 and NTU RGB-D 120 benchmark datasets. Moreover, our model provides a 6.2--9.9x reduction in FLOPs (floating-point operation, in number of multiply-adds) and a 9--9.6x reduction in the number of network parameters. The code will be available at https://github.com/ahmed-nady/Multimodal-Action-Recognition. | 翻訳日:2024-08-13 19:11:07 公開日:2024-08-10 |
# グラフトランスネットワークを用いたマルチステップ科学プロセスのモデリング
Modeling Multi-Step Scientific Processes with Graph Transformer Networks ( http://arxiv.org/abs/2408.05425v1 ) ライセンス: Link先を確認 | Amanda A. Volk, Robert W. Epps, Jeffrey G. Ethier, Luke A. Baldwin, | (参考訳) 本研究は, 物質科学, 化学, 生物学など, 実験分野における多段階実験結果の予測にグラフ学習を用いることを提案する。
回帰作業における幾何学習の実用性は、シミュレーションと実世界のデータトレーニング研究の組み合わせによって線形モデルの集合と比較された。
まず,実験プロセスでよく見られる様々な特徴を反映して,任意に設計された5つの多段階サロゲート関数を選択した。
グラフトランスフォーマーネットワークは、プロセスステップとシーケンス依存機能の間の隠れた相互作用を特徴とし、シーケンスに依存しないシナリオでは同等のパフォーマンスを維持しながら、テスト済みのすべての線形モデルよりも優れていた。
次に,コロイド原子層堆積法における実世界の文献データに対して,同様の比較を行った。
完全な反応シーケンスをトレーニングデータとして使用し、グラフニューラルネットワークは、ほとんどのトレーニングセットサイズの3つのスペクトル特性を予測するために、すべての線形モデルより優れていた。
グラフニューラルネットワークのさらなる実装と実験結果の予測のための幾何学的プロセスの幾何学的表現は、高次元パラメータ空間のアルゴリズム駆動ナビゲーションとよりダイナミックなシステムの効率的な探索につながる可能性がある。
This work presents the use of graph learning for the prediction of multi-step experimental outcomes for applications across experimental research, including material science, chemistry, and biology. The viability of geometric learning for regression tasks was benchmarked against a collection of linear models through a combination of simulated and real-world data training studies. First, a selection of five arbitrarily designed multi-step surrogate functions were developed to reflect various features commonly found within experimental processes. A graph transformer network outperformed all tested linear models in scenarios that featured hidden interactions between process steps and sequence dependent features, while retaining equivalent performance in sequence agnostic scenarios. Then, a similar comparison was applied to real-world literature data on algorithm guided colloidal atomic layer deposition. Using the complete reaction sequence as training data, the graph neural network outperformed all linear models in predicting the three spectral properties for most training set sizes. Further implementation of graph neural networks and geometric representation of scientific processes for the prediction of experiment outcomes could lead to algorithm driven navigation of higher dimension parameter spaces and efficient exploration of more dynamic systems. | 翻訳日:2024-08-13 19:11:07 公開日:2024-08-10 |
# SAM-FNet:喉頭咽頭腫瘍検出のためのSAM-Guided Fusion Network
SAM-FNet: SAM-Guided Fusion Network for Laryngo-Pharyngeal Tumor Detection ( http://arxiv.org/abs/2408.05426v1 ) ライセンス: Link先を確認 | Jia Wei, Yun Li, Meiyu Qiu, Hongyu Chen, Xiaomao Fan, Wenbin Lei, | (参考訳) 喉頭咽頭癌 (Laryngo-pharyngeal cancer, LPC) は, 頭頸部の悪性腫瘍である。
従来の内視鏡的腫瘍検出,特にデュアルブランチネットワークアーキテクチャを利用した研究は,腫瘍検出の大幅な進歩を示している。
これらの研究は、グローバルな特徴抽出とローカルな特徴抽出を効果的に統合することにより、診断精度を向上させるための二重ブランチネットワークの可能性を強調した。
しかし、病変領域を正確に特定し、グローバルブランチとローカルブランチ間の識別的特徴情報をキャプチャする能力はまだ限られている。
これらの課題に対処するために,喉頭・咽頭腫瘍検出のための2分岐ネットワークであるSAM-FNetを提案する。
Segment Anything Model(SAM)の強力なオブジェクトセグメンテーション機能を利用することで、SAM-FNetにSAMを導入し、病変領域を正確にセグメンテーションする。
さらに,GAN-like feature optimization (GFO) モジュールを提案し,グローバルブランチとローカルブランチ間の識別的特徴を捕捉し,融合特徴の相補性を向上する。
また,サンヤットセン大学第1附属病院(FAHSYSU)と第6附属病院(SAHSYSU)の2つのLPCデータセットを収集した。
FAHSYSUデータセットはモデルをトレーニングするための内部データセットとして使用され、SAHSYSUデータセットはモデルのパフォーマンスを評価するための外部データセットとして使用される。
FAHSYSUとSAHSYSUの両方のデータセットに対する大規模な実験は、SAM-FNetが競争的な結果が得られることを示した。
SAM-FNetのソースコードはhttps://github.com/VVJia/SAM-FNetで公開されている。
Laryngo-pharyngeal cancer (LPC) is a highly fatal malignant disease affecting the head and neck region. Previous studies on endoscopic tumor detection, particularly those leveraging dual-branch network architectures, have shown significant advancements in tumor detection. These studies highlight the potential of dual-branch networks in improving diagnostic accuracy by effectively integrating global and local (lesion) feature extraction. However, they are still limited in their capabilities to accurately locate the lesion region and capture the discriminative feature information between the global and local branches. To address these issues, we propose a novel SAM-guided fusion network (SAM-FNet), a dual-branch network for laryngo-pharyngeal tumor detection. By leveraging the powerful object segmentation capabilities of the Segment Anything Model (SAM), we introduce the SAM into the SAM-FNet to accurately segment the lesion region. Furthermore, we propose a GAN-like feature optimization (GFO) module to capture the discriminative features between the global and local branches, enhancing the fusion feature complementarity. Additionally, we collect two LPC datasets from the First Affiliated Hospital (FAHSYSU) and the Sixth Affiliated Hospital (SAHSYSU) of Sun Yat-sen University. The FAHSYSU dataset is used as the internal dataset for training the model, while the SAHSYSU dataset is used as the external dataset for evaluating the model's performance. Extensive experiments on both datasets of FAHSYSU and SAHSYSU demonstrate that the SAM-FNet can achieve competitive results, outperforming the state-of-the-art counterparts. The source code of SAM-FNet is available at the URL of https://github.com/VVJia/SAM-FNet. | 翻訳日:2024-08-13 19:11:07 公開日:2024-08-10 |
# グラフ機械学習を用いた制御領域ネットワークにおけるマスクレード攻撃の検出
Detecting Masquerade Attacks in Controller Area Networks Using Graph Machine Learning ( http://arxiv.org/abs/2408.05427v1 ) ライセンス: Link先を確認 | William Marfo, Pablo Moriano, Deepak K. Tosh, Shirley V. Moore, | (参考訳) 現代の車両は、重要な操作のためにコントローラエリアネットワーク(CAN)を介して相互接続された、無数の電子制御ユニット(ECU)に依存している。
ユビキタスな使用と信頼性にもかかわらず、CANは高度なサイバー攻撃、特にマスクレード攻撃の影響を受けやすい。
これらの攻撃は意図しない加速、ブレーキ不活性化、ローグステアリングなどの深刻なリスクを引き起こす。
従来の侵入検知システム(IDS)は、通常トラフィックへのシームレスな統合のため、これらの微妙な侵入を検出するのに苦労することが多い。
本稿では,グラフ機械学習(ML)を用いてCANバスにおけるマスクレード攻撃を検出する新しいフレームワークを提案する。
CANフレームから得られる時系列特徴と浅いグラフ埋め込みの統合により,マスクレード攻撃の検出が促進されるという仮説を立てる。
我々は,CANバスフレームをメッセージシーケンスグラフ(MSG)として表現し,時系列からコンテキスト統計属性を付加することにより,グラフベースの特徴のみを用いた場合と比較して,さまざまな攻撃パターンに対する検出能力を向上できることを示す。
提案手法は,CANフレームの相互作用を包括的かつ動的に解析し,ロバスト性や効率性を向上する。
Mann-Whitney U と Kolmogorov-Smirnov test (0.05) で確認されたように, グラフベースの特徴のみを用いたベースラインと比較して, マスクレード攻撃の検出率の統計的に有意な改善が見られた。
Modern vehicles rely on a myriad of electronic control units (ECUs) interconnected via controller area networks (CANs) for critical operations. Despite their ubiquitous use and reliability, CANs are susceptible to sophisticated cyberattacks, particularly masquerade attacks, which inject false data that mimic legitimate messages at the expected frequency. These attacks pose severe risks such as unintended acceleration, brake deactivation, and rogue steering. Traditional intrusion detection systems (IDS) often struggle to detect these subtle intrusions due to their seamless integration into normal traffic. This paper introduces a novel framework for detecting masquerade attacks in the CAN bus using graph machine learning (ML). We hypothesize that the integration of shallow graph embeddings with time series features derived from CAN frames enhances the detection of masquerade attacks. We show that by representing CAN bus frames as message sequence graphs (MSGs) and enriching each node with contextual statistical attributes from time series, we can enhance detection capabilities across various attack patterns compared to using only graph-based features. Our method ensures a comprehensive and dynamic analysis of CAN frame interactions, improving robustness and efficiency. Extensive experiments on the ROAD dataset validate the effectiveness of our approach, demonstrating statistically significant improvements in the detection rates of masquerade attacks compared to a baseline that uses only graph-based features, as confirmed by Mann-Whitney U and Kolmogorov-Smirnov tests (p < 0.05). | 翻訳日:2024-08-13 19:01:07 公開日:2024-08-10 |
# 一般化エンカージュメントに基づく非現実的回帰のための機器変数
Generalized Encouragement-Based Instrumental Variables for Counterfactual Regression ( http://arxiv.org/abs/2408.05428v1 ) ライセンス: Link先を確認 | Anpeng Wu, Kun Kuang, Ruoxuan Xiong, Xiangwei Chen, Zexu Sun, Fei Wu, Kun Zhang, | (参考訳) 因果推論では、ランダム化制御試験(RCT)が非現実的であったり、治療へのコンプライアンスが完全に強制できない場合、因果効果を分析するために奨励設計(ED)が広く用いられる。
治療を直接割り当てるRDTとは異なり、EDSは個人が特定の治療に積極的に関与するための奨励ポリシーをランダムに割り当てる。
これらのランダムな刺激はインストゥルメンタル変数(IV)として働き、個々の治療シナリオにおける外因性摂動を利用して因果効果の同定を促進する。
しかし、励まし設計の現実的な応用は、不完全なランダム化、限られた実験データ、治療よりもはるかに少ない励まし、正確な因果効果の推定を妨げるような課題に直面していることが多い。
そこで本研究では, 条件平均処理効果(CATE)を促進度の変化を用いて同定するための新しい理論とアルゴリズムを提案する。
さらに、観測データと奨励データの両方を活用することにより、因果効果を効果的に推定するために、Encouragement-based Counterfactual Regression (EnCounteR)と呼ばれる一般化IV推定器を提案する。
合成データセットと実世界のデータセットの両方に対する大規模な実験は、既存の方法よりもEnCounteRの方が優れていることを示している。
In causal inference, encouragement designs (EDs) are widely used to analyze causal effects, when randomized controlled trials (RCTs) are impractical or compliance to treatment cannot be perfectly enforced. Unlike RCTs, which directly allocate treatments, EDs randomly assign encouragement policies that positively motivate individuals to engage in a specific treatment. These random encouragements act as instrumental variables (IVs), facilitating the identification of causal effects through leveraging exogenous perturbations in discrete treatment scenarios. However, real-world applications of encouragement designs often face challenges such as incomplete randomization, limited experimental data, and significantly fewer encouragements compared to treatments, hindering precise causal effect estimation. To address this, this paper introduces novel theories and algorithms for identifying the Conditional Average Treatment Effect (CATE) using variations in encouragement. Further, by leveraging both observational and encouragement data, we propose a generalized IV estimator, named Encouragement-based Counterfactual Regression (EnCounteR), to effectively estimate the causal effects. Extensive experiments on both synthetic and real-world datasets demonstrate the superiority of EnCounteR over existing methods. | 翻訳日:2024-08-13 19:01:07 公開日:2024-08-10 |
# ミューオンコライダーにおけるベルの不等式試験と量子エンタングルメントの探索
Testing Bell inequalities and probing quantum entanglement at a muon collider ( http://arxiv.org/abs/2408.05429v1 ) ライセンス: Link先を確認 | Youpeng Wu, Ran Ding, Sitian Qian, Andrew Micheal Levin, Alim Ruzi, Qiang Li, | (参考訳) ミューオンコライダーは2040年代初頭のLHC操作が終了すると、次世代の粒子物理学実験の候補となる。
複数のゲージボソンの生成など、LHCでの希少または検出困難なプロセスは、TeVミューオンコライダーでアクセスできるようになる。
ここでは、将来のミューオンコライダーにおけるH-ZZ-4l事象における量子エンタングルメントの検出とベルの不等式違反の可能性を示す。
Zボソン対のスピン密度行列は、Zボソン崩壊による荷電レプトンの運動学を用いて再構成可能であることを示す。
密度行列が決定されると、様々なベル作用素の期待値を取得し、Zボソン対の間の量子絡みをテストすることが容易にできる。
モンテカルロシミュレーションに基づく詳細な研究により、一般化されたCGLMPの不等式は最大違反しうることを示し、ベルの不等式を高い重要性で検証できることを示した。
A muon collider represents a promising candidate for the next generation of particle physics experiments after the expected end of LHC operations in the early 2040s. Rare or hard-to-detect processes at the LHC, such as the production of multiple gauge bosons, become accessible at a TeV muon collider. We present here the prospects of detecting quantum entanglement and the violation of Bell inequalities in H to ZZ to 4l events at a potential future muon collider. We show that the spin density matrix of the Z boson pairs can be reconstructed using the kinematics of the charged leptons from the Z boson decays. Once the density matrix is determined, it is straightforward to obtain the expectation values of various Bell operators and test the quantum entanglement between the Z boson pair. Through a detailed study based on Monte-Carlo simulation, we show that the generalized CGLMP inequality can be maximally violated, and testing Bell inequalities could be established with high significance. | 翻訳日:2024-08-13 19:01:07 公開日:2024-08-10 |
# HoME: Kuaishouでのマルチタスク学習のためのマルチゲートエキスパートの階層
HoME: Hierarchy of Multi-Gate Experts for Multi-Task Learning at Kuaishou ( http://arxiv.org/abs/2408.05430v1 ) ライセンス: Link先を確認 | Xu Wang, Jiangxia Cao, Zhiyi Fu, Kun Gai, Guorui Zhou, | (参考訳) 本稿では,クアイショーのショートビデオサービスで学んだ実践的問題と教訓について述べる。
業界で広く使われているマルチタスクフレームワークはMixture-of-Experts(MoE)パラダイムであり、これは常にタスクごとに共有された特定の専門家を紹介し、関連する専門家の貢献を測定するためにゲートネットワークを使用する。
1) 専門家の崩壊: 専門家のアウトプット分布は大きく異なり、専門家の中にはReLUで90%以上のアクティベーションがゼロであることに気付きました。
2) 専門家劣化: 理想的には、共有専門家は、全てのタスクに同時に予測情報を提供することを目的としている。
それにもかかわらず、一部の共有専門家は1つのタスクのみによって占有されており、これは共有専門家がその能力を失ったが、特定の専門家に分解されたことを示している。
(3) 専門家不足: 当社のサービスでは、予測すべき行動タスクが数十個ありますが、データスパースな予測タスクでは、特定の専門家を無視して、共有専門家に大きな重みを割り当てる傾向があります。
その理由は、共有専門家がより厳密なタスクからより勾配の更新や知識を知覚できるのに対して、特定の専門家はスパースな振る舞いのために容易に不適合になるためかもしれない。
これらの観測により,マルチタスク学習のためのシンプルで効率的かつバランスの取れたMoEシステムを実現するため,HoMEを提案する。
In this paper, we present the practical problems and the lessons learned at short-video services from Kuaishou. In industry, a widely-used multi-task framework is the Mixture-of-Experts (MoE) paradigm, which always introduces some shared and specific experts for each task and then uses gate networks to measure related experts' contributions. Although the MoE achieves remarkable improvements, we still observe three anomalies that seriously affect model performances in our iteration: (1) Expert Collapse: We found that experts' output distributions are significantly different, and some experts have over 90% zero activations with ReLU, making it hard for gate networks to assign fair weights to balance experts. (2) Expert Degradation: Ideally, the shared-expert aims to provide predictive information for all tasks simultaneously. Nevertheless, we find that some shared-experts are occupied by only one task, which indicates that shared-experts lost their ability but degenerated into some specific-experts. (3) Expert Underfitting: In our services, we have dozens of behavior tasks that need to be predicted, but we find that some data-sparse prediction tasks tend to ignore their specific-experts and assign large weights to shared-experts. The reason might be that the shared-experts can perceive more gradient updates and knowledge from dense tasks, while specific-experts easily fall into underfitting due to their sparse behaviors. Motivated by those observations, we propose HoME to achieve a simple, efficient and balanced MoE system for multi-task learning. | 翻訳日:2024-08-13 19:01:07 公開日:2024-08-10 |
# Gauss-JordanによるRanc-1テンソル完了の簡易かつほぼ最適サンプリング
Simple and Nearly-Optimal Sampling for Rank-1 Tensor Completion via Gauss-Jordan ( http://arxiv.org/abs/2408.05431v1 ) ライセンス: Link先を確認 | Alejandro Gomez-Leos, Oscar López, | (参考訳) ランク1テンソルを$\otimes_{i=1}^{N} \mathbb{R}^{d}$で完備する際のサンプルと計算の複雑さを再考する。
一対のランダム線形系上でガウス・ヨルダンに等しいアルゴリズムを許容する問題(すなわち、ゼロでないエントリ)の特徴づけを示す。
例えば、$N = \Theta(1)$の場合、$m = O(d^2 \log d)$サンプルを使用せず、$O(md^2)$時間で実行されることを証明します。
さらに、任意のアルゴリズムが$\Omega(d\log d)$サンプルを必要とすることを示す。
対照的に、サンプル複雑性の既存の上限は少なくとも$d^{1.5} \mu^{\Omega(1)} \log^{\Omega(1)} d$であり、最悪の場合$\mu$は$\Theta(d)$である。
以前の研究では、この問題の上位バージョンではこれらの緩い保証が得られ、より複雑なアルゴリズムが伴う傾向にあった。
We revisit the sample and computational complexity of completing a rank-1 tensor in $\otimes_{i=1}^{N} \mathbb{R}^{d}$, given a uniformly sampled subset of its entries. We present a characterization of the problem (i.e. nonzero entries) which admits an algorithm amounting to Gauss-Jordan on a pair of random linear systems. For example, when $N = \Theta(1)$, we prove it uses no more than $m = O(d^2 \log d)$ samples and runs in $O(md^2)$ time. Moreover, we show any algorithm requires $\Omega(d\log d)$ samples. By contrast, existing upper bounds on the sample complexity are at least as large as $d^{1.5} \mu^{\Omega(1)} \log^{\Omega(1)} d$, where $\mu$ can be $\Theta(d)$ in the worst case. Prior work obtained these looser guarantees in higher rank versions of our problem, and tend to involve more complicated algorithms. | 翻訳日:2024-08-13 19:01:07 公開日:2024-08-10 |
# 資産の移動と絡み合い安定性(UW${\normalsize\it{E}})
Transfer and entanglement stability of property ($UW${\normalsize\it{E}}) ( http://arxiv.org/abs/2408.05433v1 ) ライセンス: Link先を確認 | Sinan Qiu, Lining Jiang, | (参考訳) 作用素 $T\in B(H)$ が性質を満たす(UW${\scriptsize \it{E}})のは、本質的近似点スペクトルの近似点スペクトルの補数がスペクトルの孤立固有値と一致するときである。
作用素の一貫した可逆性によって誘導されるCIスペクトルを用いて、$T$と$T^\ast$のプロパティ(UW${\scriptsize \it{E}})を同時に探索する。
さらに、$T$から$f(T)$と$f(T^{\ast})$へのプロパティ(UW${\scriptsize \it{E}})の転送が得られ、$f$は$T$のスペクトルの近傍で解析される関数である。
最終的に、いわゆる$(A,B)$絡み安定スペクトル(英語版)の助けを借りて、2 の 2$ 上の三角作用素行列に対するプロパティ(UW${\scriptsize \it{E}})の絡み合い安定性を調べた。
An operator $T\in B(H)$ is said to satisfy property ($UW${\scriptsize \it{E}}) if the complement in the approximate point spectrum of the essential approximate point spectrum coincides with the isolated eigenvalues of the spectrum. Via the CI spectrum induced by consistent invertibility property of operators, we explore property ($UW${\scriptsize \it{E}}) for $T$ and $T^\ast$ simultaneously. Furthermore, the transfer of property ($UW${\scriptsize \it{E}}) from $T$ to $f(T)$ and $f(T^{\ast})$ is obtained, where $f$ is a function which is analytic in a neighborhood of the spectrum of $T$. At last, with the help of the so-called $(A,B)$ entanglement stable spectra, the entanglement stability of property ($UW${\scriptsize \it{E}}) for $2\times 2$ upper triangular operator matrices is investigated. | 翻訳日:2024-08-13 19:01:07 公開日:2024-08-10 |
# SuperEncoder:Universal Neural Approximate Quantum State Preparationを目指して
SuperEncoder: Towards Universal Neural Approximate Quantum State Preparation ( http://arxiv.org/abs/2408.05435v1 ) ライセンス: Link先を確認 | Yilun Zhao, Bingmeng Wang, Wenle Jiang, Xiwei Pan, Bing Li, Yinhe Han, Ying Wang, | (参考訳) 多数の量子アルゴリズムは、古典的なデータが既に量子状態に変換されたという仮定のもとに動作し、量子状態準備(Quantum State prepared, QSP)と呼ばれるプロセスである。
しかし、正確なQSPを達成するには、量子ビット数と指数関数的にスケールする回路深さが必要であり、量子的優位性を利用する上ではかなりの障害となる。
近年の研究では、パラメータ化量子回路(PQC)を用いて目標状態を近似し、精度の高いQSPに比べて回路深さを小さくしたよりスケーラブルなソリューションを提案する。
それにもかかわらず、回路パラメータの反復的な更新の必要性により、実行時間が長くなり、実用的利用が制限される。
本研究では、事前学習されたニューラルネットワークを利用して任意の量子状態のQSP回路を直接生成し、オンライン反復の大幅なオーバーヘッドを解消できることを実証する。
我々の研究は、近似QSPのための普遍的ニューラルデザイナに向けて着実に進んでいる。
Numerous quantum algorithms operate under the assumption that classical data has already been converted into quantum states, a process termed Quantum State Preparation (QSP). However, achieving precise QSP requires a circuit depth that scales exponentially with the number of qubits, making it a substantial obstacle in harnessing quantum advantage. Recent research suggests using a Parameterized Quantum Circuit (PQC) to approximate a target state, offering a more scalable solution with reduced circuit depth compared to precise QSP. Despite this, the need for iterative updates of circuit parameters results in a lengthy runtime, limiting its practical application. In this work, we demonstrate that it is possible to leverage a pre-trained neural network to directly generate the QSP circuit for arbitrary quantum state, thereby eliminating the significant overhead of online iterations. Our study makes a steady step towards a universal neural designer for approximate QSP. | 翻訳日:2024-08-13 19:01:07 公開日:2024-08-10 |
# 各種データモダリティ間のハンドジェスチャ認識の方法論的・構造的考察
A Methodological and Structural Review of Hand Gesture Recognition Across Diverse Data Modalities ( http://arxiv.org/abs/2408.05436v1 ) ライセンス: Link先を確認 | Jungpil Shin, Abu Saleh Musa Miah, Md. Humaun Kabir, Md. Abdur Rahim, Abdullah Al Shiam, | (参考訳) HGR(Hand Gesture Recognition, Hand Gesture Recognition)システムは、人間とコンピュータのインタラクションを自然に、効率よく、そして本物にするためのシステムだ。
大幅な進歩にもかかわらず、手ジェスチャーの自動的かつ正確な識別は、コンピュータビジョンにおいて大きな課題である。
近年の研究は、RGB画像、骨格データ、時空間的関心点などの特定のモダリティに焦点を当てている。
本稿では,2014年から2024年までのHGR技術とデータモダリティを概観し,センサ技術とコンピュータビジョンの進歩を探求する。
我々は、RGB、Skeleton、Depth、Audio、EMG、EEG、マルチモーダルアプローチなど、様々なモダリティを用いた成果を強調し、さらなる研究を必要とする分野を特定する。
我々は、データ収集、データ設定、ジェスチャ表現を中心に、著名なデータベースから200以上の記事をレビューした。
本報告では,HGRシステムの有効性を認識精度で評価し,連続的なジェスチャー認識研究のギャップを認識し,視力に基づくジェスチャーシステムの改善の必要性を示唆する。
この分野は、手作りの特徴の進歩や深層学習(DL)技術など、着実に研究が進んでいる。
さらに,HGR法とマルチモーダル手法の分野での有望な発展について報告する。
この調査が、多種多様なデータモダリティに基づくHGR研究のガイドとなることを願っている。
Researchers have been developing Hand Gesture Recognition (HGR) systems to enhance natural, efficient, and authentic human-computer interaction, especially benefiting those who rely solely on hand gestures for communication. Despite significant progress, the automatic and precise identification of hand gestures remains a considerable challenge in computer vision. Recent studies have focused on specific modalities like RGB images, skeleton data, and spatiotemporal interest points. This paper provides a comprehensive review of HGR techniques and data modalities from 2014 to 2024, exploring advancements in sensor technology and computer vision. We highlight accomplishments using various modalities, including RGB, Skeleton, Depth, Audio, EMG, EEG, and Multimodal approaches and identify areas needing further research. We reviewed over 200 articles from prominent databases, focusing on data collection, data settings, and gesture representation. Our review assesses the efficacy of HGR systems through their recognition accuracy and identifies a gap in research on continuous gesture recognition, indicating the need for improved vision-based gesture systems. The field has experienced steady research progress, including advancements in hand-crafted features and deep learning (DL) techniques. Additionally, we report on the promising developments in HGR methods and the area of multimodal approaches. We hope this survey will serve as a potential guideline for diverse data modality-based HGR research. | 翻訳日:2024-08-13 19:01:07 公開日:2024-08-10 |
# 肝移植患者における長期同種移植の生存予測
Predicting Long-Term Allograft Survival in Liver Transplant Recipients ( http://arxiv.org/abs/2408.05437v1 ) ライセンス: Link先を確認 | Xiang Gao, Michael Cooper, Maryam Naghibzadeh, Amirhossein Azhie, Mamatha Bhat, Rahul G. Krishnan, | (参考訳) 移植後5年以内に肝移植を受けた患者のうち約20%に肝移植が失敗し、死亡や再移植の必要性が生じる。
移植後ケアを改善するためには,移植失敗の個別化リスク推定のための正確かつ解釈可能なモデルの提供が不可欠である。
この目的のために、我々は、他の先進的生存モデルよりも優れた単純な線形リスクスコアである、Allograft Survival (MAS) モデルを導入する。
米国(米国)の長期患者追跡データを用いて, 肝移植患者82,959名を対象に, マルチサイト評価を行った。
さらに、米国以外のコーホートを別々にテストすることにより、様々なモデルの配布外一般化性能を、追加の微調整なしで検証し、臨床展開にとって重要な特性である。
最も複雑なモデルは、分配性能が最高であるにもかかわらず、分配シフトに対して最も脆弱なモデルでもある。
本研究は, 長期的移植失敗の予測に強いリスクスコアを与えるだけでなく, 患者に有害な結果をもたらす可能性も示唆した。
Liver allograft failure occurs in approximately 20% of liver transplant recipients within five years post-transplant, leading to mortality or the need for retransplantation. Providing an accurate and interpretable model for individualized risk estimation of graft failure is essential for improving post-transplant care. To this end, we introduce the Model for Allograft Survival (MAS), a simple linear risk score that outperforms other advanced survival models. Using longitudinal patient follow-up data from the United States (U.S.), we develop our models on 82,959 liver transplant recipients and conduct multi-site evaluations on 11 regions. Additionally, by testing on a separate non-U.S. cohort, we explore the out-of-distribution generalization performance of various models without additional fine-tuning, a crucial property for clinical deployment. We find that the most complex models are also the ones most vulnerable to distribution shifts despite achieving the best in-distribution performance. Our findings not only provide a strong risk score for predicting long-term graft failure but also suggest that the routine machine learning pipeline with only in-distribution held-out validation could create harmful consequences for patients at deployment. | 翻訳日:2024-08-13 19:01:07 公開日:2024-08-10 |
# Blind Image Super-Resolutionのためのコンテントデカップリング型コントラスト学習によるインプシット劣化モデル
Content-decoupled Contrastive Learning-based Implicit Degradation Modeling for Blind Image Super-Resolution ( http://arxiv.org/abs/2408.05440v1 ) ライセンス: Link先を確認 | Jiang Yuan, Ji Ma, Bo Wang, Weiming Hu, | (参考訳) 複雑な劣化シナリオと幅広い応用範囲への優れた一般化により、暗黙の劣化モデリングに基づく視覚超解像 (SR) がコミュニティの注目を集めている。
より差別的な劣化表現を抽出し、特定の画像特徴に完全に適応する方法が、この課題の鍵である。
本稿では,コンテントデカップリング型コントラスト学習ベースブラインド画像超解像(CdCL)フレームワークを提案する。
このフレームワークは、暗黙の劣化表現をモデル化するために、初めて、暗黙の劣化表現をモデル化するために、データの観点からコンテンツ特徴と劣化特徴の疎結合を確保するために、新しい循環シフトサンプリング戦略を設計し、学習された暗黙の劣化空間の純度と識別性を改善する。
さらに,暗黙的劣化に基づく暗黙的過分解の効率と有効性を改善するため,細部認識型暗黙的劣化適応モジュールを設計し,チャネルと空間の両方の観点から特定のLR画像に分解情報を適用する。
合成および実データに関する大規模な実験により、提案したCdCLは、対照的な学習に基づく暗黙的暗黙的SRパラダイムの量的および質的な結果を総合的に改善し、この分野においてSOTA PSNRを達成することが証明された。
パラメータの数が半減しても,本手法は非常に競合的な結果が得られる。
Implicit degradation modeling-based blind super-resolution (SR) has attracted more increasing attention in the community due to its excellent generalization to complex degradation scenarios and wide application range. How to extract more discriminative degradation representations and fully adapt them to specific image features is the key to this task. In this paper, we propose a new Content-decoupled Contrastive Learning-based blind image super-resolution (CdCL) framework following the typical blind SR pipeline. This framework introduces negative-free contrastive learning technique for the first time to model the implicit degradation representation, in which a new cyclic shift sampling strategy is designed to ensure decoupling between content features and degradation features from the data perspective, thereby improving the purity and discriminability of the learned implicit degradation space. In addition, to improve the efficiency and effectiveness of implicit degradation-based blind super-resolving, we design a detail-aware implicit degradation adaption module with lower complexity, which adapts degradation information to the specific LR image from both channel and spatial perspectives. Extensive experiments on synthetic and real data prove that the proposed CdCL comprehensively improves the quantitative and qualitative results of contrastive learning-based implicit blind SR paradigm, and achieves SOTA PSNR in this field. Even if the number of parameters is halved, our method still achieves very competitive results. | 翻訳日:2024-08-13 19:01:07 公開日:2024-08-10 |
# 条件の連鎖:条件質問応答のための構成、検証、解決条件
Chain of Condition: Construct, Verify and Solve Conditions for Conditional Question Answering ( http://arxiv.org/abs/2408.05442v1 ) ライセンス: Link先を確認 | Jiuheng Lin, Yuxuan Lai, Yansong Feng, | (参考訳) 条件付き質問応答(CQA)は、可能な回答を見つけ、その回答を支援するために必要な条件を特定することを目的とした重要なタスクである。
既存のアプローチは,(1) 条件とその論理的関係を正確に同定し,(2) 条件の検証と解決を行うという2つの主な課題により,CQAと競合する。
これらの課題に対処するため、我々は、まずすべての条件を識別し、文書に従って論理的関係を明示的に構築し、これらの条件が満たされているかどうかを検証し、最後に、ツールによる論理的表現を解き、不足した条件を示し、解決された条件に基づいて回答を生成する、新しい促進的手法であるChain of Conditionを提案する。
2つのベンチマーク条件付き質問応答データセットの実験は、既存のプロンプトベースラインよりも優れた条件チェーンを示し、新しい最先端技術を確立している。
さらに、GPT-3.5-TurboやGPT-4のようなバックボーンモデルでは、教師付きベースラインを数ショット設定で超える。
Conditional question answering (CQA) is an important task that aims to find probable answers and identify conditions that need to be satisfied to support the answer. Existing approaches struggle with CQA due to two main challenges: (1) precisely identifying conditions and their logical relationship, and (2) verifying and solving the conditions. To address these challenges, we propose Chain of Condition, a novel prompting approach by firstly identifying all conditions and constructing their logical relationships explicitly according to the document, then verifying whether these conditions are satisfied, finally solving the logical expression by tools to indicate any missing conditions and generating the answer based on the resolved conditions. The experiments on two benchmark conditional question answering datasets shows chain of condition outperforms existing prompting baselines, establishing a new state-of-the-art. Furthermore, with backbone models like GPT-3.5-Turbo or GPT-4, it surpasses all supervised baselines with only few-shot settings. | 翻訳日:2024-08-13 19:01:07 公開日:2024-08-10 |
# 量子計算
Quantum Computation ( http://arxiv.org/abs/2408.05448v1 ) ライセンス: Link先を確認 | Barry C Sanders, | (参考訳) この章では、量子リソースを計算に導入する動機や量子計算の実施方法など、量子計算を要約する。
最後に、この章は量子計算の利点と限界を、基礎的かつ実用的に表現している。
This chapter summarizes quantum computation, including the motivation for introducing quantum resources into computation and how quantum computation is done. Finally, this chapter articulates advantages and limitations of quantum computation, both fundamental and practical. | 翻訳日:2024-08-13 19:01:07 公開日:2024-08-10 |
# 部分コヒーレント光を用いた一方向イメージング
Unidirectional imaging with partially coherent light ( http://arxiv.org/abs/2408.05449v1 ) ライセンス: Link先を確認 | Guangdong Ma, Che-Yung Shen, Jingxi Li, Luzhe Huang, Cagatay Isil, Fazil Onuralp Ardic, Xilin Yang, Yuhang Li, Yuntian Wang, Md Sadman Sakib Rahman, Aydogan Ozcan, | (参考訳) 単方向撮像装置は、FoVBからFOVAまでの1方向のみの入力対象の画像を形成するとともに、逆方向の画像形成をブロックし、空間的に部分的にコヒーレントな光の下で一方向撮像を行い、低電力効率で後方方向(B->A)の画像形成を歪ませながら、高効率で前方方向(A->B)にのみ高画質撮像を行う。
我々の相互設計は、空間的に設計した線形回折層を特徴とし、位相相関長を指定した部分コヒーレント照明に統計的に最適化する。
解析の結果,Wは光の波長であり,光の波長が1.5w以上の部分コヒーレントビームで照らされた場合,回折一方向撮像器は強靭な性能を示し,前方方向と後方方向の非対称撮像性能を示すことがわかった。
1.5w未満の相関長が小さい部分コヒーレントな一方向撮像器は、一方向画像伝送をサポートするが、利点の少ない。
これらの部分コヒーレントな回折一方向撮像器はコンパクト(軸方向は75w未満)であり、偏光非依存であり、様々な種類の照明源と互換性があり、非対称な視覚情報処理や通信への応用に適している。
Unidirectional imagers form images of input objects only in one direction, e.g., from field-of-view (FOV) A to FOV B, while blocking the image formation in the reverse direction, from FOV B to FOV A. Here, we report unidirectional imaging under spatially partially coherent light and demonstrate high-quality imaging only in the forward direction (A->B) with high power efficiency while distorting the image formation in the backward direction (B->A) along with low power efficiency. Our reciprocal design features a set of spatially engineered linear diffractive layers that are statistically optimized for partially coherent illumination with a given phase correlation length. Our analyses reveal that when illuminated by a partially coherent beam with a correlation length of ~1.5 w or larger, where w is the wavelength of light, diffractive unidirectional imagers achieve robust performance, exhibiting asymmetric imaging performance between the forward and backward directions - as desired. A partially coherent unidirectional imager designed with a smaller correlation length of less than 1.5 w still supports unidirectional image transmission, but with a reduced figure of merit. These partially coherent diffractive unidirectional imagers are compact (axially spanning less than 75 w), polarization-independent, and compatible with various types of illumination sources, making them well-suited for applications in asymmetric visual information processing and communication. | 翻訳日:2024-08-13 19:01:07 公開日:2024-08-10 |
# 重ね合わせ計算の数学的モデル
Mathematical Models of Computation in Superposition ( http://arxiv.org/abs/2408.05451v1 ) ライセンス: Link先を確認 | Kaarel Hänni, Jake Mendel, Dmitry Vaintrob, Lawrence Chan, | (参考訳) 重ね合わせ — ニューラルネットワークが次元よりも‘features’を表現している場合 — は、現在のAIシステムを機械的に解釈する上で、深刻な課題となるように思われる。
既存の理論研究は \emph{representational} 重ね合わせの研究であり、重畳はボトルネックを通して情報を渡すときにのみ用いられる。
本研究は, 重ね合わせがタスクの効率向上に有効である, 重ね合わせにおける 'emph{computation} の数学的モデルを提案する。
まず、$m$ の各特徴の $\binom{m}{2}$ ペアの AND を取る回路を効率的にエミュレートするタスクを構築する。
重ね合わせを用いた1層型MLPを構築し、この処理を最大$\varepsilon$-errorで実行し、入力特徴が重ね合わせのemph{themselves}であっても、ネットワークは$\tilde{O}(m^{\frac{2}{3}})$のニューロンのみを必要とする。
我々は、この構成を低深さの任意のスパースブール回路に一般化し、次に、幅$d$の深い完全接続ネットワークを、幅$\tilde{O}(d^{1.5})$と\emph{any}多項式深さの回路をエミュレートする「エラー補正」層を構築する。
我々は、重ね合わせで計算を実装するニューラルネットワークを解釈する研究の潜在的な応用について、結論付けている。
Superposition -- when a neural network represents more ``features'' than it has dimensions -- seems to pose a serious challenge to mechanistically interpreting current AI systems. Existing theory work studies \emph{representational} superposition, where superposition is only used when passing information through bottlenecks. In this work, we present mathematical models of \emph{computation} in superposition, where superposition is actively helpful for efficiently accomplishing the task. We first construct a task of efficiently emulating a circuit that takes the AND of the $\binom{m}{2}$ pairs of each of $m$ features. We construct a 1-layer MLP that uses superposition to perform this task up to $\varepsilon$-error, where the network only requires $\tilde{O}(m^{\frac{2}{3}})$ neurons, even when the input features are \emph{themselves in superposition}. We generalize this construction to arbitrary sparse boolean circuits of low depth, and then construct ``error correction'' layers that allow deep fully-connected networks of width $d$ to emulate circuits of width $\tilde{O}(d^{1.5})$ and \emph{any} polynomial depth. We conclude by providing some potential applications of our work for interpreting neural networks that implement computation in superposition. | 翻訳日:2024-08-13 19:01:07 公開日:2024-08-10 |
# EV-MGDispNet:移動誘導イベントベースステレオ異方性推定ネットワーク
EV-MGDispNet: Motion-Guided Event-Based Stereo Disparity Estimation Network with Left-Right Consistency ( http://arxiv.org/abs/2408.05452v1 ) ライセンス: Link先を確認 | Junjie Jiang, Hao Zhuang, Xinjie Huang, Delei Kong, Zheng Fang, | (参考訳) イベントカメラはロボットビジョンの分野、特に高時間分解能と高ダイナミックレンジのため、ステレオ不均一性推定のような分野に革命をもたらす可能性がある。
多くの研究では、イベントカメラステレオ不均等推定にディープラーニングを使用している。
しかし、これらの手法は、イベントストリーム内の時間情報を完全に活用して、明確なイベント表現を取得することができない。
さらに、コストボリュームを構築する前に、特徴マップの画素シフトをさらに削減する余地がある。
本稿では,新しいイベントベースステレオディパリティ推定法であるEV-MGDispNetを提案する。
まず、イベントフレームとモーション信頼マップを融合させて、新しい明確なイベント表現を生成するエッジ・アウェア・アグリゲーション(EAA)モジュールを提案する。
そこで我々は, 変形可能な変圧器エンコーダを用いて, より正確なエッジで特徴写像を向上する, 動き誘導型アテンション(MGA)モジュールを提案する。
最後に、ステレオイベント表現の左右の整合性を高めるために、国勢調査の左右の整合性損失関数を追加する。
実世界の運転シナリオにおいて実験を行うことで,本手法が既知の最先端手法よりも平均絶対誤差(MAE)と平均二乗誤差(RMSE)の指標で優れていることを確認した。
Event cameras have the potential to revolutionize the field of robot vision, particularly in areas like stereo disparity estimation, owing to their high temporal resolution and high dynamic range. Many studies use deep learning for event camera stereo disparity estimation. However, these methods fail to fully exploit the temporal information in the event stream to acquire clear event representations. Additionally, there is room for further reduction in pixel shifts in the feature maps before constructing the cost volume. In this paper, we propose EV-MGDispNet, a novel event-based stereo disparity estimation method. Firstly, we propose an edge-aware aggregation (EAA) module, which fuses event frames and motion confidence maps to generate a novel clear event representation. Then, we propose a motion-guided attention (MGA) module, where motion confidence maps utilize deformable transformer encoders to enhance the feature map with more accurate edges. Finally, we also add a census left-right consistency loss function to enhance the left-right consistency of stereo event representation. Through conducting experiments within challenging real-world driving scenarios, we validate that our method outperforms currently known state-of-the-art methods in terms of mean absolute error (MAE) and root mean square error (RMSE) metrics. | 翻訳日:2024-08-13 18:51:22 公開日:2024-08-10 |
# Bregman-divergence-based Arimoto-Blahut algorithm
Bregman-divergence-based Arimoto-Blahut algorithm ( http://arxiv.org/abs/2408.05454v1 ) ライセンス: Link先を確認 | Masahito Hayashi, | (参考訳) 一般化された有本・ブラフトアルゴリズムを,ブレグマン・ディバージェンス・システム上で定義された一般関数に一般化する。
既存の手法では、線形制約が課されると、各反復は凸最小化を解く必要がある。
得られたアルゴリズムを探索し,凸最適化のないアルゴリズムを提案する。
このアルゴリズムは古典的および量子速度歪み理論に適用できる。
速度歪み理論における最適条件分布の導出に本手法を数値的に適用する。
We generalize the generalized Arimoto-Blahut algorithm to a general function defined over Bregman-divergence system. In existing methods, when linear constraints are imposed, each iteration needs to solve a convex minimization. Exploiting our obtained algorithm, we propose a convex-optimization-free algorithm. This algorithm can be applied to classical and quantum rate-distortion theory. We numerically apply our method to the derivation of the optimal conditional distribution in the rate-distortion theory. | 翻訳日:2024-08-13 18:51:22 公開日:2024-08-10 |
# 潜在拡散モデルに基づくマルチモーダル生成意味コミュニケーション
Multimodal generative semantic communication based on latent diffusion model ( http://arxiv.org/abs/2408.05455v1 ) ライセンス: Link先を確認 | Weiqi Fu, Lianming Xu, Xin Wu, Haoyang Wei, Li Wang, | (参考訳) 緊急時には、環境データや指令情報を迅速かつ正確に収集し、タイムリーな意思決定を行う能力が特に重要である。
従来の意味コミュニケーションフレームワークは、主に単一のモダリティに基づいており、複雑な環境や照明条件に影響を受けやすいため、決定精度が制限される。
そこで本研究では,mm-GESCOというマルチモーダル・ジェネリック・セマンティック・コミュニケーション・フレームワークを提案する。
このフレームワークは、可視および赤外線モダル画像データのストリームを取り込み、融合セマンティックセグメンテーションマップを生成し、それをワンホット符号化とzlib圧縮技術を組み合わせて送信し、データ伝送効率を向上させる。
受信終了時に、このフレームワークはセマンティックマップに基づいて、元のマルチモーダルイメージを再構築することができる。
さらに、回帰学習に基づく潜伏拡散モデルは、潜伏空間内で異なるモードデータを整列するように設計されており、mm-GESCOは入力に現れる任意のモードの潜伏特徴を再構成することができる。
実験の結果,mm-GESCOは200倍の圧縮比を達成し,既存のセマンティック通信フレームワークの性能を上回り,オブジェクト分類や検出などの下流タスクにおいて優れた性能を示すことがわかった。
In emergencies, the ability to quickly and accurately gather environmental data and command information, and to make timely decisions, is particularly critical. Traditional semantic communication frameworks, primarily based on a single modality, are susceptible to complex environments and lighting conditions, thereby limiting decision accuracy. To this end, this paper introduces a multimodal generative semantic communication framework named mm-GESCO. The framework ingests streams of visible and infrared modal image data, generates fused semantic segmentation maps, and transmits them using a combination of one-hot encoding and zlib compression techniques to enhance data transmission efficiency. At the receiving end, the framework can reconstruct the original multimodal images based on the semantic maps. Additionally, a latent diffusion model based on contrastive learning is designed to align different modal data within the latent space, allowing mm-GESCO to reconstruct latent features of any modality presented at the input. Experimental results demonstrate that mm-GESCO achieves a compression ratio of up to 200 times, surpassing the performance of existing semantic communication frameworks and exhibiting excellent performance in downstream tasks such as object classification and detection. | 翻訳日:2024-08-13 18:51:22 公開日:2024-08-10 |
# Path-LLM:一元化グラフ表現のための最短パスベースLLM学習
Path-LLM: A Shortest-Path-based LLM Learning for Unified Graph Representation ( http://arxiv.org/abs/2408.05456v1 ) ライセンス: Link先を確認 | Wenbo Shang, Xuliang Zhu, Xin Huang, | (参考訳) 統一グラフ表現学習は、複数の下流アプリケーションに適用可能なノード埋め込みを生成することを目的としている。
しかし、グラフニューラルネットワークと言語モデルに基づく既存の研究は、特定の下流予測に必要な多くのトレーニングの制限に悩まされるか、あるいは浅い意味的特徴を持つ。
本研究では,我々の提案したパス特徴を組み込むために,強力な大規模言語モデル(LLM)を利用する統一グラフ表現を学習するための新しいパス-LLMモデルを提案する。
Path-LLMフレームワークは、よく設計されたいくつかのテクニックで構成されています。
まず,L2SP(Long-to-Short Shortest Path)の選択機構について検討した。
設計したL2SPの強度を示すため,異なる経路選択計画の詳細な比較を行った。
そして、L2SPベースのトレーニングテキストを得るために経路テキスト化を設計する。
次に,テキストを自己教師型LLM学習プロセスに入力し,埋め込み学習を行う。
ベンチマークによる広範囲な実験により、2つの古典的なグラフ学習タスク(ノード分類とリンク予測)と1つのNPハードグラフクエリ処理タスク(キーワード検索)において、最先端のWalkLM法に対するPath-LLMの優位性を検証し、同時にトレーニングパスの90%以上を節約した。
Unified graph representation learning aims to produce node embeddings, which can be applied to multiple downstream applications. However, existing studies based on graph neural networks and language models either suffer from the limitations of numerous training needed toward specific downstream predictions or have shallow semantic features. In this work, we propose a novel Path-LLM model to learn unified graph representation, which leverages a powerful large language model (LLM) to incorporate our proposed path features. Our Path-LLM framework consists of several well-designed techniques. First, we develop a new mechanism of long-to-short shortest path (L2SP) selection, which covers essential connections between different dense groups. An in-depth comparison of different path selection plans is offered to illustrate the strength of our designed L2SP. Then, we design path textualization to obtain L2SP-based training texts. Next, we feed the texts into a self-supervised LLM training process to learn embeddings. Extensive experiments on benchmarks validate the superiority of Path-LLM against the state-of-the-art WalkLM method on two classical graph learning tasks (node classification and link prediction) and one NP-hard graph query processing task (keyword search), meanwhile saving more than 90% of training paths. | 翻訳日:2024-08-13 18:51:22 公開日:2024-08-10 |
# グラフ上での大規模言語モデルチューニングのインストラクションの検討
Investigating Instruction Tuning Large Language Models on Graphs ( http://arxiv.org/abs/2408.05457v1 ) ライセンス: Link先を確認 | Kerui Zhu, Bo-Wei Huang, Bowen Jin, Yizhu Jiao, Ming Zhong, Kevin Chang, Shou-De Lin, Jiawei Han, | (参考訳) NLPタスクにおけるLarge Language Models(LLM)の最近の進歩に触発されて、グラフ関連のタスクにLLMを適用することへの関心が高まっている。
本研究は, LLMがグラフと効果的に相互作用し, グラフタスクをまたいで一般化する方法について, 実証的な知見を提供することを目的として, 実世界のグラフに係わる命令追従 LLM の機能について考察する。
まず、学術・電子商取引分野の79のグラフ関連タスクの多種多様なコレクションと、44,240のトレーニングインスタンスと18,960のテストサンプルからなる、インストラクションチューニング用に設計されたデータセットを構築する。
このベンチマークを利用して、LLMが複雑なグラフ構造を理解するための導管として機能する最適なグラフ表現の同定に焦点をあてる。
この結果から,グラフ表現のためのJSONフォーマットは,様々なLLMやグラフタイプにまたがる自然言語やコードフォーマットを一貫して上回っていることが示唆された。
さらに、ドメイン内およびドメイン外の両方のグラフタスクの性能を評価することにより、命令調整 LLM の一般化能力に影響を与える重要な要因について検討する。
Inspired by the recent advancements of Large Language Models (LLMs) in NLP tasks, there's growing interest in applying LLMs to graph-related tasks. This study delves into the capabilities of instruction-following LLMs for engaging with real-world graphs, aiming to offer empirical insights into how LLMs can effectively interact with graphs and generalize across graph tasks. We begin by constructing a dataset designed for instruction tuning, which comprises a diverse collection of 79 graph-related tasks from academic and e-commerce domains, featuring 44,240 training instances and 18,960 test samples. Utilizing this benchmark, our initial investigation focuses on identifying the optimal graph representation that serves as a conduit for LLMs to understand complex graph structures. Our findings indicate that JSON format for graph representation consistently outperforms natural language and code formats across various LLMs and graph types. Furthermore, we examine the key factors that influence the generalization abilities of instruction-tuned LLMs by evaluating their performance on both in-domain and out-of-domain graph tasks. | 翻訳日:2024-08-13 18:51:22 公開日:2024-08-10 |
# K-Nearest Neighbor Augmentationによる分散ネットワーククラスタリングのためのVersatileフレームワーク
A Versatile Framework for Attributed Network Clustering via K-Nearest Neighbor Augmentation ( http://arxiv.org/abs/2408.05459v1 ) ライセンス: Link先を確認 | Yiran Li, Gongyao Guo, Jieming Shi, Renchi Yang, Shiqi Shen, Qing Li, Jun Luo, | (参考訳) ノード属性にエンティティ固有の情報を含む分散ネットワークは、ソーシャルネットワーク、eコマース、バイオインフォマティクスなどのモデリングにおいてユビキタスである。
そのネットワークトポロジーは、単純なグラフから高次相互作用を持つハイパーグラフ、別々の層を持つ多重グラフまで様々である。
重要なグラフマイニングタスクはノードクラスタリングであり、クラスタ内のノードが密接に接続され、類似した属性を共有するように、属性付きネットワークのノードを k 個の非結合クラスタに分割することを目的としている。
ノードや属性を介してマルチホップ接続をキャプチャして、複数のタイプの属性ネットワーク上で効果的なクラスタリングを行うことは非常に困難である。
本稿ではまず,属性付きハイパーグラフクラスタリング(AHC)に対する効率的なアプローチとして,AHCKAを提案する。
AHCKAは、ハイパグラフ上の属性情報の最適化利用のための、慎重に構築されたK-アレスト近傍増強戦略と、効果的なAHC目標を考案する共同ハイパーグラフランダムウォークモデルと、目標最適化のためのスピードアップ技術を備えた効率的な解法を含む。
提案手法は様々な属性付きネットワークに対して拡張可能であり,属性付きグラフクラスタリング(AGC),属性付き多重グラフクラスタリング(AMGC),およびAHCが可能な汎用属性付きネットワーククラスタリングフレームワークとしてANCKAを開発した。
さらに,GPUアクセラレーションに適したアルゴリズム設計によるANCKAを考案し,効率を向上する。
我々は,提案手法を8つの属性付きハイパーグラフ上の19の競合,6つの属性付きグラフ上の16の競合,および3つの属性付き多重グラフ上の16の競合と比較した。
Attributed networks containing entity-specific information in node attributes are ubiquitous in modeling social networks, e-commerce, bioinformatics, etc. Their inherent network topology ranges from simple graphs to hypergraphs with high-order interactions and multiplex graphs with separate layers. An important graph mining task is node clustering, aiming to partition the nodes of an attributed network into k disjoint clusters such that intra-cluster nodes are closely connected and share similar attributes, while inter-cluster nodes are far apart and dissimilar. It is highly challenging to capture multi-hop connections via nodes or attributes for effective clustering on multiple types of attributed networks. In this paper, we first present AHCKA as an efficient approach to attributed hypergraph clustering (AHC). AHCKA includes a carefully-crafted K-nearest neighbor augmentation strategy for the optimized exploitation of attribute information on hypergraphs, a joint hypergraph random walk model to devise an effective AHC objective, and an efficient solver with speedup techniques for the objective optimization. The proposed techniques are extensible to various types of attributed networks, and thus, we develop ANCKA as a versatile attributed network clustering framework, capable of attributed graph clustering (AGC), attributed multiplex graph clustering (AMGC), and AHC. Moreover, we devise ANCKA with algorithmic designs tailored for GPU acceleration to boost efficiency. We have conducted extensive experiments to compare our methods with 19 competitors on 8 attributed hypergraphs, 16 competitors on 6 attributed graphs, and 16 competitors on 3 attributed multiplex graphs, all demonstrating the superb clustering quality and efficiency of our methods. | 翻訳日:2024-08-13 18:51:22 公開日:2024-08-10 |
# FuXi Weather: エンド・ツー・エンドの機械学習気象データ同化と予測システム
FuXi Weather: An end-to-end machine learning weather data assimilation and forecasting system ( http://arxiv.org/abs/2408.05472v1 ) ライセンス: Link先を確認 | Xiuyu Sun, Xiaohui Zhong, Xiaoze Xu, Yuanqing Huang, Hao Li, Jie Feng, Wei Han, Libo Wu, Yuan Qi, | (参考訳) データ収集のためのグローバル観測システム、初期状態を生成するデータ同化システム、将来の気象予報モデルである。
NWPは静かな革命を経験し、過去数十年で予測スキルが徐々に向上してきたが、高い計算コストや観測データの増加とより微細な空間グリッドの管理に伴う複雑さといった課題により、その進歩は鈍化している。
機械学習の進歩は、より効率的で正確な天気予報への代替手段を提供する。
機械学習ベースの天気予報モデルの台頭は、機械学習ベースのDAモデルや、純粋に機械学習ベースの天気予報システムの開発にも拍車をかけた。
本稿では,エンド・ツー・エンドの機械学習による天気予報システムであるFuXi Weatherを紹介する。
FuXi Weatherは、特殊なデータ前処理とマルチモーダルデータ融合技術を使用して、全天的な条件下で様々なソースからの情報を統合する。
6時間DAと予測サイクルで運用されているFuXi Weatherは、空間解像度0.25度で、独立して、堅牢で正確な10日間の世界天気予報を発生させる。
中距離気象予報センター(European Centre for Medium-range Weather Forecasts)の予測を予測可能性の観点から上回り、9.25日から9.5日にかけての500 hPaの地磁気高度など、いくつかの重要な気象変数の予測リードタイムを巧妙に伸ばす。
このシステムの高い計算効率と堅牢な性能は、観測が限られていても、従来のNWPシステムに代わる有望な代替手段としての可能性を示している。
Operational numerical weather prediction systems consist of three fundamental components: the global observing system for data collection, data assimilation for generating initial conditions, and the forecasting model to predict future weather conditions. While NWP have undergone a quiet revolution, with forecast skills progressively improving over the past few decades, their advancement has slowed due to challenges such as high computational costs and the complexities associated with assimilating an increasing volume of observational data and managing finer spatial grids. Advances in machine learning offer an alternative path towards more efficient and accurate weather forecasts. The rise of machine learning based weather forecasting models has also spurred the development of machine learning based DA models or even purely machine learning based weather forecasting systems. This paper introduces FuXi Weather, an end-to-end machine learning based weather forecasting system. FuXi Weather employs specialized data preprocessing and multi-modal data fusion techniques to integrate information from diverse sources under all-sky conditions, including microwave sounders from 3 polar-orbiting satellites and radio occultation data from Global Navigation Satellite System. Operating on a 6-hourly DA and forecasting cycle, FuXi Weather independently generates robust and accurate 10-day global weather forecasts at a spatial resolution of 0.25\textdegree. It surpasses the European Centre for Medium-range Weather Forecasts high-resolution forecasts in terms of predictability, extending the skillful forecast lead times for several key weather variables such as the geopotential height at 500 hPa from 9.25 days to 9.5 days. The system's high computational efficiency and robust performance, even with limited observations, demonstrates its potential as a promising alternative to traditional NWP systems. | 翻訳日:2024-08-13 18:51:22 公開日:2024-08-10 |
# 包括的グラフ分類のための構造的特徴に基づくアプローチ
A Structural Feature-Based Approach for Comprehensive Graph Classification ( http://arxiv.org/abs/2408.05474v1 ) ライセンス: Link先を確認 | Saiful Islam, Md. Nahid Hasan, Pitambar Khanra, | (参考訳) 様々な領域にまたがるグラフ構造化データの出現は、グラフ分類タスクへの関心を高めている。
多くの高度なグラフ学習法が出現しているが、その複雑さはしばしば実践的な実装を妨げる。
本稿では,基本グラフ構造特性に基づいて特徴ベクトルを構成する手法を提案することにより,この問題に対処する。
これらの特徴は、単純さにもかかわらず、同じクラス内のグラフの本質的な特性を捉えるのに十分強力であることを示す。
我々は,3つの異なる機械学習手法によるアプローチの有効性について検討し,特徴に基づく分類が同一クラス内のグラフの構造的類似性をどのように活用し,正確な分類を実現するかを明らかにする。
このアプローチの重要な利点は、そのシンプルさであり、ソーシャルネットワーク分析、バイオインフォマティクス、サイバーセキュリティなど、幅広いアプリケーションにアクセスし、適応できるようにする。
さらに,本手法の有効性を検証するための広範な実験を行い,競争性能だけでなく,より複雑で最先端の手法の精度を超越するケースもあることを示した。
この結果から,基礎的なグラフ機能に焦点をあてることで,グラフ分類の堅牢かつ効率的な代替手段が得られ,研究と実践の両方に有意義な可能性をもたらすことが示唆された。
The increasing prevalence of graph-structured data across various domains has intensified greater interest in graph classification tasks. While numerous sophisticated graph learning methods have emerged, their complexity often hinders practical implementation. In this article, we address this challenge by proposing a method that constructs feature vectors based on fundamental graph structural properties. We demonstrate that these features, despite their simplicity, are powerful enough to capture the intrinsic characteristics of graphs within the same class. We explore the efficacy of our approach using three distinct machine learning methods, highlighting how our feature-based classification leverages the inherent structural similarities of graphs within the same class to achieve accurate classification. A key advantage of our approach is its simplicity, which makes it accessible and adaptable to a broad range of applications, including social network analysis, bioinformatics, and cybersecurity. Furthermore, we conduct extensive experiments to validate the performance of our method, showing that it not only reveals a competitive performance but in some cases surpasses the accuracy of more complex, state-of-the-art techniques. Our findings suggest that a focus on fundamental graph features can provide a robust and efficient alternative for graph classification, offering significant potential for both research and practical applications. | 翻訳日:2024-08-13 18:51:22 公開日:2024-08-10 |
# パノラマBEVコレトリーバルネットワークを用いたクロスビュー画像のジオローカライゼーション
Cross-view image geo-localization with Panorama-BEV Co-Retrieval Network ( http://arxiv.org/abs/2408.05475v1 ) ライセンス: Link先を確認 | Junyan Ye, Zhutao Lv, Weijia Li, Jinhua Yu, Haote Yang, Huaping Zhong, Conghui He, | (参考訳) クロスビュージオローカライゼーションは、地理参照衛星データベースとマッチングすることで、ストリートビュー画像の地理的位置を識別する。
顕著な課題は、視界の劇的な外観と幾何学的差異によるものである。
本稿では,パノラマBEVコレトリヴァルネットワーク(Panorama-BEV Co-Retrieval Network)という,クロスビュー画像のジオローカライズのための新しいアプローチを提案する。
具体的には、地上平面の仮定と幾何学的関係を利用して、ストリートビューパノラマ画像をBEVビューに変換し、ストリートパノラマと衛星画像とのギャップを小さくする。
既存のストリートビューパノラマ画像と衛星画像の検索において、協調検索のためのBEVと衛星画像検索のブランチを導入する。
元のストリートビュー検索ブランチを保持することで、BEV表現の認識範囲の制限を克服する。
我々のネットワークは、ストリートビューの撮影場所周辺のグローバルなレイアウトとローカルな詳細の両方を包括的に認識することを可能にする。
さらに,実世界のシナリオに近いグローバルなクロスビューデータセットCVGlobalを導入する。
このデータセットはより現実的な設定を採用しており、ストリートビューの方向は衛星画像と一致しない。
CVGlobalには、地図検索テストのためのクロスリージョン、クロスタイム、ストリートビューも含まれており、アルゴリズム性能の包括的な評価を可能にする。
本手法は,CVUSA,CVACT,VIGOR,新たに導入したCVGlobalなど,共通のクロスビューデータセットに対する複数のテストで優れており,最先端のアプローチを超越している。
コードとデータセットは \url{https://github.com/yejy53/EP-BEV} で見ることができる。
Cross-view geolocalization identifies the geographic location of street view images by matching them with a georeferenced satellite database. Significant challenges arise due to the drastic appearance and geometry differences between views. In this paper, we propose a new approach for cross-view image geo-localization, i.e., the Panorama-BEV Co-Retrieval Network. Specifically, by utilizing the ground plane assumption and geometric relations, we convert street view panorama images into the BEV view, reducing the gap between street panoramas and satellite imagery. In the existing retrieval of street view panorama images and satellite images, we introduce BEV and satellite image retrieval branches for collaborative retrieval. By retaining the original street view retrieval branch, we overcome the limited perception range issue of BEV representation. Our network enables comprehensive perception of both the global layout and local details around the street view capture locations. Additionally, we introduce CVGlobal, a global cross-view dataset that is closer to real-world scenarios. This dataset adopts a more realistic setup, with street view directions not aligned with satellite images. CVGlobal also includes cross-regional, cross-temporal, and street view to map retrieval tests, enabling a comprehensive evaluation of algorithm performance. Our method excels in multiple tests on common cross-view datasets such as CVUSA, CVACT, VIGOR, and our newly introduced CVGlobal, surpassing the current state-of-the-art approaches. The code and datasets can be found at \url{https://github.com/yejy53/EP-BEV}. | 翻訳日:2024-08-13 18:51:22 公開日:2024-08-10 |
# ボディー・プロンプティングで人間とAIのコクレーションを探求するアートワーク
Artworks Reimagined: Exploring Human-AI Co-Creation through Body Prompting ( http://arxiv.org/abs/2408.05476v1 ) ライセンス: Link先を確認 | Jonas Oppenlaender, Hannah Johnston, Johanna Silvennoinen, Helena Barranha, | (参考訳) 生成人工知能を用いた画像生成は一般的な活動である。
しかし、キーボードで入力することで、個人の家のプライバシーでほぼ独占的に実行される。
本稿では、画像生成のための入力としてボディプロンプトを探索する。
ボディプロンプトは、テキスト入力以外の生成AIとのインタラクションを拡張して、画像生成の創造的な行為と、アートワークを作成する物理的な行為をリコネクションする。
このコンセプトをインタラクティブなアートインスタレーションであるArtworks Reimaginedに実装し、ボディプロンプトを通じてアートを変換します。
公開とプライベートの場所で、何百人ものビジターとイベントでインストールをデプロイしました。
ビジターのサンプル (N=79) から, 身体刺激が良好に受容され, 楽しい体験が得られた。
我々は、生成AIと具現化された相互作用の3つのパターンを特定し、参加者のボディプロンプトとAI共創体験に関する洞察を示す。
博物館、ギャラリー、その他の公共文化空間でインタラクティブな生成AI体験をデザインしようとする実践者に対して、貴重なレコメンデーションを提供する。
Image generation using generative artificial intelligence is a popular activity. However, it is almost exclusively performed in the privacy of an individual's home via typing on a keyboard. In this article, we explore body prompting as input for image generation. Body prompting extends interaction with generative AI beyond textual inputs to reconnect the creative act of image generation with the physical act of creating artworks. We implement this concept in an interactive art installation, Artworks Reimagined, designed to transform artworks via body prompting. We deployed the installation at an event with hundreds of visitors in a public and private setting. Our results from a sample of visitors (N=79) show that body prompting was well-received and provides an engaging and fun experience. We identify three distinct patterns of embodied interaction with the generative AI and present insights into participants' experience of body prompting and AI co-creation. We provide valuable recommendations for practitioners seeking to design interactive generative AI experiences in museums, galleries, and other public cultural spaces. | 翻訳日:2024-08-13 18:51:22 公開日:2024-08-10 |
# Scene123:ビデオアシストと一貫性強化による3Dシーン生成
Scene123: One Prompt to 3D Scene Generation via Video-Assisted and Consistency-Enhanced MAE ( http://arxiv.org/abs/2408.05477v1 ) ライセンス: Link先を確認 | Yiying Yang, Fukun Yin, Jiayuan Fan, Xin Chen, Wanzhang Li, Gang Yu, | (参考訳) AIGC(Artificial Intelligence Generated Content)の発展に伴い、テキスト、画像、ビデオ、および3Dオブジェクトを単一またはマルチモーダル入力から生成する様々な手法が開発され、ヒューマンライクな認知コンテンツ生成のエミュレートに寄与している。
しかし、1つの入力から現実的な大規模なシーンを生成することは、モデルによって生成された外挿されたビュー間の一貫性を確保するのにまつわる複雑さのため、課題となる。
近年の映像生成モデルと暗黙的ニューラル表現に相応しい3Dシーン生成モデルであるScene123を提案する。これは映像生成フレームワークを通じてリアリズムと多様性を保証するだけでなく、Masked Autoencoders(MAE)と組み合わせて暗黙的ニューラルフィールドを使用して、ビュー全体における見えない領域の一貫性を効果的に確保する。
具体的には、まず入力画像(またはテキストから生成された画像)をワープし、隣接するビューをシミュレートし、MAEモデルで見えない領域を埋める。
しかし,これらの画像は視界の整合性の維持に失敗するため,生成したビューを利用してニューラルラディアンス場を最適化し,幾何的整合性を向上させる。
さらに、生成したビューの細部やテクスチャの忠実度をさらに高めるために、映像生成モデルを通じて入力画像から得られる画像に対して、GANベースのロスを用いる。
大規模な実験により,一つのプロンプトから現実的で一貫したシーンを生成できることが実証された。
定性的かつ定量的な結果は、我々のアプローチが既存の最先端手法を上回ることを示している。
ビデオ例はhttps://yiyingyang12.github.io/Scene123.github.io/で紹介する。
As Artificial Intelligence Generated Content (AIGC) advances, a variety of methods have been developed to generate text, images, videos, and 3D objects from single or multimodal inputs, contributing efforts to emulate human-like cognitive content creation. However, generating realistic large-scale scenes from a single input presents a challenge due to the complexities involved in ensuring consistency across extrapolated views generated by models. Benefiting from recent video generation models and implicit neural representations, we propose Scene123, a 3D scene generation model, that not only ensures realism and diversity through the video generation framework but also uses implicit neural fields combined with Masked Autoencoders (MAE) to effectively ensures the consistency of unseen areas across views. Specifically, we initially warp the input image (or an image generated from text) to simulate adjacent views, filling the invisible areas with the MAE model. However, these filled images usually fail to maintain view consistency, thus we utilize the produced views to optimize a neural radiance field, enhancing geometric consistency. Moreover, to further enhance the details and texture fidelity of generated views, we employ a GAN-based Loss against images derived from the input image through the video generation model. Extensive experiments demonstrate that our method can generate realistic and consistent scenes from a single prompt. Both qualitative and quantitative results indicate that our approach surpasses existing state-of-the-art methods. We show encourage video examples at https://yiyingyang12.github.io/Scene123.github.io/. | 翻訳日:2024-08-13 18:51:22 公開日:2024-08-10 |
# 視覚言語モデルを用いたマルチエージェント計画
Multi-agent Planning using Visual Language Models ( http://arxiv.org/abs/2408.05478v1 ) ライセンス: Link先を確認 | Michele Brienza, Francesco Argenziano, Vincenzo Suriani, Domenico D. Bloisi, Daniele Nardi, | (参考訳) 大規模言語モデル(LLM)とビジュアル言語モデル(VLM)は、様々なドメインやタスクにわたるパフォーマンスとアプリケーションの改善により、関心を集めている。
しかし、LLMとVLMは、特に問題領域の深い理解が必要な場合、誤った結果をもたらす。
例えば、計画と知覚が同時に必要となる場合、これらのモデルは、マルチモーダル情報をマージすることが困難であるため、しばしば苦労する。
この問題に対処するために、微調整されたモデルは通常、環境を表す特別なデータ構造に基づいて採用され、訓練される。
このアプローチは、処理のコンテキストを過度に複雑化するので、効果が制限される。
本稿では,特定のデータ構造を入力として必要とせずに動作可能なマルチエージェント型タスクプランニングアーキテクチャを提案する。
代わりに、環境の単一のイメージを使用し、コモンセンスの知識を活用することで、自由形式のドメインを扱う。
また,計画の質をよりよく評価するための新しい完全自動評価手法PG2Sを導入する。
我々は広く認識されているALFREDデータセットを用いて、PG2Sを既存のKASメトリックと比較し、生成した計画の品質をさらに評価した。
Large Language Models (LLMs) and Visual Language Models (VLMs) are attracting increasing interest due to their improving performance and applications across various domains and tasks. However, LLMs and VLMs can produce erroneous results, especially when a deep understanding of the problem domain is required. For instance, when planning and perception are needed simultaneously, these models often struggle because of difficulties in merging multi-modal information. To address this issue, fine-tuned models are typically employed and trained on specialized data structures representing the environment. This approach has limited effectiveness, as it can overly complicate the context for processing. In this paper, we propose a multi-agent architecture for embodied task planning that operates without the need for specific data structures as input. Instead, it uses a single image of the environment, handling free-form domains by leveraging commonsense knowledge. We also introduce a novel, fully automatic evaluation procedure, PG2S, designed to better assess the quality of a plan. We validated our approach using the widely recognized ALFRED dataset, comparing PG2S to the existing KAS metric to further evaluate the quality of the generated plans. | 翻訳日:2024-08-13 18:51:22 公開日:2024-08-10 |
# ReToMe-VA:ビデオ拡散に基づく非制限逆アタックのための再帰的トークンマージ
ReToMe-VA: Recursive Token Merging for Video Diffusion-based Unrestricted Adversarial Attack ( http://arxiv.org/abs/2408.05479v1 ) ライセンス: Link先を確認 | Ziyi Gao, Kai Chen, Zhipeng Wei, Tingshu Mou, Jingjing Chen, Zhiyu Tan, Hao Li, Yu-Gang Jiang, | (参考訳) 近年の拡散型非制限攻撃は、それまでの非制限攻撃や制限攻撃と比較して高い伝達性を有する非許容逆例を生成する。
しかし、拡散ベースの無制限攻撃に関する既存の研究は、主に画像に焦点を当てているが、ビデオではほとんど調査されない。
本稿では,ビデオ拡散に基づく非制限逆数攻撃(ReToMe-VA)のための再帰的Token Mergingを提案する。
具体的には,ReToMe-VAでは,拡散モデルの潜伏空間の摂動を各復調ステップで最適化する Timestep-wise Adversarial Latent Optimization (TALO) 戦略を採用している。
TALOは、より強力な対向フレームを生成するために、反復的で正確な更新を提供する。
TALOは勾配計算におけるメモリ消費をさらに削減することができる。
さらに、ReToMe-VAは、自己認識モジュール内のビデオフレーム間でトークンをマッチングしてマージすることで、時間的に一貫した対向的なビデオを生成するRecursive Token Merging(ReToMe)機構を導入する。
ReToMeは、アタックプロセスにおけるフレーム間のインタラクションを同時に促進し、より多彩で堅牢な勾配を誘導する。
大規模な実験は、ReToMe-VAの有効性を実証しており、特に敵の移動可能性に対する最先端の攻撃を平均14.16%以上上回っている。
Recent diffusion-based unrestricted attacks generate imperceptible adversarial examples with high transferability compared to previous unrestricted attacks and restricted attacks. However, existing works on diffusion-based unrestricted attacks are mostly focused on images yet are seldom explored in videos. In this paper, we propose the Recursive Token Merging for Video Diffusion-based Unrestricted Adversarial Attack (ReToMe-VA), which is the first framework to generate imperceptible adversarial video clips with higher transferability. Specifically, to achieve spatial imperceptibility, ReToMe-VA adopts a Timestep-wise Adversarial Latent Optimization (TALO) strategy that optimizes perturbations in diffusion models' latent space at each denoising step. TALO offers iterative and accurate updates to generate more powerful adversarial frames. TALO can further reduce memory consumption in gradient computation. Moreover, to achieve temporal imperceptibility, ReToMe-VA introduces a Recursive Token Merging (ReToMe) mechanism by matching and merging tokens across video frames in the self-attention module, resulting in temporally consistent adversarial videos. ReToMe concurrently facilitates inter-frame interactions into the attack process, inducing more diverse and robust gradients, thus leading to better adversarial transferability. Extensive experiments demonstrate the efficacy of ReToMe-VA, particularly in surpassing state-of-the-art attacks in adversarial transferability by more than 14.16% on average. | 翻訳日:2024-08-13 18:51:22 公開日:2024-08-10 |
# トポロジカルブラインドスポット:表現性レンズによるトポロジカルディープラーニングの理解と拡張
Topological Blind Spots: Understanding and Extending Topological Deep Learning Through the Lens of Expressivity ( http://arxiv.org/abs/2408.05486v1 ) ライセンス: Link先を確認 | Yam Eitan, Yoav Gelberg, Guy Bar-Shalom, Fabrizio Frasca, Michael Bronstein, Haggai Maron, | (参考訳) トポロジカルディープラーニング(TDL)は、トポロジカル構造で表されるデータからの学習を容易にする。
この設定で使用される主要なモデルは高階メッセージパッシング(HOMP)であり、従来のグラフメッセージパッシングニューラルネットワーク(MPNN)を様々なトポロジ領域に拡張する。
本稿では,MPNNの表現力の限界を考えると,HOMPの表現力の強さと弱さを両立させ,これらの制約に対処する新しいアーキテクチャを設計することを目的とする。
まず、hoMPが、直径、指向性、平面性、ホモロジーといった基本的な位相的および計量的性質に基づいて位相的対象を区別できないことを示す。
第2に、共通リフトとグラフ上のプール演算子を用いて構築された物体の位相構造を完全に活用する際のHOMPの限界を示す。
最後に、HOMPの表現力と、最も広く研究されているTDL手法であるハイパーグラフネットワークを比較した。
次に,マルチセルネットワーク (MCN) とスケーラブルマルチセルネットワーク (SMCN) の2つの新しいクラスを開発する。
これらのモデルは表現力のあるグラフアーキテクチャからインスピレーションを得ている。
MCNは完全な表現性に達することができるが、SMCNはよりスケーラブルな代替手段を提供しており、HOMPの表現性制限の多くを緩和している。
最後に,TDLモデルを用いた合成データセットを構築し,基本的トポロジ特性に基づいてトポロジ的対象のペアを分離する。
HOMPはデータセット内の任意のペアを区別できないが、SMCNはすべてのペアを識別し、理論的知見を実証的に検証することに成功した。
我々の研究は、新しいデザイン空間とTDLの新たな機会を開き、より表現力があり多目的なモデルへの道を開いた。
Topological deep learning (TDL) facilitates learning from data represented by topological structures. The primary model utilized in this setting is higher-order message-passing (HOMP), which extends traditional graph message-passing neural networks (MPNN) to diverse topological domains. Given the significant expressivity limitations of MPNNs, our paper aims to explore both the strengths and weaknesses of HOMP's expressive power and subsequently design novel architectures to address these limitations. We approach this from several perspectives: First, we demonstrate HOMP's inability to distinguish between topological objects based on fundamental topological and metric properties such as diameter, orientability, planarity, and homology. Second, we show HOMP's limitations in fully leveraging the topological structure of objects constructed using common lifting and pooling operators on graphs. Finally, we compare HOMP's expressive power to hypergraph networks, which are the most extensively studied TDL methods. We then develop two new classes of TDL models: multi-cellular networks (MCN) and scalable multi-cellular networks (SMCN). These models draw inspiration from expressive graph architectures. While MCN can reach full expressivity but is highly unscalable, SMCN offers a more scalable alternative that still mitigates many of HOMP's expressivity limitations. Finally, we construct a synthetic dataset, where TDL models are tasked with separating pairs of topological objects based on basic topological properties. We demonstrate that while HOMP is unable to distinguish between any of the pairs in the dataset, SMCN successfully distinguishes all pairs, empirically validating our theoretical findings. Our work opens a new design space and new opportunities for TDL, paving the way for more expressive and versatile models. | 翻訳日:2024-08-13 18:51:22 公開日:2024-08-10 |
# 説明可能なAIのためのMCTSの構造と低減
Structure and Reduction of MCTS for Explainable-AI ( http://arxiv.org/abs/2408.05488v1 ) ライセンス: Link先を確認 | Ronit Bustin, Claudia V. Goldman, | (参考訳) 無限状態の空間をカバーする複雑な逐次決定計画問題は、AlphaZero型のアルゴリズムによって解けることが示されている。
モンテカルロ木探索アルゴリズムを用いて将来の予測をシミュレーションしながらニューラルモデルを訓練するアプローチは、実生活計画問題に適用可能であることが示された。
このように、結果として生じる行動方針と対話するエンジニアやユーザは、これらのプランナーの判断をオフラインまたはオンラインで自動で説明することの恩恵を受けるかもしれない。
本稿ではモンテカルロ木探索データ構造における情報に焦点を当てる。
その構成を考えると、この情報はシーケンシャルな意思決定アルゴリズムの推論の多くを含み、その説明可能性に不可欠である。
モンテカルロ木探索の単純化と削減と情報抽出のための情報理論ツールを用いた新しい手法を提案する。
このような情報は、人間の理解可能な説明を構築するために直接利用することができる。
モンテカルロ木探索構築プロセスの集積部分として,基本的な説明可能性量を計算コストの制限により計算可能であることを示す。
本稿では, 理論的・アルゴリズム的な側面に着目し, 人間の理解可能な説明の構築において, 提案手法の活用例を示す。
Complex sequential decision-making planning problems, covering infinite states' space have been shown to be solvable by AlphaZero type of algorithms. Such an approach that trains a neural model while simulating projection of futures with a Monte Carlo Tree Search algorithm were shown to be applicable to real life planning problems. As such, engineers and users interacting with the resulting policy of behavior might benefit from obtaining automated explanations about these planners' decisions offline or online. This paper focuses on the information within the Monte Carlo Tree Search data structure. Given its construction, this information contains much of the reasoning of the sequential decision-making algorithm and is essential for its explainability. We show novel methods using information theoretic tools for the simplification and reduction of the Monte Carlo Tree Search and the extraction of information. Such information can be directly used for the construction of human understandable explanations. We show that basic explainability quantities can be calculated with limited additional computational cost, as an integrated part of the Monte Carlo Tree Search construction process. We focus on the theoretical and algorithmic aspects and provide examples of how the methods presented here can be used in the construction of human understandable explanations. | 翻訳日:2024-08-13 18:51:22 公開日:2024-08-10 |
# 局所演算と古典的資源による量子相関の分散
Distributing quantum correlations through local operations and classical resources ( http://arxiv.org/abs/2408.05490v1 ) ライセンス: Link先を確認 | Adam G. Hawkins, Hannah McAleese, Mauro Paternostro, | (参考訳) ネットワークの各ノードに量子相関を分配することは、量子ネットワークの重要な側面である。
本稿では,古典的相関しか持たない情報キャリアの混合状態を用いて,グローバルな量子相関を量子メモリに分散できる,ロバストで物理的に動機付けられたプロトコルを提案する。
これに加えて, 分布は測定アウトカム独立であり, 分布は局所的ユニタリ演算と射影測定のみを用いて行われる。
また、このプロトコルの大規模ネットワークへのスケーリングについて検討し、量子相関の構造を概説し、その局所的な演算への依存を示す。
Distributing quantum correlations to each node of a network is a key aspect of quantum networking. Here, we present a robust, physically-motivated protocol by which global quantum correlations, as characterised by the discord, can be distributed to quantum memories using a mixed state of information carriers which possess only classical correlations. In addition to this, said distribution is measurement-outcome independent, and the distribution is done using only bilocal unitary operations and projective measurements. We also explore the scaling of this protocol for larger networks and illustrate the structure of the quantum correlations, showing its dependence on the local operations performed. | 翻訳日:2024-08-13 18:41:36 公開日:2024-08-10 |
# ZePo: 高速サンプリングによるゼロショットポートレートスティル化
ZePo: Zero-Shot Portrait Stylization with Faster Sampling ( http://arxiv.org/abs/2408.05492v1 ) ライセンス: Link先を確認 | Jin Liu, Huaibo Huang, Jie Cao, Ran He, | (参考訳) 拡散に基づくテキスト・画像生成モデルは、アートコンテンツ合成の分野を著しく進歩させてきた。
しかし、現在のポートレートスタイリング手法では、例に基づくモデルファインチューニングやDDIMインバージョンを用いて画像のノイズ空間への変換を行うのが一般的であり、どちらも画像生成過程を大幅に減速させる。
これらの制約を克服するため,本論文では,コンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーのポートレート・スタイリング・フレームワークを提案する。
我々は, 連続蒸留を用いた潜時一貫性モデルを用いて, 雑音画像から代表的一貫性特徴を効果的に抽出できることを観察した。
コンテンツとスタイル画像の両方から抽出した一貫性特徴をブレンドするために,ターゲット画像の注意領域内のコンテンツとスタイル特徴を慎重にマージするスタイル拡張注意制御手法を提案する。
さらに,一貫性特徴量における冗長な特徴量をマージする機能マージ戦略を提案し,注意制御の計算負荷を低減する。
大規模な実験により,本フレームワークの有効性を検証し,スタイライズ効率と忠実度を向上した。
コードは \url{https://github.com/liujin112/ZePo} で公開されている。
Diffusion-based text-to-image generation models have significantly advanced the field of art content synthesis. However, current portrait stylization methods generally require either model fine-tuning based on examples or the employment of DDIM Inversion to revert images to noise space, both of which substantially decelerate the image generation process. To overcome these limitations, this paper presents an inversion-free portrait stylization framework based on diffusion models that accomplishes content and style feature fusion in merely four sampling steps. We observed that Latent Consistency Models employing consistency distillation can effectively extract representative Consistency Features from noisy images. To blend the Consistency Features extracted from both content and style images, we introduce a Style Enhancement Attention Control technique that meticulously merges content and style features within the attention space of the target image. Moreover, we propose a feature merging strategy to amalgamate redundant features in Consistency Features, thereby reducing the computational load of attention control. Extensive experiments have validated the effectiveness of our proposed framework in enhancing stylization efficiency and fidelity. The code is available at \url{https://github.com/liujin112/ZePo}. | 翻訳日:2024-08-13 18:41:36 公開日:2024-08-10 |
# 擬似通信による非同期近似一致
Asynchronous Approximate Agreement with Quadratic Communication ( http://arxiv.org/abs/2408.05495v1 ) ライセンス: Link先を確認 | Mose Mizrahi Erbes, Roger Wattenhofer, | (参考訳) 非同期ネットワークは$n$のメッセージ送信パーティで、そのうちの最大$t$はビザンチンです。
本研究では,入力の凸内積にほぼ等しい出力が得られるような近似一致について検討する。
Abraham, Amit and Dolev [OPODIS '04] のセミナルプロトコルは、最適なレジリエンス $t < \frac{n}{3}$ と $\mathbb{R}$ の近似一致を達成する。
これは、信頼できるブロードキャスト毎に$\Omega(n^2)$メッセージ、または合計$\Omega(n^3)$メッセージを必要とする。
本研究では、信頼性のある放送を禁止し、$n^3$ではなく$n^2$に比例した通信を必要とする、最適に弾力性のある非同期近似契約プロトコルを提案する。
まず、$\omega$-dimensional barycentric agreement with $\mathcal{O}(\omega n^2)$ small message。
そこで我々は,効率的なプロトコルを設計する多値グレードのコンセンサス変種を,$\lceil \log_2 D \rceil$で,直径$D$のツリーでエッジコンセンサスを実現する。
この結果、$\mathcal{O}(\log\frac{1}{\varepsilon})$-round protocol for $\varepsilon$-agreement in $[0, 1]$ with $\mathcal{O}(n^2\log\frac{1}{\varepsilon})$ message and $\mathcal{O}(n^2\log\frac{1}{\varepsilon}\log\log\frac{1}{\varepsilon})$ bits of communication, improve the state-of-the-art which are if the inputs are all $0$ or $1$である。
最後に、エッジアグリーメントプロトコルを拡張して、$\mathbb{Z}$のエッジアグリーメントを達成し、$\mathbb{R}$のエッジアグリーメントを、$\mathcal{O}(\log\frac{M}{\varepsilon})$のラウンドで、$M$が最大の正直な入力マグニチュードであるようにします。
We consider an asynchronous network of $n$ message-sending parties, up to $t$ of which are byzantine. We study approximate agreement, where the parties obtain approximately equal outputs in the convex hull of their inputs. The seminal protocol of Abraham, Amit and Dolev [OPODIS '04] achieves approximate agreement in $\mathbb{R}$ with the optimal resilience $t < \frac{n}{3}$ by making each party reliably broadcast its input. This takes $\Omega(n^2)$ messages per reliable broadcast, or $\Omega(n^3)$ messages in total. In this work, we present optimally resilient asynchronous approximate agreement protocols which forgo reliable broadcast and thus require communication proportional to $n^2$ instead of $n^3$. First, we achieve $\omega$-dimensional barycentric agreement with $\mathcal{O}(\omega n^2)$ small messages. Then, we achieve edge agreement in a tree of diameter $D$ with $\lceil \log_2 D \rceil$ iterations of a multivalued graded consensus variant for which we design an efficient protocol. This results in a $\mathcal{O}(\log\frac{1}{\varepsilon})$-round protocol for $\varepsilon$-agreement in $[0, 1]$ with $\mathcal{O}(n^2\log\frac{1}{\varepsilon})$ messages and $\mathcal{O}(n^2\log\frac{1}{\varepsilon}\log\log\frac{1}{\varepsilon})$ bits of communication, improving over the state of the art which matches this complexity only when the inputs are all either $0$ or $1$. Finally, we extend our edge agreement protocol to achieve edge agreement in $\mathbb{Z}$ and thus $\varepsilon$-agreement in $\mathbb{R}$ with quadratic communication, in $\mathcal{O}(\log\frac{M}{\varepsilon})$ rounds where $M$ is the maximum honest input magnitude. | 翻訳日:2024-08-13 18:41:36 公開日:2024-08-10 |
# モデル対称性下の変分推論失敗:ベイズニューラルネットワークの変分不変後続体
Variational Inference Failures Under Model Symmetries: Permutation Invariant Posteriors for Bayesian Neural Networks ( http://arxiv.org/abs/2408.05496v1 ) ライセンス: Link先を確認 | Yoav Gelberg, Tycho F. A. van der Ouderaa, Mark van der Wilk, Yarin Gal, | (参考訳) MLPの置換対称性のようなニューラルネットワークアーキテクチャにおける重み空間対称性は、多くの等価モードを持つベイズニューラルネットワークの後部(BNN)を引き起こす。
この多モード性は変分推論(VI)技法の課題であり、通常は後部を単調分布で近似することに依存する。
本研究では, 重み空間置換対称性がVIに与える影響について検討する。
理論的にも経験的にも、これらの対称性が近似後部におけるバイアスを引き起こし、明示的に考慮されていない場合、予測性能と後部適合性を低下させることを示した。
この挙動を緩和するために、後部の対称構造を利用し、置換不変変動後部を構築するための対称性化機構を考案する。
我々は, 対称性分布が真の後方に厳密に適合していることを示し, 修正KL正規化項を用いて, 元のELBO目標を用いて訓練できることを示した。
提案手法は, 上記のバイアスを緩和し, 予測精度が向上し, ELBOが向上することを示した。
Weight space symmetries in neural network architectures, such as permutation symmetries in MLPs, give rise to Bayesian neural network (BNN) posteriors with many equivalent modes. This multimodality poses a challenge for variational inference (VI) techniques, which typically rely on approximating the posterior with a unimodal distribution. In this work, we investigate the impact of weight space permutation symmetries on VI. We demonstrate, both theoretically and empirically, that these symmetries lead to biases in the approximate posterior, which degrade predictive performance and posterior fit if not explicitly accounted for. To mitigate this behavior, we leverage the symmetric structure of the posterior and devise a symmetrization mechanism for constructing permutation invariant variational posteriors. We show that the symmetrized distribution has a strictly better fit to the true posterior, and that it can be trained using the original ELBO objective with a modified KL regularization term. We demonstrate experimentally that our approach mitigates the aforementioned biases and results in improved predictions and a higher ELBO. | 翻訳日:2024-08-13 18:41:36 公開日:2024-08-10 |
# MABR: 先行バイアス知識のない多層逆バイアス除去手法
MABR: A Multilayer Adversarial Bias Removal Approach Without Prior Bias Knowledge ( http://arxiv.org/abs/2408.05497v1 ) ライセンス: Link先を確認 | Maxwell J. Yin, Boyu Wang, Charles Ling, | (参考訳) 実世界のデータに基づいてトレーニングされたモデルは、しばしば既存の社会的バイアスを反映し、悪化させる。
これらの偏見を緩和する伝統的な方法は、通常、ジェンダーや人種的偏見、そして各事例に関連する社会集団といった、対処すべき特定の偏見に関する事前の知識を必要とする。
本稿では,従来のバイアス型知識と保護属性ラベルとは独立して機能する,新たな対人訓練戦略を提案する。
提案手法は,タスクラベルに頼らずにメインモデルの性能を予測することで同時に訓練される補助モデルを利用することで,モデルトレーニング中のバイアスを積極的に識別する。
さらに、本モデルの特徴マップの様々なレベルにおいて、これらの補助モデルを実装し、より広範かつニュアンスなバイアス特徴の検出を可能にする。
感情的・職業的分類タスクにおける人種的・性別的偏見に関する実験を通じて、人口統計学的アノテーションを必要とせずに、社会的偏見を効果的に低減する。
さらに,本手法は,必ずしも一致しないだけでなく,詳細な人口統計調査を必要とする手法の有効性を克服し,バイアス軽減技術の進歩を目立たせている。
Models trained on real-world data often mirror and exacerbate existing social biases. Traditional methods for mitigating these biases typically require prior knowledge of the specific biases to be addressed, such as gender or racial biases, and the social groups associated with each instance. In this paper, we introduce a novel adversarial training strategy that operates independently of prior bias-type knowledge and protected attribute labels. Our approach proactively identifies biases during model training by utilizing auxiliary models, which are trained concurrently by predicting the performance of the main model without relying on task labels. Additionally, we implement these auxiliary models at various levels of the feature maps of the main model, enabling the detection of a broader and more nuanced range of bias features. Through experiments on racial and gender biases in sentiment and occupation classification tasks, our method effectively reduces social biases without the need for demographic annotations. Moreover, our approach not only matches but often surpasses the efficacy of methods that require detailed demographic insights, marking a significant advancement in bias mitigation techniques. | 翻訳日:2024-08-13 18:41:36 公開日:2024-08-10 |
# 半教師付き学習のためのラプラシアン型量子グラフニューラルネットワーク
A Laplacian-based Quantum Graph Neural Network for Semi-Supervised Learning ( http://arxiv.org/abs/2408.05498v1 ) ライセンス: Link先を確認 | Hamed Gholipour, Farid Bozorgnia, Kailash Hambarde, Hamzeh MohammadGheymasi, Javier Mancilla, Andre Sequeira, Joao Neves, | (参考訳) ラプラシアン学習法は古典的なグラフに基づく半教師付き学習において確立された手法であるが、量子領域におけるそのポテンシャルはほとんど解明されていない。
本研究は、Iris, Wine, Breast Cancer Wisconsin, Heart Diseaseの4つのベンチマークデータセットを対象に、ラプラシア語に基づく量子半監視学習(QSSL)法の性能について検討した。
さらなる分析では、量子システムにQubitを増やすことで、パフォーマンスが常に向上するとは限らないことを明らかにする。
追加のQubitsの有効性は、量子アルゴリズムとデータセットの適合性に依存する。
さらに, 種々の絡み合い層が絡み合いエントロピーおよび試験精度に及ぼす影響について検討した。
ラプラシア語学習のパフォーマンスは、異なるデータセット間で最適な設定が異なり、絡み合うレイヤの数に大きく依存している。
通常、適度なレベルの絡み合いは、モデルの複雑さと一般化能力の最良のバランスを提供する。
これらの観察は、ラプラシアン学習法において最適な性能を達成するために、データセットごとに調整された正確なハイパーパラメータチューニングの必要性を強調している。
Laplacian learning method is a well-established technique in classical graph-based semi-supervised learning, but its potential in the quantum domain remains largely unexplored. This study investigates the performance of the Laplacian-based Quantum Semi-Supervised Learning (QSSL) method across four benchmark datasets -- Iris, Wine, Breast Cancer Wisconsin, and Heart Disease. Further analysis explores the impact of increasing Qubit counts, revealing that adding more Qubits to a quantum system doesn't always improve performance. The effectiveness of additional Qubits depends on the quantum algorithm and how well it matches the dataset. Additionally, we examine the effects of varying entangling layers on entanglement entropy and test accuracy. The performance of Laplacian learning is highly dependent on the number of entangling layers, with optimal configurations varying across different datasets. Typically, moderate levels of entanglement offer the best balance between model complexity and generalization capabilities. These observations highlight the crucial need for precise hyperparameter tuning tailored to each dataset to achieve optimal performance in Laplacian learning methods. | 翻訳日:2024-08-13 18:41:36 公開日:2024-08-10 |
# LLMServingSim:大規模LLM推論のためのHW/SW共シミュレーション基盤
LLMServingSim: A HW/SW Co-Simulation Infrastructure for LLM Inference Serving at Scale ( http://arxiv.org/abs/2408.05499v1 ) ライセンス: Link先を確認 | Jaehong Cho, Minsu Kim, Hyunmin Choi, Guseul Heo, Jongse Park, | (参考訳) 近年,効率的な大規模言語モデル (LLM) 推論サービスシステムの構築に向けた研究が盛んに行われている。
これらの取り組みには、アルゴリズムやソフトウェア分野の革新だけでなく、様々なハードウェアアクセラレーション技術の開発も含まれる。
それにもかかわらず、LLMサービスシステムにおいて、シミュレーション時間を広範囲に拡張することなく、多目的なハードウェア・ソフトウェア動作を正確にモデル化できるシミュレーション基盤が欠如している。
本稿では,LLMServingSimと呼ばれる効率的なシミュレーションツールを開発し,LCMサービスシステムにおける今後の研究を支援することを目的とする。
LLMServingSimを設計する際には,既存のシミュレータの2つの制限に焦点をあてる。(1)自己回帰的な性質によりLLM推論の動的ワークロード変動を考慮せず,(2)LLMのアルゴリズム的冗長性を活用することなく繰り返しシミュレーションを行う。
これらの制限に対処するため、LLMServingSimは、反復の粒度で機能するLLMをシミュレートし、デコーダブロック間の計算冗長性を活用し、以前のイテレーションのシミュレーション結果を再利用する。
さらにLLMServingSimはフレキシブルなフレームワークを提供しており、ユーザはアクセラレーターコンパイラとシミュレーションスタックをプラグインして、異種プロセッサで様々なシステム設計を探索することができる。
LLMServingSimは14.7%の誤差率で実GPUベースのLLMサービスシステムの性能挙動に追従してシミュレーション結果を生成する一方で,既存のシミュレータと比較して91.5倍高速なシミュレーション速度を提供する。
Recently, there has been an extensive research effort in building efficient large language model (LLM) inference serving systems. These efforts not only include innovations in the algorithm and software domains but also constitute developments of various hardware acceleration techniques. Nevertheless, there is a lack of simulation infrastructure capable of accurately modeling versatile hardware-software behaviors in LLM serving systems without extensively extending the simulation time. This paper aims to develop an effective simulation tool, called LLMServingSim, to support future research in LLM serving systems. In designing LLMServingSim, we focus on two limitations of existing simulators: (1) they lack consideration of the dynamic workload variations of LLM inference serving due to its autoregressive nature, and (2) they incur repetitive simulations without leveraging algorithmic redundancies in LLMs. To address these limitations, LLMServingSim simulates the LLM serving in the granularity of iterations, leveraging the computation redundancies across decoder blocks and reusing the simulation results from previous iterations. Additionally, LLMServingSim provides a flexible framework that allows users to plug in any accelerator compiler-and-simulation stacks for exploring various system designs with heterogeneous processors. Our experiments demonstrate that LLMServingSim produces simulation results closely following the performance behaviors of real GPU-based LLM serving system with less than 14.7% error rate, while offering 91.5x faster simulation speed compared to existing accelerator simulators. | 翻訳日:2024-08-13 18:41:36 公開日:2024-08-10 |
# PointNCBW: 負のクリーンラベルバックドア透かしによるポイントクラウドのデータセットオーナシップ検証に向けて
PointNCBW: Towards Dataset Ownership Verification for Point Clouds via Negative Clean-label Backdoor Watermark ( http://arxiv.org/abs/2408.05500v1 ) ライセンス: Link先を確認 | Cheng Wei, Yang Wang, Kuofeng Gao, Shuo Shao, Yiming Li, Zhibo Wang, Zhan Qin, | (参考訳) 近年、点雲はコンピュータビジョンで広く使われているが、その収集には時間がかかり高価である。
そのため、ポイントクラウドデータセットは所有者にとって価値のある知的財産であり、保護に値する。
これらのデータセットの不正使用を検出・防止するために、特に、再販売や商用使用を許可なく行うことができない商用またはオープンソースのデータセットに対して、ブラックボックス設定の下で、疑わしいサードパーティモデルが保護されたデータセット上でトレーニングされているかどうかを識別するつもりです。
この目標を達成するために、スケーラブルでクリーンなバックドアベースのデータセット透かしをポイントクラウド用に設計し、有効性とステルス性の両方を保証します。
カテゴリ数に影響を受けやすい既存のクリーンラベルの透かし方式とは異なり,本手法は対象クラスからのみではなく,すべてのクラスからサンプルを透かし出すことができる。
したがって、多くのクラスを持つ大規模データセットでも高い有効性を維持することができる。
具体的には、ラベルを変更せずにトリガーパターンを挿入する前に、形状的にも点的にも非ターゲットカテゴリで選択した点雲を摂動する。
摂動試料の特徴は, 対象クラスの良性試料と類似している。
このように、ウォーターマークされたデータセットでトレーニングされたモデルは、固有の、ステルス的なバックドアの振る舞い、すなわち、トリガーが現れるたびにターゲットクラスからのサンプルを誤分類する。
また,提案した透かしに基づいて,仮説テストによるデータセットの所有権検証を設計する。
提案手法の有効性と潜在的な除去法に対する耐性を検証し,ベンチマークデータセットの大規模な実験を行った。
Recently, point clouds have been widely used in computer vision, whereas their collection is time-consuming and expensive. As such, point cloud datasets are the valuable intellectual property of their owners and deserve protection. To detect and prevent unauthorized use of these datasets, especially for commercial or open-sourced ones that cannot be sold again or used commercially without permission, we intend to identify whether a suspicious third-party model is trained on our protected dataset under the black-box setting. We achieve this goal by designing a scalable clean-label backdoor-based dataset watermark for point clouds that ensures both effectiveness and stealthiness. Unlike existing clean-label watermark schemes, which are susceptible to the number of categories, our method could watermark samples from all classes instead of only from the target one. Accordingly, it can still preserve high effectiveness even on large-scale datasets with many classes. Specifically, we perturb selected point clouds with non-target categories in both shape-wise and point-wise manners before inserting trigger patterns without changing their labels. The features of perturbed samples are similar to those of benign samples from the target class. As such, models trained on the watermarked dataset will have a distinctive yet stealthy backdoor behavior, i.e., misclassifying samples from the target class whenever triggers appear, since the trained DNNs will treat the inserted trigger pattern as a signal to deny predicting the target label. We also design a hypothesis-test-guided dataset ownership verification based on the proposed watermark. Extensive experiments on benchmark datasets are conducted, verifying the effectiveness of our method and its resistance to potential removal methods. | 翻訳日:2024-08-13 18:41:36 公開日:2024-08-10 |
# GEM:胸部X線写真における視覚的探索行動マッチングを用いた文脈認識ゲゼ推定
GEM: Context-Aware Gaze EstiMation with Visual Search Behavior Matching for Chest Radiograph ( http://arxiv.org/abs/2408.05502v1 ) ライセンス: Link先を確認 | Shaonan Liu, Wenting Chen, Jie Liu, Xiaoling Luo, Linlin Shen, | (参考訳) 視線推定は人間のシーン理解作業、特に医学的診断分析において重要な役割を担っている。
視線追跡技術は、画像解釈中の医師の眼球運動の記録を容易にし、視覚的注意パターンと情報処理戦略を解明する。
本稿では,まず,医学放射線学報告設定における文脈認識型視線推定問題を定義する。
医用画像解釈過程における放射線科医の注意配分と認知行動を理解するために,放射線科医が収集した視線データを用いて,画像解釈過程を通して視覚的検索行動パターンをシミュレートする,文脈認識型迷路推定(GEM)ネットワークを提案する。
コンテキスト認識モジュール、視覚行動グラフ構築、視覚行動マッチングで構成される。
コンテキスト認識モジュール内では,医療報告と画像の接続を確立することで,複雑なマルチモーダル登録を実現する。
次に、真の視覚探索行動パターンをより正確にシミュレーションするために、視線点(ノード)間の高次関係(エッジ)を通して、視覚行動グラフ構造を導入する。
視覚行動の真正性を維持するため,実測点と推定点から構築したグラフをマッチングすることにより,視覚行動マッチング手法を考案し,それらの高次関係を調整した。
医用画像の解釈における多彩なモダリティを効果的に活用するための新たな方向性を提供するとともに、医用画像の分野におけるモデルの解釈可能性を高める。
https://github.com/Tiger-SN/GEM
Gaze estimation is pivotal in human scene comprehension tasks, particularly in medical diagnostic analysis. Eye-tracking technology facilitates the recording of physicians' ocular movements during image interpretation, thereby elucidating their visual attention patterns and information-processing strategies. In this paper, we initially define the context-aware gaze estimation problem in medical radiology report settings. To understand the attention allocation and cognitive behavior of radiologists during the medical image interpretation process, we propose a context-aware Gaze EstiMation (GEM) network that utilizes eye gaze data collected from radiologists to simulate their visual search behavior patterns throughout the image interpretation process. It consists of a context-awareness module, visual behavior graph construction, and visual behavior matching. Within the context-awareness module, we achieve intricate multimodal registration by establishing connections between medical reports and images. Subsequently, for a more accurate simulation of genuine visual search behavior patterns, we introduce a visual behavior graph structure, capturing such behavior through high-order relationships (edges) between gaze points (nodes). To maintain the authenticity of visual behavior, we devise a visual behavior-matching approach, adjusting the high-order relationships between them by matching the graph constructed from real and estimated gaze points. Extensive experiments on four publicly available datasets demonstrate the superiority of GEM over existing methods and its strong generalizability, which also provides a new direction for the effective utilization of diverse modalities in medical image interpretation and enhances the interpretability of models in the field of medical imaging. https://github.com/Tiger-SN/GEM | 翻訳日:2024-08-13 18:41:36 公開日:2024-08-10 |
# 遠方性雑音対応学習
Disentangled Noisy Correspondence Learning ( http://arxiv.org/abs/2408.05503v1 ) ライセンス: Link先を確認 | Zhuohang Dang, Minnan Luo, Jihong Wang, Chengyou Jia, Haochen Han, Herun Wan, Guang Dai, Xiaojun Chang, Jingdong Wang, | (参考訳) クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
しかし、既存の手法では、実世界のデータとして必然的に不完全なアライメント、すなわちノイズ対応を含む、十分に整合したトレーニングデータを暗黙的に仮定する。
このようなノイズに対処するための類似性に基づく戦略を検討する研究もあるが、モダリティ排他的情報(MEI)、画像の背景雑音、テキストの抽象的定義の影響を受け、準最適類似性予測に悩まされている。
この問題は、MEIがモダリティ間で共有されないため、トレーニングでそれを整列させることで、類似性の予測を著しく誤解させる可能性があるためである。
さらに, 直感的ではあるが, 従来のクロスモーダル・アンタングル法を直接適用することは, 耐雑音性とアンタングル効果の制限に悩まされる。
雑音に対する情報のボトルネックの頑健さに着想を得て,ノイズ対応学習における特徴分散のための新しい情報理論フレームワークであるDisNCLを導入し,MIIとMEIの抽出と最適なクロスモーダル・ディハンギングの有効性を適応的にバランスさせる。
DisNCLはその後、モジュラリティ不変部分空間における類似性予測を強化し、ノイズ対応に対する類似性に基づく緩和戦略を大幅に強化する。
さらに、DisNCLは、ノイズ・ロバストおよび正確なクロスモーダルアライメントのためのマルチモーダル入力に固有のノイズの多い多対多の関係をモデル化するために、ソフトマッチングターゲットを導入している。
広範囲な実験により、DisNCLの有効性は平均リコール改善率2%で確認された。
相互情報推定と可視化の結果から,DisNCLは意味のあるMII/MEI部分空間を学習し,理論解析を検証した。
Cross-modal retrieval is crucial in understanding latent correspondences across modalities. However, existing methods implicitly assume well-matched training data, which is impractical as real-world data inevitably involves imperfect alignments, i.e., noisy correspondences. Although some works explore similarity-based strategies to address such noise, they suffer from sub-optimal similarity predictions influenced by modality-exclusive information (MEI), e.g., background noise in images and abstract definitions in texts. This issue arises as MEI is not shared across modalities, thus aligning it in training can markedly mislead similarity predictions. Moreover, although intuitive, directly applying previous cross-modal disentanglement methods suffers from limited noise tolerance and disentanglement efficacy. Inspired by the robustness of information bottlenecks against noise, we introduce DisNCL, a novel information-theoretic framework for feature Disentanglement in Noisy Correspondence Learning, to adaptively balance the extraction of MII and MEI with certifiable optimal cross-modal disentanglement efficacy. DisNCL then enhances similarity predictions in modality-invariant subspace, thereby greatly boosting similarity-based alleviation strategy for noisy correspondences. Furthermore, DisNCL introduces soft matching targets to model noisy many-to-many relationships inherent in multi-modal input for noise-robust and accurate cross-modal alignment. Extensive experiments confirm DisNCL's efficacy by 2% average recall improvement. Mutual information estimation and visualization results show that DisNCL learns meaningful MII/MEI subspaces, validating our theoretical analyses. | 翻訳日:2024-08-13 18:41:36 公開日:2024-08-10 |
# コンテキストは配列ではない:トランスフォーマーのランダムアクセス制限を解除する
Your Context Is Not an Array: Unveiling Random Access Limitations in Transformers ( http://arxiv.org/abs/2408.05506v1 ) ライセンス: Link先を確認 | MohammadReza Ebrahimi, Sunny Panchal, Roland Memisevic, | (参考訳) 最近の成功にもかかわらず、Transformerベースの大規模言語モデルは驚くべき障害モードを示している。
このような障害モードのよく知られた例は、長さを一般化できないことだ。
本研究では,単純なパリティタスク上でのモデル行動の詳細な解析を行うことにより,この失敗の根本原因をさらに解明する。
解析の結果,長さ一般化の失敗は,コンテキストウィンドウ内でランダムなメモリアクセスを行うことができないモデルと複雑な関係があることが示唆された。
本稿では,コンテンツベースのアドレッシングを通じて,インデックス化の必要性を回避したり,間接的にランダムトークンアクセスを可能にする手法の有効性を示すことによって,この仮説を裏付ける証拠を提示する。
さらに、アテンションマップの可視化を通して、ランダムなメモリアクセスの失敗がどこに、どのように現れるかを示す。
Despite their recent successes, Transformer-based large language models show surprising failure modes. A well-known example of such failure modes is their inability to length-generalize: solving problem instances at inference time that are longer than those seen during training. In this work, we further explore the root cause of this failure by performing a detailed analysis of model behaviors on the simple parity task. Our analysis suggests that length generalization failures are intricately related to a model's inability to perform random memory accesses within its context window. We present supporting evidence for this hypothesis by demonstrating the effectiveness of methodologies that circumvent the need for indexing or that enable random token access indirectly, through content-based addressing. We further show where and how the failure to perform random memory access manifests through attention map visualizations. | 翻訳日:2024-08-13 18:41:36 公開日:2024-08-10 |
# PointMT: ハイブリッドMLP-Transformerアーキテクチャによる効率的なポイントクラウド分析
PointMT: Efficient Point Cloud Analysis with Hybrid MLP-Transformer Architecture ( http://arxiv.org/abs/2408.05508v1 ) ライセンス: Link先を確認 | Qiang Zheng, Chao Zhang, Jian Sun, | (参考訳) 近年,Transformerアーキテクチャに基づくポイントクラウド解析手法は,特に3Dモデリングや仮想現実,自律システムといったマルチメディアアプリケーションにおいて,大きな進歩を遂げている。
しかし、Transformerアーキテクチャの高度な計算リソース要求は、そのスケーラビリティ、リアルタイム処理能力、および限られた計算リソースを持つモバイルデバイスや他のプラットフォームへのデプロイを妨げる。
この制限は、デバイス上のインテリジェンスとマルチメディア処理を必要とするシナリオにおいて、実用上重要な障害である。
この課題に対処するために,効率的な点群解析アーキテクチャ, \textbf{Point} \textbf{M}LP-\textbf{T}ransformer (PointMT)を提案する。
本研究では,効率的な特徴集約のための線形複雑局所的注意機構を導入することにより,自己注意機構の二次的複雑さに取り組む。
さらに,トランスフォーマーは,チャネル差を無視しつつトークン差に着目し,各チャネルの注目重量分布を適応的に調整し,特徴集約の精度を高めるパラメータフリーチャネル温度適応機構を導入する。
ポイントクラウドデータセットの限られたスケールによるTransformerの緩やかな収束速度を改善するために,モデルの収束速度を大幅に向上させるMPP-Transformerハイブリッドモジュールを提案する。
さらに、ポイントトークンの特徴表現能力を向上するため、分類ヘッドを改良し、ポイントトークンが予測に直接参加できるようにする。
複数の評価ベンチマークによる実験結果から、PointMTは性能と精度の最適なバランスを維持しつつ、最先端の手法に匹敵する性能を達成することが示された。
In recent years, point cloud analysis methods based on the Transformer architecture have made significant progress, particularly in the context of multimedia applications such as 3D modeling, virtual reality, and autonomous systems. However, the high computational resource demands of the Transformer architecture hinder its scalability, real-time processing capabilities, and deployment on mobile devices and other platforms with limited computational resources. This limitation remains a significant obstacle to its practical application in scenarios requiring on-device intelligence and multimedia processing. To address this challenge, we propose an efficient point cloud analysis architecture, \textbf{Point} \textbf{M}LP-\textbf{T}ransformer (PointMT). This study tackles the quadratic complexity of the self-attention mechanism by introducing a linear complexity local attention mechanism for effective feature aggregation. Additionally, to counter the Transformer's focus on token differences while neglecting channel differences, we introduce a parameter-free channel temperature adaptation mechanism that adaptively adjusts the attention weight distribution in each channel, enhancing the precision of feature aggregation. To improve the Transformer's slow convergence speed due to the limited scale of point cloud datasets, we propose an MLP-Transformer hybrid module, which significantly enhances the model's convergence speed. Furthermore, to boost the feature representation capability of point tokens, we refine the classification head, enabling point tokens to directly participate in prediction. Experimental results on multiple evaluation benchmarks demonstrate that PointMT achieves performance comparable to state-of-the-art methods while maintaining an optimal balance between performance and accuracy. | 翻訳日:2024-08-13 18:41:36 公開日:2024-08-10 |
# 頭部電位推定による予測 : 予備的検討
Anticipation through Head Pose Estimation: a preliminary study ( http://arxiv.org/abs/2408.05516v1 ) ライセンス: Link先を確認 | Federico Figari Tomenotti, Nicoletta Noceti, | (参考訳) 他者の目標や意図を予測できる能力は、人間と人間の社会的相互作用に基づくものである。
このような能力は、主に非言語コミュニケーションに基づいており、ロボットのような人工エージェントと自然で快適な対話を行うための鍵でもある。
本研究では,視覚的手がかりとして頭部ポーズを用いた行動目標の理解と予測,特に動きの到達と伝達に関する予備実験について論じる。
シーン内の頭部・手・物体間の時空間的関係を推論することにより、短距離予測が可能であることを示し、今後の人間とロボットの相互作用の基盤となる。
The ability to anticipate others' goals and intentions is at the basis of human-human social interaction. Such ability, largely based on non-verbal communication, is also a key to having natural and pleasant interactions with artificial agents, like robots. In this work, we discuss a preliminary experiment on the use of head pose as a visual cue to understand and anticipate action goals, particularly reaching and transporting movements. By reasoning on the spatio-temporal connections between the head, hands and objects in the scene, we will show that short-range anticipation is possible, laying the foundations for future applications to human-robot interaction. | 翻訳日:2024-08-13 18:41:36 公開日:2024-08-10 |
# SWIFT:ファインチューニングのためのスケーラブル軽量インフラストラクチャ
SWIFT:A Scalable lightWeight Infrastructure for Fine-Tuning ( http://arxiv.org/abs/2408.05517v1 ) ライセンス: Link先を確認 | Yuze Zhao, Jintao Huang, Jinghan Hu, Daoze Zhang, Zeyinzi Jiang, Zhikai Wu, Baole Ai, Ang Wang, Wenmeng Zhou, Yingda Chen, | (参考訳) 近年のLLM(Large Language Models)とMLLM(Multi-modal Large Language Models)は,アテンションベースのトランスフォーマーアーキテクチャを活用し,優れた性能と一般化を実現している。
それ以来、彼らは伝統的な学習タスクの幅広い領域をカバーしてきた。
例えば、テキスト分類やシーケンスラベリングといったテキストベースのタスクや、以前は異なるモデルを使用して対処されていたVisual Question Answering(VQA)やOCR(OCR)といったマルチモーダルタスクは、1つの基礎モデルに基づいて取り組めるようになった。
その結果,特に Transformer アーキテクチャに基づく LLM と MLLM の訓練と軽量な微調整が特に重要になっている。
これらの圧倒的なニーズを認識して、大型モデルのためのカスタマイズ可能なワンストップインフラストラクチャであるSWIFTを開発する。
300ドル以上のLLMと50ドル以上のMLLMをサポートするSWIFTは、大規模なモデルを微調整するための‘textit{most comprehensive support’を提供するオープンソースフレームワークである。
特に、MLLMの体系的なサポートを提供する最初のトレーニングフレームワークである。
微調整のコア機能に加えて、SWIFTは推論、評価、モデル量子化といったポストトレーニングプロセスを統合し、様々なアプリケーションシナリオにおける大規模モデルの迅速な採用を促進する。
様々なトレーニングテクニックを体系的に統合することにより、SWIFTは大規模モデルの異なるトレーニングテクニック間のベンチマーク比較のような有用なユーティリティを提供する。
エージェントフレームワークに特化した微調整モデルでは,SWIFT上でのカスタマイズデータセットによるトレーニングによってToolBenchリーダボードの顕著な改善が達成され,Act.EMでは,さまざまなベースラインモデルに対する5.2\%-21.8\%,幻覚の1.6\%-14.1\%,平均8\%-17\%が向上した。
Recent development in Large Language Models (LLMs) and Multi-modal Large Language Models (MLLMs) have leverage Attention-based Transformer architectures and achieved superior performance and generalization capabilities. They have since covered extensive areas of traditional learning tasks. For instance, text-based tasks such as text-classification and sequence-labeling, as well as multi-modal tasks like Visual Question Answering (VQA) and Optical Character Recognition (OCR), which were previously addressed using different models, can now be tackled based on one foundation model. Consequently, the training and lightweight fine-tuning of LLMs and MLLMs, especially those based on Transformer architecture, has become particularly important. In recognition of these overwhelming needs, we develop SWIFT, a customizable one-stop infrastructure for large models. With support of over $300+$ LLMs and $50+$ MLLMs, SWIFT stands as the open-source framework that provide the \textit{most comprehensive support} for fine-tuning large models. In particular, it is the first training framework that provides systematic support for MLLMs. In addition to the core functionalities of fine-tuning, SWIFT also integrates post-training processes such as inference, evaluation, and model quantization, to facilitate fast adoptions of large models in various application scenarios. With a systematic integration of various training techniques, SWIFT offers helpful utilities such as benchmark comparisons among different training techniques for large models. For fine-tuning models specialized in agent framework, we show that notable improvements on the ToolBench leader-board can be achieved by training with customized dataset on SWIFT, with an increase of 5.2\%-21.8\% in the Act.EM metric over various baseline models, a reduction in hallucination by 1.6\%-14.1\%, and an average performance improvement of 8\%-17\%. | 翻訳日:2024-08-13 18:41:36 公開日:2024-08-10 |
# 金属メッシュ欠陥検出のための長距離携帯型スマートフォン顕微鏡
Long working distance portable smartphone microscopy for metallic mesh defect detection ( http://arxiv.org/abs/2408.05518v1 ) ライセンス: Link先を確認 | Zhengang Lu, Hongsheng Qin, Jing Li, Ming Sun, Jiubin Tan, | (参考訳) 金属メッシュは、微細な金属線構造を持つ透明な電磁シールド膜である。
しかし、製造準備中であっても実際の使用中であっても、光電子性能に影響を与える欠陥を発生させることができる。
金属メッシュ用非破壊試験装置(NDT)の開発には、長い作業距離、反射光路設計、小型化が必要である。
産業用インサイトインスペクションのための作業距離の短い既存のスマートフォン顕微鏡の限界に対処するため,新しい長距離反射型スマートフォン顕微鏡システム(LD-RSM)を提案する。
LD-RSMは、外部光学部品とスマートフォンを備えた4f光イメージングシステムを構築し、ビームスプリッタを使用して、試料の一方の照明システムと撮像システムで反射撮像を行う。
光学分解能は4.92$\mu$m、加工距離は22.23mmである。
さらに、欠陥検出のための二重重み付きロバスト主成分分析(DW-RPCA)を導入する。
このアプローチはスペクトルフィルタ融合とハフ変換を利用して異なる欠陥タイプをモデル化し、欠陥識別の精度と効率を高める。
最適化しきい値分割アルゴリズムと組み合わせて、DW-RPCA法は84.8%のピクセルレベルの精度を実現する。
本研究は,産業製品のオンライン検査分野における成長の可能性を示すものである。
Metallic mesh is a transparent electromagnetic shielding film with a fine metal line structure. However, it can develop defects that affect the optoelectronic performance whether in the production preparation or in actual use. The development of in-situ non-destructive testing (NDT) devices for metallic mesh requires long working distances, reflective optical path design, and miniaturization. To address the limitations of existing smartphone microscopes, which feature short working distances and inadequate transmission imaging for industrial in-situ inspection, we propose a novel long-working distance reflective smartphone microscopy system (LD-RSM). LD-RSM builds a 4f optical imaging system with external optical components and a smartphone, utilizing a beam splitter to achieve reflective imaging with the illumination system and imaging system on the same side of the sample. It achieves an optical resolution of 4.92$\mu$m and a working distance of up to 22.23 mm. Additionally, we introduce a dual prior weighted Robust Principal Component Analysis (DW-RPCA) for defect detection. This approach leverages spectral filter fusion and Hough transform to model different defect types, enhancing the accuracy and efficiency of defect identification. Coupled with an optimized threshold segmentation algorithm, DW-RPCA method achieves a pixel-level accuracy of 84.8%. Our work showcases strong potential for growth in the field of in-situ on-line inspection of industrial products. | 翻訳日:2024-08-13 18:41:36 公開日:2024-08-10 |
# HEOM法の安定性問題について
On stability issues of the HEOM method ( http://arxiv.org/abs/2408.05520v1 ) ライセンス: Link先を確認 | Malte Krug, Jürgen Stockburger, | (参考訳) 階層運動方程式(Hierarchical Equations of Motion, HEOM)法は、開量子系とその力学のシミュレーションにおける基礎の1つとなっている。
一般には非摂動法(non-perturbative method)と呼ばれる。
しかし、補助密度演算子の階層の切り離しが必要な場合もあり、完全に制御不可能な誤差が生じる。
本研究は, 完全脱コヒーレンスの場合と, 正確な結果が比較可能である場合と, システム・貯留層モデルであるスピンボソンシステムの両方において, この種の臨界誤差の性質と原因について検討する。
また, 階層構造を任意の有限サイズに切り離すことは, 消散性貯水池との強い結合に問題があり, 特に良好な貯水池記憶時間と組み合わせれば問題となる。
The Hierarchical Equations of Motion (HEOM) method has become one of the cornerstones in the simulation of open quantum systems and their dynamics. It is commonly referred to as a non-perturbative method. Yet, there are certain instances, where the necessary truncation of the hierarchy of auxiliary density operators seems to introduce errors which are not fully controllable. We investigate the nature and causes of this type of critical error both in the case of pure decoherence, where exact results are available for comparison, and in the spin-boson system, a full system-reservoir model. We find that truncating the hierarchy to any finite size can be problematic for strong coupling to a dissipative reservoir, in particular when combined with an appreciable reservoir memory time. | 翻訳日:2024-08-13 18:31:52 公開日:2024-08-10 |
# Deep Face-Attention:eラーニングへの応用による注意推定のためのマルチモーダル顔バイオメトリックス
DeepFace-Attention: Multimodal Face Biometrics for Attention Estimation with Application to e-Learning ( http://arxiv.org/abs/2408.05523v1 ) ライセンス: Link先を確認 | Roberto Daza, Luis F. Gomez, Julian Fierrez, Aythami Morales, Ruben Tolosana, Javier Ortega-Garcia, | (参考訳) 本研究では,Webカメラビデオに適用した顔分析手法のアンサンブルを用いて,注意レベル(認知的負荷)を推定する革新的な手法を提案する。
そこで我々は,eラーニング環境で取得した公開マルチモーダルデータベースであるmEBAL2データベースに対して,我々のアプローチを訓練し,評価し,比較した。
mEBAL2は、8つの異なるタスクを実行した60ユーザーのデータである。
これらの課題は困難に変化し、認知負荷の変化につながった。
我々のアプローチは、最先端の顔分析技術を適用して、ユーザの認知的負荷を、高い注意や低い注意の形で定量化する。
視線リンク、心拍数、顔の動き単位、頭部ポーズなど、認知的負荷に関連するいくつかの行動信号や生理的プロセスが使用されている。
さらに,どの特徴がより良い結果を得るか,最も効率的な組み合わせ,局所的特徴とグローバル的特徴の探索,一時的時間間隔が注意レベル推定に与える影響などについて検討する。
顔のグローバルな特徴は,特に時間窓の増大に伴って,スコアレベル融合を用いたマルチモーダルシステムにとってより適切であることが判明した。
一方、局所的な特徴は、スコアレベルの融合アプローチによるニューラルネットワークトレーニングにより、融合により適している。
提案手法は,mEBAL2ベンチマークを用いて,既存の最先端の精度を向上する。
This work introduces an innovative method for estimating attention levels (cognitive load) using an ensemble of facial analysis techniques applied to webcam videos. Our method is particularly useful, among others, in e-learning applications, so we trained, evaluated, and compared our approach on the mEBAL2 database, a public multi-modal database acquired in an e-learning environment. mEBAL2 comprises data from 60 users who performed 8 different tasks. These tasks varied in difficulty, leading to changes in their cognitive loads. Our approach adapts state-of-the-art facial analysis technologies to quantify the users' cognitive load in the form of high or low attention. Several behavioral signals and physiological processes related to the cognitive load are used, such as eyeblink, heart rate, facial action units, and head pose, among others. Furthermore, we conduct a study to understand which individual features obtain better results, the most efficient combinations, explore local and global features, and how temporary time intervals affect attention level estimation, among other aspects. We find that global facial features are more appropriate for multimodal systems using score-level fusion, particularly as the temporal window increases. On the other hand, local features are more suitable for fusion through neural network training with score-level fusion approaches. Our method outperforms existing state-of-the-art accuracies using the public mEBAL2 benchmark. | 翻訳日:2024-08-13 18:31:52 公開日:2024-08-10 |
# コンテキスト駆動インデックストリミング:ALMの精度を高めるためのデータ品質の視点
Context-Driven Index Trimming: A Data Quality Perspective to Enhancing Precision of RALMs ( http://arxiv.org/abs/2408.05524v1 ) ライセンス: Link先を確認 | Kexin Ma, Ruochun Jin, Xi Wang, Huan Chen, Jing Ren, Yuhua Tang, | (参考訳) Retrieval-Augmented Large Language Models (RALMs) は、生成した応答の精度を高めるために大きな努力をしてきたが、既存のベクトル距離に基づく検索手法が不正確な場合が多いため、検索結果におけるデータ品質の問題を見落としていることが多い。我々は、コンテキスト駆動型インデックストリミング(CDIT)フレームワークを通じて、ALMsの回答の精度を高めることを提案する。そこで、コンテキストマッチング依存度(CMDs)を論理データ品質規則として使用して、検索されたコンテキスト間の一貫性をキャプチャし、調整する。大言語モデル(LLMs)のセマンティック・コングリジョン能力に基づいて、CDITは、クエリと不整合性のある検索結果を効果的に識別し、削除することができる。
Retrieval-Augmented Large Language Models (RALMs) have made significant strides in enhancing the accuracy of generated responses.However, existing research often overlooks the data quality issues within retrieval results, often caused by inaccurate existing vector-distance-based retrieval methods.We propose to boost the precision of RALMs' answers from a data quality perspective through the Context-Driven Index Trimming (CDIT) framework, where Context Matching Dependencies (CMDs) are employed as logical data quality rules to capture and regulate the consistency between retrieved contexts.Based on the semantic comprehension capabilities of Large Language Models (LLMs), CDIT can effectively identify and discard retrieval results that are inconsistent with the query context and further modify indexes in the database, thereby improving answer quality.Experiments demonstrate on challenging question-answering tasks.Also, the flexibility of CDIT is verified through its compatibility with various language models and indexing methods, which offers a promising approach to bolster RALMs' data quality and retrieval precision jointly. | 翻訳日:2024-08-13 18:31:52 公開日:2024-08-10 |
# 1次元フロケ位相物質の量子幾何学と幾何学的絡み合いエントロピー
Quantum geometry and geometric entanglement entropy of one-dimensional Floquet topological matter ( http://arxiv.org/abs/2408.05525v1 ) ライセンス: Link先を確認 | Longwen Zhou, | (参考訳) 量子状態の幾何学は、多体系のトポロジカルな性質、相転移、絡み合いの性質を特徴づけるために必要な洞察を与えることができる。
本研究では、1次元周期駆動系におけるフロケ位相状態の量子幾何学と関連する絡み合いエントロピー(EE)を明らかにする。
フロッケ状態の量子計量テンソルは、位相相転移点において非解析的シグネチャを示す。
遷移点の他に、フロッケ状態の2部幾何学的EEは、フロッケバンドを任意の充填率で保持する領域法的なスケーリングとシステムサイズを示す。
均一に満たされたフロケバンドの場合、EEはさらに純粋に量子幾何学的になる。
位相遷移点において、幾何EEはシステムサイズと対数的にスケールし、近くのパラメータ範囲にカスプを表示する。
これらの発見は、周期的に駆動されるスピン鎖、フロケットトポロジカル絶縁体、超伝導体を含む典型的なフロケットモデルを調べることで実証される。
その結果,Floquet状態の豊富な量子幾何学を解明し,ギャップを持つFloquet位相のEEの幾何学的起源を明らかにし,Floquet系における位相遷移を記述するための情報理論的手法を導入した。
The geometry of quantum states could offer indispensable insights for characterizing the topological properties, phase transitions and entanglement nature of many-body systems. In this work, we reveal the quantum geometry and the associated entanglement entropy (EE) of Floquet topological states in one-dimensional periodically driven systems. The quantum metric tensors of Floquet states are found to show non-analytic signatures at topological phase transition points. Away from the transition points, the bipartite geometric EE of Floquet states exhibits an area-law scaling vs the system size, which holds for a Floquet band at any filling fractions. For a uniformly filled Floquet band, the EE further becomes purely quantum geometric. At phase transition points, the geometric EE scales logarithmically with the system size and displays cusps in the nearby parameter ranges. These discoveries are demonstrated by investigating typical Floquet models including periodically driven spin chains, Floquet topological insulators and superconductors. Our findings uncover the rich quantum geometries of Floquet states, unveiling the geometric origin of EE for gapped Floquet topological phases, and introducing information-theoretic means of depicting topological transitions in Floquet systems. | 翻訳日:2024-08-13 18:31:52 公開日:2024-08-10 |
# CryoBench:Cryo-EMの不均一性問題のための多変量および挑戦的データセット
CryoBench: Diverse and challenging datasets for the heterogeneity problem in cryo-EM ( http://arxiv.org/abs/2408.05526v1 ) ライセンス: Link先を確認 | Minkyu Jeon, Rishwanth Raghu, Miro Astore, Geoffrey Woollard, Ryan Feathers, Alkin Kaz, Sonya M. Hanson, Pilar Cossio, Ellen D. Zhong, | (参考訳) 核電子顕微鏡(cryo-EM)は、画像データから高分解能の3次元生体分子構造を決定するための強力な技術である。
この技術は動的生体分子複合体を捉えることができるため、本質的な構造的不均一性を解決するために3次元再構成法が開発されている。
しかし、基礎的な真理構造と検証基準を持つ標準化されたベンチマークが存在しないため、分野の進歩は制限される。
本稿では、CryoBenchを提案する。CryoBenchは、Cleo-EMにおける異種再構成のためのデータセット、メトリクス、パフォーマンスベンチマークのスイートである。
異種性や難易度の異なる5つのデータセットを提案する。
これらには、単純な動きや抗体複合体のランダムな構成、分子動力学シミュレーションからサンプリングされた数万の構造から生成される共形不均一が含まれている。
また,リボソームの集合状態と100の共役錯体の混合物から構成的不均一性を含むデータセットを設計した。
次に、ニューラル法と非ニューラル法を含む最先端の異種再建ツールの包括的解析を行い、そのノイズに対する感度について検討し、方法の定量的比較のための新しい指標を提案する。
我々は,このベンチマークが,Cryo-EMコミュニティと機械学習コミュニティの両方において,既存の手法と新たなアルゴリズム開発を解析するための基盤となることを期待する。
Cryo-electron microscopy (cryo-EM) is a powerful technique for determining high-resolution 3D biomolecular structures from imaging data. As this technique can capture dynamic biomolecular complexes, 3D reconstruction methods are increasingly being developed to resolve this intrinsic structural heterogeneity. However, the absence of standardized benchmarks with ground truth structures and validation metrics limits the advancement of the field. Here, we propose CryoBench, a suite of datasets, metrics, and performance benchmarks for heterogeneous reconstruction in cryo-EM. We propose five datasets representing different sources of heterogeneity and degrees of difficulty. These include conformational heterogeneity generated from simple motions and random configurations of antibody complexes and from tens of thousands of structures sampled from a molecular dynamics simulation. We also design datasets containing compositional heterogeneity from mixtures of ribosome assembly states and 100 common complexes present in cells. We then perform a comprehensive analysis of state-of-the-art heterogeneous reconstruction tools including neural and non-neural methods and their sensitivity to noise, and propose new metrics for quantitative comparison of methods. We hope that this benchmark will be a foundational resource for analyzing existing methods and new algorithmic development in both the cryo-EM and machine learning communities. | 翻訳日:2024-08-13 18:31:52 公開日:2024-08-10 |
# 超広帯域ローカライゼーションサービスの信頼性
Trustworthiness for an Ultra-Wideband Localization Service ( http://arxiv.org/abs/2408.05527v1 ) ライセンス: Link先を確認 | Philipp Peterseil, Bernhard Etzlinger, Jan Horáček, Roya Khanzadeh, Andreas Springer, | (参考訳) 信頼度評価は、不適切な条件下であっても、相互依存システムが期待通りに重要な機能を発揮することを保証するための重要なステップである。
本稿では, 信頼性, セキュリティ, プライバシ, レジリエンスの属性を含む, 超広帯域自己ローカライゼーションのための総合的信頼性評価フレームワークを提案する。
我々の目標は、客観的証拠、いわゆる信頼度指標に基づいて、システムの信頼度を評価するためのガイダンスを提供することです。
これらの指標は、特定のシステムの脅威分析によって慎重に選択される。
我々のアプローチは、結果の信頼性指標が、選択された現実世界の脅威に対応することを保証します。
また,提案手法の有効性を実証するために実験的検討を行った。
このフレームワークはこの特定のユースケースに合わせたものだが、プロセス自体が汎用的なテンプレートとして機能し、モノのインターネット(Internet of Things)やサイバー物理システムのドメインで他のアプリケーションで使用することができる。
Trustworthiness assessment is an essential step to assure that interdependent systems perform critical functions as anticipated, even under adverse conditions. In this paper, a holistic trustworthiness assessment framework for ultra-wideband self-localization is proposed, including attributes of reliability, security, privacy, and resilience. Our goal is to provide guidance for evaluating a system's trustworthiness based on objective evidence, so-called trustworthiness indicators. These indicators are carefully selected through the threat analysis of the particular system. Our approach guarantees that the resulting trustworthiness indicators correspond to chosen real-world threats. Moreover, experimental evaluations are conducted to demonstrate the effectiveness of the proposed method. While the framework is tailored for this specific use case, the process itself serves as a versatile template, which can be used in other applications in the domains of the Internet of Things or cyber-physical systems. | 翻訳日:2024-08-13 18:31:52 公開日:2024-08-10 |
# UAVファーストパーソンビューアーとしてのラジアンスフィールド学習者
Radiance Field Learners As UAV First-Person Viewers ( http://arxiv.org/abs/2408.05533v1 ) ライセンス: Link先を確認 | Liqi Yan, Qifan Wang, Junhan Zhao, Qiang Guan, Zheng Tang, Jianhui Zhang, Dongfang Liu, | (参考訳) 第一パーソンビュー(FPV)は、無人航空機(UAV)の軌道に革命をもたらす大きな可能性を秘めている。
しかし、従来のNeural Radiance Field(NeRF)メソッドは、イテレーション毎に単一ポイントをサンプリングしたり、監視のために広範囲のビューを必要とするといった課題に直面している。
UAVビデオは、これらの問題を限られた視点と大きな空間スケールのバリエーションで悪化させ、その結果、様々なスケールにわたる詳細なレンダリングが不十分になった。
対応として,FPV-NeRFを導入し,これらの課題に3つの重要な側面を通して対処する。
時空間連続性を活用することで、フレーム間のシームレスなコヒーレンスが保証される; (2)グローバル構造。
点サンプリング中に様々なグローバルな特徴を取り入れることで空間の整合性が保たれる;(3)局所的な粒度。
マルチスケールシーン特徴表現のための包括的フレームワークとマルチレゾリューションによる監視は、UAVビデオ空間スケールの複雑さに対処する。
さらに,公開されているFPVビデオが不足しているため,UAV映像からFPV視点を生成するためにNeRFを用いた革新的なビュー合成手法を導入し,ドローンの空間的知覚を高める。
我々の新しいデータセットは、UAVドメインの屋外から屋内までの様々な軌道にまたがっており、従来のNeRFのシナリオと大きく異なる。
FPV-NeRFは、内部構造と外部構造の両方を包含する広範囲な実験を通じて、UAV飛行空間の優れた理解を示し、我々のキュレートされたUAVデータセットにおける最先端の手法よりも優れています。
さらなる洞察を得るために、プロジェクトページを探索してください。
First-Person-View (FPV) holds immense potential for revolutionizing the trajectory of Unmanned Aerial Vehicles (UAVs), offering an exhilarating avenue for navigating complex building structures. Yet, traditional Neural Radiance Field (NeRF) methods face challenges such as sampling single points per iteration and requiring an extensive array of views for supervision. UAV videos exacerbate these issues with limited viewpoints and significant spatial scale variations, resulting in inadequate detail rendering across diverse scales. In response, we introduce FPV-NeRF, addressing these challenges through three key facets: (1) Temporal consistency. Leveraging spatio-temporal continuity ensures seamless coherence between frames; (2) Global structure. Incorporating various global features during point sampling preserves space integrity; (3) Local granularity. Employing a comprehensive framework and multi-resolution supervision for multi-scale scene feature representation tackles the intricacies of UAV video spatial scales. Additionally, due to the scarcity of publicly available FPV videos, we introduce an innovative view synthesis method using NeRF to generate FPV perspectives from UAV footage, enhancing spatial perception for drones. Our novel dataset spans diverse trajectories, from outdoor to indoor environments, in the UAV domain, differing significantly from traditional NeRF scenarios. Through extensive experiments encompassing both interior and exterior building structures, FPV-NeRF demonstrates a superior understanding of the UAV flying space, outperforming state-of-the-art methods in our curated UAV dataset. Explore our project page for further insights: https://fpv-nerf.github.io/. | 翻訳日:2024-08-13 18:31:52 公開日:2024-08-10 |
# LLMはソフトウェアエンジニアリングアーティファクトのマニュアルアノテーションを置き換えることができるか?
Can LLMs Replace Manual Annotation of Software Engineering Artifacts? ( http://arxiv.org/abs/2408.05534v1 ) ライセンス: Link先を確認 | Toufique Ahmed, Premkumar Devanbu, Christoph Treude, Michael Pradel, | (参考訳) ソフトウェア工学の革新、例えばツールやプロセスの実験的な評価は、発見のより広範な一般化性を得るために、多目的戦略の構成要素として人間-オブジェクトの研究を含むことが多い。
しかし,本研究の分野における人間-対象研究は,適切な対象の発見と採用のコストと難しさから,理想的には,経験の度合いの異なるプロフェッショナルプログラマの育成が困難である。
一方、大規模言語モデル(LLM)は、最近、いくつかの分野で人間レベルのパフォーマンスを実証し始めている。
本稿では,コードおよびコード関連アーティファクトの評価において,より安価なLCMクエリによるコストの高い人体置換の可能性について検討する。
本研究では,従来の作業によって作成された5つのデータセットから10のアノテーションタスクに6つの最先端LPMを適用し,メソッドの自然言語要約の精度を判断したり,コード変更で静的解析警告が修正されるかどうかを判断することで,このアイデアを考察する。
以上の結果から,LLMを人体アノテーションに置き換えることで,人体・人体・人体間の合意に等しいあるいは近い契約が成立する可能性が示唆された。
人-対象研究において, LLMをいつ, どのように使用するかを決定するために, 与えられたタスクがLLMに適合するかどうかの予測器としてモデルモデルアグリーメントを提案し, そして, LLMが人間のアノテーションを安全に置き換えることのできる特定のサンプルを選択する手段として, モデル信頼度を提案する。
全体として、我々の研究は、ソフトウェア工学における人間-LLMの混合評価に向けた第一歩です。
Experimental evaluations of software engineering innovations, e.g., tools and processes, often include human-subject studies as a component of a multi-pronged strategy to obtain greater generalizability of the findings. However, human-subject studies in our field are challenging, due to the cost and difficulty of finding and employing suitable subjects, ideally, professional programmers with varying degrees of experience. Meanwhile, large language models (LLMs) have recently started to demonstrate human-level performance in several areas. This paper explores the possibility of substituting costly human subjects with much cheaper LLM queries in evaluations of code and code-related artifacts. We study this idea by applying six state-of-the-art LLMs to ten annotation tasks from five datasets created by prior work, such as judging the accuracy of a natural language summary of a method or deciding whether a code change fixes a static analysis warning. Our results show that replacing some human annotation effort with LLMs can produce inter-rater agreements equal or close to human-rater agreement. To help decide when and how to use LLMs in human-subject studies, we propose model-model agreement as a predictor of whether a given task is suitable for LLMs at all, and model confidence as a means to select specific samples where LLMs can safely replace human annotators. Overall, our work is the first step toward mixed human-LLM evaluations in software engineering. | 翻訳日:2024-08-13 18:31:52 公開日:2024-08-10 |
# 多層分類データの潜在クラス解析
Latent class analysis for multi-layer categorical data ( http://arxiv.org/abs/2408.05535v1 ) ライセンス: Link先を確認 | Huan Qing, | (参考訳) 従来の分類データは、心理学的テストや教育的評価で収集されることが多いが、通常は単層で1回だけ収集される。
このようなデータをモデル化するために、新しい統計モデル、多層潜在クラスモデル(multi-layer LCM)を提案する。
このモデルは、すべてのレイヤが共通の主題とアイテムを共有していると仮定する。
本モデルでは, 応答行列の和, グラム行列の和, およびグラム行列の縮退和に基づく3つの効率的なスペクトル法を開発した。
多層LCMの枠組み内では,データ空間性に関する穏やかな条件下で,これらの手法の推定一貫性を実証する。
理論的には,(1) 層数の増加が提案手法の性能を向上させること,(2) グラム行列のデバイアス和に基づくアルゴリズムが最適であることを示す。
さらに,平均モジュラリティメトリックとメソッドを組み合わせることで,潜在クラス数を決定する手法を提案する。
提案手法が潜在クラスを学習し,多層分類データにおける潜在クラス数を多層応答で推定する作業において,有効性を示すための実験を行った。
Traditional categorical data, often collected in psychological tests and educational assessments, are typically single-layer and gathered only once.This paper considers a more general case, multi-layer categorical data with polytomous responses. To model such data, we present a novel statistical model, the multi-layer latent class model (multi-layer LCM). This model assumes that all layers share common subjects and items. To discover subjects' latent classes and other model parameters under this model, we develop three efficient spectral methods based on the sum of response matrices, the sum of Gram matrices, and the debiased sum of Gram matrices, respectively. Within the framework of multi-layer LCM, we demonstrate the estimation consistency of these methods under mild conditions regarding data sparsity. Our theoretical findings reveal two key insights: (1) increasing the number of layers can enhance the performance of the proposed methods, highlighting the advantages of considering multiple layers in latent class analysis; (2) we theoretically show that the algorithm based on the debiased sum of Gram matrices usually performs best. Additionally, we propose an approach that combines the averaged modularity metric with our methods to determine the number of latent classes. Extensive experiments are conducted to support our theoretical results and show the powerfulness of our methods in the task of learning latent classes and estimating the number of latent classes in multi-layer categorical data with polytomous responses. | 翻訳日:2024-08-13 18:31:52 公開日:2024-08-10 |
# S-SIRUS:空間回帰的ランダムフォレストのための説明可能性アルゴリズム
S-SIRUS: an explainability algorithm for spatial regression Random Forest ( http://arxiv.org/abs/2408.05537v1 ) ライセンス: Link先を確認 | Luca Patelli, Natalia Golini, Rosaria Ignaccolo, Michela Cameletti, | (参考訳) ランダムフォレスト(Random Forest, RF)は、その柔軟性、ユーザフレンドリさ、およびさまざまな領域にわたる高い予測性能で広く使われている機械学習アルゴリズムである。
しかし、解釈不能である。
これは、予測器と応答変数の関係を理解することが意思決定の観点から不可欠である、応用科学における有用性を制限することができる。
文献では、RFを説明するいくつかの方法が提案されているが、これらは空間依存データの文脈でRFを説明するという課題に対処するものではない。
そこで本研究では,コンパクトで単純な規則リストを抽出することにより,空間依存データの場合の回帰RFを説明することを目的とする。
本稿では,SIRUS の空間拡張である S-SIRUS を提案する。S-SIRUS は古典回帰RF アルゴリズムから規則の安定かつ短いリストを抽出できるよく確立された回帰規則アルゴリズムである。
本研究では,S-SIRUSとS-SIRUSを比較検討し,S-SIRUSとS-SIRUSを比較検討した。
その結果,空間相関が存在する場合,S-SIRUSはSIRUSよりも高いテスト予測精度を示すことが示唆された。
さらに,S-SIRUSは,より高レベルの空間相関について,より短い規則リストを生成し,予測の背後にあるメカニズムの説明を緩和する。
Random Forest (RF) is a widely used machine learning algorithm known for its flexibility, user-friendliness, and high predictive performance across various domains. However, it is non-interpretable. This can limit its usefulness in applied sciences, where understanding the relationships between predictors and response variable is crucial from a decision-making perspective. In the literature, several methods have been proposed to explain RF, but none of them addresses the challenge of explaining RF in the context of spatially dependent data. Therefore, this work aims to explain regression RF in the case of spatially dependent data by extracting a compact and simple list of rules. In this respect, we propose S-SIRUS, a spatial extension of SIRUS, the latter being a well-established regression rule algorithm able to extract a stable and short list of rules from the classical regression RF algorithm. A simulation study was conducted to evaluate the explainability capability of the proposed S-SIRUS, in comparison to SIRUS, by considering different levels of spatial dependence among the data. The results suggest that S-SIRUS exhibits a higher test predictive accuracy than SIRUS when spatial correlation is present. Moreover, for higher levels of spatial correlation, S-SIRUS produces a shorter list of rules, easing the explanation of the mechanism behind the predictions. | 翻訳日:2024-08-13 18:31:52 公開日:2024-08-10 |
# 畳み込みニューラルネットワークによるディープスパース符号化の収束解析
Convergence Analysis for Deep Sparse Coding via Convolutional Neural Networks ( http://arxiv.org/abs/2408.05540v1 ) ライセンス: Link先を確認 | Jianfei Li, Han Feng, Ding-Xuan Zhou, | (参考訳) 本研究では,高度なニューラルネットワークアーキテクチャにおける特徴抽出能力の理解を深めるために,スパース符号化理論とディープラーニングの交わりについて検討する。
まず,新しいDeep Sparse Coding(DSC)モデルを導入し,その特異性と安定性の詳細な理論的解析を行うことから始める。
これらのDSCモデルに反復アルゴリズムを適用することにより、畳み込みニューラルネットワーク(CNN)の収束率を、スパース特徴を抽出する能力に導出する。
これは、スパース機能学習タスクにCNNを使用するための強力な理論的基盤を提供する。
さらに、この収束分析を、多様なアクティベーション機能を持つアーキテクチャや、自己アテンションやトランスフォーマーベースのモデルなど、より一般的なニューラルネットワークアーキテクチャにも拡張する。
これにより,より深い特徴抽出のための広範囲な深層学習手法に適用可能となった。
スパースコーディングとCNNの強いつながりにインスパイアされた私たちは、ニューラルネットワークがよりスパースな機能を学ぶように促すトレーニング戦略についても検討しています。
数値実験により,これらの手法の有効性を実証し,効率的かつ解釈可能なディープラーニングモデルの設計に有用な知見を提供する。
In this work, we explore the intersection of sparse coding theory and deep learning to enhance our understanding of feature extraction capabilities in advanced neural network architectures. We begin by introducing a novel class of Deep Sparse Coding (DSC) models and establish a thorough theoretical analysis of their uniqueness and stability properties. By applying iterative algorithms to these DSC models, we derive convergence rates for convolutional neural networks (CNNs) in their ability to extract sparse features. This provides a strong theoretical foundation for the use of CNNs in sparse feature learning tasks. We additionally extend this convergence analysis to more general neural network architectures, including those with diverse activation functions, as well as self-attention and transformer-based models. This broadens the applicability of our findings to a wide range of deep learning methods for deep sparse feature extraction. Inspired by the strong connection between sparse coding and CNNs, we also explore training strategies to encourage neural networks to learn more sparse features. Through numerical experiments, we demonstrate the effectiveness of these approaches, providing valuable insights for the design of efficient and interpretable deep learning models. | 翻訳日:2024-08-13 18:31:52 公開日:2024-08-10 |
# P3: LLMトレーニングを最適化するためのポリシー駆動、ペース適応、多様性を動機とするフレームワーク
P3: A Policy-Driven, Pace-Adaptive, and Diversity-Promoted Framework for Optimizing LLM Training ( http://arxiv.org/abs/2408.05541v1 ) ライセンス: Link先を確認 | Yingxuan Yang, Huayi Wang, Muning Wen, Weinan Zhang, | (参考訳) LLM(Large Language Models)の急速に発展する分野では、微調整のための高品質なデータを選択することが不可欠である。
本稿では,タスク固有のデータプルーニングと選択に焦点をあて,微調整の強化を図る。
本稿では,動的適応型学習戦略によりLLM性能を向上させる革新的フレームワークであるP3を紹介する。
1) ポリシー駆動の難易度測定: モデルのリアルタイムパフォーマンスに基づいてデータの難易度を測定し、静的で事前定義されたメトリクスからよりダイナミックで適応可能なものへ移行することから始めます。
2) ペース適応選択: SPL(Self-paced Learning)を用いて, ますます困難なデータを選択することにより, モデルの性能を徐々に向上させる。
3) 多様性促進: 決定点プロセス(DPP)を選択プロセスに統合し, サンプル内およびサンプル間の多様性を促進し, 学習プロセスの充実を図る。
我々は、論理的推論シナリオのために設計された2つのよく知られたLLMデータセット、APPSとMATHについて、本手法の有効性を検証した。
その結果,従来の手法と比較して,P3フレームワークはトレーニング結果を大幅に改善することがわかった。
データ選択と利用戦略を根本的に洗練することにより、P3は動的トレーニングアプローチの理論的理解を前進させるだけでなく、自然言語処理におけるモデルトレーニングに革命をもたらす汎用的なフレームワークも提供する。
In the rapidly evolving field of Large Language Models (LLMs), selecting high-quality data for fine-tuning is essential. This paper focuses on task-specific data pruning and selection to enhance fine-tuning. We introduce an innovative framework, termed P3, which improves LLM performance through a dynamic, adaptive training strategy. Specifically, P3 comprises the following components: (1) Policy-driven Difficulty Measurement: we begin by measuring the difficulty of data based on the model's real-time performance, transitioning from static, predefined metrics to more dynamic and adaptable ones. (2) Pace-adaptive Selection: we employ self-paced learning (SPL) to gradually select increasingly challenging data, thereby progressively enhancing the model's performance. (3) Diversity Promotion: we integrate Determinantal Point Process (DPP) into the selection process to promote the diversity within and between samples, enriching the learning process. We have validated our method on two well-known LLM datasets, APPS and MATH, designed for logical reasoning scenarios. The results show that our P3 framework significantly improves training outcomes compared to traditional methods. By fundamentally refining data selection and utilization strategies, P3 not only advances theoretical understanding of dynamic training approaches but also provides a versatile framework that can revolutionize model training in natural language processing. | 翻訳日:2024-08-13 18:31:52 公開日:2024-08-10 |
# You Augment Me: セマンティックコード検索のためのChatGPTベースのデータ拡張を探る
You Augment Me: Exploring ChatGPT-based Data Augmentation for Semantic Code Search ( http://arxiv.org/abs/2408.05542v1 ) ライセンス: Link先を確認 | Yanlin Wang, Lianghong Guo, Ensheng Shic, Wenqing Chen, Jiachi Chen, Wanjun Zhong, Menghan Wang, Hui Li, Hongyu Zhang, Ziyu Lyu, Zibin Zheng, | (参考訳) コード検索はソフトウェア開発において重要な役割を担い、開発者は自然言語クエリを使ってコードを検索し再利用することができる。
コード検索モデルの性能は高品質なデータの増加とともに向上するが、そのようなデータを取得することは困難でコストがかかる。
近年、ChatGPTのような大規模言語モデル(LLM)は、自然言語理解と生成の両方において顕著な進歩を遂げており、単純なプロンプトを通じてユーザフレンドリなインタラクションを提供している。
これらの進歩にインスパイアされた新しいアプローチであるChatDANCEを提案する。これは、大規模言語モデルによって生成された高品質で多様な拡張データを利用し、低品質な拡張を除去するためにフィルタリング機構を活用する。
具体的には、まず、ソースコードとクエリ用に特別に設計されたChatGPTプロンプトルールのセットを提案する。
そこで,我々はChatGPTを利用して,対応するプロンプトに基づいてコードとクエリの書き直しを行うとともに,バックボーンモデルUniXcoderからクロスエンコーダをトレーニングし,一致するスコアの低いコードとクエリペアをフィルタリングするフィルタリング機構を提案する。
最後に、得られた高品質な拡張データを用いて、バックボーンモデルを再訓練する。
実験の結果,ChatDANCEは最先端のパフォーマンスを達成し,13.2%(R@1)と7%(MRR)で最高のベースラインを向上した。
驚くべきことに、この拡張フィルタ-リトラクション戦略により、バックボーンモデル(UniXcoder)が自己成長できることがわかった。
さらに、広範囲な実験により、各コンポーネントの有効性が示され、ChatDANCEは異なるハイパーパラメータ設定下で安定したパフォーマンスを持つ。
さらに、ChatDanceがなぜうまく機能するのかを定性的かつ定量的に分析し、より均一な表現の分布を学習し、コードとクエリ空間を効果的に整列させる。
Code search plays a crucial role in software development, enabling developers to retrieve and reuse code using natural language queries. While the performance of code search models improves with an increase in high-quality data, obtaining such data can be challenging and expensive. Recently, large language models (LLMs) such as ChatGPT have made remarkable progress in both natural and programming language understanding and generation, offering user-friendly interaction via simple prompts. Inspired by these advancements, we propose a novel approach ChatDANCE, which utilizes high-quality and diverse augmented data generated by a large language model and leverages a filtering mechanism to eliminate low-quality augmentations. Specifically, we first propose a set of ChatGPT prompting rules that are specifically designed for source code and queries. Then, we leverage ChatGPT to rewrite code and queries based on the according prompts and then propose a filtering mechanism which trains a cross-encoder from the backbone model UniXcoder to filter out code and query pairs with low matching scores. Finally, we re-train the backbone model using the obtained high-quality augmented data. Experimental results show that ChatDANCE achieves state-of-the-art performance, improving the best baseline by 13.2% (R@1) and 7% (MRR). Surprisingly, we find that this augment-filter-retrain strategy enables the backbone model (UniXcoder) to self-grow. Moreover, extensive experiments show the effectiveness of each component and ChatDANCE has stable performance under different hyperparameter settings. In addition, we conduct qualitative and quantitative analyses to investigate why ChatDANCE works well and find that it learns a more uniform distribution of representations and effectively aligns the code and query spaces. | 翻訳日:2024-08-13 18:31:52 公開日:2024-08-10 |
# PixelFade: ノイズ誘導によるプログレッシブリプレースによるプライバシー保護担当者の再識別
PixelFade: Privacy-preserving Person Re-identification with Noise-guided Progressive Replacement ( http://arxiv.org/abs/2408.05543v1 ) ライセンス: Link先を確認 | Delong Zhang, Yi-Xing Peng, Xiao-Ming Wu, Ancong Wu, Wei-Shi Zheng, | (参考訳) オンラインの人物再識別サービスは、潜在的なデータ漏洩やリカバリ攻撃によるプライバシー侵害に直面し、クラウドに保存されたイメージを悪意のある攻撃者に公開し、公衆の懸念を引き起こす。
歩行者画像のプライバシー保護は重要である。
これまでのプライバシ保護者再識別手法では、回復攻撃に抵抗できず、精度を損なうことはできない。
本稿では,歩行者画像から雑音様画像へ最適化し,回復攻撃に耐える反復的手法(PixelFade)を提案する。
まず、従来のプライバシー手法から保護された画像の詳細な研究を行い、保護された画像のカオスが回復モデルの学習を阻害することを明らかにする。
具体的には、特定の許可モデルの特徴的制約を伴ってノイズ誘導対象関数を提案し、その認証モデルに従って元の識別情報を保存しながら、歩行者画像を正規分布の雑音画像に最適化する。
上記の非凸最適化問題を解決するために,制約演算と部分置換演算を交互に行うヒューリスティック最適化アルゴリズムを提案する。
この戦略は、元のピクセルがプライバシーを守るためにノイズに置き換えられるだけでなく、画像が改良された最適化方向へ誘導され、識別的特徴を効果的に保存する。
大規模な実験により、PixelFadeはリカバリ攻撃やRe-ID性能に抵抗する従来の手法よりも優れていたことが示されている。
コードはhttps://github.com/iSEE-Laboratory/PixelFadeで入手できる。
Online person re-identification services face privacy breaches from potential data leakage and recovery attacks, exposing cloud-stored images to malicious attackers and triggering public concern. The privacy protection of pedestrian images is crucial. Previous privacy-preserving person re-identification methods are unable to resist recovery attacks and compromise accuracy. In this paper, we propose an iterative method (PixelFade) to optimize pedestrian images into noise-like images to resist recovery attacks. We first give an in-depth study of protected images from previous privacy methods, which reveal that the chaos of protected images can disrupt the learning of recovery models. Accordingly, Specifically, we propose Noise-guided Objective Function with the feature constraints of a specific authorization model, optimizing pedestrian images to normal-distributed noise images while preserving their original identity information as per the authorization model. To solve the above non-convex optimization problem, we propose a heuristic optimization algorithm that alternately performs the Constraint Operation and the Partial Replacement Operation. This strategy not only safeguards that original pixels are replaced with noises to protect privacy, but also guides the images towards an improved optimization direction to effectively preserve discriminative features. Extensive experiments demonstrate that our PixelFade outperforms previous methods in resisting recovery attacks and Re-ID performance. The code is available at https://github.com/iSEE-Laboratory/PixelFade. | 翻訳日:2024-08-13 18:31:52 公開日:2024-08-10 |
# 多層ラベリングを用いた共同生体イベント抽出
Multi-layer Sequence Labeling-based Joint Biomedical Event Extraction ( http://arxiv.org/abs/2408.05545v1 ) ライセンス: Link先を確認 | Gongchi Chen, Pengchao Wu, Jinghang Gu, Longhua Qian, Guodong Zhou, | (参考訳) 近年,バイオメディカルイベント抽出は複雑なパイプラインとジョイントメソッドによって支配され,簡略化が求められている。
また、既存の作業では、トリガー語情報を明示的に利用していない。
そこで我々は,共同生体イベント抽出のための多層配列ラベリングに基づくMLSLを提案する。
MLSLは、事前の知識や複雑な構造を導入していない。
さらに、候補トリガー語の情報をシーケンスラベルに明示的に組み込んで、トリガー語と引数ロール間の相互作用関係を学習する。
これに基づいて、MLSLは単純なワークフローでうまく学習できます。
大規模な実験は、他の最先端手法と比較して、抽出性能においてMLSLの優位性を示す。
In recent years, biomedical event extraction has been dominated by complicated pipeline and joint methods, which need to be simplified. In addition, existing work has not effectively utilized trigger word information explicitly. Hence, we propose MLSL, a method based on multi-layer sequence labeling for joint biomedical event extraction. MLSL does not introduce prior knowledge and complex structures. Moreover, it explicitly incorporates the information of candidate trigger words into the sequence labeling to learn the interaction relationships between trigger words and argument roles. Based on this, MLSL can learn well with just a simple workflow. Extensive experimentation demonstrates the superiority of MLSL in terms of extraction performance compared to other state-of-the-art methods. | 翻訳日:2024-08-13 18:31:52 公開日:2024-08-10 |
# 弱表現言語カザフ語における未知の音声とテキストを利用したウィスパーの認識性能の向上
Improving Whisper's Recognition Performance for Under-Represented Language Kazakh Leveraging Unpaired Speech and Text ( http://arxiv.org/abs/2408.05554v1 ) ライセンス: Link先を確認 | Jinpeng Li, Yu Pu, Qi Sun, Wei-Qiang Zhang, | (参考訳) Whisperや他の大規模自動音声認識モデルは、性能に大きな進歩をもたらした。
しかし、Kazakhのような低リソース言語でのパフォーマンスは満足できない。
表現不足言語におけるWhisperの性能向上のために、低コストなデータを利用する方法を研究する価値がある。
本研究では,言語モデルであるGPTとWhisper on Kazakhを組み合わせた。
音声認識の性能向上のため,EOT(End of transcript)判定の修正と幻覚ペナルティを実装した。
さらに、デコード平均トークンログ確率を基準として、未ラベル音声データからサンプルを抽出し、擬似ラベルデータを用いてモデルを微調整し、その性能をさらに向上させた。
究極的には、複数の実験で10 %以上の絶対 WER 還元を実現し、プロセス全体が他の非表現言語に一般化される可能性がある。
Whisper and other large-scale automatic speech recognition models have made significant progress in performance. However, their performance on many low-resource languages, such as Kazakh, is not satisfactory. It is worth researching how to utilize low-cost data to improve the performance of Whisper on under-represented languages. In this study, we utilized easily accessible unpaired speech and text data and combined the language model GPT with Whisper on Kazakh. We implemented end of transcript (EOT) judgment modification and hallucination penalty to improve the performance of speech recognition. Further, we employed the decoding average token log probability as a criterion to select samples from unlabeled speech data and used pseudo-labeled data to fine-tune the model to further improve its performance. Ultimately, we achieved more than 10\% absolute WER reduction in multiple experiments, and the whole process has the potential to be generalized to other under-represented languages. | 翻訳日:2024-08-13 18:21:46 公開日:2024-08-10 |
# パーソナライズドメディカルジャーゴン抽出のための大規模言語モデルに基づくロールプレイング
Large Language Model-based Role-Playing for Personalized Medical Jargon Extraction ( http://arxiv.org/abs/2408.05555v1 ) ライセンス: Link先を確認 | Jung Hoon Lim, Sunjae Kwon, Zonghai Yao, John P. Lalor, Hong Yu, | (参考訳) これまでの研究では、患者が自分の医療情報にアクセスできるようにするために米国で広く採用されている電子健康記録(EHR)が、医療ジャーゴンの流行により患者に高い可読性を持たないことが明らかになっている。
個人にとって困難な用語を識別することで、個々の理解に医療ノートを組み込むことにより、生成モデルの有用性が向上する。
医療用語抽出におけるLLMにおけるロールプレイングの影響を定量的に測定する。
20文以上のメカニカル・トルコ人労働者の成績を比較することで、LLMロールプレイングは14の異なる社会デマグラフィー背景の95%でF1スコアを向上することを示した。
さらに、インコンテキスト学習によるロールプレイングの適用は、従来の最先端モデルよりも優れていた。
本研究は,ChatGPTがロールプレイを利用して従来の医療用語抽出システムを改良し,パーソナライズされた患者教育を実現する可能性を示した。
Previous studies reveal that Electronic Health Records (EHR), which have been widely adopted in the U.S. to allow patients to access their personal medical information, do not have high readability to patients due to the prevalence of medical jargon. Tailoring medical notes to individual comprehension by identifying jargon that is difficult for each person will enhance the utility of generative models. We present the first quantitative analysis to measure the impact of role-playing in LLM in medical term extraction. By comparing the results of Mechanical Turk workers over 20 sentences, our study demonstrates that LLM role-playing improves F1 scores in 95% of cases across 14 different socio-demographic backgrounds. Furthermore, applying role-playing with in-context learning outperformed the previous state-of-the-art models. Our research showed that ChatGPT can improve traditional medical term extraction systems by utilizing role-play to deliver personalized patient education, a potential that previous models had not achieved. | 翻訳日:2024-08-13 18:21:45 公開日:2024-08-10 |
# 3次元点雲解析のための進化的ニューラルネットワーク探索
Evolutionary Neural Architecture Search for 3D Point Cloud Analysis ( http://arxiv.org/abs/2408.05556v1 ) ライセンス: Link先を確認 | Yisheng Yang, Guodong Du, Chean Khim Toa, Ho-Kin Tang, Sim Kuan Goh, | (参考訳) ニューラルネットワーク探索(NAS)は、最適化アルゴリズムを使用してアーキテクチャ空間をナビゲートすることで、ニューラルネットワーク設計を自動化する。
NASは成功したが、非ユークリッド空間の非ユークリッド空間にあるデータから、非構造的な3D点雲の分析などの新興領域に適用することは、画像とは異なり、未探索のままである。
本稿では、離散的なディープニューラルネットワークアーキテクチャを連続空間に符号化し、効率的なポイント・クラウド・ニューラル・アーキテクチャのための連続空間での探索を行う進化的NASフレームワークSHSADE-PIDSについて述べる。
挑戦的な3Dセグメンテーションと分類ベンチマークに関する総合的な実験は、SHSADE-PIDSの機能を示している。
高い精度で高効率なアーキテクチャを発見し、以前のNAS技術を大幅に進歩させた。
SemanticKITTIのセグメンテーションでは、SHSADE-PIDSが64.51%に達した。
ModelNet40の分類では、わずか1.31万のパラメータで93.4%の精度を達成し、より大きなモデルを上回った。
SHSADE-PIDSは、特にポイントクラウド学習のような新興のフロンティアに対して、ニューラルネットワーク最適化による進化的アルゴリズムのブリッジに関する貴重な洞察を提供した。
Neural architecture search (NAS) automates neural network design by using optimization algorithms to navigate architecture spaces, reducing the burden of manual architecture design. While NAS has achieved success, applying it to emerging domains, such as analyzing unstructured 3D point clouds, remains underexplored due to the data lying in non-Euclidean spaces, unlike images. This paper presents Success-History-based Self-adaptive Differential Evolution with a Joint Point Interaction Dimension Search (SHSADE-PIDS), an evolutionary NAS framework that encodes discrete deep neural network architectures to continuous spaces and performs searches in the continuous spaces for efficient point cloud neural architectures. Comprehensive experiments on challenging 3D segmentation and classification benchmarks demonstrate SHSADE-PIDS's capabilities. It discovered highly efficient architectures with higher accuracy, significantly advancing prior NAS techniques. For segmentation on SemanticKITTI, SHSADE-PIDS attained 64.51% mean IoU using only 0.55M parameters and 4.5GMACs, reducing overhead by over 22-26X versus other top methods. For ModelNet40 classification, it achieved 93.4% accuracy with just 1.31M parameters, surpassing larger models. SHSADE-PIDS provided valuable insights into bridging evolutionary algorithms with neural architecture optimization, particularly for emerging frontiers like point cloud learning. | 翻訳日:2024-08-13 18:21:45 公開日:2024-08-10 |
# 2レベル系の複雑性
Complexity of two-level systems ( http://arxiv.org/abs/2408.05557v1 ) ライセンス: Link先を確認 | Imre Varga, | (参考訳) 純量子系の場合のいわゆる相関エントロピーと、本質的には基底依存のない熱平衡の場合の熱エントロピーに基づいて、2レベルの系、egスピン、qubits、磁気モーメントの複雑さを解析する。
複雑さはシャノンエントロピーとR'enyiエントロピーの2階の違いとして定義される。
このシステムは,エネルギー状態のノイズの有無,あるいは外対角結合における障害の有無のいずれかにおいて,障害の強度を制御パラメータの特別な選択のために最大化することができる。
このようなノイズや障害依存は、基礎のない分析を提供し、有意義な洞察を与えることが示されている。
また、有限温度での常磁性体に対する熱平衡におけるスピンの同様のエントロピー複雑性、T$および磁場$B$、および平均場近似におけるイジングモデルの場合についても検討する。
結果として、全ての例は、エントロピック複雑性パラメータの研究が、これらのシステムの振る舞いをより深く理解するのに役立つという重要な証拠を提供する。
Complexity of two-level systems, e.g. spins, qubits, magnetic moments etc, are analysed based on the so-called correlational entropy in the case of pure quantum systems and the thermal entropy in case of thermal equilibrium that are suitable quantities essentially free from basis dependence. The complexity is defined as the difference between the Shannon-entropy and the second order R\'enyi-entropy, where the latter is connected to the traditional participation measure or purity. It is shown that the system attains maximal complexity for special choice of control parameters, i.e. strength of disorder either in the presence of noise of the energy states or the presence of disorder in the off diagonal coupling. It is shown that such a noise or disorder dependence provides a basis free analysis and gives meaningful insights. We also look at similar entropic complexity of spins in thermal equilibrium for a paramagnet at finite temperature, $T$ and magnetic field $B$, as well as the case of an Ising model in the mean-field approximation. As a result all examples provide important evidence that the investigation of the entropic complexity parameters help to get deeper understanding in the behavior of these systems. | 翻訳日:2024-08-13 18:21:45 公開日:2024-08-10 |
# 時空間融合ネットワークによる物体再同定と因果同一性マッチング
Object Re-identification via Spatial-temporal Fusion Networks and Causal Identity Matching ( http://arxiv.org/abs/2408.05558v1 ) ライセンス: Link先を確認 | Hye-Geun Kim, Yong-Hyuk Moon, Yeong-Jun Cho, | (参考訳) 大規模カメラネットワークにおけるオブジェクト再識別(ReID)には多くの課題がある。
まず、オブジェクトの類似した外観がReIDパフォーマンスを低下させる。
この課題は、既存の外見ベースのReIDメソッドでは解決できない。
第二に、ほとんどのReID研究は実験室で行われており、現実のシナリオではReIDの問題を考慮していない。
これらの課題を克服するために、空間時間融合ネットワークと因果同一性マッチング(CIM)を活用する新しいReIDフレームワークを導入する。
このフレームワークは、提案した適応型Parzenウィンドウを用いてカメラネットワークトポロジを推定し、外観特徴とFusion Network内の時空間キューを組み合わせる。
VeRi776, Vehicle-3I, Market-1501を含むいくつかのデータセットで優れた性能を発揮し、99.70%のランク1の精度と95.5%のmAPを達成した。
さらに、カメラネットワークトポロジに基づいてギャラリーセットを動的に割り当てるCIMアプローチでは、実際の設定におけるReID精度とロバスト性をさらに向上し、Vine-3Iデータセットの94.95% mAPと95.19% F1スコアで証明された。
実験結果は、データ領域(例えば、車、人)に関係なく、空間時間情報とCIMを実世界のReIDシナリオに組み込むことの有効性を支持する。
Object re-identification (ReID) in large camera networks has many challenges. First, the similar appearances of objects degrade ReID performances. This challenge cannot be addressed by existing appearance-based ReID methods. Second, most ReID studies are performed in laboratory settings and do not consider ReID problems in real-world scenarios. To overcome these challenges, we introduce a novel ReID framework that leverages a spatial-temporal fusion network and causal identity matching (CIM). The framework estimates camera network topology using the proposed adaptive Parzen window and combines appearance features with spatial-temporal cue within the Fusion Network. It achieved outstanding performance across several datasets, including VeRi776, Vehicle-3I, and Market-1501, achieving up to 99.70% rank-1 accuracy and 95.5% mAP. Furthermore, the proposed CIM approach, which dynamically assigns gallery sets based on the camera network topology, further improved ReID accuracy and robustness in real-world settings, evidenced by a 94.95% mAP and 95.19% F1 score on the Vehicle-3I dataset. The experimental results support the effectiveness of incorporating spatial-temporal information and CIM for real-world ReID scenarios regardless of the data domain (e.g., vehicle, person). | 翻訳日:2024-08-13 18:21:45 公開日:2024-08-10 |
# 機械学習のためのインクリメンタルガウスニュートンDescent
Incremental Gauss-Newton Descent for Machine Learning ( http://arxiv.org/abs/2408.05560v1 ) ライセンス: Link先を確認 | Mikalai Korbit, Mario Zanon, | (参考訳) Stochastic Gradient Descent(SGD)は、機械学習で発生する問題を解決するために使われる一般的なテクニックである。
非常に効果的ではあるが、SGDにはいくつかの弱点があり、少なくとも部分的に対処するために基本アルゴリズムの様々な修正が提案されている。
論文のギャップを埋めるため,ガウス・ニュートン法に基づく近似二階情報を利用したSGDアルゴリズムの修正を提案する。
Incrmental Gauss-Newton Descent (IGND)と呼ばれる新しい手法は、基本的に標準SGDと同じ計算負担を持ち、ある種の問題に対してより早く収束し、加速することもできる。
IGNDを効率的に実装できる鍵となる直感は、インクリメンタルなケースでは、近似的な2階情報をスカラー値に凝縮することができ、更新のスケーリング定数として機能するということである。
一般設定でガウスニュートン法をサポートする理論からIGNDを導出し、さらに、IGNDをSGDの十分にスケールされたバージョンとして解釈する方法を説明し、アルゴリズムのチューニングをシンプルにし、ロバスト性を高める。
最後に,教師付き学習課題と強化学習問題を解くことで,IGNDが実際にどのように利用できるかを示す。
シミュレーションの結果,IGNDはSGDよりも高い性能を示し,少なくとも最悪の場合にはSGDよりも優れていた。
Stochastic Gradient Descent (SGD) is a popular technique used to solve problems arising in machine learning. While very effective, SGD also has some weaknesses and various modifications of the basic algorithm have been proposed in order to at least partially tackle them, mostly yielding accelerated versions of SGD. Filling a gap in the literature, we present a modification of the SGD algorithm exploiting approximate second-order information based on the Gauss-Newton approach. The new method, which we call Incremental Gauss-Newton Descent (IGND), has essentially the same computational burden as standard SGD, appears to converge faster on certain classes of problems, and can also be accelerated. The key intuition making it possible to implement IGND efficiently is that, in the incremental case, approximate second-order information can be condensed into a scalar value that acts as a scaling constant of the update. We derive IGND starting from the theory supporting Gauss-Newton methods in a general setting and then explain how IGND can also be interpreted as a well-scaled version of SGD, which makes tuning the algorithm simpler, and provides increased robustness. Finally, we show how IGND can be used in practice by solving supervised learning tasks as well as reinforcement learning problems. The simulations show that IGND can significantly outperform SGD while performing at least as well as SGD in the worst case. | 翻訳日:2024-08-13 18:21:45 公開日:2024-08-10 |
# 自動運転車の異常検出で何が重要か:極端に監督された水平線
What Matters in Autonomous Driving Anomaly Detection: A Weakly Supervised Horizon ( http://arxiv.org/abs/2408.05562v1 ) ライセンス: Link先を確認 | Utkarsh Tiwari, Snehashis Majhi, Michal Balazia, François Brémond, | (参考訳) 自律走行シナリオにおけるビデオ異常検出(VAD)は重要な課題であるが、エゴ中心のビューと移動カメラのためにいくつかの課題が伴う。
そのため、未発見のままである。
近年, 静止カメラシナリオにおける重要な実世界の異常を検出するために, 弱教師付きVAD法の開発が著しい進展を見せている一方で, 移動カメラVADの開発と検証はいまだに行われていない。
これは主に、弱い教師付き学習のトレーニング前条件に従わないDoTAのような既存のデータセットが原因である。
本稿では,自律運転VADの弱制御手法開発を促進することを目的としている。
我々は、DoTAデータセットを再編成し、カメラのシナリオの移動に対して、最近の強力な弱教師付きVAD手法を検証することを目的としている。
さらに,最先端手法の変更によって検出性能が大幅に向上するかどうかを詳細に分析する。
そこで我々は,「機能転換ブロック」を提案し,実験を通じて,我々の提案する提案が,自律運転におけるVADの改善に大きく貢献することを示す。
コード/データセット/デモはgithub.com/ut21/WSAD-Drivingでリリースされる
Video anomaly detection (VAD) in autonomous driving scenario is an important task, however it involves several challenges due to the ego-centric views and moving camera. Due to this, it remains largely under-explored. While recent developments in weakly-supervised VAD methods have shown remarkable progress in detecting critical real-world anomalies in static camera scenario, the development and validation of such methods are yet to be explored for moving camera VAD. This is mainly due to existing datasets like DoTA not following training pre-conditions of weakly-supervised learning. In this paper, we aim to promote weakly-supervised method development for autonomous driving VAD. We reorganize the DoTA dataset and aim to validate recent powerful weakly-supervised VAD methods on moving camera scenarios. Further, we provide a detailed analysis of what modifications on state-of-the-art methods can significantly improve the detection performance. Towards this, we propose a "feature transformation block" and through experimentation we show that our propositions can empower existing weakly-supervised VAD methods significantly in improving the VAD in autonomous driving. Our codes/dataset/demo will be released at github.com/ut21/WSAD-Driving | 翻訳日:2024-08-13 18:21:45 公開日:2024-08-10 |
# ダーウィン進化が事前学習されたディープニューラルネットワークに及ぼす影響
Impacts of Darwinian Evolution on Pre-trained Deep Neural Networks ( http://arxiv.org/abs/2408.05563v1 ) ライセンス: Link先を確認 | Guodong Du, Runhua Jiang, Senqiao Yang, Haoyang Li, Wei Chen, Keren Li, Sim Kuan Goh, Ho-Kin Tang, | (参考訳) 生物学的脳のダーウィン進化は、進化的変化の様相ははっきりしないが、複数の証拠によって記録されている。
進化した神経系(例えば視覚野)からインスピレーションを得たディープラーニングモデルは、視覚タスクにおいて優れたパフォーマンスを示してきた。
深層ニューラルネットワークのトレーニングの成功は、データから表現を学ぶためにバックプロパゲーション(BP)とその変種に依存しているが、BPは生物学的ニューラルネットワークを管理する進化過程を取り入れていない。
本研究では進化論に基づくニューラルネットワーク最適化フレームワークを提案する。
特に、終末のエポックから得られる視覚認識タスクのためのBP訓練深層ニューラルネットワークは、原始的祖先(初期集団)であると考えられている。
その後、人口は異なった進化を遂げた。
ダーウィンの進化とニューラルネットワークの最適化の関係について、データセット、環境、モデル、生物種の対応など、広範囲にわたる実験を行った。
実験の結果,提案フレームワークはネットワークに肯定的な影響を与え,オーバーフィットを低減し,BPに比べて時間的複雑性を極端に低減した。
さらに,実験の結果,提案フレームワークはディープニューラルネットワークやビッグデータ上でも良好に動作することがわかった。
Darwinian evolution of the biological brain is documented through multiple lines of evidence, although the modes of evolutionary changes remain unclear. Drawing inspiration from the evolved neural systems (e.g., visual cortex), deep learning models have demonstrated superior performance in visual tasks, among others. While the success of training deep neural networks has been relying on back-propagation (BP) and its variants to learn representations from data, BP does not incorporate the evolutionary processes that govern biological neural systems. This work proposes a neural network optimization framework based on evolutionary theory. Specifically, BP-trained deep neural networks for visual recognition tasks obtained from the ending epochs are considered the primordial ancestors (initial population). Subsequently, the population evolved with differential evolution. Extensive experiments are carried out to examine the relationships between Darwinian evolution and neural network optimization, including the correspondence between datasets, environment, models, and living species. The empirical results show that the proposed framework has positive impacts on the network, with reduced over-fitting and an order of magnitude lower time complexity compared to BP. Moreover, the experiments show that the proposed framework performs well on deep neural networks and big datasets. | 翻訳日:2024-08-13 18:21:45 公開日:2024-08-10 |
# 李氏思想に触発されたメタヒューリスティック・オプティマイザ
Meta-heuristic Optimizer Inspired by the Philosophy of Yi Jing ( http://arxiv.org/abs/2408.05564v1 ) ライセンス: Link先を確認 | Yisheng Yang, Sim Kuan Goh, Qing Cai, Shen Yuong Wong, Ho-Kin Tang, | (参考訳) yi-Yangペア最適化(YYPO)アルゴリズムは,Yi-Jingの哲学からインスピレーションを得て,単一目的最適化において,他の人口ベースメタヒューリスティックと比較した場合の低時間複雑性のメリットに加えて,競合的な性能を実現することが示されている。
本稿では,YiJingの逆の概念に基づいて,Yi最適化(Yi Optimization, YI)アルゴリズムを提案する。
具体的には,YYPO における Yin-Yang 対を Yi-point で拡張し,Yi-Jing の調和と反転の概念を両立させることにより,Cauchy Flight を用いて解を更新する。
提案されたYiポイントは、最適化プロセスにおける探索と利用の両面でのバランスをとる。
YIを解析するために、IEEE CEC 2017ベンチマークを用いて、YIを動的YYPO、CV1.0オプティマイザ、および4つの古典的オプティマイザ(微分進化、遺伝的アルゴリズム、粒子群最適化、シミュレートされたアニール)と比較する。
実験結果によると、YIは低時間の複雑さを維持しながら、非常に競争力のある性能を示している。
本研究の結果は,Yi Jingの哲学を用いたメタヒューリスティック・オプティマイザの強化に寄与する。
この作業は、Yi Jingの特定の側面のみを実装していますが、他の側面を取り入れることで、パフォーマンスを向上させることを考えています。
Drawing inspiration from the philosophy of Yi Jing, the Yin-Yang pair optimization (YYPO) algorithm has been shown to achieve competitive performance in single objective optimizations, in addition to the advantage of low time complexity when compared to other population-based meta-heuristics. Building upon a reversal concept in Yi Jing, we propose the novel Yi optimization (YI) algorithm. Specifically, we enhance the Yin-Yang pair in YYPO with a proposed Yi-point, in which we use Cauchy flight to update the solution, by implementing both the harmony and reversal concept of Yi Jing. The proposed Yi-point balances both the effort of exploration and exploitation in the optimization process. To examine YI, we use the IEEE CEC 2017 benchmarks and compare YI against the dynamical YYPO, CV1.0 optimizer, and four classical optimizers, i.e., the differential evolution, the genetic algorithm, the particle swarm optimization, and the simulated annealing. According to the experimental results, YI shows highly competitive performance while keeping the low time complexity. The results of this work have implications for enhancing a meta-heuristic optimizer using the philosophy of Yi Jing. While this work implements only certain aspects of Yi Jing, we envisage enhanced performance by incorporating other aspects. | 翻訳日:2024-08-13 18:21:45 公開日:2024-08-10 |
# Pauli Check Sandwiching による実行時の量子特性評価と誤差軽減
Pauli Check Sandwiching for Quantum Characterization and Error Mitigation during Runtime ( http://arxiv.org/abs/2408.05565v1 ) ライセンス: Link先を確認 | Joshua Gao, Ji Liu, Alvin Gonzales, Zain H. Saleem, Nikos Hardavellas, Kaitlin N. Smith, | (参考訳) 本研究は, パウリチェックサンドイッチ (PCS) を応用した新しい量子システム特性と誤り軽減フレームワークを提案する。
我々は、ノイズ適応マッピングやマルチプログラミングといった量子プログラムのソフトウェア最適化における先行技術への取り組みを動機付け、PCSの概念を導入し、実用上の設計上の配慮を強調した。
パウリチェックを対象のアプリケーション(量子回路など)に慎重に埋め込むことで、量子システムノイズプロファイルを学習できることが示される。
さらに、PCSとマルチプログラミングを組み合わせることで、量子プログラム結果の非自明な忠実度向上が実現される。
This work presents a novel quantum system characterization and error mitigation framework that applies Pauli check sandwiching (PCS). We motivate our work with prior art in software optimizations for quantum programs like noise-adaptive mapping and multi-programming, and we introduce the concept of PCS while emphasizing design considerations for its practical use. We show that by carefully embedding Pauli checks within a target application (i.e. a quantum circuit), we can learn quantum system noise profiles. Further, PCS combined with multi-programming unlocks non-trivial fidelity improvements in quantum program outcomes. | 翻訳日:2024-08-13 18:21:45 公開日:2024-08-10 |
# 定義駆動型ICLを用いた文書レベルイベント抽出
Document-Level Event Extraction with Definition-Driven ICL ( http://arxiv.org/abs/2408.05566v1 ) ライセンス: Link先を確認 | Zhuoyuan Liu, Yilin Luo, | (参考訳) 自然言語処理(NLP)の分野では、大規模言語モデル(LLM)は文書レベルのイベント抽出タスクにおいて大きな可能性を示しているが、既存の手法はプロンプトの設計において課題に直面している。
この問題に対処するために、我々は、"Definition-driven Document-level Event extract (DDEE)"と呼ばれる最適化戦略を提案する。
LLMのイベント抽出性能は,プロンプトの長さを調整し,ヒューリスティックスの明瞭度を高めることにより,大幅に向上した。
我々は、ロングテール効果問題を解決するためにデータバランシング技術を使用し、イベントタイプに対するモデルの一般化能力を向上した。
同時に,LLMの感度をプロンプトのスタイルに適応させるとともに,簡潔かつ包括的であることを保証するプロンプトを改良した。
さらに、構造化ヒューリスティック手法の導入と厳密な制限条件により、イベントと引数ロール抽出の精度が向上した。
これらの戦略は、文書レベルのイベント抽出におけるLCMの迅速なエンジニアリング問題を解決するだけでなく、イベント抽出技術の開発を促進し、NLP分野における他のタスクに対する新たな研究視点を提供する。
In the field of Natural Language Processing (NLP), Large Language Models (LLMs) have shown great potential in document-level event extraction tasks, but existing methods face challenges in the design of prompts. To address this issue, we propose an optimization strategy called "Definition-driven Document-level Event Extraction (DDEE)." By adjusting the length of the prompt and enhancing the clarity of heuristics, we have significantly improved the event extraction performance of LLMs. We used data balancing techniques to solve the long-tail effect problem, enhancing the model's generalization ability for event types. At the same time, we refined the prompt to ensure it is both concise and comprehensive, adapting to the sensitivity of LLMs to the style of prompts. In addition, the introduction of structured heuristic methods and strict limiting conditions has improved the precision of event and argument role extraction. These strategies not only solve the prompt engineering problems of LLMs in document-level event extraction but also promote the development of event extraction technology, providing new research perspectives for other tasks in the NLP field. | 翻訳日:2024-08-13 18:21:45 公開日:2024-08-10 |
# 大規模言語モデルにおけるメタ認知ミオピア
Metacognitive Myopia in Large Language Models ( http://arxiv.org/abs/2408.05568v1 ) ライセンス: Link先を確認 | Florian Scholten, Tobias R. Rebholz, Mandy Hütter, | (参考訳) 大規模言語モデル(LLM)は、文化的に固有のステレオタイプ、クラウドの道徳的判断、あるいは多数派の肯定的な評価を強化する潜在的に有害なバイアスを示す。
これまでの説明では、LLMのバイアスは主に人間のアノテーションとトレーニングデータの選択によるものだった。
その結果、それらは典型的には強化学習や脱バイアスコーパスのようなボトムアップアプローチで対処されてきた。
しかし、これらの手法はモデルアーキテクチャに間接的に影響を及ぼすことでLLMバイアスの効果のみを扱うが、計算過程の根本原因には対処しない。
本稿では,認知・生態の枠組みとしてメタ認知ミオピアを提案する。これは,確立されたLLMバイアスと新興LPMバイアスの集合を考慮し,強力だが脆弱なツールにおける問題に対処するためのレバーを提供する。
我々の理論的枠組みは, メタ認知, 監視, 制御の2つの要素が欠如していることから, LLMにおけるメタ認知ミオピアの症状として, 無効トークンと埋め込みの統合, 冗長情報への感受性, 条件計算におけるベースレートの無視, 周波数に基づく決定規則, ネストされたデータ構造に対する不適切な高次統計的推測の5つが示唆されている。
結果として、LLMは人間の日々のハイテイク決定に到達した誤った出力を生成する。
LLMにメタ認知的規制プロセスを導入することで、技術者と科学者はこれらのバイアスの根本原因の正確な治療法を開発することができる。
我々の理論は、欠陥のある人間と機械の相互作用に新たな光を当て、組織構造におけるLSMの増大、即応的な実装に関する倫理的懸念を提起する。
Large Language Models (LLMs) exhibit potentially harmful biases that reinforce culturally inherent stereotypes, cloud moral judgments, or amplify positive evaluations of majority groups. Previous explanations mainly attributed bias in LLMs to human annotators and the selection of training data. Consequently, they have typically been addressed with bottom-up approaches such as reinforcement learning or debiasing corpora. However, these methods only treat the effects of LLM biases by indirectly influencing the model architecture, but do not address the underlying causes in the computational process. Here, we propose metacognitive myopia as a cognitive-ecological framework that can account for a conglomerate of established and emerging LLM biases and provide a lever to address problems in powerful but vulnerable tools. Our theoretical framework posits that a lack of the two components of metacognition, monitoring and control, causes five symptoms of metacognitive myopia in LLMs: integration of invalid tokens and embeddings, susceptibility to redundant information, neglect of base rates in conditional computation, decision rules based on frequency, and inappropriate higher-order statistical inference for nested data structures. As a result, LLMs produce erroneous output that reaches into the daily high-stakes decisions of humans. By introducing metacognitive regulatory processes into LLMs, engineers and scientists can develop precise remedies for the underlying causes of these biases. Our theory sheds new light on flawed human-machine interactions and raises ethical concerns regarding the increasing, imprudent implementation of LLMs in organizational structures. | 翻訳日:2024-08-13 18:21:45 公開日:2024-08-10 |
# 総合型ゲームのためのIn-Context Exploiter
In-Context Exploiter for Extensive-Form Games ( http://arxiv.org/abs/2408.05575v1 ) ライセンス: Link先を確認 | Shuxin Li, Chang Yang, Youzhi Zhang, Pengdeng Li, Xinrun Wang, Xiao Huang, Hau Chan, Bo An, | (参考訳) ナッシュ均衡(英: Nash equilibrium, NE)は、ゲーム理論において、その安定性から広く採用されている解概念である。
しかし、NE戦略が必ずしも最良の結果をもたらすとは限りません、特にNE戦略に従わない相手に対してです。
この観察に基づいて、我々は新たなゲーム解決の疑問を提起する: NEでさえも、自身のユーティリティを最大限に活用できるモデルを学ぶことができるか?
本研究は,文脈内学習を通じてこの問題を調査するための最初の試みである。
具体的には、ゲーム内の任意のプレイヤーとして動作し、コンテキスト内学習によって完全に相手を適応的に活用できる単一のモデルをトレーニングするための新しい手法であるIn-Context Exploiter(ICE)を導入する。
我々のICEアルゴリズムは、多種多様な相手戦略の生成、強化学習アルゴリズムによる対話的履歴学習データ収集、そしてよく設計されたカリキュラム学習フレームワークにおけるトランスフォーマーベースのエージェントのトレーニングを含む。
最後に、ICEアルゴリズムの有効性を総合的に検証し、未知の相手を活用できるコンテキスト内学習能力を示し、その結果、最初のゲーム解決問題に肯定的に答える。
Nash equilibrium (NE) is a widely adopted solution concept in game theory due to its stability property. However, we observe that the NE strategy might not always yield the best results, especially against opponents who do not adhere to NE strategies. Based on this observation, we pose a new game-solving question: Can we learn a model that can exploit any, even NE, opponent to maximize their own utility? In this work, we make the first attempt to investigate this problem through in-context learning. Specifically, we introduce a novel method, In-Context Exploiter (ICE), to train a single model that can act as any player in the game and adaptively exploit opponents entirely by in-context learning. Our ICE algorithm involves generating diverse opponent strategies, collecting interactive history training data by a reinforcement learning algorithm, and training a transformer-based agent within a well-designed curriculum learning framework. Finally, comprehensive experimental results validate the effectiveness of our ICE algorithm, showcasing its in-context learning ability to exploit any unknown opponent, thereby positively answering our initial game-solving question. | 翻訳日:2024-08-13 18:21:45 公開日:2024-08-10 |
# 道路横断監視のための空間変換器モデルによる鳥眼視へのカメラパースペクティブ・トランスフォーメーション
Camera Perspective Transformation to Bird's Eye View via Spatial Transformer Model for Road Intersection Monitoring ( http://arxiv.org/abs/2408.05577v1 ) ライセンス: Link先を確認 | Rukesh Prajapati, Amr S. El-Wakeel, | (参考訳) 道路交差点の監視と制御の研究は、しばしば鳥の目視(BEV)シミュレータを利用する。
実際の交通状況では、シミュレーターに類似したBEVを達成するには、ドローンや特定のセンサーを配置する必要があるが、これは実現不可能でも実用的でもない。
その結果,交通交差点の管理はこれらの制約からシミュレーション環境に限られている。
本稿では,道路交差点の1台のカメラの視点をBEVに変換する新しいディープラーニングモデルを導入することにより,シミュレーション環境と実世界の実装のギャップを解消する。
我々は現実世界の交通ジャンクションによく似たシミュレーション環境を構築した。
提案モデルでは,車両をBEV画像に変換し,道路交差点の監視と制御モデル処理を容易にする。
画像変換技術に着想を得た空間変換器Double Decoder-UNet(SDD-UNet)モデルを提案する。
さらに,車両の位置を正確に推定し,実環境におけるシミュレーション学習モデルの直接適用を可能にする。
SDD-UNetモデルは、元のUNetモデルよりも40%良い95%以上の平均サイス類似係数(DSC)を達成する。
平均絶対誤差(MAE)は0.102であり、予測マスクのセントロイドは平均0.14mずれており、精度が高い。
Road intersection monitoring and control research often utilize bird's eye view (BEV) simulators. In real traffic settings, achieving a BEV akin to that in a simulator necessitates the deployment of drones or specific sensor mounting, which is neither feasible nor practical. Consequently, traffic intersection management remains confined to simulation environments given these constraints. In this paper, we address the gap between simulated environments and real-world implementation by introducing a novel deep-learning model that converts a single camera's perspective of a road intersection into a BEV. We created a simulation environment that closely resembles a real-world traffic junction. The proposed model transforms the vehicles into BEV images, facilitating road intersection monitoring and control model processing. Inspired by image transformation techniques, we propose a Spatial-Transformer Double Decoder-UNet (SDD-UNet) model that aims to eliminate the transformed image distortions. In addition, the model accurately estimates the vehicle's positions and enables the direct application of simulation-trained models in real-world contexts. SDD-UNet model achieves an average dice similarity coefficient (DSC) above 95% which is 40% better than the original UNet model. The mean absolute error (MAE) is 0.102 and the centroid of the predicted mask is 0.14 meters displaced, on average, indicating high accuracy. | 翻訳日:2024-08-13 18:21:45 公開日:2024-08-10 |
# Robust Chaotic Tent Map (RCTM) を用いたCS-PRNGの設計
Cryptographically Secure Pseudo-Random Number Generation (CS-PRNG) Design using Robust Chaotic Tent Map (RCTM) ( http://arxiv.org/abs/2408.05580v1 ) ライセンス: Link先を確認 | Muhammad Irfan, Muhammad Asif Khan, | (参考訳) 非線形力学系であるカオスは、初期状態、混合、エルゴード性に固有の依存性があるため、暗号を好んでいる。
近年,カオスマップの非線形挙動をランダムな情報源として利用して,暗号サービスにおける擬似ランダム数生成を実現している。
ロバストカオス、密度、カオス軌道を持つカオス写像に対して、パラメータ空間の範囲には、パラメータ空間のいくつかの近傍におけるカオスアトラクションの発生と周期窓の欠如が存在する。
したがって、ロバストなカオス写像は、正のリャプノフ指数を持つより大きなパラメータ空間に対する断続的なカオス挙動を示す。
本稿では,ロバストなカオステントマップ(RCTM)を用いて,暗号的にセキュアな擬似ランダム数(CSPRNG)を生成する手法を提案する。
我々は、カオス軌道を全世界的に安定かつ堅牢に保つことにより、広大なパラメータ空間を達成するモジュラーとスケーリング演算子を特徴とする新しい方程式セットを提案した。
RCTMの動的挙動は、まず、正のリャプノフ指数が検証する異なるパラメータのカオス的挙動を示す分岐図をプロットすることによって研究される。
我々はRCTMを繰り返し、単純なしきい値法を用いて擬似ランダムビットを生成した。
生成した疑似ランダムビットのランダム性を確認する様々な統計的試験が実施されている。
NIST 800-22テストスイート、ENT統計テストスイート、TestU01テストスイート、キー空間分析、キー感度分析、相関解析、ヒストグラム解析、微分分析を含む。
提案手法は既存の手法に比べて大きな鍵空間を達成している。
その結果,提案したPRBGアルゴリズムはCSPRNGを生成可能であることがわかった。
Chaos, a nonlinear dynamical system, favors cryptography due to their inherent sensitive dependence on the initial condition, mixing, and ergodicity property. In recent years, the nonlinear behavior of chaotic maps has been utilized as a random source to generate pseudo-random number generation for cryptographic services. For chaotic maps having Robust chaos, dense, chaotic orbits exist for the range of parameter space the occurrence of chaotic attractors in some neighborhoods of parameter space and the absence of periodic windows. Thus, the robust chaotic map shows assertive chaotic behavior for larger parameters space with a positive Lyapunov exponent. This paper presents a novel method to generate cryptographically secure pseudo-random numbers (CSPRNG) using a robust chaotic tent map (RCTM). We proposed a new set of equations featuring modulo and scaling operators that achieve vast parameter space by keeping chaotic orbit globally stable and robust. The dynamic behavior of the RCTM is studied first by plotting the bifurcation diagram that shows chaotic behavior for different parameters, which the positive Lyapunov exponent verifies. We iterated the RCTM to generate pseudo-random bits using a simple thresholding method. Various statistical tests are performed that ascertain the randomness of generated secure pseudo-random bits. It includes NIST 800-22 test suite, ENT statistical test suite, TestU01 test suite, key space analysis, key sensitivity analysis, correlation analysis, histogram analysis, and differential analysis. The proposed scheme has achieved larger key space as compared with existing methods. The results show that the proposed PRBG algorithm can generate CSPRNG. | 翻訳日:2024-08-13 18:21:45 公開日:2024-08-10 |
# 非負還元二元行列分解とカラー顔認識への応用
Non-Negative Reduced Biquaternion Matrix Factorization with Applications in Color Face Recognition ( http://arxiv.org/abs/2408.05582v1 ) ライセンス: Link先を確認 | Jifei Miao, Junjun Pan, Michael K. Ng, | (参考訳) 色画素を表現するのに非常に適した4次元代数としての還元二元数 (RB) は、近年、多くの学者から大きな注目を集めている。
本稿では、カラー画像処理問題に対して、非負のRB行列の概念を導入し、次にRBの乗算特性を用いて非負のRB行列分解(NRBMF)モデルを提案する。
NRBMFモデルは、非負の四元数行列分解モデルを合理的に確立する難題に対処するために導入された。
さらに,本論文では,NRBMFモデルの問題をRB-ANNLS(非負最小二乗法)問題に変換する。
そして,RB行列変数を用いて実関数の勾配を計算する手法を導入することにより,RB射影勾配アルゴリズムを用いてRB-ANNLS最適化問題を解き,アルゴリズムの収束解析を行う。
最後に,カラー顔認識におけるNRBMFモデルの有効性と優位性を検証した。
Reduced biquaternion (RB), as a four-dimensional algebra highly suitable for representing color pixels, has recently garnered significant attention from numerous scholars. In this paper, for color image processing problems, we introduce a concept of the non-negative RB matrix and then use the multiplication properties of RB to propose a non-negative RB matrix factorization (NRBMF) model. The NRBMF model is introduced to address the challenge of reasonably establishing a non-negative quaternion matrix factorization model, which is primarily hindered by the multiplication properties of traditional quaternions. Furthermore, this paper transforms the problem of solving the NRBMF model into an RB alternating non-negative least squares (RB-ANNLS) problem. Then, by introducing a method to compute the gradient of the real function with RB matrix variables, we solve the RB-ANNLS optimization problem using the RB projected gradient algorithm and conduct a convergence analysis of the algorithm. Finally, we validate the effectiveness and superiority of the proposed NRBMF model in color face recognition. | 翻訳日:2024-08-13 18:12:01 公開日:2024-08-10 |
# 目に見えない共同創設者の動的因果性
Dynamical causality under invisible confounders ( http://arxiv.org/abs/2408.05584v1 ) ライセンス: Link先を確認 | Jinling Yan, Shao-Wu Zhang, Chihao Zhang, Weitian Huang, Jifan Shi, Luonan Chen, | (参考訳) 因果推論は、複雑なシステムにおける実質的な共同設立者のために、因果関係を刺激的に引き起こす傾向がある。
統計的手法や動的手法に基づく多くの既存の手法は、誤同定の課題に対処しようとするが、因果関係を推測する効果的な方法が、特に目に見えない、観測不能な共同設立者の存在下では、依然として欠如している。
その結果、目に見えない共同設立者との因果関係を正確に推測することは、データサイエンスとAI分野において、ほとんど未解決で未解決の課題である。
本研究では,このような課題を克服して,目に見えない共同設立者(CIC)の下で動的因果関係を推定し,さらに遅延埋め込み空間において直交分解定理を開発することにより,時系列データから見えない共同設立者を再構築する手法を提案する。
我々のCIC法の中核は、観測された変数を元の空間ではなく、それらの遅延埋め込み空間をそれぞれ共通部分空間とプライベート部分空間に分解する能力にあるので、それらの変数間の因果関係を理論的にも計算的に定量化することができる。
この理論の基礎は、多くの目に見えない共同設立者の下で2つの観測変数しか持たない高次元システムの因果検出を保証する。
目に見えない共同設立問題に加えて、そのような分解は、実際に埋め込み空間において中間変数を分離可能とし、因果推論の非分離性問題を解く。
種々の実データを用いてCIC手法の大規模検証を行い, 実験結果から, 保存されていない共同設立者であっても, 実際の生物学的ネットワークを再構築する効果が示された。
Causality inference is prone to spurious causal interactions, due to the substantial confounders in a complex system. While many existing methods based on the statistical methods or dynamical methods attempt to address misidentification challenges, there remains a notable lack of effective methods to infer causality, in particular in the presence of invisible/unobservable confounders. As a result, accurately inferring causation with invisible confounders remains a largely unexplored and outstanding issue in data science and AI fields. In this work, we propose a method to overcome such challenges to infer dynamical causality under invisible confounders (CIC method) and further reconstruct the invisible confounders from time-series data by developing an orthogonal decomposition theorem in a delay embedding space. The core of our CIC method lies in its ability to decompose the observed variables not in their original space but in their delay embedding space into the common and private subspaces respectively, thereby quantifying causality between those variables both theoretically and computationally. This theoretical foundation ensures the causal detection for any high-dimensional system even with only two observed variables under many invisible confounders, which is actually a long-standing problem in the field. In addition to the invisible confounder problem, such a decomposition actually makes the intertwined variables separable in the embedding space, thus also solving the non-separability problem of causal inference. Extensive validation of the CIC method is carried out using various real datasets, and the experimental results demonstrates its effectiveness to reconstruct real biological networks even with unobserved confounders. | 翻訳日:2024-08-13 18:12:01 公開日:2024-08-10 |
# ニューラルバンドのメタクラスタリング
Meta Clustering of Neural Bandits ( http://arxiv.org/abs/2408.05586v1 ) ライセンス: Link先を確認 | Yikun Ban, Yunzhe Qi, Tianxin Wei, Lihui Liu, Jingrui He, | (参考訳) 文脈的盗賊は、レコメンデーションプロセスを、各項目がアームと見なされ、T$ラウンドの後悔を最小限に抑える、シーケンシャルな意思決定プロセスとして定式化する強力な枠組みとして特定されてきた。
本稿では,従来の作業を任意の報酬関数に拡張することで,推薦システムにおけるユーザの不均一性とユーザ相関のバランスをとることにより,ニューラルバンドのクラスタリングという新たな問題について検討する。
この問題を解決するために,メタラーナーを用いて動的クラスタに迅速に適応するM-CNBという新しいアルゴリズムと,情報的アッパー信頼境界(UCB)に基づく探索戦略を提案する。
提案アルゴリズムは, 対角的文脈に耐えるインスタンス依存性能保証を提供するとともに, その保証が, 同一仮定の下での最先端(SOTA)アプローチと同等であることを示す。
M-CNBはレコメンデーションとオンラインの分類シナリオの両方で広範な実験を行い、SOTAベースラインを上回ります。
提案手法は,オンラインレコメンデーションとオンライン分類性能の向上に有効であることを示す。
The contextual bandit has been identified as a powerful framework to formulate the recommendation process as a sequential decision-making process, where each item is regarded as an arm and the objective is to minimize the regret of $T$ rounds. In this paper, we study a new problem, Clustering of Neural Bandits, by extending previous work to the arbitrary reward function, to strike a balance between user heterogeneity and user correlations in the recommender system. To solve this problem, we propose a novel algorithm called M-CNB, which utilizes a meta-learner to represent and rapidly adapt to dynamic clusters, along with an informative Upper Confidence Bound (UCB)-based exploration strategy. We provide an instance-dependent performance guarantee for the proposed algorithm that withstands the adversarial context, and we further prove the guarantee is at least as good as state-of-the-art (SOTA) approaches under the same assumptions. In extensive experiments conducted in both recommendation and online classification scenarios, M-CNB outperforms SOTA baselines. This shows the effectiveness of the proposed approach in improving online recommendation and online classification performance. | 翻訳日:2024-08-13 18:12:00 公開日:2024-08-10 |
# 量子ネットワークシミュレーションのためのWebベースソフトウェア開発キット
A Web-based Software Development Kit for Quantum Network Simulation ( http://arxiv.org/abs/2408.05588v1 ) ライセンス: Link先を確認 | Stephen DiAdamo, Francesco Vista, | (参考訳) 量子ネットワークシミュレーションは、量子ネットワークのアプリケーションを開発し、ネットワークハードウェアの最小要件を決定するための重要なステップである。
従来のネットワークと同様に、シミュレーションエコシステムはアプリケーション開発、標準化、コミュニティ全体の構築を可能にする。
現在、量子ネットワーキングコミュニティを構築するための牽引力は限られています - オープンソースプラットフォームには制限があり、学習曲線の急激なフレームワークに挑戦し、ソフトウェアエンジニアリングスキルの強い要件があります。
我々のQuantum Network Development Kit(QNDK)プロジェクトはこれらの問題を解決することを目的としている。
非常に少ないコードで簡単に量子ネットワークシミュレーションを開発、実行するためのグラフィカルなユーザーインターフェイスを含んでいる。
さまざまな量子ネットワークシミュレーションエンジンを統合し、それらに単一のインターフェースを提供する。
さらに、クラウド環境でシミュレーション実行をデプロイし、強力なコンピューティング要件を高性能なコンピューティングシステムにオフロードする。
本稿では,QNDKの中核となる機能について詳述し,仮想量子テストベッドの実現に向けた開発ロードマップを概説する。
Quantum network simulation is an essential step towards developing applications for quantum networks and determining minimal requirements for the network hardware. As it is with classical networking, a simulation ecosystem allows for application development, standardization, and overall community building. Currently, there is limited traction towards building a quantum networking community-there are limited open-source platforms, challenging frameworks with steep learning curves, and strong requirements of software engineering skills. Our Quantum Network Development Kit (QNDK) project aims to solve these issues. It includes a graphical user interface to easily develop and run quantum network simulations with very little code. It integrates various quantum network simulation engines and provides a single interface to them, allowing users to use the features from any of them. Further, it deploys simulation execution in a cloud environment, offloading strong computing requirements to a high-performance computing system. In this paper, we detail the core features of the QNDK and outline the development roadmap to enabling virtual quantum testbeds. | 翻訳日:2024-08-13 18:12:00 公開日:2024-08-10 |
# SHREC:シェルコマンド勧告のためのSRE行動知識グラフモデル
SHREC: a SRE Behaviour Knowledge Graph Model for Shell Command Recommendations ( http://arxiv.org/abs/2408.05592v1 ) ライセンス: Link先を確認 | Andrea Tonon, Bora Caglayan, MingXue Wang, Peng Hu, Fei Shen, Puchao Zhang, | (参考訳) ITシステムオペレーションでは、シェルコマンドは、システム構成、パッケージデプロイメント、パフォーマンス最適化といった日々のタスクにサイト信頼性エンジニア(SRE)が使用する一般的なコマンドラインツールである。
シェルコマンドは、システム障害の解決など、重要な操作の実行を目標とすることが多いため、実行の効率性は重要なビジネス上の影響を受けます。
しかし、多くのシェルコマンドは、記憶や型付けを難しくする長いパラメータを含んでいる。
さらに、これらのコマンドを使ったSREの経験と知識は、ほとんど常に保存されない。
本研究では,シェルコマンドレコメンデーションのためのSRE行動知識グラフモデルであるSHRECを提案する。
我々は,SREシェル行動知識を知識グラフとしてモデル化し,SREシェルの履歴操作から直接知識を抽出する戦略を提案する。
知識グラフは、SRE操作効率を改善するために、リアルタイムでシェルコマンドレコメンデーションを提供するために使用される。
我々の社内で実行された実シェルコマンドに基づく実証研究は、SHRECがSRE操作効率を向上し、SRE知識の共有と再利用を可能にすることを実証している。
In IT system operations, shell commands are common command line tools used by site reliability engineers (SREs) for daily tasks, such as system configuration, package deployment, and performance optimization. The efficiency in their execution has a crucial business impact since shell commands very often aim to execute critical operations, such as the resolution of system faults. However, many shell commands involve long parameters that make them hard to remember and type. Additionally, the experience and knowledge of SREs using these commands are almost always not preserved. In this work, we propose SHREC, a SRE behaviour knowledge graph model for shell command recommendations. We model the SRE shell behaviour knowledge as a knowledge graph and propose a strategy to directly extract such a knowledge from SRE historical shell operations. The knowledge graph is then used to provide shell command recommendations in real-time to improve the SRE operation efficiency. Our empirical study based on real shell commands executed in our company demonstrates that SHREC can improve the SRE operation efficiency, allowing to share and re-utilize the SRE knowledge. | 翻訳日:2024-08-13 18:12:00 公開日:2024-08-10 |
# 量子ウォーク不変量における絡み合いのロバスト性と古典的プロキシ
Robustness and classical proxy of entanglement in variants of quantum walk ( http://arxiv.org/abs/2408.05597v1 ) ライセンス: Link先を確認 | Christopher Mastandrea, Chih-Chun Chien, | (参考訳) 量子ウォーク(QW)は内部の量子状態を利用して変位を決定するため、内部と位置の自由度の間に単一粒子の絡み合いを導入する。
QWの3つの変種を、古典的ランダム性の有無にかかわらず古典的ランダム性を持つ、対称的で分割的な翻訳演算子でシミュレートすることにより、この絡み合いは時間的および空間的ランダム性の両方に対して堅牢であり、QWの局所化遷移を引き起こす可能性があることを示す。
本稿では,絡み合いの代用として,内部状態の確率分布の重なりを文字通り測定する古典的量呼重み付けを提案する。
重なり合いは、ほとんどの場合、絡み合いエントロピーの逆挙動を捉え、歩行器の総波動関数の構造を分析することで説明できる。
我々は、内部状態間で高い人口不均衡を持つ特別なケースを構築して、重複を無視することによって、古典的プロキシの制限をテストする。
有意な含意と実験的測定についても論じる。
Quantum walk (QW) utilizes its internal quantum states to decide the displacement, thereby introducing single-particle entanglement between the internal and positional degrees of freedom. By simulating three variants of QW with the conventional, symmetric, and split-step translation operators with or without classical randomness in the coin operator, we show the entanglement is robust against both time- and spatially- dependent randomness, which can cause localization transitions of QW. We propose a classical quantity call overlap, which literally measures the overlap between the probability distributions of the internal states, as a proxy of entanglement. The overlap captures the inverse behavior of the entanglement entropy in most cases, which can be explained by analyzing the structure of the total wave function of the walker. We test the limitation of the classical proxy by constructing a special case with high population imbalance between the internal states to blind the overlap. Possible implications and experimental measurements are also discussed. | 翻訳日:2024-08-13 18:12:00 公開日:2024-08-10 |
# 静的-動的条件分散による逐次表現学習
Sequential Representation Learning via Static-Dynamic Conditional Disentanglement ( http://arxiv.org/abs/2408.05599v1 ) ライセンス: Link先を確認 | Mathieu Cyrille Simon, Pascal Frossard, Christophe De Vleeschouwer, | (参考訳) 本稿では,ビデオ中の時間非依存要因と時間変化要因を分離することに着目し,逐次的データ内での自己教師付き不整合表現学習について検討する。
本稿では,静的/動的変数間の因果関係を明示的に考慮し,それらの因子間の通常の独立性仮定を破るモデルを提案する。
因子の正式な定義が提案されている。
この形式主義は、基底的真理因子の同定に十分な条件の導出と、我々の新しい枠組みに直接的かつ効率的に組み込むことができる理論上の非絡み合い制約の導入につながる。
実験により,提案手法は,シーンのダイナミックスが内容に影響されるシナリオにおいて,従来の複雑な最先端技術よりも優れていることが示された。
This paper explores self-supervised disentangled representation learning within sequential data, focusing on separating time-independent and time-varying factors in videos. We propose a new model that breaks the usual independence assumption between those factors by explicitly accounting for the causal relationship between the static/dynamic variables and that improves the model expressivity through additional Normalizing Flows. A formal definition of the factors is proposed. This formalism leads to the derivation of sufficient conditions for the ground truth factors to be identifiable, and to the introduction of a novel theoretically grounded disentanglement constraint that can be directly and efficiently incorporated into our new framework. The experiments show that the proposed approach outperforms previous complex state-of-the-art techniques in scenarios where the dynamics of a scene are influenced by its content. | 翻訳日:2024-08-13 18:12:00 公開日:2024-08-10 |
# 惑星ローバーの安全性向上:オートエンコーダを用いたチップオーバーリスクの早期検出
Safety Enhancement in Planetary Rovers: Early Detection of Tip-over Risks Using Autoencoders ( http://arxiv.org/abs/2408.05602v1 ) ライセンス: Link先を確認 | Mariela De Lucas Alvarez, | (参考訳) 自律ロボットは、探査ミッション中に予期せぬ危険な状況に常に遭遇する。
AsguardIVローバーの特徴的なリムレスホイールは、挑戦的な地形を克服することができる。
しかし、急勾配や難しい操作は、ローバーを転倒させ、ミッションの完了を脅かす可能性がある。
この研究は、事故を防止し、探査ミッション中にローバーの安全性と安定性を高めるために、これらの重要な瞬間を予測し、検出するための早期の兆候や初期の段階を特定することに焦点を当てている。
Inertial Measurement Units (IMU) は、Long Short-Term Memory Networks (LSTM) のシーケンス処理のパワーを組み合わせたコンパクトで堅牢で効率的なオートエンコーダを開発するために使用される。
LSTMベースのオートエンコーダを利用することで、この研究は、チップオーバーリスクを検出し、より信頼性の高い探査ミッションのための安全対策を開発するための予測能力に寄与する。
Autonomous robots consistently encounter unforeseen dangerous situations during exploration missions. The characteristic rimless wheels in the AsguardIV rover allow it to overcome challenging terrains. However, steep slopes or difficult maneuvers can cause the rover to tip over and threaten the completion of a mission. This work focuses on identifying early signs or initial stages for potential tip-over events to predict and detect these critical moments before they fully occur, possibly preventing accidents and enhancing the safety and stability of the rover during its exploration mission. Inertial Measurement Units (IMU) readings are used to develop compact, robust, and efficient Autoencoders that combine the power of sequence processing of Long Short-Term Memory Networks (LSTM). By leveraging LSTM-based Autoencoders, this work contributes predictive capabilities for detecting tip-over risks and developing safety measures for more reliable exploration missions. | 翻訳日:2024-08-13 18:12:00 公開日:2024-08-10 |
# シークエンシャルレコメンデーションにおける状態空間モデルと高度なトレーニング手法の応用:効率と性能の比較研究
Exploring Applications of State Space Models and Advanced Training Techniques in Sequential Recommendations: A Comparative Study on Efficiency and Performance ( http://arxiv.org/abs/2408.05606v1 ) ライセンス: Link先を確認 | Mark Obozov, Makar Baderko, Stepan Kulibaba, Nikolay Kutuzov, Alexander Gasnikov, | (参考訳) レコメンダシステムは、履歴ユーザの振る舞いとメタデータ間の動的に変化するユーザの好みとシーケンシャルな依存関係を推定することを目的としている。
トランスフォーマーベースのモデルはシーケンシャルレコメンデーションに有効であることが証明されているが、その状態成長は処理中のシーケンスの長さに比例し、メモリと推論コストの点で高価である。
本研究は,SSM (State Space Models) の利用による速度向上,SOTA による低レイテンシ,メモリ,推論コストの逐次レコメンデーションドメインの実現,および arXiv:2403.03900 によって提案された大規模言語モデル (LLMs) によるレコメンデーションの品質向上,参照モデルなしでのモノリシックな選好最適化 (ORPO) ,コストの削減とトレーニングプロセスの高速化を目的とした適応バッチおよびステップサイズアルゴリズムの実装,の3つの将来的な方向性に注目した。
Recommender systems aim to estimate the dynamically changing user preferences and sequential dependencies between historical user behaviour and metadata. Although transformer-based models have proven to be effective in sequential recommendations, their state growth is proportional to the length of the sequence that is being processed, which makes them expensive in terms of memory and inference costs. Our research focused on three promising directions in sequential recommendations: enhancing speed through the use of State Space Models (SSM), as they can achieve SOTA results in the sequential recommendations domain with lower latency, memory, and inference costs, as proposed by arXiv:2403.03900 improving the quality of recommendations with Large Language Models (LLMs) via Monolithic Preference Optimization without Reference Model (ORPO); and implementing adaptive batch- and step-size algorithms to reduce costs and accelerate training processes. | 翻訳日:2024-08-13 18:12:00 公開日:2024-08-10 |
# ダイナミックエコドライブによる大都市圏の二酸化炭素排出量の削減
Mitigating Metropolitan Carbon Emissions with Dynamic Eco-driving at Scale ( http://arxiv.org/abs/2408.05609v1 ) ライセンス: Link先を確認 | Vindula Jayawardana, Baptiste Freydt, Ao Qu, Cameron Hickert, Edgar Sanchez, Catherine Tang, Mark Taylor, Blaine Leonard, Cathy Wu, | (参考訳) 輸送の規模と多様さにより、炭素化が困難な分野となっている。
ここでは、二酸化炭素排出量を減らすための新たな機会として、インテリジェントなスピードコマンドを通じて停止と移動のトラフィックを軽減し、その結果、排出を減らすようプログラムできる半自律車の採用の増加を検討します。
しかし、このようなダイナミックなエコドライブは気候変動の針を動かすのだろうか?
交通シナリオと車両排出の複雑さにより、包括的影響分析は手に入らなかった。
この課題は,大規模シナリオモデリングと,ネットワーク分解戦略を慎重に設計したマルチタスク深層強化学習を用いて解決する。
我々は、米国三大都市を横断する6,011の信号化交差点で、ダイナミックなエコドライブの詳細な影響評価を行い、100万の交通シナリオをシミュレートした。
全体として、排出に最適化された車両軌道は、スループットや安全性を損なうことなく、都市全体の二酸化炭素排出量を11~22%削減し、それぞれイスラエルとナイジェリアの国産排出量に匹敵する合理的な仮定で予測できる。
10%のエコドライブの採用で全体の25%から50%が削減され、70%近くの利益が交差点の20%から得られており、短期的な実施経路が示唆されている。
しかしながら、このハイインパクトなサブセットの構成は、採用レベルによって大きく異なり、重複を最小限に抑え、エコドライブデプロイメントのための慎重な戦略的計画を要求している。
さらに、自動車の電気化とハイブリッド車の導入の予測と共同で考えると、エコドライブの影響は大きいままである。
より広範に、この研究は、時間、安全性、空気質などの交通の外部性を大規模に分析する方法と、ソリューション戦略の潜在的影響を舗装する。
The sheer scale and diversity of transportation make it a formidable sector to decarbonize. Here, we consider an emerging opportunity to reduce carbon emissions: the growing adoption of semi-autonomous vehicles, which can be programmed to mitigate stop-and-go traffic through intelligent speed commands and, thus, reduce emissions. But would such dynamic eco-driving move the needle on climate change? A comprehensive impact analysis has been out of reach due to the vast array of traffic scenarios and the complexity of vehicle emissions. We address this challenge with large-scale scenario modeling efforts and by using multi-task deep reinforcement learning with a carefully designed network decomposition strategy. We perform an in-depth prospective impact assessment of dynamic eco-driving at 6,011 signalized intersections across three major US metropolitan cities, simulating a million traffic scenarios. Overall, we find that vehicle trajectories optimized for emissions can cut city-wide intersection carbon emissions by 11-22%, without harming throughput or safety, and with reasonable assumptions, equivalent to the national emissions of Israel and Nigeria, respectively. We find that 10% eco-driving adoption yields 25%-50% of the total reduction, and nearly 70% of the benefits come from 20% of intersections, suggesting near-term implementation pathways. However, the composition of this high-impact subset of intersections varies considerably across different adoption levels, with minimal overlap, calling for careful strategic planning for eco-driving deployments. Moreover, the impact of eco-driving, when considered jointly with projections of vehicle electrification and hybrid vehicle adoption remains significant. More broadly, this work paves the way for large-scale analysis of traffic externalities, such as time, safety, and air quality, and the potential impact of solution strategies. | 翻訳日:2024-08-13 18:12:00 公開日:2024-08-10 |
# 混合品質デモによるクロス・エンボディメント・リワード学習のための人間のフィードバックからの表現アライメント
Representation Alignment from Human Feedback for Cross-Embodiment Reward Learning from Mixed-Quality Demonstrations ( http://arxiv.org/abs/2408.05610v1 ) ライセンス: Link先を確認 | Connor Mattson, Anurag Aribandi, Daniel S. Brown, | (参考訳) そこで我々は,1つ以上のエンボディメントにおけるビデオデモから報酬関数を学習し,学習した報酬を異なるエンボディメント(例えば,異なるアクション空間,ダイナミクス,サイズ,形状など)に転送する。
エンボディメントをまたぐ報酬関数の学習は、人間のビデオによるポリシーをロボットに教えたり、異なるエンボディメントを持つ他のロボットからポリシーを模倣するようにロボットに教えたりするといった設定において重要である。
しかしながら、事前の作業は、ほぼ最適に近いデモが利用可能である場合にのみ焦点を当てている。
対照的に、混合品質のデモンストレーションによるクロス・エボディメント・報酬学習の設定について検討する。
混合品質データから学習する際,先行作業が一般化可能な報酬表現の学習に苦労していることが実証された。
次に,人間からのフィードバックを表現学習やアライメントに活用して,効果的なクロスボデーメント学習を実現する手法について分析する。
この結果から,表現学習手法の違いが報酬形成行動の質的変化にどのように寄与するか,および混合身体データから学習する際の人的フィードバックの重要性について考察した。
We study the problem of cross-embodiment inverse reinforcement learning, where we wish to learn a reward function from video demonstrations in one or more embodiments and then transfer the learned reward to a different embodiment (e.g., different action space, dynamics, size, shape, etc.). Learning reward functions that transfer across embodiments is important in settings such as teaching a robot a policy via human video demonstrations or teaching a robot to imitate a policy from another robot with a different embodiment. However, prior work has only focused on cases where near-optimal demonstrations are available, which is often difficult to ensure. By contrast, we study the setting of cross-embodiment reward learning from mixed-quality demonstrations. We demonstrate that prior work struggles to learn generalizable reward representations when learning from mixed-quality data. We then analyze several techniques that leverage human feedback for representation learning and alignment to enable effective cross-embodiment learning. Our results give insight into how different representation learning techniques lead to qualitatively different reward shaping behaviors and the importance of human feedback when learning from mixed-quality, mixed-embodiment data. | 翻訳日:2024-08-13 18:12:00 公開日:2024-08-10 |
# Residual-INR: 命令型ニューラル表現を用いた通信効率の良いオンデバイス学習
Residual-INR: Communication Efficient On-Device Learning Using Implicit Neural Representation ( http://arxiv.org/abs/2408.05617v1 ) ライセンス: Link先を確認 | Hanqiu Chen, Xuebin Yao, Pradeep Subedi, Cong Hao, | (参考訳) エッジコンピューティング(エッジコンピューティング)は、データ生成の源泉付近でデータを収集、処理する分散コンピューティングパラダイムである。
エッジでのデバイス上の学習は、複数のデバイス間でリアルタイムなデータ共有と協調的な意思決定を容易にするデバイス間無線通信に依存している。
これにより、エッジコンピューティングシステムの環境変化への適応性が大幅に向上する。
しかし、エッジコンピューティングシステムの規模が大きくなるにつれて、無線通信の帯域が限られているため、デバイス間の通信がボトルネックになっている。
本稿では、デバイス間データ伝送の削減とデバイス上での学習の高速化を目的として、暗黙のニューラルネットワーク表現(INR)を利用して、フォグコンピューティングに基づく通信効率の高いデバイス上での学習フレームワークであるResidual-INRを提案し、画像や映像をニューラルネットワークの重みに圧縮する。
Residual-INRは、エッジデバイスからJPEGイメージを収集し、フォグノードのINRフォーマットに圧縮し、デバイス上での学習のために再配布することで、データ転送効率を向上させる。
画像の完全符号化に小型のINRと高画質のオブジェクト領域再構成に別個のINRを用いることにより、オブジェクトの品質を維持しながら符号化の冗長性を低減できる。
Residual-INRはエッジデバイス上での学習において有望なソリューションである。
また、CPUを使わずにデバイス上での学習を加速し、精度を犠牲にすることなく最大2.9倍のスピードアップを達成する。
私たちのコードは、https://github.com/sharclab/Residual-INR.comで利用可能です。
Edge computing is a distributed computing paradigm that collects and processes data at or near the source of data generation. The on-device learning at edge relies on device-to-device wireless communication to facilitate real-time data sharing and collaborative decision-making among multiple devices. This significantly improves the adaptability of the edge computing system to the changing environments. However, as the scale of the edge computing system is getting larger, communication among devices is becoming the bottleneck because of the limited bandwidth of wireless communication leads to large data transfer latency. To reduce the amount of device-to-device data transmission and accelerate on-device learning, in this paper, we propose Residual-INR, a fog computing-based communication-efficient on-device learning framework by utilizing implicit neural representation (INR) to compress images/videos into neural network weights. Residual-INR enhances data transfer efficiency by collecting JPEG images from edge devices, compressing them into INR format at the fog node, and redistributing them for on-device learning. By using a smaller INR for full image encoding and a separate object INR for high-quality object region reconstruction through residual encoding, our technique can reduce the encoding redundancy while maintaining the object quality. Residual-INR is a promising solution for edge on-device learning because it reduces data transmission by up to 5.16 x across a network of 10 edge devices. It also facilitates CPU-free accelerated on-device learning, achieving up to 2.9 x speedup without sacrificing accuracy. Our code is available at: https://github.com/sharclab/Residual-INR. | 翻訳日:2024-08-13 18:12:00 公開日:2024-08-10 |
# UrFound:知識誘導型マスクドモデリングによるユニバーサル網膜基礎モデルを目指して
UrFound: Towards Universal Retinal Foundation Models via Knowledge-Guided Masked Modeling ( http://arxiv.org/abs/2408.05618v1 ) ライセンス: Link先を確認 | Kai Yu, Yang Zhou, Yang Bai, Zhi Da Soh, Xinxing Xu, Rick Siow Mong Goh, Ching-Yu Cheng, Yong Liu, | (参考訳) 網膜基盤モデルは、多様な網膜画像から一般化可能な表現を学習することを目的としており、様々な眼科領域におけるラベル効率の良いモデル適応を容易にする。
その成功にもかかわらず、現在の網膜基盤モデルは一般的に、カラーファンドス撮影(CFP)やオプティカルコヒーレンス・トモグラフィ(OCT)のような単一の画像モダリティに制限されており、その汎用性は制限されている。
さらに、これらのモデルは、専門家のアノテーションを完全に活用し、ドメイン固有の表現学習に必要な価値あるドメイン知識を見落としようと苦労するかもしれません。
これらの制約を克服するために,マルチモーダル網膜画像とドメイン知識の両方から普遍的な表現を学ぶために設計された網膜基盤モデルであるUrFoundを紹介する。
UrFound はモダリティに依存しない画像エンコーダを備えており、CFP または OCT のいずれかを入力として受け入れる。
ドメイン知識を表現学習に統合するために、専門家アノテーションをテキスト管理にエンコードし、モデル事前学習のための知識誘導型マスク付きモデリング戦略を提案する。
網膜画像のランダムにマスクされたパッチを再構築し、対応する網膜画像に条件付けられたマスクされたテキストトークンを予測する。
このアプローチは、多モード画像とテキスト専門家アノテーションを統一された潜在空間内に配置し、一般化可能かつドメイン固有の表現学習を容易にする。
網膜画像解析において,UrFoundは様々なタスクに適応する際に,強力な一般化能力とデータ効率を示すことを示した。
約180kの網膜画像のトレーニングにより、UrFoundは8つのパブリックな網膜データセットにわたる最大1.6万枚の未ラベル画像に基づいてトレーニングされた最先端の網膜基盤モデルよりも大幅に優れています。
私たちのコードとデータはhttps://github.com/yukkai/UrFound.comで公開されています。
Retinal foundation models aim to learn generalizable representations from diverse retinal images, facilitating label-efficient model adaptation across various ophthalmic tasks. Despite their success, current retinal foundation models are generally restricted to a single imaging modality, such as Color Fundus Photography (CFP) or Optical Coherence Tomography (OCT), limiting their versatility. Moreover, these models may struggle to fully leverage expert annotations and overlook the valuable domain knowledge essential for domain-specific representation learning. To overcome these limitations, we introduce UrFound, a retinal foundation model designed to learn universal representations from both multimodal retinal images and domain knowledge. UrFound is equipped with a modality-agnostic image encoder and accepts either CFP or OCT images as inputs. To integrate domain knowledge into representation learning, we encode expert annotation in text supervision and propose a knowledge-guided masked modeling strategy for model pre-training. It involves reconstructing randomly masked patches of retinal images while predicting masked text tokens conditioned on the corresponding retinal image. This approach aligns multimodal images and textual expert annotations within a unified latent space, facilitating generalizable and domain-specific representation learning. Experimental results demonstrate that UrFound exhibits strong generalization ability and data efficiency when adapting to various tasks in retinal image analysis. By training on ~180k retinal images, UrFound significantly outperforms the state-of-the-art retinal foundation model trained on up to 1.6 million unlabelled images across 8 public retinal datasets. Our code and data are available at https://github.com/yukkai/UrFound. | 翻訳日:2024-08-13 18:12:00 公開日:2024-08-10 |
# 高次元非線形後方確率微分方程式の解法のための前方微分深層学習に基づくアルゴリズム
A forward differential deep learning-based algorithm for solving high-dimensional nonlinear backward stochastic differential equations ( http://arxiv.org/abs/2408.05620v1 ) ライセンス: Link先を確認 | Lorenc Kapllani, Long Teng, | (参考訳) 本研究では,高次元非線形後方確率微分方程式(BSDEs)を解くための,前方微分深層学習に基づく新しいアルゴリズムを提案する。
差分深度学習がラベルとその導関数を入力に対して効率的に近似できるという事実により、BSDE問題を差分深度学習問題に変換する。
これは、Marliavin calculusを活用し、BSDEsのシステムによって実現される。
BSDE システムの未知の解は、解、勾配、およびヘッセン行列を表すプロセス $(Y, Z, \Gamma)$ の三つ組である。
アルゴリズムの主な考え方は、オイラー・丸山法を用いて積分を離散化し、3つのディープニューラルネットワークを用いて未知の離散解を近似することである。
これらのネットワークのパラメータは、BSDEsの離散化システムの力学の重み付け和として定義される微分学習損失関数を世界規模で最小化することによって最適化される。
様々な高次元の例を通して,提案手法は,他の先進深層学習手法と比較して,精度と計算時間の観点からより効率的であることを示す。
In this work, we present a novel forward differential deep learning-based algorithm for solving high-dimensional nonlinear backward stochastic differential equations (BSDEs). Motivated by the fact that differential deep learning can efficiently approximate the labels and their derivatives with respect to inputs, we transform the BSDE problem into a differential deep learning problem. This is done by leveraging Malliavin calculus, resulting in a system of BSDEs. The unknown solution of the BSDE system is a triple of processes $(Y, Z, \Gamma)$, representing the solution, its gradient, and the Hessian matrix. The main idea of our algorithm is to discretize the integrals using the Euler-Maruyama method and approximate the unknown discrete solution triple using three deep neural networks. The parameters of these networks are then optimized by globally minimizing a differential learning loss function, which is novelty defined as a weighted sum of the dynamics of the discretized system of BSDEs. Through various high-dimensional examples, we demonstrate that our proposed scheme is more efficient in terms of accuracy and computation time compared to other contemporary forward deep learning-based methodologies. | 翻訳日:2024-08-13 18:12:00 公開日:2024-08-10 |
# TikTok上での児童被曝とユーザエンゲージメントの測定
More Skin, More Likes! Measuring Child Exposure and User Engagement on TikTok ( http://arxiv.org/abs/2408.05622v1 ) ライセンス: Link先を確認 | Miriam Schirmer, Angelina Voggenreiter, Jürgen Pfeffer, | (参考訳) 子どもに関するコンテンツをソーシャルメディア上で共有するSharentingは、ますます一般的になってきており、子どものプライバシーと安全をネット上で懸念する声が上がっている。
本研究では,TikTok上での子どもの露出を調査し,プラットフォームの内容と関連するコメントについて詳細に検討する。
子ども115人のユーザーアカウントから5,896本のビデオで432,178件のコメントを分析し、コンテンツをファミリー、ファッション、スポーツに分類した。
私たちの分析では、不適切なコメントやコンタクトオファーといった潜在的なリスクを強調し、外見に基づくコメントに焦点を当てています。
特に21%のコメントが視覚的外観に関連している。
さらに、19.57%の動画は、水着や裸のミドルリフのような衣服を露出する子供たちを描いており、完全な服を着た子供たちをフィーチャーしたビデオよりも、外見に基づくコメントや、はるかに多くのコメントを惹きつけているが、この傾向はダウンロードには及ばない。
これらの知見は,デジタル時代の子どものプライバシーと幸福を守るための意識と保護の強化の必要性を浮き彫りにした。
Sharenting, the practice of parents sharing content about their children on social media platforms, has become increasingly common, raising concerns about children's privacy and safety online. This study investigates children's exposure on TikTok, offering a detailed examination of the platform's content and associated comments. Analyzing 432,178 comments across 5,896 videos from 115 user accounts featuring children, we categorize content into Family, Fashion, and Sports. Our analysis highlights potential risks, such as inappropriate comments or contact offers, with a focus on appearance-based comments. Notably, 21% of comments relate to visual appearance. Additionally, 19.57% of videos depict children in revealing clothing, such as swimwear or bare midriffs, attracting significantly more appearance-based comments and likes than videos featuring fully clothed children, although this trend does not extend to downloads. These findings underscore the need for heightened awareness and protective measures to safeguard children's privacy and well-being in the digital age. | 翻訳日:2024-08-13 18:12:00 公開日:2024-08-10 |
# 時間的GNNの情報理論解析
An Information-Theoretic Analysis of Temporal GNNs ( http://arxiv.org/abs/2408.05624v1 ) ライセンス: Link先を確認 | Amirmohammad Farzaneh, | (参考訳) 機械学習の新しいトレンド領域であるテンポラルグラフニューラルネットワークは、形式解析の欠如に悩まされている。
本稿では,情報理論を時間的GNNの分析のためのフレームワークとして活用する。
このため、このようなネットワークの時間的分析に適した情報ボトルネックの概念を用いて調整する。
この目的のために、相互情報レートの新たな定義が提供され、時間的GNNの分析におけるこの新たな指標の可能性について検討する。
Temporal Graph Neural Networks, a new and trending area of machine learning, suffers from a lack of formal analysis. In this paper, information theory is used as the primary tool to provide a framework for the analysis of temporal GNNs. For this reason, the concept of information bottleneck is used and adjusted to be suitable for a temporal analysis of such networks. To this end, a new definition for Mutual Information Rate is provided, and the potential use of this new metric in the analysis of temporal GNNs is studied. | 翻訳日:2024-08-13 18:01:49 公開日:2024-08-10 |
# 総合的単一電力市場における日頭電力価格の予測--機械学習との比較によるボラティリティへの対応
Forecasting Day-Ahead Electricity Prices in the Integrated Single Electricity Market: Addressing Volatility with Comparative Machine Learning Methods ( http://arxiv.org/abs/2408.05628v1 ) ライセンス: Link先を確認 | Ben Harkin, Xueqin Liu, | (参考訳) 本稿では,アイルランド統合単一電力市場を中心に,近年の高ボラティリティ期における電力価格予測手法を総合的に検討する。
本研究の主な目的は、従来の機械学習モデルからより複雑なニューラルネットワークに至るまで、様々な予測モデルの性能の評価と比較、および、異なるトレーニング期間の影響を比較することである。
性能指標、平均絶対誤差、ルート平均二乗誤差、相対平均絶対誤差を用いて各モデルの精度を評価し比較する。
2018年10月から2022年9月までに記録されたデータから、総合的な入力特徴群を調査し、選択した。
この論文は、毎日のEU天然ガス価格が、ヘンリー・ハブ天然ガス価格よりもアイルランドの電力価格予測に有用な特徴であることを実証している。
また,近年,特徴量と日頭市場価格の相関が変化していることも示唆した。
昼間の天然ガスの価格と、その時間帯の風力エネルギーは、他のどの特徴よりもはるかに重要である。
より具体的に言えば、電気の入力燃料は、総発電量や需要量よりも価格の指標として重要になっている。
また、SNSP(System Non-Synchronous Peretration)は、日頭市場価格と高く相関しており、再生可能エネルギーが電力価格を押し下げていることが見て取れる。
This paper undertakes a comprehensive investigation of electricity price forecasting methods, focused on the Irish Integrated Single Electricity Market, particularly on changes during recent periods of high volatility. The primary objective of this research is to evaluate and compare the performance of various forecasting models, ranging from traditional machine learning models to more complex neural networks, as well as the impact of different lengths of training periods. The performance metrics, mean absolute error, root mean square error, and relative mean absolute error, are utilized to assess and compare the accuracy of each model. A comprehensive set of input features was investigated and selected from data recorded between October 2018 and September 2022. The paper demonstrates that the daily EU Natural Gas price is a more useful feature for electricity price forecasting in Ireland than the daily Henry Hub Natural Gas price. This study also shows that the correlation of features to the day-ahead market price has changed in recent years. The price of natural gas on the day and the amount of wind energy on the grid that hour are significantly more important than any other features. More specifically speaking, the input fuel for electricity has become a more important driver of the price of it, than the total generation or demand. In addition, it can be seen that System Non-Synchronous Penetration (SNSP) is highly correlated with the day-ahead market price, and that renewables are pushing down the price of electricity. | 翻訳日:2024-08-13 18:01:49 公開日:2024-08-10 |
# 量子セキュア多人数ディープラーニング
Quantum-secure multiparty deep learning ( http://arxiv.org/abs/2408.05629v1 ) ライセンス: Link先を確認 | Kfir Sulimany, Sri Krishna Vadlamani, Ryan Hamerly, Prahlad Iyengar, Dirk Englund, | (参考訳) セキュアなマルチパーティ計算により、ローカル入力のプライバシを確保しつつ、分散ユーザ間での多変量関数の同時評価が可能になる。
この分野は、計算集約的なディープラーニング推論の爆発的な需要により、ますます緊急になっている。
これらの計算は通常、クラウドコンピューティングサーバーにオフロードされ、クライアントデータのセキュリティを損なう可能性のある脆弱性につながる。
この問題を解決するために,従来の通信部品のみを用いた情報理論的にセキュアな多要素計算に光の量子的性質を活用する線形代数エンジンを導入する。
本稿では、この線形代数エンジンをディープラーニングに適用し、深層ニューラルネットワーク重みとクライアントのデータの両方の情報漏洩に関する厳密な上限をホレボおよびクラム・ラーオ境界を介して導出する。
MNIST分類タスクに適用すると,データシンボルあたり0.1$ビット未満,データシンボルあたり0.01$ビット未満の精度で96\%以上の精度が得られる。
このウェイトリークは、最先端の量子化技術を用いて正確な深層学習に必要な最小ビット精度よりも桁違いに小さい。
我々の研究は、実用的な量子セキュアな計算の基礎を築き、セキュアなクラウド深層学習をフィールドとして解き放ちます。
Secure multiparty computation enables the joint evaluation of multivariate functions across distributed users while ensuring the privacy of their local inputs. This field has become increasingly urgent due to the exploding demand for computationally intensive deep learning inference. These computations are typically offloaded to cloud computing servers, leading to vulnerabilities that can compromise the security of the clients' data. To solve this problem, we introduce a linear algebra engine that leverages the quantum nature of light for information-theoretically secure multiparty computation using only conventional telecommunication components. We apply this linear algebra engine to deep learning and derive rigorous upper bounds on the information leakage of both the deep neural network weights and the client's data via the Holevo and the Cram\'er-Rao bounds, respectively. Applied to the MNIST classification task, we obtain test accuracies exceeding $96\%$ while leaking less than $0.1$ bits per weight symbol and $0.01$ bits per data symbol. This weight leakage is an order of magnitude below the minimum bit precision required for accurate deep learning using state-of-the-art quantization techniques. Our work lays the foundation for practical quantum-secure computation and unlocks secure cloud deep learning as a field. | 翻訳日:2024-08-13 18:01:49 公開日:2024-08-10 |
# PRTGaussian: 3D Gaussian を用いた高効率リライティング
PRTGaussian: Efficient Relighting Using 3D Gaussians with Precomputed Radiance Transfer ( http://arxiv.org/abs/2408.05631v1 ) ライセンス: Link先を確認 | Libo Zhang, Yuxuan Han, Wenbin Lin, Jingwang Ling, Feng Xu, | (参考訳) PRTGaussianは,3次元ガウスアンとPRT(Precomputed Radiance Transfer)を組み合わせることで,リアルタイムに再生可能な新規ビュー合成手法である。
マルチビューOLATデータにガウスアンを組み込むことで,リアルタイムで自由視点のリライトを可能にする。
高次球面高調波に基づいて放射率伝達を推定することにより、詳細な照明効果の捕捉と計算効率の維持のバランスをとることができる。
我々は2段階のプロセスを利用する。第1段階では、多視点画像からオブジェクトの粗い形状を再構成する。
第2段階で、得られた点雲で3次元ガウスを初期化し、同時に粗い幾何を洗練させ、各ガウスの光輸送を学習する。
合成データセットの大規模な実験により,本手法は汎用オブジェクトに対して高速かつ高品質なリライトを実現することができることが示された。
コードとデータはhttps://github.com/zhanglbthu/PRTGaussian.comで公開されている。
We present PRTGaussian, a realtime relightable novel-view synthesis method made possible by combining 3D Gaussians and Precomputed Radiance Transfer (PRT). By fitting relightable Gaussians to multi-view OLAT data, our method enables real-time, free-viewpoint relighting. By estimating the radiance transfer based on high-order spherical harmonics, we achieve a balance between capturing detailed relighting effects and maintaining computational efficiency. We utilize a two-stage process: in the first stage, we reconstruct a coarse geometry of the object from multi-view images. In the second stage, we initialize 3D Gaussians with the obtained point cloud, then simultaneously refine the coarse geometry and learn the light transport for each Gaussian. Extensive experiments on synthetic datasets show that our approach can achieve fast and high-quality relighting for general objects. Code and data are available at https://github.com/zhanglbthu/PRTGaussian. | 翻訳日:2024-08-13 18:01:49 公開日:2024-08-10 |
# 3次元ガウスプリミティブを用いた視覚SLAMと新しいビュー合成の先駆け
Visual SLAM with 3D Gaussian Primitives and Depth Priors Enabling Novel View Synthesis ( http://arxiv.org/abs/2408.05635v1 ) ライセンス: Link先を確認 | Zhongche Qu, Zhi Zhang, Cong Liu, Jianhua Yin, | (参考訳) 従来の幾何学に基づくSLAMシステムは、データアソシエーションが通常特徴対応に依存するため、密度の高い3D再構成機能を持たない。
さらに、学習ベースのSLAMシステムは、リアルタイムのパフォーマンスと精度の点で不足することが多い。
リアルタイムパフォーマンスと高密度な3D再構成能力のバランスをとることは、難しい問題である。
本稿では,3次元シーン表現とポーズ推定のための3次元ガウススプラッティングという,新しいビュー合成手法を組み込んだリアルタイムRGB-D SLAMシステムを提案する。
この手法は3次元ガウス平板のリアルタイムレンダリング性能をラスタ化に生かし、CUDA実装によりリアルタイムに微分可能な最適化を可能にする。
また,3次元ガウシアンからのメッシュ再構成も可能で,高密度3次元再構成が可能となる。
正確なカメラポーズを推定するために,逆最適化を用いた回転変換デカップリング方式を用いる。
これは、グラデーションベースの最適化を通じて、複数のイテレーションで両方を反復的に更新することを含む。
このプロセスにはRGB、深度、シルエットマップの異なるレンダリングとカメラパラメータの更新が含まれており、既存の3Dガウス地図を考えると、測光損失、深度幾何損失、視認性損失の合計が最小になる。
しかし、3Dガウススティング(3DGS)は3Dガウスの多視点不整合のため表面の正確な表現に苦慮しており、カメラポーズ推定とシーン再構成の両方において精度が低下する可能性がある。
これを解決するために,奥行き先を付加正規化として利用して幾何的制約を強制し,ポーズ推定と3次元再構成の精度を向上する。
また,提案手法の有効性を,ポーズ精度,幾何学的精度,レンダリング性能の観点から検証した。
Conventional geometry-based SLAM systems lack dense 3D reconstruction capabilities since their data association usually relies on feature correspondences. Additionally, learning-based SLAM systems often fall short in terms of real-time performance and accuracy. Balancing real-time performance with dense 3D reconstruction capabilities is a challenging problem. In this paper, we propose a real-time RGB-D SLAM system that incorporates a novel view synthesis technique, 3D Gaussian Splatting, for 3D scene representation and pose estimation. This technique leverages the real-time rendering performance of 3D Gaussian Splatting with rasterization and allows for differentiable optimization in real time through CUDA implementation. We also enable mesh reconstruction from 3D Gaussians for explicit dense 3D reconstruction. To estimate accurate camera poses, we utilize a rotation-translation decoupled strategy with inverse optimization. This involves iteratively updating both in several iterations through gradient-based optimization. This process includes differentiably rendering RGB, depth, and silhouette maps and updating the camera parameters to minimize a combined loss of photometric loss, depth geometry loss, and visibility loss, given the existing 3D Gaussian map. However, 3D Gaussian Splatting (3DGS) struggles to accurately represent surfaces due to the multi-view inconsistency of 3D Gaussians, which can lead to reduced accuracy in both camera pose estimation and scene reconstruction. To address this, we utilize depth priors as additional regularization to enforce geometric constraints, thereby improving the accuracy of both pose estimation and 3D reconstruction. We also provide extensive experimental results on public benchmark datasets to demonstrate the effectiveness of our proposed methods in terms of pose accuracy, geometric accuracy, and rendering performance. | 翻訳日:2024-08-13 18:01:49 公開日:2024-08-10 |
# 投機的拡散復号:拡散による言語生成の高速化
Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion ( http://arxiv.org/abs/2408.05636v1 ) ライセンス: Link先を確認 | Jacob K Christopher, Brian R Bartoldson, Bhavya Kailkhura, Ferdinando Fioretto, | (参考訳) 投機的復号化は,モデル出力の品質を犠牲にすることなく,大規模言語モデル推論を高速化する手法として広く採用されている。
この技術は並列シーケンス検証を可能にすることで顕著な速度向上を実現しているが、既存のドラフトモデルにおけるインクリメンタルトークン生成に依存しているため、その効率は本質的に制限されている。
この制限を克服するために、離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
これにより、ドラフトと検証の両方のステップの並列化が可能になり、推論プロセスに対する大幅なスピードアップが実現される。
提案手法である \textit{Speculative Diffusion Decoding (SpecDiff)} は、標準言語生成ベンチマークで検証され、標準生成プロセスの最大8.7倍の速度アップと既存の投機的デコードアプローチの最大2.5倍のスピードアップを提供することを実証的に実証した。
※
Speculative decoding has emerged as a widely adopted method to accelerate large language model inference without sacrificing the quality of the model outputs. While this technique has facilitated notable speed improvements by enabling parallel sequence verification, its efficiency remains inherently limited by the reliance on incremental token generation in existing draft models. To overcome this limitation, this paper proposes an adaptation of speculative decoding which uses discrete diffusion models to generate draft sequences. This allows parallelization of both the drafting and verification steps, providing significant speed-ups to the inference process. Our proposed approach, \textit{Speculative Diffusion Decoding (SpecDiff)}, is validated on standard language generation benchmarks and empirically demonstrated to provide a \textbf{up to 8.7x speed-up over standard generation processes and up to 2.5x speed-up over existing speculative decoding approaches.} | 翻訳日:2024-08-13 18:01:49 公開日:2024-08-10 |
# スクイーズ真空場と光パラメトリック増幅器によるキャビティ・マグノン系の非対称EPRステアリング
Asymmetric EPR Steering in a Cavity-Magnon System Generated by a Squeezed Vacuum Field and an Optical Parametric Amplifier ( http://arxiv.org/abs/2408.05638v1 ) ライセンス: Link先を確認 | Abdelkader Hidki, Noureddine Benrass, Abderrahim Lakhfif, Mostafa Nassik, | (参考訳) 共振器マイクロ波場に結合した2つのマグノンモードを有するキャビティ・マグノン系について検討した。
キャビティは光学パラメトリック増幅器(OPA)と一体化され、圧縮真空場によって駆動される。
OPAの導入と圧縮真空場は、磁気双極子相互作用を通じてマグノンモードに転送されるキャビティモードでのスクイーズを誘導する。
以上の結果から,OPAゲインとスクイーズパラメータの増大が量子エンタングルメントとEPR(Einstein-Podolsky-Rosen)ステアリングを著しく向上させることが明らかとなった。
さらに、光子-マグノン結合強度を調整してEPRステアリングの方向性を制御し、特定の条件下で一方方向のEPRステアリングを実現する機構を提供する。
この制御は様々なシステムパラメータによって微調整され、熱雑音の存在下での操舵のための堅牢なプラットフォームを提供する。
我々の発見は、マクロ的な量子相関の理解を前進させ、量子情報処理、特に量子ステアリング現象の生成、操作、拡張において有望な意味を持っている。
私たちの研究のこの実践的な側面は、量子情報分野における将来の応用への希望を喚起します。
We investigate a cavity-magnon system with two magnon modes coupled to a common cavity microwave field. The cavity is integrated with an optical parametric amplifier (OPA) and driven by a squeezed vacuum field. The introduction of the OPA and the squeezed vacuum field induce squeezing in the cavity mode, which is transferred to the magnon modes through magnetic dipole interactions. Our findings demonstrate that enhancing the OPA gain and the squeezing parameter significantly enhances the quantum entanglement and the Einstein-Podolsky-Rosen (EPR) steering. Furthermore, the photon-magnon coupling strength can be adjusted to control the directionality of EPR steering, offering a mechanism for achieving one-way EPR steering under specific conditions. This control is fine-tuned by varying system parameters, thereby providing a robust platform for steering in the presence of thermal noise. Our findings advance the understanding of macroscopic quantum correlations and hold promising implications for quantum information processing, particularly in generating, manipulating, and enhancing quantum steering phenomena. This practical aspect of our research will inspire hope for future applications in the field of quantum information. | 翻訳日:2024-08-13 18:01:49 公開日:2024-08-10 |
# 冗長残差数システムによる集中領域の計算効率の向上
Enhancing Computational Efficiency in Intensive Domains via Redundant Residue Number Systems ( http://arxiv.org/abs/2408.05639v1 ) ライセンス: Link先を確認 | Soudabeh Mousavi, Dara Rahmati, Saeid Gorgin, Jeong-A Lee, | (参考訳) デジタル信号処理、暗号化、ニューラルネットワークなどの計算集約領域では、加算器や乗算器を含む算術単位の性能が重要である。
従来の数値システムは、地域、時間、電力消費に関するこれらの応用の効率要件を満たしていないことが多い。
残基数システム(RNS)や冗長数システムのような革新的アプローチが、この課題を克服するために導入され、計算効率が著しく向上した。
本稿では, RNS (Termed R-RNS) と冗長数系の融合が遅延を低減し, 回路実装を向上し, 実用シナリオにおいて大きなメリットをもたらすか, 複数の視点から検討する。
CIFAR-10データセットを用いて,RSS,冗長数システム,BNS,SD-RNS(Signed-Digit Redundant Residue Number System)とSD-RNS(Signed-Digit Redundant Residue Number System)の4つのシステムの比較分析を行った。
SD-RNS は RNS と BNS でそれぞれ 1.27 倍, 2.25 倍の高速化を実現し, 逐次加算および乗算作業において BNS と比較してエネルギー消費量を60% 削減できることを示した。
In computation-intensive domains such as digital signal processing, encryption, and neural networks, the performance of arithmetic units, including adders and multipliers, is pivotal. Conventional numerical systems often fall short of meeting the efficiency requirements of these applications concerning area, time, and power consumption. Innovative approaches like residue number systems (RNS) and redundant number systems have been introduced to surmount this challenge, markedly elevating computational efficiency. This paper examines from multiple perspectives how the fusion of redundant number systems with RNS (termed R-RNS) can diminish latency and enhance circuit implementation, yielding substantial benefits in practical scenarios. We conduct a comparative analysis of four systems - RNS, redundant number system, Binary Number System (BNS), and Signed-Digit Redundant Residue Number System (SD-RNS)-and appraise SD-RNS through an advanced Deep Neural Network (DNN) utilizing the CIFAR-10 dataset. Our findings are encouraging, demonstrating that SD-RNS attains computational speedups of 1.27 times and 2.25 times over RNS and BNS, respectively, and reduces energy consumption by 60% compared to BNS during sequential addition and multiplication tasks. | 翻訳日:2024-08-13 18:01:49 公開日:2024-08-10 |
# 非凸ペナルティを有する量子回帰のための拡散平滑化近似勾配
Federated Smoothing Proximal Gradient for Quantile Regression with Non-Convex Penalties ( http://arxiv.org/abs/2408.05640v1 ) ライセンス: Link先を確認 | Reza Mirzaeifard, Diyako Ghaderyan, Stefan Werner, | (参考訳) IoT(Internet-of-Things)の分散センサーは、大量のスパースデータを生成する。
この高次元データを解析し、関連する予測器を特定することは、特にデータの整合性、通信帯域幅、プライバシなどの理由で収集されたデバイスに留まることが望ましい場合、重大な課題となる。
本稿では,これらの課題に対処するフェデレーション付き量子レグレッションアルゴリズムを提案する。
量子回帰は、平均回帰モデルよりも変数間の関係に関するより包括的な見解を提供する。
しかしながら、従来のアプローチは、非凸のスパースペナルティと損失関数の固有の非滑らかさを扱う際に困難に直面している。
そこで本研究では, 近似勾配フレームワークとスムージング機構を統合し, 精度と計算速度の両立を図ったFSPGアルゴリズムを提案する。
この統合はデバイスネットワーク上で最適化処理を行い、それぞれがローカルデータサンプルを保持することにより、フェデレートされた学習シナリオに特に有効である。
FSPGアルゴリズムは、目的関数の値の維持または縮小により、各イテレーションにおける安定した進捗と信頼性の高い収束を保証する。
ミニマックス・コンケーブペナルティ (MCP) やスムーズクリッピング絶対偏差 (SCAD) などの非凸ペナルティを利用して, スパースモデル内のキー予測器を同定し, 保存することができる。
総合シミュレーションは,提案アルゴリズムの頑健な理論的基礎を検証し,推定精度と信頼度の向上を実証する。
Distributed sensors in the internet-of-things (IoT) generate vast amounts of sparse data. Analyzing this high-dimensional data and identifying relevant predictors pose substantial challenges, especially when data is preferred to remain on the device where it was collected for reasons such as data integrity, communication bandwidth, and privacy. This paper introduces a federated quantile regression algorithm to address these challenges. Quantile regression provides a more comprehensive view of the relationship between variables than mean regression models. However, traditional approaches face difficulties when dealing with nonconvex sparse penalties and the inherent non-smoothness of the loss function. For this purpose, we propose a federated smoothing proximal gradient (FSPG) algorithm that integrates a smoothing mechanism with the proximal gradient framework, thereby enhancing both precision and computational speed. This integration adeptly handles optimization over a network of devices, each holding local data samples, making it particularly effective in federated learning scenarios. The FSPG algorithm ensures steady progress and reliable convergence in each iteration by maintaining or reducing the value of the objective function. By leveraging nonconvex penalties, such as the minimax concave penalty (MCP) and smoothly clipped absolute deviation (SCAD), the proposed method can identify and preserve key predictors within sparse models. Comprehensive simulations validate the robust theoretical foundations of the proposed algorithm and demonstrate improved estimation precision and reliable convergence. | 翻訳日:2024-08-13 18:01:49 公開日:2024-08-10 |
# BeyondCT:胸部CTによる肺機能予測のためのディープラーニングモデル
BeyondCT: A deep learning model for predicting pulmonary function from chest CT scans ( http://arxiv.org/abs/2408.05645v1 ) ライセンス: Link先を確認 | Kaiwen Geng, Zhiyi Shi, Xiaoyan Zhao, Alaa Ali, Jing Wang, Joseph Leader, Jiantao Pu, | (参考訳) 肺機能検査(PFT)とCT画像検査(CT)は肺疾患の診断、管理、モニタリングに不可欠である。
一般的な問題は、胸部CT検査が利用可能であるにもかかわらず、記録された肺機能へのアクセスの欠如である。
目的:胸部CTスキャンから直接肺機能を予測するための深層学習アルゴリズムの開発と検証を行う。
方法: 開発コホートはピッツバーグ肺検診 (PLuSS) (n=3619) のものである。
検証コホートは COPD (n=662) のSCCOR (Specialized Centers of Clinically Oriented Research) から得られた。
BeyondCTと呼ばれるディープラーニングモデルは、3次元畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)アーキテクチャを組み合わせたもので、非造影胸部CTスキャンから強制活量(FVC)と1秒間強制呼気量(FEV1)を予測するために用いられた。
ViTのない3次元CNNモデルを用いて比較を行った。
対象者(年齢、性別、喫煙状況)もモデルに組み込まれた。
平均絶対誤差(MAE, L), パーセンテージ誤差(R乗)を用いて実PFTと比較した。
結果: 3D-CNNモデルでは, 0.395 L, 0.383 L, パーセンテージ誤差13.84%, 18.85%, R正方形0.665, 0.679をFVCとFEV1でそれぞれ達成した。
人口統計のないBeyondCTモデルでは、MAEは0.362 L、0.371 L、パーセンテージエラーは10.89%、14.96%、R平方は0.719、0.727であった。
人口動態の改善 (p<0.05), MAEsが0.356 L, 0.353 L, 10.79%, 14.82%, R squareが0.77, 0.739であった。
結語:BeyondCTモデルでは非造影胸部CT検査より肺機能の予測が困難であった。
Abstract Background: Pulmonary function tests (PFTs) and computed tomography (CT) imaging are vital in diagnosing, managing, and monitoring lung diseases. A common issue in practice is the lack of access to recorded pulmonary functions despite available chest CT scans. Purpose: To develop and validate a deep learning algorithm for predicting pulmonary function directly from chest CT scans. Methods: The development cohort came from the Pittsburgh Lung Screening Study (PLuSS) (n=3619). The validation cohort came from the Specialized Centers of Clinically Oriented Research (SCCOR) in COPD (n=662). A deep learning model called BeyondCT, combining a three-dimensional (3D) convolutional neural network (CNN) and Vision Transformer (ViT) architecture, was used to predict forced vital capacity (FVC) and forced expiratory volume in one second (FEV1) from non-contrasted inspiratory chest CT scans. A 3D CNN model without ViT was used for comparison. Subject demographics (age, gender, smoking status) were also incorporated into the model. Performance was compared to actual PFTs using mean absolute error (MAE, L), percentage error, and R square. Results: The 3D-CNN model achieved MAEs of 0.395 L and 0.383 L, percentage errors of 13.84% and 18.85%, and R square of 0.665 and 0.679 for FVC and FEV1, respectively. The BeyondCT model without demographics had MAEs of 0.362 L and 0.371 L, percentage errors of 10.89% and 14.96%, and R square of 0.719 and 0.727, respectively. Including demographics improved performance (p<0.05), with MAEs of 0.356 L and 0.353 L, percentage errors of 10.79% and 14.82%, and R square of 0.77 and 0.739 for FVC and FEV1 in the test set. Conclusion: The BeyondCT model showed robust performance in predicting lung function from non-contrast inspiratory chest CT scans. | 翻訳日:2024-08-13 18:01:49 公開日:2024-08-10 |
# 固有アテンション:KVキャッシュ圧縮のための低ランク空間におけるアテンション
Eigen Attention: Attention in Low-Rank Space for KV Cache Compression ( http://arxiv.org/abs/2408.05646v1 ) ライセンス: Link先を確認 | Utkarsh Saxena, Gobinda Saha, Sakshi Choudhary, Kaushik Roy, | (参考訳) 大規模言語モデル(LLM)は、自然言語処理の領域において、その印象的な推論能力によって、画期的な進歩を表現している。
近年、複雑なタスクに適用性を高めるために、これらのモデルに対するコンテキスト長の増大に大きな関心が寄せられている。
しかし、長いコンテキスト長と大きなバッチサイズでは、注目キーと値を格納するキー値(KV)キャッシュが、推論中のメモリ使用の新たなボトルネックとして現れる。
そこで本研究では,低ランク空間でのアテンション操作を行うEigen Attentionを提案し,KVキャッシュメモリのオーバーヘッドを低減する。
提案手法は,既存のKVキャッシュ圧縮技術と直交し,相乗的に使用することができる。
OPT,MPT,Llamaモデルファミリに対する広範な実験により,Eigen Attentionが最大40%のKVキャッシュサイズを削減し,60%のアテンション動作遅延を低減し,最小性能を低下させることを示した。
Large language models (LLMs) represent a groundbreaking advancement in the domain of natural language processing due to their impressive reasoning abilities. Recently, there has been considerable interest in increasing the context lengths for these models to enhance their applicability to complex tasks. However, at long context lengths and large batch sizes, the key-value (KV) cache, which stores the attention keys and values, emerges as the new bottleneck in memory usage during inference. To address this, we propose Eigen Attention, which performs the attention operation in a low-rank space, thereby reducing the KV cache memory overhead. Our proposed approach is orthogonal to existing KV cache compression techniques and can be used synergistically with them. Through extensive experiments over OPT, MPT, and Llama model families, we demonstrate that Eigen Attention results in up to 40% reduction in KV cache sizes and up to 60% reduction in attention operation latency with minimal drop in performance. | 翻訳日:2024-08-13 18:01:49 公開日:2024-08-10 |
# 非線形因果モデルにおける離散的未測定共振の制御
Controlling for discrete unmeasured confounding in nonlinear causal models ( http://arxiv.org/abs/2408.05647v1 ) ライセンス: Link先を確認 | Patrick Burauel, Frederick Eberhardt, Michel Besserve, | (参考訳) 非実験的なデータから因果関係を識別する上で,非測定的コンバウンディングは大きな課題である。
そこで本稿では,未測定の離散的コンファウンディングに対応する手法を提案する。
深層潜伏変数モデルにおける最近の識別可能性を拡張することにより、観測されたデータは潜伏ガウス混合モデルの断片的なアフィン変換であり、混合成分の同一性は整合しているという仮定の下で、コンバウンディングを検出・修正できることが理論的に示される。
我々は,このモデルを推定し,デコンウンディングを行うフローベースアルゴリズムを提案する。
合成および実世界のデータに対する実験結果は,我々のアプローチの有効性を裏付けるものである。
Unmeasured confounding is a major challenge for identifying causal relationships from non-experimental data. Here, we propose a method that can accommodate unmeasured discrete confounding. Extending recent identifiability results in deep latent variable models, we show theoretically that confounding can be detected and corrected under the assumption that the observed data is a piecewise affine transformation of a latent Gaussian mixture model and that the identity of the mixture components is confounded. We provide a flow-based algorithm to estimate this model and perform deconfounding. Experimental results on synthetic and real-world data provide support for the effectiveness of our approach. | 翻訳日:2024-08-13 18:01:49 公開日:2024-08-10 |
# 発展途上国における舗装距離検出の高度化:局所的に収集したデータセットを用いた新しい深層学習手法
Advancing Pavement Distress Detection in Developing Countries: A Novel Deep Learning Approach with Locally-Collected Datasets ( http://arxiv.org/abs/2408.05649v1 ) ライセンス: Link先を確認 | Blessing Agyei Kyem, Eugene Kofi Okrah Denteh, Joshua Kofi Asamoah, Kenneth Adomako Tutu, Armstrong Aboah, | (参考訳) 開発途上国の道路インフラ整備は、資源の制約と多様な環境要因により、独特な課題に直面している。
本研究は,これらの地域において,効率的な,正確で,かつ局所的な舗装災害検出法の必要性に対処するものである。
本稿では, YOLO(You Only Look Once)オブジェクト検出モデルとCBAM(Convolutional Block Attention Module)を組み合わせた新しいディープラーニング手法を提案する。
このモデルでは, ポットホール, 長手き裂, アリゲータき裂, レイブリングの検出・分類において, 信頼性スコアは0.46~0.93である。
いくつかの誤分類は複雑なシナリオで起こるが、これらは発展途上国における舗装評価の独特な課題についての洞察を提供する。
さらに,画像やビデオからリアルタイムの災害検出を行うWebアプリケーションを開発した。
本研究は, 自動舗装災害検出を推進し, 道路安全の向上, メンテナンス戦略の最適化, 持続可能な交通インフラ整備に寄与する, 開発途上国に適したソリューションを提供する。
Road infrastructure maintenance in developing countries faces unique challenges due to resource constraints and diverse environmental factors. This study addresses the critical need for efficient, accurate, and locally-relevant pavement distress detection methods in these regions. We present a novel deep learning approach combining YOLO (You Only Look Once) object detection models with a Convolutional Block Attention Module (CBAM) to simultaneously detect and classify multiple pavement distress types. The model demonstrates robust performance in detecting and classifying potholes, longitudinal cracks, alligator cracks, and raveling, with confidence scores ranging from 0.46 to 0.93. While some misclassifications occur in complex scenarios, these provide insights into unique challenges of pavement assessment in developing countries. Additionally, we developed a web-based application for real-time distress detection from images and videos. This research advances automated pavement distress detection and provides a tailored solution for developing countries, potentially improving road safety, optimizing maintenance strategies, and contributing to sustainable transportation infrastructure development. | 翻訳日:2024-08-13 18:01:49 公開日:2024-08-10 |
# WiDe分析:ウィキペディアの削除記事のワンクリックコンテンツモデレーション分析
WiDe-analysis: Enabling One-click Content Moderation Analysis on Wikipedia's Articles for Deletion ( http://arxiv.org/abs/2408.05655v1 ) ライセンス: Link先を確認 | Hsuvas Borkakoty, Luis Espinosa-Anke, | (参考訳) オンラインプラットフォームにおけるコンテンツモデレーションは、特にこれらのプラットフォームが成長するにつれて、既存のポリシーに従うことを保証するために不可欠である。
この分野におけるNLP研究は、すべてのアクティブな議論を効果的に監視することは不可能であるため、その一部を自動化することに重点を置いている。
過去の研究は、感情分析のような削除パターンを明らかにすることや、ウィキペディアのポリシーやスタンス・ディテクターのようなプラットフォーム固有のモデルの開発に重点を置いてきた。
しかし、当然のことながら、この貴重な仕事の体系は散在しており、eg、トレーニングに使用される削除議論コーパス、スタンスラベルの数については、ほとんど、あるいは全く一致していない。
さらに、合理的な立場(例えば、関連する政策の削除決定を根拠に)を結び付ける努力も行われているが、それ以上に説明可能な作業はほとんどない。
本稿では,コンテンツモデレーションの議論にワンクリック解析を提供することを目的としたPythonパッケージであるウィキペディア削除議論とワイドアナライズ(ウィキペディア削除分析)について,一連の実験を紹介する。
データ、モデル、Pythonパッケージ、およびHuggingFaceスペースを含む、幅広い分析に関連するすべての資産をリリースし、ウィキペディアなどにおけるコンテンツモデレーションの自動化に関する研究を加速することを目的としています。
Content moderation in online platforms is crucial for ensuring activity therein adheres to existing policies, especially as these platforms grow. NLP research in this area has typically focused on automating some part of it given that it is not feasible to monitor all active discussions effectively. Past works have focused on revealing deletion patterns with like sentiment analysis, or on developing platform-specific models such as Wikipedia policy or stance detectors. Unsurprisingly, however, this valuable body of work is rather scattered, with little to no agreement with regards to e.g., the deletion discussions corpora used for training or the number of stance labels. Moreover, while efforts have been made to connect stance with rationales (e.g., to ground a deletion decision on the relevant policy), there is little explanability work beyond that. In this paper, we introduce a suite of experiments on Wikipedia deletion discussions and wide-analyis (Wikipedia Deletion Analysis), a Python package aimed at providing one click analysis to content moderation discussions. We release all assets associated with wide-analysis, including data, models and the Python package, and a HuggingFace space with the goal to accelerate research on automating content moderation in Wikipedia and beyond. | 翻訳日:2024-08-13 18:01:49 公開日:2024-08-10 |
# LLVMとCodeCheckerを用いた静的解析の実装と実行
Implementing and Executing Static Analysis Using LLVM and CodeChecker ( http://arxiv.org/abs/2408.05657v1 ) ライセンス: Link先を確認 | Gabor Horvath, Reka Kovacs, Richard Szalay, Zoltan Porkolab, | (参考訳) 静的解析はソースコードを実行せずに解析する方法である。
産業用ソフトウェアでバグやコードの臭いを見つけるのに広く使われている。
他のメソッドの他に、最も重要なテクニックは抽象構文木とシンボリック実行の実行に基づくものである。
どちらの方法も、異なる利点と制限があるため、現代のソフトウェア開発での役割を見出した。
本チュートリアルでは,C++プログラミング言語の冗長ポインタの排除と,std::stringクラスの不正使用に起因するダングリングポインタの報告という,2つの問題を提示する。
これら2つの問題には異なる理論的背景があり、その発見には異なる実装技術が必要である。
我々は,上記の問題を特定するためのソフトウェアであるチェッカーを実装するためのステップバイステップガイドを提供する。1つは抽象構文解析法に基づくもので,もう1つはシンボリック実行の可能性を探るものである。
メソッドは、コード例によって、非常に詳細に説明され、サポートされます。
このチュートリアルの読者は静的解析ツールのアーキテクトと、異なるメソッドの利点と制約を理解したい開発者の両方である。
Static analysis is a method of analyzing source code without executing it. It is widely used to find bugs and code smells in industrial software. Besides other methods, the most important techniques are those based on the abstract syntax tree and those performing symbolic execution. Both of these methods found their role in modern software development as they have different advantages and limitations. In this tutorial, we present two problems from the C++ programming language: the elimination of redundant pointers, and the reporting of dangling pointers originating from incorrect use of the std::string class. These two issues have different theoretical backgrounds and finding them requires different implementation techniques. We will provide a step-by-step guide to implement the checkers (software to identify the aforementioned problems) - one based on the abstract syntax analysis method, the other exploring the possibilities of symbolic execution. The methods are explained in great detail and supported by code examples. The intended audience for this tutorial are both architects of static analysis tools and developers who want to understand the advantages and constraints of the different methods. | 翻訳日:2024-08-13 18:01:49 公開日:2024-08-10 |
# 大規模言語モデルにおけるプライバシ保護:現在の脅威と解決策に関する調査
Preserving Privacy in Large Language Models: A Survey on Current Threats and Solutions ( http://arxiv.org/abs/2408.05212v1 ) ライセンス: Link先を確認 | Michele Miranda, Elena Sofia Ruzzetti, Andrea Santilli, Fabio Massimo Zanzotto, Sébastien Bratières, Emanuele Rodolà, | (参考訳) 大規模言語モデル(LLM)は、人工知能の大幅な進歩を表し、様々な領域にまたがる応用を見つける。
しかし、トレーニングのための大規模なインターネットソースデータセットへの依存は、重要なドメイン(ヘルスケアなど)で悪化している、注目すべきプライバシー問題を引き起こします。
さらに、特定のアプリケーション固有のシナリオでは、これらのモデルをプライベートデータで微調整する必要があります。
この調査は、LLMに関連するプライバシーの脅威を批判的に調査し、これらのモデルが機密情報を暗記し、不注意に明らかにする可能性を強調している。
我々は、LLMに対するプライバシー攻撃を見直し、学習パイプライン全体を通してプライバシーメカニズムを統合するための包括的なソリューションを提案することで、現在の脅威を探究する。
これらのソリューションは、トレーニングデータセットの匿名化から、トレーニングや推論中の差分プライバシーの実装、トレーニング後のマシンラーニングアンラーニングまで、さまざまです。
既存の文献の包括的なレビューでは、現在進行中の課題、利用可能なツール、LLMのプライバシーを守るための今後の方向性が強調されている。
この研究は、プライバシー保護手法の徹底的な理解とリスク軽減効果を提供することにより、より安全で信頼性の高いAIシステムの開発を導くことを目的としている。
Large Language Models (LLMs) represent a significant advancement in artificial intelligence, finding applications across various domains. However, their reliance on massive internet-sourced datasets for training brings notable privacy issues, which are exacerbated in critical domains (e.g., healthcare). Moreover, certain application-specific scenarios may require fine-tuning these models on private data. This survey critically examines the privacy threats associated with LLMs, emphasizing the potential for these models to memorize and inadvertently reveal sensitive information. We explore current threats by reviewing privacy attacks on LLMs and propose comprehensive solutions for integrating privacy mechanisms throughout the entire learning pipeline. These solutions range from anonymizing training datasets to implementing differential privacy during training or inference and machine unlearning after training. Our comprehensive review of existing literature highlights ongoing challenges, available tools, and future directions for preserving privacy in LLMs. This work aims to guide the development of more secure and trustworthy AI systems by providing a thorough understanding of privacy preservation methods and their effectiveness in mitigating risks. | 翻訳日:2024-08-12 15:05:23 公開日:2024-08-10 |