このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240115となっている論文です。

PDF登録状況(公開日: 20240115)

TitleAuthorsAbstract論文公表日・翻訳日
# 高次不均一グラフ埋め込みによるマルチタスクDNSセキュリティ解析

Multi-Task DNS Security Analysis via High-Order Heterogeneous Graph Embedding ( http://arxiv.org/abs/2401.07410v1 )

ライセンス: Link先を確認
Meng Qin, (参考訳) DNSはネットワークアプリケーションやサービスをサポートするために必要なインターネットインフラストラクチャであるが、様々なサイバー攻撃によって悪用される重要なツールでもある。 既存のDNSセキュリティ分析技術は、主に従来の機能エンジニアリングを通じて、1つのエンティティ(例えばドメイン)に関連する1つの特定のタスクに焦点を当てている。 彼らは労働集約的な特徴選択に大きく依存しており、不均一なDNSエンティティ(例えば、ドメインとIP)間の本質的な相関を無視している。 本稿では,複数のDNSエンティティの動作特徴を自動的に学習し,複数のセキュリティタスクを同時にサポートするヘテロジニアスグラフ埋め込みの可能性について検討する。 例えば、悪意のあるドメイン検出とIP評価の協調最適化を考えると、異質なエンティティを持つ類似性強化グラフを用いてDNSクエリの振る舞いを定式化するための新しい統合DNS埋め込み(JDE)モデルを提案する。 ランダムウォーク法は異種グラフに適用され、ドメインとIP間の隠れた同種および異種高次近似を包括的に探索する。 実際のDNSトラフィックに関する大規模な実験により、複数のタスクと遅延した高次確率との結合最適化は、観測可能な低次近接で各タスクを最適化するよりも、すべてのタスクのセキュリティ解析性能が向上することを示した。

DNS is an essential Internet infrastructure to support network applications and services, but is also a significant tool exploited by various cyberattacks. Existing DNS security analysis techniques mostly focus on one specific task associated with one single entity (e.g., domain) via conventional feature engineering. They rely heavily on the labor-intensive feature selection and largely ignore the intrinsic correlations among the heterogeneous DNS entities (e.g., domain and IP). In this paper, I explore the potential of heterogeneous graph embedding to automatically learn the behavior features of multiple DNS entities, and to simultaneously support more than one security tasks. Considering the joint optimization of malicious domain detection and IP reputation evaluation as an example, I propose a novel joint DNS embedding (JDE) model to formulate the DNS query behavior via a similarity-enhanced graph with heterogeneous entities. The random walk technique is applied to the heterogeneous graph to comprehensively explore the hidden homogeneous and heterogeneous high-order proximities among domains and IPs. Extensive experiments on real DNS traffic demonstrate that the joint optimization of multiple tasks with the latent high-order proximities can lead to better security analysis performance for all the tasks than respectively optimizing each single task with the observable low-order proximity.
翻訳日:2024-03-25 12:37:32 公開日:2024-01-15
# Batchモードにおけるバイリニア群蓄積器を用いたプライバシ対応単核種多型(SNP)

Privacy-Aware Single-Nucleotide Polymorphisms (SNPs) using Bilinear Group Accumulators in Batch Mode ( http://arxiv.org/abs/2401.07691v1 )

ライセンス: Link先を確認
William J Buchanan, Sam Grierson, Daniel Uribe, (参考訳) 生体データはしばしば非常に敏感であり、このデータの漏洩は深刻なプライバシー侵害につながる可能性がある。 この種のデータの最も敏感な部分は、個人におけるDNAデータの使用に関連している。 この種のデータを無同意でリークすることは、データ保護法のプライバシー侵害につながる可能性がある。 これに加えて、23andMeやAncestryなど、DNA情報の漏洩に関連するいくつかのデータ漏洩があった。 したがって、市民はDNAデータがDNAデータベースに含まれているかどうかを知る権利を有し、その使用に懸念がある場合は、そのデータを削除するよう要求する必要がある。 本稿では,SNP(Single-Nucleotide Polymorphisms)と呼ばれるデータストアに含まれるコア情報を,バッチモードの双線形グループアキュムレータにハッシュする手法の概要を述べる。 証人証を作成する時間は、それぞれ0.86msと10.90msで測定された。

Biometric data is often highly sensitive, and a leak of this data can lead to serious privacy breaches. Some of the most sensitive of this type of data relates to the usage of DNA data on individuals. A leak of this type of data without consent could lead to privacy breaches of data protection laws. Along with this, there have been several recent data breaches related to the leak of DNA information, including from 23andMe and Ancestry. It is thus fundamental that a citizen should have the right to know if their DNA data is contained within a DNA database and ask for it to be removed if they are concerned about its usage. This paper outlines a method of hashing the core information contained within the data stores - known as Single-Nucleotide Polymorphisms (SNPs) - into a bilinear group accumulator in batch mode, which can then be searched by a trusted entity for matches. The time to create the witness proof and to verify were measured at 0.86 ms and 10.90 ms, respectively.
翻訳日:2024-03-25 12:37:32 公開日:2024-01-15
# 現代ロボットのためのサイバーセキュリティと身体的統合:概念的枠組み

Cybersecurity and Embodiment Integrity for Modern Robots: A Conceptual Framework ( http://arxiv.org/abs/2401.07783v1 )

ライセンス: Link先を確認
Alberto Giaretta, Amy Loutfi, (参考訳) 現代のロボットは、IoT(Internet of Things)やROS(Robotic Operating System)といった新しい技術やコミュニケーションパラダイムによって、アドホックなセンサーやアクチュエータを使って構築されたモノリシックなエンティティから離れつつある。 このようなパラダイムを用いることで、異質な標準デバイスを取得し、それらを相互に通信させることで、ロボットを構築することができる。 このアプローチは高いモジュール性をもたらすが、サイバーセキュリティの保証を提供することの不確実性をもたらし、実施の完全性を保証する。 本稿では、まず、異なるデバイスに対するサイバー攻撃が、ロボットがタスクを完了し、その実施を維持できる能力に根本的に異なる結果をもたらすかを説明する。 我々はまた、現代のロボットは、そのような側面に関して自己認識を持つべきであり、そのためにロボットが統合すべき異なる特徴を定式化するべきだと主張する。 そして、これらの命題を達成するためには、概念的にデバイスとタスクをリンクする少なくとも3つの特性をロボットが持つ必要があることを示す。 最後に、これらの3つの特性がより大きな概念的枠組みでどのように達成できるかを考察する。

Modern robots are stepping away from monolithic entities built using ad-hoc sensors and actuators, due to new technologies and communication paradigms, such as the Internet of Things (IoT) and the Robotic Operating System (ROS). Using such paradigms, robots can be built by acquiring heterogeneous standard devices and putting them in communication with each other. This approach brings high degrees of modularity, but it also yields uncertainty of providing cybersecurity assurances, and guarantees on the integrity of the embodiment. In this paper, we first illustrate how cyberattacks on different devices can have radically different consequences on the robot's ability to complete its tasks and preserve its embodiment. We also claim that modern robots should have self-awareness for what it concerns such aspects, and formulate the different characteristics that robots should integrate for doing so. Then, we show that achieving these propositions requires that robots possess at least three properties that conceptually link devices and tasks. Last, we reflect on how these three properties could be achieved in a larger conceptual framework.
翻訳日:2024-03-25 12:37:32 公開日:2024-01-15
# ADMIn:AIベースのソフトウェアに対する脅威モデル

ADMIn: Attacks on Dataset, Model and Input. A Threat Model for AI Based Software ( http://arxiv.org/abs/2401.07960v1 )

ライセンス: Link先を確認
Vimal Kumar, Juliette Mayo, Khadija Bahiss, (参考訳) 機械学習(ML)と人工知能(AI)の技術は、今やソフトウェア製品やサービスで一般的になっています。 したがって、システムモデリングにおける脅威は、ソフトウェアに対する脅威に加えて、MLやAI技術固有の脅威を考えることが重要である。 本稿では、AIベースのソフトウェアに対する脅威を体系的に発見するために使用できる脅威モデルを提案する。 脅威モデルは、AIベースのソフトウェアのためのソフトウェア開発プロセスのモデルと、敵AI研究で見つかった攻撃を使用して開発された攻撃分類の2つの主要な部分から構成される。 2つの実生活AIベースのソフトウェアに脅威モデルを適用し、見つかったプロセスと脅威について議論する。

Machine learning (ML) and artificial intelligence (AI) techniques have now become commonplace in software products and services. When threat modelling a system, it is therefore important that we consider threats unique to ML and AI techniques, in addition to threats to our software. In this paper, we present a threat model that can be used to systematically uncover threats to AI based software. The threat model consists of two main parts, a model of the software development process for AI based software and an attack taxonomy that has been developed using attacks found in adversarial AI research. We apply the threat model to two real life AI based software and discuss the process and the threats found.
翻訳日:2024-03-25 12:37:32 公開日:2024-01-15
# MEVゲームにおける第1相Servedブロックチェーンの動作

Playing the MEV Game on a First-Come-First-Served Blockchain ( http://arxiv.org/abs/2401.07992v1 )

ライセンス: Link先を確認
Burak Öz, Jonas Gebele, Parshant Singh, Filip Rezabek, Florian Matthes, (参考訳) 最大抽出可能な値(MEV)検索は、分散ファイナンス活動の急増以来、Ethereumブロックチェーンで注目されている。 Ethereumでは、MEVの抽出は主にプロジェクターをブロックするための手数料支払いに依存している。 しかし、First-Come-First-Served(FCFS)ブロックチェーンネットワークでは、従来のファイナンスにおける高周波トレーディングのようなレイテンシ最適化に重点が置かれている。 本稿では,FCFSネットワーク,特にAlgorandにおけるMEV抽出ゲームのダイナミクスについて述べる。 本稿では,FCFSネットワークの時間制約に合わせた調停検出アルゴリズムを導入し,その有効性を評価する。 さらに、最適な実行位置を確保するために、Algorandのネットワーク層における潜在的な最適化について検討した。 我々の分析によると、関連するトレーディングプールの状態は中央値の6ブロックごとに更新されるが、ブロック状態レベルでMEVを追求することはAlgorandでは不可能である。 時間制約の異なるアルゴリズムの性能は、任意探索におけるタイミングの重要性を浮き彫りにする。 さらに,ネットワークレベルの実験により,AlgorandのFCFSネットワークにおける重要なトランザクション優先順位付け戦略を同定した。 中でも重要なのは、高ステークなプロジェクタに十分に接続されたリレーとの接続におけるレイテンシの低減だ。

Maximal Extractable Value (MEV) searching has gained prominence on the Ethereum blockchain since the surge in Decentralized Finance activities. In Ethereum, MEV extraction primarily hinges on fee payments to block proposers. However, in First-Come-First-Served (FCFS) blockchain networks, the focus shifts to latency optimizations, akin to High-Frequency Trading in Traditional Finance. This paper illustrates the dynamics of the MEV extraction game in an FCFS network, specifically Algorand. We introduce an arbitrage detection algorithm tailored to the unique time constraints of FCFS networks and assess its effectiveness. Additionally, our experiments investigate potential optimizations in Algorand's network layer to secure optimal execution positions. Our analysis reveals that while the states of relevant trading pools are updated approximately every six blocks on median, pursuing MEV at the block state level is not viable on Algorand, as arbitrage opportunities are typically executed within the blocks they appear. Our algorithm's performance under varying time constraints underscores the importance of timing in arbitrage discovery. Furthermore, our network-level experiments identify critical transaction prioritization strategies for Algorand's FCFS network. Key among these is reducing latency in connections with relays that are well-connected to high-staked proposers.
翻訳日:2024-03-25 12:37:32 公開日:2024-01-15
# 深部強化学習支援演算子選択による制約付き多目的最適化

Constrained Multi-objective Optimization with Deep Reinforcement Learning Assisted Operator Selection ( http://arxiv.org/abs/2402.12381v1 )

ライセンス: Link先を確認
Fei Ming, Wenyin Gong, Ling Wang, Yaochu Jin, (参考訳) 進化的アルゴリズムを用いた制約付き多目的最適化問題の解法は注目されている。 様々な制約付き多目的最適化進化アルゴリズム (CMOEA) は、異なるアルゴリズム戦略、進化的演算子、制約処理技術を用いて開発されている。 CMOEAの性能は使用する演算子に大きく依存するかもしれないが、手前の問題に対して適切な演算子を選択するのは通常困難である。 したがって、CMOEAにとって演算子選択の改善は有望であり、必要である。 本研究では,Deep Reinforcement Learningを支援するオンラインオペレータ選択フレームワークを提案する。 コンバージェンス、多様性、実現可能性を含む人口の動態は国家と見なされ、候補者のオペレーターは行動と見なされ、人口状態の改善は報酬として扱われる。 提案手法は,Q-Networkを用いて全ての行動のQ値を推定するポリシーを学習することにより,現在の状況に応じて個体群の改善を最大化し,アルゴリズムの性能を向上させる演算子を適応的に選択することができる。 このフレームワークは4つの人気のあるCMOEAに組み込まれ、42のベンチマーク問題で評価されている。 実験の結果,提案したDeep Reinforcement Learning-assisted operator selectionはこれらのCMOEAの性能を著しく向上させ,その結果,9つの最先端CMOEAよりも優れた汎用性が得られることがわかった。

Solving constrained multi-objective optimization problems with evolutionary algorithms has attracted considerable attention. Various constrained multi-objective optimization evolutionary algorithms (CMOEAs) have been developed with the use of different algorithmic strategies, evolutionary operators, and constraint-handling techniques. The performance of CMOEAs may be heavily dependent on the operators used, however, it is usually difficult to select suitable operators for the problem at hand. Hence, improving operator selection is promising and necessary for CMOEAs. This work proposes an online operator selection framework assisted by Deep Reinforcement Learning. The dynamics of the population, including convergence, diversity, and feasibility, are regarded as the state; the candidate operators are considered as actions; and the improvement of the population state is treated as the reward. By using a Q-Network to learn a policy to estimate the Q-values of all actions, the proposed approach can adaptively select an operator that maximizes the improvement of the population according to the current state and thereby improve the algorithmic performance. The framework is embedded into four popular CMOEAs and assessed on 42 benchmark problems. The experimental results reveal that the proposed Deep Reinforcement Learning-assisted operator selection significantly improves the performance of these CMOEAs and the resulting algorithm obtains better versatility compared to nine state-of-the-art CMOEAs.
翻訳日:2024-03-25 08:56:22 公開日:2024-01-15
# 構造に基づく医薬品設計のための結合適応拡散モデル

Binding-Adaptive Diffusion Models for Structure-Based Drug Design ( http://arxiv.org/abs/2402.18583v1 )

ライセンス: Link先を確認
Zhilin Huang, Ling Yang, Zaixi Zhang, Xiangxin Zhou, Yu Bao, Xiawu Zheng, Yuwei Yang, Yu Wang, Wenming Yang, (参考訳) 構造に基づく薬物設計(SBDD)は、特定のタンパク質標的に結合する3Dリガンド分子を生成することを目的としている。 拡散モデルを含む既存の3Dの深層生成モデルは、SBDDに大きな可能性を示しています。 しかし、分子生成のための3次元空間において、必須のタンパク質-リガンド相互作用を正確に捉えることは複雑である。 この問題に対処するため,バインディング適応拡散モデル(BindDM)という新しいフレームワークを提案する。 BindDMでは,タンパク質-リガンド相互作用に関与する結合部位の重要な部分であるサブ複合体を適応的に抽出する。 そして、選択されたタンパク質リガンドサブ複合体をSE(3)同変ニューラルネットワークで処理し、その複合体の各原子に送信して、結合相互作用情報による標的認識3D分子拡散生成を増強する。 我々は、この階層的複素-部分複素過程を相互階層的相互作用ノードで繰り返し、複素と対応する部分複素の間の大域的結合コンテキストを適切に融合させる。 CrossDocked2020データセットに関する実証研究によると、BindDMはより現実的な3D構造を持ち、タンパク質標的に対する高い結合親和性を持つ分子を最大5.92Avgで生成できる。 適切な分子特性を維持しながら、Vina Score。 私たちのコードはhttps://github.com/YangLing0818/BindDMで利用可能です。

Structure-based drug design (SBDD) aims to generate 3D ligand molecules that bind to specific protein targets. Existing 3D deep generative models including diffusion models have shown great promise for SBDD. However, it is complex to capture the essential protein-ligand interactions exactly in 3D space for molecular generation. To address this problem, we propose a novel framework, namely Binding-Adaptive Diffusion Models (BindDM). In BindDM, we adaptively extract subcomplex, the essential part of binding sites responsible for protein-ligand interactions. Then the selected protein-ligand subcomplex is processed with SE(3)-equivariant neural networks, and transmitted back to each atom of the complex for augmenting the target-aware 3D molecule diffusion generation with binding interaction information. We iterate this hierarchical complex-subcomplex process with cross-hierarchy interaction node for adequately fusing global binding context between the complex and its corresponding subcomplex. Empirical studies on the CrossDocked2020 dataset show BindDM can generate molecules with more realistic 3D structures and higher binding affinities towards the protein targets, with up to -5.92 Avg. Vina Score, while maintaining proper molecular properties. Our code is available at https://github.com/YangLing0818/BindDM
翻訳日:2024-03-25 08:36:53 公開日:2024-01-15
# 時変刺激によるホップフィールドニューラルネットワークの動的調整

Adjusting Dynamics of Hopfield Neural Network via Time-variant Stimulus ( http://arxiv.org/abs/2402.18584v1 )

ライセンス: Link先を確認
Xuenan Peng, Chengqing Li, Yicheng Zeng, Chun-Lai Li, (参考訳) 非線形力学研究のパラダイムモデルとして、ホップフィールドニューラルネットワーク(HNN)はその複雑な構造による外乱に対する高い感受性を示す。 本稿では,時間変動刺激によるHNN動的変調の課題について考察する。 一定刺激 (CS) とともに, 重量行列刺激 (WMS) と状態変数刺激 (SVS) の2種類の異なる時間変動刺激による調整の効果を報告する。 その結果,4つのWMSを配置することで,HNNは4つのスクロールまたは共存する2つのスクロールを引き付けることができることがわかった。 1つのSVSと組み合わせると、4つのWMSが8つのスクロールまたは4つのスクロールのアトラクションを発生させ、一方、4つのWMSと複数のSVSの統合はグリッドマルチスクロールアトラクションを誘導する。 さらに、CSとSVSの導入は、HNNの動的挙動を著しく破壊する可能性がある。 その結果,ネットワークの動的性を高めるためには適切な調整手法が不可欠であり,不適切な応用によってカオス特性が失われる可能性がある。 これらの拡張効果を実証的に検証するために、この研究はFPGAハードウェアプラットフォームを採用している。 その後、セキュアなマルチメディア通信において動的に調整されたHNNの実用的メリットを示すために、画像暗号化方式が設計された。 この時間変動刺激によるHNNの動的変調の探索は、セキュアな通信技術の進歩に深い貢献をもたらす。

As a paradigmatic model for nonlinear dynamics studies, the Hopfield Neural Network (HNN) demonstrates a high susceptibility to external disturbances owing to its intricate structure. This paper delves into the challenge of modulating HNN dynamics through time-variant stimuli. The effects of adjustments using two distinct types of time-variant stimuli, namely the Weight Matrix Stimulus (WMS) and the State Variable Stimulus (SVS), along with a Constant Stimulus (CS) are reported. The findings reveal that deploying four WMSs enables the HNN to generate either a four-scroll or a coexisting two-scroll attractor. When combined with one SVS, four WMSs can lead to the formation of an eight-scroll or four-scroll attractor, while the integration of four WMSs and multiple SVSs can induce grid-multi-scroll attractors. Moreover, the introduction of a CS and an SVS can significantly disrupt the dynamic behavior of the HNN. Consequently, suitable adjustment methods are crucial for enhancing the network's dynamics, whereas inappropriate applications can lead to the loss of its chaotic characteristics. To empirically validate these enhancement effects, the study employs an FPGA hardware platform. Subsequently, an image encryption scheme is designed to demonstrate the practical application benefits of the dynamically adjusted HNN in secure multimedia communication. This exploration into the dynamic modulation of HNN via time-variant stimuli offers insightful contributions to the advancement of secure communication technologies.
翻訳日:2024-03-25 08:36:53 公開日:2024-01-15
# 高精度な共分散物体検出のための数千のグループによる識別的コンセンサスマイニング

Discriminative Consensus Mining with A Thousand Groups for More Accurate Co-Salient Object Detection ( http://arxiv.org/abs/2403.12057v1 )

ライセンス: Link先を確認
Peng Zheng, (参考訳) Co-Salient Object Detection (CoSOD) は、Salient Object Detection (SOD) とCommon Object Segmentation (Co-Segmentation) から拡張された、急速に成長するタスクである。 与えられた画像群において、共起する有意な物体を検出することを目的としている。 既存のデータセットに基づいて、多くの効果的なアプローチが提案されている。 しかし、CoSODには標準的かつ効率的なトレーニングセットが存在しないため、最近提案されたCoSOD手法でトレーニングセットを選択するのはカオスである。 まず、CoSODにおける既存のトレーニングセットの欠点を包括的に分析し、既存の問題を解決するための潜在的な改善を提供する。 特にこの論文では、CoSINe(Co-Saliency of ImageNet)データセットと呼ばれる新しいCoSODトレーニングセットが導入されている。 提案されたCoSINeは、既存のCoSODデータセットの中で最大の数のグループである。 ここで得られた画像は、カテゴリ、オブジェクトサイズなど、多種多様である。 実験では、CoSINeでトレーニングされたモデルは、既存のすべてのデータセットと比較して、少ない画像で大幅にパフォーマンスが向上する。 第二に,提案したCoSINeを最大限活用するために,HICOME(Hierarchical Instance-aware Consensus MinEr)と呼ばれる新しいCoSODアプローチを提案する。 広範な実験が示すように、提案したHICOMEは既存のCoSODテストセットのすべてでSoTA性能を達成する。 CoSODモデルのトレーニングに適したいくつかの有用なトレーニングトリックも提供される。 第3に、CoSOD技術を用いて実用的応用を行い、その効果を示す。 最後に,CoSODの今後の課題と潜在的な改善について考察し,今後の課題について考察する。 ソースコード、データセット、オンラインデモはgithub.com/ZhengPeng7/CoSINeで公開されている。

Co-Salient Object Detection (CoSOD) is a rapidly growing task, extended from Salient Object Detection (SOD) and Common Object Segmentation (Co-Segmentation). It is aimed at detecting the co-occurring salient object in the given image group. Many effective approaches have been proposed on the basis of existing datasets. However, there is still no standard and efficient training set in CoSOD, which makes it chaotic to choose training sets in the recently proposed CoSOD methods. First, the drawbacks of existing training sets in CoSOD are analyzed in a comprehensive way, and potential improvements are provided to solve existing problems to some extent. In particular, in this thesis, a new CoSOD training set is introduced, named Co-Saliency of ImageNet (CoSINe) dataset. The proposed CoSINe is the largest number of groups among all existing CoSOD datasets. The images obtained here span a wide variety in terms of categories, object sizes, etc. In experiments, models trained on CoSINe can achieve significantly better performance with fewer images compared to all existing datasets. Second, to make the most of the proposed CoSINe, a novel CoSOD approach named Hierarchical Instance-aware COnsensus MinEr (HICOME) is proposed, which efficiently mines the consensus feature from different feature levels and discriminates objects of different classes in an object-aware contrastive way. As extensive experiments show, the proposed HICOME achieves SoTA performance on all the existing CoSOD test sets. Several useful training tricks suitable for training CoSOD models are also provided. Third, practical applications are given using the CoSOD technique to show the effectiveness. Finally, the remaining challenges and potential improvements of CoSOD are discussed to inspire related work in the future. The source code, the dataset, and the online demo will be publicly available at github.com/ZhengPeng7/CoSINe.
翻訳日:2024-03-25 07:46:43 公開日:2024-01-15
# 保証される権利を忘れる義務 : 機械学習サービスにおける脆弱性を露呈する

A Duty to Forget, a Right to be Assured? Exposing Vulnerabilities in Machine Unlearning Services ( http://arxiv.org/abs/2309.08230v2 )

ライセンス: Link先を確認
Hongsheng Hu, Shuo Wang, Jiamin Chang, Haonan Zhong, Ruoxi Sun, Shuang Hao, Haojin Zhu, Minhui Xue, (参考訳) 忘れられる権利は、機械学習モデルからユーザのデータを削除または"アンラーニング"する必要がある。 しかしながら、MLaaS(Machine Learning as a Service)のコンテキストでは、サービスプロバイダ側(サーバ)のトレーニングデータが不足しているため、未学習の要求を満たすためにモデルをスクラッチから再トレーニングすることは現実的ではありません。 さらに、近似アンラーニングは、ユーティリティ(モデルパフォーマンス)とプライバシ(アンラーニングパフォーマンス)の間の複雑なトレードオフをさらに受け入れる。 本稿では,MLaaSにおける未学習サービス,特に過剰学習における潜在的な脅威について検討する。 そこで我々は,既存の非学習攻撃が適用できないブラックボックスアクセス設定の下で,オーバー・アンラーニングを利用してトレードオフバランスに与える影響を計測する2つの戦略を提案する。 これらの戦略の有効性は、ベンチマークデータセットの広範な実験、さまざまなモデルアーキテクチャ、代表的な非学習的アプローチを通じて評価される。 その結果,両戦略が未学習シナリオにおけるモデルの有効性を損なう可能性が示唆された。 この研究は、アンラーニングと現代のMLaaSの間の未探索のギャップを明らかにし、データアンラーニング、モデルユーティリティ、セキュリティのバランスをとるための注意深い考慮の必要性を強調している。

The right to be forgotten requires the removal or "unlearning" of a user's data from machine learning models. However, in the context of Machine Learning as a Service (MLaaS), retraining a model from scratch to fulfill the unlearning request is impractical due to the lack of training data on the service provider's side (the server). Furthermore, approximate unlearning further embraces a complex trade-off between utility (model performance) and privacy (unlearning performance). In this paper, we try to explore the potential threats posed by unlearning services in MLaaS, specifically over-unlearning, where more information is unlearned than expected. We propose two strategies that leverage over-unlearning to measure the impact on the trade-off balancing, under black-box access settings, in which the existing machine unlearning attacks are not applicable. The effectiveness of these strategies is evaluated through extensive experiments on benchmark datasets, across various model architectures and representative unlearning approaches. Results indicate significant potential for both strategies to undermine model efficacy in unlearning scenarios. This study uncovers an underexplored gap between unlearning and contemporary MLaaS, highlighting the need for careful considerations in balancing data unlearning, model utility, and security.
翻訳日:2024-03-19 04:41:11 公開日:2024-01-15
# 無線ネットワークにおけるコンテントと干渉管理のためのグラフ表現学習

Graph Representation Learning for Contention and Interference Management in Wireless Networks ( http://arxiv.org/abs/2402.00879v1 )

ライセンス: Link先を確認
Zhouyou Gu, Branka Vucetic, Kishore Chikkam, Pasquale Aliberti, Wibowo Hardjawana(参考訳) wi-fi 802.11ahネットワークの制限アクセスウィンドウ(raw)は、ユーザをグループ化し、各グループの送信に周期的なタイムスロットを割り当てることで、競合と干渉を管理する。 RAWでは,ネットワークの最悪のユーザスループットを最大化するために,最適なユーザグループ決定を行う。 既存のユーザグループ化アプローチをレビューし、上記の問題におけるパフォーマンス制限を強調します。 本稿では,頂点がユーザを表し,エッジ重みが競合や干渉を示すグラフ構築問題として,ユーザグループ化の定式化を提案する。 この定式化は、グラフの最大カットをグループユーザーに利用し、エッジウェイトを最適化して、最大カットが最適なグループ決定をもたらす最適グラフを構築する。 この最適グラフ構築を実現するために,アクター批判グラフ表現学習(AC-GRL)アルゴリズムを設計する。 具体的には、アクタニューラルネットワーク(nn)を訓練し、ユーザとアクセスポイント間のパス損失を用いて、最適なグラフのエッジ重みを推定する。 グラフカット手順は半定値プログラミングを用いて、最大カットを効率よく解き、与えられた重みに対するグループ決定を返す。 批評家NNは、上記の判断によって達成されたユーザのスループットを近似し、アクターを改善するために使用される。 さらに,オンラインで測定したスループットと経路損失を利用して,ユーザの人口と位置の変化に応じて決定を微調整するアーキテクチャを提案する。 シミュレーションにより,提案手法は既存手法よりも30 %\sim80\%$最悪のユーザスループットを達成でき,提案アーキテクチャはグループ化決定のタイムリーな更新を確保しつつ,最悪のユーザスループットをさらに5 %\sim30\%$に向上させることができることが示された。

Restricted access window (RAW) in Wi-Fi 802.11ah networks manages contention and interference by grouping users and allocating periodic time slots for each group's transmissions. We will find the optimal user grouping decisions in RAW to maximize the network's worst-case user throughput. We review existing user grouping approaches and highlight their performance limitations in the above problem. We propose formulating user grouping as a graph construction problem where vertices represent users and edge weights indicate the contention and interference. This formulation leverages the graph's max cut to group users and optimizes edge weights to construct the optimal graph whose max cut yields the optimal grouping decisions. To achieve this optimal graph construction, we design an actor-critic graph representation learning (AC-GRL) algorithm. Specifically, the actor neural network (NN) is trained to estimate the optimal graph's edge weights using path losses between users and access points. A graph cut procedure uses semidefinite programming to solve the max cut efficiently and return the grouping decisions for the given weights. The critic NN approximates user throughput achieved by the above-returned decisions and is used to improve the actor. Additionally, we present an architecture that uses the online-measured throughput and path losses to fine-tune the decisions in response to changes in user populations and their locations. Simulations show that our methods achieve $30\%\sim80\%$ higher worst-case user throughput than the existing approaches and that the proposed architecture can further improve the worst-case user throughput by $5\%\sim30\%$ while ensuring timely updates of grouping decisions.
翻訳日:2024-02-11 17:28:57 公開日:2024-01-15
# スマート教育におけるパーソナライズ学習の包括的探索--学生のモデリングからパーソナライズドレコメンデーションへ

A Comprehensive Exploration of Personalized Learning in Smart Education: From Student Modeling to Personalized Recommendations ( http://arxiv.org/abs/2402.01666v1 )

ライセンス: Link先を確認
Siyu Wu, Yang Cao, Jiajun Cui, Runze Li, Hong Qian, Bo Jiang, Wei Zhang(参考訳) 人工知能の開発により、パーソナライズド・ラーニングは知的教育の不可欠な部分として注目を集めている。 中国、米国、欧州連合(eu)など近年、パーソナライズ学習の重要性が強調され、大規模教育とパーソナライズトレーニングの有機的な組み合わせの実現が強調されている。 学習者の好みを指向し、学習者のニーズに合ったパーソナライズされた学習システムの開発を促進すべきである。 本稿では,パーソナライズ学習の現状と教育における重要な役割について総合的な分析を行う。 複数の視点からパーソナライズ学習の研究、定義、目標、関連する教育理論を組み合わせて、教育的観点からパーソナライズ学習の深い理解を提供し、パーソナライズ学習における異なる理論の影響を分析し、個人のニーズを満たすパーソナライズ学習の可能性を強調し、能力を高める。 パーソナライズドラーニングにおけるデータ応用と評価指標を詳述し、その後の研究に確かなデータ基盤と評価システムを提供する。 一方,学生モデルとレコメンデーションアルゴリズムの両方から始めて,認知的・非認知的視点とパーソナライズドレコメンデーションのパーソナライズ学習への貢献を深く分析する。 最後に,パーソナライズ学習の課題と今後の展望について考察する。 このレビューは、より包括的な研究を通じてパーソナライズドラーニングの多次元的分析を提供し、学術者や実践者は、パーソナライズドラーニングの分野における継続的な進歩を促進するために最先端の探索を行う。

With the development of artificial intelligence, personalized learning has attracted much attention as an integral part of intelligent education. China, the United States, the European Union, and others have put forward the importance of personalized learning in recent years, emphasizing the realization of the organic combination of large-scale education and personalized training. The development of a personalized learning system oriented to learners' preferences and suited to learners' needs should be accelerated. This review provides a comprehensive analysis of the current situation of personalized learning and its key role in education. It discusses the research on personalized learning from multiple perspectives, combining definitions, goals, and related educational theories to provide an in-depth understanding of personalized learning from an educational perspective, analyzing the implications of different theories on personalized learning, and highlighting the potential of personalized learning to meet the needs of individuals and to enhance their abilities. Data applications and assessment indicators in personalized learning are described in detail, providing a solid data foundation and evaluation system for subsequent research. Meanwhile, we start from both student modeling and recommendation algorithms and deeply analyze the cognitive and non-cognitive perspectives and the contribution of personalized recommendations to personalized learning. Finally, we explore the challenges and future trajectories of personalized learning. This review provides a multidimensional analysis of personalized learning through a more comprehensive study, providing academics and practitioners with cutting-edge explorations to promote continuous progress in the field of personalized learning.
翻訳日:2024-02-11 17:18:59 公開日:2024-01-15
# バーチャルリアリティと人工知能を用いた読字障害学生の難易度判定 : 探索的分析

Determining the Difficulties of Students With Dyslexia via Virtual Reality and Artificial Intelligence: An Exploratory Analysis ( http://arxiv.org/abs/2402.01668v1 )

ライセンス: Link先を確認
Enrique Yeguas-Bol\'ivar, Jos\'e M. Alcalde-Llergo, Pilar Aparicio-Mart\'inez, Juri Taborri, Andrea Zingoni and Sara Pinzi(参考訳) 学習障害は、脳のコミュニケーション領域を相互接続する能力に影響を与える神経疾患である。 ディスレクシックな学生は、概念の読み書き、記憶、露出に問題を抱えるが、これらの大きさは、治療と補償メカニズムの作成の両方を通じて軽減できる。 これらの問題を緩和するためにいくつかの取り組みが行われ、初等・中等教育レベルに通う特定の学習障害を持つ学生のためのデジタルリソースの作成に繋がった。 逆に、高等教育では標準的アプローチが欠落している。 VRAIlexiaプロジェクトは、データを迅速かつ容易に収集するためのバーチャルリアリティ(VR)を統合するモバイルアプリケーションと、収集したデータを分析して各学生のサポート方法論をカスタマイズする人工知能ベースのソフトウェア(AI)の2つの異なるツールを提案することでこの問題に対処するために作られた。 最初のものは、特定の心理学的、心理測定的テストの実施のために、高等教育機関の読字障害学生に配布され、作成されている。 第2のツールは、アプリケーションやその他の調査によって収集されたデータに、特定の人工知能アルゴリズムを適用する。 これらのAI技術により、学生のコホートが直面する最も関係のある困難を特定できるようになった。 我々の異なるモデルは、サポートツールと学習戦略を予測する平均精度を約90%取得しました。

Learning disorders are neurological conditions that affect the brain's ability to interconnect communication areas. Dyslexic students experience problems with reading, memorizing, and exposing concepts; however the magnitude of these can be mitigated through both therapies and the creation of compensatory mechanisms. Several efforts have been made to mitigate these issues, leading to the creation of digital resources for students with specific learning disorders attending primary and secondary education levels. Conversely, a standard approach is still missed in higher education. The VRAIlexia project has been created to tackle this issue by proposing two different tools: a mobile application integrating virtual reality (VR) to collect data quickly and easily, and an artificial intelligencebased software (AI) to analyze the collected data for customizing the supporting methodology for each student. The first one has been created and is being distributed among dyslexic students in Higher Education Institutions, for the conduction of specific psychological and psychometric tests. The second tool applies specific artificial intelligence algorithms to the data gathered via the application and other surveys. These AI techniques have allowed us to identify the most relevant difficulties faced by the students' cohort. Our different models have obtained around 90\% mean accuracy for predicting the support tools and learning strategies.
翻訳日:2024-02-11 17:04:22 公開日:2024-01-15
# 学生の宿泊予約:多基準意思決定支援システム

Students' accommodation allocation: A Multicriteria Decision Support System ( http://arxiv.org/abs/2402.01667v1 )

ライセンス: Link先を確認
R\^olin Gabriel Rasoanaivo (IRIT, UT Capitole), Pascale Zarat\'e (IRIT, UT Capitole, IRIT-ADRIA)(参考訳) 大学の学生の社会生活は、その教育的成功に影響を与えている。 宿泊施設の割当ては、この側面の一部です。 本稿では,学生のアロケーション・アバエーションを改善するための提案について述べる。 我々は,学生の住宅選択を支援することを目的としている。 そこで本稿では,複数基準決定支援手法に基づく意思決定支援システムを提案する。 基準の重みを計算するために, ahp法を用いる。 そして, 学生のランク付けには, ahp, weighted sum method, promethee methodが用いられる。 その目的は、生徒のランク付けに最も適した方法を見つけることである。 その結果、ahpは基準の重みを計算でき、ahp, swm, prometheeは学生のランク付けが可能である。

The social life of students at university has an impact on their educational success. The allocation of accommodation is part of this aspect. This article presents our proposal to improve students' allocation accommodation. We aim to support university administrative departments for the selection of students for housing. Therefore, we propose a decision support system based on multi-criteria decision support methods. To calculate the weights of the criteria, we use the AHP method. Then, to rank the students, AHP, Weighted Sum Method and PROMETHEE methods are used. The aim is to find the most adequate method to rank the students. The result is achieved because the AHP is able to calculate the weight of criteria and the AHP, SWM and PROMETHEE are able to rank the students.
翻訳日:2024-02-11 17:03:59 公開日:2024-01-15
# 6gにおけるワイヤレスネットワーク最適化のための知識駆動型ディープラーニングパラダイム

Knowledge-Driven Deep Learning Paradigms for Wireless Network Optimization in 6G ( http://arxiv.org/abs/2402.01665v1 )

ライセンス: Link先を確認
Ruijin Sun, Nan Cheng, Changle Li, Fangjiong Chen, Wen Chen(参考訳) 第6世代(6G)ネットワークでは、動的ネットワーク環境における大規模ユーザの新たな多様化サービスが多次元異種資源で満たされることが求められている。 結果として生じる大規模な複雑なネットワーク最適化問題は、計算の複雑さと長い処理時間のために、モデルに基づく理論手法の能力を超えている。 高速なオンライン推論と普遍近似能力を持つが、データ駆動型ディープラーニング(DL)は豊富なトレーニングデータに大きく依存し、解釈可能性に欠ける。 これらの問題を解決するために、ニューラルネットワークの構築に実証済みのドメイン知識を統合することを目的として、知識駆動型DLと呼ばれる新しいパラダイムが登場した。 本稿では,ワイヤレスネットワークにおける知識駆動dlの体系的レビューを行う。 具体的には,無線ネットワークにおける知識駆動型DLの全体的枠組みを提案し,知識源,知識表現,知識統合,知識アプリケーションなどがクローズドループとして形成されている。 次に、知識支援、知識融合、知識組み込みDLを含む知識統合アプローチの詳細な分類について述べる。 今後の研究の課題もいくつか議論されている。 本稿では、通信固有のドメイン知識とDLを組み込んだネットワーク最適化設計の基本原則として、インテリジェントな6Gネットワークの実現を促進する。

In the sixth-generation (6G) networks, newly emerging diversified services of massive users in dynamic network environments are required to be satisfied by multi-dimensional heterogeneous resources. The resulting large-scale complicated network optimization problems are beyond the capability of model-based theoretical methods due to the overwhelming computational complexity and the long processing time. Although with fast online inference and universal approximation ability, data-driven deep learning (DL) heavily relies on abundant training data and lacks interpretability. To address these issues, a new paradigm called knowledge-driven DL has emerged, aiming to integrate proven domain knowledge into the construction of neural networks, thereby exploiting the strengths of both methods. This article provides a systematic review of knowledge-driven DL in wireless networks. Specifically, a holistic framework of knowledge-driven DL in wireless networks is proposed, where knowledge sources, knowledge representation, knowledge integration and knowledge application are forming as a closed loop. Then, a detailed taxonomy of knowledge integration approaches, including knowledge-assisted, knowledge-fused, and knowledge-embedded DL, is presented. Several open issues for future research are also discussed. The insights offered in this article provide a basic principle for the design of network optimization that incorporates communication-specific domain knowledge and DL, facilitating the realization of intelligent 6G networks.
翻訳日:2024-02-11 17:03:51 公開日:2024-01-15
# tpアウェア脱量子化

TP-Aware Dequantization ( http://arxiv.org/abs/2402.04925v1 )

ライセンス: Link先を確認
Adnan Hoque, Mudhakar Srivatsa, Chih-Chieh Yang, Raghu Ganti(参考訳) 本稿では,大規模言語モデル(llms)の分散配置時のモデル推論遅延を削減する新しい手法を提案する。 我々のコントリビューションは、Tensor Parallel(TP)と組み合わせて使用する場合、最先端量子化カーネルの現在の制限に対処する最適化された推論デプロイメントスキームである。 提案手法は,GPUメモリアクセスパターンにおけるデータの局所性を保存し,TPの事前知識を利用してグローバル通信を削減する。 我々は、Llama-70Bの既存のメソッドを最大1.81倍高速化し、様々なTP設定のためにA100およびH100 NVIDIA DGX Systems上でIBM WatsonXのGranite-20B MLP層の問題サイズを最大1.78倍高速化した。

In this paper, we present a novel method that reduces model inference latency during distributed deployment of Large Language Models (LLMs). Our contribution is an optimized inference deployment scheme that address the current limitations of state-of-the-art quantization kernels when used in conjunction with Tensor Parallel (TP). Our method preserves data locality in GPU memory access patterns and exploits a priori knowledge of TP to reduce global communication. We demonstrate an up to 1.81x speedup over existing methods for Llama-70B and up to 1.78x speedup for IBM WatsonX's Granite-20B MLP layer problem sizes on A100 and H100 NVIDIA DGX Systems for a variety of TP settings.
翻訳日:2024-02-11 15:14:29 公開日:2024-01-15
# 脳波と機械学習による学習タスク中の脳活動の分析

Analyzing Brain Activity During Learning Tasks with EEG and Machine Learning ( http://arxiv.org/abs/2401.10285v1 )

ライセンス: Link先を確認
Ryan Cho, Mobasshira Zaman, Kyu Taek Cho, Jaejin Hwang(参考訳) 本研究の目的は、様々なSTEM活動中の脳活動を分析し、異なるタスク間の分類の可能性を探ることである。 5つの認知課題に携わった20名の被験者の脳波脳データを収集し,4秒間のクリップに分割した。 次に、脳波のパワースペクトル密度を解析した。 XGBoost、Random Forest、Bagging Classifierで異なるk-intervalを試験した結果、Random Forestは2つの間隔でテスト精度91.07%を達成した。 4つの脳波チャンネル全てを利用する場合、認知的柔軟性が最も認識できた。 タスク固有の分類精度は, 数学的処理と計画に優れた右前頭葉, 認知的柔軟性と精神的柔軟性の左前頭葉, 接続性の左後頭葉であった。 特に,STEM活動中に前頭葉と側頭葉の多数の関係が観察された。 本研究は、脳活動の分析における機械学習の実装に関する深い理解に寄与し、脳のメカニズムに光を当てる。

This study aimed to analyze brain activity during various STEM activities, exploring the feasibility of classifying between different tasks. EEG brain data from twenty subjects engaged in five cognitive tasks were collected and segmented into 4-second clips. Power spectral densities of brain frequency waves were then analyzed. Testing different k-intervals with XGBoost, Random Forest, and Bagging Classifier revealed that Random Forest performed best, achieving a testing accuracy of 91.07% at an interval size of two. When utilizing all four EEG channels, cognitive flexibility was most recognizable. Task-specific classification accuracy showed the right frontal lobe excelled in mathematical processing and planning, the left frontal lobe in cognitive flexibility and mental flexibility, and the left temporoparietal lobe in connections. Notably, numerous connections between frontal and temporoparietal lobes were observed during STEM activities. This study contributes to a deeper understanding of implementing machine learning in analyzing brain activity and sheds light on the brain's mechanisms.
翻訳日:2024-01-28 16:22:57 公開日:2024-01-15
# 音韻障害学生への共感を高めるvrゲーム

A VR Serious Game to Increase Empathy towards Students with Phonological Dyslexia ( http://arxiv.org/abs/2401.10926v1 )

ライセンス: Link先を確認
Jos\'e M. Alcalde-Llergo, Enrique Yeguas-Bol\'ivar, Pilar Aparicio-Mart\'inez, Andrea Zingoni, Juri Taborri and Sara Pinzi(参考訳) ジスレキシア(Dyslexia)は、神経発達障害であり、人口の約5~10%に影響を与えると推定されている。 特に、音韻的失読症は、単語の音と書かれた形式を結びつける際に問題を引き起こす。 その結果,読解速度の低下,不正確な読解,不慣れな単語の復号化が困難となる。 さらに、ディプレキシアは、友人や教育者によって誤解されたり誤解されたりしたと感じている学生にとって、困難でフラストレーションのある経験である。 これらの理由から、ディプレクシック学生が非ディプレクシック学生と同じ機会を持つためには、補償ツールと戦略の使用が重要である。 しかし、概して、人々は問題を過小評価し、支援方法論の重要性を意識していない。 本研究の目的は,教師,学生,一般の非ディプレクシックな人々が,ディフレキシーの学生の課題や支援の基本的な有用性について理解しうる,仮想現実(VR)の真剣なゲームを提案することである。 ゲームでは、プレイヤーは、ディプレキシアの個人が経験する読解困難を再現するために特別に設計されたアルファベットで書かれたレシピを従わなければならない。 この課題はまず何の助けもなく解決され、次にプレイヤーがディプレクシックな人物の代わりに自分自身を配置し、支援方法論の真のニーズを理解するという考え方で支援ツールや戦略を受け取る。

Dyslexia is a neurodevelopmental disorder that is estimated to affect about 5-10% of the population. In particular, phonological dyslexia causes problems in connecting the sounds of words with their written forms. This results in difficulties such as slow reading speed, inaccurate reading, and difficulty decoding unfamiliar words. Moreover, dyslexia can also be a challenging and frustrating experience for students as they may feel misunderstood or stigmatized by their peers or educators. For these reasons, the use of compensatory tools and strategies is of crucial importance for dyslexic students to have the same opportunities as non-dyslexic ones. However, generally, people underestimate the problem and are not aware of the importance of support methodologies. In the light of this, the main purpose of this paper is to propose a virtual reality (VR) serious game through which teachers, students and, in general, non-dyslexic people could understand which are some of the issues of student with dyslexia and the fundamental utility of offering support to them. In the game, players must create a potion by following a recipe written in an alphabet that is specifically designed to replicate the reading difficulties experienced by individuals with dyslexia. The task must be solved first without any help and then by receiving supporting tools and strategies with the idea that the player can put himself in the place of the dyslexic person and understand the real need for support methodologies.
翻訳日:2024-01-28 15:54:35 公開日:2024-01-15
# 確率最適化のためのヘシアン逆数のオンライン推定と普遍確率ニュートンアルゴリズムへの応用

Online estimation of the inverse of the Hessian for stochastic optimization with application to universal stochastic Newton algorithms ( http://arxiv.org/abs/2401.10923v1 )

ライセンス: Link先を確認
Antoine Godichon-Baggioni (LPSM (UMR_8001)), Wei Lu (LMI), Bruno Portier (LMI)(参考訳) 本稿では,期待として記述された凸関数の最小値推定のための2階確率最適化について述べる。 Robbins-Monro 法を用いて逆 Hessian 行列の直接帰納的推定手法を提案する。 このアプローチは計算の複雑さを劇的に減らすことができる。 とりわけ、普遍的確率ニュートン法を開発し、提案手法の漸近的効率性を検討することができる。 この作業は、確率最適化における二次アルゴリズムの応用範囲を広げる。

This paper addresses second-order stochastic optimization for estimating the minimizer of a convex function written as an expectation. A direct recursive estimation technique for the inverse Hessian matrix using a Robbins-Monro procedure is introduced. This approach enables to drastically reduces computational complexity. Above all, it allows to develop universal stochastic Newton methods and investigate the asymptotic efficiency of the proposed approach. This work so expands the application scope of secondorder algorithms in stochastic optimization.
翻訳日:2024-01-28 15:54:10 公開日:2024-01-15
# サイバー物理システムにおけるプッシュとプルによる効果的なコミュニケーション

Push- and Pull-based Effective Communication in Cyber-Physical Systems ( http://arxiv.org/abs/2401.10921v1 )

ライセンス: Link先を確認
Pietro Talli, Federico Mason, Federico Chiariotti, and Andrea Zanella(参考訳) サイバー物理システム(cpss)では、2つのアクターがシステム性能の最大化に向けて相互作用する: センサー、システム状態の観察と普及、受信した情報に基づいて物理的決定を行うアクチュエータである。 一般に、センサーは定期的に更新を送信し、必要に応じてフィードバック信号を返却し、その結果、物理的決定を通信方針に適応させることで、システムの効率を大幅に改善できると仮定されている。 特に、センサによって自律的に更新を開始するプッシュベースの通信と、アクチュエータによって要求されるプルベースの通信とが、重要な設計ステップである。 本研究では,CPSにおけるプッシュ・アンド・プル・ベースの通信を最適化するための分析モデルを提案し,ポリシーの最適性は情報の価値(VoI)の最大化と一致することを示した。 我々の結果は、より良い最適ソリューションを提供するにもかかわらず、実装可能なプッシュベースの通信戦略は比較的単純なシナリオでも性能が劣る可能性があることも強調した。

In Cyber Physical Systems (CPSs), two groups of actors interact toward the maximization of system performance: the sensors, observing and disseminating the system state, and the actuators, performing physical decisions based on the received information. While it is generally assumed that sensors periodically transmit updates, returning the feedback signal only when necessary, and consequently adapting the physical decisions to the communication policy, can significantly improve the efficiency of the system. In particular, the choice between push-based communication, in which updates are initiated autonomously by the sensors, and pull-based communication, in which they are requested by the actuators, is a key design step. In this work, we propose an analytical model for optimizing push- and pull-based communication in CPSs, observing that the policy optimality coincides with Value of Information (VoI) maximization. Our results also highlight that, despite providing a better optimal solution, implementable push-based communication strategies may underperform even in relatively simple scenarios.
翻訳日:2024-01-28 15:54:02 公開日:2024-01-15
# トポロジカルスクリュー転位と宇宙散逸によるスピン電流の変形」に対するコメント

Comment on "Deformations of the spin currents by topological screw dislocation and cosmic dispiration'' ( http://arxiv.org/abs/2401.10919v1 )

ライセンス: Link先を確認
R. R. S. Oliveira(参考訳) このコメントにおいて、スクリュー転位時空におけるディラック方程式は、そのようなトポロジカルな欠陥のねじれを表す用語($K_\mu$)も持つことを示した。 したがって、wangらが行ったdirac方程式は、そのような用語があなたの方程式で無視された(起こり得ない)ため、不完全である。 言い換えれば、wangらによって提示された形式でディラック方程式を扱うことは可能であり、時空がねじれのない場合、明らかにそうではない。

In this comment, we showed that the Dirac equation in the screw dislocation space-time also carries a term that represents the torsion of such topological defect, given by $K_\mu$. Therefore, the Dirac equation worked by Wang et al. is incomplete since such a term was ignored in your equation (what cannot happen). In other words, it is only possible to work with the Dirac equation in the form presented by Wang et al. if the space-time is torsion-free, which is obviously not the case.
翻訳日:2024-01-28 15:53:31 公開日:2024-01-15
# ヒトv/s合成テストデータとラウンドトリップがバイアスに対する感情分析システムの評価に及ぼす影響

The Effect of Human v/s Synthetic Test Data and Round-tripping on Assessment of Sentiment Analysis Systems for Bias ( http://arxiv.org/abs/2401.12985v1 )

ライセンス: Link先を確認
Kausik Lakkaraju, Aniket Gupta, Biplav Srivastava, Marco Valtorta, Dezhi Wu(参考訳) 知覚分析システム(英: Sentiment Analysis Systems、SAS)は、データ駆動人工知能(AI)システムで、テキストを入力として与えたときに極性と感情的な強度を出力する。 他のAIと同様、SASもデータの変更を受けると不安定な振る舞いをすることが知られており、AIが人間と働き、データが性別、人種、年齢などの属性を保護している場合、バイアスのような懸念から信頼することが問題になる可能性がある。 近年、トレーニングデータやコードなしでブラックボックス設定でSASを評価し、合成英語データを用いてバイアスとして評価する手法が提案されている。 2つの人間が生成したチャットボットデータセットを導入し、中間言語を介して1つの言語から1つの言語にデータを変換するラウンドトリップ設定も検討する。 これらの設定はより現実的な光でSASのパフォーマンスを示す。 具体的には、チャットボットデータに対する評価SASは、合成データよりも偏りが強く、中間言語としてスペイン語とデンマーク語を使ったラウンドトリップは、人為的なデータの偏り(最大68%の減少)を減らし、合成データでは、偏りを増すことで驚くべきターンをとっています。 我々の発見は、研究者や実践者がSASテスト戦略を洗練させ、SASがよりミッションクリティカルなグローバル利用のアプリケーションの一部であるとして信頼を高めるのに役立つだろう。

Sentiment Analysis Systems (SASs) are data-driven Artificial Intelligence (AI) systems that output polarity and emotional intensity when given a piece of text as input. Like other AIs, SASs are also known to have unstable behavior when subjected to changes in data which can make it problematic to trust out of concerns like bias when AI works with humans and data has protected attributes like gender, race, and age. Recently, an approach was introduced to assess SASs in a blackbox setting without training data or code, and rating them for bias using synthetic English data. We augment it by introducing two human-generated chatbot datasets and also consider a round-trip setting of translating the data from one language to the same through an intermediate language. We find that these settings show SASs performance in a more realistic light. Specifically, we find that rating SASs on the chatbot data showed more bias compared to the synthetic data, and round-tripping using Spanish and Danish as intermediate languages reduces the bias (up to 68% reduction) in human-generated data while, in synthetic data, it takes a surprising turn by increasing the bias! Our findings will help researchers and practitioners refine their SAS testing strategies and foster trust as SASs are considered part of more mission-critical applications for global use.
翻訳日:2024-01-28 15:45:28 公開日:2024-01-15
# マルチ層ネットワークによるトピックの進化 : 2022年カタールFIFAワールドカップの200万ツイートの分析

Topics evolution through multilayer networks; Analysing 2M tweets from 2022 Qatar FIFA World Cup ( http://arxiv.org/abs/2401.12228v1 )

ライセンス: Link先を確認
Andrea Russo, Vincenzo Miracula and Antonio Picone(参考訳) 本研究では,2022年カタールのfifaワールドカップイベントに関する総合的なデータ収集を行い,それらの文脈と意味の関係を考慮しつつ,主要なトピックを可視化する多層ネットワークアプローチを用いた。 トーナメントのステージに対応するレイヤにデータを構造化し,gephiソフトウェアを用いて多層ネットワークを生成する。 我々の可視化では、話題と単語の関連性を示し、単語とコンテキストの関係と、最も頻繁に議論されるトピックの層による時間的変化を示した。

In this study, we conducted a comprehensive data collection on the 2022 Qatar FIFA World Cup event and used a multilayer network approach to visualize the main topics, while considering their context and meaning relationships. We structured the data into layers that corresponded with the stages of the tournament and utilized Gephi software to generate the multilayer networks. Our visualizations displayed both the relationships between topics and words, showing the word-context relationship, as well as the dynamics and changes over time by layer of the most frequently discussed topics.
翻訳日:2024-01-28 15:41:37 公開日:2024-01-15
# チャレンジデザインのロードマップ

Challenge design roadmap ( http://arxiv.org/abs/2401.13693v1 )

ライセンス: Link先を確認
Hugo Jair Escalante Balderas, Isabelle Guyon (LISN, TAU), Addison Howard, Walter Reade, Sebastien Treguer (TAU)(参考訳) チャレンジは、参加者が深刻なタスクを解く動機となる一種のゲームと見なすことができる。 その結果、競技組織は効果的なゲームルールを開発する必要がある。 しかし、これらのルールは参加者にとって楽しいゲーム以上の目的を持っている。 これらの目的には、現実世界の問題の解決、科学分野や技術分野の進歩、科学的発見、大衆の教育などが含まれる。 さまざまな意味で、挑戦を作ることは、プロダクトの立ち上げと似ている。 同じレベルの興奮と厳密なテストが必要であり、参加者の形で'顧客'を引き付けることが目標です。 このプロセスは、最終的には国際会議に提出され、ピアレビューの対象となるコンペティション提案など、堅固な計画から始まります。 ピアレビューは品質を保証するものではないが、組織は自身の課題の影響を考慮し、潜在的な監視を特定し、一般的にその品質を改善することを強制する。 この章は、挑戦のための強力な計画を作成するためのガイドラインを提供する。 この資料は、Kaggle 1、ChaLearn 2、Tailor 3といった組織や、何人かの著者がコントリビュートしたNeurIPS提案テンプレートから準備ガイドラインを引用している。

Challenges can be seen as a type of game that motivates participants to solve serious tasks. As a result, competition organizers must develop effective game rules. However, these rules have multiple objectives beyond making the game enjoyable for participants. These objectives may include solving real-world problems, advancing scientific or technical areas, making scientific discoveries, and educating the public. In many ways, creating a challenge is similar to launching a product. It requires the same level of excitement and rigorous testing, and the goal is to attract ''customers'' in the form of participants. The process begins with a solid plan, such as a competition proposal that will eventually be submitted to an international conference and subjected to peer review. Although peer review does not guarantee quality, it does force organizers to consider the impact of their challenge, identify potential oversights, and generally improve its quality. This chapter provides guidelines for creating a strong plan for a challenge. The material draws on the preparation guidelines from organizations such as Kaggle 1 , ChaLearn 2 and Tailor 3 , as well as the NeurIPS proposal template, which some of the authors contributed to.
翻訳日:2024-01-28 15:32:43 公開日:2024-01-15
# データストリーム上の連続クエリに対する仮説解

Hypothetical answers to continuous queries over data streams ( http://arxiv.org/abs/1905.09610v3 )

ライセンス: Link先を確認
Lu\'is Cruz-Filipe, Gra\c{c}a Gaspar, Isabel Nunes(参考訳) データストリーム上の連続クエリは、ブロッキング操作や/またはアンバウンドウェイトに悩まされる可能性がある。 これらの遅延は、回答が到着すると、何の助けもなく意思決定をしなければならないユーザーには時代遅れになる可能性がある。 したがって、仮説的な答えを与えるのに役立つ:「現在の情報があれば、X は情報がない代わりに t 時に真になる可能性がある」。 本稿では,このような仮説的な回答をカバーするクエリと対応する回答のセマンティクスと,現在利用可能な情報と一致する事実の集合を更新するオンラインアルゴリズムを提案する。

Continuous queries over data streams may suffer from blocking operations and/or unbound wait, which may delay answers until some relevant input arrives through the data stream. These delays may turn answers, when they arrive, obsolete to users who sometimes have to make decisions with no help whatsoever. Therefore, it can be useful to provide hypothetical answers - "given the current information, it is possible that X will become true at time t" - instead of no information at all. In this paper we present a semantics for queries and corresponding answers that covers such hypothetical answers, together with an online algorithm for updating the set of facts that are consistent with the currently available information.
翻訳日:2024-01-19 21:14:17 公開日:2024-01-15
# マルチモーダルディープラーニングを用いた不確実性を考慮したハードウェアトロイの木馬検出

Uncertainty-Aware Hardware Trojan Detection Using Multimodal Deep Learning ( http://arxiv.org/abs/2401.09479v1 )

ライセンス: Link先を確認
Rahul Vishwakarma, Amin Rezaei(参考訳) チップ製造の様々な段階でハードウェアトロイの木馬が挿入されるリスクは、ゼロトラストファブレス時代に増大している。 これに対応するために、ハードウェアトロイの木馬検出のための様々な機械学習ソリューションが開発されている。 統計学または深層学習のアプローチに焦点が当てられているが、トロイの木馬に感染したベンチマークの限られた数は検出精度に影響を与え、ゼロデイトロイの木馬を検出する可能性を制限する。 このギャップを埋めるために,我々はまず,生成型adversarial networkを用いて,グラフと表式という2つの代替表現モダリティでデータを増幅し,データセットが代表的に配布されることを保証する。 さらに,ハードウェアトロイの木馬を検出するマルチモーダル深層学習手法を提案し,早期融合戦略と後期融合戦略の両方から結果を評価する。 また,リスク対応意思決定における各予測の不確実性定量化指標を推定する。 結果は,提案手法の有効性を確認するだけでなく,他のハードウェアセキュリティ課題に対するマルチモダリティと不確実性定量化を用いた今後の研究への新たな扉を開くものである。

The risk of hardware Trojans being inserted at various stages of chip production has increased in a zero-trust fabless era. To counter this, various machine learning solutions have been developed for the detection of hardware Trojans. While most of the focus has been on either a statistical or deep learning approach, the limited number of Trojan-infected benchmarks affects the detection accuracy and restricts the possibility of detecting zero-day Trojans. To close the gap, we first employ generative adversarial networks to amplify our data in two alternative representation modalities, a graph and a tabular, ensuring that the dataset is distributed in a representative manner. Further, we propose a multimodal deep learning approach to detect hardware Trojans and evaluate the results from both early fusion and late fusion strategies. We also estimate the uncertainty quantification metrics of each prediction for risk-aware decision-making. The outcomes not only confirms the efficacy of our proposed hardware Trojan detection method but also opens a new door for future studies employing multimodality and uncertainty quantification to address other hardware security challenges.
翻訳日:2024-01-19 19:10:22 公開日:2024-01-15
# DISTINQT - 将来のモバイルおよびワイヤレスネットワークのためのQoS予測のための分散プライバシ意識学習フレームワーク

DISTINQT: A Distributed Privacy Aware Learning Framework for QoS Prediction for Future Mobile and Wireless Networks ( http://arxiv.org/abs/2401.10158v1 )

ライセンス: Link先を確認
Nikolaos Koursioumpas, Lina Magoula, Ioannis Stavrakakis, Nancy Alonistioti, M. A. Gutierrez-Estevez, Ramin Khalili(参考訳) 5Gと6G以上のネットワークは、あるレベルのQuality of Service(QoS)に依存してスムーズな運用を行う、新しくて困難なユースケースとアプリケーションをサポートすることが期待されている。 QoSをタイムリーに予測することは、特に車両通信の場合のように、安全クリティカルな用途において非常に重要である。 近年まで、集中型人工知能(AI)ソリューションによってQoS予測が実行されてきたが、多くのプライバシー、計算、運用上の懸念が浮かび上がっている。 代替ソリューション(Split Learning、Federated Learningなど)が浮上し、データのプライバシを保持しながら、ノード間で複雑さを低減したAIタスクを分散する。 しかし、将来の無線ネットワークの異質性を考慮したスケーラブルな分散学習アプローチでは、新たな課題が生まれている。 現在の研究は、QoS予測のためのプライバシーを意識した分散学習フレームワークであるDISTINQTを提案する。 我々のフレームワークは、データ型とモデルアーキテクチャの観点から複数の異種ノードをサポートし、それらをまたいだ計算を共有する。 これにより、最終QoS予測モデルの堅牢性と一般化能力を高めるために、多様な知識を単独の学習プロセスに組み込むことができる。 DISTINQTはまた、生の入力データを送信前に非線形の潜在表現にエンコードすることで、データのプライバシ保護にも貢献する。 評価結果から,本フレームワークは,Tele-Operated Driving ユースケースにおける6つの最先端集中型ベースラインソリューションに対して,集中型バージョンと比較して統計的に同一性能を実現し,平均65%の性能向上を実現していることが示された。

Beyond 5G and 6G networks are expected to support new and challenging use cases and applications that depend on a certain level of Quality of Service (QoS) to operate smoothly. Predicting the QoS in a timely manner is of high importance, especially for safety-critical applications as in the case of vehicular communications. Although until recent years the QoS prediction has been carried out by centralized Artificial Intelligence (AI) solutions, a number of privacy, computational, and operational concerns have emerged. Alternative solutions have been surfaced (e.g. Split Learning, Federated Learning), distributing AI tasks of reduced complexity across nodes, while preserving the privacy of the data. However, new challenges rise when it comes to scalable distributed learning approaches, taking into account the heterogeneous nature of future wireless networks. The current work proposes DISTINQT, a privacy-aware distributed learning framework for QoS prediction. Our framework supports multiple heterogeneous nodes, in terms of data types and model architectures, by sharing computations across them. This, enables the incorporation of diverse knowledge into a sole learning process that will enhance the robustness and generalization capabilities of the final QoS prediction model. DISTINQT also contributes to data privacy preservation by encoding any raw input data into a non-linear latent representation before any transmission. Evaluation results showcase that our framework achieves a statistically identical performance compared to its centralized version and an average performance improvement of up to 65% against six state-of-the-art centralized baseline solutions in the Tele-Operated Driving use case.
翻訳日:2024-01-19 15:33:48 公開日:2024-01-15
# 微調整のない漸近自由の量子ビット正則化

A qubit regularization of asymptotic freedom without fine-tuning ( http://arxiv.org/abs/2401.10157v1 )

ライセンス: Link先を確認
Sandip Maiti, Debasish Banerjee, Shailesh Chandrasekharan, Marina Krstic Marinkovic(参考訳) 一般的に使われているウィルソンの量子場理論の正規化(QFT)以外にも、QFTの量子シミュレーションの次の時代を期待して、厳密に有限な局所ヒルベルト空間を持つ格子模型を探索する正規化への関心が高まっている。 注目すべき例はユークリッド量子ビット正則化であり、格子理論の赤外不動点によって生じる連続qftを自然に回復する方法を提供する。 このような正規化は、紫外線固定点の物理学も捉えることができるのか? 本稿では,Berezenski-Kosterlitz-Thouless(BKT)遷移における漸近的に自由な大規模連続体QFTの新たな正規化について述べる。 特に, 微調整を必要とせずに, 古典格子xyモデルの位相遷移に近づくと, 普遍的なステップスケーリング関数を巨大位相で再現できることを実証する。

Other than the commonly used Wilson's regularization of quantum field theories (QFTs), there is a growing interest in regularizations that explore lattice models with a strictly finite local Hilbert space, in anticipation of the upcoming era of quantum simulations of QFTs. A notable example is Euclidean qubit regularization, which provides a natural way to recover continuum QFTs that emerge via infrared fixed points of lattice theories. Can such regularizations also capture the physics of ultraviolet fixed points? We present a novel regularization of the asymptotically free massive continuum QFT that emerges at the Berezenski-Kosterlitz-Thouless (BKT) transition through a hard core loop-gas model, discussing the advantages this model provides compared to traditional regularizations. In particular, we demonstrate that without the need for fine-tuning, it can reproduce the universal step-scaling function of the classical lattice XY model in the massive phase as we approach the phase transition.
翻訳日:2024-01-19 15:33:19 公開日:2024-01-15
# 鼻をたどる -- どのコードの臭いが追いかける価値があるか?

Follow Your Nose -- Which Code Smells are Worth Chasing? ( http://arxiv.org/abs/2103.01861v2 )

ライセンス: Link先を確認
Idan Amit, Nili Ben Ezra, Dror G. Feitelson(参考訳) コードの臭いの一般的なユースケースは、臭いを特定し、取り除き、コードを改善するという因果関係を前提としています。 私たちはこの使用に対する彼らの適合性を実証的に調査する。 コードの臭いが品質を低下させるような特性のリストを提示します。 私たちは、677のgithubリポジトリから31,687のjavaファイルの臭いを評価しました。 匂いの影響を,品質,生産性,バグ検出効率の4つの指標で測定した。 CheckStyleの嗅覚検出装置によって計算された151のコードの臭いのうち、20%未満は因果性があり、わずかにしか堅牢ではない。 最も強い匂いは、単純さ、防御的なプログラミング、抽象化を扱う。 潜在的に因果的な臭いのないファイルは、高品質である可能性が50%高い。 残念なことに、ほとんどの臭いは取り除かれず、開発者は簡単に取り除く傾向があり、効果的ではない。

The common use case of code smells assumes causality: Identify a smell, remove it, and by doing so improve the code. We empirically investigate their fitness to this use. We present a list of properties that code smells should have if they indeed cause lower quality. We evaluated the smells in 31,687 Java files from 677 GitHub repositories, all the repositories with 200+ commits in 2019. We measured the influence of smells on four metrics for quality, productivity, and bug detection efficiency. Out of 151 code smells computed by the CheckStyle smell detector, less than 20% were found to be potentially causal, and only a handful are rather robust. The strongest smells deal with simplicity, defensive programming, and abstraction. Files without the potentially causal smells are 50% more likely to be of high quality. Unfortunately, most smells are not removed, and developers tend to remove the easy ones and not the effective ones.
翻訳日:2024-01-18 22:39:22 公開日:2024-01-15
# Riesz表現子の逆推定

Adversarial Estimation of Riesz Representers ( http://arxiv.org/abs/2101.00009v2 )

ライセンス: Link先を確認
Victor Chernozhukov, Whitney Newey, Rahul Singh, Vasilis Syrgkanis(参考訳) 多くの因果的および構造的パラメータは、下層の回帰の線形汎関数である。 リース表現器は半パラメトリック推定線型汎函数の漸近分散における鍵成分である。 一般関数空間を用いてRiesz表現子を推定する逆フレームワークを提案する。 臨界半径と呼ばれる抽象的な量を用いて非漸近平均二乗率を証明し、それをニューラルネットワーク、ランダムフォレスト、カーネルヒルベルト空間を主ケースとして特殊化する。 さらに、ドンスカー理論の代わりに臨界半径理論を用い、サンプル分割をせずに漸近正規性を証明する。 サンプル分割のない推論は、いくつかの機械学習設定で可能であり、サンプル分割よりも有限標本性能が向上する可能性がある。 我々の推定器は, 従来手法が故障した高非線形シミュレーションにおいて, 名目的カバレッジを達成する。 彼らは一致する助成金の異質な効果に新しい光を当てた。

Many causal and structural parameters are linear functionals of an underlying regression. The Riesz representer is a key component in the asymptotic variance of a semiparametrically estimated linear functional. We propose an adversarial framework to estimate the Riesz representer using general function spaces. We prove a nonasymptotic mean square rate in terms of an abstract quantity called the critical radius, then specialize it for neural networks, random forests, and reproducing kernel Hilbert spaces as leading cases. Furthermore, we use critical radius theory -- in place of Donsker theory -- to prove asymptotic normality without sample splitting, uncovering a ``complexity-rate robustness'' condition. This condition has practical consequences: inference without sample splitting is possible in several machine learning settings, which may improve finite sample performance compared to sample splitting. Our estimators achieve nominal coverage in highly nonlinear simulations where previous methods break down. They shed new light on the heterogeneous effects of matching grants.
翻訳日:2024-01-18 22:38:04 公開日:2024-01-15
# モーメントを用いた確率勾配の一般化について

On the Generalization of Stochastic Gradient Descent with Momentum ( http://arxiv.org/abs/1809.04564v3 )

ライセンス: Link先を確認
Ali Ramezani-Kebrya, Kimon Antonakopoulos, Volkan Cevher, Ashish Khisti, Ben Liang(参考訳) 運動量に基づく確率的勾配降下(sgd)の変種は機械学習モデルの訓練に広く用いられているが、そのような方法の一般化誤差に関する理論的理解はほとんどない。 本研究では, 標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。 次に,スムーズなリプシッツ損失関数に対して,SGDEM(アーリーモーメント付きSGDEM)の修正モーメントベースの更新ルールを広範囲のステップサイズで解析し,一般化の保証とともに,複数のエポックに対する機械学習モデルを訓練可能であることを示す。 最後に、強凸損失関数の特別な場合、標準SGDMの複数のエポックがSGDEMの特別な形式として一般化されるような運動量の範囲が見つかる。 一般化に関する結果を拡張することで、トレーニングステップ数、サンプルサイズ、運動量などの観点から、期待される真のリスクの上限も向上します。 数値結果と理論的境界との整合性を実験的に検証した。 SGDEMは、実用的な分散環境でImageNet上でResNet-18をトレーニングする際のSGDMの一般化誤差を改善する。

While momentum-based accelerated variants of stochastic gradient descent (SGD) are widely used when training machine learning models, there is little theoretical understanding on the generalization error of such methods. In this work, we first show that there exists a convex loss function for which the stability gap for multiple epochs of SGD with standard heavy-ball momentum (SGDM) becomes unbounded. Then, for smooth Lipschitz loss functions, we analyze a modified momentum-based update rule, i.e., SGD with early momentum (SGDEM) under a broad range of step-sizes, and show that it can train machine learning models for multiple epochs with a guarantee for generalization. Finally, for the special case of strongly convex loss functions, we find a range of momentum such that multiple epochs of standard SGDM, as a special form of SGDEM, also generalizes. Extending our results on generalization, we also develop an upper bound on the expected true risk, in terms of the number of training steps, sample size, and momentum. Our experimental evaluations verify the consistency between the numerical results and our theoretical bounds. SGDEM improves the generalization error of SGDM when training ResNet-18 on ImageNet in practical distributed settings.
翻訳日:2024-01-18 22:34:49 公開日:2024-01-15
# 局所リプシッツ性誘発による頑健な生成的逆模倣学習の利点について

On the Benefits of Inducing Local Lipschitzness for Robust Generative Adversarial Imitation Learning ( http://arxiv.org/abs/2107.00116v3 )

ライセンス: Link先を確認
Farzan Memarian, Abolfazl Hashemi, Scott Niekum, Ufuk Topcu(参考訳) 本稿では,gailアルゴリズム(generative adversarial imitation learning)のロバスト性を改善する手法について検討する。 本研究の目的は,判別器とジェネレータの局所リプシッツ性がGAILが学習したポリシーの堅牢性に及ぼす影響を検討することである。 多くのロボティクス応用において、GAILによる学習方針は一般的に、環境からの観測がノイズによって損なわれる可能性があるため、テスト時に劣化した性能に悩まされる。 したがって,観測騒音に対する学習方針の強固化が重要である。 そこで本研究では,局所リプシッツネスを生成器に誘導する正規化法と,逆模倣学習法を判別する手法を提案する。 修正された目的が、より堅牢なポリシーを学ぶことにつながることを示す。 さらに,局所的なリプシッツ判別器の訓練は局所的なリプシッツ生成器につながり,結果として得られるポリシの堅牢性が向上することを示す。 本研究では,MuJoCo スイートを用いたロボットの移動環境のシミュレーション実験を行い,騒音の破損した観測シナリオに適用した場合に,現状の逆方向の擬似学習アルゴリズムを著しく上回った手法を実証した。

We explore methodologies to improve the robustness of generative adversarial imitation learning (GAIL) algorithms to observation noise. Towards this objective, we study the effect of local Lipschitzness of the discriminator and the generator on the robustness of policies learned by GAIL. In many robotics applications, the learned policies by GAIL typically suffer from a degraded performance at test time since the observations from the environment might be corrupted by noise. Hence, robustifying the learned policies against the observation noise is of critical importance. To this end, we propose a regularization method to induce local Lipschitzness in the generator and the discriminator of adversarial imitation learning methods. We show that the modified objective leads to learning significantly more robust policies. Moreover, we demonstrate -- both theoretically and experimentally -- that training a locally Lipschitz discriminator leads to a locally Lipschitz generator, thereby improving the robustness of the resultant policy. We perform extensive experiments on simulated robot locomotion environments from the MuJoCo suite that demonstrate the proposed method learns policies that significantly outperform the state-of-the-art generative adversarial imitation learning algorithm when applied to test scenarios with noise-corrupted observations.
翻訳日:2024-01-18 22:24:48 公開日:2024-01-15
# MS23D:マルチスケール意味的特徴点を用いた3次元物体検出手法

MS23D: : A 3D Object Detection Method Using Multi-Scale Semantic Feature Points to Construct 3D Feature Layer ( http://arxiv.org/abs/2308.16518v6 )

ライセンス: Link先を確認
Yongxin Shao, Aihong Tan, Binrui Wang, Tianhong Yan, Zhetao Sun, Yiyang Zhang and Jiaxin Liu(参考訳) LiDAR点雲は、三次元空間における物体の動きと姿勢を効果的に描写することができる。 多くの研究が点雲をボクセル化することで3次元物体検出を実現する。 しかし、自動運転のシナリオでは、点雲のスパーシティと空洞性がボクセルベースの手法にいくつかの困難をもたらしている。 点雲の広がりは、物体の幾何学的特徴を記述するのを困難にしている。 点雲の空洞性は3次元特徴の集約に困難をもたらす。 我々はMS23Dと呼ばれる2段階の3Dオブジェクト検出フレームワークを提案する。 1) マルチブランチからvoxel特徴点を用いて3次元特徴層を構築する手法を提案する。 異なるブランチからのvoxel特徴点を用いて,比較的コンパクトな3d特徴層を構築した。 さらに, 距離重み付きサンプリング法を提案し, ダウンサンプリングによる前景点の損失を低減し, 3次元特徴層が前景点の保持を可能とした。 2) 点雲の空洞性に応じて, 深層特徴点と物体の遠心との間のオフセットを予測し, 物体の遠心値に可能な限り近い値とした。 これにより、豊富な意味的特徴を持つこれらの特徴点の集約が可能になる。 浅層からの特徴点については、物体の幾何学的特徴を記述するために物体の表面に保持する。 提案手法の有効性を,KITTIデータセットとONCEデータセットで評価した。

LiDAR point clouds can effectively depict the motion and posture of objects in three-dimensional space. Many studies accomplish the 3D object detection by voxelizing point clouds. However, in autonomous driving scenarios, the sparsity and hollowness of point clouds create some difficulties for voxel-based methods. The sparsity of point clouds makes it challenging to describe the geometric features of objects. The hollowness of point clouds poses difficulties for the aggregation of 3D features. We propose a two-stage 3D object detection framework, called MS23D. (1) We propose a method using voxel feature points from multi-branch to construct the 3D feature layer. Using voxel feature points from different branches, we construct a relatively compact 3D feature layer with rich semantic features. Additionally, we propose a distance-weighted sampling method, reducing the loss of foreground points caused by downsampling and allowing the 3D feature layer to retain more foreground points. (2) In response to the hollowness of point clouds, we predict the offsets between deep-level feature points and the object's centroid, making them as close as possible to the object's centroid. This enables the aggregation of these feature points with abundant semantic features. For feature points from shallow-level, we retain them on the object's surface to describe the geometric features of the object. To validate our approach, we evaluated its effectiveness on both the KITTI and ONCE datasets.
翻訳日:2024-01-18 20:49:02 公開日:2024-01-15
# グラフカットを用いたパッチベース深部教師なし画像分割

Patch-Based Deep Unsupervised Image Segmentation using Graph Cuts ( http://arxiv.org/abs/2311.01475v2 )

ライセンス: Link先を確認
Isaac Wasserman and Jeova Farias Sales Rocha Neto(参考訳) 教師なしのイメージセグメンテーションは、人間のアノテーションを使わずに、画像内の異なる意味パターンをグループ化することを目的としている。 同様に、イメージクラスタリングは、監督なしでセマンティックコンテンツに基づいて画像のグルーピングを検索する。 古典的には、どちらの問題も、健全な数学的概念から具体的応用を生み出した研究者を魅了している。 深層学習の出現に伴い、科学界は複雑なニューラルネットワークベースの解法に注目を向け、これらの領域で顕著な成果を上げたが、古典的な手法による進歩を活用することはめったになかった。 本研究では,従来のグラフ手法のアルゴリズム的助けを借りて,ディープクラスタリング手法から教師なし特徴抽出の進歩を橋渡しするパッチベースの教師なし画像分割手法を提案する。 画像パッチの分類とグラフカットによる反復正規化を訓練した単純な畳み込みニューラルネットワークは、自然と最先端の完全畳み込み型非教師付きピクセルレベルのセグメンタをもたらす。 さらに,視覚トランスフォーマーモデルが生成するパッチレベルのペアワイズ機能を活用する上で,これが理想的な設定であることを示す。 実画像データを用いた結果から,提案手法の有効性を示す。

Unsupervised image segmentation aims at grouping different semantic patterns in an image without the use of human annotation. Similarly, image clustering searches for groupings of images based on their semantic content without supervision. Classically, both problems have captivated researchers as they drew from sound mathematical concepts to produce concrete applications. With the emergence of deep learning, the scientific community turned its attention to complex neural network-based solvers that achieved impressive results in those domains but rarely leveraged the advances made by classical methods. In this work, we propose a patch-based unsupervised image segmentation strategy that bridges advances in unsupervised feature extraction from deep clustering methods with the algorithmic help of classical graph-based methods. We show that a simple convolutional neural network, trained to classify image patches and iteratively regularized using graph cuts, naturally leads to a state-of-the-art fully-convolutional unsupervised pixel-level segmenter. Furthermore, we demonstrate that this is the ideal setting for leveraging the patch-level pairwise features generated by vision transformer models. Our results on real image data demonstrate the effectiveness of our proposed methodology.
翻訳日:2024-01-18 20:13:36 公開日:2024-01-15
# InternVL:視覚基礎モデルのスケールアップとジェネリック視覚言語課題への適応

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks ( http://arxiv.org/abs/2312.14238v3 )

ライセンス: Link先を確認
Zhe Chen, Jiannan Wu, Wenhai Wang, Weijie Su, Guo Chen, Sen Xing, Muyan Zhong, Qinglong Zhang, Xizhou Zhu, Lewei Lu, Bin Li, Ping Luo, Tong Lu, Yu Qiao, Jifeng Dai(参考訳) 大規模言語モデル(LLM)の指数的成長は、多モードAGIシステムに多くの可能性をもたらした。 しかし、マルチモーダルAGIの重要な要素でもあるビジョンと視覚言語基盤モデルの進歩は、LLMと歩調を合わせていない。 本研究では,視覚基礎モデルを60億のパラメータに拡張し,様々な情報源のWebスケール画像テキストデータを用いてLLMと段階的に整列する大規模視覚基礎モデル(InternVL)を設計する。 このモデルは、画像レベルやピクセルレベル認識などの視覚知覚タスク、ゼロショット画像/ビデオ分類、ゼロショット画像/ビデオテキスト検索などの視覚言語タスク、llmとリンクしてマルチモーダル対話システムを作成するなど、32の一般的な視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用および達成することができる。 強力な視覚能力を備え、ViT-22Bの代替となる。 マルチモーダル大規模モデルの開発に,我々の研究が貢献できることを願っています。 コードとモデルはhttps://github.com/OpenGVLab/InternVLで公開されている。

The exponential growth of large language models (LLMs) has opened up numerous possibilities for multimodal AGI systems. However, the progress in vision and vision-language foundation models, which are also critical elements of multi-modal AGI, has not kept pace with LLMs. In this work, we design a large-scale vision-language foundation model (InternVL), which scales up the vision foundation model to 6 billion parameters and progressively aligns it with the LLM, using web-scale image-text data from various sources. This model can be broadly applied to and achieve state-of-the-art performance on 32 generic visual-linguistic benchmarks including visual perception tasks such as image-level or pixel-level recognition, vision-language tasks such as zero-shot image/video classification, zero-shot image/video-text retrieval, and link with LLMs to create multi-modal dialogue systems. It has powerful visual capabilities and can be a good alternative to the ViT-22B. We hope that our research could contribute to the development of multi-modal large models. Code and models are available at https://github.com/OpenGVLab/InternVL.
翻訳日:2024-01-18 19:52:28 公開日:2024-01-15
# 完全強化マトリックス生成物状態に対する親ハミルトニアン

Parent Hamiltonian for Fully-augmented Matrix Product States ( http://arxiv.org/abs/2401.07659v1 )

ライセンス: Link先を確認
Xiangjian Qian and Mingpu Qin(参考訳) FAMPS(Fully-augmented Matrix Product States)が最近提案された。 Phys Lett! 40, 057102 (2023) は2次元量子多体系を研究するための正確な数値ツールである。 MPS上にアンタングル層を組み込むことで構成する。 FAMPSで量子モデルをシミュレートするコストはDMRG(オーバーヘッドが小さい)と似ているが、FAMPSは2次元システムに対して領域法的なエントロピーをサポートすることができる。 これらの性質により、FAMPSは効率的かつ効率的なツールとなる。 本研究では、各FAMPSに対して、FAMPSがその基底状態である2次元ハミルトニアンを構築することができることを示す。 与えられたFAMPSに対して親ハミルトニアンを構築する方法を示す。 また,そのアルゴリズムがチンで提案されていることを示す数値シミュレーションを行った。 Phys Lett! 40, 057102 (2023) は親ハミルトンの正確なFAMPSを見つけることができる。 FAMPSと対応する親ハミルトニアンは、二次元量子多体系の将来の研究に有用なフレームワークを提供する

Fully-augmented Matrix Product States (FAMPS) was proposed recently (Chin. Phys. Lett. 40, 057102 (2023)) as an accurate numerical tool to study two-dimensional quantum many-body systems. It is constructed by including a disentangler layer upon MPS. The cost of simulating quantum models with FAMPS is similar as DMRG (with small overhead), but FAMPS can support area-law entanglement entropy for two-dimensional systems. These properties make FAMPS an effective and efficient tool. In this work, we demonstrate that for each FAMPS we can construct a two-dimensional Hamiltonian with the FAMPS being its ground state. We show how to construct the parent Hamiltonian for given FAMPS. We also perform numerical simulation to show that the algorithm proposed in Chin. Phys. Lett. 40, 057102 (2023) can find the exact FAMPS for the parent Hamiltonian. FAMPS and the corresponding parent Hamiltonian provides a useful framework for the future study of two-dimensional quantum many-body systems
翻訳日:2024-01-18 19:13:03 公開日:2024-01-15
# 手話教育プログラム--ISENSEプロジェクトにおけるバーチャルリアリティによるソーシャルインクルージョン

Training program on sign language: social inclusion through Virtual Reality in ISENSE project ( http://arxiv.org/abs/2401.08714v1 )

ライセンス: Link先を確認
Alessia Bisio, Enrique Yeguas-Bol\'ivar, Pilar Aparicio-Mart\'inez, Mar\'ia Dolores Redel-Mac\'ias, Sara Pinzi, Stefano Rossi and Juri Taborri(参考訳) 視覚的な動きやサインを組み込んだ手の動きは手話で使われる。 手話は、聴覚障害や言語障害を持つ個人にとって、日常的なコミュニケーションの貴重な手段であるが、聴覚障害者の間ではまだ稀であり、それを理解する能力は少ない。 学術的な文脈では、父母と教師は手話の学習を促進することによって、幼児の聴覚障害の学生を支援する重要な役割を担っている。 近年,手話学習に有用な教育ツールとして,学習過程における保持,記憶,注意の向上が実証され,仮想現実(VR)の利用が増加している。 ISENSEプロジェクトは、学術的文脈において、手話を教えるための異なる技術ツールを聴取コミュニティに提案することで、学生が学期中に難聴を負うのを支援するために作られた。 ISENSEプロジェクトの一環として、この研究は、VR環境を利用してサインの包括的なデータベースと人工知能(AI)ベースのソフトウェアを迅速かつ容易に作成し、文字から文までの静的および動的記号を正確に分類し、認識する、スペインとイタリアの手話認識アプリケーションを開発することを目的としている。

Structured hand gestures that incorporate visual motions and signs are used in sign language. Sign language is a valuable means of daily communication for individuals who are deaf or have speech impairments, but it is still rare among hearing people, and fewer are capable of understand it. Within the academic context, parents and teachers play a crucial role in supporting deaf students from childhood by facilitating their learning of sign language. In the last years, among all the teaching tools useful for learning sign language, the use of Virtual Reality (VR) has increased, as it has been demonstrated to improve retention, memory and attention during the learning process. The ISENSE project has been created to assist students with deafness during their academic life by proposing different technological tools for teaching sign language to the hearing community in the academic context. As part of the ISENSE project, this work aims to develop an application for Spanish and Italian sign language recognition that exploits the VR environment to quickly and easily create a comprehensive database of signs and an Artificial Intelligence (AI)-based software to accurately classify and recognize static and dynamic signs: from letters to sentences.
翻訳日:2024-01-18 18:28:33 公開日:2024-01-15
# 若年3重陰性乳癌患者の生存率解析

Survival Analysis of Young Triple-Negative Breast Cancer Patients ( http://arxiv.org/abs/2401.08712v1 )

ライセンス: Link先を確認
M. Mehdi Owrang O, Fariba Jafari Horestani, Ginger Schwarz(参考訳) 乳がんの予後は効果的な治療に不可欠であり、40歳以上の女性に多いが、40歳未満ではまれである。 乳癌はエストロゲン、プロゲステロン、HER2などの受容体に基づいて分類される。 三重複陰性乳癌(TNBC)は、これらの受容体が欠如しており、患者の約15%を占め、若年者の方が多く、その結果が低くなる。 それでもTNBCの予後に対する年齢の影響は未定である。 年齢、人種、腫瘍のグレード、サイズ、リンパ節の状態といった要因は、TNBCの臨床的結果においてその役割について研究されている。 本研究は, 年齢が予後因子であるかどうかを判定するために, SEERデータセットを用いて, 若年者が生存可能性に与える影響を検討する。 SEERデータセットによる実験結果から,TNBC患者は年齢による非TNBC患者と比較して予後が悪くなっていることが確認された。 本研究の目的は,若年者がTNBC患者の生存にどのような意義があるかを検討することである。 若年者がTNBC患者の予後と生存率に何の意義も示さない実験結果

Breast cancer prognosis is crucial for effective treatment, with the disease more common in women over 40 years old but rare under 40 years old, where less than 5 percent of cases occur in the U.S. Studies indicate a worse prognosis in younger women, which varies by ethnicity. Breast cancers are classified based on receptors like estrogen, progesterone, and HER2. Triple-negative breast cancer (TNBC), lacking these receptors, accounts for about 15 percent of cases and is more prevalent in younger patients, often resulting in poorer outcomes. Nevertheless, the impact of age on TNBC prognosis remains unclear. Factors like age, race, tumor grade, size, and lymph node status are studied for their role in TNBC's clinical outcomes, but current research is inconclusive about age-related differences. This study uses SEER data set to examine the influence of younger age on survivability in TNBC patients, aiming to determine if age is a significant prognostic factor. Our experimental results on SEER dataset confirm the existing research reports that TNBC patients have worse prognosis compared to non-TNBC based on age. Our main goal was to investigate whether younger age has any significance on the survivability of TNBC patients. Experimental results do not show that younger age has any significance on the prognosis and survival rate of the TNBC patients
翻訳日:2024-01-18 18:28:12 公開日:2024-01-15
# アシスタント、パロット、または植民地化ラウドスピーカー? クリティカルAIリテラシー開発のためのChatGPTメタファー

Assistant, Parrot, or Colonizing Loudspeaker? ChatGPT Metaphors for Developing Critical AI Literacies ( http://arxiv.org/abs/2401.08711v1 )

ライセンス: Link先を確認
Anuj Gupta, Yasser Atef, Anna Mills, Maha Bali(参考訳) 本研究では、AIのメタファを議論することで、AIシステム、特にChatGPTのような大規模言語モデル(LLM)の理解を形作るフレームの認識を構築する上で、どのように役立つかを検討する。 批判的なAIリテラシー」を教える必要があることを考えると、メタファーの議論は、ニュアンス、遊び心、批評のための空間との探求と対話の機会を提供する。 協調的自己エスノグラフィー手法を用いて,様々な情報源からのメタファーを分析し,7つの質問に個別に反映し,その解釈について検討した。 次に、selberの多文フレームワークで記述された3種類の文芸(機能的、批判的、修辞的)に私たちのリフレクションがどのように寄与したのかを分析した。 これにより、AIに関する倫理、株式、アクセシビリティに関する質問を分析できるようになりました。 我々は、その比喩が人為的形態化を促進するかどうかの次元に沿って、それぞれの比喩を探索し、その比喩が如何にAIがセンシティブであるかを示唆した。 本研究は,AIの微妙な理解を促進するためのメタファーリフレクションの役割を強調し,我々の協力的自己エスノグラフィーアプローチと,人間同型と多文字の次元にAIメタファーをプロットするヒューリスティックモデルが,重要なAIリテラシーを追求する教育者や研究者にとって有用である可能性を示唆している。

This study explores how discussing metaphors for AI can help build awareness of the frames that shape our understanding of AI systems, particularly large language models (LLMs) like ChatGPT. Given the pressing need to teach "critical AI literacy", discussion of metaphor provides an opportunity for inquiry and dialogue with space for nuance, playfulness, and critique. Using a collaborative autoethnographic methodology, we analyzed metaphors from a range of sources, and reflected on them individually according to seven questions, then met and discussed our interpretations. We then analyzed how our reflections contributed to the three kinds of literacies delineated in Selber's multiliteracies framework: functional, critical, and rhetorical. These allowed us to analyze questions of ethics, equity, and accessibility in relation to AI. We explored each metaphor along the dimension of whether or not it was promoting anthropomorphizing, and to what extent such metaphors imply that AI is sentient. Our findings highlight the role of metaphor reflection in fostering a nuanced understanding of AI, suggesting that our collaborative autoethnographic approach as well as the heuristic model of plotting AI metaphors on dimensions of anthropomorphism and multiliteracies, might be useful for educators and researchers in the pursuit of advancing critical AI literacy.
翻訳日:2024-01-18 18:27:50 公開日:2024-01-15
# 無線マイクロ波量子通信

Wireless Microwave Quantum Communication ( http://arxiv.org/abs/2401.08708v1 )

ライセンス: Link先を確認
Tasio Gonzalez-Raya(参考訳) この論文は、量子通信と量子センシングに量子マイクロ波を伝播させることの限界と、これらの制限に対処する新しいデバイスとプロトコルの設計を探求する。 量子テレポーテーションと量子照明にガウス量子状態を利用し、これらのプロトコルがそれぞれ絡み合い蒸留と部分精製を用いてどのように改善されるかを研究する。 論文は、オープンエアの絡み合い分布を中心に、クライオスタット内部の状態発生の段階、新しい世代のコプラナーアンテナによるクライオスタットとオープンエアのインピーダンスマッチング、および現在のマイクロ波技術の限られた枠組みにおけるオープンエアの伝搬について論じている。 また、損失や測定不効率による限界にも対処し、衛星量子通信の拡張について検討する。 そこで, 回折と乱流の影響を解析し, 後者が光学系の信号に与える影響についても検討した。 最後に,量子局所領域ネットワークにおける量子情報のテレポーテーションについて検討する。 要約すると、この論文はマイクロ波系における無線量子通信の発展に寄与し、その技術的限界とそれを克服する方法を研究する。 それでも、この周波数帯で働く量子技術はまだ創発的であり、それらを競争力を持たせるために多くの研究をしなければならない。

This Thesis explores the limits in the application of propagating quantum microwaves for quantum communication and quantum sensing, as well as the design of new devices and protocols to fight these limitations. We take advantage of Gaussian quantum states for quantum teleportation and quantum illumination, and studies how these protocols can be improved using entanglement distillation and partial purification, respectively. The Thesis is centered around open-air entanglement distribution, and it follows the steps of state generation inside the cryostat, impedance matching between the cryostat and the open air with a new generation of coplanar antennae, and open air propagation, in the limited framework of current microwave technology. We also address the limitations produced by losses and measurement inefficiencies, and explore the extension to satellite quantum communications. There, we analyze the effects of diffraction and turbulence, studying how the latter affects signals in the optical regime as well. We conclude by studying the teleportation of quantum information in a quantum local area network. To sum up, this Thesis contributes to the development of wireless quantum communications in the microwave regime, studying its technological limitations and how to overcome them. Nevertheless, quantum technologies working in this frequency range are still emergent and plenty of work must be accomplished in order to make them competitive.
翻訳日:2024-01-18 18:27:22 公開日:2024-01-15
# 信頼性テスト時間適応のための分離プロトタイプ学習

Decoupled Prototype Learning for Reliable Test-Time Adaptation ( http://arxiv.org/abs/2401.08703v1 )

ライセンス: Link先を確認
Guowei Wang, Changxing Ding, Wentao Tan, Mingkui Tan(参考訳) テスト時間適応(TTA)は、推論中にトレーニング済みのソースモデルをターゲットドメインに継続的に適応させるタスクである。 1つの一般的なアプローチは、推定擬似ラベルによるクロスエントロピー損失を伴う微調整モデルである。 しかし、その性能はうるさい疑似ラベルの影響を受けている。 本研究は, 各試料の分類誤差を最小化することで, クロスエントロピー損失の脆弱性がラベルノイズを引き起こすことを明らかにした。 この問題に対処するために,プロトタイプ中心の損失計算を特徴とする新しいDecoupled Prototype Learning(DPL)手法を提案する。 まず、クラスプロトタイプの最適化を分離する。 各クラスプロトタイプに対して、正のサンプルで距離を減らし、負のサンプルで反対の方法で距離を拡大する。 この戦略は、モデルがオーバーフィットからノイズの多い擬似ラベルを避ける。 第2に,ttaで発生するバッチサイズが小さい場合,dplのロバスト性を高めるためのメモリベース戦略を提案する。 我々は各クラスの擬似特徴を運動量的にメモリから更新し、追加のDPL損失を挿入する。 最後に、信頼できない擬似ラベルを持つサンプルを活用するための整合正則化に基づくアプローチを導入する。 提案手法は,疑似ラベル不確実なサンプルの特徴的スタイルを疑似ラベル不確実なサンプルに伝達する。 したがって、より信頼性の高いTTAサンプルが作成される。 実験により,本手法は領域一般化ベンチマークにおける最先端性能を実現し,画像劣化ベンチマークにおける自己学習手法の性能を確実に向上することを示した。 コードはリリースされます。

Test-time adaptation (TTA) is a task that continually adapts a pre-trained source model to the target domain during inference. One popular approach involves fine-tuning model with cross-entropy loss according to estimated pseudo-labels. However, its performance is significantly affected by noisy pseudo-labels. This study reveals that minimizing the classification error of each sample causes the cross-entropy loss's vulnerability to label noise. To address this issue, we propose a novel Decoupled Prototype Learning (DPL) method that features prototype-centric loss computation. First, we decouple the optimization of class prototypes. For each class prototype, we reduce its distance with positive samples and enlarge its distance with negative samples in a contrastive manner. This strategy prevents the model from overfitting to noisy pseudo-labels. Second, we propose a memory-based strategy to enhance DPL's robustness for the small batch sizes often encountered in TTA. We update each class's pseudo-feature from a memory in a momentum manner and insert an additional DPL loss. Finally, we introduce a consistency regularization-based approach to leverage samples with unconfident pseudo-labels. This approach transfers feature styles of samples with unconfident pseudo-labels to those with confident pseudo-labels. Thus, more reliable samples for TTA are created. The experimental results demonstrate that our methods achieve state-of-the-art performance on domain generalization benchmarks, and reliably improve the performance of self-training-based methods on image corruption benchmarks. The code will be released.
翻訳日:2024-01-18 18:27:00 公開日:2024-01-15
# 政府の業績の低下とソーシャルメディア上の悪質な政治投稿:米国でのcovid-19危機の証拠

Low Government Performance and Uncivil Political Posts on Social Media: Evidence from the COVID-19 Crisis in the US ( http://arxiv.org/abs/2107.10041v7 )

ライセンス: Link先を確認
Kohei Nishi(参考訳) ソーシャルメディアを通じた政治表現は、すでに政治参加の一形態として根付いている。 一方、民主主義はソーシャルメディアプラットフォームで市民主義の流行に直面しているようだ。 この背景から、近年、政治コミュニケーション研究の分野において、オンラインの政治機関が関心を集めている。 しかし、ソーシャルメディア上での国民の非公的な政治的表現と政府のパフォーマンスがどのように結びついているのかは明らかではなく、非制度的な政治参加の新たな形態として、ソーシャルメディア表現によるパフォーマンス評価行動の存在が重要であると考えられる。 このギャップを埋めるために,本研究は,政府の業績が悪化すると,人々が不満を募り,ソーシャルメディアを通じて政府に悪質なメッセージを送付するという仮説を定めている。 この仮説をテストするために、この研究では、米国州知事を対象とするX/Twitterの800万件以上の投稿を収集し、ニューラルネットワークベースの機械学習手法を用いて、それらを非現実的か否かを分類し、州レベルのCOVID-19患者が州知事を対象とする非現実的投稿数に与える影響を調査した。 統計分析の結果、州レベルの新型コロナウイルス感染者の増加により、州知事に対する非公職ポストが大幅に増加した。 最後に,非制度化政治参加と民主主義における選挙の重要性という2つの視点から,調査結果の意義について考察する。

Political expression through social media has already taken root as a form of political participation. Meanwhile, democracy seems to be facing an epidemic of incivility on social media platforms. With this background, online political incivility has recently become a growing concern in the field of political communication studies. However, it is less clear how a government's performance is linked with people's uncivil political expression on social media; investigating the existence of performance evaluation behavior through social media expression seems to be important, as it is a new form of non-institutionalized political participation. To fill this gap in the literature, the present study hypothesizes that when government performance worsens, people become frustrated and send uncivil messages to the government via social media. To test this hypothesis, the present study collected over 8 million posts on X/Twitter directed at US state governors and classified them as uncivil or not, using a neural network-based machine learning method, and examined the impact of worsening state-level COVID-19 cases on the number of uncivil posts directed at state governors. The results of the statistical analyses showed that increases in state-level COVID-19 cases led to a significantly higher number of uncivil posts against state governors. Finally, the present study discusses the implications of the findings from two perspectives: non-institutionalized political participation and the importance of elections in democracies.
翻訳日:2024-01-18 04:18:45 公開日:2024-01-15
# 解釈可能な分類のための畳み込み動的アライメントネットワーク

Convolutional Dynamic Alignment Networks for Interpretable Classifications ( http://arxiv.org/abs/2104.00032v2 )

ライセンス: Link先を確認
Moritz B\"ohle and Mario Fritz and Bernt Schiele(参考訳) 本稿では,畳み込み動的アライメントネットワーク(convolutional dynamic alignment network, coda-nets)と呼ばれる新しいニューラルネットワークモデルについて紹介する。 コアとなるビルディングブロックは動的アライメントユニット(DAU)で、入力をタスク関連パターンと動的に整合する重みベクトルで線形に変換する。 その結果、CoDA-Netsは一連の入力依存線形変換を通じて分類予測をモデル化し、出力を個々の入力コントリビューションに線形分解することができる。 DAUのアライメントが与えられた結果のコントリビューションマップは、識別的な入力パターンと一致します。 これらのモデルインヒーレント分解は、視覚的な品質が高く、定量的指標の下で既存の帰属方法よりも優れています。 さらに、CoDA-Netはパフォーマンス分類器を構成し、CIFAR-10やTinyImagenetなどのResNetやVGGモデルと同等の結果を得る。

We introduce a new family of neural network models called Convolutional Dynamic Alignment Networks (CoDA-Nets), which are performant classifiers with a high degree of inherent interpretability. Their core building blocks are Dynamic Alignment Units (DAUs), which linearly transform their input with weight vectors that dynamically align with task-relevant patterns. As a result, CoDA-Nets model the classification prediction through a series of input-dependent linear transformations, allowing for linear decomposition of the output into individual input contributions. Given the alignment of the DAUs, the resulting contribution maps align with discriminative input patterns. These model-inherent decompositions are of high visual quality and outperform existing attribution methods under quantitative metrics. Further, CoDA-Nets constitute performant classifiers, achieving on par results to ResNet and VGG models on e.g. CIFAR-10 and TinyImagenet.
翻訳日:2024-01-18 04:17:38 公開日:2024-01-15
# 分解・圧縮・合成(DCS)に基づくビデオ符号化:分解能適応学習によるニューラル探索

Decomposition, Compression, and Synthesis (DCS)-based Video Coding: A Neural Exploration via Resolution-Adaptive Learning ( http://arxiv.org/abs/2012.00650v5 )

ライセンス: Link先を確認
Ming Lu, Tong Chen, Dandan Ding, Fengqing Zhu, and Zhan Ma(参考訳) Inspired by the facts that retinal cells actually segregate the visual scene into different attributes (e.g., spatial details, temporal motion) for respective neuronal processing, we propose to first decompose the input video into respective spatial texture frames (STF) at its native spatial resolution that preserve the rich spatial details, and the other temporal motion frames (TMF) at a lower spatial resolution that retain the motion smoothness; then compress them together using any popular video coder; and finally synthesize decoded STFs and TMFs for high-fidelity video reconstruction at the same resolution as its native input. この研究は、分解におけるバイコビック再サンプリングと圧縮におけるHEVC準拠コーデックを単純に適用し、合成部に焦点をあてる。 非局所テクスチャ転送ネットワーク(NL-TTN)を用いて、対応するSTFと協調して処理される時間的運動特徴を効率よく整合・集約し、空間的詳細を向上するために、TMF上に動き補償ネットワーク(MCN)を考案し、圧縮と分解のリサンプリングを効率良く行うことができる。 このような「分解、圧縮、合成(DCS)」ベースのスキームはコーデック非依存であり、参照ソフトウェアを使用したHEVCアンカーに対して、現在平均$\approx$1 dB PSNRゲインまたは$\approx$25% BD-rateセーブを例示している。 さらに,DCSアルゴリズムの効率と一般化を更に報告するために,最先端の手法とアブレーション研究との実験的比較を行い,将来的なビデオ符号化の方向性を期待する。

Inspired by the facts that retinal cells actually segregate the visual scene into different attributes (e.g., spatial details, temporal motion) for respective neuronal processing, we propose to first decompose the input video into respective spatial texture frames (STF) at its native spatial resolution that preserve the rich spatial details, and the other temporal motion frames (TMF) at a lower spatial resolution that retain the motion smoothness; then compress them together using any popular video coder; and finally synthesize decoded STFs and TMFs for high-fidelity video reconstruction at the same resolution as its native input. This work simply applies the bicubic resampling in decomposition and HEVC compliant codec in compression, and puts the focus on the synthesis part. For resolution-adaptive synthesis, a motion compensation network (MCN) is devised on TMFs to efficiently align and aggregate temporal motion features that will be jointly processed with corresponding STFs using a non-local texture transfer network (NL-TTN) to better augment spatial details, by which the compression and resolution resampling noises can be effectively alleviated with better rate-distortion efficiency. Such "Decomposition, Compression, Synthesis (DCS)" based scheme is codec agnostic, currently exemplifying averaged $\approx$1 dB PSNR gain or $\approx$25% BD-rate saving, against the HEVC anchor using reference software. In addition, experimental comparisons to the state-of-the-art methods and ablation studies are conducted to further report the efficiency and generalization of DCS algorithm, promising an encouraging direction for future video coding.
翻訳日:2024-01-18 04:17:22 公開日:2024-01-15
# ハバードモデルにおける相互作用クエンチに対する系統的大規模フレーバーfTWAアプローチ

Systematic large flavor fTWA approach to interaction quenches in the Hubbard model ( http://arxiv.org/abs/2007.05063v2 )

ライセンス: Link先を確認
Alexander Osterkorn and Stefan Kehrein(参考訳) 最近導入されたフェルミオン切断型ウィグナー近似 (ftwa) を用いて, 2次元ハバード模型における相互作用のクエンチ後の非平衡ダイナミクスについて検討した。 提案手法の妥当性の範囲を体系的に評価するために, フェルミオン縮退率$N$のSU($N$)ハバードモデルを, 自然半古典的拡張パラメータとして考察する。 数値的および摂動的解析的アプローチの両方を用いて、fTWA は少なくとも予熱力学を含むものであることを示す。 この体制を超えた手法の限界について論じる。

We study the nonequilibrium dynamics after an interaction quench in the two-dimensional Hubbard model using the recently introduced fermionic truncated Wigner approximation (fTWA). To assess the range of validity of the method in a systematic way, we consider the SU($N$) Hubbard model with the fermion degeneracy $N$ as a natural semiclassical expansion parameter. Using both a numerical and a perturbative analytical approach we show that fTWA is exact at least up to and including the prethermalization dynamics. We discuss the limitations of the method beyond this regime.
翻訳日:2024-01-18 04:16:51 公開日:2024-01-15
# 二重スパース光流分解によるラグランジュ運動拡大

Lagrangian Motion Magnification with Double Sparse Optical Flow Decomposition ( http://arxiv.org/abs/2204.07636v2 )

ライセンス: Link先を確認
Philipp Flotho, Cosmas Heiss, Gabriele Steidl, Daniel J. Strauss(参考訳) マイクロ表現は高速かつ空間的に小さな表情であり、検出が困難である。 したがって、動画の微妙な動きを増幅・明らかにする動き拡大技術は、そのような表現を扱うのに有用である。 基本的には2つの主要なアプローチがある: eulerian または lagrangian technique である。 最初のものは画像ピクセルを直接操作することで暗黙的に動きを拡大するが、ラグランジアンアプローチは光学フロー(OF)技術を用いて画素軌跡の抽出と拡大を行う。 本稿では,顔面微小運動の局所的なラグランジアン運動倍率に対する新しいアプローチを提案する。 まず,CASME II の顔マイクロ表現の映像集合に適用したアルゴリズムに対して,変化密度逆探索 (DIS) から得られた基底真理を付加することにより,顔に対する深層学習アプローチのための再帰的全対場変換 (RAFT) を微調整する。 これにより、効率的かつ十分に正確な方法で、顔ビデオのofを作成できる。 第二に, 顔のマイクロモーションは空間的, 時間的にも局所的であるため, 空間的, 時間的にもスパース成分によって近似し, 二重スパース分解を導くことを提案する。 第3に、この分解を用いて顔の特定の領域における微小な動きを拡大し、画像グリッドの三角形分割と、変換された三角形の角におけるRGBベクトルのバリ中心補間を用いた新しい前方ワープ戦略を導入する。 様々な例でアプローチの実現可能性を示す。

Microexpressions are fast and spatially small facial expressions that are difficult to detect. Therefore motion magnification techniques, which aim at amplifying and hence revealing subtle motion in videos, appear useful for handling such expressions. There are basically two main approaches, namely via Eulerian or Lagrangian techniques. While the first one magnifies motion implicitly by operating directly on image pixels, the Lagrangian approach uses optical flow (OF) techniques to extract and magnify pixel trajectories. In this paper, we propose a novel approach for local Lagrangian motion magnification of facial micro-motions. Our contribution is three-fold: first, we fine tune the recurrent all-pairs field transforms (RAFT) for OFs deep learning approach for faces by adding ground truth obtained from the variational dense inverse search (DIS) for OF algorithm applied to the CASME II video set of facial micro expressions. This enables us to produce OFs of facial videos in an efficient and sufficiently accurate way. Second, since facial micro-motions are both local in space and time, we propose to approximate the OF field by sparse components both in space and time leading to a double sparse decomposition. Third, we use this decomposition to magnify micro-motions in specific areas of the face, where we introduce a new forward warping strategy using a triangular splitting of the image grid and barycentric interpolation of the RGB vectors at the corners of the transformed triangles. We demonstrate the feasibility of our approach by various examples.
翻訳日:2024-01-18 04:11:18 公開日:2024-01-15
# マルチソースドメイン適応のための自己改善グラフニューラルネットワーク

Self-Supervised Graph Neural Network for Multi-Source Domain Adaptation ( http://arxiv.org/abs/2204.05104v2 )

ライセンス: Link先を確認
Jin Yuan, Feng Hou, Yangzhou Du, Zhongchao Shi, Xin Geng, Jianping Fan, Yong Rui(参考訳) ドメイン適応(DA)は、テストデータがトレーニングデータの同じ分布に完全に従わない場合と、マルチソースドメイン適応(MSDA)が現実世界のアプリケーションにとって非常に魅力的な場合のシナリオに取り組む。 大規模未ラベルサンプルから学習することで、自己教師型学習がディープラーニングの新しいトレンドとなっている。 自己教師付き学習とマルチソースドメイン適応の両方が、同じような目標を共有している点に注意が必要だ。 残念なことに,従来のマルチタスク型自己教師型学習では,(1)プリテキストタスクが下流タスクと強く関係しない場合があり,(2)プリテキストタスクから目標タスクに共有される有用な知識の習得が困難である場合,(2)同じ特徴抽出器がプリテキストタスクと下流タスクの間で共有され,異なる予測ヘッドのみが使用される場合,タスク間の情報交換と知識共有が不可能である場合,2つの課題に直面している。 そこで本研究では,より効果的なタスク間情報交換と知識共有を実現するために,グラフニューラルネットワークを橋渡しとして使用する新しい \textbf{s}elf-\textbf{s}upervised \textbf{g}raph neural network (ssg)を提案する。 より表現力のある表現は、いくつかのドメイン情報をマスクするためにマスクトークン戦略を採用することで学べる。 提案するssg法の有効性を示す4つの多ソースドメイン適応データセットについて,提案手法が最先端の結果を得たことを示す実験を行った。

Domain adaptation (DA) tries to tackle the scenarios when the test data does not fully follow the same distribution of the training data, and multi-source domain adaptation (MSDA) is very attractive for real world applications. By learning from large-scale unlabeled samples, self-supervised learning has now become a new trend in deep learning. It is worth noting that both self-supervised learning and multi-source domain adaptation share a similar goal: they both aim to leverage unlabeled data to learn more expressive representations. Unfortunately, traditional multi-task self-supervised learning faces two challenges: (1) the pretext task may not strongly relate to the downstream task, thus it could be difficult to learn useful knowledge being shared from the pretext task to the target task; (2) when the same feature extractor is shared between the pretext task and the downstream one and only different prediction heads are used, it is ineffective to enable inter-task information exchange and knowledge sharing. To address these issues, we propose a novel \textbf{S}elf-\textbf{S}upervised \textbf{G}raph Neural Network (SSG), where a graph neural network is used as the bridge to enable more effective inter-task information exchange and knowledge sharing. More expressive representation is learned by adopting a mask token strategy to mask some domain information. Our extensive experiments have demonstrated that our proposed SSG method has achieved state-of-the-art results over four multi-source domain adaptation datasets, which have shown the effectiveness of our proposed SSG method from different aspects.
翻訳日:2024-01-18 04:10:49 公開日:2024-01-15
# 密度汎関数理論における力と交換エネルギー

Exchange energies with forces in density-functional theory ( http://arxiv.org/abs/2203.16980v2 )

ライセンス: Link先を確認
Nicolas Tancogne-Dejean, Markus Penz, Andre Laestadius, Mih\'aly A. Csirik, Michael Ruggenthaler, Angel Rubio(参考訳) 本研究では, 地中DFTのエネルギー関数を物理的に等価な正確な力表現で交換し, 交換相関ポテンシャルとエネルギーの近似への新たな期待経路として提案する。 通常のエネルギーベースの手順と類似して、相互作用するコーン・シャム系と補助的なコーン・シャム系の力差をハーツリー、交換、相関力に分割する。 対応するスカラーポテンシャルはポアソン方程式を解くことで得られるが、力の余分な横部分によってベクトルポテンシャルが得られる。 これらのベクトルポテンシャルは交換と相関寄与の間の厳密な制約に従い、さらに原子殻構造と関連付けられる。 数値的には、力に基づく局所交換ポテンシャルと対応する交換エネルギーは、より関連する数値的に最適化された有効ポテンシャル法とよく比較される。 概して、力に基づく方法は通常のエネルギーベースのアプローチと比較していくつかの利点があり、数値的に安価で(時間依存の場合)非断熱近似への道を開く。

We propose exchanging the energy functionals in ground-state DFT with physically equivalent exact force expressions as a new promising route towards approximations to the exchange-correlation potential and energy. In analogy to the usual energy-based procedure, we split the force difference between the interacting and auxiliary Kohn-Sham system into a Hartree, an exchange, and a correlation force. The corresponding scalar potential is obtained by solving a Poisson equation, while an additional transverse part of the force yields a vector potential. These vector potentials obey an exact constraint between the exchange and correlation contribution and can further be related to the atomic-shell structure. Numerically, the force-based local-exchange potential and the corresponding exchange energy compare well with the numerically more involved optimized effective-potential method. Overall, the force-based method has several benefits when compared to the usual energy-based approach and opens a route towards numerically inexpensive non-local and (in the time-dependent case) non-adiabatic approximations.
翻訳日:2024-01-18 04:10:17 公開日:2024-01-15
# ブラインド画像超解像における劣化分布の学習

Learning the Degradation Distribution for Blind Image Super-Resolution ( http://arxiv.org/abs/2203.04962v2 )

ライセンス: Link先を確認
Zhengxiong Luo, Yan Huang, Shang Li, Liang Wang, Tieniu Tan(参考訳) 合成高分解能 (HR) \&低分解能 (LR) 対は既存の超解像 (SR) 法で広く用いられている。 合成画像とテスト画像の領域ギャップを避けるため、従来の手法は決定論的モデルを用いて合成(劣化)過程を適応的に学習しようとする。 しかし、実際のシナリオにおけるいくつかの劣化は確率的であり、画像の内容によって決定できない。 これらの決定論的モデルは、下記のSRモデルの性能を制限する劣化のランダムな要因と内容非依存の部分のモデル化に失敗する可能性がある。 本稿では,確率分解モデル (PDM) を提案する。このモデルでは,分解 $\mathbf{D}$ を確率変数として研究し,事前確率変数 $\mathbf{z}$ から $\mathbf{D}$ への写像をモデル化して分布を学習する。 従来の決定論的劣化モデルと比較して、PDMはより多様な劣化をモデル化し、テスト画像の様々な劣化をよりよくカバーするHR-LRペアを生成することができ、SRモデルが特定の劣化に過度に適合することを防ぐことができる。 広範な実験により、srモデルが異なるデータセットでより良いパフォーマンスを達成するのに役立つことを実証した。 ソースコードは \url{git@github.com:greatlog/unpairedsr.git} でリリースされる。

Synthetic high-resolution (HR) \& low-resolution (LR) pairs are widely used in existing super-resolution (SR) methods. To avoid the domain gap between synthetic and test images, most previous methods try to adaptively learn the synthesizing (degrading) process via a deterministic model. However, some degradations in real scenarios are stochastic and cannot be determined by the content of the image. These deterministic models may fail to model the random factors and content-independent parts of degradations, which will limit the performance of the following SR models. In this paper, we propose a probabilistic degradation model (PDM), which studies the degradation $\mathbf{D}$ as a random variable, and learns its distribution by modeling the mapping from a priori random variable $\mathbf{z}$ to $\mathbf{D}$. Compared with previous deterministic degradation models, PDM could model more diverse degradations and generate HR-LR pairs that may better cover the various degradations of test images, and thus prevent the SR model from over-fitting to specific ones. Extensive experiments have demonstrated that our degradation model can help the SR model achieve better performance on different datasets. The source codes are released at \url{git@github.com:greatlog/UnpairedSR.git}.
翻訳日:2024-01-18 04:09:39 公開日:2024-01-15
# グラフ注意トランスフォーマネットワークによるマルチラベル画像分類

Graph Attention Transformer Network for Multi-Label Image Classification ( http://arxiv.org/abs/2203.04049v2 )

ライセンス: Link先を確認
Jin Yuan, Shikai Chen, Yao Zhang, Zhongchao Shi, Xin Geng, Jianping Fan, Yong Rui(参考訳) マルチラベル分類は、画像から複数のオブジェクトや属性を認識することを目的としている。 しかし、ラベル間の相関や依存関係を効果的に特徴付けるために、適切なラベルグラフから学ぶことは困難である。 現在の手法では、データセットによって大幅に制限され、モデルの一般化能力に影響を与える相関関係をモデル化するために、トレーニングセットを隣接行列としてラベルの共起確率を使用することが多い。 本稿では,複雑なラベル間関係を効果的にマイニングできる多ラベル画像分類のための汎用フレームワークであるグラフ注意変換ネットワーク(GATN)を提案する。 まず、ラベル単語埋め込みに基づくコサイン類似度を、リッチな意味情報を表現するための初期相関行列として用いる。 その後、グラフアテンショントランスフォーマー層を設計、この隣接行列を現在の領域に適応させるために転送する。 提案手法は3つのデータセット上で最先端の性能を実現することができることを示した。

Multi-label classification aims to recognize multiple objects or attributes from images. However, it is challenging to learn from proper label graphs to effectively characterize such inter-label correlations or dependencies. Current methods often use the co-occurrence probability of labels based on the training set as the adjacency matrix to model this correlation, which is greatly limited by the dataset and affects the model's generalization ability. In this paper, we propose a Graph Attention Transformer Network (GATN), a general framework for multi-label image classification that can effectively mine complex inter-label relationships. First, we use the cosine similarity based on the label word embedding as the initial correlation matrix, which can represent rich semantic information. Subsequently, we design the graph attention transformer layer to transfer this adjacency matrix to adapt to the current domain. Our extensive experiments have demonstrated that our proposed methods can achieve state-of-the-art performance on three datasets.
翻訳日:2024-01-18 04:09:16 公開日:2024-01-15
# 転写, 音声, ビデオ間での政治音声のディープフェイク検出

Human Detection of Political Speech Deepfakes across Transcripts, Audio, and Video ( http://arxiv.org/abs/2202.12883v4 )

ライセンス: Link先を確認
Matthew Groh, Aruna Sankaranarayanan, Nikhil Singh, Dong Young Kim, Andrew Lippman, Rosalind Picard(参考訳) 超現実的な視覚効果と音声効果の技術の進歩は、政治演説のディープフェイクビデオが、真のビデオ記録とはすぐに区別できないという懸念を引き起こしている。 コミュニケーション理論における従来の知恵は、ストーリーの同じバージョンがビデオ対テキストとして提示される場合、人々はよりフェイクニュースに陥るであろうと予測している。 2,215名を対象に,事前登録されたランダム化実験を5回実施し,実際の政治演説と,誤情報,音声ソース,質問フレーミング,メディアモダリティのベースレートを比較検討した。 音声アクターの音声と同一のディープフェイクよりも、最先端のテキスト音声合成アルゴリズムが生成するオーディオでは、誤情報のベースレートが識別やディープフェイクに最小限に影響を及ぼすことがわかった。 さらに、すべての実験を通じて、音声と視覚情報は、テキストのみよりも正確な識別を可能にすることがわかった。

Recent advances in technology for hyper-realistic visual and audio effects provoke the concern that deepfake videos of political speeches will soon be indistinguishable from authentic video recordings. The conventional wisdom in communication theory predicts people will fall for fake news more often when the same version of a story is presented as a video versus text. We conduct 5 pre-registered randomized experiments with 2,215 participants to evaluate how accurately humans distinguish real political speeches from fabrications across base rates of misinformation, audio sources, question framings, and media modalities. We find base rates of misinformation minimally influence discernment and deepfakes with audio produced by the state-of-the-art text-to-speech algorithms are harder to discern than the same deepfakes with voice actor audio. Moreover across all experiments, we find audio and visual information enables more accurate discernment than text alone: human discernment relies more on how something is said, the audio-visual cues, than what is said, the speech content.
翻訳日:2024-01-18 04:09:00 公開日:2024-01-15
# 分散学習のための情報理論一般化境界の改良

Improved Information Theoretic Generalization Bounds for Distributed and Federated Learning ( http://arxiv.org/abs/2202.02423v2 )

ライセンス: Link先を確認
L. P. Barnes, Alex Dytso, and H. V. Poor(参考訳) ネットワーク環境における統計的学習問題に対する予測一般化誤差に対する情報理論的境界について考察する。 この設定では、それぞれ独自のデータセットを持つ$k$ノードがあり、各ノードのモデルは最終的な集中型モデルに集約されなければならない。 モデルの平均化だけでなく,より複雑なマルチラウンドアルゴリズムも検討する。 bregman divergence や lipschitz continuous loss のような様々な問題に対して期待された一般化誤差を上限とし、ノード数に対する 1/k$ の依存度の向上を示す。 これらの"ノード単位"境界は、トレーニングデータセットと各ノードのトレーニングされた重み付けの相互情報の観点から、各ノードに通信やプライバシの制約があることに固有の一般化特性を記述する上で有用である。

We consider information-theoretic bounds on expected generalization error for statistical learning problems in a networked setting. In this setting, there are $K$ nodes, each with its own independent dataset, and the models from each node have to be aggregated into a final centralized model. We consider both simple averaging of the models as well as more complicated multi-round algorithms. We give upper bounds on the expected generalization error for a variety of problems, such as those with Bregman divergence or Lipschitz continuous losses, that demonstrate an improved dependence of $1/K$ on the number of nodes. These "per node" bounds are in terms of the mutual information between the training dataset and the trained weights at each node, and are therefore useful in describing the generalization properties inherent to having communication or privacy constraints at each node.
翻訳日:2024-01-18 04:08:40 公開日:2024-01-15
# 対照的なアクティブ推論

Contrastive Active Inference ( http://arxiv.org/abs/2110.10083v4 )

ライセンス: Link先を確認
Pietro Mazzaglia and Tim Verbelen and Bart Dhoedt(参考訳) 能動推論(active inference)は、脳が自由エネルギーを最小化することで世界の内部モデルを維持しているという考えに基づく知覚と行動の統一理論である。 行動の観点からは、アクティブな推論エージェントは、楽観的な予測、すなわち望ましい結果や目標を達成するために行動する自己認識的な存在と見なすことができる。 対照的に強化学習は、望ましい結果を達成するために人間によって設計された報酬を必要とする。 アクティブ推論は、制御のためのより自然な自己監視目標を提供することができるが、複雑な環境へのアプローチのスケーリングの欠点のため、その適用性は制限されている。 本研究では,エージェントの生成モデル学習と今後の行動計画における計算負荷を強力に軽減する,アクティブ推論の対比目標を提案する。 提案手法は,画像に基づくタスクにおいて,確率に基づく能動推論よりも特に優れているが,計算処理が安価で,訓練も容易である。 我々は,人間によって設計された報酬関数にアクセス可能な強化学習エージェントと比較し,そのアプローチが性能と密接に一致していることを示す。 最後に,コントラスト的手法は,環境の注意をそらす場合に有意に優れた効果を示し,目的を背景のバリエーションに一般化できることを示した。 webサイトとコード: https://contrastive-aif.github.io/

Active inference is a unifying theory for perception and action resting upon the idea that the brain maintains an internal model of the world by minimizing free energy. From a behavioral perspective, active inference agents can be seen as self-evidencing beings that act to fulfill their optimistic predictions, namely preferred outcomes or goals. In contrast, reinforcement learning requires human-designed rewards to accomplish any desired outcome. Although active inference could provide a more natural self-supervised objective for control, its applicability has been limited because of the shortcomings in scaling the approach to complex environments. In this work, we propose a contrastive objective for active inference that strongly reduces the computational burden in learning the agent's generative model and planning future actions. Our method performs notably better than likelihood-based active inference in image-based tasks, while also being computationally cheaper and easier to train. We compare to reinforcement learning agents that have access to human-designed reward functions, showing that our approach closely matches their performance. Finally, we also show that contrastive methods perform significantly better in the case of distractors in the environment and that our method is able to generalize goals to variations in the background. Website and code: https://contrastive-aif.github.io/
翻訳日:2024-01-18 04:07:50 公開日:2024-01-15
# おそらくインスタンス間でElasticNetをチューニングする

Provably tuning the ElasticNet across instances ( http://arxiv.org/abs/2207.10199v2 )

ライセンス: Link先を確認
Maria-Florina Balcan, Mikhail Khodak, Dravyansh Sharma, Ameet Talwalkar(参考訳) 正規化理論における重要な未解決の課題は、一般に証明可能な保証を持つElasticNetのような一般的なテクニックの正規化係数を設定することである。 本稿では,複数の問題インスタンスにまたがるリッジ回帰,LASSO,ElasticNetの正規化パラメータの調整の問題について考察する。 代数的境界を持つ断片的有理関数としてチューニングパラメータの関数として損失を特徴付けるElasticNetの新たな構造的結果を得る。 これを正規化損失関数の構造的複雑性に限定し、統計的設定において弾性ネット回帰係数をチューニングするための一般化保証を示す。 また,オンライン学習環境において,最適なパラメータ対に対して平均的な後悔が消失する傾向がみられた。 我々はさらに、Rook、LASSO、ElasticNetによって正規化された回帰適合のしきい値から得られる分類アルゴリズムのチューニングに結果を拡張した。 本研究は,データ分布に対する強い仮定を回避した,この重要な問題に対する一般学習理論の保証である。 さらに,我々の保証は,検証と人気情報基準の両目的に当てはまる。

An important unresolved challenge in the theory of regularization is to set the regularization coefficients of popular techniques like the ElasticNet with general provable guarantees. We consider the problem of tuning the regularization parameters of Ridge regression, LASSO, and the ElasticNet across multiple problem instances, a setting that encompasses both cross-validation and multi-task hyperparameter optimization. We obtain a novel structural result for the ElasticNet which characterizes the loss as a function of the tuning parameters as a piecewise-rational function with algebraic boundaries. We use this to bound the structural complexity of the regularized loss functions and show generalization guarantees for tuning the ElasticNet regression coefficients in the statistical setting. We also consider the more challenging online learning setting, where we show vanishing average expected regret relative to the optimal parameter pair. We further extend our results to tuning classification algorithms obtained by thresholding regression fits regularized by Ridge, LASSO, or ElasticNet. Our results are the first general learning-theoretic guarantees for this important class of problems that avoid strong assumptions on the data distribution. Furthermore, our guarantees hold for both validation and popular information criterion objectives.
翻訳日:2024-01-18 03:59:31 公開日:2024-01-15
# SPIRAL:非凸有限和最小化のための超線形収束インクリメンタル近似アルゴリズム

SPIRAL: A superlinearly convergent incremental proximal algorithm for nonconvex finite sum minimization ( http://arxiv.org/abs/2207.08195v2 )

ライセンス: Link先を確認
Pourya Behmandpoor, Puya Latafat, Andreas Themelis, Marc Moonen, and Panagiotis Patrinos(参考訳) 相対滑らか性仮定の下で、非凸正規化有限和問題を解くために、SuPerlinearly convergent Incremental pRoximal algorithm を導入する。 SPIRALの各イテレーションは内ループと外ループで構成されている。 漸進的な勾配の更新と、漸近的に引き起こされないという顕著な性質を持つ直線探索を組み合わせることで、極限点における穏やかな仮定の下で超線型収束をもたらす。 L-BFGS方向の異なる凸、非凸、および非リプシッツ微分可能問題に対するシミュレーションの結果、我々のアルゴリズムは、適応的変種と同様に、最先端技術と競合することを示した。

We introduce SPIRAL, a SuPerlinearly convergent Incremental pRoximal ALgorithm, for solving nonconvex regularized finite sum problems under a relative smoothness assumption. Each iteration of SPIRAL consists of an inner and an outer loop. It combines incremental gradient updates with a linesearch that has the remarkable property of never being triggered asymptotically, leading to superlinear convergence under mild assumptions at the limit point. Simulation results with L-BFGS directions on different convex, nonconvex, and non-Lipschitz differentiable problems show that our algorithm, as well as its adaptive variant, are competitive to the state of the art.
翻訳日:2024-01-18 03:59:15 公開日:2024-01-15
# KeyCLD: 画像からのキーポイント座標における制約付きラグランジアンダイナミクスの学習

KeyCLD: Learning Constrained Lagrangian Dynamics in Keypoint Coordinates from Images ( http://arxiv.org/abs/2206.11030v2 )

ライセンス: Link先を確認
Rembert Daems, Jeroen Taets, Francis wyffels and Guillaume Crevecoeur(参考訳) 画像からラグランジアン力学を学習するフレームワークであるKeyCLDを提案する。 学習されたキーポイントはイメージのセマンティックランドマークを表し、状態のダイナミクスを直接表現することができる。 この状態をカルト座標と解釈し、明示的なホロノミックな制約を伴って、制約付きラグランジアンで力学を表現できることが示される。 KeyCLDは、イメージのシーケンスに基づいて教師なしのエンドツーエンドで訓練されている。 本手法は, 質量行列, ポテンシャルエネルギーおよび入力行列を明示的にモデル化し, エネルギーベース制御を可能にする。 我々は,dm_control pendulum, cartpole, acrobot環境の画像からラグランジアン力学の学習を実演する。 KeyCLDは、これらのシステム上で、不動、不動、または完全に作動のいずれかを学ぶことができる。 トレーニングされたモデルは、長期的なビデオ予測を生成でき、ダイナミクスが正確に学習されていることを示している。 我々は,Lag-VAE,Lag-caVAE,HGNを比較し,ラグランジアン先行関数と制約関数の利点について検討する。 KeyCLDはすべてのベンチマークで最も有効な予測時間を達成する。 さらに、完全に作動するシステムに非常に簡単なエネルギー整形制御器がうまく適用されている。 https://rdaems.github.io/keycld/. プロジェクトページ コードと追加結果を参照してください。

We present KeyCLD, a framework to learn Lagrangian dynamics from images. Learned keypoints represent semantic landmarks in images and can directly represent state dynamics. We show that interpreting this state as Cartesian coordinates, coupled with explicit holonomic constraints, allows expressing the dynamics with a constrained Lagrangian. KeyCLD is trained unsupervised end-to-end on sequences of images. Our method explicitly models the mass matrix, potential energy and the input matrix, thus allowing energy based control. We demonstrate learning of Lagrangian dynamics from images on the dm_control pendulum, cartpole and acrobot environments. KeyCLD can be learned on these systems, whether they are unactuated, underactuated or fully actuated. Trained models are able to produce long-term video predictions, showing that the dynamics are accurately learned. We compare with Lag-VAE, Lag-caVAE and HGN, and investigate the benefit of the Lagrangian prior and the constraint function. KeyCLD achieves the highest valid prediction time on all benchmarks. Additionally, a very straightforward energy shaping controller is successfully applied on the fully actuated systems. Please refer to our project page for code and additional results: https://rdaems.github.io/keycld/
翻訳日:2024-01-18 03:58:41 公開日:2024-01-15
# 資源効率の良い分離変圧器

Resource-Efficient Separation Transformer ( http://arxiv.org/abs/2206.09507v2 )

ライセンス: Link先を確認
Luca Della Libera, Cem Subakan, Mirco Ravanelli, Samuele Cornell, Fr\'ed\'eric Lepoutre, Fran\c{c}ois Grondin(参考訳) トランスフォーマーは最近、音声分離において最先端のパフォーマンスを達成している。 しかし、これらのモデルは計算的に要求され、多くの学習可能なパラメータを必要とする。 本稿では,トランスフォーマーを用いた音声分離手法を提案する。 私たちの主な貢献は、リソース効率の良い分離変換器(RE-SepFormer)の開発です。 まず、潜在空間で重複しないブロックを使用する。 第二に、各チャンクから計算されたコンパクトな潜在サマリーで動作する。 re-sepformerは、因果設定と非因果設定の両方で、人気のあるwsj0-2mixとwham!データセットで競合性能に達する。 注目すべきは、メモリと推論時間の観点から、従来のTransformerベースのアーキテクチャよりも大幅にスケールし、長い混合処理に適していることだ。

Transformers have recently achieved state-of-the-art performance in speech separation. These models, however, are computationally demanding and require a lot of learnable parameters. This paper explores Transformer-based speech separation with a reduced computational cost. Our main contribution is the development of the Resource-Efficient Separation Transformer (RE-SepFormer), a self-attention-based architecture that reduces the computational burden in two ways. First, it uses non-overlapping blocks in the latent space. Second, it operates on compact latent summaries calculated from each chunk. The RE-SepFormer reaches a competitive performance on the popular WSJ0-2Mix and WHAM! datasets in both causal and non-causal settings. Remarkably, it scales significantly better than the previous Transformer-based architectures in terms of memory and inference time, making it more suitable for processing long mixtures.
翻訳日:2024-01-18 03:58:08 公開日:2024-01-15
# テンソル・オン・テンソル回帰:リーマン最適化、過剰パラメータ化、統計計算ギャップ、それらの相互作用

Tensor-on-Tensor Regression: Riemannian Optimization, Over-parameterization, Statistical-computational Gap, and Their Interplay ( http://arxiv.org/abs/2206.08756v3 )

ライセンス: Link先を確認
Yuetian Luo and Anru R. Zhang(参考訳) テンソル・オン・テンソル回帰(tensor-on-tensor regression)は、テンソル応答をテンソル共変量とタッカー階数パラメータのテンソル/行列とを、その内在的な階数に関する事前の知識なしで接続することを目的としている。 リーマン勾配降下法(RGD)とリーマンガウスニュートン法(RGN)を提案し、ランクオーバーパラメータ化の効果を研究することによって未知ランクの挑戦に対処する。 rgd と rgn はそれぞれ線形および二次的に収束し, 次数に最適推定値を示すことにより, 一般のテンソル・オン・テンソル回帰に対する最初の収束保証を提供する。 リーマン最適化法は、その実装に修正を加えることなく、自然に過剰パラメータ化に適応する。 また,スカラー・オン・テンソル回帰の統計計算的ギャップを,直交低次多項式論により証明する。 3位以上のテンソルに対するテンソル・オン・テンソル回帰(tensor-on-tensor regression)の幅広いシナリオにおいて、計算上必要とされるサンプルサイズは、計算可能な推定量を考えるときに中程度のランクの過剰パラメータ化によって必要とされるものと一致するが、行列の設定にはそのような利点はない。 これは、3位以上のテンソル・オン・テンソル回帰におけるサンプルサイズの観点から、中等級の過剰パラメータ化は本質的に「コストフリー」であることを示している。 最後に,提案手法の利点を示すためにシミュレーション研究を行い,理論的な知見を裏付ける。

We study the tensor-on-tensor regression, where the goal is to connect tensor responses to tensor covariates with a low Tucker rank parameter tensor/matrix without the prior knowledge of its intrinsic rank. We propose the Riemannian gradient descent (RGD) and Riemannian Gauss-Newton (RGN) methods and cope with the challenge of unknown rank by studying the effect of rank over-parameterization. We provide the first convergence guarantee for the general tensor-on-tensor regression by showing that RGD and RGN respectively converge linearly and quadratically to a statistically optimal estimate in both rank correctly-parameterized and over-parameterized settings. Our theory reveals an intriguing phenomenon: Riemannian optimization methods naturally adapt to over-parameterization without modifications to their implementation. We also prove the statistical-computational gap in scalar-on-tensor regression by a direct low-degree polynomial argument. Our theory demonstrates a "blessing of statistical-computational gap" phenomenon: in a wide range of scenarios in tensor-on-tensor regression for tensors of order three or higher, the computationally required sample size matches what is needed by moderate rank over-parameterization when considering computationally feasible estimators, while there are no such benefits in the matrix settings. This shows moderate rank over-parameterization is essentially "cost-free" in terms of sample size in tensor-on-tensor regression of order three or higher. Finally, we conduct simulation studies to show the advantages of our proposed methods and to corroborate our theoretical findings.
翻訳日:2024-01-18 03:57:56 公開日:2024-01-15
# オンラインLiDAR-Camera Extrinsic Parameters Self-checking

Online LiDAR-Camera Extrinsic Parameters Self-checking ( http://arxiv.org/abs/2210.10537v2 )

ライセンス: Link先を確認
Pengjin Wei, Guohang Yan, Yikang Li, Kun Fang, Jie Yang, Wei Liu(参考訳) ニューラルネットワークの発展と自動走行の普及により、ライダーとカメラのキャリブレーションがますます注目されるようになった。 このキャリブレーションタスクはマルチモーダルであり、カメラが捉えた豊かな色とテクスチャ情報とlidarからの正確な3次元空間情報とが下流タスクにとって極めて重要である。 現在の研究は情報融合による正確な校正結果の取得に重点を置いている。 しかし、校正結果が正しいかどうかを分析することはほとんどなく、現実のアプリケーションでは重要な意味を持つ可能性がある。 例えば、大規模生産では、各スマートカーのLiDARとカメラは、車両が生産ラインを離れるときに適切に校正されなければならないが、残りの期間は、LiDARとカメラのポーズも、安全を確保するために継続的に監視されなければならない。 そこで本稿では,カメラとLiDARの融合情報に基づく二元分類ネットワークを導入することにより,外部パラメータが適切に校正されているかどうかを自己チェックするアルゴリズムを提案する。 さらに,この作業にはこのようなデータセットが存在しないため,タスク用に調整されたkittiデータセットから新たなデータセットブランチを新たに生成する。 提案するデータセットの分岐実験により,本手法の性能を実証した。 我々の知る限りでは、これは自律運転のための校正外在的パラメータを継続的にチェックすることの重要性に対処する最初の研究である。 コードはGithubのWebサイトでhttps://github.com/OpenCalib/LiDAR2camera_self-checkで公開されている。

With the development of neural networks and the increasing popularity of automatic driving, the calibration of the LiDAR and the camera has attracted more and more attention. This calibration task is multi-modal, where the rich color and texture information captured by the camera and the accurate three-dimensional spatial information from the LiDAR is incredibly significant for downstream tasks. Current research interests mainly focus on obtaining accurate calibration results through information fusion. However, they seldom analyze whether the calibrated results are correct or not, which could be of significant importance in real-world applications. For example, in large-scale production, the LiDARs and the cameras of each smart car have to get well-calibrated as the car leaves the production line, while in the rest of the car life period, the poses of the LiDARs and cameras should also get continually supervised to ensure the security. To this end, this paper proposes a self-checking algorithm to judge whether the extrinsic parameters are well-calibrated by introducing a binary classification network based on the fused information from the camera and the LiDAR. Moreover, since there is no such dataset for the task in this work, we further generate a new dataset branch from the KITTI dataset tailored for the task. Our experiments on the proposed dataset branch demonstrate the performance of our method. To the best of our knowledge, this is the first work to address the significance of continually checking the calibrated extrinsic parameters for autonomous driving. The code is open-sourced on the Github website at https://github.com/OpenCalib/LiDAR2camera_self-check.
翻訳日:2024-01-18 03:48:50 公開日:2024-01-15
# most-likelyパスによる雑音環境における量子状態準備制御

Quantum state-preparation control in noisy environment via most-likely paths ( http://arxiv.org/abs/2209.13164v2 )

ライセンス: Link先を確認
Wirawat Kokaew, Thiparat Chotibut, Areeya Chantasri(参考訳) オープン量子システムの最適制御を見つけるには、望ましくない環境騒音の影響を考慮する必要がある。 ノイズの実際の実現や状態は通常不明であるので、量子系の非一貫性ダイナミクスの通常の処理はリンドブラッドマスター方程式(lindblad master equation)を介して行われ、これは本質的に未知のノイズによって影響を受けるシステムの状態の平均的な進化(つまり経路)を記述する。 そこで本研究では, 平均ダイナミクスを仮定した雑音量子軌道に解き放ち, 雑音発生の可能性に基づく状態準備問題に対する新しい制御戦略を提案する。 量子状態準備のための最もよく似た経路手法を採用し、ノイズ変数に対する確率的経路積分を構築し、ターゲット状態を達成するために最もよく似たノイズに関連する制御関数を見つける。 概念実証として,この手法をデファスノイズ下での量子状態準備に適用し,任意の対象状態に対する制御されたrabiドライブを解析的に解く。 提案手法はノイズの確率に基づいて構築されているため,新しい状態準備尺度として忠実度成功率を導入し,既存の平均経路アプローチに対する最好の経路制御をベンチマークする。

Finding optimal controls for open quantum systems needs to take into account effects from unwanted environmental noise. Since actual realizations or states of the noise are typically unknown, the usual treatment for the quantum system's decoherence dynamics is via the Lindblad master equation, which in essence describes an average evolution (mean path) of the system's state affected by the unknown noise. We here consider an alternative view of a noise-affected open quantum system, where the average dynamics can be unravelled into hypothetical noisy quantum trajectories, and propose a new control strategy for the state-preparation problem based on the likelihood of noise occurrence. We adopt the most-likely path technique for quantum state-preparation, constructing a stochastic path integral for noise variables and finding control functions associated with the most-likely noise to achieve target states. As a proof of concept, we apply the method to a qubit-state preparation under a dephasing noise and analytically solve for controlled Rabi drives for arbitrary target states. Since the method is constructed based on the probability of noise, we also introduce a fidelity success rate as a new measure of the state preparation and benchmark our most-likely path controls against the existing mean-path approaches.
翻訳日:2024-01-18 03:47:09 公開日:2024-01-15
# 固有値推定に応用した制御ゲートネットワーク

Controlled Gate Networks Applied to Eigenvalue Estimation ( http://arxiv.org/abs/2208.13557v2 )

ライセンス: Link先を確認
Max Bee-Lindgren, Zhengrong Qian, Matthew DeCross, Natalie C. Brown, Christopher N. Gilbreth, Jacob Watkins, Xilin Zhang, Dean Lee(参考訳) 制御ゲートネットワークと呼ばれる量子回路設計の新しい手法を提案する。 制御ゲートネットワークの目的は、個々のユニタリ操作の複雑さを減らすことではなく、最も少ない数のゲートで必要なユニタリ操作を切り替えることである。 本研究では,制御反転ゲートと呼ばれる制御ゲートネットワークを用いて,2量子ハミルトニアンの固有値をロデオアルゴリズムを用いて推定する手法を提案する。 2量子ゲート数の5倍削減は、標準制御ゲートを用いた等価なアプローチと比較して観察される。 我々は量子回路を実現するために、量子H1-2とIBM Perthデバイスを使用する。 我々の研究は、類似した量子演算のシーケンスを適用するための有用な設計原理を示唆している。

We introduce a new scheme for quantum circuit design called controlled gate networks. Rather than trying to reduce the complexity of individual unitary operations, the objective of controlled gate networks is to toggle between all of the unitary operations needed with the fewest number of gates. We illustrate our approach using a specific class of controlled gate networks, called controlled reversal gates, to estimate the eigenvalues of a two-qubit Hamiltonian via the Rodeo Algorithm. A five-fold reduction in the number of two-qubit gates is observed as compared to an equivalent approach using standard controlled gates. We use the Quantinuum H1-2 and IBM Perth devices to realize the quantum circuits. Our work suggests a useful design principle for applying sequences of similar quantum operations.
翻訳日:2024-01-18 03:44:20 公開日:2024-01-15
# クラマース単分子磁石の磁化の量子トンネル形成に及ぼすビブロン効果

Vibronic effects on the quantum tunnelling of magnetisation in Kramers single-molecule magnets ( http://arxiv.org/abs/2301.05557v2 )

ライセンス: Link先を確認
Andrea Mattioni, Jakob K. Staab, William J. A. Blackmore, Daniel Reta, Jake Iles-Smith, Ahsan Nazir, Nicholas F. Chilton(参考訳) 単分子磁石は、分子スケールのデータストレージと処理を実現する上で最も有望なプラットフォームの一つである。 その磁化ダイナミクスは、電子的自由度と振動的自由度の間の相互作用によって決定される。 電子的および振動的ハミルトニアンのab initio記述に基づいて、単金属単分子磁石における低エネルギー磁気自由度の非摂動振動模型を定式化する。 磁化の量子トンネル化に対するビブロンの寄与を定量化することが可能であり、スピンフォノンカップリングとは無関係であると考えられている。 磁気ポーラロンの形成は、低いスピン状態の安定化により、アモルファス系と結晶系のトンネルの確率を低下させる。 この研究は、スピンフォノンカップリングが振動励起が存在しない極低温でも単一分子磁石の磁気緩和に微妙に影響を及ぼすことを示した。

Single-molecule magnets are among the most promising platforms for achieving molecular-scale data storage and processing. Their magnetisation dynamics are determined by the interplay between electronic and vibrational degrees of freedom, which can couple coherently, leading to complex vibronic dynamics. Building on an ab initio description of the electronic and vibrational Hamiltonians, we formulate a non-perturbative vibronic model of the low-energy magnetic degrees of freedom in monometallic single-molecule magnets. Describing their low-temperature magnetism in terms of magnetic polarons, we are able to quantify the vibronic contribution to the quantum tunnelling of the magnetisation, a process that is commonly assumed to be independent of spin-phonon coupling. We find that the formation of magnetic polarons lowers the tunnelling probability in both amorphous and crystalline systems by stabilising the low-lying spin states. This work, thus, shows that spin-phonon coupling subtly influences magnetic relaxation in single-molecule magnets even at extremely low temperatures where no vibrational excitations are present.
翻訳日:2024-01-18 03:36:13 公開日:2024-01-15
# リアルタイム食品画像分類のためのオンラインクラスインクリメンタルラーニング

Online Class-Incremental Learning For Real-World Food Image Classification ( http://arxiv.org/abs/2301.05246v3 )

ライセンス: Link先を確認
Siddeshwar Raghavan, Jiangpeng He, Fengqing Zhu(参考訳) 食品画像分類は、画像に基づく食事評価法において、健康状態の監視と食事の追跡に不可欠である。 しかし、従来のシステムは固定クラスと一様分布を持つ静的データセットに依存することが多い。 対照的に、文化的、経済的、個人的影響によって形成される現実世界の食品消費パターンには、動的かつ進化的なデータが含まれる。 したがって、分類システムは継続的に進化するデータを扱う必要がある。 Online Class Incremental Learning (OCIL)は、新しい知識に適応しつつ、単一パスのデータストリームから継続的に学習することの課題に対処する。 Experience Replay (ER)ベースのOCILメソッドは、以前のデータのごく一部を格納し、高いパフォーマンスを示している。 しかし、既存のOCILのほとんどの研究は、遭遇したデータの分布が完全に均衡していると仮定している。 本研究では,まず,現実の食品消費シナリオをシミュレートする確率的枠組みを導入することで,実世界の食品画像分類のためのオシルを探索する。 次に,既存のER手法用に設計された動的モデル更新モジュールを提案する。このモジュールは,OCILフレームワーク内の現実的な食品消費パターンに固有のデータ繰り返しや不均衡なサンプル発生から生じる課題に対処し,モデルトレーニングのための関連画像の選択を可能にする。 性能評価の結果, 確立されたer法に比べ, 大幅に改善し, 実世界の食品画像分類シナリオにおける生涯学習の可能性を示した。 このメソッドのコードはhttps://gitlab.com/viper-purdue/ocil-real-world-food-image-classificationで公開されている。

Food image classification is essential for monitoring health and tracking dietary in image-based dietary assessment methods. However, conventional systems often rely on static datasets with fixed classes and uniform distribution. In contrast, real-world food consumption patterns, shaped by cultural, economic, and personal influences, involve dynamic and evolving data. Thus, require the classification system to cope with continuously evolving data. Online Class Incremental Learning (OCIL) addresses the challenge of learning continuously from a single-pass data stream while adapting to the new knowledge and reducing catastrophic forgetting. Experience Replay (ER) based OCIL methods store a small portion of previous data and have shown encouraging performance. However, most existing OCIL works assume that the distribution of encountered data is perfectly balanced, which rarely happens in real-world scenarios. In this work, we explore OCIL for real-world food image classification by first introducing a probabilistic framework to simulate realistic food consumption scenarios. Subsequently, we present an attachable Dynamic Model Update (DMU) module designed for existing ER methods, which enables the selection of relevant images for model training, addressing challenges arising from data repetition and imbalanced sample occurrences inherent in realistic food consumption patterns within the OCIL framework. Our performance evaluation demonstrates significant enhancements compared to established ER methods, showing great potential for lifelong learning in real-world food image classification scenarios. The code of our method is publicly accessible at https://gitlab.com/viper-purdue/OCIL-real-world-food-image-classification
翻訳日:2024-01-18 03:35:58 公開日:2024-01-15
# ニューラルネットワークによるポントリャーギン最適制御

Pontryagin Optimal Control via Neural Networks ( http://arxiv.org/abs/2212.14566v3 )

ライセンス: Link先を確認
Chengyang Gu, Hui Xiong and Yize Chen(参考訳) 現実の最適制御問題の解決は難しい作業であり、複雑で高次元のシステムダイナミクスは意思決定者には明らかにされない。 したがって、最適制御動作を数値的に見つけることは困難である。 このようなモデリングと計算の課題に対処するため,本論文では,ニューラルネットワークとpontryaginの最大原理(pmp)を統合し,nn-pmp-gradientのサンプル効率的なフレームワークを提案する。 結果として生じるコントローラは未知の複雑な力学を持つシステムに実装することができる。 提案手法は,ニューラルネットワークによってパラメータ化される精度の高いサロゲートモデルを利用するだけでなく,pmp条件による最適動作シーケンスとともに最適条件を効率的に回復する。 線形二次レギュレータの数値シミュレーション,グリッド接続型損失電池のエネルギー仲裁,単一振り子制御,および2つのMuJoCo移動タスクにより,提案したNN-PMP-Gradientは最適解を求める汎用的で汎用的な計算ツールであることを示す。 また, モデルフリーおよびモデルベース強化学習(RL)アルゴリズムと比較して, NN-PMP-Gradientは, 制御目的の観点から高いサンプル効率と性能を実現する。

Solving real-world optimal control problems are challenging tasks, as the complex, high-dimensional system dynamics are usually unrevealed to the decision maker. It is thus hard to find the optimal control actions numerically. To deal with such modeling and computation challenges, in this paper, we integrate Neural Networks with the Pontryagin's Maximum Principle (PMP), and propose a sample efficient framework NN-PMP-Gradient. The resulting controller can be implemented for systems with unknown and complex dynamics. By taking an iterative approach, the proposed framework not only utilizes the accurate surrogate models parameterized by neural networks, it also efficiently recovers the optimality conditions along with the optimal action sequences via PMP conditions. Numerical simulations on Linear Quadratic Regulator, energy arbitrage of grid-connected lossy battery, control of single pendulum, and two MuJoCo locomotion tasks demonstrate our proposed NN-PMP-Gradient is a general and versatile computation tool for finding optimal solutions. And compared with the widely applied model-free and model-based reinforcement learning (RL) algorithms, our NN-PMP-Gradient achieves higher sample-efficiency and performance in terms of control objectives.
翻訳日:2024-01-18 03:35:32 公開日:2024-01-15
# 制限データに対する連続変数絡みの最適検出

Optimizing detection of continuous variable entanglement for limited data ( http://arxiv.org/abs/2211.17168v2 )

ライセンス: Link先を確認
Martin G\"arttner and Tobias Haas and Johannes Noll(参考訳) 実験データの少ないシナリオにおけるHusimi$Q$-distributionに基づく連続変数系に対する絡み合い基準のクラスの有用性について検討する。 これらの基準の一般化により、与えられた絡み合った状態と実験的な設定に対してそれらを最適化することができる。 我々は、フシミ$Q$分布の値が位相空間の点の格子上でのみ知られているような粗粒度測定(有限検出器分解)のシナリオを考察し、この場合の絡み合い基準をどのように適用できるかを示す。 さらに,フシミ分布から独立した試料を抽出する実験的な測定値が得られた場合のシナリオについて検討した。 ここでは,与えられた有限個の試料の検出の統計的意義を最大化するために,絡み合い基準をカスタマイズする。 両方のシナリオにおいて、最適化は検出された状態のクラスと検出の信号対雑音比を大きくする明確な改善をもたらす。

We explore the advantages of a class of entanglement criteria for continuous variable systems based on the Husimi $Q$-distribution in scenarios with sparse experimental data. The generality of these criteria allows optimizing them for a given entangled state and experimental setting. We consider the scenario of coarse grained measurements, or finite detector resolution, where the values of the Husimi $Q$-distribution are only known on a grid of points in phase space, and show how the entanglement criteria can be adapted to this case. Further, we examine the scenario where experimental measurements amount to drawing independent samples from the Husimi distribution. Here, we customize our entanglement criteria to maximize the statistical significance of the detection for a given finite number of samples. In both scenarios optimization leads to clear improvements enlarging the class of detected states and the signal-to-noise ratio of the detection, respectively.
翻訳日:2024-01-18 03:33:55 公開日:2024-01-15
# Q$-分布を用いた位相空間における連続変数絡みの検出

Detecting continuous variable entanglement in phase space with the $Q$-distribution ( http://arxiv.org/abs/2211.17165v2 )

ライセンス: Link先を確認
Martin G\"arttner and Tobias Haas and Johannes Noll(参考訳) 正準位相空間における量子状態を表す Husimi $Q$-distribution に基づく連続変数の絡み合いの一般的なクラスを、リーブとソロヴェイの定理を用いて証明する。 我々は, 連続的可微分化理論の観点から, 凹関数集合を最適化する可能性に根ざしたそれらの一般性について考察し, このアプローチにより, 第二モーメント基準と同様にエントロピーの族が特別な場合として従うことを示す。 全ての基準を対応する限界基準と比較し、我々の基準フラグの絡み合いのみを有する原型状態の族に対して位相空間アプローチの強さを実証する。 さらに, 有限検出器分解能と有限統計量という, スパースデータによって特徴づけられる2つの実験的なシナリオにおいて, その最適化の展望について検討する。 両方のシナリオにおいて、最適化は検出された状態のクラスと検出の信号対雑音比を大きくする明確な改善をもたらす。

We prove a general class of continuous variable entanglement criteria based on the Husimi $Q$-distribution, which represents a quantum state in canonical phase space, by employing a theorem by Lieb and Solovej. We discuss their generality, which roots in the possibility to optimize over the set of concave functions, from the perspective of continuous majorization theory and show that with this approach families of entropic as well as second moment criteria follow as special cases. All derived criteria are compared to corresponding marginal based criteria and the strength of the phase space approach is demonstrated for a family of prototypical example states where only our criteria flag entanglement. Further, we explore their optimization prospects in two experimentally relevant scenarios characterized by sparse data: finite detector resolution and finite statistics. In both scenarios optimization leads to clear improvements enlarging the class of detected states and the signal-to-noise ratio of the detection, respectively.
翻訳日:2024-01-18 03:33:39 公開日:2024-01-15
# 連続変数絡み合い基準の一般クラス

General class of continuous variable entanglement criteria ( http://arxiv.org/abs/2211.17160v2 )

ライセンス: Link先を確認
Martin G\"arttner and Tobias Haas and Johannes Noll(参考訳) 連続変数系に対する絡み合いの一般的なクラスを示す。 当社の基準はhusimi $q$-distributionに基づいており、これらを極めて汎用的で汎用的なコンケーブ関数のセットに対して最適化することが可能です。 特殊事例として,いくつかのエントロピー基準と第2モーメント基準が得られた。 本基準は, 一般の基準では検出されない状態群が絡み合っていることを明らかにし, 有限検出器分解能や測定統計など, 典型的な実験的制約下では明らかな利点を与える。

We present a general class of entanglement criteria for continuous variable systems. Our criteria are based on the Husimi $Q$-distribution and allow for optimization over the set of all concave functions rendering them extremely general and versatile. We show that several entropic criteria and second moment criteria are obtained as special cases. Our criteria reveal entanglement of families of states undetected by any commonly used criteria and provide clear advantages under typical experimental constraints such as finite detector resolution and measurement statistics.
翻訳日:2024-01-18 03:33:22 公開日:2024-01-15
# 多次元経路依存オプションのためのディープシグナチャアルゴリズム

Deep Signature Algorithm for Multi-dimensional Path-Dependent Options ( http://arxiv.org/abs/2211.11691v3 )

ライセンス: Link先を確認
Erhan Bayraktar, Qi Feng, and Zhaoyu Zhang(参考訳) 本研究では,経路依存オプションに対する深いシグネチャアルゴリズムについて検討する。 我々は[Hur\e-Pham-Warin]の後方スキームを拡張する。 相反スキームにシグネチャ層を加えることにより、経路に依存したfbsdに対するリフレクションを持つ状態依存fbsdに対する計算数学 89, no. 324 (2020)]。 当社のアルゴリズムはヨーロッパとアメリカの両タイプのオプション価格問題に適用される一方、支払い関数は基礎となるフォワードストックプロセスの全パスに依存します。 本稿では, 数値アルゴリズムの収束解析を, シグネチャのトランケーション順序とニューラルネットワーク近似誤差に明示的に依存して証明する。 このアルゴリズムの数値的な例は、ブラックスコールズモデルの下でのアメラシアンオプション、経路依存的な幾何学的平均ペイオフ関数を持つアメリカンオプション、シリャエフの最適停止問題である。

In this work, we study the deep signature algorithms for path-dependent options. We extend the backward scheme in [Hur\'e-Pham-Warin. Mathematics of Computation 89, no. 324 (2020)] for state-dependent FBSDEs with reflections to path-dependent FBSDEs with reflections, by adding the signature layer to the backward scheme. Our algorithm applies to both European and American type option pricing problems while the payoff function depends on the whole paths of the underlying forward stock process. We prove the convergence analysis of our numerical algorithm with explicit dependence on the truncation order of the signature and the neural network approximation errors. Numerical examples for the algorithm are provided including: Amerasian option under the Black-Scholes model, American option with a path-dependent geometric mean payoff function, and the Shiryaev's optimal stopping problem.
翻訳日:2024-01-18 03:32:54 公開日:2024-01-15
# プレトレイン盆地に滞在するか否か:転校学習の実践をめざして

To Stay or Not to Stay in the Pre-train Basin: Insights on Ensembling in Transfer Learning ( http://arxiv.org/abs/2303.03374v3 )

ライセンス: Link先を確認
Ildus Sadrtdinov, Dmitrii Pozdeev, Dmitry Vetrov, Ekaterina Lobacheva(参考訳) transfer learningとensemblingは、ニューラルネットワークのパフォーマンスと堅牢性を改善するための2つの一般的なテクニックである。 事前訓練のコストが高いため、1つの事前訓練済みチェックポイントから微調整されたモデルのアンサンブルが実際によく用いられる。 このようなモデルは、私たちがプレトレイン盆地と呼ぶロスランドスケープの同じ流域に留まり、そのため多様性は限られている。 本研究では,1つの事前学習チェックポイントから訓練したアンサンブルを,列車前流域の探索により改善できることを示すが,このアンサンブルは移動学習の利点を失い,アンサンブルの品質が低下する結果となる。 本稿では,既存の探索手法の分析に基づいて,より効果的にSSE(Snapshot Ensembles)を改良し,より強力なアンサンブルと均一なモデルスープをもたらすStarSSEを提案する。

Transfer learning and ensembling are two popular techniques for improving the performance and robustness of neural networks. Due to the high cost of pre-training, ensembles of models fine-tuned from a single pre-trained checkpoint are often used in practice. Such models end up in the same basin of the loss landscape, which we call the pre-train basin, and thus have limited diversity. In this work, we show that ensembles trained from a single pre-trained checkpoint may be improved by better exploring the pre-train basin, however, leaving the basin results in losing the benefits of transfer learning and in degradation of the ensemble quality. Based on the analysis of existing exploration methods, we propose a more effective modification of the Snapshot Ensembles (SSE) for transfer learning setup, StarSSE, which results in stronger ensembles and uniform model soups.
翻訳日:2024-01-18 03:24:33 公開日:2024-01-15
# 線形相関雑音による勾配降下:理論と微分プライバシーへの応用

Gradient Descent with Linearly Correlated Noise: Theory and Applications to Differential Privacy ( http://arxiv.org/abs/2302.01463v3 )

ライセンス: Link先を確認
Anastasia Koloskova, Ryan McKenna, Zachary Charles, Keith Rush, Brendan McMahan(参考訳) 線形相関雑音下での勾配降下について検討する。 我々の研究は、DP-FTRLのような近年の差分プライバシー(DP)最適化の実践的手法によって動機付けられており、プライバシーの増幅技術(フェデレーション学習など)が実現できない環境では、高い性能を達成する。 これらの手法は、行列係数化機構を介してプライバシノイズを注入し、繰り返しのノイズを線形に相関させる。 本稿では,これらの手法の鍵面を蒸留し,線形相関雑音の影響を分離する簡易な設定法を提案する。 この設定における勾配降下の挙動を凸関数と非凸関数の両方に対して解析する。 本研究は従来より明らかに厳密であり,複数の重要な症例(反相関性摂動勾配降下を含む)を正確に回収する。 我々は,微分プライベート最適化のための新しい効率的な行列因子分解法を開発し,これらの因子分解の利点を理論的および経験的に強調する。

We study gradient descent under linearly correlated noise. Our work is motivated by recent practical methods for optimization with differential privacy (DP), such as DP-FTRL, which achieve strong performance in settings where privacy amplification techniques are infeasible (such as in federated learning). These methods inject privacy noise through a matrix factorization mechanism, making the noise linearly correlated over iterations. We propose a simplified setting that distills key facets of these methods and isolates the impact of linearly correlated noise. We analyze the behavior of gradient descent in this setting, for both convex and non-convex functions. Our analysis is demonstrably tighter than prior work and recovers multiple important special cases exactly (including anticorrelated perturbed gradient descent). We use our results to develop new, effective matrix factorizations for differentially private optimization, and highlight the benefits of these factorizations theoretically and empirically.
翻訳日:2024-01-18 03:22:53 公開日:2024-01-15
# 個人個別分散学習における効率的なノード選択

Efficient Node Selection in Private Personalized Decentralized Learning ( http://arxiv.org/abs/2301.12755v2 )

ライセンス: Link先を確認
Edvin Listo Zec, Johan \"Ostman, Olof Mogren, Daniel Gillblad(参考訳) パーソナライズされた分散学習は分散学習にとって有望なパラダイムであり、各ノードが自身のデータ上でローカルモデルをトレーニングし、データを共有せずに他のノードと協調して改善することができる。 しかしこのアプローチは、ノードが自分たちのデータや好みに関する機密情報を、コラボレーションの選択を通じて不注意に開示する可能性があるため、重大なプライバシーリスクを引き起こす。 本稿では,ノードのプライバシーを保護し,効率的なノード選択を容易にするために,セキュアなアグリゲーションと相関する多腕バンディット最適化を組み合わせた新しいアプローチであるプライベートパーソナライズド分散学習(PPDL)を提案する。 協力者候補に代表される異なるアーム間の依存関係を利用することで,ppdlは,集約モデルのみに基づいて,適切な協調者を効果的に識別できることを実証する。 さらに,ppdlはラベルや共変量シフトのシナリオにおいて,標準ベンチマークのモデル性能において従来の非プライベートメソッドを上回っていることを示す。

Personalized decentralized learning is a promising paradigm for distributed learning, enabling each node to train a local model on its own data and collaborate with other nodes to improve without sharing any data. However, this approach poses significant privacy risks, as nodes may inadvertently disclose sensitive information about their data or preferences through their collaboration choices. In this paper, we propose Private Personalized Decentralized Learning (PPDL), a novel approach that combines secure aggregation and correlated adversarial multi-armed bandit optimization to protect node privacy while facilitating efficient node selection. By leveraging dependencies between different arms, represented by potential collaborators, we demonstrate that PPDL can effectively identify suitable collaborators solely based on aggregated models. Additionally, we show that PPDL surpasses previous non-private methods in model performance on standard benchmarks under label and covariate shift scenarios.
翻訳日:2024-01-18 03:22:37 公開日:2024-01-15
# unlearnへの学習: 事前学習された分類器のインスタンス別アンラーニング

Learning to Unlearn: Instance-wise Unlearning for Pre-trained Classifiers ( http://arxiv.org/abs/2301.11578v3 )

ライセンス: Link先を確認
Sungmin Cha, Sungjun Cho, Dasol Hwang, Honglak Lee, Taesup Moon, and Moontae Lee(参考訳) 最近のデータ保護規則(一般データ保護規則など)の出現以来、事前訓練されたモデルの機密データから学んだ情報をゼロから再訓練することなく削除する需要が高まっている。 敵の攻撃や不公平に対するニューラルネットワークの固有の脆弱性は、残りのデータに対する予測性能を維持しながら、インスタンス単位で情報を削除または修正する堅牢な方法も要求している。 この目的のために、各インスタンスを元の予測から誤分類するか、インスタンスを別のラベルに置き換えることによって、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目的としている。 また、残りのデータの忘れを少なくする2つの方法を提案する。 1)敵の例を利用して表現レベルでの忘れを克服し、 2)不必要な情報を伝達した罪を犯したネットワークパラメータのピンポイントに重み付けの指標を活用する。 どちらの方法も、事前トレーニングされたモデルとデータインスタンスだけを忘れることが必要であり、トレーニングセット全体が利用できない実生活設定への苦痛のないアプリケーションを可能にする。 様々な画像分類ベンチマークを広範囲に実験した結果,本手法は単一タスクと連続的学習シナリオの両方において,与えられたインスタンスを学習しながら,残りのデータに関する知識を効果的に保持することを示す。

Since the recent advent of regulations for data protection (e.g., the General Data Protection Regulation), there has been increasing demand in deleting information learned from sensitive data in pre-trained models without retraining from scratch. The inherent vulnerability of neural networks towards adversarial attacks and unfairness also calls for a robust method to remove or correct information in an instance-wise fashion, while retaining the predictive performance across remaining data. To this end, we consider instance-wise unlearning, of which the goal is to delete information on a set of instances from a pre-trained model, by either misclassifying each instance away from its original prediction or relabeling the instance to a different label. We also propose two methods that reduce forgetting on the remaining data: 1) utilizing adversarial examples to overcome forgetting at the representation-level and 2) leveraging weight importance metrics to pinpoint network parameters guilty of propagating unwanted information. Both methods only require the pre-trained model and data instances to forget, allowing painless application to real-life settings where the entire training set is unavailable. Through extensive experimentation on various image classification benchmarks, we show that our approach effectively preserves knowledge of remaining data while unlearning given instances in both single-task and continual unlearning scenarios.
翻訳日:2024-01-18 03:21:44 公開日:2024-01-15
# SPIDER機器における干渉画像の学習

Learned Interferometric Imaging for the SPIDER Instrument ( http://arxiv.org/abs/2301.10260v2 )

ライセンス: Link先を確認
Matthijs Mars, Marta M. Betcke, Jason D. McEwen(参考訳) spider(segmented planar imaging detector for electro-optical reconnaissance for electro-optical reconnaissance)は、現在の大型宇宙望遠鏡の代替として、大きさ、重量、消費電力の削減を目的とした光学干渉イメージングデバイスである。 これは干渉イメージングによって達成される。 干渉計測による画像再構成の最先端手法は、計算コストが高く手作りの先行技術を必要とする近位最適化技術を採用している。 本研究では,SPIDER計測器を用いて画像再構成を行う2つの手法を提案する。 これらのアプローチでは、ディープラーニングを使用してトレーニングデータから事前情報を学習し、復元品質を高め、画像の復元に要する計算時間を格段に削減する。 復元時間は${\sim} 10$ミリ秒に短縮され、初めてSPIDERによるリアルタイムイメージングが可能になった。 さらに,天文画像などのトレーニングデータが少ない領域でも,十分なトレーニングデータが得られる領域からの転送学習を活用することで,これらの手法を適用できることを示す。

The Segmented Planar Imaging Detector for Electro-Optical Reconnaissance (SPIDER) is an optical interferometric imaging device that aims to offer an alternative to the large space telescope designs of today with reduced size, weight and power consumption. This is achieved through interferometric imaging. State-of-the-art methods for reconstructing images from interferometric measurements adopt proximal optimization techniques, which are computationally expensive and require handcrafted priors. In this work we present two data-driven approaches for reconstructing images from measurements made by the SPIDER instrument. These approaches use deep learning to learn prior information from training data, increasing the reconstruction quality, and significantly reducing the computation time required to recover images by orders of magnitude. Reconstruction time is reduced to ${\sim} 10$ milliseconds, opening up the possibility of real-time imaging with SPIDER for the first time. Furthermore, we show that these methods can also be applied in domains where training data is scarce, such as astronomical imaging, by leveraging transfer learning from domains where plenty of training data are available.
翻訳日:2024-01-18 03:21:23 公開日:2024-01-15
# マルチクラスデータセットにおけるトポロジ学習

Topological Learning in Multi-Class Data Sets ( http://arxiv.org/abs/2301.09734v3 )

ライセンス: Link先を確認
Christopher Griffin and Trevor Karn and Benjamin Apple(参考訳) トポロジカルデータ解析から,多クラスデータセットのトポロジカル複雑性(論文の本文で定義されている)を特徴付ける問題まで,その技法を専門とする。 副産物として、データセットのオープンサブカバーを使用するトポロジカル分類器が定義される。 この部分被覆は、位相的特徴(例えばベティ数)が分類問題に関する情報を提供する単純複体を構成するのに使うことができる。 これらのトポロジカル構成を用いて,feedforward deep neural networks (dnn) の学習におけるトポロジカル複雑度の影響について検討した。 位相的複雑性は、完全に接続されたフィードフォワード深層ニューラルネットワークがデータを正しく分類する能力と負の相関関係にあると仮定する。 我々は,複数の構築およびオープンソースデータセットのトポロジ分類アルゴリズムを評価する。 また,複数データセット上でのDNNにおける位相的複雑性と学習の関係に関する仮説を検証した。

We specialize techniques from topological data analysis to the problem of characterizing the topological complexity (as defined in the body of the paper) of a multi-class data set. As a by-product, a topological classifier is defined that uses an open sub-covering of the data set. This sub-covering can be used to construct a simplicial complex whose topological features (e.g., Betti numbers) provide information about the classification problem. We use these topological constructs to study the impact of topological complexity on learning in feedforward deep neural networks (DNNs). We hypothesize that topological complexity is negatively correlated with the ability of a fully connected feedforward deep neural network to learn to classify data correctly. We evaluate our topological classification algorithm on multiple constructed and open source data sets. We also validate our hypothesis regarding the relationship between topological complexity and learning in DNN's on multiple data sets.
翻訳日:2024-01-18 03:21:05 公開日:2024-01-15
# 量子ゲートの重ね合わせによる量子計算の強化

Enhancing Quantum Computation via Superposition of Quantum Gates ( http://arxiv.org/abs/2304.08529v2 )

ライセンス: Link先を確認
Jorge Miguel-Ramiro, Zheng Shi, Luca Dellantonio, Albie Chan, Christine A. Muschik and Wolfgang D\"ur(参考訳) 量子デバイスにおけるノイズや不完全性の影響を克服することは、実行可能な量子応用の主要な課題の1つである。 本稿では,単一ゲートの忠実性向上やコヒーレント重ね合わせによる計算全体の信頼性向上を目的とした,重ね合わせ量子誤差緩和(superposed quantum error mitigation)というプロトコルを提案する。 提案手法により,ほとんどのデコヒーレンスおよび標準実験パラメーター系において,有意なノイズ抑制が達成できることを示す。 我々のプロトコルは、結果が後選択されないような決定論的、あるいは確率的のいずれかであり、その場合、明確な条件が満たさない限り、結果の状態は破棄されなければならない。 十分に多くの資源を使用し、広い仮定の下で作業することで、我々の手法は要求される出力状態を単位忠実度で得ることができる。 最後に, ゲート型, 計測型, 干渉型モデルに対する我々のアプローチを分析し, あらゆるケースで適用可能性を示し, それらが依存する基本的なメカニズムを調査した。

Overcoming the influence of noise and imperfections in quantum devices is one of the main challenges for viable quantum applications. In this article, we present different protocols, which we denote as "superposed quantum error mitigation", that enhance the fidelity of single gates or entire computations by performing them in coherent superposition. Our results demonstrate that via our methods, significant noise suppression can be achieved for most kinds of decoherence and standard experimental parameter regimes. Our protocols can be either deterministic, such that the outcome is never post-selected, or probabilistic, in which case the resulting state must be discarded unless a well-specified condition is met. By using sufficiently many resources and working under broad assumptions, our methods can yield the desired output state with unit fidelity. Finally, we analyze our approach for gate-based, measurement-based and interferometric-based models, demonstrating the applicability in all cases and investigating the fundamental mechanisms they rely upon.
翻訳日:2024-01-18 03:12:34 公開日:2024-01-15
# 重ね合わせ量子誤差緩和

Superposed Quantum Error Mitigation ( http://arxiv.org/abs/2304.08528v2 )

ライセンス: Link先を確認
Jorge Miguel-Ramiro, Zheng Shi, Luca Dellantonio, Albie Chan, Christine A. Muschik and Wolfgang D\"ur(参考訳) ノイズや不完全性の影響を克服することは、量子コンピューティングにおける大きな課題である。 ここでは、興味あるシステムといくつかの補助状態の重ね合わせにおいて、所望のユニタリ計算を適用するアプローチを提案する。 我々は,ibm量子プラットフォーム上で,同じ動作の並列処理が任意のノイズ処理を考慮すれば,大きなノイズ軽減につながることを数値的に証明する。 まず,ノイズ特性に依存せず,後処理を必要とせず,プラグアンドプレイ方式の確率的実装を設計する。 そして,適応補正を用いて成功確率を(決定論的に)向上させる。 我々はプロトコル性能の分析を行い、単位忠実度を漸近的に達成できることを実証する。 本手法は標準ゲートベースと測定ベースの両方の計算モデルに適合する。

Overcoming the influence of noise and imperfections is a major challenge in quantum computing. Here, we present an approach based on applying a desired unitary computation in superposition between the system of interest and some auxiliary states. We demonstrate, numerically and on the IBM Quantum Platform, that parallel applications of the same operation lead to significant noise mitigation when arbitrary noise processes are considered. We first design probabilistic implementations of our scheme that are plug and play, independent of the noise characteristic and require no postprocessing. We then enhance the success probability (up to deterministic) using adaptive corrections. We provide an analysis of our protocol performance and demonstrate that unit fidelity can be achieved asymptotically. Our approaches are suitable to both standard gate-based and measurement-based computational models.
翻訳日:2024-01-18 03:12:18 公開日:2024-01-15
# stageinteractor: クロスステージインタラクションを備えたクエリベースのオブジェクト検出

StageInteractor: Query-based Object Detector with Cross-stage Interaction ( http://arxiv.org/abs/2304.04978v2 )

ライセンス: Link先を確認
Yao Teng, Haisong Liu, Sheng Guo, Limin Wang(参考訳) 従来の物体検出器は、密集した格子点や多数のプリセットアンカーに基づいて予測を行う。 これらの検出器のほとんどは1対多のラベル割り当て戦略で訓練されている。 逆に、最近のクエリベースのオブジェクト検出器は、学習可能なクエリのスパースセットと一連のデコーダ層に依存している。 1対1のラベル割り当ては、トレーニング中の深い監視のために各レイヤに独立に適用される。 しかし、クエリベースのオブジェクト検出に大きな成功を収めたにもかかわらず、この1対1のラベル割り当て戦略は、検出器に強力なきめ細かい識別とモデリング能力を持つことを要求する。 そこで,本稿では,StageInteractorと呼ばれる,複数段階間相互作用を持つ新しいクエリベースのオブジェクト検出器を提案する。 フォワードプロパゲーションでは,動的演算子を軽量なアダプタで再利用することで,このモデリング能力を向上させる効率的な方法が考案される。 ラベル代入については、1対1のラベル代入の後、クロスステージラベル代入が適用される。 この代入器では、トレーニング対象クラスラベルがステージにまたがって収集され、各デコーダ層で適切な予測に再配置される。 MS COCOベンチマークでは,ベースラインを2.2 AP改善し,バックボーンとしてResNet-50,100クエリ,12トレーニングエポックとして44.8 APを達成した。 トレーニング時間と300クエリにより、StageInteractorはそれぞれResNeXt-101-DCNとSwin-Sで51.1 APと52.2 APを達成した。

Previous object detectors make predictions based on dense grid points or numerous preset anchors. Most of these detectors are trained with one-to-many label assignment strategies. On the contrary, recent query-based object detectors depend on a sparse set of learnable queries and a series of decoder layers. The one-to-one label assignment is independently applied on each layer for the deep supervision during training. Despite the great success of query-based object detection, however, this one-to-one label assignment strategy demands the detectors to have strong fine-grained discrimination and modeling capacity. To solve the above problems, in this paper, we propose a new query-based object detector with cross-stage interaction, coined as StageInteractor. During the forward propagation, we come up with an efficient way to improve this modeling ability by reusing dynamic operators with lightweight adapters. As for the label assignment, a cross-stage label assigner is applied subsequent to the one-to-one label assignment. With this assigner, the training target class labels are gathered across stages and then reallocated to proper predictions at each decoder layer. On MS COCO benchmark, our model improves the baseline by 2.2 AP, and achieves 44.8 AP with ResNet-50 as backbone, 100 queries and 12 training epochs. With longer training time and 300 queries, StageInteractor achieves 51.1 AP and 52.2 AP with ResNeXt-101-DCN and Swin-S, respectively.
翻訳日:2024-01-18 03:11:38 公開日:2024-01-15
# エルゴード反復の強い安定性について

On the strong stability of ergodic iterations ( http://arxiv.org/abs/2304.04657v3 )

ライセンス: Link先を確認
L\'aszl\'o Gy\"orfi, Attila Lovas, Mikl\'os R\'asonyi(参考訳) 定常およびエルゴード列によって駆動される反復ランダム関数によって生成される過程を再検討する。 そのような過程は、ランダムな初期化が存在し、その過程が定常でエルゴード的であり、他の初期化に対しては、2つの過程の差はほぼ確実にゼロに収束するときに強く安定と呼ばれる。 対応する再帰写像上のいくつかの穏やかな条件の下では、駆動列の条件がなければ、繰り返しの強い安定性を示す。 確率近似やキューイングなどいくつかの応用が研究されている。 さらに,依存雑音を伴うランジュバン型反復とマルチタイプの分岐過程について新たな結果が得られた。

We revisit processes generated by iterated random functions driven by a stationary and ergodic sequence. Such a process is called strongly stable if a random initialization exists, for which the process is stationary and ergodic, and for any other initialization, the difference of the two processes converges to zero almost surely. Under some mild conditions on the corresponding recursive map, without any condition on the driving sequence, we show the strong stability of iterations. Several applications are surveyed such as stochastic approximation and queuing. Furthermore, new results are deduced for Langevin-type iterations with dependent noise and for multitype branching processes.
翻訳日:2024-01-18 03:11:15 公開日:2024-01-15
# IR有限熱加速放射

IR-finite thermal acceleration radiation ( http://arxiv.org/abs/2304.04412v2 )

ライセンス: Link先を確認
Evgenii Ievlev, Michael R.R. Good, Eric V. Linder(参考訳) シュワルツシルト・プランク移動ミラー運動に続く直線で加速する電荷は、有限周期の熱放射を放射する。 このようなミラー運動は、量子純度を示し、ユニタリ進化と完全な蒸発を伴うブラックホールの直接のアナロジーとして機能する。 アナログを古典的な電子運動に拡張し、放射スペクトル、放射電力、有限総エネルギーおよび粒子数を導出し、特に熱放射限界に注意する。 これは、ブラックホールの蒸発の実験室アナログの可能性を開く可能性がある。

A charge accelerating in a straight line following the Schwarzschild-Planck moving mirror motion emits thermal radiation for a finite period. Such a mirror motion demonstrates quantum purity and serves as a direct analogy of a black hole with unitary evolution and complete evaporation. Extending the analog to classical electron motion, we derive the emission spectrum, power radiated, and finite total energy and particle count, with particular attention to the thermal radiation limit. This potentially opens the possibility of a laboratory analog of black hole evaporation.
翻訳日:2024-01-18 03:11:04 公開日:2024-01-15
# Pgx:強化学習のためのハードウェアアクセラレーション並列ゲームシミュレータ

Pgx: Hardware-Accelerated Parallel Game Simulators for Reinforcement Learning ( http://arxiv.org/abs/2303.17503v4 )

ライセンス: Link先を確認
Sotetsu Koyamada, Shinri Okano, Soichiro Nishimori, Yu Murata, Keigo Habara, Haruka Kita, Shin Ishii(参考訳) JAXで記述され,GPU/TPUアクセラレータ向けに最適化されたボードゲーム強化学習(RL)環境のスイートであるPgxを提案する。 JAXのオートベクタライゼーションとアクセラレータ上での並列化を活用することで、Pgxはアクセラレータ上で数千の同時シミュレーションに効率的にスケールすることができる。 DGX-A100ワークステーションの実験で、PgxはPythonの既存の実装よりも10~100倍高速にRL環境をシミュレートできることがわかった。 Pgxには、バックギャモン、チェス、ショギ、GoといったRL研究のベンチマークとして一般的に使用されるRL環境が含まれている。 さらにPgxは、迅速な研究サイクルを促進するために、ミニチュアゲームセットとベースラインモデルを提供している。 pgx環境を用いたgumbel alphazeroアルゴリズムの効率的なトレーニングを行う。 pgxは、研究者がrl実験を加速するための高性能環境シミュレータを提供する。 pgxはhttp://github.com/sotetsuk/pgxで利用可能である。

We propose Pgx, a suite of board game reinforcement learning (RL) environments written in JAX and optimized for GPU/TPU accelerators. By leveraging JAX's auto-vectorization and parallelization over accelerators, Pgx can efficiently scale to thousands of simultaneous simulations over accelerators. In our experiments on a DGX-A100 workstation, we discovered that Pgx can simulate RL environments 10-100x faster than existing implementations available in Python. Pgx includes RL environments commonly used as benchmarks in RL research, such as backgammon, chess, shogi, and Go. Additionally, Pgx offers miniature game sets and baseline models to facilitate rapid research cycles. We demonstrate the efficient training of the Gumbel AlphaZero algorithm with Pgx environments. Overall, Pgx provides high-performance environment simulators for researchers to accelerate their RL experiments. Pgx is available at http://github.com/sotetsuk/pgx.
翻訳日:2024-01-18 03:10:07 公開日:2024-01-15
# 合成結合:組合せ介入のための因果推論フレームワーク

Synthetic Combinations: A Causal Inference Framework for Combinatorial Interventions ( http://arxiv.org/abs/2303.14226v2 )

ライセンス: Link先を確認
Abhineet Agarwal, Anish Agarwal, Suhas Vijaykumar(参考訳) N$不均一単位と$p$介入があるような設定を考えてみましょう。 我々の目標は、これらの$p$介入の任意の組み合わせ、すなわち$N \times 2^p$因果パラメータについて、単位固有の潜在的な結果を学ぶことである。 介入の組み合わせを選択することは、要因設計実験、推奨エンジン、医学における組み合わせ療法、結合分析など、様々な応用において自然に発生する問題である。 様々なパラメータを推定するために$n \times 2^p$の実験を実行することはおそらく高価で、$n$と$p$が成長すると実現できない。 また、観測データにより、単位が組み合わせで見られるか否かが、その組み合わせ下での潜在的結果と相関している可能性が高い。 これらの課題に対処するために、我々は、単位にまたがる構造を課す新しい潜在因子モデル(すなわち、潜在的な結果の行列はおよそランク$r$)と介入の組み合わせ(つまり、潜在的な結果のフーリエ展開の係数はおよそ$s$ sparse)を提案する。 n 個の \times 2^p$ パラメータの識別を確立する。 本稿では,観測パターンの精密な条件下での有限サンプル一貫性と漸近正規性を確立するための推定手法,合成組合せを提案する。 この結果は、$\text{poly}(r) \times \left(n + s^2p\right)$ の観測値が与えられた場合と、従来の手法では$\min(n \times s^2p, \ \ \ \ \text{poly(r)} \times (n + 2^p))$ でサンプル複雑性のスケーリングを行う場合との一貫性を示唆する。 データ効率の良い実験設計を提案するために合成組合せを用いる。 経験的に、Synthetic Combinationは映画レコメンデーションに関する現実世界のデータセットの競合するアプローチより優れている。 最後に、我々は分析を拡張し、介入が$p$アイテム(例えばランキング)の置換である因果推論を行う。

Consider a setting where there are $N$ heterogeneous units and $p$ interventions. Our goal is to learn unit-specific potential outcomes for any combination of these $p$ interventions, i.e., $N \times 2^p$ causal parameters. Choosing a combination of interventions is a problem that naturally arises in a variety of applications such as factorial design experiments, recommendation engines, combination therapies in medicine, conjoint analysis, etc. Running $N \times 2^p$ experiments to estimate the various parameters is likely expensive and/or infeasible as $N$ and $p$ grow. Further, with observational data there is likely confounding, i.e., whether or not a unit is seen under a combination is correlated with its potential outcome under that combination. To address these challenges, we propose a novel latent factor model that imposes structure across units (i.e., the matrix of potential outcomes is approximately rank $r$), and combinations of interventions (i.e., the coefficients in the Fourier expansion of the potential outcomes is approximately $s$ sparse). We establish identification for all $N \times 2^p$ parameters despite unobserved confounding. We propose an estimation procedure, Synthetic Combinations, and establish it is finite-sample consistent and asymptotically normal under precise conditions on the observation pattern. Our results imply consistent estimation given $\text{poly}(r) \times \left( N + s^2p\right)$ observations, while previous methods have sample complexity scaling as $\min(N \times s^2p, \ \ \text{poly(r)} \times (N + 2^p))$. We use Synthetic Combinations to propose a data-efficient experimental design. Empirically, Synthetic Combinations outperforms competing approaches on a real-world dataset on movie recommendations. Lastly, we extend our analysis to do causal inference where the intervention is a permutation over $p$ items (e.g., rankings).
翻訳日:2024-01-18 03:09:25 公開日:2024-01-15
# 画像美的評価のためのマルチタスク畳み込みニューラルネットワーク

Multi-task convolutional neural network for image aesthetic assessment ( http://arxiv.org/abs/2305.09373v2 )

ライセンス: Link先を確認
Derya Soydaner, Johan Wagemans(参考訳) 画像に対する人々の美的好みが理解できないため、画像美的評価は難しい人工知能タスクである。 このタスクの根底にあるさまざまな要因はほぼ無制限ですが、審美的特性がそれらの嗜好に影響を与えることは分かっています。 本研究では,これらの属性を考慮したマルチタスク畳み込みニューラルネットワークを提案する。 提案するニューラルネットワークは、画像の全体的な美的スコアとともに属性を学習する。 このマルチタスク学習フレームワークは、共有表現を利用した効果的な一般化を可能にする。 提案手法は,画像美学ベンチマークにおいて,画像全体の美学スコアの予測において最先端の手法よりも優れていることを示す。 スパイアマンのランク相関を考慮した場合, 全体的な美的得点の観点で人間に近いパフォーマンスが得られる。 さらに,本モデルではマルチタスクを他のベンチマークに適用し,今後の研究のベースラインとして活用する。 特に本手法は,既存のマルチタスクニューラルネットに比べてパラメータを少ない値で使用しながらこの性能を実現し,計算複雑性の面ではより効率的である。

As people's aesthetic preferences for images are far from understood, image aesthetic assessment is a challenging artificial intelligence task. The range of factors underlying this task is almost unlimited, but we know that some aesthetic attributes affect those preferences. In this study, we present a multi-task convolutional neural network that takes into account these attributes. The proposed neural network jointly learns the attributes along with the overall aesthetic scores of images. This multi-task learning framework allows for effective generalization through the utilization of shared representations. Our experiments demonstrate that the proposed method outperforms the state-of-the-art approaches in predicting overall aesthetic scores for images in one benchmark of image aesthetics. We achieve near-human performance in terms of overall aesthetic scores when considering the Spearman's rank correlations. Moreover, our model pioneers the application of multi-tasking in another benchmark, serving as a new baseline for future research. Notably, our approach achieves this performance while using fewer parameters compared to existing multi-task neural networks in the literature, and consequently makes our method more efficient in terms of computational complexity.
翻訳日:2024-01-18 03:00:08 公開日:2024-01-15
# 完全相関型マルチレベル振幅減衰チャネルの情報容量解析

Information capacity analysis of fully correlated multi-level amplitude damping channels ( http://arxiv.org/abs/2305.04481v2 )

ライセンス: Link先を確認
Rajiuddin Sk and Prasanta K. Panigrahi(参考訳) 量子シャノン理論の主な目的は、量子チャネルの容量を評価することである。 量子チャネルを通して情報の伝達を定量化する厳密な符号化定理が存在するにもかかわらず、超付加性効果はチャネル容量の理解を制限する。 本稿では,主にマルチレベル振幅減衰チャネルと呼ばれるチャネル群に焦点を当てる。 クエットチャネルであるマルチレベル振幅減衰チャンネルの最も単純な部材の情報容量について, チャネルの連続的な応用と相関関係の存在下で検討する。 単一ショットの古典的容量の上限を見つけ、チャネルの分解性特性を調査した後、特定の種類の写像に関連する量子容量を計算する。 さらに、チャネルの量子容量と古典容量は、絡み合い支援のシナリオで計算されている。

The primary objective of quantum Shannon theory is to evaluate the capacity of quantum channels. In spite of the existence of rigorous coding theorems that quantify the transmission of information through quantum channels, superadditivity effects limit our understanding of the channel capacities. In this paper, we mainly focus on a family of channels known as multi-level amplitude damping channels. We investigate some of the information capacities of the simplest member of multi-level Amplitude Damping Channel, a qutrit channel, in the presence of correlations between successive applications of the channel. We find the upper bounds of the single-shot classical capacities and calculate the quantum capacities associated with a specific class of maps after investigating the degradability property of the channels. Additionally, the quantum and classical capacities of the channels have been computed in entanglement-assisted scenarios.
翻訳日:2024-01-18 02:58:00 公開日:2024-01-15
# $n$-qubitユニタリ行列に対するスケーラブル量子回路

Scalable quantum circuits for $n$-qubit unitary matrices ( http://arxiv.org/abs/2304.14096v2 )

ライセンス: Link先を確認
Rohit Sarma Sarkar, Bibhas Adhikari(参考訳) 本研究は、最適化に基づくスケーラブルな量子ニューラルネットワークフレームワークで、ユニタリの一般的なパラメトリック表現を通じて、n$-qubitのユニタリを近似し、ポーリの弦基底の代替として提案する新しい基底の指数的基底要素の積として得られる。 我々は、この基底を標準再帰的ブロック基底と呼び、再帰的手法を用いて構築し、その要素は、ブロックエルミートユニタリ行列に類似している。

This work presents an optimization-based scalable quantum neural network framework for approximating $n$-qubit unitaries through generic parametric representation of unitaries, which are obtained as product of exponential of basis elements of a new basis that we propose as an alternative to Pauli string basis. We call this basis as the Standard Recursive Block Basis, which is constructed using a recursive method, and its elements are permutation-similar to block Hermitian unitary matrices.
翻訳日:2024-01-18 02:57:45 公開日:2024-01-15
# Gen-NeRF:アルゴリズム・ハードウエア共同設計による効率的で一般化可能なニューラルラジアンス場

Gen-NeRF: Efficient and Generalizable Neural Radiance Fields via Algorithm-Hardware Co-Design ( http://arxiv.org/abs/2304.11842v3 )

ライセンス: Link先を確認
Yonggan Fu, Zhifan Ye, Jiayi Yuan, Shunyao Zhang, Sixu Li, Haoran You, Yingyan Lin(参考訳) 新しいビュー合成は、様々な拡張現実および仮想現実(AR/VR)アプリケーションにおいて没入型体験を可能にするために不可欠な機能であり、そのクロスシーンの一般化能力により、一般化可能なニューラルレイディアンス場(NeRF)が人気を博している。 それらの約束にもかかわらず、一般化可能なNeRFの実際のデバイス展開は、シーン機能を取得するために大量のメモリアクセスを必要とするため、その禁止的な複雑さによってボトルネックになり、レイマーチングプロセスはメモリバウンドになる。 この目的のために,提案するGen-NeRFは,リアルタイムに一般化可能なNeRFを初めて実現可能な,一般化可能なNeRFアクセラレーション専用のアルゴリズムハードウェアの共同設計フレームワークである。 アルゴリズム側では、gen-nerfは3dシーンの異なる領域がレンダリングされたピクセルに異なる貢献をするという事実を利用して、粗く効果的なサンプリング戦略を統合する。 ハードウェア面では、Gen-NeRFは、そのエピポーラ幾何学的関係を利用して、異なる光線間でのデータ再利用機会を最大化するアクセラレーターマイクロアーキテクチャを強調している。 さらに、Gen-NeRFアクセラレータは、ポイント・ツー・ハードウエアマッピング時のデータの局所性を向上するカスタマイズされたデータフローと、メモリバンク競合を最小限に抑える最適化されたシーン特徴記憶戦略を備えている。 提案するGen-NeRFフレームワークがリアルタイムかつ一般化可能な新規ビュー合成に有効であることを示す。

Novel view synthesis is an essential functionality for enabling immersive experiences in various Augmented- and Virtual-Reality (AR/VR) applications, for which generalizable Neural Radiance Fields (NeRFs) have gained increasing popularity thanks to their cross-scene generalization capability. Despite their promise, the real-device deployment of generalizable NeRFs is bottlenecked by their prohibitive complexity due to the required massive memory accesses to acquire scene features, causing their ray marching process to be memory-bounded. To this end, we propose Gen-NeRF, an algorithm-hardware co-design framework dedicated to generalizable NeRF acceleration, which for the first time enables real-time generalizable NeRFs. On the algorithm side, Gen-NeRF integrates a coarse-then-focus sampling strategy, leveraging the fact that different regions of a 3D scene contribute differently to the rendered pixel, to enable sparse yet effective sampling. On the hardware side, Gen-NeRF highlights an accelerator micro-architecture to maximize the data reuse opportunities among different rays by making use of their epipolar geometric relationship. Furthermore, our Gen-NeRF accelerator features a customized dataflow to enhance data locality during point-to-hardware mapping and an optimized scene feature storage strategy to minimize memory bank conflicts. Extensive experiments validate the effectiveness of our proposed Gen-NeRF framework in enabling real-time and generalizable novel view synthesis.
翻訳日:2024-01-18 02:57:17 公開日:2024-01-15
# 二次元音響地平線を横切る自己振動超音速流れの観測

Observation of self-oscillating supersonic flow across an acoustic horizon in two dimensions ( http://arxiv.org/abs/2304.10667v2 )

ライセンス: Link先を確認
Hikaru Tamura, Sergei Khlebnikov, Cheng-An Chen, and Chen-Lung Hung(参考訳) 量子流体中の超音流の力学と安定性を理解することは、特に1つの空間次元を超えるものにとって、非線形光学や凝縮物から類似重力まで幅広い応用において際立った課題である。 興味深い可能性の1つは、空間的に有界な超音速流を持つ系が、有名なランダウ不安定性に由来する過程において、周期的にソリトンを放出する自己振動状態へと発展する可能性があることである。 ここでは,2次元原子超流動における自己振動性超音速流の観測を報告する。 局所的な粒子シンクに強い損失を与えることにより、ブラックホール地平線とシンク周辺の内地平線の音響的類似を形成する収束半径流を誘導する。 観測されたスーパーフローは、スーパールミナル信号の準周期バーストによって変調されているように見える。 その周波数を測定し,ブラックホール地平線内のソリトン振動の数値シミュレーションと一致した。 提案実験は, 原子超流体中の超音速流を生成する新しい手法を実証し, 発散性多体系における曲線時空, 超音速乱流, 自己振動ダイナミクスの量子シミュレーションに応用できることを示した。

Understanding the dynamics and stability of transonic flows in quantum fluids, especially for those beyond one spatial dimension, is an outstanding challenge, with applications ranging from nonlinear optics and condensed matter to analogue gravity. One intriguing possibility is that a system with a spatially bounded supersonic flow may evolve into a self-oscillating state that periodically emits solitons, in a process originating from the well-known Landau instability. Here, we report observation of self-oscillating supersonic flows in a two-dimensional atomic superfluid. By imposing a local particle sink with strong loss, we induce a convergent radial flow forming an acoustic analogue of a black-hole horizon and an inner horizon around the sink. The observed superflow appears to be modulated by quasi-periodic bursts of superluminal signals. We measure their frequencies and find agreement with numerical simulations of soliton oscillation frequencies within the black-hole horizon. The presented experiment demonstrates a new method for creating supersonic flows in atomic superfluids, which may find applications in quantum simulations of curved spacetime, supersonic turbulence, and self-oscillating dynamics in dissipative many-body systems.
翻訳日:2024-01-18 02:55:50 公開日:2024-01-15
# ニューラル・ラジアンス・フィールド:過去・現在・未来

Neural Radiance Fields: Past, Present, and Future ( http://arxiv.org/abs/2304.10050v2 )

ライセンス: Link先を確認
Ansh Mittal(参考訳) 3D環境や環境のモデリングや解釈といったさまざまな側面は、人間に3Dコンピュータビジョン、コンピュータグラフィックス、機械学習の研究を進めるよう促している。 MildenhallらがNeRF(Neural Radiance Fields)に関する論文で行った試みは、コンピュータグラフィックス、ロボティクス、コンピュータビジョンのブームにつながり、高解像度の低ストレージ拡張現実と仮想現実ベースの3Dモデルは、NeRFに関連する1000以上のプレプリントを持つリセットから注目を集めている。 本論文は, 数学, 幾何学, コンピュータビジョン, コンピュータグラフィックスの基礎を基礎として, これらすべての分野の交点における暗黙の表現に遭遇する困難さを解消し, それらの分野を研究を始める人々にとっての橋渡しとなる。 このサーベイは、レンダリング、インプリシトラーニング、NeRFの歴史、NeRFの研究の進展、そして今日の世界におけるNeRFの潜在的な応用と意味を提供する。 そこで本調査では, 使用するデータセット, 目的関数, アプリケーション解決, 評価基準の観点から, 全NeRF関連研究を分類した。

The various aspects like modeling and interpreting 3D environments and surroundings have enticed humans to progress their research in 3D Computer Vision, Computer Graphics, and Machine Learning. An attempt made by Mildenhall et al in their paper about NeRFs (Neural Radiance Fields) led to a boom in Computer Graphics, Robotics, Computer Vision, and the possible scope of High-Resolution Low Storage Augmented Reality and Virtual Reality-based 3D models have gained traction from res with more than 1000 preprints related to NeRFs published. This paper serves as a bridge for people starting to study these fields by building on the basics of Mathematics, Geometry, Computer Vision, and Computer Graphics to the difficulties encountered in Implicit Representations at the intersection of all these disciplines. This survey provides the history of rendering, Implicit Learning, and NeRFs, the progression of research on NeRFs, and the potential applications and implications of NeRFs in today's world. In doing so, this survey categorizes all the NeRF-related research in terms of the datasets used, objective functions, applications solved, and evaluation criteria for these applications.
翻訳日:2024-01-18 02:55:29 公開日:2024-01-15
# 動的プログラミングを用いた最適決定木の必要十分条件

Necessary and Sufficient Conditions for Optimal Decision Trees using Dynamic Programming ( http://arxiv.org/abs/2305.19706v3 )

ライセンス: Link先を確認
Jacobus G. M. van der Linden, Mathijs M. de Weerdt, Emir Demirovi\'c(参考訳) 決定木のグローバル最適化は、正確性、大きさ、その結果、人間の理解性の観点から有望であることが示されている。 しかし、使用するメソッドの多くは、スケーラビリティが問題である汎用解法に依存している。 動的プログラミング手法は、サブツリーを独立したサブプロブレムとして解くことによってツリー構造を利用するため、はるかに拡張されている。 しかし、これは目的が別々にサブツリーに最適化できる場合にのみ機能する。 この関係を詳細に検討し、そのような分離性に必要な条件を示し、従来の動的プログラミングアプローチを、分離可能な目的と制約の組み合わせを最適化できるフレームワークに一般化する。 5つのアプリケーションドメインにおける実験により、このフレームワークの一般的な適用性が示され、汎用解法のスケーラビリティを大きく上回っている。

Global optimization of decision trees has shown to be promising in terms of accuracy, size, and consequently human comprehensibility. However, many of the methods used rely on general-purpose solvers for which scalability remains an issue. Dynamic programming methods have been shown to scale much better because they exploit the tree structure by solving subtrees as independent subproblems. However, this only works when an objective can be optimized separately for subtrees. We explore this relationship in detail and show the necessary and sufficient conditions for such separability and generalize previous dynamic programming approaches into a framework that can optimize any combination of separable objectives and constraints. Experiments on five application domains show the general applicability of this framework, while outperforming the scalability of general-purpose solvers by a large margin.
翻訳日:2024-01-18 02:46:49 公開日:2024-01-15
# Diff-Instruct: 事前学習した拡散モデルから知識を伝達するためのユニバーサルアプローチ

Diff-Instruct: A Universal Approach for Transferring Knowledge From Pre-trained Diffusion Models ( http://arxiv.org/abs/2305.18455v2 )

ライセンス: Link先を確認
Weijian Luo and Tianyang Hu and Shifeng Zhang and Jiacheng Sun and Zhenguo Li and Zhihua Zhang(参考訳) トレーニングの容易さ、スケール性、高いサンプル品質のため、拡散モデル(dms)は生成モデリングの選択肢として好まれており、多くの事前学習されたモデルがさまざまなデータセットで利用可能である。 データ分散に関する複雑な情報を含む、事前訓練されたDMは、下流アプリケーションにとって貴重な資産である。 本研究では,事前学習されたdmから学習し,その知識をデータ無しで他の生成モデルに転送することを検討する。 具体的には,生成したサンプルがモデルパラメータに対して微分可能であれば,任意の生成モデルのトレーニングを指示するdiff-instructと呼ばれる汎用フレームワークを提案する。 提案するdiff-instructは厳密な数学的基礎に基づいており、命令過程は積分kullback-leibler(ikl)発散と呼ばれる新しい発散の最小化に直接対応している。 iklは拡散過程に沿ってklの発散の積分を計算することでdms用に調整されており、分布を不整合な支持体と比較する上でより堅牢であることを示している。 また,dreamfusion やgenerative adversarial training などの既存作品との非自明な接続も明らかにする。 Diff-Instructの有効性と普遍性を示すために、事前学習した拡散モデルの蒸留と既存のGANモデルの精製の2つのシナリオを検討する。 プレトレーニング拡散モデルの蒸留実験は、Diff-Instructが最先端の単一ステップ拡散モデルをもたらすことを示す。 GANモデルの精錬実験は、Diff-Instructが様々な設定でGANモデルの事前訓練されたジェネレータを一貫して改善できることを示している。

Due to the ease of training, ability to scale, and high sample quality, diffusion models (DMs) have become the preferred option for generative modeling, with numerous pre-trained models available for a wide variety of datasets. Containing intricate information about data distributions, pre-trained DMs are valuable assets for downstream applications. In this work, we consider learning from pre-trained DMs and transferring their knowledge to other generative models in a data-free fashion. Specifically, we propose a general framework called Diff-Instruct to instruct the training of arbitrary generative models as long as the generated samples are differentiable with respect to the model parameters. Our proposed Diff-Instruct is built on a rigorous mathematical foundation where the instruction process directly corresponds to minimizing a novel divergence we call Integral Kullback-Leibler (IKL) divergence. IKL is tailored for DMs by calculating the integral of the KL divergence along a diffusion process, which we show to be more robust in comparing distributions with misaligned supports. We also reveal non-trivial connections of our method to existing works such as DreamFusion, and generative adversarial training. To demonstrate the effectiveness and universality of Diff-Instruct, we consider two scenarios: distilling pre-trained diffusion models and refining existing GAN models. The experiments on distilling pre-trained diffusion models show that Diff-Instruct results in state-of-the-art single-step diffusion-based models. The experiments on refining GAN models show that the Diff-Instruct can consistently improve the pre-trained generators of GAN models across various settings.
翻訳日:2024-01-18 02:46:14 公開日:2024-01-15
# 未知のパーソナライズドマニピュレーションによる戦略分類

Strategic Classification under Unknown Personalized Manipulation ( http://arxiv.org/abs/2305.16501v2 )

ライセンス: Link先を確認
Han Shao, Avrim Blum, Omar Montasser(参考訳) 戦略分類における基本的なミスバウンドとサンプルの複雑さについて検討し、エージェントは正と予測するために、その特徴ベクトルをある程度戦略的に操作することができる。 例えば、大学の入学を決定づける分類器がある場合、生徒の候補者は、gpaを改善するための簡単な授業を受け、satを取得し、分類器を騙すために学校を変更しようとする。 ボール操作は文献で広く研究されている操作のクラスであり、エージェントは境界半径ボール内で特徴ベクトルを修正できる。 従来の作業とは異なり、操作はパーソナライズされたものであり、エージェントは異なるレベルの操作能力(例えば、ボール操作のラジイの変化)を持ち、学習者には未知である。 学習者が最初に分類器をデプロイし、エージェントが操作セット内の特徴ベクトルを操作して展開された分類器をゲームする相互作用モデルで学習問題を形式化する。 本研究では,対話中に学習者が利用できる情報,例えば,初期特徴ベクトルの観察,操作済み特徴ベクトルの観察,あるいは原特徴ベクトルと操作済み特徴ベクトルの視認など,様々なシナリオについて検討する。 まず、ボール操作のシナリオにおいて、オンラインのミスバウンドとPACサンプルの複雑さを提供することから始める。 また, 対象関数が既知のクラスである場合, 元の特徴ベクトルと操作された特徴ベクトルの両方が明らかにされる最も単純なシナリオにおいても, 誤り境界とサンプルの複雑さは$\Omega(|H|)$で下げられることを示す。

We study the fundamental mistake bound and sample complexity in the strategic classification, where agents can strategically manipulate their feature vector up to an extent in order to be predicted as positive. For example, given a classifier determining college admission, student candidates may try to take easier classes to improve their GPA, retake SAT and change schools in an effort to fool the classifier. Ball manipulations are a widely studied class of manipulations in the literature, where agents can modify their feature vector within a bounded radius ball. Unlike most prior work, our work considers manipulations to be personalized, meaning that agents can have different levels of manipulation abilities (e.g., varying radii for ball manipulations), and unknown to the learner. We formalize the learning problem in an interaction model where the learner first deploys a classifier and the agent manipulates the feature vector within their manipulation set to game the deployed classifier. We investigate various scenarios in terms of the information available to the learner during the interaction, such as observing the original feature vector before or after deployment, observing the manipulated feature vector, or not seeing either the original or the manipulated feature vector. We begin by providing online mistake bounds and PAC sample complexity in these scenarios for ball manipulations. We also explore non-ball manipulations and show that, even in the simplest scenario where both the original and the manipulated feature vectors are revealed, the mistake bounds and sample complexity are lower bounded by $\Omega(|H|)$ when the target function belongs to a known class $H$.
翻訳日:2024-01-18 02:44:35 公開日:2024-01-15
# 決定論的制御量子チューリングマシンにおける量子コルモゴロフ複雑性と量子相関

Quantum Kolmogorov complexity and quantum correlations in deterministic-control quantum Turing machines ( http://arxiv.org/abs/2305.14252v3 )

ライセンス: Link先を確認
Mariano Lemus, Ricardo Faleiro, Paulo Mateus, Nikola Paunkovi\'c, Andr\'e Souto(参考訳) 本研究は、決定論的制御量子チューリングマシン(dcq-tm)の観点から一般量子状態に対するコルモゴロフ複雑性の研究である。 我々は、dcq-tmモデルを拡張して、混合状態入力と出力を取り入れ、dcq-tmで近似できる状態としてdcq-computable stateを定義する。 Moreover, we introduce (conditional) Kolmogorov complexity of quantum states and use it to study three particular aspects of the algorithmic information contained in a quantum state: a comparison of the information in a quantum state with that of its classical representation as an array of real numbers, an exploration of the limits of quantum state copying in the context of algorithmic complexity, and study of the complexity of correlations in quantum systems, resulting in a correlation-aware definition for algorithmic mutual information that satisfies symmetry of information property.

This work presents a study of Kolmogorov complexity for general quantum states from the perspective of deterministic-control quantum Turing Machines (dcq-TM). We extend the dcq-TM model to incorporate mixed state inputs and outputs, and define dcq-computable states as those that can be approximated by a dcq-TM. Moreover, we introduce (conditional) Kolmogorov complexity of quantum states and use it to study three particular aspects of the algorithmic information contained in a quantum state: a comparison of the information in a quantum state with that of its classical representation as an array of real numbers, an exploration of the limits of quantum state copying in the context of algorithmic complexity, and study of the complexity of correlations in quantum systems, resulting in a correlation-aware definition for algorithmic mutual information that satisfies symmetry of information property.
翻訳日:2024-01-18 02:43:50 公開日:2024-01-15
# 不確実性に基づく意味セグメンテーションにおける逆攻撃の検出

Uncertainty-based Detection of Adversarial Attacks in Semantic Segmentation ( http://arxiv.org/abs/2305.12825v2 )

ライセンス: Link先を確認
Kira Maag and Asja Fischer(参考訳) 最先端のディープニューラルネットワークは、セマンティックイメージセグメンテーションを含む幅広いタスクにおいて非常に強力であることが証明されている。 しかし、これらのネットワークは敵の攻撃、すなわち入力画像に付加される非知覚的摂動に対して脆弱であり、これは自動運転のような安全クリティカルなアプリケーションでは危険である。 画像分類タスクでは, 逆例と防御戦略が十分に研究されているが, 意味セグメンテーションの文脈での研究は限られている。 しかしながら、最初の研究は、セグメンテーションの結果が敵の攻撃によってひどく歪められることを示した。 本研究では,セグメンテーションにおける敵攻撃検出のための不確実性に基づくアプローチを提案する。 出力分布のエントロピーが捉えた不確実性は、クリーンで摂動的な画像に対して異なる振る舞いをし、この特性を利用して2つのケースを区別する。 提案手法は軽量かつ後処理の手法,すなわち,モデルを変更したり,逆例を生成するプロセスの知識を必要としたりしない。 徹底的な実証分析では,複数種類の敵対的攻撃を対象とする摂動画像の検出が可能であった。

State-of-the-art deep neural networks have proven to be highly powerful in a broad range of tasks, including semantic image segmentation. However, these networks are vulnerable against adversarial attacks, i.e., non-perceptible perturbations added to the input image causing incorrect predictions, which is hazardous in safety-critical applications like automated driving. Adversarial examples and defense strategies are well studied for the image classification task, while there has been limited research in the context of semantic segmentation. First works however show that the segmentation outcome can be severely distorted by adversarial attacks. In this work, we introduce an uncertainty-based approach for the detection of adversarial attacks in semantic segmentation. We observe that uncertainty as for example captured by the entropy of the output distribution behaves differently on clean and perturbed images and leverage this property to distinguish between the two cases. Our method works in a light-weight and post-processing manner, i.e., we do not modify the model or need knowledge of the process used for generating adversarial examples. In a thorough empirical analysis, we demonstrate the ability of our approach to detect perturbed images across multiple types of adversarial attacks.
翻訳日:2024-01-18 02:43:38 公開日:2024-01-15
# ToolkenGPT: ツール埋め込みによる大量ツールによる凍結言語モデルの拡張

ToolkenGPT: Augmenting Frozen Language Models with Massive Tools via Tool Embeddings ( http://arxiv.org/abs/2305.11554v4 )

ライセンス: Link先を確認
Shibo Hao, Tianyang Liu, Zhen Wang, Zhiting Hu(参考訳) 言語モデル(LLM)を外部ツールで拡張することは、複雑な問題を解決するための有望なアプローチとして現れている。 しかし、ツールのデモデータでLSMを微調整する従来の手法は、コストと事前定義されたツールセットに制限される可能性がある。 最近のインコンテキスト学習パラダイムはこれらの問題を緩和するが、制限されたコンテキスト長はいくつかのデモのみを可能にし、ツールの最適下理解につながる。 さらに、多くのツールが選択できる場合、コンテキスト内学習は完全に機能しない可能性がある。 本稿では,両面の利点を組み合わせた代替手法として$\textbf{ToolkenGPT}$を提案する。 我々のアプローチは、各$\underline{tool}$をto$\underline{ken}$ ($\textit{toolken}$)として表現し、埋め込みを学習し、通常のワードトークンを生成するのと同じようにツール呼び出しを可能にする。 ツールケンが起動されると、LSMはツールの実行のための引数を完了するように促される。 toolkengptは、ツールケンのセットをオンザフライで拡大することで、任意の数のツールをプラグインする柔軟性を提供します。 さらに、ツールケン埋め込みを学習するための広範なデモデータを提供することで、ツール使用を改善する。 数値推論,知識に基づく質問応答,具体化計画生成など,多様な領域において,我々のアプローチはLLMをツールで効果的に強化し,最新のベースラインを大幅に上回っている。 ToolkenGPTは、複雑なシナリオにおいて、大きなツールセットから関連するツールを使用する有望な能力を示す。

Augmenting large language models (LLMs) with external tools has emerged as a promising approach to solving complex problems. However, traditional methods, which finetune LLMs with tool demonstration data, can be both costly and restricted to a predefined set of tools. Recent in-context learning paradigm alleviates these issues, but the limited context length only allows for a few shots of demonstrations, leading to suboptimal understandings of the tools. Moreover, when there are numerous tools to choose from, in-context learning could completely fail to work. In this paper, we propose an alternative approach, $\textbf{ToolkenGPT}$, which combines the benefits of both sides. Our approach represents each $\underline{tool}$ as a to$\underline{ken}$ ($\textit{toolken}$) and learns an embedding for it, enabling tool calls in the same way as generating a regular word token. Once a toolken is triggered, the LLM is prompted to complete arguments for the tool to execute. ToolkenGPT offers the flexibility to plug in an arbitrary number of tools by expanding the set of toolkens on the fly. In addition, it improves tool use by allowing extensive demonstration data for learning the toolken embeddings. In diverse domains, including numerical reasoning, knowledge-based question answering, and embodied plan generation, our approach effectively augments LLMs with tools and substantially outperforms various latest baselines. ToolkenGPT demonstrates the promising ability to use relevant tools from a large tool set in complex scenarios.
翻訳日:2024-01-18 02:43:16 公開日:2024-01-15
# CAMP-Net: 高速MRI再構成のための一貫性を考慮したマルチピアネットワーク

CAMP-Net: Consistency-Aware Multi-Prior Network for Accelerated MRI Reconstruction ( http://arxiv.org/abs/2306.11238v3 )

ライセンス: Link先を確認
Liping Zhang, Xiaobo Li, and Weitian Chen(参考訳) k空間データをMRIでアンサンプすることでスキャン時間が短縮されるが、画像再構成において課題が生じる。 加速MRIの再建に要する進歩がみられた。 しかし,高アンサンプデータによる高頻度画像の復元は依然として困難である。 この問題に対処するため,我々は,MRI再構成を高速化するアンロール型Consistency-Aware Multi-Prior NetworkであるCAMP-Netを提案する。 CAMP-Netは、補完的なマルチプライオリティ知識と、さまざまなドメインからのマルチスライス情報を活用して、再構築品質を向上させる。 具体的には、CAMP-Netは、画像強調、k空間復元、キャリブレーション整合性の3つのインターリーブモジュールから構成される。 これらのモジュールは、それぞれ画像ドメイン、kドメイン、キャリブレーション領域のデータから、未ロールのイテレーション毎にデータ駆動で事前学習する。 特に、自動調整信号から抽出された符号化キャリブレーション事前知識は、欠落するk空間データの信頼できる補間のための一貫性対応k空間相関の学習を暗黙的に導く。 画像領域とkドメイン事前知識の利点を最大化するために、再構成を周波数融合モジュールに集約し、それらの相補的特性を利用して、アーティファクト除去と細部保存のトレードオフを最適化する。 さらに,kドメイン学習およびキャリブレーション領域事前学習中に表面データ忠実性層を組み込んで,パディングによるデータ不完全化による再構築の劣化を防止する。 加速度係数とサンプリングパターンの異なる3つの大規模公開データセットにおいて,提案手法の一般化性とロバスト性を評価する。 実験の結果,本手法は,特に加速度係数の高いシナリオにおいて,復元品質と$t_2$マッピング推定の両方において最先端の手法よりも優れていることがわかった。

Undersampling k-space data in MRI reduces scan time but pose challenges in image reconstruction. Considerable progress has been made in reconstructing accelerated MRI. However, restoration of high-frequency image details in highly undersampled data remains challenging. To address this issue, we propose CAMP-Net, an unrolling-based Consistency-Aware Multi-Prior Network for accelerated MRI reconstruction. CAMP-Net leverages complementary multi-prior knowledge and multi-slice information from various domains to enhance reconstruction quality. Specifically, CAMP-Net comprises three interleaved modules for image enhancement, k-space restoration, and calibration consistency, respectively. These modules jointly learn priors from data in image domain, k-domain, and calibration region, respectively, in data-driven manner during each unrolled iteration. Notably, the encoded calibration prior knowledge extracted from auto-calibrating signals implicitly guides the learning of consistency-aware k-space correlation for reliable interpolation of missing k-space data. To maximize the benefits of image domain and k-domain prior knowledge, the reconstructions are aggregated in a frequency fusion module, exploiting their complementary properties to optimize the trade-off between artifact removal and fine detail preservation. Additionally, we incorporate a surface data fidelity layer during the learning of k-domain and calibration domain priors to prevent degradation of the reconstruction caused by padding-induced data imperfections. We evaluate the generalizability and robustness of our method on three large public datasets with varying acceleration factors and sampling patterns. The experimental results demonstrate that our method outperforms state-of-the-art approaches in terms of both reconstruction quality and $T_2$ mapping estimation, particularly in scenarios with high acceleration factors.
翻訳日:2024-01-18 02:36:38 公開日:2024-01-15
# 独立に解釈可能なCNNと視覚変換器のためのB-cosアライメント

B-cos Alignment for Inherently Interpretable CNNs and Vision Transformers ( http://arxiv.org/abs/2306.10898v2 )

ライセンス: Link先を確認
Moritz B\"ohle, Navdeeppal Singh, Mario Fritz, Bernt Schiele(参考訳) 本稿では,トレーニング中の重み入力アライメントを促進することにより,深層ニューラルネットワーク(dnn)の解釈性を高めるための新しい方向を提案する。 そこで我々は,新しいB-cos変換によりDNNの線形変換を置き換えることを提案する。 このような変換のシーケンス(ネットワーク)は、モデル全体の計算を忠実に要約する単一の線形変換を誘導する。 さらに、B-cos変換は、最適化中に重みが関連する信号と一致するように設計されている。 その結果、これらの線形変換は高度に解釈可能となり、タスク関連の特徴を強調している。 重要なことに、B-cos変換は既存のアーキテクチャと互換性があるように設計されており、ImageNetで同様の精度を維持しながら、B-cosベースの説明と正規化と注意層を組み合わせることで、ResNets、DenseNets、ConvNextモデルといった最新のコンピュータビジョンモデルに簡単に統合できることを示します。 最後に、得られた説明は視覚的品質が高く、定量的解釈可能性の指標下では良好に機能することを示す。

We present a new direction for increasing the interpretability of deep neural networks (DNNs) by promoting weight-input alignment during training. For this, we propose to replace the linear transformations in DNNs by our novel B-cos transformation. As we show, a sequence (network) of such transformations induces a single linear transformation that faithfully summarises the full model computations. Moreover, the B-cos transformation is designed such that the weights align with relevant signals during optimisation. As a result, those induced linear transformations become highly interpretable and highlight task-relevant features. Importantly, the B-cos transformation is designed to be compatible with existing architectures and we show that it can easily be integrated into virtually all of the latest state of the art models for computer vision - e.g. ResNets, DenseNets, ConvNext models, as well as Vision Transformers - by combining the B-cos-based explanations with normalisation and attention layers, all whilst maintaining similar accuracy on ImageNet. Finally, we show that the resulting explanations are of high visual quality and perform well under quantitative interpretability metrics.
翻訳日:2024-01-18 02:36:09 公開日:2024-01-15
# 能動的連続観察のための平滑なバイナリ機構

A Smooth Binary Mechanism for Efficient Private Continual Observation ( http://arxiv.org/abs/2306.09666v2 )

ライセンス: Link先を確認
Joel Daniel Andersson, Rasmus Pagh(参考訳) 連続観察下でのプライバシでは、時間とともに進化するデータセットに基づいて、差分プライベートな見積をリリースする方法を研究する。 プライベートプレフィックスの和を$x_1,x_2,x_3,\dots \in\{0,1\}$(各$x_i$の値がプライベートとなる場合)で解放する問題は特によく研究されており、一般化形式はプライベート確率勾配降下(SGD)の最先端手法で用いられる。 セミナーバイナリメカニズムは、最初の$t$プレフィックスの和と分散多対数ノイズを$t$でプライベートにリリースする。 最近、Henzinger et al. と Denisov et al. は2つの方法で二乗機構を改善することができることを示した。 しかしながら、ノイズ分布を生成するアルゴリズムは、計算時間や(特に)空間の観点からは、望まないほど効率的ではない。 我々は,二元機構の簡易な代替案を提示することにより,効率問題に対処する。 1)ノイズの発生には、値当たりの平均時間が必要となる。 2) 分散は, 2次機構と比較して約4因子で減少し, 3) 各ステップにおける雑音分布は同一である。 経験的に、我々のアプローチのPython実装は、Henzingerらのアプローチの実行時間よりも優れており、Toeplitz行列との乗算に高性能なアルゴリズムを用いてアルゴリズムを改良しようとする試みである。

In privacy under continual observation we study how to release differentially private estimates based on a dataset that evolves over time. The problem of releasing private prefix sums of $x_1,x_2,x_3,\dots \in\{0,1\}$ (where the value of each $x_i$ is to be private) is particularly well-studied, and a generalized form is used in state-of-the-art methods for private stochastic gradient descent (SGD). The seminal binary mechanism privately releases the first $t$ prefix sums with noise of variance polylogarithmic in $t$. Recently, Henzinger et al. and Denisov et al. showed that it is possible to improve on the binary mechanism in two ways: The variance of the noise can be reduced by a (large) constant factor, and also made more even across time steps. However, their algorithms for generating the noise distribution are not as efficient as one would like in terms of computation time and (in particular) space. We address the efficiency problem by presenting a simple alternative to the binary mechanism in which 1) generating the noise takes constant average time per value, 2) the variance is reduced by a factor about 4 compared to the binary mechanism, and 3) the noise distribution at each step is identical. Empirically, a simple Python implementation of our approach outperforms the running time of the approach of Henzinger et al., as well as an attempt to improve their algorithm using high-performance algorithms for multiplication with Toeplitz matrices.
翻訳日:2024-01-18 02:35:28 公開日:2024-01-15
# 残留q-learning: 価値のないオフラインおよびオンラインポリシのカスタマイズ

Residual Q-Learning: Offline and Online Policy Customization without Value ( http://arxiv.org/abs/2306.09526v3 )

ライセンス: Link先を確認
Chenran Li, Chen Tang, Haruki Nishimura, Jean Mercat, Masayoshi Tomizuka, Wei Zhan(参考訳) 模倣学習(il)は、デモンストレーションから模倣行動を学ぶために広く使われているフレームワークである。 特に、手作り報酬関数の難しさや、その目的が人間の専門家の行動の模倣であるような複雑な現実世界のタスクの解決に魅力がある。 しかし、学習した模倣政策は、デモンストレーションの行動のみに従うことができる。 模倣ポリシーを適用する場合、さまざまな下流タスクから来るさまざまな要件を満たすためにポリシーの振る舞いをカスタマイズする必要があるかもしれません。 一方、我々はカスタマイズされたポリシーが模倣性を維持することを望んでいる。 この目的のために、ポリシーカスタマイズと呼ばれる新しい問題設定を定式化する。 学習タスクは、目標下流タスクによって課される追加要件を満たしながら、事前ポリシーの特徴を継承するポリシーを訓練するものとして定義する。 本稿では,2つの課題目標間のトレードオフを解釈・決定するための,新しい原則的アプローチを提案する。 具体的には、カスタマイズ問題をマルコフ決定過程(MDP)と組み合わせた報酬関数として定式化する。 1) 実演の本来の報酬,及び 2) ダウンストリームタスクが指定するアドオン報酬。 本稿では,従来の政策に固有の報酬や価値関数を知らずに事前政策を活用することで,MDPの定式化を図り得る新しい枠組みであるResidual Q-learningを提案する。 オフラインおよびオンラインのポリシーカスタマイズを実現するための残留Q-ラーニングアルゴリズムのファミリーを考案し,提案アルゴリズムが様々な環境におけるポリシーカスタマイズタスクを効果的に実現できることを示す。 デモビデオとコードは、私たちのWebサイト(https://sites.google.com/view/residualq-learning)で公開されている。

Imitation Learning (IL) is a widely used framework for learning imitative behavior from demonstrations. It is especially appealing for solving complex real-world tasks where handcrafting reward function is difficult, or when the goal is to mimic human expert behavior. However, the learned imitative policy can only follow the behavior in the demonstration. When applying the imitative policy, we may need to customize the policy behavior to meet different requirements coming from diverse downstream tasks. Meanwhile, we still want the customized policy to maintain its imitative nature. To this end, we formulate a new problem setting called policy customization. It defines the learning task as training a policy that inherits the characteristics of the prior policy while satisfying some additional requirements imposed by a target downstream task. We propose a novel and principled approach to interpret and determine the trade-off between the two task objectives. Specifically, we formulate the customization problem as a Markov Decision Process (MDP) with a reward function that combines 1) the inherent reward of the demonstration; and 2) the add-on reward specified by the downstream task. We propose a novel framework, Residual Q-learning, which can solve the formulated MDP by leveraging the prior policy without knowing the inherent reward or value function of the prior policy. We derive a family of residual Q-learning algorithms that can realize offline and online policy customization, and show that the proposed algorithms can effectively accomplish policy customization tasks in various environments. Demo videos and code are available on our website: https://sites.google.com/view/residualq-learning.
翻訳日:2024-01-18 02:34:59 公開日:2024-01-15
# wegner ising gauge spins vs kitaev's majorana partons:マッピングとスピン軌道液体の異方性閉じ込めへの応用

Wegner's Ising gauge spins versus Kitaev's Majorana partons: Mapping and application to anisotropic confinement in spin-orbital liquids ( http://arxiv.org/abs/2306.09405v2 )

ライセンス: Link先を確認
Urban F. P. Seifert and Sergej Moroz(参考訳) 創発的ゲージ理論は量子物質の記述において顕著な役割を担い、位相的順序と分数化励起を持つ分解相を支持する。 ウェグナーが最初に導入した、$\mathbb{Z}_2$格子ゲージ理論の一般的な構成は、リンク上に置かれ、離散的な$\mathbb{Z}_2$ガウス法則に従うイジングゲージスピンである。 Kitaev が示すように、$\mathbb{Z}_2$ 格子ゲージ理論は、結合依存相互作用を持つ特定のスピン系の正確な解にも現れる。 この文脈では、$\mathbb{Z}_2$ゲージ場はマヨラナフェルミオンから構成され、各サイト上のマヨラナフェルミオンのパリティによって与えられるゲージの制約が与えられる。 本研究では、正方格子上のこれらの2つの定式式式の間を写像する明示的なヨルダン・ウィグナー変換(英語版)(jordan-wigner transformation)を提供し、ここではキタエフ型ゲージ理論がスピン軌道(クーゲル・ホムスキー)ハミルトニアンの厳密な解として現れる。 次に、我々は、$\mathbb{Z}_2$ゲージ理論における電場変数間の異方性相互作用に対応するスピン軌道ハミルトニアンへの局所摂動の研究にマッピングを適用する。 これらは弱い結合した1次元スピン鎖の出現を特徴とする異方性閉じ込めを引き起こす。 本研究では,これらの相の性質と,不在および不在なフェルミオン性物質の存在下での留置遷移について検討する。 最後に,ハニカム格子上のキタエフスピン1/2モデルに対する写像の適用方法について述べる。

Emergent gauge theories take a prominent role in the description of quantum matter, supporting deconfined phases with topological order and fractionalized excitations. A common construction of $\mathbb{Z}_2$ lattice gauge theories, first introduced by Wegner, involves Ising gauge spins placed on links and subject to a discrete $\mathbb{Z}_2$ Gauss law constraint. As shown by Kitaev, $\mathbb{Z}_2$ lattice gauge theories also emerge in the exact solution of certain spin systems with bond-dependent interactions. In this context, the $\mathbb{Z}_2$ gauge field is constructed from Majorana fermions, with gauge constraints given by the parity of Majorana fermions on each site. In this work, we provide an explicit Jordan-Wigner transformation that maps between these two formulations on the square lattice, where the Kitaev-type gauge theory emerges as the exact solution of a spin-orbital (Kugel-Khomskii) Hamiltonian. We then apply our mapping to study local perturbations to the spin-orbital Hamiltonian, which correspond to anisotropic interactions between electric-field variables in the $\mathbb{Z}_2$ gauge theory. These are shown to induce anisotropic confinement that is characterized by emergence of weakly-coupled one-dimensional spin chains. We study the nature of these phases and corresponding confinement transitions in both absence and presence of itinerant fermionic matter degrees of freedom. Finally, we discuss how our mapping can be applied to the Kitaev spin-1/2 model on the honeycomb lattice.
翻訳日:2024-01-18 02:34:15 公開日:2024-01-15
# ゼロショットrlの一般化を探求する

Explore to Generalize in Zero-Shot RL ( http://arxiv.org/abs/2306.03072v3 )

ライセンス: Link先を確認
Ev Zisselman, Itai Lavie, Daniel Soudry, Aviv Tamar(参考訳) 強化学習におけるゼロショット一般化について検討し、類似するが目立たないテストタスクでうまく機能するように訓練タスクの集合のポリシーを最適化する。 オーバーフィッティングを軽減するために、以前の研究はタスクへの不変性の異なる概念を探求した。 しかし、progen mazeのような問題では、タスクの可視化に不変な適切な解は存在しないため、不変性に基づくアプローチは失敗する。 私たちの見識では、ドメインを効果的に$\textit{explores}$というポリシーを学ぶことは、特定のタスクに対する報酬を最大化するポリシーよりも記憶が難しいので、そのような学習された振る舞いがうまく一般化することを期待しています。 私たちの$\textit{Explore to Generalize}$ algorithm (ExpGen)は、この洞察に基づいています。 テスト時に、アンサンブルはアクションについて合意し、私たちはうまく一般化するか、または探索的なアクションをとる。 当社のアプローチは、これまで効果的な一般化を導いてきたprocgenチャレンジのタスクの最先端技術であり、mazeタスクで$83\%、トレーニングレベルが$200のheistで$74\%の成功率を示しています。 ExpGenは、両方の世界の長所を得るために、不変ベースのアプローチと組み合わせて、ProcGenに新しい最先端の結果を設定することもできる。

We study zero-shot generalization in reinforcement learning-optimizing a policy on a set of training tasks to perform well on a similar but unseen test task. To mitigate overfitting, previous work explored different notions of invariance to the task. However, on problems such as the ProcGen Maze, an adequate solution that is invariant to the task visualization does not exist, and therefore invariance-based approaches fail. Our insight is that learning a policy that effectively $\textit{explores}$ the domain is harder to memorize than a policy that maximizes reward for a specific task, and therefore we expect such learned behavior to generalize well; we indeed demonstrate this empirically on several domains that are difficult for invariance-based approaches. Our $\textit{Explore to Generalize}$ algorithm (ExpGen) builds on this insight: we train an additional ensemble of agents that optimize reward. At test time, either the ensemble agrees on an action, and we generalize well, or we take exploratory actions, which generalize well and drive us to a novel part of the state space, where the ensemble may potentially agree again. We show that our approach is the state-of-the-art on tasks of the ProcGen challenge that have thus far eluded effective generalization, yielding a success rate of $83\%$ on the Maze task and $74\%$ on Heist with $200$ training levels. ExpGen can also be combined with an invariance based approach to gain the best of both worlds, setting new state-of-the-art results on ProcGen.
翻訳日:2024-01-18 02:31:24 公開日:2024-01-15
# 機械学習を用いた量子ソフトウェアテストにおけるノイズ緩和

Mitigating Noise in Quantum Software Testing Using Machine Learning ( http://arxiv.org/abs/2306.16992v2 )

ライセンス: Link先を確認
Asmar Muqeet, Tao Yue, Shaukat Ali and Paolo Arcaini(参考訳) 量子コンピューティング(QC)は、複雑な問題を解決するために古典計算よりも計算速度を上げることを約束する。 しかし、現在および短期量子コンピュータにはノイズが存在する。 量子ソフトウェアテスト(量子ソフトウェアの正確性に対する自信を得るため)は必然的にノイズに影響され、ノイズや実際の障害によってテストケースが失敗したかどうかを知ることは不可能である。 既存のテスト技術は、ノイズを考慮せずに、すなわち理想的な量子コンピュータシミュレータでテストを実行することで、量子プログラムをテストする。 したがって、実際の量子コンピュータやノイズのあるシミュレータ上での量子ソフトウェアテストには直接適用できない。 この目的のために,量子プログラムのテスト結果に対するノイズ効果を緩和するノイズ認識手法(qoin)を提案する。 QOINは、量子コンピュータのノイズ効果を学習し、量子プログラムの出力からフィルタリングするために、機械学習技術(例えば、転送学習)を用いる。 このようなフィルタされた出力は、テストケース評価(テストoracleに対するテストケース実行の通過または失敗を決定する)を行う入力として使用される。 我々は、IBMの23のノイズモデル、Googleの2つのノイズモデル、およびRigettiの量子仮想マシン(QVM)について、9つの実世界の量子プログラムと1000の人工量子プログラムでQOINを評価した。 その結果、qoinはノイズモデルの大部分に対して80\%$以上のノイズ効果を低減できることがわかった。 量子ソフトウェアテストでは、既存のテストオラクルを使用して、QOINが6つの実世界のプログラムでテストオラクルに対して、それぞれ精度、リコール、F1スコアで99\%$, 75\%$, 8,6\%$のスコアを得たことを示した。 人工プログラムの場合、qoinは精度、リコール、およびf1-scoreで9,3\%$、79\%$、および8,6\%$のスコアを得た。 ノイズ対応量子ソフトウェアテストにおけるノイズパターン学習におけるqoinの有効性を強調する。

Quantum Computing (QC) promises computational speedup over classic computing for solving complex problems. However, noise exists in current and near-term quantum computers. Quantum software testing (for gaining confidence in quantum software's correctness) is inevitably impacted by noise, to the extent that it is impossible to know if a test case failed due to noise or real faults. Existing testing techniques test quantum programs without considering noise, i.e., by executing tests on ideal quantum computer simulators. Consequently, they are not directly applicable to testing quantum software on real quantum computers or noisy simulators. To this end, we propose a noise-aware approach (named QOIN) to alleviate the noise effect on test results of quantum programs. QOIN employs machine learning techniques (e.g., transfer learning) to learn the noise effect of a quantum computer and filter it from a quantum program's outputs. Such filtered outputs are then used as the input to perform test case assessments (determining the passing or failing of a test case execution against a test oracle). We evaluated QOIN on IBM's 23 noise models, Google's two available noise models, and Rigetti's Quantum Virtual Machine (QVM), with nine real-world quantum programs and 1000 artificial quantum programs. Results show that QOIN can reduce the noise effect by more than $80\%$ on the majority of noise models. For quantum software testing, we used an existing test oracle and showed that QOIN attained scores of $99\%$, $75\%$, and $86\%$ for precision, recall, and F1-score, respectively, for the test oracle across six real-world programs. For artificial programs, QOIN achieved scores of $93\%$, $79\%$, and $86\%$ for precision, recall, and F1-score. This highlights QOIN's effectiveness in learning noise patterns for noise-aware quantum software testing.
翻訳日:2024-01-18 02:23:12 公開日:2024-01-15
# DiffSketcher:潜在拡散モデルによるテキストガイドベクトルスケッチ合成

DiffSketcher: Text Guided Vector Sketch Synthesis through Latent Diffusion Models ( http://arxiv.org/abs/2306.14685v4 )

ライセンス: Link先を確認
Ximing Xing, Chuang Wang, Haitao Zhou, Jing Zhang, Qian Yu, Dong Xu(参考訳) 画像を中心に訓練したものの,事前学習された拡散モデルがスケッチ合成の指導において印象的な効果を示すことが判明した。 本稿では,自然言語入力を用いた自由手書きスケッチを生成する革新的なアルゴリズムであるDiffSketcherを提案する。 diffsketcherは、事前学習されたテキストから画像への拡散モデルに基づいている。 スコア蒸留サンプリング(SDS)損失の延長版でB\'ezier曲線の集合を直接最適化することにより、パラメトリックベクトル化スケッチ生成器を最適化するための先行としてラスタレベルの拡散モデルを使用することができる。 さらに, 実効的ストローク初期化のための拡散モデルに埋め込まれた注意マップを探索し, 生成プロセスを高速化する。 生成されたスケッチは、認識可能性、基盤構造、描画対象の視覚的詳細を維持しながら、複数の抽象化レベルを示す。 私たちの実験では、diffsketcherは以前の作業よりも高い品質を達成しています。 diffsketcherのコードとデモはhttps://ximinng.github.io/diffsketcher-project/にある。

Even though trained mainly on images, we discover that pretrained diffusion models show impressive power in guiding sketch synthesis. In this paper, we present DiffSketcher, an innovative algorithm that creates \textit{vectorized} free-hand sketches using natural language input. DiffSketcher is developed based on a pre-trained text-to-image diffusion model. It performs the task by directly optimizing a set of B\'ezier curves with an extended version of the score distillation sampling (SDS) loss, which allows us to use a raster-level diffusion model as a prior for optimizing a parametric vectorized sketch generator. Furthermore, we explore attention maps embedded in the diffusion model for effective stroke initialization to speed up the generation process. The generated sketches demonstrate multiple levels of abstraction while maintaining recognizability, underlying structure, and essential visual details of the subject drawn. Our experiments show that DiffSketcher achieves greater quality than prior work. The code and demo of DiffSketcher can be found at https://ximinng.github.io/DiffSketcher-project/.
翻訳日:2024-01-18 02:22:22 公開日:2024-01-15
# マルチドメイン画像から画像への変換のための進歩的エネルギーベース協調学習

Progressive Energy-Based Cooperative Learning for Multi-Domain Image-to-Image Translation ( http://arxiv.org/abs/2306.14448v3 )

ライセンス: Link先を確認
Weinan Song, Yaxuan Zhu, Lei He, Yingnian Wu, and Jianwen Xie(参考訳) 本稿では,マルチドメイン画像・画像翻訳のための新しいエネルギーベース協調学習フレームワークについて検討する。 フレームワークは、ディスクリプタ、トランスレータ、スタイルエンコーダ、スタイルジェネレータの4つのコンポーネントで構成されている。 ディスクリプタはマルチヘッドエネルギーベースのモデルであり、マルチドメイン画像分布を表す。 トランスレータ、スタイルエンコーダ、スタイルジェネレータのコンポーネントは、多様化したイメージジェネレータを構成する。 具体的には、ソースドメインからの入力画像が与えられた場合、トランスレータは、基準画像からスタイルエンコーダにより推測されるか、ランダムノイズからスタイルジェネレータによって生成されるスタイルコードに従って、ターゲットドメインのスタイル化された出力画像に変換する。 スタイルジェネレータは、スタイルコードのドメイン固有の分布として表現されるため、トランスレータはソースドメインとターゲットドメインの間の1対多変換(つまり、多様化生成)を提供できる。 To train our framework, we propose a likelihood-based multi-domain cooperative learning algorithm to jointly train the multi-domain descriptor and the diversified image generator (including translator, style encoder, and style generator modules) via multi-domain MCMC teaching, in which the descriptor guides the diversified image generator to shift its probability density toward the data distribution, while the diversified image generator uses its randomly translated images to initialize the descriptor's Langevin dynamics process for efficient sampling.

This paper studies a novel energy-based cooperative learning framework for multi-domain image-to-image translation. The framework consists of four components: descriptor, translator, style encoder, and style generator. The descriptor is a multi-head energy-based model that represents a multi-domain image distribution. The components of translator, style encoder, and style generator constitute a diversified image generator. Specifically, given an input image from a source domain, the translator turns it into a stylised output image of the target domain according to a style code, which can be inferred by the style encoder from a reference image or produced by the style generator from a random noise. Since the style generator is represented as an domain-specific distribution of style codes, the translator can provide a one-to-many transformation (i.e., diversified generation) between source domain and target domain. To train our framework, we propose a likelihood-based multi-domain cooperative learning algorithm to jointly train the multi-domain descriptor and the diversified image generator (including translator, style encoder, and style generator modules) via multi-domain MCMC teaching, in which the descriptor guides the diversified image generator to shift its probability density toward the data distribution, while the diversified image generator uses its randomly translated images to initialize the descriptor's Langevin dynamics process for efficient sampling.
翻訳日:2024-01-18 02:21:46 公開日:2024-01-15
# 高次元データストリームに対する適応ベルンシュタイン変化検出器

Adaptive Bernstein Change Detector for High-Dimensional Data Streams ( http://arxiv.org/abs/2306.12974v2 )

ライセンス: Link先を確認
Marco Heyden, Edouard Fouch\'e, Vadim Arzamasov, Tanja Fenn, Florian Kalinke, Klemens B\"ohm(参考訳) データストリームを分析する場合、変更検出は根本的な重要性を持つ。 変更の検出は、アラームの発行や学習アルゴリズムの更新などによって、迅速かつ正確に監視および予測システムが反応することを可能にする。 しかし、観測が高次元の場合、変化の検出は困難である。 高次元データでは、変化検出器は変化がいつ起こるかだけでなく、どの部分空間で起こるかも特定できなければならない。 理想的には、それがどれほど厳しいかも定量化する必要がある。 我々のアプローチであるABCDはこれらの特性を持っている。 ABCDはエンコーダ・デコーダモデルを学び、その精度を適応サイズのウィンドウ上で監視する。 abcdは、バーンスタインの不等式に基づく変化スコアを導出して、変化を示す精度の偏差を検出する。 実験の結果,ABCDはF1スコアでF1スコアを最大20%上回っていることがわかった。 また、変化の部分空間を正確に推定し、基底の真理と相関する重大度測度と共に推定することもできる。

Change detection is of fundamental importance when analyzing data streams. Detecting changes both quickly and accurately enables monitoring and prediction systems to react, e.g., by issuing an alarm or by updating a learning algorithm. However, detecting changes is challenging when observations are high-dimensional. In high-dimensional data, change detectors should not only be able to identify when changes happen, but also in which subspace they occur. Ideally, one should also quantify how severe they are. Our approach, ABCD, has these properties. ABCD learns an encoder-decoder model and monitors its accuracy over a window of adaptive size. ABCD derives a change score based on Bernstein's inequality to detect deviations in terms of accuracy, which indicate changes. Our experiments demonstrate that ABCD outperforms its best competitor by up to 20% in F1-score on average. It can also accurately estimate changes' subspace, together with a severity measure that correlates with the ground truth.
翻訳日:2024-01-18 02:20:28 公開日:2024-01-15
# コンボリューションに基づく人間の運動予測に対する物理制約攻撃

Physics-constrained Attack against Convolution-based Human Motion Prediction ( http://arxiv.org/abs/2306.11990v3 )

ライセンス: Link先を確認
Chengxu Duan, Zhicheng Zhang, Xiaoli Liu, Yonghao Dang and Jianqin Yin(参考訳) 畳み込みに基づくニューラルネットワークの助けを借りて、人間の動き予測は素晴らしいパフォーマンスを達成しました。 しかし、現在、対向攻撃時に人間の運動予測の潜在的なリスクを評価する作業は行われていない。 敵対的攻撃は自然とデータスケールにおける人間の動き予測に対する問題に遭遇する。 そこで本研究では,人間の運動予測器の予測誤差を物理的制約で最大化することにより,最悪の摂動を発生させる新たな攻撃手法を提案する。 具体的には,対象ポーズの大きさに合わせて攻撃を容易にする新しい適応性スキームと,敵の自然性を高めるために2つの物理的制約を導入する。 3つのデータセットに対する評価実験により、全てのターゲットモデルの予測誤差が大幅に拡大され、現在の畳み込みに基づく人間の動き予測モデルが提案された攻撃に対して脆弱であることを示す。 実験結果に基づき,人間の運動予測器の逆ロバスト性を高める方法と,人間の運動予測に対する逆ロバスト性を改善する方法に関する知見を提供する。

Human motion prediction has achieved a brilliant performance with the help of convolution-based neural networks. However, currently, there is no work evaluating the potential risk in human motion prediction when facing adversarial attacks. The adversarial attack will encounter problems against human motion prediction in naturalness and data scale. To solve the problems above, we propose a new adversarial attack method that generates the worst-case perturbation by maximizing the human motion predictor's prediction error with physical constraints. Specifically, we introduce a novel adaptable scheme that facilitates the attack to suit the scale of the target pose and two physical constraints to enhance the naturalness of the adversarial example. The evaluating experiments on three datasets show that the prediction errors of all target models are enlarged significantly, which means current convolution-based human motion prediction models are vulnerable to the proposed attack. Based on the experimental results, we provide insights on how to enhance the adversarial robustness of the human motion predictor and how to improve the adversarial attack against human motion prediction.
翻訳日:2024-01-18 02:19:33 公開日:2024-01-15
# QuIP: 保証付き大規模言語モデルの2ビット量子化

QuIP: 2-Bit Quantization of Large Language Models With Guarantees ( http://arxiv.org/abs/2307.13304v2 )

ライセンス: Link先を確認
Jerry Chee, Yaohui Cai, Volodymyr Kuleshov, Christopher De Sa(参考訳) 本研究は,大規模言語モデル(llms)における学習後パラメータ量子化の研究である。 Incoherence Processing (QuIP) を用いた量子化(quantization)を導入する。これは$\textit{incoherent}$ weight と Hessian matrices から得られる量子化の利点、すなわち、重みが等しく、座標軸と正確に整合しないことが重要となる方向からである。 QuIP は,(1) 二次的プロキシの目的を最小化する適応丸め手順,(2) ランダム直交行列による乗算による重み付けとヘッセン不整合を保証する効率的な前処理と後処理の2段階からなる。 我々はQuIPをLLMスケール量子化アルゴリズムの最初の理論的解析と補完し、我々の理論が既存の方法であるOPTQにも適用されることを示す。 経験的に、我々の非一貫性前処理は既存の量子化アルゴリズムを改良し、1重量あたり2ビットで実行可能な結果を生成する最初の llm 量子化法をもたらす。 私たちのコードはhttps://github.com/Cornell-RelaxML/QuIPで確認できます。

This work studies post-training parameter quantization in large language models (LLMs). We introduce quantization with incoherence processing (QuIP), a new method based on the insight that quantization benefits from $\textit{incoherent}$ weight and Hessian matrices, i.e., from the weights being even in magnitude and the directions in which it is important to round them accurately being unaligned with the coordinate axes. QuIP consists of two steps: (1) an adaptive rounding procedure minimizing a quadratic proxy objective; (2) efficient pre- and post-processing that ensures weight and Hessian incoherence via multiplication by random orthogonal matrices. We complement QuIP with the first theoretical analysis for an LLM-scale quantization algorithm, and show that our theory also applies to an existing method, OPTQ. Empirically, we find that our incoherence preprocessing improves several existing quantization algorithms and yields the first LLM quantization methods that produce viable results using only two bits per weight. Our code can be found at https://github.com/Cornell-RelaxML/QuIP.
翻訳日:2024-01-18 02:11:46 公開日:2024-01-15
# Federated Medical ImagingにおけるAdaptive Intermediaryによるクライアントレベル差分プライバシー

Client-Level Differential Privacy via Adaptive Intermediary in Federated Medical Imaging ( http://arxiv.org/abs/2307.12542v2 )

ライセンス: Link先を確認
Meirui Jiang, Yuan Zhong, Anjie Le, Xiaoxiao Li, Qi Dou(参考訳) 近年、差分プライバシー(DP)による連邦学習(FL)のプライバシー向上が進んでいるが、実際の医療シナリオでは、プライバシ保護とパフォーマンスの間のDPのトレードオフが未検討である。 本稿では,コミュニケーションにおけるプライバシに着目したクライアントレベルのDPのコンテキスト下でのトレードオフの最適化を提案する。 しかし、医療画像のためのflは、通常、他のドメイン(モバイルデバイスなど)よりも参加者(病院)がはるかに少ないため、クライアントの差分プライベート性を保証することがずっと難しい。 この問題に対処するために,プライバシを損なうことなくパフォーマンスを向上させるための適応的仲介戦略を提案する。 具体的には,病院とサーバ間の仲介を行うサブクライアントにクライアントを分割することで,プライバシを損なうことなくdpによるノイズを軽減することができる。 提案手法は,2つの公開データセットを用いた分類とセグメンテーションのタスクについて実験的に評価し,その性能改善と総合的な分析研究によってその効果を実証した。 コードはhttps://github.com/med-air/client-dp-fl。

Despite recent progress in enhancing the privacy of federated learning (FL) via differential privacy (DP), the trade-off of DP between privacy protection and performance is still underexplored for real-world medical scenario. In this paper, we propose to optimize the trade-off under the context of client-level DP, which focuses on privacy during communications. However, FL for medical imaging involves typically much fewer participants (hospitals) than other domains (e.g., mobile devices), thus ensuring clients be differentially private is much more challenging. To tackle this problem, we propose an adaptive intermediary strategy to improve performance without harming privacy. Specifically, we theoretically find splitting clients into sub-clients, which serve as intermediaries between hospitals and the server, can mitigate the noises introduced by DP without harming privacy. Our proposed approach is empirically evaluated on both classification and segmentation tasks using two public datasets, and its effectiveness is demonstrated with significant performance improvements and comprehensive analytical studies. Code is available at: https://github.com/med-air/Client-DP-FL.
翻訳日:2024-01-18 02:11:22 公開日:2024-01-15
# 電磁散乱における第1子近似の厳密性

Exactness of the first Born approximation in electromagnetic scattering ( http://arxiv.org/abs/2307.10819v2 )

ライセンス: Link先を確認
Farhang Loran and Ali Mostafazadeh(参考訳) 一般の非等方的定常線形媒質による3次元の平面電磁波散乱に対して、入射波数$k$が予め割り当てられた値$\alpha$を超えない場合に、第1ボルン近似が散乱波の正確な表現を得られる媒体の誘電率と透過性テンソルの条件を与える。 また,この条件下では,入射波の偏光によらず広帯域可視性を示す,$k\leq \alpha/2$ に対して媒質が全方向可視であることを示す。

For the scattering of plane electromagnetic waves by a general possibly anisotropic stationary linear medium in three dimensions, we give a condition on the permittivity and permeability tensors of the medium under which the first Born approximation yields the exact expression for the scattered wave whenever the incident wavenumber $k$ does not exceed a pre-assigned value $\alpha$. We also show that under this condition the medium is omnidirectionally invisible for $k\leq \alpha/2$, i.e., it displays broadband invisibility regardless of the polarization of the incident wave.
翻訳日:2024-01-18 02:10:29 公開日:2024-01-15
# 光子トポロジー

Photon topology ( http://arxiv.org/abs/2308.11147v2 )

ライセンス: Link先を確認
Eric Palmerduca, Hong Qin(参考訳) 真空中の光子の位相は、$\boldsymbol{k}=0$を持つ光子が存在しないため興味深い。 すべての光子の集合がこの運動量空間上の自明なベクトル束$\gamma$を形成する一方で、$R$-と$L$-光子は位相的に非自明な部分バンドル$\gamma_\pm$と最初のチャーン数$\mp2$を形成する。 対照的に$\gamma$ は線型偏極部分バンドルを持たず、線型偏極に関連するチャーン数は存在しない。 ウィグナーの小群法の標準的なバージョンが質量を持たない粒子に対してポアンカル(poincar\'{e})群の特異表現を生成することは知られている。 ベクトルバンドル上の Poincar\'{e} 群の表現を考慮し、これらの特異点を避ける無質量粒子に対するウィグナーの小さな群法のバージョンを得る。 我々は、Poincar\'{e} 群の任意の無質量バンドル表現を、ヘリシティによってラベル付けされた既約バンドル表現にカノニカルに分解できることを示し、したがって滑らかな既約ヒルベルト空間表現に関連付けることができる。 これにより、r$- と $l$-photons は世界的に粒子としてよく定義され、光子波動関数は一意に $r$- と $l$-components に分割される。 この形式化は、伝統的なスキームのように不連続な分極ベクトルを呼び出すことなくem場を量子化する方法を提供する。 また、光子のスピンチャーン数は純粋に位相量ではないことも示している。 最後に、光子角運動量はスピン部分と軌道部分に分けられるかという議論が広がっている。 私たちの研究は、この分裂を妨げる正確な問題を説明します。 光子はスピン作用素を認めず、代わりに光子の内部自由度に関連する角運動量は、$\gamma$の翻訳対称性に対応するヘリシティ誘起のサブ代数によって記述される。

The topology of photons in vacuum is interesting because there are no photons with $\boldsymbol{k}=0$, creating a hole in momentum space. We show that while the set of all photons forms a trivial vector bundle $\gamma$ over this momentum space, the $R$- and $L$-photons form topologically nontrivial subbundles $\gamma_\pm$ with first Chern numbers $\mp2$. In contrast, $\gamma$ has no linearly polarized subbundles, and there is no Chern number associated with linear polarizations. It is a known difficulty that the standard version of Wigner's little group method produces singular representations of the Poincar\'{e} group for massless particles. By considering representations of the Poincar\'{e} group on vector bundles we obtain a version of Wigner's little group method for massless particles which avoids these singularities. We show that any massless bundle representation of the Poincar\'{e} group can be canonically decomposed into irreducible bundle representations labeled by helicity, which in turn can be associated to smooth irreducible Hilbert space representations. This proves that the $R$- and $L$-photons are globally well-defined as particles and that the photon wave function can be uniquely split into $R$- and $L$-components. This formalism offers a method of quantizing the EM field without invoking discontinuous polarization vectors as in the traditional scheme. We also demonstrate that the spin-Chern number of photons is not a purely topological quantity. Lastly, there has been an extended debate on whether photon angular momentum can be split into spin and orbital parts. Our work explains the precise issues that prevent this splitting. Photons do not admit a spin operator; instead, the angular momentum associated with photons' internal degree of freedom is described by a helicity-induced subalgebra corresponding to the translational symmetry of $\gamma$.
翻訳日:2024-01-18 02:00:49 公開日:2024-01-15
# 協調共進化とグローバルクロスオーバーについて

On Cooperative Coevolution and Global Crossover ( http://arxiv.org/abs/2308.06581v2 )

ライセンス: Link先を確認
Larry Bull and Haixia Liu(参考訳) 協調共進化アルゴリズム(CCEA)は、与えられた問題を複数のサブプロブレムに分割し、進化アルゴリズムを用いて各サブプロブレムを解く。 この短い論文は、単一のグローバルなフィットネス指標しか存在しないシナリオに関するものである。 一般的なサブプロブレムパートナー機構を取り除くことで、そのようなcceasは初期の進化戦略で導入されたグローバルクロスオーバー演算子の一般化版であると見なすことができる。 フィットネスランドスケープのよく知られたNKモデルを用いて、基礎となるフィットネスランドスケープの頑丈さに対するグローバルクロスオーバーの様々な側面の影響を探索する。 その結果、最も広く使われているCCEAよりも改善が示唆され、他のよく知られたテスト関数を使ってさらに実証された。

Cooperative coevolutionary algorithms (CCEAs) divide a given problem in to a number of subproblems and use an evolutionary algorithm to solve each subproblem. This short paper is concerned with the scenario under which only a single, global fitness measure exists. By removing the typically used subproblem partnering mechanism, it is suggested that such CCEAs can be viewed as making use of a generalised version of the global crossover operator introduced in early Evolution Strategies. Using the well-known NK model of fitness landscapes, the effects of varying aspects of global crossover with respect to the ruggedness of the underlying fitness landscape are explored. Results suggest improvements over the most widely used form of CCEAs, something further demonstrated using other well-known test functions.
翻訳日:2024-01-18 01:58:38 公開日:2024-01-15
# 混合効果モデルと階層クラスタリングによる異種農業データセットを用いたベイズネットワークの学習

Learning Bayesian Networks with Heterogeneous Agronomic Data Sets via Mixed-Effect Models and Hierarchical Clustering ( http://arxiv.org/abs/2308.06399v5 )

ライセンス: Link先を確認
Lorenzo Valleggi and Marco Scutari and Federico Mattia Stefanini(参考訳) 特にサハラ以南のアフリカ、アジア、ラテンアメリカで栽培されているトウモロコシは、2021年時点で1億9700万ヘクタールを占めている。 混合効果モデル、ランダム係数モデル、ランダムフォレスト、ディープラーニングアーキテクチャを含む様々な統計的および機械学習モデルが、トウモロコシ収量を予測するために考案された。 これらのモデルは、ジェノタイプ、環境、ジェノタイプ-環境相互作用、およびフィールド管理などの要因を考察する。 しかし、既存のモデルは、これらの要因と農業データに固有の階層構造の間の因果関係の複雑なネットワークを完全に活用できないことが多い。 本研究では,無作為効果をベイズネットワーク(bns)に統合し,有向非巡回グラフによる因果関係と確率的関係をモデル化する手法を提案する。 線形混合影響モデルフレームワークで回転し、階層データ用に調整されたこの新しいアプローチは、BN学習の強化を示す。 実世界の農業試験への応用は、解釈性を改善し、新しい因果関係を明らかにするモデルを生み出す。 提案手法は,トウモロコシ収量予測における誤差率を28%から17%に大幅に低減する。 これらの結果は、階層的農業データのための実用的な意思決定支援ツールの構築においてBNを優先し、因果推論を促進することを主張する。

Maize, a crucial crop globally cultivated across vast regions, especially in sub-Saharan Africa, Asia, and Latin America, occupies 197 million hectares as of 2021. Various statistical and machine learning models, including mixed-effect models, random coefficients models, random forests, and deep learning architectures, have been devised to predict maize yield. These models consider factors such as genotype, environment, genotype-environment interaction, and field management. However, the existing models often fall short of fully exploiting the complex network of causal relationships among these factors and the hierarchical structure inherent in agronomic data. This study introduces an innovative approach integrating random effects into Bayesian networks (BNs), leveraging their capacity to model causal and probabilistic relationships through directed acyclic graphs. Rooted in the linear mixed-effects models framework and tailored for hierarchical data, this novel approach demonstrates enhanced BN learning. Application to a real-world agronomic trial produces a model with improved interpretability, unveiling new causal connections. Notably, the proposed method significantly reduces the error rate in maize yield prediction from 28% to 17%. These results advocate for the preference of BNs in constructing practical decision support tools for hierarchical agronomic data, facilitating causal inference.
翻訳日:2024-01-18 01:58:25 公開日:2024-01-15
# 量子プログラムデバッグにおけるバギーセグメントの配置

Locating Buggy Segments in Quantum Program Debugging ( http://arxiv.org/abs/2309.04266v3 )

ライセンス: Link先を確認
Naoto Sato and Ryota Katsube(参考訳) 量子コンピュータ上で量子プログラムをテストすることで、バグが検出された場合、その修正の場所を判断したい。 バグを見つけるため、量子プログラムは複数のセグメントに分割され、各セグメントがテストされる。 しかし、セグメントに入力される量子状態を作成するには、そのセグメントに先立って量子コンピュータで全てのセグメントを実行する必要がある。 つまり、各セグメントのテストコストは、その場所に依存する。 また、バギーセグメントの前にすべてのセグメントにバグがないことが確認された場合にのみバギーセグメントを見つけることも可能です。 量子プログラムは、測定結果に基づいて統計的にテストされるため、テスト精度とコストの間にはトレードオフがある。 これらの特徴は量子プログラムに特有のものであり、バグの特定が複雑であるが、研究されていない。 我々は,これらの特徴を効率的にバグを見つけるために考慮すべきことを初めて提案する。 また,これらの特性を考慮したバグ検出手法を最初に提案する。 実験の結果, 量子ゲート数として表されるバグ検出コストは, 提案手法により, ナイーブ法と比較して低減できることが示唆された。

When a bug is detected by testing a quantum program on a quantum computer, we want to determine its location to fix it. To locate the bug, the quantum program is divided into several segments, and each segment is tested. However, to prepare a quantum state that is input to a segment, it is necessary to execute all the segments ahead of that segment in a quantum computer. This means that the cost of testing each segment depends on its location. We can also locate a buggy segment only if it is confirmed that there are no bugs in all segments ahead of that buggy segment. Since a quantum program is tested statistically on the basis of measurement results, there is a tradeoff between testing accuracy and cost. Although these characteristics are unique to quantum programs and complicate locating bugs, they have not been investigated. We suggest for the first time that these characteristics should be considered to efficiently locate bugs. We are also the first to propose a bug-locating method that takes these characteristics into account. The results from experiments indicate that the bug-locating cost, represented as the number of executed quantum gates, can be reduced with the proposed method compared with naive methods.
翻訳日:2024-01-18 01:48:37 公開日:2024-01-15
# 原子干渉法による垂直暗黒物質検出器の最適ベースライン利用

Optimal baseline exploitation in vertical dark-matter detectors based on atom interferometry ( http://arxiv.org/abs/2309.04207v3 )

ライセンス: Link先を確認
Fabio Di Pumpo, Alexander Friedrich, Enno Giese(参考訳) 長距離原子干渉計に基づく重力波やダークマターの地球外検出器は、現在、最終計画段階か既に建設中である。 これらの垂直センサーは本質的に重力の影響を受けるため、大きな運動量移動のために単光子遷移を用いるグラディメータやマルチグラディメータの構成が特徴である。 これらの実験を有害なノイズ源に対して最適化したり、彼らのプロジェクテッドサイトへのデプロイには大きな進展がありますが、利用可能なリソースを最大限に活用するための最適な構成を見つけることは、まだ未解決の問題です。 さらには、デバイスの感度の基本的な限界がまだ欠落している。 ここでこのギャップを埋めてみましょう (a)マルチダイアモンド噴水放射計に基づく共鳴モード検出器は、その高さが利用可能なベースラインの20%を構成する場合に最適なショットノイズ制限を実現できる。 (b)この限界はダークマッター発振周波数とは無関係である。 (c)基準線を2倍にすると、最終的な測定の不確かさが約65%減少する。 さらに,先行する重力位相寄与が抑制されるミラーパルスの少ないマルチダイアモンドスキームを提案し,確立されたジオメトリと比較し,両配置が同じ基本限界を飽和させることを示す。

Several terrestrial detectors for gravitational waves and dark matter based on long-baseline atom interferometry are currently in the final planning stages or already under construction. These upcoming vertical sensors are inherently subject to gravity and thus feature gradiometer or multi-gradiometer configurations using single-photon transitions for large momentum transfer. While there has been significant progress on optimizing these experiments against detrimental noise sources and for deployment at their projected sites, finding optimal configurations that make the best use of the available resources are still an open issue. Even more, the fundamental limit of the device's sensitivity is still missing. Here we fill this gap and show that (a) resonant-mode detectors based on multi-diamond fountain gradiometers achieve the optimal, shot-noise limited, sensitivity if their height constitutes 20% of the available baseline; (b) this limit is independent of the dark-matter oscillation frequency; and (c) doubling the baseline decreases the ultimate measurement uncertainty by approximately 65%. Moreover, we propose a multi-diamond scheme with less mirror pulses where the leading-order gravitational phase contribution is suppressed, compare it to established geometries, and demonstrate that both configurations saturate the same fundamental limit.
翻訳日:2024-01-18 01:48:18 公開日:2024-01-15
# 3次元心血管系免疫蛍光像の核検出と分類のためのラベル効率の高いコントラスト学習モデル

Label-efficient Contrastive Learning-based model for nuclei detection and classification in 3D Cardiovascular Immunofluorescent Images ( http://arxiv.org/abs/2309.03744v3 )

ライセンス: Link先を確認
Nazanin Moradinasab, Rebecca A. Deaton, Laura S. Shankman, Gary K. Owens, Donald E. Brown(参考訳) 近年,深層学習に基づく手法は,核検出と分類において有望な性能を達成している。 しかし、深層学習に基づく手法の訓練には、特に3D画像において、時間と労力のかかる大量の画素単位のアノテートデータが必要である。 もう一つのアプローチは、各核に点をラベル付けするなどの弱いアノテーション法を適用することであるが、この方法は2Dの病理像(もともと開発された)から3Dの免疫蛍光画像に拡張しない。 理由は、3D画像が核と異なるマーカーの複数のチャネル(z軸)を別々に含むため、ポイントアノテーションを用いたトレーニングが困難になるからである。 この課題に対処するために,3次元免疫蛍光画像の様々な種類の核を検出・分類するためのラベル効率・コントラスト学習ベース(LECL)モデルを提案する。 これまでの方法では、最大強度投影(MIP)を使用して、複数のスライスを持つ免疫蛍光画像を2D画像に変換することで、異なるzスタックからの信号が互いに関連付けられていると偽る可能性がある。 この問題を解決するために、MIPを用いた問題に対処するEMIP(Extended Maximum Intensity Projection)アプローチを考案した。 さらに、弱教師付き設定のためのSCL(Supervised Contrastive Learning)アプローチも実施した。 心血管系データセットを用いて実験を行い,本フレームワークは3次元免疫蛍光画像における種々の種類の核の検出と分類に有効であることを確認した。

Recently, deep learning-based methods achieved promising performance in nuclei detection and classification applications. However, training deep learning-based methods requires a large amount of pixel-wise annotated data, which is time-consuming and labor-intensive, especially in 3D images. An alternative approach is to adapt weak-annotation methods, such as labeling each nucleus with a point, but this method does not extend from 2D histopathology images (for which it was originally developed) to 3D immunofluorescent images. The reason is that 3D images contain multiple channels (z-axis) for nuclei and different markers separately, which makes training using point annotations difficult. To address this challenge, we propose the Label-efficient Contrastive learning-based (LECL) model to detect and classify various types of nuclei in 3D immunofluorescent images. Previous methods use Maximum Intensity Projection (MIP) to convert immunofluorescent images with multiple slices to 2D images, which can cause signals from different z-stacks to falsely appear associated with each other. To overcome this, we devised an Extended Maximum Intensity Projection (EMIP) approach that addresses issues using MIP. Furthermore, we performed a Supervised Contrastive Learning (SCL) approach for weakly supervised settings. We conducted experiments on cardiovascular datasets and found that our proposed framework is effective and efficient in detecting and classifying various types of nuclei in 3D immunofluorescent images.
翻訳日:2024-01-18 01:47:11 公開日:2024-01-15
# 無線ネットワークを用いたフェデレーション学習のための適応モデルプルーニングとパーソナライズ

Adaptive Model Pruning and Personalization for Federated Learning over Wireless Networks ( http://arxiv.org/abs/2309.01816v3 )

ライセンス: Link先を確認
Xiaonan Liu and Tharmalingam Ratnarajah and Mathini Sellathurai and Yonina C. Eldar(参考訳) フェデレーション学習(fl)は、データプライバシを保護しながら、エッジデバイス間での分散学習を可能にする。 しかし、デバイスのデータの多様性により学習精度が低下し、計算能力や無線リソースの制限されたデバイス上で大規模学習モデルを更新すると計算と通信の遅延が増加する。 これらの課題を克服するために,部分モデルプルーニングとパーソナライズを備えたflフレームワークを検討する。 このフレームワークは、学習モデルを、データ表現を学ぶためにすべてのデバイスと共有されるモデルプルーニングと、特定のデバイス向けに微調整されるパーソナライズされた部分とで、グローバルな部分に分割する。 提案するflフレームワークの計算と通信遅延および収束を数学的に解析する。 収束率を最大化し、学習精度を保証するため、KKT(Karush Kuhn Tucker)条件を配置し、プルーニング比と帯域割り当てを最適化する。 最後に,提案するFLフレームワークは,部分モデルパーソナライズによるFLと比較して,約50%の計算と通信遅延を著しく低減できることを示した。

Federated learning (FL) enables distributed learning across edge devices while protecting data privacy. However, the learning accuracy decreases due to the heterogeneity of devices' data, and the computation and communication latency increase when updating large-scale learning models on devices with limited computational capability and wireless resources. We consider a FL framework with partial model pruning and personalization to overcome these challenges. This framework splits the learning model into a global part with model pruning shared with all devices to learn data representations and a personalized part to be fine-tuned for a specific device, which adapts the model size during FL to reduce both computation and communication latency and increases the learning accuracy for devices with non-independent and identically distributed data. The computation and communication latency and convergence of the proposed FL framework are mathematically analyzed. To maximize the convergence rate and guarantee learning accuracy, Karush Kuhn Tucker (KKT) conditions are deployed to jointly optimize the pruning ratio and bandwidth allocation. Finally, experimental results demonstrate that the proposed FL framework achieves a remarkable reduction of approximately 50 percent computation and communication latency compared with FL with partial model personalization.
翻訳日:2024-01-18 01:46:44 公開日:2024-01-15
# 味を学習する:マルチモーダルワインデータセット

Learning to Taste: A Multimodal Wine Dataset ( http://arxiv.org/abs/2308.16900v4 )

ライセンス: Link先を確認
Thoranna Bender, Simon Moe S{\o}rensen, Alireza Kashani, K. Eldjarn Hjorleifsson, Grethe Hyldig, S{\o}ren Hauberg, Serge Belongie and Frederik Warburg(参考訳) 我々は,視覚知覚,言語,風味の関係を研究するための大規模マルチモーダルワインデータセットである winesensed を提案する。 データセットには、ワインラベルの897k画像と、ヴィヴィノプラットフォームから収集されたワインの824kレビューが含まれている。 年間、地域、格付け、アルコール度数、価格、ブドウの組成でアノテートされた350k以上のユニークなボツリングがある。 味覚の類似性に基づいてワインのランク付けを依頼された256人の被験者を対象に, ワイン味覚実験を行い, 5k以上の香味距離が得られた。 人間の経験と自動機械類似性カーネルを組み合わせた低次元概念埋め込みアルゴリズムを提案する。 この共有概念埋め込み空間は,粗いフレーバー分類(アルコールパーセンテージ,国,ブドウ,価格,レーティング)のための別個の埋め込み空間を改良し,複雑なフレーバーの人間知覚に適合することを示す。

We present WineSensed, a large multimodal wine dataset for studying the relations between visual perception, language, and flavor. The dataset encompasses 897k images of wine labels and 824k reviews of wines curated from the Vivino platform. It has over 350k unique bottlings, annotated with year, region, rating, alcohol percentage, price, and grape composition. We obtained fine-grained flavor annotations on a subset by conducting a wine-tasting experiment with 256 participants who were asked to rank wines based on their similarity in flavor, resulting in more than 5k pairwise flavor distances. We propose a low-dimensional concept embedding algorithm that combines human experience with automatic machine similarity kernels. We demonstrate that this shared concept embedding space improves upon separate embedding spaces for coarse flavor classification (alcohol percentage, country, grape, price, rating) and aligns with the intricate human perception of flavor.
翻訳日:2024-01-18 01:46:23 公開日:2024-01-15
# 自己適応型ロボットシステムの形式的モデリングと解析

Formal Modelling and Analysis of a Self-Adaptive Robotic System ( http://arxiv.org/abs/2308.14663v2 )

ライセンス: Link先を確認
Juliane P\"a{\ss}ler, Maurice H. ter Beek, Ferruccio Damiani, S. Lizeth Tapia Tarifa and Einar Broch Johnsen(参考訳) 自己適応は、環境や内部状態など不確実性に対処しなければならない自律システムの重要な特徴である。 自己適応システムはドメインの関心事を扱う管理サブシステムと適応ロジックを実装する管理サブシステムを持つ2層システムとしてモデル化されることが多い。 より具体的には、パイプライン検査に使用される自律型水中車両(AUV)について考察する。 本稿では,特徴認識型確率モデルチェッカーProFeatでモデル化し,解析する。 AUVの機能は機能モデルでモデル化され、AUVの可変性をキャプチャする。 これにより、AUVのマネージドサブシステムを、AUVの有効な機能構成に対応するシステム群としてモデル化することができる。 AUVの管理サブシステムは、環境条件と内部条件の両方に応じて、これらの有効な特徴構成を動的に切り替えることができる制御層としてモデル化される。 我々はこのモデルを用いて、AUVの確率的報酬と安全特性を分析する。

Self-adaptation is a crucial feature of autonomous systems that must cope with uncertainties in, e.g., their environment and their internal state. Self-adaptive systems are often modelled as two-layered systems with a managed subsystem handling the domain concerns and a managing subsystem implementing the adaptation logic. We consider a case study of a self-adaptive robotic system; more concretely, an autonomous underwater vehicle (AUV) used for pipeline inspection. In this paper, we model and analyse it with the feature-aware probabilistic model checker ProFeat. The functionalities of the AUV are modelled in a feature model, capturing the AUV's variability. This allows us to model the managed subsystem of the AUV as a family of systems, where each family member corresponds to a valid feature configuration of the AUV. The managing subsystem of the AUV is modelled as a control layer capable of dynamically switching between such valid feature configurations, depending both on environmental and internal conditions. We use this model to analyse probabilistic reward and safety properties for the AUV.
翻訳日:2024-01-18 01:45:38 公開日:2024-01-15
# 強化学習を用いたUI適応のための逆モデルの比較検討

A Comparative Study on Reward Models for UI Adaptation with Reinforcement Learning ( http://arxiv.org/abs/2308.13937v2 )

ライセンス: Link先を確認
Daniel Gaspar-Figueiredo, Silvia Abrah\~ao, Marta Fern\'andez-Diego, Emilio Insfran(参考訳) ソフトウェアシステムのユーザインタフェース(ui)をユーザ要件や使用状況に適応させることは困難である。 主な難点は、エンドユーザに価値を与えるために、適切なタイミングで適切な適応を適切な場所で提案することである。 機械学習技術の最近の進歩は、適応をより効果的にサポートする有用な方法を提供すると信じている。 特に、強化学習(RL)は、ユーザエクスペリエンス(UX)を改善するために、使用状況ごとにインターフェイスをパーソナライズするために使用することができる。 しかし、UI適応におけるRLの課題は、各アダプティブ代替の報酬を決定することである。 最近の研究では、この課題に対処するための報酬モデルの使用について検討されているが、このタイプのモデルに関する実証的な証拠はない。 本稿では、rlを用いたui適応の文脈における報酬モデル生成のための2つの異なる手法の有効性を検討することを目的とした確認研究設計について述べる。(1)予測型人間-コンピュータインタラクション(hci)モデル(hci)のみから導出した報酬モデル(hci&hf)、(2)人的フィードバックによる予測型hciモデル(hci&hf)である。 コントロールされた実験では、HCIとHCI&HFの2つの治療法を備えたAB/BAクロスオーバー設計を使用する。 これら2つの処理の操作が、適応ユーザインタフェース(AUI)と相互作用する際のUXにどのように影響するかを判断する。 UXは、ユーザエンゲージメントとユーザ満足度の観点から測定され、予測的HCIモデルとユーザインタラクション満足度アンケート(QUIS)によってそれぞれ運用される。 2つの報酬モデルの性能をユーザ好みに適応する能力とUXを改善する能力で比較することにより、報奨モデルがRLを用いたUI適応を促進する方法の理解に寄与する。

Adapting the User Interface (UI) of software systems to user requirements and the context of use is challenging. The main difficulty consists of suggesting the right adaptation at the right time in the right place in order to make it valuable for end-users. We believe that recent progress in Machine Learning techniques provides useful ways in which to support adaptation more effectively. In particular, Reinforcement learning (RL) can be used to personalise interfaces for each context of use in order to improve the user experience (UX). However, determining the reward of each adaptation alternative is a challenge in RL for UI adaptation. Recent research has explored the use of reward models to address this challenge, but there is currently no empirical evidence on this type of model. In this paper, we propose a confirmatory study design that aims to investigate the effectiveness of two different approaches for the generation of reward models in the context of UI adaptation using RL: (1) by employing a reward model derived exclusively from predictive Human-Computer Interaction (HCI) models (HCI), and (2) by employing predictive HCI models augmented by Human Feedback (HCI&HF). The controlled experiment will use an AB/BA crossover design with two treatments: HCI and HCI&HF. We shall determine how the manipulation of these two treatments will affect the UX when interacting with adaptive user interfaces (AUI). The UX will be measured in terms of user engagement and user satisfaction, which will be operationalized by means of predictive HCI models and the Questionnaire for User Interaction Satisfaction (QUIS), respectively. By comparing the performance of two reward models in terms of their ability to adapt to user preferences with the purpose of improving the UX, our study contributes to the understanding of how reward modelling can facilitate UI adaptation using RL.
翻訳日:2024-01-18 01:44:56 公開日:2024-01-15
# 音響領域におけるミニマシャープ性に関する考察:音響シーン分類のためのフィルタ非正規化評価

Bringing the Discussion of Minima Sharpness to the Audio Domain: a Filter-Normalised Evaluation for Acoustic Scene Classification ( http://arxiv.org/abs/2309.16369v2 )

ライセンス: Link先を確認
Manuel Milling, Andreas Triantafyllopoulos, Iosif Tsangko, Simon David Noel Rampp, Bj\"orn Wolfgang Schuller(参考訳) 深いニューラルネットワークの文脈における損失最小値のシャープさと一般化の相関は、長い間議論されてきた。 コンピュータビジョンの領域で選択されたベンチマークデータセットの文脈において主に研究されているが、DCASE2020チャレンジデータの音響シーン分類タスクにおけるこの側面について検討する。 本解析は, 2次元フィルタ正規化可視化と派生シャープネス測度に基づいている。 我々の探索分析では、フラットなミニマよりもシャープなミニマの方が、フラットなミニマよりも優れた一般化を示す傾向が示されている。 さらに、特に、オプティマイザの選択がミニマの鋭さの主要な要因であることに気付き、可視性に関して結果の限界について議論する。 私たちのコード、トレーニングされたモデル状態、損失ランドスケープの可視化が公開されています。

The correlation between the sharpness of loss minima and generalisation in the context of deep neural networks has been subject to discussion for a long time. Whilst mostly investigated in the context of selected benchmark data sets in the area of computer vision, we explore this aspect for the acoustic scene classification task of the DCASE2020 challenge data. Our analysis is based on two-dimensional filter-normalised visualisations and a derived sharpness measure. Our exploratory analysis shows that sharper minima tend to show better generalisation than flat minima -even more so for out-of-domain data, recorded from previously unseen devices-, thus adding to the dispute about better generalisation capabilities of flat minima. We further find that, in particular, the choice of optimisers is a main driver of the sharpness of minima and we discuss resulting limitations with respect to comparability. Our code, trained model states and loss landscape visualisations are publicly available.
翻訳日:2024-01-18 01:37:38 公開日:2024-01-15
# AMPLIFY:Attention-based Mixup for Performance Improvement and Label Smoothing in Transformer

AMPLIFY:Attention-based Mixup for Performance Improvement and Label Smoothing in Transformer ( http://arxiv.org/abs/2309.12689v2 )

ライセンス: Link先を確認
Leixin Yang, Yu Xiang(参考訳) mixupは、異なるオリジナルサンプルの線形結合を集約することで、新しい拡張サンプルを生成する効果的なデータ拡張手法である。 しかし、元のサンプルにノイズや異常な特徴がある場合、Mixupはそれらを拡張されたサンプルに伝達し、モデルがこれらの外れ値に過敏になる可能性がある。 そこで本稿では, amplify と呼ばれる新しいミックスアップ手法を提案する。 本手法は, 変圧器自体の注意機構を用いて, 学習可能なパラメータを増加させることなく, 予測結果に対する原試料のノイズや異常値の影響を低減し, 計算コストが極めて低く, 文混合などの一般的な混合手法における資源消費の問題を回避できる。 実験の結果, AMPLIFYは, 計算資源のコストが小さく, 7つのベンチマークデータセット上でのテキスト分類タスクにおいて他のmixupメソッドよりも優れており, BERT, ALBERT, RoBERTa, GPTなどのアテンション機構に基づく事前学習モデルの性能向上のための新しいアイデアと新しい方法が得られた。 私たちのコードはhttps://github.com/kiwi-lilo/amplifyで取得できます。

Mixup is an effective data augmentation method that generates new augmented samples by aggregating linear combinations of different original samples. However, if there are noises or aberrant features in the original samples, Mixup may propagate them to the augmented samples, leading to over-sensitivity of the model to these outliers . To solve this problem, this paper proposes a new Mixup method called AMPLIFY. This method uses the Attention mechanism of Transformer itself to reduce the influence of noises and aberrant values in the original samples on the prediction results, without increasing additional trainable parameters, and the computational cost is very low, thereby avoiding the problem of high resource consumption in common Mixup methods such as Sentence Mixup . The experimental results show that, under a smaller computational resource cost, AMPLIFY outperforms other Mixup methods in text classification tasks on 7 benchmark datasets, providing new ideas and new ways to further improve the performance of pre-trained models based on the Attention mechanism, such as BERT, ALBERT, RoBERTa, and GPT. Our code can be obtained at https://github.com/kiwi-lilo/AMPLIFY.
翻訳日:2024-01-18 01:36:23 公開日:2024-01-15
# QAL-BP: ビンパッキングのための拡張ラグランジアン量子アプローチ

QAL-BP: An Augmented Lagrangian Quantum Approach for Bin Packing ( http://arxiv.org/abs/2309.12678v2 )

ライセンス: Link先を確認
Lorenzo Cellini, Antonio Macaluso, Michele Lombardi(参考訳) ビンパッキングは人工知能の分野でよく知られたNP-Hard問題であり、効率的なソリューションを見つける上で大きな課題となっている。 逆に、量子技術における最近の進歩は、特に組合せ最適化のような特定の問題クラスにおいて、計算の大幅な高速化を達成する可能性を示している。 本研究では, ビンパッキングに特化して設計され, 量子計算に適した新奇な非拘束バイナリ最適化(QUBO)の定式化であるQAL-BPを紹介する。 qal-bpは拡張ラグランジアン法を用いて、ビンパッキング制約を目的関数に組み込むと同時に、ヒューリスティックだが経験的にロバストなペナルティ乗算器の分析的推定も行う。 このアプローチはより汎用的で一般化可能なモデルとなり、類似した問題に対する代替QUBOの定式化でよく見られる、インスタンス依存ラグランジュ係数を経験的に計算する必要がなくなる。 提案手法の有効性を評価するため,実量子アニーリング装置を用いて,ビン包装インスタンスの集合について実験を行った。 さらに, シミュレーションアニーリングとグロビの2種類の古典解法から得られた結果と比較した。 実験結果は,提案手法の正確性を確認するだけでなく,より信頼性の高い量子技術が普及するにつれて,ビンパッキング問題を効果的に解くための量子計算の可能性を示すものである。

The bin packing is a well-known NP-Hard problem in the domain of artificial intelligence, posing significant challenges in finding efficient solutions. Conversely, recent advancements in quantum technologies have shown promising potential for achieving substantial computational speedup, particularly in certain problem classes, such as combinatorial optimization. In this study, we introduce QAL-BP, a novel Quadratic Unconstrained Binary Optimization (QUBO) formulation designed specifically for bin packing and suitable for quantum computation. QAL-BP utilizes the Augmented Lagrangian method to incorporate the bin packing constraints into the objective function while also facilitating an analytical estimation of heuristic, but empirically robust, penalty multipliers. This approach leads to a more versatile and generalizable model that eliminates the need for empirically calculating instance-dependent Lagrangian coefficients, a requirement commonly encountered in alternative QUBO formulations for similar problems. To assess the effectiveness of our proposed approach, we conduct experiments on a set of bin packing instances using a real Quantum Annealing device. Additionally, we compare the results with those obtained from two different classical solvers, namely simulated annealing and Gurobi. The experimental findings not only confirm the correctness of the proposed formulation but also demonstrate the potential of quantum computation in effectively solving the bin packing problem, particularly as more reliable quantum technology becomes available.
翻訳日:2024-01-18 01:35:59 公開日:2024-01-15
# 非可逆対称性を持つ安定化器符号モデル:ストレンジフラクトン、閉じ込め、非可換および非アベリア核融合規則

A stabilizer code model with non-invertible symmetries: Strange fractons, confinement, and non-commutative and non-Abelian fusion rules ( http://arxiv.org/abs/2309.10037v3 )

ライセンス: Link先を確認
Tanay Kibe, Ayan Mukhopadhyay and Pramod Padmanabhan(参考訳) 正方格子上の各辺にクォートを持つ安定化器符号モデルと非可逆プラケット演算子を導入する。 基底状態の縮退はトーリック符号と同様に位相的であり、また電気電荷と磁気電荷の対からなる通常の分解励起を持つ。 しかし、隣接する顔(欠陥)の集合からなる閉じ込められたフラクトロニック励起には、新しいタイプのフラクトロニック励起が存在する。 それらは閉じこもりを示し、これらのフラクトンのより大きな構成は、創発的な内部自由度を取得するにもかかわらず、完全に不動である。 分解励起は、これらのフラクトロニック欠陥の存在下でその性質を変化させる。 例えば、磁気モノポールはフラクタル欠陥クラスターの格子外部のどこにでも存在でき、電荷は制限された移動性を獲得する。 これはフラクトンを特徴とする我々のモデルはI型でもII型でもないことを示唆している。 さらに、対称性である局所作用素は任意の基底状態および局所摂動の下で基底状態へ崩壊する状態の完全なセクタを消滅させることができる。 これらの性質はすべて、積が結合的であるが可換でない新しいタイプの非可換および非アベル的融合圏を通じて取得することができ、零作用素の値を含む(operator)同値類の和として表すことができる。 このモデルの他の多くの変種を紹介し、量子場理論におけるそれらの関連性について議論する。

We introduce a stabilizer code model with a qutrit at every edge on a square lattice and with non-invertible plaquette operators. The degeneracy of the ground state is topological as in the toric code, and it also has the usual deconfined excitations consisting of pairs of electric and magnetic charges. However, there are novel types of confined fractonic excitations composed of a cluster of adjacent faces (defects) with vanishing flux. They manifest confinement, and even larger configurations of these fractons are fully immobile although they acquire emergent internal degrees of freedom. Deconfined excitations change their nature in presence of these fractonic defects. As for instance, a magnetic monopole can exist anywhere on the lattice exterior to a fractonic defect cluster while electric charges acquire restricted mobility. These imply that our model featuring fractons is neither of type I, nor of type II. Furthermore, local operators which are symmetries can annihilate any ground state and also the full sector of states which can decay to a ground state under local perturbations. All these properties can be captured via a novel type of non-commutative and non-Abelian fusion category in which the product is associative but does not commute, and can be expressed as a sum of (operator) equivalence classes which includes that of the zero operator. We introduce many other variants of this model and discuss their relevance in quantum field theory.
翻訳日:2024-01-18 01:34:53 公開日:2024-01-15
# 発声音声強調のための単一および少数区間の拡散

Single and Few-step Diffusion for Generative Speech Enhancement ( http://arxiv.org/abs/2309.09677v2 )

ライセンス: Link先を確認
Bunlong Lay, Jean-Marie Lemercier, Julius Richter, Timo Gerkmann(参考訳) 拡散モデルでは,雑音混合したクリーン音声の条件生成にタスク適応拡散法を用いて,音声強調の有望な結果を示した。 しかしながら、テスト時にスコア推定に使用されるニューラルネットワークは、反復逆プロセスを解くために複数回呼び出される。 これにより、推論プロセスが遅くなり、サンプリング軌道上に蓄積される離散化エラーが発生する。 本稿では,これらの制約を2段階のトレーニングアプローチで解決する。 第1段階では,生成的発声スコアマッチング損失を用いて拡散モデルを通常の方法で学習する。 第2段階では、逆過程を解くことで強化された信号を計算し、予測損失を用いて得られた推定結果をクリーン音声目標と比較する。 この第2のトレーニングステージを使用することで,60関数ではなく5関数評価のみを用いて,ベースラインモデルと同じ性能を実現することができることを示す。 関数評価数(nfes)を下げて一段階の拡散を得ると、通常の生成拡散アルゴリズムの性能は劇的に低下するが、本手法は定常的な性能を保ち、したがってその拡散ベースラインを大きく上回っており、予測値よりも一般化する。

Diffusion models have shown promising results in speech enhancement, using a task-adapted diffusion process for the conditional generation of clean speech given a noisy mixture. However, at test time, the neural network used for score estimation is called multiple times to solve the iterative reverse process. This results in a slow inference process and causes discretization errors that accumulate over the sampling trajectory. In this paper, we address these limitations through a two-stage training approach. In the first stage, we train the diffusion model the usual way using the generative denoising score matching loss. In the second stage, we compute the enhanced signal by solving the reverse process and compare the resulting estimate to the clean speech target using a predictive loss. We show that using this second training stage enables achieving the same performance as the baseline model using only 5 function evaluations instead of 60 function evaluations. While the performance of usual generative diffusion algorithms drops dramatically when lowering the number of function evaluations (NFEs) to obtain single-step diffusion, we show that our proposed method keeps a steady performance and therefore largely outperforms the diffusion baseline in this setting and also generalizes better than its predictive counterpart.
翻訳日:2024-01-18 01:34:31 公開日:2024-01-15
# ReSimAD:ソース再構成とターゲットシミュレーションによる自律走行のためのゼロショット3Dドメイン転送

ReSimAD: Zero-Shot 3D Domain Transfer for Autonomous Driving with Source Reconstruction and Target Simulation ( http://arxiv.org/abs/2309.05527v3 )

ライセンス: Link先を確認
Bo Zhang, Xinyu Cai, Jiakang Yuan, Donglin Yang, Jianfei Guo, Xiangchao Yan, Renqiu Xia, Botian Shi, Min Dou, Tao Chen, Si Liu, Junchi Yan, Yu Qiao(参考訳) センサタイプの変更や地理的状況の変化といったドメインシフトは、従来のドメイン知識に依存する広告モデルは、追加コストなしで新たなドメインに直接デプロイできないため、自律運転(autonomous driving:ad)では一般的である。 本稿では,再構成・シミュレーション・パーセプション(resimad)スキームを提案することにより,ドメインシフトを緩和する新たな視点とアプローチを提案する。 具体的には、暗黙の再構築プロセスは以前のドメインからの知識に基づいており、ドメイン関連の知識をドメイン不変表現に変換することを目的としている。 また、上記再構成された3dメッシュ上では、複数の新規ドメインのポイントクラウドシミュレーションプロセスが条件付けされ、ターゲット領域ライクなシミュレーションサンプルが得られるため、その後の知覚プロセスのための新しいドメインデータの収集と注釈付けのコストが削減される。 実験では, Waymo-to-KITTI, Waymo-to-nuScenes, Waymo-to-ONCEなど, 異なる領域の状況について検討し, ReSimADを用いたゼロショット目標領域認識の検証を行う。 その結果,本手法は,3次元事前学習を約束する領域一般化能力の向上に有効であることが示された。

Domain shifts such as sensor type changes and geographical situation variations are prevalent in Autonomous Driving (AD), which poses a challenge since AD model relying on the previous domain knowledge can be hardly directly deployed to a new domain without additional costs. In this paper, we provide a new perspective and approach of alleviating the domain shifts, by proposing a Reconstruction-Simulation-Perception (ReSimAD) scheme. Specifically, the implicit reconstruction process is based on the knowledge from the previous old domain, aiming to convert the domain-related knowledge into domain-invariant representations, e.g., 3D scene-level meshes. Besides, the point clouds simulation process of multiple new domains is conditioned on the above reconstructed 3D meshes, where the target-domain-like simulation samples can be obtained, thus reducing the cost of collecting and annotating new-domain data for the subsequent perception process. For experiments, we consider different cross-domain situations such as Waymo-to-KITTI, Waymo-to-nuScenes, Waymo-to-ONCE, etc, to verify the zero-shot target-domain perception using ReSimAD. Results demonstrate that our method is beneficial to boost the domain generalization ability, even promising for 3D pre-training.
翻訳日:2024-01-18 01:32:51 公開日:2024-01-15
# 脆弱性検出のための因果的ディープラーニング

Towards Causal Deep Learning for Vulnerability Detection ( http://arxiv.org/abs/2310.07958v5 )

ライセンス: Link先を確認
Md Mahbubur Rahman, Ira Ceka, Chengzhi Mao, Saikat Chakraborty, Baishakhi Ray, and Wei Le(参考訳) ディープラーニングの脆弱性検出は近年、有望な結果を示している。 しかし、実際に非常に有用であることを妨げる重要な課題は、モデルが摂動下では堅牢ではなく、例えば実世界の未確認プロジェクトにトレーニングされたモデルを適用するなど、アウト・オブ・ディストリビューション(OOD)データに対してうまく一般化できないことである。 これは、このモデルがラベルとの相関が高まるような非ロバスト特徴(変数名など)を学習したためだと仮定する。 perturbedとoodデータセットがもはや同じスプリアス機能を持っていない場合、モデル予測は失敗する。 本稿では,この課題に対処するため,ディープラーニングの脆弱性検出に因果性を導入した。 我々のアプローチは2つのフェーズからなる。 まず,モデルが予測に使用するスプリアスな特徴を発見するために,新しい摂動をデザインした。 第2に,既存のディープラーニングモデルに加えて,因果学習アルゴリズム,特にdo-calculusを適用し,スプリアス特徴の利用を体系的に排除し,因果に基づく予測を促進する。 その結果、CausalVulは、実験したすべての最先端モデルとデータセットに対して、モデル精度、堅牢性、OOD性能を一貫して改善した。 私たちの知る限りでは、これは計算に基づく因果学習をソフトウェア工学モデルに導入した最初の作品であり、モデル精度、堅牢性、一般化を改善するのに本当に有用であることを示している。 私たちのレプリケーションパッケージはhttps://figshare.com/s/0ffda320dcb96c249ef2にあります。

Deep learning vulnerability detection has shown promising results in recent years. However, an important challenge that still blocks it from being very useful in practice is that the model is not robust under perturbation and it cannot generalize well over the out-of-distribution (OOD) data, e.g., applying a trained model to unseen projects in real world. We hypothesize that this is because the model learned non-robust features, e.g., variable names, that have spurious correlations with labels. When the perturbed and OOD datasets no longer have the same spurious features, the model prediction fails. To address the challenge, in this paper, we introduced causality into deep learning vulnerability detection. Our approach CausalVul consists of two phases. First, we designed novel perturbations to discover spurious features that the model may use to make predictions. Second, we applied the causal learning algorithms, specifically, do-calculus, on top of existing deep learning models to systematically remove the use of spurious features and thus promote causal based prediction. Our results show that CausalVul consistently improved the model accuracy, robustness and OOD performance for all the state-of-the-art models and datasets we experimented. To the best of our knowledge, this is the first work that introduces do calculus based causal learning to software engineering models and shows it's indeed useful for improving the model accuracy, robustness and generalization. Our replication package is located at https://figshare.com/s/0ffda320dcb96c249ef2.
翻訳日:2024-01-18 01:26:12 公開日:2024-01-15
# 機械支援統計識別への介入

Interventions Against Machine-Assisted Statistical Discrimination ( http://arxiv.org/abs/2310.04585v2 )

ライセンス: Link先を確認
John Y. Zhu(参考訳) 本稿では,人間ではなく機械学習が生み出す信念に基づいて,統計的差別にどう介入するかを考察する。 人間の心によって形成された信念とは異なり、機械学習によって生成された信念は検証可能である。 これによって介入は、肯定的な行動のようなシンプルで信念のないデザインを超えて、より洗練されたデザインへと移行し、意思決定者を、彼らが考えていることに依存する方法で制約することができる。 このようなマインドリーディングの介入は、肯定的な行動が起こらない場合、たとえ条件づけられている信念が誤りで偏見があるとしても、うまく機能する。

This article studies how to intervene against statistical discrimination, when it is based on beliefs generated by machine learning, rather than by humans. Unlike beliefs formed by a human mind, machine learning-generated beliefs are verifiable. This allows interventions to move beyond simple, belief-free designs like affirmative action, to more sophisticated ones, that constrain decision makers in ways that depend on what they are thinking. Such mind reading interventions can perform well where affirmative action does not, even when the beliefs being conditioned on are possibly incorrect and biased.
翻訳日:2024-01-18 01:22:41 公開日:2024-01-15
# 局所超伝導近接効果のみを有する最小量子ドット系北エフ鎖

Minimal quantum dot based Kitaev chain with only local superconducting proximity effect ( http://arxiv.org/abs/2310.03536v2 )

ライセンス: Link先を確認
William Samuelson, Viktor Svensson, Martin Leijnse(参考訳) 超伝導体を介して結合された量子ドットでキタエフ連鎖を作る可能性は最近、トポロジカル超伝導とおそらくは非アーベル物理学への有望な道として浮上した。 ここでは、新しいj. physにおける提案の2ドット版に類似した幾何学における各量子ドットに対する局所的近接効果のみを用いることで、この経路における実験上のハードルのいくつかを回避できることを示す。 15 045020 (2013). 狭い超伝導カプラ、追加のアンドレフ結合状態、あるいは空間的に変化する磁場は不要であり、スピン軌道相互作用と一定の磁場と相まって、弾性コネネリングの相対強度を調整するための超伝導相の制御と、高次トンネルによって生成される効果的なクロス・アンドレフ反射のようなプロセスとの組み合わせである。 我々は、現実的なスピンフル相互作用モデルを用いて、高品質のマヨラナ境界状態が既に二重量子ドットで生成可能であることを示す。

The possibility to engineer a Kitaev chain in quantum dots coupled via superconductors has recently emerged as a promising path toward topological superconductivity and possibly nonabelian physics. Here, we show that it is possible to avoid some of the main experimental hurdles on this path by using only local proximity effect on each quantum dot in a geometry that resembles a two-dot version of the proposal in New J. Phys. 15 045020 (2013). There is no need for narrow superconducting couplers, additional Andreev bound states, or spatially varying magnetic fields; it suffices with spin-orbit interaction and a constant magnetic field, in combination with control of the superconducting phase to tune the relative strengths of elastic cotunneling and an effective crossed-Andreev-reflection-like process generated by higher-order tunneling. We use a realistic spinful, interacting model and show that high-quality Majorana bound states can be generated already in a double quantum dot.
翻訳日:2024-01-18 01:22:17 公開日:2024-01-15
# 効率的な画像超解像のための多層分岐ネットワーク

Multi-Depth Branch Network for Efficient Image Super-Resolution ( http://arxiv.org/abs/2309.17334v2 )

ライセンス: Link先を確認
Huiyuan Tian, Li Zhang, Shijian Li, Min Yao, Gang Pan(参考訳) 超解法(SR)における長年の課題は、意味的コヒーレンスを維持しながら、低解法(LR)画像の高周波詳細を効率的に向上する方法である。 これは、SRモデルが低消費電力デバイスにしばしばデプロイされる実用的なアプリケーションにおいて特に重要である。 本稿では,MDBM(Multi-Depth Branch Module)を特徴とする非対称SRアーキテクチャを提案する。 これらのMDBMは、高頻度と低周波の情報を同時に、効率的に捉えるように設計されている。 MDBMの階層構造により、より深い枝は、より浅い枝の文脈的ガイダンスの下で、より微細な局所的な詳細を徐々に蓄積することができる。 この過程を特徴地図を用いて可視化し, 提案するフーリエスペクトル解析法を用いて, 設計の合理性と有効性を示す。 さらに,本モデルでは,既存の分岐ネットワークよりも,分岐間のスペクトル差が顕著である。 これはMDBMが特徴冗長性を低減し、高周波数情報と低周波情報を統合するためのより効果的な方法を提供することを示唆している。 各種データセットの定性的・定量的評価により, 構造的に一貫性があり, 視覚的にもリアルなHR画像を生成することができることを示す。 最先端(SOTA)の結果を高速な推論速度で達成する。 私たちのコードはhttps://github.com/thy960112/mdbnで利用可能です。

A longstanding challenge in Super-Resolution (SR) is how to efficiently enhance high-frequency details in Low-Resolution (LR) images while maintaining semantic coherence. This is particularly crucial in practical applications where SR models are often deployed on low-power devices. To address this issue, we propose an innovative asymmetric SR architecture featuring Multi-Depth Branch Module (MDBM). These MDBMs contain branches of different depths, designed to capture high- and low-frequency information simultaneously and efficiently. The hierarchical structure of MDBM allows the deeper branch to gradually accumulate fine-grained local details under the contextual guidance of the shallower branch. We visualize this process using feature maps, and further demonstrate the rationality and effectiveness of this design using proposed novel Fourier spectral analysis methods. Moreover, our model exhibits more significant spectral differentiation between branches than existing branch networks. This suggests that MDBM reduces feature redundancy and offers a more effective method for integrating high- and low-frequency information. Extensive qualitative and quantitative evaluations on various datasets show that our model can generate structurally consistent and visually realistic HR images. It achieves state-of-the-art (SOTA) results at a very fast inference speed. Our code is available at https://github.com/thy960112/MDBN.
翻訳日:2024-01-18 01:21:24 公開日:2024-01-15
# 自動データ表現変換を意識した特徴相互作用

Feature Interaction Aware Automated Data Representation Transformation ( http://arxiv.org/abs/2309.17011v2 )

ライセンス: Link先を確認
Ehtesamul Azim, Dongjie Wang, Kunpeng Liu, Wei Zhang, Yanjie Fu(参考訳) 効果的な表現空間を作ることは、次元の呪いを緩和し、モデルの一般化を促進し、データの疎さに対処し、古典モデルをより効果的に活用するために重要である。 自動特徴工学(AutoFE)の最近の進歩は、表現学習に関連する様々な課題、集中労働や経験的経験への重度依存、説明可能な明示性の欠如、下流タスクに埋め込まれた柔軟な特徴空間再構築といった課題に対処する上で大きな進歩を遂げている。 しかし、これらのアプローチは以下のように制限されている。 1) 専門家レベルの認知過程の無視から生じる、潜在的に不可知で非論理的な特徴空間の生成 2) 系統探索の欠如により, モデル収束が遅くなり, 最適特徴空間の同定が可能となった。 これらの問題に対処するために,対話対応型強化生成の視点を導入する。 特徴空間の再構築を,意味のある特徴を作成し,選択によって特徴集合のサイズを制御するネスト化プロセスとして再定義する。 特徴選択や操作選択の自動化や特徴横断の自動化を目的として,マルコフ決定過程をカスケードした階層的強化学習構造を開発した。 統計的尺度を組み込むことにより,選択した特徴間の相互作用強度に基づいてエージェントを報酬し,人間の意思決定をエミュレートする特徴空間をインテリジェントかつ効率的に探索する。 提案手法を検証するために広範な実験を行った。

Creating an effective representation space is crucial for mitigating the curse of dimensionality, enhancing model generalization, addressing data sparsity, and leveraging classical models more effectively. Recent advancements in automated feature engineering (AutoFE) have made significant progress in addressing various challenges associated with representation learning, issues such as heavy reliance on intensive labor and empirical experiences, lack of explainable explicitness, and inflexible feature space reconstruction embedded into downstream tasks. However, these approaches are constrained by: 1) generation of potentially unintelligible and illogical reconstructed feature spaces, stemming from the neglect of expert-level cognitive processes; 2) lack of systematic exploration, which subsequently results in slower model convergence for identification of optimal feature space. To address these, we introduce an interaction-aware reinforced generation perspective. We redefine feature space reconstruction as a nested process of creating meaningful features and controlling feature set size through selection. We develop a hierarchical reinforcement learning structure with cascading Markov Decision Processes to automate feature and operation selection, as well as feature crossing. By incorporating statistical measures, we reward agents based on the interaction strength between selected features, resulting in intelligent and efficient exploration of the feature space that emulates human decision-making. Extensive experiments are conducted to validate our proposed approach.
翻訳日:2024-01-18 01:20:40 公開日:2024-01-15
# 一般化可能なインスタンスワイズ不変性のための変換学習

Learning to Transform for Generalizable Instance-wise Invariance ( http://arxiv.org/abs/2309.16672v2 )

ライセンス: Link先を確認
Utkarsh Singhal and Carlos Esteves and Ameesh Makadia and Stella X. Yu(参考訳) コンピュータビジョン研究は長い間、自然データに見られる空間変換に頑健なシステムの構築を目指してきた。 伝統的に、これはアーキテクチャへのデータ拡張やハードコーディングの不変性を使って行われる。 しかし、多すぎる、あるいは少なすぎる不変性が損なわれ、正確な量は未定であり、インスタンスに依存している。 理想的には、適切な不変性はデータから学び、テスト時に推測される。 我々は不変性を予測問題として扱う。 どんな画像でも、正規化フローを使って変換の分布を予測し、それに対する予測を平均化します。 この分布はインスタンスのみに依存するため、それらを分類する前にインスタンスをアライメントし、クラス間の不変性を一般化することができる。 同じ分布は、分配外ポーズに適応するためにも使用できる。 この正規化フローはエンドツーエンドでトレーニングされており、AugerinoやInstaAugよりもはるかに広い範囲の変換を学ぶことができる。 データ拡張として使用すると、cifar 10、cifar10-lt、tinyimagenetで精度とロバスト性が向上する。

Computer vision research has long aimed to build systems that are robust to spatial transformations found in natural data. Traditionally, this is done using data augmentation or hard-coding invariances into the architecture. However, too much or too little invariance can hurt, and the correct amount is unknown a priori and dependent on the instance. Ideally, the appropriate invariance would be learned from data and inferred at test-time. We treat invariance as a prediction problem. Given any image, we use a normalizing flow to predict a distribution over transformations and average the predictions over them. Since this distribution only depends on the instance, we can align instances before classifying them and generalize invariance across classes. The same distribution can also be used to adapt to out-of-distribution poses. This normalizing flow is trained end-to-end and can learn a much larger range of transformations than Augerino and InstaAug. When used as data augmentation, our method shows accuracy and robustness gains on CIFAR 10, CIFAR10-LT, and TinyImageNet.
翻訳日:2024-01-18 01:20:17 公開日:2024-01-15
# 分子のマスクグラフモデリングにおけるトケナイザとデコーダの再考

Rethinking Tokenizer and Decoder in Masked Graph Modeling for Molecules ( http://arxiv.org/abs/2310.14753v2 )

ライセンス: Link先を確認
Zhiyuan Liu, Yaorui Shi, An Zhang, Enzhi Zhang, Kenji Kawaguchi, Xiang Wang, Tat-Seng Chua(参考訳) マスクグラフモデリングは、分子グラフの自己教師あり表現学習において優れている。 従来の研究では,(1) 分子グラフを小さな断片(サブグラフ)に分解してトークンに変換するグラフトークンライザ,(2) マスクでグラフを破損させるグラフマスキング,(3) マスクグラフにエンコーダを塗布して表現を生成するグラフオートエンコーダ, そして, その表現にデコーダを用いて, 元のグラフのトークンを復元する。 しかし、以前のmgmの研究はグラフマスキングとエンコーダに焦点を当てているが、トークン化とデコーダの理解は限られている。 このギャップを埋めるために、我々はまず、ノード、エッジ、モチーフ、グラフニューラルネットワーク(GNN)の粒度で一般的な分子トークン化装置を要約し、その役割をMGMの再構築ターゲットとして検討した。 さらに,MGMに表現型デコーダを採用する可能性についても検討する。 この結果から, サブグラフレベルのトークン化器とremask復号化デコーダがエンコーダの表現学習に大きな影響を与えることがわかった。 最後に,単純なGNNベースのTokenizer(SGT)と効果的な復号化戦略を備えた,新しいMGM手法SimSGTを提案する。 本手法が既存の分子自己教師学習法より優れていることを実証的に検証した。 私たちのコードとチェックポイントはhttps://github.com/syr-cn/simsgtで利用可能です。

Masked graph modeling excels in the self-supervised representation learning of molecular graphs. Scrutinizing previous studies, we can reveal a common scheme consisting of three key components: (1) graph tokenizer, which breaks a molecular graph into smaller fragments (i.e., subgraphs) and converts them into tokens; (2) graph masking, which corrupts the graph with masks; (3) graph autoencoder, which first applies an encoder on the masked graph to generate the representations, and then employs a decoder on the representations to recover the tokens of the original graph. However, the previous MGM studies focus extensively on graph masking and encoder, while there is limited understanding of tokenizer and decoder. To bridge the gap, we first summarize popular molecule tokenizers at the granularity of node, edge, motif, and Graph Neural Networks (GNNs), and then examine their roles as the MGM's reconstruction targets. Further, we explore the potential of adopting an expressive decoder in MGM. Our results show that a subgraph-level tokenizer and a sufficiently expressive decoder with remask decoding have a large impact on the encoder's representation learning. Finally, we propose a novel MGM method SimSGT, featuring a Simple GNN-based Tokenizer (SGT) and an effective decoding strategy. We empirically validate that our method outperforms the existing molecule self-supervised learning methods. Our codes and checkpoints are available at https://github.com/syr-cn/SimSGT.
翻訳日:2024-01-18 01:12:57 公開日:2024-01-15
# MolCA: クロスモーダルプロジェクタとユニモーダルアダプタを用いた分子グラフ言語モデリング

MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter ( http://arxiv.org/abs/2310.12798v3 )

ライセンス: Link先を確認
Zhiyuan Liu, Sihang Li, Yanchen Luo, Hao Fei, Yixin Cao, Kenji Kawaguchi, Xiang Wang, Tat-Seng Chua(参考訳) 言語モデル(LM)は、様々な1Dテキスト関連タスクにおいて、印象的な分子理解能力を示す。 しかし、それらは本質的に2dグラフ知覚を欠いている - 分子のトポロジー構造を理解するための人間専門家の批判的な能力である。 このギャップを埋めるために,MolCA: クロスモーダルプロジェクタとユニモーダルアダプタを用いた分子グラフ言語モデリングを提案する。 MolCAは、LM(例えばGalactica)が、クロスモーダルプロジェクターを介してテキストおよびグラフベースの分子内容を理解することを可能にする。 具体的には、クロスモーダルプロジェクタをQ-Formerとして実装し、グラフエンコーダの表現空間とLMのテキスト空間を接続する。 さらに molca は lm の下流タスクへの効率的な適応のために uni-modal adapter (すなわち lora) を採用している。 クロスモーダルなコントラスト学習によってlmとグラフエンコーダを結合する以前の研究とは異なり、molcaはlmのオープンエンドテキスト生成能力を保ち、2dグラフ情報で拡張する。 提案手法の有効性を示すため,分子キャプション,IUPAC名予測,分子テキスト検索のタスクにおいてMomolCAを広範囲にベンチマークした。 私たちのコードとチェックポイントはhttps://github.com/acharkq/MolCA.orgで確認できます。

Language Models (LMs) have demonstrated impressive molecule understanding ability on various 1D text-related tasks. However, they inherently lack 2D graph perception - a critical ability of human professionals in comprehending molecules' topological structures. To bridge this gap, we propose MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter. MolCA enables an LM (e.g., Galactica) to understand both text- and graph-based molecular contents via the cross-modal projector. Specifically, the cross-modal projector is implemented as a Q-Former to connect a graph encoder's representation space and an LM's text space. Further, MolCA employs a uni-modal adapter (i.e., LoRA) for the LM's efficient adaptation to downstream tasks. Unlike previous studies that couple an LM with a graph encoder via cross-modal contrastive learning, MolCA retains the LM's ability of open-ended text generation and augments it with 2D graph information. To showcase its effectiveness, we extensively benchmark MolCA on tasks of molecule captioning, IUPAC name prediction, and molecule-text retrieval, on which MolCA significantly outperforms the baselines. Our codes and checkpoints can be found at https://github.com/acharkq/MolCA.
翻訳日:2024-01-18 01:12:04 公開日:2024-01-15
# MDPにおけるLTLとOmega-regular ObjectiveのPAC学習アルゴリズム

A PAC Learning Algorithm for LTL and Omega-regular Objectives in MDPs ( http://arxiv.org/abs/2310.12248v2 )

ライセンス: Link先を確認
Mateo Perez, Fabio Somenzi, Ashutosh Trivedi(参考訳) リニア時間論理(LTL)とオメガ規則目的(LTLのスーパーセット)は、近年、強化学習における非マルコフ的目的を表現する手段として使われている。 マルコフ決定過程(MDPs)におけるオメガ正則目的に対するモデルベース近似ほぼ正のPAC学習アルゴリズムを提案する。 提案アルゴリズムの開発の一環として,エプシロン再帰時間(Epsilon-recurrence time)を導入し,その限界におけるオメガ正則目標の満足度にポリシーが収束する速度を測る。 我々は,アルゴリズムが関連するパラメータの多項式数のみを必要とすることを証明し,我々の理論を裏付ける実験を行う。

Linear temporal logic (LTL) and omega-regular objectives -- a superset of LTL -- have seen recent use as a way to express non-Markovian objectives in reinforcement learning. We introduce a model-based probably approximately correct (PAC) learning algorithm for omega-regular objectives in Markov decision processes (MDPs). As part of the development of our algorithm, we introduce the epsilon-recurrence time: a measure of the speed at which a policy converges to the satisfaction of the omega-regular objective in the limit. We prove that our algorithm only requires a polynomial number of samples in the relevant parameters, and perform experiments which confirm our theory.
翻訳日:2024-01-18 01:11:02 公開日:2024-01-15
# ゼロショット大言語モデルからテキストベースの知識グラフ補完に相応しいか?

Can Text-based Knowledge Graph Completion Benefit From Zero-Shot Large Language Models? ( http://arxiv.org/abs/2310.08279v2 )

ライセンス: Link先を確認
Rui Yang, Li Fang, Yi Zhou(参考訳) テキストベースの知識グラフ補完(KGC)手法は、テキストエンティティ記述を活用する。 これらのモデルの有効性は、テキストデータの品質にかかっている。 本研究は,テキスト記述の充実がモデル性能を増幅するかどうかを考察する。 近年、Large Language Models (LLMs) は、その洗練されたテキスト生成と会話機能により、NLPタスクが大幅に改善されている。 LLMは言語パターンを同化し、トレーニングデータから知識を統合する。 wikipediaのような従来のデータベースと比較すると、llmにはいくつかの利点があり、幅広い情報クエリとコンテンツ拡張が容易である。 LLMは微調整なしで、エンティティ記述を洗練し、補助的な知識源として機能する、という仮説を立てる。 この仮説を検証するために詳細な分析を行った。 1)微調整なしで、LCMはエンティティのテキスト記述の質をさらに向上する能力を持つことがわかった。 fb15k-237とwn18rrデータセットを用いて検証を行った。 2) LLMはテキスト生成の幻覚問題を示し,複数の意味を持つ単語を選択的に出力する。 これは、LLM出力を制約するプロンプトの文脈化によって緩和された。 (3) より大きなモデルのサイズは必ずしもより良い性能を保証するとは限らない。 これらの知見は、テキストベースのKGCにおける大きなモデルの未解決の可能性を強調し、KGCにおけるさらなる研究の有望な方向である。 コードとデータセットは \href{https://github.com/sjlmg/CP-KGC} でアクセスできる。

Text-based knowledge graph completion (KGC) methods, leveraging textual entity descriptions are at the research forefront. The efficacy of these models hinges on the quality of the textual data. This study explores whether enriched or more efficient textual descriptions can amplify model performance. Recently, Large Language Models (LLMs) have shown remarkable improvements in NLP tasks, attributed to their sophisticated text generation and conversational capabilities. LLMs assimilate linguistic patterns and integrate knowledge from their training data. Compared to traditional databases like Wikipedia, LLMs provide several advantages, facilitating broader information querying and content augmentation. We hypothesize that LLMs, without fine-tuning, can refine entity descriptions, serving as an auxiliary knowledge source. An in-depth analysis was conducted to verify this hypothesis. We found that (1) without fine-tuning, LLMs have the capability to further improve the quality of entity text descriptions. We validated this through experiments on the FB15K-237 and WN18RR datasets. (2) LLMs exhibit text generation hallucination issues and selectively output words with multiple meanings. This was mitigated by contextualizing prompts to constrain LLM outputs. (3) Larger model sizes do not necessarily guarantee better performance; even the 7B model can achieve optimized results in this comparative task. These findings underscore the untapped potential of large models in text-based KGC, which is a promising direction for further research in KGC. The code and datasets are accessible at \href{https://github.com/sjlmg/CP-KGC}.
翻訳日:2024-01-18 01:09:16 公開日:2024-01-15
# LLMは人間の反応バイアスを示すか? 調査設計における事例研究

Do LLMs exhibit human-like response biases? A case study in survey design ( http://arxiv.org/abs/2311.04076v3 )

ライセンス: Link先を確認
Lindia Tjuatja, Valerie Chen, Sherry Tongshuang Wu, Ameet Talwalkar, Graham Neubig(参考訳) 大規模言語モデル(LLM)の能力が向上するにつれて、調査や世論調査などの主観的ラベルが望まれる現実世界のタスクにおいて、LLMを人間のためのプロキシとして使用する可能性への興奮が高まっている。 しかし興味深いことに、人間は反応バイアスの形での変化を指示する感度も示しています。 したがって、LLMが人間の意見の近似に使用されるのであれば、LLMが人間の反応バイアスを反映する程度を調査する必要があると論じる。 本研究では,「プロンプット」の語句の置換による人間の反応バイアスが広範に研究されている事例研究として,サーベイデザインを用いた。 社会心理学における先行研究から,我々はデータセットを設計し,LLMが人間的な反応バイアスを示すかどうかを評価する枠組みを提案する。 9つのモデルの包括的評価からは,一般的なオープンおよび商用のllmは,一般的に人間的な行動を反映していないことが分かる。 これらの矛盾は、微調整されたモデルでは顕著である。 さらに,モデルがヒトと同じ方向において有意な変化を示す場合でも,ヒトの有意な変化を誘発しない摂動も同様の変化をもたらす可能性があることを見出した。 これらの結果は、アノテーションパイプラインの一部で人間を置換するためにLLMを使うことの潜在的な落とし穴を強調し、さらにモデル行動のよりきめ細かい特徴付けの重要性を強調している。 私たちのコード、データセット、収集したサンプルはhttps://github.com/lindiatjuatja/biasmonkeyで入手できます。

As large language models (LLMs) become more capable, there is growing excitement about the possibility of using LLMs as proxies for humans in real-world tasks where subjective labels are desired, such as in surveys and opinion polling. One widely-cited barrier to the adoption of LLMs is their sensitivity to prompt wording - but interestingly, humans also display sensitivities to instruction changes in the form of response biases. As such, we argue that if LLMs are going to be used to approximate human opinions, it is necessary to investigate the extent to which LLMs also reflect human response biases, if at all. In this work, we use survey design as a case study, where human response biases caused by permutations in wordings of "prompts" have been extensively studied. Drawing from prior work in social psychology, we design a dataset and propose a framework to evaluate whether LLMs exhibit human-like response biases in survey questionnaires. Our comprehensive evaluation of nine models shows that popular open and commercial LLMs generally fail to reflect human-like behavior. These inconsistencies tend to be more prominent in models that have been instruction fine-tuned. Furthermore, even if a model shows a significant change in the same direction as humans, we find that perturbations that are not meant to elicit significant changes in humans may also result in a similar change. These results highlight the potential pitfalls of using LLMs to substitute humans in parts of the annotation pipeline, and further underscore the importance of finer-grained characterizations of model behavior. Our code, dataset, and collected samples are available at https://github.com/lindiatjuatja/BiasMonkey
翻訳日:2024-01-18 01:02:20 公開日:2024-01-15
# SoundCam: 室内音響を使って人間を見つけるためのデータセット

SoundCam: A Dataset for Finding Humans Using Room Acoustics ( http://arxiv.org/abs/2311.03517v2 )

ライセンス: Link先を確認
Mason Wang, Samuel Clarke, Jui-Hsien Wang, Ruohan Gao, Jiajun Wu(参考訳) 部屋の音響特性は、部屋の形状、部屋内の物体、そして部屋の特定の位置の産物である。 部屋の音響特性は、音源とリスナー位置の間のインパルス応答(RIR)によって特徴づけられるか、部屋に存在する自然信号の記録から大まかに推測される。 室内の物体の位置の変化は、RIRによって特徴づけられるように、部屋の音響特性の計測可能な変化を引き起こす。 既存のRIRのデータセットは、環境内のオブジェクトの位置を体系的に変更しないか、あるいはシミュレーションされたRIRのみで構成されている。 SoundCamは、Wildの部屋から公開されたユニークなRIRのデータセットとして最大です。 これには、室内のインパルス応答の10チャンネルの実世界計測と、コントロールされた音響実験室、部屋内リビングルーム、会議室を含む3つの部屋における2000の10チャンネルの音楽記録が含まれる。 これらの測定は、人間の検出や識別、位置の追跡など、興味深いタスクに利用できることを示す。

A room's acoustic properties are a product of the room's geometry, the objects within the room, and their specific positions. A room's acoustic properties can be characterized by its impulse response (RIR) between a source and listener location, or roughly inferred from recordings of natural signals present in the room. Variations in the positions of objects in a room can effect measurable changes in the room's acoustic properties, as characterized by the RIR. Existing datasets of RIRs either do not systematically vary positions of objects in an environment, or they consist of only simulated RIRs. We present SoundCam, the largest dataset of unique RIRs from in-the-wild rooms publicly released to date. It includes 5,000 10-channel real-world measurements of room impulse responses and 2,000 10-channel recordings of music in three different rooms, including a controlled acoustic lab, an in-the-wild living room, and a conference room, with different humans in positions throughout each room. We show that these measurements can be used for interesting tasks, such as detecting and identifying humans, and tracking their positions.
翻訳日:2024-01-18 01:01:19 公開日:2024-01-15
# 生成型マルチレゾリューションピラミッドと正常条件付き3d布ドローピング

A Generative Multi-Resolution Pyramid and Normal-Conditioning 3D Cloth Draping ( http://arxiv.org/abs/2311.02700v2 )

ライセンス: Link先を確認
Hunor Laczk\'o, Meysam Madadi, Sergio Escalera, Jordi Gonzalez(参考訳) 関連文献ではRGB布の生成が深く研究されているが、3D衣料生成は未解決の問題である。 本稿では,3次元衣服生成とドローイングのための条件付き変分オートエンコーダを構築する。 本研究では,正準空間において衣服の詳細を段階的に付加するピラミッドネットワークを提案する。 本研究では3次元座標よりも容易に最適化できる中間表現として,通常のUVマップ上でのネットワークの条件付けについて検討する。 CLOTH3D と CAPE の2つの公開データセットによる結果から,我々のモデルは高解像度ピラミッドによる細部生成の観点から頑健で制御可能であること,また,少ないデータでトレーニングしても,目立たない衣服やポーズ,形状に高度に一般化できる最先端の結果が得られた。

RGB cloth generation has been deeply studied in the related literature, however, 3D garment generation remains an open problem. In this paper, we build a conditional variational autoencoder for 3D garment generation and draping. We propose a pyramid network to add garment details progressively in a canonical space, i.e. unposing and unshaping the garments w.r.t. the body. We study conditioning the network on surface normal UV maps, as an intermediate representation, which is an easier problem to optimize than 3D coordinates. Our results on two public datasets, CLOTH3D and CAPE, show that our model is robust, controllable in terms of detail generation by the use of multi-resolution pyramids, and achieves state-of-the-art results that can highly generalize to unseen garments, poses, and shapes even when training with small amounts of data.
翻訳日:2024-01-18 00:58:51 公開日:2024-01-15
# IMMP++:パラメトリック曲線モデルを用いた等尺運動マニフォールドプリミティブ

IMMP++: Isometric Motion Manifold Primitives with Parametric Curve Models ( http://arxiv.org/abs/2310.17072v2 )

ライセンス: Link先を確認
Yonghyeon Lee(参考訳) 運動多様体プリミティブ(mmp)は、与えられたタスクに対して、軌道データにおける高次元の課題に対処して、それぞれがうまくタスクを完了できる軌道の連続多様体を生成する。 しかし、既存のMMP法で使われる離散時間軌道表現は、パラメトリック曲線表現を用いる他の方法に見られる運動プリミティブの重要な機能(時間変調、透視変調など)を欠いている。 これらの制約に対処するために,MMP の利点と従来の手法を組み合わせた Motion Manifold Primitives++ (MMP++) を導入し,MMP フレームワークをパラメトリック曲線表現に適用する。 しかし,mmp++の性能は,潜伏空間の幾何学的歪みにより著しく低下する可能性があることが観察された。 この問題を軽減するため,我々は,可換座標空間が多様体の幾何学を保存する等尺運動多様体プリミティブs++ (immp++) を提案する。 2-DoF平面運動と7-DoFロボットアームタスクによる実験結果は、MMP++とIMMP++がパラメトリック曲線表現の利点を維持しつつ、既存の手法よりも優れていることを示す。

The Motion Manifold Primitive (MMP) produces, for a given task, a continuous manifold of trajectories, each of which can successfully complete the task, addressing the challenge of high dimensionality in trajectory data. However, the discrete-time trajectory representations used in existing MMP methods lack important functionalities of movement primitives (e.g., temporal modulation, via-points modulation, etc.) found in other conventional methods that employ parametric curve representations. To address these limitations, we introduce Motion Manifold Primitives++ (MMP++), which combines the advantages of the MMP and conventional methods by applying the MMP framework to the parametric curve representations. However, we observe that the performance of MMP++ can sometimes degrade significantly due to geometric distortion in the latent space -- by distortion, we mean that similar motions are not located nearby in the latent space. To mitigate this issue, we propose Isometric Motion Manifold Primitives++ (IMMP++), where the latent coordinate space preserves the geometry of the manifold. Experimental results with 2-DoF planar motions and 7-DoF robot arm tasks demonstrate that MMP++ and IMMP++ outperform existing methods, in some cases by a significant margin, while maintaining the advantages of parametric curve representations.
翻訳日:2024-01-18 00:56:34 公開日:2024-01-15
# 赤外線小ターゲット検出用変圧器を用いた高密度ネスト注意ネットワークの改良

Improved Dense Nested Attention Network Based on Transformer for Infrared Small Target Detection ( http://arxiv.org/abs/2311.08747v2 )

ライセンス: Link先を確認
Chun Bao, Jie Cao, Yaqian Ning, Tianhua Zhao, Zhijun Li, Zechen Wang, Li Zhang, and Qun Hao(参考訳) ディープラーニングに基づく赤外線小目標検出は、小目標を複雑でダイナミックな背景から分離するユニークな利点を提供する。 しかし、畳み込みニューラルネットワーク(CNN)の深さが増加するにつれて、赤外線小ターゲットの特徴は徐々に弱まる。 そこで本研究では,このトランスフォーマアーキテクチャに基づく高密度ネストアテンションネットワーク (IDNANet) と呼ばれる赤外線小ターゲット検出手法を提案する。 我々は,高密度ネステッドアテンションネットワーク(DNANet)の高密度ネスト構造を保持し,特徴抽出段階においてスウィン変換器を導入し,特徴の連続性を高める。 さらに,acmixアテンション構造を密集したネスト構造に統合し,中間層の特徴を高める。 さらに,重み付きダイス二元クロスエントロピー(wd-bce)損失関数の設計を行い,試料中の前後不均衡の負の影響を緩和した。 さらに、BIT-SIRSTと呼ばれる、赤外線小ターゲット専用のデータセットを開発する。 データセットには、大量の現実世界のターゲットと手動で注釈付けされたラベル、合成データと対応するラベルが含まれている。 提案手法の有効性を,公開データセットを用いた実験により評価した。 他の最先端手法と比較して、我々の手法は検出の確率(P_d$)、偽アラームレート(F_a$)、および結合の平均交わり(mIoU$)において優れています。 mIoU$ は NUDT-SIRST データセットで 90.89 %、SIRST データセットで 79.72 % に達する。

Infrared small target detection based on deep learning offers unique advantages in separating small targets from complex and dynamic backgrounds. However, the features of infrared small targets gradually weaken as the depth of convolutional neural network (CNN) increases. To address this issue, we propose a novel method for detecting infrared small targets called improved dense nested attention network (IDNANet), which is based on the transformer architecture. We preserve the dense nested structure of dense nested attention network (DNANet) and introduce the Swin-transformer during feature extraction stage to enhance the continuity of features. Furthermore, we integrate the ACmix attention structure into the dense nested structure to enhance the features of intermediate layers. Additionally, we design a weighted dice binary cross-entropy (WD-BCE) loss function to mitigate the negative impact of foreground-background imbalance in the samples. Moreover, we develop a dataset specifically for infrared small targets, called BIT-SIRST. The dataset comprises a significant amount of real-world targets and manually annotated labels, as well as synthetic data and corresponding labels. We have evaluated the effectiveness of our method through experiments conducted on public datasets. In comparison to other state-of-the-art methods, our approach outperforms in terms of probability of detection ($P_d$), false-alarm rate ($F_a$), and mean intersection of union ($mIoU$). The $mIoU$ reaches 90.89\% on the NUDT-SIRST dataset and 79.72\% on the SIRST dataset.
翻訳日:2024-01-18 00:47:44 公開日:2024-01-15
# エッジにおけるネットワーク効率のためのディープラーニングアーキテクチャ

Deep Learning Architecture for Network-Efficiency at the Edge ( http://arxiv.org/abs/2311.05739v3 )

ライセンス: Link先を確認
Akrit Mudvari, Antero Vainio, Iason Ofeidis, Sasu Tarkoma, Leandros Tassiulas(参考訳) モバイルデバイスでのai駆動アプリケーションの増加は、ディープラーニングモデルを利用可能なエッジクラウドリソースと統合するソリューションにつながった。デバイス上のエネルギー消費量の削減、レイテンシの改善、ネットワーク使用の改善、プライバシの改善など、複数のメリットがあるため、ディープラーニングモデルをモバイルデバイスから分割して分散計算する、スプリットラーニングが広く検討されている。 学習が通信データの圧縮に適応する圧縮認識手法と組み合わせることで、このアプローチの利点はさらに改善され、フェデレーション学習法のような確立されたアプローチの代替となる可能性がある。 本研究では,ネットワーク効率(ネットワークリソースの削減と高速化)が向上し,エッジクラウドリソースの活用により,より弱いデバイスへのデプロイが理想的になるように,ディープラーニングモデルの改善とトレーニングを行うための適応型圧縮認識分割学習手法(deprune)を開発した。 この手法は('prune')、トランスファー学習アプローチを通じて、よりネットワーク効率のよい推論能力とはほとんど精度を切り替えることなく、非常に迅速にディープラーニングモデルをトレーニングするためにも拡張されます。 提案手法は, 精度を損なうことなく, 分割学習手法と比較してネットワーク使用率を4倍に削減できると同時に, 圧縮認識分割学習よりも精度を4%向上できることを示す。 最後に,'prune'法は,圧縮認識による分割学習手法と比較して,精度に影響を与えずに,特定のモデルのトレーニング時間を最大6倍削減できることを示す。

The growing number of AI-driven applications in the mobile devices has led to solutions that integrate deep learning models with the available edge-cloud resources; due to multiple benefits such as reduction in on-device energy consumption, improved latency, improved network usage, and certain privacy improvements, split learning, where deep learning models are split away from the mobile device and computed in a distributed manner, has become an extensively explored topic. Combined with compression-aware methods where learning adapts to compression of communicated data, the benefits of this approach have further improved and could serve as an alternative to established approaches like federated learning methods. In this work, we develop an adaptive compression-aware split learning method ('deprune') to improve and train deep learning models so that they are much more network-efficient (use less network resources and are faster), which would make them ideal to deploy in weaker devices with the help of edge-cloud resources. This method is also extended ('prune') to very quickly train deep learning models, through a transfer learning approach, that trades off little accuracy for much more network-efficient inference abilities. We show that the 'deprune' method can reduce network usage by 4x when compared with a split-learning approach (that does not use our method) without loss of accuracy, while also improving accuracy over compression-aware split-learning by 4 percent. Lastly, we show that the 'prune' method can reduce the training time for certain models by up to 6x without affecting the accuracy when compared against a compression-aware split-learning approach.
翻訳日:2024-01-18 00:45:45 公開日:2024-01-15
# 非局在機械系を用いた量子重力試験における力感度の起源について

On the origin of force sensitivity in tests of quantum gravity with delocalised mechanical systems ( http://arxiv.org/abs/2311.04745v2 )

ライセンス: Link先を確認
Julen S. Pedernales and Martin B. Plenio(参考訳) 低エネルギー限界ヒンジにおける重力の量子的性質の検出は、機械システムによる前例のない力の感度を達成する上で重要である。 この背景に対して, 機械システムの外部力に対する感受性と, それらの量子状態の性質との関係を考察する。 純粋な量子状態における力の感度の主要な決定要因は、その空間的非局在化であり、2つの力学系が量子力の下で絡み合う速度に力の感度を結びつける。 一般的に考慮されている2つの構成でこれを例示します。 Schr\"odinger-cat 状態のような非ガウス状態に準備された物体と重力的に相互作用する物体は、通常は重畳中の成分間の動的位相の蓄積によって引き起こされる。 他方は、運動量で強く圧迫され、エンタングルメント生成が加速に起因する位置で非局在化されたガウス状態の粒子を準備する。 位相空間表現を用いてこれら2つの配置を統一的に記述し、それらの絡み合い速度と力感度を関連付けることにより、両者の配置が同じ速度で絡み合っていることを示す。 位相空間における記述と、力の感度と絡み合いの関係は、これらの2つの構成間の同値性がなぜ持つのかという複雑さに光を当てている。 特に, 従来の動的位相による絡み合いの計算は, Schr\"odinger-cat 状態では精度が低いが, キャットを絞った状態の系では誤推定が生じることを示した。

The detection of the quantum nature of gravity in the low-energy limit hinges on achieving an unprecedented degree of force sensitivity with mechanical systems. Against this background, we explore the relationship between the sensitivity of mechanical systems to external forces and the properties of the quantum states they are prepared in. We establish that the main determinant of the force sensitivity in pure quantum states is their spatial delocalisation and we link the force sensitivity to the rate at which two mechanical systems become entangled under a quantum force. We exemplify this at the hand of two commonly considered configurations. One that involves gravitationally interacting objects prepared in non-Gaussian states such as Schr\"odinger-cat states, where the generation of entanglement is typically ascribed to the accumulation of a dynamical phase between components in superposition. The other prepares particles in Gaussian states that are strongly squeezed in momentum and delocalised in position where entanglement generation is attributed to accelerations. We offer a unified description of these two arrangements using the phase-space representation and link their entangling rate to their force sensitivity, showing that both configurations get entangled at the same rate provided that they are equally delocalised in space. Our description in phase space and the established relation between force sensitivity and entanglement sheds light on the intricacies of why the equivalence between these two configurations holds, something that is not always evident in the literature, due to the distinct physical and analytical methods employed to study each of them. Notably, we demonstrate that while the conventional computation of entanglement via the dynamical phase remains accurate for Schr\"odinger-cat states, it yields erroneous estimations for systems in squeezed cat states.
翻訳日:2024-01-18 00:45:03 公開日:2024-01-15
# ChatGPTの1周年 - オープンソースの大規模言語モデルは追いつくのか?

ChatGPT's One-year Anniversary: Are Open-Source Large Language Models Catching up? ( http://arxiv.org/abs/2311.16989v4 )

ライセンス: Link先を確認
Hailin Chen, Fangkai Jiao, Xingxuan Li, Chengwei Qin, Mathieu Ravaut, Ruochen Zhao, Caiming Xiong, Shafiq Joty(参考訳) 2022年後半にリリースされたChatGPTは、研究と商業の両方において、AIのランドスケープ全体において、地震的な変化をもたらした。 大規模言語モデル(LLM)の教師付き微調整と人間からのフィードバックによる強化学習を通じて,モデルが人間の質問に答え,タスクの広いパネルで指示に従うことを示した。 この成功の後、LLMへの関心が高まり、新しいLLMは学界や業界で頻繁な間隔で繁栄し、LSMに焦点を絞ったスタートアップも数多く存在する。 オープンソースLCM(OpenAIのGPT、AnthropicのClaudeなど)は、一般的にオープンソースよりも優れているが、後者の進歩は、パーティを達成するか、特定のタスクでさらに優れているという主張によって急速に進んでいる。 これは研究だけでなくビジネスにも重要な意味を持つ。 本稿では,ChatGPT の1周年を記念して,オープンソース LLM が ChatGPT と同等かそれ以上であると主張するすべてのタスクについて,その成功の概要を概観する。

Upon its release in late 2022, ChatGPT has brought a seismic shift in the entire landscape of AI, both in research and commerce. Through instruction-tuning a large language model (LLM) with supervised fine-tuning and reinforcement learning from human feedback, it showed that a model could answer human questions and follow instructions on a broad panel of tasks. Following this success, interests in LLMs have intensified, with new LLMs flourishing at frequent interval across academia and industry, including many start-ups focused on LLMs. While closed-source LLMs (e.g., OpenAI's GPT, Anthropic's Claude) generally outperform their open-source counterparts, the progress on the latter has been rapid with claims of achieving parity or even better on certain tasks. This has crucial implications not only on research but also on business. In this work, on the first anniversary of ChatGPT, we provide an exhaustive overview of this success, surveying all tasks where an open-source LLM has claimed to be on par or better than ChatGPT.
翻訳日:2024-01-18 00:38:32 公開日:2024-01-15
# 電力系統における動的故障特性評価

Dynamic Fault Characteristics Evaluation in Power Grid ( http://arxiv.org/abs/2311.16522v2 )

ライセンス: Link先を確認
Hao Pei, Si Lin, Chuanfu Li, Che Wang, Haoming Chen, Sizhe Li(参考訳) 運転・保守におけるインテリジェンス度を高めるため,電力系統における故障検出手法を提案する。 提案手法は,まず,ナレッジグラフを結合した特徴抽出手法を用いて障害ノードを識別する。 時間データを組み込むことで、前および後続のノードの状態を利用して、現在の故障検出を支援する。 ノード特性の有効性を検証するために,各ノードからの出力特性の相関解析を行った。 実験の結果,本手法は予測精度の高いシミュレーションシナリオにおいて,故障ノードを正確に検出できることがわかった。 さらに、グラフニューラルネットワークに基づく機能モデリングは、障害がノードにどのように広がるかの質的検証を可能にし、障害ノードの分析に有用な洞察を提供する。

To enhance the intelligence degree in operation and maintenance, a novel method for fault detection in power grids is proposed. The proposed GNN-based approach first identifies fault nodes through a specialized feature extraction method coupled with a knowledge graph. By incorporating temporal data, the method leverages the status of nodes from preceding and subsequent time periods to help current fault detection. To validate the effectiveness of the node features, a correlation analysis of the output features from each node was conducted. The results from experiments show that this method can accurately locate fault nodes in simulation scenarios with a remarkable accuracy. Additionally, the graph neural network based feature modeling allows for a qualitative examination of how faults spread across nodes, which provides valuable insights for analyzing fault nodes.
翻訳日:2024-01-18 00:37:22 公開日:2024-01-15
# 格子上の量子ハードディスク

Quantum hard disks on a lattice ( http://arxiv.org/abs/2311.16240v2 )

ライセンス: Link先を確認
Vighnesh Dattatraya Naik and Fabian Ballar Trigueros and Markus Heyl(参考訳) 格子上のハードディスク問題の量子バージョンを定式化し、ライドバーグ原子の系において自然な実現を示す。 量子ハードディスクは、ユニークな動的量子的特徴を排除している。 1dでは、結晶融解過程は古典的な準拡散とは対照的に弾道的挙動を示す。 2dの場合、結晶構造はほとんどの欠陥に対して無傷であり、古典的には完全に洗い流される。 この特異な量子挙動を量子多体傷と結びつける。 本研究は、拘束された2次元量子物質が特異な動的挙動を示す可能性を強調する。

We formulate a quantum version of the hard-disk problem on lattices, which exhibits a natural realization in systems of Rydberg atoms. We find that quantum hard disks exihibit unique dynamical quantum features. In 1D, the crystal melting process displays ballistic behavior as opposed to classical sub-diffusion. For 2D, crystal structures remain intact against most defects, whereas classically they are washed out completely. We link this peculiar quantum behavior to quantum many-body scars. Our study highlights the potential of constrained 2D quantum matter to display unique dynamical behaviors.
翻訳日:2024-01-18 00:37:11 公開日:2024-01-15
# 移動メッシュPDEによる物理インフォームニューラルネットワークの動作サンプリング

Moving Sampling Physics-informed Neural Networks induced by Moving Mesh PDE ( http://arxiv.org/abs/2311.16167v3 )

ライセンス: Link先を確認
Yu Yang, Qihong Yang, Yangtao Deng, Qiaolin He(参考訳) 本研究では,移動メッシュpdeを解いて新たなサンプリングポイントを適応的に生成できる移動メッシュ法に基づくエンドツーエンド適応サンプリングニューラルネットワーク(mmpde-net)を提案する。 このモデルはサンプリングポイント生成の品質向上に焦点を当てている。 さらに,MMPDE-Netに基づく反復アルゴリズムを開発し,サンプリングポイントをより正確に制御できるようにする。 MMPDE-Netはディープラーニングソルバに依存しないフレームワークであるため、物理インフォームドニューラルネットワーク(PINN)と組み合わせて、移動サンプリングPINN(MS-PINN)を提案し、いくつかの仮定の下でエラー解析による効果を示す。 最後に,本手法の有効性を数値的に検証する4つの典型例の数値実験により,MS-PINNの性能改善をPINNと比較した。

In this work, we propose an end-to-end adaptive sampling neural network (MMPDE-Net) based on the moving mesh method, which can adaptively generate new sampling points by solving the moving mesh PDE. This model focuses on improving the quality of sampling points generation. Moreover, we develop an iterative algorithm based on MMPDE-Net, which makes the sampling points more precise and controllable. Since MMPDE-Net is a framework independent of the deep learning solver, we combine it with physics-informed neural networks (PINN) to propose moving sampling PINN (MS-PINN) and demonstrate its effectiveness by error analysis under some assumptions. Finally, we demonstrate the performance improvement of MS-PINN compared to PINN through numerical experiments of four typical examples, which numerically verify the effectiveness of our method.
翻訳日:2024-01-18 00:37:03 公開日:2024-01-15
# テキスト画像検索に可視的関連バイアスをもたらすai生成画像

AI-Generated Images Introduce Invisible Relevance Bias to Text-Image Retrieval ( http://arxiv.org/abs/2311.14084v3 )

ライセンス: Link先を確認
Shicheng Xu, Danyang Hou, Liang Pang, Jingcheng Deng, Jun Xu, Huawei Shen, Xueqi Cheng(参考訳) 世代モデルの発展に伴い、AIGC(AI- generated content)がより現実的になり、インターネットが溢れている。 最近の研究では、この現象がWeb検索のためのテキスト検索の源泉バイアスを引き起こすことが示唆されている。 具体的には、ニューラル検索モデルは、人間が書いたテキストよりも高いテキストをランク付けする傾向にある。 本稿では,このバイアスの研究をクロスモーダル検索に拡張する。 まず,バイアスの存在を調べるための適切なベンチマークの構築に成功しました。 このベンチマークのさらなる実験により、AI生成画像はテキスト画像検索モデルに目に見えない関連性バイアスをもたらすことが明らかになった。 具体的には,テキスト画像検索モデルが,実際の画像よりも視覚的に関連した特徴を提示していないにもかかわらず,実際の画像よりもai生成画像を上位にランク付けする傾向があることを示す。 この目に見えない関連性バイアスは、トレーニングデータやアーキテクチャの異なる検索モデルに共通している。 さらに, 検索モデルの学習データにai生成画像が組み込まれることにより, 可視性バイアスが悪化することが明らかとなった。 上記の現象は悪循環を引き起こし、目に見えない関連性バイアスがますます深刻になる。 見えない関連性の潜在的原因を解明し、上記の問題に対処するために、目に見えない関連性バイアスを緩和するための効果的なトレーニング手法を提案する。 次に,提案手法を適用して,視覚的関連性の原因を遡及的に同定し,AI生成画像が画像エンコーダを誘導し,その表現に付加情報を埋め込むことを示した。 この情報は、異なる意味を持つ生成された画像間で一定の一貫性を示し、レトリバーが高い関連性スコアを推定することができる。

With the advancement of generation models, AI-generated content (AIGC) is becoming more realistic, flooding the Internet. A recent study suggests that this phenomenon causes source bias in text retrieval for web search. Specifically, neural retrieval models tend to rank generated texts higher than human-written texts. In this paper, we extend the study of this bias to cross-modal retrieval. Firstly, we successfully construct a suitable benchmark to explore the existence of the bias. Subsequent extensive experiments on this benchmark reveal that AI-generated images introduce an invisible relevance bias to text-image retrieval models. Specifically, our experiments show that text-image retrieval models tend to rank the AI-generated images higher than the real images, even though the AI-generated images do not exhibit more visually relevant features to the query than real images. This invisible relevance bias is prevalent across retrieval models with varying training data and architectures. Furthermore, our subsequent exploration reveals that the inclusion of AI-generated images in the training data of the retrieval models exacerbates the invisible relevance bias. The above phenomenon triggers a vicious cycle, which makes the invisible relevance bias become more and more serious. To elucidate the potential causes of invisible relevance and address the aforementioned issues, we introduce an effective training method aimed at alleviating the invisible relevance bias. Subsequently, we apply our proposed debiasing method to retroactively identify the causes of invisible relevance, revealing that the AI-generated images induce the image encoder to embed additional information into their representation. This information exhibits a certain consistency across generated images with different semantics and can make the retriever estimate a higher relevance score.
翻訳日:2024-01-18 00:36:30 公開日:2024-01-15
# 知識グラフに基づく変電所の動的故障解析

Dynamic Fault Analysis in Substations Based on Knowledge Graphs ( http://arxiv.org/abs/2311.13708v2 )

ライセンス: Link先を確認
Weiwei Li, Xing Liu, Wei Wang, Lu Chen, Sizhe Li, Hui Fan(参考訳) 未構造化テキストからサブステーションの隠れ危険を特定することの課題に対処するために,新しい動的解析手法を提案する。 まず、構造化されていないテキストから関連情報を抽出し、Elastic-Search上に構築された柔軟な分散検索エンジンを利用してデータを処理する。 その後、エンジン内のデータをトレーニングするために隠れマルコフモデルが使用される。 viterbiアルゴリズムは隠れた状態シーケンスを解読するために統合され、隠れた危険に関連するエンティティのセグメンテーションとラベル付けが容易になる。 最後のステップでは、neo4jグラフデータベースを使用して、変電所内の隠れた危険を可視化するナレッジグラフを動的に作成する。 提案手法の有効性は,テキスト記録に隠れた危険のある特定の変電所からのケース解析によって実証される。

To address the challenge of identifying hidden danger in substations from unstructured text, a novel dynamic analysis method is proposed. We first extract relevant information from the unstructured text, and then leverages a flexible distributed search engine built on Elastic-Search to handle the data. Following this, the hidden Markov model is employed to train the data within the engine. The Viterbi algorithm is integrated to decipher the hidden state sequences, facilitating the segmentation and labeling of entities related to hidden dangers. The final step involves using the Neo4j graph database to dynamically create a knowledge graph that visualizes hidden dangers in the substation. The effectiveness of the proposed method is demonstrated through a case analysis from a specific substation with hidden dangers revealed in the text records.
翻訳日:2024-01-18 00:35:35 公開日:2024-01-15
# 拡散モデルと画像逆法学

Diffusion models meet image counter-forensics ( http://arxiv.org/abs/2311.13629v2 )

ライセンス: Link先を確認
Mat\'ias Tailanian, Marina Gardella, \'Alvaro Pardo, Pablo Mus\'e(参考訳) カメラセンサーの取得からストレージまで、最終的な画像を生成するためにさまざまな操作が実行される。 このパイプラインは、イメージに特定の痕跡をインプリントして、自然の透かしを形成する。 画像の改ざんは、これらの痕跡を阻害する;これらの混乱は、ほとんどの方法が偽造を検知し発見するために使用する手がかりである。 本稿では, フォージャーが残した痕跡を除去する拡散モデルの有効性を評価し, そこで, 法医学的手法を欺いた。 このようなアプローチは、近年、逆境浄化のために導入され、著しいパフォーマンスを達成している。 また, 拡散浄化法がカウンターフォリシスの課題に適していることを示す。 このようなアプローチは、法医学的手法を欺いたり、精製された画像の自然な外観を保存したりすることで、既存のカウンターフォレンス技術よりも優れています。 ソースコードはhttps://github.com/mtailanian/diff-cfで公開されている。

From its acquisition in the camera sensors to its storage, different operations are performed to generate the final image. This pipeline imprints specific traces into the image to form a natural watermark. Tampering with an image disturbs these traces; these disruptions are clues that are used by most methods to detect and locate forgeries. In this article, we assess the capabilities of diffusion models to erase the traces left by forgers and, therefore, deceive forensics methods. Such an approach has been recently introduced for adversarial purification, achieving significant performance. We show that diffusion purification methods are well suited for counter-forensics tasks. Such approaches outperform already existing counter-forensics techniques both in deceiving forensics methods and in preserving the natural look of the purified images. The source code is publicly available at https://github.com/mtailanian/diff-cf.
翻訳日:2024-01-18 00:35:20 公開日:2024-01-15
# CASR:Marginalizing Frame-levle Causal Relationsによる動作分割

CASR: Refining Action Segmentation via Marginalizing Frame-levle Causal Relationships ( http://arxiv.org/abs/2311.12401v3 )

ライセンス: Link先を確認
Keqing Du, Xinyu Yang, Hang Chen(参考訳) 深層学習と因果発見を統合することで、時間行動セグメンテーション(TAS)タスクの解釈可能性が高まった。 しかし、フレームレベルの因果関係はセグメントレベルの外側に多くの複雑なノイズが存在するため、マクロアクションセマンティクスを直接表現することは不可能である。 そこで本研究では,フレームレベルのカジュアルな関係を疎外する際のビデオ因果性を高め,様々なモデルからTAS結果を洗練できるCausal Abstraction Segmentation Refiner (CASR)を提案する。 具体的には、等価なフレームレベルのカジュアルモデルとセグメントレベルの因果モデルを定義し、辺限化されたフレームレベルの因果関係から構築された因果隣接行列は、sgmnetレベルの因果関係を表現する能力を持つ。 CASRは, 後骨モデルと後骨モデルとの因果親和性行列の差を小さくすることで機能する。 また,因果解釈可能性を評価するために,新しい評価基準因果編集距離(ced)を提案する。 主要なデータセットに対する大規模な実験結果から,CASRは動作セグメンテーション性能や因果説明可能性,一般化において,既存の様々な手法を大幅に上回っていることが示唆された。

Integrating deep learning and causal discovery has increased the interpretability of Temporal Action Segmentation (TAS) tasks. However, frame-level causal relationships exist many complicated noises outside the segment-level, making it infeasible to directly express macro action semantics. Thus, we propose Causal Abstraction Segmentation Refiner (CASR), which can refine TAS results from various models by enhancing video causality in marginalizing frame-level casual relationships. Specifically, we define the equivalent frame-level casual model and segment-level causal model, so that the causal adjacency matrix constructed from marginalized frame-level causal relationships has the ability to represent the segmnet-level causal relationships. CASR works out by reducing the difference in the causal adjacency matrix between we constructed and pre-segmentation results of backbone models. In addition, we propose a novel evaluation metric Causal Edit Distance (CED) to evaluate the causal interpretability. Extensive experimental results on mainstream datasets indicate that CASR significantly surpasses existing various methods in action segmentation performance, as well as in causal explainability and generalization.
翻訳日:2024-01-18 00:34:00 公開日:2024-01-15
# PPT4J: Javaバイナリのパッチ存在テスト

PPT4J: Patch Presence Test for Java Binaries ( http://arxiv.org/abs/2312.11013v2 )

ライセンス: Link先を確認
Zhiyuan Pan, Xing Hu, Xin Xia, Xian Zhan, David Lo, Xiaohu Yang(参考訳) オープンソースソフトウェアで報告されている脆弱性の数は近年大幅に増加している。 セキュリティパッチは、ソフトウェアを攻撃や脆弱性から守るために必要な手段を提供する。 実際には、特にバイナリファイルしか持たない場合、パッチがソフトウェアに統合されているかどうかを特定するのは難しい。 したがって、対象のバイナリ、すなわちパッチ存在テストにパッチを適用するかどうかをテストする能力は、実践者にとって不可欠である。 しかし、パッチから正確な意味情報を得るのは難しいため、誤った結果につながる可能性がある。 本稿では,ppt4j(\textbf{p}$atch$\textbf{p}$resence$\textbf{t}$est$\textbf{for}$$\textbf{j}$avaバイナリ)という新しいパッチ存在テストフレームワークを提案する。 PPT4JはオープンソースのJavaライブラリ用に設計されている。 Javaバイナリ(バイトコードファイル)を入力として、パッチから意味情報を抽出し、機能ベースの技術を使ってバイナリ内のパッチ線を識別する。 提案手法の有効性を評価するため,110個の脆弱性を含むバイナリを持つデータセットを構築した。 その結果、ppt4jは有効効率で98.5%のf1スコアを達成し、ベースラインを14.2%向上した。 さらに,JetBrains IntelliJ IDEA 上で PPT4J の評価を行う。 その結果、ソフトウェアに含まれるサードパーティ製ライブラリが2つのCVEにパッチされていないことが示唆され、この潜在的なセキュリティ問題をベンダーに報告しました。

The number of vulnerabilities reported in open source software has increased substantially in recent years. Security patches provide the necessary measures to protect software from attacks and vulnerabilities. In practice, it is difficult to identify whether patches have been integrated into software, especially if we only have binary files. Therefore, the ability to test whether a patch is applied to the target binary, a.k.a. patch presence test, is crucial for practitioners. However, it is challenging to obtain accurate semantic information from patches, which could lead to incorrect results. In this paper, we propose a new patch presence test framework named PPT4J ($\textbf{P}$atch $\textbf{P}$resence $\textbf{T}$est $\textbf{for}$ $\textbf{J}$ava Binaries). PPT4J is designed for open-source Java libraries. It takes Java binaries (i.e. bytecode files) as input, extracts semantic information from patches, and uses feature-based techniques to identify patch lines in the binaries. To evaluate the effectiveness of our proposed approach PPT4J, we construct a dataset with binaries that include 110 vulnerabilities. The results show that PPT4J achieves an F1 score of 98.5% with reasonable efficiency, improving the baseline by 14.2%. Furthermore, we conduct an in-the-wild evaluation of PPT4J on JetBrains IntelliJ IDEA. The results suggest that a third-party library included in the software is not patched for two CVEs, and we have reported this potential security problem to the vendor.
翻訳日:2024-01-18 00:26:52 公開日:2024-01-15
# 群同値なタスクに対する証明可能な逆ロバスト性:グラフ、点雲、分子など

Provable Adversarial Robustness for Group Equivariant Tasks: Graphs, Point Clouds, Molecules, and More ( http://arxiv.org/abs/2312.02708v2 )

ライセンス: Link先を確認
Jan Schuchardt, Yan Scholten, Stephan G\"unnemann(参考訳) 機械学習モデルは伝統的に、小さなノルムを持つ入力摂動下での予測が(ほぼ)一定である場合、堅牢であるとみなされる。 しかし、分子特性予測や点雲セグメンテーションのような現実世界のタスクは、回転や置換の等式のような本質的に同値である。 このようなタスクでは、大きなノルムを持つ摂動でさえ、必ずしも入力のセマンティックな内容を変えるとは限らない。 さらに、モデルの予測が明示的に変更する必要があるという摂動もある。 タスクの等価性を考慮に入れた正反対ロバスト性(英語版)の健全な概念を初めて提案する。 次に,(1)タスクの等価性に適合するモデルを選択し,(2)従来の対向ロバスト性を証明することによって,証明可能なロバスト性を実現することを示す。 しかし、連続同値性のあるモデルなど、多くのモデルでは認証方法が利用できない。 このギャップは、アーキテクチャに依存しない認証を可能にする同値保存ランダム化平滑化の枠組みを開発することで解決する。 さらに、最初のアーキテクチャ固有のグラフ編集距離証明書、すなわちノード分類のような同型同変タスクに対する音響ロバスト性保証も導出する。 全体として、ロバスト性という健全な概念は、ロバストで幾何学的な機械学習の交点における将来の仕事にとって重要な前提条件である。

A machine learning model is traditionally considered robust if its prediction remains (almost) constant under input perturbations with small norm. However, real-world tasks like molecular property prediction or point cloud segmentation have inherent equivariances, such as rotation or permutation equivariance. In such tasks, even perturbations with large norm do not necessarily change an input's semantic content. Furthermore, there are perturbations for which a model's prediction explicitly needs to change. For the first time, we propose a sound notion of adversarial robustness that accounts for task equivariance. We then demonstrate that provable robustness can be achieved by (1) choosing a model that matches the task's equivariances (2) certifying traditional adversarial robustness. Certification methods are, however, unavailable for many models, such as those with continuous equivariances. We close this gap by developing the framework of equivariance-preserving randomized smoothing, which enables architecture-agnostic certification. We additionally derive the first architecture-specific graph edit distance certificates, i.e. sound robustness guarantees for isomorphism equivariant tasks like node classification. Overall, a sound notion of robustness is an important prerequisite for future work at the intersection of robust and geometric machine learning.
翻訳日:2024-01-18 00:23:38 公開日:2024-01-15
# 超ポリジウム構造

Hyperpolyadic structures ( http://arxiv.org/abs/2312.01366v4 )

ライセンス: Link先を確認
Steven Duplij (University of M\"unster)(参考訳) 新しい除算代数のクラスである超多進代数(hyperpolyadic algebras)を導入し、新しい要素を考慮せずに二元除算代数 $\mathbb{r}$, $\mathbb{c}$, $\mathbb{h}$, $\mathbb{o}$ に対応する。 まず、代数の次元を増大させる前に提案した行列多元化法を用いる。 この方法で得られる代数は二進加法に従い、非派生の$n$-ary乗法とそれらの部分代数は除算$n$-ary環である。 各可逆元に対して、多元乗法である新しいノルムを定義し、対応する写像は$n$-ary準同型である。 我々は多元化手順から単元行列の連続埋め込みに対応するケイリー・ディクソン構成の多元類似体を定義する。 すると、より高次元の2元除算代数に対応する別の数列$n$-ary代数が得られ、それは中間のアーティ数に比例する。 次に、任意のベクトル空間内のベクトルの新しい多進積を定義する。 この積を与えられたベクトル空間は、ある可逆条件の下で除算代数である多進代数となり、その構造定数が計算される。 第3に,半次元の非単位的非単元三元除算代数を「半四元数」と「半八元数」と呼ぶ新しい反復過程(「虚塔」)を提案する。 後者は二元割算代数の部分代数ではなく、異なるアーリティーを持つため、部分集合のみである。 それでも、それらは3次分割代数であり、それは分割を許容し、それらの非零元は可逆であるからである。 導入された「半四元数」ノルムの乗法から、2つの平方恒等式の総和の三元アナログを得る。 私たちが導入した虚数的「半オクトニオン」の単位のない三元除算代数が三元代数学であることを証明する。

We introduce a new class of division algebras, the hyperpolyadic algebras, which correspond to the binary division algebras $\mathbb{R}$, $\mathbb{C}$, $\mathbb{H}$, $\mathbb{O}$ without considering new elements. First, we use the matrix polyadization procedure proposed earlier which increases the dimension of the algebra. The algebras obtained in this way obey binary addition and a nonderived $n$-ary multiplication and their subalgebras are division $n$-ary algebras. For each invertible element we define a new norm which is polyadically multiplicative, and the corresponding map is a $n$-ary homomorphism. We define a polyadic analog of the Cayley-Dickson construction which corresponds to the consequent embedding of monomial matrices from the polyadization procedure. We then obtain another series of $n$-ary algebras corresponding to the binary division algebras which have a higher dimension, that is proportional to the intermediate arities. Second, a new polyadic product of vectors in any vector space is defined. Endowed with this product the vector space becomes a polyadic algebra which is a division algebra under some invertibility conditions, and its structure constants are computed. Third, we propose a new iterative process ("imaginary tower"), which leads to nonunital nonderived ternary division algebras of half the dimension, which we call "half-quaternions" and "half-octonions". The latter are not subalgebras of the binary division algebras, but subsets only, since they have different arity. Nevertheless, they are actually ternary division algebras, because they allow division, and their nonzero elements are invertible. From the multiplicativity of the introduced "half-quaternion" norm we obtain the ternary analog of the sum of two squares identity. We prove that the unitless ternary division algebra of imaginary "half-octonions" we have introduced is ternary alternative.
翻訳日:2024-01-18 00:22:05 公開日:2024-01-15
# MixRT:リアルタイムNeRFレンダリングのための混合ニューラル表現

MixRT: Mixed Neural Representations For Real-Time NeRF Rendering ( http://arxiv.org/abs/2312.11841v3 )

ライセンス: Link先を確認
Chaojian Li, Bichen Wu, Peter Vajda, Yingyan (Celine) Lin(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、その印象的なフォトリアリスティックな再構成とレンダリング能力により、新しいビュー合成の先駆的な技術として登場した。 それでも、大規模なシーンでリアルタイムのNeRFレンダリングを実現することは課題を示しており、しばしば、相当数の三角形を持つ複雑な焼成メッシュ表現や、焼成表現におけるリソース集約光線マーチングの採用につながっている。 我々はこれらの慣習に挑戦し、実質的な三角形を持つメッシュで表される高品質な幾何学は、フォトリアリスティックなレンダリング品質を達成するために必要ではないと観察する。 その結果、低品質メッシュ、ビュー依存変位マップ、圧縮されたNeRFモデルを含む新しいNeRF表現であるMixRTを提案する。 この設計は、既存のグラフィックスハードウェアの機能を活用し、エッジデバイス上でリアルタイムのNeRFレンダリングを可能にする。 高度に最適化されたwebglベースのレンダリングフレームワークを利用することで、mixrtはエッジデバイス(macbook m1 proラップトップで解像度180 x 720で30fps以上)でリアルタイムレンダリング速度を実現し、レンダリング品質(非バウンド360データセットの屋内シーンでは0.2psnr)、ストレージサイズ(最先端のメソッドと比較して80%未満)を向上した。

Neural Radiance Field (NeRF) has emerged as a leading technique for novel view synthesis, owing to its impressive photorealistic reconstruction and rendering capability. Nevertheless, achieving real-time NeRF rendering in large-scale scenes has presented challenges, often leading to the adoption of either intricate baked mesh representations with a substantial number of triangles or resource-intensive ray marching in baked representations. We challenge these conventions, observing that high-quality geometry, represented by meshes with substantial triangles, is not necessary for achieving photorealistic rendering quality. Consequently, we propose MixRT, a novel NeRF representation that includes a low-quality mesh, a view-dependent displacement map, and a compressed NeRF model. This design effectively harnesses the capabilities of existing graphics hardware, thus enabling real-time NeRF rendering on edge devices. Leveraging a highly-optimized WebGL-based rendering framework, our proposed MixRT attains real-time rendering speeds on edge devices (over 30 FPS at a resolution of 1280 x 720 on a MacBook M1 Pro laptop), better rendering quality (0.2 PSNR higher in indoor scenes of the Unbounded-360 datasets), and a smaller storage size (less than 80% compared to state-of-the-art methods).
翻訳日:2024-01-18 00:14:52 公開日:2024-01-15
# コード用大規模言語モデルにおける記憶の痕跡

Traces of Memorisation in Large Language Models for Code ( http://arxiv.org/abs/2312.11658v2 )

ライセンス: Link先を確認
Ali Al-Kaswan and Maliheh Izadi and Arie van Deursen(参考訳) 大規模な言語モデルは、ヒューマンライクなテキストを生成する能力と、ソフトウェア工学のような様々な分野の潜在的な応用により、大きな人気を集めている。 コードのための大規模な言語モデルは、一般にインターネットから取り除かれた大量のソースコードコーパスで訓練される。 これらのデータセットの内容は記憶され、データ抽出攻撃の攻撃者によって抽出される。 本研究では,コードに対する大規模言語モデルの記憶率を調査し,その記憶率を自然言語で学習した大規模言語モデルと比較する。 我々は、既存の自然言語ベンチマークを採用し、攻撃に弱いサンプルを識別することで、コードのベンチマークを構築します。 さまざまなモデルに対して両方のベンチマークを実行し、データ抽出攻撃を実行します。 コードのための大きな言語モデルは、自然言語のようなデータ抽出攻撃に弱いことが分かりました。 潜在的に抽出可能なトレーニングデータから,CodeGen-Mono-16Bコード補完モデルから47%を抽出することができた。 また,パラメータ数が増加するにつれてモデルが記憶する量が増え,事前学習データも攻撃に弱いことも観察した。 また、データキャリアは通常のコードやドキュメントよりも高い速度で記憶されており、異なるモデルアーキテクチャが異なるサンプルを記憶していることも分かりました。 データの漏洩は深刻な結果をもたらすため,より広い範囲のモデルと抽出技術を用いて,この現象の程度をさらに調査し,この問題を軽減するための安全対策を構築するよう,研究コミュニティに要請する。

Large language models have gained significant popularity because of their ability to generate human-like text and potential applications in various fields, such as Software Engineering. Large language models for code are commonly trained on large unsanitised corpora of source code scraped from the internet. The content of these datasets is memorised and can be extracted by attackers with data extraction attacks. In this work, we explore memorisation in large language models for code and compare the rate of memorisation with large language models trained on natural language. We adopt an existing benchmark for natural language and construct a benchmark for code by identifying samples that are vulnerable to attack. We run both benchmarks against a variety of models, and perform a data extraction attack. We find that large language models for code are vulnerable to data extraction attacks, like their natural language counterparts. From the training data that was identified to be potentially extractable we were able to extract 47% from a CodeGen-Mono-16B code completion model. We also observe that models memorise more, as their parameter count grows, and that their pre-training data are also vulnerable to attack. We also find that data carriers are memorised at a higher rate than regular code or documentation and that different model architectures memorise different samples. Data leakage has severe outcomes, so we urge the research community to further investigate the extent of this phenomenon using a wider range of models and extraction techniques in order to build safeguards to mitigate this issue.
翻訳日:2024-01-18 00:14:25 公開日:2024-01-15
# アノニカルパリティ時間対称系における非エルミートエントロピーダイナミクス

Non-Hermitian Entropy Dynamics in Anyonic Parity-Time Symmetric Systems ( http://arxiv.org/abs/2312.10350v3 )

ライセンス: Link先を確認
Zhihang Liu and Chao Zheng(参考訳) パリティ時間(PT)対称性とその自発的破壊は、理論と実験の両方において興味を惹きつける。 ここでは、一般化された非エルミートエントロピーを用いて、PT、反PT、および正準PT対称系の情報力学を研究する。 その結果,従来のエントロピーやトレース距離を用いた場合,それぞれ3倍の縮退・歪曲する反PTおよび非PT対称ハミルトンの異なるパラメータ空間における情報力学の3つの特徴パターンが明らかになった。 退化と歪みの根本的な理由は明らかである。 我々の研究は、非エルミートエントロピーが負であるという現象論的正当化を提供する。 次に、開量子系における負のエントロピーの数学的理由と物理的意味を探求し、負の非エルミートエントロピーと負の量子条件エントロピーの間の強い関係を明らかにする。 したがって、我々の研究は、オープン量子システムにおける負のエントロピーの物理的解釈を厳密に調査する新たな旅を開く。

Parity-Time (PT) symmetry and its spontaneous breaking attracts growing interesting both in theory and experiments. Here we develop a new approach using the generalized non-Hermitian entropy to investigate the information dynamics of PT, anti-PT, and anyonic-PT symmetric systems. Our results reveal three distinguished patterns of information dynamics in different parameter spaces of anti-PT and anyonic-PT symmetric Hamiltonians, respectively, which are three-fold degenerate and distorted if we use the conventional entropy or trace distance adopted in previous works. The fundamental reason for the degeneracy and distortion is found. Our work provides a phenomenological justification for non-Hermitian entropy being negative. We then explore the mathematical reason and physical meaning of the negative entropy in open quantum systems, revealing a strong connection between negative non-Hermitian entropy and negative quantum conditional entropy. Therefore, our work opens up the new journey of rigorously investigating physical interpretations of negative entropy in open quantum systems.
翻訳日:2024-01-18 00:13:43 公開日:2024-01-15
# sctnet:リアルタイムセグメンテーションのためのトランスフォーマー意味情報付き単分岐cnn

SCTNet: Single-Branch CNN with Transformer Semantic Information for Real-Time Segmentation ( http://arxiv.org/abs/2312.17071v2 )

ライセンス: Link先を確認
Zhengze Xu, Dongyue Wu, Changqian Yu, Xiangxiang Chu, Nong Sang, Changxin Gao(参考訳) 最近のリアルタイム意味セマンティクスセグメンテーション手法は通常、リッチな長距離コンテキストを追求するために追加のセマンティクスブランチを採用する。 しかし、追加のブランチは望ましくない計算オーバーヘッドを発生させ、推論速度を遅くする。 このジレンマをなくすため、リアルタイムセグメンテーションのためのトランスフォーマ意味情報を持つ単一分岐CNNであるSCTNetを提案する。 sctnetは、軽量な単一分岐cnnの効率を保ちながら、推論なし意味分岐の豊かな意味表現を享受している。 SCTNetは、長距離コンテキストを抽出する優れた能力を考慮して、トレーニング専用のセマンティックブランチとしてトランスフォーマーを使用している。 提案されたトランスフォーマーに似たCNNブロックCFBlockとセマンティック情報アライメントモジュールによって、SCTNetはトレーニング中のトランスフォーマーブランチからリッチなセマンティック情報をキャプチャできる。 推論中は、単一のブランチCNNのみをデプロイする必要がある。 本研究では,Cityscapes,ADE20K,COCO-Stuff-10Kについて広範な実験を行い,本手法が新しい最先端性能を実現することを示す。 コードとモデルはhttps://github.com/xzz777/SCTNetで入手できる。

Recent real-time semantic segmentation methods usually adopt an additional semantic branch to pursue rich long-range context. However, the additional branch incurs undesirable computational overhead and slows inference speed. To eliminate this dilemma, we propose SCTNet, a single branch CNN with transformer semantic information for real-time segmentation. SCTNet enjoys the rich semantic representations of an inference-free semantic branch while retaining the high efficiency of lightweight single branch CNN. SCTNet utilizes a transformer as the training-only semantic branch considering its superb ability to extract long-range context. With the help of the proposed transformer-like CNN block CFBlock and the semantic information alignment module, SCTNet could capture the rich semantic information from the transformer branch in training. During the inference, only the single branch CNN needs to be deployed. We conduct extensive experiments on Cityscapes, ADE20K, and COCO-Stuff-10K, and the results show that our method achieves the new state-of-the-art performance. The code and model is available at https://github.com/xzz777/SCTNet
翻訳日:2024-01-18 00:01:08 公開日:2024-01-15
# 探索と利用の分離による効率的強化学習

Efficient Reinforcemen Learning with Decoupling Exploration and Utilization ( http://arxiv.org/abs/2312.15965v2 )

ライセンス: Link先を確認
Jingpu Yang, Qirui Zhao, Helin Wang, Yuxiao Huang, Zirui Song, Miao Fang(参考訳) deep neural network(dnn)の一般化は、既存のデータセットの保守的処理に対する現在のオフライン強化学習技術への過度な依存によって制限される。 この手法は、特定のデータセットにのみ適応する最適でない解に落ち着くアルゴリズムをしばしば生み出す。 同様に、オンライン強化学習において、以前に課せられた懲罰的悲観主義は、その探索可能性のモデルを奪う。 本研究は,OPARL(Optimistic and Pessimistic Actor Reinforcement Learning)の新たな枠組みを提案する。 OPARLは、探索に特化した楽観的なアクターと、利用に焦点を当てた悲観的なアクターと、探索と利用戦略を効果的に区別する、ユニークなデュアルアクターアプローチを採用している。 この強化学習手法の独特な組み合わせは、よりバランスよく効率的なアプローチを促進する。 悲観的な利用戦略を通じて高い報酬をもたらす行動に焦点をあてる政策の最適化を可能にすると同時に、楽観的な探索を通じて広範な国家のカバレッジを確保することができる。 実験と理論的研究は、OPARLが応用と探索のためのエージェントの能力を改善することを示した。 DMControlベンチマークとMujoco環境のほとんどのタスクにおいて、OPARLは最先端の手法よりも優れている。 私たちのコードはhttps://github.com/yydsok/OPARLでリリースされました。

Deep neural network(DNN) generalization is limited by the over-reliance of current offline reinforcement learning techniques on conservative processing of existing datasets. This method frequently results in algorithms that settle for suboptimal solutions that only adjust to a certain dataset. Similarly, in online reinforcement learning, the previously imposed punitive pessimism also deprives the model of its exploratory potential. Our research proposes a novel framework, Optimistic and Pessimistic Actor Reinforcement Learning (OPARL). OPARL employs a unique dual-actor approach: an optimistic actor dedicated to exploration and a pessimistic actor focused on utilization, thereby effectively differentiating between exploration and utilization strategies. This unique combination in reinforcement learning methods fosters a more balanced and efficient approach. It enables the optimization of policies that focus on actions yielding high rewards through pessimistic utilization strategies, while also ensuring extensive state coverage via optimistic exploration. Experiments and theoretical study demonstrates OPARL improves agents' capacities for application and exploration. In the most tasks of DMControl benchmark and Mujoco environment, OPARL performed better than state-of-the-art methods. Our code has released on https://github.com/yydsok/OPARL
翻訳日:2024-01-18 00:00:12 公開日:2024-01-15
# TAPE:協調的多エージェント政策勾配のためのエージェントトポロジーの活用

TAPE: Leveraging Agent Topology for Cooperative Multi-Agent Policy Gradient ( http://arxiv.org/abs/2312.15667v3 )

ライセンス: Link先を確認
Xingzhou Lou, Junge Zhang, Timothy J. Norman, Kaiqi Huang, Yali Du(参考訳) マルチエージェント政策グラディエント(MAPG)は近年大きな進歩を遂げている。 しかし、最先端のMAPG手法の中央集権的批判は依然として、中央集権的なミスマッチ(CDM)問題に直面しており、これは一部のエージェントによる準最適行動が他のエージェントの政策学習に影響を与えることを意味する。 政策更新に個々の批評家を使うことは、この問題を避けることができるが、エージェント間の協力を厳しく制限する。 この問題に対処するために,政策グラデーションにおいて他のエージェントを考慮すべきかどうかを判断するエージェントトポロジフレームワークを提案し,協調の促進とCDM問題の緩和の妥協を実現する。 エージェントトポロジーにより、エージェントは、中央集権的な批評家によるグローバルユーティリティや個々の批評家によるローカルユーティリティではなく、学習目的として連合ユーティリティを使用することができる。 エージェントトポロジーを構成するために、様々なモデルが研究されている。 確率的および決定論的MAPG法の両方に対して,Topology-based multi-Agent Policy gradiEnt (TAPE)を提案する。 確率テープのポリシー改善定理を証明し,エージェント間の協調性向上のための理論的説明を与える。 いくつかのベンチマーク実験の結果、エージェントトポロジはエージェント協調を促進し、それぞれCDM問題を緩和し、TAPEの性能を向上させることができることが示された。 最後に, エージェントトポロジーの有効性を示すために, 複数のアブレーション研究とヒューリスティックグラフ探索アルゴリズムが考案された。

Multi-Agent Policy Gradient (MAPG) has made significant progress in recent years. However, centralized critics in state-of-the-art MAPG methods still face the centralized-decentralized mismatch (CDM) issue, which means sub-optimal actions by some agents will affect other agent's policy learning. While using individual critics for policy updates can avoid this issue, they severely limit cooperation among agents. To address this issue, we propose an agent topology framework, which decides whether other agents should be considered in policy gradient and achieves compromise between facilitating cooperation and alleviating the CDM issue. The agent topology allows agents to use coalition utility as learning objective instead of global utility by centralized critics or local utility by individual critics. To constitute the agent topology, various models are studied. We propose Topology-based multi-Agent Policy gradiEnt (TAPE) for both stochastic and deterministic MAPG methods. We prove the policy improvement theorem for stochastic TAPE and give a theoretical explanation for the improved cooperation among agents. Experiment results on several benchmarks show the agent topology is able to facilitate agent cooperation and alleviate CDM issue respectively to improve performance of TAPE. Finally, multiple ablation studies and a heuristic graph search algorithm are devised to show the efficacy of the agent topology.
翻訳日:2024-01-17 23:59:53 公開日:2024-01-15
# 高精度SDEモデリングのための時間変化正規化フロー

Time-changed normalizing flows for accurate SDE modeling ( http://arxiv.org/abs/2312.14698v2 )

ライセンス: Link先を確認
Naoufal El Bekri and Lucas Drumetz and Franck Vermet(参考訳) 生成パラダイムは、機械学習とディープラーニングモデルにおいてますます重要になっている。 一般的な生成モデルには正規化フローがあり、これは微分同相変換を通じて基底分布を変換することで正確な精度推定を可能にする。 時間分解フローを扱うための正規化フローフレームワークの拡張は、時系列、確率過程、神経確率微分方程式(sdes)をモデル化する強力なツールである動的正規化フローをもたらした。 本研究では,ガウス過程の多種多様な族を構成するブラウン運動の時間的変形に基づく,時間変化正規化流れ(tcnf)の新たな変種を提案する。 このアプローチにより、よく知られたOrnstein-Uhlenbeckプロセスなど、他の方法ではモデル化できないいくつかのSDEを効果的にモデル化し、事前の方法論を一般化し、結果の改善と推論と予測能力の向上につながる。

The generative paradigm has become increasingly important in machine learning and deep learning models. Among popular generative models are normalizing flows, which enable exact likelihood estimation by transforming a base distribution through diffeomorphic transformations. Extending the normalizing flow framework to handle time-indexed flows gave dynamic normalizing flows, a powerful tool to model time series, stochastic processes, and neural stochastic differential equations (SDEs). In this work, we propose a novel variant of dynamic normalizing flows, a Time Changed Normalizing Flow (TCNF), based on time deformation of a Brownian motion which constitutes a versatile and extensive family of Gaussian processes. This approach enables us to effectively model some SDEs, that cannot be modeled otherwise, including standard ones such as the well-known Ornstein-Uhlenbeck process, and generalizes prior methodologies, leading to improved results and better inference and prediction capability.
翻訳日:2024-01-17 23:59:09 公開日:2024-01-15
# 微分可能DSPとスペクトル最適輸送を用いた教師なし高調波パラメータ推定

Unsupervised Harmonic Parameter Estimation Using Differentiable DSP and Spectral Optimal Transport ( http://arxiv.org/abs/2312.14507v3 )

ライセンス: Link先を確認
Bernardo Torres (S2A, IDS), Geoffroy Peeters (S2A, IDS), Ga\"el Richard (S2A, IDS)(参考訳) ニューラルオーディオ信号処理では、ピッチコンディショニングがシンセサイザーの性能向上に使われている。 しかし, 音高推定器と合成器の併用は, 標準音高再生損失を用いた場合の課題であり, 外部の音高トラッカーに依存している。 そこで本稿では,スペクトルエネルギーの変位を最小化する最適輸送理論に着想を得たスペクトル損失関数を提案する。 我々は、調和テンプレートを調和信号に適合させる教師なしの自動符号化タスクを通じて、このアプローチを検証する。 軽量エンコーダを用いて高調波の基本周波数と振幅を共同で推定し,可微分高調波合成器を用いて信号を再構成する。 提案手法は、ニューラルオーディオアプリケーションにおける教師なしパラメータ推定を改善するための有望な方向を提供する。

In neural audio signal processing, pitch conditioning has been used to enhance the performance of synthesizers. However, jointly training pitch estimators and synthesizers is a challenge when using standard audio-to-audio reconstruction loss, leading to reliance on external pitch trackers. To address this issue, we propose using a spectral loss function inspired by optimal transportation theory that minimizes the displacement of spectral energy. We validate this approach through an unsupervised autoencoding task that fits a harmonic template to harmonic signals. We jointly estimate the fundamental frequency and amplitudes of harmonics using a lightweight encoder and reconstruct the signals using a differentiable harmonic synthesizer. The proposed approach offers a promising direction for improving unsupervised parameter estimation in neural audio applications.
翻訳日:2024-01-17 23:58:52 公開日:2024-01-15
# 可変開口マイクロキャビティによるダイヤモンド中のゲルマニウム原子価欠陥の寿命低減

Lifetime Reduction of Single Germanium-Vacancy Defects in Diamond via a Tunable Open Microcavity ( http://arxiv.org/abs/2312.14313v2 )

ライセンス: Link先を確認
Rigel Zifkin, C\'esar Daniel Rodr\'iguez Rosenblueth, Erika Janitz, Yannik Fontana and Lilian Childress(参考訳) 単一量子エミッタと光学キャビティの結合は、将来の量子ネットワークアプリケーションにとって重要な機能である。 ここでは,ダイヤモンド中のゲルマニウム空洞(GeV)欠陥と極低温におけるオープンマイクロキャビティとの相互作用について検討する。 マイクロキャビティシステムのチューナビリティを活用してエミッタの特性と選択を行い,Purcell効果誘起寿命を最大4.5 pm0.3$まで低減し,最大350 pm20$MHzまでのコヒーレント結合率を抽出する。 以上の結果から,GeV欠陥は共振器結合に有利な光学特性を有し,量子効率は0.32\pm0.05$以上である可能性が示唆された。

Coupling between a single quantum emitter and an optical cavity presents a key capability for future quantum networking applications. Here, we explore interactions between individual germanium-vacancy (GeV) defects in diamond and an open microcavity at cryogenic temperatures. Exploiting the tunability of our microcavity system to characterize and select emitters, we observe a Purcell-effect-induced lifetime reduction of up to $4.5\pm0.3$, and extract coherent coupling rates up to $350\pm20$ MHz. Our results indicate that the GeV defect has favorable optical properties for cavity coupling, with a quantum efficiency of at least $0.32\pm0.05$ and likely much higher.
翻訳日:2024-01-17 23:58:39 公開日:2024-01-15
# t-eval: 大きな言語モデルのツール利用能力を段階的に評価する

T-Eval: Evaluating the Tool Utilization Capability of Large Language Models Step by Step ( http://arxiv.org/abs/2312.14033v3 )

ライセンス: Link先を確認
Zehui Chen, Weihua Du, Wenwei Zhang, Kuikun Liu, Jiangning Liu, Miao Zheng, Jingming Zhuo, Songyang Zhang, Dahua Lin, Kai Chen, Feng Zhao(参考訳) 大規模言語モデル(llm)は様々なnlpタスクで顕著なパフォーマンスを達成し、幅広いアプリケーションのためのツールによって拡張されている。 しかし、LLMのツール活用能力の評価と分析はまだ未検討である。 モデルを全体的評価する従来の作業とは対照的に,ツール利用を命令追従,計画,推論,検索,理解,レビューなど,複数のサブプロセスに包括的に分解する。 そこで本研究では,t-eval を用いてツールの利用率を段階的に評価する。 T-Evalは、ツール利用の評価をモデル機能に沿っていくつかのサブドメインに切り離し、LLMの全体性と分離された能力の両方を内部的に理解するのに役立つ。 各種LLMのT-Evalおよび深部解析について広範な実験を行った。 T-Evalは、結果指向評価と整合性を示すだけでなく、LLMの機能のよりきめ細かな分析も提供する。 ベンチマークはhttps://github.com/open-compass/T-Eval.comで公開される。

Large language models (LLM) have achieved remarkable performance on various NLP tasks and are augmented by tools for broader applications. Yet, how to evaluate and analyze the tool-utilization capability of LLMs is still under-explored. In contrast to previous works that evaluate models holistically, we comprehensively decompose the tool utilization into multiple sub-processes, including instruction following, planning, reasoning, retrieval, understanding, and review. Based on that, we further introduce T-Eval to evaluate the tool utilization capability step by step. T-Eval disentangles the tool utilization evaluation into several sub-domains along model capabilities, facilitating the inner understanding of both holistic and isolated competency of LLMs. We conduct extensive experiments on T-Eval and in-depth analysis of various LLMs. T-Eval not only exhibits consistency with the outcome-oriented evaluation but also provides a more fine-grained analysis of the capabilities of LLMs, providing a new perspective in LLM evaluation on tool-utilization ability. The benchmark will be available at https://github.com/open-compass/T-Eval.
翻訳日:2024-01-17 23:57:54 公開日:2024-01-15
# 制限ボルツマンマシンを用いた画像クラスタリング

Image Clustering using Restricted Boltzman Machine ( http://arxiv.org/abs/2312.13845v2 )

ライセンス: Link先を確認
Abraham Woubie, Enoch Solomon and Eyael Solomon Emiru(参考訳) 様々な検証システムにおいて、制限ボルツマンマシン(RBM)はフロントエンドとバックエンドの両方のプロセスで有効性を示す。 本稿では,画像クラスタリングタスクにおけるrbmsの利用を提案する。 RBMはイメージをイメージ埋め込みに変換するために訓練されている。 従来のボトムアップ型階層クラスタリング(AHC)技術を採用している。 限定的なテスト顔画像データの課題に対処するため,本研究では2つの主要なステップを用いて,制限ボルツマンマシン(ahc-rbm)を用いた画像クラスタリングのための凝集的階層クラスタリング手法を提案する。 当初、ユニバーサルrbmモデルは利用可能なすべてのトレーニングデータセットを使用してトレーニングされる。 その後、各テスト画像からのデータを用いて適応RBMモデルを訓練する。 最後に、埋め込みベクトルであるRBMベクトルは、これらの適応モデルの可視から隠れた重み行列とバイアスベクトルを連結することにより生成される。 これらのベクトルはクラス固有の情報を効果的に保存し、画像クラスタリングタスクで利用される。 2つのベンチマーク画像データセット(MS-Celeb-1MとDeepFashion)で行った実験結果から,提案手法はk平均,スペクトルクラスタリング,近似ランクオーダーといった,よく知られたクラスタリングアルゴリズムを超えていることが示された。

In various verification systems, Restricted Boltzmann Machines (RBMs) have demonstrated their efficacy in both front-end and back-end processes. In this work, we propose the use of RBMs to the image clustering tasks. RBMs are trained to convert images into image embeddings. We employ the conventional bottom-up Agglomerative Hierarchical Clustering (AHC) technique. To address the challenge of limited test face image data, we introduce Agglomerative Hierarchical Clustering based Method for Image Clustering using Restricted Boltzmann Machine (AHC-RBM) with two major steps. Initially, a universal RBM model is trained using all available training dataset. Subsequently, we train an adapted RBM model using the data from each test image. Finally, RBM vectors which is the embedding vector is generated by concatenating the visible-to-hidden weight matrices of these adapted models, and the bias vectors. These vectors effectively preserve class-specific information and are utilized in image clustering tasks. Our experimental results, conducted on two benchmark image datasets (MS-Celeb-1M and DeepFashion), demonstrate that our proposed approach surpasses well-known clustering algorithms such as k-means, spectral clustering, and approximate Rank-order.
翻訳日:2024-01-17 23:57:35 公開日:2024-01-15
# アセンブラ間の共生成空間によるスケーラブルなフラクチャーアセンブリ

Scalable Geometric Fracture Assembly via Co-creation Space among Assemblers ( http://arxiv.org/abs/2312.12340v4 )

ライセンス: Link先を確認
Ruiyuan Zhang and Jiaxiang Liu and Zexi Li and Hao Dong and Jie Fu and Chao Wu(参考訳) 幾何学的破壊組立は考古学と3次元コンピュータビジョンにおいて挑戦的な実践課題である。 従来の手法では、意味情報に基づいたフラグメントの組み立てのみに重点を置いており、効果的に組み立てられるオブジェクトの量が制限されていた。 したがって, 意味情報に頼らずに, 幾何学的フラクチャーアセンブリのためのスケーラブルなフレームワークを開発する必要がある。 意味情報のない幾何的骨折を組み立てることの有効性を向上させるために, 徐々に, 曖昧に組み立てることのできる複数のアセンブラからなる共創空間を提案する。 さらに, フラクチャー組立過程における衝突問題に対処し, 結果を高めるために, 幾何に基づく衝突損失という新たな損失関数を導入する。 私たちのフレームワークは、既存の最先端フレームワークと比較して、partnetとbreaking bad datasetの両方で優れたパフォーマンスを示しています。 大規模実験と定量的比較により,線形計算複雑性,抽象化の強化,一般化の改善を特徴とするフレームワークの有効性が示された。 私たちのコードはhttps://github.com/ruiyuan-zhang/ccsで公開されています。

Geometric fracture assembly presents a challenging practical task in archaeology and 3D computer vision. Previous methods have focused solely on assembling fragments based on semantic information, which has limited the quantity of objects that can be effectively assembled. Therefore, there is a need to develop a scalable framework for geometric fracture assembly without relying on semantic information. To improve the effectiveness of assembling geometric fractures without semantic information, we propose a co-creation space comprising several assemblers capable of gradually and unambiguously assembling fractures. Additionally, we introduce a novel loss function, i.e., the geometric-based collision loss, to address collision issues during the fracture assembly process and enhance the results. Our framework exhibits better performance on both PartNet and Breaking Bad datasets compared to existing state-of-the-art frameworks. Extensive experiments and quantitative comparisons demonstrate the effectiveness of our proposed framework, which features linear computational complexity, enhanced abstraction, and improved generalization. Our code is publicly available at https://github.com/Ruiyuan-Zhang/CCS.
翻訳日:2024-01-17 23:57:16 公開日:2024-01-15
# LLaVA-Phi:小言語モデルを用いた効率的なマルチモーダルアシスタント

LLaVA-Phi: Efficient Multi-Modal Assistant with Small Language Model ( http://arxiv.org/abs/2401.02330v2 )

ライセンス: Link先を確認
Yichen Zhu, Minjie Zhu, Ning Liu, Zhicai Ou, Xiaofeng Mou, Jian Tang(参考訳) 本稿では,最近開発された小言語モデルであるPhi-2のパワーを活用し,マルチモーダル対話を容易にする,効率的なマルチモーダルアシスタントであるLLaVA-$\phi$(LLaVA-Phi)を紹介する。 LLaVA-Phiはコンパクトなマルチモーダルモデルの領域において顕著な進歩を示している。 より小さな言語モデルでも2.7Bのパラメータしか持たず、高品質なコーパスで訓練された場合、テキスト要素と視覚要素の両方を統合する複雑な対話を効果的に行うことができる。 私たちのモデルは、視覚理解、推論、知識に基づく知覚を包含する公開ベンチマークで、賞賛可能なパフォーマンスを提供します。 マルチモーダル対話タスクにおける顕著なパフォーマンスに加えて、我々のモデルは、エンボディエージェントのようなリアルタイム対話を必要とする時間に敏感な環境やシステムにおけるアプリケーションのための新しい道を開く。 リソース効率を高めながら、より高度な理解と対話を実現するための、より小さな言語モデルの可能性を強調している。

In this paper, we introduce LLaVA-$\phi$ (LLaVA-Phi), an efficient multi-modal assistant that harnesses the power of the recently advanced small language model, Phi-2, to facilitate multi-modal dialogues. LLaVA-Phi marks a notable advancement in the realm of compact multi-modal models. It demonstrates that even smaller language models, with as few as 2.7B parameters, can effectively engage in intricate dialogues that integrate both textual and visual elements, provided they are trained with high-quality corpora. Our model delivers commendable performance on publicly available benchmarks that encompass visual comprehension, reasoning, and knowledge-based perception. Beyond its remarkable performance in multi-modal dialogue tasks, our model opens new avenues for applications in time-sensitive environments and systems that require real-time interaction, such as embodied agents. It highlights the potential of smaller language models to achieve sophisticated levels of understanding and interaction, while maintaining greater resource efficiency.The project is available at {https://github.com/zhuyiche/llava-phi}.
翻訳日:2024-01-17 23:50:45 公開日:2024-01-15
# CLAPP:パッシブ水中容器分類におけるコントラスト言語-オーディオ事前学習

CLAPP: Contrastive Language-Audio Pre-training in Passive Underwater Vessel Classification ( http://arxiv.org/abs/2401.02099v2 )

ライセンス: Link先を確認
Zeyu Li, Jingsheng Gao, Tong Yu, Suncheng Xiang, Jiacheng Ruan, Ting Liu, Yuzhuo Fu(参考訳) 既存のオーディオ分類の研究は、受動的水中容器のシナリオの属性を認識することの難しさに直面し、データプライバシの懸念による十分な注釈付きデータセットが欠如している。 本研究では,新しいモデルclapp(contrastive language-audio pre-training in passive underwater vessel classification)を提案する。 本研究の目的は,オーシャンシップデータセットから得られた広い範囲の船舶音声と船舶状態テキストペアを用いてニューラルネットワークを訓練することである。 CLAPPは、生の血管オーディオデータから直接学習することができ、利用可能であれば、慎重にキュレートされたラベルから、受動的水中血管シナリオにおける血管属性の認識を改善することができる。 Modelのゼロショット機能は、タスクを直接最適化することなく、与えられた船体オーディオの最も関連性の高い船体状態記述を予測できる。 本研究の目的は,血管内オーディオテキスト分類と受動的水中オーディオ属性認識という2つの課題を解決することである。 提案手法はdeepshipとshipsearの両方のパブリックデータセットで最新の結果を得ることができ、ゼロショットタスクの以前の方法と比較して精度が7%-13%とかなり低い。

Existing research on audio classification faces challenges in recognizing attributes of passive underwater vessel scenarios and lacks well-annotated datasets due to data privacy concerns. In this study, we introduce CLAPP (Contrastive Language-Audio Pre-training in Passive Underwater Vessel Classification), a novel model. Our aim is to train a neural network using a wide range of vessel audio and vessel state text pairs obtained from an oceanship dataset. CLAPP is capable of directly learning from raw vessel audio data and, when available, from carefully curated labels, enabling improved recognition of vessel attributes in passive underwater vessel scenarios. Model's zero-shot capability allows predicting the most relevant vessel state description for a given vessel audio, without directly optimizing for the task. Our approach aims to solve 2 challenges: vessel audio-text classification and passive underwater vessel audio attribute recognition. The proposed method achieves new state-of-the-art results on both Deepship and Shipsear public datasets, with a notable margin of about 7%-13% for accuracy compared to prior methods on zero-shot task.
翻訳日:2024-01-17 23:50:05 公開日:2024-01-15
# 学びながら行動する - 非定常マルコフ決定過程における適応的意思決定

Act as You Learn: Adaptive Decision-Making in Non-Stationary Markov Decision Processes ( http://arxiv.org/abs/2401.01841v2 )

ライセンス: Link先を確認
Baiting Luo, Yunuo Zhang, Abhishek Dubey, Ayan Mukhopadhyay(参考訳) シーケンシャルな意思決定における基本的な(そしてほとんどオープンな)課題は、時間とともに外生環境が変化する非定常環境を扱うことである。 このような問題は伝統的に非定常マルコフ決定過程(NSMDP)としてモデル化されている。 しかし、NSMDPにおける意思決定のための既存のアプローチには2つの大きな欠点がある: 第一に、彼らは現在の更新された環境力学が知られていると仮定し(将来の力学は変化しうるが)、第二に、計画は概ね悲観的である。 更新された環境条件は滅多に知られておらず、エージェントが環境と相互作用すると、更新されたダイナミクスについて学び、少なくともそれが自信を持っている状態において、悲観的になることを避けることができる。 我々は,これらの課題に対処するヒューリスティック探索アルゴリズムである \textit{adaptive monte carlo tree search (ada-mcts)"を提案する。 エージェントが更新された環境のダイナミクスを時間とともに学習し、学習しながら行動できること、すなわち、エージェントが更新された知識を持つ状態空間の領域にいる場合、悲観的になることを避けることができる。 更新された知識」を定量化するために、エージェントの更新された信念におけるアレター的およびエピステマティックな不確実性を分解し、エージェントがこれらの見積を意思決定にどのように使用できるかを示す。 提案手法を,複数の確立したオープンソース問題に対する意思決定における最先端手法と比較し,安全性を犠牲にすることなく,提案手法がより高速かつ高度に適応できることを実証的に示す。

A fundamental (and largely open) challenge in sequential decision-making is dealing with non-stationary environments, where exogenous environmental conditions change over time. Such problems are traditionally modeled as non-stationary Markov decision processes (NSMDP). However, existing approaches for decision-making in NSMDPs have two major shortcomings: first, they assume that the updated environmental dynamics at the current time are known (although future dynamics can change); and second, planning is largely pessimistic, i.e., the agent acts ``safely'' to account for the non-stationary evolution of the environment. We argue that both these assumptions are invalid in practice -- updated environmental conditions are rarely known, and as the agent interacts with the environment, it can learn about the updated dynamics and avoid being pessimistic, at least in states whose dynamics it is confident about. We present a heuristic search algorithm called \textit{Adaptive Monte Carlo Tree Search (ADA-MCTS)} that addresses these challenges. We show that the agent can learn the updated dynamics of the environment over time and then act as it learns, i.e., if the agent is in a region of the state space about which it has updated knowledge, it can avoid being pessimistic. To quantify ``updated knowledge,'' we disintegrate the aleatoric and epistemic uncertainty in the agent's updated belief and show how the agent can use these estimates for decision-making. We compare the proposed approach with the multiple state-of-the-art approaches in decision-making across multiple well-established open-source problems and empirically show that our approach is faster and highly adaptive without sacrificing safety.
翻訳日:2024-01-17 23:49:43 公開日:2024-01-15
# 多体量子カオス検出の提案

Proposal for many-body quantum chaos detection ( http://arxiv.org/abs/2401.01401v2 )

ライセンス: Link先を確認
Adway Kumar Das, Patrick Pinney, David A. Zarate-Herrada, Sa\'ul Pilatowsky-Cameo, Apollonas S. Matsoukas-Roubeas, Delmar G. A. Cabral, Cameron Cianci, Victor S. Batista, Adolfo del Campo, E. Jonathan Torres-Herrera, Lea F. Santos(参考訳) 本研究では、「量子カオス」という用語を用いて、ランダム行列理論で見られるものと類似したスペクトル相関を述べる。 量子カオスは、短距離と長距離レベルの相関を検出するスペクトルフォームファクターを用いて、レベル統計の分析によって診断することができる。 スペクトル形状因子は、2点スペクトル相関関数のフーリエ変換に対応し、システムがカオスであるときに典型的な傾斜-傾斜-ランプ-プラトー構造(いわゆる相関穴)を示す。 この構造は、実験的な多体量子システム(生存確率とスピン自己相関関数)にアクセスできる2つの物理量の力学によってどのように検出できるかを議論する。 システムが小さくなると、現在の実験プラットフォームや市販の量子コンピュータで検出できるほど短い時間で十分な大きさの値に達する。

In this work, we use the term ``quantum chaos'' to refer to spectral correlations similar to those found in random matrix theory. Quantum chaos can be diagnosed through the analysis of level statistics using the spectral form factor, which detects both short- and long-range level correlations. The spectral form factor corresponds to the Fourier transform of the two-point spectral correlation function and exhibits a typical slope-dip-ramp-plateau structure (aka correlation hole) when the system is chaotic. We discuss how this structure could be detected through the dynamics of two physical quantities accessible to experimental many-body quantum systems: the survival probability and the spin autocorrelation function. When the system is small, the dip reaches values that are large enough at times which are short enough to be detected with current experimental platforms and commercially available quantum computers.
翻訳日:2024-01-17 23:48:53 公開日:2024-01-15
# 結晶材料研究における深いハミルトン回帰の共分散と表現性:ハイブリッドカスケード回帰フレームワーク

Harmonizing Covariance and Expressiveness for Deep Hamiltonian Regression in Crystalline Material Research: a Hybrid Cascaded Regression Framework ( http://arxiv.org/abs/2401.00744v4 )

ライセンス: Link先を確認
Shi Yin, Xinyang Pan, Xudong Zhu, Tianyu Gao, Haochong Zhang, Feng Wu, Lixin He(参考訳) 材料研究における量子システムのハミルトニアン回帰のための深層学習は、共分散則を満たす必要があり、その中でネットワークの表現能力を犠牲にすることなくso(3)等価性を達成することは、理論的等分散の保証に関する非線形写像の制限のため、難解な課題である。 共分散表現性ジレンマを緩和するために,2つの逐次回帰段階を持つハイブリッドフレームワークを提案する。 第一段階、すなわち3次元原子系の対称性特性をモデル化する理論的に保証された共変ニューラルネットワークは、理論的に共変な特徴を抽出したベースラインハミルトニアンを予測する。 一方,第2段階は非線形3次元グラフトランスフォーマーネットワークを用いて,原子系の構造モデリングを提案し,表現性の向上を図ったハミルトンの詳細な予測として,第1段階の出力を洗練する。 理論上は共変だが表現力の低いモデルと高度に表現力のある非線形ネットワークの組み合わせは、座標変換の下で堅牢な共変を維持しつつ、正確で一般化可能な予測を可能にする。 本手法は6つの結晶性材料データベースを用いた実験により,電子構造計算におけるハミルトン予測の最先端性能を実現する。 コードと構成のスクリプトは補足資料で入手できる。

Deep learning for Hamiltonian regression of quantum systems in material research necessitates satisfying the covariance laws, among which achieving SO(3)-equivariance without sacrificing the expressiveness capability of networks remains an elusive challenge due to the restriction to non-linear mappings on guaranteeing theoretical equivariance. To alleviate the covariance-expressiveness dilemma, we propose a hybrid framework with two cascaded regression stages. The first stage, i.e., a theoretically-guaranteed covariant neural network modeling symmetry properties of 3D atom systems, predicts baseline Hamiltonians with theoretically covariant features extracted, assisting the second stage in learning covariance. Meanwhile, the second stage, powered by a non-linear 3D graph Transformer network we propose for structural modeling of atomic systems, refines the first stage's output as a fine-grained prediction of Hamiltonians with better expressiveness capability. The combination of a theoretically covariant yet inevitably less expressive model with a highly expressive non-linear network enables precise, generalizable predictions while maintaining robust covariance under coordinate transformations. Our method achieves state-of-the-art performance in Hamiltonian prediction for electronic structure calculations, confirmed through experiments on six crystalline material databases. The codes and configuration scripts are available in the supplementary material.
翻訳日:2024-01-17 23:47:51 公開日:2024-01-15
# マルチビューデカップリング学習による低リソースプロンプト型関係表現の改善

Improving Low-resource Prompt-based Relation Representation with Multi-view Decoupling Learning ( http://arxiv.org/abs/2312.17267v2 )

ライセンス: Link先を確認
Chenghao Fan, Wei Wei, Xiaoye Qu, Zhenyi Lu, Wenfeng Xie, Yu Cheng, Dangyang Chen(参考訳) 近年,プレトレーニング言語モデル (PLM) を用いたプロンプトチューニングにより,関係抽出(RE)タスクの大幅な向上が示されている。 しかし、利用可能なトレーニングデータが不足している低リソースのシナリオでは、従来のプロンプトベースの手法は、その関係を表面的に理解しているため、プロンプトベースの表現学習では依然として不十分である。 そこで我々は,REの低リソースシナリオにおける高品質な関係表現の学習の重要性を強調し,低リソースのプロンプトチューニングパラダイムにおけるREの性能向上のために,PLMのキャパシティを向上するために,MVRE(\underline{M}ulti-\underline{V}iew \underline{R}elation \underline{E}xtraction)と呼ばれる新しいプロンプトベースの関係表現手法を提案する。 具体的には、MVREは各関係を異なる視点に分離し、関係推論における可能性の最大化のための多視点関係表現を包含する。 さらに,最適化学習過程と初期化過程における関係ラベルのセマンティクスを含む,多視点関係表現仮想単語のアライメントを改善するためのグローバルローカロスと動的初期化手法も設計する。 3つのベンチマークデータセットの大規模な実験により、我々の手法は低リソース環境で最先端を達成できることが示されている。

Recently, prompt-tuning with pre-trained language models (PLMs) has demonstrated the significantly enhancing ability of relation extraction (RE) tasks. However, in low-resource scenarios, where the available training data is scarce, previous prompt-based methods may still perform poorly for prompt-based representation learning due to a superficial understanding of the relation. To this end, we highlight the importance of learning high-quality relation representation in low-resource scenarios for RE, and propose a novel prompt-based relation representation method, named MVRE (\underline{M}ulti-\underline{V}iew \underline{R}elation \underline{E}xtraction), to better leverage the capacity of PLMs to improve the performance of RE within the low-resource prompt-tuning paradigm. Specifically, MVRE decouples each relation into different perspectives to encompass multi-view relation representations for maximizing the likelihood during relation inference. Furthermore, we also design a Global-Local loss and a Dynamic-Initialization method for better alignment of the multi-view relation-representing virtual words, containing the semantics of relation labels during the optimization learning process and initialization. Extensive experiments on three benchmark datasets show that our method can achieve state-of-the-art in low-resource settings.
翻訳日:2024-01-17 23:44:27 公開日:2024-01-15
# PhilEO Bench氏:地球空間基盤モデルの評価

PhilEO Bench: Evaluating Geo-Spatial Foundation Models ( http://arxiv.org/abs/2401.04464v2 )

ライセンス: Link先を確認
Casper Fibaek, Luke Camilleri, Andreas Luyts, Nikolaos Dionelis, Bertrand Le Saux(参考訳) 地球観測衛星(EO)は大量のデータを収集し、センチネル2星座は毎日1.6TBのデータを生成する。 これにより、Remote Sensingは機械学習(ML)ソリューションに適したデータリッチなドメインになります。 しかしながら、EOにMLモデルを適用する際のボトルネックは、アノテーションとしての注釈付きデータが欠如していることである。 その結果、この領域の研究は、自己監督学習とファンデーションモデルアプローチに焦点を当てた。 本稿では、EOファンデーションモデルのための新しい評価フレームワークであるPhilEO Benchを導入することにより、公平で均一なベンチマークで異なるファンデーションモデルを評価する必要性に対処する。 このフレームワークは、テストベッドと、ビル密度推定、道路分割、土地被覆分類の3つの下流タスクのラベルを含む400GBのSentinel-2データセットからなる。 我々は,Prithvi や SatMAE など,異なる基礎モデルを評価するフレームワークを用いて,複数の n ショットと収束率で実験を行った。

Massive amounts of unlabelled data are captured by Earth Observation (EO) satellites, with the Sentinel-2 constellation generating 1.6 TB of data daily. This makes Remote Sensing a data-rich domain well suited to Machine Learning (ML) solutions. However, a bottleneck in applying ML models to EO is the lack of annotated data as annotation is a labour-intensive and costly process. As a result, research in this domain has focused on Self-Supervised Learning and Foundation Model approaches. This paper addresses the need to evaluate different Foundation Models on a fair and uniform benchmark by introducing the PhilEO Bench, a novel evaluation framework for EO Foundation Models. The framework comprises of a testbed and a novel 400 GB Sentinel-2 dataset containing labels for three downstream tasks, building density estimation, road segmentation, and land cover classification. We present experiments using our framework evaluating different Foundation Models, including Prithvi and SatMAE, at multiple n-shots and convergence rates.
翻訳日:2024-01-17 23:36:46 公開日:2024-01-15
# カテゴリー6Dポッドトラッカーを用いた実世界空中視誘導に向けて

Towards Real-World Aerial Vision Guidance with Categorical 6D Pose Tracker ( http://arxiv.org/abs/2401.04377v2 )

ライセンス: Link先を確認
Jingtao Sun, Yaonan Wang, Danwei Wang(参考訳) オブジェクト6-DoFのポーズを追跡することは、さまざまな下流ロボットタスクや現実世界のアプリケーションに不可欠である。 本稿では,カテゴリーレベルの6-DoFポーズトラッキングを利用して,空中ロボット操作のための空中視覚誘導の現実ロボットタスクについて検討する。 航空条件は、ピッチとロールの迅速な視点変化やフレーム間の違いなど、必然的に特別な課題をもたらす。 これらの課題をサポートするため,まず,ロバストレベル6-dofポーズトラッカ(robust6dof)を導入する。 このトラッカーは、形状と時間的事前知識を利用して、粗大な方法で事前構造適応監視の下で生成される最適なフレーム間キーポイントペアを探索する。 特に,我々のRobust6DoFでは,時間的動的フィルタリングと形状相似フィルタリングの両方によるフレーム間差とクラス内形状変化の問題に対処するために,空間時間拡張モジュールを採用している。 さらに,Pose-Aware Discrete Servo(PAD-Servo)戦略について述べる。 エアロロボティクスの操作の構造的特性をよりよく適合させるために、2つのサーボアクションポリシーを含んでいる。 4つのよく知られた公開ベンチマークでの発掘実験は、我々のRobust6DoFの優位性を示している。 実世界のテストは、我々のRobust6DoFとPAD-Servoが現実世界の空中ロボットアプリケーションで容易に利用できることを直接確認します。

Tracking the object 6-DoF pose is crucial for various downstream robot tasks and real-world applications. In this paper, we investigate the real-world robot task of aerial vision guidance for aerial robotics manipulation, utilizing category-level 6-DoF pose tracking. Aerial conditions inevitably introduce special challenges, such as rapid viewpoint changes in pitch and roll and inter-frame differences. To support these challenges in task, we firstly introduce a robust category-level 6-DoF pose tracker (Robust6DoF). This tracker leverages shape and temporal prior knowledge to explore optimal inter-frame keypoint pairs, generated under a priori structural adaptive supervision in a coarse-to-fine manner. Notably, our Robust6DoF employs a Spatial-Temporal Augmentation module to deal with the problems of the inter-frame differences and intra-class shape variations through both temporal dynamic filtering and shape-similarity filtering. We further present a Pose-Aware Discrete Servo strategy (PAD-Servo), serving as a decoupling approach to implement the final aerial vision guidance task. It contains two servo action policies to better accommodate the structural properties of aerial robotics manipulation. Exhaustive experiments on four well-known public benchmarks demonstrate the superiority of our Robust6DoF. Real-world tests directly verify that our Robust6DoF along with PAD-Servo can be readily used in real-world aerial robotic applications.
翻訳日:2024-01-17 23:36:30 公開日:2024-01-15
# widthformer:効率的なトランスフォーマティブベースのbevビュー変換に向けて

WidthFormer: Toward Efficient Transformer-based BEV View Transformation ( http://arxiv.org/abs/2401.03836v4 )

ライセンス: Link先を確認
Chenhongyi Yang, Tianwei Lin, Lichao Huang and Elliot J. Crowley(参考訳) 本稿では,リアルタイム自動運転アプリケーション用に調整された,新しいトランスフォーマティブベースバードズアイビュー(bev)3次元検出手法であるwidthformerを提案する。 WidthFormerは計算効率が高く、堅牢で、デプロイに特別なエンジニアリング作業を必要としない。 本研究では,3次元幾何情報を高精度にカプセル化できる新しい3次元位置符号化機構を提案する。 この機構は既存のスパース3Dオブジェクト検出器にも有用である。 最近提案した作業にインスパイアされ,注目キーや値として機能する際の画像特徴を垂直に圧縮することで,モデルの有効性をさらに向上する。 特徴圧縮による潜在的な情報損失を補償する2つのモジュールも導入する。 広範に使用されている3dオブジェクト検出ベンチマークの実験的評価では,従来の3d検出アーキテクチャよりも優れていた。 さらに重要なことは、私たちのモデルは極めて効率的です。 例えば、256\times 704$の入力イメージを使用すると、NVIDIA 3090 GPUとHorizon Journey-5の計算ソリューションでそれぞれ1.5msと2.8msのレイテンシを達成する。 さらに、widthformerは、異なるカメラの摂動に対して強いロバスト性を示す。 我々の研究は、現実の複雑な道路環境におけるBEV変換手法の展開に関する貴重な洞察を提供する。 コードはhttps://github.com/ChenhongyiYang/WidthFormerで入手できる。

In this work, we present WidthFormer, a novel transformer-based Bird's-Eye-View (BEV) 3D detection method tailored for real-time autonomous-driving applications. WidthFormer is computationally efficient, robust and does not require any special engineering effort to deploy. In this work, we propose a novel 3D positional encoding mechanism capable of accurately encapsulating 3D geometric information, which enables our model to generate high-quality BEV representations with only a single transformer decoder layer. This mechanism is also beneficial for existing sparse 3D object detectors. Inspired by the recently-proposed works, we further improve our model's efficiency by vertically compressing the image features when serving as attention keys and values. We also introduce two modules to compensate for potential information loss due to feature compression. Experimental evaluation on the widely-used nuScenes 3D object detection benchmark demonstrates that our method outperforms previous approaches across different 3D detection architectures. More importantly, our model is highly efficient. For example, when using $256\times 704$ input images, it achieves 1.5 ms and 2.8 ms latency on NVIDIA 3090 GPU and Horizon Journey-5 computation solutions, respectively. Furthermore, WidthFormer also exhibits strong robustness to different degrees of camera perturbations. Our study offers valuable insights into the deployment of BEV transformation methods in real-world, complex road environments. Code is available at https://github.com/ChenhongyiYang/WidthFormer .
翻訳日:2024-01-17 23:34:55 公開日:2024-01-15
# コヒーレンス量子利益を用いた量子遠隔状態生成の効率的検出

Efficient Detection of Preparing Quantum Remote States Using Coherence Quantum Benefits ( http://arxiv.org/abs/2401.03674v2 )

ライセンス: Link先を確認
Yuan-Sung Liu, Shih-Hsuan Chen, Bing-Yuan Lee, Chan Hsu, Guang-Yin Chen, Yueh-Nan Chen, Che-Ming Li(参考訳) 送信者は、予め整合されたペアを使用してリモート受信機に対して量子状態を作成することができ、送信機は単一量子ビットの測定のみを行い、受信機は送信機から通知される単純な補正を行う。 量子情報に対する量子テレポーテーションよりも資源効率のよい利点を提供する。 本稿では、共有ペアの量子コヒーレンス静的リソースと、RSP参加者の入力の両方の動的リソースの量子的利点に基づいて、リモート状態準備(RSP)を検出するための最も効率的なアプローチを提案する。 RSPを検証するには、受信機の最低1つのコヒーレンス生成操作のみが必要となる。 本研究では,高品位偏光サーニャック干渉計から発生する異なる光子対状態を用いたrsp評価を行い,静的および動的量子コヒーレンスリソースが果たす必要十分の役割を確認し,効率的なrsp検証を行う。 この結果は,量子ネットワークにおける量子情報などの現実的なシナリオにおいて,RSPを効率的に評価するための経路を提供する。

A sender can prepare a quantum state for a remote receiver using preshared entangled pairs, only the sender's single-qubit measurement, and the receiver's simple correction informed by the sender. It provides resource-efficient advantages over quantum teleportation for quantum information. Here, we propose the most efficient approach to detect the remote state preparation (RSP) based on the quantum benefits powered by quantum coherence's static resources of the shared pairs and the dynamic resources both the RSP participants input. It requires only the receiver's minimum of one additional coherence creation operation to verify RSP. Experimentally, we implement the introduced RSP assessment using different photon pair states generated from a high-quality polarization Sagnac interferometer, confirming the necessary and sufficient role played by the static and dynamic quantum coherence resources and demonstrating efficient RSP verification. Our results provide a route to efficiently assess RSP in practical scenarios such as quantum information in quantum networks.
翻訳日:2024-01-17 23:34:32 公開日:2024-01-15
# トレーニング済みのモデルは改善されましたか? マルチヘッド後部アプローチ

Has Your Pretrained Model Improved? A Multi-head Posterior Based Approach ( http://arxiv.org/abs/2401.02987v3 )

ライセンス: Link先を確認
Prince Aboagye, Yan Zheng, Junpeng Wang, Uday Singh Saini, Xin Dai, Michael Yeh, Yujie Fan, Zhongfang Zhuang, Shubham Jain, Liang Wang and Wei Zhang(参考訳) 事前訓練されたモデルの出現は、自然言語処理(NLP)とコンピュータビジョンを関係データセットに大きく影響した。 伝統的に、これらのモデルは微調整された下流タスクによって評価される。 しかし、このことはこれらのモデルをより効率的に効率的に評価する方法の疑問を提起する。 本研究では,各エンティティに関連付けられたメタ特徴を世界的知識の源として活用し,モデルからエンティティ表現を採用する,新しいアプローチを提案する。 本稿では,これらの表現とメタ特徴の整合性を,事前学習モデルの評価指標として用いることを提案する。 提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。

The emergence of pretrained models has significantly impacted Natural Language Processing (NLP) and Computer Vision to relational datasets. Traditionally, these models are assessed through fine-tuned downstream tasks. However, this raises the question of how to evaluate these models more efficiently and more effectively. In this study, we explore a novel approach where we leverage the meta features associated with each entity as a source of worldly knowledge and employ entity representations from the models. We propose using the consistency between these representations and the meta features as a metric for evaluating pretrained models. Our method's effectiveness is demonstrated across various domains, including models with relational datasets, large language models and image models.
翻訳日:2024-01-17 23:32:40 公開日:2024-01-15
# 移動学習を用いた高周波・マルチスケール問題に対する物理インフォームニューラルネットワーク

Physics-Informed Neural Networks for High-Frequency and Multi-Scale Problems using Transfer Learning ( http://arxiv.org/abs/2401.02810v2 )

ライセンス: Link先を確認
Abdul Hannan Mustajab, Hao Lyu, Zarghaam Rizvi, Frank Wuttke(参考訳) physics-informed neural network (pinn) は、偏微分方程式(odes/pdes)のためのデータ駆動型解法である。 前方および逆問題に対処するための統一されたフレームワークを提供する。 しかし、目的関数の複雑さは、しばしばトレーニングの失敗につながる。 この問題は、高周波およびマルチスケールの問題を解決する際に特に顕著である。 我々は,低周波問題からトレーニングを開始し,徐々に高周波問題にアプローチし,PINNの堅牢性と収束性を高めるために伝達学習を用いた。 その結果,ネットワークパラメータを増加させることなく,低周波問題から高周波問題への近似解としてpinnを効果的に学習できることが判明した。 さらに、データポイントの削減とトレーニング時間の短縮も必要だ。 我々は、オプティマイザの選択を含むトレーニング戦略を詳しく説明し、トランスファーラーニングを使用してより複雑な問題を解決するためにニューラルネットワークをトレーニングするためのガイドラインを提案した。

Physics-informed neural network (PINN) is a data-driven solver for partial and ordinary differential equations(ODEs/PDEs). It provides a unified framework to address both forward and inverse problems. However, the complexity of the objective function often leads to training failures. This issue is particularly prominent when solving high-frequency and multi-scale problems. We proposed using transfer learning to boost the robustness and convergence of training PINN, starting training from low-frequency problems and gradually approaching high-frequency problems. Through two case studies, we discovered that transfer learning can effectively train PINN to approximate solutions from low-frequency problems to high-frequency problems without increasing network parameters. Furthermore, it requires fewer data points and less training time. We elaborately described our training strategy, including optimizer selection, and suggested guidelines for using transfer learning to train neural networks for solving more complex problems.
翻訳日:2024-01-17 23:32:06 公開日:2024-01-15
# シルエット集合体:マイクロからマクロへ

Silhouette Aggregation: From Micro to Macro ( http://arxiv.org/abs/2401.05831v2 )

ライセンス: Link先を確認
Georgios Vardakas and John Pavlopoulos and Aristidis Likas(参考訳) シルエット係数(Silhouette coefficient)は、クラスタリング割り当ての品質を評価し、データポイント当たりのスコアを生成する確立された内部クラスタリング評価尺度である。 データセット全体のクラスタリングの品質を評価するために、データセットのすべてのポイントのスコアは(マイクロ)1つの値に平均化され、クラスタレベルで平均化され、それから(マクロ)平均化されます。 本研究で示すように, マイクロアベリング戦略は, クラスタ不均衡とアウトレーラ(バックグラウンドノイズ)の両方に敏感であり, マクロアベリングの方がより堅牢である。 さらに、後者は、シルエットスコアの堅牢な計算をもたらすクラスタバランスサンプリングを可能にする。 実世界の8つのデータセットについて実験を行い、クラスターの真理数を推定することにより、マイクロおよびマクロの係数が考慮されるべきであることを示す。

Silhouette coefficient is an established internal clustering evaluation measure that produces a score per data point, assessing the quality of its clustering assignment. To assess the quality of the clustering of the whole dataset, the scores of all the points in the dataset are either (micro) averaged into a single value or averaged at the cluster level and then (macro) averaged. As we illustrate in this work, by using a synthetic example, the micro-averaging strategy is sensitive both to cluster imbalance and outliers (background noise) while macro-averaging is far more robust to both. Furthermore, the latter allows cluster-balanced sampling which yields robust computation of the silhouette score. By conducting an experimental study on eight real-world datasets, estimating the ground truth number of clusters, we show that both coefficients, micro and macro, should be considered.
翻訳日:2024-01-17 23:25:46 公開日:2024-01-15
# 高次相関測定によるマクロリアリズムのループホールフリーテスト

Loophole-free test of macroscopic realism via high-order correlations of measurement ( http://arxiv.org/abs/2401.05246v2 )

ライセンス: Link先を確認
Ping Wang and Chong Chen and Hao Liao and Vadim V. Vorobyov and Joerg Wrachtrup and and Ren-Bao Liu(参考訳) マクロ的リアリズム(MR)のテストは、量子力学の基礎を理解するための鍵となる。 しかしながら、非侵襲的測定可能性(non-invasive measability)ループホールやその他の解釈ループホールが存在するため、そのようなテストは未解決の問題である。 本稿では,低信号限界におけるMRのループホールフリー試験における高次相関に基づく一般不等式を提案する。 重要なことに、この不等式は、古典的なデバイスによって記録された \textit{raw data} の統計を用いて確立され、測定プロセスの特定のモデルを必要としない。 弱い信号限界は(相関の異なる順序の相対的スケーリング挙動を用いて)測定データのみで検証できるため、非侵襲的な測定可能性ループホールも閉鎖される。 量子スピンモデルによって不等式が破られることを実証する。 ここで提案された不等式はmr原理の曖昧なテストを提供し、 {quantum coherence} を特徴付けるのにも有用である。

Test of {macroscopic realism} (MR) is key to understanding the foundation of quantum mechanics. Due to the existence of the {non-invasive measurability} loophole and other interpretation loopholes, however, such test remains an open question. Here we propose a general inequality based on high-order correlations of measurements for a loophole-free test of MR at the weak signal limit. Importantly, the inequality is established using the statistics of \textit{raw data} recorded by classical devices, without requiring a specific model for the measurement process, so its violation would falsify MR without the interpretation loophole. The non-invasive measurability loophole is also closed, since the weak signal limit can be verified solely by measurement data (using the relative scaling behaviors of different orders of correlations). We demonstrate that the inequality can be broken by a quantum spin model. The inequality proposed here provides an unambiguous test of the MR principle and is also useful to characterizing {quantum coherence}.
翻訳日:2024-01-17 23:23:28 公開日:2024-01-15
# 増幅された圧縮状態:損失と位相雑音の分析

Amplified Squeezed States: Analyzing Loss and Phase Noise ( http://arxiv.org/abs/2401.04937v2 )

ライセンス: Link先を確認
K. M. Kwan, M. J. Yap, J. Qin, D. W. Gould, V. B. Adya, S. S. Y. Chua, J. Junker, T. G. McRae, B. J. J. Slagmolen, D. E. McClelland(参考訳) 圧縮状態の位相感度増幅は、例えば2マイクロメートルの波長で高い検出損失を緩和する技術である。 増幅圧縮状態の解析モデルは位相雑音の影響を拡大し, 有効測定可能なスクイーズと有効検出効率の2つの実用的なパラメータを導出する。 現実的なパラメータを含むケーススタディでは、位相感応増幅の利点が示されている。 光学パラメトリック増幅器(OPA)の位相ノイズはスケズレベルに最小限に影響を与え,OPAの利得を増大させることができた。 このスキームは提案された重力波検出器と互換性があり、光導波路の出力結合損失によって劣化する量子システムにおける応用と一致する。

Phase-sensitive amplification of squeezed states is a technique to mitigate high detection loss, e.g. at 2-micrometre wavelengths. Our analytical model of amplified squeezed states expands on the effect of phase noise and derives two practical parameters: the effective measurable squeezing and the effective detection efficiency. A case study including realistic parameters demonstrates the benefit of phase-sensitive amplification. We identified the phase noise in the optical parametric amplifier (OPA) minimally affects the squeezing level, enabling increased gain of the OPA. This scheme is compatible with proposed gravitational-wave detectors and consistent with applications in quantum systems that are degraded by output coupling loss in optical waveguides.
翻訳日:2024-01-17 23:22:44 公開日:2024-01-15
# Lightning Attention-2: 大規模言語モデルにおける無制限シーケンス長処理自由ランチ

Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models ( http://arxiv.org/abs/2401.04658v2 )

ライセンス: Link先を確認
Zhen Qin, Weigao Sun, Dong Li, Xuyang Shen, Weixuan Sun, Yiran Zhong(参考訳) リニアアテンションは,従来型のソフトマックスアテンションに代わる有望な代替手段として最近登場した,効率的なアテンション機構である。 線形計算の複雑さでトークンを処理する能力により、理論的には、線形注意は、速度を犠牲にすることなく無制限の長さのシーケンスを処理できる。 しかし、累積和法(cumsum)の問題のため、現在の線形注意アルゴリズムは因果関係においてその理論的利点を示すことができない。 本稿では、線形アテンションによる理論計算の利点を実現するための最初の線形アテンション実装であるLightning Attention-2を提案する。 これを実現するために,線形注意計算においてブロック内コンポーネントとブロック間コンポーネントを別々に扱い,タイル化の考え方を利用する。 具体的には,従来のブロック内アテンション計算機構を利用し,ブロック間における線形アテンションカーネルトリックを適用する。 ティリング技術は、gpuハードウェアを最大限活用するために、前方と後方の両方の手順で採用されている。 アルゴリズムをTritonに実装し、IO対応でハードウェアフレンドリーにしています。 異なるモデルサイズとシーケンス長について様々な実験を行った。 Lightning Attention-2は、入力シーケンスの長さに関わらず、一貫したトレーニングと推論速度を保持し、他の注意機構よりもはるかに高速である。 ソースコードはhttps://github.com/opennlplab/lightning-attentionで入手できる。

Linear attention is an efficient attention mechanism that has recently emerged as a promising alternative to conventional softmax attention. With its ability to process tokens in linear computational complexities, linear attention, in theory, can handle sequences of unlimited length without sacrificing speed, i.e., maintaining a constant training speed for various sequence lengths with a fixed memory consumption. However, due to the issue with cumulative summation (cumsum), current linear attention algorithms cannot demonstrate their theoretical advantage in a causal setting. In this paper, we present Lightning Attention-2, the first linear attention implementation that enables linear attention to realize its theoretical computational benefits. To achieve this, we leverage the thought of tiling, separately handling the intra-block and inter-block components in linear attention calculation. Specifically, we utilize the conventional attention computation mechanism for the intra-blocks and apply linear attention kernel tricks for the inter-blocks. A tiling technique is adopted through both forward and backward procedures to take full advantage of the GPU hardware. We implement our algorithm in Triton to make it IO-aware and hardware-friendly. Various experiments are conducted on different model sizes and sequence lengths. Lightning Attention-2 retains consistent training and inference speed regardless of input sequence length and is significantly faster than other attention mechanisms. The source code is available at https://github.com/OpenNLPLab/lightning-attention.
翻訳日:2024-01-17 23:20:43 公開日:2024-01-15
# 解釈可能性の最適化:畳み込み動的アライメントネットワーク

Optimising for Interpretability: Convolutional Dynamic Alignment Networks ( http://arxiv.org/abs/2109.13004v2 )

ライセンス: Link先を確認
Moritz B\"ohle, Mario Fritz, Bernt Schiele(参考訳) 本稿では,畳み込み動的アライメントネットワーク(convolutional dynamic alignment network, coda nets)と呼ばれるニューラル・ネットワーク・モデルについて紹介する。 コアとなる構成要素は動的アライメントユニット(daus)で、タスク関連パターンに合わせた動的に計算された重みベクトルで入力を変換するように最適化されている。 その結果、CoDA Netsは一連の入力依存線形変換を通じて分類予測をモデル化し、出力を個々の入力コントリビューションに線形分解することができる。 DAUのアライメントが与えられた結果のコントリビューションマップは、識別的な入力パターンと一致します。 これらのモデルインヒーレント分解は、視覚的な品質が高く、定量的指標の下で既存の帰属方法よりも優れています。 さらに、CoDA Netsはパフォーマンス分類器を構成し、CIFAR-10やTinyImagenetなどのResNetやVGGモデルと同等の結果を得る。 最後に、codaネットを従来のニューラルネットワークモデルと組み合わせることで、imagenetのような複雑なデータセットに対してより容易にスケールできる強力な分類器が得られる。

We introduce a new family of neural network models called Convolutional Dynamic Alignment Networks (CoDA Nets), which are performant classifiers with a high degree of inherent interpretability. Their core building blocks are Dynamic Alignment Units (DAUs), which are optimised to transform their inputs with dynamically computed weight vectors that align with task-relevant patterns. As a result, CoDA Nets model the classification prediction through a series of input-dependent linear transformations, allowing for linear decomposition of the output into individual input contributions. Given the alignment of the DAUs, the resulting contribution maps align with discriminative input patterns. These model-inherent decompositions are of high visual quality and outperform existing attribution methods under quantitative metrics. Further, CoDA Nets constitute performant classifiers, achieving on par results to ResNet and VGG models on e.g. CIFAR-10 and TinyImagenet. Lastly, CoDA Nets can be combined with conventional neural network models to yield powerful classifiers that more easily scale to complex datasets such as Imagenet whilst exhibiting an increased interpretable depth, i.e., the output can be explained well in terms of contributions from intermediate layers within the network.
翻訳日:2024-01-17 21:39:32 公開日:2024-01-15
# 階層的ランダム化平滑化

Hierarchical Randomized Smoothing ( http://arxiv.org/abs/2310.16221v4 )

ライセンス: Link先を確認
Yan Scholten, Jan Schuchardt, Aleksandar Bojchevski, Stephan G\"unnemann(参考訳) 実世界のデータは複雑で、しばしば複数のエンティティ(例えば画像はピクセル、グラフは相互接続ノード)に分解できるオブジェクトで構成されている。 ランダム化平滑化(randomized smoothing)は、モデルが入力の小さな変更に対して確実に堅牢になるための強力なフレームワークである。 しかし、オブジェクト全体(例えば画像)を任意に摂動せず、エンティティのサブセット(例えばピクセル)しか持たない場合、ランダムな平滑化による複雑なデータに対するロバスト性の証明は困難である。 ランダムに選択されたエンティティのサブセットにのみランダムノイズを追加することにより、部分的にオブジェクトを平滑化します。 従来の手法よりも標的に雑音を加えることで、高い精度を維持しながら強靭性を保証する。 異なるノミージング分布を用いて階層的平滑化を初期化し,離散的および連続的領域に対する新しいロバスト性証明を導出する。 画像とノードの分類における階層的平滑化の重要性を実験的に実証し,ロバスト性・正確性に優れたトレードオフをもたらすことを示した。 全体として、階層的平滑化は、摂動に対して確実に堅牢で正確であるモデルにとって重要な貢献である。

Real-world data is complex and often consists of objects that can be decomposed into multiple entities (e.g. images into pixels, graphs into interconnected nodes). Randomized smoothing is a powerful framework for making models provably robust against small changes to their inputs - by guaranteeing robustness of the majority vote when randomly adding noise before classification. Yet, certifying robustness on such complex data via randomized smoothing is challenging when adversaries do not arbitrarily perturb entire objects (e.g. images) but only a subset of their entities (e.g. pixels). As a solution, we introduce hierarchical randomized smoothing: We partially smooth objects by adding random noise only on a randomly selected subset of their entities. By adding noise in a more targeted manner than existing methods we obtain stronger robustness guarantees while maintaining high accuracy. We initialize hierarchical smoothing using different noising distributions, yielding novel robustness certificates for discrete and continuous domains. We experimentally demonstrate the importance of hierarchical smoothing in image and node classification, where it yields superior robustness-accuracy trade-offs. Overall, hierarchical smoothing is an important contribution towards models that are both - certifiably robust to perturbations and accurate.
翻訳日:2024-01-17 21:33:02 公開日:2024-01-15
# fuzz4all: 大きな言語モデルによるユニバーサルなファズリング

Fuzz4All: Universal Fuzzing with Large Language Models ( http://arxiv.org/abs/2308.04748v2 )

ライセンス: Link先を確認
Chunqiu Steven Xia, Matteo Paltenghi, Jia Le Tian, Michael Pradel, Lingming Zhang(参考訳) ファジィングは、様々なソフトウェアシステムでバグや脆弱性を発見することに大きく成功しました。 プログラムや形式言語をインプット(例えば、コンパイラ、ランタイムエンジン、制約解決器、アクセス可能なapiを持つソフトウェアライブラリ)として採用するテストシステム(sut)は、ソフトウェア開発の基本的なビルディングブロックであるため、特に重要です。 しかし、そのようなシステムのための既存のファジィザは、しばしば特定の言語をターゲットにしているため、他の言語や同じ言語の他のバージョンにも容易に適用できない。 さらに、既存のファッジャによって生成された入力は、しばしば入力言語の特定の特徴に制限されるため、他の機能や新機能に関連するバグをほとんど明らかにできない。 本稿では,多種多様な入力言語を対象とし,それら言語の様々な特徴を多用できるという意味で,普遍的な最初のファザーであるfuzz4allを提案する。 fuzz4allの背後にある重要なアイデアは、入力生成および突然変異エンジンとして大規模な言語モデル(llms)を活用することである。 この可能性を実現するために,ファジングに適したllmプロンプトを生成する新しい自動プロンプト手法と,新たなファジング入力を生成するためにプロンプトを反復的に更新する新しいllm駆動ファジングループを提案する。 テスト中の9つのシステム(C、C++、Go、SMT2、Java、Python)を入力として評価する。 評価の結果、universal fuzzingは、既存の言語固有のfuzzersよりも高いカバレッジを達成している。 さらにFuzz4Allは、GCC、Clang、Z3、CVC5、OpenJDK、Qiskit量子コンピューティングプラットフォームなど、広く使用されているシステムで98のバグを特定した。

Fuzzing has achieved tremendous success in discovering bugs and vulnerabilities in various software systems. Systems under test (SUTs) that take in programming or formal language as inputs, e.g., compilers, runtime engines, constraint solvers, and software libraries with accessible APIs, are especially important as they are fundamental building blocks of software development. However, existing fuzzers for such systems often target a specific language, and thus cannot be easily applied to other languages or even other versions of the same language. Moreover, the inputs generated by existing fuzzers are often limited to specific features of the input language, and thus can hardly reveal bugs related to other or new features. This paper presents Fuzz4All, the first fuzzer that is universal in the sense that it can target many different input languages and many different features of these languages. The key idea behind Fuzz4All is to leverage large language models (LLMs) as an input generation and mutation engine, which enables the approach to produce diverse and realistic inputs for any practically relevant language. To realize this potential, we present a novel autoprompting technique, which creates LLM prompts that are wellsuited for fuzzing, and a novel LLM-powered fuzzing loop, which iteratively updates the prompt to create new fuzzing inputs. We evaluate Fuzz4All on nine systems under test that take in six different languages (C, C++, Go, SMT2, Java and Python) as inputs. The evaluation shows, across all six languages, that universal fuzzing achieves higher coverage than existing, language-specific fuzzers. Furthermore, Fuzz4All has identified 98 bugs in widely used systems, such as GCC, Clang, Z3, CVC5, OpenJDK, and the Qiskit quantum computing platform, with 64 bugs already confirmed by developers as previously unknown.
翻訳日:2024-01-17 21:30:51 公開日:2024-01-15
# 変圧器モデルを用いたイタリアの生物医学情報抽出:方法論的考察と多施設応用

Advancing Italian Biomedical Information Extraction with Transformers-based Models: Methodological Insights and Multicenter Practical Application ( http://arxiv.org/abs/2306.05323v2 )

ライセンス: Link先を確認
Claudio Crema, Tommaso Mario Buonocore, Silvia Fostinelli, Enea Parimbelli, Federico Verde, Cira Fundar\`o, Marina Manera, Matteo Cotta Ramusino, Marco Capelli, Alfredo Costa, Giuliano Binetti, Riccardo Bellazzi and Alberto Redolfi(参考訳) 病院での電子医療記録の導入により、手書きや情報フェッチなどの負担が軽減された。 しかし、医療記録に含まれるデータは、主に構造化されていない医療記録からデータを抽出するのに時間と労力を要するため、まだ未利用である。 自然言語処理のサブフィールドである情報抽出は、自動テキストマイニングパイプラインを使用することで、臨床実践者がこの制限を克服するのに役立つ。 本研究では,イタリアで初めての神経心理学的名前付きエンティティ認識データセットであるPsyNITを作成し,それをTransformersベースのモデルの開発に利用した。 さらに、3つの外部独立データセットを収集して,f1-score 84.77%,精度83.16%,リコール86.44%という,効果的なマルチセンタモデルを実装した。 学んだ教訓は次のとおりである。 (i)一貫したアノテーションプロセスの重要な役割 (ii)古典的手法と「低リソース」な手法を組み合わせた微調整戦略。 これにより、低リソース言語における自然言語処理研究の道を開くための方法論的ガイドラインを確立できる。

The introduction of computerized medical records in hospitals has reduced burdensome activities like manual writing and information fetching. However, the data contained in medical records are still far underutilized, primarily because extracting data from unstructured textual medical records takes time and effort. Information Extraction, a subfield of Natural Language Processing, can help clinical practitioners overcome this limitation by using automated text-mining pipelines. In this work, we created the first Italian neuropsychiatric Named Entity Recognition dataset, PsyNIT, and used it to develop a Transformers-based model. Moreover, we collected and leveraged three external independent datasets to implement an effective multicenter model, with overall F1-score 84.77%, Precision 83.16%, Recall 86.44%. The lessons learned are: (i) the crucial role of a consistent annotation process and (ii) a fine-tuning strategy that combines classical methods with a "low-resource" approach. This allowed us to establish methodological guidelines that pave the way for Natural Language Processing studies in less-resourced languages.
翻訳日:2024-01-17 21:29:51 公開日:2024-01-15
# 共同エンティティと関係抽出のための自動回帰テキスト-グラフフレームワーク

An Autoregressive Text-to-Graph Framework for Joint Entity and Relation Extraction ( http://arxiv.org/abs/2401.01326v2 )

ライセンス: Link先を確認
Urchade Zaratiana, Nadi Tomeh, Pierre Holat, Thierry Charnois(参考訳) 本稿では、条件付きシーケンス生成問題としてフレーミングすることで、非構造化テキストから結合エンティティと関係抽出を行う新しい手法を提案する。 左から右へのトークンレベルジェネレータである従来の生成情報抽出モデルとは対照的に,本手法はtextit{span-based} である。 ノードがテキストスパンを表し、エッジが関係トリプルを表す線形化グラフを生成する。 本手法では,スパンと関係型の動的語彙にポインティング機構を付加したトランスフォーマーエンコーダデコーダアーキテクチャを用いる。 提案モデルでは,提案手法により生成した出力を元のテキストで同時にグラウンド化しながら,エンティティとリレーションの構造的特性と境界を表現できる。 ベンチマークデータセットの評価は、我々のアプローチの有効性を評価し、競合する結果を実証する。 コードはhttps://github.com/urchade/atgで入手できる。

In this paper, we propose a novel method for joint entity and relation extraction from unstructured text by framing it as a conditional sequence generation problem. In contrast to conventional generative information extraction models that are left-to-right token-level generators, our approach is \textit{span-based}. It generates a linearized graph where nodes represent text spans and edges represent relation triplets. Our method employs a transformer encoder-decoder architecture with pointing mechanism on a dynamic vocabulary of spans and relation types. Our model can capture the structural characteristics and boundaries of entities and relations through span representations while simultaneously grounding the generated output in the original text thanks to the pointing mechanism. Evaluation on benchmark datasets validates the effectiveness of our approach, demonstrating competitive results. Code is available at https://github.com/urchade/ATG.
翻訳日:2024-01-17 21:19:44 公開日:2024-01-15
# オープンソースSLMによるLLMのリプレースに関するトレードオフ解析

A Trade-off Analysis of Replacing Proprietary LLMs with Open Source SLMs in Production ( http://arxiv.org/abs/2312.14972v2 )

ライセンス: Link先を確認
Chandra Irugalbandara, Ashish Mahendra, Roland Daynauth, Tharuka Kasthuri Arachchige, Krisztian Flautner, Lingjia Tang, Yiping Kang, Jason Mars(参考訳) 多くの企業は、OpenAIのGPT-4のようなマネージドAIモデルのAPIを使用して、製品内でAI対応エクスペリエンスを作成している。 使いやすさと運用時間短縮のメリットに加えて、プロプライエタリなAPIへの依存は、モデル制御、パフォーマンス信頼性、アップタイム予測可能性、コストの面でマイナス面がある。 同時に、商用で利用可能なオープンソースの小型言語モデル(SLM)が急増している。 しかし、既存の機能を置き換える準備が整っていないため、これらのモデルをテストするための体系的なアプローチは容易には利用できない。 本稿では,LLMのプロプライエタリなAPIを現実の製品機能に置き換える際の,現代的なオープンソースSLMとそのトレードオフの体系的評価手法を提案する。 SLaMは、任意のSLMを用いて製品機能の定量的かつ質的なテストを可能にする自動分析ツールである。 SLaMを用いて、既存のOpenAIベースの実装と比較して、現代のSLMの品質特性と性能特性について検討する。 9種類のSLMと29種類のSLMに対して,OpenAI GPT-4と比較した場合の競合品質,大幅な性能改善,5x-29xのコスト削減について検討した。

Many companies rely on APIs of managed AI models such as OpenAI's GPT-4 to create AI-enabled experiences in their products. Along with the benefits of ease of use and shortened time to production, this reliance on proprietary APIs has downsides in terms of model control, performance reliability, up-time predictability, and cost. At the same time, there has been a flurry of open source small language models (SLMs) that have been made available for commercial use. However, their readiness to replace existing capabilities remains unclear, and a systematic approach to test these models is not readily available. In this paper, we present a systematic evaluation methodology for, and characterization of, modern open source SLMs and their trade-offs when replacing a proprietary LLM APIs for a real-world product feature. We have designed SLaM, an automated analysis tool that enables the quantitative and qualitative testing of product features utilizing arbitrary SLMs. Using SLaM, we examine both the quality and the performance characteristics of modern SLMs relative to an existing customer-facing OpenAI-based implementation. We find that across 9 SLMs and 29 variants, we observe competitive quality-of-results for our use case, significant performance consistency improvement, and a cost reduction of 5x-29x when compared to OpenAI GPT-4.
翻訳日:2024-01-17 21:19:10 公開日:2024-01-15
# 深層学習時代における薬物発見の形態的プロファイリング

Morphological Profiling for Drug Discovery in the Era of Deep Learning ( http://arxiv.org/abs/2312.07899v2 )

ライセンス: Link先を確認
Qiaosi Tang, Ranjala Ratnayake, Gustavo Seabra, Zhe Jiang, Ruogu Fang, Lina Cui, Yousong Ding, Tamer Kahveci, Jiang Bian, Chenglong Li, Hendrik Luesch, Yanjun Li(参考訳) 形態学的プロファイリングは表現型薬物の発見に有用である。 高出力自動イメージングの出現により、単細胞解像度での摂動に応答して、細胞や生物の幅広い形態的特徴を捉えられるようになった。 同時に、特にコンピュータビジョンにおける機械学習とディープラーニングの大幅な進歩により、大規模な高コンテント画像の高速スループット解析が大幅に改善されている。 これらの取り組みは、複合作用機構(MOA)の理解、薬物の精製、摂動下での細胞形態動態の解明、そして最終的には新しい治療法の開発に寄与している。 本稿では, 形態素プロファイリングの分野における最近の進歩について概観する。 画像プロファイリング分析ワークフローを要約し、特徴工学とディープラーニングに基づくアプローチを含む幅広い分析戦略を調査し、公開可能なベンチマークデータセットを導入する。 我々は,このパイプラインにおける深層学習の適用に特に重点を置いており,細胞セグメンテーション,画像表現学習,マルチモーダル学習を網羅している。 さらに, 表現型薬物発見における形態学的プロファイリングの適用を照らし, この分野の潜在的な課題と機会を強調した。

Morphological profiling is a valuable tool in phenotypic drug discovery. The advent of high-throughput automated imaging has enabled the capturing of a wide range of morphological features of cells or organisms in response to perturbations at the single-cell resolution. Concurrently, significant advances in machine learning and deep learning, especially in computer vision, have led to substantial improvements in analyzing large-scale high-content images at high-throughput. These efforts have facilitated understanding of compound mechanism-of-action (MOA), drug repurposing, characterization of cell morphodynamics under perturbation, and ultimately contributing to the development of novel therapeutics. In this review, we provide a comprehensive overview of the recent advances in the field of morphological profiling. We summarize the image profiling analysis workflow, survey a broad spectrum of analysis strategies encompassing feature engineering- and deep learning-based approaches, and introduce publicly available benchmark datasets. We place a particular emphasis on the application of deep learning in this pipeline, covering cell segmentation, image representation learning, and multimodal learning. Additionally, we illuminate the application of morphological profiling in phenotypic drug discovery and highlight potential challenges and opportunities in this field.
翻訳日:2024-01-17 21:18:18 公開日:2024-01-15
# ベイジアンネットワークのエントロピーとKulback-Leibler分散:計算複雑性と効率的な実装

Entropy and the Kullback-Leibler Divergence for Bayesian Networks: Computational Complexity and Efficient Implementation ( http://arxiv.org/abs/2312.01520v3 )

ライセンス: Link先を確認
Marco Scutari(参考訳) ベイズネットワーク(BN)は、機械学習と因果推論の基礎モデルである。 それらのグラフィカルな構造は、高次元の問題に対処し、それらを小さな問題に分割し、ジュデア・パールの因果性を理解し、それらの説明可能性と解釈可能性を決定する。 その人気にもかかわらず、シャノンのエントロピーの計算方法や、BNのKL(Kulback-Leibler)の発散を最も一般的な分布仮定で計算する方法に関する文献にはほとんど資源がない。 本稿では,bnsのグラフィカルな構造を活かし,計算効率の良いアルゴリズムを両立し,それらの数値例の完全な集合を提示する。 この過程において,KL の計算複雑性をガウスBN の立方体から二次体に還元できることを示す。

Bayesian networks (BNs) are a foundational model in machine learning and causal inference. Their graphical structure can handle high-dimensional problems, divide them into a sparse collection of smaller ones, underlies Judea Pearl's causality, and determines their explainability and interpretability. Despite their popularity, there are almost no resources in the literature on how to compute Shannon's entropy and the Kullback-Leibler (KL) divergence for BNs under their most common distributional assumptions. In this paper, we provide computationally efficient algorithms for both by leveraging BNs' graphical structure, and we illustrate them with a complete set of numerical examples. In the process, we show it is possible to reduce the computational complexity of KL from cubic to quadratic for Gaussian BNs.
翻訳日:2024-01-17 21:17:19 公開日:2024-01-15
# ドメイン知識保持を伴う複数の逆気象条件におけるセマンティックセグメンテーション

Semantic Segmentation in Multiple Adverse Weather Conditions with Domain Knowledge Retention ( http://arxiv.org/abs/2401.07459v1 )

ライセンス: Link先を確認
Xin Yang, Wending Yan, Yuan Yuan, Michael Bi Mi, Robby T. Tan(参考訳) セマンティクスセグメンテーションのパフォーマンスは、ラベルのない悪天候条件に適用されるとしばしば損なわれる。 教師なし領域適応は、悪天候に対するモデルの適応性と堅牢性を高めるための潜在的アプローチである。 しかし、既存の手法は、複数のラベルのない悪天候条件にモデルを順次適応させる際に困難に直面する。 これらの問題に対処するために,適応的な知識獲得,擬似ラベルブレンディング,気象構成のリプレイを含む,複数の悪天候条件に対する意味的セグメンテーション手法を提案する。 我々の適応的な知識獲得は、モデルを忘れてしまう可能性のある極端な画像からの学習を避けることができる。 擬似ラベルをブレンドするアプローチでは、現在のモデルだけでなく、学習したモデルを現在進行中の学習プロセスに統合する。 この現在の教師と以前のモデルとのコラボレーションは、現在のターゲットに対する擬似ラベルのロバスト性を高める。 我々の気象構成再生機構により、新しい対象領域から学習しながら、学習済みの気象情報を連続的に改善することができる。 提案手法は, 平均mIoU (%) の65.7, 3.6 の 60.1 と 11.3 に対して, ACDC のデータセット上で, 4 つの連続的マルチターゲット領域適応に対して, 平均mIoU (%) の3。

Semantic segmentation's performance is often compromised when applied to unlabeled adverse weather conditions. Unsupervised domain adaptation is a potential approach to enhancing the model's adaptability and robustness to adverse weather. However, existing methods encounter difficulties when sequentially adapting the model to multiple unlabeled adverse weather conditions. They struggle to acquire new knowledge while also retaining previously learned knowledge.To address these problems, we propose a semantic segmentation method for multiple adverse weather conditions that incorporates adaptive knowledge acquisition, pseudolabel blending, and weather composition replay. Our adaptive knowledge acquisition enables the model to avoid learning from extreme images that could potentially cause the model to forget. In our approach of blending pseudo-labels, we not only utilize the current model but also integrate the previously learned model into the ongoing learning process. This collaboration between the current teacher and the previous model enhances the robustness of the pseudo-labels for the current target. Our weather composition replay mechanism allows the model to continuously refine its previously learned weather information while simultaneously learning from the new target domain. Our method consistently outperforms the stateof-the-art methods, and obtains the best performance with averaged mIoU (%) of 65.7 and the lowest forgetting (%) of 3.6 against 60.1 and 11.3, on the ACDC datasets for a four-target continual multi-target domain adaptation.
翻訳日:2024-01-17 18:24:36 公開日:2024-01-15
# $\mathcal{pt}$-symmetric量子力学の干渉幾何学的位相

Interferometric Geometric Phases of $\mathcal{PT}$-symmetric Quantum Mechanics ( http://arxiv.org/abs/2401.07442v1 )

ライセンス: Link先を確認
Xin Wang, Zheng Zhou, Jia-Chen Tang, Xu-Yang Hou, Hao Guo, and Chih-Chun Chien(参考訳) 我々は、干渉幾何学的位相 (IGP) のアプローチに基づいて、$\mathcal{PT}$-symmetric quantum mechanics (PTQM) において、幾何学的位相を純粋および熱状態に一般化する。 形式主義はまず量子状態の平行輸送条件を導入し、2つの幾何学的位相、$\theta^1$ と $\theta^2$ を並列輸送状態に従ってPTQMの純粋状態に対して明らかにする。 ptqm の非エルミートハミルトニアンのため、$\theta^1$ は複素であり、$\theta^2$ はその実部分である。 IGP を PTQM の熱状態に一般化する場合、$\theta^1$ の虚部は重要な役割を果たす。 一般化されたIGPは熱状態の熱分布を変化させ、有効温度を導入する。 ある臨界点において、一般化されたIGPは有限温度で離散的なジャンプを示し、幾何学的な位相遷移を示す。 PTQMの有限温度幾何相転移を2レベルシステムで実証し,その結果を可視化する。

We present a generalization of the geometric phase to pure and thermal states in $\mathcal{PT}$-symmetric quantum mechanics (PTQM) based on the approach of the interferometric geometric phase (IGP). The formalism first introduces the parallel-transport conditions of quantum states and reveals two geometric phases, $\theta^1$ and $\theta^2$, for pure states in PTQM according to the states under parallel-transport. Due to the non-Hermitian Hamiltonian in PTQM, $\theta^1$ is complex and $\theta^2$ is its real part. The imaginary part of $\theta^1$ plays an important role when we generalize the IGP to thermal states in PTQM. The generalized IGP modifies the thermal distribution of a thermal state, thereby introducing effective temperatures. At certain critical points, the generalized IGP exhibits discrete jumps at finite temperatures, signaling a geometric phase transition. We demonstrate the finite-temperature geometric phase transition in PTQM by a two-level system and visualize its results.
翻訳日:2024-01-17 18:24:09 公開日:2024-01-15
# AI品質保証におけるChatGPTに基づく感性分析の安定性解析

Stability Analysis of ChatGPT-based Sentiment Analysis in AI Quality Assurance ( http://arxiv.org/abs/2401.07441v1 )

ライセンス: Link先を確認
Tinghui Ouyang, AprilPyone MaungMaung, Koichi Konishi, Yoshiki Seo, and Isao Echizen(参考訳) 大規模aiモデルの時代において、複雑なアーキテクチャと膨大なパラメータは、効果的なai品質管理(aiqm)、例えば大規模言語モデル(llm)にとって大きな課題となる。 本稿では,ChatGPTに基づく感情分析システムである,特定のLLMベースのAI製品の品質保証について検討する。 この研究は、ChatGPTが基盤とする拡張型AIモデルの動作と堅牢性の両方に関連する安定性の問題に焦点をあてている。 感情分析にはベンチマークデータセットを用いて実験分析を行う。 その結果,ChatGPTをベースとした感情分析システムの構築は,様々な操作要因に起因する不確実性を示すことがわかった。 また,ロバスト性を含む従来の小文字攻撃の処理における安定性の問題も示した。

In the era of large AI models, the complex architecture and vast parameters present substantial challenges for effective AI quality management (AIQM), e.g. large language model (LLM). This paper focuses on investigating the quality assurance of a specific LLM-based AI product--a ChatGPT-based sentiment analysis system. The study delves into stability issues related to both the operation and robustness of the expansive AI model on which ChatGPT is based. Experimental analysis is conducted using benchmark datasets for sentiment analysis. The results reveal that the constructed ChatGPT-based sentiment analysis system exhibits uncertainty, which is attributed to various operational factors. It demonstrated that the system also exhibits stability issues in handling conventional small text attacks involving robustness.
翻訳日:2024-01-17 18:23:49 公開日:2024-01-15
# 奥行き完了のためのマスク適応ゲーテッド畳み込みと双方向プログレッシブフュージョンネットワーク

Mask-adaptive Gated Convolution and Bi-directional Progressive Fusion Network for Depth Completion ( http://arxiv.org/abs/2401.07439v1 )

ライセンス: Link先を確認
Tingxuan Huang and Jiacheng Miao and Shizhuo Deng and Tong and Dongyue Chen(参考訳) 深度の完成は、ピクセルが欠けた深度画像を扱う上で重要なタスクであり、さらなるアプリケーションに影響を与える可能性がある。 近年のアプローチでは、カラー画像の助けを借りて深度画像の再構成に畳み込みニューラルネットワーク(CNN)を利用している。 しかし、バニラ畳み込みは、欠落したピクセルを扱う上で、無視できない欠点がある。 この問題を解決するために,エンコーダ・デコーダ構造に基づく深さ補完モデルを提案する。 本モデルでは,マスク適応型Gated Convolution (MagaConv) アーキテクチャと双方向プログレッシブフュージョン (BP-Fusion) モジュールの2つの重要なコンポーネントを紹介する。 magaconvアーキテクチャは、繰り返し更新されたマスクで畳み込み操作を変調し、精密な深度特性を得るように設計されているが、bp-fusionモジュールは、グローバルな視点で連続する双方向融合構造を利用して、徐々に深さと色の特徴を統合する。 NYU-Depth V2、DIML、SUN RGB-Dなど、人気のあるベンチマークに関する大規模な実験は、最先端の手法よりもモデルの方が優れていることを示す。 深度マップの完成と既存手法の精度と信頼性で優れた性能を実現した。

Depth completion is a critical task for handling depth images with missing pixels, which can negatively impact further applications. Recent approaches have utilized Convolutional Neural Networks (CNNs) to reconstruct depth images with the assistance of color images. However, vanilla convolution has non-negligible drawbacks in handling missing pixels. To solve this problem, we propose a new model for depth completion based on an encoder-decoder structure. Our model introduces two key components: the Mask-adaptive Gated Convolution (MagaConv) architecture and the Bi-directional Progressive Fusion (BP-Fusion) module. The MagaConv architecture is designed to acquire precise depth features by modulating convolution operations with iteratively updated masks, while the BP-Fusion module progressively integrates depth and color features, utilizing consecutive bi-directional fusion structures in a global perspective. Extensive experiments on popular benchmarks, including NYU-Depth V2, DIML, and SUN RGB-D, demonstrate the superiority of our model over state-of-the-art methods. We achieved remarkable performance in completing depth maps and outperformed existing approaches in terms of accuracy and reliability.
翻訳日:2024-01-17 18:23:36 公開日:2024-01-15
# BoNuS:部分点ラベルによる核分割境界マイニング

BoNuS: Boundary Mining for Nuclei Segmentation with Partial Point Labels ( http://arxiv.org/abs/2401.07437v1 )

ライセンス: Link先を確認
Yi Lin, Zeyu Wang, Dong Zhang, Kwang-Ting Cheng, Hao Chen(参考訳) Nucleiセグメンテーションは、デジタル病理ワークフローにおける基本的な前提条件である。 核セグメンテーションの自動化法の開発は、病理組織像における核形態計測の広範な存在と大きなばらつきの定量的解析を可能にする。 しかし、数万の核の手動アノテーションは退屈で時間がかかり、かなりの量の人間の努力とドメイン固有の専門知識を必要とする。 この問題を軽減するために,本論文では,核の部分点ラベルのみを必要とする弱制御型核分割法を提案する。 具体的には,核内部情報と境界情報とを同時に学習するBoNuSという,核セグメンテーションのための新しい境界地雷フレームワークを提案する。 この目的を達成するために,複数入力学習方式でペアワイズ画素親和性を探索し,境界情報の学習を誘導する新しい境界マイニング損失を提案する。 次に,より困難な問題,すなわち部分点ラベルを考える。そこでは,事前形態学的知識を持つ欠落核を検出するためのカリキュラム学習を伴う核検出モジュールを提案する。 提案手法は,MoNuSeg,CPM,CoNICの3つの公開データセットで検証される。 実験結果は,最先端の弱教師付き核分節法に優れた性能を示す。 コード: https://github.com/hust-linyi/bonus。

Nuclei segmentation is a fundamental prerequisite in the digital pathology workflow. The development of automated methods for nuclei segmentation enables quantitative analysis of the wide existence and large variances in nuclei morphometry in histopathology images. However, manual annotation of tens of thousands of nuclei is tedious and time-consuming, which requires significant amount of human effort and domain-specific expertise. To alleviate this problem, in this paper, we propose a weakly-supervised nuclei segmentation method that only requires partial point labels of nuclei. Specifically, we propose a novel boundary mining framework for nuclei segmentation, named BoNuS, which simultaneously learns nuclei interior and boundary information from the point labels. To achieve this goal, we propose a novel boundary mining loss, which guides the model to learn the boundary information by exploring the pairwise pixel affinity in a multiple-instance learning manner. Then, we consider a more challenging problem, i.e., partial point label, where we propose a nuclei detection module with curriculum learning to detect the missing nuclei with prior morphological knowledge. The proposed method is validated on three public datasets, MoNuSeg, CPM, and CoNIC datasets. Experimental results demonstrate the superior performance of our method to the state-of-the-art weakly-supervised nuclei segmentation methods. Code: https://github.com/hust-linyi/bonus.
翻訳日:2024-01-17 18:23:14 公開日:2024-01-15
# 抽象化・推論コーパスの一般化計画

Generalized Planning for the Abstraction and Reasoning Corpus ( http://arxiv.org/abs/2401.07426v1 )

ライセンス: Link先を確認
Chao Lei, Nir Lipovetzky, Krista A. Ehinger(参考訳) ARC(Abstraction and Reasoning Corpus)は、推論と抽象化に重点を置く流体知能の要求により、純粋な機械学習手法に困難をもたらす一般的な人工知能ベンチマークである。 本稿では、ARCソルバであるGeneralized Planning for Abstract Reasoning (GPAR)を紹介する。 ARC問題を一般化計画(GP)問題とみなし、解はポインタを持つ計画プログラムとして形式化される。 我々は、標準計画ドメイン定義言語(PDDL)とオブジェクト中心の抽象化を表す外部関数を組み合わせて、ARC問題を表現します。 本稿では,行動モデル,述語,議論,計画プログラムの有効な構造に対する制約という形で,ARC特有のドメイン知識を用いてGPソルバをスケールアップする方法を示す。 実験の結果、GPARはARCのオブジェクト指向タスクにおける最先端の解法よりも優れており、GPの有効性とARC問題をモデル化するためのPDDLの表現性を示している。 arcベンチマークが提供する課題は、既存のgpソルバを前進させ、他の計画計算モデルとの新しい関係を理解するための研究を動機付けるものである。 コードはgithub.com/you68681/GPARで入手できる。

The Abstraction and Reasoning Corpus (ARC) is a general artificial intelligence benchmark that poses difficulties for pure machine learning methods due to its requirement for fluid intelligence with a focus on reasoning and abstraction. In this work, we introduce an ARC solver, Generalized Planning for Abstract Reasoning (GPAR). It casts an ARC problem as a generalized planning (GP) problem, where a solution is formalized as a planning program with pointers. We express each ARC problem using the standard Planning Domain Definition Language (PDDL) coupled with external functions representing object-centric abstractions. We show how to scale up GP solvers via domain knowledge specific to ARC in the form of restrictions over the actions model, predicates, arguments and valid structure of planning programs. Our experiments demonstrate that GPAR outperforms the state-of-the-art solvers on the object-centric tasks of the ARC, showing the effectiveness of GP and the expressiveness of PDDL to model ARC problems. The challenges provided by the ARC benchmark motivate research to advance existing GP solvers and understand new relations with other planning computational models. Code is available at github.com/you68681/GPAR.
翻訳日:2024-01-17 18:22:54 公開日:2024-01-15
# 電磁誘導透過性3レベル原子の2次元電子分光

Two-Dimensional Electronic Spectroscopy for Three-Level Atoms with Electromagnetically Induced Transparency ( http://arxiv.org/abs/2401.07424v1 )

ライセンス: Link先を確認
Jing-Yi-Ran Jin, Hao-Yue Zhang, Yi-Xuan Yao, Qing Ai(参考訳) 2次元電子分光(2DES)は高スペクトル分解能を持ち、原子動力学の研究に有用なツールである。 本稿では、電磁誘導透過法(EIT)を3レベル原子中の2DESに適用し、EITの導入によりピーク(トラフ)の数が増加することを確かめる。 また、ピークの高さ(トラフの深さ)は一定から減衰振動へと変化する。 これらの発見は励起状態のダイナミクスに関するさらなる情報を得るのに役立つかもしれない。

Two-dimensional electronic spectroscopy (2DES) has high spectral resolution and is a useful tool for studying atom dynamics. In this paper, we apply the electromagnetically induced transparency (EIT) technique to 2DES in a three-level atom, and find out that the number of peaks (troughs) will become more due to the introduction of EIT. Also, the height of the peaks (the depth of troughs) will change from constant to a damped oscillation. These findings may help us obtain more information about the dynamics of excited states.
翻訳日:2024-01-17 18:22:23 公開日:2024-01-15
# ジャイロ磁性因子の変動機構

A Possible Mechanism to Alter Gyromagnetic Factor ( http://arxiv.org/abs/2401.07420v1 )

ライセンス: Link先を確認
Jing-Ling Chen, Xing-Yan Fan, and Xiang-Ru Xie(参考訳) ディラックは相対論的量子力学の枠組みにおいて電子の$g$因子は厳密に2に等しいと予測している。 しかし、後の物理学者は、量子計算理論を考えると、この因子は2(すなわちレプトンの異常な磁気モーメントの問題)からわずかにずれることを発見した。 この事実は、量子電磁力学の精度テストや標準モデルなどに用いられる自由レプトンの$g$因子を導出する。 本研究では、相対論的量子力学の枠組みにおける$g$ Factorの問題を再検討する。 我々は、電子の$g$因子を視覚的に変化させることができる「電子-ブレイドン混合」と呼ばれるメカニズムを提案する。 我々の結果は実験で検証され、レプトンの異常な磁気モーメントの問題に新たな光を放つことを期待している。

Dirac has predicted that the $g$ factor of an electron is strictly equal to 2 in the framework of relativistic quantum mechanics. However, later physicists have found that this factor can be slightly deviated from 2 (i.e., the problem of anomalous magnetic moments of leptons) when they consider quantum filed theory. This fact thus renders the $g$ factors of free leptons serving as precision tests for quantum electrodynamics, the standard model and beyond. In this work, we re-examine the problem of $g$ factor within the framework of relativistic quantum mechanics. We propose a possible mechanism called the ``electron-braidon mixing'', such that the $g$ factor of an electron can be visibly altered. Our results are hopeful to be verified in experiments and also shed new light to the problem of the anomalous magnetic moments of leptons.
翻訳日:2024-01-17 18:22:09 公開日:2024-01-15
# アモルファス酸化物トンネル接合の交流バイアスによる焼鈍

Alternating Bias Assisted Annealing of Amorphous Oxide Tunnel Junctions ( http://arxiv.org/abs/2401.07415v1 )

ライセンス: Link先を確認
David P. Pappas, Mark Field, Cameron Kopas, Joel A. Howard, Xiqiao Wang, Ella Lachman, Lin Zhou, Jinsu Oh, Kameshwar Yadavalli, Eyob A. Sete, Andrew Bestwick, Matthew J. Kramer and Joshua Y. Mutus(参考訳) 熱酸化アモルファス酸化アルミニウムトンネル接合の電気的特性を制御的に調整するトランスフォーメーション技術を示す。 従来の試験装置を用いて、加熱されたトンネル障壁に交互にバイアスを加えることで、室温抵抗の70%を超える巨大化を実現することができる。 抵抗変化の速度は強い温度依存性を示し、サブミクロン系では接合サイズに依存しない。 そのトンネル特性をmK温度で測定するために,この交互バイアス補助焼鈍法(ABAA)で処理したトランスモンクビット接合を特徴付ける。 測定された周波数は、シフト抵抗と臨界電流の間のアンベガオカー-バラトフ関係に従う。 さらに, 非処理試料と比較して, 共振・オフ共振・2レベル系の欠陥が有意に減少すると共に, 接合共振損失が約2 \times10^{-6}$の順に減少することを示した。 高分解能TEMによるイメージングでは、バリアは依然として非晶質であり、未処理の接合に対するアルミニウムの配向がより均一に分布していることが示されている。 この新しいアプローチは、アモルファス酸化アルミニウムや、現代のエレクトロニクスで使用される多くの金属-絶縁体-金属構造に依存する幅広いデバイスに適用できると期待されている。

We demonstrate a transformational technique for controllably tuning the electrical properties of fabricated thermally oxidized amorphous aluminum-oxide tunnel junctions. Using conventional test equipment to apply an alternating bias to a heated tunnel barrier, giant increases in the room temperature resistance, greater than 70%, can be achieved. The rate of resistance change is shown to be strongly temperature-dependent, and is independent of junction size in the sub-micron regime. In order to measure their tunneling properties at mK temperatures, we characterized transmon qubit junctions treated with this alternating-bias assisted annealing (ABAA) technique. The measured frequencies follow the Ambegaokar-Baratoff relation between the shifted resistance and critical current. Further, these studies show a reduction of junction-contributed loss on the order of $\approx 2 \times10^{-6}$, along with a significant reduction in resonant- and off-resonant-two level system defects when compared to untreated samples. Imaging with high-resolution TEM shows that the barrier is still predominantly amorphous with a more uniform distribution of aluminum coordination across the barrier relative to untreated junctions. This new approach is expected to be widely applicable to a broad range of devices that rely on amorphous aluminum oxide, as well as the many other metal-insulator-metal structures used in modern electronics.
翻訳日:2024-01-17 18:21:44 公開日:2024-01-15
# テキストにおける罪悪感検出におけるトランスフォーマーのパワーの活用

Leveraging the power of transformers for guilt detection in text ( http://arxiv.org/abs/2401.07414v1 )

ライセンス: Link先を確認
Abdul Gafar Manuel Meque, Jason Angel, Grigori Sidorov, Alexander Gelbukh(参考訳) 近年、言語モデルやディープラーニング技術が、感情検出を含む自然言語処理タスクに革命をもたらしている。 しかし、罪悪感の特定の感情はこの分野では限定的な注目を集めている。 本研究では,テキスト中の罪悪感を検出する3つのトランスフォーマティブ言語モデルの適用可能性について検討し,その性能を一般的な感情検出と罪悪感検出と比較する。 提案モデルはbertモデルとrobertaモデルにそれぞれ2点と1点を上回った。 さらに,正確な罪悪感検出モデルを構築する上での課題を分析し,結果の質的分析を通じて「シェーム」のような関連感情の検出におけるモデルの有効性を評価する。

In recent years, language models and deep learning techniques have revolutionized natural language processing tasks, including emotion detection. However, the specific emotion of guilt has received limited attention in this field. In this research, we explore the applicability of three transformer-based language models for detecting guilt in text and compare their performance for general emotion detection and guilt detection. Our proposed model outformed BERT and RoBERTa models by two and one points respectively. Additionally, we analyze the challenges in developing accurate guilt-detection models and evaluate our model's effectiveness in detecting related emotions like "shame" through qualitative analysis of results.
翻訳日:2024-01-17 18:21:05 公開日:2024-01-15
# ユニタリ作用素の量子不確実性と不等式

Quantum Uncertainty Equalities and Inequalities for Unitary Operators ( http://arxiv.org/abs/2401.07409v1 )

ライセンス: Link先を確認
Ao-Xiang Liu, Ma-Cheng Yang and Cong-Feng Qiao(参考訳) ユニタリ作用素に対する不確実性関係を新しい方法で探究し、任意の純粋状態によって最小化されたユニタリ作用素に対する2つの不確実性等式を求める。 さらに、ユニタリ作用素の不確かさの領域内の階層構造を明らかにする2つの不確実性不等式を導出する。 さらに,本手法のユニタリ不確実性関係を他の定式化法と比較した。 理解と明確性を高めるための明確な例を提供します。 その結果,階層的ユニタリ不確実性関係が強い境界を確立することがわかった。 さらに,ユニタリ不確かさの高次元限界についても検討した。

We explore the uncertainty relation for unitary operators in a new way and find two uncertainty equalities for unitary operators, which are minimized by any pure states. Additionally, we derive two sets of uncertainty inequalities that unveil hierarchical structures within the realm of unitary operator uncertainty. Furthermore, we examine and compare our method for unitary uncertainty relations to other prevailing formulations. We provide explicit examples for better understanding and clarity. Results show that the hierarchical unitary uncertainty relations establish strong bounds. Moreover, we investigate the higher-dimensional limit of the unitary uncertainty equalities.
翻訳日:2024-01-17 18:20:48 公開日:2024-01-15
# 畳み込みニューラルネットワークによる量子不協和音の有効検出

Effective detection of quantum discord by using Convolutional Neural Networks ( http://arxiv.org/abs/2401.07405v1 )

ライセンス: Link先を確認
Narjes Taghadomi, Azam Mani, Ali Fahim, Ali Bakoui, Mohammad Sadegh Salami(参考訳) 量子不協和(quantum discord)は、量子情報と古典的相互情報の相違として定義される相関の形式である。 量子システムの古典的相互情報の定義にかかわる最適化のため、不一致状態と非離散状態の計算と区別は自明な作業ではない。 さらに、量子状態の完全なトモグラフィーは、その量子不協和の計算の前提条件であり、実際に資源消費である。 ここでは,人工ニューラルネットワークの畳み込み層のカーネルと,量子力学的測定における演算子の期待値の関係を用いて,16個のカーネルを用いた畳み込みニューラルネットワーク (cnn) を設計し,不一致状態と非識別状態とを完全に区別する。 また、量子不協和を効果的に検出できる分岐畳み込みニューラルネットワーク(BCNN)を設計した。 BCNNの精度は約85%または99%で、それぞれ5と8のカーネルしか利用していない。 以上の結果から,完全トモグラフィではなく,所望の精度で量子不協和の存在を検出するためには,適切な量子回路を用いてカーネルの期待値を直接測定し,完全に接続されたネットワークが検出問題を解決できることを示した。

Quantum discord is a form of correlation that is defined as the difference between quantum and classical mutual information of two parties. Due to the optimization involved in the definition of classical mutual information of quantum systems, calculating and distinguishing between discordant and non-discordant states is not a trivial task. Additionally, complete tomography of a quantum state is the prerequisite for the calculation of its quantum discord, and it is indeed resource consuming. Here, by using the relation between the kernels of the convolutional layers of an artificial neural network and the expectation value of operators in quantum mechanical measurements, we design a Convolutional Neural Network (CNN) that uses 16 kernels to completely distinguish between the discordant and non-discordant general two-qubit states. We have also designed a Branching Convolutional Neural Network (BCNN) that can effectively detect quantum discord. Our BCNN achieves an accuracy of around 85% or 99%, by utilizing only 5 or 8 kernels, respectively. Our results show that to detect the existence of quantum discord up to the desired accuracy, instead of complete tomography, one can use suitable quantum circuits to directly measure the expectation values of the kernels, and then a fully connected network will solve the detection problem.
翻訳日:2024-01-17 18:20:10 公開日:2024-01-15
# フーリエベース再パラメータ化トレーニングによる暗黙的神経表現の改善

Improved Implicity Neural Representation with Fourier Bases Reparameterized Training ( http://arxiv.org/abs/2401.07402v1 )

ライセンス: Link先を確認
Kexuan Shi and Xingyu Zhou and Shuhang Gu(参考訳) Inlicit Neural Representation (INR)は、近年様々なコンピュータビジョンタスクにおいて、強力な表現パラダイムとして成功している。 バニラ多層パーセプトロン(MLP)の低周波バイアス問題により、位置符号化や周期的アクティベーション関数といった高度な技術を用いてINRの精度を向上させる方法が研究されている。 本稿では,ネットワークトレーニングバイアスと再パラメータ化手法を結合し,重み付け再パラメータ化がMDPのスペクトルバイアスを軽減することができることを理論的に証明する。 理論解析に基づき,固定されたフーリエ基底の係数行列を学習し,MLPの重みを構成するフーリエ再パラメータ化法を提案する。 本稿では,バニラ型MLP,位置符号化型MLP,高度なアクティベーション機能付きMLPなど,様々なMLPアーキテクチャを用いたINRタスクに対するフーリエ再パラメータ化手法の評価を行った。 異なるMLPアーキテクチャ上での優越性近似は,提案手法の利点を明らかに証明する。 フーリエのパラメータ化手法によって、より多くのテクスチャと少ないアーティファクトを持つより優れたINRをトレーニングデータから学べる。

Implicit Neural Representation (INR) as a mighty representation paradigm has achieved success in various computer vision tasks recently. Due to the low-frequency bias issue of vanilla multi-layer perceptron (MLP), existing methods have investigated advanced techniques, such as positional encoding and periodic activation function, to improve the accuracy of INR. In this paper, we connect the network training bias with the reparameterization technique and theoretically prove that weight reparameterization could provide us a chance to alleviate the spectral bias of MLP. Based on our theoretical analysis, we propose a Fourier reparameterization method which learns coefficient matrix of fixed Fourier bases to compose the weights of MLP. We evaluate the proposed Fourier reparameterization method on different INR tasks with various MLP architectures, including vanilla MLP, MLP with positional encoding and MLP with advanced activation function, etc. The superiority approximation results on different MLP architectures clearly validate the advantage of our proposed method. Armed with our Fourier reparameterization method, better INR with more textures and less artifacts can be learned from the training data.
翻訳日:2024-01-17 18:19:21 公開日:2024-01-15
# CropGANとCNN分類器を用いたクロスドメイン初期クロックマッピング

Cross Domain Early Crop Mapping using CropGAN and CNN Classifier ( http://arxiv.org/abs/2401.07398v1 )

ライセンス: Link先を確認
Yiqun Wang, Hui Huang, Radu State(参考訳) 豊富な衛星画像により、機械学習ベースのアプローチは、多くの農業アプリケーションをサポートするために、高解像度の作物栽培マップを作成するために推進されている。 これらのアプローチで直面する大きな課題の1つは、基底真理ラベルの可用性の制限である。 地上の真実がなければ、既存の作業では、他の地域から収集した履歴ラベルを使って分類器を訓練し、訓練されたモデルを対象地域に適用する「ダイレクトトランスファー戦略」が採用される。 不幸なことに、作物のスペクトル特性は土壌組成の変化、気候条件、作物の進行によって、地域間および年々変動を示し、その結果、新しくて目に見えない地域や年数では性能が低下する。 本稿では、上記のクロスドメイン問題に対処するため、Crop Generative Adversarial Network(CropGAN)を提案する。 私たちのアプローチでは、ターゲットドメインのラベルは不要です。 代わりに、ターゲットドメインのスペクトル特徴を(ラベル付き)ソースドメインに変換するマッピング関数を学習し、ローカルな構造を保持します。 ソースドメインデータによって訓練された分類器は変換データに直接適用でき、ターゲットドメインの高精度な初期作物マップを生成することができる。 提案手法のメリットと有効性を示すため,各地域および年次にわたる総合実験を行った。 広く採用されているダイレクトトランスファー戦略と比較すると,提案したクロプGANの適用後のF1スコアは13.13%~50.98%向上している。

Driven by abundant satellite imagery, machine learning-based approaches have recently been promoted to generate high-resolution crop cultivation maps to support many agricultural applications. One of the major challenges faced by these approaches is the limited availability of ground truth labels. In the absence of ground truth, existing work usually adopts the "direct transfer strategy" that trains a classifier using historical labels collected from other regions and then applies the trained model to the target region. Unfortunately, the spectral features of crops exhibit inter-region and inter-annual variability due to changes in soil composition, climate conditions, and crop progress, the resultant models perform poorly on new and unseen regions or years. This paper presents the Crop Generative Adversarial Network (CropGAN) to address the above cross-domain issue. Our approach does not need labels from the target domain. Instead, it learns a mapping function to transform the spectral features of the target domain to the source domain (with labels) while preserving their local structure. The classifier trained by the source domain data can be directly applied to the transformed data to produce high-accuracy early crop maps of the target domain. Comprehensive experiments across various regions and years demonstrate the benefits and effectiveness of the proposed approach. Compared with the widely adopted direct transfer strategy, the F1 score after applying the proposed CropGAN is improved by 13.13% - 50.98%
翻訳日:2024-01-17 18:18:58 公開日:2024-01-15
# マルチラベルテキスト分類のための深層アクティブラーニングにおけるベータスコアの活用

Harnessing the Power of Beta Scoring in Deep Active Learning for Multi-Label Text Classification ( http://arxiv.org/abs/2401.07395v1 )

ライセンス: Link先を確認
Wei Tan, Ngoc Dang Nguyen, Lan Du, Wray Buntine(参考訳) 自然言語処理の範囲内では、広範かつ不均一なラベル分布のため、マルチラベルテキスト分類の領域は独特に困難である。 この複雑さは、高度なディープラーニングモデルをトレーニングするための注釈付きデータの広範なセット、特にラベル付けタスクが労働集約的でドメイン固有の知識を必要とする特殊な分野への要求により、より深くなる。 これらの課題に対処するために,本研究では,期待損失削減フレームワークにおける適切なスコアリングルールのベータファミリを活かした,新たな深層アクティブ学習戦略を提案する。 これはBeta Scoring Rulesを使って期待されるスコアの増加を計算し、次にサンプルベクトル表現に変換する。 これらのベクトル表現は、情報的なサンプルの多様な選択を導き、この過程をモデルが期待する適切なスコアに直接結びつける。 合成データセットと実データセットの両方にわたる総合的な評価により、多ラベルテキスト分類において確立された取得テクニックをしばしば上回り、様々なアーキテクチャおよびデータセットシナリオにおける奨励的な結果を示す。

Within the scope of natural language processing, the domain of multi-label text classification is uniquely challenging due to its expansive and uneven label distribution. The complexity deepens due to the demand for an extensive set of annotated data for training an advanced deep learning model, especially in specialized fields where the labeling task can be labor-intensive and often requires domain-specific knowledge. Addressing these challenges, our study introduces a novel deep active learning strategy, capitalizing on the Beta family of proper scoring rules within the Expected Loss Reduction framework. It computes the expected increase in scores using the Beta Scoring Rules, which are then transformed into sample vector representations. These vector representations guide the diverse selection of informative samples, directly linking this process to the model's expected proper score. Comprehensive evaluations across both synthetic and real datasets reveal our method's capability to often outperform established acquisition techniques in multi-label text classification, presenting encouraging outcomes across various architectural and dataset scenarios.
翻訳日:2024-01-17 18:18:35 公開日:2024-01-15
# 人物再同定のための階層的特徴スパースフレームワーク

A Deep Hierarchical Feature Sparse Framework for Occluded Person Re-Identification ( http://arxiv.org/abs/2401.07469v1 )

ライセンス: Link先を確認
Yihu Song and Shuaishi Liu(参考訳) 既存のほとんどの手法は補助モデルを利用することで隠蔽された人物再識別(ReID)の問題に取り組み、結果としてリアルタイムアプリケーションでは受け入れられない複雑で非効率なReIDフレームワークが実現される。 本研究では,SuReIDというスピードアップ人用ReIDフレームワークを提案し,推論を高速化しながら閉塞干渉を軽減する。 SUReIDは、階層的トークンスペーシフィケーション(HTS)戦略、非パラメトリックな特徴アライメント知識蒸留(NPKD)、ノイズ閉塞データ拡張(NODA)という3つの重要な構成要素から構成される。 HTS戦略は、視覚変換器に冗長トークンを刻み込み、高効率な自己注意計算を実現し、閉塞やバックグラウンドノイズからの干渉を取り除くことで機能する。 しかし、プルーンドトークンには特徴表現を汚染し、性能を低下させる人間の部分的特徴が含まれている可能性がある。 この問題を解決するため、NPKDはHTS戦略を監督し、より差別的なトークンを保持し、意味のないトークンを捨てる。 さらにNODAは、よりノイズの多いサンプルを導入するように設計されており、HTSが異なるトークンをアンタングルする能力をさらに訓練する。 実験の結果,SUReIDは驚くほど高速な推論で優れた性能を発揮することがわかった。

Most existing methods tackle the problem of occluded person re-identification (ReID) by utilizing auxiliary models, resulting in a complicated and inefficient ReID framework that is unacceptable for real-time applications. In this work, a speed-up person ReID framework named SUReID is proposed to mitigate occlusion interference while speeding up inference. The SUReID consists of three key components: hierarchical token sparsification (HTS) strategy, non-parametric feature alignment knowledge distillation (NPKD), and noise occlusion data augmentation (NODA). The HTS strategy works by pruning the redundant tokens in the vision transformer to achieve highly effective self-attention computation and eliminate interference from occlusions or background noise. However, the pruned tokens may contain human part features that contaminate the feature representation and degrade the performance. To solve this problem, the NPKD is employed to supervise the HTS strategy, retaining more discriminative tokens and discarding meaningless ones. Furthermore, the NODA is designed to introduce more noisy samples, which further trains the ability of the HTS to disentangle different tokens. Experimental results show that the SUReID achieves superior performance with surprisingly fast inference.
翻訳日:2024-01-17 18:12:03 公開日:2024-01-15
# CarSpeedNet: スマートフォン加速度計によるディープニューラルネットワークによる車速推定

CarSpeedNet: A Deep Neural Network-based Car Speed Estimation from Smartphone Accelerometer ( http://arxiv.org/abs/2401.07468v1 )

ライセンス: Link先を確認
Barak Or(参考訳) 本研究では,スマートフォンから3軸加速度計データを用いて車速を推定する新しいディープニューラルネットワーク(dnn)アーキテクチャcarspeednetを提案する。 イスラエルのさまざまな地域を走行する車両に搭載されたスマートフォンから収集された13時間のデータを利用して、carspeednetは計測されたスマートフォンの加速度と車の速度の関係を効果的に学習する。 スマートフォンのGPS受信機から1[Hz]の地中真理速データを得た。 提案モデルにより,過去の入力を組み込んだ高速速度推定が可能となる。 トレーニングされたモデルでは,自動車との接続なくスマートフォン加速度計のデータにのみ依存しながら,走行試験中に0.72[m/s]未満の精度を達成した。

In this study, a novel deep neural network (DNN) architecture, CarSpeedNet, is introduced to estimate car speed using three-axis accelerometer data from smartphones. Utilizing 13 hours of data collected from smartphones mounted in vehicles navigating through various regions in Israel, the CarSpeedNet effectively learns the relationship between measured smartphone acceleration and car speed. Ground truth speed data was obtained at 1[Hz] from the GPS receiver in the smartphones. The proposed model enables high-frequency speed estimation, incorporating historical inputs. Our trained model demonstrates exceptional accuracy in car speed estimation, achieving a precision of less than 0.72[m/s] during an extended driving test, solely relying on smartphone accelerometer data without any connectivity to the car.
翻訳日:2024-01-17 18:11:41 公開日:2024-01-15
# あなたの指示は必ずしも役に立たない: ソフトウェア脆弱性検出における命令の微調整の有効性を評価する

Your Instructions Are Not Always Helpful: Assessing the Efficacy of Instruction Fine-tuning for Software Vulnerability Detection ( http://arxiv.org/abs/2401.07466v1 )

ライセンス: Link先を確認
Imam Nur Bani Yusuf, Lingxiao Jiang(参考訳) ソフトウェアは有益ではあるが、固有の脆弱性のために潜在的なサイバーセキュリティリスクを引き起こす。 これらの脆弱性の検出は極めて重要で、広範な機能エンジニアリングを必要とせず、このタスクの効果的なツールとして、ディープラーニングが約束されている。 しかしながら、脆弱性検出にディープラーニングを展開する上での課題は、トレーニングデータの可用性の制限である。 最近の研究は、多様なタスクにおけるディープラーニングの有効性を強調している。 この成功は、脆弱性検出の文脈で探索されていないテクニックである命令微調整によるものである。 本稿では,モデル,特に最近の言語モデルが,学習データに使用されるプログラミング言語を超えて一般化する能力について検討する。 また、この一般化の促進における自然言語命令の役割についても検討する。 本研究では,実世界のデータセットにおけるモデル性能を評価し,脆弱なコードを予測する。 ソフトウェア脆弱性検出におけるディープラーニングアプリケーション理解に寄与する、重要な洞察と教訓を提示する。

Software, while beneficial, poses potential cybersecurity risks due to inherent vulnerabilities. Detecting these vulnerabilities is crucial, and deep learning has shown promise as an effective tool for this task due to its ability to perform well without extensive feature engineering. However, a challenge in deploying deep learning for vulnerability detection is the limited availability of training data. Recent research highlights the deep learning efficacy in diverse tasks. This success is attributed to instruction fine-tuning, a technique that remains under-explored in the context of vulnerability detection. This paper investigates the capability of models, specifically a recent language model, to generalize beyond the programming languages used in their training data. It also examines the role of natural language instructions in enhancing this generalization. Our study evaluates the model performance on a real-world dataset to predict vulnerable code. We present key insights and lessons learned, contributing to understanding the deep learning application in software vulnerability detection.
翻訳日:2024-01-17 18:11:27 公開日:2024-01-15
# 3相非平衡配電系統における深部ニューラルネットワークを用いた潮流解析

Power Flow Analysis Using Deep Neural Networks in Three-Phase Unbalanced Smart Distribution Grids ( http://arxiv.org/abs/2401.07465v1 )

ライセンス: Link先を確認
Deepak Tiwari, Mehdi Jabbari Zideh, Veeru Talreja, Vishal Verma, Sarika K. Solanki, and Jignesh Solanki(参考訳) ほとんどの電力系統のアプローチは、再生可能エネルギーの高変動性と負荷の確率的性質のために、現在確率的および確率的手法に傾いている。 フォワード・バックワード・スイープ (fbs) やニュートン・ラフソン (newton-raphson) のような従来のパワーフロー (pf) のアプローチは、非線形のpf方程式を解くために大量の反復を必要とする。 PFは電力系統のあらゆる段階、特に運用と計画において必要とされる実用性による最も重要な研究である。 本稿では,三相非平衡電力配電網のPF予測におけるディープラーニング(DL)の適用について論じる。 本稿では,3つの深層ニューラルネットワーク,ラジアル基底関数ネットワーク(rbfnet),多層パーセプトロン(mlp),畳み込みニューラルネットワーク(cnn)を提案する。 PF問題は、2つ以上の出力値を入力に基づいて予測する多出力回帰モデルとして定式化される。 トレーニングデータとテストデータはOpenDSS-MATLAB COMインターフェースを介して生成される。 これらのメソッドは完全にデータ駆動であり、トレーニングはシステムの知識を必要とせずに各ノードのミスマッチを減らすことに依存している。 提案手法の新規性は, 分散エネルギー資源 (DER) と電気自動車 (EV) の統合による発電および負荷変動性に加えて, 不均衡配電網のPF解を相互結合で正確に予測し, 異なるR/X比, トポロジ変化に頑健であることである。 DNNモデルの有効性をテストするために、IEEE 4ノードと123ノードのテストケース、American Electric Power (AEP) フィードモデルに適用される。 本稿では, rbfnet, mlp, cnnモデルのpf結果について考察し, 3つのdnnモデルがpfの予測における精度の高い結果をもたらすことを示す。

Most power systems' approaches are currently tending towards stochastic and probabilistic methods due to the high variability of renewable sources and the stochastic nature of loads. Conventional power flow (PF) approaches such as forward-backward sweep (FBS) and Newton-Raphson require a high number of iterations to solve non-linear PF equations making them computationally very intensive. PF is the most important study performed by utility, required in all stages of the power system, especially in operations and planning. This paper discusses the applications of deep learning (DL) to predict PF solutions for three-phase unbalanced power distribution grids. Three deep neural networks (DNNs); Radial Basis Function Network (RBFnet), Multi-Layer Perceptron (MLP), and Convolutional Neural Network (CNN), are proposed in this paper to predict PF solutions. The PF problem is formulated as a multi-output regression model where two or more output values are predicted based on the inputs. The training and testing data are generated through the OpenDSS-MATLAB COM interface. These methods are completely data-driven where the training relies on reducing the mismatch at each node without the need for the knowledge of the system. The novelty of the proposed methodology is that the models can accurately predict the PF solutions for the unbalanced distribution grids with mutual coupling and are robust to different R/X ratios, topology changes as well as generation and load variability introduced by the integration of distributed energy resources (DERs) and electric vehicles (EVs). To test the efficacy of the DNN models, they are applied to IEEE 4-node and 123-node test cases, and the American Electric Power (AEP) feeder model. The PF results for RBFnet, MLP, and CNN models are discussed in this paper demonstrating that all three DNN models provide highly accurate results in predicting PF solutions.
翻訳日:2024-01-17 18:11:13 公開日:2024-01-15
# プライバシ保護量子機械学習のための教師集合(QPATE)の量子プライバシアグリゲーション

Quantum Privacy Aggregation of Teacher Ensembles (QPATE) for Privacy-preserving Quantum Machine Learning ( http://arxiv.org/abs/2401.07464v1 )

ライセンス: Link先を確認
William Watkins, Heehwan Wang, Sangyoon Bae, Huan-Hsin Tseng, Jiook Cha, Samuel Yen-Chi Chen, Shinjae Yoo(参考訳) 機械学習の実用性は過去20年間で急速に拡大し、倫理的な課題となっている。 Papernotなど。 al.は、教師アンサンブルのプライベートアグリゲーション(pate)として知られる手法を開発し、複数の教師モデルが互いに分離したデータセットで訓練されるフェデレーション学習を可能にした。 この研究は、量子機械学習(QML)モデルにおいて、プライバシを確保する新しい方法を構築するために、量子ニューラルネットワーク(QNN)のアンサンブルにPATEを適用する最初のものである。

The utility of machine learning has rapidly expanded in the last two decades and presents an ethical challenge. Papernot et. al. developed a technique, known as Private Aggregation of Teacher Ensembles (PATE) to enable federated learning in which multiple teacher models are trained on disjoint datasets. This study is the first to apply PATE to an ensemble of quantum neural networks (QNN) to pave a new way of ensuring privacy in quantum machine learning (QML) models.
翻訳日:2024-01-17 18:10:34 公開日:2024-01-15
# 半教師付き学習,確率的綱引きゲーム,およびp-ラプラシアンの整合性

Consistency of semi-supervised learning, stochastic tug-of-war games, and the p-Laplacian ( http://arxiv.org/abs/2401.07463v1 )

ライセンス: Link先を確認
Jeff Calder, Nadejda Drenska(参考訳) 本稿では,偏微分方程式(pdes)とグラフに基づく半教師付き学習の交叉について概観する。 この概要は、グラフベース学習のPDE継続限界に関する最近の研究の大規模な部分に焦点を当てており、これは、大規模データ制限における半教師付き学習アルゴリズムの有効性を証明するために使われてきた。 グラフに基づく半教師付き学習の整合性に関する興味深い研究の方向性を強調し,p-ラプラシアンゲーム解釈を用いたp-ラプラシアン半教師付き学習の整合性に関する新たな結果を示す。 また,いくつかの数値実験の結果を示し,今後の研究の方向性を示唆する。

In this paper we give a broad overview of the intersection of partial differential equations (PDEs) and graph-based semi-supervised learning. The overview is focused on a large body of recent work on PDE continuum limits of graph-based learning, which have been used to prove well-posedness of semi-supervised learning algorithms in the large data limit. We highlight some interesting research directions revolving around consistency of graph-based semi-supervised learning, and present some new results on the consistency of p-Laplacian semi-supervised learning using the stochastic tug-of-war game interpretation of the p-Laplacian. We also present the results of some numerical experiments that illustrate our results and suggest directions for future work.
翻訳日:2024-01-17 18:10:21 公開日:2024-01-15
# 視覚言語モデルにおける一般化のための概念誘導型即興学習

Concept-Guided Prompt Learning for Generalization in Vision-Language Models ( http://arxiv.org/abs/2401.07457v1 )

ライセンス: Link先を確認
Yi Zhang, Ce Zhang, Ke Yu, Yushun Tang, Zhihai He(参考訳) Contrastive Language- Image Pretraining (CLIP) モデルは、テキストと画像間の相互接続を確立する上で、顕著な効果を示し、微調整により、下流の幅広いアプリケーションに印象的な性能をもたらす。 しかし、一般化タスクでは、CoOpやCoCoOpのようなCLIPの現在の微調整手法は、いくつかのきめ細かいデータセットで比較的低い性能を示す。 基本となる理由は、これらの以前の手法がプロンプトにグローバルな特徴だけを投影し、色、形、サイズといった様々な視覚概念を無視し、ドメイン間で自然に転送可能であり、一般化タスクにおいて重要な役割を果たすためである。 そこで本研究では,視覚言語モデルのための概念ガイド型プロンプト学習(CPL)を提案する。 具体的には,クリップの知識を生かして,概念誘導型プロンプトを実現するビジュアルコンセプトキャッシュを作成する。 テキスト機能を改良するために,マルチレベル視覚特徴をテキスト特徴に変換するプロジェクタをさらに開発する。 この概念誘導型即興学習アプローチは、視覚と言語的モダリティの一貫性を高めることができる。 広範な実験結果から,本手法は現在の手法に比べて一般化能力が大幅に向上することが示された。

Contrastive Language-Image Pretraining (CLIP) model has exhibited remarkable efficacy in establishing cross-modal connections between texts and images, yielding impressive performance across a broad spectrum of downstream applications through fine-tuning. However, for generalization tasks, the current fine-tuning methods for CLIP, such as CoOp and CoCoOp, demonstrate relatively low performance on some fine-grained datasets. We recognize the underlying reason is that these previous methods only projected global features into the prompt, neglecting the various visual concepts, such as colors, shapes, and sizes, which are naturally transferable across domains and play a crucial role in generalization tasks. To address this issue, in this work, we propose Concept-Guided Prompt Learning (CPL) for vision-language models. Specifically, we leverage the well-learned knowledge of CLIP to create a visual concept cache to enable concept-guided prompting. In order to refine the text features, we further develop a projector that transforms multi-level visual features into text features. We observe that this concept-guided prompt learning approach is able to achieve enhanced consistency between visual and linguistic modalities. Extensive experimental results demonstrate that our CPL method significantly improves generalization capabilities compared to the current state-of-the-art methods.
翻訳日:2024-01-17 18:10:06 公開日:2024-01-15
# 必要なもののみを送る:フェデレートされた多言語機械翻訳において効率よくコミュニケーションを学ぶ

Only Send What You Need: Learning to Communicate Efficiently in Federated Multilingual Machine Translation ( http://arxiv.org/abs/2401.07456v1 )

ライセンス: Link先を確認
Yun-Wei Chu, Dong-Jun Han, Christopher G. Brinton(参考訳) フェデレートラーニング(FL)は多言語タスクを解決するための有望なアプローチであり、クライアントが自身の言語固有のデータを使って、高品質なニューラルマシン翻訳(NMT)モデルを構築することを可能にする可能性がある。 しかし,実用的ネットワークシステムにおける通信制約は,FLパーティ間で大規模NMTエンジンを交換する上での課題となる。 本稿では,マルチリンガルnmt学習中のクライアントからのモデル伝達の通信効率を向上させるメタラーニングに基づく適応パラメータ選択手法であるmetasendを提案する。 提案手法は,異なるFLラウンド間のクライアントのテンソル偏差に基づいて,NMTモデルの品質を損なうことなく,伝送前にパラメータをフィルタリングする動的しきい値を求める。 異なる言語分布を持つ2つのNMTデータセットの実験を通して,MetaSendは,限られた通信予算が存在する場合に,翻訳品質のベースラインよりも大幅に向上することを示した。

Federated learning (FL) is a promising approach for solving multilingual tasks, potentially enabling clients with their own language-specific data to collaboratively construct a high-quality neural machine translation (NMT) model. However, communication constraints in practical network systems present challenges for exchanging large-scale NMT engines between FL parties. In this paper, we propose a meta-learning-based adaptive parameter selection methodology, MetaSend, that improves the communication efficiency of model transmissions from clients during FL-based multilingual NMT training. Our approach learns a dynamic threshold for filtering parameters prior to transmission without compromising the NMT model quality, based on the tensor deviations of clients between different FL rounds. Through experiments on two NMT datasets with different language distributions, we demonstrate that MetaSend obtains substantial improvements over baselines in translation quality in the presence of a limited communication budget.
翻訳日:2024-01-17 18:09:43 公開日:2024-01-15
# 進化的多目的多様性最適化

Evolutionary Multi-Objective Diversity Optimization ( http://arxiv.org/abs/2401.07454v1 )

ライセンス: Link先を確認
Anh Viet Do, Mingyu Guo, Aneta Neumann, Frank Neumann(参考訳) 近年,高品質なソリューションの多様なセットを作成することが重要な問題となっている。 様々なソリューションに関する以前の研究は、最適化のゴールと制約と見なされるソリューションの客観的品質と多様性を考慮に入れている。 本稿では,この問題を,品質・多様性のトレードオフの幅を求める2目的最適化問題として扱う。 この問題に対処するために,我々は,進化過程を集団の集団の進化として構成し,既存の進化的多目的探索法と適合する適切な汎用的実装手法を提案する。 本手法はNSGA-IIとSPEA2で実現し,最大被覆率,最大カット率,最小頂点被覆率の諸問題に適用した。 結果、非支配的な人口は豊かな質的な特徴を示し、最適化事例とそれらが引き起こす品質と多様性のトレードオフについて洞察を与える。

Creating diverse sets of high quality solutions has become an important problem in recent years. Previous works on diverse solutions problems consider solutions' objective quality and diversity where one is regarded as the optimization goal and the other as the constraint. In this paper, we treat this problem as a bi-objective optimization problem, which is to obtain a range of quality-diversity trade-offs. To address this problem, we frame the evolutionary process as evolving a population of populations, and present a suitable general implementation scheme that is compatible with existing evolutionary multi-objective search methods. We realize the scheme in NSGA-II and SPEA2, and test the methods on various instances of maximum coverage, maximum cut and minimum vertex cover problems. The resulting non-dominated populations exhibit rich qualitative features, giving insights into the optimization instances and the quality-diversity trade-offs they induce.
翻訳日:2024-01-17 18:09:25 公開日:2024-01-15
# スケールでのモデル編集は、経時的および破滅的な予測につながる

Model Editing at Scale leads to Gradual and Catastrophic Forgetting ( http://arxiv.org/abs/2401.07453v1 )

ライセンス: Link先を確認
Akshat Gupta, Anurag Rao, Gopala Anumanchipalli(参考訳) 大きな言語モデルで知識を編集することは、事前学習中に誤った事実を訂正したり、成長を続ける新しい事実のリストでモデルを更新することができる魅力的な能力です。 既存のモデル編集技術は将来性を示しているが、信頼性、特異性、一ないし少数の編集に対する一般化のためにメトリクスを用いて評価される。 モデル編集が実用性を持つためには、同じモデルに複数の編集を行なわなければならない、と我々は主張する。 そこで本研究では,現在のモデル編集手法を大規模に評価し,ROMEとMEMITの2つの手法の状況に着目した。 モデルが複数の事実と逐次的に編集されるにつれて、以前編集された事実と下流タスクの実行能力を常に忘れていることがわかった。 この忘れることは2つのフェーズで起こる。最初の段階は段階的だが漸進的忘れる段階であり、その後は突然または破滅的な忘れる段階である。段階的および破滅的忘れる段階は、大規模でモデルの編集方法の有用性を制限するものである。前者はモデルに複数の編集が加えられるにつれて、モデル編集の効率が低下し、後者はそのようなモデル編集方法のスケーラビリティが上限となる。 我々の分析は、ROMとMEMITの大規模化における他の重要な制限も強調している。 本研究では,スケーラビリティを念頭に置いたモデル編集手法の開発と評価を推し進める。

Editing knowledge in large language models is an attractive capability to have which allows us to correct incorrectly learnt facts during pre-training, as well as update the model with an ever-growing list of new facts. While existing model editing techniques have shown promise, they are usually evaluated using metrics for reliability, specificity and generalization over one or few edits. We argue that for model editing to have practical utility, we must be able to make multiple edits to the same model. With this in mind, we evaluate the current model editing methods at scale, focusing on two state of the art methods: ROME and MEMIT. We find that as the model is edited sequentially with multiple facts, it continually forgets previously edited facts and the ability to perform downstream tasks. This forgetting happens in two phases -- an initial gradual but progressive forgetting phase followed by abrupt or catastrophic forgetting phase. Both gradual and catastrophic forgetting limit the usefulness of model editing methods at scale -- the former making model editing less effective as multiple edits are made to the model while the latter caps the scalability of such model editing methods. Our analysis also highlights other key limitations of ROME and MEMIT at scale. With our work, we push for the development and evaluation of model editing methods keeping scalability in mind.
翻訳日:2024-01-17 18:09:09 公開日:2024-01-15
# 多段拡散モデルを用いた階層型ファッションデザイン

Hierarchical Fashion Design with Multi-stage Diffusion Models ( http://arxiv.org/abs/2401.07450v1 )

ライセンス: Link先を確認
Zhifeng Xie, Hao li, Huiming Ding, Mengtian Li, Ying Cao(参考訳) Cross-modal fashion synthesis and editing offer intelligent support to fashion designers by enabling the automatic generation and local modification of design drafts.While current diffusion models demonstrate commendable stability and controllability in image synthesis,they still face significant challenges in generating fashion design from abstract design elements and fine-grained editing.Abstract sensory expressions, \eg office, business, and party, form the high-level design concepts, while measurable aspects like sleeve length, collar type, and pant length are considered the low-level attributes of clothing.Controlling and editing fashion images using lengthy text descriptions poses a difficulty.In this paper, we propose HieraFashDiff,a novel fashion design method using the shared multi-stage diffusion model encompassing high-level design concepts and low-level clothing attributes in a hierarchical structure.Specifically, we categorized the input text into different levels and fed them in different time step to the diffusion model according to the criteria of professional clothing designers.HieraFashDiff allows designers to add low-level attributes after high-level prompts for interactive editing incrementally.In addition, we design a differentiable loss function in the sampling process with a mask to keep non-edit areas.Comprehensive experiments performed on our newly conducted Hierarchical fashion dataset,demonstrate that our proposed method outperforms other state-of-the-art competitors.

Cross-modal fashion synthesis and editing offer intelligent support to fashion designers by enabling the automatic generation and local modification of design drafts.While current diffusion models demonstrate commendable stability and controllability in image synthesis,they still face significant challenges in generating fashion design from abstract design elements and fine-grained editing.Abstract sensory expressions, \eg office, business, and party, form the high-level design concepts, while measurable aspects like sleeve length, collar type, and pant length are considered the low-level attributes of clothing.Controlling and editing fashion images using lengthy text descriptions poses a difficulty.In this paper, we propose HieraFashDiff,a novel fashion design method using the shared multi-stage diffusion model encompassing high-level design concepts and low-level clothing attributes in a hierarchical structure.Specifically, we categorized the input text into different levels and fed them in different time step to the diffusion model according to the criteria of professional clothing designers.HieraFashDiff allows designers to add low-level attributes after high-level prompts for interactive editing incrementally.In addition, we design a differentiable loss function in the sampling process with a mask to keep non-edit areas.Comprehensive experiments performed on our newly conducted Hierarchical fashion dataset,demonstrate that our proposed method outperforms other state-of-the-art competitors.
翻訳日:2024-01-17 18:08:14 公開日:2024-01-15
# プロパティ推論による個人化フェデレーション学習を可能にする形式論理

Formal Logic Enabled Personalized Federated Learning Through Property Inference ( http://arxiv.org/abs/2401.07448v1 )

ライセンス: Link先を確認
Ziyan An, Taylor T. Johnson, Meiyi Ma(参考訳) 統合学習(FL)の最近の進歩は、特に人工知能(AIoT)分野において、分散協調アプリケーションの開発を大いに促進している。 しかし、現在の研究の展望に欠けている重要な側面は、シンボリック推論機能を備えたデータ駆動クライアントモデルを可能にする能力である。 具体的には、各クライアントが独自の論理推論特性を示すため、参加するクライアントデバイス固有の不均一性は重大な課題となる。 これらのデバイス固有の仕様を考慮できないと、クライアントの予測に重要な特性が欠落し、亜最適性能がもたらされる。 本研究では,時間的論理的推論を利用してこの問題に対処する新たなトレーニングパラダイムを提案する。 このアプローチでは,各flクライアントに機械的に生成された論理式を組み込むことで,トレーニングプロセスを強化する。 さらに,集約クラスタの概念を導入し,時間的推論特性のアライメントに基づいてクライアントを効果的にグループ化するパーティショニングアルゴリズムを開発した。 提案手法は,15州からのセンサデータからなる実世界の交通量予測タスクと,合成データを用いたスマートシティマルチタスク予測という2つのタスクで評価する。 評価結果は,全ての逐次予測モデルに対して,性能精度を最大54%向上した。

Recent advancements in federated learning (FL) have greatly facilitated the development of decentralized collaborative applications, particularly in the domain of Artificial Intelligence of Things (AIoT). However, a critical aspect missing from the current research landscape is the ability to enable data-driven client models with symbolic reasoning capabilities. Specifically, the inherent heterogeneity of participating client devices poses a significant challenge, as each client exhibits unique logic reasoning properties. Failing to consider these device-specific specifications can result in critical properties being missed in the client predictions, leading to suboptimal performance. In this work, we propose a new training paradigm that leverages temporal logic reasoning to address this issue. Our approach involves enhancing the training process by incorporating mechanically generated logic expressions for each FL client. Additionally, we introduce the concept of aggregation clusters and develop a partitioning algorithm to effectively group clients based on the alignment of their temporal reasoning properties. We evaluate the proposed method on two tasks: a real-world traffic volume prediction task consisting of sensory data from fifteen states and a smart city multi-task prediction utilizing synthetic data. The evaluation results exhibit clear improvements, with performance accuracy improved by up to 54% across all sequential prediction models.
翻訳日:2024-01-17 18:07:57 公開日:2024-01-15
# taec:コムギ育種文献における形質・表現型抽出とエンティティリンクのための手動アノテーション付きテキストデータセット

Taec: a Manually annotated text dataset for trait and phenotype extraction and entity linking in wheat breeding literature ( http://arxiv.org/abs/2401.07447v1 )

ライセンス: Link先を確認
Claire N\'edellec, Clara Sauvion, Robert Bossy, Mariya Borovikova, Louise Del\'eger(参考訳) 小麦品種は多種多様な形質と表現型を示す。 遺伝子変異と結びつけることは、より短く、より効率的な小麦の育種計画に不可欠である。 新たに望ましい小麦品種の特徴には、農薬の使用を減らすための病原性抵抗性、気候変動への適応性、熱と干ばつに対する抵抗性、穀物のグルテン含量低下がある。 小麦の繁殖実験は、野外および制御条件下で得られた大量の科学文献と観測データによって記録される。 遺伝型・表現型関係の研究とコムギの選抜の改善には,文献および観察データからの補完情報の相互参照が不可欠である。 遺伝的マーカー支援選択に関する科学文献は、遺伝子型と表現型の関係に関する多くの情報を記述する。 しかし、科学論文における特徴や表現型の値を表すために使われる表現の多様性は、情報を見つけ、それを相互参照する障害となる。 注釈付き例によって適切に訓練された場合、最近のテキストマイニング手法は、名前付きエンティティ認識と科学領域のリンクにおいて高い性能を発揮する。 いくつかのコーパスにはヒトおよび動物性表現型のアノテーションが含まれているが、現在、植物性表現型文学において名前付き実体認識と実体結合法を訓練し評価するためのコーパスは存在しない。 Triticum aestivum trait Corpusは小麦の形質と表現型のための新しい金の標準である。 コムギ形質と表現型オントロジーと国立バイオテクノロジー情報センターの種分類を用いた、形質、表現型、種名に完全に注釈が付された540種のpubmedの参考文献からなる。 triticum aestivum traitコーパスでトレーニングされたツールのパフォーマンスに関する研究は、コーパスが名前付きエンティティ認識とリンクのトレーニングと評価に適していることを示している。

Wheat varieties show a large diversity of traits and phenotypes. Linking them to genetic variability is essential for shorter and more efficient wheat breeding programs. Newly desirable wheat variety traits include disease resistance to reduce pesticide use, adaptation to climate change, resistance to heat and drought stresses, or low gluten content of grains. Wheat breeding experiments are documented by a large body of scientific literature and observational data obtained in-field and under controlled conditions. The cross-referencing of complementary information from the literature and observational data is essential to the study of the genotype-phenotype relationship and to the improvement of wheat selection. The scientific literature on genetic marker-assisted selection describes much information about the genotype-phenotype relationship. However, the variety of expressions used to refer to traits and phenotype values in scientific articles is a hinder to finding information and cross-referencing it. When trained adequately by annotated examples, recent text mining methods perform highly in named entity recognition and linking in the scientific domain. While several corpora contain annotations of human and animal phenotypes, currently, no corpus is available for training and evaluating named entity recognition and entity-linking methods in plant phenotype literature. The Triticum aestivum trait Corpus is a new gold standard for traits and phenotypes of wheat. It consists of 540 PubMed references fully annotated for trait, phenotype, and species named entities using the Wheat Trait and Phenotype Ontology and the species taxonomy of the National Center for Biotechnology Information. A study of the performance of tools trained on the Triticum aestivum trait Corpus shows that the corpus is suitable for the training and evaluation of named entity recognition and linking.
翻訳日:2024-01-17 18:07:37 公開日:2024-01-15
# GACE:クリックスルー率予測のためのグラフベースのクロスページ広告を学習

GACE: Learning Graph-Based Cross-Page Ads Embedding For Click-Through Rate Prediction ( http://arxiv.org/abs/2401.07445v1 )

ライセンス: Link先を確認
Haowen Wang, Yuliang Du, Congyun Jin, Yujiao Li, Yingbo Wang, Tao Sun, Piqi Qin, Cong Fan(参考訳) クリックスルー率(CTR)の予測は、多くのオンラインレコメンデーションシステムの中核的なタスクであり、ユーザーエクスペリエンスの向上とプラットフォーム収益の向上に役立つ。 この種のレコメンデーションシステムでは、複数ページの履歴広告データの併用と、新しい広告のコールドスタートという2つの大きな問題に直面することが多い。 本稿では,グラフベースのクロスページ広告埋め込み生成手法であるGACEを提案する。 様々なページにわたるコールドスタート広告や既存の広告の埋め込みをウォームアップして生成することができる。 具体的には,特徴融合と生成の方向性を導くために,意味的属性とページ型属性を考慮したリンクと重み付けなしグラフモデルを慎重に構築する。 我々は,事前学習モジュールとして変分自動エンコーディングタスクを設計し,このタスクに基づいて新旧広告の埋め込み表現を生成する。 RecBoleの公開データセットAliECとAlipayの現実世界の業界データセットで評価した結果,GACE法はSOTA法よりも優れていることがわかった。 オンラインA/Bテストでは、Alipayの3つの現実世界ページのクリックスルー率がそれぞれ3.6%、2.13%、3.02%増加した。 特にコールドスタートでは、CTRはそれぞれ9.96%、7.51%、そして8.97%増加した。

Predicting click-through rate (CTR) is the core task of many ads online recommendation systems, which helps improve user experience and increase platform revenue. In this type of recommendation system, we often encounter two main problems: the joint usage of multi-page historical advertising data and the cold start of new ads. In this paper, we proposed GACE, a graph-based cross-page ads embedding generation method. It can warm up and generate the representation embedding of cold-start and existing ads across various pages. Specifically, we carefully build linkages and a weighted undirected graph model considering semantic and page-type attributes to guide the direction of feature fusion and generation. We designed a variational auto-encoding task as pre-training module and generated embedding representations for new and old ads based on this task. The results evaluated in the public dataset AliEC from RecBole and the real-world industry dataset from Alipay show that our GACE method is significantly superior to the SOTA method. In the online A/B test, the click-through rate on three real-world pages from Alipay has increased by 3.6%, 2.13%, and 3.02%, respectively. Especially in the cold-start task, the CTR increased by 9.96%, 7.51%, and 8.97%, respectively.
翻訳日:2024-01-17 18:07:06 公開日:2024-01-15
# SAR画像からのオブジェクト検出器と適応セグメントモデルに基づく組成油流出検出

Compositional Oil Spill Detection Based on Object Detector and Adapted Segment Anything Model from SAR Images ( http://arxiv.org/abs/2401.07502v1 )

ライセンス: Link先を確認
Wenhui Wu, Man Sing Wong, Xinyu Yu, Guoqiang Shi, Coco Yin Tung Kwok, Kang Zou(参考訳) セマンティックセグメンテーションに基づく手法は,SAR画像からの油流出検出に広く注目されている。 しかし、既存のアプローチでは、トレーニング段階で多数の細かい注釈付きセグメンテーションサンプルが必要である。 この問題を軽減するために,オブジェクト検出器(例:YOLOv8),適応セグメント・アニーシング・モデル(SAM),命令マスク・フュージョン(OMF)モジュールからなる複合油流出検知フレームワークSAM-OILを提案する。 SAM-OILは石油流出検知における強力なSAMの最初の応用である。 具体的には、SAM-OIL 戦略は YOLOv8 を用いて、石油流出関連物のカテゴリとバウンディングボックスを取得し、その後、適応されたSAM にバウンディングボックスを入力してカテゴリ非依存マスクを検索し、最後に、マスクとカテゴリを融合させるために Ordered Mask Fusion (OMF) モジュールを採用する。 適応されたSAMは、凍ったSAMと学習可能なAdapterモジュールを組み合わせることで、SAMの曖昧なオブジェクトを分割する能力を高めることができる。 パラメータフリーなOMFモジュールはSAM内の画素カテゴリ競合を効果的に解決することができる。 実験の結果、SAM-OILは既存のセマンティックセグメンテーションに基づくオイル流出検出法を超え、69.52%のmIoUを達成した。 また,OMFモジュールとAdapterモジュールはSAM-OILの精度を効果的に向上できることを示した。

Semantic segmentation-based methods have attracted extensive attention in oil spill detection from SAR images. However, the existing approaches require a large number of finely annotated segmentation samples in the training stage. To alleviate this issue, we propose a composite oil spill detection framework, SAM-OIL, comprising an object detector (e.g., YOLOv8), an adapted Segment Anything Model (SAM), and an Ordered Mask Fusion (OMF) module. SAM-OIL is the first application of the powerful SAM in oil spill detection. Specifically, the SAM-OIL strategy uses YOLOv8 to obtain the categories and bounding boxes of oil spill-related objects, then inputs bounding boxes into the adapted SAM to retrieve category-agnostic masks, and finally adopts the Ordered Mask Fusion (OMF) module to fuse the masks and categories. The adapted SAM, combining a frozen SAM with a learnable Adapter module, can enhance SAM's ability to segment ambiguous objects. The OMF module, a parameter-free method, can effectively resolve pixel category conflicts within SAM. Experimental results demonstrate that SAM-OIL surpasses existing semantic segmentation-based oil spill detection methods, achieving mIoU of 69.52%. The results also indicated that both OMF and Adapter modules can effectively improve the accuracy in SAM-OIL.
翻訳日:2024-01-17 18:00:14 公開日:2024-01-15
# 余剰土地被覆図作成のための難読化深層学習と衛星画像

Harnessing Deep Learning and Satellite Imagery for Post-Buyout Land Cover Mapping ( http://arxiv.org/abs/2401.07500v1 )

ライセンス: Link先を確認
Hakan T. Otal, Elyse Zavar, Sherri B. Binder, Alex Greer, and M. Abdullah Canbaz(参考訳) 洪水、ハリケーン、山火事などの環境災害は、世界中のコミュニティを脅かし、様々な緩和戦略を生み出している。 その中でも、将来の災害に対する脆弱性を減らすための顕著なアプローチとして不動産購入が浮上している。 この戦略は、政府が有望な売り手からリスクの高い資産を購入し、土地をオープンスペースに転換し、将来の災害リスクと影響を著しく低減させる。 しかし、特に土地利用パターンや地域の影響に関するこれらの買収の余波は未調査のままである。 本研究は,衛星画像解析や深層学習といった革新的な手法を応用して,このギャップを埋めることを目的とする。 FEMAのHMGP(Hazard Mitigation Grant Program)のバイアウトデータセットは1989年から2017年にかけて41,004以上のアドレスを格納している。 GoogleのMaps Static APIを利用して、購入した土地に対応する衛星画像40,053枚を集めました。 その後,5つの最先端機械学習モデルを実装し,土地被覆型の評価を行った。 特に、この課題には多クラス分類が含まれており、我々のモデルは卓越したROC-AUCスコア98.86%を達成した。

Environmental disasters such as floods, hurricanes, and wildfires have increasingly threatened communities worldwide, prompting various mitigation strategies. Among these, property buyouts have emerged as a prominent approach to reducing vulnerability to future disasters. This strategy involves governments purchasing at-risk properties from willing sellers and converting the land into open space, ostensibly reducing future disaster risk and impact. However, the aftermath of these buyouts, particularly concerning land-use patterns and community impacts, remains under-explored. This research aims to fill this gap by employing innovative techniques like satellite imagery analysis and deep learning to study these patterns. To achieve this goal, we employed FEMA's Hazard Mitigation Grant Program (HMGP) buyout dataset, encompassing over 41,004 addresses of these buyout properties from 1989 to 2017. Leveraging Google's Maps Static API, we gathered 40,053 satellite images corresponding to these buyout lands. Subsequently, we implemented five cutting-edge machine learning models to evaluate their performance in classifying land cover types. Notably, this task involved multi-class classification, and our model achieved an outstanding ROC-AUC score of 98.86%
翻訳日:2024-01-17 17:59:43 公開日:2024-01-15
# ほぼ全ての偶粒子純状態は、その半体辺縁によって決定される

Almost all even-particle pure states are determined by their half-body marginals ( http://arxiv.org/abs/2401.07499v1 )

ライセンス: Link先を確認
Wanchen Zhang, Fei Shi and Xiande Zhang(参考訳) 元の大域状態が局所辺数によって一意に決定されるかどうかを決定することは、量子状態を特徴づけるための効率的なツールの前提条件である。 本論文は, 局所次元が等しい$N$-粒子でさえも, ほぼすべての総純状態が, 半体辺辺の4つの他の純状態 (UDP) の中で一意に決定されることを示す。 さらに、真に多成分の絡み合った状態を決定するための辺数を図式的に記述することで、必要な辺数に対するいくつかの下界を導出する。 最後に、いくつかの k > N/2-1 に対して k 体の辺縁で UDP ができないような組合せ構造から得られる N-qudit 状態の構成を示す。

Determining whether the original global state is uniquely determined by its local marginals is a prerequisite for some efficient tools for characterizing quantum states. This paper shows that almost all generic pure states of even $N$-particle with equal local dimension are uniquely determined among all other pure states (UDP) by four of their half-body marginals. Furthermore, we give a graphical description of the marginals for determining genuinely multipartite entangled states, which leads to several lower bounds on the number of required marginals. Finally, we present a construction of N-qudit states obtained from certain combinatorial structures that cannot be UDP by its k-body marginals for some k>N/2-1.
翻訳日:2024-01-17 17:59:22 公開日:2024-01-15
# 無限可変量子モンテカルロにおける擬似高速化

Quadratic Speed-up in Infinite Variance Quantum Monte Carlo ( http://arxiv.org/abs/2401.07497v1 )

ライセンス: Link先を確認
Jose Blanchet, Mario Szegedy, Guanyang Wang(参考訳) 本研究ではモンタナロのarXiv/archive:1504.06987 量子モンテカルロ法の拡張について述べる。 これは、様々な科学・工学分野でよく見られる重尾分布の分析における課題に対処する。 我々の量子アルゴリズムは、有限の$(1+\delta)^{\text{th}}$ moment を持つ変数に対して平均を効率的に推定する。 これは、古典的モンテカルロ法よりも精度パラメータ$\epsilon$と分布の指定モーメントの両方で二次的なスピードアップを提供する。 古典的下界と量子下界の両方を確立し、量子法の中でアルゴリズムの最適に近い効率を示す。 我々の研究は、新しいアルゴリズムを作成することではなく、確率変数に関する追加情報を用いて既存のアルゴリズムの実行を分析することに焦点を当てている。 さらに、これらのシナリオを分類し、提供可能な補足情報の種類における階層構造を示す。

In this study, we give an extension of Montanaro's arXiv/archive:1504.06987 quantum Monte Carlo method, tailored for computing expected values of random variables that exhibit infinite variance. This addresses a challenge in analyzing heavy-tailed distributions, which are commonly encountered in various scientific and engineering fields. Our quantum algorithm efficiently estimates means for variables with a finite $(1+\delta)^{\text{th}}$ moment, where $\delta$ lies between 0 and 1. It provides a quadratic speedup over the classical Monte Carlo method in both the accuracy parameter $\epsilon$ and the specified moment of the distribution. We establish both classical and quantum lower bounds, showcasing the near-optimal efficiency of our algorithm among quantum methods. Our work focuses not on creating new algorithms, but on analyzing the execution of existing algorithms with available additional information about the random variable. Additionally, we categorize these scenarios and demonstrate a hierarchy in the types of supplementary information that can be provided.
翻訳日:2024-01-17 17:59:08 公開日:2024-01-15
# MIMO無線フェデレーション学習における誤りフィードバックを用いた低ランク勾配圧縮

Low-Rank Gradient Compression with Error Feedback for MIMO Wireless Federated Learning ( http://arxiv.org/abs/2401.07496v1 )

ライセンス: Link先を確認
Mingzhao Guo, Dongzhu Liu, Osvaldo Simeone, Dingzhu Wen(参考訳) 本稿では,マルチ入力およびマルチ出力(MIMO)無線システムにおけるフェデレーション学習(FL)の通信効率を高めるための新しい手法を提案する。 提案手法は,直交最小二乗法に基づく局所勾配圧縮のための低ランク行列分解戦略と,オーバーザ・エア計算と誤差フィードバックに焦点をあてたものである。 提案プロトコルはオーバー・ザ・エア・ローランク圧縮 (Ota-LC) と呼ばれ, 計算コストが低く, 通信オーバヘッドも従来のベンチマークよりも低く, 推論性能が同じであることを示す。 例えば、Cifar-10データセットでテスト精度の80%を目標とする場合、Ota-LCは、ベンチマークスキームと対比した場合に、全通信コストを少なくとも30%削減すると同時に、勾配の次元の和に等しい係数で計算複雑性の順序を下げる。

This paper presents a novel approach to enhance the communication efficiency of federated learning (FL) in multiple input and multiple output (MIMO) wireless systems. The proposed method centers on a low-rank matrix factorization strategy for local gradient compression based on alternating least squares, along with over-the-air computation and error feedback. The proposed protocol, termed over-the-air low-rank compression (Ota-LC), is demonstrated to have lower computation cost and lower communication overhead as compared to existing benchmarks while guaranteeing the same inference performance. As an example, when targeting a test accuracy of 80% on the Cifar-10 dataset, Ota-LC achieves a reduction in total communication costs of at least 30% when contrasted with benchmark schemes, while also reducing the computational complexity order by a factor equal to the sum of the dimension of the gradients.
翻訳日:2024-01-17 17:58:49 公開日:2024-01-15
# input convex lipschitz rnn: エンジニアリングタスクのための高速で堅牢なアプローチ

Input Convex Lipschitz RNN: A Fast and Robust Approach for Engineering Tasks ( http://arxiv.org/abs/2401.07494v1 )

ライセンス: Link先を確認
Zihao Wang, P S Pravin, Zhe Wu(参考訳) 計算効率と敵対的ロバスト性は実世界の工学的応用において重要な要素である。 しかし、従来のニューラルネットワークは、同時に、あるいは別々に対処できないことが多い。 自然物理系や既存の文献からの洞察を引き合いに出し、入力凸構造が計算効率を高めるのに対し、リプシッツ拘束型アーキテクチャは逆ロバスト性を高めることが知られている。 凸性およびリプシッツ連続性の強みを活用することにより、入出力凸リプシッツ再帰ニューラルネットワークと呼ばれる新しいネットワークアーキテクチャを開発する。 このモデルは、計算効率と逆ロバスト性の観点から、エンジニアリングタスクのスペクトル全体で既存の再帰ユニットを上回る。 これらのタスクには、MNIST画像分類のベンチマーク、シンガポールのLHTホールディングスのソーラーPVシステム計画のための実世界の太陽光照射予測、化学反応器のリアルタイムモデル予測制御の最適化が含まれる。

Computational efficiency and adversarial robustness are critical factors in real-world engineering applications. Yet, conventional neural networks often fall short in addressing both simultaneously, or even separately. Drawing insights from natural physical systems and existing literature, it is known that an input convex architecture enhances computational efficiency, while a Lipschitz-constrained architecture bolsters adversarial robustness. By leveraging the strengths of convexity and Lipschitz continuity, we develop a novel network architecture, termed Input Convex Lipschitz Recurrent Neural Network. This model outperforms existing recurrent units across a spectrum of engineering tasks in terms of computational efficiency and adversarial robustness. These tasks encompass a benchmark MNIST image classification, real-world solar irradiance prediction for Solar PV system planning at LHT Holdings in Singapore, and real-time Model Predictive Control optimization for a chemical reactor.
翻訳日:2024-01-17 17:58:30 公開日:2024-01-15
# 最小圧力勾配の原理:非圧縮性流体力学の物理インフォームドラーニングのための代替基礎

The Principle of Minimum Pressure Gradient: An Alternative Basis for Physics-Informed Learning of Incompressible Fluid Mechanics ( http://arxiv.org/abs/2401.07489v1 )

ライセンス: Link先を確認
Hussam Alhussein, Mohammed Daqaq(参考訳) 流体力学の分野への物理学的インフォームド学習の応用における最近の進歩は、主にニュートンの枠組みに基礎を置き、navier-stokes方程式や、ニューラルネットワークを訓練するための様々な微分の1つを原始的に活用している。 本稿では,変分法に基づく代替手法を提案する。 提案手法では, 最小圧力勾配の原理と連続性制約を組み合わせることで, ニューラルネットワークを訓練し, 圧縮性流体中の流れ場を予測できる。 提案手法の基本原理を概説し,その実装を説明する上で実証的な例を用いて,従来の手法と比較した場合の学習1時間あたりの計算時間を短縮することを示す。

Recent advances in the application of physics-informed learning into the field of fluid mechanics have been predominantly grounded in the Newtonian framework, primarly leveraging Navier-Stokes Equation or one of its various derivative to train a neural network. Here, we propose an alternative approach based on variational methods. The proposed approach uses the principle of minimum pressure gradient combined with the continuity constraint to train a neural network and predict the flow field in incompressible fluids. We describe the underlying principles of the proposed approach, then use a demonstrative example to illustrate its implementation and show that it reduces the computational time per training epoch when compared to the conventional approach.
翻訳日:2024-01-17 17:58:13 公開日:2024-01-15
# クラス条件分布間の距離最大化による特徴選択

Feature Selection via Maximizing Distances between Class Conditional Distributions ( http://arxiv.org/abs/2401.07488v1 )

ライセンス: Link先を確認
Chunxu Cao, Qiang Zhang(参考訳) 多くのデータ集約的なタスクでは、機能の選択が重要な前処理ステップです。 しかし,既存の手法の多くは,特徴の固有識別情報を直接的かつ直感的に探索するものではない。 本稿では,クラス条件分布間の距離を積分確率メトリクス(ipms)で測定した新しい特徴選択フレームワークを提案する。 本フレームワークは,教師付き分類のための分布の意味で特徴の判別情報を直接探索する。 特徴選択のためのIMMの理論的・実用的側面, 構成基準をIMMに基づいて分析する。 我々は,1-wasserstein距離に基づくフレームワークの特徴選択手法をいくつか提案し,異なる領域の実際のデータセットに実装する。 実験の結果, 本フレームワークは, 分類精度と摂動に対するロバスト性の観点から, 最先端手法を上回ることができることがわかった。

For many data-intensive tasks, feature selection is an important preprocessing step. However, most existing methods do not directly and intuitively explore the intrinsic discriminative information of features. We propose a novel feature selection framework based on the distance between class conditional distributions, measured by integral probability metrics (IPMs). Our framework directly explores the discriminative information of features in the sense of distributions for supervised classification. We analyze the theoretical and practical aspects of IPMs for feature selection, construct criteria based on IPMs. We propose several variant feature selection methods of our framework based on the 1-Wasserstein distance and implement them on real datasets from different domains. Experimental results show that our framework can outperform state-of-the-art methods in terms of classification accuracy and robustness to perturbations.
翻訳日:2024-01-17 17:58:00 公開日:2024-01-15
# Robo-ABC: ロボット操作のためのセマンティック対応によるカテゴリを越えたアフォーマンス一般化

Robo-ABC: Affordance Generalization Beyond Categories via Semantic Correspondence for Robot Manipulation ( http://arxiv.org/abs/2401.07487v1 )

ライセンス: Link先を確認
Yuanchen Ju, Kaizhe Hu, Guowei Zhang, Gu Zhang, Mingrun Jiang, Huazhe Xu(参考訳) アウト・オブ・ディストリビューションシーンに一般化するロボット操作は、オープンワールドのインボディードインテリジェンスにとって重要なステップだ。 人間にとって、この能力はオブジェクト間の意味的対応の理解に根ざしており、慣れ親しんだオブジェクトの対話体験を自然に新しいものに伝達する。 ロボットにはそのような対話体験が欠けているが、インターネット上の人間のビデオの膨大な可用性は貴重なリソースとなり、そこからコンタクトポイントを含むアプライアンスメモリを抽出する。 一般化を必要とする未知の物体に直面すると、ロボットは、アプライアンスメモリから視覚的または意味的な類似性を共有するオブジェクトを検索することで、アプライアンスを得ることができます。 次のステップは、取得したオブジェクトの接触点を新しいオブジェクトにマッピングすることです。 この対応の確立は一見すると恐ろしい課題となるかもしれないが、最近の研究では、事前訓練された拡散モデルから自然に発生することが分かり、異なる対象カテゴリをまたいでも可利用性マッピングが可能である。 robo-abcフレームワークを通じて、ロボットは、手動のアノテーション、追加のトレーニング、部分のセグメンテーション、事前コードされた知識、視点制限なしで、カテゴリー外のオブジェクトをゼロショットで操作できる。 定量的には、Robo-ABCは最先端(SOTA)の価格モデルと比較して視力検索の精度を31.6%大きく向上させる。 また,クロスカテゴリオブジェクト認識タスクの実世界実験も実施する。 Robo-ABCは85.7%の成功率を達成した。

Enabling robotic manipulation that generalizes to out-of-distribution scenes is a crucial step toward open-world embodied intelligence. For human beings, this ability is rooted in the understanding of semantic correspondence among objects, which naturally transfers the interaction experience of familiar objects to novel ones. Although robots lack such a reservoir of interaction experience, the vast availability of human videos on the Internet may serve as a valuable resource, from which we extract an affordance memory including the contact points. Inspired by the natural way humans think, we propose Robo-ABC: when confronted with unfamiliar objects that require generalization, the robot can acquire affordance by retrieving objects that share visual or semantic similarities from the affordance memory. The next step is to map the contact points of the retrieved objects to the new object. While establishing this correspondence may present formidable challenges at first glance, recent research finds it naturally arises from pre-trained diffusion models, enabling affordance mapping even across disparate object categories. Through the Robo-ABC framework, robots may generalize to manipulate out-of-category objects in a zero-shot manner without any manual annotation, additional training, part segmentation, pre-coded knowledge, or viewpoint restrictions. Quantitatively, Robo-ABC significantly enhances the accuracy of visual affordance retrieval by a large margin of 31.6% compared to state-of-the-art (SOTA) end-to-end affordance models. We also conduct real-world experiments of cross-category object-grasping tasks. Robo-ABC achieved a success rate of 85.7%, proving its capacity for real-world tasks.
翻訳日:2024-01-17 17:57:50 公開日:2024-01-15
# Sommerfeld Puzzle とその拡張

The "Sommerfeld Puzzle" and Its Extensions ( http://arxiv.org/abs/2401.07485v1 )

ライセンス: Link先を確認
Sergei K. Suslov(参考訳) 相対論的水素原子(いわゆる「ソマーフェルドパズル」)のエネルギーレベルについて、ソマーフェルド(1916年)とディラック(1928年)の正確な一致が分析され、拡張される。 ヴェルナー・ハイゼンベルクはこの偶然を「奇跡」と呼んだが、アーウィン・シュローディンガーは、この偶然を計算上の事故と表現した。

The exact agreement between the Sommerfeld (1916) and Dirac (1928) results for the energy levels of the relativistic hydrogen atom (the so-called "Sommerfeld puzzle") is analyzed and extended. Werner Heisenberg called this coincidence a `miracle' but Erwin Schroedinger described it as a fortuitous computational accident.
翻訳日:2024-01-17 17:57:21 公開日:2024-01-15
# 機械学習における高次元データセットのコントラストに基づく特徴選択アルゴリズム

A Contrast Based Feature Selection Algorithm for High-dimensional Data set in Machine Learning ( http://arxiv.org/abs/2401.07482v1 )

ライセンス: Link先を確認
Chunxu Cao, Qiang Zhang(参考訳) 特徴選択は機械学習と知識発見において重要なプロセスである。 最も有意義な特徴の選択と無関係な特徴の排除により、学習アルゴリズムの性能が向上し、データから有意義なパターンや洞察の抽出が容易になる。 しかし、既存の機能選択手法の多くは、大規模なデータセットに適用すると、高い計算コストのボトルネックに遭遇する。 この問題に対処するために,異なるクラス間で示される相違点に基づいて識別的特徴を選択する新しいフィルタ特徴選択手法であるContrastFSを提案する。 この量に基づいて,あるクラスの分布的個性を要約する代理表現として無次元量を導入し,それらの特徴を評価し,それらの相関について検討する。 提案手法の有効性と有効性について検証し,提案手法が他の最先端特徴選択法と比較して無視可能な計算により良好に動作することを示す。

Feature selection is an important process in machine learning and knowledge discovery. By selecting the most informative features and eliminating irrelevant ones, the performance of learning algorithms can be improved and the extraction of meaningful patterns and insights from data can be facilitated. However, most existing feature selection methods, when applied to large datasets, encountered the bottleneck of high computation costs. To address this problem, we propose a novel filter feature selection method, ContrastFS, which selects discriminative features based on the discrepancies features shown between different classes. We introduce a dimensionless quantity as a surrogate representation to summarize the distributional individuality of certain classes, based on this quantity we evaluate features and study the correlation among them. We validate effectiveness and efficiency of our approach on several widely studied benchmark datasets, results show that the new method performs favorably with negligible computation in comparison with other state-of-the-art feature selection methods.
翻訳日:2024-01-17 17:57:12 公開日:2024-01-15
# CascadeV-Det:3次元物体検出のためのカスケード点投票

CascadeV-Det: Cascade Point Voting for 3D Object Detection ( http://arxiv.org/abs/2401.07477v1 )

ライセンス: Link先を確認
Yingping Liang, Ying Fu(参考訳) アンカーフリーオブジェクト検出器はアンカーの余分な後処理を必要とせずにポイントベースの予測を行うのに非常に効率的である。 しかし、2Dグリッドとは異なり、これらの検出器で使用される3Dポイントは、しばしば地上の真理の中心から遠ざかっているため、バウンディングボックスを正確に回帰することは困難である。 この問題に対処するため,我々は,ポイントベース予測による高品質な3dオブジェクト検出を実現するカスケード投票(cascadev)戦略を提案する。 具体的には、CascadeVは2つの新しいコンポーネント(IA-Voting)とCascade Point Assignment(CPA)モジュールを組み合わせた新しいCascade Voting Decoderを使用してカスケード検出を行う。 IA-Votingモジュールは、条件付き逆距離重み付けを使用して、バウンディングボックス内の更新提案点のオブジェクト特徴を更新する。 このアプローチは、機能がインスタンス外で集約されることを防ぎ、オブジェクト検出の精度を向上させる。 さらに、モデルトレーニングは、高い中心性を持つ提案点の欠如に悩まされる可能性があるため、カスケードステージによる正の割り当て閾値を狭めるためのCPAモジュールを開発した。 このアプローチは、初期の段階における提案中心性への依存を緩和し、後期段階において高い中心性を持つ十分な正の量を確保する。 SUN RGB-Dでは, FCAF3Dが70.4\% mAP@0.25, 51.6\% mAP@0.5, ScanNetでは競合する結果を得た。 コードはhttps://github.com/Sharpiless/CascadeV-Detでリリースされる

Anchor-free object detectors are highly efficient in performing point-based prediction without the need for extra post-processing of anchors. However, different from the 2D grids, the 3D points used in these detectors are often far from the ground truth center, making it challenging to accurately regress the bounding boxes. To address this issue, we propose a Cascade Voting (CascadeV) strategy that provides high-quality 3D object detection with point-based prediction. Specifically, CascadeV performs cascade detection using a novel Cascade Voting decoder that combines two new components: Instance Aware Voting (IA-Voting) and a Cascade Point Assignment (CPA) module. The IA-Voting module updates the object features of updated proposal points within the bounding box using conditional inverse distance weighting. This approach prevents features from being aggregated outside the instance and helps improve the accuracy of object detection. Additionally, since model training can suffer from a lack of proposal points with high centerness, we have developed the CPA module to narrow down the positive assignment threshold with cascade stages. This approach relaxes the dependence on proposal centerness in the early stages while ensuring an ample quantity of positives with high centerness in the later stages. Experiments show that FCAF3D with our CascadeV achieves state-of-the-art 3D object detection results with 70.4\% mAP@0.25 and 51.6\% mAP@0.5 on SUN RGB-D and competitive results on ScanNet. Code will be released at https://github.com/Sharpiless/CascadeV-Det
翻訳日:2024-01-17 17:56:58 公開日:2024-01-15
# GWPT:グリーンワード埋め込みベースのPOSタグ

GWPT: A Green Word-Embedding-based POS Tagger ( http://arxiv.org/abs/2401.07475v1 )

ライセンス: Link先を確認
Chengwei Wei, Runqi Pang, C.-C. Jay Kuo(参考訳) 自然言語処理(NLP)の基本ツールとして、POSタグは文中の各単語にPOSラベルを割り当てる。 単語埋め込みに基づく新しい軽量POSタグが提案され, GWPT (green word-embedding-based POS tagger) と名付けられた。 グリーンラーニング(GL)手法に従い、GWPTはカスケードに3つのモジュールを含む。 1)表現学習 2)特徴学習,および 3) 意思決定モジュール。 GWPTの主な新規性は表現学習にある。 非文脈的または文脈的単語の埋め込み、次元のインデックスを低、中、高周波数の集合に分割し、異なるN-gramで表現する。 実験結果から,GWPTはモデルパラメータの少ない最先端の精度を提供し,深層学習法と比較して,学習と推論の双方において計算の複雑さが著しく低いことがわかった。

As a fundamental tool for natural language processing (NLP), the part-of-speech (POS) tagger assigns the POS label to each word in a sentence. A novel lightweight POS tagger based on word embeddings is proposed and named GWPT (green word-embedding-based POS tagger) in this work. Following the green learning (GL) methodology, GWPT contains three modules in cascade: 1) representation learning, 2) feature learning, and 3) decision learning modules. The main novelty of GWPT lies in representation learning. It uses non-contextual or contextual word embeddings, partitions embedding dimension indices into low-, medium-, and high-frequency sets, and represents them with different N-grams. It is shown by experimental results that GWPT offers state-of-the-art accuracies with fewer model parameters and significantly lower computational complexity in both training and inference as compared with deep-learning-based methods.
翻訳日:2024-01-17 17:56:29 公開日:2024-01-15
# AdS/CFTにおける部分絡み合いネットワークとバルク形状再構成

Partial entanglement network and bulk geometry reconstruction in AdS/CFT ( http://arxiv.org/abs/2401.07471v1 )

ライセンス: Link先を確認
Jiong Lin, Yizhou Lu, Qiang Wen(参考訳) 反ド・ジッター/共形場理論(ads/cft)の文脈において、境界cft上の絡み合い構造、部分絡み合いエントロピー(pee)の特定の測度の観点から、バルク幾何量を再構成するための一般的なスキームを提案する。 任意の 2 つの点 $\mathcal{I}(\vec x, \vec y)$ の間の PEE は PEE 構造の基本的な構成要素である。 PEE スレッドと呼ばれる2つの境界点 $\vec x$ と $\vec y$ を繋ぐバルク測地線に幾何学化することができる。 このようにして、境界PEE構造 \cite{Lin:2023rbd} によって決定されるスレッドの密度で、バルク内のPEEスレッドのネットワークを作る。 任意の静的境界領域 $a$ に対して、ピースレッドが通過する最小磁束を持つホモログ曲面 $\sigma_{a}$ は、まさに ryu-takayanagi (rt) 表面が $a$ であることを示し、最小磁束が $a$ のホログラフィック絡み合いエントロピーと一致することを証明した。 さらに,任意の方向に沿った任意のバルク点におけるPEEフラックスの強度は1/4G$であることを示す。 この観測に基づいて、バルク内の任意の領域要素が、CFT上の2点PEEの集合に対応するPEEスレッドによって再構成可能であることを証明した。

In the context of Anti-de Sitter / Conformal Field Theory (AdS/CFT) correspondence, we present a general scheme to reconstruct bulk geometric quantities in terms of a specific measure of the entanglement structure on the boundary CFT, the partial entanglement entropy (PEE). The PEE between any two points $\mathcal{I}(\vec x, \vec y)$ is the fundamental building block of the PEE structure. It can be geometrized into a bulk geodesic connecting the two boundary points $\vec x$ and $\vec y$, which we refer to as the PEE thread. Thus, we ave a network of the PEE threads in the bulk with a density of the threads determined by the boundary PEE structure \cite{Lin:2023rbd}.We demonstrate that, for any static boundary region $A$, the homologous surface $\Sigma_{A}$ that has the minimal flux of the PEE threads passing through it is exactly the Ryu-Takayanagi (RT) surface of $A$, and the minimal flux coincides with the holographic entanglement entropy of $A$.Furthermore, we show that the strength of the PEE flux at any bulk point along any direction is $1/4G$. Based on this observation, we prove that any area element in the bulk can be reconstructed by the PEE threads passing through it, which corresponds to a set of two-point PEEs on the CFT.
翻訳日:2024-01-17 17:56:14 公開日:2024-01-15
# ゲノム・疫学的特徴に基づくエンハンサーとスーパーエンハンサーの同定のためのディープラーニングモデルの利用

Utilizing deep learning models for the identification of enhancers and super-enhancers based on genomic and epigenomic features ( http://arxiv.org/abs/2401.07470v1 )

ライセンス: Link先を確認
Zahra Ahani, Moein Shahiki Tash, Yoel Ledo Mezquita and Jason Angel(参考訳) 本稿では、Cardano、Binance、Bitcoin、Dogecoin、Ethereum、Fantom、Matic、Shiba、Rippleの9つの広く認識されている暗号通貨に焦点を当てた、英語のツイートのデータセットを広範囲に検証する。 我々の主な目的は、これらの暗号通貨に関連するソーシャルメディアコンテンツの心理言語学的および感情分析を行うことでした。 調査員がより詳しい判断を行えるようにする。 この研究は、様々なデジタル硬貨の言語的特徴を比較し、各硬貨のコミュニティに現れる独特の言語的パターンに光を当てた。 そこで我々は,高度なテキスト解析技術を利用した。 さらに、暗号通貨コミュニティ内のこれらのデジタル資産間の相互作用に関する興味深い理解も明らかにしました。 データセットでどのコインペアが最も頻繁に言及されるかを調べることで、異なる暗号通貨間の相関関係を確立した。 結果の信頼性を確保するため、当初Twitterから合計832,559のツイートを集めました。 これらのツイートは厳格な事前処理段階を経て、115,899件のツイートが分析に使われた。 全体として、我々の研究は、様々なデジタルコインのオンラインコミュニティの言語的ニュアンスに対する貴重な認識を提供し、暗号通貨分野における彼らの相互作用のより深い理解を提供する。

This paper provides an extensive examination of a sizable dataset of English tweets focusing on nine widely recognized cryptocurrencies, specifically Cardano, Binance, Bitcoin, Dogecoin, Ethereum, Fantom, Matic, Shiba, and Ripple. Our primary objective was to conduct a psycholinguistic and emotion analysis of social media content associated with these cryptocurrencies. To enable investigators to make more informed decisions. The study involved comparing linguistic characteristics across the diverse digital coins, shedding light on the distinctive linguistic patterns that emerge within each coin's community. To achieve this, we utilized advanced text analysis techniques. Additionally, our work unveiled an intriguing Understanding of the interplay between these digital assets within the cryptocurrency community. By examining which coin pairs are mentioned together most frequently in the dataset, we established correlations between different cryptocurrencies. To ensure the reliability of our findings, we initially gathered a total of 832,559 tweets from Twitter. These tweets underwent a rigorous preprocessing stage, resulting in a refined dataset of 115,899 tweets that were used for our analysis. Overall, our research offers valuable Perception into the linguistic nuances of various digital coins' online communities and provides a deeper understanding of their interactions in the cryptocurrency space.
翻訳日:2024-01-17 17:55:28 公開日:2024-01-15
# 分布構造の探索による研究特徴

Study Features via Exploring Distribution Structure ( http://arxiv.org/abs/2401.07540v1 )

ライセンス: Link先を確認
Chunxu Cao, Qiang Zhang(参考訳) 本稿では,データセットの確率的モデリングに基づくデータ冗長性測定のための新しい枠組みと,雑音に耐性のある冗長性検出のための新しい基準を提案する。 また,決定論的および確率的最適化手法を用いて,データ冗長性低減のための新しい手法を開発した。 当社のフレームワークは柔軟で,さまざまな種類の機能に対応可能です。ベンチマークデータセットによる実験では,メソッドの有効性が示されています。 特徴選択の新しい視点を提供し,教師なしと教師なしの両方の学習問題に対して効果的かつ堅牢なアプローチを提案する。

In this paper, we present a novel framework for data redundancy measurement based on probabilistic modeling of datasets, and a new criterion for redundancy detection that is resilient to noise. We also develop new methods for data redundancy reduction using both deterministic and stochastic optimization techniques. Our framework is flexible and can handle different types of features, and our experiments on benchmark datasets demonstrate the effectiveness of our methods. We provide a new perspective on feature selection, and propose effective and robust approaches for both supervised and unsupervised learning problems.
翻訳日:2024-01-17 17:47:34 公開日:2024-01-15
# 全脳モデルのホップフィールドダイナミクスにおけるスケーリングレジームの証拠

Evidence of Scaling Regimes in the Hopfield Dynamics of Whole Brain Model ( http://arxiv.org/abs/2401.07538v1 )

ライセンス: Link先を確認
Giorgio Gosti, Sauro Succi and Giancarlo Ruocco(参考訳) 実験的に導出された脳トポロジによって伝達されるホップフィールドリカレントニューラルネットワークは,ヒト脳内の情報伝達過程が,乱流で示されるものと定性的に類似した空間的相関パターンを示すデコらによって最近導入されたスケーリング図を復元する。 どちらのモデルも、ノード間のユークリッド距離と指数関数的に崩壊する結合強度を用いるが、その数学的性質はホップ振動子とホップフィールドニューラルネットワークとは大きく異なる。 したがって、それらの収束は前述のスケーリング図の顕著な堅牢性を示している。 さらに本研究では, ホップフィールドモデル脳は, 全脳の約6分の1に相当する約5つの崩壊長のリンクを除去することによって, 機能的のままであることを示した。 これは、接続減衰長の観点からすると、ホップフィールド脳は、接続減衰長と大脳サイズの間の中間的な結合であるある種の中間の「乱流液体」のような状態において機能することを示唆している。 この「乱流のような液体」は、実際の乱流よりも激しく、スケーリング指数は2ドル/3ドルではなく2ドル/5ドル程度だ。

It is shown that a Hopfield recurrent neural network, informed by experimentally derived brain topology, recovers the scaling picture recently introduced by Deco et al., according to which the process of information transfer within the human brain shows spatially correlated patterns qualitatively similar to those displayed by turbulent flows. Although both models employ a coupling strength which decays exponentially with the euclidean distance between the nodes, their mathematical nature is widely different, Hopf oscillators versus Hopfield neural network. Hence, their convergence suggests a remarkable robustness of the aforementioned scaling picture. Furthermore, the present analysis shows that the Hopfield model brain remains functional by removing links above about five decay lengths, corresponding to about one sixth of the size of the global brain. This suggests that, in terms of connectivity decay length, the Hopfield brain functions in a sort of intermediate "turbulent liquid"-like state, whose essential connections are the intermediate ones between the connectivity decay length and the global brain size. This "turbulent-like liquid" appears to be more spiky than actual turbulent fluids, with a scaling exponent around $2/5$ instead of $2/3$.
翻訳日:2024-01-17 17:47:25 公開日:2024-01-15
# 自己適応型システムにおける大規模言語モデルの可能性を探る

Exploring the Potential of Large Language Models in Self-adaptive Systems ( http://arxiv.org/abs/2401.07534v1 )

ライセンス: Link先を確認
Jialong Li, Mingyue Zhang, Nianyu Li, Danny Weyns, Zhi Jin, Kenji Tei(参考訳) 大きな言語モデル(LLM)は知識獲得と推論の能力を持ち、自己適応システム(SAS)の様々な側面を強化する可能性がある。 しかし、SEAMS や TAAS のようなこの分野の旗艦会議やジャーナルからの文献が不足しているため、SAS における LLM の可能性はほとんど解明されておらず曖昧である。 SASの学際的な性質は、ソフトウェア工学や自律エージェントといった関連分野のアイデアの描画と統合が、SAS内のLSMの革新的な研究方向を明らかにすることを示唆している。 そこで本稿では,関連分野の文献レビューの結果を報告するとともに,SASに関連する研究を要約し,分類し,SASの特定の側面に対する可能性について概説する。

Large Language Models (LLMs), with their abilities in knowledge acquisition and reasoning, can potentially enhance the various aspects of Self-adaptive Systems (SAS). Yet, the potential of LLMs in SAS remains largely unexplored and ambiguous, due to the lack of literature from flagship conferences or journals in the field, such as SEAMS and TAAS. The interdisciplinary nature of SAS suggests that drawing and integrating ideas from related fields, such as software engineering and autonomous agents, could unveil innovative research directions for LLMs within SAS. To this end, this paper reports the results of a literature review of studies in relevant fields, summarizes and classifies the studies relevant to SAS, and outlines their potential to specific aspects of SAS.
翻訳日:2024-01-17 17:47:03 公開日:2024-01-15
# Multi-view MidiVAE:ロングマルチトラックシンボリック音楽生成のためのFusing Track- and Bar-view Representations

Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long Multi-track Symbolic Music Generation ( http://arxiv.org/abs/2401.07532v1 )

ライセンス: Link先を確認
Zhiwei Lin, Jun Chen, Boshi Tang, Binzhu Sha, Jing Yang, Yaolong Ju, Fan Fan, Shiyin Kang, Zhiyong Wu, Helen Meng(参考訳) 変分オートエンコーダ(vaes)は、ニューラルシンボリック音楽生成の重要な構成要素であり、いくつかの作品が優れた結果をもたらし、かなりの注目を集めている。 しかしながら、以前のVAEは、過度に長い特徴列と生成された結果にコンテキストコヒーレンスが欠如しているため、長いマルチトラックのシンボリック・ミュージックをモデル化するという課題はまだ未解決のままである。 この目的のために,長い多トラックのシンボリック音楽のモデル化と生成を効果的に行うVAE手法のパイオニアとして,Multi-view MidiVAEを提案する。 Multi-view MidiVAEは2次元(2次元)表現であるOctupleMIDIを使用して、特徴列の長さを小さくしながら音符間の関係をキャプチャする。 さらに、トラックとバービューの両MidiVAE特徴を統合するために、ハイブリッドな変分符号化復号方式を用いて、楽器の特徴と調和、および楽曲のグローバルおよびローカル情報に焦点を当てる。 CocoChoralesデータセットの客観的および主観的な実験結果から、Multi-view MidiVAEはベースラインと比較して、長い多トラックのシンボリック音楽のモデル化において著しく改善されていることが示された。

Variational Autoencoders (VAEs) constitute a crucial component of neural symbolic music generation, among which some works have yielded outstanding results and attracted considerable attention. Nevertheless, previous VAEs still encounter issues with overly long feature sequences and generated results lack contextual coherence, thus the challenge of modeling long multi-track symbolic music still remains unaddressed. To this end, we propose Multi-view MidiVAE, as one of the pioneers in VAE methods that effectively model and generate long multi-track symbolic music. The Multi-view MidiVAE utilizes the two-dimensional (2-D) representation, OctupleMIDI, to capture relationships among notes while reducing the feature sequences length. Moreover, we focus on instrumental characteristics and harmony as well as global and local information about the musical composition by employing a hybrid variational encoding-decoding strategy to integrate both Track- and Bar-view MidiVAE features. Objective and subjective experimental results on the CocoChorales dataset demonstrate that, compared to the baseline, Multi-view MidiVAE exhibits significant improvements in terms of modeling long multi-track symbolic music.
翻訳日:2024-01-17 17:46:48 公開日:2024-01-15
# MM-SAP:マルチモーダル大規模言語モデルの認識における自己認識評価のための総合ベンチマーク

MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of Multimodal Large Language Models in Perception ( http://arxiv.org/abs/2401.07529v1 )

ライセンス: Link先を確認
Yuhao Wang, Yusheng Liao, Heyang Liu, Hongcheng Liu, Yu Wang, Yanfeng Wang(参考訳) マルチモーダル大言語モデル(mllm)は、視覚知覚と理解において目覚ましい能力を示している。 しかし、MLLMの能力を総合的に評価する方法は依然として課題である。 既存のベンチマークのほとんどは、主に知覚、認知、推論を評価し、自己認識能力を無視し、モデルの能力境界を認識することに焦点を当てている。 本研究では,画像知覚における自己認識に着目し,認識の未知と未知を明確に定義したmllmsの知識象限を導入する。 そこで本研究では,MLLM(MM-SAP)の知覚における自己認識能力を評価するための新しいベンチマークを提案する。 MM-SAPは3つの異なるサブデータセットを含み、それぞれが自己認識の異なる側面に焦点を当てている。 MM-SAPを用いて8つの有名なMLLMを評価し,その自己認識を分析し,詳細な知見を得た。 コードとデータはhttps://github.com/YHWmz/MM-SAPで公開されている。

Multimodal Large Language Models (MLLMs) have shown their remarkable abilities in visual perception and understanding recently. However, how to comprehensively evaluate the capabilities of MLLMs remains a challenge. Most of the existing benchmarks predominantly focus on assessing perception, cognition, and reasoning, neglecting the abilities of self-awareness, referring to the model's recognition of its own capability boundary. In our study, we focus on self-awareness in image perception and introduce the knowledge quadrant for MLLMs, which clearly defines the knowns and unknowns in perception. Based on this, we propose a novel benchmark specifically designed to evaluate the Self-Aware capabilities in Perception for MLLMs(MM-SAP). MM-SAP encompasses three distinct sub-datasets, each focusing on different aspects of self-awareness. We evaluated eight well-known MLLMs using MM-SAP, analyzing their self-awareness and providing detailed insights. Code and data are available at https://github.com/YHWmz/MM-SAP
翻訳日:2024-01-17 17:46:24 公開日:2024-01-15
# 高分解能衛星画像による惑星表面のボールダーの自動キャラクタリゼーション

Automatic characterization of boulders on planetary surfaces from high-resolution satellite images ( http://arxiv.org/abs/2401.07528v1 )

ライセンス: Link先を確認
Nils C. Prieur, Brian Amaro, Emiliano Gonzalez, Hannah Kerner, Sergei Medvedev, Lior Rubanenko, Stephanie C. Werner, Zhiyong Xiao8, Dmitry Zastrozhnov, Mathieu G. A. Lap\^otre(参考訳) 岩は様々な地質学的プロセスから形成され、その大きさ、形状、方向がよりよく理解するのに役立ちます。 さらに、それらは特徴付ける必要のある宇宙船着陸の潜在的な危険性を表している。 しかし, 岩盤を広範囲にマッピングすることは非常に労働集約的であり, しばしばその特徴範囲や, 得られた岩盤形態計測の統計的堅牢性に限界がある。 岩盤のキャラクタリゼーションを自動化するため,高解像度衛星画像における岩盤の検出とアウトライン化のために,インスタンスセグメンテーションニューラルネットワークMask R-CNNを用いる。 私たちのニューラルネットワークBoulderNetは、地球、月、火星の750枚の画像タイルで33,000個の岩のデータセットからトレーニングされました。 bouldernetは画像中のボールダーの大多数を正しく検出するだけでなく、高い忠実度を持つボールダーの輪郭を識別し、平均精度とリコール値をテストデータセットから手動でデジタル化されたボールダーと比較して72%と64%達成する。 これらの値はヒトマッパーによって得られた値と似ている。 地球上では、地表面値の15%, 0.20, 20度以内の地上測定値と降伏値に対して、予測から抽出された等価なボールダー直径、アスペクト比、方位をそれぞれベンチマークした。 BoulderNetは既存の手法と比較して優れた岩場検出と特性評価を実現し、惑星表面上の岩場全体を特徴付ける汎用的なオープンソースツールを提供する。

Boulders form from a variety of geological processes, which their size, shape, and orientation may help us better understand. Furthermore, they represent potential hazards to spacecraft landing that need to be characterized. However, mapping individual boulders across vast areas is extremely labor-intensive, often limiting the extent over which they are characterized and the statistical robustness of obtained boulder morphometrics. To automate boulder characterization, we use an instance segmentation neural network, Mask R-CNN, to detect and outline boulders in high-resolution satellite images. Our neural network, BoulderNet, was trained from a dataset of > 33,000 boulders in > 750 image tiles from Earth, the Moon, and Mars. BoulderNet not only correctly detects the majority of boulders in images, but it identifies the outline of boulders with high fidelity, achieving average precision and recall values of 72% and 64% relative to manually digitized boulders from the test dataset, when only detections with intersection-over-union ratios > 50% are considered valid. These values are similar to those obtained by human mappers. On Earth, equivalent boulder diameters, aspect ratios, and orientations extracted from predictions were benchmarked against ground measurements and yield values within 15%, 0.20, and 20 degrees of their ground-truth values, respectively. BoulderNet achieves better boulder detection and characterization performance relative to existing methods, providing a versatile open-source tool to characterize entire boulder fields on planetary surfaces.
翻訳日:2024-01-17 17:46:10 公開日:2024-01-15
# 一つは、地球ビジョンのための統一基盤モデルを目指して

One for All: Toward Unified Foundation Models for Earth Vision ( http://arxiv.org/abs/2401.07527v1 )

ライセンス: Link先を確認
Zhitong Xiong, Yi Wang, Fahong Zhang and Xiao Xiang Zhu(参考訳) 大規模データセット上でトレーニングされた広範なパラメータを特徴とする基礎モデルは、リモートセンシングデータに対するさまざまな下流タスクにおいて顕著な効果を示している。 現在のリモートセンシング基礎モデルは、典型的には単一のモダリティまたは特定の空間分解能範囲を専門とし、下流データセットの汎用性を制限する。 マルチモーダルリモートセンシング基盤モデルの開発は試みられているが、通常、各モードや空間解像度に別々の視覚エンコーダを使用し、入力データに基づいてバックボーンのスイッチを必要とする。 この問題に対処するために、単一共有トランスフォーマーバックボーンを用いて、空間解像度の異なる複数のデータモダリティを実現する、単純なOFA-Net(One-For-All Network)手法を提案する。 マスク付き画像モデリング機構を使用して、この単純な設計で、キュレートされたマルチモーダルデータセット上で単一のトランスフォーマーバックボーンを事前トレーニングする。 その後、バックボーンモデルは、異なるダウンストリームタスクで使用できるため、地球ビジョンにおける統一基盤バックボーンモデルへの道を開くことができる。 提案手法は,12個のダウンストリームタスクで評価し,有望な性能を示す。

Foundation models characterized by extensive parameters and trained on large-scale datasets have demonstrated remarkable efficacy across various downstream tasks for remote sensing data. Current remote sensing foundation models typically specialize in a single modality or a specific spatial resolution range, limiting their versatility for downstream datasets. While there have been attempts to develop multi-modal remote sensing foundation models, they typically employ separate vision encoders for each modality or spatial resolution, necessitating a switch in backbones contingent upon the input data. To address this issue, we introduce a simple yet effective method, termed OFA-Net (One-For-All Network): employing a single, shared Transformer backbone for multiple data modalities with different spatial resolutions. Using the masked image modeling mechanism, we pre-train a single Transformer backbone on a curated multi-modal dataset with this simple design. Then the backbone model can be used in different downstream tasks, thus forging a path towards a unified foundation backbone model in Earth vision. The proposed method is evaluated on 12 distinct downstream tasks and demonstrates promising performance.
翻訳日:2024-01-17 17:45:43 公開日:2024-01-15
# 主題ラベルのないLLMにおける任意命題の編集

Editing Arbitrary Propositions in LLMs without Subject Labels ( http://arxiv.org/abs/2401.07526v1 )

ライセンス: Link先を確認
Itai Feigenbaum, Devansh Arpit, Huan Wang, Shelby Heinecke, Juan Carlos Niebles, Weiran Yao, Caiming Xiong, Silvio Savarese(参考訳) LLM(Large Language Model)は、LLMの事実情報を編集する言語である。 Locate-and-Edit(L\&E)メソッドは、ニューラルネットワークに関連情報が格納されている場所を検出し、その位置で重みを編集することで、これを実現する。 編集の目的は、他の関連する命題に対する応答を変更せずに、その命題に対するllmの応答をその記述とは独立に修正することである。 既存のメソッドは、対象と対象の間の直接的な二項関係を表す二項命題に限られる。 さらに、既存のメソッドはセマンティックなサブジェクトラベルに依存している。 本稿では,これらの問題を,勾配追跡 (gt) と呼ばれる簡易かつ高速な局所化手法で効果的に回避できることを示す。 このローカライズ手法では、バイナリではなく任意の提案を編集することができ、主題ラベルを必要とせずに編集できる。 命題は常に真理値を持つので、我々の実験はLLMをブール分類器として促し、命題に対するT/F応答を編集する。 本手法は位置追跡にGTを適用し,Rand-One Model Editing (ROME) の軽度変種を用いてその位置でモデルを編集する。 CounterFact データセットから派生した二項命題のデータセットでは、対象ラベルにアクセスせずに、対象ラベルにアクセス可能な最先端の L\&E メソッドに近いパフォーマンスを示す。 次に,非バイナリ命題を含む新たなデータセットであるfactual accuracy classification test(fact)を導入する。 しかし,本手法ではFACT上で編集が可能であることを示す。

Large Language Model (LLM) editing modifies factual information in LLMs. Locate-and-Edit (L\&E) methods accomplish this by finding where relevant information is stored within the neural network, and editing the weights at that location. The goal of editing is to modify the response of an LLM to a proposition independently of its phrasing, while not modifying its response to other related propositions. Existing methods are limited to binary propositions, which represent straightforward binary relations between a subject and an object. Furthermore, existing methods rely on semantic subject labels, which may not be available or even be well-defined in practice. In this paper, we show that both of these issues can be effectively skirted with a simple and fast localization method called Gradient Tracing (GT). This localization method allows editing arbitrary propositions instead of just binary ones, and does so without the need for subject labels. As propositions always have a truth value, our experiments prompt an LLM as a boolean classifier, and edit its T/F response to propositions. Our method applies GT for location tracing, and then edit the model at that location using a mild variant of Rank-One Model Editing (ROME). On datasets of binary propositions derived from the CounterFact dataset, we show that our method -- without access to subject labels -- performs close to state-of-the-art L\&E methods which has access subject labels. We then introduce a new dataset, Factual Accuracy Classification Test (FACT), which includes non-binary propositions and for which subject labels are not generally applicable, and therefore is beyond the scope of existing L\&E methods. Nevertheless, we show that with our method editing is possible on FACT.
翻訳日:2024-01-17 17:45:23 公開日:2024-01-15
# TAROT: 半構造化データに基づくマルチタスク協調トレーニングを効果的に行う階層型フレームワーク

TAROT: A Hierarchical Framework with Multitask Co-Pretraining on Semi-Structured Data towards Effective Person-Job Fit ( http://arxiv.org/abs/2401.07525v1 )

ライセンス: Link先を確認
Yihan Cao, Xu Chen, Lun Du, Hao Chen, Qiang Fu, Shi Han, Yushu Du, Yanbin Kang, Guangming Lu, Zi Li(参考訳) Person-job fitは、ジョブ検索や候補推薦など、さまざまなダウンストリームアプリケーションを提供するための、オンライン採用プラットフォームの重要な部分である。 近年,ユーザプロファイルやジョブ記述にリッチなテキスト情報を活用することで,ユーザ行動の特徴やジョブメタデータとは別に,事前訓練された大規模言語モデルの有効性が向上している。 しかし、一般的なドメイン指向設計では、ユーザプロファイルとジョブ記述内のユニークな構造情報をキャプチャするのに苦労し、潜在意味相関が失われる。 本稿では,階層型マルチタスク協調訓練フレームワークであるTAROTを提案する。 tarotはプロファイルとジョブの半構造化テキストをターゲットにしており、取得したセマンティクス情報を各レベルに制限するために、複数の粒度の事前トレーニングタスクと共存する。 実世界のLinkedInデータセットの実験では、パフォーマンスが大幅に向上し、個人とタスクの適合性が証明された。

Person-job fit is an essential part of online recruitment platforms in serving various downstream applications like Job Search and Candidate Recommendation. Recently, pretrained large language models have further enhanced the effectiveness by leveraging richer textual information in user profiles and job descriptions apart from user behavior features and job metadata. However, the general domain-oriented design struggles to capture the unique structural information within user profiles and job descriptions, leading to a loss of latent semantic correlations. We propose TAROT, a hierarchical multitask co-pretraining framework, to better utilize structural and semantic information for informative text embeddings. TAROT targets semi-structured text in profiles and jobs, and it is co-pretained with multi-grained pretraining tasks to constrain the acquired semantic information at each level. Experiments on a real-world LinkedIn dataset show significant performance improvements, proving its effectiveness in person-job fit tasks.
翻訳日:2024-01-17 17:44:55 公開日:2024-01-15
# instantid:ゼロショットid保存生成を数秒で実現する

InstantID: Zero-shot Identity-Preserving Generation in Seconds ( http://arxiv.org/abs/2401.07519v1 )

ライセンス: Link先を確認
Qixun Wang, Xu Bai, Haofan Wang, Zekui Qin and Anthony Chen(参考訳) Textual Inversion、DreamBooth、LoRAといった手法でパーソナライズされた画像合成が大幅に進歩した。 しかし、実際の適用性は、高いストレージ要求、長い微調整プロセス、複数の参照画像の必要性によって妨げられている。 逆に、既存のID埋め込みベースのメソッドは、1つのフォワード推論しか必要とせず、多くのモデルパラメータにわたる広範囲な微調整を必要とするか、コミュニティで事前訓練されたモデルとの互換性の欠如、あるいは高い顔の忠実さの維持に失敗する、といった問題に直面している。 これらの制限に対処するため、我々は強力な拡散モデルに基づくソリューションであるInstantIDを導入する。 我々のプラグイン・アンド・プレイ・モジュールは、1つの顔画像だけで様々なスタイルで画像のパーソナライズ処理を行う。 そこで本稿では,表情とランドマークの画像をテクストプロンプトと統合して画像生成を制御し,強い意味と弱い空間条件を付与し,新たなアイデンティティネットをデザインする。 InstantIDは優れた性能と効率を示し、アイデンティティ保護が最重要となる現実世界のアプリケーションで非常に有益である。 さらに,本研究は,sd1.5やsdxlなどのテキストから画像への拡散モデルとシームレスに統合し,適応可能なプラグインとして機能する。 私たちのコードと事前訓練されたチェックポイントはhttps://github.com/InstantID/InstantIDで利用可能です。

There has been significant progress in personalized image synthesis with methods such as Textual Inversion, DreamBooth, and LoRA. Yet, their real-world applicability is hindered by high storage demands, lengthy fine-tuning processes, and the need for multiple reference images. Conversely, existing ID embedding-based methods, while requiring only a single forward inference, face challenges: they either necessitate extensive fine-tuning across numerous model parameters, lack compatibility with community pre-trained models, or fail to maintain high face fidelity. Addressing these limitations, we introduce InstantID, a powerful diffusion model-based solution. Our plug-and-play module adeptly handles image personalization in various styles using just a single facial image, while ensuring high fidelity. To achieve this, we design a novel IdentityNet by imposing strong semantic and weak spatial conditions, integrating facial and landmark images with textual prompts to steer the image generation. InstantID demonstrates exceptional performance and efficiency, proving highly beneficial in real-world applications where identity preservation is paramount. Moreover, our work seamlessly integrates with popular pre-trained text-to-image diffusion models like SD1.5 and SDXL, serving as an adaptable plugin. Our codes and pre-trained checkpoints will be available at https://github.com/InstantID/InstantID.
翻訳日:2024-01-17 17:44:37 公開日:2024-01-15
# 教育のための自然言語処理に関する調査:分類学、体系的レビュー、将来の動向

Survey of Natural Language Processing for Education: Taxonomy, Systematic Review, and Future Trends ( http://arxiv.org/abs/2401.07518v1 )

ライセンス: Link先を確認
Yunshi Lan, Xinyuan Li, Hanyue Du, Xuesong Lu, Ming Gao, Weining Qian, Aoying Zhou(参考訳) 自然言語処理(NLP)は、コンピュータ科学分野の技法を用いてテキストを分析することを目的としている。 医療、商業、教育の分野で応用されている。 特にNLPは、教育と学習を支援するために教育領域に適用される。 本調査では,NLPの最近の進歩を,教育領域に関わる課題の解決に焦点をあてて概観する。 詳しくは、関連する背景を紹介することから始める。 次に,教育領域におけるNLPの分類について述べる。 次に,上記の分類に基づくタスク定義,課題,対応技術について述べる。 その後,本分野における実演を紹介するとともに,今後の方向性について述べる。

Natural Language Processing (NLP) aims to analyze the text via techniques in the computer science field. It serves the applications in healthcare, commerce, and education domains. Particularly, NLP has been applied to the education domain to help teaching and learning. In this survey, we review recent advances in NLP with a focus on solving problems related to the education domain. In detail, we begin with introducing the relevant background. Then, we present the taxonomy of NLP in the education domain. Next, we illustrate the task definition, challenges, and corresponding techniques based on the above taxonomy. After that, we showcase some off-the-shelf demonstrations in this domain and conclude with future directions.
翻訳日:2024-01-17 17:44:12 公開日:2024-01-15
# グラフ埋め込みダイナミクスを用いた時間リンク予測

Temporal Link Prediction Using Graph Embedding Dynamics ( http://arxiv.org/abs/2401.07516v1 )

ライセンス: Link先を確認
Sanaz Hasanzadeh Fard, Mohammad Ghassemi(参考訳) グラフは機械学習アプリケーションにおいて強力な表現ツールであり、リンク予測はグラフ学習の重要なタスクである。 動的ネットワークにおける時間的リンク予測は、複雑な科学的および現実世界の問題を解く可能性から特に興味深い。 時間的リンク予測の伝統的なアプローチは、ネットワークのダイナミクスを統一的な出力として集約することに焦点を当ててきた。 本研究では,ノードをニュートンオブジェクトとして定義し,ネットワークダイナミクスの予測に速度の概念を取り入れることで,時間的リンク予測の新しい視点を提案する。 各ノードのより具体的なダイナミクスを計算することにより、将来の接続予測における精度と説明可能性の両方を改善することができる。 PubMedの17年間の共著者データを含む2つのデータセットを用いたアプローチの有効性を示す。 実験結果から,我々の時間グラフ埋め込み動的手法は,下流分類モデルのコオーサシップネットワークにおける今後の協調効果を予測する能力を17.34%向上させる(ベースラインモデルに対するAUROCの改善)。 さらに,本手法は時間的リンク予測問題に対処する従来の手法よりも解釈可能な層を提供する。

Graphs are a powerful representation tool in machine learning applications, with link prediction being a key task in graph learning. Temporal link prediction in dynamic networks is of particular interest due to its potential for solving complex scientific and real-world problems. Traditional approaches to temporal link prediction have focused on finding the aggregation of dynamics of the network as a unified output. In this study, we propose a novel perspective on temporal link prediction by defining nodes as Newtonian objects and incorporating the concept of velocity to predict network dynamics. By computing more specific dynamics of each node, rather than overall dynamics, we improve both accuracy and explainability in predicting future connections. We demonstrate the effectiveness of our approach using two datasets, including 17 years of co-authorship data from PubMed. Experimental results show that our temporal graph embedding dynamics approach improves downstream classification models' ability to predict future collaboration efficacy in co-authorship networks by 17.34% (AUROC improvement relative to the baseline model). Furthermore, our approach offers an interpretable layer over traditional approaches to address the temporal link prediction problem.
翻訳日:2024-01-17 17:44:02 公開日:2024-01-15
# ChatGPT for Biology and Medicine: a Complete Review of Biomedical Question Answering

Developing ChatGPT for Biology and Medicine: A Complete Review of Biomedical Question Answering ( http://arxiv.org/abs/2401.07510v1 )

ライセンス: Link先を確認
Qing Li, Lei Li, Yu Li(参考訳) ChatGPTは、医療診断、治療レコメンデーション、その他の医療支援の提供において、QA(QA)の戦略的青写真を探っている。 これは、自然言語処理(NLP)とマルチモーダルパラダイムによる医療領域データの取り込みの増加によって達成される。 テキスト,画像,ビデオ,その他のモダリティの分布を一般ドメインから医療ドメインに移行することにより,これらの手法は医療ドメイン質問応答(MDQA)の進展を早めた。 人間の自然言語と高度な医学領域知識や専門家の手動アノテーションの間のギャップを橋渡しし、大規模で多様で、バランスのとれない、あるいはラベルのないデータ分析シナリオを医療現場で扱う。 本研究の焦点は, 言語モデルとマルチモーダルパラダイムを医療質問応答に活用することであり, 特定の医学研究要求に対して適切なメカニズムを選択することを目的としている。 視覚的質問応答,イメージキャプション,クロスモーダル検索,レポート要約,生成といったマルチモーダル関連タスクだけでなく,一助詞関連質問応答,読解理解,推論,診断,関係抽出,確率モデリングなどの特殊タスクについても詳細に論じる。 各セクションは、考慮中の各メソッドの複雑な仕様に分解する。 本稿では,一般的なドメインメソッドに対する医学領域探索の構造と進歩について述べ,さまざまなタスクやデータセットにまたがってその応用を強調する。 また、今後の医学領域研究の課題と機会を概説し、この急速に発展する分野における継続的なイノベーションと応用への道を開く。

ChatGPT explores a strategic blueprint of question answering (QA) in delivering medical diagnosis, treatment recommendations, and other healthcare support. This is achieved through the increasing incorporation of medical domain data via natural language processing (NLP) and multimodal paradigms. By transitioning the distribution of text, images, videos, and other modalities from the general domain to the medical domain, these techniques have expedited the progress of medical domain question answering (MDQA). They bridge the gap between human natural language and sophisticated medical domain knowledge or expert manual annotations, handling large-scale, diverse, unbalanced, or even unlabeled data analysis scenarios in medical contexts. Central to our focus is the utilizing of language models and multimodal paradigms for medical question answering, aiming to guide the research community in selecting appropriate mechanisms for their specific medical research requirements. Specialized tasks such as unimodal-related question answering, reading comprehension, reasoning, diagnosis, relation extraction, probability modeling, and others, as well as multimodal-related tasks like vision question answering, image caption, cross-modal retrieval, report summarization, and generation, are discussed in detail. Each section delves into the intricate specifics of the respective method under consideration. This paper highlights the structures and advancements of medical domain explorations against general domain methods, emphasizing their applications across different tasks and datasets. It also outlines current challenges and opportunities for future medical domain research, paving the way for continued innovation and application in this rapidly evolving field.
翻訳日:2024-01-17 17:43:46 公開日:2024-01-15
# SeMaScore : 音声認識タスクのための新しい評価基準

SeMaScore : a new evaluation metric for automatic speech recognition tasks ( http://arxiv.org/abs/2401.07506v1 )

ライセンス: Link先を確認
Zitha Sasindran, Harsha Yelchuri, T. V. Prabhakar(参考訳) 本研究では,自動音声認識タスクの評価指標として機能するセグメントワイドマッピングとスコアリングアルゴリズムを用いて生成したSeMaScoreを提案する。 SeMaScoreはエラー率とより堅牢な類似性スコアの両方を活用する。 提案アルゴリズムのスコア生成は,最先端のBERTscoreにより向上することを示す。 実験の結果,SeMaScoreは専門家による評価,信号対雑音比,その他の自然言語指標とよく一致していることがわかった。 我々はメートル法計算速度で bertscore を41倍上回る。 全体として,特に非定型的な発話パターンを伴う実世界の状況において,semascoreはより信頼性の高い評価指標であることを示す。

In this study, we present SeMaScore, generated using a segment-wise mapping and scoring algorithm that serves as an evaluation metric for automatic speech recognition tasks. SeMaScore leverages both the error rate and a more robust similarity score. We show that our algorithm's score generation improves upon the state-of-the-art BERTscore. Our experimental results show that SeMaScore corresponds well with expert human assessments, signal-to-noise ratio levels, and other natural language metrics. We outperform BERTscore by 41x in metric computation speed. Overall, we demonstrate that SeMaScore serves as a more dependable evaluation metric, particularly in real-world situations involving atypical speech patterns.
翻訳日:2024-01-17 17:43:18 公開日:2024-01-15
# PolMERLIN:Masked Networksを用いた自己監督型偏光複合SAR画像

PolMERLIN: Self-Supervised Polarimetric Complex SAR Image Despeckling with Masked Networks ( http://arxiv.org/abs/2401.07503v1 )

ライセンス: Link先を確認
Shunya Kato, Masaki Saito, Katsuhiko Ishiguro, Sol Cummings(参考訳) 脱スペックリングは合成開口レーダ(SAR)画像の品質向上に重要なノイズ低減タスクである。 ノイズのないsar画像を直接取得することは、正確なデスペックリングアルゴリズムの開発を妨げる課題である。 深層学習の出現は、ノイズの多いSAR画像のみから学習するデノイングモデルの研究を促進する。 しかし、既存の方法は単一偏光画像のみを扱うため、現代の衛星が捉えた多重偏光画像は扱えない。 本稿では,マルチポーラライズsar画像を扱うために,単一偏波sar画像を生成する既存モデルの拡張について述べる。 具体的には, 偏光関係を利用したチャネルマスキングという, 自己教師付き脱スペックリング手法を提案する。 さらに,画素間相関に対処する空間マスキング手法を用いて,提案手法の性能をさらに向上する。 複数の偏光情報を効果的に組み込むことで,本手法は,合成シナリオと実世界のシナリオの定量的評価において,現在の最先端手法を超越する。

Despeckling is a crucial noise reduction task in improving the quality of synthetic aperture radar (SAR) images. Directly obtaining noise-free SAR images is a challenging task that has hindered the development of accurate despeckling algorithms. The advent of deep learning has facilitated the study of denoising models that learn from only noisy SAR images. However, existing methods deal solely with single-polarization images and cannot handle the multi-polarization images captured by modern satellites. In this work, we present an extension of the existing model for generating single-polarization SAR images to handle multi-polarization SAR images. Specifically, we propose a novel self-supervised despeckling approach called channel masking, which exploits the relationship between polarizations. Additionally, we utilize a spatial masking method that addresses pixel-to-pixel correlations to further enhance the performance of our approach. By effectively incorporating multiple polarization information, our method surpasses current state-of-the-art methods in quantitative evaluation in both synthetic and real-world scenarios.
翻訳日:2024-01-17 17:43:07 公開日:2024-01-15
# 涙のないTDD: 要件から深い強化学習を通じてテストケース生成を目指す

TDD Without Tears: Towards Test Case Generation from Requirements through Deep Reinforcement Learning ( http://arxiv.org/abs/2401.07576v1 )

ライセンス: Link先を確認
Wannita Takerngsaksiri, Rujikorn Charakorn, Chakkrit Tantithamthavorn, Yuan-Fang Li(参考訳) テスト駆動開発(tdd; test-driven development, テスト駆動開発)は、実際のコードを書く前に要件に基づいたテストケースを書くことを義務付ける、幅広いソフトウェア開発プラクティスである。 テストケースを書くことはtddの中心であるが、時間がかかり、費用がかかり、開発者が避けることが多い。 TDDに関連するこれらの問題に対処するため、テストケースの自動生成アプローチが最近検討されている。 このようなアプローチはソースコードを入力として使用するが、要件ではない。 したがって、テストケースを生成するために実際のコードが必要であるため、既存の作業は真のTDDを完全にサポートしていません。 さらに,現状の深層学習に基づくテストケース生成手法は,1つの学習目標,すなわち,地上テストケースと正確に一致するテストケースを生成するために訓練されている。 しかし、そのようなアプローチは、異なるが正しいテストケースを生成するモデルの能力を制限する可能性がある。 本稿では,テキストからテストケースを生成する手法であるpytesterについて紹介する。pytesterは構文的に正しい,実行可能,完全,効果的なテストケースを自動的に生成する。 我々は、パブリックAPPSベンチマークデータセットでPyTesterを評価し、その結果、私たちのDeep RLアプローチによって、小さな言語モデルであるPyTesterが、GPT3.5、StarCoder、InCoderといったはるかに大きな言語モデルより優れていることを示す。 本研究は,SEドメイン知識を強化学習アーキテクチャの設計に組み込むことにより,資源効率を向上させるため,大規模LMの小型化を検討できることを示す。

Test-driven development (TDD) is a widely-employed software development practice that mandates writing test cases based on requirements before writing the actual code. While writing test cases is the centerpiece of TDD, it is time-consuming, expensive, and often shunned by developers. To address these issues associated with TDD, automated test case generation approaches have recently been investigated. Such approaches take source code as input, but not the requirements. Therefore, existing work does not fully support true TDD, as actual code is required to generate test cases. In addition, current deep learning-based test case generation approaches are trained with one learning objective, i.e., to generate test cases that are exactly matched with the ground-truth test cases. However, such approaches may limit the model's ability to generate different yet correct test cases. In this paper, we introduce PyTester, a Text-to-Testcase generation approach that can automatically generate syntactically correct, executable, complete, and effective test cases while being aligned with a given natural language requirement. We evaluate PyTester on the public APPS benchmark dataset, and the results show that our Deep RL approach enables PyTester, a small language model, to outperform much larger language models like GPT3.5, StarCoder, and InCoder. Our findings suggest that future research could consider improving small over large LMs for better resource efficiency by integrating the SE domain knowledge into the design of reinforcement learning architecture.
翻訳日:2024-01-17 17:36:47 公開日:2024-01-15
# 音声テキスト分類のためのカスケードクロスモーダルトランス

Cascaded Cross-Modal Transformer for Audio-Textual Classification ( http://arxiv.org/abs/2401.07575v1 )

ライセンス: Link先を確認
Nicolae-Catalin Ristea, Andrei Anghel, Radu Tudor Ionescu(参考訳) 音声分類タスクは、有用な特徴を把握するために強力な言語理解モデルを必要とすることが多い。 そこで本研究では,自動音声認識(asr)モデルを用いて音声を転写し,事前学習した翻訳モデルを用いて異なる言語に翻訳することで,マルチモーダル表現の固有値を活用することを提案する。 これにより、各データサンプルに対する音声テキスト(マルチモーダル)表現を得る。 その後、言語固有の双方向エンコーダ表現(BERT)とWav2Vec2.0オーディオ機能を、新しいケースドクロスモーダルトランス(CCMT)を介して組み合わせる。 我々のモデルは2つのカスケードトランスブロックに基づいている。 1つは異なる言語からテキスト固有の特徴を合成し、もう1つは第1のトランスフォーマーブロックによって以前に学習された多言語特徴と音響特徴を組み合わせる。 我々は,ACM Multimedia 2023 Computational Paralinguistics Challengeの要求サブアーキテクチャに,我々のシステムを採用した。 CCMTは、それぞれ65.41%と85.87%の非重み付き平均リコール(UAR)を得たと宣言された。 さらに,我々のフレームワークを音声コマンド v2 と HarperValleyBank のダイアログデータセットに適用した。 私たちのコードは、https://github.com/ristea/ccmt.comから無料でダウンロードできる。

Speech classification tasks often require powerful language understanding models to grasp useful features, which becomes problematic when limited training data is available. To attain superior classification performance, we propose to harness the inherent value of multimodal representations by transcribing speech using automatic speech recognition (ASR) models and translating the transcripts into different languages via pretrained translation models. We thus obtain an audio-textual (multimodal) representation for each data sample. Subsequently, we combine language-specific Bidirectional Encoder Representations from Transformers (BERT) with Wav2Vec2.0 audio features via a novel cascaded cross-modal transformer (CCMT). Our model is based on two cascaded transformer blocks. The first one combines text-specific features from distinct languages, while the second one combines acoustic features with multilingual features previously learned by the first transformer block. We employed our system in the Requests Sub-Challenge of the ACM Multimedia 2023 Computational Paralinguistics Challenge. CCMT was declared the winning solution, obtaining an unweighted average recall (UAR) of 65.41% and 85.87% for complaint and request detection, respectively. Moreover, we applied our framework on the Speech Commands v2 and HarperValleyBank dialog data sets, surpassing previous studies reporting results on these benchmarks. Our code is freely available for download at: https://github.com/ristea/ccmt.
翻訳日:2024-01-17 17:36:21 公開日:2024-01-15
# 光場による2つの量子ビットのベル状態とワーナー状態の生成

Generating Bell states and Werner states of two qubits via optical field ( http://arxiv.org/abs/2401.07574v1 )

ライセンス: Link先を確認
Dengkui Jiang, Cuilu Zhai, Yaju Song, Zhaohui Peng, Jibing Yuan, Shiqing Tang, and Wangjun Lu(参考訳) 本稿では,まず直接積状態における2つの量子ビットの状態の進化が,tavis-cummings(tc)モデルにおける光学場によって制御されるかを検討する。 直積状態の2つの量子ビットに対して、任意の瞬間におけるそれらの行列要素は、数状態空間における光場初期状態の係数によって変調できる。 2つのキュービットの \textit{X} 型状態を作成する方法を提案する。 その後、記述的便宜のために、2つのキュービットのベル状態を2つの種類に分割する。 両量子ビットが最初は基底状態にあるとき、この2つの量子ビットは、最初は次アレスト近傍数状態にある重ね合わせ状態光学場によって、第1のベル状態を生成するように制御することができ、また、第1のベル状態の生成は、2つの次アレスト近傍数状態の間の位相を制御することで制御できる。 2つの量子ビットのうち1つが基底状態にあり、もう1つが励起状態にある場合、2つの量子ビットを制御でき、1光子数状態の光学場によって2つ目のベル状態を生成することができる。 最後に、光学場を用いて、2つの量子ビットを基底状態に制御し、Werner状態の生成について検討する。

In this paper, we investigate how the evolution of the states of two qubits initially in a direct product state can be controlled by the optical field in a Tavis-Cummings (TC) model. For the two qubits initially in the direct product state, we find that their matrix elements at any moment can be modulated by the coefficients of the optical field initial states in the number state space. We propose a method for preparing an \textit{X}-type state of two qubits. Subsequently, for descriptive convenience, we divide the Bell states of the two qubits into two kinds in the paper. When both qubits are initially in the ground state, we find that the two qubits can be controlled to produce the first type of Bell state by the superposition state optical field that is initially in the next-nearest-neighbor number state and that the production of any of the first type of Bell states can be controlled by controlling the phase between the two next-nearest-neighbor number states. When one of the two qubits is in the ground state, and the other is in the excited state, we can control the two qubits to produce the second type of Bell state by the single-photon number state optical field. Finally, we study the generation of Werner states by controlling two qubits initially, both in the ground state, using an optical field.
翻訳日:2024-01-17 17:35:58 公開日:2024-01-15
# ゼロショットポイントクラウド理解のためのGPT-4ビジョンのエクスプロイト

Exploiting GPT-4 Vision for Zero-shot Point Cloud Understanding ( http://arxiv.org/abs/2401.07572v1 )

ライセンス: Link先を確認
Qi Sun, Xiao Cui, Wengang Zhou and Houqiang Li(参考訳) 本研究では,CLIPアーキテクチャに固有の制約があるため,従来のPointCLIPのような作業では対処が困難であった点群におけるオブジェクトカテゴリの分類に挑戦する。 提案手法は,GPT-4 Vision (GPT-4V) を利用して,より適応的で堅牢な分類プロセスを実現する。 GPT-4Vの応用により複雑な3Dデータを処理し、基礎となるモデルアーキテクチャを変更することなくゼロショット認識機能を実現する。 提案手法は,ポイントクラウド画像の可視化,ドメインギャップの緩和,gpt-4vの効率向上のための体系的戦略も含む。 実験的な検証は、さまざまなシナリオにおけるアプローチの優位性を示し、ゼロショットポイントクラウド分類の新しいベンチマークを設定します。

In this study, we tackle the challenge of classifying the object category in point clouds, which previous works like PointCLIP struggle to address due to the inherent limitations of the CLIP architecture. Our approach leverages GPT-4 Vision (GPT-4V) to overcome these challenges by employing its advanced generative abilities, enabling a more adaptive and robust classification process. We adapt the application of GPT-4V to process complex 3D data, enabling it to achieve zero-shot recognition capabilities without altering the underlying model architecture. Our methodology also includes a systematic strategy for point cloud image visualization, mitigating domain gap and enhancing GPT-4V's efficiency. Experimental validation demonstrates our approach's superiority in diverse scenarios, setting a new benchmark in zero-shot point cloud classification.
翻訳日:2024-01-17 17:35:35 公開日:2024-01-15
# Bi-Pyramid Multimodal Fusion法による双極性障害の診断

A Bi-Pyramid Multimodal Fusion Method for the Diagnosis of Bipolar Disorders ( http://arxiv.org/abs/2401.07571v1 )

ライセンス: Link先を確認
Guoxin Wang, Sheng Shi, Shan An, Fengmei Fan, Wenshu Ge, Qi Wang, Feng Yu, Zhiren Wang(参考訳) 双極性障害の診断に関するこれまでの研究は、主に静止状態機能磁気共鳴画像に焦点をあてている。 しかし,その精度は臨床診断の要件を満たしていない。 効率的なマルチモーダル融合戦略は、マルチモーダルデータの応用に大きな可能性を持ち、医療診断モデルの性能をさらに向上させることができる。 本研究では,sMRIデータとfMRIデータを併用し,双極性障害に対する新しいマルチモーダル診断モデルを提案する。 提案したパッチピラミッド特徴抽出モジュールはsMRI特徴を抽出し、時空間ピラミッド構造はfMRI特徴を抽出する。 最後に、融合モジュールによって融合され、分類器で診断結果を出力する。 実験の結果,提案手法はOpenfMRIデータセットにおいて0.657から0.732の精度で他者より優れており,その精度が向上していることがわかった。

Previous research on the diagnosis of Bipolar disorder has mainly focused on resting-state functional magnetic resonance imaging. However, their accuracy can not meet the requirements of clinical diagnosis. Efficient multimodal fusion strategies have great potential for applications in multimodal data and can further improve the performance of medical diagnosis models. In this work, we utilize both sMRI and fMRI data and propose a novel multimodal diagnosis model for bipolar disorder. The proposed Patch Pyramid Feature Extraction Module extracts sMRI features, and the spatio-temporal pyramid structure extracts the fMRI features. Finally, they are fused by a fusion module to output diagnosis results with a classifier. Extensive experiments show that our proposed method outperforms others in balanced accuracy from 0.657 to 0.732 on the OpenfMRI dataset, and achieves the state of the art.
翻訳日:2024-01-17 17:35:21 公開日:2024-01-15
# ビデオにおける時間文接地のためのバイアス競合サンプル合成と逆除去デビアス戦略

Bias-Conflict Sample Synthesis and Adversarial Removal Debias Strategy for Temporal Sentence Grounding in Video ( http://arxiv.org/abs/2401.07567v1 )

ライセンス: Link先を確認
Zhaobo Qi, Yibo Yuan, Xiaowen Ruan, Shuhui Wang, Weigang Zhang, Qingming Huang(参考訳) TSGV(Temporal Sentence Grounding in Video)は、入力ビデオやクエリテキストに類似のセマンティックコンポーネントを持つサンプルに対して、ターゲットモーメントの不均一な時間分布に起因するデータセットバイアスの問題に悩まされている。 既存の手法では、偏見に関する事前の知識を利用して、この不均一な分布を人工的に破壊する。 本研究では,シングルモダリティ特徴と目標モーメントの時間的位置との潜在的スパーラスな相関を明示的に活用して,動的にバイアスコンプリクトサンプルを生成するバイアスコンフリクトサンプル合成および逆除去デビアス戦略(bssard)を提案する。 逆行訓練を通じて、バイアス発生器はバイアスを連続的に導入し、バイアスを伴うサンプルを生成して基底モデルを欺く。 一方、接地モデルは導入されたバイアスを継続的に排除し、多モードアライメント情報をモデル化する必要がある。 BSSARDは、ほとんどの種類の結合関係をカバーし、言語と視覚バイアスを同時に破壊する。 Charades-CDとActivityNet-CDの大規模な実験は、BSSARDの有望な脱バイアス能力を示している。 ソースコードはhttps://github.com/qzhb/BSSARDで入手できる。

Temporal Sentence Grounding in Video (TSGV) is troubled by dataset bias issue, which is caused by the uneven temporal distribution of the target moments for samples with similar semantic components in input videos or query texts. Existing methods resort to utilizing prior knowledge about bias to artificially break this uneven distribution, which only removes a limited amount of significant language biases. In this work, we propose the bias-conflict sample synthesis and adversarial removal debias strategy (BSSARD), which dynamically generates bias-conflict samples by explicitly leveraging potentially spurious correlations between single-modality features and the temporal position of the target moments. Through adversarial training, its bias generators continuously introduce biases and generate bias-conflict samples to deceive its grounding model. Meanwhile, the grounding model continuously eliminates the introduced biases, which requires it to model multi-modality alignment information. BSSARD will cover most kinds of coupling relationships and disrupt language and visual biases simultaneously. Extensive experiments on Charades-CD and ActivityNet-CD demonstrate the promising debiasing capability of BSSARD. Source codes are available at https://github.com/qzhb/BSSARD.
翻訳日:2024-01-17 17:35:04 公開日:2024-01-15
# 未知命令集合アーキテクチャからのバイナリプログラムにおけるコールグラフ発見

Call graph discovery in binary programs from unknown instruction set architectures ( http://arxiv.org/abs/2401.07565v1 )

ライセンス: Link先を確認
H{\aa}vard Pettersen and Donn Morrison(参考訳) 本研究は,ソフトウェアメンテナンスとサイバーセキュリティに潜在的に影響を及ぼす複雑なタスクである未知の命令セットアーキテクチャからのリバースエンジニアリングバイナリの課題に対処する。 我々は, リバースエンジニアリングプロセスを単純化するために, 候補呼出検出タスクに着目し, 呼出グラフの自動抽出のためのオプコードを返す。 異なるアーキテクチャからのバイナリファイルの小さなデータセットに対する実証テストでは、ノイズの多いデータ条件下で特定のオペコードを正確に検出できることが示されている。 この方法は、リバースエンジニアが基礎となる命令セットアーキテクチャに関する最小限の事前知識を持つリバースエンジニアリングのための貴重なツールの土台となる。

This study addresses the challenge of reverse engineering binaries from unknown instruction set architectures, a complex task with potential implications for software maintenance and cyber-security. We focus on the tasks of detecting candidate call and return opcodes for automatic extraction of call graphs in order to simplify the reverse engineering process. Empirical testing on a small dataset of binary files from different architectures demonstrates that the approach can accurately detect specific opcodes under conditions of noisy data. The method lays the groundwork for a valuable tool for reverse engineering where the reverse engineer has minimal a priori knowledge of the underlying instruction set architecture.
翻訳日:2024-01-17 17:34:41 公開日:2024-01-15
# 量子エッシャー変換

The Quantum Esscher Transform ( http://arxiv.org/abs/2401.07561v1 )

ライセンス: Link先を確認
Yixian Qiu, Kelvin Koor, Patrick Rebentrost(参考訳) esscher変換は、適用確率の様々な領域において広範な有用性の道具である。 これは制約付き最小相対エントロピー最適化問題の解を提供する。 本研究では,エッシャー変換の量子設定への一般化について検討する。 量子密度作用素に対する相対エントロピー最小化問題について検討し、量子情報理論における幅広い関連性について考察する。 結果として得られる解形式は、古典的な Esscher 変換を特別な場合として仮定する \textit{quantum} Esscher 変換を定義する動機付けとなる。 量子Esscher変換の潜在的な応用を想定し、フォールトトレラント量子コンピュータの実装についても論じる。 我々のアルゴリズムは、ブロックエンコーディングと量子特異値変換(QSVT)の現代技術に基づいている。 ブロック符号化された入力が与えられた場合、このアルゴリズムは量子エッシャー変換の正規化ブロックエンコーディングを精度で出力する。$\epsilon$ in $\tilde O(\kappa d \log^2 1/\epsilon)$ 入力に対するクエリで、$\kappa$ は入力密度演算子の条件数、$d$ は制約数である。

The Esscher Transform is a tool of broad utility in various domains of applied probability. It provides the solution to a constrained minimum relative entropy optimization problem. In this work, we study the generalization of the Esscher Transform to the quantum setting. We examine a relative entropy minimization problem for a quantum density operator, potentially of wide relevance in quantum information theory. The resulting solution form motivates us to define the \textit{quantum} Esscher Transform, which subsumes the classical Esscher Transform as a special case. Envisioning potential applications of the quantum Esscher Transform, we also discuss its implementation on fault-tolerant quantum computers. Our algorithm is based on the modern techniques of block-encoding and quantum singular value transformation (QSVT). We show that given block-encoded inputs, our algorithm outputs a subnormalized block-encoding of the quantum Esscher transform within accuracy $\epsilon$ in $\tilde O(\kappa d \log^2 1/\epsilon)$ queries to the inputs, where $\kappa$ is the condition number of the input density operator and $d$ is the number of constraints.
翻訳日:2024-01-17 17:34:29 公開日:2024-01-15
# FedRFQ: 冗長性の低減、最小限の失敗、品質向上によるプロトタイプベースのフェデレーションラーニング

FedRFQ: Prototype-Based Federated Learning with Reduced Redundancy, Minimal Failure, and Enhanced Quality ( http://arxiv.org/abs/2401.07558v1 )

ライセンス: Link先を確認
Biwei Yan, Hongliang Zhang, Minghui Xu, Dongxiao Yu, Xiuzhen Cheng(参考訳) 連合学習は、異なるクライアント間の協調学習を可能にする強力な技術である。 原型ベースのフェデレーション学習は、クラスプロトタイプを統合することで、非IID(非独立およびIdentically Distributed)設定下でのローカルモデルの性能を改善するための、特定のアプローチである。 しかし、プロトタイプベースの連合学習は、その精度を制限するプロトタイプ冗長性やプロトタイプ失敗など、いくつかの課題に直面している。 また、攻撃やサーバーの故障の影響を受けやすいため、プロトタイプの品質が低下する可能性がある。 これらの問題に対処するため,我々は,冗長性を低減し,障害を最小限に抑えることを目的とした,プロトタイプベースのフェデレーション学習手法であるfederated learning(federated learning)を提案する。 FedRFQはSoftPoolメカニズムを活用し、非IIDデータにおけるプロトタイプの冗長性とプロトタイプの失敗を効果的に軽減する。 さらに,BFT (Byzantine Fault Tolerance) 検出可能なアグリゲーションアルゴリズムであるBFT-detectを導入し,フェデラル攻撃やサーバの故障に対するFedRFQの安全性を確保する。 最後に、MNIST、FEMNIST、CIFAR-10という3つの異なるデータセットを用いて実験を行い、FedRFQは非IIDデータを扱う際の精度において既存のベースラインよりも優れていることを示した。

Federated learning is a powerful technique that enables collaborative learning among different clients. Prototype-based federated learning is a specific approach that improves the performance of local models under non-IID (non-Independently and Identically Distributed) settings by integrating class prototypes. However, prototype-based federated learning faces several challenges, such as prototype redundancy and prototype failure, which limit its accuracy. It is also susceptible to poisoning attacks and server malfunctions, which can degrade the prototype quality. To address these issues, we propose FedRFQ, a prototype-based federated learning approach that aims to reduce redundancy, minimize failures, and improve \underline{q}uality. FedRFQ leverages a SoftPool mechanism, which effectively mitigates prototype redundancy and prototype failure on non-IID data. Furthermore, we introduce the BFT-detect, a BFT (Byzantine Fault Tolerance) detectable aggregation algorithm, to ensure the security of FedRFQ against poisoning attacks and server malfunctions. Finally, we conduct experiments on three different datasets, namely MNIST, FEMNIST, and CIFAR-10, and the results demonstrate that FedRFQ outperforms existing baselines in terms of accuracy when handling non-IID data.
翻訳日:2024-01-17 17:34:04 公開日:2024-01-15
# 自由形自然言語制約と事前学習言語モデルを用いた安全強化学習

Safe Reinforcement Learning with Free-form Natural Language Constraints and Pre-Trained Language Models ( http://arxiv.org/abs/2401.07553v1 )

ライセンス: Link先を確認
Xingzhou Lou, Junge Zhang, Ziyan Wang, Kaiqi Huang, Yali Du(参考訳) 安全な強化学習(RL)エージェントは、特定の制約に固執しながら与えられたタスクを達成する。 理解しやすい人間の言語によって表現される制約は、そのアクセシビリティとドメインの専門知識に依存しないため、現実世界のアプリケーションに対してかなりの可能性をもたらす。 自然言語制約を持つ従来の安全なrlメソッドは、通常、リカレントニューラルネットワークを採用しており、人間の言語入力の様々な形態を扱う際の能力に制限がある。 さらに、これらの手法は、言語制約を制約違反を決定するよく定義されたコスト関数に変換するために、ドメインの専門知識を必要とする。 これらの問題に対処するために,我々は,rlエージェントによる自然言語制約の理解を促進するための事前学習型言語モデル(lm)の利用を提案し,安全な政策学習のためのコストの推測を可能にする。 本手法は, 事前学習されたlmsの使用と, 基礎コストの必要性の排除により, 多様な自然言語制約下での安全な政策学習を促進する。 グリッドワールドナビゲーションとロボット制御の実験により,提案手法は与えられた制約に固執しながら強い性能を達成できることが示された。 事前学習したlmsを用いることで,訓練や評価のどの段階でも基礎コストを必要とせずに,複雑な制約を把握し,安全なポリシーを学ぶことができる。 本法の各部位の有効性を示すため,広範囲なアブレーション試験を行った。

Safe reinforcement learning (RL) agents accomplish given tasks while adhering to specific constraints. Employing constraints expressed via easily-understandable human language offers considerable potential for real-world applications due to its accessibility and non-reliance on domain expertise. Previous safe RL methods with natural language constraints typically adopt a recurrent neural network, which leads to limited capabilities when dealing with various forms of human language input. Furthermore, these methods often require a ground-truth cost function, necessitating domain expertise for the conversion of language constraints into a well-defined cost function that determines constraint violation. To address these issues, we proposes to use pre-trained language models (LM) to facilitate RL agents' comprehension of natural language constraints and allow them to infer costs for safe policy learning. Through the use of pre-trained LMs and the elimination of the need for a ground-truth cost, our method enhances safe policy learning under a diverse set of human-derived free-form natural language constraints. Experiments on grid-world navigation and robot control show that the proposed method can achieve strong performance while adhering to given constraints. The usage of pre-trained LMs allows our method to comprehend complicated constraints and learn safe policies without the need for ground-truth cost at any stage of training or evaluation. Extensive ablation studies are conducted to demonstrate the efficacy of each part of our method.
翻訳日:2024-01-17 17:33:39 公開日:2024-01-15
# 自己学習型オープンワールド授業におけるロバスト半教師付き学習

Robust Semi-Supervised Learning for Self-learning Open-World Classes ( http://arxiv.org/abs/2401.07551v1 )

ライセンス: Link先を確認
Wenjuan Xi, Xin Song, Weili Guo, Yang Yang(参考訳) 既存の半教師付き学習(SSL)メソッドは、ラベル付きとラベルなしのデータは同じクラス空間を共有していると仮定する。 しかし、実世界のアプリケーションでは、ラベル付きデータは常にラベル付き集合に存在しないクラスを含んでいるため、既知のクラスの分類性能が劣化する可能性がある。 したがって、オープンワールドSSLアプローチは、未知のクラスを微粒化しながら、未知のクラスを正確に分類することを目的として、ラベル付きデータに複数の未知のクラスが存在することを扱うために研究されている。 本稿では,複数の未知クラスを明示的に自己学習できるオープンワールドクラス(ssoc)のためのオープンワールドssl手法を提案する。 具体的には、SSOCはまず、既知のクラスと未知のクラスの両方のクラスセンタートークンを定義し、クロスアテンション機構ですべてのサンプルに従ってトークン表現を自律的に学習する。 新規クラスを効果的に発見するため、ssocはエントロピー損失に加えてペアワイズ類似性損失を更に設計し、インスタンスの予測と関係からラベル付きデータで得られる情報を巧みに活用することができる。 広範な実験により、SSOCは複数の一般的な分類ベンチマークにおいて最先端のベースラインより優れていることが示された。 具体的には、新しい比率90%のImageNet-100データセットでは、SSOCは驚くほど22%の改善を実現している。

Existing semi-supervised learning (SSL) methods assume that labeled and unlabeled data share the same class space. However, in real-world applications, unlabeled data always contain classes not present in the labeled set, which may cause classification performance degradation of known classes. Therefore, open-world SSL approaches are researched to handle the presence of multiple unknown classes in the unlabeled data, which aims to accurately classify known classes while fine-grained distinguishing different unknown classes. To address this challenge, in this paper, we propose an open-world SSL method for Self-learning Open-world Classes (SSOC), which can explicitly self-learn multiple unknown classes. Specifically, SSOC first defines class center tokens for both known and unknown classes and autonomously learns token representations according to all samples with the cross-attention mechanism. To effectively discover novel classes, SSOC further designs a pairwise similarity loss in addition to the entropy loss, which can wisely exploit the information available in unlabeled data from instances' predictions and relationships. Extensive experiments demonstrate that SSOC outperforms the state-of-the-art baselines on multiple popular classification benchmarks. Specifically, on the ImageNet-100 dataset with a novel ratio of 90%, SSOC achieves a remarkable 22% improvement.
翻訳日:2024-01-17 17:33:17 公開日:2024-01-15
# なぜ私たちが(量子機械学習について)気にかけるのか

Why we care (about quantum machine learning) ( http://arxiv.org/abs/2401.07547v1 )

ライセンス: Link先を確認
Richard A. Wolf(参考訳) 量子機械学習は過去10年間で膨大な注目を集めており、この傾向は高まっている。 現在、理論的なステートメントや公式な証明、小規模のノイズ実験や古典的なシミュレーションに限られているにもかかわらず、量子技術の分野は一貫して注目されている。 さらに、注意の軌跡は「古典的コンピュータに勝てるか?」「どうやって?」「いつ?」という3つの中心的な質問に偏っていたようである。 この研究では、量子機械学習の焦点は幅広い要因からきており、そのうちのいくつかは規律そのものの外側にあると論じます。 このテーマに関する最近の出版物および主要な出版物と一般の読者の情報源の両方に基づいて、量子機械学習で提起される中核的な疑問を概観し、それらの背後にある動機とそれらの間の相互作用に関する社会心理学的解釈を提案する。

Quantum machine learning has received tremendous amounts of attention in the last ten years, and this trend is on the rise. Despite its developments being currently limited to either theoretical statements and formal proofs or small-scale noisy experiments and classical simulations, this field of quantum technologies has been consistently standing in the spotlight. Moreover, the locus of attention seems to have been skewed towards three central questions: "Can we beat classical computers?", "How?" and "When?". In this work, I argue that focus on quantum machine learning stems from a wide range of factors, some of which lie outside the discipline itself. Based on both recent and key publications on the subject as well as general audience sources, I give a brief overview of the core questions being raised in quantum machine learning and propose a socio-epistemologic interpretation of the motivations behind those and interplay between them.
翻訳日:2024-01-17 17:32:53 公開日:2024-01-15
# unseen: ノイズによるコンテキスト一貫性のある知識教育

See the Unseen: Better Context-Consistent Knowledge-Editing by Noises ( http://arxiv.org/abs/2401.07544v1 )

ライセンス: Link先を確認
Youcheng Huang, Wenqiang Lei, Zheng Zhang, Jiancheng Lv, Shuicheng Yan(参考訳) 知識編集は、大きな言語モデル(LLM)の知識を更新し、LLMの解釈可能性と応用に寄与する。 しかし、知識適用は文脈整合である: LLMは異なる文脈で同じ知識を思い出すことができる。 既存の作業はこの特性を無視し、編集には一般化が欠けている。 本稿では,異なる文脈が同じ知識を想起するLLMに与える影響がガウス的な分布に従うことを実証的に見出した。 次に,LLMの更新時に異なる文脈の影響をシミュレートするためにガウス雑音をサンプリングする。 これにより、編集された知識が適用される未認識のコンテキストをllmで見ることができるため、編集の一般化が改善される。 3つのLCM実験結果から,本手法の有効性を実証し,ノイズによる微調整LSMの他の方法と区別した。

Knowledge-editing updates knowledge of large language models (LLMs) and contributes to the interpretability and application of LLMs. However, knowledge applying is context-consistent: LLMs can recall the same knowledge in different contexts. Existing works ignore this property and the editing lacks generalization. In this paper, we empirically find that the effects of different contexts upon LLMs in recalling the same knowledge follow a Gaussian-like distribution. We then sample Gaussian noises to simulate the effects of different contexts when updating LLMs. By such, we can make LLMs see the unseen contexts where the edited knowledge will be applied, therefore improving the editing generalization. Experimental results on three LLMs demonstrate the effectiveness of our methods and also distinguish our methods from the others of fine-tuning LLMs by noises.
翻訳日:2024-01-17 17:32:36 公開日:2024-01-15
# Must: 空間的トランスクリプトミクスデータの潜在能力の最大化

Must: Maximizing Latent Capacity of Spatial Transcriptomics Data ( http://arxiv.org/abs/2401.07543v1 )

ライセンス: Link先を確認
Zelin Zang, Liangyu Li, Yongjie Xu, Chenrui Duan, Kai Wang, Yang You, Yi Sun, Stan Z. Li(参考訳) 空間転写学 (Spatial transcriptomics, ST) 技術は、組織における遺伝子発現パターンの研究に革命をもたらし、転写学、空間学、形態学における多様性データを提供し、転写学以外の組織生物学を理解する機会を提供する。 しかし,STデータ種におけるモダリティバイアス現象,すなわちラベルに対する異なるモダリティの矛盾した寄与は,解析手法が支配的モダリティの情報を保持する傾向を呈する。 様々な下流タスクを満足させるモダリティバイアスの悪影響を緩和する方法は、依然として基本的な課題である。 本稿では,課題に取り組むための新しい手法である must という多重モダリティ構造変換を提案する。 MuSTはSTデータに含まれる多モード情報を一様潜在空間に効果的に統合し、下流の全てのタスクの基礎を提供する。 トポロジー発見戦略とトポロジー融合損失関数を用いて固有局所構造を学習し、異なるモード間の不整合を解決する。 したがって、これらのトポロジーベースおよびディープラーニング技術は、異なるモダリティをコーディネートしながら、さまざまな分析タスクの強固な基盤を提供する。 MuSTの有効性は、性能指標と生物学的意義によって評価される。 その結果, 組織やバイオマーカーの構造を同定・保存する精度において, 既存の最先端手法よりも優れていることがわかった。 MuSTは複雑な生物学的システムの複雑な解析のための多用途ツールキットを提供する。

Spatial transcriptomics (ST) technologies have revolutionized the study of gene expression patterns in tissues by providing multimodality data in transcriptomic, spatial, and morphological, offering opportunities for understanding tissue biology beyond transcriptomics. However, we identify the modality bias phenomenon in ST data species, i.e., the inconsistent contribution of different modalities to the labels leads to a tendency for the analysis methods to retain the information of the dominant modality. How to mitigate the adverse effects of modality bias to satisfy various downstream tasks remains a fundamental challenge. This paper introduces Multiple-modality Structure Transformation, named MuST, a novel methodology to tackle the challenge. MuST integrates the multi-modality information contained in the ST data effectively into a uniform latent space to provide a foundation for all the downstream tasks. It learns intrinsic local structures by topology discovery strategy and topology fusion loss function to solve the inconsistencies among different modalities. Thus, these topology-based and deep learning techniques provide a solid foundation for a variety of analytical tasks while coordinating different modalities. The effectiveness of MuST is assessed by performance metrics and biological significance. The results show that it outperforms existing state-of-the-art methods with clear advantages in the precision of identifying and preserving structures of tissues and biomarkers. MuST offers a versatile toolkit for the intricate analysis of complex biological systems.
翻訳日:2024-01-17 17:32:20 公開日:2024-01-15
# 形状回帰のための画像と幾何学的深層学習の組み合わせ:胸部X線における画素レベルのセグメンテーション法との比較

Combining Image- and Geometric-based Deep Learning for Shape Regression: A Comparison to Pixel-level Methods for Segmentation in Chest X-Ray ( http://arxiv.org/abs/2401.07542v1 )

ライセンス: Link先を確認
Ron Keuth, Mattias Heinrich(参考訳) セグメンテーションタスクを解く際には、対象物体の幾何学的理解による画素単位の分類に比べて、形状ベース法が有用であり、特に破損したデータに対する解剖学的不確実な予測の発生を防止することができる。 そこで本研究では,軽量なCNNバックボーンと幾何学的ニューラルネットワーク(Point Transformer)を組み合わせたハイブリッド手法を提案する。 同じcnnエンコーダを使用すると、ポイントトランスフォーマはperのセグメンテーション品質に到達し、現在のコンボリューションデコーダ($4\pm1.9$ vs $3.9\pm2.9$ error in mm and $85\pm13$ vs 8.8\pm10$ dice)が、最も重要なのはw.r.tイメージの歪みが30%の腐敗レベルを上回っていることだ。 さらに、nU-Netを上位ベースラインとして含み、提案手法よりも3.7\times$以上のトレーニング可能なパラメータを持つ。

When solving a segmentation task, shaped-base methods can be beneficial compared to pixelwise classification due to geometric understanding of the target object as shape, preventing the generation of anatomical implausible predictions in particular for corrupted data. In this work, we propose a novel hybrid method that combines a lightweight CNN backbone with a geometric neural network (Point Transformer) for shape regression. Using the same CNN encoder, the Point Transformer reaches segmentation quality on per with current state-of-the-art convolutional decoders ($4\pm1.9$ vs $3.9\pm2.9$ error in mm and $85\pm13$ vs $88\pm10$ Dice), but crucially, is more stable w.r.t image distortion, starting to outperform them at a corruption level of 30%. Furthermore, we include the nnU-Net as an upper baseline, which has $3.7\times$ more trainable parameters than our proposed method.
翻訳日:2024-01-17 17:31:57 公開日:2024-01-15
# ファウショット物体検出のための微粒化原型蒸留法

Fine-Grained Prototypes Distillation for Few-Shot Object Detection ( http://arxiv.org/abs/2401.07629v1 )

ライセンス: Link先を確認
Zichen Wang, Bo Yang, Haonan Yue, Zhenghao Ma(参考訳) Few-shot Object Detection (FSOD) は、新しい物体検出のためのジェネリック検出器を拡張することを目的としている。 近年は実践的な意味から大きな関心を集めている。 この課題にはメタラーニングが効果的なパラダイムであることが示されている。 一般に、メタラーニングに基づくメソッドは、新しい例(例えばサポートイメージ)をクラスプロトタイプにエンコードするために追加のサポートブランチを使用し、クエリブランチと融合してモデル予測を容易にする。 しかし, クラスレベルのプロトタイプは正確な生成が困難であり, 詳細な情報も欠如しており, 性能の不安定さを招き, より堅牢な新しいオブジェクト検出のためには, 特徴のある局所的コンテキストを捉える必要がある。 そこで本研究では,最も代表的な支持機能を微細なプロトタイプに蒸留することを提案する。 これらのプロトタイプは、マッチング結果に基づいてクエリ特徴マップに割り当てられ、2つのブランチ間の詳細な特徴関係をモデル化する。 このプロセスは、きめ細かいフィーチャーアグリゲーション(ffa)モジュールによって実現されます。 さらに,高レベル特徴融合の観点からは,b-cas戦略とnlfモジュールの差異を考慮したバランスドクラス非依存サンプリングを提案する。 それらは互いに補完的であり、高レベルな特徴関係をより効果的に描写する。 PASCAL VOC および MS COCO ベンチマークの大規模な実験により,本手法は,ほとんどの設定において新しい最先端性能を実現する。 私たちのコードはhttps://github.com/wangchen1801/fpdで利用可能です。

Few-shot object detection (FSOD) aims at extending a generic detector for novel object detection with only a few training examples. It attracts great concerns recently due to the practical meanings. Meta-learning has been demonstrated to be an effective paradigm for this task. In general, methods based on meta-learning employ an additional support branch to encode novel examples (a.k.a. support images) into class prototypes, which are then fused with query branch to facilitate the model prediction. However, the class-level prototypes are difficult to precisely generate, and they also lack detailed information, leading to instability in performance.New methods are required to capture the distinctive local context for more robust novel object detection. To this end, we propose to distill the most representative support features into fine-grained prototypes. These prototypes are then assigned into query feature maps based on the matching results, modeling the detailed feature relations between two branches. This process is realized by our Fine-Grained Feature Aggregation (FFA) module. Moreover, in terms of high-level feature fusion, we propose Balanced Class-Agnostic Sampling (B-CAS) strategy and Non-Linear Fusion (NLF) module from differenct perspectives. They are complementary to each other and depict the high-level feature relations more effectively. Extensive experiments on PASCAL VOC and MS COCO benchmarks show that our method sets a new state-of-the-art performance in most settings. Our code is available at https://github.com/wangchen1801/FPD.
翻訳日:2024-01-17 17:24:56 公開日:2024-01-15
# サポートベクトルマシンのコスト感受性の特徴選択

Cost-sensitive Feature Selection for Support Vector Machines ( http://arxiv.org/abs/2401.07627v1 )

ライセンス: Link先を確認
Sandra Ben\'itez-Pe\~na and Rafael Blanquero and Emilio Carrizosa and Pepa Ram\'irez-Cobo(参考訳) 特徴の選択は、関連する変数を識別するため、分類のようなデータサイエンスのタスクにおいて重要な手順である。 分類手続きにおける特徴の関連性は、誤分類のコストがしばしば非対称であるという事実と関係している。 しかし、既製の特徴選択手順は、このようなコストのかかるエラーを考慮に入れない。 本稿では,最も一般的な分類手順であるサポートベクターマシンに埋め込まれた数学的最適化に基づく特徴選択手法を提案する。 鍵となるアイデアは、選択された特徴の数を最小にすることで従来のマージンの最大化を置き換えることであるが、偽の正と負の率に上限を課すことである。 この問題は、線形カーネルとラジアルカーネルの両方を持つサポートベクターマシンの二次凸問題に加えて整数線形問題として記述される。 報告された数値経験から,提案手法の有用性が示された。 実際、我々のベンチマークデータセットの結果は、偽陽性と偽陰性の間のトレードオフが達成される一方で、特徴の数が大幅に減少することを示している。

Feature Selection is a crucial procedure in Data Science tasks such as Classification, since it identifies the relevant variables, making thus the classification procedures more interpretable, cheaper in terms of measurement and more effective by reducing noise and data overfit. The relevance of features in a classification procedure is linked to the fact that misclassifications costs are frequently asymmetric, since false positive and false negative cases may have very different consequences. However, off-the-shelf Feature Selection procedures seldom take into account such cost-sensitivity of errors. In this paper we propose a mathematical-optimization-based Feature Selection procedure embedded in one of the most popular classification procedures, namely, Support Vector Machines, accommodating asymmetric misclassification costs. The key idea is to replace the traditional margin maximization by minimizing the number of features selected, but imposing upper bounds on the false positive and negative rates. The problem is written as an integer linear problem plus a quadratic convex problem for Support Vector Machines with both linear and radial kernels. The reported numerical experience demonstrates the usefulness of the proposed Feature Selection procedure. Indeed, our results on benchmark data sets show that a substantial decrease of the number of features is obtained, whilst the desired trade-off between false positive and false negative rates is achieved.
翻訳日:2024-01-17 17:24:29 公開日:2024-01-15
# Signed-Prompt: LLM-Integrated Applicationsに対するプロンプト注入攻撃を防ぐ新しいアプローチ

Signed-Prompt: A New Approach to Prevent Prompt Injection Attacks Against LLM-Integrated Applications ( http://arxiv.org/abs/2401.07612v1 )

ライセンス: Link先を確認
Xuchen Suo(参考訳) 大規模言語モデル(LLM)の統合アプリケーションにおけるインジェクション攻撃の急激な課題は、人工知能(AI)分野への関心が高まっている。 自然言語入力を通じてLLMを操作するこのような攻撃は、これらのアプリケーションのセキュリティに重大な脅威をもたらす。 出力や入力フィルタリングを含む従来の防御戦略やデリミターの使用は不十分であることが証明されている。 本稿では,新しい解法としてSigned-Prompt法を提案する。 この研究は、認証されたユーザによるコマンドセグメント内のセンシティブな命令に署名することを含み、llmが信頼できる命令ソースを識別できるようにする。 本稿では, インジェクション・インジェクション・アタック・パターンの包括的解析を行い, その後, LLMの迅速な工学的および微調整による基本構造と実装を含む, Signed-Prompt概念の詳細な説明を行った。 実験はSigned-Prompt法の有効性を示し、様々な種類のプロンプトインジェクション攻撃に対してかなりの抵抗を示し、AIセキュリティにおける堅牢な防衛戦略としての可能性を検証する。

The critical challenge of prompt injection attacks in Large Language Models (LLMs) integrated applications, a growing concern in the Artificial Intelligence (AI) field. Such attacks, which manipulate LLMs through natural language inputs, pose a significant threat to the security of these applications. Traditional defense strategies, including output and input filtering, as well as delimiter use, have proven inadequate. This paper introduces the 'Signed-Prompt' method as a novel solution. The study involves signing sensitive instructions within command segments by authorized users, enabling the LLM to discern trusted instruction sources. The paper presents a comprehensive analysis of prompt injection attack patterns, followed by a detailed explanation of the Signed-Prompt concept, including its basic architecture and implementation through both prompt engineering and fine-tuning of LLMs. Experiments demonstrate the effectiveness of the Signed-Prompt method, showing substantial resistance to various types of prompt injection attacks, thus validating its potential as a robust defense strategy in AI security.
翻訳日:2024-01-17 17:24:08 公開日:2024-01-15
# RedEx: 凸最適化による固定表現メソッドを超えて

RedEx: Beyond Fixed Representation Methods via Convex Optimization ( http://arxiv.org/abs/2401.07606v1 )

ライセンス: Link先を確認
Amit Daniely, Mariano Schain and Gilad Yehudai(参考訳) ニューラルネットワークの最適化は、まだよく理解されていない難しいタスクである。 一方で、カーネルやランダムな特徴のような固定表現メソッドは、最適化の保証はできるが、その表現を学習できないため性能が劣る。 本稿では,ニューラルネットワークと同じくらい表現力があり,半確定的な制約と最適化保証を備えた凸プログラムを通じて階層的にトレーニングできるRedEx(Reduced Expander Extractor)という新しいアーキテクチャを提案することにより,このギャップを埋めることを目的とする。 また,固定表現法が不可能な対象関数の族を効率的に学習できるという意味で,RedExが固定表現法を確実に上回ることを示す。

Optimizing Neural networks is a difficult task which is still not well understood. On the other hand, fixed representation methods such as kernels and random features have provable optimization guarantees but inferior performance due to their inherent inability to learn the representations. In this paper, we aim at bridging this gap by presenting a novel architecture called RedEx (Reduced Expander Extractor) that is as expressive as neural networks and can also be trained in a layer-wise fashion via a convex program with semi-definite constraints and optimization guarantees. We also show that RedEx provably surpasses fixed representation methods, in the sense that it can efficiently learn a family of target functions which fixed representation methods cannot.
翻訳日:2024-01-17 17:23:49 公開日:2024-01-15
# 英国における気象予報のためのERA5, ASOS, U-STNモデルを用いたデータ同化

Data Assimilation using ERA5, ASOS, and the U-STN model for Weather Forecasting over the UK ( http://arxiv.org/abs/2401.07604v1 )

ライセンス: Link先を確認
Wenqi Wang, Jacob Bieker, Rossella Arcucci, C\'esar Quilodr\'an-Casas(参考訳) 近年、データアシミレーション(DA)によるデータ駆動機械学習モデルの収束は、天気予報を強化するための有望な道を提供する。 この研究は、我々の方法論と成果を提示し、この新たなトレンドを掘り下げる。 我々は、イギリスの現地のERA5 850 hPa温度データを活用し、U-STN12グローバル気象予報モデルを洗練し、イギリスの気候に合わせた予測を行った。 ASOSネットワークから、イギリス全土で観測されたT2mデータを抽出した。 我々は、一貫した空間分解のために多項式ドリフト項を持つ高度なクリグ法を採用した。 さらに、ERA5 T850データにガウスノイズが重畳され、多段階合成観測のステージが設定された。 ASOS T2mデータは同化の影響を調査した結果、ERA5 T850データセットと統合された。 私たちの洞察では、グローバル予測モデルは特定の領域に適応できるが、daに大気データを組み込むことで、モデルの精度が大幅に向上する。 逆に、表面温度データの直接同化は、この拡張を緩和し、モデルの予測能力を高める傾向にある。

In recent years, the convergence of data-driven machine learning models with Data Assimilation (DA) offers a promising avenue for enhancing weather forecasting. This study delves into this emerging trend, presenting our methodologies and outcomes. We harnessed the UK's local ERA5 850 hPa temperature data and refined the U-STN12 global weather forecasting model, tailoring its predictions to the UK's climate nuances. From the ASOS network, we sourced T2m data, representing ground observations across the UK. We employed the advanced kriging method with a polynomial drift term for consistent spatial resolution. Furthermore, Gaussian noise was superimposed on the ERA5 T850 data, setting the stage for ensuing multi-time step synthetic observations. Probing into the assimilation impacts, the ASOS T2m data was integrated with the ERA5 T850 dataset. Our insights reveal that while global forecast models can adapt to specific regions, incorporating atmospheric data in DA significantly bolsters model accuracy. Conversely, the direct assimilation of surface temperature data tends to mitigate this enhancement, tempering the model's predictive prowess.
翻訳日:2024-01-17 17:23:38 公開日:2024-01-15
# デュアルアーム微細操作のためのマルチタスクロボットデータ

Multi-task robot data for dual-arm fine manipulation ( http://arxiv.org/abs/2401.07603v1 )

ライセンス: Link先を確認
Heecheol Kim, Yoshiyuki Ohmura, Yasuo Kuniyoshi(参考訳) ロボット操作の分野では、深層模倣学習が操作スキル獲得の有望なアプローチとして認識されている。 さらに、多様なロボットデータセットからの学習は、汎用性と適応性を達成するための有効な方法であると考えられている。 このような研究において、様々なタスクを学習することで、ロボットは複数の対象にまたがる汎用性を達成した。 しかし、こうしたマルチタスクロボットデータセットは、ロボットが現実世界で実行すると予想される細かいオブジェクト操作に対処せず、比較的不正確な単一アームタスクに主に焦点を当てている。 本稿では,2つのアームタスクや細かな操作を必要とするタスクを含む多様なオブジェクト操作のデータセットを紹介する。 この目的のために、ボウルムービング、鉛筆ケースのオープニング、バナナペリングといった2本腕の細かなタスクを含む224kエピソード(150時間、1104の言語命令)のデータセットを生成し、このデータを公開している。 さらにこのデータセットには、視覚注意信号とデュアルアクションラベル、アクションをロバストな到達軌跡とオブジェクトとの正確なインタラクションに分離する信号、ロバストで正確なオブジェクト操作を実現するための言語命令が含まれている。 このデータセットをDual-Action and Attention (DAA)に適用した。 このモデルは、実際のロボット操作タスクで7k以上のトータルトライアルでテストされ、細かい操作能力が実証された。

In the field of robotic manipulation, deep imitation learning is recognized as a promising approach for acquiring manipulation skills. Additionally, learning from diverse robot datasets is considered a viable method to achieve versatility and adaptability. In such research, by learning various tasks, robots achieved generality across multiple objects. However, such multi-task robot datasets have mainly focused on single-arm tasks that are relatively imprecise, not addressing the fine-grained object manipulation that robots are expected to perform in the real world. This paper introduces a dataset of diverse object manipulations that includes dual-arm tasks and/or tasks requiring fine manipulation. To this end, we have generated dataset with 224k episodes (150 hours, 1,104 language instructions) which includes dual-arm fine tasks such as bowl-moving, pencil-case opening or banana-peeling, and this data is publicly available. Additionally, this dataset includes visual attention signals as well as dual-action labels, a signal that separates actions into a robust reaching trajectory and precise interaction with objects, and language instructions to achieve robust and precise object manipulation. We applied the dataset to our Dual-Action and Attention (DAA), a model designed for fine-grained dual arm manipulation tasks and robust against covariate shifts. The model was tested with over 7k total trials in real robot manipulation tasks, demonstrating its capability in fine manipulation.
翻訳日:2024-01-17 17:23:19 公開日:2024-01-15
# MAPLE:大規模言語モデルのパラメータ効率の多言語評価

MAPLE: Multilingual Evaluation of Parameter Efficient Finetuning of Large Language Models ( http://arxiv.org/abs/2401.07598v1 )

ライセンス: Link先を確認
Divyanshu Aggarwal, Ashutosh Sathe and Sunayana Sitaram(参考訳) パラメータ効率のよい微調整は、大量のリソースや計算を必要とせずに、大規模言語モデルの性能を向上させるための実行可能なソリューションとして登場した。 多言語評価に関する先行研究は、英語と他の言語におけるLLMの性能の間に大きなギャップがあることを証明している。 さらに、より小さなオープンソースモデルとより大きなLLMの性能の間には大きなギャップがある。 微調整は、このギャップを橋渡し、言語モデルをより公平にする効果的な方法になり得る。 本研究では,LLaMA-7B と Mistral-7B モデルを合成多言語命令チューニングデータ上に微調整し,203言語をカバーする5つの下流タスクにおけるモデル性能に与える影響を判定する。 さらに,低ランク適応のランクや量子化の値といった様々なパラメータを実験し,下流性能への影響を判定し,高ランクと高量子化の値が低リソース言語に有益であることを見出した。 より小さなオープンソースモデルのパラメータ効率の良い微調整は、これらのモデルとより大きなモデルとのギャップを埋めることがあるが、英語のパフォーマンスは打撃を受ける可能性がある。 また、ファインタニングによって低リソース言語のパフォーマンスが向上し、高リソース言語のパフォーマンスが低下することもあります。

Parameter efficient finetuning has emerged as a viable solution for improving the performance of Large Language Models without requiring massive resources and compute. Prior work on multilingual evaluation has shown that there is a large gap between the performance of LLMs on English and other languages. Further, there is also a large gap between the performance of smaller open-source models and larger LLMs. Finetuning can be an effective way to bridge this gap and make language models more equitable. In this work, we finetune the LLaMA-7B and Mistral-7B models on synthetic multilingual instruction tuning data to determine its effect on model performance on five downstream tasks covering twenty three languages in all. Additionally, we experiment with various parameters, such as rank for low-rank adaptation and values of quantisation to determine their effects on downstream performance and find that higher rank and higher quantisation values benefit low-resource languages. We find that parameter efficient finetuning of smaller open source models sometimes bridges the gap between the performance of these models and the larger ones, however, English performance can take a hit. We also find that finetuning sometimes improves performance on low-resource languages, while degrading performance on high-resource languages.
翻訳日:2024-01-17 17:22:56 公開日:2024-01-15
# E3x: $\mathrm{E}(3)$-Equivariant Deep Learning が簡単になった

E3x: $\mathrm{E}(3)$-Equivariant Deep Learning Made Easy ( http://arxiv.org/abs/2401.07595v1 )

ライセンス: Link先を確認
Oliver T. Unke and Hartmut Maennel(参考訳) この研究は、ユークリッド群$\mathrm{E}(3)$に対して同値なニューラルネットワークを構築するためのソフトウェアパッケージであるE3xを導入し、三次元空間の変換、回転、反射からなる。 通常のニューラルネットワークと比較して、$\mathrm{E}(3)$-equivariantモデルは、入力および/または出力データが三次元オブジェクトに関連付けられた量であるときに利益を約束する。 これは、そのような量の数値(例えば位置)が選択された座標系に依存するためである。 参照フレームの変換では、値が予測的に変化するが、基礎となるルールを通常の機械学習モデルで学ぶのは困難である。 組み込みの$\mathrm{E}(3)$-equivarianceでは、ニューラルネットワークは関連する変換規則を正確に満たすことが保証され、データ効率と精度が向上する。 E3xのコードはhttps://github.com/google-research/e3xから入手できる。

This work introduces E3x, a software package for building neural networks that are equivariant with respect to the Euclidean group $\mathrm{E}(3)$, consisting of translations, rotations, and reflections of three-dimensional space. Compared to ordinary neural networks, $\mathrm{E}(3)$-equivariant models promise benefits whenever input and/or output data are quantities associated with three-dimensional objects. This is because the numeric values of such quantities (e.g. positions) typically depend on the chosen coordinate system. Under transformations of the reference frame, the values change predictably, but the underlying rules can be difficult to learn for ordinary machine learning models. With built-in $\mathrm{E}(3)$-equivariance, neural networks are guaranteed to satisfy the relevant transformation rules exactly, resulting in superior data efficiency and accuracy. The code for E3x is available from https://github.com/google-research/e3x.
翻訳日:2024-01-17 17:22:35 公開日:2024-01-15
# Pix2Pix GANによるマルチモーダルクラウドカウント

Multimodal Crowd Counting with Pix2Pix GANs ( http://arxiv.org/abs/2401.07591v1 )

ライセンス: Link先を確認
Muhammad Asif Khan, Hamid Menouar, Ridha Hamila(参考訳) ほとんどの最先端の群衆カウント手法は、群衆の密度マップを学ぶために色(RGB)画像を使用する。 しかし、これらの手法は、照度が低い密集したシーンでは高い精度を達成するのに苦労することが多い。 近年,RGBと熱画像の組み合わせによる群集カウントモデルの精度向上が報告されている。 マルチモーダルデータはより良い予測につながる可能性があるが、マルチモーダルデータは事前に利用できるとは限らない。 本稿では,色 (rgb) 画像から熱赤外線 (tir) 画像を自動的に生成し, 群衆カウントモデルの訓練と精度向上を図るために, 生成型逆ネットワーク (gans) の利用を提案する。 我々はまずPix2Pix GANネットワークを用いてRGB画像をTIR画像に変換する。 最新の群集計数モデルとベンチマーク群集データセットを用いた実験により,精度が大幅に向上した。

Most state-of-the-art crowd counting methods use color (RGB) images to learn the density map of the crowd. However, these methods often struggle to achieve higher accuracy in densely crowded scenes with poor illumination. Recently, some studies have reported improvement in the accuracy of crowd counting models using a combination of RGB and thermal images. Although multimodal data can lead to better predictions, multimodal data might not be always available beforehand. In this paper, we propose the use of generative adversarial networks (GANs) to automatically generate thermal infrared (TIR) images from color (RGB) images and use both to train crowd counting models to achieve higher accuracy. We use a Pix2Pix GAN network first to translate RGB images to TIR images. Our experiments on several state-of-the-art crowd counting models and benchmark crowd datasets report significant improvement in accuracy.
翻訳日:2024-01-17 17:22:17 公開日:2024-01-15
# クラウドカウントのカリキュラム - 価値はあるか?

Curriculum for Crowd Counting -- Is it Worthy? ( http://arxiv.org/abs/2401.07586v1 )

ライセンス: Link先を確認
Muhammad Asif Khan, Hamid Menouar, Ridha Hamila(参考訳) 近年のディープラーニング技術の進歩は,コンピュータビジョン問題において顕著な成果を上げている。 近年,ディープラーニングモデルのトレーニングのために,Curriculum Learning(CL)と呼ばれる直感的なテクニックが導入されている。 驚くべきことに、カリキュラム学習はいくつかのタスクで大幅に改善されるが、他のタスクでは限界か全く改善されない。 したがって、教師付き学習モデルをトレーニングするための標準的な方法としての採用については、いまだに議論がある。 そこで本研究では,密度推定法を用いて,群衆数量におけるカリキュラム学習の効果について検討する。 8種類の群集モデルを用いて,6種類のcl設定を用いた112実験を行った。 実験の結果,カリキュラム学習はモデル学習性能を改善し,収束時間を短縮することがわかった。

Recent advances in deep learning techniques have achieved remarkable performance in several computer vision problems. A notably intuitive technique called Curriculum Learning (CL) has been introduced recently for training deep learning models. Surprisingly, curriculum learning achieves significantly improved results in some tasks but marginal or no improvement in others. Hence, there is still a debate about its adoption as a standard method to train supervised learning models. In this work, we investigate the impact of curriculum learning in crowd counting using the density estimation method. We performed detailed investigations by conducting 112 experiments using six different CL settings using eight different crowd models. Our experiments show that curriculum learning improves the model learning performance and shortens the convergence time.
翻訳日:2024-01-17 17:22:01 公開日:2024-01-15
# 行動認識のための協調的自己指導型映像表現学習

Collaboratively Self-supervised Video Representation Learning for Action Recognition ( http://arxiv.org/abs/2401.07584v1 )

ライセンス: Link先を確認
Jie Zhang, Zhifan Wan, Lanqing Hu, Stephen Lin, Shuzhe Wu, Shiguang Shan(参考訳) 行動認識と人間のポーズ推定の密接な関係を考慮して,生成的ポーズ予測と判別的コンテキストマッチングを前文課題として考慮し,行動認識に特有の協調的自己教師付き映像表現(csvr)学習フレームワークを設計する。 具体的には、CSVRは、生成的ポーズ予測枝、識別的コンテキストマッチング枝、ビデオ生成枝の3つから構成される。 このうち、第1のブランチは、条件付きGANを利用して、将来のフレームの人間のポーズを予測し、第2のブランチは、同じビデオからクリップと圧縮されたキーフレームの表現を引いて、異なるビデオからペアを押し離して静的なコンテキスト特徴を抽出する。 第3のブランチは、動的モーション特徴と静的コンテキスト特徴を協調的に改善するために、現在のビデオフレームを復元し、将来のフレームを予測するように設計されている。 実験の結果,UCF101およびHMDB51データセットの最先端性能が得られた。

Considering the close connection between action recognition and human pose estimation, we design a Collaboratively Self-supervised Video Representation (CSVR) learning framework specific to action recognition by jointly considering generative pose prediction and discriminative context matching as pretext tasks. Specifically, our CSVR consists of three branches: a generative pose prediction branch, a discriminative context matching branch, and a video generating branch. Among them, the first one encodes dynamic motion feature by utilizing Conditional-GAN to predict the human poses of future frames, and the second branch extracts static context features by pulling the representations of clips and compressed key frames from the same video together while pushing apart the pairs from different videos. The third branch is designed to recover the current video frames and predict the future ones, for the purpose of collaboratively improving dynamic motion features and static context features. Extensive experiments demonstrate that our method achieves state-of-the-art performance on the UCF101 and HMDB51 datasets.
翻訳日:2024-01-17 17:21:51 公開日:2024-01-15
# 一般化自転車符号の代数的拡張による小さな量子符号

Small Quantum Codes from Algebraic Extensions of Generalized Bicycle Codes ( http://arxiv.org/abs/2401.07583v1 )

ライセンス: Link先を確認
Nikolaos Koukoulekidis and Fedor \v{S}imkovic IV and Martin Leib and Francisco Revson Fernandes Pereira(参考訳) 量子誤り訂正は、最初の実験的な実装が急速に見られるが、漸近的に最適な誤り訂正符号と実験的に実現可能な符号との間には大きなギャップがある。 量子LDPC符号は、消滅する符号化率を持つ表面符号から、一定の符号化率と線形距離を持つ非常に有望な符号まで様々である。 本研究では,現在の小型実験的な量子処理ユニットを動機とし,一般化自転車 (gb) コードとして知られる量子ldpc符号のサブセットに触発された小型量子コードを考案する。 本稿では,タナーグラフの操作ではなく,GB符号のパリティチェック行列の代数的操作に基づくコード構築を提案する。 我々の構成は,小型の量子LDPC符号の族に導かれ,その性能は,現象ノイズモデルの下での同様の大きさの曲面符号の性能と相容れないことを数値的に示す。 コードファミリの利点は、ローカルでない接続を犠牲にして、1つのコードに多くの論理キュービットをエンコードすることです。 次に、短距離接続デバイスの現在の実験機能に近づけることにより、長距離接続の削減に焦点を当てたコード構築の3つのバリエーションについて検討する。

Quantum error correction is rapidly seeing first experimental implementations, but there is a significant gap between asymptotically optimal error-correcting codes and codes that are experimentally feasible. Quantum LDPC codes range from the surface code, which has a vanishing encoding rate, to very promising codes with constant encoding rate and linear distance. In this work, motivated by current small-scale experimental quantum processing units, we devise small quantum codes that are inspired by a subset of quantum LDPC codes, known as generalized bicycle (GB) codes. We introduce a code construction based on algebraic manipulation of the parity-check matrix of GB codes, rather than manipulation of Tanner graphs. Our construction leads to families of quantum LDPC codes of small size, and we demonstrate numerically that their performance scales comparably to the performance of surface codes for similar sizes under a phenomenological noise model. The advantage of our code family is that they encode many logical qubits in one code, at the expense of non-local connectivity. We then explore three variants of the code construction focusing on reducing the long-range connectivity by bringing it closer to the current experimental capabilities of short-range connectivity devices.
翻訳日:2024-01-17 17:21:31 公開日:2024-01-15
# nvidia driveworksを用いた逆ハバジン公式を用いた道路物体の位置推定

Geo-locating Road Objects using Inverse Haversine Formula with NVIDIA Driveworks ( http://arxiv.org/abs/2401.07582v1 )

ライセンス: Link先を確認
Mamoona Birkhez Shami, Gabriel Kiss, Trond Arve Haakonsen, Frank Lindseth(参考訳) ジオロケーションは、自動運転車と高度な交通監視インフラのシームレスな機能に不可欠なものだ。 本稿では,NVIDIA DriveWorksプラットフォームを利用して,単眼カメラを用いた道路オブジェクトの位置決め手法を提案する。 我々はCentimeter Positioning Service (CPOS) と逆Haversine式を用いて道路物体の正確な位置決めを行う。 nvidia driveworksプラットフォームのリアルタイムアルゴリズム処理機能により、advanced driver assistance systems(adas)とautomated driving platformsの即時オブジェクト認識と空間的ローカライズが可能になる。 本稿では,自律運転(ad)プラットフォームに適した計測パイプラインを提案し,nvidia driveworksを用いたカメラのキャリブレーションに関する詳細なガイドラインを提供する。 制御条件と動的条件の両方で目標を位置決めする手法の精度を検証する実験を行った。 提案手法は,15m半径内の高速(最大60km/h)において,広告プラットフォームが静止し4m未満の場合には,目標を1m未満の誤差で特定できることを示す。

Geolocation is integral to the seamless functioning of autonomous vehicles and advanced traffic monitoring infrastructures. This paper introduces a methodology to geolocate road objects using a monocular camera, leveraging the NVIDIA DriveWorks platform. We use the Centimeter Positioning Service (CPOS) and the inverse Haversine formula to geo-locate road objects accurately. The real-time algorithm processing capability of the NVIDIA DriveWorks platform enables instantaneous object recognition and spatial localization for Advanced Driver Assistance Systems (ADAS) and autonomous driving platforms. We present a measurement pipeline suitable for autonomous driving (AD) platforms and provide detailed guidelines for calibrating cameras using NVIDIA DriveWorks. Experiments were carried out to validate the accuracy of the proposed method for geolocating targets in both controlled and dynamic settings. We show that our approach can locate targets with less than 1m error when the AD platform is stationary and less than 4m error at higher speeds (i.e. up to 60km/h) within a 15m radius.
翻訳日:2024-01-17 17:21:09 公開日:2024-01-15
# PMFSNet:軽量医用画像分割のための多スケール機能自己注意ネットワーク

PMFSNet: Polarized Multi-scale Feature Self-attention Network For Lightweight Medical Image Segmentation ( http://arxiv.org/abs/2401.07579v1 )

ライセンス: Link先を確認
Jiahui Zhong, Wenhong Tian, Yuanlun Xie, Zhijia Liu, Jie Ou, Taoran Tian and Lei Zhang(参考訳) 現在の最先端の医用画像分割法は精度を優先するが、計算要求の増大とより大きなモデルサイズを犠牲にすることも多い。 これらの大規模モデルを比較的限られた医療画像データセットに適用すると、冗長な計算を誘導し、必要な利益なしにプロセスを複雑化する傾向がある。 このアプローチは複雑さを増すだけでなく、エッジデバイスへの軽量モデルの統合とデプロイにも課題をもたらす。 例えば、近年のトランスフォーマーベースモデルは、広範囲な受容場と高いパラメータ数のために、2次元および3次元の医用画像セグメンテーションに優れています。 しかし、その効果は小さなデータセットに適用した場合に過度に適合する危険性があり、しばしば局所的な特徴表現に不可欠な畳み込みニューラルネットワーク(CNN)の重要な帰納バイアスを無視する。 本研究では,大規模モデルに典型的な計算冗長性を回避しつつ,グローバルな特徴処理と局所的な特徴処理を効果的にバランスさせる新しい医用画像分割モデルPMFSNetを提案する。 PMFSNetはUNetベースの階層構造を合理化し、自己認識機構の計算複雑性を単純化し、軽量アプリケーションに適している。 長期依存関係をキャプチャするために,アテンション機構に基づいたマルチスケール機能拡張モジュールであるPMFSブロックをプラグインとして組み込んでいる。 広範囲にわたる結果から,モデル(100万パラメータ未満)であっても,様々なデータスケールのセグメンテーションタスクにおいて優れた性能が得られることが示された。 IoUは、歯科CT(CBCT)、卵巣腫瘍超音波(MMOTU)、皮膚病変の画像(ISIC 2018)の公的データセットの84.68%、82.02%、78.82%の計測値を達成している。 ソースコードはhttps://github.com/yykzjh/PMFSNetで入手できる。

Current state-of-the-art medical image segmentation methods prioritize accuracy but often at the expense of increased computational demands and larger model sizes. Applying these large-scale models to the relatively limited scale of medical image datasets tends to induce redundant computation, complicating the process without the necessary benefits. This approach not only adds complexity but also presents challenges for the integration and deployment of lightweight models on edge devices. For instance, recent transformer-based models have excelled in 2D and 3D medical image segmentation due to their extensive receptive fields and high parameter count. However, their effectiveness comes with a risk of overfitting when applied to small datasets and often neglects the vital inductive biases of Convolutional Neural Networks (CNNs), essential for local feature representation. In this work, we propose PMFSNet, a novel medical imaging segmentation model that effectively balances global and local feature processing while avoiding the computational redundancy typical in larger models. PMFSNet streamlines the UNet-based hierarchical structure and simplifies the self-attention mechanism's computational complexity, making it suitable for lightweight applications. It incorporates a plug-and-play PMFS block, a multi-scale feature enhancement module based on attention mechanisms, to capture long-term dependencies. Extensive comprehensive results demonstrate that even with a model (less than 1 million parameters), our method achieves superior performance in various segmentation tasks across different data scales. It achieves (IoU) metrics of 84.68%, 82.02%, and 78.82% on public datasets of teeth CT (CBCT), ovarian tumors ultrasound(MMOTU), and skin lesions dermoscopy images (ISIC 2018), respectively. The source code is available at https://github.com/yykzjh/PMFSNet.
翻訳日:2024-01-17 17:20:50 公開日:2024-01-15
# 予算付カウンサルバンドの結成

Confounded Budgeted Causal Bandits ( http://arxiv.org/abs/2401.07578v1 )

ライセンス: Link先を確認
Fateme Jamshidi, Jalal Etesami, Negar Kiyavash(参考訳) 基礎となる因果グラフをモデルとした確率的環境における「良い」介入の学習問題について検討する。 良い介入は報酬を最大化する介入を指す。 具体的には、介入が一様でないコストを伴うような、予め規定された予算制約の設定を検討する。 この問題を,確率的多腕バンディットに対する期待報酬の最大化として定式化できることを示す。 一般因果グラフにおける累積後悔を最小限に抑えるアルゴリズムを提案する。 このアルゴリズムは、最適報酬を達成するための費用に基づいて、観察と介入をトレードオフする。 このアルゴリズムは、不均一なコストと隠れた共同創設者を因果グラフで許容することで、最先端の手法を一般化する。 さらに,非一様コストと汎用因果グラフを用いて,予算設定における単純な後悔を最小限に抑えるアルゴリズムを開発した。 我々は,上界と下界の両方を含む理論的保証と,アルゴリズムの実証的評価を提供する。 実験の結果、私たちのアルゴリズムは芸術の状態を上回ります。

We study the problem of learning 'good' interventions in a stochastic environment modeled by its underlying causal graph. Good interventions refer to interventions that maximize rewards. Specifically, we consider the setting of a pre-specified budget constraint, where interventions can have non-uniform costs. We show that this problem can be formulated as maximizing the expected reward for a stochastic multi-armed bandit with side information. We propose an algorithm to minimize the cumulative regret in general causal graphs. This algorithm trades off observations and interventions based on their costs to achieve the optimal reward. This algorithm generalizes the state-of-the-art methods by allowing non-uniform costs and hidden confounders in the causal graph. Furthermore, we develop an algorithm to minimize the simple regret in the budgeted setting with non-uniform costs and also general causal graphs. We provide theoretical guarantees, including both upper and lower bounds, as well as empirical evaluations of our algorithms. Our empirical results showcase that our algorithms outperform the state of the art.
翻訳日:2024-01-17 17:20:17 公開日:2024-01-15
# ナレッジグラフ作成支援:自然言語による人間教師付きナレッジグラフ構築

Assisted Knowledge Graph Authoring: Human-Supervised Knowledge Graph Construction from Natural Language ( http://arxiv.org/abs/2401.07683v1 )

ライセンス: Link先を確認
Marcel Gohsen and Benno Stein(参考訳) ウィキデータのような百科事典の知識グラフは、数百万の知識ステートメントの広範なリポジトリをホストしている。 しかしながら、歴史、物理学、医学といった分野からのドメイン固有の知識は、これらのグラフにおいて著しく劣っている。 ドメイン固有の知識グラフはほとんど存在しないが(医学用のPubmedなど)、多くのドメインのための特別な検索アプリケーションを開発するには、知識グラフをゼロから構築する必要がある。 知識グラフ構築を容易にするために、ドメインの専門家が最も親しみやすい媒体である自然言語を通して知識グラフを作成することができるWebアプリケーション、Wakaを紹介した。

Encyclopedic knowledge graphs, such as Wikidata, host an extensive repository of millions of knowledge statements. However, domain-specific knowledge from fields such as history, physics, or medicine is significantly underrepresented in those graphs. Although few domain-specific knowledge graphs exist (e.g., Pubmed for medicine), developing specialized retrieval applications for many domains still requires constructing knowledge graphs from scratch. To facilitate knowledge graph construction, we introduce WAKA: a Web application that allows domain experts to create knowledge graphs through the medium with which they are most familiar: natural language.
翻訳日:2024-01-17 17:13:25 公開日:2024-01-15
# 小売決済における現金とカードの受容 : 動機と要因

Cash and Card Acceptance in Retail Payments: Motivations and Factors ( http://arxiv.org/abs/2401.07682v1 )

ライセンス: Link先を確認
Samuel Vandak, Geoffrey Goodell(参考訳) 小売業における支払い方法の展望は複雑で進化した分野である。 ベンダーは、幅広い選択肢からどの支払い方法を受け入れるかを決定するための適切な分析を行う動機がある。 この決定プロセスには、定性的かつ定量的な要素が多数含まれている。 以下の研究プロジェクトは、ベンダーが様々な視点からカードと現金を受入れていることを調査し、それぞれに障壁や好み、外的人口統計要因との相関など、新しい視点で選択した。 我々は、この場合、規制枠組みによって制限された低いインターチェンジ手数料が、商人によるカード支払いの受け入れを促進する上で重要な役割を果たすことを観察する。 インターチェンジ手数料に関する規制の制約は、商人にとって好都合なコスト構造を生み出し、カード支払いの導入を財政的に可能とした。 しかし、技術的準備や消費者の嗜好といったその他の要因も意思決定プロセスにおいて重要な役割を果たす可能性がある。 また、アグリゲートマーチャントサービスプロバイダ(msps)は、より競争力のある手数料率を提供し、特に小規模マーチャントや起業家にとって有益な支払い環境に積極的に影響を与えている。 しかし、アカウントフリーズや突然の終了といった関連するリスクは問題を引き起こし、透明性を欠くことが多い。 最後に, 人口構成変数と支払形態の受容との関係を定量的に分析した。 この分析は、英国における現在の支払い受け入れ状況と、2021年の最新の国勢調査のデータを組み合わせたものだ。 失業率はカードとキャッシュの受け入れに影響を与え、年齢は接触なしの嗜好に影響を与え、在宅勤務はクレジットカードの嗜好に影響を及ぼす。

The landscape of payment methods in retail is a complex and evolving area. Vendors are motivated to conduct an appropriate analysis to decide what payment methods to accept out of a vast range of options. Many factors are included in this decision process, some qualitative and some quantitative. The following research project investigates vendors' acceptance of cards and cash from various viewpoints, all chosen to represent a novel perspective, including the barriers and preferences for each and correlations with external demographic factors. We observe that lower interchange fees, limited in this instance by the regulatory framework, play a crucial role in facilitating merchants' acceptance of card payments. The regulatory constraints on interchange fees create a favorable cost structure for merchants, making card payment adoption financially feasible. However, additional factors like technological readiness and consumer preferences might also play a significant role in their decision-making process. We also note that aggregate Merchant Service Providers (MSPs) have positively impacted the payment landscape by offering more competitive fee rates, particularly beneficial for small merchants and entrepreneurs. However, associated risks, such as account freezes or abrupt terminations, pose challenges and often lack transparency. Last, the quantitative analysis of the relationship between demographic variables and acceptance of payment types is presented. This analysis combines the current landscape of payment acceptance in the UK with data from the most recent census from 2021. We show that the unemployment rates shape card and cash acceptance, age affects contactless preference, and work-from-home impacts credit card preference.
翻訳日:2024-01-17 17:13:14 公開日:2024-01-15
# コンポーネントベースシステムの構築による定量的情報フロー制御

Quantitative Information Flow Control by Construction for Component-Based Systems ( http://arxiv.org/abs/2401.07677v1 )

ライセンス: Link先を確認
Rasmus Carl R{\o}nneberg(参考訳) データ駆動の世界では、セキュアなソフトウェアアーキテクチャがますます重要になっている。 セキュリティが無視されると、機密情報が不正アクセスによって漏洩する可能性がある。 この問題を解決するために、ソフトウェアアーキテクトは複雑なシステムのセキュリティリスクを定量化するツールと方法が必要である。 本稿では,量的情報フロー仕様からセキュアなコンポーネントベースのシステムを構築するための構築的手法を創り出すための,その初期段階における博士研究について述べる。 本研究の目的は,ソフトウェアアーキテクトがセキュアなコンポーネントのリポジトリからセキュアなシステムを開発する方法を開発することである。 計画されたコントリビューションは、仕様からコンポーネントのセキュアな開発のためのリファインメントルールと、そのコンポーネントのセキュアな構成のための定型ルールである。

Secure software architecture is increasingly important in a data-driven world. When security is neglected sensitive information might leak through unauthorized access. To mitigate this software architects needs tools and methods to quantify security risks in complex systems. This paper presents doctoral research in its early stages concerned with creating constructive methods for building secure component-based systems from a quantitative information flow specification. This research aim at developing a method that allows software architects to develop secure systems from a repository of secure components. Planned contributions are refinement rules for secure development of components from a specification and well-formedness rules for secure composition of said components.
翻訳日:2024-01-17 17:12:48 公開日:2024-01-15
# CLSA-CIM: 計算メモリアーキテクチャのためのクロスレイヤスケジューリング手法

CLSA-CIM: A Cross-Layer Scheduling Approach for Computing-in-Memory Architectures ( http://arxiv.org/abs/2401.07671v1 )

ライセンス: Link先を確認
Rebecca Pelke, Jose Cubero-Cascante, Nils Bosbach, Felix Staudigl, Rainer Leupers, Jan Moritz Joseph(参考訳) 機械学習(ML)アクセラレーターの需要は急速に増加しており、抵抗ランダムアクセスメモリ(RRAM)ベースのタイル型コンピューティングインメモリ(CIM)アーキテクチャのような新しいコンピューティング概念が発展しつつある。 CIMはメモリユニット内での計算を可能にし、高速なデータ処理と消費電力削減を実現している。 効率的なコンパイラアルゴリズムは、タイル付きCIMアーキテクチャの可能性を活用するために不可欠である。 従来のMLコンパイラはCPU、GPU、フォン・ノイマンアーキテクチャのコード生成に重点を置いているが、CIMアーキテクチャをカバーするには適応が必要である。 CIMコアの利用が促進され、計算が高速化されるため、層間スケジューリングは有望なアプローチである。 同様の概念は以前の研究で暗黙的に使われているが、タイル付きCIMアーキテクチャの層間スケジューリングには明確で定量的なアルゴリズム定義がない。 このギャップを埋めるために,CIMアーキテクチャの階層間スケジューリングアルゴリズムであるCLSA-CIMを提案する。 CLSA-CIMを既存の重み付け戦略と統合し、最先端(SOTA)スケジューリングアルゴリズムと比較する。 CLSA-CIMは最大17.9倍の性能向上を実現し、SOTAと比較して総速度は29.2倍に向上した。

The demand for efficient machine learning (ML) accelerators is growing rapidly, driving the development of novel computing concepts such as resistive random access memory (RRAM)-based tiled computing-in-memory (CIM) architectures. CIM allows to compute within the memory unit, resulting in faster data processing and reduced power consumption. Efficient compiler algorithms are essential to exploit the potential of tiled CIM architectures. While conventional ML compilers focus on code generation for CPUs, GPUs, and other von Neumann architectures, adaptations are needed to cover CIM architectures. Cross-layer scheduling is a promising approach, as it enhances the utilization of CIM cores, thereby accelerating computations. Although similar concepts are implicitly used in previous work, there is a lack of clear and quantifiable algorithmic definitions for cross-layer scheduling for tiled CIM architectures. To close this gap, we present CLSA-CIM, a cross-layer scheduling algorithm for tiled CIM architectures. We integrate CLSA-CIM with existing weight-mapping strategies and compare performance against state-of-the-art (SOTA) scheduling algorithms. CLSA-CIM improves the utilization by up to 17.9 x , resulting in an overall speedup increase of up to 29.2 x compared to SOTA.
翻訳日:2024-01-17 17:12:39 公開日:2024-01-15
# FiGCLIP:繊細な注釈付きビデオによる細粒のCLIP適応

FiGCLIP: Fine-Grained CLIP Adaptation via Densely Annotated Videos ( http://arxiv.org/abs/2401.07669v1 )

ライセンス: Link先を確認
Darshan Singh S and Zeeshan Khan and Makarand Tapaswi(参考訳) 対照的な言語画像事前学習(CLIP)は、高度にセマンティックで一般化された表現を学習することで印象的な性能を示したが、近年の研究では、微粒な属性、行動、空間関係、状態、構成的推論を必要とする詳細など、構文的特性の根本的な欠点が明らかにされている。 この理由の1つは、自然のキャプションがシーンの視覚的な詳細をすべて捉えないことが多いためである。 これにより、不適切な視覚概念が間違った言葉に誤解される。 そして、プールされた画像とテキストの機能は、最終的には単語の袋として機能し、構文情報を失う。 この作業では、意味的特性を損なうことなく、CLIPのきめ細かい構文的能力を強化することは可能か? これは、高品質で包括的で比較的小さなデータセットにCLIPを効率的に適用することで実現可能であることを示す。 我々は、動詞とリッチセマンティックロールラベル(SRL)を付加した映像状況認識データセットVidSituの適応戦略を実証する。 SRLと動詞情報を用いてルールベースの詳細なキャプションを作成し、視覚的概念のほとんどを確実に捉える。 これらのアノテーションは、強い否定と階層的な損失と組み合わせることで、細部指向のセマンティックな理解を保ちながら、Fine-Grained CLIP (FiGCLIP)と呼ばれる強力な視覚表現を学ぶことができます。 基礎となるCLIPモデルに対して一貫した改善を達成し、細調整とゼロショット設定の5つの視覚言語タスクを評価した。

While contrastive language image pretraining (CLIP) have exhibited impressive performance by learning highly semantic and generalized representations, recent works have exposed a fundamental drawback in its syntactic properties, that includes interpreting fine-grained attributes, actions, spatial relations, states, and details that require compositional reasoning. One reason for this is that natural captions often do not capture all the visual details of a scene. This leads to unaddressed visual concepts being misattributed to the wrong words. And the pooled image and text features, ends up acting as a bag of words, hence losing the syntactic information. In this work, we ask: Is it possible to enhance CLIP's fine-grained and syntactic abilities without compromising its semantic properties? We show that this is possible by adapting CLIP efficiently on a high-quality, comprehensive, and relatively small dataset. We demonstrate our adaptation strategy on VidSitu, a video situation recognition dataset annotated with verbs and rich semantic role labels (SRL). We use the SRL and verb information to create rule-based detailed captions, making sure they capture most of the visual concepts. Combined with hard negatives and hierarchical losses, these annotations allow us to learn a powerful visual representation, dubbed Fine-Grained CLIP (FiGCLIP), that preserves semantic understanding while being detail-oriented. We evaluate on five diverse vision-language tasks in both fine-tuning and zero-shot settings, achieving consistent improvements over the base CLIP model.
翻訳日:2024-01-17 17:12:18 公開日:2024-01-15
# Selene: ソフトウェア検証における自動証明のパイオニア化

Selene: Pioneering Automated Proof in Software Verification ( http://arxiv.org/abs/2401.07663v1 )

ライセンス: Link先を確認
Lichen Zhang, Shuai Lu, Nan Duan(参考訳) 正確性を保証することは、ソフトウェアエンジニアリングの重要な側面である。 利用可能なさまざまな戦略の中で、ソフトウェア検証は正確性を保証する。 それでも、検証証明を書くことはリソース集約的で人的消費であり、このプロセスを自動化する必要がある。 本稿では,SeL4オペレーティングシステムマイクロカーネルの実際の産業レベルプロジェクトに基づいて構築された,プロジェクトレベルの自動検証ベンチマークであるSeleneを紹介する。 Seleneはエンドツーエンド評価のための包括的なフレームワークと軽量な検証環境を提供する。 GPT-3.5-turbo や GPT-4 のような先進的な LLM による実験結果は,自動証明生成領域における大規模言語モデル (LLM) の機能を強調した。 さらに,セレンによる課題が今後の研究で緩和される可能性が示唆された。

Ensuring correctness is a pivotal aspect of software engineering. Among the various strategies available, software verification offers a definitive assurance of correctness. Nevertheless, writing verification proofs is resource-intensive and manpower-consuming, and there is a great need to automate this process. We introduce Selene in this paper, which is the first project-level automated proof benchmark constructed based on the real-world industrial-level project of the seL4 operating system microkernel. Selene provides a comprehensive framework for end-to-end evaluation and a lightweight verification environment. Our experimental results with advanced LLMs, such as GPT-3.5-turbo and GPT-4, highlight the capabilities of large language models (LLMs) in the domain of automated proof generation. Additionally, our further proposed augmentations indicate that the challenges presented by Selene can be mitigated in future research endeavors.
翻訳日:2024-01-17 17:11:48 公開日:2024-01-15
# 量子宇宙論の最終状態:量子後選択効果としての宇宙加速

Final States in Quantum Cosmology: Cosmic Acceleration as a Quantum Post-Selection Effect ( http://arxiv.org/abs/2401.07662v1 )

ライセンス: Link先を確認
Charis Anastopoulos(参考訳) 標準量子論では、自然統計アンサンブルは前選択と後選択の両方であり、初期状態と最終状態の両方を含む。 我々は、宇宙論レベルでの最終的な量子状態による確率割り当てを阻止する説得力のある物理的理由は存在しないと論じる。 したがって、量子宇宙論の確率代入における最終状態の影響を解析する。 古典的極限で生じる効果的な決定論的方程式は、古典的運動方程式の解とは大きく異なる可能性がある。 特に、初期条件と最終条件の両方を持つフリードマン・ロバートソン・ウォーカー宇宙論の有効な方程式は、宇宙定数、ダークエネルギー、あるいは修正された重力力学がない場合の宇宙の加速を記述する。 したがって、宇宙加速は量子後選択効果として現れる。

Standard quantum theory admits naturally statistical ensembles that are both pre-selected and post-selected, i.e., they involve both an initial and a final state. We argue that there is no compelling physical reason to preclude a probability assignment with a final quantum state at the cosmological level. We therefore analyze the implications of a final state in the probability assignment for quantum cosmology. We show that the effective deterministic equations that arise at the classical limit may be very different from the solutions to the classical equations of motion. In particular, effective equations for a Friedman-Robertson-Walker cosmology with both initial and final conditions generically describe cosmic acceleration in the absence of a cosmological constant, dark energy, or modified gravitational dynamics. Therefore, cosmic acceleration emerges as a quantum post-selection effect.
翻訳日:2024-01-17 17:11:38 公開日:2024-01-15
# LLMの薬物分子構造におけるフラグメントレベル理解の実証的証拠

Empirical Evidence for the Fragment level Understanding on Drug Molecular Structure of LLMs ( http://arxiv.org/abs/2401.07657v1 )

ライセンス: Link先を確認
Xiuyuan Hu, Guoqing Liu, Yang Zhao, Hao Zhang(参考訳) 近年、薬物発見のためのAIは研究のホットスポットとなり、SMILESベースの言語モデルは、薬物分子設計にますます応用されている。 しかし、言語モデルが1次元配列から化学空間構造をどう理解するかについては研究されていない。 本研究では, 化学言語上でのトランスフォーマーモデルを事前学習し, 薬物設計目的に向けて微調整し, 高周波SMILESサブストリングと分子フラグメントの対応について検討する。 その結果, 言語モデルは分子断片の観点から化学構造を理解でき, 微調整によって得られた構造知識は, モデルが生成する高周波スマイル部分弦に反映されることがわかった。

AI for drug discovery has been a research hotspot in recent years, and SMILES-based language models has been increasingly applied in drug molecular design. However, no work has explored whether and how language models understand the chemical spatial structure from 1D sequences. In this work, we pre-train a transformer model on chemical language and fine-tune it toward drug design objectives, and investigate the correspondence between high-frequency SMILES substrings and molecular fragments. The results indicate that language models can understand chemical structures from the perspective of molecular fragments, and the structural knowledge learned through fine-tuning is reflected in the high-frequency SMILES substrings generated by the model.
翻訳日:2024-01-17 17:11:23 公開日:2024-01-15
# pomdp戦略の説明可能で優れた実行表現の学習

Learning Explainable and Better Performing Representations of POMDP Strategies ( http://arxiv.org/abs/2401.07656v1 )

ライセンス: Link先を確認
Alexander Bork, Debraj Chakraborty, Kush Grover, Jan Kretinsky, Stefanie Mohr(参考訳) 部分観測可能なマルコフ決定プロセス(pomdp)の戦略は通常メモリを必要とする。 このメモリを表現する方法のひとつにautomaticaがある。 本稿では,l*-algorithmを用いて戦略のオートマトン表現を学ぶ手法を提案する。 戦略の表表現と比較すると、結果として生じるオートマトンは劇的に小さくなり、説明もしやすい。 さらに、学習過程において、我々のヒューリスティックスは戦略のパフォーマンスも改善する可能性がある。 オートマトンをPOMDPから直接合成して解決するアプローチとは対照的に,我々のアプローチは比較にならないほどスケーラブルである。

Strategies for partially observable Markov decision processes (POMDP) typically require memory. One way to represent this memory is via automata. We present a method to learn an automaton representation of a strategy using the L*-algorithm. Compared to the tabular representation of a strategy, the resulting automaton is dramatically smaller and thus also more explainable. Moreover, in the learning process, our heuristics may even improve the strategy's performance. In contrast to approaches that synthesize an automaton directly from the POMDP thereby solving it, our approach is incomparably more scalable.
翻訳日:2024-01-17 17:11:08 公開日:2024-01-15
# MLAD:マルチシステムログ異常検出のための統一モデル

MLAD: A Unified Model for Multi-system Log Anomaly Detection ( http://arxiv.org/abs/2401.07655v1 )

ライセンス: Link先を確認
Runqiang Zang, Hongcheng Guo, Jian Yang, Jiaheng Liu, Zhoujun Li, Tieqiao Zheng, Xu Shi, Liangfan Zheng, Bo Zhang(参考訳) 教師なしログ検出技術の急速な進歩にもかかわらず、現在の主流モデルでは、個々のシステムデータセットに対する特定のトレーニングが必要であり、結果としてコストのかかる手順とデータセットのサイズによるスケーラビリティが制限され、パフォーマンスボトルネックが発生している。 さらに、多くのモデルは認知的推論能力に欠けており、効果的な異常検出のための類似システムへの直接転送可能性の課題を提起している。 さらに、レコンストラクションネットワークと同様に、これらのモデルは多くの場合、レコンストラクションエラーによってまれな異常ログに直面する場合、システムログの大部分を正常に分類し、通常クラスを誤って予測する「特定ショートカット」の前提に遭遇する。 上記の問題に対処するため,複数のシステムにまたがる意味的関係推論を組み込んだ新しい異常検出モデルMLADを提案する。 具体的には、Sentence-bertを用いてログシーケンス間の類似性を捉え、それらを高次元の学習可能な意味ベクトルに変換する。 その後、各キーワードの配列における意義を識別し、適切なベクトル空間拡散によるマルチシステムデータセット全体の分布をモデル化するために、注意層の公式を改訂する。 最後に,擬似ショートカット問題に関連する稀な単語の不確実性を強調するためにガウス混合モデルを用い,最大予測モデルを用いてサンプルのベクトル空間を最適化する。 3つの実世界のデータセットの実験は、MLADの優位性を示している。

In spite of the rapid advancements in unsupervised log anomaly detection techniques, the current mainstream models still necessitate specific training for individual system datasets, resulting in costly procedures and limited scalability due to dataset size, thereby leading to performance bottlenecks. Furthermore, numerous models lack cognitive reasoning capabilities, posing challenges in direct transferability to similar systems for effective anomaly detection. Additionally, akin to reconstruction networks, these models often encounter the "identical shortcut" predicament, wherein the majority of system logs are classified as normal, erroneously predicting normal classes when confronted with rare anomaly logs due to reconstruction errors. To address the aforementioned issues, we propose MLAD, a novel anomaly detection model that incorporates semantic relational reasoning across multiple systems. Specifically, we employ Sentence-bert to capture the similarities between log sequences and convert them into highly-dimensional learnable semantic vectors. Subsequently, we revamp the formulas of the Attention layer to discern the significance of each keyword in the sequence and model the overall distribution of the multi-system dataset through appropriate vector space diffusion. Lastly, we employ a Gaussian mixture model to highlight the uncertainty of rare words pertaining to the "identical shortcut" problem, optimizing the vector space of the samples using the maximum expectation model. Experiments on three real-world datasets demonstrate the superiority of MLAD.
翻訳日:2024-01-17 17:11:00 公開日:2024-01-15
# 医用画像セグメンテーションの基礎モデル:調査

Foundation Models for Biomedical Image Segmentation: A Survey ( http://arxiv.org/abs/2401.07654v1 )

ライセンス: Link先を確認
Ho Hin Lee, Yu Gu, Theodore Zhao, Yanbo Xu, Jianwei Yang, Naoto Usuyama, Cliff Wong, Mu Wei, Bennett A. Landman, Yuankai Huo, Alberto Santamaria-Pang, Hoifung Poon(参考訳) バイオメディカル画像解析の最近の進歩は、Segment Anything Model (SAM) によって著しく推進されている。 この変換技術は、もともと汎用コンピュータビジョンのために開発されたもので、医療画像処理に急速に応用されている。 昨年、100以上の出版物によって特徴づけられたSAMは、医療画像のためのゼロショット学習適応の進歩を実証した。 SAMの基本的な前提は、オブジェクトのタイプや画像のモダリティを事前に知ることなく、画像内のオブジェクトを分割または識別する能力にある。 このアプローチは人間の視覚システムによって達成可能なタスクとよく一致しているが、非生物学的視覚コンテキストにおけるその適用は理論上は困難である。 SAMの特筆すべき特徴は、セグメンテーションを特定の解像度尺度や関心領域に応じて調整できることである。 この適応性はSAMを医療画像に適用する創造性と革新の波を刺激した。 本稿では2023年4月1日から2023年9月30日までの期間について概説する。 本稿では,長年にわたる臨床上の課題に対処するのに必要なSAMの適応と統合について,特に分析対象となる33のオープンデータセットの文脈で検討する。 SAMは多くの用途で最先端のパフォーマンスに近づいているが、頸動脈の分節、副腎、視神経、下顎骨などの特定の領域では不足している。 本調査では,SAMの基礎的アプローチが,様々な医療画像のシナリオにおいて,これらのモデルを効果的に翻訳・適用する上でのコアコンセプトを抜粋し,探求する革新的な手法について考察した。

Recent advancements in biomedical image analysis have been significantly driven by the Segment Anything Model (SAM). This transformative technology, originally developed for general-purpose computer vision, has found rapid application in medical image processing. Within the last year, marked by over 100 publications, SAM has demonstrated its prowess in zero-shot learning adaptations for medical imaging. The fundamental premise of SAM lies in its capability to segment or identify objects in images without prior knowledge of the object type or imaging modality. This approach aligns well with tasks achievable by the human visual system, though its application in non-biological vision contexts remains more theoretically challenging. A notable feature of SAM is its ability to adjust segmentation according to a specified resolution scale or area of interest, akin to semantic priming. This adaptability has spurred a wave of creativity and innovation in applying SAM to medical imaging. Our review focuses on the period from April 1, 2023, to September 30, 2023, a critical first six months post-initial publication. We examine the adaptations and integrations of SAM necessary to address longstanding clinical challenges, particularly in the context of 33 open datasets covered in our analysis. While SAM approaches or achieves state-of-the-art performance in numerous applications, it falls short in certain areas, such as segmentation of the carotid artery, adrenal glands, optic nerve, and mandible bone. Our survey delves into the innovative techniques where SAM's foundational approach excels and explores the core concepts in translating and applying these models effectively in diverse medical imaging scenarios.
翻訳日:2024-01-17 17:10:36 公開日:2024-01-15
# マルチフラクタルスペクトル特徴は異常拡散の分類を促進する

Multifractal-spectral features enhance classification of anomalous diffusion ( http://arxiv.org/abs/2401.07646v1 )

ライセンス: Link先を確認
Henrik Seckler, Ralf Metzler, Damian G. Kelty-Stephen, Madhur Mangalam(参考訳) 異常拡散過程は分類とキャラクタリゼーションにおいてユニークな課題となる。 従来 (Mangalam et al., 2023, Physical Review Research 5, 023144) では, マルチフラクタル形式を用いて異常拡散を理解するための枠組みを構築した。 本研究は, ブラウン運動, スケールドブラウン運動, 連続時間ランダムウォーク, アニールド過渡時間運動, l\'evyウォークの5つのモデルから異常拡散軌跡を効果的に識別するためのマルチフラクタルスペクトル特徴の可能性を考察した。 これを実現するために,これら5つの異常拡散モデルから10^6$軌道を含む広範なデータセットを生成し,各軌道から複数の多重フラクタルスペクトルを抽出する。 我々は,様々なスペクトルから得られる特徴を網羅して,ニューラルネットワークの性能を徹底的に分析する。 さらに,従来の特徴データセットへのマルチフラクタルスペクトルの統合を検討し,その影響を総合的に評価する。 統計的に有意義な比較を行うため、特徴を概念グループに分類し、指定された各グループの特徴を用いてニューラルネットワークを訓練する。 特に,いくつかの特徴群が類似の精度を示し,移動ウィンドウ特性と$p$-variation特性を利用した群で最も高い性能を示した。 マルチフラクタルスペクトルの特徴、特に異なる時間スケールとカットオフを含む3つのスペクトルから派生した特徴は、その頑健な識別可能性を強調している。 驚くべきことに、単一のマルチフラクタルスペクトルから機能のみをトレーニングしたニューラルネットワークは、他の特徴群を上回っている。 異常拡散の分類の高度化におけるマルチフラクタルスペクトルの特徴の多様性と有効性について検討した。

Anomalous diffusion processes pose a unique challenge in classification and characterization. Previously (Mangalam et al., 2023, Physical Review Research 5, 023144), we established a framework for understanding anomalous diffusion using multifractal formalism. The present study delves into the potential of multifractal spectral features for effectively distinguishing anomalous diffusion trajectories from five widely used models: fractional Brownian motion, scaled Brownian motion, continuous time random walk, annealed transient time motion, and L\'evy walk. To accomplish this, we generate extensive datasets comprising $10^6$ trajectories from these five anomalous diffusion models and extract multiple multifractal spectra from each trajectory. Our investigation entails a thorough analysis of neural network performance, encompassing features derived from varying numbers of spectra. Furthermore, we explore the integration of multifractal spectra into traditional feature datasets, enabling us to assess their impact comprehensively. To ensure a statistically meaningful comparison, we categorize features into concept groups and train neural networks using features from each designated group. Notably, several feature groups demonstrate similar levels of accuracy, with the highest performance observed in groups utilizing moving-window characteristics and $p$-variation features. Multifractal spectral features, particularly those derived from three spectra involving different timescales and cutoffs, closely follow, highlighting their robust discriminatory potential. Remarkably, a neural network exclusively trained on features from a single multifractal spectrum exhibits commendable performance, surpassing other feature groups. Our findings underscore the diverse and potent efficacy of multifractal spectral features in enhancing classification of anomalous diffusion.
翻訳日:2024-01-17 17:10:09 公開日:2024-01-15
# SwinTextSpotter v2: シーンテキストスポッティングのシナジー向上を目指す

SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting ( http://arxiv.org/abs/2401.07641v1 )

ライセンス: Link先を確認
Mingxin Huang and Dezhi Peng and Hongliang Li and Zhenghao Peng and Chongyu Liu and Dahua Lin and Yuliang Liu and Xiang Bai and Lianwen Jin(参考訳) 近年,自然画像でテキストを読むことを目的としたエンド・ツー・エンドのシーンテキストスポッティングが注目されている。 しかし、最近の最先端の手法では、バックボーンを共有するだけで検出と認識を組み込むのが一般的である。 本稿では,swaintextspotter v2と呼ばれる,テキスト検出と認識の相乗効果向上を目的とした,エンド・ツー・エンドのテキストスポッティングフレームワークを提案する。 具体的には、新しい認識変換と認識アライメントモジュールを用いた2つのタスク間の関係を強化する。 認識変換は認識損失を通じてテキストのローカライゼーションを明示的にガイドし、認識アライメントは検出予測を通じて認識のためのテキストの特徴を動的に抽出する。 このシンプルで効果的な設計は、任意の形のテキストに対して追加の修正モジュールや文字レベルのアノテーションを必要としない簡潔なフレームワークをもたらす。 さらに、ボックス選択スケジュールを導入することにより、性能劣化を伴わずに検出器のパラメータを大幅に低減する。 SwinTextSpotter v2は、様々な多言語(英語、中国語、ベトナム語)ベンチマークで最先端のパフォーマンスを達成した。 コードは \href{https://github.com/mxin262/SwinTextSpotterv2}{SwinTextSpotter v2} で入手できる。

End-to-end scene text spotting, which aims to read the text in natural images, has garnered significant attention in recent years. However, recent state-of-the-art methods usually incorporate detection and recognition simply by sharing the backbone, which does not directly take advantage of the feature interaction between the two tasks. In this paper, we propose a new end-to-end scene text spotting framework termed SwinTextSpotter v2, which seeks to find a better synergy between text detection and recognition. Specifically, we enhance the relationship between two tasks using novel Recognition Conversion and Recognition Alignment modules. Recognition Conversion explicitly guides text localization through recognition loss, while Recognition Alignment dynamically extracts text features for recognition through the detection predictions. This simple yet effective design results in a concise framework that requires neither an additional rectification module nor character-level annotations for the arbitrarily-shaped text. Furthermore, the parameters of the detector are greatly reduced without performance degradation by introducing a Box Selection Schedule. Qualitative and quantitative experiments demonstrate that SwinTextSpotter v2 achieved state-of-the-art performance on various multilingual (English, Chinese, and Vietnamese) benchmarks. The code will be available at \href{https://github.com/mxin262/SwinTextSpotterv2}{SwinTextSpotter v2}.
翻訳日:2024-01-17 17:09:39 公開日:2024-01-15
# 能動学習のコンピュータ化

Compute-Efficient Active Learning ( http://arxiv.org/abs/2401.07639v1 )

ライセンス: Link先を確認
G\'abor N\'emeth, Tam\'as Matuszka(参考訳) 機械学習の強力なパラダイムであるactive learningは、ラベル付きデータセットから最も有用なサンプルを選択することで、ラベリングコストを削減することを目指している。 しかし、従来のアクティブな学習プロセスは、拡張性と効率を阻害する広範な計算資源を必要とすることが多い。 本稿では,大規模データセット上での能動的学習に伴う計算負担を軽減するための新しい手法を提案することにより,この問題に対処する。 この目的を達成するために,データポイントを戦略的に選択しアノテートする方法を概説する,シンプルかつ効果的なメソッド非依存フレームワークを提案する。 ケーススタディを通じて,提案手法の有効性を実証し,基本的なモデル結果を超えながら計算コストを削減できることを示した。 コードはhttps://github.com/aimotive/Compute-Efficient-Active-Learningで入手できる。

Active learning, a powerful paradigm in machine learning, aims at reducing labeling costs by selecting the most informative samples from an unlabeled dataset. However, the traditional active learning process often demands extensive computational resources, hindering scalability and efficiency. In this paper, we address this critical issue by presenting a novel method designed to alleviate the computational burden associated with active learning on massive datasets. To achieve this goal, we introduce a simple, yet effective method-agnostic framework that outlines how to strategically choose and annotate data points, optimizing the process for efficiency while maintaining model performance. Through case studies, we demonstrate the effectiveness of our proposed method in reducing computational costs while maintaining or, in some cases, even surpassing baseline model outcomes. Code is available at https://github.com/aimotive/Compute-Efficient-Active-Learning.
翻訳日:2024-01-17 17:09:18 公開日:2024-01-15
# 非相対論的量子力学における時間-エネルギーの不確かさ関係

Time-energy uncertainty relation in nonrelativistic quantum mechanics ( http://arxiv.org/abs/2401.07634v1 )

ライセンス: Link先を確認
Danko D. Georgiev(参考訳) 非相対論的量子力学における時間-エネルギーの不確実性関係は、その形式的導出、妥当性、物理的意味に関して激しく議論されてきた。 本稿では,mandelstam と tamm と margolus と levitin が提案した2つの形式的関係を解析し,外部磁場内の単一量子ビットからなる最小量子玩具モデルを用いてその妥当性を評価する。 エネルギーコヒーレンスについての $\ell_1$ ノルム $\mathcal{c}$ は、量子状態のユニタリ進化に関して不変であることを示す。 したがって、初期量子状態のエネルギーコヒーレンス$\mathcal{C}$の$\ell_1$のノルムは、量子可観測体の時間変化能力の分類や、量子状態が直交状態に進化する能力の分類に有用である。 単一量子ビットの玩具モデルでは、エネルギーコヒーレンス(英語版)のノルム$\ell_1$の量子状態に対して、マンデルスタム・タムとマルゴラス・レヴィタンの関係は、物理的意味を持たない無限の「時間不確実性」のインスタンスを生成する。 エネルギーコヒーレンスの最大値$\ell_1$ノルムを持つ量子状態、$\mathcal{c}=1$、マンデルスタム・タムとマーゴラス・レヴィティンの関係は無限の「時間の不確実性」を避けるが、どちらもエネルギーと周波数の間のアインシュタイン-プランク関係を表す厳密な等式に還元される。 提案した結果は、Schr\"{o}dinger 方程式の時間は量子ハミルトニアンと可換であり、統計的分散には属さないスカラー変数であるという事実を解明する。

The time-energy uncertainty relation in nonrelativistic quantum mechanics has been intensely debated with regard to its formal derivation, validity, and physical meaning. Here, we analyze two formal relations proposed by Mandelstam and Tamm and by Margolus and Levitin and evaluate their validity using a minimal quantum toy model composed of a single qubit inside an external magnetic field. We show that the $\ell_1$ norm of energy coherence $\mathcal{C}$ is invariant with respect to the unitary evolution of the quantum state. Thus, the $\ell_1$ norm of energy coherence $\mathcal{C}$ of an initial quantum state is useful for the classification of the ability of quantum observables to change in time or the ability of the quantum state to evolve into an orthogonal state. In the single-qubit toy model, for quantum states with the submaximal $\ell_1$ norm of energy coherence, $\mathcal{C}<1$, the Mandelstam-Tamm and Margolus-Levitin relations generate instances of infinite "time uncertainty" that is devoid of physical meaning. Only for quantum states with the maximal $\ell_1$ norm of energy coherence, $\mathcal{C}=1$, the Mandelstam-Tamm and Margolus-Levitin relations avoid infinite "time uncertainty", but they both reduce to a strict equality that expresses the Einstein-Planck relation between energy and frequency. The presented results elucidate the fact that the time in the Schr\"{o}dinger equation is a scalar variable that commutes with the quantum Hamiltonian and is not subject to statistical variance.
翻訳日:2024-01-17 17:09:03 公開日:2024-01-15
# HexaGen3D:StableDiffusionは高速テキストから3D生成までわずか1歩

HexaGen3D: StableDiffusion is just one step away from Fast and Diverse Text-to-3D Generation ( http://arxiv.org/abs/2401.07727v1 )

ライセンス: Link先を確認
Antoine Mercier, Ramin Nakhli, Mahesh Reddy, Rajeev Yasarla, Hong Cai, Fatih Porikli, Guillaume Berger(参考訳) 生成モデリングにおける最新の顕著な進歩にもかかわらず、テキストプロンプトから高品質な3Dアセットを効率よく生成することは難しい課題である。 最も広範な3Dデータセットには数百万の資産が含まれており、2Dデータセットには数十億のテキストイメージペアが含まれている。 そこで本研究では,大規模な2次元拡散モデルのパワーを利用する新しい手法を提案する。 より具体的には、我々のアプローチであるヘキサゲン3dは、6つの正規射影と対応する潜在三平面を共同で予測するために、事前訓練されたテキストから画像へのモデルを微調整します。 次にこれらのラテントをデコードして、テクスチャ化されたメッシュを生成します。 HexaGen3Dはサンプルごとの最適化を必要としないため、7秒でテキストプロンプトから高品質で多様なオブジェクトを推測することができる。 さらに、HexaGen3Dは新しいオブジェクトや合成に強い一般化を示す。

Despite the latest remarkable advances in generative modeling, efficient generation of high-quality 3D assets from textual prompts remains a difficult task. A key challenge lies in data scarcity: the most extensive 3D datasets encompass merely millions of assets, while their 2D counterparts contain billions of text-image pairs. To address this, we propose a novel approach which harnesses the power of large, pretrained 2D diffusion models. More specifically, our approach, HexaGen3D, fine-tunes a pretrained text-to-image model to jointly predict 6 orthographic projections and the corresponding latent triplane. We then decode these latents to generate a textured mesh. HexaGen3D does not require per-sample optimization, and can infer high-quality and diverse objects from textual prompts in 7 seconds, offering significantly better quality-to-latency trade-offs when comparing to existing approaches. Furthermore, HexaGen3D demonstrates strong generalization to new objects or compositions.
翻訳日:2024-01-17 17:03:30 公開日:2024-01-15
# 多目的住宅エネルギー管理における実演から選好を推測する

Inferring Preferences from Demonstrations in Multi-Objective Residential Energy Management ( http://arxiv.org/abs/2401.07722v1 )

ライセンス: Link先を確認
Junlin Lu, Patrick Mannion, Karl Mason(参考訳) 多目的意思決定問題において、ユーザが自分の好みを正確に表現することはしばしば困難である。 DemoPI(Demonstration-based preference inference)はこの問題を緩和する有望なアプローチである。 エネルギー顧客の行動と価値を理解することは、例えばコストや快適さなど、複数の目的を持つエネルギー顧客の価値についての洞察を得るために、選好推論を使用するシナリオの例である。 本研究では,多目的住宅エネルギー消費設定における動的重みに基づく選好推定(DWPI)アルゴリズムを,ルールベースアプローチによるシミュレーションユーザによるエネルギー消費実証から選好を推測するために,最先端のDemoPI手法を適用した。 実験結果によると,dwpiモデルは3つのシナリオで正確な実演に基づく選好を実現する。 これらの進歩は、エネルギー管理における多目的強化学習(MORL)の有用性と有効性を高め、より直感的でユーザフレンドリな嗜好仕様を可能にし、DWPIを現実世界の環境に適用するための扉を開く。

It is often challenging for a user to articulate their preferences accurately in multi-objective decision-making problems. Demonstration-based preference inference (DemoPI) is a promising approach to mitigate this problem. Understanding the behaviours and values of energy customers is an example of a scenario where preference inference can be used to gain insights into the values of energy customers with multiple objectives, e.g. cost and comfort. In this work, we applied the state-of-art DemoPI method, i.e., the dynamic weight-based preference inference (DWPI) algorithm in a multi-objective residential energy consumption setting to infer preferences from energy consumption demonstrations by simulated users following a rule-based approach. According to our experimental results, the DWPI model achieves accurate demonstration-based preference inferring in three scenarios. These advancements enhance the usability and effectiveness of multi-objective reinforcement learning (MORL) in energy management, enabling more intuitive and user-friendly preference specifications, and opening the door for DWPI to be applied in real-world settings.
翻訳日:2024-01-17 17:03:15 公開日:2024-01-15
# グラフマスク付きモデリングによるアーキテクチャレイアウト生成のためのグラフトランスGAN

Graph Transformer GANs with Graph Masked Modeling for Architectural Layout Generation ( http://arxiv.org/abs/2401.07721v1 )

ライセンス: Link先を確認
Hao Tang, Ling Shao, Nicu Sebe, Luc Van Gool(参考訳) 本稿では,GTGAN(Graph Transformer Generative Adversarial Network)を提案する。 提案するグラフトランスフォーマベースの生成器は、グラフ畳み込みと自己結合を組み合わせた新しいグラフトランスフォーマエンコーダを含み、接続されたグラフノードと非接続グラフノード間の局所的および大域的な相互作用をモデル化する。 具体的には,nna(connected node attention)とnna(non-connected node attention)は,それぞれ入力グラフ内の接続ノードと非接続ノード間のグローバル関係を捉えることを目的としている。 提案するグラフモデリングブロック(GMB)は,住宅レイアウトトポロジに基づく局所頂点相互作用の活用を目的としている。 さらに,異なる住宅部品に対する高レベルな意味的特徴と識別的特徴を保持するノード分類に基づく識別器を提案する。 基底真理と予測グラフの相対的空間的関係を維持するために,新しいグラフベースのサイクルコンシステンシー損失を提案する。 最後に,グラフ表現学習のための自己指導型事前学習手法を提案する。 このアプローチでは、マスキング比(40%)でノードとエッジを同時にマスキングし、非対称グラフ中心のオートエンコーダアーキテクチャを用いてそれらの再構成を行う。 この方法はモデルの習熟度と習熟度を大幅に向上させる。 3つのパブリックデータセットを用いた3つの難解な設計レイアウト生成タスク(すなわち、住宅レイアウト生成、住宅屋根生成、建物レイアウト生成)の実験は、客観的な定量的スコアと主観的視覚リアリズムの観点から提案手法の有効性を示している。 新しい最先端の成果は、これら3つのタスクにおいて大きなマージンによって確立される。

We present a novel graph Transformer generative adversarial network (GTGAN) to learn effective graph node relations in an end-to-end fashion for challenging graph-constrained architectural layout generation tasks. The proposed graph-Transformer-based generator includes a novel graph Transformer encoder that combines graph convolutions and self-attentions in a Transformer to model both local and global interactions across connected and non-connected graph nodes. Specifically, the proposed connected node attention (CNA) and non-connected node attention (NNA) aim to capture the global relations across connected nodes and non-connected nodes in the input graph, respectively. The proposed graph modeling block (GMB) aims to exploit local vertex interactions based on a house layout topology. Moreover, we propose a new node classification-based discriminator to preserve the high-level semantic and discriminative node features for different house components. To maintain the relative spatial relationships between ground truth and predicted graphs, we also propose a novel graph-based cycle-consistency loss. Finally, we propose a novel self-guided pre-training method for graph representation learning. This approach involves simultaneous masking of nodes and edges at an elevated mask ratio (i.e., 40%) and their subsequent reconstruction using an asymmetric graph-centric autoencoder architecture. This method markedly improves the model's learning proficiency and expediency. Experiments on three challenging graph-constrained architectural layout generation tasks (i.e., house layout generation, house roof generation, and building layout generation) with three public datasets demonstrate the effectiveness of the proposed method in terms of objective quantitative scores and subjective visual realism. New state-of-the-art results are established by large margins on these three tasks.
翻訳日:2024-01-17 17:02:58 公開日:2024-01-15
# ソーシャルメディアのビッグデータが自殺防止をいかに改善するか

How Social Media Big Data Can Improve Suicide Prevention ( http://arxiv.org/abs/2401.07718v1 )

ライセンス: Link先を確認
Anastasia Peshkovskaya and Yu-Tao Xiang(参考訳) 自傷や自殺のリスクにソーシャルメディアが与える影響の手がかりが増す中、誰が誰なのか、どのように自殺に関連するオンライン行動に実際に関わっているのかは、まだ証拠がない。 本研究は、世界最大規模のソーシャルネットワークサイトから収集した、公開アクセス可能なビッグデータの高性能スーパーコンピューティングに関する新たな知見を報告する。 3ヶ月のスーパーコンピュータ検索の結果、570,156人の若者がソーシャルメディア上で自殺関連情報を消費した。 多くは21~24歳であり, 女性の割合は58%であり, ほとんどが若年層であった。 8人全員が、最大15人の自殺関連オンライングループに激怒した。 ソーシャルメディア上の自殺集団は公衆衛生問題で過小評価されており、予防努力を弱める可能性がある。 ソーシャルメディア利用者をターゲットにした自殺防止戦略を広く実施する必要がある。 公衆精神保健における技術利用に関する機能的理解の大きなギャップは依然として残っているが、現在の知見は、翻訳の進歩に有効なデジタル技術をよりよく理解し、一般市民の自殺予防を改善するための証拠に基づく枠組みを提供するために有効である。

In the light of increasing clues on social media impact on self-harm and suicide risks, there is still no evidence on who are and how factually engaged in suicide-related online behaviors. This study reports new findings of high-performance supercomputing investigation of publicly accessible big data sourced from one of the world-largest social networking site. Three-month supercomputer searching resulted in 570,156 young adult users who consumed suicide-related information on social media. Most of them were 21-24 year olds with higher share of females (58%) of predominantly younger age. Every eight user was alarmingly engrossed with up to 15 suicide-related online groups. Evidently, suicide groups on social media are highly underrated public health issue that might weaken the prevention efforts. Suicide prevention strategies that target social media users must be implemented extensively. While major gap in functional understanding of technologies relevance for use in public mental health still exists, current findings act for better understanding digital technologies utility for translational advance and offer relevant evidence-based framework for improving suicide prevention in general population.
翻訳日:2024-01-17 17:02:26 公開日:2024-01-15
# 階層型量子畳み込みニューラルネットワークは、量子情報理論の基本特性を統一的に推定する手段を提供する

Layerwise Quantum Convolutional Neural Networks Provide a Unified Way for Estimating Fundamental Properties of Quantum Information Theory ( http://arxiv.org/abs/2401.07716v1 )

ライセンス: Link先を確認
Myeongjin Shin, Seungwoo Lee, Mingyu Lee, Donghwa Ji, Hyeonjun Yeo, Harrison J. Lee, Kabgyun Jeong(参考訳) von neumann entropy、r\'enyi entropy、tsallis entropy、quantum relative entropy、trace distance、fidelityなどの量子情報理論における基本的な性質の推定が注目されている。 個々の資産推定には様々なアルゴリズムが存在するが、統一的なアプローチは欠如している。 本稿では,階層型量子畳み込みニューラルネットワーク(lqcnn)を用いた統一手法を提案する。 大規模量子ビット状態におけるバレンプラトーや複雑性問題といった問題に直面した特性推定のためのパラメータ化量子回路の研究が最近行われている。 対照的に、我々の研究はこれらの課題を克服し、不毛の高原を避け、大きな量子ビット状態に対して実用的な解決策を提供する。 我々の最初の貢献は、LQCNN構造が基本的性質を保存するという数学的証明を提供する。 さらに,第2の貢献は,アルゴリズムの複雑さを分析し,構造的局所コスト関数による不毛高原の回避を示す。

The estimation of fundamental properties in quantum information theory, including von Neumann entropy, R\'enyi entropy, Tsallis entropy, quantum relative entropy, trace distance, and fidelity, has received significant attention. While various algorithms exist for individual property estimation, a unified approach is lacking. This paper proposes a unified methodology using Layerwise Quantum Convolutional Neural Networks (LQCNN). Recent studies exploring parameterized quantum circuits for property estimation face challenges such as barren plateaus and complexity issues in large qubit states. In contrast, our work overcomes these challenges, avoiding barren plateaus and providing a practical solution for large qubit states. Our first contribution offers a mathematical proof that the LQCNN structure preserves fundamental properties. Furthermore, our second contribution analyzes the algorithm's complexity, demonstrating its avoidance of barren plateaus through a structured local cost function.
翻訳日:2024-01-17 17:02:10 公開日:2024-01-15
# バイナリおよびカウントデータの効率的な非パラメトリックテンソル分解

Efficient Nonparametric Tensor Decomposition for Binary and Count Data ( http://arxiv.org/abs/2401.07711v1 )

ライセンス: Link先を確認
Zerui Tao, Toshihisa Tanaka, Qibin Zhao(参考訳) 多くの応用において、二元反応や事象カウントは観測され、高次テンソルに格納される。 テンソル分解(TD)は、そのような高次元でスパースなデータを扱う強力なツールである。 しかし、多くの伝統的なTDは、離散データには適さないガウス分布に基づいて明示的または暗黙的に設計されている。 さらに、ほとんどのTDはCPやTuckerフォーマットのような事前定義されたマルチ線形構造に依存している。 したがって、複雑な実世界のデータセットを扱うのに十分ではないかもしれない。 これらの問題に対処するために、二進テンソルとカウントテンソルのアンダーライン{e}fficient \underline{n}onparametric \underline{te}nsor \underline{d}ecompositionであるentedを提案する。 具体的には、従来の多線型構造を置き換えるために、まず非パラメトリックガウス過程(GP)を用いる。 次に,バイナリ分布とカウント分布の共役モデルを確立するための統一フレームワークである \pg 拡張を利用する。 最後に、GPの計算問題に対処するために、非パラメトリックモデルに対するより効果的な共分散近似と確率的自然勾配更新を提供する誘導点のスパース直交変動推定を組み込むことによりモデルを強化する。 我々は,バイナリとカウントデータセットを考慮した実世界のテンソル補完タスクでモデルを評価する。 その結果,提案モデルの性能と計算性能が両立した。

In numerous applications, binary reactions or event counts are observed and stored within high-order tensors. Tensor decompositions (TDs) serve as a powerful tool to handle such high-dimensional and sparse data. However, many traditional TDs are explicitly or implicitly designed based on the Gaussian distribution, which is unsuitable for discrete data. Moreover, most TDs rely on predefined multi-linear structures, such as CP and Tucker formats. Therefore, they may not be effective enough to handle complex real-world datasets. To address these issues, we propose ENTED, an \underline{E}fficient \underline{N}onparametric \underline{TE}nsor \underline{D}ecomposition for binary and count tensors. Specifically, we first employ a nonparametric Gaussian process (GP) to replace traditional multi-linear structures. Next, we utilize the \pg augmentation which provides a unified framework to establish conjugate models for binary and count distributions. Finally, to address the computational issue of GPs, we enhance the model by incorporating sparse orthogonal variational inference of inducing points, which offers a more effective covariance approximation within GPs and stochastic natural gradient updates for nonparametric models. We evaluate our model on several real-world tensor completion tasks, considering binary and count datasets. The results manifest both better performance and computational advantages of the proposed model.
翻訳日:2024-01-17 17:01:46 公開日:2024-01-15
# 住宅エネルギー管理のためのGo-Explore

Go-Explore for Residential Energy Management ( http://arxiv.org/abs/2401.07710v1 )

ライセンス: Link先を確認
Junlin Lu, Patrick Mannion, Karl Mason(参考訳) 強化学習は住宅エネルギー管理、特にエネルギーコストの最適化に一般的に適用される。 しかしながら、RLエージェントは、特に確率的な報酬で、エネルギー制御領域における欺きやまばらな報酬を扱う際に、しばしば困難に直面する。 このような状況では、最適な政策を学ぶために徹底的な探索が不可欠となる。 残念なことに、探索メカニズムは偽りの報酬信号によって誤解され、徹底的な探索が困難になる。 Go-Exploreは、効率的な探索を実現するための計画手法と強化学習手法を組み合わせたアルゴリズムのファミリーである。 住宅エネルギー管理におけるコスト削減の課題をgo-exploreアルゴリズムを用いて解決し,よく知られた強化学習アルゴリズムと比較して最大19.84\%の改善を実現する。

Reinforcement learning is commonly applied in residential energy management, particularly for optimizing energy costs. However, RL agents often face challenges when dealing with deceptive and sparse rewards in the energy control domain, especially with stochastic rewards. In such situations, thorough exploration becomes crucial for learning an optimal policy. Unfortunately, the exploration mechanism can be misled by deceptive reward signals, making thorough exploration difficult. Go-Explore is a family of algorithms which combines planning methods and reinforcement learning methods to achieve efficient exploration. We use the Go-Explore algorithm to solve the cost-saving task in residential energy management problems and achieve an improvement of up to 19.84\% compared to the well-known reinforcement learning algorithms.
翻訳日:2024-01-17 17:01:10 公開日:2024-01-15
# インスタントアテンションマスクを用いた効率的な拡散型画像編集

Towards Efficient Diffusion-Based Image Editing with Instant Attention Masks ( http://arxiv.org/abs/2401.07709v1 )

ライセンス: Link先を確認
Siyu Zou, Jiji Tang, Yiyi Zhou, Jing He, Chaoyi Zhao, Rongsheng Zhang, Zhipeng Hu, Xiaoshuai Sun(参考訳) DIE(Diffusion-based Image Editing)は、拡散ベースの画像編集のターゲット領域を制御するためにセマンティックマスクを適用した、新たな研究ホットスポットである。 しかし、既存のほとんどのソリューションは手動操作やオフライン処理によってこれらのマスクを取得し、効率を大幅に低下させる。 本稿では,インスタント拡散編集(instdiffedit,instdiffedit,instdiffedit)と呼ばれる,テキストから画像への拡散モデルのための新しい効率的な画像編集法を提案する。 特にinstdiffeditは、拡散ステップ中にインスタントマスクガイダンスを達成するために、既存の拡散モデルのクロスモーダル注意力を活用することを目指している。 注意マップのノイズを低減し、フルオートマチックを実現するため、自動的かつ正確なマスク生成のための注意分布を適応的に集約するトレーニングフリーな改善スキームをInstDiffEditに装備する。 一方,ダイの既存評価を補完するために,既存手法のマスク精度と局所編集能力を調べるためのediting-maskというベンチマークを提案する。 InstDiffEditを検証するために、ImageNetとImagenの広範な実験を行い、それを多くのSOTAメソッドと比較する。 実験結果によると、InstDiffEditは画像品質と編集結果の両方でSOTA法よりも優れており、推論速度もより高速である(+5から+6倍)。 私たちのコードはhttps://anonymous.4open.science/r/InstDiffEdit-C306/で利用可能です。

Diffusion-based Image Editing (DIE) is an emerging research hot-spot, which often applies a semantic mask to control the target area for diffusion-based editing. However, most existing solutions obtain these masks via manual operations or off-line processing, greatly reducing their efficiency. In this paper, we propose a novel and efficient image editing method for Text-to-Image (T2I) diffusion models, termed Instant Diffusion Editing(InstDiffEdit). In particular, InstDiffEdit aims to employ the cross-modal attention ability of existing diffusion models to achieve instant mask guidance during the diffusion steps. To reduce the noise of attention maps and realize the full automatics, we equip InstDiffEdit with a training-free refinement scheme to adaptively aggregate the attention distributions for the automatic yet accurate mask generation. Meanwhile, to supplement the existing evaluations of DIE, we propose a new benchmark called Editing-Mask to examine the mask accuracy and local editing ability of existing methods. To validate InstDiffEdit, we also conduct extensive experiments on ImageNet and Imagen, and compare it with a bunch of the SOTA methods. The experimental results show that InstDiffEdit not only outperforms the SOTA methods in both image quality and editing results, but also has a much faster inference speed, i.e., +5 to +6 times. Our code available at https://anonymous.4open.science/r/InstDiffEdit-C306/
翻訳日:2024-01-17 17:00:51 公開日:2024-01-15
# Rydberg原子配列における創発的ゲージ理論

Emergent Gauge Theory in Rydberg Atom Arrays ( http://arxiv.org/abs/2401.07708v1 )

ライセンス: Link先を確認
Yanting Cheng, Hui Zhai(参考訳) ライドバーグ原子配列は、リッチ量子多体物理学と普遍量子計算の約束を示す新しいプラットフォームとして登場した。 ライドバーグ封鎖効果は、この系において多体相関を確立する上で重要な役割を果たす。 本稿では、格子ゲージ理論がライドバーグ封鎖効果の効率的な説明であり、平衡相から量子力学に至るまでの最近のエキサイティングな発展を概観する。 これらの発展には、スピン液体のようなエキゾチックな基底状態の実現、量子熱化に違反する量子多体スカル状態の発見、量子力学による閉じ込め・凍結遷移の観察が含まれる。 ゲージ理論の記述は、これらの現象を捉える普遍的な理論的枠組みを提供する。 ライドバーグ原子配列のこの視点は、このプラットフォームにおける量子シミュレーションと量子計算のさらなる発展を促すだろう。

Rydberg atom arrays have emerged as a novel platform exhibiting rich quantum many-body physics and offering promise for universal quantum computation. The Rydberg blockade effect plays an essential role in establishing many-body correlations in this system. In this review, we will highlight that the lattice gauge theory is an efficient description of the Rydberg blockade effect and overview recent exciting developments in this system from equilibrium phases to quantum dynamics. These developments include realizing exotic ground states such as spin liquids, discovering quantum many-body scar states violating quantum thermalization, and observing confinement-deconfinement transition through quantum dynamics. We emphasize that the gauge theory description offers a universal theoretical framework to capture all these phenomena. This perspective of Rydberg atom arrays will inspire further the future development of quantum simulation and quantum computation in this platform.
翻訳日:2024-01-17 17:00:07 公開日:2024-01-15
# 関数ヘッダコメントのパラドックス

The Paradox of Function Header Comments ( http://arxiv.org/abs/2401.07704v1 )

ライセンス: Link先を確認
Arthur Oxenhorn, Almog Mor, Uri Stern, Dror G. Feitelson(参考訳) おそらく最も広く使われているコードドキュメンテーションは関数ヘッダコメントである。 我々は、367人の開発者を対象に大規模な調査を行い、これらのドキュメントから期待をカタログ化し、実際の実践を記述した。 パラドックス的には、開発者はヘッダコメントの価値を高く評価し、時間内に投資する価値があると見積もっていますが、それでも自分たちのコードにそのようなドキュメントを書かない傾向があります。 ヘッダーコメントを書かない理由は、コードが自己文書化されるべきであるという考えから、ドキュメントを最新に保つべきではないという懸念まで様々である。 この状況の考えられる結果として、開発者はテンプレートを使用して実際の情報を提供しない無価値なコメントを生成することで、ドキュメントを書く必要がなくなる可能性がある。 関数シグネチャとの類似性に基づいて、情報レスドキュメンテーションのためのシンプルなメトリックを定義する。 GitHub Pythonプロジェクトでこれを21,140ファイルに適用すると、ほとんどの関数は文書化されていないが、ヘッダコメントが書かれた場合、関数シグネチャ以外の追加情報が含まれる。

Perhaps the most widely used form of code documentation is function header comments. We performed a large-scale survey of 367 developers to catalog their expectations from such documentation and to chronicle actual practice. Paradoxically, we found that developers appreciate the value of header comments and estimate that they are worth the investment in time, but nevertheless they tend not to write such documentation in their own code. Reasons for not writing header comments vary from the belief that code should be self-documenting to concern that documentation will not be kept up-to-date. A possible outcome of this situation is that developers may evade requirements to write documentation by using templates to generate worthless comments that do not provide any real information. We define a simple metric for information-less documentation based on its similarity to the function signature. Applying this to 21,140 files in GitHub Python projects shows that most functions are undocumented, but when header comments are written they typically do contain additional information beyond the function signature.
翻訳日:2024-01-17 16:59:07 公開日:2024-01-15
# 英語学習テキストの文法的誤り訂正のためのオープンソースおよび商用言語モデルの提案

Prompting open-source and commercial language models for grammatical error correction of English learner text ( http://arxiv.org/abs/2401.07702v1 )

ライセンス: Link先を確認
Christopher Davis, Andrew Caines, {\O}istein Andersen, Shiva Taslimipoor, Helen Yannakoudakis, Zheng Yuan, Christopher Bryant, Marek Rei, Paula Buttery(参考訳) 近年のジェネレーティブAIの進歩により、大きな言語モデル(LLM)に、流動的で文法的なテキストを生成するよう促すことができる。 さらに,非文法的な入力文を誘導すると,LLMから文法的誤り訂正(GEC)を適用できることが示されている。 我々は,GECにおけるLCMの性能を,確立したベンチマークデータセット上で測定することで評価する。 GECの4つのベンチマークで7つのオープンソースと3つの商用LCMを評価することで、GPT*モデルを英語GECデータセットの選択でのみ検証する以前の研究を超越した。 モデルの性能と個々のエラータイプに対する報告結果について検討した。 以上の結果から,LLMは最小限の編集ではなく,流速補正を付したベンチマーク上での商業的なLCMを,特定の文脈以外は英語のGECモデルより常に優れているとは限らないことが示唆された。 いくつかのオープンソースモデルは、最小限の編集ベンチマークで商用モデルよりも優れており、いくつかの設定ではゼロショットプロンプトは、少数ショットプロンプトと同じくらい競争力がある。

Thanks to recent advances in generative AI, we are able to prompt large language models (LLMs) to produce texts which are fluent and grammatical. In addition, it has been shown that we can elicit attempts at grammatical error correction (GEC) from LLMs when prompted with ungrammatical input sentences. We evaluate how well LLMs can perform at GEC by measuring their performance on established benchmark datasets. We go beyond previous studies, which only examined GPT* models on a selection of English GEC datasets, by evaluating seven open-source and three commercial LLMs on four established GEC benchmarks. We investigate model performance and report results against individual error types. Our results indicate that LLMs do not always outperform supervised English GEC models except in specific contexts -- namely commercial LLMs on benchmarks annotated with fluency corrections as opposed to minimal edits. We find that several open-source models outperform commercial ones on minimal edit benchmarks, and that in some settings zero-shot prompting is just as competitive as few-shot prompting.
翻訳日:2024-01-17 16:58:22 公開日:2024-01-15
# データ対モデル機械学習フェアネステスト:実証的研究

Data vs. Model Machine Learning Fairness Testing: An Empirical Study ( http://arxiv.org/abs/2401.07697v1 )

ライセンス: Link先を確認
Arumoy Shome and Luis Cruz and Arie van Deursen(参考訳) 文献にはいくつかのフェアネス定義とバイアス軽減技術が存在するが、既存のソリューションはすべて、トレーニング段階以降の機械学習(ML)システムのフェアネスを評価する。 本稿では,モデルトレーニング前後の公平性をテストすることにより,より全体論的アプローチを評価するための第一歩を踏み出す。 提案手法の有効性を評価し,モデル依存度と独立公平度の関係を実験的に分析し,ML開発ライフサイクル内に配置する。 この研究では、2つの公平度メトリクス、4つのmlアルゴリズム、5つの現実世界データセット、1600の公平性評価サイクルを使用している。 分布とトレーニングデータのサイズが変化すると、データとモデルの公平度メトリクスの線形関係が分かる。 以上の結果から, トレーニング前の公平性テストは, バイアスデータ収集プロセスの早期取得, 実運用システムにおけるデータドリフトの検出, フルトレーニングサイクルの実行の最小化, 開発時間とコストの削減といった, 効果的な方法である可能性が示唆された。

Although several fairness definitions and bias mitigation techniques exist in the literature, all existing solutions evaluate fairness of Machine Learning (ML) systems after the training stage. In this paper, we take the first steps towards evaluating a more holistic approach by testing for fairness both before and after model training. We evaluate the effectiveness of the proposed approach and position it within the ML development lifecycle, using an empirical analysis of the relationship between model dependent and independent fairness metrics. The study uses 2 fairness metrics, 4 ML algorithms, 5 real-world datasets and 1600 fairness evaluation cycles. We find a linear relationship between data and model fairness metrics when the distribution and the size of the training data changes. Our results indicate that testing for fairness prior to training can be a ``cheap'' and effective means of catching a biased data collection process early; detecting data drifts in production systems and minimising execution of full training cycles thus reducing development time and costs.
翻訳日:2024-01-17 16:58:02 公開日:2024-01-15
# 機械学習ビジュアルインサイトの自動翻訳から分析的アサーションへ

Towards Automatic Translation of Machine Learning Visual Insights to Analytical Assertions ( http://arxiv.org/abs/2401.07696v1 )

ライセンス: Link先を確認
Arumoy Shome and Luis Cruz and Arie van Deursen(参考訳) 機械学習(ML)の視覚化で観察される視覚特性をPythonアサーションに変換する自動化ツールを開発するためのビジョンを提示する。 このツールは、ML開発サイクルでこれらの視覚化を手作業で検証するプロセスの合理化を目的としている。 以前の研究では、githubから54,070ドルのjupyterノートブックを発掘し、269ドルのセマンティック関連可視化支援(va)ペアのカタログを作成しました。 このカタログに基づいて, ml検証タスクに基づいてvaペアを編成する分類法を構築することを提案する。 入力機能空間は、jupyterノートブックから抽出された豊富な情報ソース – 可視化、pythonソースコード、関連するマークダウンテキスト – で構成されている。 従来のNLP4Codeモデルや現代の大規模言語モデルなど、さまざまなAIモデルの有効性は、確立された機械翻訳メトリクスを用いて比較され、人間の参加者との質的研究を通じて評価される。 論文はまた、既存のVAペアデータセットをKaggleから追加のペアで拡張することの課題にも対処し、ツールの有効性をChatGPTのような商用生成AIモデルと比較する予定である。 この研究は、MLシステム検証の分野に貢献するだけでなく、機械学習におけるソフトウェアエンジニアリングプラクティスの自動化と強化にAIを活用する新しい方法も探求している。

We present our vision for developing an automated tool capable of translating visual properties observed in Machine Learning (ML) visualisations into Python assertions. The tool aims to streamline the process of manually verifying these visualisations in the ML development cycle, which is critical as real-world data and assumptions often change post-deployment. In a prior study, we mined $54,070$ Jupyter notebooks from Github and created a catalogue of $269$ semantically related visualisation-assertion (VA) pairs. Building on this catalogue, we propose to build a taxonomy that organises the VA pairs based on ML verification tasks. The input feature space comprises of a rich source of information mined from the Jupyter notebooks -- visualisations, Python source code, and associated markdown text. The effectiveness of various AI models, including traditional NLP4Code models and modern Large Language Models, will be compared using established machine translation metrics and evaluated through a qualitative study with human participants. The paper also plans to address the challenge of extending the existing VA pair dataset with additional pairs from Kaggle and to compare the tool's effectiveness with commercial generative AI models like ChatGPT. This research not only contributes to the field of ML system validation but also explores novel ways to leverage AI for automating and enhancing software engineering practices in ML.
翻訳日:2024-01-17 16:57:42 公開日:2024-01-15
# 任意再帰データサンプリングによる確率的最適化

Stochastic optimization with arbitrary recurrent data sampling ( http://arxiv.org/abs/2401.07694v1 )

ライセンス: Link先を確認
William G. Powell and Hanbaek Lyu(参考訳) 確率最適化のための最適な一階収束保証を得るには、全てのデータポイントを十分な周波数でサンプリングするリカレントデータサンプリングアルゴリズムを使う必要がある。 最もよく使われるデータサンプリングアルゴリズム(例えば、MCMC、ランダムリシャッフル)は、実際は穏やかな仮定の下で繰り返される。 本研究では,特定の確率的最適化アルゴリズムに対して,データサンプリングアルゴリズムにおける再帰性以外の特性(独立性,指数混合性,再シャッフル性など)を必要とせず,一階収束の最適性を保証する。 すなわち、インクリメンタルサロゲート最適化(MISO)による最小化の正規化バージョンを用いて、非凸およびおそらく非滑らかな目的関数に対して、期待される最適性ギャップは、一般的な再帰サンプリングスキームの下での最適速度$O(n^{-1/2})$で収束することを示す。 さらに、インプリート定数は、現在の位置上で平均値(「ターゲット時間」)または上限値(「ハイティング時間」)を訪問する所望の時間量によって測定される「再発速度」に明示的に依存する。 我々は,データセットを効率的にカバーするサンプリングアルゴリズムを選択することにより,収束を加速できることを示す。 分散最適化と分散非負行列分解への一般フレームワークの適用について論じる。

For obtaining optimal first-order convergence guarantee for stochastic optimization, it is necessary to use a recurrent data sampling algorithm that samples every data point with sufficient frequency. Most commonly used data sampling algorithms (e.g., i.i.d., MCMC, random reshuffling) are indeed recurrent under mild assumptions. In this work, we show that for a particular class of stochastic optimization algorithms, we do not need any other property (e.g., independence, exponential mixing, and reshuffling) than recurrence in data sampling algorithms to guarantee the optimal rate of first-order convergence. Namely, using regularized versions of Minimization by Incremental Surrogate Optimization (MISO), we show that for non-convex and possibly non-smooth objective functions, the expected optimality gap converges at an optimal rate $O(n^{-1/2})$ under general recurrent sampling schemes. Furthermore, the implied constant depends explicitly on the `speed of recurrence', measured by the expected amount of time to visit a given data point either averaged (`target time') or supremized (`hitting time') over the current location. We demonstrate theoretically and empirically that convergence can be accelerated by selecting sampling algorithms that cover the data set most effectively. We discuss applications of our general framework to decentralized optimization and distributed non-negative matrix factorization.
翻訳日:2024-01-17 16:57:17 公開日:2024-01-15
# スピンによる符号化位置:boson-spinモデルにおける客観性

Encoding position by spins: Objectivity in the boson-spin model ( http://arxiv.org/abs/2401.07690v1 )

ライセンス: Link先を確認
Tae-Hun Lee and Jaros{\l}aw K. Korbicz(参考訳) 中心高調波発振器がスピン1/2系の熱浴と相互作用するボソンスピンモデルにおける量子客観性を調べる。 連続位置変数に関する情報を離散有限次元環境に符号化する方法を分析する。 より正確には、このモデルでいわゆるスペクトル放送構造(SBS)が形成される条件について検討する。 これらは多部量子状態構造であり、モード精製されたデコヒーレンスを表す。 リコイルのない極限で作業するため、Floquet理論を用いて、その明らかな単純さにもかかわらず、モデルが中央系の運動に依存する異なる状態を持つリッチな構造を持つことを示す。 そのうちの1つでは、位置の忠実なエンコーディングとそれゆえ客観性は、使用するリソースに関係なく不可能である。 言い換えれば、十分な数のスピンの集合は、位置情報を忠実にエンコードする。 符号化のデコヒーレンスと精度に対応する特徴的長さ尺度を導出する。

We investigate quantum objectivity in the boson-spin model, where a central harmonic oscillator interacts with a thermal bath of spin-1/2 systems. We analyze how information about a continuous position variable can be encoded into discrete, finite-dimensional environments. More precisely, we study conditions under which the so-called Spectrum Broadcast Structures (SBS) can be formed in the model. These are multipartite quantum state structures, representing a mode-refined form of decoherence. Working in the recoil-less limit, we use the Floquet theory to show that despite its apparent simplicity, the model has a rich structure with different regimes, depending on the motion of the central system. In one of them, the faithful encoding of the position and hence objectivity are impossible irrespectively of the resources used. In other, large enough collections of spins will faithfully encode the position information. We derive the characteristic length scales, corresponding to decoherence and precision of the encoding.
翻訳日:2024-01-17 16:56:50 公開日:2024-01-15
# 量子機械学習におけるセキュリティの主な側面:文献レビュー

Predominant Aspects on Security for Quantum Machine Learning: Literature Review ( http://arxiv.org/abs/2401.07774v1 )

ライセンス: Link先を確認
Nicola Franco, Alona Sakhnenko, Leon Stolpmann, Daniel Thuerck, Fabian Petsch, Annika R\"ull, Jeanette Miriam Lorenz(参考訳) 量子機械学習(Quantum Machine Learning, QML)は、計算タスクにおけるブレークスルーの促進を期待して、量子コンピューティングと古典的な機械学習の有望な交差点として登場した。 本稿では,セキュリティ上の懸念と強みがQMLとどのように結びついているのかを,系統的な文献レビューを用いて論じる。 我々は、QMLモデルのセキュリティ、量子アーキテクチャ固有の脆弱性、提案された緩和戦略を分類し、レビューする。 qmlは独自の強みを持つが、古典的なシステムでは見られない新しい攻撃ベクトルも導入している。 敵対的トレーニング、量子ノイズ利用、量子微分プライバシーといった技術は、QMLの堅牢性を高める可能性を示している。 本論では,QMLを現実世界のアプリケーションにセキュアに展開するための,継続的な厳密な研究の必要性について論じる。 この研究は、QMLのセキュリティ面のナビゲートを目的とした研究者や実践者にとって、基礎的な参考となる。

Quantum Machine Learning (QML) has emerged as a promising intersection of quantum computing and classical machine learning, anticipated to drive breakthroughs in computational tasks. This paper discusses the question which security concerns and strengths are connected to QML by means of a systematic literature review. We categorize and review the security of QML models, their vulnerabilities inherent to quantum architectures, and the mitigation strategies proposed. The survey reveals that while QML possesses unique strengths, it also introduces novel attack vectors not seen in classical systems. Techniques like adversarial training, quantum noise exploitation, and quantum differential privacy have shown potential in enhancing QML robustness. Our review discuss the need for continued and rigorous research to ensure the secure deployment of QML in real-world applications. This work serves as a foundational reference for researchers and practitioners aiming to navigate the security aspects of QML.
翻訳日:2024-01-17 16:50:33 公開日:2024-01-15
# 見えないものを見る: 意味的な配置のためのビジュアルコモンセンス

Seeing the Unseen: Visual Common Sense for Semantic Placement ( http://arxiv.org/abs/2401.07770v1 )

ライセンス: Link先を確認
Ram Ramrakhya, Aniruddha Kembhavi, Dhruv Batra, Zsolt Kira, Kuo-Hao Zeng, Luca Weihs(参考訳) コンピュータビジョンのタスクは通常、画像に何が存在するかを記述する(分類、検出、セグメンテーション、キャプションなど)。 私たちは、存在しないものを理解する必要がある視覚的な常識のタスクを研究します。 具体的には、画像(例えば、リビングルーム)と物体の名前(「カション」)が与えられたとき、視覚システムは、その物体が人間によって置かれる可能性がある画像(例えば、ソファー)において意味的に意味のある領域(マスクまたは境界ボックス)を予測するように要求される。 セマンティック・プレースメント(SP)と呼ばれるこのタスクは、補助ロボットやARデバイス(ユーザの空間内でオブジェクトを自動レンダリングする)にとって、このような常識的な視覚的理解が重要であると信じている。 目に見えないものの研究は難しい。 画像記述のためのデータセットは、通常、関連する画像をキュレートし、人間に画像の内容に注釈をつけるように要求することで構築される。 私たちは、webからコンテキスト内のオブジェクトのイメージから始めて、そのオブジェクトをインペインティングによってイメージから削除します。 この自動パイプラインは、構造化されていないWebデータを、オブジェクトとの対のイメージからなるデータセットに変換する。 これを用いて、9ドルのオブジェクトカテゴリにわたる${\sim}1.3$Mのイメージを持つ新しいデータセットを収集し、CLIP-UNetと呼ばれるSP予測モデルをトレーニングする。 CLIP-UNetは既存のVLMとベースラインを上回り、実世界やシミュレーション画像上のオブジェクト検出器とセマンティックプリエントを組み合わせている。 私たちのユーザ調査では、CLIP-UNetによって予測されたSPマスクは、実画像とシミュレートされた画像の4ドルSPベースラインと比較すると、43.7\%と311.3\%の値が好まれている。 さらに,CLIP-UNetのSPマスク予測を活用することで,屋内環境におけるティディリングロボット構築などの下流アプリケーションを実現する。

Computer vision tasks typically involve describing what is present in an image (e.g. classification, detection, segmentation, and captioning). We study a visual common sense task that requires understanding what is not present. Specifically, given an image (e.g. of a living room) and name of an object ("cushion"), a vision system is asked to predict semantically-meaningful regions (masks or bounding boxes) in the image where that object could be placed or is likely be placed by humans (e.g. on the sofa). We call this task: Semantic Placement (SP) and believe that such common-sense visual understanding is critical for assitive robots (tidying a house), and AR devices (automatically rendering an object in the user's space). Studying the invisible is hard. Datasets for image description are typically constructed by curating relevant images and asking humans to annotate the contents of the image; neither of those two steps are straightforward for objects not present in the image. We overcome this challenge by operating in the opposite direction: we start with an image of an object in context from web, and then remove that object from the image via inpainting. This automated pipeline converts unstructured web data into a dataset comprising pairs of images with/without the object. Using this, we collect a novel dataset, with ${\sim}1.3$M images across $9$ object categories, and train a SP prediction model called CLIP-UNet. CLIP-UNet outperforms existing VLMs and baselines that combine semantic priors with object detectors on real-world and simulated images. In our user studies, we find that the SP masks predicted by CLIP-UNet are favored $43.7\%$ and $31.3\%$ times when comparing against the $4$ SP baselines on real and simulated images. In addition, we demonstrate leveraging SP mask predictions from CLIP-UNet enables downstream applications like building tidying robots in indoor environments.
翻訳日:2024-01-17 16:50:19 公開日:2024-01-15
# トリガーリコメンデーションにおけるCTR予測のための深部進化的インスタントネットワーク

Deep Evolutional Instant Interest Network for CTR Prediction in Trigger-Induced Recommendation ( http://arxiv.org/abs/2401.07769v1 )

ライセンス: Link先を確認
Zhibo Xiao, Luwei Yang, Tao Zhang, Wen Jiang, Wei Ning and Yujiu Yang(参考訳) この勧告は、eコマース、ストリーミングメディア、ソーシャルメディアなど、多くの業界で重要な役割を果たしている。 最近、トリガーによるリコメンデーション(tir)と呼ばれる新しいレコメンデーションシナリオが、ユーザーがトリガーアイテムを通じて即座に興味を表現できるようになり、alibaba.comやamazonなど、多くのeコマースプラットフォームにおいて重要な役割を担っている。 ユーザの興味を明示的にモデル化せずに、従来のレコメンデーションメソッドは通常、TIRで準最適結果を得る。 この問題を解決するためにトリガーとターゲットアイテムを同時に検討する手法はいくつかあるが、ユーザ行動の時間的情報、ユーザがスクロールダウンした際のユーザの瞬間的関心の変化、トリガーとターゲットアイテム間の相互作用を考慮に入れていない。 これらの問題に対処するために、TIRシナリオにおけるクリックスルーレート予測のための新しい手法、Deep Evolutional Instant Interest Network (DEI2N)を提案する。 具体的には,ユーザがスクロールダウンした瞬間関心の強度の動的変化を予測するために,ユーザインスタント関心モデリング層を設計する。 時間情報はユーザ行動モデリングに利用される。 さらに、トリガーとターゲットアイテム間のインタラクションを改善するために、Interaction Layerが導入された。 本手法を複数のオフラインおよび実世界の産業データセットで評価する。 実験の結果,提案したDEI2Nは最先端のベースラインよりも優れていた。 さらに、オンラインA/Bテストは、実運用環境における既存のベースラインよりも優れていることを示す。

The recommendation has been playing a key role in many industries, e.g., e-commerce, streaming media, social media, etc. Recently, a new recommendation scenario, called Trigger-Induced Recommendation (TIR), where users are able to explicitly express their instant interests via trigger items, is emerging as an essential role in many e-commerce platforms, e.g., Alibaba.com and Amazon. Without explicitly modeling the user's instant interest, traditional recommendation methods usually obtain sub-optimal results in TIR. Even though there are a few methods considering the trigger and target items simultaneously to solve this problem, they still haven't taken into account temporal information of user behaviors, the dynamic change of user instant interest when the user scrolls down and the interactions between the trigger and target items. To tackle these problems, we propose a novel method -- Deep Evolutional Instant Interest Network (DEI2N), for click-through rate prediction in TIR scenarios. Specifically, we design a User Instant Interest Modeling Layer to predict the dynamic change of the intensity of instant interest when the user scrolls down. Temporal information is utilized in user behavior modeling. Moreover, an Interaction Layer is introduced to learn better interactions between the trigger and target items. We evaluate our method on several offline and real-world industrial datasets. Experimental results show that our proposed DEI2N outperforms state-of-the-art baselines. In addition, online A/B testing demonstrates the superiority over the existing baseline in real-world production environments.
翻訳日:2024-01-17 16:49:38 公開日:2024-01-15
# 大規模言語モデルエージェントが6gネットワークに出会うとき:知覚、接地、アライメント

When Large Language Model Agents Meet 6G Networks: Perception, Grounding, and Alignment ( http://arxiv.org/abs/2401.07764v1 )

ライセンス: Link先を確認
Minrui Xu, Niyato Dusit, Jiawen Kang, Zehui Xiong, Shiwen Mao, Zhu Han, Dong In Kim, and Khaled B. Letaief(参考訳) マルチモーダルな大規模言語モデル(LLM)に基づくAIエージェントは、人間とコンピュータのインタラクションに革命をもたらし、医療、教育、製造、エンターテイメントといったさまざまな領域でよりパーソナライズされたアシスタントサービスを提供すると期待されている。 6GネットワークにLLMエージェントをデプロイすることで、ユーザはモバイルデバイスを介して、これまで高価なAIアシスタントサービスにアクセスできるようになる。 それにもかかわらず、モバイルデバイスの限られた能力は、長期にわたる相互作用の間、エッジサーバ上で動作するグローバルなLLMに複雑なタスクをオフロードする必要があるローカルLLMのデプロイと実行の効率を制限している。 本稿では,モバイルデバイスとエッジサーバの協調を利用した6gネットワークにおけるllmエージェントのための分割学習システムを提案する。 提案システムでは,LLMエージェントを知覚,接地,アライメントモジュールに分割し,モジュール間通信により,統合型センシング・通信,デジタルツイン,タスク指向通信など,6Gネットワーク機能上の拡張ユーザ要求を満たす。 さらに,提案システム内のllmのための新しいモデルキャッシングアルゴリズムを導入し,コンテキスト内のモデル利用性を改善し,協調型モバイルおよびエッジ型llmエージェントのネットワークコストを削減する。

AI agents based on multimodal large language models (LLMs) are expected to revolutionize human-computer interaction and offer more personalized assistant services across various domains like healthcare, education, manufacturing, and entertainment. Deploying LLM agents in 6G networks enables users to access previously expensive AI assistant services via mobile devices democratically, thereby reducing interaction latency and better preserving user privacy. Nevertheless, the limited capacity of mobile devices constrains the effectiveness of deploying and executing local LLMs, which necessitates offloading complex tasks to global LLMs running on edge servers during long-horizon interactions. In this article, we propose a split learning system for LLM agents in 6G networks leveraging the collaboration between mobile devices and edge servers, where multiple LLMs with different roles are distributed across mobile devices and edge servers to perform user-agent interactive tasks collaboratively. In the proposed system, LLM agents are split into perception, grounding, and alignment modules, facilitating inter-module communications to meet extended user requirements on 6G network functions, including integrated sensing and communication, digital twins, and task-oriented communications. Furthermore, we introduce a novel model caching algorithm for LLMs within the proposed system to improve model utilization in context, thus reducing network costs of the collaborative mobile and edge LLM agents.
翻訳日:2024-01-17 16:49:11 公開日:2024-01-15
# QISS: 量子産業シフトスケジューリングアルゴリズム

QISS: Quantum Industrial Shift Scheduling Algorithm ( http://arxiv.org/abs/2401.07763v1 )

ライセンス: Link先を確認
Anna M. Krol, Marvin Erdmann, Rajesh Mishra, Phattharaporn Singkanipa, Ewan Munro, Marcin Ziolkowski, Andre Luckow, Zaid Al-Ars(参考訳) 本稿では,groverの適応探索を応用した産業シフトスケジューリング(qiss)のための量子アルゴリズムの設計と実装について述べる。 我々はグローバーのオラクルの明示的な回路構成を示し、問題に存在する複数の制約を取り入れ、対応する論理レベルのリソース要件を詳述する。 さらに、特定の小規模問題インスタンスへのQISSの適用をシミュレートして、アルゴリズムのパフォーマンスを相関させ、github.com/anneriet/QISSで利用可能な、私たちのコードによるオープンソースリポジトリを提供する。 本研究は、グローバーのアルゴリズムの文脈で複雑な実世界の産業最適化問題をいかに定式化できるかを示し、このカテゴリのユースケースにおける物理レベルの資源推定のような重要なタスクへの道を開く。

In this paper, we show the design and implementation of a quantum algorithm for industrial shift scheduling (QISS), which uses Grover's adaptive search to tackle a common and important class of valuable, real-world combinatorial optimization problems. We give an explicit circuit construction of the Grover's oracle, incorporating the multiple constraints present in the problem, and detail the corresponding logical-level resource requirements. Further, we simulate the application of QISS to specific small-scale problem instances to corroborate the performance of the algorithm, and we provide an open-source repository with our code, available on github.com/anneriet/QISS . Our work shows how complex real-world industrial optimization problems can be formulated in the context of Grover's algorithm, and paves the way towards important tasks such as physical-level resource estimation for this category of use cases.
翻訳日:2024-01-17 16:48:44 公開日:2024-01-15
# アラビア語事前学習モデルにおけるデータスケールの重要性について

On the importance of Data Scale in Pretraining Arabic Language Models ( http://arxiv.org/abs/2401.07760v1 )

ライセンス: Link先を確認
Abbas Ghaddar, Philippe Langlais, Mehdi Rezagholizadeh, Boxing Chen(参考訳) 単言語モデルの事前学習は、アラビア自然言語処理(NLP)タスクのパフォーマンスに不可欠であることが証明されている。 本稿では、アラビア事前訓練言語モデル(PLM)におけるデータの役割について包括的な研究を行う。 より正確には、我々は、大規模で高品質なアラビアコーパスでそれらを再訓練することで、最先端のアラビアPLMの性能を再評価する。 我々は,alueおよびorcaのリーダボード上でのアラビア語エンコーダのみのbert-baseおよびエンコーダ-デコーダt5-baseモデルの性能を大幅に向上させた。 さらに,本分析は,データの事前学習がパフォーマンスの主要な要因であり,他の要因を超えていることを強く示唆している。 私たちのモデルとソースコードはhttps://github.com/huawei-noah/Pretrained-Language-Model/tree/master/JABER-PyTorchで公開されています。

Pretraining monolingual language models have been proven to be vital for performance in Arabic Natural Language Processing (NLP) tasks. In this paper, we conduct a comprehensive study on the role of data in Arabic Pretrained Language Models (PLMs). More precisely, we reassess the performance of a suite of state-of-the-art Arabic PLMs by retraining them on massive-scale, high-quality Arabic corpora. We have significantly improved the performance of the leading Arabic encoder-only BERT-base and encoder-decoder T5-base models on the ALUE and ORCA leaderboards, thereby reporting state-of-the-art results in their respective model categories. In addition, our analysis strongly suggests that pretraining data by far is the primary contributor to performance, surpassing other factors. Our models and source code are publicly available at https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/JABER-PyTorch.
翻訳日:2024-01-17 16:48:26 公開日:2024-01-15
# フェデレーション学習のための共同確率選択とパワーアロケーション

Joint Probability Selection and Power Allocation for Federated Learning ( http://arxiv.org/abs/2401.07756v1 )

ライセンス: Link先を確認
Ouiame Marnissi, Hajar EL Hammouti, El Houcine Bergou(参考訳) 本稿では,限られたエネルギー予算を持つデバイスが機械学習モデルを訓練する無線ネットワーク上でのフェデレーション学習の性能について検討する。 連合学習のパフォーマンスは、各ラウンドで学習に参加するクライアントの選択に依存する。 既存の研究の多くは、クライアント選択に対する決定論的アプローチを示唆しており、その結果、通常ヒューリスティックスを使って解決される最適化問題に挑戦し、その結果、最終的なソリューションの品質を保証することなく解決する。 我々は,協調的にクライアントを選定し,参加するクライアント数を最大化するために電力を最適に割り当てる新しい確率的アプローチを定式化する。 この問題を解決するため,各ステップ毎にユーザ選択確率と電力配分に対する閉形式解を求める新たな交互化アルゴリズムを提案する。 その結果,提案手法はエネルギー消費, 完了時間, 精度の点で, 評価されたベンチマークと比較すると有意な性能を示した。

In this paper, we study the performance of federated learning over wireless networks, where devices with a limited energy budget train a machine learning model. The federated learning performance depends on the selection of the clients participating in the learning at each round. Most existing studies suggest deterministic approaches for the client selection, resulting in challenging optimization problems that are usually solved using heuristics, and therefore without guarantees on the quality of the final solution. We formulate a new probabilistic approach to jointly select clients and allocate power optimally so that the expected number of participating clients is maximized. To solve the problem, a new alternating algorithm is proposed, where at each step, the closed-form solutions for user selection probabilities and power allocations are obtained. Our numerical results show that the proposed approach achieves a significant performance in terms of energy consumption, completion time and accuracy as compared to the studied benchmarks.
翻訳日:2024-01-17 16:48:09 公開日:2024-01-15
# 低周波情報強化画像空間における低光ステレオ画像の強調とノイズ除去

Low-light Stereo Image Enhancement and De-noising in the Low-frequency Information Enhanced Image Space ( http://arxiv.org/abs/2401.07753v1 )

ライセンス: Link先を確認
Minghua Zhao, Xiangdong Qin, Shuangli Du, Xuefei Bai, Jiahao Lyu, Yiguang Liu(参考訳) 単一の画像タスクとは異なり、ステレオ画像拡張は別のビュー情報を利用することができ、その重要なステージは、他のビューから有用な情報を抽出するためにクロスビュー機能インタラクションを実行する方法である。 しかし、低光度画像における複雑なノイズやその後の特徴エンコーディングやインタラクションへの影響は、既存の手法では無視されている。 本稿では, 同時に高次化とデノイズ化を行う手法を提案する。 まず、不要なノイズ干渉を低減するため、低周波情報拡張モジュール(IEM)を提案し、ノイズを抑え、新しい画像空間を創出する。 さらに, 長距離空間依存性を符号化し, チャネル間インタラクションを強化するために, クロスチャネルおよび空間コンテキスト情報マイニングモジュール (csm) を提案する。 CSMに基づいてエンコーダ・デコーダ構造を構築し、クロスビューとクロススケールな機能相互作用を取り入れ、新しい画像空間の拡張を実現する。 最後に、ネットワークは空間領域損失と周波数領域損失の両方の制約で訓練される。 合成データと実データの両方について広範な実験を行った結果,本手法は最先端手法と比較してより詳細な回復とノイズ除去が得られた。 また、ステレオカメラzed2で実際のステレオ画像強調データセットをキャプチャする。 コードとデータセットは、https://www.github.com/noportraits/lfenetで公開されている。

Unlike single image task, stereo image enhancement can use another view information, and its key stage is how to perform cross-view feature interaction to extract useful information from another view. However, complex noise in low-light image and its impact on subsequent feature encoding and interaction are ignored by the existing methods. In this paper, a method is proposed to perform enhancement and de-noising simultaneously. First, to reduce unwanted noise interference, a low-frequency information enhanced module (IEM) is proposed to suppress noise and produce a new image space. Additionally, a cross-channel and spatial context information mining module (CSM) is proposed to encode long-range spatial dependencies and to enhance inter-channel feature interaction. Relying on CSM, an encoder-decoder structure is constructed, incorporating cross-view and cross-scale feature interactions to perform enhancement in the new image space. Finally, the network is trained with the constraints of both spatial and frequency domain losses. Extensive experiments on both synthesized and real datasets show that our method obtains better detail recovery and noise removal compared with state-of-the-art methods. In addition, a real stereo image enhancement dataset is captured with stereo camera ZED2. The code and dataset are publicly available at: https://www.github.com/noportraits/LFENet.
翻訳日:2024-01-17 16:47:54 公開日:2024-01-15
# DeepThalamus: マルチモーダル超高分解能MRIによる脳視床核の自動セグメンテーションのための新しい深層学習法

DeepThalamus: A novel deep learning method for automatic segmentation of brain thalamic nuclei from multimodal ultra-high resolution MRI ( http://arxiv.org/abs/2401.07751v1 )

ライセンス: Link先を確認
Marina Ruiz-Perez, Sergio Morell-Ortega, Marien Gadea, Roberto Vivo-Hernando, Gregorio Rubio, Fernando Aparici, Mariam de la Iglesia-Vaya, Thomas Tourdias, Pierrick Coup\'e and Jos\'e V. Manj\'on(参考訳) 複数の神経病理学における視床の関与は、体積分析の興味をそそる構造となっている。 本研究では,超高分解能 (0.125 mm3) における視床核のセグメンテーションのための多変量深層ニューラルネットワークの設計と実装を行った。 現在のツールは標準解像度 (1 mm3) で動作し、モノモーダルデータを使用する。 まず,超高分解能t1,t2,白色物質ヌル化(wmn)画像を用いて,半自動セグメンテーションされた視床核のデータベースを作成した。 そこで, 自動セグメント化のための新しい深層学習戦略を考案し, 半教師付きアプローチによるロバスト性, 適応性の向上を訓練した。 提案手法は, セグメンテーション品質と効率の両面で競争結果を示す, 関連する最先端手法と比較した。 提案手法を科学コミュニティに完全利用可能にするために,モノモダル標準解像度t1画像を用いたフルパイプラインも提案されている。

The implication of the thalamus in multiple neurological pathologies makes it a structure of interest for volumetric analysis. In the present work, we have designed and implemented a multimodal volumetric deep neural network for the segmentation of thalamic nuclei at ultra-high resolution (0.125 mm3). Current tools either operate at standard resolution (1 mm3) or use monomodal data. To achieve the proposed objective, first, a database of semiautomatically segmented thalamic nuclei was created using ultra-high resolution T1, T2 and White Matter nulled (WMn) images. Then, a novel Deep learning based strategy was designed to obtain the automatic segmentations and trained to improve its robustness and accuaracy using a semisupervised approach. The proposed method was compared with a related state-of-the-art method showing competitive results both in terms of segmentation quality and efficiency. To make the proposed method fully available to the scientific community, a full pipeline able to work with monomodal standard resolution T1 images is also proposed.
翻訳日:2024-01-17 16:47:32 公開日:2024-01-15
# STORM超解像画像の空間的背景除去

Sparsity-based background removal for STORM super-resolution images ( http://arxiv.org/abs/2401.07746v1 )

ライセンス: Link先を確認
Patris Valera, Josu\'e Page Vizca\'ino, Tobias Lasser(参考訳) 確率的光再構成顕微鏡(STORM)のような単一分子局在化顕微鏡技術は、確率的にエキサイティングなスパース点滅エミッタによって生物学的標本を可視化する。 生画像は不要な背景蛍光に悩まされ、超高分解能を達成するためには除去する必要がある。 本稿では,異なる顕微鏡領域からニューラルネットワーク(SLNet)を適応させることにより,空間的背景除去手法を提案する。 SLNetは、画像の低ランク表現を演算し、それを原画像から減算することにより、スパース成分を計算し、背景のないフレームを表現する。 提案手法は,ストームデータセット,グリアセル,マイクロタブデータセットの2つを用いて,中央値の背景除去やローリングボールアルゴリズムなど,広く使用されている背景除去手法と比較した。 SLNetはバックグラウンドの少ないSTORMフレームを提供するため、エミッタのローカライズ精度が高く、一般的な方法よりも高解像度の再構成画像が得られる。 特にSLNetは軽量で、簡単にトレーニングできる(<5分)。 教師なしの方法でトレーニングされているため、事前情報は不要で、任意のSTORMデータセットに適用できる。 トレーニング済みのSLNetをBioimageモデル動物園にアップロードし、ImageJで簡単にアクセスできるようにした。 その結果,本手法はストーム前処理ツールとして必須かつ効率的であることがわかった。

Single-molecule localization microscopy techniques, like stochastic optical reconstruction microscopy (STORM), visualize biological specimens by stochastically exciting sparse blinking emitters. The raw images suffer from unwanted background fluorescence, which must be removed to achieve super-resolution. We introduce a sparsity-based background removal method by adapting a neural network (SLNet) from a different microscopy domain. The SLNet computes a low-rank representation of the images, and then, by subtracting it from the raw images, the sparse component is computed, representing the frames without the background. We compared our approach with widely used background removal methods, such as the median background removal or the rolling ball algorithm, on two commonly used STORM datasets, one glial cell, and one microtubule dataset. The SLNet delivers STORM frames with less background, leading to higher emitters' localization precision and higher-resolution reconstructed images than commonly used methods. Notably, the SLNet is lightweight and easily trainable (<5 min). Since it is trained in an unsupervised manner, no prior information is required and can be applied to any STORM dataset. We uploaded a pre-trained SLNet to the Bioimage model zoo, easily accessible through ImageJ. Our results show that our sparse decomposition method could be an essential and efficient STORM pre-processing tool.
翻訳日:2024-01-17 16:47:15 公開日:2024-01-15
# MaskClustering: オープン語彙3Dインスタンスセグメンテーションのためのビューコンセンサスベースのマスクグラフクラスタリング

MaskClustering: View Consensus based Mask Graph Clustering for Open-Vocabulary 3D Instance Segmentation ( http://arxiv.org/abs/2401.07745v1 )

ライセンス: Link先を確認
Mi Yan, Jiazhao Zhang, Yan Zhu, He Wang(参考訳) オープン語彙の3Dインスタンスセグメンテーションは、事前に定義されたカテゴリのセットを超えて3Dインスタンスをセグメンテーションする機能のために、フロンティアトピックとして登場した。 しかし, 2次元領域において顕著な進歩をみれば, 3次元オープンボキャブラリインスタンスセグメンテーションの手法は, 高品質な注釈付き3次元データの限られたスケールによって妨げられる。 2Dモデルの性能を活用するため、近年の取り組みは、幾何学的および意味的類似性などのメトリクスに基づいて2Dマスクをマージすることに焦点を当てている。 これらの局所的な指標とは対照的に、多視点観察をよりよく活用するためのビューコンセンサスと呼ばれる新しいメトリクスを提案する。 重要な洞察として、2つの2dマスクは、他の視点からの多くの他の2dマスクがこれら2つのマスクの両方を含む場合、同じインスタンスに属するものとみなされるべきである。 この指標に基づいて、我々はグローバルマスクグラフと反復的にクラスタマスクを構築し、安定した視点のコンセンサスでマスクペアを優先順位付けする。 これらの2Dマスククラスタの対応する3Dポイントクラスタは、クラスタ化された2Dマスクから融合したオープン語彙の特徴とともに、3Dインスタンスと見なすことができる。 この多視点検証と融合機構により,視覚基礎モデルにより予測される巨大な2次元マスクからの事前のインスタンス知識を効果的に活用し,3次元データのトレーニングを不要とする。 ScanNet200やMatterPort3Dといった公開データセットの実験では,オープン語彙のインスタンスセグメンテーションとクラス非依存マスク生成の両方において,最先端のパフォーマンスを実現することが実証された。 私たちのプロジェクトページはhttps://pku-epic.github.io/MaskClustering.comです。

Open-vocabulary 3D instance segmentation has emerged as a frontier topic due to its capability to segment 3D instances beyond a predefined set of categories. However, compared to significant progress in the 2D domain, methods for 3D open-vocabulary instance segmentation are hindered by the limited scale of high-quality annotated 3D data. To harness the capabilities of 2D models, recent efforts have focused on merging 2D masks based on metrics such as geometric and semantic similarity to form 3D instances. In contrast to these local metrics, we propose a novel metric called view consensus to better exploit multi-view observation. The key insight is that two 2D masks should be considered as belonging to the same instance if a considerable number of other 2D masks from other views contain both these two masks. Based on this metric, we build a global mask graph and iteratively cluster masks, prioritizing mask pairs with solid view consensus. The corresponding 3D points cluster of these 2D mask clusters can be regarded as 3D instances, along with the fused open-vocabulary features from clustered 2D masks. Through this multi-view verification and fusion mechanism, our method effectively leverages the prior instance knowledge from massive 2D masks predicted by visual foundation models, eliminating the need for training on 3D data. Experiments on publicly available datasets, including ScanNet200 and MatterPort3D, demonstrate that our method achieves state-of-the-art performance in both open-vocabulary instance segmentation and class-agnostic mask generation. Our project page is at https://pku-epic.github.io/MaskClustering.
翻訳日:2024-01-17 16:46:51 公開日:2024-01-15
# 機械学習とオントロジーを組み合わせる: 体系的な文献レビュー

Combining Machine Learning and Ontology: A Systematic Literature Review ( http://arxiv.org/abs/2401.07744v1 )

ライセンス: Link先を確認
Sarah Ghidalia, Ouassila Labbani Narsis, Aur\'elie Bertaux, Christophe Nicolle(参考訳) 帰納的推論と帰納的推論を組み合わせる過程を探求する目的で,我々は,機械学習とオントロジーの統合を調査する論文の体系的な文献レビューを行った。 目的は、インダクティブ推論(機械学習によって実行される)とインダクティブ推論(オントロジーによって実行される)の両方を人工知能システムに組み込む多様なテクニックを同定することであった。 128の研究の分析を含むレビューでは、マシンラーニングとオントロジーのハイブリダイゼーションの3つの主なカテゴリ、すなわち、学習を強調したオントロジー、セマンティックデータマイニング、学習と推論システムの識別を可能にした。 これらすべてのカテゴリを包括的に検討し,研究で活用されている各種機械学習アルゴリズムを強調する。 さらに、我々の分類を、ハイブリッドAIとニューロシンボリックアプローチの分野での同様の研究と比較した。

Motivated by the desire to explore the process of combining inductive and deductive reasoning, we conducted a systematic literature review of articles that investigate the integration of machine learning and ontologies. The objective was to identify diverse techniques that incorporate both inductive reasoning (performed by machine learning) and deductive reasoning (performed by ontologies) into artificial intelligence systems. Our review, which included the analysis of 128 studies, allowed us to identify three main categories of hybridization between machine learning and ontologies: learning-enhanced ontologies, semantic data mining, and learning and reasoning systems. We provide a comprehensive examination of all these categories, emphasizing the various machine learning algorithms utilized in the studies. Furthermore, we compared our classification with similar recent work in the field of hybrid AI and neuro-symbolic approaches.
翻訳日:2024-01-17 16:46:22 公開日:2024-01-15
# 単一ホール占有における垂直2重量子ドットの結合

Coupled vertical double quantum dots at single-hole occupancy ( http://arxiv.org/abs/2401.07736v1 )

ライセンス: Link先を確認
Alexander Ivlev, Hanifa Tidjani, Stefan Oosterhout, Amir Sammak, Giordano Scappucci, Menno Veldhorst(参考訳) ゲート定義量子ドットは、量子計算の魅力的なプラットフォームを定義し、平面配列に個々の電荷を閉じ込めるために使われてきた。 ここでは、二重量子井戸、シリコン-ゲルマニウムヘテロ構造に閉じ込められた垂直二重量子ドットの制御を示す。 単一ホールトランジスタで個々の電荷遷移を感知する。 量子井戸間の垂直分離は、上層と下層の量子井戸に位置する量子ドットを区別するために容量結合に十分な差を与える。 1,1)電荷状態への垂直二重量子ドットのチューニングは、1つのプランジャゲートの下の各量子井戸に1つの穴を閉じる。 2つのプランジャーゲートの下に同時に穴をあけることで、1,1,1,1)の電荷状態を調節できる。 これらの結果は、第3次元を利用する量子ドットシステムを動機付け、量子シミュレーションと量子コンピューティングの新しい機会を開く。

Gate-defined quantum dots define an attractive platform for quantum computation and have been used to confine individual charges in a planar array. Here, we demonstrate control over vertical double quantum dots confined in a double quantum well, silicon-germanium heterostructure. We sense individual charge transitions with a single-hole transistor. The vertical separation between the quantum wells provides a sufficient difference in capacitive coupling to distinguish quantum dots located in the top and bottom quantum well. Tuning the vertical double quantum dot to the (1,1) charge state confines a single hole in each quantum well beneath a single plunger gate. By simultaneously accumulating holes under two neighbouring plunger gates, we are able to tune to the (1,1,1,1) charge state. These results motivate quantum dot systems that exploit the third dimension, opening new opportunities for quantum simulation and quantum computing.
翻訳日:2024-01-17 16:46:07 公開日:2024-01-15
# 被覆保証付きガウス過程評価への共形的アプローチ

Conformal Approach To Gaussian Process Surrogate Evaluation With Coverage Guarantees ( http://arxiv.org/abs/2401.07733v1 )

ライセンス: Link先を確認
Edgar Jaber (EDF R&D PRISME, CB, LISN), Vincent Blot (The State of the Art AI company, LISN), Nicolas Brunel (The State of the Art AI company, ENSIIE), Vincent Chabridon (EDF R&D PRISME, SINCLAIR AI Lab), Emmanuel Remy (EDF R&D PRISME), Bertrand Iooss (EDF R&D PRISME, IMT, SINCLAIR AI Lab, GdR MASCOT-NUM), Didier Lucor (LISN), Mathilde Mougeot (CB, ENSIIE), Alessandro Leite (LISN)(参考訳) ガウス過程(英: Gaussian process, GP)は、産業アプリケーションにおけるコンピュータシミュレーションコードの不確実性定量化のための代理モデルを構築するために広く用いられている機械学習手法である。 平均予測器と後続予測分散の推定の両方を提供し、後者はベイズ信頼区間を生成するために使用される。 これらの区間の解釈は、シミュレーションモデルのガウス性や、必ずしも適切ではない事前の well-specification に依存する。 我々は,この問題を共形予測の助けを借りて解決することを提案する。 本研究では,非整合性スコアとGPの標準偏差を重み付け,適応型クロスコンフォーマル予測区間を構築する手法を提案する。 結果の共形予測間隔はベイズ的信頼度セットに類似した適応性のレベルを示し、下層のモデル仮定から解放され、頻繁なカバレッジ保証を持ちながら、代理モデル局所近似誤差と有意な相関を示す。 したがって、これらの推定器はgpサーロゲートモデルの品質評価に使用することができ、gpの特定の適用に最適な事前の選択において意思決定者を支援することができる。 本手法の性能は,様々な参照データベースに基づく数値例のパネルを通して示す。 さらに, 原子炉の蒸気発生器における閉鎖現象の高コスト・評価シミュレータのサロゲートモデリングの文脈において, 本手法の適用可能性を示す。

Gaussian processes (GPs) are a Bayesian machine learning approach widely used to construct surrogate models for the uncertainty quantification of computer simulation codes in industrial applications. It provides both a mean predictor and an estimate of the posterior prediction variance, the latter being used to produce Bayesian credibility intervals. Interpreting these intervals relies on the Gaussianity of the simulation model as well as the well-specification of the priors which are not always appropriate. We propose to address this issue with the help of conformal prediction. In the present work, a method for building adaptive cross-conformal prediction intervals is proposed by weighting the non-conformity score with the posterior standard deviation of the GP. The resulting conformal prediction intervals exhibit a level of adaptivity akin to Bayesian credibility sets and display a significant correlation with the surrogate model local approximation error, while being free from the underlying model assumptions and having frequentist coverage guarantees. These estimators can thus be used for evaluating the quality of a GP surrogate model and can assist a decision-maker in the choice of the best prior for the specific application of the GP. The performance of the method is illustrated through a panel of numerical examples based on various reference databases. Moreover, the potential applicability of the method is demonstrated in the context of surrogate modeling of an expensive-to-evaluate simulator of the clogging phenomenon in steam generators of nuclear reactors.
翻訳日:2024-01-17 16:45:54 公開日:2024-01-15
# SSL-Interactions:対話的軌道予測のためのプレテキストタスク

SSL-Interactions: Pretext Tasks for Interactive Trajectory Prediction ( http://arxiv.org/abs/2401.07729v1 )

ライセンス: Link先を確認
Prarthana Bhattacharyya, Chengjie Huang and Krzysztof Czarnecki(参考訳) 本稿では,自動運転車の安全確保に重要なマルチエージェント環境における動作予測について述べる。 従来および最近のデータ駆動限界軌道予測手法は、非線形エージェント-エージェント間相互作用を適切に学習するのに苦労している。 トラジェクティブ予測のためのインタラクションモデリングを強化するために,プリテキストタスクを提案するSSL-Interactionsを提案する。 エージェント間相互作用の様々な側面をカプセル化する4つの対話型プレテキストタスク(範囲ギャップ予測,最接近距離予測,移動方向予測,対話型予測)を導入する。 さらに,データセットからインタラクション重大シナリオをキュレートする手法を提案する。 このキュレーションされたデータには、2つの利点がある: インタラクションモデルに強力な学習信号を提供し、インタラクション中心のプリテキストタスクのための擬似ラベルの生成を容易にする。 また,インタラクティブシーンにおける予測を評価するための3つの指標を提案する。 我々の経験的評価は、SSL-Interactionsが最先端の動作予測手法を最大8%改善し、質的にも、相互作用重大シナリオに優れていることを示している。

This paper addresses motion forecasting in multi-agent environments, pivotal for ensuring safety of autonomous vehicles. Traditional as well as recent data-driven marginal trajectory prediction methods struggle to properly learn non-linear agent-to-agent interactions. We present SSL-Interactions that proposes pretext tasks to enhance interaction modeling for trajectory prediction. We introduce four interaction-aware pretext tasks to encapsulate various aspects of agent interactions: range gap prediction, closest distance prediction, direction of movement prediction, and type of interaction prediction. We further propose an approach to curate interaction-heavy scenarios from datasets. This curated data has two advantages: it provides a stronger learning signal to the interaction model, and facilitates generation of pseudo-labels for interaction-centric pretext tasks. We also propose three new metrics specifically designed to evaluate predictions in interactive scenes. Our empirical evaluations indicate SSL-Interactions outperforms state-of-the-art motion forecasting methods quantitatively with up to 8% improvement, and qualitatively, for interaction-heavy scenarios.
翻訳日:2024-01-17 16:45:31 公開日:2024-01-15
# 多言語推論改善のための質問翻訳訓練

Question Translation Training for Better Multilingual Reasoning ( http://arxiv.org/abs/2401.07817v1 )

ライセンス: Link先を確認
Wenhao Zhu, Shujian Huang, Fei Yuan, Shuaijie She, Jiajun Chen, Alexandra Birch(参考訳) 大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。 トレーニングデータは、ほとんどが英語のテキストと指示で構成されているので、これは驚きではない。 典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。 このアプローチは高いコストを発生させるだけでなく、チェーン・オブ・ソートや数学的推論命令の非標準フォーマットのため、低翻訳データをもたらす。 本稿では,x- english 質問データの微調整によって推論質問を英語に翻訳するモデルをトレーニングする,質問アライメントの利点について検討する。 このようにして、LLMの多言語推論能力を解き放つために、英語の命令データを最大限に活用するドメイン内言語アライメントを実行する。 LLaMA2-13Bの実験結果は、質問のアライメントが翻訳訓練アプローチよりも一貫した改善をもたらすことを示している: MGSMとMSVAMPの数学推論ベンチマーク上の10言語で平均11.3\%と16.1\%の精度(https://github.com/NJUNLP/QAlign)。

Large language models show compelling performance on reasoning tasks but they tend to perform much worse in languages other than English. This is unsurprising given that their training data largely consists of English text and instructions. A typical solution is to translate instruction data into all languages of interest, and then train on the resulting multilingual data, which is called translate-training. This approach not only incurs high cost, but also results in poorly translated data due to the non-standard formatting of chain-of-thought and mathematical reasoning instructions. In this paper, we explore the benefits of question alignment, where we train the model to translate reasoning questions into English by finetuning on X-English question data. In this way we perform targetted, in-domain language alignment which makes best use of English instruction data to unlock the LLMs' multilingual reasoning abilities. Experimental results on LLaMA2-13B show that question alignment leads to consistent improvements over the translate-training approach: an average improvement of 11.3\% and 16.1\% accuracy across ten languages on the MGSM and MSVAMP maths reasoning benchmarks (The project will be available at: https://github.com/NJUNLP/QAlign).
翻訳日:2024-01-17 16:39:41 公開日:2024-01-15
# カラーセンタークラスタによる電気ノイズの相関分光

Correlated spectroscopy of electric noise with color center clusters ( http://arxiv.org/abs/2401.07814v1 )

ライセンス: Link先を確認
Tom Delord, Richard Monge, and Carlos A. Meriles(参考訳) 実験ノイズは、しばしばシステムと環境の相互作用に関する貴重な情報を含んでいるが、測定された時間変動と関連する物理観測値との関係を確立することは滅多にない。 本稿では,スペクトル拡散の多次元・多センサ解析を用いて,ダイヤモンドのカラーセンタークラスター周辺の帯電トラップにおけるキャリアのダイナミクスについて検討する。 窒素空孔 (NV) 中心と同一の回折限界体積を共用し, クラスターの光共鳴を再帰的に観測するスペクトル変化の統計的相関性を確立し, その後, 近位トラップの露光に利用した。 複数のNVのスペクトルを同時に観測することにより、観測された光共鳴におけるスタークシフトを決定的に誘導し、静電結合したエミッタの集合を特定できることを示す。 これらの相互相関測定により、クラスタ内の相互作用するNVの相対的な3次元位置と、近位トラップの位置と電荷のサインを決定できる。 この結果は、半導体中の光キャリアダイナミクスの微視的キャラクタリゼーションや、電界を介して接続されたナノスケールスピンキュービットクラスターの操作など、他の色中心に一般化することができる。

Experimental noise often contains valuable information on the interactions of a system with its environment but establishing a relation between the measured time fluctuations and relevant physical observables is rarely apparent. Here, we leverage a multi-dimensional and multi-sensor analysis of spectral diffusion to investigate the dynamics of carriers in charge traps surrounding color center clusters in diamond. Working with nitrogen-vacancy (NV) centers sharing the same diffraction-limited volume, we establish statistical correlations in the spectral changes we measure as we recursively probe the optical resonances of the cluster, which we subsequently exploit to unveil proximal traps. By simultaneously co-monitoring the spectra of multiple NVs in the set, we show the ability to deterministically induce Stark shifts in the observed optical resonances, hence allowing us to identify electrostatically coupled sets of emitters. These cross-correlated measurements allow us to determine the relative three-dimensional positions of interacting NVs in a cluster as well as the location and charge sign of proximal traps. Our results can be generalized to other color centers and open intriguing opportunities for the microscopic characterization of photo-carrier dynamics in semiconductors and for the manipulation of nanoscale spin-qubit clusters connected via electric fields.
翻訳日:2024-01-17 16:39:17 公開日:2024-01-15
# Web抽出のシードとしてのWikidata

Wikidata as a seed for Web Extraction ( http://arxiv.org/abs/2401.07812v1 )

ライセンス: Link先を確認
Kunpeng Guo, Dennis Diefenbach, Antoine Gourru, Christophe Gravier(参考訳) Wikidataは、驚くほどの大きさの知識グラフに成長した。 現在までに、人、場所、映画、星、出版物、タンパク質などに関する情報を収集する3分の1以上を含んでいる。 一方、web上の情報のほとんどはwikidataのような高度に構造化されたデータリポジトリではなく、非構造化で半構造化されたコンテンツであり、より具体的にはテキストとテーブルを含むhtmlページである。 このデータを知識グラフで見つけ、監視し、整理するには、人間の編集者によるかなりの作業が必要である。 データ量と複雑さにより、このタスクは難しく、時間がかかります。 本研究では,複数のWebドメインで公開されている新たな事実を識別し,抽出し,ウィキデータエディタによる検証のために提案できるフレームワークを提案する。 このフレームワークは質問応答技術に依存している。 我々は,テキストコレクションから事実を抽出し,Webページから事実を抽出するためのアイデアから着想を得た。 これを実現するために,テキストコレクションだけでなく,Webページからも,言語モデルを用いて事実を抽出できることを実証する。 Wikidataにすでに含まれている情報を活用することで、追加の学習シグナルを必要とせずにフレームワークをトレーニングし、幅広いプロパティやドメインに対して新たな事実を抽出することができる。 このパスに従って、WikidataはWeb上の事実を抽出するためのシードとして使用できる。 実験の結果,F1スコアでの平均性能は84.07。 さらに,人間の検証のために提案できる事実を数百万件抽出できる可能性が示唆された。 目標は、編集者が日々のタスクをこなし、Wikidataナレッジグラフの完成に貢献することである。

Wikidata has grown to a knowledge graph with an impressive size. To date, it contains more than 17 billion triples collecting information about people, places, films, stars, publications, proteins, and many more. On the other side, most of the information on the Web is not published in highly structured data repositories like Wikidata, but rather as unstructured and semi-structured content, more concretely in HTML pages containing text and tables. Finding, monitoring, and organizing this data in a knowledge graph is requiring considerable work from human editors. The volume and complexity of the data make this task difficult and time-consuming. In this work, we present a framework that is able to identify and extract new facts that are published under multiple Web domains so that they can be proposed for validation by Wikidata editors. The framework is relying on question-answering technologies. We take inspiration from ideas that are used to extract facts from textual collections and adapt them to extract facts from Web pages. For achieving this, we demonstrate that language models can be adapted to extract facts not only from textual collections but also from Web pages. By exploiting the information already contained in Wikidata the proposed framework can be trained without the need for any additional learning signals and can extract new facts for a wide range of properties and domains. Following this path, Wikidata can be used as a seed to extract facts on the Web. Our experiments show that we can achieve a mean performance of 84.07 at F1-score. Moreover, our estimations show that we can potentially extract millions of facts that can be proposed for human validation. The goal is to help editors in their daily tasks and contribute to the completion of the Wikidata knowledge graph.
翻訳日:2024-01-17 16:38:55 公開日:2024-01-15
# 説得対話を用いたヘイトスピーチ対策戦略の統合化

Consolidating Strategies for Countering Hate Speech Using Persuasive Dialogues ( http://arxiv.org/abs/2401.07810v1 )

ライセンス: Link先を確認
Sougata Saha and Rohini Srihari(参考訳) ソーシャルメディアプラットフォームでは、好意的なコメントが一般的だ。 オンライン上で偽の、攻撃的で有害なコンテンツを自動検出、フラグ付け、ブロックするツールは近年成熟しているが、このような反応性と残酷な力の方法は、加害者が持続する間、短期的および表面的な治療を提供する。 音声合成・エンゲージメントコンテンツを大規模に生成できる大規模言語モデルの公開により、このような悪意のあるコンテンツをWeb上で急速に普及させることが懸念される。 今では、コンテンツのソースの背後にいる人間の加害者と関わり合い、彼らの視点を変えたり、少なくとも説得力のある手段で修辞を倒したりする、より深く長期的なソリューションに焦点を合わせる必要がある。 そこで本研究では,オンライン会話における嫌悪コメントに対する反論を生成するための制御可能な戦略を定義し,実験する。 特徴量に基づく応答生成制御実験を行った。 (i)議論構造と推論に基づくウォルトン議論スキーム (ii)反論言論行為、及び (iii)big-5パーソナリティ特性や人格などの人格に基づく性質。 自動評価と人的評価を用いて,憎悪に対処するために,流動的で議論的,論理的に健全な議論を生成する特徴の組み合わせを決定する。 さらに,このような特徴を持つテキストの自動アノテートのための計算モデルと,既存のヘイトスピーチコーパスの銀標準アノテート版を共有する。

Hateful comments are prevalent on social media platforms. Although tools for automatically detecting, flagging, and blocking such false, offensive, and harmful content online have lately matured, such reactive and brute force methods alone provide short-term and superficial remedies while the perpetrators persist. With the public availability of large language models which can generate articulate synthetic and engaging content at scale, there are concerns about the rapid growth of dissemination of such malicious content on the web. There is now a need to focus on deeper, long-term solutions that involve engaging with the human perpetrator behind the source of the content to change their viewpoint or at least bring down the rhetoric using persuasive means. To do that, we propose defining and experimenting with controllable strategies for generating counter-arguments to hateful comments in online conversations. We experiment with controlling response generation using features based on (i) argument structure and reasoning-based Walton argument schemes, (ii) counter-argument speech acts, and (iii) human characteristics-based qualities such as Big-5 personality traits and human values. Using automatic and human evaluations, we determine the best combination of features that generate fluent, argumentative, and logically sound arguments for countering hate. We further share the developed computational models for automatically annotating text with such features, and a silver-standard annotated version of an existing hate speech dialog corpora.
翻訳日:2024-01-17 16:38:30 公開日:2024-01-15
# 機械学習のための分散最適化における最適データ分割

Optimal Data Splitting in Distributed Optimization for Machine Learning ( http://arxiv.org/abs/2401.07809v1 )

ライセンス: Link先を確認
Daniil Medyakov, Gleb Molodtsov, Aleksandr Beznosikov, Alexander Gasnikov(参考訳) 分散最適化問題は近年ますます関連性が高まっている。 非分散メソッドに比べて少ない時間で大量のデータを処理できるなど、多くの利点があります。 しかし、ほとんどの分散アプローチは、通信コストという重大なボトルネックを抱えています。 そのため,近年,この問題の解決に向けた研究が盛んに行われている。 そのようなアプローチの1つは、ローカルデータ類似性を使用する。 特に、類似性特性を最適に活用するアルゴリズムが存在する。 しかし、この結果と他の研究の結果は、通信がローカルコンピューティングよりも著しく高価であり、ネットワーク機器の様々な能力と通信時間とローカルコンピューティングコストの異なる関係を考慮しないという事実のみに注目して通信のボトルネックを解決している。 本研究の目的は,サーバとローカルマシン間の分散データの最適比を,通信やローカル計算のコストに対して達成することである。 ネットワークの実行時間は、均一分布と最適分布で比較される。 我々の解の優れた理論的性能は実験的に検証される。

The distributed optimization problem has become increasingly relevant recently. It has a lot of advantages such as processing a large amount of data in less time compared to non-distributed methods. However, most distributed approaches suffer from a significant bottleneck - the cost of communications. Therefore, a large amount of research has recently been directed at solving this problem. One such approach uses local data similarity. In particular, there exists an algorithm provably optimally exploiting the similarity property. But this result, as well as results from other works solve the communication bottleneck by focusing only on the fact that communication is significantly more expensive than local computing and does not take into account the various capacities of network devices and the different relationship between communication time and local computing expenses. We consider this setup and the objective of this study is to achieve an optimal ratio of distributed data between the server and local machines for any costs of communications and local computations. The running times of the network are compared between uniform and optimal distributions. The superior theoretical performance of our solutions is experimentally validated.
翻訳日:2024-01-17 16:38:04 公開日:2024-01-15
# VQAにおける視覚的接地法の全可能性

Uncovering the Full Potential of Visual Grounding Methods in VQA ( http://arxiv.org/abs/2401.07803v1 )

ライセンス: Link先を確認
Daniel Reich, Tanja Schultz(参考訳) VQA(Visual Question Answering)における視覚的グラウンドリング(VG)手法は、モデルが質問関連視覚情報に依存することを強化することにより、VQAの性能を向上させる。 視覚入力におけるそのような関連情報の存在は、通常、トレーニングやテストにおいて仮定される。 しかし、この仮定は、大規模なVQAで共通する不完全な画像表現を扱う際には本質的に欠陥があり、視覚的特徴によってもたらされる情報は、期待される地味コンテンツからしばしば逸脱する。 結果として、vg-methodsのトレーニングとテストは、ほとんど不正確なデータで行われ、その潜在的なメリットの適切な評価が妨げられる。 本研究は,vg手法に対する現在の評価手法が,関連する視覚情報の可利用性に欠陥があるため問題となっていることを示す。 その結果,本手法の有効性は極めて過小評価されていることがわかった。

Visual Grounding (VG) methods in Visual Question Answering (VQA) attempt to improve VQA performance by strengthening a model's reliance on question-relevant visual information. The presence of such relevant information in the visual input is typically assumed in training and testing. This assumption, however, is inherently flawed when dealing with imperfect image representations common in large-scale VQA, where the information carried by visual features frequently deviates from expected ground-truth contents. As a result, training and testing of VG-methods is performed with largely inaccurate data, which obstructs proper assessment of their potential benefits. In this work, we demonstrate that current evaluation schemes for VG-methods are problematic due to the flawed assumption of availability of relevant visual information. Our experiments show that the potential benefits of these methods are severely underestimated as a result.
翻訳日:2024-01-17 16:37:50 公開日:2024-01-15
# 低照度環境における歩行者検出:包括的調査

Pedestrian Detection in Low-Light Conditions: A Comprehensive Survey ( http://arxiv.org/abs/2401.07801v1 )

ライセンス: Link先を確認
Bahareh Ghari, Ali Tourani, Asadollah Shahbahrami, and Georgi Gaydadjiev(参考訳) 歩行者検出はコンピュータビジョン、監視、自動運転など、様々な領域において重要な問題である。 特に、低照度での歩行者の正確な即時検出と視界の低下は、事故や命を救うために自動運転車にとって最も重要である。 本稿では, 歩行者検出手法, ベースライン, および低照度を対象とするデータセットを総合的に調査することを目的とする。 本調査は,夜間歩行者検出における課題を考察し,近年提案されている最新手法を考察する。 これらの方法論は、深層学習ベース、特徴ベース、ハイブリッドアプローチを含む多様な範囲を包含しており、困難な照明条件下での歩行者検出性能の向上に有望な結果を示している。 さらに,この分野における研究の方向性を浮き彫りにして,研究者によるさらなる調査に資する潜在的な解決策を明らかにした。 低照度環境での歩行者検出技術を徹底的に検討することにより、より安全で信頼性の高い自動運転システムや歩行者の安全に関するその他の応用の進歩に寄与することを目指す。 したがって、この分野の現在のアプローチのほとんどは、正確で信頼性の高い歩行者検出にディープラーニングベースの画像融合手法(早期、中期、後期融合)を使用している。 さらに、フィールド内のほとんどの作品(約48%)はKAISTデータセットで評価されており、著者が記録した実際のビデオフィードは、作品の6%未満で使用されている。

Pedestrian detection remains a critical problem in various domains, such as computer vision, surveillance, and autonomous driving. In particular, accurate and instant detection of pedestrians in low-light conditions and reduced visibility is of utmost importance for autonomous vehicles to prevent accidents and save lives. This paper aims to comprehensively survey various pedestrian detection approaches, baselines, and datasets that specifically target low-light conditions. The survey discusses the challenges faced in detecting pedestrians at night and explores state-of-the-art methodologies proposed in recent years to address this issue. These methodologies encompass a diverse range, including deep learning-based, feature-based, and hybrid approaches, which have shown promising results in enhancing pedestrian detection performance under challenging lighting conditions. Furthermore, the paper highlights current research directions in the field and identifies potential solutions that merit further investigation by researchers. By thoroughly examining pedestrian detection techniques in low-light conditions, this survey seeks to contribute to the advancement of safer and more reliable autonomous driving systems and other applications related to pedestrian safety. Accordingly, most of the current approaches in the field use deep learning-based image fusion methodologies (i.e., early, halfway, and late fusion) for accurate and reliable pedestrian detection. Moreover, the majority of the works in the field (approximately 48%) have been evaluated on the KAIST dataset, while the real-world video feeds recorded by authors have been used in less than six percent of the works.
翻訳日:2024-01-17 16:37:36 公開日:2024-01-15
# 心エコー図画像と医療記録を用いた連続成層診断

Fusing Echocardiography Images and Medical Records for Continuous Patient Stratification ( http://arxiv.org/abs/2401.07796v1 )

ライセンス: Link先を確認
Nathan Painchaud, Pierre-Yves Courand, Pierre-Marc Jodoin, Nicolas Duchateau, Olivier Bernard(参考訳) 深層学習により、心機能記述子の自動的かつ堅牢な抽出が可能になった。 これらの記述子は、患者の状態を評価するために、医師が臨床記録からよりグローバルな変数とともに考慮するきめ細かい情報を提供する。 表データ(例えば、電子健康記録から抽出された変数)に適用された新しいトランスフォーマーモデルに基づいて、医療記録と心エコーから抽出された全てのディスクリプタを考慮し、心血管疾患、すなわち高血圧の難解な表現を学ぶ方法を提案する。 提案手法では,まず各変数を各表現空間にモーダリティ特有のアプローチで投影する。 これらの標準化されたマルチモーダルデータの表現は、その後トランスフォーマーエンコーダに送られ、臨床評価を予測するプリテキストタスクを通じて患者の包括的表現にマージされる。 この前文課題は、表現空間の病的連続性を強制するための順序分類として定式化される。 この連続体に沿った主要な傾向を239人の高血圧患者のコホートで観察し、高血圧が多くの心機能記述体に与える影響を前例のない程度に記述した。 私たちの分析は 一 限られたデータ(訓練サンプル200本未満)であっても、優れた性能(83%の精度)を達成できる基礎モデルからの事前訓練重量 二 人口の傾向が訓練の間に再現可能であること、及び 三 高血圧との相互作用が十分に文書化されている記述者に対し、そのパターンは、事前の生理的知識と整合する。

Deep learning now enables automatic and robust extraction of cardiac function descriptors from echocardiographic sequences, such as ejection fraction or strain. These descriptors provide fine-grained information that physicians consider, in conjunction with more global variables from the clinical record, to assess patients' condition. Drawing on novel transformer models applied to tabular data (e.g., variables from electronic health records), we propose a method that considers all descriptors extracted from medical records and echocardiograms to learn the representation of a difficult-to-characterize cardiovascular pathology, namely hypertension. Our method first projects each variable into its own representation space using modality-specific approaches. These standardized representations of multimodal data are then fed to a transformer encoder, which learns to merge them into a comprehensive representation of the patient through a pretext task of predicting a clinical rating. This pretext task is formulated as an ordinal classification to enforce a pathological continuum in the representation space. We observe the major trends along this continuum for a cohort of 239 hypertensive patients to describe, with unprecedented gradation, the effect of hypertension on a number of cardiac function descriptors. Our analysis shows that i) pretrained weights from a foundation model allow to reach good performance (83% accuracy) even with limited data (less than 200 training samples), ii) trends across the population are reproducible between trainings, and iii) for descriptors whose interactions with hypertension are well documented, patterns are consistent with prior physiological knowledge.
翻訳日:2024-01-17 16:37:13 公開日:2024-01-15
# 固有次元を用いた量子多体傷の教師なし学習

Unsupervised learning of quantum many-body scars using intrinsic dimension ( http://arxiv.org/abs/2401.07795v1 )

ライセンス: Link先を確認
Harvey Cao, Dimitris G. Angelakis, Daniel Leykam(参考訳) 量子多体散乱系は熱的および非熱的散乱固有状態の両方をスペクトルに含んでいる。 これらの系が、希少な固有状態と高い重なり合いを持つ特別な初期状態から切り離された場合、システムは非典型的には緩やかな緩和と周期的回復を伴うダイナミクスを実行する。 このスカーリング現象は、様々な量子工学の応用においてデコヒーレンスを回避するための潜在的な道のりとなる。 未知のスカーシステムへのアクセスが与えられると、非熱力学につながる特殊状態の同定の現在のアプローチは、絡み合いエントロピーのようなコストのかかる尺度に依存している。 本研究では,多次元スケーリングと固有次元推定という2つの次元削減手法を用いて,PXPモデルにおける力学の構造特性を学習し,熱的および傷跡の初期状態の区別を行う方法について述べる。 後者の手法は, 限られた試料径と実験測定誤差に対して頑健であることを示す。

Quantum many-body scarred systems contain both thermal and non-thermal scar eigenstates in their spectra. When these systems are quenched from special initial states which share high overlap with scar eigenstates, the system undergoes dynamics with atypically slow relaxation and periodic revival. This scarring phenomenon poses a potential avenue for circumventing decoherence in various quantum engineering applications. Given access to an unknown scar system, current approaches for identification of special states leading to nonthermal dynamics rely on costly measures such as entanglement entropy. In this work, we show how two dimensionality reduction techniques, multidimensional scaling and intrinsic dimension estimation, can be used to learn structural properties of dynamics in the PXP model and distinguish between thermal and scar initial states. The latter method is shown to be robust against limited sample sizes and experimental measurement errors.
翻訳日:2024-01-17 16:36:47 公開日:2024-01-15
# 拡張可能なトークン化による大規模言語モデルの柔軟スケーリング

Flexibly Scaling Large Language Models Contexts Through Extensible Tokenization ( http://arxiv.org/abs/2401.07793v1 )

ライセンス: Link先を確認
Ninglu Shao and Shitao Xiao and Zheng Liu and Peitian Zhang(参考訳) 大規模言語モデル(LLM)は、検索拡張生成や少数ショット学習など、多くの重要なアプリケーションを扱うのに十分なコンテキストを必要とする。 しかし、制限されたウィンドウサイズのため、LLMは限られたコンテキスト内でのみ情報にアクセスすることができる。 コンテキストウィンドウのサイズは微調整によって拡張できるが、トレーニングと推論の両方でかなりのコストがかかる。 本稿では,LLMのコンテキストの柔軟なスケーリングを実現する方法として,拡張可能なトークン化を提案する。 拡張トークン化(Extensible Tokenization)は、トークン化されたコンテキストとLLMの間のミドルウェアとして、生トークンの埋め込みを拡張可能な埋め込みに変換する。 このような埋め込みは、LLMが同じコンテキストウィンドウでより多くの情報を知覚できるような、長いコンテキストに対するよりコンパクトな表現を提供する。 拡張可能なトークン化(extensible tokenization)も柔軟性によって特徴付けられる。 スケーリング係数は実行可能なスコープ内で柔軟に決定でき、推論時に任意のコンテキストの長さが拡張される。 さらに、拡張可能なトークン化(Extensible Tokenization)はドロップインコンポーネントとして導入され、LLM自体だけでなく、その微調整されたデリバティブにもシームレスに接続でき、LLMの既存の機能を完全に保存しながら、拡張されたコンテキスト情報をもたらす。 我々は,LLMのコンテキストを拡張するために,拡張可能なトークン化を効果的で効率よく,柔軟で,互換性のある方法として検証する。 私たちのモデルとソースコードは公開されます。

Large language models (LLMs) are in need of sufficient contexts to handle many critical applications, such as retrieval augmented generation and few-shot learning. However, due to the constrained window size, the LLMs can only access to the information within a limited context. Although the size of context window can be extended by fine-tuning, it will result in a substantial cost in both training and inference stage. In this paper, we present Extensible Tokenization as an alternative method which realizes the flexible scaling of LLMs' context. Extensible Tokenization stands as a midware in between of the tokenized context and the LLM, which transforms the raw token embeddings into the extensible embeddings. Such embeddings provide a more compact representation for the long context, on top of which the LLM is able to perceive more information with the same context window. Extensible Tokenization is also featured by its flexibility: the scaling factor can be flexibly determined within a feasible scope, leading to the extension of an arbitrary context length at the inference time. Besides, Extensible Tokenization is introduced as a drop-in component, which can be seamlessly plugged into not only the LLM itself and but also its fine-tuned derivatives, bringing in the extended contextual information while fully preserving the LLM's existing capabilities. We perform comprehensive experiments on long-context language modeling and understanding tasks, which verify Extensible Tokenization as an effective, efficient, flexible, and compatible method to extend LLM's context. Our model and source code will be made publicly available.
翻訳日:2024-01-17 16:36:32 公開日:2024-01-15
# モデルパラレルトレーニングにおけるアクティベーションとグラディエント圧縮

Activations and Gradients Compression for Model-Parallel Training ( http://arxiv.org/abs/2401.07788v1 )

ライセンス: Link先を確認
Mikhail Rudakov, Aleksandr Beznosikov, Yaroslav Kholodov, Alexander Gasnikov(参考訳) 大規模なニューラルネットワークは巨大な計算クラスタを必要とする。 モデル並列トレーニング(Model-parallel training)は、モデルアーキテクチャがワーカ間で順次パーティショニングされる場合、モダンなモデルをトレーニングするための一般的なアプローチである。 情報圧縮は、そのようなシステムではボトルネックとなることが多いため、労働者の通信時間を短縮するために応用できる。 本研究は,モデル並列分散トレーニングにおけるアクティベーションと勾配の同時圧縮が収束に与える影響を考察する。 我々は量子化やTopK圧縮などの圧縮手法を解析し、誤り補償手法を実験する。 さらに,TopKとAQ-SGDをバッチ毎のエラーフィードバック手法として採用する。 画像分類と言語モデルの微調整に関する実験を行う。 以上の結果から, 勾配はアクティベーションよりも軽い圧縮率を必要とすることが示された。 我々は、$k=10\%$が最小のtopk圧縮レベルであり、モデル収束を損なわないことを観察する。 実験により、topkでトレーニングされたモデルは、推論中に圧縮が適用される場合にのみうまく機能することも示されている。 誤差フィードバック手法は, 平易な圧縮に比べてモデル並列訓練を改善せず, ほぼ品質低下のない圧縮のないモデル推論が可能となる。 最後に、aq-sgdアプローチを適用すると、k=30\%$のtopkはモデル性能を大幅に低下させる。

Large neural networks require enormous computational clusters of machines. Model-parallel training, when the model architecture is partitioned sequentially between workers, is a popular approach for training modern models. Information compression can be applied to decrease workers communication time, as it is often a bottleneck in such systems. This work explores how simultaneous compression of activations and gradients in model-parallel distributed training setup affects convergence. We analyze compression methods such as quantization and TopK compression, and also experiment with error compensation techniques. Moreover, we employ TopK with AQ-SGD per-batch error feedback approach. We conduct experiments on image classification and language model fine-tuning tasks. Our findings demonstrate that gradients require milder compression rates than activations. We observe that $K=10\%$ is the lowest TopK compression level, which does not harm model convergence severely. Experiments also show that models trained with TopK perform well only when compression is also applied during inference. We find that error feedback techniques do not improve model-parallel training compared to plain compression, but allow model inference without compression with almost no quality drop. Finally, when applied with the AQ-SGD approach, TopK stronger than with $ K=30\%$ worsens model performance significantly.
翻訳日:2024-01-17 16:36:08 公開日:2024-01-15
# 複合機械学習による19世紀の歴史文書のOCR品質向上

Improving OCR Quality in 19th Century Historical Documents Using a Combined Machine Learning Based Approach ( http://arxiv.org/abs/2401.07787v1 )

ライセンス: Link先を確認
David Fleischhacker, Wolfgang Goederle, Roman Kern(参考訳) 本稿は,19世紀史研究における大きな課題について述べる。 大量のソースが初めてデジタル化され、抽出技術が遅れている。 そこで我々は、機械学習モデルを用いて、高価値な歴史的一次情報源であるSchemaismusの複雑なデータ構造を認識し、抽出した。 1702年から1918年の間、ハプスブルク市民サービスの全ての人物が一定の階層レベルを上回り、2世紀にわたって中央政権の成立を文書化した。 その複雑で複雑な構造と巨大な大きさは、この資料に基づいて、後のハプスブルク帝国の行政構造と社会構造をより包括的に分析することは不可能である。 我々は,ocr品質の改善を主目的とし,構造認識の改善が不可欠であると考え,さらにデータ構造の抽出も可能と結論づけた。 我々は、構造認識のためのMLアーキテクチャの基盤として、Faster R-CNNを選択した。 必要な量のトレーニングデータを迅速かつ経済的に取得するために,モデルトレーニングに使用したhofおよびstaatsschematismus形式のデータを合成した。 その後、モデルは手動で注釈付けされた歴史的なデータの小さなセットで微調整された。 次に,文書のスタイルに最適化されたTesseract-OCRを用いて,構造抽出とOCRプロセスの組み合わせを完成させた。 その結果、OCR性能の標準パラメータであるWERとCER(低い値の方がよい)の2つが大幅に低下した。 構造検出と微調整のOCRを組み合わせることで、CERとWERの値をそれぞれ71.98パーセント(CER)、52.49パーセント(WER)で改善した。

This paper addresses a major challenge to historical research on the 19th century. Large quantities of sources have become digitally available for the first time, while extraction techniques are lagging behind. Therefore, we researched machine learning (ML) models to recognise and extract complex data structures in a high-value historical primary source, the Schematismus. It records every single person in the Habsburg civil service above a certain hierarchical level between 1702 and 1918 and documents the genesis of the central administration over two centuries. Its complex and intricate structure as well as its enormous size have so far made any more comprehensive analysis of the administrative and social structure of the later Habsburg Empire on the basis of this source impossible. We pursued two central objectives: Primarily, the improvement of the OCR quality, for which we considered an improved structure recognition to be essential; in the further course, it turned out that this also made the extraction of the data structure possible. We chose Faster R-CNN as base for the ML architecture for structure recognition. In order to obtain the required amount of training data quickly and economically, we synthesised Hof- und Staatsschematismus-style data, which we used to train our model. The model was then fine-tuned with a smaller set of manually annotated historical source data. We then used Tesseract-OCR, which was further optimised for the style of our documents, to complete the combined structure extraction and OCR process. Results show a significant decrease in the two standard parameters of OCR-performance, WER and CER (where lower values are better). Combined structure detection and fine-tuned OCR improved CER and WER values by remarkable 71.98 percent (CER) respectively 52.49 percent (WER).
翻訳日:2024-01-17 16:35:47 公開日:2024-01-15
# リモートセンシングにおけるセンサ非依存画像検索のためのマスクオートエンコーダの探索

Exploring Masked Autoencoders for Sensor-Agnostic Image Retrieval in Remote Sensing ( http://arxiv.org/abs/2401.07782v1 )

ライセンス: Link先を確認
Jakob Hackstein, Gencer Sumbul, Kai Norman Clasen, Beg\"um Demir(参考訳) マスク付きオートエンコーダ(MAE)による自己教師型学習は,近年,リモートセンシング(RS)画像表現学習に大きな注目を集めている。 しかし、既存のRSにおけるMAEの研究では、検討されたRS画像は単一のイメージセンサによって取得されるため、一様CBIR問題にのみ適している。 異なる画像モダリティにまたがる意味的に類似した画像を探索するクロスセンサーcbirに対するmaesの有効性はまだ検討されていない。 本稿では,センサ非依存型CBIRにおけるMAEsの有効性について検討する。 本研究では,複数センサrs画像アーカイブ(クロスセンサマスク自動エンコーダ(csmaes))上でのマスク画像モデリングを活用すべく,バニラメイの適応の可能性について体系的に概観する。 バニラMAEに適用される様々な調整に基づいて、異なるCSMAEモデルを導入する。 また、これらのCSMAEモデルの広範な実験分析を行った。 RSにおけるユニモーダル・クロスモーダルCBIR問題に対してマスク付き画像モデリングを利用するためのガイドラインを導出する。 この作業のコードはhttps://github.com/jakhac/CSMAEで公開されている。

Self-supervised learning through masked autoencoders (MAEs) has recently attracted great attention for remote sensing (RS) image representation learning, and thus embodies a significant potential for content-based image retrieval (CBIR) from ever-growing RS image archives. However, the existing studies on MAEs in RS assume that the considered RS images are acquired by a single image sensor, and thus are only suitable for uni-modal CBIR problems. The effectiveness of MAEs for cross-sensor CBIR, which aims to search semantically similar images across different image modalities, has not been explored yet. In this paper, we take the first step to explore the effectiveness of MAEs for sensor-agnostic CBIR in RS. To this end, we present a systematic overview on the possible adaptations of the vanilla MAE to exploit masked image modeling on multi-sensor RS image archives (denoted as cross-sensor masked autoencoders [CSMAEs]). Based on different adjustments applied to the vanilla MAE, we introduce different CSMAE models. We also provide an extensive experimental analysis of these CSMAE models. We finally derive a guideline to exploit masked image modeling for uni-modal and cross-modal CBIR problems in RS. The code of this work is publicly available at https://github.com/jakhac/CSMAE.
翻訳日:2024-01-17 16:35:21 公開日:2024-01-15
# テキスト対ビデオ生成のためのより良い指標を目指して

Towards A Better Metric for Text-to-Video Generation ( http://arxiv.org/abs/2401.07781v1 )

ライセンス: Link先を確認
Jay Zhangjie Wu, Guian Fang, Haoning Wu, Xintao Wang, Yixiao Ge, Xiaodong Cun, David Junhao Zhang, Jia-Wei Liu, Yuchao Gu, Rui Zhao, Weisi Lin, Wynne Hsu, Ying Shan, Mike Zheng Shou(参考訳) 生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。 ビデオ生成では、現代のテキスト対ビデオモデルは印象的な機能を示し、視覚的に見事なビデオを制作する。 しかし、これらのビデオの評価には大きな課題がある。 現在の研究は主に、FVD、IS、CLIP Scoreといった自動メトリクスを使用している。 しかし、これらの指標は、特にビデオコンテンツの時間的評価において不完全な分析を提供し、真のビデオ品質の信頼性の低い指標を与える。 さらに、ユーザ研究は人間の知覚を正確に反映する可能性を秘めているが、それらは時間的かつ手間のかかる性質によって阻害され、結果はしばしば主観的バイアスによって影響される。 本稿では,既存のメトリクスに固有の制約を調査し,新しい評価パイプラインであるText-to-Video Score(T2VScore)を導入する。 本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合する。 さらに,提案手法を評価し,今後の改良を図るために,2つの基準による2,543本のビデオの判定結果を集めたtvgeデータセットを提案する。 TVGEデータセットの実験では、提案されたT2VScoreが、テキスト・ビデオ生成のためのより良いメトリックを提供する上で、優位性を示している。

Generative models have demonstrated remarkable capability in synthesizing high-quality text, images, and videos. For video generation, contemporary text-to-video models exhibit impressive capabilities, crafting visually stunning videos. Nonetheless, evaluating such videos poses significant challenges. Current research predominantly employs automated metrics such as FVD, IS, and CLIP Score. However, these metrics provide an incomplete analysis, particularly in the temporal assessment of video content, thus rendering them unreliable indicators of true video quality. Furthermore, while user studies have the potential to reflect human perception accurately, they are hampered by their time-intensive and laborious nature, with outcomes that are often tainted by subjective bias. In this paper, we investigate the limitations inherent in existing metrics and introduce a novel evaluation pipeline, the Text-to-Video Score (T2VScore). This metric integrates two pivotal criteria: (1) Text-Video Alignment, which scrutinizes the fidelity of the video in representing the given text description, and (2) Video Quality, which evaluates the video's overall production caliber with a mixture of experts. Moreover, to evaluate the proposed metrics and facilitate future improvements on them, we present the TVGE dataset, collecting human judgements of 2,543 text-to-video generated videos on the two criteria. Experiments on the TVGE dataset demonstrate the superiority of the proposed T2VScore on offering a better metric for text-to-video generation.
翻訳日:2024-01-17 16:34:53 公開日:2024-01-15
# アクセプタビリティ判断のための量子伝達学習

Quantum Transfer Learning for Acceptability Judgements ( http://arxiv.org/abs/2401.07777v1 )

ライセンス: Link先を確認
Giuseppe Buonaiuto, Raffaele Guarasci, Aniello Minutolo, Giuseppe De Pietro, Massimo Esposito(参考訳) ハイブリッド量子古典型分類器は自然言語処理タスク、特に分類関連タスクの重要な側面に積極的に影響を与えることを約束している。 現在検討されている可能性のうち、量子転送学習(量子回路)は、特定のタスクのために訓練済みの古典的モデルを微調整するために用いられる。 本研究は,大規模言語モデルから抽出した埋め込みベクトルに基づいて学習した量子伝達学習アルゴリズムの性能と表現力の両面から,古典言語課題の分類を行うための潜在的利点を示す。 受容性判断 (acceptability judgment) とは、母国語話者が文を自然と見なすかどうかを判断する能力である。 このアプローチは、受け入れ判断でラベルづけされたイタリア語の文章を収集するコーパスであるitacolaから抽出された文でテストされている。 評価フェーズは、最先端の古典的転送学習アルゴリズムに匹敵する量子転送学習パイプラインの結果を示し、現在の量子コンピュータのnlpタスクに取り組む能力を証明する。 さらに、説明可能なAI手法によって支援された定性的な言語分析は、量子トランスファー学習アルゴリズムが、古典的な文に比べて複雑でより構造化された文を正しく分類する能力を明らかにする。 この発見は、近い将来、NLPにおける量子量的な量子優位性の基礎となる。

Hybrid quantum-classical classifiers promise to positively impact critical aspects of natural language processing tasks, particularly classification-related ones. Among the possibilities currently investigated, quantum transfer learning, i.e., using a quantum circuit for fine-tuning pre-trained classical models for a specific task, is attracting significant attention as a potential platform for proving quantum advantage. This work shows potential advantages, both in terms of performance and expressiveness, of quantum transfer learning algorithms trained on embedding vectors extracted from a large language model to perform classification on a classical Linguistics task: acceptability judgments. Acceptability judgment is the ability to determine whether a sentence is considered natural and well-formed by a native speaker. The approach has been tested on sentences extracted from ItaCoLa, a corpus that collects Italian sentences labeled with their acceptability judgment. The evaluation phase shows results for the quantum transfer learning pipeline comparable to state-of-the-art classical transfer learning algorithms, proving current quantum computers' capabilities to tackle NLP tasks for ready-to-use applications. Furthermore, a qualitative linguistic analysis, aided by explainable AI methods, reveals the capabilities of quantum transfer learning algorithms to correctly classify complex and more structured sentences, compared to their classical counterpart. This finding sets the ground for a quantifiable quantum advantage in NLP in the near future.
翻訳日:2024-01-17 16:34:15 公開日:2024-01-15
# 説明可能な予測保守: 現状の方法, 課題, 機会の調査

Explainable Predictive Maintenance: A Survey of Current Methods, Challenges and Opportunities ( http://arxiv.org/abs/2401.07871v1 )

ライセンス: Link先を確認
Logan Cummins, Alex Sommers, Somayeh Bakhtiari Ramezani, Sudip Mittal, Joseph Jabour, Maria Seale, Shahram Rahimi(参考訳) 予測メンテナンス(英: Predictive maintenance)は、人工知能と機械学習を用いて機械システムの寿命を延ばし、メンテナンスを行う最適な時間を予測することを目的とした、よく研究された技術の集合である。 この方法により、システムやハードウェアのメンテナは、アップキープの金銭的および時間的コストを削減できる。 これらの手法は、より深刻で生命を脅かすアプリケーションに採用されているため、人間のオペレーターは予測システムを信頼する必要がある。 このことは、予測システムに説明可能性と解釈可能性を導入するために、説明可能なAI(XAI)の分野を惹きつける。 XAIは、優れたシステムを維持しながら、ユーザの信頼を増幅できる予測保守の分野にメソッドをもたらす。 本研究は,システムレビューとメタアナリシス(prisma)2020ガイドラインの望ましい報告項目に従って,予測保守に適用するxaiの現状を考察し,提示する。 異なるXPM手法をXAI文献に従うグループに分類する。 また、XPMにおける現在の課題や今後の研究方向性についても論じる。

Predictive maintenance is a well studied collection of techniques that aims to prolong the life of a mechanical system by using artificial intelligence and machine learning to predict the optimal time to perform maintenance. The methods allow maintainers of systems and hardware to reduce financial and time costs of upkeep. As these methods are adopted for more serious and potentially life-threatening applications, the human operators need trust the predictive system. This attracts the field of Explainable AI (XAI) to introduce explainability and interpretability into the predictive system. XAI brings methods to the field of predictive maintenance that can amplify trust in the users while maintaining well-performing systems. This survey on explainable predictive maintenance (XPM) discusses and presents the current methods of XAI as applied to predictive maintenance while following the Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) 2020 guidelines. We categorize the different XPM methods into groups that follow the XAI literature. Additionally, we include current challenges and a discussion on future research directions in XPM.
翻訳日:2024-01-17 16:26:47 公開日:2024-01-15
# JumpCoder: オンライン修正による自動回帰コーダを超えて

JumpCoder: Go Beyond Autoregressive Coder via Online Modification ( http://arxiv.org/abs/2401.07870v1 )

ライセンス: Link先を確認
Mouxiang Chen, Hao Tian, Zhongxin Liu, Xiaoxue Ren, Jianling Sun(参考訳) 既存のコード大言語モデル(コードLLM)はコード生成に優れた能力を示すが、自己回帰的なシーケンシャル生成は本質的に可逆性に欠ける。 この制限は、人間がコーディングしているように、以前の欠落文をタイムリーに修正することを妨げる。 我々は、オンライン修正と非シーケンス生成を可能にする新しいモデル非依存フレームワークであるjumpcoderを紹介する。 JumpCoderの背景にある重要なアイデアは、生成時に必要に応じて、現在生成されたコードに新しいコードを挿入することである。 最善のインフィル位置を事前に特定することは困難であるため、各ラインの生成後に最も重要な位置をk$で満たすことを実験し、生成モデルのスコア付けと並行して抽象構文木(ast)パーサを使用して、それぞれの潜在インフィルの有効性を効果的に判断するインフィルファースト・ジャッジ・レイター戦略を採用する。 複数のベンチマークにまたがる6つの最先端のコード LLM を用いた大規模な実験は、すべてのベースラインに対する大幅な改善を一貫して示している。 特にJumpCoderは,Python用Pass@1の最大3.6%増加,Java用6.3%,多言語HumanEvalベンチマーク用C++用3.7%のコードLLMをサポートする。 私たちのコードはhttps://github.com/keytoyze/jumpcoder.comで公開しています。

While existing code large language models (code LLMs) exhibit impressive capabilities in code generation, their autoregressive sequential generation inherently lacks reversibility. This limitation hinders them from timely correcting previous missing statements during coding as humans do, often leading to error propagation and suboptimal performance. We introduce JumpCoder, a novel modelagnostic framework that enables online modification and non-sequential generation to augment the code LLMs. The key idea behind JumpCoder is to insert new code into the currently generated code when necessary during generation, which is achieved through an auxiliary infilling model that works in tandem with the code LLM. Since identifying the best infill position beforehand is intractable, we adopt an infill-first, judge-later strategy, which experiments with filling at the $k$ most critical positions following the generation of each line, and uses an Abstract Syntax Tree (AST) parser alongside the Generation Model Scoring to effectively judge the validity of each potential infill. Extensive experiments using six state-of-the-art code LLMs across multiple benchmarks consistently indicate significant improvements over all baselines. Notably, JumpCoder assists code LLMs in achieving up to a 3.6% increase in Pass@1 for Python, 6.3% for Java, and 3.7% for C++ in the multilingual HumanEval benchmarks. Our code is public at https://github.com/Keytoyze/JumpCoder.
翻訳日:2024-01-17 16:26:27 公開日:2024-01-15
# 大規模言語モデルを用いたロボット計画の統合と信頼性向上

Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability ( http://arxiv.org/abs/2401.07868v1 )

ライセンス: Link先を確認
Md Sadman Sakib and Yu Sun(参考訳) 大きな言語モデル(llm)の本質的な確率的性質は予測不可能性の要素をもたらし、出力の潜在的な不一致に関する懸念を引き起こす。 本稿では,多様な現実の要求やシナリオに対して,適切なロボットタスク計画を生成するための革新的なアプローチを提案する。 llmはタスクプランの生成に使用されてきたが,信頼性が低く,誤ったステップや疑わしいステップ,あるいはコストの高いステップを含む場合もある。 提案手法はLLMを用いて木として多くのタスクプランを生成し,問題のあるパスを除去してグラフにマージする。 そして、最適なタスクツリーを検索して、疑わしい高コストノードを回避し、計画精度と実行効率を向上させる。 このアプローチは、大きな知識ネットワークを組み込むことによってさらに改善される。 さらに、GPT-4を活用して、ロボットによって実行可能な低レベル計画領域定義言語(PDDL)プランに変換する。 評価結果は,タスクプランニングの分野における従来の手法と比較して,アプローチの精度と効率性に優れていた。

The inherent probabilistic nature of Large Language Models (LLMs) introduces an element of unpredictability, raising concerns about potential discrepancies in their output. This paper introduces an innovative approach aims to generate correct and optimal robotic task plans for diverse real-world demands and scenarios. LLMs have been used to generate task plans, but they are unreliable and may contain wrong, questionable, or high-cost steps. The proposed approach uses LLM to generate a number of task plans as trees and amalgamates them into a graph by removing questionable paths. Then an optimal task tree can be retrieved to circumvent questionable and high-cost nodes, thereby improving planning accuracy and execution efficiency. The approach is further improved by incorporating a large knowledge network. Leveraging GPT-4 further, the high-level task plan is converted into a low-level Planning Domain Definition Language (PDDL) plan executable by a robot. Evaluation results highlight the superior accuracy and efficiency of our approach compared to previous methodologies in the field of task planning.
翻訳日:2024-01-17 16:25:59 公開日:2024-01-15
# 多言語機械生成テキスト検出におけるオーサシップ難読化

Authorship Obfuscation in Multilingual Machine-Generated Text Detection ( http://arxiv.org/abs/2401.07867v1 )

ライセンス: Link先を確認
Dominik Macko, Robert Moro, Adaku Uchendu, Ivan Srba, Jason Samuel Lucas, Michiharu Yamashita, Nafis Irtiza Tripto, Dongwon Lee, Jakub Simko, Maria Bielikova(参考訳) 最新のLarge Language Models (LLM) の高品質なテキスト生成能力は、その誤用(例えば、大量生成や偽情報の拡散)に対する懸念を引き起こす。 このような脅威に対処するためには、機械生成テキスト(MGT)検出が重要である。 しかし、Paraphrasingのようなオーサリング難読化(AO)法には感受性があり、MGTが検出を回避できる可能性がある。 今のところ、これは単言語環境でのみ評価されている。 したがって、最近提案された多言語検出器の感受性はまだ不明である。 このギャップを埋めるために、よく知られた10のAOメソッドのパフォーマンスを総合的にベンチマークし、11言語(例えば10$\times$37 $\times$ 11 = 4,070コンビネーション)のMGTに対して37のMGT検出メソッドを攻撃した。 また,データ拡張が難読テキストを用いた逆ロバスト性に与える影響も評価した。 その結果, ホモグリフ攻撃が特に成功した全ての試験言語において, テストされたAOメソッドが検出回避を引き起こす可能性が示唆された。

High-quality text generation capability of latest Large Language Models (LLMs) causes concerns about their misuse (e.g., in massive generation/spread of disinformation). Machine-generated text (MGT) detection is important to cope with such threats. However, it is susceptible to authorship obfuscation (AO) methods, such as paraphrasing, which can cause MGTs to evade detection. So far, this was evaluated only in monolingual settings. Thus, the susceptibility of recently proposed multilingual detectors is still unknown. We fill this gap by comprehensively benchmarking the performance of 10 well-known AO methods, attacking 37 MGT detection methods against MGTs in 11 languages (i.e., 10 $\times$ 37 $\times$ 11 = 4,070 combinations). We also evaluate the effect of data augmentation on adversarial robustness using obfuscated texts. The results indicate that all tested AO methods can cause detection evasion in all tested languages, where homoglyph attacks are especially successful.
翻訳日:2024-01-17 16:25:42 公開日:2024-01-15
# ベンチマーク双曲型PDEの適応型ニューラル・オペレータ・バックステッピング制御

Adaptive Neural-Operator Backstepping Control of a Benchmark Hyperbolic PDE ( http://arxiv.org/abs/2401.07862v1 )

ライセンス: Link先を確認
Maxence Lamarque, Luke Bhan, Yuanyuan Shi, Miroslav Krstic(参考訳) PDEを安定させるためには、フィードバックコントローラはPDEによって制御されるカーネル関数を取得する必要がある。 さらに、これらのゲインカーネルPDEはPDEプラントの機能係数に依存する。 PDE植物の機能係数はしばしば不明である。 これはPDE制御への適応的なアプローチ、すなわち、プラント係数関数推定の更新時にゲインカーネルの別個のPDEを各タイミングで解決しなければならない、制御と同時に実行されるプラント係数を推定する必要がある。 各時点におけるPDEの解法は計算コストが高く、PDEのリアルタイム適応制御の実装における障壁となる。 近年、ゲインカーネルの計算をトレーニングし、一度オフラインにし、PDEの高速解のためにリアルタイムで再利用するニューラルネットワークに置き換えるため、関数型マッピングのニューラルネットワーク(NO)近似がPDE制御に導入されている。 本稿では, 適応型PDE制御におけるNOsの適用に関する最初の結果を示し, 再循環を伴うベンチマーク1次元双曲型PDEについて述べる。 我々は、リアプノフ解析とパラメータエラー状態によるグローバル安定化を確立し、また、カーネルの微分可能性に対する強い仮定を回避するパッシブ識別子による代替手法を提案する。 次に,安定性を示す数値シミュレーションを行い,最大3桁までの速度上昇を観測し,適応制御におけるニューラルネットワークのリアルタイム有効性を示す。 私たちのコード(Github)は、将来の研究者に公開されています。

To stabilize PDEs, feedback controllers require gain kernel functions, which are themselves governed by PDEs. Furthermore, these gain-kernel PDEs depend on the PDE plants' functional coefficients. The functional coefficients in PDE plants are often unknown. This requires an adaptive approach to PDE control, i.e., an estimation of the plant coefficients conducted concurrently with control, where a separate PDE for the gain kernel must be solved at each timestep upon the update in the plant coefficient function estimate. Solving a PDE at each timestep is computationally expensive and a barrier to the implementation of real-time adaptive control of PDEs. Recently, results in neural operator (NO) approximations of functional mappings have been introduced into PDE control, for replacing the computation of the gain kernel with a neural network that is trained, once offline, and reused in real-time for rapid solution of the PDEs. In this paper, we present the first result on applying NOs in adaptive PDE control, presented for a benchmark 1-D hyperbolic PDE with recirculation. We establish global stabilization via Lyapunov analysis, in the plant and parameter error states, and also present an alternative approach, via passive identifiers, which avoids the strong assumptions on kernel differentiability. We then present numerical simulations demonstrating stability and observe speedups up to three orders of magnitude, highlighting the real-time efficacy of neural operators in adaptive control. Our code (Github) is made publicly available for future researchers.
翻訳日:2024-01-17 16:25:22 公開日:2024-01-15
# 情報隠蔽カメラ:一般画像への物体情報の光学的隠蔽

Information hiding cameras: optical concealment of object information into ordinary images ( http://arxiv.org/abs/2401.07856v1 )

ライセンス: Link先を確認
Bijie Bai, Ryan Lee, Yuhang Li, Tianyi Gan, Yuntian Wang, Mona Jarrahi, and Aydogan Ozcan(参考訳) 暗号のようなデータ保護手法は、効果的であるにもかかわらず、必然的に秘密通信の存在を知らせ、不適切な注意を惹きつける。 本稿では,電子デコーダと統合された光情報隠蔽カメラについて紹介する。 この情報隠蔽復号システムは、回折光プロセッサをフロントエンドとして使用し、人間のオブザーバーを欺いたり誤解させたりする通常のパターンの形で入力画像を変換し、隠蔽する。 この情報隠蔽変換は、秘密メッセージの無限に多くの組み合わせに有効であり、これらは全て通常の出力パターンに変換され、光学プロセッサ内の受動光-マター相互作用によって全光学的に達成される。 これらの通常の出力画像を処理することにより、共同学習された電子デコーダニューラルネットワークは、偽りの出力パターン内に隠された元の情報を正確に再構成する。 我々は,協調最適化畳み込みデコーダニューラルネットワークと共に,情報隠蔽型回折カメラの設計により,この手法を数値的に実証した。 本システムの有効性は,様々な照明条件と騒音レベルにおいて実証され,頑健性が示された。 さらに、この情報隠蔽カメラをマルチスペクトル動作に拡張し、異なる波長の複数の画像の隠蔽と復号を単一のフィードフォワード動作で同時に行えるようにした。 また, thz放射を用いて, 本手法の有効性を実験的に検証した。 この光エンコーダ-電子デコーダ-ベースの共設計は、高速かつ省エネなカメラインターフェースを隠蔽し、視覚情報セキュリティのための興味深いソリューションを提供する。

Data protection methods like cryptography, despite being effective, inadvertently signal the presence of secret communication, thereby drawing undue attention. Here, we introduce an optical information hiding camera integrated with an electronic decoder, optimized jointly through deep learning. This information hiding-decoding system employs a diffractive optical processor as its front-end, which transforms and hides input images in the form of ordinary-looking patterns that deceive/mislead human observers. This information hiding transformation is valid for infinitely many combinations of secret messages, all of which are transformed into ordinary-looking output patterns, achieved all-optically through passive light-matter interactions within the optical processor. By processing these ordinary-looking output images, a jointly-trained electronic decoder neural network accurately reconstructs the original information hidden within the deceptive output pattern. We numerically demonstrated our approach by designing an information hiding diffractive camera along with a jointly-optimized convolutional decoder neural network. The efficacy of this system was demonstrated under various lighting conditions and noise levels, showing its robustness. We further extended this information hiding camera to multi-spectral operation, allowing the concealment and decoding of multiple images at different wavelengths, all performed simultaneously in a single feed-forward operation. The feasibility of our framework was also demonstrated experimentally using THz radiation. This optical encoder-electronic decoder-based co-design provides a novel information hiding camera interface that is both high-speed and energy-efficient, offering an intriguing solution for visual information security.
翻訳日:2024-01-17 16:24:58 公開日:2024-01-15
# m^{2}$fusion: bayesian-based multimodal multi-level fusion on colon cancer microsatellite instability prediction

$M^{2}$Fusion: Bayesian-based Multimodal Multi-level Fusion on Colorectal Cancer Microsatellite Instability Prediction ( http://arxiv.org/abs/2401.07854v1 )

ライセンス: Link先を確認
Quan Liu, Jiawen Yao, Lisha Yao, Xin Chen, Jingren Zhou, Le Lu, Ling Zhang, Zaiyi Liu, and Yuankai Huo(参考訳) 大腸がん (crc) micro-satellite instability (msi) prediction on histopathology imagesは、ギガピクセル画像におけるマルチインテンス学習を伴う、弱い教師付き学習課題である。 現在までに、放射線画像はCRC MSI情報と効率的な患者画像技術を有することが証明されている。 異なるデータモダリティの統合は、msi予測の正確性と堅牢性を高める機会を提供する。 スライド画像全体(WSI)からの表現学習の進歩と、放射線学データの利用の可能性を探る一方で、CRC MSI予測は、複数のデータモダリティ(例えば、病理WSIと放射線学CT画像)から情報を融合させることが困難である。 本稿では,CRC MSIのためのベイズ型マルチモーダル多層核融合パイプラインであるM^{2}$Fusionを提案する。 提案する核融合モデル $m^{2}$fusion は,msi の予測に有用であり,他の核融合法と同様に単一モードのみを用いるよりも多くの新しいパターンを発見することができる。 本論文のコントリビューションは,(1)M^{2}$FusionはMSI予測のための病理診断用多段階融合の最初のパイプラインであり,(2)CT画像はCRC MSI予測のためのマルチモーダル融合に初めて統合され,(3)TransformerベースとCNNベースの両方で機能レベルの融合戦略が評価される。 提案手法は,352例のクロスバリデーションで検証され,特徴レベル (0.8177 vs. 0.7908) と決定レベル融合戦略 (0.8177 vs. 0.7289) のどちらよりも優れていた。

Colorectal cancer (CRC) micro-satellite instability (MSI) prediction on histopathology images is a challenging weakly supervised learning task that involves multi-instance learning on gigapixel images. To date, radiology images have proven to have CRC MSI information and efficient patient imaging techniques. Different data modalities integration offers the opportunity to increase the accuracy and robustness of MSI prediction. Despite the progress in representation learning from the whole slide images (WSI) and exploring the potential of making use of radiology data, CRC MSI prediction remains a challenge to fuse the information from multiple data modalities (e.g., pathology WSI and radiology CT image). In this paper, we propose $M^{2}$Fusion: a Bayesian-based multimodal multi-level fusion pipeline for CRC MSI. The proposed fusion model $M^{2}$Fusion is capable of discovering more novel patterns within and across modalities that are beneficial for predicting MSI than using a single modality alone, as well as other fusion methods. The contribution of the paper is three-fold: (1) $M^{2}$Fusion is the first pipeline of multi-level fusion on pathology WSI and 3D radiology CT image for MSI prediction; (2) CT images are the first time integrated into multimodal fusion for CRC MSI prediction; (3) feature-level fusion strategy is evaluated on both Transformer-based and CNN-based method. Our approach is validated on cross-validation of 352 cases and outperforms either feature-level (0.8177 vs. 0.7908) or decision-level fusion strategy (0.8177 vs. 0.7289) on AUC score.
翻訳日:2024-01-17 16:24:29 公開日:2024-01-15
# VeCAF: 目標認識を訓練したVLMを用いた協調型アクティブファインタニング

VeCAF: VLM-empowered Collaborative Active Finetuning with Training Objective Awareness ( http://arxiv.org/abs/2401.07853v1 )

ライセンス: Link先を確認
Rongyu Zhang, Zefan Cai, Huanrui Yang, Zidong Liu, Denis Gudovskiy, Tomoyuki Okuno, Yohei Nakata, Kurt Keutzer, Baobao Chang, Yuan Du, Li Du, Shanghang Zhang(参考訳) PVM(Pretrained Vision Model)は、下流の視覚タスクを学習するための一般的なテクニックである。 ランダムなサンプルデータポイントを用いた従来の微調整処理はトレーニング効率を低下させる。 この欠点に対処するため,VLMを用いた協調アクティブファインタニング(VeCAF)を提案する。 VeCAFは、調整対象モデルのトレーニング目標を組み込むことで、パラメトリックデータ選択モデルを最適化する。 これにより、PVMはデータの改善と計算効率の向上によってパフォーマンス目標に向かって導かれる。 視覚言語モデル(vlms)は,画像領域と言語領域間の強固な接続を確立することによって大きな進歩を遂げたため,テキスト埋め込み空間の固有の意味的豊かさを活用し,事前学習されたvlmモデルのテキスト埋め込みを活用し,pvm画像機能を強化し,データ選択と微調整を改善した。 さらに、テキストドメイン拡張の柔軟性により、VeCAFは外部拡張データなしで配布外シナリオを処理できるユニークな機能を提供する。 広汎な実験は、分布内および分布外画像分類タスクにおいて、ベースラインよりも優れたVeCAFの先行性能と高い効率を示す。 ImageNetでは、VeCAFは完全な微調整よりも目標性能に到達するために最大3.3倍のトレーニングバッチを必要とし、同じバッチ数を持つSOTAメソッドよりも2.8%精度が向上している。

Finetuning a pretrained vision model (PVM) is a common technique for learning downstream vision tasks. The conventional finetuning process with the randomly sampled data points results in diminished training efficiency. To address this drawback, we propose a novel approach, VLM-empowered Collaborative Active Finetuning (VeCAF). VeCAF optimizes a parametric data selection model by incorporating the training objective of the model being tuned. Effectively, this guides the PVM towards the performance goal with improved data and computational efficiency. As vision-language models (VLMs) have achieved significant advancements by establishing a robust connection between image and language domains, we exploit the inherent semantic richness of the text embedding space and utilize text embedding of pretrained VLM models to augment PVM image features for better data selection and finetuning. Furthermore, the flexibility of text-domain augmentation gives VeCAF a unique ability to handle out-of-distribution scenarios without external augmented data. Extensive experiments show the leading performance and high efficiency of VeCAF that is superior to baselines in both in-distribution and out-of-distribution image classification tasks. On ImageNet, VeCAF needs up to 3.3x less training batches to reach the target performance compared to full finetuning and achieves 2.8% accuracy improvement over SOTA methods with the same number of batches.
翻訳日:2024-01-17 16:23:54 公開日:2024-01-15
# 大規模言語モデル推論における解錠効率:投機的復号化に関する総合的な調査

Unlocking Efficiency in Large Language Model Inference: A Comprehensive Survey of Speculative Decoding ( http://arxiv.org/abs/2401.07851v1 )

ライセンス: Link先を確認
Heming Xia, Zhe Yang, Qingxiu Dong, Peiyi Wang, Yongqi Li, Tao Ge, Tianyu Liu, Wenjie Li, Zhifang Sui(参考訳) 大規模言語モデル(LLM)における自己回帰復号化に起因する高い推論遅延を軽減するため、投機的復号化はLLM推論の新しい復号パラダイムとして登場した。 各デコーディングステップにおいて、このメソッドは、まずいくつかの将来のトークンを効率的にドラフトし、それからそれらを並列に検証する。 自己回帰デコーディングとは異なり、投機的デコーディングはステップ毎に複数のトークンを同時にデコーディングし、推論を加速させる。 本稿では,このデコーディングパラダイムの包括的概要と解析について述べる。 まず、形式的な定義と投機的復号の定式化を提供することから始める。 そして,その重要な課題について,現在の先導技術,直面する課題,この分野の今後の方向性など,詳細な議論をまとめる。 本研究は、投機的復号化のさらなる研究の触媒となることを目指しており、最終的にはより効率的なLLM推論に寄与する。

To mitigate the high inference latency stemming from autoregressive decoding in Large Language Models (LLMs), Speculative Decoding has emerged as a novel decoding paradigm for LLM inference. In each decoding step, this method first efficiently drafts several future tokens and then verifies them in parallel. Unlike autoregressive decoding, Speculative Decoding facilitates the simultaneous decoding of multiple tokens per step, thereby accelerating inference. This paper presents a comprehensive overview and analysis of this promising decoding paradigm. We begin by providing a formal definition and formulation of Speculative Decoding. Then, we organize in-depth discussions on its key facets, including current leading techniques, the challenges faced, and potential future directions in this field. We aim for this work to serve as a catalyst for further research on Speculative Decoding, ultimately contributing to more efficient LLM inference.
翻訳日:2024-01-17 16:23:30 公開日:2024-01-15
# トランスフォーマーモデルを活用したベンガル感情分析におけるマイルストーン:基本,課題,今後の方向性

Milestones in Bengali Sentiment Analysis leveraging Transformer-models: Fundamentals, Challenges and Future Directions ( http://arxiv.org/abs/2401.07847v1 )

ライセンス: Link先を確認
Saptarshi Sengupta, Shreya Ghosh, Prasenjit Mitra, Tarikul Islam Tamiti(参考訳) 感性分析(英: Sentiment Analysis、SA)とは、あるテキストに視極性(通常、肯定的、否定的、あるいは中立的)を関連付けるタスクであり、基本的には監督された(ビューラベルを持つ)分類タスクに分解するものである。 英語などの資源に富んだ言語では、トランスフォーマーアーキテクチャーの登場によりSOTAが飛躍と限界によって押し上げられるように研究されているが、ベンガル語(BN)のような資源に乏しい言語では、そうは言えない。 約3億人が話す言語にとって、彼らが好意的な舌で試用できる技術は非常に不足している。 本稿では,ベンガルにおけるSAのSOTA解析,特にトランスフォーマーモデルについて述べる。 利用可能なデータセット、その欠点、Bengaliに関連するニュアンス、すなわち、SAをオンにするのが難しい言語であること、そして最後に、フィールドの制限を軽減するための今後の方向性に関する洞察を提供する。

Sentiment Analysis (SA) refers to the task of associating a view polarity (usually, positive, negative, or neutral; or even fine-grained such as slightly angry, sad, etc.) to a given text, essentially breaking it down to a supervised (since we have the view labels apriori) classification task. Although heavily studied in resource-rich languages such as English thus pushing the SOTA by leaps and bounds, owing to the arrival of the Transformer architecture, the same cannot be said for resource-poor languages such as Bengali (BN). For a language spoken by roughly 300 million people, the technology enabling them to run trials on their favored tongue is severely lacking. In this paper, we analyze the SOTA for SA in Bengali, particularly, Transformer-based models. We discuss available datasets, their drawbacks, the nuances associated with Bengali i.e. what makes this a challenging language to apply SA on, and finally provide insights for future direction to mitigate the limitations in the field.
翻訳日:2024-01-17 16:23:13 公開日:2024-01-15
# マルコフ雑音を用いた確率近似と強化学習のためのode法

The ODE Method for Stochastic Approximation and Reinforcement Learning with Markovian Noise ( http://arxiv.org/abs/2401.07844v1 )

ライセンス: Link先を確認
Shuze Liu, Shuhang Chen, Shangtong Zhang(参考訳) 確率近似(英: stochastic approximation)は、ベクトルを反復的に、漸進的に、そして確率的に更新するアルゴリズムのクラスである。 確率近似アルゴリズムを解析する基本的な課題は、その安定性、すなわち確率ベクトル反復がほぼ確実に有界であることを示すことである。 本稿では, マルティンゲール差分雑音設定からマルコフ雑音設定への安定性に対するボルカー・マインの定理を拡張し, 強化学習, 特に線形関数近似と適性トレースを用いたオフポリシー強化学習アルゴリズムに適用性を大幅に向上させた。 我々の分析の中心は、少数の函数の変化の漸近速度の減少であり、これは大数の強い法則の形式とよく使われるV4リャプノフドリフト条件の両方によって示唆され、マルコフ鎖が有限で既約であれば自明に成り立つ。

Stochastic approximation is a class of algorithms that update a vector iteratively, incrementally, and stochastically, including, e.g., stochastic gradient descent and temporal difference learning. One fundamental challenge in analyzing a stochastic approximation algorithm is to establish its stability, i.e., to show that the stochastic vector iterates are bounded almost surely. In this paper, we extend the celebrated Borkar-Meyn theorem for stability from the Martingale difference noise setting to the Markovian noise setting, which greatly improves its applicability in reinforcement learning, especially in those off-policy reinforcement learning algorithms with linear function approximation and eligibility traces. Central to our analysis is the diminishing asymptotic rate of change of a few functions, which is implied by both a form of strong law of large numbers and a commonly used V4 Lyapunov drift condition and trivially holds if the Markov chain is finite and irreducible.
翻訳日:2024-01-17 16:22:52 公開日:2024-01-15
# AI既存リスクの2つのタイプ:決定的かつ累積的

Two Types of AI Existential Risk: Decisive and Accumulative ( http://arxiv.org/abs/2401.07836v1 )

ライセンス: Link先を確認
Atoosa Kasirzadeh(参考訳) AIからの現実的リスク(xリスク)に関する従来の談話は、一般的には、高度なAIシステム、特に人間レベルの知性を達成したり、超えたりすることによる、突発的で恐ろしい出来事に焦点を当てている。 これらの出来事は、人類の絶滅に繋がる深刻な結果をもたらすか、あるいは不可逆的に人間の文明を回復の限界まで破壊する。 しかし、この談話はしばしば、より小さく相互接続された一連の混乱を通じて徐々に現れるai x-リスクの深刻な可能性を無視し、徐々に臨界しきい値を超えていく。 本稿では,従来の「決定的ai x-risk仮説」と「蓄積的ai x-risk仮説」を対比する。 前者は、制御不能な超知能のようなシナリオを特徴とする、AIによる過剰な乗っ取り経路を想定しているが、後者は、実在する災害に対する別の因果経路を示唆している。 これには、深刻な脆弱性やエコノポリティカルな構造の体系的侵食など、AIによって引き起こされる脅威が徐々に蓄積される。 累積仮説は、インクリメンタルaiのリスクがゆっくりと収束し、引き起こされる事象が不可逆的な崩壊に至るまでレジリエンスを損なう、沸騰するカエルシナリオを示唆する。 システム分析を通じて,これら2つの仮説を区別する明確な仮定について検討する。 累積的な視点は、AIリスクに関する一見互換性のない視点を一致させる、と論じられている。 これらの因果経路 – 決定的かつ累積的 – との違いが,AIリスクのガバナンスや長期的なAI安全性に与える影響について論じる。

The conventional discourse on existential risks (x-risks) from AI typically focuses on abrupt, dire events caused by advanced AI systems, particularly those that might achieve or surpass human-level intelligence. These events have severe consequences that either lead to human extinction or irreversibly cripple human civilization to a point beyond recovery. This discourse, however, often neglects the serious possibility of AI x-risks manifesting incrementally through a series of smaller yet interconnected disruptions, gradually crossing critical thresholds over time. This paper contrasts the conventional "decisive AI x-risk hypothesis" with an "accumulative AI x-risk hypothesis." While the former envisions an overt AI takeover pathway, characterized by scenarios like uncontrollable superintelligence, the latter suggests a different causal pathway to existential catastrophes. This involves a gradual accumulation of critical AI-induced threats such as severe vulnerabilities and systemic erosion of econopolitical structures. The accumulative hypothesis suggests a boiling frog scenario where incremental AI risks slowly converge, undermining resilience until a triggering event results in irreversible collapse. Through systems analysis, this paper examines the distinct assumptions differentiating these two hypotheses. It is then argued that the accumulative view reconciles seemingly incompatible perspectives on AI risks. The implications of differentiating between these causal pathways -- the decisive and the accumulative -- for the governance of AI risks as well as long-term AI safety are discussed.
翻訳日:2024-01-17 16:22:32 公開日:2024-01-15
# 位相空間エントロピー生成速度における初期コヒーレンスの役割

The role of initial coherence in the phase-space entropy production rate ( http://arxiv.org/abs/2401.07833v1 )

ライセンス: Link先を確認
Giorgio Zicari and Bar{\i}\c{s} \c{C}akmak and Mauro Paternostro(参考訳) 熱力学の第2の法則はエントロピー生成の観点で表すことができ、これはプロセスの不可逆性の度合いを定量化するために用いられる。 本章では,システムが外部環境と不可逆的に相互作用するオープン量子システムの標準的なシナリオについて考察する。 我々は、フォン・ノイマンエントロピーに基づく標準的アプローチが、問題の位相空間の定式化によって置き換えられることを示した。 特に、いわゆるスピンコヒーレント状態を用いて記述できるスピン系に焦点を当てる。 我々は、エントロピー生成速度とシステムで利用可能な初期量子コヒーレンスの間の相互作用を研究するために、この形式を展開する。

The second law of thermodynamics can be expressed in terms of entropy production, which can be used to quantify the degree of irreversibility of a process. In this Chapter, we consider the standard scenario of open quantum systems, where a system irreversibly interacts with an external environment. We show that the standard approach, based on von Neumann entropy, can be replaced by a phase-space formulation of the problem. In particular, we focus on spin systems that can be described using the so-called spin coherent states. We deploy this formalism to study the interplay between the entropy production rate and the initial quantum coherence available to the system.
翻訳日:2024-01-17 16:22:05 公開日:2024-01-15
# ニュートンの運動法則は重力による絡み合いを引き起こす

Newton's laws of motion can generate gravity-mediated entanglement ( http://arxiv.org/abs/2401.07832v1 )

ライセンス: Link先を確認
Marta Maria Marchese, Martin Pl\'avala, Matthias Kleinmann, Stefan Nimmrichter(参考訳) 量子論と重力の界面は、まだ未開領域である。 最近、いくつかの研究は、テーブルトップ実験において、重力の基本的な性質をテストするために量子的特徴を目撃することを目的とした、有望な代替アプローチを提案した: 空間的局所状態の初期重ね合わせにおける2つの質量は、重力によってのみ相互作用することができ、最終状態が絡み合っているかどうかを測定する。 ここでは、ニュートンの運動法則によって与えられる古典的時間進化を用いて、この設定において同じ量の絡み合いを発生させることができることを示す。 ニュートンの運動の法則によって与えられるニュートンポテンシャルと古典的時間進化によって近似できる量子重力の理論は、重力による絡み合いを生み出すと論じる。

The interface between quantum theory and gravity represents still uncharted territory. Recently, some works suggested promising alternative approaches aimed at witnessing quantum features to test the fundamental nature of gravity in tabletop experiments: Two masses in an initial superposition of spatially localized states are allowed to interact only through gravity and it is measured whether the final state is entangled. Here we show that one can generate the same amount of entanglement in this setup by using classical time evolution given by Newton's laws of motion. We argue that theories of quantum gravity that can be approximated by the Newtonian potential and classical time evolution given by Newton's laws of motion will generate gravity-mediated entanglement.
翻訳日:2024-01-17 16:21:52 公開日:2024-01-15
# 人工知能を用いた血管組織における表現型石灰化

Phenotyping calcification in vascular tissues using artificial intelligence ( http://arxiv.org/abs/2401.07825v1 )

ライセンス: Link先を確認
Mehdi Ramezanpour, Anne M. Robertson, Yasutaka Tobe, Xiaowei Jia, Juan R. Cebral(参考訳) 血管石灰化は、心臓発作や脳卒中を含む大血管障害(MACE)において重要な要因である。 血管石灰化の多様な形態を臨床リスク評価ツールに統合する方法については議論が続いている。 冠状動脈のカルシウムスコアは、全石灰化と正の相関を仮定するが、これは重要な矛盾点である。 多様な石灰化表現型によってリスクがどのように影響を受けるかを決定するには、基本的な研究が必要である。 しかし,画像データセットの石灰化を分類するための高スループット,客観的,非破壊的なツールが欠如していることから,これらの研究は妨げられている。 本稿では, 半自動的非破壊的パイプラインを用いて, 動脈硬化組織においてもこれらの表現型を識別する新しい分類システムを提案する。 このパイプラインには、ノイズの多いマイクロCTイメージで脂質プールをセグメント化するディープラーニングベースのフレームワークと、サイズ、クラスタリング、トポロジーに基づいて石灰化を分類する教師なしクラスタリングフレームワークが含まれている。 このアプローチは5つの血管標本に対して説明され、数千の石灰化粒子を7時間以内で3200枚の画像に表現できる。 組織および脂質プールの平均サイコロ類似度係数は 0.96 と 0.87 であり, 組織内の異種性が高いにもかかわらず, 13 枚の画像でトレーニングと検証が必要であった。 表現型石灰化の効率的かつ包括的なアプローチを導入することで、大規模な研究により、心臓血管系イベントのリスクのより信頼性の高い指標が特定できる。

Vascular calcification is implicated as an important factor in major adverse cardiovascular events (MACE), including heart attack and stroke. A controversy remains over how to integrate the diverse forms of vascular calcification into clinical risk assessment tools. Even the commonly used calcium score for coronary arteries, which assumes risk scales positively with total calcification, has important inconsistencies. Fundamental studies are needed to determine how risk is influenced by the diverse calcification phenotypes. However, studies of these kinds are hindered by the lack of high-throughput, objective, and non-destructive tools for classifying calcification in imaging data sets. Here, we introduce a new classification system for phenotyping calcification along with a semi-automated, non-destructive pipeline that can distinguish these phenotypes in even atherosclerotic tissues. The pipeline includes a deep-learning-based framework for segmenting lipid pools in noisy micro-CT images and an unsupervised clustering framework for categorizing calcification based on size, clustering, and topology. This approach is illustrated for five vascular specimens, providing phenotyping for thousands of calcification particles across as many as 3200 images in less than seven hours. Average Dice Similarity Coefficients of 0.96 and 0.87 could be achieved for tissue and lipid pool, respectively, with training and validation needed on only 13 images despite the high heterogeneity in these tissues. By introducing an efficient and comprehensive approach to phenotyping calcification, this work enables large-scale studies to identify a more reliable indicator of the risk of cardiovascular events, a leading cause of global mortality and morbidity.
翻訳日:2024-01-17 16:21:38 公開日:2024-01-15
# 図形シンプレクティック代数

Graphical Symplectic Algebra ( http://arxiv.org/abs/2401.07914v1 )

ライセンス: Link先を確認
Robert I. Booth, Titouan Carette, Cole Comfort(参考訳) 任意の体上のアフィンラグランジアンおよび共等方関係のダガーコンパクトプロップに対して完全なプレゼンテーションを行う。 これは、親和性に制約された古典力学系と奇数素次元安定化器量子回路の両方に対して統一的なグラフィカル言語群を提供する。 この目的のために、無向有色グラフの特定のクラスによるアフィンラグランジアン関係を示す。 複合システムを考えるために,これらのグラフの頂点がグラフで色付けされるような,強力なスケーラブルな表記法を導入する。 スタビリサー量子力学の設定において、このスケーラブルな記法により、グラフ状態の非常に簡潔な記述が得られ、これは ‘`phased spider fusion' によって構成できる。 「'' 同様に、電気回路の古典的な機械的設定においては、相互ネットワークのインピーダンス行列は基本的に同じであることを示す。

We give complete presentations for the dagger-compact props of affine Lagrangian and coisotropic relations over an arbitrary field. This provides a unified family of graphical languages for both affinely constrained classical mechanical systems, as well as odd-prime-dimensional stabiliser quantum circuits. To this end, we present affine Lagrangian relations by a particular class of undirected coloured graphs. In order to reason about composite systems, we introduce a powerful scalable notation where the vertices of these graphs are themselves coloured by graphs. In the setting of stabiliser quantum mechanics, this scalable notation gives an extremely concise description of graph states, which can be composed via ``phased spider fusion.'' Likewise, in the classical mechanical setting of electrical circuits, we show that impedance matrices for reciprocal networks are presented in essentially the same way.
翻訳日:2024-01-17 16:14:34 公開日:2024-01-15
# 道路の走行量を減らす:パラボリック・サイリンダー方程式を用いた1次元量子発振器の解法

Taking the Road Less Traveled: Solving the One-Dimensional Quantum Oscillator using the Parabolic-Cylinder Equation ( http://arxiv.org/abs/2401.07913v1 )

ライセンス: Link先を確認
Mate Garai and Douglas A. Barlow(参考訳) 単一井戸1D高調波発振器は、量子力学における最も基本的で一般的な問題の1つである。 伝統的に、多くの入門量子力学の教科書では、その解は級数法を使って解かれ、最終的にエルミート多項式やラダー作用素法に繋がる。 ここでは、1つの簡単な変数変換を用いることで、この問題を解くことができ、結果として得られる状態関数は放物型シリンダー関数で与えられることを示す。 さらに、一様電場における1次元高調波発振器のシュリンガー方程式を解くためにも同じ方法が用いられる。 この場合、この過程は2つの可能な解をもたらす。 1D発振子の固有値が周波数依存項によって減少し、任意の正の値を持つようなよく知られた結果である。 もう一つは、フィールド項が整数に制限され、固有値はフィールドフリーの場合と同じ形式である場合である。 結果は、レナード・ジョーンズポテンシャルの有界状態に対する調和近似を生成するためにどのように用いられるかを示す。

The single well 1D harmonic oscillator is one of the most fundamental and commonly solved problems in quantum mechanics. Traditionally, in most introductory quantum mechanics textbooks, it is solved using either a power series method, which ultimately leads to the Hermite polynomials, or by ladder operators methods. We show here that, by employing one straightforward variable transformation, this problem can be solved, and the resulting state functions can be given in terms of parabolic cylinder functions. Additionally, the same approach can be used to solve the Schr\"odinger equation for the 1D harmonic oscillator in a uniform electric field. In this case, the process yields two possible solutions. One is the well-known result where the 1D oscillator eigenvalues are reduced by a frequency-dependent term, which can have any positive value. The other is where the field term is restricted to be an integer and the eigenvalues are in the same form as for the field-free case. We show how the results can be used to create a harmonic approximation for the bound states of a Lennard-Jones potential.
翻訳日:2024-01-17 16:14:21 公開日:2024-01-15
# 証明とアドバイスによるユニタリプロパティテストのための下限

Lower Bounds for Unitary Property Testing with Proofs and Advice ( http://arxiv.org/abs/2401.07912v1 )

ライセンス: Link先を確認
Jordi Weggemans(参考訳) ユニタリプロパティテストでは、テスタとしても知られる量子アルゴリズムが、ブラックボックスユニタリへのクエリアクセスを与えられ、ある特性を満たすかどうかを判断しなければならない。 本稿では,ユニタリプロパティテストとユニタリチャネル識別の関連性を利用した,ユニタリプロパティテストと関連する問題の量子クエリ複雑性の下限を証明する新しい手法を提案する。 この手法の主な利点は、得られたすべての下限値が$\mathsf{c} \subseteq \mathsf{qma}(\text{poly(n)} / \mathsf{qpoly}$を持つ任意の$\mathsf{c}$-testerに対して成り立つことである。 本手法は, 量子位相推定, エンタングルメントエントロピー問題, 量子ギブスサンプリングなどの問題に対する下界の証明に応用し, wang and zhang (2023) の標本-問合せ浮揚定理により得られた下界のすべての対数因子を除去した。 直接系として、$\mathsf{qma}(\text{poly(n)} / \mathsf{qpoly} \not\supset \mathsf{sbqp}$ という量子オラクルが存在することを示す。

In unitary property testing a quantum algorithm, also known as a tester, is given query access to a black-box unitary and has to decide whether it satisfies some property. We propose a new technique for proving lower bounds on the quantum query complexity of unitary property testing and related problems, which utilises the connection between unitary property testing and unitary channel discrimination. The main advantage of this technique is that all obtained lower bounds hold for any $\mathsf{C}$-tester with $\mathsf{C} \subseteq \mathsf{QMA}(\text{poly(n)} / \mathsf{qpoly}$, showing that even having access to both (unentangled) quantum proofs and advice does not help for many unitary problems. We apply our technique to prove lower bounds for problems like quantum phase estimation, the entanglement entropy problem, quantum Gibbs sampling and more, removing all logarithmic factors in the lower bounds obtained by the sample-to-query lifting theorem of Wang and Zhang (2023). As a direct corollary, we show that there exists a quantum oracle relative to which $\mathsf{QMA}(\text{poly(n)} / \mathsf{qpoly} \not\supset \mathsf{SBQP}$.
翻訳日:2024-01-17 16:14:01 公開日:2024-01-15
# マヨラナ座の多極子

Multipoles from Majorana constellations ( http://arxiv.org/abs/2401.07904v1 )

ライセンス: Link先を確認
J. L. Romero, A. B. Klimov, A. Z. Goldberg, G. Leuchs and L. L. Sanchez-Soto(参考訳) スピン-S$状態に直交する2S$スピンコヒーレント状態であるマヨラナ星は、固有対称性を開示して量子状態を視覚化するエレガントな方法を提供する。 これらの状態は自然に対応する多極子によって記述される。 これらの量は実験的に決定され、SU(2)-不変解析が可能である。 本研究では,マヨラナ座と状態多極子の関係を調べ,系の基本対称性について考察する。 当社のアプローチを,関連性の高い,有意義な例で説明します。

Majorana stars, the $2S$ spin coherent states that are orthogonal to a spin-$S$ state, offer an elegant method to visualize quantum states, disclosing their intrinsic symmetries. These states are naturally described by the corresponding multipoles. These quantities can be experimentally determined and allow for an SU(2)-invariant analysis. We investigate the relationship between Majorana constellations and state multipoles, thus providing insights into the underlying symmetries of the system. We illustrate our approach with some relevant and informative examples.
翻訳日:2024-01-17 16:13:26 公開日:2024-01-15
# コードメトリクスを用いた最大設定とその変種の生成

Generating Maximal Configurations and Their Variants Using Code Metrics ( http://arxiv.org/abs/2401.07898v1 )

ライセンス: Link先を確認
Tuba Yavuz (1), Chin Khor (2), Ken (Yihang) Bai (1), Robyn Lutz (2) ((1) University of Florida, (2) Iowa State University)(参考訳) 構成可能なシステムをテストするのは困難でコストもかかる。 テストのための構成の生成は、セマンティックサンプリング(例えば、構成変数上の論理式、しばしば存在条件と呼ばれる)や構造コードメトリクス(例えば、コードカバレッジ)に基づく技術を使用する傾向がある。 本稿では,これらの2種類の手法を有効に組み合わせたハイブリッドアプローチについて述べる。 本研究では,制約解決(SATとMaxSAT)と構成ファジィ化を利用した新しい構成生成アルゴリズムを提案し,構成生成フレームワークであるCONFIZZに実装する。 CONFIZZは、最大構成(一緒に満たせる最大存在条件セット)の生成を可能にし、コードメトリックガイドによる構成ファズリングを実行する。 高度に設定可能なベンチマークであるBusyBoxの評価結果から、MaxSATベースの構成生成によって、いくつかのコードメトリクスのカバレッジが向上することが示された。 また、複数の構成を高いカバレッジでカバーする必要がある場合、CONFIZZの存在条件ファジリングは代替よりも優れていることを示す。

Testing configurable systems continues to be challenging and costly. Generation of configurations for testing tends to use either techniques based on semantic sampling (e.g., logical formulas over configuration variables, often called presence conditions) or structural code metrics (e.g., code coverage). In this paper we describe our hybrid approaches that combine these two kinds of techniques to good effect. We present new configuration-generation algorithms that leverage constraint solving (SAT and MaxSAT) and configuration fuzzing, and implement our approach in a configuration-generation framework, CONFIZZ. CONFIZZ both enables the generation of maximal configurations (maximal sets of presence conditions that can be satisfied together) and performs code-metric guided configuration fuzzing. Results from evaluation on BusyBox, a highly configurable benchmark, show that our MaxSAT-based configuration generation achieves better coverage for several code metrics. Results also show that, when high coverage of multiple configurations is needed, CONFIZZ's presence-condition fuzzing outperforms alternatives.
翻訳日:2024-01-17 16:13:17 公開日:2024-01-15
# 幻覚の定義の落とし穴

The Pitfalls of Defining Hallucination ( http://arxiv.org/abs/2401.07897v1 )

ライセンス: Link先を確認
Kees van Deemter(参考訳) 自然言語生成(NLG)とLarge Language Models(LLM)の顕著な進歩にもかかわらず、NLG評価の重要な側面について研究者はまだ不明である。 この主張を裏付けるために, データテキストnlgにおける幻覚と欠落の分類について検討し, それらの分類の論理に基づく合成を提案する。 私は、幻覚に関する現在のすべての考え方の残りの制限を強調し、LLMへの影響について議論することで締めくくります。

Despite impressive advances in Natural Language Generation (NLG) and Large Language Models (LLMs), researchers are still unclear about important aspects of NLG evaluation. To substantiate this claim, I examine current classifications of hallucination and omission in Data-text NLG, and I propose a logic-based synthesis of these classfications. I conclude by highlighting some remaining limitations of all current thinking about hallucination and by discussing implications for LLMs.
翻訳日:2024-01-17 16:12:56 公開日:2024-01-15
# SPINによる動的知識グラフにおける時相動的アルゴリズムの実装戦略

A Strategy for Implementing description Temporal Dynamic Algorithms in Dynamic Knowledge Graphs by SPIN ( http://arxiv.org/abs/2401.07890v1 )

ライセンス: Link先を確認
Alireza Shahbazi, Seyyed Ahmad Mirsanei, Malikeh Haj Khan Mirzaye Sarraf and Behrouz Minaei Bidgoli(参考訳) 行動とプロセスに関する計画と推論は、命題に関する推論に加えて、近年の論理およびコンピュータ科学研究において重要な問題である。 iotやセマンティックwebサービスといった日常生活におけるアクションの広範にわたる利用と、アクション形式における制限と課題は、アクションの表現方法を研究するための2つの要因となります。 2007年以降、静的知識と動的知識の両方を表現するための記述論理(dl)と行動形式を統合するアイデアがいくつかあった。 一方、時間は動的状況において重要な要素であり、行動は時間とともに状態を変える。 本研究では,記述論理(DL)の拡張,時間的形式主義,行動形式主義などの関連する論理構造について検討した。 一方,我々はknowledge and action base (kab) を設計・開発するためのツールについて分析した。 アクションの表現と推論のために、アクションをDL(Dynamic-ALCとその拡張など)に組み込んだ。 我々は,行動予測,計画,満足度,一貫性,実現可能性,実行可能性のチェック,およびKABからのクエリのための用語可能なアルゴリズムを提案する。 このフレームワークのアクションはSPINでモデル化され、状態空間に追加された。 このフレームワークはProt\'eg\'eオントロジーエディタのプラグインとしても実装されている。 過去20年間、様々なアルゴリズムが提案されてきたが、高い計算複雑性のため、動的オントロジーの実装において多くの問題に直面している。 さらに、アクションの効果の不一致を検出するアルゴリズムは明確に述べられていない。 提案手法では,行動とモデル化知識の他の部分との相互作用,および行動の効果間の一貫性をチェックする手法を提案する。 このフレームワークでは、今後の作業で分岐問題をうまく扱うことができる。

Planning and reasoning about actions and processes, in addition to reasoning about propositions, are important issues in recent logical and computer science studies. The widespread use of actions in everyday life such as IoT, semantic web services, etc., and the limitations and issues in the action formalisms are two factors that lead us to study about how actions are represented. Since 2007, there was some ideas to integrate Description Logic (DL) and action formalisms for representing both static and dynamic knowledge. In meanwhile, time is an important factor in dynamic situations, and actions change states over time. In this study, on the one hand, we examined related logical structures such as extensions of description logics (DLs), temporal formalisms, and action formalisms. On the other hand, we analyzed possible tools for designing and developing the Knowledge and Action Base (KAB). For representation and reasoning about actions, we embedded actions into DLs (such as Dynamic-ALC and its extensions). We propose a terminable algorithm for action projection, planning, checking the satisfiability, consistency, realizability, and executability, and also querying from KAB. Actions in this framework were modeled with SPIN and added to state space. This framework has also been implemented as a plugin for the Prot\'eg\'e ontology editor. During the last two decades, various algorithms have been presented, but due to the high computational complexity, we face many problems in implementing dynamic ontologies. In addition, an algorithm to detect the inconsistency of actions' effects was not explicitly stated. In the proposed strategy, the interactions of actions with other parts of modeled knowledge, and a method to check consistency between the effects of actions are presented. With this framework, the ramification problem can be well handled in future works.
翻訳日:2024-01-17 16:12:48 公開日:2024-01-15
# 前腕筋信号中の手のジェスチャーを識別する機械学習技術

Machine Learning Techniques to Identify Hand Gestures amidst Forearm Muscle Signals ( http://arxiv.org/abs/2401.07889v1 )

ライセンス: Link先を確認
Ryan Cho, Sunil Patel, Kyu Taek Cho, and Jaejin Hwang(参考訳) 本研究では, ニューラルネットワークとランダムフォレストアルゴリズムを用いて, 前腕筋電図データを用いて8手ジェスチャーの識別を行った。 ニューラルネットワークは1000ミリ秒の窓で97%の精度を達成し、ランダムフォレストは200ミリ秒の窓で85%の精度を達成した。 大きなウィンドウサイズは時間分解能の増大によりジェスチャー分類を改善した。 ランダムフォレストは、ニューラルネットワークの114ミリ秒に比べて92ミリ秒の高速処理を示した。 その結果、1000ミリ秒のストリームを最も正確な(97%)ニューラルネットワークと、200ミリ秒のストリームを最も効率的な(85%)ランダムフォレストを同定した。 今後の研究は、サンプルサイズの拡大、ハンドジェスチャの追加、システムの精度と効率を高めるために異なる特徴抽出法とモデリングアルゴリズムの検討に焦点をあてるべきである。

This study investigated the use of forearm EMG data for distinguishing eight hand gestures, employing the Neural Network and Random Forest algorithms on data from ten participants. The Neural Network achieved 97 percent accuracy with 1000-millisecond windows, while the Random Forest achieved 85 percent accuracy with 200-millisecond windows. Larger window sizes improved gesture classification due to increased temporal resolution. The Random Forest exhibited faster processing at 92 milliseconds, compared to the Neural Network's 124 milliseconds. In conclusion, the study identified a Neural Network with a 1000-millisecond stream as the most accurate (97 percent), and a Random Forest with a 200-millisecond stream as the most efficient (85 percent). Future research should focus on increasing sample size, incorporating more hand gestures, and exploring different feature extraction methods and modeling algorithms to enhance system accuracy and efficiency.
翻訳日:2024-01-17 16:12:21 公開日:2024-01-15
# 時間依存問題に対するマルチフィデリティ領域分解に基づく物理インフォームドニューラルネットワーク

Multifidelity domain decomposition-based physics-informed neural networks for time-dependent problems ( http://arxiv.org/abs/2401.07888v1 )

ライセンス: Link先を確認
Alexander Heinlein, Amanda A. Howard, Damien Beecroft, Panos Stinis(参考訳) 物理学情報ニューラルネットワーク(PINN)のような微分方程式のニューラルネットワークに基づく離散化では、マルチスケールの問題は難しい。 これは(部分的に)ニューラルネットワークのスペクトルバイアスに起因する可能性がある。 時間依存問題に対するPINNの性能向上のために,多要素積み重ねPINNとドメイン分解に基づく有限基底PINNを組み合わせた。 特に、多元性モデルの高忠実性部分を学ぶには、時間内の領域分解を用いる。 性能は, 振り子と2周波問題, アレン・カーン方程式について検討した。 ドメイン分解アプローチは、pinnとstacking pinnアプローチを明確に改善することが観察できる。

Multiscale problems are challenging for neural network-based discretizations of differential equations, such as physics-informed neural networks (PINNs). This can be (partly) attributed to the so-called spectral bias of neural networks. To improve the performance of PINNs for time-dependent problems, a combination of multifidelity stacking PINNs and domain decomposition-based finite basis PINNs are employed. In particular, to learn the high-fidelity part of the multifidelity model, a domain decomposition in time is employed. The performance is investigated for a pendulum and a two-frequency problem as well as the Allen-Cahn equation. It can be observed that the domain decomposition approach clearly improves the PINN and stacking PINN approaches.
翻訳日:2024-01-17 16:12:06 公開日:2024-01-15
# 非相互オプトエレクトロメカニクスシステムによる高感度センシング

Enhanced sensing with a nonreciprocal optoelectromechanical system ( http://arxiv.org/abs/2401.07887v1 )

ライセンス: Link先を確認
Najmeh Eshaqi-Sani, Stefano Zippilli, and David Vitali(参考訳) システムパラメータの弱い変動を検出する際の感度を高めるために,不整合性をどのように利用できるかを検討する。 2つのメカニカルモードが光空洞とrf共振器の相互作用を媒介するオプトエレクトロメカニカルセットアップを考える。 このシステムは、熱揺らぎがシステム要素間で再分配される非相反的な方法で動作することができ、特に、rf出力ノイズを量子真空ノイズレベルに還元することができる。 この効果は,高熱雑音のレジームにおいてもパラメータ変動を検出する感度を高めるために有効であることを示す。 rf共振器のキャパシタンスの変化を検出することで、このプロトコルの性能を特徴付ける。

We investigate how nonreciprocity can be used to enhance the sensitivity in detecting weak variations in a system parameter. We consider an optoelectromechanical setup, where two mechanical modes mediate the interaction between an optical cavity and an rf-resonator. This system can be operated in a nonreciprocal regime where the thermal fluctuations are redistributed among the system elements, and, in particular, rf output noise can be reduced to the quantum vacuum noise level. We show that this effect can be used to boost the sensitivity in detecting parameter variations also in regimes of high thermal noise. We characterize the performance of this protocol in detecting variations in the capacitance of the rf resonator.
翻訳日:2024-01-17 16:11:55 公開日:2024-01-15
# ベストエフォートLDMの学習

Learned Best-Effort LLM Serving ( http://arxiv.org/abs/2401.07886v1 )

ライセンス: Link先を確認
Siddharth Jha, Coleman Hooper, Xiaoxuan Liu, Sehoon Kim, Kurt Keutzer(参考訳) 多くのアプリケーションは、ユーザに低レイテンシのLLMサービスを提供しなければならない。 しかし、変動する要求パターンを提供するための過剰なリソースは、しばしば違法に高価である。 本稿では,タスク分散とシステム負荷に基づいてサービス品質を調整するために,深層強化学習を用いたベストエフォートサービングシステムを提案する。 当社のベストプラクティスシステムは、10倍以上のクライアント要求率で可用性を維持し、ピークパフォーマンス4.1倍の96%以上、ピークパフォーマンス2.3倍の98%以上を提供する。 学習したルータは、到着とタスクの分配の両方のシフトに対して堅牢です。 静的サービスと比較すると、学習されたベストエフォートサービスにより、ハードウェアユーティリティの増大によるコスト効率の高いサービスが可能になる。 さらに、学習したベストエフォートllmは、さまざまな設定に適用でき、アプリケーション開発者に特定のニーズを満たすための柔軟性を提供します。

Many applications must provide low-latency LLM service to users or risk unacceptable user experience. However, over-provisioning resources to serve fluctuating request patterns is often prohibitively expensive. In this work, we present a best-effort serving system that employs deep reinforcement learning to adjust service quality based on the task distribution and system load. Our best-effort system can maintain availability with over 10x higher client request rates, serves above 96% of peak performance 4.1x more often, and serves above 98% of peak performance 2.3x more often than static serving on unpredictable workloads. Our learned router is robust to shifts in both the arrival and task distribution. Compared to static serving, learned best-effort serving allows for cost-efficient serving through increased hardware utility. Additionally, we argue that learned best-effort LLM serving is applicable in wide variety of settings and provides application developers great flexibility to meet their specific needs.
翻訳日:2024-01-17 16:11:43 公開日:2024-01-15
# RAGの年代記:レトリバー、チャンク、発電機

The Chronicles of RAG: The Retriever, the Chunk and the Generator ( http://arxiv.org/abs/2401.07883v1 )

ライセンス: Link先を確認
Paulo Finardi, Leonardo Avila, Rodrigo Castaldoni, Pedro Gengo, Celio Larcher, Marcos Piau, Pablo Costa, Vinicius Carid\'a(参考訳) Retrieval Augmented Generation (RAG)は、LLMが外部データにアクセスできるようにするための最も一般的なパラダイムの1つであり、幻覚を緩和するための基盤となるメカニズムでもある。 RAGを実装する際には、効率的な検索モデルの統合、効率的な表現学習、データの多様性、計算効率の最適化、評価、テキスト生成の品質といった課題に直面します。 これらすべての課題を考えると、ragを改善する新しいテクニックが毎日登場し、問題に対してすべての組み合わせを試すことは不可能です。 本稿では,ブラジルポルトガル語のRAGの実装,最適化,評価を行うための優れた実践について述べる。 ハリー・ポッターの最初の本について、様々な質問に答える方法を探求した。 OpenAIのgpt-4、gpt-4-1106-preview、gpt-3.5-turbo-1106、そしてGoogleのGemini Proを使いました。 本手法は,レトリバーの品質に着目し,mr@10をベースラインと比較して35.4%向上させた。 アプリケーション内の入力サイズを最適化すると、さらに2.4%向上できることがわかった。 最後にragの完全なアーキテクチャを推奨事項として紹介する。 その結果,ベースラインは57.88%から98.61%の最大相対スコアに移行した。

Retrieval Augmented Generation (RAG) has become one of the most popular paradigms for enabling LLMs to access external data, and also as a mechanism for grounding to mitigate against hallucinations. When implementing RAG you can face several challenges like effective integration of retrieval models, efficient representation learning, data diversity, computational efficiency optimization, evaluation, and quality of text generation. Given all these challenges, every day a new technique to improve RAG appears, making it unfeasible to experiment with all combinations for your problem. In this context, this paper presents good practices to implement, optimize, and evaluate RAG for the Brazilian Portuguese language, focusing on the establishment of a simple pipeline for inference and experiments. We explored a diverse set of methods to answer questions about the first Harry Potter book. To generate the answers we used the OpenAI's gpt-4, gpt-4-1106-preview, gpt-3.5-turbo-1106, and Google's Gemini Pro. Focusing on the quality of the retriever, our approach achieved an improvement of MRR@10 by 35.4% compared to the baseline. When optimizing the input size in the application, we observed that it is possible to further enhance it by 2.4%. Finally, we present the complete architecture of the RAG with our recommendations. As result, we moved from a baseline of 57.88% to a maximum relative score of 98.61%.
翻訳日:2024-01-17 16:11:27 公開日:2024-01-15
# EMBRE:生物医学関係抽出のためのエンティティ対応マスキング

EMBRE: Entity-aware Masking for Biomedical Relation Extraction ( http://arxiv.org/abs/2401.07877v1 )

ライセンス: Link先を確認
Mingjie Li and Karin Verspoor(参考訳) 名前付きエンティティ認識(NER)や関係抽出(RE)などの情報抽出技術は多くのドメインにおいて重要であり、関連情報を識別・接続することで大量の非構造化テキストデータを理解することを支援する。 このような手法は研究者が貴重な洞察を引き出すのに役立つ。 本稿では,バイオメディカルリレーション抽出のためのEntity-Aware Masking for Biomedical Relation extract (EMBRE)法について紹介する。 具体的には、エンティティマスキングの目的にバックボーンモデルを事前トレーニングすることで、エンティティ知識をディープニューラルネットワークに統合する。 各インスタンスに名前付きエンティティをランダムにマスクし、そのタイプとともにモデルにマスク付きエンティティを識別させます。 このように、モデルはより具体的な知識とより堅牢な表現を学ぶことができる。 そして,事前学習モデルを用いて言語表現を符号化し,それらの表現を2つの多層パーセプトロン(MLP)に供給し,関係性および新規性のロジットを予測する。 実験の結果,提案手法はベースライン上でのエンティティペア,関係,ノベルティ抽出の性能を向上させることができることがわかった。

Information extraction techniques, including named entity recognition (NER) and relation extraction (RE), are crucial in many domains to support making sense of vast amounts of unstructured text data by identifying and connecting relevant information. Such techniques can assist researchers in extracting valuable insights. In this paper, we introduce the Entity-aware Masking for Biomedical Relation Extraction (EMBRE) method for biomedical relation extraction, as applied in the context of the BioRED challenge Task 1, in which human-annotated entities are provided as input. Specifically, we integrate entity knowledge into a deep neural network by pretraining the backbone model with an entity masking objective. We randomly mask named entities for each instance and let the model identify the masked entity along with its type. In this way, the model is capable of learning more specific knowledge and more robust representations. Then, we utilize the pre-trained model as our backbone to encode language representations and feed these representations into two multilayer perceptron (MLPs) to predict the logits for relation and novelty, respectively. The experimental results demonstrate that our proposed method can improve the performances of entity pair, relation and novelty extraction over our baseline.
翻訳日:2024-01-17 16:11:04 公開日:2024-01-15
# 分類問題に安定したニューラルネットワークは存在するか? --AIの安定性に関する新しい見解

Do stable neural networks exist for classification problems? -- A new view on stability in AI ( http://arxiv.org/abs/2401.07874v1 )

ライセンス: Link先を確認
Z. N. D. Liu, A. C. Hansen(参考訳) ディープラーニング(DL)では、不安定現象は広く記録されており、最も一般的には古典的な安定性の尺度であるリプシッツ定数を用いている。 小さなリプチッツ定数は伝統的に保留安定性と見なされるが、dlの不安定な現象をよく捉えていない。 理由は、(近似される対象関数である)分類関数は必然的に不連続であり、「無限」リプチッツ定数を持つからである。 結果として、古典的なアプローチでは、すべての分類関数が不安定であるが、基本的な分類関数 a la は、決定境界を除いて、局所的に非常に「平坦」であり、したがって局所的に安定である。 安定性の適切な尺度の欠如はdlの安定性に関する厳密な理論を妨げ、その結果、分類関数に対する安定ネットワークの存在を保証できる適切な近似理論的な結果は存在しない。 本稿では,任意の分類関数$f$に対して,不連続関数の安定性とその近似を研究するのに適した,新しい安定性測度$\mathscr{s}(f)$を導入する。 まず、任意の$\epsilon > 0$ および任意の分類関数 $f$ on a \emph{compact set} に対して、$\psi - f \neq 0$ が測度 $< \epsilon$, さらに $\mathscr{S}(\psi) \geq \mathscr{S}(f) - \epsilon$ ($f$まで正確かつ安定である) の集合上でのみ、ニューラルネットワーク (NN) $\psi$ が存在する。 第二に、任意の分類関数 $f$ と $\epsilon > 0$ に対して、決定境界から少なくとも $\epsilon$ 離れた点の集合上で $\psi = f$ となるような nn $\psi$ が存在する。

In deep learning (DL) the instability phenomenon is widespread and well documented, most commonly using the classical measure of stability, the Lipschitz constant. While a small Lipchitz constant is traditionally viewed as guarantying stability, it does not capture the instability phenomenon in DL for classification well. The reason is that a classification function -- which is the target function to be approximated -- is necessarily discontinuous, thus having an 'infinite' Lipchitz constant. As a result, the classical approach will deem every classification function unstable, yet basic classification functions a la 'is there a cat in the image?' will typically be locally very 'flat' -- and thus locally stable -- except at the decision boundary. The lack of an appropriate measure of stability hinders a rigorous theory for stability in DL, and consequently, there are no proper approximation theoretic results that can guarantee the existence of stable networks for classification functions. In this paper we introduce a novel stability measure $\mathscr{S}(f)$, for any classification function $f$, appropriate to study the stability of discontinuous functions and their approximations. We further prove two approximation theorems: First, for any $\epsilon > 0$ and any classification function $f$ on a \emph{compact set}, there is a neural network (NN) $\psi$, such that $\psi - f \neq 0$ only on a set of measure $< \epsilon$, moreover, $\mathscr{S}(\psi) \geq \mathscr{S}(f) - \epsilon$ (as accurate and stable as $f$ up to $\epsilon$). Second, for any classification function $f$ and $\epsilon > 0$, there exists a NN $\psi$ such that $\psi = f$ on the set of points that are at least $\epsilon$ away from the decision boundary.
翻訳日:2024-01-17 16:10:37 公開日:2024-01-15
# 大規模言語モデルにおける文脈長拡張技術は何、なぜ、どのようにして-詳細な調査

The What, Why, and How of Context Length Extension Techniques in Large Language Models -- A Detailed Survey ( http://arxiv.org/abs/2401.07872v1 )

ライセンス: Link先を確認
Saurav Pawar, S.M Towhidul Islam Tonmoy, S M Mehedi Zaman, Vinija Jain, Aman Chadha, Amitava Das(参考訳) 大規模言語モデル(llms)の出現は自然言語処理(nlp)における顕著なブレークスルーであり、テキスト理解と生成の両方においてかなりの進歩をもたらした。 しかし、これらの進歩の中で、LLMは文脈長の外挿の点でしばしば制限に直面している。 LLMのコンテキスト長の理解と拡張は、様々なNLPアプリケーション間での性能向上に不可欠である。 本稿では、なぜそれが必須か、そして優れた技術がNLPアプリケーションにもたらす潜在的な変換について、多面的側面を探求する。 本研究では,文脈長の延長に伴う固有の課題について検討し,研究者による既存戦略の概要を整理した。 さらに,コンテキスト拡張手法の評価の複雑さを議論し,この領域で研究者が直面するオープンな課題を強調する。 さらに,評価基準に関する研究コミュニティ内のコンセンサスが存在するか検討し,さらなる合意が必要な分野を特定する。 この包括的な調査は、研究者にとって貴重な資源となり、文脈長拡張技法のニュアンスを通じてそれらを指導し、進化するこの分野における今後の進歩に関する議論を促進することを目的としている。

The advent of Large Language Models (LLMs) represents a notable breakthrough in Natural Language Processing (NLP), contributing to substantial progress in both text comprehension and generation. However, amidst these advancements, it is noteworthy that LLMs often face a limitation in terms of context length extrapolation. Understanding and extending the context length for LLMs is crucial in enhancing their performance across various NLP applications. In this survey paper, we delve into the multifaceted aspects of exploring why it is essential, and the potential transformations that superior techniques could bring to NLP applications. We study the inherent challenges associated with extending context length and present an organized overview of the existing strategies employed by researchers. Additionally, we discuss the intricacies of evaluating context extension techniques and highlight the open challenges that researchers face in this domain. Furthermore, we explore whether there is a consensus within the research community regarding evaluation standards and identify areas where further agreement is needed. This comprehensive survey aims to serve as a valuable resource for researchers, guiding them through the nuances of context length extension techniques and fostering discussions on future advancements in this evolving field.
翻訳日:2024-01-17 16:09:55 公開日:2024-01-15
# 複数質問応答における大規模言語モデルの限界に関する検討

A Study on Large Language Models' Limitations in Multiple-Choice Question Answering ( http://arxiv.org/abs/2401.07955v1 )

ライセンス: Link先を確認
Aisha Khatun and Daniel G. Brown(参考訳) 大規模言語モデル(llm)の普及は、特にオープンソースモデルの出現とともに、一般的になっている。 さらに重要なのは、小型モデルはコンシューマデバイスとの統合に適しており、スタンドアロンソリューションやAIタスクのサブルーチンとして頻繁に使用されることだ。 ユビキタスな使用にもかかわらず、特定の能力や制限に関する体系的な分析は行われていない。 本研究では,最も広く使われている課題の一つ,MCQ(Multiple Choice Question)に回答する。 26の小さなオープンソースモデルを分析して,65%のモデルがタスクを理解していないこと,4つのモデルのみが与えられた選択から回答を適切に選択していること,5つのモデルが独立した選択順序であることを確認した。 これらのモデルでMCQテストが広範囲に使用されていることを考えると、これらの結果はかなり危険である。 MCQを用いて、どんな分野でもLCMを評価する前に、注意喚起やタスク理解のテストを行うことを推奨する。

The widespread adoption of Large Language Models (LLMs) has become commonplace, particularly with the emergence of open-source models. More importantly, smaller models are well-suited for integration into consumer devices and are frequently employed either as standalone solutions or as subroutines in various AI tasks. Despite their ubiquitous use, there is no systematic analysis of their specific capabilities and limitations. In this study, we tackle one of the most widely used tasks - answering Multiple Choice Question (MCQ). We analyze 26 small open-source models and find that 65% of the models do not understand the task, only 4 models properly select an answer from the given choices, and only 5 of these models are choice order independent. These results are rather alarming given the extensive use of MCQ tests with these models. We recommend exercising caution and testing task understanding before using MCQ to evaluate LLMs in any field whatsoever.
翻訳日:2024-01-17 16:02:32 公開日:2024-01-15
# 文脈感応モデルのアンサンブルを用いた画像類似性

Image Similarity using An Ensemble of Context-Sensitive Models ( http://arxiv.org/abs/2401.07951v1 )

ライセンス: Link先を確認
Zukang Liao and Min Chen(参考訳) 画像類似性はコンピュータビジョンで広く研究されている。 近年、機械学習モデルは、従来の多変量メトリクスよりも多くの意味をエンコードする能力を示している。 しかし,ラベル付け類似性では,画像Aが他の画像Bよりも参照画像Rに近いかどうかを判断するよりも,数値スコアを一対の画像に割り当てる方が直感的ではない。 画像空間(R,A,B)におけるスパースサンプリングの課題と、アンサンブルモデルを用いてコンテキストベースデータで訓練されたモデルにおけるバイアスに対処する。 特に,このようなアンサンブルモデルを構築するために,mlpレセプタと次元リセプタという2つのml手法を用いた。 その結果,構築したアンサンブルモデルは,個々の文脈に敏感なモデルよりも約5%高い性能を示した。 また、混合画像データで訓練されたモデルや、クリップやディノのような既存の類似性モデルよりもパフォーマンスが良かった。 本研究は,スパースサンプリングによる制限を緩和するために適切なアンサンブルアプローチを用いる場合,文脈に基づくラベリングとモデルトレーニングが有効であることを示す。

Image similarity has been extensively studied in computer vision. In recently years, machine-learned models have shown their ability to encode more semantics than traditional multivariate metrics. However, in labelling similarity, assigning a numerical score to a pair of images is less intuitive than determining if an image A is closer to a reference image R than another image B. In this work, we present a novel approach for building an image similarity model based on labelled data in the form of A:R vs B:R. We address the challenges of sparse sampling in the image space (R, A, B) and biases in the models trained with context-based data by using an ensemble model. In particular, we employed two ML techniques to construct such an ensemble model, namely dimensionality reduction and MLP regressors. Our testing results show that the ensemble model constructed performs ~5% better than the best individual context-sensitive models. They also performed better than the model trained with mixed imagery data as well as existing similarity models, e.g., CLIP and DINO. This work demonstrate that context-based labelling and model training can be effective when an appropriate ensemble approach is used to alleviate the limitation due to sparse sampling.
翻訳日:2024-01-17 16:02:17 公開日:2024-01-15
# SciGLM:自己表現的指示アノテーションとチューニングによる科学言語モデルの訓練

SciGLM: Training Scientific Language Models with Self-Reflective Instruction Annotation and Tuning ( http://arxiv.org/abs/2401.07950v1 )

ライセンス: Link先を確認
Dan Zhang and Ziniu Hu and Sining Zhoubian and Zhengxiao Du and Kaiyu Yang and Zihan Wang and Yisong Yue and Yuxiao Dong and Jie Tang(参考訳) \label{sec:abstract} Large Language Models (LLMs) は科学的な発見を支援することを約束している。 しかしながら、そのような応用は、複雑な科学概念の理解、記号方程式の導出、高度な数値計算の解法におけるLLMの欠陥によって制限されている。 このギャップを埋めるために,大学レベルの科学的推論が可能な科学言語モデルスイートであるsciglmを紹介する。 私たちのアプローチの中心は、科学領域のデータ不足問題に対処するための、新しい自己回帰的な命令アノテーションフレームワークです。 このフレームワークは、既存のLCMを活用して、未解決の科学的問題に対するステップバイステップの推論を生成する。 このフレームワークを適用して、数学、物理学、化学、形式証明を含む多様で高品質なデータセットであるsciinstructをキュレートした。 言語モデルのChatGLMファミリをSciInstructで微調整し,科学的・数学的推論の能力を高めた。 注目すべきことに、SciGLMはベースモデルの言語理解能力を犠牲にすることなく、ベースモデル(ChatGLM3-6B-Base)と大規模モデル(12Bと32B)の両方を一貫して改善している。 これにより、SciGLMは多様な科学的発見タスクを促進するのに適した基礎モデルとなる。 より広い研究コミュニティの利益のために、私たちはSciInstruct、SciGLM、自己表現フレームワーク、そして \url{https://github.com/THUDM/SciGLM} で微調整コードをリリースします。

\label{sec:abstract} Large Language Models (LLMs) have shown promise in assisting scientific discovery. However, such applications are currently limited by LLMs' deficiencies in understanding intricate scientific concepts, deriving symbolic equations, and solving advanced numerical calculations. To bridge these gaps, we introduce SciGLM, a suite of scientific language models able to conduct college-level scientific reasoning. Central to our approach is a novel self-reflective instruction annotation framework to address the data scarcity challenge in the science domain. This framework leverages existing LLMs to generate step-by-step reasoning for unlabelled scientific questions, followed by a process of self-reflective critic-and-revise. Applying this framework, we curated SciInstruct, a diverse and high-quality dataset encompassing mathematics, physics, chemistry, and formal proofs. We fine-tuned the ChatGLM family of language models with SciInstruct, enhancing their capabilities in scientific and mathematical reasoning. Remarkably, SciGLM consistently improves both the base model (ChatGLM3-6B-Base) and larger-scale models (12B and 32B), without sacrificing the language understanding capabilities of the base model. This makes SciGLM a suitable foundational model to facilitate diverse scientific discovery tasks. For the benefit of the wider research community, we release SciInstruct, SciGLM, alongside a self-reflective framework and fine-tuning code at \url{https://github.com/THUDM/SciGLM}.
翻訳日:2024-01-17 16:01:56 公開日:2024-01-15
# キラル格子系におけるベリー接続の出現

Manifestation of the Berry connection in chiral lattice systems ( http://arxiv.org/abs/2401.07946v1 )

ライセンス: Link先を確認
Francesco Di Colandrea, Nazanin Dehghan, Filippo Cardano, Alessio D'Errico, Ebrahim Karimi(参考訳) アハロノフ・ボーム効果(Aharonov-Bohm effect)は、ベクトルポテンシャルが磁場がゼロの領域における電子ウェーブレットの位相シフトを誘導する物理現象である。 これはベクトルポテンシャルの物理的現実の証拠としてしばしば言及される。 同様の効果は、ベリー接続が電子動力学に影響を及ぼす固体系でも観測できる。 ここでは、キラル対称過程においてベリー接続が非局在化波動関数の平均キラル変位に対する可観測効果を決定することを示す。 この発見は、トポロジカル量子ウォーク(英語版)を実現するフォトニック実験によって支持され、ゲージ場の存在に直接原因付けられる新しい効果を示す。

The Aharonov-Bohm effect is a physical phenomenon where the vector potential induces a phase shift of electron wavepackets in regions with zero magnetic fields. It is often referred to as evidence for the physical reality of the vector potential. A similar effect can be observed in solid-state systems, where the Berry connection can influence electron dynamics. Here, we show that in chiral-symmetric processes the Berry connection determines an observable effect on the mean chiral displacement of delocalized wavefunctions. This finding is supported by a photonic experiment realizing a topological quantum walk, and demonstrates a new effect that can be attributed directly to the presence of a gauge field.
翻訳日:2024-01-17 16:01:25 公開日:2024-01-15
# SemEval-2017 Task 4: BERTを使用したTwitterの感情分析

SemEval-2017 Task 4: Sentiment Analysis in Twitter using BERT ( http://arxiv.org/abs/2401.07944v1 )

ライセンス: Link先を確認
Rupak Kumar Das, Dr. Ted Pedersen(参考訳) 本稿では,SemEval2017のTwitterでタスク4A,英語,感性分析を解くために,変換器ベースのアーキテクチャであるBERTモデルを用いる。 BERTは、トレーニングデータの量が少ない場合に、分類タスクのための非常に強力な大規模言語モデルである。 この実験では、12の隠れレイヤを持つBERT{\textsubscript{\tiny BASE}}モデルを使用しました。 このモデルは、naive bayesのベースラインモデルよりも精度、精度、リコール、f1スコアが良い。 バイナリ分類サブタスクでは、マルチクラス分類サブタスクよりもパフォーマンスがよい。 twitterのデータには、個人的および賢明な情報が含まれているため、この実験ではあらゆる倫理的問題も検討しました。 実験で使用されたデータセットとコードは、このGitHubリポジトリにある。

This paper uses the BERT model, which is a transformer-based architecture, to solve task 4A, English Language, Sentiment Analysis in Twitter of SemEval2017. BERT is a very powerful large language model for classification tasks when the amount of training data is small. For this experiment, we have used the BERT{\textsubscript{\tiny BASE}} model, which has 12 hidden layers. This model provides better accuracy, precision, recall, and f1 score than the Naive Bayes baseline model. It performs better in binary classification subtasks than the multi-class classification subtasks. We also considered all kinds of ethical issues during this experiment, as Twitter data contains personal and sensible information. The dataset and code used in our experiment can be found in this GitHub repository.
翻訳日:2024-01-17 16:01:13 公開日:2024-01-15
# 高時間次元デコードを用いた変圧器型ビデオサリエンシー予測

Transformer-based Video Saliency Prediction with High Temporal Dimension Decoding ( http://arxiv.org/abs/2401.07942v1 )

ライセンス: Link先を確認
Morteza Moradi, Simone Palazzo, Concetto Spampinato(参考訳) 近年,vsp (video saliency prediction) において,空間的および時間的情報を活用するための効率的かつ効率的な戦略が注目されている。 時空間変圧器の出現に伴い、3D畳み込みネットワークやLSTMベースのネットワークといった、長距離依存を捕捉する以前の戦略の弱点が効果的に補償されている。 VSPは時空間変換器の恩恵を受けているが、時間的特徴を集約する最も効果的な方法を見つけることは依然として困難である。 この問題に対処するため,高時間次元デコードネットワーク(THTD-Net)を用いたトランスフォーマーによる映像の精度予測手法を提案する。 この戦略は、トランスフォーマーベースの時空間エンコーダから抽出される特徴間の複雑な階層的相互作用の欠如を考慮し、特に、複数のデコーダを必要とせず、デコーダにおける時間的特徴の次元を徐々に減少させることを目的としている。 このデコーダベースのアーキテクチャは、DHF1KやUCFスポーツ、ハリウッド-2といった一般的なベンチマークで、マルチブランチや過剰に複雑なモデルに匹敵する性能が得られる。

In recent years, finding an effective and efficient strategy for exploiting spatial and temporal information has been a hot research topic in video saliency prediction (VSP). With the emergence of spatio-temporal transformers, the weakness of the prior strategies, e.g., 3D convolutional networks and LSTM-based networks, for capturing long-range dependencies has been effectively compensated. While VSP has drawn benefits from spatio-temporal transformers, finding the most effective way for aggregating temporal features is still challenging. To address this concern, we propose a transformer-based video saliency prediction approach with high temporal dimension decoding network (THTD-Net). This strategy accounts for the lack of complex hierarchical interactions between features that are extracted from the transformer-based spatio-temporal encoder: in particular, it does not require multiple decoders and aims at gradually reducing temporal features' dimensions in the decoder. This decoder-based architecture yields comparable performance to multi-branch and over-complicated models on common benchmarks such as DHF1K, UCF-sports and Hollywood-2.
翻訳日:2024-01-17 16:01:00 公開日:2024-01-15
# 患者層形成のためのゲノムワイドデータ統合を目指して

Integrate Any Omics: Towards genome-wide data integration for patient stratification ( http://arxiv.org/abs/2401.07937v1 )

ライセンス: Link先を確認
Shihao Ma, Andy G.X. Zeng, Benjamin Haibe-Kains, Anna Goldenberg, John E Dick and Bo Wang(参考訳) 高スループットオミクスプロファイリングの進歩は、がん患者の成層度を大幅に向上させた。 しかしながら、マルチオミクス統合における不完全なデータは、サンプル排除や命令のような従来の手法が生物の多様性や依存関係を損なうことが多いため、大きな課題となる。 さらに、部分的オミックデータを持つ新規患者を既存のサブタイプに正確に分類する作業は、一般的に見過ごされている。 これらの問題に対処するため、我々は、不完全なマルチオミクスデータを統合し、新しいサンプルを分類するための教師なしフレームワークであるintegrao (integrate any omics)を導入する。 integraoはまず、さまざまなオミックソースからの患者グラフの一部重なり合わされ、グラフニューラルネットワークを使用して統一された患者埋め込みを生成する。 6つのオミクスモダリティを含む5つのがんコホートに対する系統的評価は,IntegratedAOの欠失データに対する堅牢性と,その正当性を示す。 急性骨髄性白血病の症例では、不完全なデータセットにおける生物学的および臨床的不均一性を明らかにする能力がさらに検証される。 不均一データや不完全データを扱うIntegratedAOの能力は、精度オンコロジーに欠かせないツールとなり、患者のキャラクタリゼーションに対する総合的なアプローチを提供する。

High-throughput omics profiling advancements have greatly enhanced cancer patient stratification. However, incomplete data in multi-omics integration presents a significant challenge, as traditional methods like sample exclusion or imputation often compromise biological diversity and dependencies. Furthermore, the critical task of accurately classifying new patients with partial omics data into existing subtypes is commonly overlooked. To address these issues, we introduce IntegrAO (Integrate Any Omics), an unsupervised framework for integrating incomplete multi-omics data and classifying new samples. IntegrAO first combines partially overlapping patient graphs from diverse omics sources and utilizes graph neural networks to produce unified patient embeddings. Our systematic evaluation across five cancer cohorts involving six omics modalities demonstrates IntegrAO's robustness to missing data and its accuracy in classifying new samples with partial profiles. An acute myeloid leukemia case study further validates its capability to uncover biological and clinical heterogeneity in incomplete datasets. IntegrAO's ability to handle heterogeneous and incomplete data makes it an essential tool for precision oncology, offering a holistic approach to patient characterization.
翻訳日:2024-01-17 16:00:40 公開日:2024-01-15
# 差分凸関数に基づくニューラルネットワークパラメータ最適化のための大域収束アルゴリズム

A Globally Convergent Algorithm for Neural Network Parameter Optimization Based on Difference-of-Convex Functions ( http://arxiv.org/abs/2401.07936v1 )

ライセンス: Link先を確認
Daniel Tschernutter, Mathias Kraus, Stefan Feuerriegel(参考訳) 本稿では,単一隠れ層ニューラルネットワークのパラメータを最適化するアルゴリズムを提案する。 具体的には,対象関数のブロックワイド差分関数(DC)を導出する。 後者に基づいて,ブロック座標降下法 (BCD) と差分関数アルゴリズム (DCA) を併用する手法を提案する。 提案アルゴリズムのグローバル収束性を証明する。 さらに,パラメータの収束率と値の収束率(トレーニング損失)を数学的に解析する。 損失関数の局所的な形状に応じて,アルゴリズムが線形あるいはそれ以上に収束する条件を与える。 理論的導出を数値的に検証し、トレーニング損失とテスト損失の両方の観点から、最先端の勾配に基づく解法と比較する。

We propose an algorithm for optimizing the parameters of single hidden layer neural networks. Specifically, we derive a blockwise difference-of-convex (DC) functions representation of the objective function. Based on the latter, we propose a block coordinate descent (BCD) approach that we combine with a tailored difference-of-convex functions algorithm (DCA). We prove global convergence of the proposed algorithm. Furthermore, we mathematically analyze the convergence rate of parameters and the convergence rate in value (i.e., the training loss). We give conditions under which our algorithm converges linearly or even faster depending on the local shape of the loss function. We confirm our theoretical derivations numerically and compare our algorithm against state-of-the-art gradient-based solvers in terms of both training loss and test loss.
翻訳日:2024-01-17 16:00:15 公開日:2024-01-15
# アベリア隠れ部分群問題に対するアルゴリズム量子スピードアップの実証

Demonstration of Algorithmic Quantum Speedup for an Abelian Hidden Subgroup Problem ( http://arxiv.org/abs/2401.07934v1 )

ライセンス: Link先を確認
P. Singkanipa, V. Kasatkin, Z. Zhou, G. Quiroz, D.A. Lidar(参考訳) Simonの問題は、未知の2-to-1関数に符号化された隠れ周期(ビットストリング)を見つけることである。 これは、理想的でノイズのない量子コンピュータで指数的な量子スピードアップが証明された最も初期の問題の1つである。 ここでは、2つの異なる127量子ビットのIBM量子超伝導プロセッサを用いて、隠れた周期がハミング重みに制限されたシモン問題の変種に対するアルゴリズム量子スピードアップを示す。 スピードアップはサブ指数であり、デコヒーレンスを抑制するために動的デカップリングによって計算が保護されるときに強化される。 測定誤差軽減により、スピードアップをさらに強化する。 これは、アーベル隠れ部分群問題に対するボナフィデ量子アドバンテージのデモンストレーションを構成する。

Simon's problem is to find a hidden period (a bitstring) encoded into an unknown 2-to-1 function. It is one of the earliest problems for which an exponential quantum speedup was proven for ideal, noiseless quantum computers, albeit in the oracle model. Here, using two different 127-qubit IBM Quantum superconducting processors, we demonstrate an algorithmic quantum speedup for a variant of Simon's problem where the hidden period has a restricted Hamming weight. The speedup is sub-exponential and is enhanced when the computation is protected by dynamical decoupling to suppress decoherence. The speedup is further enhanced with measurement error mitigation. This constitutes a demonstration of a bona fide quantum advantage for an Abelian hidden subgroup problem.
翻訳日:2024-01-17 16:00:05 公開日:2024-01-15
# 垂直フェデレーション画像分割

Vertical Federated Image Segmentation ( http://arxiv.org/abs/2401.07931v1 )

ライセンス: Link先を確認
Paul K. Mandal, Cole Leo(参考訳) 画像ベースの問題に対するAIソリューションの普及により、データのプライバシと取得の両方に懸念が高まっている。 多くの場合、情報は別々のデータサイロ上に置かれており、開発者が機械学習モデル開発に適した方法でこれらすべてを統合することは困難である。 これに加えて、これらのローカライズされたデータ領域の一部は、ラベル付き基底真理にアクセスできない可能性がある。 これは、数値的に結論に達する能力を持っているが、関連する情報の欠如により分類を割り当てることができないことを示している。 このような決定はしばしば無視されるが、特にこの能力を必要とする画像ベースのソリューションを開発しようとする場合である。 そこで,本稿では,この共通条件下で動作可能な革新的な垂直フェデレーション学習(vfl)モデルアーキテクチャを提案する。 これは、VFL環境の制約の下で動作し、名目上の精度を維持しながらイメージセグメンテーションを実行するシステムの最初の(そして現在唯一の)実装である。 我々は,ラベル付きデータを持たないフェデレート上で操作可能なfcnを利用し,その重みを中央サーバとプライベートに共有することで,分類に必要な特徴を担っている。 CamVidデータセット上でテストを行い、フェデレート間での情報転送に必要な重い特徴圧縮の影響を判定し、そのような制約の下で作業する際の全体的なパフォーマンス指標に関する明確な結論に達した。

With the popularization of AI solutions for image based problems, there has been a growing concern for both data privacy and acquisition. In a large number of cases, information is located on separate data silos and it can be difficult for a developer to consolidate all of it in a fashion that is appropriate for machine learning model development. Alongside this, a portion of these localized data regions may not have access to a labelled ground truth. This indicates that they have the capacity to reach conclusions numerically, but are not able to assign classifications amid a lack of pertinent information. Such a determination is often negligible, especially when attempting to develop image based solutions that often necessitate this capability. With this being the case, we propose an innovative vertical federated learning (VFL) model architecture that can operate under this common set of conditions. This is the first (and currently the only) implementation of a system that can work under the constraints of a VFL environment and perform image segmentation while maintaining nominal accuracies. We achieved this by utilizing an FCN that boasts the ability to operate on federates that lack labelled data and privately share the respective weights with a central server, that of which hosts the necessary features for classification. Tests were conducted on the CamVid dataset in order to determine the impact of heavy feature compression required for the transfer of information between federates, as well as to reach nominal conclusions about the overall performance metrics when working under such constraints.
翻訳日:2024-01-17 15:59:50 公開日:2024-01-15
# 大規模言語モデルにおけるデータセット間の重複とデータ漏洩について

On Inter-dataset Code Duplication and Data Leakage in Large Language Models ( http://arxiv.org/abs/2401.07930v1 )

ライセンス: Link先を確認
Jos\'e Antonio Hern\'andez L\'opez, Boqi Chen, Tushar Sharma, D\'aniel Varr\'o(参考訳) モチベーション。 大規模言語モデル(LLM)は、多様なソフトウェア工学(SE)タスクにおいて顕著な熟練度を示した。 このようなタスクの処理は、トレーニング前の段階で、大規模で汎用的なデータセットに関する基礎的なコーディング知識を取得し、その後、微調整フェーズの一部として、小さなタスク固有のデータセットを精算する。 問題明細書。 データ漏洩は機械学習モデルのトレーニングにおいてよく知られた問題である。 この問題の顕在化は、トレーニングとテストの分裂の交差点である。 データセット内コードの重複は、所定のデータセット内のこの交差点を調べ、以前の研究で対処されているが、異なるデータセット間の重複を計測するデータセット間重複は、ほとんど未調査のままである。 もしこの現象が存在するなら、事前トレーニング中に既に遭遇していた微調整されたテストサンプルが含まれているため、LCM評価の完全性を損なう可能性がある。 貢献。 本稿では,データセット間の重複現象とその多種多様なSEタスクにおけるLCM評価への影響について検討する。 デザインを学ぶ。 CSNデータセット、広く採用されている事前学習データセット、および様々なSEタスクに使用される5つの微調整データセットを用いて実証的研究を行う。 まず,プリトレーニングデータセットと微調整データセットの交点を重複解消プロセスを用いて識別する。 次に, csnで事前学習した4つのモデルを用いて, 事前学習中に遭遇した試料と, その段階で検出されなかった試料の性能評価を行った。 結果だ この結果から,複数のSEタスクにまたがる様々なLSMの評価に対する潜在的な脅威が明らかとなった。 さらに,この脅威は,llmのサイズや選択した微調整技術などによって強調されることを示した。

Motivation. Large language models (LLMs) have exhibited remarkable proficiency in diverse software engineering (SE) tasks. Handling such tasks typically involves acquiring foundational coding knowledge on large, general-purpose datasets during a pre-training phase, and subsequently refining on smaller, task-specific datasets as part of a fine-tuning phase. Problem statement. Data leakage is a well-known issue in training of machine learning models. A manifestation of this issue is the intersection of the training and testing splits. While intra-dataset code duplication examines this intersection within a given dataset and has been addressed in prior research, inter-dataset code duplication, which gauges the overlap between different datasets, remains largely unexplored. If this phenomenon exists, it could compromise the integrity of LLM evaluations because of the inclusion of fine-tuning test samples that were already encountered during pre-training, resulting in inflated performance metrics. Contribution. This paper explores the phenomenon of inter-dataset code duplication and its impact on evaluating LLMs across diverse SE tasks. Study design. We conduct an empirical study using the CSN dataset, a widely adopted pre-training dataset, and five fine-tuning datasets used for various SE tasks. We first identify the intersection between the pre-training and fine-tuning datasets using a deduplication process. Then, we fine-tune four models pre-trained on CSN to evaluate their performance on samples encountered during pre-training and those unseen during that phase. Results. Our findings reveal a potential threat to the evaluation of various LLMs across multiple SE tasks, stemming from the inter-dataset code duplication phenomenon. Moreover, we demonstrate that this threat is accentuated by factors like the LLM's size and the chosen fine-tuning technique.
翻訳日:2024-01-17 15:59:31 公開日:2024-01-15
# 機械学習に基づく物体追跡

Machine Learning Based Object Tracking ( http://arxiv.org/abs/2401.07929v1 )

ライセンス: Link先を確認
Md Rakibul Karim Akanda, Joshua Reynolds, Treylin Jackson, and Milijah Gray(参考訳) 本論文では、機械学習に基づく物体検出と、その物体の追跡を行う。 著者らはOpenCVとして知られるOpen Computer Visionを使ってオブジェクトの周りにさまざまな関心(ROI)を設定することができた。 次に、トラッキングアルゴリズムを使用してオブジェクトのトラッキングを維持し、同時に2つのサーボモータを動作させ、オブジェクトをフレームの中心に保つ。 詳細な手順とコードを本論文に記載する。

Machine learning based object detection as well as tracking that object have been performed in this paper. The authors were able to set a range of interest (ROI) around an object using Open Computer Vision, better known as OpenCV. Next a tracking algorithm has been used to maintain tracking on an object while simultaneously operating two servo motors to keep the object centered in the frame. Detailed procedure and code are included in this paper.
翻訳日:2024-01-17 15:59:00 公開日:2024-01-15
# インセルコミュニティにおけるラジカル化研究のレキシコン

A Lexicon for Studying Radicalization in Incel Communities ( http://arxiv.org/abs/2401.07928v1 )

ライセンス: Link先を確認
Emily Klein and Jennifer Golbeck(参考訳) インセルズ(英: incels)は、人種差別、暴力の栄光、非人間化に根ざしたイデオロギーを信じる男性による過激なオンラインコミュニティである。 彼らのオンラインフォーラムでは、グループ内で意味を持ち、イデオロギーを反映し、コミュニティのメンバーシップを示し、外部から理解するのが困難である一連のイングループ用語である、広範な進化する暗号文を使用している。 本稿では,共通根語,接頭辞,接尾辞の項と定義を付したレキシコンについて述べる。 辞書は自動分析に使用するためのテキストベースであり、2016年から2023年までの最も活発なインセルコミュニティの5つにおいて、最も頻繁なインセル語とその構造とその意味の質的コンテンツ分析を通じて導出されている。 このレキシコンは、コミュニティ内の過激化とデラディカライズ/離脱を調べる今後の作業を支援する。

Incels are an extremist online community of men who believe in an ideology rooted in misogyny, racism, the glorification of violence, and dehumanization. In their online forums, they use an extensive, evolving cryptolect - a set of ingroup terms that have meaning within the group, reflect the ideology, demonstrate membership in the community, and are difficult for outsiders to understand. This paper presents a lexicon with terms and definitions for common incel root words, prefixes, and affixes. The lexicon is text-based for use in automated analysis and is derived via a Qualitative Content Analysis of the most frequent incel words, their structure, and their meaning on five of the most active incel communities from 2016 to 2023. This lexicon will support future work examining radicalization and deradicalization/disengagement within the community.
翻訳日:2024-01-17 15:58:54 公開日:2024-01-15
# 大規模言語モデルに自己説明は可能か?

Can Large Language Models Explain Themselves? ( http://arxiv.org/abs/2401.07927v1 )

ライセンス: Link先を確認
Andreas Madsen, Sarath Chandar, Siva Reddy(参考訳) インストラクションチューニングされた大型言語モデル(LLM)は多くのタスクで優れており、その振る舞いの説明も提供する。 これらのモデルは一般に直接アクセス可能であるため、説得力や誤った説明がLSMへの信頼を損なうリスクがある。 したがって、自己説明の解釈可能性-信条はAI安全にとって重要な考慮事項である。 自己説明と呼ばれるこれらの説明の解釈可能性-忠実さを評価することは、モデルが複雑すぎて人間が正しい説明を注釈付けできないため、難しい。 そこで我々は,信頼度尺度として自己整合性チェックを採用することを提案する。 例えば、llmが単語の集合が予測を行うのに重要であると言うなら、これらの単語なしで同じ予測を行うことはできない。 自己整合性チェックは忠実性に対する一般的なアプローチであるが、LLMの自己説明には適用されていない。 自己整合性チェックを,反事実,重要度,リアクションの3種類の自己説明に適用する。 我々の研究は、信頼度はタスク依存とモデル依存の両方であることを示した。例えば、感情分類では、反ファクト的説明は、Llama2、Mistralの重要度、Falcon 40Bのリアクションなど、より忠実である。 最後に,本症例は即時変動に対して堅牢である。

Instruction-tuned large language models (LLMs) excel at many tasks, and will even provide explanations for their behavior. Since these models are directly accessible to the public, there is a risk that convincing and wrong explanations can lead to unsupported confidence in LLMs. Therefore, interpretability-faithfulness of self-explanations is an important consideration for AI Safety. Assessing the interpretability-faithfulness of these explanations, termed self-explanations, is challenging as the models are too complex for humans to annotate what is a correct explanation. To address this, we propose employing self-consistency checks as a measure of faithfulness. For example, if an LLM says a set of words is important for making a prediction, then it should not be able to make the same prediction without these words. While self-consistency checks are a common approach to faithfulness, they have not previously been applied to LLM's self-explanations. We apply self-consistency checks to three types of self-explanations: counterfactuals, importance measures, and redactions. Our work demonstrate that faithfulness is both task and model dependent, e.g., for sentiment classification, counterfactual explanations are more faithful for Llama2, importance measures for Mistral, and redaction for Falcon 40B. Finally, our findings are robust to prompt-variations.
翻訳日:2024-01-17 15:58:38 公開日:2024-01-15
# 単語境界情報はエンコーダ言語モデルには役に立たない

Word Boundary Information Isn't Useful for Encoder Language Models ( http://arxiv.org/abs/2401.07923v1 )

ライセンス: Link先を確認
Edward Gow-Smith, Dylan Phelps, Harish Tayyar Madabushi, Carolina Scarton, Aline Villavicencio(参考訳) サブワードトークン化アルゴリズムを用いたNLPへの既存のトランスフォーマーベースのアプローチは、特別なスペースシンボル(例えば \#\# や \_)を使用して、ホワイトスペース(ワード境界情報)を符号化する。 これらのシンボルは示されています a)トークン化の形式的妥当性を低下させ、 b) 相当な語彙冗長性を与える。 このようにして、これらの記号の除去は、プリトレイン・フィニチューンパラダイムにおけるトランスフォーマーエンコーダの形態的に複雑な単語の処理に有益であることが示されている。 本研究では,単語境界情報がこのようなモデルにどう有用かを検討する。 特に、4つの異なる訓練尺度でトランスフォーマーエンコーダを訓練し、単語境界情報、異なる領域にわたるタスクの範囲の評価、問題設定、GLUE(文レベルの分類)、NER(トークンレベルの分類)、複雑な単語を含む2つの分類データセット(SuperbizarreとFLOTA)など、いくつかの代替手法について検討する。 全体として、29のモデルの事前トレーニングを含む広範な実験的なセットアップを通じて、代替手法による大幅な改善は見つからず、単語境界情報を削除するトークンサの変更は、有用な情報の喪失に繋がらないことを示唆している。

All existing transformer-based approaches to NLP using subword tokenisation algorithms encode whitespace (word boundary information) through the use of special space symbols (such as \#\# or \_) forming part of tokens. These symbols have been shown to a) lead to reduced morphological validity of tokenisations, and b) give substantial vocabulary redundancy. As such, removing these symbols has been shown to have a beneficial effect on the processing of morphologically complex words for transformer encoders in the pretrain-finetune paradigm. In this work, we explore whether word boundary information is at all useful to such models. In particular, we train transformer encoders across four different training scales, and investigate several alternative approaches to including word boundary information, evaluating on a range of tasks across different domains and problem set-ups: GLUE (for sentence-level classification), NER (for token-level classification), and two classification datasets involving complex words (Superbizarre and FLOTA). Overall, through an extensive experimental setup that includes the pre-training of 29 models, we find no substantial improvements from our alternative approaches, suggesting that modifying tokenisers to remove word boundary information isn't leading to a loss of useful information.
翻訳日:2024-01-17 15:58:17 公開日:2024-01-15
# 大規模言語モデルを用いたラウンドトリップ翻訳によるプログラムの自動修復手法

A Novel Approach for Automatic Program Repair using Round-Trip Translation with Large Language Models ( http://arxiv.org/abs/2401.07994v1 )

ライセンス: Link先を確認
Fernando Vallecillos Ruiz and Anastasiia Grishina and Max Hort and Leon Moonen(参考訳) 研究により、文中の文法上の誤りは、他の言語に翻訳し、言語モデルを用いたニューラルマシン翻訳を使って修正できることが示された。 大規模言語モデル(llms)の修正能力が自動プログラム修復(apr)に拡張されるかどうかを検討する。 現在のAPR生成モデルは、ソースコードで事前訓練され、修正のために微調整されている。 本稿では,微調整ステップを回避し,ラウンドトリップ変換(rtt)を用いて,あるプログラミング言語から別のプログラミング言語や自然言語へのコード変換を行う方法を提案する。 LLMを用いたRTTは、事前トレーニング中に最もよく見られるパターンを復元する、すなわち、トレーニングデータの中でより頻繁に、自然で、バグのないコードであるノイズの形で、バグを除去する平均に対する回帰を実行する、という仮説を立てる。 この仮説をテストするために、最新のGPTバージョンを含むコードで事前訓練された8つのLLMと、Javaの4つの一般的なプログラム修復ベンチマークを使用します。 中間言語として英語を用いたRTTでは,HumanEval-Javaデータセット上でGPT-4を用いて164のバグのうち101が修正された。 さらに46のバグは、APRのために微調整された他のLLMによって修正されていないユニークなバグである。 本研究は,自動プログラム修復技術としてのllmsを用いた往復翻訳の実現可能性とソフトウェア工学研究への可能性に注目した。 キーワード:自動プログラム修復、大規模言語モデル、機械翻訳

Research shows that grammatical mistakes in a sentence can be corrected by translating it to another language and back using neural machine translation with language models. We investigate whether this correction capability of Large Language Models (LLMs) extends to Automatic Program Repair (APR). Current generative models for APR are pre-trained on source code and fine-tuned for repair. This paper proposes bypassing the fine-tuning step and using Round-Trip Translation (RTT): translation of code from one programming language to another programming or natural language, and back. We hypothesize that RTT with LLMs restores the most commonly seen patterns in code during pre-training, i.e., performs a regression toward the mean, which removes bugs as they are a form of noise w.r.t. the more frequent, natural, bug-free code in the training data. To test this hypothesis, we employ eight recent LLMs pre-trained on code, including the latest GPT versions, and four common program repair benchmarks in Java. We find that RTT with English as an intermediate language repaired 101 of 164 bugs with GPT-4 on the HumanEval-Java dataset. Moreover, 46 of these are unique bugs that are not repaired by other LLMs fine-tuned for APR. Our findings highlight the viability of round-trip translation with LLMs as a technique for automated program repair and its potential for research in software engineering. Keywords: automated program repair, large language model, machine translation
翻訳日:2024-01-17 15:51:20 公開日:2024-01-15
# トランスフォーマーにおけるアルゴリズムの伝達

Carrying over algorithm in transformers ( http://arxiv.org/abs/2401.07993v1 )

ライセンス: Link先を確認
Jorrit Kruthoff(参考訳) 加算はおそらく最も単純な算術的タスクの1つであり、通常、キャッシングオーバーアルゴリズムを用いて実行される。 このアルゴリズムは2つのタスクから成り、同じ位置に数字を追加し、必要に応じて1つの数字を運ぶ。 本研究では、トランスモデルがこのアルゴリズムをどのように実装し、上記の2つのタスクをネットワークの異なる部分に割り当てるかを検討する。 まず,2層エンコーダのみのモデルに注目し,乗換アルゴリズムがモジュール方式で実装されていることを示す。 第1層は、主に同じ位置に数字を追加する責任がある。 第2の層は、まず、どの位置が搬送されるかに注意して決定し、次に最終MLPで搬送する。 我々は、そのタスクにどのニューロンが責任を持つのかを正確に識別する簡単な方法を提供する。 このキャリングオーバーアルゴリズムの実装は、2つのハイパーパラメーターと3層のモデルの範囲にわたって行われる。 小型デコーダのみのモデルでは、同じ実装を観察し、3つの7B大言語モデルにその存在を示唆する証拠を提供する。

Addition is perhaps one of the simplest arithmetic tasks one can think of and is usually performed using the carrying over algorithm. This algorithm consists of two tasks: adding digits in the same position and carrying over a one whenever necessary. We study how transformer models implement this algorithm and how the two aforementioned tasks are allocated to different parts of the network. We first focus on two-layer encoder-only models and show that the carrying over algorithm is implemented in a modular fashion. The first layer is mostly responsible for adding digits in the same position. The second layer first decides, in the attention, which positions need a carried one or not, and then performs the carrying of the one in the final MLP. We provide a simple way of precisely identifying which neurons are responsible for that task. This implementation of the carrying over algorithm occurs across a range of hyperparameters for two as well as three-layer models. For small decoder-only models, we observe the same implementation and provide suggestive evidence for its existence in three 7B large language models.
翻訳日:2024-01-17 15:50:56 公開日:2024-01-15
# 対向多面体学習による対向攻撃に対するロバスト性

Robustness Against Adversarial Attacks via Learning Confined Adversarial Polytopes ( http://arxiv.org/abs/2401.07991v1 )

ライセンス: Link先を確認
Shayan Mohajer Hamidi, Linfeng Ye(参考訳) 深層ニューラルネットワーク(dnn)は、クリーンサンプルの人間が知覚できない摂動を生成することで欺くことができる。 したがって、敵攻撃に対するDNNの堅牢性を高めることが重要な課題である。 本稿では,クリーンサンプルに追加されるノルム束縛摂動によって到達可能な出力のセットを制限することで,堅牢なDNNの訓練を目指す。 この集合をadversarial polytopeと呼び、各クリーンサンプルはそれぞれのadversarial polytopeを持っている。 実際、全てのサンプルに対する各ポリトープがコンパクトで、DNNの決定境界を交わさない場合、DNNは反対のサンプルに対して堅牢である。 したがって,本アルゴリズムの内的作業は, CAP (textbf{c}onfined \textbf{a}dversarial \textbf{p}olytopes) の学習に基づいている。 実験を徹底的に実施することにより、AutoAttackを含む最先端攻撃に対するモデルの堅牢性を改善するために、既存の対向ロバスト性法よりもCAPの有効性を実証する。

Deep neural networks (DNNs) could be deceived by generating human-imperceptible perturbations of clean samples. Therefore, enhancing the robustness of DNNs against adversarial attacks is a crucial task. In this paper, we aim to train robust DNNs by limiting the set of outputs reachable via a norm-bounded perturbation added to a clean sample. We refer to this set as adversarial polytope, and each clean sample has a respective adversarial polytope. Indeed, if the respective polytopes for all the samples are compact such that they do not intersect the decision boundaries of the DNN, then the DNN is robust against adversarial samples. Hence, the inner-working of our algorithm is based on learning \textbf{c}onfined \textbf{a}dversarial \textbf{p}olytopes (CAP). By conducting a thorough set of experiments, we demonstrate the effectiveness of CAP over existing adversarial robustness methods in improving the robustness of models against state-of-the-art attacks including AutoAttack.
翻訳日:2024-01-17 15:50:39 公開日:2024-01-15
# 各種医用画像分類データセット間のノイズラベルに対する自己教師付き事前訓練は、どのように堅牢性を改善するか?

How does self-supervised pretraining improve robustness against noisy labels across various medical image classification datasets? ( http://arxiv.org/abs/2401.07990v1 )

ライセンス: Link先を確認
Bidur Khanal, Binod Bhattarai, Bishesh Khanal, Cristian Linte(参考訳) ノイズラベルは、特にディープラーニングにおいて、学習した特徴を損なうことによって、医療画像の分類に大きな影響を与える可能性がある。 ラベル付きデータに依存しない自己教師付き事前トレーニングは、ノイズの多いラベルに対する堅牢性を高めることができる。 しかし、この堅牢性は、クラスの数、データセットの複雑さ、トレーニングサイズなどによって異なる。 医学画像では、微妙なクラス間差とモダリティ特有の特徴が複雑さを増す。 これまでの研究では、医療画像分類における自己教師あり学習と雑音ラベルに対する頑健性との相互作用を、これらすべての要因を考慮して包括的に検討していない。 本研究は3つの重要な疑問に答える。 一 ラベルノイズが各種医用画像分類データセットにどのような影響を及ぼすか。 ii)どの種類の医療画像データセットが学習が困難でラベルノイズの影響を受けやすいか。 三 各種医用画像データセットの堅牢性を高めるための自己指導型事前訓練方法 以上の結果から,DermNetは5つのデータセット(Fetal plane, DermNet, COVID-DU-Ex, mura, NCT-CRC-HE-100K)の中で最も難易度が高いが,ノイズのあるラベルに対して強い堅牢性を示すことがわかった。 さらに、ノイズラベルに対する堅牢性を高めるための最も効果的なアプローチとして、8つの自己指導手法の中で、対照的な学習が際立っている。

Noisy labels can significantly impact medical image classification, particularly in deep learning, by corrupting learned features. Self-supervised pretraining, which doesn't rely on labeled data, can enhance robustness against noisy labels. However, this robustness varies based on factors like the number of classes, dataset complexity, and training size. In medical images, subtle inter-class differences and modality-specific characteristics add complexity. Previous research hasn't comprehensively explored the interplay between self-supervised learning and robustness against noisy labels in medical image classification, considering all these factors. In this study, we address three key questions: i) How does label noise impact various medical image classification datasets? ii) Which types of medical image datasets are more challenging to learn and more affected by label noise? iii) How do different self-supervised pretraining methods enhance robustness across various medical image datasets? Our results show that DermNet, among five datasets (Fetal plane, DermNet, COVID-DU-Ex, MURA, NCT-CRC-HE-100K), is the most challenging but exhibits greater robustness against noisy labels. Additionally, contrastive learning stands out among the eight self-supervised methods as the most effective approach to enhance robustness against noisy labels.
翻訳日:2024-01-17 15:50:21 公開日:2024-01-15
# デジタル双生児からデジタル双生児へ:概念、形式化、応用

From Digital Twins to Digital Twin Prototypes: Concepts, Formalization, and Applications ( http://arxiv.org/abs/2401.07985v1 )

ライセンス: Link先を確認
Alexander Barbie, Wilhelm Hasselbring(参考訳) 産業4.0への転換はまた、インテリジェント生産システムの開発過程を変革する。 これらの新しい(組み込まれた)ソフトウェアシステムのソフトウェア開発を進めるために、デジタルツインが用いられることがある。 しかし、デジタル双対とは何かという合意的な定義は存在しない。 本稿では,デジタルツイン概念の現状について概観し,オブジェクトz記法を用いてデジタルツイン概念を定式化する。 この形式化には、物理ツイン、デジタルモデル、デジタルテンプレート、デジタルスレッド、デジタルシャドウ、デジタルツイン、デジタルツインプロトタイプなどが含まれる。 これらの概念間の関係をumlクラス図として可視化する。 我々のデジタルツインプロトタイプ(DTP)アプローチは、組み込みソフトウェアシステムの開発と自動テストにおいて、エンジニアを支援する。 このアプローチにより、エンジニアは物理的オブジェクトへの接続を必要とせずに、仮想コンテキストで組み込みソフトウェアシステムをテストできる。 継続的インテグレーション/継続的デプロイメントパイプラインでは、このようなデジタルツインプロトタイプを自動統合テストや、アジャイルの検証と検証プロセスを可能にするために使用できる。 本稿では,2つの実世界のフィールドスタディ(海洋観測システムとスマート農業)を例に,ディジタルツインの適用と実装の方法について,実証および報告を行う。 他の研究者による独立したレプリケーションとアプローチの拡張のために、GitHubに公開されたラボスタディを提供しています。

The transformation to Industry 4.0 also transforms the processes of how we develop intelligent manufacturing production systems. To advance the software development of these new (embedded) software systems, digital twins may be employed. However, there is no consensual definition of what a digital twin is. In this paper, we give an overview of the current state of the digital twin concept and formalize the digital twin concept using the Object-Z notation. This formalization includes the concepts of physical twins, digital models, digital templates, digital threads, digital shadows, digital twins, and digital twin prototypes. The relationships between all these concepts are visualized as UML class diagrams. Our digital twin prototype (DTP) approach supports engineers during the development and automated testing of complex embedded software systems. This approach enable engineers to test embedded software systems in a virtual context, without the need of a connection to a physical object. In continuous integration / continuous deployment pipelines such digital twin prototypes can be used for automated integration testing and, thus, allow for an agile verification and validation process. In this paper, we demonstrate and report on how to apply and implement a digital twin by the example of two real-world field studies (ocean observation systems and smart farming). For independent replication and extension of our approach by other researchers, we provide a lab study published open source on GitHub.
翻訳日:2024-01-17 15:49:58 公開日:2024-01-15
# ドメイン固有の理解を可能にする外部知識資源の活用

Leveraging External Knowledge Resources to Enable Domain-Specific Comprehension ( http://arxiv.org/abs/2401.07977v1 )

ライセンス: Link先を確認
Saptarshi Sengupta, Connor Heaton, Prasenjit Mitra, Soumalya Sarkar(参考訳) 機械読解(machine reading comprehension, mrc)は、nlpの長年にわたる問題であり、最近bertファミリーのトランスフォーマーベースの言語モデルが導入されたことで、解決への道のりが長い。 しかし、一般的なテキストコーパスでトレーニングされたBERT変種がドメイン固有のテキストに適用されると、その性能はドメインシフト、すなわちトレーニングと下流のアプリケーションデータ間のジャンル/オブジェクトの差によって必然的に低下する。 知識グラフは、オープンまたはクローズドなドメイン情報のための貯水池として機能し、先行研究により、ドメイン固有のアプリケーションにおける汎用トランスフォーマーの性能向上に利用できることが示されている。 既存の作業に基づいて,知識グラフから抽出した埋め込みと,事前学習言語モデル(LM)の埋め込み空間の整合と統合を行うための,MLP(Multi-Layer Perceptrons)を用いた手法を提案する。 オープンドメインのLM(BERT)とRoBERTa(RoBERTa)を併用し、検出(COVID-QA)と複数選択(PubMedQA)という2つのMRCタスクを微調整する。 COVID-QAデータセットでは、当社のアプローチによって、Exact Match(EM)メトリックによって証明されているように、これらのモデルが、ドメイン固有のBio/Sci-BERTと同じような動作を可能にすることが分かりました。 PubMedQAに関しては、F1がドメイン固有のモデルと相対的に同じであるのに対して、全体的な精度の向上を観察する。

Machine Reading Comprehension (MRC) has been a long-standing problem in NLP and, with the recent introduction of the BERT family of transformer based language models, it has come a long way to getting solved. Unfortunately, however, when BERT variants trained on general text corpora are applied to domain-specific text, their performance inevitably degrades on account of the domain shift i.e. genre/subject matter discrepancy between the training and downstream application data. Knowledge graphs act as reservoirs for either open or closed domain information and prior studies have shown that they can be used to improve the performance of general-purpose transformers in domain-specific applications. Building on existing work, we introduce a method using Multi-Layer Perceptrons (MLPs) for aligning and integrating embeddings extracted from knowledge graphs with the embeddings spaces of pre-trained language models (LMs). We fuse the aligned embeddings with open-domain LMs BERT and RoBERTa, and fine-tune them for two MRC tasks namely span detection (COVID-QA) and multiple-choice questions (PubMedQA). On the COVID-QA dataset, we see that our approach allows these models to perform similar to their domain-specific counterparts, Bio/Sci-BERT, as evidenced by the Exact Match (EM) metric. With regards to PubMedQA, we observe an overall improvement in accuracy while the F1 stays relatively the same over the domain-specific models.
翻訳日:2024-01-17 15:49:38 公開日:2024-01-15
# 量子計算を浄化する時空費用

The Space-Time Cost of Purifying Quantum Computations ( http://arxiv.org/abs/2401.07974v1 )

ライセンス: Link先を確認
Mark Zhandry(参考訳) 一般量子計算はユニタリ演算と測定から成り立っている。 中間量子測定は計算の終わりまで延期され、結果として等価な純粋ユニタリ計算となることはよく知られている。 時間効率は良いが、この変換は実行時に線形に空間を吹き飛ばし、低空間アルゴリズムでは超ポリノミカルである可能性がある。 Fefferman and Remscrim (STOC'21) と Girish, Raz and Zhan (ICALP'21) は、空間効率の異なる変換を示すが、空間で指数関数的な因子によって実行時間を爆発させる。 これは、時間または空間の複雑さに大きな爆発を引き起こすとして、小さいが超対数空間を持つアルゴリズムのケースを残している。 このような爆発は本質的に起こりうることを示し、中間測定を除去する「ブラックボックス」変換が空間または時間の両方を著しく爆破する必要があることを示した。

General quantum computation consists of unitary operations and also measurements. It is well known that intermediate quantum measurements can be deferred to the end of the computation, resulting in an equivalent purely unitary computation. While time efficient, this transformation blows up the space to linear in the running time, which could be super-polynomial for low-space algorithms. Fefferman and Remscrim (STOC'21) and Girish, Raz and Zhan (ICALP'21) show different transformations which are space efficient, but blow up the running time by a factor that is exponential in the space. This leaves the case of algorithms with small-but-super-logarithmic space as incurring a large blowup in either time or space complexity. We show that such a blowup is likely inherent, demonstrating that any "black-box" transformation which removes intermediate measurements must significantly blow up either space or time.
翻訳日:2024-01-17 15:49:07 公開日:2024-01-15
# 液体オートマトンにおけるシミュレートオートポエシス

Simulated Autopoiesis in Liquid Automata ( http://arxiv.org/abs/2401.07969v1 )

ライセンス: Link先を確認
Steve Battle(参考訳) 本稿では, 生体機械が物理的領域で自己組織するオートポエシスをシミュレートするために, 液体オートマタの新たな形態を提案する。 このシミュレーションは、フランシスコ・ヴァレラが記述した初期のセルラーオートマトンに基づいている。 液体オートマトン(liquid automata)は、粒子が他の粒子と衝突してどのように変換されるかに関する追加ルールを持つ粒子シミュレーションである。 セルオートマトンとは異なり、固定格子や時間ステップはなく、粒子のみが連続的な空間/時間で互いに動き、衝突する。

We present a novel form of Liquid Automata, using this to simulate autopoiesis, whereby living machines self-organise in the physical realm. This simulation is based on an earlier Cellular Automaton described by Francisco Varela. The basis of Liquid Automata is a particle simulation with additional rules about how particles are transformed on collision with other particles. Unlike cellular automata, there is no fixed grid or time-step, only particles moving about and colliding with each other in a continuous space/time.
翻訳日:2024-01-17 15:48:48 公開日:2024-01-15
# MCMChaos:MCMC法とカオス理論によるラップ音楽の改善

MCMChaos: Improvising Rap Music with MCMC Methods and Chaos Theory ( http://arxiv.org/abs/2401.07967v1 )

ライセンス: Link先を確認
Robert G. Kimelman(参考訳) 従来の研究で作成されたラップ音楽の書き起こしに基づく新しいフリースタイルのラップソフトウェアMCMChaos 0.0.1について述べる。 ソフトウェアには3つの異なるバージョンがあり、それぞれ異なる数学的シミュレーション手法であるcrashed gibbs samplerとlorenz attractor simulationを使用している。 われわれが知る限り、これらのシミュレーション手法はラップ音楽の生成に一度も使われていない。 このソフトウェアはPython Text-to-Speech処理(pyttxs)を実装し、MCFlowコーパスから読み上げられたテキストを英語の音声に変換する。 各バージョンでは、各数学モデルからシミュレーションされた値は、テキスト対音声エンジンの音声の音声、ボリューム、および(複数音声の場合)の速度を、ラインバイラインで変更する。 ソフトウェアのユーザは、読み取った初期値を数学的シミュレーション手法に即時に変更するリアルタイムグラフィカルユーザインタフェース(GUI)を提示する。 今後の研究は、より多くのユーザー制御と自律性の実現を目指すかもしれない。

A novel freestyle rap software, MCMChaos 0.0.1, based on rap music transcriptions created in previous research is presented. The software has three different versions, each making use of different mathematical simulation methods: collapsed gibbs sampler and lorenz attractor simulation. As far as we know, these simulation methods have never been used in rap music generation before. The software implements Python Text-to-Speech processing (pyttxs) to convert text wrangled from the MCFlow corpus into English speech. In each version, values simulated from each respective mathematical model alter the rate of speech, volume, and (in the multiple voice case) the voice of the text-to-speech engine on a line-by-line basis. The user of the software is presented with a real-time graphical user interface (GUI) which instantaneously changes the initial values read into the mathematical simulation methods. Future research might attempt to allow for more user control and autonomy.
翻訳日:2024-01-17 15:48:39 公開日:2024-01-15
# AI-as-exploration: インテリジェンス空間をナビゲートする

AI-as-exploration: Navigating intelligence space ( http://arxiv.org/abs/2401.07964v1 )

ライセンス: Link先を確認
Dimitri Coelho Mollo(参考訳) 人工知能は多くの人生を生きる分野であり、この用語は科学と商業の取り組みのモットリーのコレクションを含んでいる。 本稿では,AIが果たさなければならない,無視されるが中心的な科学的な役割の輪郭について述べる。 ai-as-explorationの基本的な推進力は、私たちが慣れ親しんだ人間や動物の知性と異なる可能性のある知性の構成要素の候補を明らかにするシステムの作成と研究である。 言い換えれば、AIは、インテリジェンス空間、すなわち可能なインテリジェントシステムの空間を探索する上で、私たちが持っている最高のツールの1つであることを提案します。 特定のケーススタディ、すなわち、人間と大規模言語モデルにおける新しい概念と発明された概念を組み合わせる能力に関する最近の研究に焦点を当てて、AI-as-explorationの価値を説明する。 後者は、そのようなタスクにおいて人間のレベルでの正確さを示しているにもかかわらず、おそらくは人間にとっての仮説とは根本的に異なる方法でそれを解決している。

Artificial Intelligence is a field that lives many lives, and the term has come to encompass a motley collection of scientific and commercial endeavours. In this paper, I articulate the contours of a rather neglected but central scientific role that AI has to play, which I dub `AI-as-exploration'.The basic thrust of AI-as-exploration is that of creating and studying systems that can reveal candidate building blocks of intelligence that may differ from the forms of human and animal intelligence we are familiar with. In other words, I suggest that AI is one of the best tools we have for exploring intelligence space, namely the space of possible intelligent systems. I illustrate the value of AI-as-exploration by focusing on a specific case study, i.e., recent work on the capacity to combine novel and invented concepts in humans and Large Language Models. I show that the latter, despite showing human-level accuracy in such a task, most probably solve it in ways radically different, but no less relevant to intelligence research, to those hypothesised for humans.
翻訳日:2024-01-17 15:48:23 公開日:2024-01-15
# 高現実性シミュレーションのためのセシウムタイルと仮想環境と実環境のSLAM結果の比較

Cesium Tiles for High-realism Simulation and Comparing SLAM Results in Corresponding Virtual and Real-world Environments ( http://arxiv.org/abs/2401.07962v1 )

ライセンス: Link先を確認
Chris Beam, Jincheng Zhang, Nicholas Kakavitsas, Collin Hague, Artur Wolek, and Andrew Willis(参考訳) 本稿では,実世界のアルゴリズム結果を予測するためのシミュレーション環境について論じる。 シミュレーターは、研究者が高価なハードウェアをデプロイすることなくアルゴリズム、センサーの統合、ナビゲーションシステムをテストするために不可欠である。 本稿では,AirSimシミュレータ,Unreal Engine,Cesiumプラグインを用いて実世界におけるシミュレーションディジタルツインモデルを生成する方法について検討する。 分析を完了するための技術的な課題をいくつか議論し、技術的な解決策をこの記事に詳述します。 実験位置のディジタルツインが提供したCesium Tilesを用いた実生活実験のマッピング結果の評価方法について検討する。 これはシミュレーションで現実世界の飛行を複製する過程を記述したものである。 直接スパースオドメトリー (Direct Sparse Odometry, DSO) マッピングアルゴリズムを用いて実時間および実験画像テレメトリを解析することにより, これらの手法の性能を評価する。 その結果、セシウムタイル環境は注意深く整列した後に高精度な基底真理幾何学モデルを提供できることがわかった。 さらに,実生活とシミュレーションによるテレメトリ解析の結果から,実生活の結果を正確に予測できることがわかった。 その結果,このアルゴリズムは実生活に寄与し,再現された複製では高い類似性を示した。 これは,実生活実験における仮想デジタルツインとしてのセシウムタイル環境の利用が,このようなアルゴリズムの代表的な結果をもたらすことを示唆している。 この影響は、特定のデプロイメント場所におけるロボットシステムの拡張仮想テストによって、環境に合わせて調整されたソリューションを開発し、完全に汎用的な環境で動作するためのソリューションよりも優れている可能性がある。

This article discusses the use of a simulated environment to predict algorithm results in the real world. Simulators are crucial in allowing researchers to test algorithms, sensor integration, and navigation systems without deploying expensive hardware. This article examines how the AirSim simulator, Unreal Engine, and Cesium plugin can be used to generate simulated digital twin models of real-world locations. Several technical challenges in completing the analysis are discussed and the technical solutions are detailed in this article. Work investigates how to assess mapping results for a real-life experiment using Cesium Tiles provided by digital twins of the experimental location. This is accompanied by a description of a process for duplicating real-world flights in simulation. The performance of these methods is evaluated by analyzing real-life and experimental image telemetry with the Direct Sparse Odometry (DSO) mapping algorithm. Results indicate that Cesium Tiles environments can provide highly accurate models of ground truth geometry after careful alignment. Further, results from real-life and simulated telemetry analysis indicate that the virtual simulation results accurately predict real-life results. Findings indicate that the algorithm results in real life and in the simulated duplicate exhibited a high degree of similarity. This indicates that the use of Cesium Tiles environments as a virtual digital twin for real-life experiments will provide representative results for such algorithms. The impact of this can be significant, potentially allowing expansive virtual testing of robotic systems at specific deployment locations to develop solutions that are tailored to the environment and potentially outperforming solutions meant to work in completely generic environments.
翻訳日:2024-01-17 15:48:03 公開日:2024-01-15
# 確率的ランベルト問題の解法:最適物質輸送,Schr\\odinger Bridgeおよび反応拡散PDEとの接続

Solution of the Probabilistic Lambert Problem: Connections with Optimal Mass Transport, Schr\"odinger Bridge and Reaction-Diffusion PDEs ( http://arxiv.org/abs/2401.07961v1 )

ライセンス: Link先を確認
Alexis M.H. Teter, Iman Nodozi, Abhishek Halder(参考訳) ランバートの問題は、重力場を受ける速度制御を介して所定の飛行時間内に、与えられた初期から所定の終端位置に宇宙船を移動させることである。 我々は、位置ベクトルにおけるエンドポイント制約の知識がそれぞれの確率密度関数の知識に置き換えられるランベルト問題の確率的変種を考える。 終端結合確率密度制約を伴うランベルト問題は、一般化された最適質量輸送(OMT)問題であり、この古典的な天体力学問題を、現代の確率制御と確率機械学習の進歩的な研究領域と結びつけていることを示す。 この新たな接続により、確率ランベルト問題に対する解の存在と一意性を厳格に確立することができる。 同じ接続は拡散正則化(英語版)により確率ランベルト問題を数値的に解くのにも役立ち、すなわち OMT と Schr\"odinger bridge problem (SBP) とのさらなる接続を利用する。 これはまた、加法的動的プロセスノイズを伴う確率ランベルト問題は、実際は一般化されたSBPであり、この研究で述べたように、いわゆる「シュル・オーディンガー因子」を用いて数値的に解くことができることを示している。 この結果から, 非線形重力ポテンシャルが反応速度として現れる反応拡散PDEの境界結合系の解法が導かれる。 本稿では,新しいアルゴリズムを提案するとともに,実測的な数値結果を示す。 解析とアルゴリズムの枠組みは非パラメトリック、すなわち統計的(ガウス的、最初の数モーメント、混合または指数的族、十分な統計量の有限次元性)も動的(テイラー級数など)も近似もしない。

Lambert's problem concerns with transferring a spacecraft from a given initial to a given terminal position within prescribed flight time via velocity control subject to a gravitational force field. We consider a probabilistic variant of the Lambert problem where the knowledge of the endpoint constraints in position vectors are replaced by the knowledge of their respective joint probability density functions. We show that the Lambert problem with endpoint joint probability density constraints is a generalized optimal mass transport (OMT) problem, thereby connecting this classical astrodynamics problem with a burgeoning area of research in modern stochastic control and stochastic machine learning. This newfound connection allows us to rigorously establish the existence and uniqueness of solution for the probabilistic Lambert problem. The same connection also helps to numerically solve the probabilistic Lambert problem via diffusion regularization, i.e., by leveraging further connection of the OMT with the Schr\"odinger bridge problem (SBP). This also shows that the probabilistic Lambert problem with additive dynamic process noise is in fact a generalized SBP, and can be solved numerically using the so-called Schr\"odinger factors, as we do in this work. We explain how the resulting analysis leads to solving a boundary-coupled system of reaction-diffusion PDEs where the nonlinear gravitational potential appears as the reaction rate. We propose novel algorithms for the same, and present illustrative numerical results. Our analysis and the algorithmic framework are nonparametric, i.e., we make neither statistical (e.g., Gaussian, first few moments, mixture or exponential family, finite dimensionality of the sufficient statistic) nor dynamical (e.g., Taylor series) approximations.
翻訳日:2024-01-17 15:47:38 公開日:2024-01-15
# GD-CAF: 降雨予報のためのグラフデュアルストリーム畳み込み注意融合

GD-CAF: Graph Dual-stream Convolutional Attention Fusion for Precipitation Nowcasting ( http://arxiv.org/abs/2401.07958v1 )

ライセンス: Link先を確認
Lorand Vatamany, Siamak Mehrkanoon(参考訳) 洪水予報、災害管理、農業活動の最適化、交通路の管理、再生可能エネルギーなど、様々な目的のために正確な降水量計が不可欠である。 いくつかの研究はシーケンス・ツー・シーケンスの観点からこの課題に対処してきたが、その多くは複数の領域間の既存の相関を考慮せずに単一の領域に焦点を当てている。 本稿では,時空間グラフ列の降水問題として降水流を定式化する。 特にGD-CAF(Graph Dual-stream Convolutional Attention Fusion)を紹介する。これは降水マップの時空間グラフから学習するための新しいアプローチであり、将来は異なる場所の降水に先んじる。 gd-cafは時空間的畳み込みの注意と、奥行き分離可能な畳み込み操作を備えたゲート融合モジュールから構成される。 この拡張により、降水マップの高次元時空間グラフを直接処理し、データ次元間の高次相関を利用することができる。 我々は,コペルニクスのERA5データセットから収集したヨーロッパとその周辺地域の7年間の降水マップについて,本モデルを評価した。 モデルは、地図上の特定の領域からの歴史的な観測を各ノードが表現する完全連結グラフを受け取る。 したがって、各ノードは時間、高さ、幅寸法の3次元テンソルを含む。 実験により,提案したGD-CAFモデルが他の試験モデルより優れていることが示された。 さらに、テストセットの平均的な季節的空間的および時間的注意スコアを可視化し、異なる領域間の強いつながりや時間ステップに関する洞察を与える。 これらの視覚化は、私たちのモデルの意思決定プロセスに光を当てています。

Accurate precipitation nowcasting is essential for various purposes, including flood prediction, disaster management, optimizing agricultural activities, managing transportation routes and renewable energy. While several studies have addressed this challenging task from a sequence-to-sequence perspective, most of them have focused on a single area without considering the existing correlation between multiple disjoint regions. In this paper, we formulate precipitation nowcasting as a spatiotemporal graph sequence nowcasting problem. In particular, we introduce Graph Dual-stream Convolutional Attention Fusion (GD-CAF), a novel approach designed to learn from historical spatiotemporal graph of precipitation maps and nowcast future time step ahead precipitation at different spatial locations. GD-CAF consists of spatio-temporal convolutional attention as well as gated fusion modules which are equipped with depthwise-separable convolutional operations. This enhancement enables the model to directly process the high-dimensional spatiotemporal graph of precipitation maps and exploits higher-order correlations between the data dimensions. We evaluate our model on seven years of precipitation maps across Europe and its neighboring areas collected from the ERA5 dataset, provided by Copernicus. The model receives a fully connected graph in which each node represents historical observations from a specific region on the map. Consequently, each node contains a 3D tensor with time, height, and width dimensions. Experimental results demonstrate that the proposed GD-CAF model outperforms the other examined models. Furthermore, the averaged seasonal spatial and temporal attention scores over the test set are visualized to provide additional insights about the strongest connections between different regions or time steps. These visualizations shed light on the decision-making process of our model.
翻訳日:2024-01-17 15:47:07 公開日:2024-01-15
# 機械知覚品質:重度の損失圧縮が音響・画像モデルに与える影響の評価

Machine Perceptual Quality: Evaluating the Impact of Severe Lossy Compression on Audio and Image Models ( http://arxiv.org/abs/2401.07957v1 )

ライセンス: Link先を確認
Dan Jacobellis, Daniel Cummings, Neeraja J. Yadwadkar(参考訳) ニューラルネットワーク圧縮の分野では、PSNRやSSIMといった古典的歪みメトリクスのアルゴリズム最適化や、人間の知覚的品質に重点が置かれている。 人間ではなく機械が消費するデータ量が増えるにつれて、従来の人間中心の基準である$\unicode{x2013}$hasよりも機械知覚に適する特徴の保持を優先する機械指向圧縮の新たなパラダイムが出現し、損失のある圧縮を利用したシステムの開発、評価、配置にいくつかの新たな課題が生じた。 特に、損失圧縮に対する異なるアプローチが下流の機械知覚タスクのパフォーマンスにどのように影響するかは明らかではない。 この未探索領域に対処するために、画像分類、画像分割、音声認識、音源分離を含む様々な知覚モデル$\unicode{x2013}$under severe lossy compressionを評価した。 従来の,ニューラルネットワーク,生成圧縮アーキテクチャにまたがるいくつかの一般的なコーデックを利用する。 Our results indicate three key findings: (1) using generative compression, it is feasible to leverage highly compressed data while incurring a negligible impact on machine perceptual quality; (2) machine perceptual quality correlates strongly with deep similarity metrics, indicating a crucial role of these metrics in the development of machine-oriented codecs; and (3) using lossy compressed datasets, (e.g. ImageNet) for pre-training can lead to counter-intuitive scenarios where lossy compression increases machine perceptual quality rather than degrading it. この成長する研究領域への関与を促進するため、コードと実験はhttps://github.com/danjacobellis/MPQ.comで公開されています。

In the field of neural data compression, the prevailing focus has been on optimizing algorithms for either classical distortion metrics, such as PSNR or SSIM, or human perceptual quality. With increasing amounts of data consumed by machines rather than humans, a new paradigm of machine-oriented compression$\unicode{x2013}$which prioritizes the retention of features salient for machine perception over traditional human-centric criteria$\unicode{x2013}$has emerged, creating several new challenges to the development, evaluation, and deployment of systems utilizing lossy compression. In particular, it is unclear how different approaches to lossy compression will affect the performance of downstream machine perception tasks. To address this under-explored area, we evaluate various perception models$\unicode{x2013}$including image classification, image segmentation, speech recognition, and music source separation$\unicode{x2013}$under severe lossy compression. We utilize several popular codecs spanning conventional, neural, and generative compression architectures. Our results indicate three key findings: (1) using generative compression, it is feasible to leverage highly compressed data while incurring a negligible impact on machine perceptual quality; (2) machine perceptual quality correlates strongly with deep similarity metrics, indicating a crucial role of these metrics in the development of machine-oriented codecs; and (3) using lossy compressed datasets, (e.g. ImageNet) for pre-training can lead to counter-intuitive scenarios where lossy compression increases machine perceptual quality rather than degrading it. To encourage engagement on this growing area of research, our code and experiments are available at: https://github.com/danjacobellis/MPQ.
翻訳日:2024-01-17 15:46:41 公開日:2024-01-15
# 段階的制約を伴う文脈的バンディット

Contextual Bandits with Stage-wise Constraints ( http://arxiv.org/abs/2401.08016v1 )

ライセンス: Link先を確認
Aldo Pacchiano, Mohammad Ghavamzadeh, Peter Bartlett(参考訳) 制約を高い確率と期待で満たさなければならない段階的制約(各ラウンドにおける制約)の存在下での文脈的バンディットについて検討する。 明らかに、制約が期待されている設定は、高い確率を持つ制約の緩和である。 まず、文脈的帯域問題(逆関数)と段階的制約(コスト関数)の両方が線型である線形ケースから始める。 高い確率と期待設定のそれぞれにおいて,この問題に対する上位信頼バウンドアルゴリズムを提案し,それに対してt$roundの後悔を証明した。 我々のアルゴリズムは、異なるスケーリング要因で報酬とコストの信頼性セットの根源をスケールする新しいアイデアを用いて、探索と制約満足度をバランスさせる。 また、この制約付き問題に対する下限を証明し、アルゴリズムと解析がどのように複数の制約に拡張できるかを示し、理論結果を検証するためのシミュレーションを提供する。 高確率設定では、アルゴリズムを扱いやすいものにするために、アクションセットの最小要件を記述する。 制約が期待されている設定では,複数腕のバンディットを対象とし,後悔解析による計算効率の高いアルゴリズムを提案する。 最後に、報酬関数とコスト関数の両方が非線形である場合に、結果を拡張します。 そこで本研究では,関数クラスの複雑性をエルダー次元で特徴づけるアルゴリズムを提案し,それに対する後悔を証明した。

We study contextual bandits in the presence of a stage-wise constraint (a constraint at each round), when the constraint must be satisfied both with high probability and in expectation. Obviously the setting where the constraint is in expectation is a relaxation of the one with high probability. We start with the linear case where both the contextual bandit problem (reward function) and the stage-wise constraint (cost function) are linear. In each of the high probability and in expectation settings, we propose an upper-confidence bound algorithm for the problem and prove a $T$-round regret bound for it. Our algorithms balance exploration and constraint satisfaction using a novel idea that scales the radii of the reward and cost confidence sets with different scaling factors. We also prove a lower-bound for this constrained problem, show how our algorithms and analyses can be extended to multiple constraints, and provide simulations to validate our theoretical results. In the high probability setting, we describe the minimum requirements for the action set in order for our algorithm to be tractable. In the setting that the constraint is in expectation, we further specialize our results to multi-armed bandits and propose a computationally efficient algorithm for this setting with regret analysis. Finally, we extend our results to the case where the reward and cost functions are both non-linear. We propose an algorithm for this case and prove a regret bound for it that characterize the function class complexity by the eluder dimension.
翻訳日:2024-01-17 15:36:38 公開日:2024-01-15
# 動的パラメータランクプルーニングによる畳み込みニューラルネットワーク圧縮

Convolutional Neural Network Compression via Dynamic Parameter Rank Pruning ( http://arxiv.org/abs/2401.08014v1 )

ライセンス: Link先を確認
Manish Sharma, Jamison Heard, Eli Saber, Panos P. Markopoulos(参考訳) 畳み込みニューラルネットワーク(cnns)は複雑な潜在空間表現の学習に優れているが、その過剰パラメータ化はオーバーフィッティングや、特に限られたデータではパフォーマンスの低下につながる可能性がある。 これにより、高い計算とメモリ要求に加えて、エッジデプロイメントに対するCNNの適用性も制限される。 低ランク行列近似はCNNパラメータを減らすための有望なアプローチとして登場したが、その応用はランク選択や性能損失などの課題を提示している。 この問題に対処するために,動的パラメータランクプルーニングによるcnn圧縮の効率的なトレーニング手法を提案する。 本手法は,効率的な行列分解と新しい正規化手法を統合し,動的ランク削減とモデル圧縮のためのロバストな枠組みを形成する。 我々はSingular Value Decomposition (SVD) を用いて低ランク畳み込みフィルタと高密度重み行列をモデル化し、エンドツーエンドでSVD因子をトレーニングすることでモデル圧縮を実現する。 我々は、ResNet-18、ResNet-20、ResNet-32、CIFAR-10、CIFAR-100、ImageNet (2012) などの最新のCNNのアレイ上で、そのコンピュータビジョンへの適用性を示す。 提案手法は,分類性能を維持・向上させながら,保存量を大幅に削減できることを示す。

While Convolutional Neural Networks (CNNs) excel at learning complex latent-space representations, their over-parameterization can lead to overfitting and reduced performance, particularly with limited data. This, alongside their high computational and memory demands, limits the applicability of CNNs for edge deployment. Low-rank matrix approximation has emerged as a promising approach to reduce CNN parameters, but its application presents challenges including rank selection and performance loss. To address these issues, we propose an efficient training method for CNN compression via dynamic parameter rank pruning. Our approach integrates efficient matrix factorization and novel regularization techniques, forming a robust framework for dynamic rank reduction and model compression. We use Singular Value Decomposition (SVD) to model low-rank convolutional filters and dense weight matrices and we achieve model compression by training the SVD factors with back-propagation in an end-to-end way. We evaluate our method on an array of modern CNNs, including ResNet-18, ResNet-20, and ResNet-32, and datasets like CIFAR-10, CIFAR-100, and ImageNet (2012), showcasing its applicability in computer vision. Our experiments show that the proposed method can yield substantial storage savings while maintaining or even enhancing classification performance.
翻訳日:2024-01-17 15:36:15 公開日:2024-01-15
# 特徴選択・鉱業関連ルールを用いたホームレスのニーズ分析

Analysing the Needs of Homeless People Using Feature Selection and Mining Association Rules ( http://arxiv.org/abs/2401.08008v1 )

ライセンス: Link先を確認
Jos\'e M. Alcalde-Llergo, Carlos Garc\'ia-Mart\'inez, Manuel Vaquero-Abell\'an, Pilar Aparicio-Mart\'inez and Enrique Yeguas-Bol\'ivar(参考訳) ホームレスは社会的・健康的な問題であり、ヨーロッパでは大きな反響がある。 多くの非政府組織はホームレスの人々に大量の情報を収集し分析することで支援している。 しかしながら、これらのタスクは必ずしも実行が簡単ではなく、組織の他の義務を妨げます。 SINTECHプロジェクトは、データを迅速かつ容易に収集するモバイルアプリケーションと、収集したデータから興味深い情報を取得する人工知能ベースのソフトウェアという、2つの異なるツールを提案するために作成された。 最初のものは、一部のスペインの組織に配布され、ホームレスの人々の調査に使われている。 第2のツールは、異なる特徴選択と関連ルールマイニング方法を実装する。 これらの人工知能技術により、以前収集したホームレスデータから、最も関連する特徴といくつかの興味深い関連ルールを識別できるようになりました。

Homelessness is a social and health problem with great repercussions in Europe. Many non-governmental organisations help homeless people by collecting and analysing large amounts of information about them. However, these tasks are not always easy to perform, and hinder other of the organisations duties. The SINTECH project was created to tackle this issue proposing two different tools: a mobile application to quickly and easily collect data; and a software based on artificial intelligence which obtains interesting information from the collected data. The first one has been distributed to some Spanish organisations which are using it to conduct surveys of homeless people. The second tool implements different feature selection and association rules mining methods. These artificial intelligence techniques have allowed us to identify the most relevant features and some interesting association rules from previously collected homeless data.
翻訳日:2024-01-17 15:35:47 公開日:2024-01-15
# エンコーダデコーダモデルによるジュエリー認識

Jewelry Recognition via Encoder-Decoder Models ( http://arxiv.org/abs/2401.08003v1 )

ライセンス: Link先を確認
Jos\'e M. Alcalde-Llergo, Enrique Yeguas-Bol\'ivar, Andrea Zingoni and Alejandro Fuerte-Jurado(参考訳) ジュエリー認識は、アクセサリーのスタイルやデザインが異なるため、複雑なタスクである。 様々なアクセサリーの正確な記述は、今日のジュエリー分野の専門家によってのみ達成できるものである。 本研究では,コンピュータビジョン技術と画像キャプションを用いたジュエリー認識手法を提案する。 提案手法は,異なる画像キャプションモデルを用いて画像から宝石を検出し,アクセサリの自然言語記述を生成する。 この記述は、アクセサリーを様々な詳細レベルで分類するのにも使われる。 生成されたキャプションには宝石の種類、色、素材、デザインなどの詳細が含まれている。 異なる種類の宝石を正確に認識する手法の有効性を示すため, C'ordoba (Spain) のジュエリーストアに属するアクセサリーの画像からなるデータセットを作成した。 設計した異なる画像キャプションアーキテクチャをテストすると、最終モデルは95\%のキャプション精度を達成する。 提案手法は, 宝石電子商取引, 在庫管理, 自動宝石認識など, 人々の嗜好や社会的地位を分析する様々な用途に応用できる可能性がある。

Jewelry recognition is a complex task due to the different styles and designs of accessories. Precise descriptions of the various accessories is something that today can only be achieved by experts in the field of jewelry. In this work, we propose an approach for jewelry recognition using computer vision techniques and image captioning, trying to simulate this expert human behavior of analyzing accessories. The proposed methodology consist on using different image captioning models to detect the jewels from an image and generate a natural language description of the accessory. Then, this description is also utilized to classify the accessories at different levels of detail. The generated caption includes details such as the type of jewel, color, material, and design. To demonstrate the effectiveness of the proposed method in accurately recognizing different types of jewels, a dataset consisting of images of accessories belonging to jewelry stores in C\'ordoba (Spain) has been created. After testing the different image captioning architectures designed, the final model achieves a captioning accuracy of 95\%. The proposed methodology has the potential to be used in various applications such as jewelry e-commerce, inventory management or automatic jewels recognition to analyze people's tastes and social status.
翻訳日:2024-01-17 15:35:33 公開日:2024-01-15
# 多変量時系列クラスタリングによる一般化可能なTBI現象の発見

Discovery of Generalizable TBI Phenotypes Using Multivariate Time-Series Clustering ( http://arxiv.org/abs/2401.08002v1 )

ライセンス: Link先を確認
Hamid Ghaderi, Brandon Foreman, Chandan K. Reddy, Vignesh Subbian(参考訳) 外傷性脳損傷(tbi)は、その本質的異質性に起因する幅広い臨床所見と結果を示し、様々な回復経路と様々な治療反応をもたらす。 多くの研究は、異なる患者集団に対してTBI表現型を研究してきたが、様々な設定や集団にわたって一貫して一般化されるTBI表現型を同定することは、重要な研究ギャップである。 本研究は,TBIの動的複雑度を明らかにするために,多変量時系列クラスタリングを用いてこの問題に対処する。 多変量時系列データをSLAC-Timeでクラスタリングするための自己教師あり学習に基づくアプローチを用いて,研究中心のTRACK-TBIと実世界のMIMIC-IVデータセットの両方を解析した。 注目すべきは、SLAC-Timeの最適なハイパーパラメータと理想的なクラスタ数は、これらのデータセット間で一貫しており、異種データセット間のSLAC-Timeの安定性を裏付けている。 総括的TBI表現型は3種類 ({\alpha, \b{eta}, {\gamma}) で, 救急部訪問時の時間的特徴, ICU滞在時の時間的特徴, ICU滞在時の時間的特徴について検討した。 具体的には、表現型 {\alpha は軽度 TBI であり、非常に一貫した臨床像である。 対照的に、表現型 \b{eta} は多彩な臨床症状を持つ重度のTBIを示し、表現型 {\gamma} は重症度と臨床多様性の点で中程度のTBIプロファイルを示す。 年齢はTBIの結果の重要な決定要因であり、高齢のコホートは死亡率が高い。 重要なことに、特定の特徴は年齢によって異なるが、各表現型に関連付けられたTBIのコア特性は多様な個体群で一貫している。

Traumatic Brain Injury (TBI) presents a broad spectrum of clinical presentations and outcomes due to its inherent heterogeneity, leading to diverse recovery trajectories and varied therapeutic responses. While many studies have delved into TBI phenotyping for distinct patient populations, identifying TBI phenotypes that consistently generalize across various settings and populations remains a critical research gap. Our research addresses this by employing multivariate time-series clustering to unveil TBI's dynamic intricates. Utilizing a self-supervised learning-based approach to clustering multivariate time-Series data with missing values (SLAC-Time), we analyzed both the research-centric TRACK-TBI and the real-world MIMIC-IV datasets. Remarkably, the optimal hyperparameters of SLAC-Time and the ideal number of clusters remained consistent across these datasets, underscoring SLAC-Time's stability across heterogeneous datasets. Our analysis revealed three generalizable TBI phenotypes ({\alpha}, \b{eta}, and {\gamma}), each exhibiting distinct non-temporal features during emergency department visits, and temporal feature profiles throughout ICU stays. Specifically, phenotype {\alpha} represents mild TBI with a remarkably consistent clinical presentation. In contrast, phenotype \b{eta} signifies severe TBI with diverse clinical manifestations, and phenotype {\gamma} represents a moderate TBI profile in terms of severity and clinical diversity. Age is a significant determinant of TBI outcomes, with older cohorts recording higher mortality rates. Importantly, while certain features varied by age, the core characteristics of TBI manifestations tied to each phenotype remain consistent across diverse populations.
翻訳日:2024-01-17 15:35:14 公開日:2024-01-15
# TT-SNN:効率的なスパイクニューラルネットワークトレーニングのためのテンソルトレイン分解

TT-SNN: Tensor Train Decomposition for Efficient Spiking Neural Network Training ( http://arxiv.org/abs/2401.08001v1 )

ライセンス: Link先を確認
Donghyun Lee, Ruokai Yin, Youngeun Kim, Abhishek Moitra, Yuhang Li, Priyadarshini Panda(参考訳) スパイキングニューラルネットワーク(SNN)は、疎二元活性化を伴う標準ニューラルネットワークの潜在的エネルギー効率の代替手段として注目されている。 しかし、snsは時空間ダイナミクスとトレーニング中の時間ステップにわたる複数のバックプロパゲーション計算のために記憶と計算のオーバーヘッドに苦しむ。 この問題に対処するために、トレーニング可能な重み分解によりモデルサイズを削減し、ストレージ、FLOP、レイテンシーを削減したTT-SNN(Tensor Train Decomposition for Spiking Neural Networks)を導入する。 さらに,従来のSNNアーキテクチャに柔軟に統合可能な,典型的な逐次テンソル計算の代替として並列計算パイプラインを提案する。 我々の知る限りでは、SNNにおけるテンソル分解のこの種の応用としてはこれが初めてである。 静的および動的データセットであるCIFAR10/100とN-Caltech101を用いて評価を行った。 また、TT-SNNの並列性を完全に活用するためのTT-SNN調整トレーニングアクセラレータを提案する。 その結果,N-Caltech101データセットのトレーニングにおいて,パラメータサイズ (7.98X), FLOPs (9.25X), トレーニング時間 (17.7%), トレーニングエネルギー (28.3%) の大幅な削減が認められた。

Spiking Neural Networks (SNNs) have gained significant attention as a potentially energy-efficient alternative for standard neural networks with their sparse binary activation. However, SNNs suffer from memory and computation overhead due to spatio-temporal dynamics and multiple backpropagation computations across timesteps during training. To address this issue, we introduce Tensor Train Decomposition for Spiking Neural Networks (TT-SNN), a method that reduces model size through trainable weight decomposition, resulting in reduced storage, FLOPs, and latency. In addition, we propose a parallel computation pipeline as an alternative to the typical sequential tensor computation, which can be flexibly integrated into various existing SNN architectures. To the best of our knowledge, this is the first of its kind application of tensor decomposition in SNNs. We validate our method using both static and dynamic datasets, CIFAR10/100 and N-Caltech101, respectively. We also propose a TT-SNN-tailored training accelerator to fully harness the parallelism in TT-SNN. Our results demonstrate substantial reductions in parameter size (7.98X), FLOPs (9.25X), training time (17.7%), and training energy (28.3%) during training for the N-Caltech101 dataset, with negligible accuracy degradation.
翻訳日:2024-01-17 15:34:44 公開日:2024-01-15
# 線形光回路の分化

Differentiation of Linear Optical Circuits ( http://arxiv.org/abs/2401.07997v1 )

ライセンス: Link先を確認
Giovanni de Felice and Christopher Cortlett(参考訳) 線形光回路と単一光子源に基づく実験的なセットアップは、短期量子機械学習のための有望なプラットフォームを提供する。 しかし、現在のアプリケーションはすべてサポートベクターマシンとグラデーションフリー最適化手法に基づいている。 位相パラメータ上の光回路の微分は、一元的でないフォック空間上の作用素を生じさせるため困難である。 本稿では, 線形光回路の期待値の導出を, 1つの追加光子を用いて, より大きな回路からサンプリングすることで計算可能であることを示す。 期待値の観点から導関数を表現するため,一元的拡張に基づく回路抽出手法を開発した。 最後に,汎用プログラマブル干渉計の全勾配を,ボソンサンプリング装置への多項式数クエリを用いて推定できることを示す。 これは、ユニタリの空間をカバーするために指数関数的に多くのパラメータを必要とするキュービット設定とは対照的である。 このアルゴリズムは、グラデーション降下を利用した機械学習、量子化学、最適化へのフォトニック技術の応用を可能にする。

Experimental setups based on linear optical circuits and single photon sources offer a promising platform for near-term quantum machine learning. However, current applications are all based on support vector machines and gradient-free optimization methods. Differentiating an optical circuit over a phase parameter poses difficulty because it results in an operator on the Fock space which is not unitary. In this paper, we show that the derivative of the expectation values of a linear optical circuit can be computed by sampling from a larger circuit, using one additional photon. In order to express the derivative in terms of expectation values, we develop a circuit extraction procedure based on unitary dilation. We end by showing that the full gradient of a universal programmable interferometer can be estimated using polynomially many queries to a boson sampling device. This is in contrast to the qubit setting, where exponentially many parameters are needed to cover the space of unitaries. Our algorithm enables applications of photonic technologies to machine learning, quantum chemistry and optimization, powered by gradient descent.
翻訳日:2024-01-17 15:34:22 公開日:2024-01-15
# 拡散モデル多様体における逆例

Adversarial Examples are Misaligned in Diffusion Model Manifolds ( http://arxiv.org/abs/2401.06637v2 )

ライセンス: Link先を確認
Peter Lorenz and Ricard Durall and Janis Keuper(参考訳) 近年、拡散モデル(dms)は、データ分布の近似化に成功し、最先端の成果をもたらすという大きな注目を集めている。 それにもかかわらず、これらのモデルの汎用性は、画像インペインティング、セグメンテーション、敵対的ロバスト性など、様々な視覚応用を包含する生成能力を超えている。 本研究は拡散モデルのレンズを通しての対向攻撃の研究に焦点をあてる。 しかし,画像分類器の対角的堅牢性の向上は関与しない。 その代わり、画像に対するこれらの攻撃によって引き起こされる異常を検出し分析するために拡散モデルを活用することに重点を置いている。 そこで本研究では,拡散モデルを用いた変換過程に従えば,逆例の分布のアラインメントを体系的に検討する。 このアプローチの有効性はcifar-10とimagenetデータセットで評価され、後者の画像サイズも異なる。 その結果、良性画像と攻撃画像とを効果的に識別できる顕著な能力が示され、敵のインスタンスがDMの学習多様体と一致しないことが証明された。

In recent years, diffusion models (DMs) have drawn significant attention for their success in approximating data distributions, yielding state-of-the-art generative results. Nevertheless, the versatility of these models extends beyond their generative capabilities to encompass various vision applications, such as image inpainting, segmentation, adversarial robustness, among others. This study is dedicated to the investigation of adversarial attacks through the lens of diffusion models. However, our objective does not involve enhancing the adversarial robustness of image classifiers. Instead, our focus lies in utilizing the diffusion model to detect and analyze the anomalies introduced by these attacks on images. To that end, we systematically examine the alignment of the distributions of adversarial examples when subjected to the process of transformation using diffusion models. The efficacy of this approach is assessed across CIFAR-10 and ImageNet datasets, including varying image sizes in the latter. The results demonstrate a notable capacity to discriminate effectively between benign and attacked images, providing compelling evidence that adversarial instances do not align with the learned manifold of the DMs.
翻訳日:2024-01-17 12:01:01 公開日:2024-01-15
# 政策勾配部分空間の同定

Identifying Policy Gradient Subspaces ( http://arxiv.org/abs/2401.06604v2 )

ライセンス: Link先を確認
Jan Schneider, Pierre Schumacher, Simon Guist, Le Chen, Daniel H\"aufle, Bernhard Sch\"olkopf, Dieter B\"uchler(参考訳) 政策勾配法は複雑な連続制御タスクを解く大きな可能性を秘めている。 それでも、最適化問題の内部構造を活用し、トレーニング効率を向上させることができる。 最近の研究は、勾配が低次元でゆっくりと変化する部分空間にあるという事実を活用することで教師あり学習を加速できることを示している。 本稿では,この現象をシミュレーションされたベンチマークタスク上で,2つの一般的な政策勾配法に対して徹底的に評価する。 強化学習に固有のデータ分布が連続的に変化しているにもかかわらず,このような勾配部分空間が存在することを示す。 これらの結果は、パラメータ空間探索の改善や二階最適化の実現など、より効率的な強化学習に向けた今後の取り組みに有望な方向を示している。

Policy gradient methods hold great potential for solving complex continuous control tasks. Still, their training efficiency can be improved by exploiting structure within the optimization problem. Recent work indicates that supervised learning can be accelerated by leveraging the fact that gradients lie in a low-dimensional and slowly-changing subspace. In this paper, we conduct a thorough evaluation of this phenomenon for two popular deep policy gradient methods on various simulated benchmark tasks. Our results demonstrate the existence of such gradient subspaces despite the continuously changing data distribution inherent to reinforcement learning. These findings reveal promising directions for future work on more efficient reinforcement learning, e.g., through improving parameter-space exploration or enabling second-order optimization.
翻訳日:2024-01-17 12:00:42 公開日:2024-01-15
# ダガー圏と複素数:有限次元ヒルベルト空間と線型縮約の圏に対する公理

Dagger categories and the complex numbers: Axioms for the category of finite-dimensional Hilbert spaces and linear contractions ( http://arxiv.org/abs/2401.06584v2 )

ライセンス: Link先を確認
Matthew Di Meglio and Chris Heunen(参考訳) 有限次元ヒルベルト空間と線型収縮の圏を、ノルム、連続性、次元、実数に言及しない単純な圏論的公理を用いて特徴づける。 この証明は、ゾルの定理の代わりに実数の古典的特徴化の新しい変種を用いて、分析の限界に圏論の極限を直接関連付けている。

We characterise the category of finite-dimensional Hilbert spaces and linear contractions using simple category-theoretic axioms that do not refer to norms, continuity, dimension, or real numbers. Our proof directly relates limits in category theory to limits in analysis, using a new variant of the classical characterisation of the real numbers instead of Sol\`er's theorem.
翻訳日:2024-01-17 12:00:32 公開日:2024-01-15
# Masked Inter-Intra-Frame Attention を用いた超解像変換器

Video Super-Resolution Transformer with Masked Inter&Intra-Frame Attention ( http://arxiv.org/abs/2401.06312v2 )

ライセンス: Link先を確認
Xingyu Zhou, Leheng Zhang, Xiaorui Zhao, Keze Wang, Leida Li, Shuhang Gu(参考訳) 近年、Vision Transformerは低解像度のシーケンス、すなわちビデオ超解像(VSR)タスクの欠落した詳細を復元することに成功した。 VSRの精度が優れているにもかかわらず、計算上の重荷と大きなメモリフットプリントは、TransformerベースのVSRモデルを制約されたデバイスに配置することを妨げる。 本稿では,マスク付きイントラフレームおよびインターフレームアテンション(mia-vsr)を備えた新しい機能レベルのマスク処理フレームワークであるvsrを提案する。 MIA-VSRのコアは、隣接するフレーム間の特徴レベルの時間的連続性を利用して冗長な計算を減らし、以前拡張されたSR特徴をより合理的に活用することである。 具体的には,過去の特徴と入力特徴のそれぞれの役割を考慮に入れたフレーム内およびフレーム間アテンションブロックを提案する。 また,隣接フレーム間の特徴類似性に応じて重要でない計算をスキップする適応型ブロックワイズマスク予測モジュールを開発した。 我々は,提案手法を最近の最先端のVSR手法と比較するため,詳細なアブレーション研究を行っている。 実験の結果,MIA-VSRはPSNR精度を落とさずに,最先端手法よりもメモリと計算効率を向上することが示された。 コードはhttps://github.com/LabShuHangGU/MIA-VSRで公開されている。

Recently, Vision Transformer has achieved great success in recovering missing details in low-resolution sequences, i.e., the video super-resolution (VSR) task. Despite its superiority in VSR accuracy, the heavy computational burden as well as the large memory footprint hinder the deployment of Transformer-based VSR models on constrained devices. In this paper, we address the above issue by proposing a novel feature-level masked processing framework: VSR with Masked Intra and inter frame Attention (MIA-VSR). The core of MIA-VSR is leveraging feature-level temporal continuity between adjacent frames to reduce redundant computations and make more rational use of previously enhanced SR features. Concretely, we propose an intra-frame and inter-frame attention block which takes the respective roles of past features and input features into consideration and only exploits previously enhanced features to provide supplementary information. In addition, an adaptive block-wise mask prediction module is developed to skip unimportant computations according to feature similarity between adjacent frames. We conduct detailed ablation studies to validate our contributions and compare the proposed method with recent state-of-the-art VSR approaches. The experimental results demonstrate that MIA-VSR improves the memory and computation efficiency over state-of-the-art methods, without trading off PSNR accuracy. The code is available at https://github.com/LabShuHangGU/MIA-VSR.
翻訳日:2024-01-17 11:59:52 公開日:2024-01-15
# lego:言語拡張マルチモーダルグラウンドモデル

LEGO:Language Enhanced Multi-modal Grounding Model ( http://arxiv.org/abs/2401.06071v3 )

ライセンス: Link先を確認
Zhaowei Li, Qi Xu, Dong Zhang, Hang Song, Yiqing Cai, Qi Qi, Ran Zhou, Junting Pan, Zefeng Li, Van Tu Vu, Zhida Huang, Tao Wang(参考訳) マルチモーダルな大規模言語モデルは、様々なタスクにおいて異なるモーダルで印象的なパフォーマンスを示している。 しかし、既存のマルチモーダルモデルは、各モーダル内でのグローバルな情報の収集に重点を置いている。 したがって、これらのモデルは入力データの詳細な詳細を効果的に理解する能力がなく、より微妙な理解を必要とするタスクのパフォーマンスを制限している。 この制限に対処するためには、複数のモダリティをまたいできめ細かな理解を可能にし、幅広いタスクに適用性を高めるモデルを開発する必要がある。 本稿では,言語拡張型マルチモーダルグラウンドモデルであるLEGOを提案する。 他のマルチモーダルモデルのようなグローバルな情報をキャプチャする以外に、提案モデルでは、入力内のローカル情報の詳細な理解を要求するタスクに優れています。 ビデオ内の画像や瞬間における特定の領域の正確な識別と位置決定を示す。 この目的を達成するために,多様なデータセット構築パイプラインを設計し,モデルトレーニングのためのマルチモーダル・マルチグラニュラ性データセットを作成する。 私たちのモデルのコード、データセット、デモは、https: //github.com/lzw-lzw/LEGOにある。

Multi-modal large language models have demonstrated impressive performance across various tasks in different modalities. However, existing multi-modal models primarily emphasize capturing global information within each modality while neglecting the importance of perceiving local information across modalities. Consequently, these models lack the ability to effectively understand the fine-grained details of input data, limiting their performance in tasks that require a more nuanced understanding. To address this limitation, there is a compelling need to develop models that enable fine-grained understanding across multiple modalities, thereby enhancing their applicability to a wide range of tasks. In this paper, we propose LEGO, a language enhanced multi-modal grounding model. Beyond capturing global information like other multi-modal models, our proposed model excels at tasks demanding a detailed understanding of local information within the input. It demonstrates precise identification and localization of specific regions in images or moments in videos. To achieve this objective, we design a diversified dataset construction pipeline, resulting in a multi-modal, multi-granularity dataset for model training. The code, dataset, and demo of our model can be found at https: //github.com/lzw-lzw/LEGO.
翻訳日:2024-01-17 11:59:29 公開日:2024-01-15
# 木に基づく変動係数モデル

A tree-based varying coefficient model ( http://arxiv.org/abs/2401.05982v3 )

ライセンス: Link先を確認
Henning Zakrisson and Mathias Lindholm(参考訳) 本稿では,delong et al. (2023) の cyclic gradient boosting machine (cgbm) を用いて,変化係数をモデル化する木ベース変動係数モデル (vcm) を提案する。 cgbmを用いた係数関数のモデル化は、次元的に早期停止と特徴重要度スコアを可能にする。 次元の早い停止は、次元固有のオーバーフィッティングのリスクを減らすだけでなく、次元間のモデルの複雑さの違いも明らかにする。 特徴重要度スコアを使用することで、シンプルな特徴選択と簡単なモデル解釈が可能になる。 このモデルは、RichmanとW\'uthrich(2023)で使用されているものと同じシミュレーションと実データ例に基づいて評価され、その結果が、彼らのニューラルネットワークベースのVCMであるLocalGLMnetに匹敵するサンプル損失から結果を生成することを示している。

The paper introduces a tree-based varying coefficient model (VCM) where the varying coefficients are modelled using the cyclic gradient boosting machine (CGBM) from Delong et al. (2023). Modelling the coefficient functions using a CGBM allows for dimension-wise early stopping and feature importance scores. The dimension-wise early stopping not only reduces the risk of dimension-specific overfitting, but also reveals differences in model complexity across dimensions. The use of feature importance scores allows for simple feature selection and easy model interpretation. The model is evaluated on the same simulated and real data examples as those used in Richman and W\"uthrich (2023), and the results show that it produces results in terms of out of sample loss that are comparable to those of their neural network-based VCM called LocalGLMnet.
翻訳日:2024-01-17 11:59:10 公開日:2024-01-15
# マーカーレス皮膚登録に基づくUS \&MRI画像融合

US \& MRI Image Fusion Based on Markerless Skin Registration ( http://arxiv.org/abs/2307.14288v3 )

ライセンス: Link先を確認
Martina Paccini, Giacomo Paschina, Stefano De Beni, Giuseppe Patan\`e(参考訳) 本稿では,3次元CT/MR画像とリアルタイム超音波(US)取得を組み合わせた,革新的な自動核融合イメージングシステムを提案する。 このシステムは、外部の物理的マーカーや複雑なトレーニングの必要性をなくし、異なる経験レベルを持つ医師に画像融合を可能にする。 統合システムには、患者固有の表面取得のためのポータブル3Dカメラ、電磁トラッキングシステム、米国コンポーネントが含まれる。 融合アルゴリズムは、皮膚のセグメンテーションと硬直的共存という2つの主要な部分から構成される。 共同登録ソフトウェアは、CT/MR画像から抽出した表面を患者固有の座標と整合させ、迅速かつ効果的な融合を促進する。 臨床環境を含む様々な環境での実験テストは、システムの正確性、計算効率、雑音のロバスト性、オペレータの独立性を検証する。 共同登録誤差は、許容範囲=1$cm以下である。

This paper presents an innovative automatic fusion imaging system that combines 3D CT/MR images with real-time ultrasound (US) acquisition. The system eliminates the need for external physical markers and complex training, making image fusion feasible for physicians with different experience levels. The integrated system involves a portable 3D camera for patient-specific surface acquisition, an electromagnetic tracking system, and US components. The fusion algorithm comprises two main parts: skin segmentation and rigid co-registration, both integrated into the US machine. The co-registration software aligns the surface extracted from CT/MR images with patient-specific coordinates, facilitating rapid and effective fusion. Experimental testing in different settings, including the clinical environment, validates the system's accuracy, computational efficiency, noise robustness, and operator independence. The co-registration error remains under the acceptable range of~$1$ cm.
翻訳日:2024-01-17 11:58:53 公開日:2024-01-15