このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240108となっている論文です。

PDF登録状況(公開日: 20240108)

TitleAuthorsAbstract論文公表日・翻訳日
# 医用画像ディープフェイク検出のための深部畳み込みニューラルネットワークの比較解析

Comparative Analysis of Deep Convolutional Neural Networks for Detecting Medical Image Deepfakes ( http://arxiv.org/abs/2406.08758v1 )

ライセンス: Link先を確認
Abdel Rahman Alsabbagh, Omar Al-Kadi, (参考訳) GAN(Generative Adversarial Networks)は、医療画像など、様々な分野で注目に値する進歩を見せている。 最先端のDeep Convolutional Neural Network(DCNN)アーキテクチャは,その優れた特徴抽出で有名だが,医用画像のディープフェイク検出における有効性について検討する。 主な目的は、13の最先端DCNNを総合的に評価することにより、改ざんまたは操作された医療画像と現実を効果的に区別することである。 性能は様々な評価指標で評価され、時間効率と計算資源の要求を考慮に入れている。 以上の結果から,ResNet50V2は精度と特異性に優れており,DenseNet169はその精度,リコール,F1スコアで区別できることがわかった。 一つのモデルが他のモデルよりも好都合なシナリオについて検討する。 さらにMobileNetV3Largeは、比較的小さなパラメータ数を維持しながら、検討中のDCNNモデルの中で最も高速な競合性能を提供する。 また,DenseNetモデルとEfficientNetモデルの両方において,潜時空間分離性の評価を行い,医用画像の深層部への理解を深めた。 本研究の実験的分析は,医用画像領域におけるディープフェイク画像検出の分野での貴重な洞察に寄与する。

Generative Adversarial Networks (GANs) have exhibited noteworthy advancements across various applications, including medical imaging. While numerous state-of-the-art Deep Convolutional Neural Network (DCNN) architectures are renowned for their proficient feature extraction, this paper investigates their efficacy in the context of medical image deepfake detection. The primary objective is to effectively distinguish real from tampered or manipulated medical images by employing a comprehensive evaluation of 13 state-of-the-art DCNNs. Performance is assessed across diverse evaluation metrics, encompassing considerations of time efficiency and computational resource requirements. Our findings reveal that ResNet50V2 excels in precision and specificity, whereas DenseNet169 is distinguished by its accuracy, recall, and F1-score. We investigate the specific scenarios in which one model would be more favorable than another. Additionally, MobileNetV3Large offers competitive performance, emerging as the swiftest among the considered DCNN models while maintaining a relatively small parameter count. We also assess the latent space separability quality across the examined DCNNs, showing superiority in both the DenseNet and EfficientNet model families and entailing a higher understanding of medical image deepfakes. The experimental analysis in this research contributes valuable insights to the field of deepfake image detection in the medical imaging domain.
翻訳日:2024-07-01 07:50:27 公開日:2024-01-08
# 深層学習による冠動脈造影における側方循環の検出

Deep learning based detection of collateral circulation in coronary angiographies ( http://arxiv.org/abs/2403.12055v1 )

ライセンス: Link先を確認
Cosmin-Andrei Hatfaludi, Daniel Bunescu, Costin Florian Ciusdel, Alex Serban, Karl Bose, Marc Oppel, Stephanie Schroder, Christopher Seehase, Harald F. Langer, Jeanette Erdmann, Henry Nording, Lucian Mihai Itu, (参考訳) 冠状動脈疾患 (CAD) は、世界中で死と入院の主な原因となっている。 動脈硬化症(Atherosclerosis)は、動脈を徐々に狭め、致命的な効果を持つ炎症性疾患であり、CADの最も多い原因である。 それにもかかわらず、循環は側副腎の形成を通じて動脈硬化の存在に定期的に適応し、長期的健康上の利益をもたらす。 そのため、CADパーソナライズド医療において、冠側副循環(CCC)のタイムリーな検出が重要である。 血管造影画像中のCCCを検出するための新しい深層学習手法を提案する。 本手法は,血管造影シークエンスの各フレームから空間的特徴を抽出するために,畳み込みバックボーンに依存している。 それらの特徴は結合され、その後別の畳み込み層によって処理され、時間的に埋め込みを処理する。 データ不足のため,冠状動脈セグメンテーションにおけるバックボーンの事前トレーニングも行った。 さらに、低いデータ構造を考えると、パフォーマンスをさらに向上するために、数ショットの学習を試みます。 本稿では,Rentrop grading, collateral flow, and collateral gradingに基づくサブグループ解析と合わせて,モデル性能に関する貴重な知見を提供する。 提案手法は,CCC検出において有望な結果を示し,ランドマークに基づくCCC検出とCCC定量化を行うためにさらに拡張することができる。

Coronary artery disease (CAD) is the dominant cause of death and hospitalization across the globe. Atherosclerosis, an inflammatory condition that gradually narrows arteries and has potentially fatal effects, is the most frequent cause of CAD. Nonetheless, the circulation regularly adapts in the presence of atherosclerosis, through the formation of collateral arteries, resulting in significant long-term health benefits. Therefore, timely detection of coronary collateral circulation (CCC) is crucial for CAD personalized medicine. We propose a novel deep learning based method to detect CCC in angiographic images. Our method relies on a convolutional backbone to extract spatial features from each frame of an angiography sequence. The features are then concatenated, and subsequently processed by another convolutional layer that processes embeddings temporally. Due to scarcity of data, we also experiment with pretraining the backbone on coronary artery segmentation, which improves the results consistently. Moreover, we experiment with few-shot learning to further improve performance, given our low data regime. We present our results together with subgroup analyses based on Rentrop grading, collateral flow, and collateral grading, which provide valuable insights into model performance. Overall, the proposed method shows promising results in detecting CCC, and can be further extended to perform landmark based CCC detection and CCC quantification.
翻訳日:2024-03-25 07:46:43 公開日:2024-01-08
# 効果的なサイバー詐欺対策のためのネットワーク要件の検討

A Survey of Network Requirements for Enabling Effective Cyber Deception ( http://arxiv.org/abs/2309.00184v3 )

ライセンス: Link先を確認
Md Abu Sayed, Moqsadur Rahman, Mohammad Ariful Islam Khan, Deepak Tosh, (参考訳) サイバーセキュリティの進化する状況において、サイバー詐欺の利用は高度な攻撃に対する積極的な防衛戦略として注目されている。 本稿では,効果的なサイバー詐欺の実施に不可欠なネットワーク要件を網羅的に調査する。 多様なネットワークアーキテクチャとトポロジに注目して、ネットワーク特性と偽装機構の展開の間の複雑な関係を掘り下げる。 この調査は、一般的なサイバー詐欺フレームワークの詳細な分析を提供し、最適な効果の要件を満たす上での、その強みと限界を強調している。 理論的および実践的な視点から洞察を合成することにより、ロバストで適応可能なサイバー詐欺戦略の実現に不可欠なネットワークの前提条件の包括的理解に寄与する。

In the evolving landscape of cybersecurity, the utilization of cyber deception has gained prominence as a proactive defense strategy against sophisticated attacks. This paper presents a comprehensive survey that investigates the crucial network requirements essential for the successful implementation of effective cyber deception techniques. With a focus on diverse network architectures and topologies, we delve into the intricate relationship between network characteristics and the deployment of deception mechanisms. This survey provides an in-depth analysis of prevailing cyber deception frameworks, highlighting their strengths and limitations in meeting the requirements for optimal efficacy. By synthesizing insights from both theoretical and practical perspectives, we contribute to a comprehensive understanding of the network prerequisites crucial for enabling robust and adaptable cyber deception strategies.
翻訳日:2024-03-19 07:03:01 公開日:2024-01-08
# スポーフィング攻撃増強:異なる訓練された攻撃モデルは一般化を改善することができるか?

Spoofing attack augmentation: can differently-trained attack models improve generalisation? ( http://arxiv.org/abs/2309.09586v2 )

ライセンス: Link先を確認
Wanying Ge, Xin Wang, Junichi Yamagishi, Massimiliano Todisco, Nicholas Evans, (参考訳) 信頼性の高いディープフェイク検出器やスプーフ対策(CM)は、予測不可能なスプーフ攻撃に直面して堅牢であるべきである。 既知の攻撃に限らず、より一般化可能なアーティファクトの学習を促進するため、CMは通常、訓練中に様々な種類の攻撃にさらされる。 それでも、ディープラーニングベースのCMソリューションのパフォーマンスは、異なる初期化やハイパーパラメータ、トレーニングデータパーティションで再トレーニングされた場合、大きく変化することが知られている。 本稿では,スプーフィング攻撃の有効性(ディープラーニングベース)が訓練条件によっても同様に変化し,検出性能が著しく低下することを示す。 しかしながら,攻撃アルゴリズムに対する調整のみを行う場合,RawNet2 CMモデルは脆弱であるが,グラフアテンションネットワークと自己教師型学習に基づくモデルは確実に堅牢である。 異なる攻撃アルゴリズムで生成されたトレーニングデータに焦点を合わせることは、汎用性を確保するのに十分ではないかもしれない。

A reliable deepfake detector or spoofing countermeasure (CM) should be robust in the face of unpredictable spoofing attacks. To encourage the learning of more generaliseable artefacts, rather than those specific only to known attacks, CMs are usually exposed to a broad variety of different attacks during training. Even so, the performance of deep-learning-based CM solutions are known to vary, sometimes substantially, when they are retrained with different initialisations, hyper-parameters or training data partitions. We show in this paper that the potency of spoofing attacks, also deep-learning-based, can similarly vary according to training conditions, sometimes resulting in substantial degradations to detection performance. Nevertheless, while a RawNet2 CM model is vulnerable when only modest adjustments are made to the attack algorithm, those based upon graph attention networks and self-supervised learning are reassuringly robust. The focus upon training data generated with different attack algorithms might not be sufficient on its own to ensure generaliability; some form of spoofing attack augmentation at the algorithm level can be complementary.
翻訳日:2024-03-19 04:30:16 公開日:2024-01-08
# MEV非干渉としてのDeFiコンポーザビリティ

DeFi composability as MEV non-interference ( http://arxiv.org/abs/2309.10781v2 )

ライセンス: Link先を確認
Massimo Bartoletti, Riccardo Marchesin, Roberto Zunino, (参考訳) 複雑なDeFiサービスは、通常、より単純なスマートコントラクトを構成することで構築される。 これらのスマートコントラクトが実行されるブロックチェーンの無許可の性質により、DeFiサービスはセキュリティ上のリスクにさらされる。 我々は,スマートコントラクトの安全な構成可能性という新たな概念を導入し,その依存関係に干渉することで,敵が複合コントラクトを経済的に傷つけないようにした。

Complex DeFi services are usually constructed by composing a variety of simpler smart contracts. The permissionless nature of the blockchains where these smart contracts are executed makes DeFi services exposed to security risks, since adversaries can target any of the underlying contracts to economically damage the compound service. We introduce a new notion of secure composability of smart contracts, which ensures that adversaries cannot economically harm the compound contract by interfering with its dependencies.
翻訳日:2024-03-19 04:20:31 公開日:2024-01-08
# 分散IDとメンバシップの証明を組み合わせることでIoTネットワークの信頼性を実現する

Combining Decentralized IDentifiers with Proof of Membership to Enable Trust in IoT Networks ( http://arxiv.org/abs/2310.08163v3 )

ライセンス: Link先を確認
Alessandro Pino, Davide Margaria, Andrea Vesco, (参考訳) SSI(Self-Sovereign Identity)は、アイデンティティの構築と証明に使用されるデータの完全な制御を可能にする分散パラダイムである。 セキュリティ要件のあるIoTネットワークでは、セルフソブリンアイデンティティが重要な役割を担い、集中型IDソリューションに対するメリットをもたらすことができる。 課題は、SSIをリソース制約のあるIoTネットワークと互換性を持たせることだ。 この目的に応じて、同じ管理ドメイン下でのIoTノードの代替(相互)認証プロセスを提案し、議論する。 第一の考え方は、分散ID(Decentralized IDentifier, DID)に基づく秘密鍵所有権の検証と、DIDが進化した信頼された集合に属するという証明の検証を組み合わせることである。 この解は会員制の概念の証明を中心に構築されている。 本稿では,著者がメルクル木をベースとした新規な解法と,Boneh, Boyen, Shacham (BBS) グループシグネチャスキームの適応に基づく第2の解について分析する。 本報告では,性能評価と比較分析を行った。

The Self-Sovereign Identity (SSI) is a decentralized paradigm enabling full control over the data used to build and prove the identity. In Internet of Things networks with security requirements, the Self-Sovereign Identity can play a key role and bring benefits with respect to centralized identity solutions. The challenge is to make the SSI compatible with resource-constraint IoT networks. In line with this objective, the paper proposes and discusses an alternative (mutual) authentication process for IoT nodes under the same administration domain. The main idea is to combine the Decentralized IDentifier (DID)-based verification of private key ownership with the verification of a proof that the DID belongs to an evolving trusted set. The solution is built around the proof of membership notion. The paper analyzes two membership solutions, a novel solution designed by the Authors based on Merkle trees and a second one based on the adaptation of Boneh, Boyen and Shacham (BBS) group signature scheme. The paper concludes with a performance estimation and a comparative analysis.
翻訳日:2024-03-19 02:33:12 公開日:2024-01-08
# ディセプションゲームにおける異なるタイプの探索が逆方向決定過程に及ぼす影響の評価

Assessing the Influence of Different Types of Probing on Adversarial Decision-Making in a Deception Game ( http://arxiv.org/abs/2310.10662v3 )

ライセンス: Link先を確認
Md Abu Sayed, Mohammad Ariful Islam Khan, Bryant A Allsup, Joshua Zamora, Palvi Aggarwal, (参考訳) 偽情報によるサイバー攻撃を主導するサイバー攻撃者を含む偽装は、サイバー攻撃を阻止する効果的な方法であることが示されている。 主にネットワークサイズやゲームで使用されるハニーポットの割合といった変数に焦点を当てたサイバーセキュリティの偽装に関する以前の研究にもかかわらず、敵の意思決定に行動コストが及ぼす影響についてはほとんど調査されていない。 サイバーセキュリティなど、多くの分野において、さまざまなコストの選択によって人的意思決定を理解することが不可欠である。 本稿では,敵対的決定に対する探索の異なるコストを検討するために,偽装ゲーム (DG) を用いる。 そこで我々は,IBLTモデルと遅延フィードバック機構を用いて,人間の行動の知識を模倣した。 結果は, 虚偽の相違から得られたものであり, それぞれの影響を比較するための虚偽の相違は認められなかった。 その結果, 探索コストの増加に伴い, 探索はわずかに削減された。 攻撃の割合は、調査費用の増加と比較的同じであった。 コストは一定であったが、攻撃はわずかに減少した。 以上の結果から,異なる調査コストが攻撃率に影響を及ぼさない一方で,調査コストにわずかに影響を及ぼすことが明らかとなった。

Deception, which includes leading cyber-attackers astray with false information, has shown to be an effective method of thwarting cyber-attacks. There has been little investigation of the effect of probing action costs on adversarial decision-making, despite earlier studies on deception in cybersecurity focusing primarily on variables like network size and the percentage of honeypots utilized in games. Understanding human decision-making when prompted with choices of various costs is essential in many areas such as in cyber security. In this paper, we will use a deception game (DG) to examine different costs of probing on adversarial decisions. To achieve this we utilized an IBLT model and a delayed feedback mechanism to mimic knowledge of human actions. Our results were taken from an even split of deception and no deception to compare each influence. It was concluded that probing was slightly taken less as the cost of probing increased. The proportion of attacks stayed relatively the same as the cost of probing increased. Although a constant cost led to a slight decrease in attacks. Overall, our results concluded that the different probing costs do not have an impact on the proportion of attacks whereas it had a slightly noticeable impact on the proportion of probing.
翻訳日:2024-03-19 02:23:27 公開日:2024-01-08
# ゼロ信頼型遠隔作業環境構築のためのセキュリティ要件分析に関する研究

A Study on the Security Requirements Analysis to build a Zero Trust-based Remote Work Environment ( http://arxiv.org/abs/2401.03675v1 )

ライセンス: Link先を確認
Haena Kim, Yejun Kim, Seungjoo Kim, (参考訳) 近年,クラウドサービスの利用が年々増加し,リモートワークが企業内における新たな雇用形態の1つとなり,クラウドベースのリモートワーク環境のセキュリティが重要になっている。 既存の作業環境は、内部ネットワーク内のすべてが安全であるという前提に基づいてリソースにアクセスする、周辺セキュリティモデルに依存しています。 しかし、ネットワーク内のすべての安全を前提とした周辺セキュリティモデルの制限により、Zero Trustの採用が要求されている。 したがって、NISTとDoDはZero Trustアーキテクチャに関するガイドラインを公開した。 しかしながら、これらのガイドラインは、論理アーキテクチャに焦点を絞って、セキュリティ要件を抽象レベルで記述している。 本稿では,OpenStackクラウドの脅威モデリングを行い,NISTやDoDのガイドラインよりも詳細なセキュリティ要件を提案する。 その後、これらの要件を検証するために、Microsoft Azure、Amazon Web Service、Google Cloudといった商用クラウドサービスのセキュリティ分析を行います。 セキュリティ分析の結果は、各クラウドサービスが満たさないセキュリティ要件を特定し、脅威への潜在的な暴露を示す。 本稿では,ゼロトラストモデルに基づく詳細なセキュリティ要件を提案し,それに応じて各種クラウドサービスのセキュリティ分析を行う。 セキュリティ分析の結果,Zero Trustによるクラウドサービスの潜在的な脅威と対策を提案し,Zero Trustベースのリモートワーク環境の構築を支援することを目的としている。

Recently, the usage of cloud services has been increasing annually, and with remote work becoming one of the new forms of employment within enterprises, the security of cloud-based remote work environments has become important. The existing work environment relies on a perimeter security model, where accessing one's resources is based on the assumption that everything within the internal network is secure. However, due to the limitations of the perimeter security model, which assumes the safety of everything within the internal network, the adoption of Zero Trust is now being demanded. Accordingly, NIST and DoD have published guidelines related to Zero Trust architecture. However, these guidelines describe security requirements at an abstract level, focusing on logical architecture. In this paper, we conduct a threat modeling for OpenStack cloud to propose more detailed security requirements compared to NIST and DoD guidelines. Subsequently, we perform a security analysis of commercial cloud services such as Microsoft Azure, Amazon Web Service, and Google Cloud to validate these requirements. The security analysis results identify security requirements that each cloud service fails to satisfy, indicating potential exposure to threats. This paper proposes detailed security requirements based on the Zero Trust model and conducts security analyses of various cloud services accordingly. As a result of the security analysis, we proposed potential threats and countermeasures for cloud services with Zero Trust, and this is intended to help build a secure Zero Trust-based remote work environment.
翻訳日:2024-03-18 08:46:40 公開日:2024-01-08
# 標準モデル格子型SNARKの量子増幅LWEサンプリングとセキュリティ

Quantum Oblivious LWE Sampling and Insecurity of Standard Model Lattice-Based SNARKs ( http://arxiv.org/abs/2401.03807v1 )

ライセンス: Link先を確認
Thomas Debris-Alazard, Pouria Fallahpour, Damien Stehlé, (参考訳) Learning With Errors$\mathsf{LWE}$) 問題は $(\mathbf{A}, \mathbf{b} = \mathbf{A}\mathbf{s}+\mathbf{e}) \in (\mathbb{Z}/q\mathbb{Z})^{m \times n} \times (\mathbb{Z}/q\mathbb{Z})^{m}$ という形の入力から$\mathbf{s}$ を求める。 この作業では、$\mathsf{LWE}$の解決ではなく、インスタンスをサンプリングするタスクに焦点を当てます。 これらは極端にスパースであるから、先に$\mathbf{s}$と$\mathbf{e}$を生成し、次に$\mathbf{b} = \mathbf{A}\mathbf{s}+\mathbf{e}$をセットするしか方法がないと思える。 特に、そのような例のサンプルは解を知っている。 これにより、真に$(\mathbf{A}, \mathbf{A}\mathbf{s}+\mathbf{e})$をサンプリングできるかどうかという疑問が持ち上がる。 難解な $\mathsf{LWE}$ サンプリングが難しいという仮定の変種は、標準モデルにおけるSccinct Non-interactive Arguments of Knowledge (SNARKs) を構成する一連の研究で使われてきた。 この仮定は$\mathsf{LWE}$と関係しているため、これらのSNARKは量子敵の存在下では安全であると推測されている。 我々の主な結果は、よく分散された$\mathsf{LWE}$インスタンスをサンプリングする量子多項式時間アルゴリズムであり、$\mathsf{LWE}$は難しいという仮定の下で、確実に解を知らない。 さらに、このアプローチは、上記のSNARKで使用されるものを含む、幅広い$\mathsf{LWE}$パラメトリゼーションに対して有効である。

The Learning With Errors ($\mathsf{LWE}$) problem asks to find $\mathbf{s}$ from an input of the form $(\mathbf{A}, \mathbf{b} = \mathbf{A}\mathbf{s}+\mathbf{e}) \in (\mathbb{Z}/q\mathbb{Z})^{m \times n} \times (\mathbb{Z}/q\mathbb{Z})^{m}$, for a vector $\mathbf{e}$ that has small-magnitude entries. In this work, we do not focus on solving $\mathsf{LWE}$ but on the task of sampling instances. As these are extremely sparse in their range, it may seem plausible that the only way to proceed is to first create $\mathbf{s}$ and $\mathbf{e}$ and then set $\mathbf{b} = \mathbf{A}\mathbf{s}+\mathbf{e}$. In particular, such an instance sampler knows the solution. This raises the question whether it is possible to obliviously sample $(\mathbf{A}, \mathbf{A}\mathbf{s}+\mathbf{e})$, namely, without knowing the underlying $\mathbf{s}$. A variant of the assumption that oblivious $\mathsf{LWE}$ sampling is hard has been used in a series of works constructing Succinct Non-interactive Arguments of Knowledge (SNARKs) in the standard model. As the assumption is related to $\mathsf{LWE}$, these SNARKs have been conjectured to be secure in the presence of quantum adversaries. Our main result is a quantum polynomial-time algorithm that samples well-distributed $\mathsf{LWE}$ instances while provably not knowing the solution, under the assumption that $\mathsf{LWE}$ is hard. Moreover, the approach works for a vast range of $\mathsf{LWE}$ parametrizations, including those used in the above-mentioned SNARKs.
翻訳日:2024-03-18 08:46:40 公開日:2024-01-08
# DNSフィルタリングコンポーネントの調査と解析

Survey and Analysis of DNS Filtering Components ( http://arxiv.org/abs/2401.03864v1 )

ライセンス: Link先を確認
Jonathan Magnusson, (参考訳) ドメイン名システム(DNS)は、ドメイン名を一般にIPアドレスに変換する名前サーバを含む。 認証名サーバは特定のゾーンのリソースレコード(RR)をホストし、リゾルバ名サーバはクライアントに代わってDNSクエリのクエリと応答を担当している。 残念ながら、サイバー犯罪者はフィッシング、マルウェアの配布、ボットネット通信など、悪意のある目的でDNSを使用することが多い。 これらの脅威に対処するため、フィルタリングリゾルバが人気を博し、悪意のある要求を特定してブロックする様々なテクニックが採用されている。 本稿では、応答ポリシーゾーン、脅威情報フィード、アルゴリズムによって生成されたドメインの検出を含む、リゾルバのフィルタリング機能の実装と強化に関するいくつかの手法について調査する。 本稿では, 各領域の現在の傾向を把握し, 文献に欠落する交差点を見出すことで, フィルタリゾルバの有効性を向上させることができる。 また,本研究で特定した最先端手法を用いてリゾルバをフィルタするフレームワークの設計も提案する。

The Domain Name System (DNS) comprises name servers translating domain names into, commonly, IP addresses. Authoritative name servers hosts the resource records (RR) for certain zones, and resolver name servers are responsible for querying and answering DNS queries on behalf of their clients. Unfortunately, cybercriminals often use DNS for malicious purposes, such as phishing, malware distribution, and botnet communication. To combat these threats, filtering resolvers have become increasingly popular, employing various techniques to identify and block malicious requests. In this paper, we survey several techniques to implement and enhance the capabilities of filtering resolvers including response policy zones, threat intelligence feeds, and detection of algorithmically generated domains. We identify the current trends of each area and find missing intersections in the literature, which could be used to improve the effectiveness of filtering resolvers. In addition, we propose future work designing a framework for filtering resolvers using state-of-the-art approaches identified in this study.
翻訳日:2024-03-18 08:46:40 公開日:2024-01-08
# 機械学習におけるローカルプライバシ保護機構と応用

Local Privacy-preserving Mechanisms and Applications in Machine Learning ( http://arxiv.org/abs/2401.13692v1 )

ライセンス: Link先を確認
Likun Qin, Tianshuo Qiu, (参考訳) ローカル微分プライバシ(LDP)の出現と進化と、その様々な適応は、クラウドセンシングの領域において、データインフォームドな意思決定に不可欠であるインテリジェントデバイスが生成する膨大な量のデータに関連するプライバシー問題に対処する上で、重要な役割を担っている。 これらの広範なデータセットを利用することは、重要な洞察を提供するだけでなく、関係する個人に対してかなりのプライバシー上の懸念をもたらす。 LDPは分散化されたフレームワークで有名だが、データ収集と処理の段階において、個々のユーザに対して強力なプライバシ保護を提供することに長けている。 LDPの中核的な原則は、サーバに送信される前に各ユーザのデータをクライアントの端でローカルに変更することで、両方のステージにおけるプライバシー侵害を防止することである。 ユーティリティとプライバシのトレードオフを改善することを目的とした、プライバシー研究コミュニティには、多くのDPのばらつきがある。 一方、プライバシ保護機構の主な応用の1つは機械学習である。 本稿では,まず LDP とその分散を包括的に分析し,それらのモデル,適用範囲の多様性,およびプライバシ機構の基盤となる構造に着目し,機械学習における最先端のプライバシ機構の適用について論じる。

The emergence and evolution of Local Differential Privacy (LDP) and its various adaptations play a pivotal role in tackling privacy issues related to the vast amounts of data generated by intelligent devices, which are crucial for data-informed decision-making in the realm of crowdsensing. Utilizing these extensive datasets can provide critical insights but also introduces substantial privacy concerns for the individuals involved. LDP, noted for its decentralized framework, excels in providing strong privacy protection for individual users during the stages of data collection and processing. The core principle of LDP lies in its technique of altering each user's data locally at the client end before it is sent to the server, thus preventing privacy violations at both stages. There are many LDP variances in the privacy research community aimed to improve the utility-privacy tradeoff. On the other hand, one of the major applications of the privacy-preserving mechanisms is machine learning. In this paper, we firstly delves into a comprehensive analysis of LDP and its variances, focusing on their various models, the diverse range of its adaptations, and the underlying structure of privacy mechanisms; then we discuss the state-of-art privacy mechanisms applications in machine learning.
翻訳日:2024-03-18 08:17:26 公開日:2024-01-08
# スロット構造世界モデル

Slot Structured World Models ( http://arxiv.org/abs/2402.03326v1 )

ライセンス: Link先を確認
Jonathan Collu, Riccardo Majellaro, Aske Plaat, Thomas M. Moerland(参考訳) 個々のオブジェクトとその相互作用を知覚し、推論する能力は、インテリジェントな人工システムを構築するための目標である。 最先端のアプローチでは、フィードフォワードエンコーダを使用して、オブジェクト埋め込みを抽出し、潜在グラフニューラルネットワークを使用して、オブジェクト埋め込み間のインタラクションをモデル化する。 しかし、フィードフォワードエンコーダは {\it object-centric} 表現を抽出することができず、類似した外観で複数のオブジェクトをアンタングルできない。 これらの問題を解決するために、Slot Attentionに基づく(オブジェクト中心の)エンコーダと潜在グラフに基づく動的モデルを組み合わせた世界モデルのクラスであるSSWM( {\it Slot Structured World Models)を導入する。 本研究では,Slot Structured World Modelsが動作条件とオブジェクトの相互作用を伴う複数の(複数段階の)予測タスクのベースラインを一貫して上回り,物理的相互作用の単純な規則を用いてSpriteworldベンチマークで評価する。 紙の実験を再現するコードは \url{https://github.com/JonathanCollu/Slot-Structured-World-Models} から入手できる。

The ability to perceive and reason about individual objects and their interactions is a goal to be achieved for building intelligent artificial systems. State-of-the-art approaches use a feedforward encoder to extract object embeddings and a latent graph neural network to model the interaction between these object embeddings. However, the feedforward encoder can not extract {\it object-centric} representations, nor can it disentangle multiple objects with similar appearance. To solve these issues, we introduce {\it Slot Structured World Models} (SSWM), a class of world models that combines an {\it object-centric} encoder (based on Slot Attention) with a latent graph-based dynamics model. We evaluate our method in the Spriteworld benchmark with simple rules of physical interaction, where Slot Structured World Models consistently outperform baselines on a range of (multi-step) prediction tasks with action-conditional object interactions. All code to reproduce paper experiments is available from \url{https://github.com/JonathanCollu/Slot-Structured-World-Models}.
翻訳日:2024-02-11 15:53:58 公開日:2024-01-08
# Connect Later: ターゲット拡張によるロバストネスの微調整の改善

Connect Later: Improving Fine-tuning for Robustness with Targeted Augmentations ( http://arxiv.org/abs/2402.03325v1 )

ライセンス: Link先を確認
Helen Qu, Sang Michael Xie(参考訳) ラベル付きソースドメイン(例えば、野生動物のカメラトラップからのラベル付きイメージ)でトレーニングされたモデルは、アウト・オブ・ディストリビューション(OOD)ターゲットドメイン(例えば、新しいカメラトラップ位置からのイメージ)にデプロイする際には、しばしば一般化が不十分である。 ラベルなしのターゲットデータを利用できるドメイン適応設定では、自己教師付き事前学習(例えば、マスク付きオートエンコーディングやコントラスト学習)は、このパフォーマンス低下を緩和するための有望な方法である。 事前トレーニングは、入力空間で遠く離れている可能性があるソースとターゲットドメインを接続する際に使用される一般的なデータ拡張(例えばマスキングやクロッピング)によってoodエラーが改善される。 本稿では,プリトレーニング後の標準的な微調整がラベル付きソースデータのスクラッチからトレーニングするよりも,oodエラーを一貫して改善しない実世界のタスクについて述べる。 分布シフトの事前訓練をよりうまく活用するために、以下をコネクトする: 一般的な拡張で事前訓練した後、分布シフトの知識を生かしたターゲット拡張で微調整する。 Pretrainingはソースとターゲットドメイン内の優れた表現を学習し、ターゲット拡張は微調整時にドメインをよりよく接続する。 Connect Later improves average OOD error over standard fine-tuning and supervised learning with targeted augmentations on 4 real-world datasets: Connect Later achieves the state-of-the-art on astronomical time-series classification (AstroClassification) by 2.5%, wildlife species identification (iWildCam-WILDS) with ResNet-50 by 0.9%, and tumor identification (Camelyon17-WILDS) with DenseNet121 by 1.1%; as well as best performance on a new dataset for astronomical time-series redshift prediction (Redshifts) by 0.03 RMSE (11% relative). コードとデータセットはhttps://github.com/helenqu/connect-laterで入手できる。

Models trained on a labeled source domain (e.g., labeled images from wildlife camera traps) often generalize poorly when deployed on an out-of-distribution (OOD) target domain (e.g., images from new camera trap locations). In the domain adaptation setting where unlabeled target data is available, self-supervised pretraining (e.g., masked autoencoding or contrastive learning) is a promising method to mitigate this performance drop. Pretraining improves OOD error when the generic data augmentations used (e.g., masking or cropping) connect the source and target domains, which may be far apart in the input space. In this paper, we show on real-world tasks that standard fine-tuning after pretraining does not consistently improve OOD error over simply training from scratch on labeled source data. To better leverage pretraining for distribution shifts, we propose Connect Later: after pretraining with generic augmentations, fine-tune with targeted augmentations designed with knowledge of the distribution shift. Pretraining learns good representations within the source and target domains, while targeted augmentations connect the domains better during fine-tuning. Connect Later improves average OOD error over standard fine-tuning and supervised learning with targeted augmentations on 4 real-world datasets: Connect Later achieves the state-of-the-art on astronomical time-series classification (AstroClassification) by 2.5%, wildlife species identification (iWildCam-WILDS) with ResNet-50 by 0.9%, and tumor identification (Camelyon17-WILDS) with DenseNet121 by 1.1%; as well as best performance on a new dataset for astronomical time-series redshift prediction (Redshifts) by 0.03 RMSE (11% relative). Code and datasets are available at https://github.com/helenqu/connect-later.
翻訳日:2024-02-11 15:53:38 公開日:2024-01-08
# なぜ予測精度が時間とともに低下するのか? クラウド障害予測のための不確実性正の学習

Why does Prediction Accuracy Decrease over Time? Uncertain Positive Learning for Cloud Failure Prediction ( http://arxiv.org/abs/2402.00034v1 )

ライセンス: Link先を確認
Haozhe Li, Minghua Ma, Yudong Liu, Pu Zhao, Lingling Zheng, Ze Li, Yingnong Dang, Murali Chintalapati, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang(参考訳) クラウドコンピューティングの急速な成長に伴い、さまざまなソフトウェアサービスがクラウドにデプロイされている。 クラウドサービスの信頼性を確保するために、事前研究は障害インスタンス(disk、node、switchなど)の予測に焦点を当てている。 予測の出力が正の値になると、その基礎となる失敗を迅速に解決する緩和作用が取られる。 Microsoft Azureでの現実の実践によると、モデルの再トレーニング後に予測精度が約9%低下する可能性がある。 緩和動作は、予測モデルを更新しながらより多くのノイズを発生させる可能性がある緩和後に検証できないため、不確実な正の事例をもたらす可能性がある。 私たちの知る限りでは、現実のクラウド障害予測シナリオにおいて、この不確実なポジティブラーニング(UPLearning)問題を最初に特定しました。 この問題に取り組むため,我々は不確定なポジティブラーニングリスク推定器(uptake)アプローチを設計した。 数百万ユーザを対象としたトップレベルのクラウドプロバイダであるmicrosoft azureでは,ディスク障害予測とノード予測の2つの実世界データセットを使用して,障害予測の精度を平均5%向上できることを実証した。

With the rapid growth of cloud computing, a variety of software services have been deployed in the cloud. To ensure the reliability of cloud services, prior studies focus on failure instance (disk, node, and switch, etc.) prediction. Once the output of prediction is positive, mitigation actions are taken to rapidly resolve the underlying failure. According to our real-world practice in Microsoft Azure, we find that the prediction accuracy may decrease by about 9% after retraining the models. Considering that the mitigation actions may result in uncertain positive instances since they cannot be verified after mitigation, which may introduce more noise while updating the prediction model. To the best of our knowledge, we are the first to identify this Uncertain Positive Learning (UPLearning) issue in the real-world cloud failure prediction scenario. To tackle this problem, we design an Uncertain Positive Learning Risk Estimator (Uptake) approach. Using two real-world datasets of disk failure prediction and conducting node prediction experiments in Microsoft Azure, which is a top-tier cloud provider that serves millions of users, we demonstrate Uptake can significantly improve the failure prediction accuracy by 5% on average.
翻訳日:2024-02-04 05:24:47 公開日:2024-01-08
# LF-ViT:効率的な画像認識のための視覚変換器における空間冗長性低減

LF-ViT: Reducing Spatial Redundancy in Vision Transformer for Efficient Image Recognition ( http://arxiv.org/abs/2402.00033v1 )

ライセンス: Link先を確認
Youbing Hu, Yun Cheng, Anqi Lu, Zhiqiang Cao, Dawei Wei, Jie Liu, Zhijun Li(参考訳) Vision Transformer (ViT) は高解像度画像を扱う際の精度を向上するが、空間冗長性の著しい問題に直面し、計算とメモリの要求が増大する。 これを解決するために、我々はLocalization and Focus Vision Transformer (LF-ViT)を提案する。 このモデルは、パフォーマンスを損なうことなく、計算要求を戦略的に削減することで動作します。 ローカライズ段階では、解像度の低い画像が処理され、決定的な予測が不明な場合には、先駆的な近隣のグローバルクラスアテンション(ngca)機構が起動され、初期所見に基づいてクラス識別領域を効果的に識別しスポットライトを当てる。 その後、フォーカスフェーズでは、元の画像からこの指定領域を使用して認識を強化する。 LF-ViTは両フェーズで一貫したパラメータを使用し、シームレスなエンドツーエンドの最適化を保証する。 実験では,LF-ViTの効率を実証し,Dit-SのFLOPを63%削減し,スループットを2倍に増幅した。 このプロジェクトのコードはhttps://github.com/edgeai1/LF-ViT.gitにある。

The Vision Transformer (ViT) excels in accuracy when handling high-resolution images, yet it confronts the challenge of significant spatial redundancy, leading to increased computational and memory requirements. To address this, we present the Localization and Focus Vision Transformer (LF-ViT). This model operates by strategically curtailing computational demands without impinging on performance. In the Localization phase, a reduced-resolution image is processed; if a definitive prediction remains elusive, our pioneering Neighborhood Global Class Attention (NGCA) mechanism is triggered, effectively identifying and spotlighting class-discriminative regions based on initial findings. Subsequently, in the Focus phase, this designated region is used from the original image to enhance recognition. Uniquely, LF-ViT employs consistent parameters across both phases, ensuring seamless end-to-end optimization. Our empirical tests affirm LF-ViT's prowess: it remarkably decreases Deit-S's FLOPs by 63\% and concurrently amplifies throughput twofold. Code of this project is at https://github.com/edgeai1/LF-ViT.git.
翻訳日:2024-02-04 05:24:28 公開日:2024-01-08
# STEMチームの等価性を解析する - 包摂性と多様性のための生成AIの障害

Catalyzing Equity in STEM Teams: Harnessing Generative AI for Inclusion and Diversity ( http://arxiv.org/abs/2402.00037v1 )

ライセンス: Link先を確認
Nia Nixon, Yiwen Lin, Lauren Snow(参考訳) STEMでは、複数の学際的なチームリサーチが複雑な問題を解決する。 しかし、STEM分野の不平等は、不足している学生の経験における心理的障壁が持続的に続くため、その潜在能力を損なう。 本稿では、STEMにおけるチームワークを文書化し、STEM-チーム間の多様性と包摂性を促進するための計算モデリングと生成AIの変革の可能性を探る。 本稿では、生成AIを活用し、多様性、エクイティ、包摂性の2つの主要な分野を概説する。 まず、包括的分析によるコラボレーションアセスメントの形式化は、きめ細かい学習行動を捉えることができる。 第2に、適応的でパーソナライズされたAIシステムは、STEMチームの多様性と包摂性をサポートすることができる。 正式なコラボレーションスキルアセスメント、包括的分析、社会認知研究のための資金、包括的トレーニングのための人間-AIチーム。 研究者、教育者、政策立案者は平等なSTEMエコシステムを構築することができる。 このロードマップはAIによって強化されたコラボレーションを推進し、様々な声が積極的に奨励され、協力的な科学的努力の中で耳を傾けるSTEMの未来に対するビジョンを提供する。

Collaboration is key to STEM, where multidisciplinary team research can solve complex problems. However, inequality in STEM fields hinders their full potential, due to persistent psychological barriers in underrepresented students' experience. This paper documents teamwork in STEM and explores the transformative potential of computational modeling and generative AI in promoting STEM-team diversity and inclusion. Leveraging generative AI, this paper outlines two primary areas for advancing diversity, equity, and inclusion. First, formalizing collaboration assessment with inclusive analytics can capture fine-grained learner behavior. Second, adaptive, personalized AI systems can support diversity and inclusion in STEM teams. Four policy recommendations highlight AI's capacity: formalized collaborative skill assessment, inclusive analytics, funding for socio-cognitive research, human-AI teaming for inclusion training. Researchers, educators, policymakers can build an equitable STEM ecosystem. This roadmap advances AI-enhanced collaboration, offering a vision for the future of STEM where diverse voices are actively encouraged and heard within collaborative scientific endeavors.
翻訳日:2024-02-04 05:09:06 公開日:2024-01-08
# リモートセンシングシーン分類における畳み込みニューラルネットワークのためのKronecker製品特徴融合

Kronecker Product Feature Fusion for Convolutional Neural Network in Remote Sensing Scene Classification ( http://arxiv.org/abs/2402.00036v1 )

ライセンス: Link先を確認
Yinzhu Cheng(参考訳) リモートセンシングシーン分類は、畳み込みニューラルネットワーク(CNN)が重要な役割を担っている、困難で価値のある研究トピックである。 CNNはリモートセンシング画像から階層的畳み込み特徴を抽出でき、異なるレイヤのフィーチャーフュージョンはCNNのパフォーマンスを向上させることができる。 AddとConcatという2つのFeature Fusionメソッドは、ある種の最先端CNNアルゴリズムで採用されている。 本稿では,Kronecker Product (KPFF) を用いて上記の手法を統一した新しいFeature Fusionアルゴリズムを提案し,このアルゴリズムに関連するバックプロパゲーション手順について議論する。 提案手法の有効性を検証するために,一連の実験を設計・実施した。 その結果,リモートセンシングシーン分類におけるCNNの精度向上効果が示された。

Remote Sensing Scene Classification is a challenging and valuable research topic, in which Convolutional Neural Network (CNN) has played a crucial role. CNN can extract hierarchical convolutional features from remote sensing imagery, and Feature Fusion of different layers can enhance CNN's performance. Two successful Feature Fusion methods, Add and Concat, are employed in certain state-of-the-art CNN algorithms. In this paper, we propose a novel Feature Fusion algorithm, which unifies the aforementioned methods using the Kronecker Product (KPFF), and we discuss the Backpropagation procedure associated with this algorithm. To validate the efficacy of the proposed method, a series of experiments are designed and conducted. The results demonstrate its effectiveness of enhancing CNN's accuracy in Remote sensing scene classification.
翻訳日:2024-02-04 05:08:49 公開日:2024-01-08
# 安全航空機用滑走路物体分類器のロバスト性評価

Robustness Assessment of a Runway Object Classifier for Safe Aircraft Taxiing ( http://arxiv.org/abs/2402.00035v1 )

ライセンス: Link先を確認
Yizhak Elboher, Raya Elsaleh, Omri Isac, M\'elanie Ducoffe, Audrey Galametz, Guillaume Pov\'eda, Ryma Boumazouza, No\'emie Cohen, Guy Katz(参考訳) ディープ・ニューラル・ネットワーク(dnn)は多くの計算問題の顕著な解決策になりつつあるため、航空業界はパイロットの作業負荷の軽減と運用上の安全性の向上の可能性を探っている。 しかし、この種の安全クリティカルなアプリケーションにおけるDNNの使用には、徹底的な認証プロセスが必要である。 このニーズは、厳格な保証を提供する形式的な検証(例えば、ある誤った予測がないことを証明するなど)によって対処できる。 本稿では,現在エアバスで開発中の画像分類装置DNNを用いて,航空機のタクシー走行時に使用することを意図した手法を実証する。 我々は、このDNNの頑健さをノイズ、明るさ、コントラストという3つの一般的なイメージ摂動タイプに評価するために、フォーマルな手法を用いる。 そこで本稿では,これらのロバスト性特性の単調性と過去の検証クエリの結果を利用して,検証クエリの総数を60%近く削減する手法を提案する。 本研究は,dnn分類器によって達成されたロバスト性のレベルを示すとともに,輝度やコントラストの摂動よりもノイズに対してかなり脆弱であることを示す。

As deep neural networks (DNNs) are becoming the prominent solution for many computational problems, the aviation industry seeks to explore their potential in alleviating pilot workload and in improving operational safety. However, the use of DNNs in this type of safety-critical applications requires a thorough certification process. This need can be addressed through formal verification, which provides rigorous assurances -- e.g.,~by proving the absence of certain mispredictions. In this case-study paper, we demonstrate this process using an image-classifier DNN currently under development at Airbus and intended for use during the aircraft taxiing phase. We use formal methods to assess this DNN's robustness to three common image perturbation types: noise, brightness and contrast, and some of their combinations. This process entails multiple invocations of the underlying verifier, which might be computationally expensive; and we therefore propose a method that leverages the monotonicity of these robustness properties, as well as the results of past verification queries, in order to reduce the overall number of verification queries required by nearly 60%. Our results provide an indication of the level of robustness achieved by the DNN classifier under study, and indicate that it is considerably more vulnerable to noise than to brightness or contrast perturbations.
翻訳日:2024-02-04 05:08:35 公開日:2024-01-08
# 物理層における深層学習:データ駆動型エンドツーエンド通信システムとその意味論的応用

Deep Learning in Physical Layer: Review on Data Driven End-to-End Communication Systems and their Enabling Semantic Applications ( http://arxiv.org/abs/2401.12800v1 )

ライセンス: Link先を確認
Nazmul Islam and Seokjoo Shin(参考訳) ディープラーニング(DL)は、データ駆動エンドツーエンド(E2E)学習と物理層(PHY)の最適化によって、無線通信システムのパラダイムシフトを可能にした。 DLの表現学習を活用することで、E2Eシステムは複雑な無線環境における適応性と性能を向上し、ネットワークシステムやアプリケーションを超えて5Gの要求を満たす。 phyにおけるデータ駆動技術の進化により、テキスト、画像、オーディオ、ビデオ、マルチモーダル送信を含む様々なモダリティにまたがる高度なセマンティック応用が可能になった。 これらのアプリケーションは、従来のビットレベルの通信から、データ送信のコンテキストや意図を理解し、適応できるセマンティックレベルのインテリジェントな通信システムへと超越する。 データ駆動型E2E通信のためのDLアーキテクチャとしてのPHYはセマンティック通信システム(SemCom)の鍵となる要素であり、近年は様々な研究が別々に調査されているが、それらの組み合わせは十分にレビューされていない。 さらに、これらはまだ初期段階にある新興の分野であり、近年はいくつかの技術が開発され進化している。 そこで本稿では,E2E通信システムにおけるデータ駆動型PHYの総括的レビューを行い,その意味論的応用について述べる。 さらに、PHY と SemCom における DL の今後の発展への重要な参考として、重要な課題と今後の研究方向性を特定する。

Deep Learning (DL) has enabled a paradigm shift in wireless communication system with data driven end-to-end (E2E) learning and optimization of the Physical Layer (PHY). By leveraging the representation learning of DL, E2E systems exhibit enhanced adaptability and performance in complex wireless environments, fulfilling the demands of 5G and beyond network systems and applications. The evolution of data-driven techniques in the PHY has enabled advanced semantic applications across various modalities including text, image, audio, video, and multi-modal transmissions. These applications transcend from traditional bit-level communication to semantic-level intelligent communication systems, which are capable of understanding and adapting to the context and intent of the data transmission. Although PHY as a DL architecture for data-driven E2E communication is a key factor in enabling semantic communication systems (SemCom), and various studies in recent years have surveyed them separately, their combination has not been thoroughly reviewed. Additionally, these are emerging fields that are still in their infancy, with several techniques having been developed and evolved in recent years. Therefore, this article provides a holistic review of data-driven PHY for E2E communication system, and their enabling semantic applications across different modalities. Furthermore, it identifies critical challenges and prospective research directions, providing a pivotal reference for future development of DL in PHY and SemCom.
翻訳日:2024-01-28 15:58:55 公開日:2024-01-08
# 木探索に基づくタンパク質配列最適化のための進化帯域

Tree Search-Based Evolutionary Bandits for Protein Sequence Optimization ( http://arxiv.org/abs/2401.06173v1 )

ライセンス: Link先を確認
Jiahao Qiu, Hui Yuan, Jinghong Zhang, Wentao Chen, Huazheng Wang, Mengdi Wang(参考訳) 現代のバイオテクノロジーは、新しいタンパク質の合成と機能測定を大規模に行うことができるが、タンパク質の配列空間を効率的に探索し、工学的に研究することは、任意のタンパク質の広大な配列空間のために困難な作業である。 タンパク質工学は通常、野生型または鉛配列に突然変異を付加し、突然変異の組換えを行い、新しいスクリーニングを行う反復的なプロセスによって行われる。 このようなプロセスの効率を高めるため,本研究では,初期シーケンスから始まる木をバンディット機械学習モデルのガイダンスで拡張する,木探索に基づくバンディット学習手法を提案する。 単純な仮定とガウス過程を前提として,理論解析とベイズ的後悔のバウンドを提供し,局所探索法とバンディット学習法の組み合わせが最適に近い設計を効率的に発見できることを実証する。 完全なアルゴリズムは、ランダム化された木探索ヒューリスティック、機械学習モデル、事前学習された埋め込み、バンディット技法のスイートと互換性がある。 ベンチマークタンパクデータセットにまたがる様々なアルゴリズムのインスタンスをシミュレートスクリーンを用いてテストした。 実験の結果、このアルゴリズムはサンプル効率が高く、合理的に小さな突然変異数を用いてトップデザインを見つけることができることがわかった。

While modern biotechnologies allow synthesizing new proteins and function measurements at scale, efficiently exploring a protein sequence space and engineering it remains a daunting task due to the vast sequence space of any given protein. Protein engineering is typically conducted through an iterative process of adding mutations to the wild-type or lead sequences, recombination of mutations, and running new rounds of screening. To enhance the efficiency of such a process, we propose a tree search-based bandit learning method, which expands a tree starting from the initial sequence with the guidance of a bandit machine learning model. Under simplified assumptions and a Gaussian Process prior, we provide theoretical analysis and a Bayesian regret bound, demonstrating that the combination of local search and bandit learning method can efficiently discover a near-optimal design. The full algorithm is compatible with a suite of randomized tree search heuristics, machine learning models, pre-trained embeddings, and bandit techniques. We test various instances of the algorithm across benchmark protein datasets using simulated screens. Experiment results demonstrate that the algorithm is both sample-efficient and able to find top designs using reasonably small mutation counts.
翻訳日:2024-01-22 12:53:40 公開日:2024-01-08
# 研究発見と要約のためのAIと生成AI

AI and Generative AI for Research Discovery and Summarization ( http://arxiv.org/abs/2401.06795v1 )

ライセンス: Link先を確認
Mark Glickman and Yi Zhang(参考訳) AIと生成AIツール、例えばChatGPTのような大きな言語モデル(LLM)に依存しているチャットボットは、今年は急成長し、仕事の生産性を高め、生活を改善する素晴らしい機会を生み出している。 統計学者やデータサイエンティストは、データの分析や統計モデルへの適合のためにテキストプロンプトからプログラミングコードを生成するなど、さまざまな方法でこれらのツールを利用できることの利点を体験し始めた。 これらのツールが大きな影響を与える領域の1つは、研究の発見と要約である。 チャットボットのスタンドアロンツールやプラグインが開発されており、研究者は2023年以前の検索ツールよりも早く関連する文献を見つけることができる。 さらに、生成型AIツールは、簡潔な言語による研究論文からキーポイントを要約し抽出できる点まで改善されている。 最後に、高度にパラメータ化されたLLMに基づくチャットボットは、帰納的推論をシミュレートするために使用することができる。 我々は、研究発見と要約のためのAIと生成AIの開発をレビューし、統計学者やデータサイエンティストにとって興味のある将来に向けて、この種のツールが進む可能性が高い方向を提案する。

AI and generative AI tools, including chatbots like ChatGPT that rely on large language models (LLMs), have burst onto the scene this year, creating incredible opportunities to increase work productivity and improve our lives. Statisticians and data scientists have begun experiencing the benefits from the availability of these tools in numerous ways, such as the generation of programming code from text prompts to analyze data or fit statistical models. One area that these tools can make a substantial impact is in research discovery and summarization. Standalone tools and plugins to chatbots are being developed that allow researchers to more quickly find relevant literature than pre-2023 search tools. Furthermore, generative AI tools have improved to the point where they can summarize and extract the key points from research articles in succinct language. Finally, chatbots based on highly parameterized LLMs can be used to simulate abductive reasoning, which provides researchers the ability to make connections among related technical topics, which can also be used for research discovery. We review the developments in AI and generative AI for research discovery and summarization, and propose directions where these types of tools are likely to head in the future that may be of interest to statistician and data scientists.
翻訳日:2024-01-22 12:43:10 公開日:2024-01-08
# 意思決定における認知バイアス測定法としての会話エージェントの探索

Exploring Conversational Agents as an Effective Tool for Measuring Cognitive Biases in Decision-Making ( http://arxiv.org/abs/2401.06686v1 )

ライセンス: Link先を確認
Stephen Pilli(参考訳) ヒューリスティックスと認知バイアスは人間の意思決定の不可欠な部分である。 特定の認知バイアスを自動的に検出することで、インテリジェントなツールによりより良い意思決定が可能になる。 認知バイアスの存在を検出するには、手作りの実験と人間の解釈が必要である。 本研究の目的は,様々な領域における認知バイアスを測定する効果的なツールとして,会話エージェントを探索することである。 提案する対話エージェントは,既存の実験設計や文献で特定された様々な実験課題から情報を得るバイアス計測機構を組み込んでいる。 フレーミングと損失回避バイアスを測定する最初の実験は、会話エージェントが効果的にバイアスを測定することができることを示している。

Heuristics and cognitive biases are an integral part of human decision-making. Automatically detecting a particular cognitive bias could enable intelligent tools to provide better decision-support. Detecting the presence of a cognitive bias currently requires a hand-crafted experiment and human interpretation. Our research aims to explore conversational agents as an effective tool to measure various cognitive biases in different domains. Our proposed conversational agent incorporates a bias measurement mechanism that is informed by the existing experimental designs and various experimental tasks identified in the literature. Our initial experiments to measure framing and loss-aversion biases indicate that the conversational agents can be effectively used to measure the biases.
翻訳日:2024-01-22 12:38:34 公開日:2024-01-08
# 決定規則システムからの決定木推定のための欲望アルゴリズム

Greedy Algorithm for Inference of Decision Trees from Decision Rule Systems ( http://arxiv.org/abs/2401.06793v1 )

ライセンス: Link先を確認
Kerven Durdymyradov and Mikhail Moshkov(参考訳) 決定木と決定ルールシステムは、分類器、知識表現ツール、アルゴリズムとして重要な役割を果たす。 データ分析のために容易に解釈可能なモデルであり、コンピュータ科学で広く使われ研究されている。 この分野では、2つのモデル間の関係を理解することが重要な課題である。 決定木を決定規則の体系に変換する方法はよく知られている。 本稿では,そのような単純ではない逆変換問題を考える。 本研究は,決定木全体を構築する代わりに,与えられた属性値のタプル上の決定木の操作をシミュレートする,欲求多項式時間アルゴリズムに焦点を当てる。

Decision trees and decision rule systems play important roles as classifiers, knowledge representation tools, and algorithms. They are easily interpretable models for data analysis, making them widely used and studied in computer science. Understanding the relationships between these two models is an important task in this field. There are well-known methods for converting decision trees into systems of decision rules. In this paper, we consider the inverse transformation problem, which is not so simple. Instead of constructing an entire decision tree, our study focuses on a greedy polynomial time algorithm that simulates the operation of a decision tree on a given tuple of attribute values.
翻訳日:2024-01-22 12:28:55 公開日:2024-01-08
# RCT出版物から重なり合うPICOエンティティを抽出するスパンベースモデル

A Span-based Model for Extracting Overlapping PICO Entities from RCT Publications ( http://arxiv.org/abs/2401.06791v1 )

ライセンス: Link先を確認
Gongbo Zhang, Yiliang Zhou, Yan Hu, Hua Xu, Chunhua Weng, Yifan Peng(参考訳) pico(populations, interventions, comparison, and outcomes)エンティティの目的抽出は、エビデンス検索の基本である。 重なり合うPICOエンティティを抽出する新しいPICOX法を提案する。 材料と方法 PICOXは、単語がエンティティの開始または終了を示すかどうかを評価することによって、エンティティを最初に識別する。 その後、マルチラベル分類器を使用して、1つ以上のpicoラベルをスパン候補に割り当てる。 PICOXは、最も優れたベースラインであるEMM-NLPと、さらに3つのデータセット、すなわち、PICO-Corpus、およびアルツハイマー病またはCOVID-19に関するRCTの出版物を用いて、エンティティレベルの精度、リコール、F1スコアを用いて評価された。 その結果、PICOXは、マイクロF1スコアが45.05から50.87(p<<0.01)に改善され、ボード全体の精度、リコール、F1スコアが向上した。 PICO-Corpusでは、PICOXはベースラインよりも高いリコールとF1スコアを獲得し、マイクロリコールスコアは56.66から67.33に改善された。 COVID-19データセットでは、PICOXはベースラインを上回り、マイクロF1スコアを77.10から80.32に改善した。 ADデータセットでは、PICOXはベースラインと比較して高い精度のF1スコアを示した。 結論 PICOX は重複するエンティティを識別し、複数のデータセットにわたる主要なベースラインを一貫して超越する。 アブレーション研究によれば、そのデータ拡張戦略は偽陽性を効果的に最小化し、精度を向上させる。

Objectives Extraction of PICO (Populations, Interventions, Comparison, and Outcomes) entities is fundamental to evidence retrieval. We present a novel method PICOX to extract overlapping PICO entities. Materials and Methods PICOX first identifies entities by assessing whether a word marks the beginning or conclusion of an entity. Then it uses a multi-label classifier to assign one or more PICO labels to a span candidate. PICOX was evaluated using one of the best-performing baselines, EBM-NLP, and three more datasets, i.e., PICO-Corpus, and RCT publications on Alzheimer's Disease or COVID-19, using entity-level precision, recall, and F1 scores. Results PICOX achieved superior precision, recall, and F1 scores across the board, with the micro F1 score improving from 45.05 to 50.87 (p << 0.01). On the PICO-Corpus, PICOX obtained higher recall and F1 scores than the baseline and improved the micro recall score from 56.66 to 67.33. On the COVID-19 dataset, PICOX also outperformed the baseline and improved the micro F1 score from 77.10 to 80.32. On the AD dataset, PICOX demonstrated comparable F1 scores with higher precision when compared to the baseline. Conclusion PICOX excels in identifying overlapping entities and consistently surpasses a leading baseline across multiple datasets. Ablation studies reveal that its data augmentation strategy effectively minimizes false positives and improves precision.
翻訳日:2024-01-22 12:28:45 公開日:2024-01-08
# 商品取引タグ付けにおける話題分類の自動作成と拡張におけるゼロショットプロンプトの利用

Using Zero-shot Prompting in the Automatic Creation and Expansion of Topic Taxonomies for Tagging Retail Banking Transactions ( http://arxiv.org/abs/2401.06790v1 )

ライセンス: Link先を確認
Daniel de S. Moraes, Pedro T. C. Santos, Polyana B. da Costa, Matheus A. S. Pinto, Ivan de J. P. Pinto, \'Alvaro M. G. da Veiga, Sergio Colcher, Antonio J. G. Busson, Rafael H. Rocha, Rennan Gaio, Rafael Miceli, Gabriela Tourinho, Marcos Rabaioli, Leandro Santos, Fellipe Marques, David Favaro(参考訳) 本研究では,命令ベースの微調整 LLM (Large Language Models) を用いてトピック分類を自動構築・拡張するための教師なし手法を提案する。 トピックモデリングとキーワード抽出技術を用いて、最初のトピック分類法とLLMを作成し、結果の項を後処理し、階層を作成する。 既存の分類を新しい用語で拡張するために、ゼロショットプロンプトを使用して、新しいノードをどこに追加するかを見つける。 結果の分類を使って、小売銀行のデータセットから商人を特徴付けるタグを割り当てます。 作業を評価するため,12名のボランティアに,作成した分類の質を最初に評価し,その分類に基づいて商人に割り当てられたタグについて回答を求めた。 評価の結果,選択した分類群ではコヒーレンス率が90%以上,商店タグの平均コヒーレンスが80%以上であった。

This work presents an unsupervised method for automatically constructing and expanding topic taxonomies by using instruction-based fine-tuned LLMs (Large Language Models). We apply topic modeling and keyword extraction techniques to create initial topic taxonomies and LLMs to post-process the resulting terms and create a hierarchy. To expand an existing taxonomy with new terms, we use zero-shot prompting to find out where to add new nodes, which, to our knowledge, is the first work to present such an approach to taxonomy tasks. We use the resulting taxonomies to assign tags that characterize merchants from a retail bank dataset. To evaluate our work, we asked 12 volunteers to answer a two-part form in which we first assessed the quality of the taxonomies created and then the tags assigned to merchants based on that taxonomy. The evaluation revealed a coherence rate exceeding 90% for the chosen taxonomies, while the average coherence for merchant tagging surpassed 80%.
翻訳日:2024-01-22 12:28:18 公開日:2024-01-08
# 多脚需要経路を有するマルチトラック車両経路問題に対する深部強化学習

Deep Reinforcement Learning for Multi-Truck Vehicle Routing Problems with Multi-Leg Demand Routes ( http://arxiv.org/abs/2401.08669v1 )

ライセンス: Link先を確認
Joshua Levin, Randall Correll, Takanori Ide, Takafumi Suzuki, Takaho Saito, Alan Arai(参考訳) 深部強化学習(RL)は、特にエンコーダ・デコーダのアテンション機構によって生成されたポリシーを使用する場合、車両ルーティング問題(VRP)の近似解を生成するのに有効であることが示されている。 これらの手法は比較的単純な問題に対して非常に成功したが、まだ未研究で非常に複雑なVRP変種があり、有効なRL法は示されていない。 この作業では、複数のトラックとマルチレグルーティング要求を含む、そのようなVRPの亜種に焦点を当てます。 これらの問題では、開始ノードから終了ノードへだけではなく、ノードのシーケンスに沿って移動する必要がある。 産業規模のサプライチェーンロジスティクスの実現を目標として,既存のエンコーダ・デコーダのアテンションモデルの拡張を開発し,複数のトラックとマルチレグルーティング要求を処理できるようにした。 私たちのモデルは、少数のトラックやノードをトレーニングし、大きなサプライチェーンに組み込んで、より多くのトラックやノードのソリューションを提供することができるという利点を持っています。 自動車部品メーカーのAisin Corporationの事業におけるサプライチェーン環境に対するアプローチを検証した結果,Aisinのこれまでのベストソリューションよりも優れたアルゴリズムが得られた。

Deep reinforcement learning (RL) has been shown to be effective in producing approximate solutions to some vehicle routing problems (VRPs), especially when using policies generated by encoder-decoder attention mechanisms. While these techniques have been quite successful for relatively simple problem instances, there are still under-researched and highly complex VRP variants for which no effective RL method has been demonstrated. In this work we focus on one such VRP variant, which contains multiple trucks and multi-leg routing requirements. In these problems, demand is required to move along sequences of nodes, instead of just from a start node to an end node. With the goal of making deep RL a viable strategy for real-world industrial-scale supply chain logistics, we develop new extensions to existing encoder-decoder attention models which allow them to handle multiple trucks and multi-leg routing requirements. Our models have the advantage that they can be trained for a small number of trucks and nodes, and then embedded into a large supply chain to yield solutions for larger numbers of trucks and nodes. We test our approach on a real supply chain environment arising in the operations of Japanese automotive parts manufacturer Aisin Corporation, and find that our algorithm outperforms Aisin's previous best solution.
翻訳日:2024-01-22 09:39:45 公開日:2024-01-08
# 3次元terzaghi積分方程式を解く物理インフォームドディープラーニング:前方および逆問題

Physics-informed Deep Learning to Solve Three-dimensional Terzaghi Consolidation Equation: Forward and Inverse Problems ( http://arxiv.org/abs/2401.05439v1 )

ライセンス: Link先を確認
Biao Yuan, Ana Heitor, He Wang, Xiaohui Chen(参考訳) 物理支配方程式に制約されたニューラルネットワークの出現は、物理情報ニューラルネットワーク(PINN)として知られるディープラーニング研究の新たなトレンドを引き起こしている。 しかし、PINNによる高次元問題の解決は依然として大きな課題であり、空間の複雑さは大規模な多方向問題の解決に困難をもたらす。 本稿では,異なる条件下での3次元Tarzaghi凝縮現象を迅速に予測する新しいPINNフレームワークを提案する。 一方, 異なる場合の損失関数を導入し, 3次元積分問題における差を強調する。 3次元統合問題に対するPINNフレームワークのチューニング戦略を紹介する。 そして, 従来の数値計算法と比較して, PINNの性能を検証し, 逆問題における収束係数とノイズデータの影響を同定した。 最後に, ピンの3次元シミュレーションにより, 前方問題と逆問題の両方に対して99%以上の精度を示した。 これらの結果は精度が良く, 土壌沈降予測にも有効であり, 提案したPINNフレームワークが3次元凝縮PDEをよく学習できることを示す。 キーワード:3次元Tarzaghi統合、物理情報ニューラルネットワーク(PINN)、前方問題、逆問題、土壌沈下

The emergence of neural networks constrained by physical governing equations has sparked a new trend in deep learning research, which is known as Physics-Informed Neural Networks (PINNs). However, solving high-dimensional problems with PINNs is still a substantial challenge, the space complexity brings difficulty to solving large multidirectional problems. In this paper, a novel PINN framework to quickly predict several three-dimensional Terzaghi consolidation cases under different conditions is proposed. Meanwhile, the loss functions for different cases are introduced, and their differences in three-dimensional consolidation problems are highlighted. The tuning strategies for the PINNs framework for three-dimensional consolidation problems are introduced. Then, the performance of PINNs is tested and compared with traditional numerical methods adopted in forward problems, and the coefficients of consolidation and the impact of noisy data in inverse problems are identified. Finally, the results are summarized and presented from three-dimensional simulations of PINNs, which show an accuracy rate of over 99% compared with ground truth for both forward and inverse problems. These results are desirable with good accuracy and can be used for soil settlement prediction, which demonstrates that the proposed PINNs framework can learn the three-dimensional consolidation PDE well. Keywords: Three-dimensional Terzaghi consolidation; Physics-informed neural networks (PINNs); Forward problems; Inverse problems; soil settlement
翻訳日:2024-01-13 02:46:33 公開日:2024-01-08
# 不足データを用いたウェアラブルアプリケーションのための表現学習

Representation Learning for Wearable-Based Applications in the Case of Missing Data ( http://arxiv.org/abs/2401.05437v1 )

ライセンス: Link先を確認
Janosch Jungo, Yutong Xiang, Shkurta Gashi, Christian Holz(参考訳) ウェアラブルデバイスは、継続的にセンサーデータを収集し、睡眠、身体活動、感情などの個人の行動を推測するためにそれを使用する。 この分野における大きな関心と進歩にもかかわらず、実環境におけるマルチモーダルセンサデータのモデリングは、データ品質の低下とデータアノテーションの制限のため、依然として困難である。 本研究では,ウェアラブルデータの欠落を示唆する表現学習を,最先端統計手法と比較する。 マスク比の異なる10種類の生理的・行動的信号に対する変圧器モデルの性能について検討した。 以上の結果から,トランスフォーマーは単調信号ではなく,より頻繁に変化する信号の欠落データ計算において,ベースラインよりも優れていた。 さらに, 下流分類課題におけるインプテーション戦略とマスキング率の影響について検討した。 本研究は,マスキングに基づく自己教師付き学習タスクの設計と開発のための洞察を提供し,ウェアラブルデバイスにおけるデータ不足の課題に対処するためのハイブリッド型インプテーション戦略の採用を提唱する。

Wearable devices continuously collect sensor data and use it to infer an individual's behavior, such as sleep, physical activity, and emotions. Despite the significant interest and advancements in this field, modeling multimodal sensor data in real-world environments is still challenging due to low data quality and limited data annotations. In this work, we investigate representation learning for imputing missing wearable data and compare it with state-of-the-art statistical approaches. We investigate the performance of the transformer model on 10 physiological and behavioral signals with different masking ratios. Our results show that transformers outperform baselines for missing data imputation of signals that change more frequently, but not for monotonic signals. We further investigate the impact of imputation strategies and masking rations on downstream classification tasks. Our study provides insights for the design and development of masking-based self-supervised learning tasks and advocates the adoption of hybrid-based imputation strategies to address the challenge of missing data in wearable devices.
翻訳日:2024-01-13 02:46:12 公開日:2024-01-08
# LLM4PLC:産業制御システムにおけるPLCの検証プログラムのための大規模言語モデルの構築

LLM4PLC: Harnessing Large Language Models for Verifiable Programming of PLCs in Industrial Control Systems ( http://arxiv.org/abs/2401.05443v1 )

ライセンス: Link先を確認
Mohamad Fakih, Rahul Dharmaji, Yasamin Moghaddas, Gustavo Quiros Araya, Oluwatosin Ogundare, and Mohammad Abdullah Al Faruque(参考訳) 大きな言語モデル(LLM)は、自動コード生成において優位性を確立しているが、欠点を欠いているわけではない。 関連する問題は、主に生成されたコードの実行保証の欠如、説明可能性の欠如、本質的だがニッチなプログラミング言語に対する最適でないサポートに関するものである。 GPT-4やLLaMa2のような最先端のLCMは、Programmable Logic Controllers (PLC) が運用する産業制御システム(ICS)のための有効なプログラムを作成できない。 ユーザフィードバックと文法チェックやコンパイラ,SMV検証などの外部検証ツールを活用して,LCMの世代をガイドするユーザガイド反復パイプラインであるLSM4PLCを提案する。 プロンプト工学とモデル微調整を併用し,LORAの生成と利用によりLLMの生成可能性をさらに向上する。 本稿では, フィッシャーテクニク製造テストベッド (MFTB) を用いて, LLM が構造的に欠陥のあるコードを生成することから, 産業用途に有効なプログラムを生成するまで, どのように進化するかを検証する。 GPT-3.5, GPT-4, Code Llama-7B, Code Llama-34B, Code Llama-34Bで完全なテストスイートを実行する。 提案されたパイプラインは、生成成功率を47%から72%に改善し、コード品質を2.25/10から7.75/10に改善した。 オープンリサーチを促進するために、実験的なセットアップ、llmの微調整の重み付け、そして私たちの専用webページにある様々なプログラムのビデオデモを共有します。

Although Large Language Models (LLMs) have established pre-dominance in automated code generation, they are not devoid of shortcomings. The pertinent issues primarily relate to the absence of execution guarantees for generated code, a lack of explainability, and suboptimal support for essential but niche programming languages. State-of-the-art LLMs such as GPT-4 and LLaMa2 fail to produce valid programs for Industrial Control Systems (ICS) operated by Programmable Logic Controllers (PLCs). We propose LLM4PLC, a user-guided iterative pipeline leveraging user feedback and external verification tools including grammar checkers, compilers and SMV verifiers to guide the LLM's generation. We further enhance the generation potential of LLM by employing Prompt Engineering and model fine-tuning through the creation and usage of LoRAs. We validate this system using a FischerTechnik Manufacturing TestBed (MFTB), illustrating how LLMs can evolve from generating structurally flawed code to producing verifiably correct programs for industrial applications. We run a complete test suite on GPT-3.5, GPT-4, Code Llama-7B, a fine-tuned Code Llama-7B model, Code Llama-34B, and a fine-tuned Code Llama-34B model. The proposed pipeline improved the generation success rate from 47% to 72%, and the Survey-of-Experts code quality from 2.25/10 to 7.75/10. To promote open research, we share the complete experimental setup, the LLM Fine-Tuning Weights, and the video demonstrations of the different programs on our dedicated webpage.
翻訳日:2024-01-13 02:31:34 公開日:2024-01-08
# 関数型グラフィカルモデル: オフラインデータ駆動最適化を可能にする構造

Functional Graphical Models: Structure Enables Offline Data-Driven Optimization ( http://arxiv.org/abs/2401.05442v1 )

ライセンス: Link先を確認
Jakub Grudzien Kuba, Masatoshi Uehara, Pieter Abbeel, Sergey Levine(参考訳) 機械学習モデルは一般的に予測問題を解決するために訓練されているが、最適化問題に使用する場合が多い。 例えば、タンパク質のデータセットとその蛍光レベルを考えると、最も高い蛍光率を持つ新しいタンパク質を最適化したいかもしれません。 この種のデータ駆動最適化(DDO)は、トレーニングセットで見られる最高の設計よりも優れた新しい設計の性能を予測できるモデルが必要であるため、標準的な予測問題以外の様々な課題を提示します。 理論的には、既存のアプローチがデータセットで最適な設計を単純に選択するナイーブなアプローチよりもうまく機能するかどうかは明確ではない。 本稿では,サンプル効率のよいデータ駆動最適化手法を提案する。 構造の概念を定式化するために,関数型グラフィカルモデル(FGM)を導入し,元の高次元最適化問題をより小さなサブプロブレムに分解することにより,データ駆動最適化の原理を理論的に示す。 これにより、より実用的なDDO境界を導出することが可能となり、結果として、オフラインデータのカバー不足により単純なアプローチが失敗する状況において、FGMを持つDDOは、ほぼ最適な設計を実現できることが示唆される。 さらに、FGM構造自体を推定するデータ駆動最適化アルゴリズムを、元の入力変数または入力の潜在変数表現に対して提案する。

While machine learning models are typically trained to solve prediction problems, we might often want to use them for optimization problems. For example, given a dataset of proteins and their corresponding fluorescence levels, we might want to optimize for a new protein with the highest possible fluorescence. This kind of data-driven optimization (DDO) presents a range of challenges beyond those in standard prediction problems, since we need models that successfully predict the performance of new designs that are better than the best designs seen in the training set. It is not clear theoretically when existing approaches can even perform better than the naive approach that simply selects the best design in the dataset. In this paper, we study how structure can enable sample-efficient data-driven optimization. To formalize the notion of structure, we introduce functional graphical models (FGMs) and show theoretically how they can provide for principled data-driven optimization by decomposing the original high-dimensional optimization problem into smaller sub-problems. This allows us to derive much more practical regret bounds for DDO, and the result implies that DDO with FGMs can achieve nearly optimal designs in situations where naive approaches fail due to insufficient coverage of the offline data. We further present a data-driven optimization algorithm that inferes the FGM structure itself, either over the original input variables or a latent variable representation of the inputs.
翻訳日:2024-01-13 02:31:00 公開日:2024-01-08
# 暗号通貨価値の高度予測のための適応型ネットワークベースアプローチ

An adaptive network-based approach for advanced forecasting of cryptocurrency values ( http://arxiv.org/abs/2401.05441v1 )

ライセンス: Link先を確認
Ali Mehrban, Pegah Ahadian(参考訳) 本稿では,Adaptive Network Based Fuzzy Inference System (ANFIS)を用いて,今後7日間の暗号価格を予測するアーキテクチャについて述べる。 ビットコイン(btc)、ethereum(eth)、bitcoin支配(btc.d)、ethereum支配(eth.d)である。 データを教えるために使われる手法は、グリッド分割、減算クラスタリング、およびデータクラスタリングに使用されるファジィC平均クラスタリング(FCM)アルゴリズムと同様に、ハイブリッドおよびバックプロパゲーションアルゴリズムである。 本論文で設計したアーキテクチャ性能は、統計的評価基準の観点から異なる入力モデルとニューラルネットワークモデルと比較されている。 最後に,提案手法は,デジタル通貨の価格を短時間で予測できる。

This paper describes an architecture for predicting the price of cryptocurrencies for the next seven days using the Adaptive Network Based Fuzzy Inference System (ANFIS). Historical data of cryptocurrencies and indexes that are considered are Bitcoin (BTC), Ethereum (ETH), Bitcoin Dominance (BTC.D), and Ethereum Dominance (ETH.D) in a daily timeframe. The methods used to teach the data are hybrid and backpropagation algorithms, as well as grid partition, subtractive clustering, and Fuzzy C-means clustering (FCM) algorithms, which are used in data clustering. The architectural performance designed in this paper has been compared with different inputs and neural network models in terms of statistical evaluation criteria. Finally, the proposed method can predict the price of digital currencies in a short time.
翻訳日:2024-01-13 02:30:35 公開日:2024-01-08
# Autosen: クロスモーダルオートエンコーダによるWi-Fi自動センシングの改善

Autosen: improving automatic wifi human sensing through cross-modal autoencoder ( http://arxiv.org/abs/2401.05440v1 )

ライセンス: Link先を確認
Qian Gao, Yanling Hao, Yuanwei Liu(参考訳) wifi人間センシングは、人間の活動を認識する際の低コストかつプライバシー上の利点として高く評価されている。 しかしながら、その有効性は、データ収集の複雑さとラベル付きデータセットの不足によって制限される、コントロールされたシングルユーザ、ライン・オブ・セッティングに限られている。 従来のクロスモーダルな手法は、ラベル付きデータなしで自己教師付き学習を行うことによってこれらの制限を緩和することを目的としており、振幅-位相の組み合わせから意味のある特徴を抽出するのに苦労している。 そこで我々は,従来のアプローチから離れた,革新的な自動WiFiセンシングソリューションであるAutoSenを紹介する。 AutoSenは、自動モーダルオートエンコーダ学習を通じて振幅と位相を直接リンクする。 このオートエンコーダは、ラベルのないCSIデータから有用な特徴を効率よく抽出し、振幅と位相情報を包含し、それぞれ独自のノイズを除去する。 これらの機能は、マイトショット学習技術を使って、特定のタスクに活用される。 AutoSenのパフォーマンスは、広くアクセス可能なベンチマークデータセットで厳格に評価されており、包括的なクロスモーダル機能の抽出を通じて、自動WiFiセンシングにおける例外的な能力を実証している。

WiFi human sensing is highly regarded for its low-cost and privacy advantages in recognizing human activities. However, its effectiveness is largely confined to controlled, single-user, line-of-sight settings, limited by data collection complexities and the scarcity of labeled datasets. Traditional cross-modal methods, aimed at mitigating these limitations by enabling self-supervised learning without labeled data, struggle to extract meaningful features from amplitude-phase combinations. In response, we introduce AutoSen, an innovative automatic WiFi sensing solution that departs from conventional approaches. AutoSen establishes a direct link between amplitude and phase through automated cross-modal autoencoder learning. This autoencoder efficiently extracts valuable features from unlabeled CSI data, encompassing amplitude and phase information while eliminating their respective unique noises. These features are then leveraged for specific tasks using few-shot learning techniques. AutoSen's performance is rigorously evaluated on a publicly accessible benchmark dataset, demonstrating its exceptional capabilities in automatic WiFi sensing through the extraction of comprehensive cross-modal features.
翻訳日:2024-01-13 02:30:11 公開日:2024-01-08
# モデル予測制御を用いた分散小隊制御における攻撃弾力性の検討

Exploring Attack Resilience in Distributed Platoon Controllers with Model Predictive Control ( http://arxiv.org/abs/2401.04736v1 )

ライセンス: Link先を確認
Tashfique Hasnine Choudhury(参考訳) 分散車両小隊制御装置の広範な使用は、交通量の増加、燃料効率の低下、汚染の低減など輸送システムにいくつかの利点をもたらした。 一方、相互接続されたシステムや通信ネットワークへの依存の高まりは、これらのコントローラを潜在的なサイバー攻撃に晒し、その安全性と機能を損なう可能性がある。 本論文は、攻撃シナリオの調査とシステム性能への影響評価により、分散車両小隊制御装置のセキュリティ向上を目的とする。 Man-in-the-middle (MITM) や false Data Injection (FDI) など様々な攻撃手法をモデル予測制御 (MPC) コントローラを用いてシミュレーションし、小隊制御装置の脆弱性と弱点を特定する。 攻撃分析や、検出に機械学習技術を使用した強化通信プロトコルを含む対策が提供されている。 この発見は、セキュリティ問題を設計と実装に統合することの重要性を強調し、安全でレジリエントな分散小隊制御装置の構築を支援する。

The extensive use of distributed vehicle platoon controllers has resulted in several benefits for transportation systems, such as increased traffic flow, fuel efficiency, and decreased pollution. The rising reliance on interconnected systems and communication networks, on the other hand, exposes these controllers to potential cyber-attacks, which may compromise their safety and functionality. This thesis aims to improve the security of distributed vehicle platoon controllers by investigating attack scenarios and assessing their influence on system performance. Various attack techniques, including man-in-the-middle (MITM) and false data injection (FDI), are simulated using Model Predictive Control (MPC) controller to identify vulnerabilities and weaknesses of the platoon controller. Countermeasures are offered and tested, that includes attack analysis and reinforced communication protocols using Machine Learning techniques for detection. The findings emphasize the significance of integrating security issues into their design and implementation, which helps to construct safe and resilient distributed platoon controllers.
翻訳日:2024-01-11 16:16:56 公開日:2024-01-08
# 話者認識システムのバージョン制御

Version Control of Speaker Recognition Systems ( http://arxiv.org/abs/2007.12069v5 )

ライセンス: Link先を確認
Quan Wang, Ignacio Lopez Moreno(参考訳) 本稿では,話者認識システムにおける最も困難な工学的問題の一つとして,モデルとユーザプロファイルのバージョン管理について論じる。 典型的な話者認識システムは、ユーザが提供した登録音声からプロファイルを生成する登録ステージと、ランタイムオーディオの音声idを格納されたプロファイルと比較するランタイムステージの2つのステージで構成される。 技術が進歩するにつれて、話者認識システムはパフォーマンスを改善するために更新される必要がある。 しかし、保存されたユーザープロファイルが適切に更新されていない場合、バージョンミスマッチは意味のない認識結果をもたらす。 本稿では,長年のエンジニアリング実践からgoogleで注意深く研究されてきた音声認識システムのバージョン管理戦略について述べる。 これらの戦略は、製品環境へのデプロイ方法、デバイスサイドデプロイメント、サーバサイドデプロイメント、ハイブリッドデプロイメントの3つのグループに分類される。 様々なネットワーク構成下で異なる戦略と定量的指標を比較するために,speakerversim(話者認識システムにおける異なるサーバ側配置戦略のためのpythonベースのシミュレーションフレームワーク)を提案する。

This paper discusses one of the most challenging practical engineering problems in speaker recognition systems - the version control of models and user profiles. A typical speaker recognition system consists of two stages: the enrollment stage, where a profile is generated from user-provided enrollment audio; and the runtime stage, where the voice identity of the runtime audio is compared against the stored profiles. As technology advances, the speaker recognition system needs to be updated for better performance. However, if the stored user profiles are not updated accordingly, version mismatch will result in meaningless recognition results. In this paper, we describe different version control strategies for speaker recognition systems that had been carefully studied at Google from years of engineering practice. These strategies are categorized into three groups according to how they are deployed in the production environment: device-side deployment, server-side deployment, and hybrid deployment. To compare different strategies with quantitative metrics under various network configurations, we present SpeakerVerSim, an easily-extensible Python-based simulation framework for different server-side deployment strategies of speaker recognition systems.
翻訳日:2024-01-10 23:30:29 公開日:2024-01-08
# オープン語彙脳波-手書き復号とゼロショット知覚分類

Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot Sentiment Classification ( http://arxiv.org/abs/2112.02690v3 )

ライセンス: Link先を確認
Zhenhailong Wang, Heng Ji(参考訳) 最先端の脳テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。 しかし、現在のアプローチは、自然なコミュニケーションには程遠い小さな閉語彙に限られている。 さらに、高性能なアプローチのほとんどは、侵入デバイス(例えばECoG)からのデータを必要とする。 本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。 人間の脳は特別なテキストエンコーダとして機能し、事前学習された言語モデル(例えばbart)を活用した新しい枠組みを提案する。 脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る。 さらに,提案モデルでは,様々な主題や情報源からのデータを扱うことが可能であり,十分なデータが得られれば,高性能なオープン語彙型脳テキストシステムの実現可能性を示す。

State-of-the-art brain-to-text systems have achieved great success in decoding language directly from brain signals using neural networks. However, current approaches are limited to small closed vocabularies which are far from enough for natural communication. In addition, most of the high-performing approaches require data from invasive devices (e.g., ECoG). In this paper, we extend the problem to open vocabulary Electroencephalography(EEG)-To-Text Sequence-To-Sequence decoding and zero-shot sentence sentiment classification on natural reading tasks. We hypothesis that the human brain functions as a special text encoder and propose a novel framework leveraging pre-trained language models (e.g., BART). Our model achieves a 40.1% BLEU-1 score on EEG-To-Text decoding and a 55.6% F1 score on zero-shot EEG-based ternary sentiment classification, which significantly outperforms supervised baselines. Furthermore, we show that our proposed model can handle data from various subjects and sources, showing great potential for a high-performance open vocabulary brain-to-text system once sufficient data is available
翻訳日:2024-01-10 23:22:29 公開日:2024-01-08
# グラビトン浴からのコヒーレンスとコヒーレンス保護の喪失

Loss of coherence and coherence protection from a graviton bath ( http://arxiv.org/abs/2008.08609v3 )

ライセンス: Link先を確認
Marko Toro\v{s}, Anupam Mazumdar, Sougato Bose(参考訳) グラビトン浴と結合した量子調和振動子を考察し,物質-重力子間相互作用による物質セクターのコヒーレンス損失について考察する。 量子場理論の枠組みにおいて、重力場を先行順序 $\mathcal{\sim o}(g)$ と $\sim\mathcal{o}(c^{-2})$ で追跡することでマスター方程式を得る。 質量四極子を持たない系では想定されるように,脱コヒーレンス速度は高調波トラッピング周波数の立方体に比例し,自由粒子に対しては消滅する。 さらに、重力子放射の量子モデルでは、占有数が大きいコヒーレント状態に対する古典調和振動子から既知の重力放射の古典式を回復する。 さらに、量子調和振動子が最終的に基底と最初の励起状態の 'emph{a 残余コヒーレンス} で定常状態に収まることが分かる。 重力波の古典的放出は調和系を全てのエネルギーをゆるめるが、我々の量子場理論モデルは、重力子放出によって崩壊する数式を$\vert 1\rangle$と$\vert 0\rangle$を許さない。 特に、数状態の重ね合わせ $\frac{1}{\sqrt{2}}\left[\vert0\rangle+\vert1\rangle\right]$ は定常状態であり、解くことはない。

We consider a quantum harmonic oscillator coupled with a graviton bath and discuss the loss of coherence in the matter sector due to the matter-graviton vertex interaction. Working in the quantum-field-theory framework, we obtain a master equation by tracing away the gravitational field at the leading order $\mathcal{\sim O}(G)$ and $\sim\mathcal{O}(c^{-2})$. We find that the decoherence rate is proportional to the cube of the harmonic trapping frequency and vanishes for a free particle, as expected for a system without a mass quadrupole. Furthermore, our quantum model of graviton emission recovers the known classical formula for gravitational radiation from a classical harmonic oscillator for coherent states with a large occupation number. In addition, we find that the quantum harmonic oscillator eventually settles in a steady state with \emph{a remnant coherence} of the ground and first excited states. While classical emission of gravitational waves would make the harmonic system loose all of its energy, our quantum field theory model does not allow the number states $\vert 1\rangle$ and $\vert 0\rangle$ to decay via graviton emission. In particular, the superposition of number states $\frac{1}{\sqrt{2}}\left[\vert0\rangle+\vert1\rangle\right]$ is a steady state and never decoheres.
翻訳日:2024-01-10 23:20:50 公開日:2024-01-08
# DyG2Vec:動的グラフのための効率的な表現学習

DyG2Vec: Efficient Representation Learning for Dynamic Graphs ( http://arxiv.org/abs/2210.16906v3 )

ライセンス: Link先を確認
Mohammad Ali Alomrani, Mahdi Biparva, Yingxue Zhang, Mark Coates(参考訳) 時間グラフニューラルネットワークは、時間的パターンを自動的に抽出することで、帰納的表現を学習する有望な結果を示している。 しかし、以前の作品は時相表現を構築するために複雑なメモリモジュールや非効率的なランダムウォークメソッドに依存することが多い。 これらの制約に対処するために、時間的エッジエンコーディングとウィンドウベースのサブグラフサンプリングを利用してタスク非依存の埋め込みを生成する、効率的で効果的な注意ベースエンコーダを提案する。 さらに,非contrastive sslを用いてラベル無しでリッチな時空間埋め込みを学ぶジョイントエンベディングアーキテクチャを提案する。 7つのベンチマークデータセットにおける実験結果から,本モデルでは,平均的に,将来のリンク予測タスクにおけるsotaベースラインを,トランスダクティブ設定では4.23%,インダクティブ設定では3.30%上回る。 最後に,提案フレームワークの異なる側面を実験的解析およびアブレーション研究により検討した。 コードはhttps://github.com/huawei-noah/noah-research/tree/master/graph_atlasで公開されている。

Temporal graph neural networks have shown promising results in learning inductive representations by automatically extracting temporal patterns. However, previous works often rely on complex memory modules or inefficient random walk methods to construct temporal representations. To address these limitations, we present an efficient yet effective attention-based encoder that leverages temporal edge encodings and window-based subgraph sampling to generate task-agnostic embeddings. Moreover, we propose a joint-embedding architecture using non-contrastive SSL to learn rich temporal embeddings without labels. Experimental results on 7 benchmark datasets indicate that on average, our model outperforms SoTA baselines on the future link prediction task by 4.23% for the transductive setting and 3.30% for the inductive setting while only requiring 5-10x less training/inference time. Lastly, different aspects of the proposed framework are investigated through experimental analysis and ablation studies. The code is publicly available at https://github.com/huawei-noah/noah-research/tree/master/graph_atlas.
翻訳日:2024-01-10 21:10:02 公開日:2024-01-08
# 異常検出のための学習画像表現:創薬における組織学的変化の発見への応用

Learning image representations for anomaly detection: application to discovery of histological alterations in drug development ( http://arxiv.org/abs/2210.07675v7 )

ライセンス: Link先を確認
Igor Zingman, Birgit Stierstorfer, Charlotte Lempp, Fabian Heinemann(参考訳) 病理組織像における異常検出システムを提案する。 組織学では、正常なサンプルは通常豊富であるが、異常な(病理学的)症例は少ないか、使用できない。 このような設定下では、健全なデータで訓練された1つのクラス分類器は、分布異常なサンプルを検出することができる。 このようなアプローチと、事前訓練された画像の畳み込みニューラルネットワーク(CNN)表現が組み合わさって、以前は異常検出(AD)に用いられていた。 しかし、事前訓練された市販のcnn表現は、組織の異常な状況に敏感ではなく、健康な組織の自然な変化は遠方からの表現をもたらす可能性がある。 健康組織における関連詳細への表現を適応させるために, 異なる種, 臓器, 染色試薬の健康組織を識別する補助課題に対して, cnnを訓練することを提案する。 健全なサンプルには上記のラベルが付属するため、追加のラベル付け作業は必要ない。 トレーニング中、我々はセンターロス項でコンパクトな画像表現を強制し、ADの表現をさらに改善する。 提案するシステムは,肝臓異常の公開データセット上で確立したad法を上回っている。 さらに,肝異常の定量化に特化する従来の方法と同等の結果を得た。 本手法は, 早期開発段階における候補薬の毒性評価に有用であり, 費用のかかる後期薬乱用を低減できることを示す。

We present a system for anomaly detection in histopathological images. In histology, normal samples are usually abundant, whereas anomalous (pathological) cases are scarce or not available. Under such settings, one-class classifiers trained on healthy data can detect out-of-distribution anomalous samples. Such approaches combined with pre-trained Convolutional Neural Network (CNN) representations of images were previously employed for anomaly detection (AD). However, pre-trained off-the-shelf CNN representations may not be sensitive to abnormal conditions in tissues, while natural variations of healthy tissue may result in distant representations. To adapt representations to relevant details in healthy tissue we propose training a CNN on an auxiliary task that discriminates healthy tissue of different species, organs, and staining reagents. Almost no additional labeling workload is required, since healthy samples come automatically with aforementioned labels. During training we enforce compact image representations with a center-loss term, which further improves representations for AD. The proposed system outperforms established AD methods on a published dataset of liver anomalies. Moreover, it provided comparable results to conventional methods specifically tailored for quantification of liver anomalies. We show that our approach can be used for toxicity assessment of candidate drugs at early development stages and thereby may reduce expensive late-stage drug attrition.
翻訳日:2024-01-10 21:09:06 公開日:2024-01-08
# 記述意味論は理想的な言語モデルから抽出できる

Entailment Semantics Can Be Extracted from an Ideal Language Model ( http://arxiv.org/abs/2209.12407v3 )

ライセンス: Link先を確認
William Merrill and Alex Warstadt and Tal Linzen(参考訳) 言語モデルは、追加の根拠なしにテキストだけで訓練されることが多い。 このような手続きから自然言語の意味論がどの程度推測できるかについては議論がある。 我々は,言語学の言語理論からコミュニケーションの基本原理に従うエージェントであるGriceanエージェントが,訓練文を生成すると仮定して,目標分布を完全に学習した理想的な言語モデルから文間の係り受け判断を抽出できることを証明した。 また,これらのデータに基づいて学習した言語モデルの予測から,包含判断を復号化できることを示す。 その結果,未ラベルの言語データに符号化された意味情報を理解するための経路と,言語モデルから意味情報を抽出する潜在的枠組みが明らかになった。

Language models are often trained on text alone, without additional grounding. There is debate as to how much of natural language semantics can be inferred from such a procedure. We prove that entailment judgments between sentences can be extracted from an ideal language model that has perfectly learned its target distribution, assuming the training sentences are generated by Gricean agents, i.e., agents who follow fundamental principles of communication from the linguistic theory of pragmatics. We also show entailment judgments can be decoded from the predictions of a language model trained on such Gricean data. Our results reveal a pathway for understanding the semantic information encoded in unlabeled linguistic data and a potential framework for extracting semantics from language models.
翻訳日:2024-01-10 21:07:59 公開日:2024-01-08
# A.I.と機械学習の進化 : プレミアA.I.カンファレンスにおけるメタレベルの計測・理解と影響・リーダーシップ

On the Evolution of A.I. and Machine Learning: Towards a Meta-level Measuring and Understanding Impact, Influence, and Leadership at Premier A.I. Conferences ( http://arxiv.org/abs/2205.13131v2 )

ライセンス: Link先を確認
Rafael B. Audibert, Henrique Lemos, Pedro Avelar, Anderson R. Tavares, Lu\'is C. Lamb(参考訳) 人工知能は現在、人間の生活に大きな影響を与える汎用技術として認識されている。 この研究は、AIの進化、特に機械学習を理解することを目的としており、研究者のこの分野への貢献の観点からいる。 そこで本研究では,過去数十年間におけるaiと機械学習研究者の影響力,影響,リーダーシップの分析を可能にするいくつかの尺度を提案する。 この研究は、1969年に開催された第1回IJCAI(International Joint Conference on Artificial Intelligence)以来のフラッグシップAIおよび機械学習カンファレンスで発表された論文を見て、この分野の進化にかかわるダイナミクスを探求することによって、AIの歴史と進化に新たな光を当てることにも貢献している。 ai開発と進化は、過去60年間に出版された記事の数を反映して、研究成果の増加につながった。 総合的な引用コラボレーションと論文作成データセットを構築し,それに対応する集中度尺度を計算して分析を行う。 これらの分析は、AIが研究の現在の状況にどう到達したかをよりよく理解することを可能にする。 このプロセスを通じて、これらのデータセットは、ACMチューリング賞受賞者の作業と、この分野が通過したいわゆる2つのAI冬と相関する。 また, 自己引用傾向と新たな著者の行動についても考察した。 最後に,本稿では,その組織から論文の帰属国を推察する新しい方法を提案する。 そこで本研究では,大規模技術施設のデータセットから収集・分析した情報から人工知能の歴史を深く分析し,aiの進化の理解と測定に寄与する新たな知見を提案する。

Artificial Intelligence is now recognized as a general-purpose technology with ample impact on human life. This work aims at understanding the evolution of AI and, in particular Machine learning, from the perspective of researchers' contributions to the field. In order to do so, we present several measures allowing the analyses of AI and machine learning researchers' impact, influence, and leadership over the last decades. This work also contributes, to a certain extent, to shed new light on the history and evolution of AI by exploring the dynamics involved in the field's evolution by looking at papers published at the flagship AI and machine learning conferences since the first International Joint Conference on Artificial Intelligence (IJCAI) held in 1969. AI development and evolution have led to increasing research output, reflected in the number of articles published over the last sixty years. We construct comprehensive citation collaboration and paper-author datasets and compute corresponding centrality measures to carry out our analyses. These analyses allow a better understanding of how AI has reached its current state of affairs in research. Throughout the process, we correlate these datasets with the work of the ACM Turing Award winners and the so-called two AI winters the field has gone through. We also look at self-citation trends and new authors' behaviors. Finally, we present a novel way to infer the country of affiliation of a paper from its organization. Therefore, this work provides a deep analysis of Artificial Intelligence history from information gathered and analysed from large technical venues datasets and suggests novel insights that can contribute to understanding and measuring AI's evolution.
翻訳日:2024-01-10 21:05:16 公開日:2024-01-08
# 相互作用グラフに基づく量子回路マッピング技術向上のための量子ベンチマークのキャラクタリゼーション

Interaction graph-based characterization of quantum benchmarks for improving quantum circuit mapping techniques ( http://arxiv.org/abs/2212.06640v3 )

ライセンス: Link先を確認
Medina Bandi\'c, Carmen G. Almudever, Sebastian Feld(参考訳) 量子プロセッサ上で量子回路を実行するには、量子デバイスの物理的制約を満たすように修正する必要がある。 このプロセスは量子回路マッピングと呼ばれ、回路特性とハードウェア制約の両方に依存するゲート/回路深さのオーバーヘッドとなり、限られた量子ビット接続が重要な制限となる。 本稿では、従来用いられてきた回路記述パラメータに加えて、グラフ理論に基づくメトリクスを用いた量子ビット相互作用グラフ特性を含む量子回路のキャラクタリゼーションを拡張することを提案する。 このアプローチは、量子回路の詳細な分析とクラスタリングを可能にし、異なる量子プロセッサ上で実行する場合のパフォーマンスの比較を可能にし、より良いマッピング技術の開発を支援する。 本研究では、相互作用グラフに基づくパラメータと、量子デバイスの様々な構成に対するマッピング性能の相関関係を明らかにする。 また、将来のコンパイル技術や量子デバイスをベンチマークするための量子回路とアルゴリズムの包括的なコレクションも提供します。

To execute quantum circuits on a quantum processor, they must be modified to meet the physical constraints of the quantum device. This process, called quantum circuit mapping, results in a gate/circuit depth overhead that depends on both the circuit properties and the hardware constraints, being the limited qubit connectivity a crucial restriction. In this paper, we propose to extend the characterization of quantum circuits by including qubit interaction graph properties using graph theory-based metrics in addition to previously used circuit-describing parameters. This approach allows for in-depth analysis and clustering of quantum circuits and a comparison of performance when run on different quantum processors, aiding in developing better mapping techniques. Our study reveals a correlation between interaction graph-based parameters and mapping performance metrics for various existing configurations of quantum devices. We also provide a comprehensive collection of quantum circuits and algorithms for benchmarking future compilation techniques and quantum devices.
翻訳日:2024-01-10 20:53:37 公開日:2024-01-08
# 意図に基づく深層学習モデルによる太陽電池パネルと風車ブレードの表面欠陥の同定

Identification of Surface Defects on Solar PV Panels and Wind Turbine Blades using Attention based Deep Learning Model ( http://arxiv.org/abs/2211.15374v3 )

ライセンス: Link先を確認
Divyanshi Dwivedi, K. Victor Sam Moses Babu, Pradeep Kumar Yemula, Pratyush Chakraborty, Mayukha Pal(参考訳) 再生可能エネルギーの世界的な発電は、主に大規模再生可能エネルギー発電所の設置により急速に増加している。 しかし、これらの大規模プラントにおける再生可能エネルギー資産のモニタリングは、発電の減少、機能不全、資産生活の劣化をもたらす環境要因のため、依然として困難である。 したがって, 再生可能エネルギー資産の表面欠陥の検出は, これらのプラントの性能と効率の維持に不可欠である。 本稿では,再生可能エネルギー資産の経済面モニタリングシステムを実現するための革新的な検出手法を提案する。 資産の高解像度画像は定期的に撮影され、ソーラーパネルや風力タービンブレードの表面や構造上の損傷を特定するために検査される。 コンピュータビジョンにおける最新の注目型ディープラーニング(DL)モデルの1つである {Vision transformer (ViT) は表面欠陥を分類するために提案されている。 ViTモデルは、MobileNet、VGG16、Xception、EfficientNetB7、ResNet50などの他のDLモデルよりも優れており、風力およびソーラープラント資産の99%以上の精度のスコアを得る。 提案モデルにより, 再生可能エネルギー資産の損傷をモニタリングし, 検出し, 効率よくかつ信頼性の高い発電プラントを運用できる可能性が示された。

The global generation of renewable energy has rapidly increased, primarily due to the installation of large-scale renewable energy power plants. However, monitoring renewable energy assets in these large plants remains challenging due to environmental factors that could result in reduced power generation, malfunctioning, and degradation of asset life. Therefore, the detection of surface defects on renewable energy assets is crucial for maintaining the performance and efficiency of these plants. This paper proposes an innovative detection framework to achieve an economical surface monitoring system for renewable energy assets. High-resolution images of the assets are captured regularly and inspected to identify surface or structural damages on solar panels and wind turbine blades. {Vision transformer (ViT), one of the latest attention-based deep learning (DL) models in computer vision, is proposed in this work to classify surface defects.} The ViT model outperforms other DL models, including MobileNet, VGG16, Xception, EfficientNetB7, and ResNet50, achieving high accuracy scores above 97\% for both wind and solar plant assets. From the results, our proposed model demonstrates its potential for monitoring and detecting damages in renewable energy assets for efficient and reliable operation of renewable power plants.
翻訳日:2024-01-10 20:52:59 公開日:2024-01-08
# ノード分類のための分布自由予測セット

Distribution Free Prediction Sets for Node Classification ( http://arxiv.org/abs/2211.14555v3 )

ライセンス: Link先を確認
Jase Clarkson(参考訳) グラフニューラルネットワーク(gnns)は、多くの重要な実世界のデータセットにおいて高い分類精度を達成できるが、予測の不確かさの厳密な概念を提供していない。 グラフ構造によって誘導されるデータポイント間の依存のため,GNNモデルの信頼性の定量化は困難である。 我々は、共形予測の最近の進歩を活用し、帰納学習シナリオにおけるノード分類のための予測セットを構築する。 我々は, コンフォメーション分類の既存のアプローチを, textit{exchangeable}データに依存して, ネットワーク構造を反映するためにコンフォメーションスコアを適切に重み付けして修正することで実現している。 我々は、一般的なGNNモデルを用いた標準ベンチマークデータセットの実験を通して、共形予測の単純適用よりも厳密でより良い校正された予測セットを提供することを示す。

Graph Neural Networks (GNNs) are able to achieve high classification accuracy on many important real world datasets, but provide no rigorous notion of predictive uncertainty. Quantifying the confidence of GNN models is difficult due to the dependence between datapoints induced by the graph structure. We leverage recent advances in conformal prediction to construct prediction sets for node classification in inductive learning scenarios. We do this by taking an existing approach for conformal classification that relies on \textit{exchangeable} data and modifying it by appropriately weighting the conformal scores to reflect the network structure. We show through experiments on standard benchmark datasets using popular GNN models that our approach provides tighter and better calibrated prediction sets than a naive application of conformal prediction.
翻訳日:2024-01-10 20:52:39 公開日:2024-01-08
# 二原子分子を用いた量子機械式カルノライクエンジンの性能解析

The Performance Analysis of a Quantum-Mechanical Carnot-like Engine using Diatomic Molecules ( http://arxiv.org/abs/2305.03197v2 )

ライセンス: Link先を確認
E. O. Oladimeji, T. T. Ibrahim, A. N. Ikot, J.D. Koffa, V. T. Idundun, E. C. Umeh, J.O. Audu(参考訳) 本研究では,二原子分子,すなわちモース振動子を動作物質として用いたカルノ様サイクルの量子力学的定式化について解析する。 任意の1次元ポテンシャルを持つ一般化モデルを用いて、有限速で移動する幅Lを考慮し、効率、出力、エンジンの最適領域などの重要な性能パラメータを求める。 また, 作業物の最適効率, 最大出力, 無次元出力範囲についても検討した。 本研究で得られた結果は類似したエンジンで得られたものと一致したが, 異なる動作物質で一致した。

This study presents an analysis of a quantum mechanical formulation of the Carnot like cycle using diatomic molecules, i.e., the Morse oscillator, as the working substance. The generalized model with an arbitrary one dimensional potential is used to obtain the important performance parameters such as the efficiency, the power output, and the optimal region of the engine by considering well width L moving with a finite speed. The optimal efficiency, the maximum power output, and dimensionless power ranges of the working substance was also determined. The results obtained in this work are found to agree with those obtained for similar engine but with different working substance.
翻訳日:2024-01-10 20:45:45 公開日:2024-01-08
# 線形相補性プログラミングを用いた時系列の等角予測領域

Conformal Prediction Regions for Time Series using Linear Complementarity Programming ( http://arxiv.org/abs/2304.01075v5 )

ライセンス: Link先を確認
Matthew Cleaveland, Insup Lee, George J. Pappas, Lars Lindemann(参考訳) コンフォーマル予測は、高い確率で有効な機械学習モデルの予測領域を生成する統計ツールである。 しかし、時系列データに共形予測を適用すると、保守的な予測領域が生じる。 実際、信頼度1-\delta$でT$以上の予測領域を得るには、 {previous works requires each individual prediction region is valid} with confidence $1-\delta/T$。 学習可能な時系列予測器を使用する場合,この保守性を低減する最適化手法を提案する。 複数の時間ステップで予測誤差を個別に考慮する代わりに、パラメータ化された予測誤差をパラメータ化する。 追加データセット上でパラメータを最適化することにより、保守的でない予測領域を見つける。 この問題を混合整数線形相補性プログラム (MILCP) としてキャストし, 線形相補性プログラム (LCP) に緩和することを示した。 さらに、緩和されたLPは元のMILCPと同じ最適コストであることを示す。 最後に,歩行者軌道予測器とF16戦闘機高度予測器を用いたケーススタディにおける本手法の有効性を示す。

Conformal prediction is a statistical tool for producing prediction regions of machine learning models that are valid with high probability. However, applying conformal prediction to time series data leads to conservative prediction regions. In fact, to obtain prediction regions over $T$ time steps with confidence $1-\delta$, {previous works require that each individual prediction region is valid} with confidence $1-\delta/T$. We propose an optimization-based method for reducing this conservatism to enable long horizon planning and verification when using learning-enabled time series predictors. Instead of considering prediction errors individually at each time step, we consider a parameterized prediction error over multiple time steps. By optimizing the parameters over an additional dataset, we find prediction regions that are not conservative. We show that this problem can be cast as a mixed integer linear complementarity program (MILCP), which we then relax into a linear complementarity program (LCP). Additionally, we prove that the relaxed LP has the same optimal cost as the original MILCP. Finally, we demonstrate the efficacy of our method on case studies using pedestrian trajectory predictors and F16 fighter jet altitude predictors.
翻訳日:2024-01-10 20:41:28 公開日:2024-01-08
# 投影操作に基づくニュートンステップを用いた量子最適制御問題の解法

Solving quantum optimal control problems using projection-operator-based Newton steps ( http://arxiv.org/abs/2305.17630v2 )

ライセンス: Link先を確認
Jieqiu Shao, Mantas Naris, John Hauser and Marco M. Nicotra(参考訳) The Quantum Projection Operator-Based Newton Method for Trajectory Optimization (Q-PRONTO)は、量子最適制御問題の解法である。 本稿では,各繰り返しの解推定を安定化させるレギュレータを導入することにより,先行バージョンの量子投影演算子を著しく改善する。 この修正はアルゴリズムの収束率を向上させるだけでなく、非規制の場合と比較して解法をより局所的な最小化へと導くことが示されている。 数値的な例は、Q-PRONTOを用いて、時間的なコストと過渡期に避けるべき望ましくない人口を含む多入力の量子最適制御問題を解く方法を示している。

The Quantum Projection Operator-Based NewtonMethod for Trajectory Optimization (Q-PRONTO) is a numerical method for solving quantum optimal control problems. This paper significantly improves prior versions of the quantum projection operator by introducing a regulator that stabilizes the solution estimate at every iteration. This modification is shown to not only improve the convergence rate of the algorithm, but also steer the solver towards better local minima compared to the unregulated case. Numerical examples showcase how Q-PRONTO can be used to solve multi-input quantum optimal control problems featuring time-varying costs and undesirable populations that ought to be avoided during the transient.
翻訳日:2024-01-10 20:21:38 公開日:2024-01-08
# ReConpatch : 産業異常検出のためのコントラストパッチ表現学習

ReConPatch : Contrastive Patch Representation Learning for Industrial Anomaly Detection ( http://arxiv.org/abs/2305.16713v2 )

ライセンス: Link先を確認
Jeeho Hyun, Sangyun Kim, Giyoung Jeon, Seung Hwan Kim, Kyunghoon Bae, Byung Jun Kang(参考訳) 異常検出は、不正部品、ミスアライメント部品、工業製造における損傷などの製品欠陥の高度な同定に不可欠である。 まれな観察と未知の欠陥のため、異常検出は機械学習において困難であると考えられている。 この課題を克服するために、近年のアプローチでは、自然画像データセットから事前訓練された共通の視覚表現を利用し、関連する特徴を抽出する。 しかしながら、既存のアプローチでは、事前トレーニングされた機能とターゲットデータとの差異があるか、特に産業データセットのために慎重に設計されるべき入力拡張が必要となる。 本稿では,事前学習モデルから抽出したパッチ特徴の線形変調を訓練し,異常検出のための識別特性を構築するreconpatchを提案する。 ReConPatchは、ターゲット指向で容易に分離可能な表現を生成する方法で、特徴の収集と配布に対照的な表現学習を採用している。 比較学習のためのラベル付きペアの欠如に対処するために,データ表現間の類似度尺度であるペアワイズと文脈類似度を擬似ラベルとして用いる。 本手法は,MVTec ADデータセットに対して,最先端の異常検出性能(99.72%)を実現する。 さらに,btadデータセットの最先端異常検出性能(95.8%)を達成した。

Anomaly detection is crucial to the advanced identification of product defects such as incorrect parts, misaligned components, and damages in industrial manufacturing. Due to the rare observations and unknown types of defects, anomaly detection is considered to be challenging in machine learning. To overcome this difficulty, recent approaches utilize the common visual representations pre-trained from natural image datasets and distill the relevant features. However, existing approaches still have the discrepancy between the pre-trained feature and the target data, or require the input augmentation which should be carefully designed, particularly for the industrial dataset. In this paper, we introduce ReConPatch, which constructs discriminative features for anomaly detection by training a linear modulation of patch features extracted from the pre-trained model. ReConPatch employs contrastive representation learning to collect and distribute features in a way that produces a target-oriented and easily separable representation. To address the absence of labeled pairs for the contrastive learning, we utilize two similarity measures between data representations, pairwise and contextual similarities, as pseudo-labels. Our method achieves the state-of-the-art anomaly detection performance (99.72%) for the widely used and challenging MVTec AD dataset. Additionally, we achieved a state-of-the-art anomaly detection performance (95.8%) for the BTAD dataset.
翻訳日:2024-01-10 20:21:10 公開日:2024-01-08
# ニューラルネットワーク分類器を用いた学習度比

Learning Likelihood Ratios with Neural Network Classifiers ( http://arxiv.org/abs/2305.10500v2 )

ライセンス: Link先を確認
Shahzar Rizvi, Mariel Pettee, Benjamin Nachman(参考訳) 確率比は、仮説テスト、信頼区間の構築、分布の再重み付けなどを可能にする科学における統計的推測にとって重要な量である。 しかし、現代の科学応用の多くは、確率比の計算が非常に困難あるいは不可能であるデータ駆動モデルやシミュレーション駆動モデルを使用している。 いわゆる ‘likelihood ratio trick’ を適用することで、確率比の近似をニューラルネットワークに基づく分類器の巧妙なパラメータ化を用いて計算することができる。 この手順を満たすために、複数の異なるニューラルネットワークの設定を定義することができ、それぞれが有限のトレーニングデータを使用する場合の確率比を近似する性能を持つ。 本稿では,二つの単変量分布と多変量ガウス分布の確率比とシミュレーションされた高エネルギー粒子物理データセットを近似して,いくつかの共通損失関数の性能と分類器出力のパラメトリゼーションを詳述する。

The likelihood ratio is a crucial quantity for statistical inference in science that enables hypothesis testing, construction of confidence intervals, reweighting of distributions, and more. Many modern scientific applications, however, make use of data- or simulation-driven models for which computing the likelihood ratio can be very difficult or even impossible. By applying the so-called ``likelihood ratio trick,'' approximations of the likelihood ratio may be computed using clever parametrizations of neural network-based classifiers. A number of different neural network setups can be defined to satisfy this procedure, each with varying performance in approximating the likelihood ratio when using finite training data. We present a series of empirical studies detailing the performance of several common loss functionals and parametrizations of the classifier output in approximating the likelihood ratio of two univariate and multivariate Gaussian distributions as well as simulated high-energy particle physics datasets.
翻訳日:2024-01-10 20:19:14 公開日:2024-01-08
# 微分プライベート言語モデルを用いたプライバシー保護深部検索システムのための合成クエリ生成

Synthetic Query Generation for Privacy-Preserving Deep Retrieval Systems using Differentially Private Language Models ( http://arxiv.org/abs/2305.05973v2 )

ライセンス: Link先を確認
Aldo Gael Carranza, Rezsa Farahani, Natalia Ponomareva, Alex Kurakin, Matthew Jagielski, Milad Nasr(参考訳) 我々は,深層検索システムの訓練において,差分プライバシー(dp)保証の確保という課題に対処している。 これらのシステムの訓練には、典型的には例ごとの分解不可能なコントラスト型損失の使用が伴うことが多く、共通技術では例ごとの勾配を必要とするためDP訓練が困難である。 この問題に対処するため,深層検索システムのトレーニングに先立って,クエリプライバシの確保を優先する手法を提案する。 提案手法では,DP言語モデルを用いて,元のデータを表すプライベートな合成クエリを生成する。 これらの合成クエリは、プライバシーを損なうことなく、下流検索システムのトレーニングに使用できる。 提案手法は,クエリレベルのプライバシ保証を維持しつつ,直接DPトレーニングと比較して,検索品質の大幅な向上を示す。 本研究は, 標準DP学習手法の限界を克服するために, LMを活用する可能性を強調した。

We address the challenge of ensuring differential privacy (DP) guarantees in training deep retrieval systems. Training these systems often involves the use of contrastive-style losses, which are typically non-per-example decomposable, making them difficult to directly DP-train with since common techniques require per-example gradient. To address this issue, we propose an approach that prioritizes ensuring query privacy prior to training a deep retrieval system. Our method employs DP language models (LMs) to generate private synthetic queries representative of the original data. These synthetic queries can be used in downstream retrieval system training without compromising privacy. Our approach demonstrates a significant enhancement in retrieval quality compared to direct DP-training, all while maintaining query-level privacy guarantees. This work highlights the potential of harnessing LMs to overcome limitations in standard DP-training methods.
翻訳日:2024-01-10 20:18:34 公開日:2024-01-08
# 六方晶窒化ホウ素におけるフォノン量子状態の生成と単一光子放出子間の量子相関

Generation of phonon quantum states and quantum correlations among single photon emitters in hexagonal boron nitride ( http://arxiv.org/abs/2308.06244v2 )

ライセンス: Link先を確認
Hugo Molinares, Fernanda Pinilla, Enrique Mu\~noz, Francisco Mu\~noz, Vitalie Eremeev(参考訳) 六方晶窒化ホウ素は、単一光子エミッタ(SPE)と、トポロジカルに保護されたフォノンをホストする1次元粒界(TPL)の2種類の欠陥を示す。 ここでは、単純な有効モデルと密度汎関数理論計算を用いて、これらのフォノンを用いて情報の伝達を行うことができることを示す。 特に、単一のSPEを用いて1次元チャネル内の1次元、2次元、および4次元のフォノン状態が誘導され、2つの離れたSPEは導波路として作用するTPLによって結合され、強い量子相関を示す。 量子情報技術のための音波デバイスとして,この材料を内蔵したナノアーキテクチャがもたらす可能性を強調した。

Hexagonal boron nitride exhibits two types of defects with great potential for quantum information technologies: single-photon emitters (SPEs) and one-dimensional grain boundaries hosting topologically-protected phonons, termed as {\it{topologically-protected phonon lines}} (TPL). Here, by means of a simple effective model and density functional theory calculations, we show that it is possible to use these phonons for the transmission of information. Particularly, a single SPE can be used to induce single-, two- and qubit-phonon states in the one dimensional channel, and \textit{(ii)} two distant SPEs can be coupled by the TPL that acts as a waveguide, thus exhibiting strong quantum correlations. We highlight the possibilities offered by this material-built-in nano-architecture as a phononic device for quantum information technologies.
翻訳日:2024-01-10 20:11:40 公開日:2024-01-08
# グラフ上のk中心の動的アルゴリズム

Dynamic algorithms for k-center on graphs ( http://arxiv.org/abs/2307.15557v2 )

ライセンス: Link先を確認
Emilio Cruciani, Sebastian Forster, Gramoz Goranci, Yasamin Nazari, Antonis Skarlatos(参考訳) 本稿では、エッジ更新中の動的グラフにおける$k$-center問題に対する最初の効率的なアルゴリズムを提案する。 この問題では、任意のデータポイントから最寄りのセンターまでの最大距離が最小になるように、$k$センターを選択することで入力を$k$に分割する。 この問題に対して2ドル以上の近似を得ることはNPハードであることが知られている。 多くのアプリケーションでは、入力は自然にグラフとしてモデル化されるが、動的設定における$k$-center問題に対する全ての以前の作業は任意の距離空間内の点集合である。 本稿では,重み付きグラフに対して,決定論的漸近的$(2+\epsilon)$近似アルゴリズムとランダム化インクリメンタル$(4+\epsilon)$近似アルゴリズムと,償却更新時間$kn^{o(1)}$を与える。 さらに、$k$-center問題に対するフルダイナミックな$(2+\epsilon)$-approximationアルゴリズムと、最先端のフルダイナミックな$(1+\epsilon)$-approximationシングルソースショートパスアルゴリズムの係数$k$以内の最悪の更新時間と、完全にダイナミックな$(2+\epsilon)$-approximationアルゴリズムをグラフで示す。 なぜなら、各頂点から中心への近似距離はグラフの直径の$(2+\epsilon)$近似であり、そのような直径近似の最速のアルゴリズムは、近似的な単元距離の維持にも依存しているからである。

In this paper we give the first efficient algorithms for the $k$-center problem on dynamic graphs undergoing edge updates. In this problem, the goal is to partition the input into $k$ sets by choosing $k$ centers such that the maximum distance from any data point to its closest center is minimized. It is known that it is NP-hard to get a better than $2$ approximation for this problem. While in many applications the input may naturally be modeled as a graph, all prior works on $k$-center problem in dynamic settings are on point sets in arbitrary metric spaces. In this paper, we give a deterministic decremental $(2+\epsilon)$-approximation algorithm and a randomized incremental $(4+\epsilon)$-approximation algorithm, both with amortized update time $kn^{o(1)}$ for weighted graphs. Moreover, we show a reduction that leads to a fully dynamic $(2+\epsilon)$-approximation algorithm for the $k$-center problem, with worst-case update time that is within a factor $k$ of the state-of-the-art fully dynamic $(1+\epsilon)$-approximation single-source shortest paths algorithm in graphs. Matching this bound is a natural goalpost because the approximate distances of each vertex to its center can be used to maintain a $(2+\epsilon)$-approximation of the graph diameter and the fastest known algorithms for such a diameter approximation also rely on maintaining approximate single-source distances.
翻訳日:2024-01-10 20:10:44 公開日:2024-01-08
# 機能幾何誘導タンパク質配列と骨格構造共設計

Functional Geometry Guided Protein Sequence and Backbone Structure Co-Design ( http://arxiv.org/abs/2310.04343v3 )

ライセンス: Link先を確認
Zhenqiao Song, Yunlong Zhao, Wenxian Shi, Yang Yang, Lei Li(参考訳) タンパク質は、ほとんどすべての生物に必須の機能を持つ高分子である。 望ましい機能を持つ合理的なタンパク質を設計することは重要である。 タンパク質の配列と構造は強く相関し、その機能を共に決定する。 本稿では,自動検出機能部位に基づくタンパク質配列と構造を共同設計するモデルであるNAEProを提案する。 NAEProは、注目層と同変層の相互結合ネットワークによって、全配列のグローバルな相関と、3次元の3D空間における最も近いアミノ酸からの局所的な影響を捉えることができる。 このようなアーキテクチャは2つのレベルで効果的だが経済的なメッセージ転送を促進する。 2つのタンパク質データセットである$\beta$-lactamase と myoglobin のモデルといくつかの強力なベースラインを評価した。 実験の結果, 本モデルでは, 高いアミノ酸回収率, tm-score, および最も低いrmsdが得られることがわかった。 これらの知見は、タンパク質の配列や構造が自然に類似していることを示すものである。 さらに, 詳細な分析により, 対象のメタロコファクターに結合可能な高効率なタンパク質を生成できることが確認された。 Githubではコード、データ、モデルを提供しています。

Proteins are macromolecules responsible for essential functions in almost all living organisms. Designing reasonable proteins with desired functions is crucial. A protein's sequence and structure are strongly correlated and they together determine its function. In this paper, we propose NAEPro, a model to jointly design Protein sequence and structure based on automatically detected functional sites. NAEPro is powered by an interleaving network of attention and equivariant layers, which can capture global correlation in a whole sequence and local influence from nearest amino acids in three dimensional (3D) space. Such an architecture facilitates effective yet economic message passing at two levels. We evaluate our model and several strong baselines on two protein datasets, $\beta$-lactamase and myoglobin. Experimental results show that our model consistently achieves the highest amino acid recovery rate, TM-score, and the lowest RMSD among all competitors. These findings prove the capability of our model to design protein sequences and structures that closely resemble their natural counterparts. Furthermore, in-depth analysis further confirms our model's ability to generate highly effective proteins capable of binding to their target metallocofactors. We provide code, data and models in Github.
翻訳日:2024-01-10 19:58:47 公開日:2024-01-08
# 逆影響関数による深い勾配の漏洩の理解

Understanding Deep Gradient Leakage via Inversion Influence Functions ( http://arxiv.org/abs/2309.13016v3 )

ライセンス: Link先を確認
Haobo Zhang, Junyuan Hong, Yuyang Deng, Mehrdad Mahdavi, Jiayu Zhou(参考訳) Deep Gradient Leakage (DGL)は、勾配ベクトルからプライベートトレーニングイメージを復元する非常に効果的な攻撃である。 この攻撃は、クライアントが勾配を共有する必要がある機密データを持つクライアントからの分散学習に重大なプライバシー上の問題を引き起こす。 このような攻撃に対する防御は必要だが、特にディープネットワークのブラックボックス的性質のために、いつ、どのようにプライバシーの漏洩が起こるかの理解を欠いている。 本稿では,dgl問題を暗黙的に解くことにより,復元画像とプライベート勾配との閉形式接続を確立する新しい逆影響関数(i$^2$f)を提案する。 DGLと直接的に比較すると、I$^2$Fはディープネットワークを解析するのにスケーラブルであり、グラデーションやヤコビアンベクター製品へのオラクルアクセスのみを必要とする。 I$^2$Fは、一般的に異なるモデルアーキテクチャ、データセット、モダリティ、アタック実装、摂動に基づく防御に基づいてDGLを効果的に近似した。 この新しいツールでは、効果的な勾配摂動方向、プライバシー保護の不公平性、およびプライバシ優先モデル初期化に関する洞察を提供する。 私たちのコードはhttps://github.com/illidanlab/inversion-influence-functionで提供される。

Deep Gradient Leakage (DGL) is a highly effective attack that recovers private training images from gradient vectors. This attack casts significant privacy challenges on distributed learning from clients with sensitive data, where clients are required to share gradients. Defending against such attacks requires but lacks an understanding of when and how privacy leakage happens, mostly because of the black-box nature of deep networks. In this paper, we propose a novel Inversion Influence Function (I$^2$F) that establishes a closed-form connection between the recovered images and the private gradients by implicitly solving the DGL problem. Compared to directly solving DGL, I$^2$F is scalable for analyzing deep networks, requiring only oracle access to gradients and Jacobian-vector products. We empirically demonstrate that I$^2$F effectively approximated the DGL generally on different model architectures, datasets, modalities, attack implementations, and perturbation-based defenses. With this novel tool, we provide insights into effective gradient perturbation directions, the unfairness of privacy protection, and privacy-preferred model initialization. Our codes are provided in https://github.com/illidanlab/inversion-influence-function.
翻訳日:2024-01-10 19:56:58 公開日:2024-01-08
# s-ID : サブポピュレーションにおける因果効果の同定

s-ID: Causal Effect Identification in a Sub-Population ( http://arxiv.org/abs/2309.02281v2 )

ライセンス: Link先を確認
Amir Mohammad Abouei, Ehsan Mokhtarian, Negar Kiyavash(参考訳) サブ集団における因果推論は、特定のサブグループに対する介入の因果効果を同定することを含む。 しかし、サブポピュレーションによって導入された微妙さを無視することは、誤った推論につながるか、既存のメソッドの適用性を制限する可能性がある。 我々は、(人口全体とは対照的に)対象のサブ人口の観測データにアクセスするだけでよいサブ人口(s-idと呼ばれる)における因果推論問題を紹介し、提唱する。 サブポピュレーションにおける既存の推論問題は、与えられたデータ分布が全人口に由来することを前提に、s-ID問題に対処できない。 このギャップに対処するために、我々は、そのサブ人口の観測分布から識別可能なサブ人口における因果効果の因果グラフに保持される必要十分条件を提供する。 これらの条件から,s-ID問題に対する健全かつ完全なアルゴリズムを提案する。

Causal inference in a sub-population involves identifying the causal effect of an intervention on a specific subgroup, which is distinguished from the whole population through the influence of systematic biases in the sampling process. However, ignoring the subtleties introduced by sub-populations can either lead to erroneous inference or limit the applicability of existing methods. We introduce and advocate for a causal inference problem in sub-populations (henceforth called s-ID), in which we merely have access to observational data of the targeted sub-population (as opposed to the entire population). Existing inference problems in sub-populations operate on the premise that the given data distributions originate from the entire population, thus, cannot tackle the s-ID problem. To address this gap, we provide necessary and sufficient conditions that must hold in the causal graph for a causal effect in a sub-population to be identifiable from the observational distribution of that sub-population. Given these conditions, we present a sound and complete algorithm for the s-ID problem.
翻訳日:2024-01-10 19:55:22 公開日:2024-01-08
# 量子制御と時間領域性能保証のための感度境界

Sensitivity Bounds for Quantum Control and Time-Domain Performance Guarantees ( http://arxiv.org/abs/2310.17094v2 )

ライセンス: Link先を確認
Sean Patrick O'Neil, Edmond Jonckheere, and Sophie Schirmer(参考訳) 与えられた時間における忠実度測定を最大化するために最適化された時間変化外部場による量子システムの制御は、現代の量子制御のメインステイである。 しかし、特定のシステムでは、そのような量子コントローラの現在の分析技術は解析的堅牢性を保証するものではない。 このレターでは、一点一点の最適制御場によって制御される閉量子系の構造的不確実性に対するゲート忠実度誤差の差分感度に関する解析的境界を提供する。 さらに、この最悪のケースの極大感度をもたらす不確実性構造も決定します。 次に、これらの差分感度境界を用いて、パラメータの不確かさに直面して忠実度誤差によって定量化される性能を保証する条件を提供する。

Control of quantum systems via time-varying external fields optimized to maximize a fidelity measure at a given time is a mainstay in modern quantum control. However, save for specific systems, current analysis techniques for such quantum controllers provide no analytical robustness guarantees. In this letter we provide analytical bounds on the differential sensitivity of the gate fidelity error to structured uncertainties for a closed quantum system controlled by piecewise-constant, optimal control fields. We additionally determine those uncertainty structures that result in this worst-case maximal sensitivity. We then use these differential sensitivity bounds to provide conditions that guarantee performance, quantified by the fidelity error, in the face of parameter uncertainty.
翻訳日:2024-01-10 19:45:57 公開日:2024-01-08
# CORN: 完全かつ非参照の音声品質評価を共同で実施

CORN: Co-Trained Full- And No-Reference Speech Quality Assessment ( http://arxiv.org/abs/2310.09388v2 )

ライセンス: Link先を確認
Pranay Manocha, Donald Williamson, Adam Finkelstein(参考訳) 知覚評価は様々な音声処理タスクにおいて重要な要素である。 フルレファレンス(FR)または類似度に基づくメトリクスは高品質なレファレンス記録に依存しており、低いレファレンスまたは破損したバージョンを比較して評価することができる。 対照的に、No-Reference(NR)メトリクスは、参照に頼ることなく記録を評価する。 FRとNRのアプローチはどちらも、互いに利点と欠点を示している。 本稿では,これら2つのアプローチを両立させ,FRモデルとNRモデルを同時に訓練するCORNという新しいフレームワークを提案する。 トレーニング後、モデルは独立して適用できる。 我々は、いくつかの共通の客観的指標を予測し、2つの異なるアーキテクチャを通してコーンを評価する。 CORNを用いてトレーニングされたNRモデルは、トレーニング中に基準記録にアクセスでき、予想されるように、独立にトレーニングされたベースラインNRモデルを上回っている。 さらに注目すべきは、同じトレーニングデータと同じモデルアーキテクチャに依存しているにもかかわらず、CORN FRモデルがベースラインモデルを上回ることだ。 したがって、1つのトレーニングレジームが2つの独立した有用なモデルを生成し、それぞれが独立に訓練されたモデルを上回る。

Perceptual evaluation constitutes a crucial aspect of various audio-processing tasks. Full reference (FR) or similarity-based metrics rely on high-quality reference recordings, to which lower-quality or corrupted versions of the recording may be compared for evaluation. In contrast, no-reference (NR) metrics evaluate a recording without relying on a reference. Both the FR and NR approaches exhibit advantages and drawbacks relative to each other. In this paper, we present a novel framework called CORN that amalgamates these dual approaches, concurrently training both FR and NR models together. After training, the models can be applied independently. We evaluate CORN by predicting several common objective metrics and across two different architectures. The NR model trained using CORN has access to a reference recording during training, and thus, as one would expect, it consistently outperforms baseline NR models trained independently. Perhaps even more remarkable is that the CORN FR model also outperforms its baseline counterpart, even though it relies on the same training data and the same model architecture. Thus, a single training regime produces two independently useful models, each outperforming independently trained models
翻訳日:2024-01-10 19:43:14 公開日:2024-01-08
# Jatmo: タスク特化ファインタニングによるプロンプトインジェクション防御

Jatmo: Prompt Injection Defense by Task-Specific Finetuning ( http://arxiv.org/abs/2312.17673v2 )

ライセンス: Link先を確認
Julien Piet, Maha Alrashed, Chawin Sitawarin, Sizhe Chen, Zeming Wei, Elizabeth Sun, Basel Alomair, and David Wagner(参考訳) 大きな言語モデル(LLM)は、命令追従能力によって大きな研究の注目を集めており、ユーザや開発者は様々なタスクにLLMを利用することができる。 しかし、LSMはプロンプトインジェクション攻撃に弱い:モデルの命令追従能力をハイジャックする攻撃のクラスで、望ましくない、おそらく悪質な攻撃に対して応答を変更する。 本稿では,プロンプトインジェクション攻撃にレジリエントなタスク固有モデルを生成する方法であるjatmoを紹介する。 Jatmo は LLM が命令チューニングを受けたときのみ命令に従うことができるという事実を活用している。 教師がチューニングしたモデルを使用してタスク固有のデータセットを生成し、ベースモデルを微調整する(非インストラクションチューニングされたモデル)。 Jatmoはタスクプロンプトとタスクの入力のデータセットのみを必要とし、教師モデルを使用して出力を生成する。 既存のデータセットが存在しない状況では、Jatmoは単一の例、場合によってはまったく使用せず、完全な合成データセットを生成することができる。 7つのタスクに対する実験により,Jatmoモデルが標準LLMと同等の出力を出力する一方で,インジェクションの応答性も高いことがわかった。 GPT-3.5-Turboに対する87%の成功率に対して、最良の攻撃は0.5%未満で成功した。 Jatmoはhttps://github.com/wagner-group/prompt-injection-defense.comでリリースしています。

Large Language Models (LLMs) are attracting significant research attention due to their instruction-following abilities, allowing users and developers to leverage LLMs for a variety of tasks. However, LLMs are vulnerable to prompt-injection attacks: a class of attacks that hijack the model's instruction-following abilities, changing responses to prompts to undesired, possibly malicious ones. In this work, we introduce Jatmo, a method for generating task-specific models resilient to prompt-injection attacks. Jatmo leverages the fact that LLMs can only follow instructions once they have undergone instruction tuning. It harnesses a teacher instruction-tuned model to generate a task-specific dataset, which is then used to fine-tune a base model (i.e., a non-instruction-tuned model). Jatmo only needs a task prompt and a dataset of inputs for the task: it uses the teacher model to generate outputs. For situations with no pre-existing datasets, Jatmo can use a single example, or in some cases none at all, to produce a fully synthetic dataset. Our experiments on seven tasks show that Jatmo models provide similar quality of outputs on their specific task as standard LLMs, while being resilient to prompt injections. The best attacks succeeded in less than 0.5% of cases against our models, versus 87% success rate against GPT-3.5-Turbo. We release Jatmo at https://github.com/wagner-group/prompt-injection-defense.
翻訳日:2024-01-10 19:13:33 公開日:2024-01-08
# Time-Transformer: ローカルおよびグローバル機能の統合による時系列生成の改善

Time-Transformer: Integrating Local and Global Features for Better Time Series Generation ( http://arxiv.org/abs/2312.11714v2 )

ライセンス: Link先を確認
Yuansan Liu, Sudanthi Wijewickrema, Ang Li, Christofer Bester, Stephen O'Leary, James Bailey(参考訳) 時系列データの生成は、データ不足問題に対処するための有望なアプローチである。 しかし、局所的相関やグローバルな依存関係を含む時系列データの複雑な時間的特性のため、これは困難である。 既存の生成モデルは、時系列データの局所的特性と大域的特性の両方を効果的に学べなかった。 この問題に対処するため, 対向オートエンコーダ (AAE) とデコーダ内に新たに設計されたアーキテクチャ "Time-Transformer" から構成される新しい時系列生成モデル「Time-Transformer AAE」を提案する。 Time-Transformerは、まず、時間的畳み込みネットワークとTransformerがそれぞれローカル特徴とグローバル依存関係を抽出する能力を組み合わせて、レイヤワイド並列設計でローカル特徴とグローバル特徴を同時に学習する。 第2に,両枝間の補完的ガイダンスを提供し,局所的特徴とグローバル特徴の適切な融合を実現するために,双方向のクロス・アテンションを提案する。 実験の結果,本モデルは6つのデータセットのうち5つ,特にグローバルプロパティとローカルプロパティの両方を含むデータに対して,既存の最先端モデルよりも優れることがわかった。 さらに,このモデルのアドバンテージとして,人工データセットによるデータ処理を強調する。 最後に、小さなデータセットと不均衡なデータセットによる学習をサポートするデータ拡張という、現実的な問題に対処するモデルの能力を示す。

Generating time series data is a promising approach to address data deficiency problems. However, it is also challenging due to the complex temporal properties of time series data, including local correlations as well as global dependencies. Most existing generative models have failed to effectively learn both the local and global properties of time series data. To address this open problem, we propose a novel time series generative model named 'Time-Transformer AAE', which consists of an adversarial autoencoder (AAE) and a newly designed architecture named 'Time-Transformer' within the decoder. The Time-Transformer first simultaneously learns local and global features in a layer-wise parallel design, combining the abilities of Temporal Convolutional Networks and Transformer in extracting local features and global dependencies respectively. Second, a bidirectional cross attention is proposed to provide complementary guidance across the two branches and achieve proper fusion between local and global features. Experimental results demonstrate that our model can outperform existing state-of-the-art models in 5 out of 6 datasets, specifically on those with data containing both global and local properties. Furthermore, we highlight our model's advantage on handling this kind of data via an artificial dataset. Finally, we show our model's ability to address a real-world problem: data augmentation to support learning with small datasets and imbalanced datasets.
翻訳日:2024-01-10 19:11:17 公開日:2024-01-08
# 多言語性のピンチによる多言語指導チューニング

Multilingual Instruction Tuning With Just a Pinch of Multilinguality ( http://arxiv.org/abs/2401.01854v2 )

ライセンス: Link先を確認
Uri Shaham, Jonathan Herzig, Roee Aharoni, Idan Szpektor, Reut Tsarfaty, Matan Eyal(参考訳) 命令調整型大規模言語モデル(LLM)がグローバルに普及するにつれ、複数の言語で命令に従う能力はますます重要になっている。 有望なアプローチのひとつが言語間転送(cross-lingual transfer)で、モデルが別の言語で微調整することで、ある言語上の特定の機能を取得する。 本研究では,多言語LLMの命令チューニングにおける多言語性が言語間の命令追従に与える影響について検討する。 まず、多くの言語が単言語チューニングから他の言語に命令追従機能を転送していることを示す。 さらに、英語のチューニングセットにおける40の多言語例のみが、チューニング中の目視言語と目視言語の両方において、多言語命令追従を大幅に改善していることがわかった。 一般に,多言語混合語でチューニングされたモデルが,単言語で調整されたモデルと比較して,複数の言語で比較して同等あるいは優れた性能を示すのが観察される。 最後に、命令チューニングセットの言語数が1から2,3,4に増加すると、言語間の一般化が増加することが分かる。 以上の結果から,多言語命令調整モデルの構築は,多言語命令応答のごくわずかなセットで行うことができることが示唆された。

As instruction-tuned large language models (LLMs) gain global adoption, their ability to follow instructions in multiple languages becomes increasingly crucial. One promising approach is cross-lingual transfer, where a model acquires specific functionality on some language by finetuning on another language. In this work, we investigate how multilinguality during instruction tuning of a multilingual LLM affects instruction-following across languages. We first show that many languages transfer some instruction-following capabilities to other languages from even monolingual tuning. Furthermore, we find that only 40 multilingual examples in an English tuning set substantially improve multilingual instruction-following, both in seen and unseen languages during tuning. In general, we observe that models tuned on multilingual mixtures exhibit comparable or superior performance in several languages compared to monolingually tuned models, despite training on 10x fewer examples in those languages. Finally, we find that increasing the number of languages in the instruction tuning set from 1 to only 2, 3, or 4 increases cross-lingual generalization. Our results suggest that building massively multilingual instruction-tuned models can be done with only a very small set of multilingual instruction-responses.
翻訳日:2024-01-10 18:58:31 公開日:2024-01-08
# FlopPITy: 自己整合性外惑星大気探査と機械学習

FlopPITy: Enabling self-consistent exoplanet atmospheric retrievals with machine learning ( http://arxiv.org/abs/2401.04168v1 )

ライセンス: Link先を確認
Francisco Ard\'evol Mart\'inez, Michiel Min, Daniela Huppenkothen, Inga Kamp, Paul I. Palmer(参考訳) 物理的および化学的性質を制限するために外惑星の大気の観測を解釈することは、一般的にベイズ探索技術を用いて行われる。 これらの手法は多くのモデル計算を必要とするため、モデルの複雑さと実行時間の間に妥協が生じる。 この妥協は、多くの物理的および化学的プロセス(例えばパラメータ化温度構造)の単純化につながる。 本稿では,太陽系外惑星の大気探索のための機械学習推論アルゴリズムsnpeを実装し,テストする。 目標は、ラジエーション転送を使って温度構造を計算するような、より計算コストの高い大気モデルで実行できるように、検索をスピードアップすることである。 arcis (artful modeling code for exoplanet science, a atmosphere modelling code with the flexible to compute models in different degree of complexity) を用いて100個の合成観測を行い,snpe後縁部の忠実性をテストするためにそれらを検索した。 忠実さは、後部が期待どおりに根本真理を含むかどうかを定量化する。 また, ARCiSの自己整合性を利用して, 冷却した褐色小星の合成観測を行い, 自己整合モデルによる検索を行い, SNPEが開放する可能性を示す。 SNPEは忠実な後部を提供しており,地球外惑星大気探査の信頼性の高いツールである。 我々は,5万のフォワードモデル評価を用いて,合成ブラウンドロームスペクトルの自己整合性検索を行うことができる。 SNPEが$\sim2\times$と$\geq10\times$の検索を、前方モデルの計算負荷、観測の寸法、観測の信号対雑音比に応じて高速化できることがわかった。 私たちはGithubでコミュニティ向けにコードを公開しています。

Interpreting the observations of exoplanet atmospheres to constrain physical and chemical properties is typically done using Bayesian retrieval techniques. Because these methods require many model computations, a compromise is made between model complexity and run time. Reaching this compromise leads to the simplification of many physical and chemical processes (e.g. parameterised temperature structure). Here we implement and test sequential neural posterior estimation (SNPE), a machine learning inference algorithm, for exoplanet atmospheric retrievals. The goal is to speed up retrievals so they can be run with more computationally expensive atmospheric models, such as those computing the temperature structure using radiative transfer. We generate 100 synthetic observations using ARCiS (ARtful Modeling Code for exoplanet Science, an atmospheric modelling code with the flexibility to compute models in varying degrees of complexity) and perform retrievals on them to test the faithfulness of the SNPE posteriors. The faithfulness quantifies whether the posteriors contain the ground truth as often as we expect. We also generate a synthetic observation of a cool brown dwarf using the self-consistent capabilities of ARCiS and run a retrieval with self-consistent models to showcase the possibilities that SNPE opens. We find that SNPE provides faithful posteriors and is therefore a reliable tool for exoplanet atmospheric retrievals. We are able to run a self-consistent retrieval of a synthetic brown dwarf spectrum using only 50,000 forward model evaluations. We find that SNPE can speed up retrievals between $\sim2\times$ and $\geq10\times$ depending on the computational load of the forward model, the dimensionality of the observation, and the signal-to-noise ratio of the observation. We make the code publicly available for the community on Github.
翻訳日:2024-01-10 18:49:59 公開日:2024-01-08
# マルチポールに対する多体非ハーミット皮膚効果

Many-body Non-Hermitian Skin Effect for Multipoles ( http://arxiv.org/abs/2401.04162v1 )

ライセンス: Link先を確認
Jacopo Gliozzi, Giuseppe De Tomasi, Taylor L. Hughes(参考訳) 本研究では,双極子モーメントとそれに伴う大域的$\text{u}(1)$ chargeのより高いモーメントを保存する一次元システムにおける非エルミート的スキン効果の運命について検討する。 場の理論的議論と格子モデル計算により、$m$-pole保存系に対する非エルミート皮膚効果の重要な特徴は、$(m+1)$thマルチポールモーメントの生成であることを示した。 例えば、ある境界で電荷が異常に局在している従来のスキン効果とは対照的に、双極子保存スキン効果は、極端に四極子モーメントを生成する構成において、両方の境界に局在する電荷をもたらす。 さらに,帯電と絡み合いの伝播に着目し,m$m$-pole 皮膚効果の動的影響について検討した。 数値的および解析的に、長時間定常状態がフォック空間の局在を持ち、エントロピーの領域則スケーリングが皮膚効果の量子指標となる証拠を提供する。

In this work, we investigate the fate of the non-Hermitian skin effect in one-dimensional systems that conserve the dipole moment and higher moments of an associated global $\text{U}(1)$ charge. Motivated by field theoretical arguments and lattice model calculations, we demonstrate that the key feature of the non-Hermitian skin effect for $m$-pole conserving systems is the generation of an $(m+1)$th multipole moment. For example, in contrast to the conventional skin effect where charges are anomalously localized at one boundary, the dipole-conserving skin effect results in charges localized at both boundaries, in a configuration that generates an extremal quadrupole moment. In addition, we explore the dynamical consequences of the $m$-pole skin effect, focusing on charge and entanglement propagation. Both numerically and analytically, we provide evidence that long-time steady-states have Fock-space localization and an area-law scaling of entanglement entropy, which serve as quantum indicators of the skin effect.
翻訳日:2024-01-10 18:49:29 公開日:2024-01-08
# バイオインフォマティクスにおける大規模言語モデル:応用と展望

Large language models in bioinformatics: applications and perspectives ( http://arxiv.org/abs/2401.04155v1 )

ライセンス: Link先を確認
Jiajia Liu, Mengyuan Yang, Yankai Yu, Haixia Xu, Kang Li and Xiaobo Zhou(参考訳) LLM(Large Language Model)は、ディープラーニングに基づく人工知能モデルの一種で、特に自然言語処理(NLP)において、様々なタスクにおいて優れた性能を持つ。 大規模言語モデルは通常、多数のパラメータを持つ人工ニューラルネットワークで構成され、自己教師付きまたは半教師付き学習を用いて大量のラベルなし入力を訓練する。 しかし、バイオインフォマティクスの問題を解決する能力は、人間の言語をモデリングする能力を超える可能性がある。 本稿では, bert や gpt などの自然言語処理で使用される著名な大規模言語モデルの概要を述べるとともに, ゲノム学, 転写学, プロテオミクス, 薬物発見, 単細胞解析における大規模言語モデルの応用を中心に, バイオインフォマティクスにおける異なるオミックレベルでの大規模言語モデルの応用について考察する。 最後に,バイオインフォマティクス問題の解決における大規模言語モデルの可能性と展望について概説する。

Large language models (LLMs) are a class of artificial intelligence models based on deep learning, which have great performance in various tasks, especially in natural language processing (NLP). Large language models typically consist of artificial neural networks with numerous parameters, trained on large amounts of unlabeled input using self-supervised or semi-supervised learning. However, their potential for solving bioinformatics problems may even exceed their proficiency in modeling human language. In this review, we will present a summary of the prominent large language models used in natural language processing, such as BERT and GPT, and focus on exploring the applications of large language models at different omics levels in bioinformatics, mainly including applications of large language models in genomics, transcriptomics, proteomics, drug discovery and single cell analysis. Finally, this review summarizes the potential and prospects of large language models in solving bioinformatic problems.
翻訳日:2024-01-10 18:49:06 公開日:2024-01-08
# 音声映像分類のための効率的な選択型マルチモーダルブートネック変換器

Efficient Selective Audio Masked Multimodal Bottleneck Transformer for Audio-Video Classification ( http://arxiv.org/abs/2401.04154v1 )

ライセンス: Link先を確認
Wentao Zhu(参考訳) オーディオとビデオは、メインストリームのメディアプラットフォーム、例えばyoutubeでよく見られる2つのモードである。 本稿では,マルチモーダル映像を効果的に学習するために,映像トランスフォーマによる有効な時空間表現を活用し,動作認識精度を向上させる新しい音声映像認識手法であるavtを提案する。 マルチモーダル・フュージョンの場合,マルチモーダル・トークンをクロスモーダル・トランスフォーマーに結合するには,大規模な計算資源とメモリ資源を必要とする。 マルチモーダルトランスフォーマーの学習効率を向上させるため,オーディオ・ビデオコントラスト学習,オーディオ・ビデオマッチング,マスク付きオーディオ・ビデオ学習といった自己指導型目標をAVTトレーニングに統合し,多様なオーディオ・ビデオ表現を共通のマルチモーダル表現空間にマッピングする。 さらに,avtにおける意味的音声活動を学習するためのマスキング音声セグメント損失を提案する。 3つの公開データセットと2つの社内データセットに関する広範な実験とアブレーションの研究は、提案するavtの有効性を一貫して実証している。 特にAVTは、Kinetics-Soundsの最先端製品よりも8%上回っている。 AVTは、従来の最先端ビデオトランスフォーマー[25]の1つを、オーディオ信号を利用してVGGSoundで10%上回る。 MBT[32]と比較して、AVTはFLOPsの効率が1.3%向上し、Epic-Kitchens-100の精度が3.8%向上した。

Audio and video are two most common modalities in the mainstream media platforms, e.g., YouTube. To learn from multimodal videos effectively, in this work, we propose a novel audio-video recognition approach termed audio video Transformer, AVT, leveraging the effective spatio-temporal representation by the video Transformer to improve action recognition accuracy. For multimodal fusion, simply concatenating multimodal tokens in a cross-modal Transformer requires large computational and memory resources, instead we reduce the cross-modality complexity through an audio-video bottleneck Transformer. To improve the learning efficiency of multimodal Transformer, we integrate self-supervised objectives, i.e., audio-video contrastive learning, audio-video matching, and masked audio and video learning, into AVT training, which maps diverse audio and video representations into a common multimodal representation space. We further propose a masked audio segment loss to learn semantic audio activities in AVT. Extensive experiments and ablation studies on three public datasets and two in-house datasets consistently demonstrate the effectiveness of the proposed AVT. Specifically, AVT outperforms its previous state-of-the-art counterparts on Kinetics-Sounds by 8%. AVT also surpasses one of the previous state-of-the-art video Transformers [25] by 10% on VGGSound by leveraging the audio signal. Compared to one of the previous state-of-the-art multimodal methods, MBT [32], AVT is 1.3% more efficient in terms of FLOPs and improves the accuracy by 3.8% on Epic-Kitchens-100.
翻訳日:2024-01-10 18:48:46 公開日:2024-01-08
# マルチ話者音声認識のためのクロススピーカー符号化ネットワーク

Cross-Speaker Encoding Network for Multi-Talker Speech Recognition ( http://arxiv.org/abs/2401.04152v1 )

ライセンス: Link先を確認
Jiawen Kang, Lingwei Meng, Mingyu Cui, Haohan Guo, Xixin Wu, Xunying Liu, Helen Meng(参考訳) 複数話者から重畳された音声を直接書き起こす効果的なアプローチとして,エンドツーエンドのマルチトーカー音声認識が注目されている。 現在の手法は 1)分岐エンコーダを持つ単一入力多重出力(simo)モデル、または 2)serialized output training (sot)を用いた注意ベースエンコーダ・デコーダアーキテクチャに基づく単一入力単一出力(siso)モデル。 本研究では,話者間表現を集約することでSIMOモデルの限界に対処するクロススピーカ符号化(CSE)ネットワークを提案する。 さらに、CSEモデルはSOTと統合され、SIMOとSISOの利点を両立させながら欠点を緩和する。 我々の知る限り、この研究はSIMOとSISOを統合したマルチトーカー音声認識の初期の試みである。 2話者LibrispeechMixデータセットの実験では、CESモデルはSIMOベースラインよりもワードエラー率(WER)を8%削減している。 CSE-SOTモデルは、SOTモデルと比較して、WER全体を10%減らし、16%減らす。

End-to-end multi-talker speech recognition has garnered great interest as an effective approach to directly transcribe overlapped speech from multiple speakers. Current methods typically adopt either 1) single-input multiple-output (SIMO) models with a branched encoder, or 2) single-input single-output (SISO) models based on attention-based encoder-decoder architecture with serialized output training (SOT). In this work, we propose a Cross-Speaker Encoding (CSE) network to address the limitations of SIMO models by aggregating cross-speaker representations. Furthermore, the CSE model is integrated with SOT to leverage both the advantages of SIMO and SISO while mitigating their drawbacks. To the best of our knowledge, this work represents an early effort to integrate SIMO and SISO for multi-talker speech recognition. Experiments on the two-speaker LibrispeechMix dataset show that the CES model reduces word error rate (WER) by 8% over the SIMO baseline. The CSE-SOT model reduces WER by 10% overall and by 16% on high-overlap speech compared to the SOT model.
翻訳日:2024-01-10 18:48:18 公開日:2024-01-08
# LoRAの連鎖:残留学習による言語モデルの効率的な微調整

Chain of LoRA: Efficient Fine-tuning of Language Models via Residual Learning ( http://arxiv.org/abs/2401.04151v1 )

ライセンス: Link先を確認
Wenhan Xia, Chengwei Qin, Elad Hazan(参考訳) 微調整は、訓練済みの大規模言語モデルを特定のタスクに合わせるための主要な方法論である。 モデルの規模とタスクの多様性が拡大するにつれて、パラメーター効率の良い微調整手法が重要となる。 最も広く使われている手法の1つはローランク適応(LoRA)とその変種である。 LoRAは2つの低ランク行列の積として重み更新をエンコードする。 その利点にもかかわらず、LoRAは特定のタスクの一般化誤差の観点からはフルパラメータの微調整に欠ける。 計算コストやメモリオーバーヘッドを伴わずに、LoRAと全パラメータ微調整のギャップを埋めるために、Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるChain of LoRA(COLA)を導入する。 COLAは、学習したLoRAモジュールを事前訓練された言語モデルパラメータにマージし、新たに生成されたLoRAモジュールの最適化を再利用する、残留学習手順を採用している。 提案アルゴリズムの有効性を検証するため,理論的収束保証と実験結果を提供する。 様々なモデル (OPT と llama-2) と7つのベンチマークタスクに対して,COLA は計算コストやメモリコストを伴わずに常に LoRA を上回る性能を発揮することを示した。

Fine-tuning is the primary methodology for tailoring pre-trained large language models to specific tasks. As the model's scale and the diversity of tasks expand, parameter-efficient fine-tuning methods are of paramount importance. One of the most widely used family of methods is low-rank adaptation (LoRA) and its variants. LoRA encodes weight update as the product of two low-rank matrices. Despite its advantages, LoRA falls short of full-parameter fine-tuning in terms of generalization error for certain tasks. We introduce Chain of LoRA (COLA), an iterative optimization framework inspired by the Frank-Wolfe algorithm, to bridge the gap between LoRA and full parameter fine-tuning, without incurring additional computational costs or memory overheads. COLA employs a residual learning procedure where it merges learned LoRA modules into the pre-trained language model parameters and re-initilize optimization for new born LoRA modules. We provide theoretical convergence guarantees as well as empirical results to validate the effectiveness of our algorithm. Across various models (OPT and llama-2) and seven benchmarking tasks, we demonstrate that COLA can consistently outperform LoRA without additional computational or memory costs.
翻訳日:2024-01-10 18:48:01 公開日:2024-01-08
# ショット動作認識のためのコントラスト学習に基づく2ストリーム関節マッチング法

Two-stream joint matching method based on contrastive learning for few-shot action recognition ( http://arxiv.org/abs/2401.04150v1 )

ライセンス: Link先を確認
Long Deng, Ziqiang Li, Bingxin Zhou, Zhongming Chen, Ao Li and Yongxin Ge(参考訳) メカニカルラーニングのパラダイムに基づくアクション認識は大きな成果を上げているが,(1) アクション関係モデリングの不十分さ,およびマルチモーダル情報の未活用,(2) 長さや速度の異なるビデオマッチング問題への対処,およびビデオサブアクションの不一致によるビデオマッチング問題などに対処できない。 これらの課題に対処するために,マルチモーダルコントラスト学習モジュール (MCL) とジョイントマッチングモジュール (JMM) の2つのモジュールからなるコントラッシブラーニング (TSJM) に基づく2ストリームのジョイントマッチング手法を提案する。 MCLの目的は、モーダル間の相互情報関係を広範囲に調査し、モーダル情報を徹底的に抽出し、アクション関係のモデリングを強化することである。 JMMは、上記のビデオマッチング問題を同時に解決することを目的としている。 提案手法の有効性を,SSv2 と Kinetics の2種類のショットアクション認識データセットを用いて評価した。 また,提案手法の有効性を検証するため,包括的アブレーション実験を行った。

Although few-shot action recognition based on metric learning paradigm has achieved significant success, it fails to address the following issues: (1) inadequate action relation modeling and underutilization of multi-modal information; (2) challenges in handling video matching problems with different lengths and speeds, and video matching problems with misalignment of video sub-actions. To address these issues, we propose a Two-Stream Joint Matching method based on contrastive learning (TSJM), which consists of two modules: Multi-modal Contrastive Learning Module (MCL) and Joint Matching Module (JMM). The objective of the MCL is to extensively investigate the inter-modal mutual information relationships, thereby thoroughly extracting modal information to enhance the modeling of action relationships. The JMM aims to simultaneously address the aforementioned video matching problems. The effectiveness of the proposed method is evaluated on two widely used few shot action recognition datasets, namely, SSv2 and Kinetics. Comprehensive ablation experiments are also conducted to substantiate the efficacy of our proposed approach.
翻訳日:2024-01-10 18:47:39 公開日:2024-01-08
# 時空間交通流予測のオンラインテスト時間適応

Online Test-Time Adaptation of Spatial-Temporal Traffic Flow Forecasting ( http://arxiv.org/abs/2401.04148v1 )

ライセンス: Link先を確認
Pengxin Guo, Pengrong Jin, Ziyue Li, Lei Bai, and Yu Zhang(参考訳) 正確な時空間交通流予測は、交通管理者が制御手段を実装し、運転者が最適な走行経路を選択するのを助けるために重要である。 従来のディープラーニングベースのトラフィックフロー予測手法は、通常、過去のデータを使ってモデルをトレーニングし、将来のデータに基づいて予測を行う。 しかしながら、トレーニングされたモデルの性能は通常、歴史的データと将来のデータの間の時間的ドリフトによって劣化する。 過去のデータに基づいてトレーニングされたモデルを,完全なオンラインデータに適応させるため,時空間交通流予測問題に対するオンラインテスト時間適応手法を初めて検討した。 そこで本研究では,まず,訓練モデルの出力を季節的および傾向循環的部分に分解し,次に最新の観測データ入力を用いてテストフェーズ中に2つのモジュールで修正する,系列分解による適応的二重補正(adcsd)手法を提案する。 提案手法では,テストフェーズ中にトレーニングされたモデル全体を微調整する代わりに,トレーニングされたモデルの後,ライトネットワークをアタッチし,データ入力が観測されるたびに,ライトネットワークのみをテストプロセスで微調整する。 さらに、異なる時系列変数が時間的ドリフトのレベルが異なることを満たすため、異なる時系列変数に対して異なる重みを与えるために2つの適応ベクトルが採用された。 4つの実世界の交通流予測データセットに対する大規模な実験により,提案手法の有効性が示された。 コードはhttps://github.com/Pengxin-Guo/ADCSDで入手できる。

Accurate spatial-temporal traffic flow forecasting is crucial in aiding traffic managers in implementing control measures and assisting drivers in selecting optimal travel routes. Traditional deep-learning based methods for traffic flow forecasting typically rely on historical data to train their models, which are then used to make predictions on future data. However, the performance of the trained model usually degrades due to the temporal drift between the historical and future data. To make the model trained on historical data better adapt to future data in a fully online manner, this paper conducts the first study of the online test-time adaptation techniques for spatial-temporal traffic flow forecasting problems. To this end, we propose an Adaptive Double Correction by Series Decomposition (ADCSD) method, which first decomposes the output of the trained model into seasonal and trend-cyclical parts and then corrects them by two separate modules during the testing phase using the latest observed data entry by entry. In the proposed ADCSD method, instead of fine-tuning the whole trained model during the testing phase, a lite network is attached after the trained model, and only the lite network is fine-tuned in the testing process each time a data entry is observed. Moreover, to satisfy that different time series variables may have different levels of temporal drift, two adaptive vectors are adopted to provide different weights for different time series variables. Extensive experiments on four real-world traffic flow forecasting datasets demonstrate the effectiveness of the proposed ADCSD method. The code is available at https://github.com/Pengxin-Guo/ADCSD.
翻訳日:2024-01-10 18:47:19 公開日:2024-01-08
# 任意計画学習(LOPA):グローバルパス計画のための注意力強化深層強化学習法

Learn Once Plan Arbitrarily (LOPA): Attention-Enhanced Deep Reinforcement Learning Method for Global Path Planning ( http://arxiv.org/abs/2401.04145v1 )

ライセンス: Link先を確認
Guoming Huang, Mingxin Hou, Xiaofang Yuan, Shuqiao Huang, Yaonan Wang(参考訳) deep reinforcement learning(drl)メソッドは最近、パス計画タスクにpromiseが示されている。 しかしながら、グローバル計画タスクを扱う場合、これらの手法は収束不良や一般化といった深刻な課題に直面する。 そこで本稿では,LOPA(Learn Once Plan Arbitrally)と呼ばれる注目度向上型DRL手法を提案する。 まず,これらの問題の原因をDRLの観察の観点から分析し,従来の設計がDRLを無関係な地図情報によって阻害することを明らかにする。 第2に、新しい注意力強化機構を利用して、観測の重要情報に対する注意力向上を実現するLOPAを開発する。 このようなメカニズムは,(1)DRLの観察をローカルとグローバルの2つのダイナミックなビューに変換するために構築されたアテンションモデル,(2)これらの2つのビューを処理し,改善された推論能力を実現するために,LOPAが所定のマップのキー情報にフォーカスするように誘導する機構,の2つのステップによって実現される。 LOPAは多目的グローバルパス計画実験によって検証される。 その結果,LOPAはコンバージェンスと一般化性能を向上し,経路計画の効率化が図られた。

Deep reinforcement learning (DRL) methods have recently shown promise in path planning tasks. However, when dealing with global planning tasks, these methods face serious challenges such as poor convergence and generalization. To this end, we propose an attention-enhanced DRL method called LOPA (Learn Once Plan Arbitrarily) in this paper. Firstly, we analyze the reasons of these problems from the perspective of DRL's observation, revealing that the traditional design causes DRL to be interfered by irrelevant map information. Secondly, we develop the LOPA which utilizes a novel attention-enhanced mechanism to attain an improved attention capability towards the key information of the observation. Such a mechanism is realized by two steps: (1) an attention model is built to transform the DRL's observation into two dynamic views: local and global, significantly guiding the LOPA to focus on the key information on the given maps; (2) a dual-channel network is constructed to process these two views and integrate them to attain an improved reasoning capability. The LOPA is validated via multi-objective global path planning experiments. The result suggests the LOPA has improved convergence and generalization performance as well as great path planning efficiency.
翻訳日:2024-01-10 18:46:54 公開日:2024-01-08
# 分布シフトによる気象予測改善のためのロバスト校正

Robust Calibration For Improved Weather Prediction Under Distributional Shift ( http://arxiv.org/abs/2401.04144v1 )

ライセンス: Link先を確認
Sankalp Gilda, Neel Bhandari, Wendy Mak, Andrea Panizza(参考訳) 本稿では,実世界分布シフト課題におけるロバスト性と不確実性に関する \texttt{shifts challenge の一環として,ドメイン外気象予測と不確実性推定を改善する結果について述べる。 我々は、コンピュータビジョン領域から借用した高度なデータ拡張技術と、予測の不確実性のロバストな \textit{post-hoc}キャリブレーションを組み合わせることで、グラフデータのためのブーストされたツリーモデルよりも、ディープニューラルネットワークでより正確で、よりよく調整された結果が得られることを見出した。 いくつかの指標を用いて予測を定量化し,性能向上のための今後の調査と実験の行を提案する。

In this paper, we present results on improving out-of-domain weather prediction and uncertainty estimation as part of the \texttt{Shifts Challenge on Robustness and Uncertainty under Real-World Distributional Shift} challenge. We find that by leveraging a mixture of experts in conjunction with an advanced data augmentation technique borrowed from the computer vision domain, in conjunction with robust \textit{post-hoc} calibration of predictive uncertainties, we can potentially achieve more accurate and better-calibrated results with deep neural networks than with boosted tree models for tabular data. We quantify our predictions using several metrics and propose several future lines of inquiry and experimentation to boost performance.
翻訳日:2024-01-10 18:46:33 公開日:2024-01-08
# SOAP:定常物体凝集法による3次元物体検出のためのクロスセンサ領域適応

SOAP: Cross-sensor Domain Adaptation for 3D Object Detection Using Stationary Object Aggregation Pseudo-labelling ( http://arxiv.org/abs/2401.04230v1 )

ライセンス: Link先を確認
Chengjie Huang, Vahdat Abdelzad, Sean Sedwards, Krzysztof Czarnecki(参考訳) 本稿では,LiDARに基づく3次元物体検出の文脈におけるクロスセンサ領域適応の問題点を考察し,定常物体に対する高品質な擬似ラベルを生成するための定常物体集合擬似ラベリング(SOAP)を提案する。 少数の入力スキャンを集約する現在の最先端のドメイン内プラクティスとは対照的に、SOAPは入力レベルでポイントクラウドの全シーケンスを集約し、センサードメインのギャップを減らします。 次に、準定常トレーニングと空間整合後処理という手法を用いて、SOAPモデルは静止オブジェクトの正確な擬似ラベルを生成し、最小30.3%のドメインギャップを少数のフレーム検出器と比較する。 我々の結果は、教師なしと半教師なしの両方の設定において、最先端のドメイン適応アプローチがSOAPと組み合わせることでさらにパフォーマンスを向上できることを示している。

We consider the problem of cross-sensor domain adaptation in the context of LiDAR-based 3D object detection and propose Stationary Object Aggregation Pseudo-labelling (SOAP) to generate high quality pseudo-labels for stationary objects. In contrast to the current state-of-the-art in-domain practice of aggregating just a few input scans, SOAP aggregates entire sequences of point clouds at the input level to reduce the sensor domain gap. Then, by means of what we call quasi-stationary training and spatial consistency post-processing, the SOAP model generates accurate pseudo-labels for stationary objects, closing a minimum of 30.3% domain gap compared to few-frame detectors. Our results also show that state-of-the-art domain adaptation approaches can achieve even greater performance in combination with SOAP, in both the unsupervised and semi-supervised settings.
翻訳日:2024-01-10 18:37:49 公開日:2024-01-08
# トランスモン量子ビット読み出し用45nm cmosシステムオンチップ受信器の設計

Design of Fully Integrated 45 nm CMOS System-on-Chip Receiver for Readout of Transmon Qubit ( http://arxiv.org/abs/2401.04228v1 )

ライセンス: Link先を確認
Ahmad Salmanogli and Amine Bermak(参考訳) 本研究は,トランスモン量子ビットの実現,ジョセフソンパラメトリック増幅器の設計,超低レベル量子信号検出専用の完全統合受信機の開発など,包括的な設計戦略を明らかにする。 量子理論は、リンドブラッドマスターと量子ランゲヴィン方程式を利用して、トランモン量子ビットとジョセフソンパラメトリック増幅器をオープン量子系として設計する。 前述の量子デバイス工学は、完全統合45nm cmosシステムオンチップ受信機の設計と統合され、量子および古典要素のニュアンスされたタペストリーを織り合わせる。 一方、10mKで作動するトランスモン量子ビットおよびパラメトリック増幅器では、絡み合い、ストークプロジェクタ確率、パラメトリック増幅ゲインを含む臨界量子メトリクスが計算される。 一方、出力される受信機は、0.8dBノイズフィギュアと37dBゲインを有する広帯域低雑音増幅器と、電圧制御発振器を介して5.0GHzの正弦波発生器と、CバンドからゼロIF変換を実現する目的設計ミキサーとを備えた高性能素子のシンフォニーである。 中間周波数増幅器は、約26dbの平坦利得と低パスフィルタを持ち、0-ifで純正弦波を生成し、室温でのその後の処理の準備ができている。 この設計は、消費電力が低く(122 mW)、ノイズフィギュアが0.9 dB、高利得が130 dB、広帯域が3.6 GHz、コンパクトディメンションが0.54*0.4 mm^2である。 少なくとも90量子ビットを読み取るための完全に統合された受信機機能は、量子コンピューティングの潜在的な応用のためにこの設計を位置づけている。 室温でのシミュレーションによる検証は、この設計の有望で革新的な性質を浮き彫りにしている。

This study unveils a comprehensive design strategy, intricately addressing the realization of transmon qubits, the design of Josephson parametric amplifiers, and the development of an innovative fully integrated receiver dedicated to sensing ultra-low-level quantum signals. Quantum theory takes center stage, leveraging the Lindblad master and quantum Langevin equations to design the transmon qubit and Josephson parametric amplifier as open quantum systems. The mentioned quantum devices engineering integrated with the design of a fully integrated 45 nm CMOS system-on-chip receiver, weaves together a nuanced tapestry of quantum and classical elements. On one hand, for the transmon qubit and parametric amplifier operating at 10 mK, critical quantum metrics including entanglement, Stoke projector probabilities, and parametric amplifier gain are calculated. On the other hand, the resulting receiver is a symphony of high-performance elements, featuring a wide-band low-noise amplifier with a 0.8 dB noise figure and ~37 dB gains, a sweepable 5.0 GHz sinusoidal wave generator via the voltage-controlled oscillator, and a purpose-designed mixer achieving C-band to zero-IF conversion. Intermediate frequency amplifier, with a flat gain of around 26 dB, and their low-pass filters, generate a pure sinusoidal wave at zero-IF, ready for subsequent processing at room temperature. This design achieves an impressive balance, with low power consumption (~122 mW), a noise figure of ~0.9 dB, high gain (~130 dB), a wide bandwidth of 3.6 GHz, and compact dimensions (0.54*0.4 mm^2). The fully integrated receiver capability to read out at least 90 qubits positions this design for potential applications in quantum computing. Validation through post-simulations at room temperature underscores the promising and innovative nature of this design.
翻訳日:2024-01-10 18:37:32 公開日:2024-01-08
# 極弱不調和極限における量子振動の観測

Observation of quantum oscillations in the extreme weak anharmonic limit ( http://arxiv.org/abs/2401.04227v1 )

ライセンス: Link先を確認
A. Th\'ery, B. Neukelmance, B. Hue, W. Legrand, L. Jarjat, J. Craquelin, M. Villiers, A. Cottet, M.R. Delbecq and T. Kontos(参考訳) 本研究では,3次元マイクロ波空洞における脱コヒーレンス速度の非調和性を有する粒状アルミニウム量子回路について検討した。 我々は,rabi振動やramsey縞などの単一量子ビット様操作を行う。 定量的数値モデリングによって得られた知見は、非常に弱く無調和な発振器が量子振動をキュービットの外部に表示できることを示した。 これらの振動は、単一の駆動周波数の時間領域の測定において、キュービット振動と区別することが難しい。 これは、新しい材料超伝導量子ビットの最近の発見に新しい光を当てる。 我々のプラットフォームは、量子強化ダークマター探索に応用できる大きな磁場のレジリエンスも示している。

We investigate a granular aluminium quantum circuit with an anharmonicity of the order of its decoherence rate in a 3-dimensional microwave cavity. We perform single qubit-like manipulations such as Rabi oscillations and Ramsey fringes. Our findings, supported by quantitative numerical modeling, show that a very weakly anharmonic oscillator can also display quantum oscillations outside the qubit regime. These oscillations are hard to disambiguate from qubit oscillations in time domain measurements for a single driving frequency. This sheds new light on recent findings for new material superconducting quantum bits. Our platform shows in addition large magnetic field resilience which could find applications for quantum enhanced dark matter search.
翻訳日:2024-01-10 18:36:56 公開日:2024-01-08
# RaceFixer - データ自動レースフィクスラー

RaceFixer -- An Automated Data Race Fixer ( http://arxiv.org/abs/2401.04221v1 )

ライセンス: Link先を確認
Sanjay Malakar, Tameem Bin Haider, Rifat Shahriar(参考訳) ソフトウェアバグの修正は常に、ソフトウェア開発において不可欠で時間を要するプロセスでした。 並列性バグの修正は、特にマルチコア時代において重要になっている。 しかし、非決定論的失敗とトリッキーな並列推論のため、並行性バグの修正は困難である。 ソフトウェアのオリジナルの問題を正しく修正する以外に、優れたパッチは、新しいバグの導入やパフォーマンスの低下、ソフトウェア可読性を損なうことも避けるべきです。 既存のツールは、修正プロセス全体を自動化し、高品質なパッチを提供することはできません。 RaceFixerは、単一の変数のアトミック性違反という1つの一般的な並行性バグを修正するプロセスを自動化するツールです。 RaceFixerは、既存のバグ検出ツールThreadSanitizerのバグレポートから始まる。 静的解析によってこれらを拡張し、各バグレポートに適したパッチを構築する。 複数のバグのパッチを組み合わせることで、パフォーマンスとコードの可読性が向上する。 最後に、TheadSanitizerのベンチマークでRaceFixerをテストする。

Fixing software bugs has always been an essential and time-consuming process in software development. Fixing concurrency bugs has become especially critical in the multicore era. However, fixing concurrency bugs is challenging due to non-deterministic failures and tricky parallel reasoning. Beyond correctly fixing the original problem in the software, a good patch should also avoid introducing new bugs, degrading performance unnecessarily, or damaging software readability. Existing tools cannot automate the whole fixing process and provide good-quality patches. We present RaceFixer, a tool that automates the process of fixing one common type of concurrency bug: single-variable atomicity violations. RaceFixer starts from the bug reports of an existing bug-detection tool ThreadSanitizer. It augments these with static analysis to construct a suitable patch for each bug report. It tries to combine the patches of multiple bugs for better performance and code readability. Finally, we test RaceFixer on benchmarks from TheadSanitizer.
翻訳日:2024-01-10 18:36:46 公開日:2024-01-08
# 大規模言語モデルにおける判断的空間関係の歪み--自然言語地理データの夜明けか?

Distortions in Judged Spatial Relations in Large Language Models: The Dawn of Natural Language Geographic Data? ( http://arxiv.org/abs/2401.04218v1 )

ライセンス: Link先を確認
Nir Fulman, Abdulkadir Memduho\u{g}lu, Alexander Zipf(参考訳) GPT-3.5, GPT-4, そして Llama-2 の3つの著名な LLM に対して, 地理的位置間の心電図方向を識別する大規模言語モデル (LLM) の能力を評価するためのベンチマークを提案する。 このベンチマークは、llmが人間に似た階層的空間バイアスを示すかどうかを特に評価し、それぞれの場所の空間的関係に関する判断は、それらを含む大きなグループの認識された関係に影響される。 これを調べるために、アメリカのよく知られた都市に焦点を当てた14の質問を定式化した。 7つの質問は、国家や国のようなより大きな地理的単位の方向に影響される可能性があるシナリオでllmに挑戦するように設計され、残りの7つの場所はそのような階層的な分類の影響を受けにくい。 GPT-4は55.3%の精度で優れた性能を示し、GPT-3.5は47.3%、Llama-2は44.7%であった。 モデルでは, 階層バイアスが疑われるタスクの精度が有意に低下した。 例えば、GPT-4の精度はこれらのタスクで32.9%まで低下し、他のタスクでは85.7%に低下した。 これらの不正確さにもかかわらず、モデルはほとんどのケースで最寄りの基数方向を特定し、人間のような誤解を具現化する連想学習を示唆した。 LLMの空間的推論能力を改善するために、地理的関係を直接表現するテキストベースのデータの可能性について議論する。

We present a benchmark for assessing the capability of Large Language Models (LLMs) to discern intercardinal directions between geographic locations and apply it to three prominent LLMs: GPT-3.5, GPT-4, and Llama-2. This benchmark specifically evaluates whether LLMs exhibit a hierarchical spatial bias similar to humans, where judgments about individual locations' spatial relationships are influenced by the perceived relationships of the larger groups that contain them. To investigate this, we formulated 14 questions focusing on well-known American cities. Seven questions were designed to challenge the LLMs with scenarios potentially influenced by the orientation of larger geographical units, such as states or countries, while the remaining seven targeted locations less susceptible to such hierarchical categorization. Among the tested models, GPT-4 exhibited superior performance with 55.3% accuracy, followed by GPT-3.5 at 47.3%, and Llama-2 at 44.7%. The models showed significantly reduced accuracy on tasks with suspected hierarchical bias. For example, GPT-4's accuracy dropped to 32.9% on these tasks, compared to 85.7% on others. Despite these inaccuracies, the models identified the nearest cardinal direction in most cases, suggesting associative learning, embodying human-like misconceptions. We discuss the potential of text-based data representing geographic relationships directly to improve the spatial reasoning capabilities of LLMs.
翻訳日:2024-01-10 18:36:34 公開日:2024-01-08
# 空間物体密度分布予測のための機械学習手法の提案

Towards a Machine Learning-Based Approach to Predict Space Object Density Distributions ( http://arxiv.org/abs/2401.04212v1 )

ライセンス: Link先を確認
Victor Rodriguez-Fernandez, Sumiyajav Sarangerel, Peng Mun Siew, Pablo Machuca, Daniel Jang, Richard Linares(参考訳) 人類起源の宇宙物体(ASO)の数が急速に増加し、低軌道軌道(LEO)は大きな混雑に直面しており、宇宙オペレーターに課題を提起し、様々な用途のために宇宙環境の存続を危険にさらしている。 この進化を調べる現在のモデルは、詳細ではあるが、計算的に要求されている。 これらの課題に対処するために,MIT Orbital Capacity Tool (MOCAT)の拡張として,機械学習に基づく新しいモデルを提案する。 この高度モデルは、ASO密度分布の伝播を加速するために設計され、宇宙環境進化の確立された正確なモデルによって生成された数百のシミュレーションに基づいて訓練される。 本研究では,異なる深層学習ベースソリューションがaso伝播の候補となりうるか検討し,データの高次元化を管理する。 モデルの能力を評価するために、長期予測シナリオ(約100年)で実験を行い、時間とともにパフォーマンスが劣化する理由と方法を分析し、このソリューションをより良くするための潜在的な解決策について論じる。

With the rapid increase in the number of Anthropogenic Space Objects (ASOs), Low Earth Orbit (LEO) is facing significant congestion, thereby posing challenges to space operators and risking the viability of the space environment for varied uses. Current models for examining this evolution, while detailed, are computationally demanding. To address these issues, we propose a novel machine learning-based model, as an extension of the MIT Orbital Capacity Tool (MOCAT). This advanced model is designed to accelerate the propagation of ASO density distributions, and it is trained on hundreds of simulations generated by an established and accurate model of the space environment evolution. We study how different deep learning-based solutions can potentially be good candidates for ASO propagation and manage the high-dimensionality of the data. To assess the model's capabilities, we conduct experiments in long term forecasting scenarios (around 100 years), analyze how and why the performance degrades over time, and discuss potential solutions to make this solution better.
翻訳日:2024-01-10 18:36:09 公開日:2024-01-08
# FunnyNet-W:野生ビデオにおけるファニーモーメントのマルチモーダル学習

FunnyNet-W: Multimodal Learning of Funny Moments in Videos in the Wild ( http://arxiv.org/abs/2401.04210v1 )

ライセンス: Link先を確認
Zhi-Song Liu, Robin Courant, Vicky Kalogeiton(参考訳) 滑稽な瞬間(つまり、人を笑わせる瞬間)を自動的に理解することは、ボディランゲージや対話、文化といった様々な特徴に関連付けるため、困難である。 本稿では,ビデオ中の面白い瞬間を予測するために,視覚,音声,テキストデータに対して,クロスアテンションと自己アテンションに依存するモデルであるFunnyNet-Wを提案する。 サブタイトルの形で根拠真理データに依存するほとんどの方法とは異なり、本作品では、ビデオに自然に現れるモダリティを活用します。 (a)シーン理解に欠かせない視覚情報を含む映像フレーム (b)イントネーション、ピッチ、一時停止などのおかしな瞬間に関連するハイレベルな手がかりを含むオーディオ (c) 大規模言語モデルで処理した場合にリッチな情報を提供できるため,音声からテキストまでの自動抽出を行う。 トレーニング用ラベルを取得するために,面白い音声モーメントの発見とラベル付けを行う教師なしアプローチを提案する。 TBBT, MHD, MUStARD, Friends, TEDトークUR-Funnyの5つのデータセットについて実験を行った。 大規模な実験と分析の結果、FunnyNet-Wは視覚的、聴覚的、テキスト的な手がかりを利用して面白い瞬間を識別することに成功した。 FunnyNet-Wは、基底真理情報を使用しなくても、すべてのデータセット上のマルチモーダルキューによる面白いモーメント検出のための新しい状態を設定する。

Automatically understanding funny moments (i.e., the moments that make people laugh) when watching comedy is challenging, as they relate to various features, such as body language, dialogues and culture. In this paper, we propose FunnyNet-W, a model that relies on cross- and self-attention for visual, audio and text data to predict funny moments in videos. Unlike most methods that rely on ground truth data in the form of subtitles, in this work we exploit modalities that come naturally with videos: (a) video frames as they contain visual information indispensable for scene understanding, (b) audio as it contains higher-level cues associated with funny moments, such as intonation, pitch and pauses and (c) text automatically extracted with a speech-to-text model as it can provide rich information when processed by a Large Language Model. To acquire labels for training, we propose an unsupervised approach that spots and labels funny audio moments. We provide experiments on five datasets: the sitcoms TBBT, MHD, MUStARD, Friends, and the TED talk UR-Funny. Extensive experiments and analysis show that FunnyNet-W successfully exploits visual, auditory and textual cues to identify funny moments, while our findings reveal FunnyNet-W's ability to predict funny moments in the wild. FunnyNet-W sets the new state of the art for funny moment detection with multimodal cues on all datasets with and without using ground truth information.
翻訳日:2024-01-10 18:35:51 公開日:2024-01-08
# aiコーチによるレース学習:マルチモーダル自動運転説明が運転性能,認知負荷,専門知識,信頼に及ぼす影響

Learning Racing From an AI Coach: Effects of Multimodal Autonomous Driving Explanations on Driving Performance, Cognitive Load, Expertise, and Trust ( http://arxiv.org/abs/2401.04206v1 )

ライセンス: Link先を確認
Robert Kaufman, Jean Costa, Everlyne Kimani(参考訳) ポスト前の実験(n = 41)では、人間の運転専門家の指示に従ってモデル化されたaiコーチの説明コミュニケーションの影響をテストする。 参加者は,情報型('what'型と'why'型)とプレゼンテーションモダリティ(auditory and visual)という,aiコーチの説明の2つの次元を評価する4つのグループに分けられた。 これらの技術を用いたAIコーチングセッションが、パフォーマンス、認知的負荷、信頼、専門知識、そして観察学習コンテキストにおける信頼にどのように影響するかを直接比較します。 インタビューを通じて、参加者の学習プロセスを概説する。 結果は、AI駆動コーチは、初心者にパフォーマンス駆動スキルを教えるのに役立つことを示している。 グループ間の比較により,情報の種類とモダリティがパフォーマンスに与える影響を見出した。 違いは,注意の向け方,不確実性を緩和し,参加者が経験する過負荷に影響を及ぼす。 これらの結果は、参加者がいかにうまく学べるかに影響した。 結果は,効率的でモダリティに適した説明を,圧倒することなく指示可能な効果的なhmi通信を設計する際に選択すべきことを示唆する。 さらに、コミュニケーションを人間の学習や認知プロセスと整合させる必要性を支持する。 結果は、将来の自動運転車HMIとAIコーチ設計のための8つの設計意味に合成される。

In a pre-post experiment (n = 41), we test the impact of an AI Coach's explanatory communications modeled after the instructions of human driving experts. Participants were divided into four (4) groups to assess two (2) dimensions of the AI coach's explanations: information type ('what' and 'why'-type explanations) and presentation modality (auditory and visual). We directly compare how AI Coaching sessions employing these techniques impact driving performance, cognitive load, confidence, expertise, and trust in an observation learning context. Through interviews, we delineate the learning process of our participants. Results show that an AI driving coach can be useful for teaching performance driving skills to novices. Comparing between groups, we find the type and modality of information influences performance outcomes. We attribute differences to how information directed attention, mitigated uncertainty, and influenced overload experienced by participants. These, in turn, affected how successfully participants were able to learn. Results suggest efficient, modality-appropriate explanations should be opted for when designing effective HMI communications that can instruct without overwhelming. Further, they support the need to align communications with human learning and cognitive processes. Results are synthesized into eight design implications for future autonomous vehicle HMI and AI coach design.
翻訳日:2024-01-10 18:35:25 公開日:2024-01-08
# 多端子超伝導デバイスにおけるクーパー四重項設計

Cooper quartets designing in multi-terminal superconducting devices ( http://arxiv.org/abs/2401.04202v1 )

ライセンス: Link先を確認
Luca Chirolli, Alessandro Braggio, Francesco Giazotto(参考訳) 通常の超伝導リードと結合した二重量子ドット系におけるクーパー四重項の量子設計は、電荷-4e$超伝導の現象に基づく、不可解な多体状態の研究のための新しいプラットフォームとして提示される。 真空 $|0\rangle$ と 4電子状態 $|4e\rangle$ の重畳の形で、根本的に新しい最大相関基底状態が狭い共鳴として現れ、魅力的な相互作用によって促進される。 無散逸輸送系における新しい現象論が解明され、$h/4e$単位の典型的なフラックス量子化が得られ、非局所的な多末端コヒーレンスおよび四重項基底状態によって媒介される二対輸送特性に現れる。 この結果は、ハイブリッド超伝導デバイスにおける相関効果と非局所コヒーレンス(非局所コヒーレンス)の探索への道を開くとともに、より一般的には、量子固体研究所で利用可能な通常の成分から始まる新しい相関状態の設計とシミュレーションの基礎となる。

Quantum design of Cooper quartets in a double quantum dot system coupled to ordinary superconducting leads is presented as a novel platform for the study of an elusive many-body state of matter, that is at the basis of the phenomenon of charge-$4e$ superconductivity. A fundamentally novel, maximally correlated ground state, in the form of a superposition of vacuum $|0\rangle$ and four-electron state $|4e\rangle$, emerges as a narrow resonance and it is promoted by an attractive interdot interaction. A novel phenomenology in the dissipationless transport regime is elucidated, that yields typical flux quantization in units of $h/4e$ and manifests in non-local multi-terminal coherence and in two-Cooper pair transport properties mediated by the quartet ground state. The results open the way to the exploration of correlation effects and non-local coherence in hybrid superconducting devices, parity-protected quantum computing schemes and more generally, the work poses the basis for the design and simulation of novel correlated states of matter starting from ordinary ingredients available in a quantum solid state lab.
翻訳日:2024-01-10 18:35:03 公開日:2024-01-08
# 複数環境における好奇心とエントロピー駆動型教師なしRL

Curiosity & Entropy Driven Unsupervised RL in Multiple Environments ( http://arxiv.org/abs/2401.04198v1 )

ライセンス: Link先を確認
Shaurya Dewan, Anisha Jain, Zoe LaLena, Lifan Yu(参考訳) 複数の環境における教師なし強化学習」の著者らは、教師なしRLを複数の環境にわたって取り組むために、α-MEPOL法を提案する。 彼らは、環境クラス全体からのインタラクションを使用してタスク非依存の探索ポリシーを事前訓練し、その後、監督を使用して様々なタスクのためにこのポリシーを微調整する。 私たちはこの作業を拡大し、パフォーマンスの向上を目標にしました。 我々は, エントロピーに基づく確率分布を用いたサンプリングトラジェクタ, 動的アルファ, 高kl発散閾値, 好奇心駆動探索, 好奇心に対するアルファパーセンタイルサンプリングの5つの改良を提案する。 ダイナミックアルファと高いKL-ディバージェンス閾値はどちらも、初期の研究からベースラインを大幅に改善した。 PDFサンプリングは、サンプル空間が小さい場合、ベースライン法とほぼ同等であるため、いかなる改善も提供しなかった。 高次元環境において、好奇心を駆使した探索が加わり、エージェントに多様な経験を求め、未知のものを探索させることで学習が促進される。 しかし、探索可能性に制約があり、エージェントに真に知られていないような、低次元でシンプルな環境では、その利点は限られている。 全体として、我々の実験の一部では、ベースラインよりもパフォーマンスが向上し、さらなる研究に期待できる方向がいくつかある。

The authors of 'Unsupervised Reinforcement Learning in Multiple environments' propose a method, alpha-MEPOL, to tackle unsupervised RL across multiple environments. They pre-train a task-agnostic exploration policy using interactions from an entire environment class and then fine-tune this policy for various tasks using supervision. We expanded upon this work, with the goal of improving performance. We primarily propose and experiment with five new modifications to the original work: sampling trajectories using an entropy-based probability distribution, dynamic alpha, higher KL Divergence threshold, curiosity-driven exploration, and alpha-percentile sampling on curiosity. Dynamic alpha and higher KL-Divergence threshold both provided a significant improvement over the baseline from the earlier work. PDF-sampling failed to provide any improvement due to it being approximately equivalent to the baseline method when the sample space is small. In high-dimensional environments, the addition of curiosity-driven exploration enhances learning by encouraging the agent to seek diverse experiences and explore the unknown more. However, its benefits are limited in low-dimensional and simpler environments where exploration possibilities are constrained and there is little that is truly unknown to the agent. Overall, some of our experiments did boost performance over the baseline and there are a few directions that seem promising for further research.
翻訳日:2024-01-10 18:34:42 公開日:2024-01-08
# 猫は監禁から逃れる

Schr\"odinger cats escape confinement ( http://arxiv.org/abs/2401.04193v1 )

ライセンス: Link先を確認
A. Krasznai and G. Tak\'acs(参考訳) 強磁性系における閉じ込め量子イジングスピン鎖の真または偽の真空状態の1つのスピンフリップによって生成される初期状態からの局所的クエンチを考える。 光円錐の挙動が強く抑制される大域的クエンチとは対照的に、期待される局所振動成分の他に、非ゼロ速度で伝播する重要な光円錐信号が見つかる。 2つのフェルミオン近似を用いて初期状態の解析的表現と関連する励起の数値的記述を組み合わせることで、後処理の励起スペクトルと初期状態との重なりを構築でき、基礎となるメカニズムを特定できる。 真の真空上に構築されたクエンチェを閉じ込めるために、伝播信号は、閉じ込めから逃れる左右に動く中間子からなるschr{\"o}dinger catからなる。 対照的に、偽真空上に構築された反断熱クエンチは、ワニエ・スタークのローカライゼーションから逃れる左右に動く泡のSchr{\「o}dinger catで構成されている。

We consider local quenches from initial states generated by a single spin flip in either the true or the false vacuum state of the confining quantum Ising spin chain in the ferromagnetic regime. Contrary to global quenches, where the light-cone behaviour is strongly suppressed, we find a significant light-cone signal propagating with a nonzero velocity besides the expected localised oscillating component. Combining an analytic representation of the initial state with a numerical description of the relevant excitations using the two-fermion approximation, we can construct the spectrum of post-quench excitations and their overlaps with the initial state, identifying the underlying mechanism. For confining quenches built upon the true vacuum, the propagating signal consists of Schr{\"o}dinger cats of left and right-moving mesons escaping confinement. In contrast, for anti-confining quenches built upon the false vacuum, it is composed of Schr{\"o}dinger cats of left and right-moving bubbles which escape Wannier-Stark localisation.
翻訳日:2024-01-10 18:34:18 公開日:2024-01-08
# ソフトウェアアーキテクチャの対話型多目的進化最適化

Interactive Multi-Objective Evolutionary Optimization of Software Architectures ( http://arxiv.org/abs/2401.04192v1 )

ライセンス: Link先を確認
Aurora Ram\'irez and Jos\'e Ra\'ul Romero and Sebasti\'an Ventura(参考訳) ソフトウェア仕様に取り組んでいる間、設計者は通常、品質基準が満たされるかどうかを確認するために、異なるアーキテクチャの代替案を評価する必要がある。 これらの品質面が複数のソフトウェアメトリクスで表現されたとしても、他の質的要因を数値的に測定することはできないが、エンジニアのノウハウや経験から抽出される。 実際、異なるソリューションの強みだけでなく弱点も検出することは、人間が決定を下す方法に適しているように思える。 人間をループに入れることは、検索ベースのソフトウェアエンジニアリング分野、特に初期の分析フェーズにおける人間中心の活動に新たな課題をもたらす。 本稿では,人間の判断を探索プロセスに統合するための基礎として,インタラクティブな進化計算が有効であることを示す。 多目的進化アルゴリズムを導くために,定量的および定性的基準を適用したソフトウェアアーキテクチャを発見するための対話的手法を提案する。 得られたフィードバックはアーキテクチャの好みを使って適合度関数に組み込まれており、アルゴリズムは有望なソリューションと貧弱なソリューションを識別できる。 実際のユーザによる実験により,提案するインタラクションメカニズムが,専門家にとって本当に興味のある検索空間の領域に対して,検索を効果的に誘導できることが判明した。

While working on a software specification, designers usually need to evaluate different architectural alternatives to be sure that quality criteria are met. Even when these quality aspects could be expressed in terms of multiple software metrics, other qualitative factors cannot be numerically measured, but they are extracted from the engineer's know-how and prior experiences. In fact, detecting not only strong but also weak points in the different solutions seems to fit better with the way humans make their decisions. Putting the human in the loop brings new challenges to the search-based software engineering field, especially for those human-centered activities within the early analysis phase. This paper explores how the interactive evolutionary computation can serve as a basis for integrating the human's judgment into the search process. An interactive approach is proposed to discover software architectures, in which both quantitative and qualitative criteria are applied to guide a multi-objective evolutionary algorithm. The obtained feedback is incorporated into the fitness function using architectural preferences allowing the algorithm to discern between promising and poor solutions. Experimentation with real users has revealed that the proposed interaction mechanism can effectively guide the search towards those regions of the search space that are of real interest to the expert.
翻訳日:2024-01-10 18:33:54 公開日:2024-01-08
# 教師-学生設定におけるDense Hopfield Networks

Dense Hopfield Networks in the Teacher-Student Setting ( http://arxiv.org/abs/2401.04191v1 )

ライセンス: Link先を確認
Robin Th\'eriault and Daniele Tantari(参考訳) デンスホップフィールドネットワークは、プロトタイプの移行と敵の堅牢性に特徴があることで知られている。 しかし、以前の理論的研究は主に貯蔵能力に関するものだった。 そこで,p-body hopfieldネットワークの位相図を教師が教師に指導しない学習問題の設定で検討し,プロトタイプを想起させる強磁性相と特徴学習態様を明らかにすることで,このギャップを解消した。 西森線では,効率的なパターン検索に必要なトレーニングセットの臨界サイズが分かる。 興味深いことに、教師-学生設定の常磁性から強磁性への遷移は、直接モデルの常磁性からスピングラスへの移行、すなわちランダムなパターンと一致する。 西森線以外では,推測温度とデータセット雑音との関係について学習性能について検討する。 さらに,教師よりも大きなpを学生に与えることで,学生は騒音に対する寛容感を広く得ることを示す。 次に, ゼロ温度における学生の対角強靭性を測定し, 大規模ニューラルネットワークで観測されたパラメータ数と頑健性との正の相関を相関づけた。 また,このモデルを用いて,現代のホップフィールドネットワークのプロトタイプフェーズが反抗的ロバストである理由を明らかにする。

Dense Hopfield networks are known for their feature to prototype transition and adversarial robustness. However, previous theoretical studies have been mostly concerned with their storage capacity. We bridge this gap by studying the phase diagram of p-body Hopfield networks in the teacher-student setting of an unsupervised learning problem, uncovering ferromagnetic phases reminiscent of the prototype and feature learning regimes. On the Nishimori line, we find the critical size of the training set necessary for efficient pattern retrieval. Interestingly, we find that that the paramagnetic to ferromagnetic transition of the teacher-student setting coincides with the paramagnetic to spin-glass transition of the direct model, i.e. with random patterns. Outside of the Nishimori line, we investigate the learning performance in relation to the inference temperature and dataset noise. Moreover, we show that using a larger p for the student than the teacher gives the student an extensive tolerance to noise. We then derive a closed-form expression measuring the adversarial robustness of such a student at zero temperature, corroborating the positive correlation between number of parameters and robustness observed in large neural networks. We also use our model to clarify why the prototype phase of modern Hopfield networks is adversarially robust.
翻訳日:2024-01-10 18:33:33 公開日:2024-01-08
# 高速・低速思考による言語条件付きロボットマニピュレーション

Language-Conditioned Robotic Manipulation with Fast and Slow Thinking ( http://arxiv.org/abs/2401.04181v1 )

ライセンス: Link先を確認
Minjie Zhu, Yichen Zhu, Jinming Li, Junjie Wen, Zhiyuan Xu, Zhengping Che, Chaomin Shen, Yaxin Peng, Dong Liu, Feifei Feng, Jian Tang(参考訳) 言語条件のロボット操作は、自然言語命令を単純なピック・アンド・プレイスから意図認識と視覚的推論を必要とするタスクへ、実行可能なアクションに転送することを目的としている。 認知科学における双対プロセス理論に触発されて,人間の意思決定における高速かつ遅い思考の2つの並列システムを提案する。我々は,人間の認知アーキテクチャを模倣してタスクを分類し,命令型に基づく2つのシステム上で意思決定を行うフレームワークであるfast and slow thinking (rfst) を用いたロボティクスを導入する。 私たちのRFSTは2つのキーコンポーネントから構成されています。 1) 現在のユーザ命令に基づいて、どのシステムが起動されるべきかを判断する命令判別器 2) 政策ネットワークと連携した微調整された視覚言語モデルからなるスロー思考システムにより,ロボットはユーザの意図を認識したり,推論タスクを実行したりすることができる。 私たちの方法論を評価するために、私たちは現実世界の軌跡を特徴とするデータセットを構築しました。 シミュレーションと実世界のシナリオの両方において,本手法が意図認識と推論を必要とする複雑なタスクを十分に管理していることを確認した。 このプロジェクトはhttps://jlm-z.github.io/RSFT/で入手できる。

The language-conditioned robotic manipulation aims to transfer natural language instructions into executable actions, from simple pick-and-place to tasks requiring intent recognition and visual reasoning. Inspired by the dual process theory in cognitive science, which suggests two parallel systems of fast and slow thinking in human decision-making, we introduce Robotics with Fast and Slow Thinking (RFST), a framework that mimics human cognitive architecture to classify tasks and makes decisions on two systems based on instruction types. Our RFST consists of two key components: 1) an instruction discriminator to determine which system should be activated based on the current user instruction, and 2) a slow-thinking system that is comprised of a fine-tuned vision language model aligned with the policy networks, which allows the robot to recognize user intention or perform reasoning tasks. To assess our methodology, we built a dataset featuring real-world trajectories, capturing actions ranging from spontaneous impulses to tasks requiring deliberate contemplation. Our results, both in simulation and real-world scenarios, confirm that our approach adeptly manages intricate tasks that demand intent recognition and reasoning. The project is available at https://jlm-z.github.io/RSFT/
翻訳日:2024-01-10 18:33:12 公開日:2024-01-08
# 再構成可能なリアルタイム回路を用いた効率的な量子トレース推定

Efficient Quantum Trace Estimation with Reconfigurable Real-Time Circuits ( http://arxiv.org/abs/2401.04176v1 )

ライセンス: Link先を確認
Yizhi Shen, Katherine Klymko, Eran Rabani, Daan Camps, Roel Van Beeumen, Michael Lindsey(参考訳) 近年、多体ハミルトニアンの下でのリアルタイム進化を利用する量子アルゴリズムは、基底状態エネルギーのようなハミルトンスペクトルの端付近で個々の固有値を推定するのに非常に効果的であることが証明されている。 対照的に、演算子のトレースを評価するには、スペクトル全体の固有値の集約が必要である。 本研究では,対象ハミルトニアンの行列関数を含む広いクラスの作用素のトレースを計算するための効率的な近距離量子アルゴリズムを提案する。 我々のトレース推定器は、多くのランダム状態の準備を含む古典的ジラード・ハッチンソン推定器と似ている。 正確なジラール・ハッチンソン推定器は量子コンピュータ上では容易に実現できないが、ジラール・ハッチンソン推定器の分散に一致するランダムな状態を構築することができる。 重要なことに、我々のランダム状態はすべて、進化の期間における確率的変化のみによるランダム性によって、リアルタイム進化のために同じハミルトン的を使って生成される。 この意味で、回路は再構成可能であり、デジタルプラットフォームとアナログプラットフォームの両方で実現するのに適している。 数値シミュレーションでは, 状態密度の計算や自由エネルギー計算など, 物理, 化学, 物質科学における重要な応用が注目される。

Recently, quantum algorithms that leverage real-time evolution under a many-body Hamiltonian have proven to be exceptionally effective in estimating individual eigenvalues near the edge of the Hamiltonian spectrum, such as the ground state energy. By contrast, evaluating the trace of an operator requires the aggregation of eigenvalues across the entire spectrum. In this work, we introduce an efficient near-term quantum algorithm for computing the trace of a broad class of operators, including matrix functions of the target Hamiltonian. Our trace estimator is similar to the classical Girard-Hutchinson estimator in that it involves the preparation of many random states. Although the exact Girard-Hutchinson estimator is not tractably realizable on a quantum computer, we can construct random states that match the variance of the Girard-Hutchinson estimator through only real-time evolution. Importantly, our random states are all generated using the same Hamiltonians for real-time evolution, with randomness owing only to stochastic variations in the duration of the evolutions. In this sense, the circuit is reconfigurable and suitable for realization on both digital and analog platforms. For numerical illustration, we highlight important applications in the physical, chemical, and materials sciences, such as calculations of density of states and free energy.
翻訳日:2024-01-10 18:32:49 公開日:2024-01-08
# 動的グラフの構造予測

Predicting the structure of dynamic graphs ( http://arxiv.org/abs/2401.04280v1 )

ライセンス: Link先を確認
Sevvandi Kandanaarachchi(参考訳) 動的グラフ埋め込み、インダクティブ学習、インクリメンタル学習は、ノード分類やリンク予測のような予測タスクを促進する。 しかし、時系列グラフから将来の時間ステップでグラフの構造を予測することは、新しいノードを許容することはあまり注目されていない。 本稿では,そのようなアプローチを提案する。 本研究では,今後の時間点におけるノード次数予測に時系列法を用い,生化学で使用される線形プログラム法であるフラックスバランス解析と組み合わせて将来のグラフの構造を求める。 さらに,異なるパラメータ値に対する予測グラフ分布について検討する。 本手法を合成および実データを用いて評価し,その有用性と適用性を示す。

Dynamic graph embeddings, inductive and incremental learning facilitate predictive tasks such as node classification and link prediction. However, predicting the structure of a graph at a future time step from a time series of graphs, allowing for new nodes has not gained much attention. In this paper, we present such an approach. We use time series methods to predict the node degree at future time points and combine it with flux balance analysis -- a linear programming method used in biochemistry -- to obtain the structure of future graphs. Furthermore, we explore the predictive graph distribution for different parameter values. We evaluate this method using synthetic and real datasets and demonstrate its utility and applicability.
翻訳日:2024-01-10 18:24:49 公開日:2024-01-08
# 大型スピン猫符号を用いたフォールトトレラント量子計算

Fault-tolerant quantum computation using large spin cat-codes ( http://arxiv.org/abs/2401.04271v1 )

ライセンス: Link先を確認
Sivaprasad Omanakuttan, Vikas Buchemmavari, Jonathan A. Gross, Ivan H Deutsch and Milad Marvian(参考訳) 連続変数cat符号化に類似したスピンキャット符号を用いて、大きなスピンquditで符号化された量子ビットに基づくフォールトトレラント量子誤り訂正プロトコルを構築する。 これにより、支配的な誤差源、すなわち角運動量の成分において線型あるいは二次的な誤差演算子として表現できる過程を補正することができる。 このような符号は、非構造ノイズモデルのために設計された符号に比べて、優れたしきい値と低いリソースオーバーヘッドを示す。 ゲート操作中の支配的エラーを保存するため、適切なユニバーサルゲート集合を同定する。 鍵となる要素は球面テンソル作用素のランクを保存するcnotゲートである。 位相誤差を位相誤差と振幅誤差に分類し、量子ビットの位相誤差に類似した位相誤差を効果的に補正できることを示す。 さらに,シンドローム測定に頼らずに振幅誤差に対処する計測自由誤差補正手法を提案する。 論理cnotゲートエラーの詳細な解析により、スピンキャット符号化における誤り訂正のフォールトトレラントしきい値が、標準のqubitベースのエンコーディングのそれを超えることを証明した。 quditsは$^{87}$srの核スピンで符号化され、量子制御とrydbergブロックを用いてランク保存cnotゲートを含むユニバーサルゲート集合を生成する方法を示す。 これらの結果は、量子情報処理においてフォールトトレランス、高いしきい値、リソースオーバーヘッドを低減できる可能性を秘めた、大きなスピンで量子ビットを符号化する方法を示している。

We construct a fault-tolerant quantum error-correcting protocol based on a qubit encoded in a large spin qudit using a spin-cat code, analogous to the continuous variable cat encoding. With this, we can correct the dominant error sources, namely processes that can be expressed as error operators that are linear or quadratic in the components of angular momentum. Such codes tailored to dominant error sources {can} exhibit superior thresholds and lower resource overheads when compared to those designed for unstructured noise models. To preserve the dominant errors during gate operations, we identify a suitable universal gate set. A key component is the CNOT gate that preserves the rank of spherical tensor operators. Categorizing the dominant errors as phase and amplitude errors, we demonstrate how phase errors, analogous to phase-flip errors for qubits, can be effectively corrected. Furthermore, we propose a measurement-free error correction scheme to address amplitude errors without relying on syndrome measurements. Through an in-depth analysis of logical CNOT gate errors, we establish that the fault-tolerant threshold for error correction in the spin-cat encoding surpasses that of standard qubit-based encodings. We consider a specific implementation based on neutral-atom quantum computing, with qudits encoded in the nuclear spin of $^{87}$Sr, and show how to generate the universal gate set, including the rank-preserving CNOT gate, using quantum control and the Rydberg blockade. These findings pave the way for encoding a qubit in a large spin with the potential to achieve fault tolerance, high threshold, and reduced resource overhead in quantum information processing.
翻訳日:2024-01-10 18:24:40 公開日:2024-01-08
# 量子シミュレーションにおける量子mpemba効果の観測

Observing the quantum Mpemba effect in quantum simulations ( http://arxiv.org/abs/2401.04270v1 )

ライセンス: Link先を確認
Lata Kh Joshi, Johannes Franke, Aniket Rath, Filiberto Ares, Sara Murciano, Florian Kranzl, Rainer Blatt, Peter Zoller, Beno\^it Vermersch, Pasquale Calabrese, Christian F. Roos, Manoj K. Joshi(参考訳) 多体量子系の非平衡物理学は、様々な非慣習現象を保っている。 本研究では,これらの現象の最も厄介な現象である量子Mpemba効果について実験的に検討し,傾いた強磁性体が対称状態から近いときよりも早く対称性を回復する。 トラップイオン量子シミュレータにおけるこの効果の発生に関する最初の実験的証拠を示す。 対称性の破れと復元は、絡み合った非対称性を通して監視され、ランダム化測定によって探索され、古典的なシャドウ技術を用いて後処理される。 さらに, 実験状態と定常熱対称状態との間のフロベニウス距離を測定し, サブシステム熱化の直接的証拠を提供する。

The non-equilibrium physics of many-body quantum systems harbors various unconventional phenomena. In this study, we experimentally investigate one of the most puzzling of these phenomena -- the quantum Mpemba effect, where a tilted ferromagnet restores its symmetry more rapidly when it is farther from the symmetric state compared to when it is closer. We present the first experimental evidence of the occurrence of this effect in a trapped-ion quantum simulator. The symmetry breaking and restoration are monitored through entanglement asymmetry, probed via randomized measurements, and postprocessed using the classical shadows technique. Our findings are further substantiated by measuring the Frobenius distance between the experimental state and the stationary thermal symmetric theoretical state, offering direct evidence of subsystem thermalization.
翻訳日:2024-01-10 18:24:14 公開日:2024-01-08
# 表データに対する注意と対照学習--データ中心ベンチマーク

Attention versus Contrastive Learning of Tabular Data -- A Data-centric Benchmarking ( http://arxiv.org/abs/2401.04266v1 )

ライセンス: Link先を確認
Shourav B. Rabbani, Ivan V. Medri, and Manar D. Samad(参考訳) 画像とテキストの学習における画期的な成功にもかかわらず、ディープラーニングは表データに関して従来の機械学習(ML)に対して大きな改善を達成していない。 このパフォーマンスギャップは、データ中心の処理と学習アルゴリズムのベンチマークの必要性の根底にある。 近年,コンピュータビジョンと自然言語処理パラダイムに注目と対比学習のブレークスルーがシフトしている。 しかし、これらの高度な深層モデルが表層データに与える影響は、非常に大きなサンプルサイズを持つ少数のデータセットを用いてわずかに研究され、限られたベースラインに対するベンチマーク後の混合結果を報告している。 表データ集合と文学における選択的ベースラインの不均一性は、ベンチマーク結果にバイアスを与える可能性がある。 本稿は,従来の深層学習と機械学習に対する28の表型データセット(簡単な14と分類が難しい14)の幅広い選択において,最先端の注意と対比学習手法を広範囲に評価する。 データ中心のベンチマークでは、すべての表型データセットに対して最適な学習方法が存在しないため、従来のmlがディープラーニングよりも好まれる場合が示されています。 サンプル間と機能間の注意を組み合わせることで、表形式のデータセット上の無敵のMLをかなりのマージンで征服するが、高次元のデータでは失敗する。 ハイブリット・アテンション・コントラストの学習戦略は、主に分類が難しいデータセットに勝るが、従来の手法は、決定境界がより単純なデータセットよりも優れていることが多い。 我々の知る限りでは、この分野のさらなる進歩を促進するために、従来の深層学習ベースラインに対する表形式のデータセットの多様な選択に対して、注目度と対照的な学習性能を統計的に分析した初めてのベンチマーク論文である。

Despite groundbreaking success in image and text learning, deep learning has not achieved significant improvements against traditional machine learning (ML) when it comes to tabular data. This performance gap underscores the need for data-centric treatment and benchmarking of learning algorithms. Recently, attention and contrastive learning breakthroughs have shifted computer vision and natural language processing paradigms. However, the effectiveness of these advanced deep models on tabular data is sparsely studied using a few data sets with very large sample sizes, reporting mixed findings after benchmarking against a limited number of baselines. We argue that the heterogeneity of tabular data sets and selective baselines in the literature can bias the benchmarking outcomes. This article extensively evaluates state-of-the-art attention and contrastive learning methods on a wide selection of 28 tabular data sets (14 easy and 14 hard-to-classify) against traditional deep and machine learning. Our data-centric benchmarking demonstrates when traditional ML is preferred over deep learning and vice versa because no best learning method exists for all tabular data sets. Combining between-sample and between-feature attentions conquers the invincible traditional ML on tabular data sets by a significant margin but fails on high dimensional data, where contrastive learning takes a robust lead. While a hybrid attention-contrastive learning strategy mostly wins on hard-to-classify data sets, traditional methods are frequently superior on easy-to-classify data sets with presumably simpler decision boundaries. To the best of our knowledge, this is the first benchmarking paper with statistical analyses of attention and contrastive learning performances on a diverse selection of tabular data sets against traditional deep and machine learning baselines to facilitate further advances in this field.
翻訳日:2024-01-10 18:24:00 公開日:2024-01-08
# MARG:科学論文のマルチエージェントレビュー生成

MARG: Multi-Agent Review Generation for Scientific Papers ( http://arxiv.org/abs/2401.04259v1 )

ライセンス: Link先を確認
Mike D'Arcy, Tom Hope, Larry Birnbaum, Doug Downey(参考訳) 我々は,科学論文のフィードバックを生成するLLMの能力について検討し,内部議論に携わる複数のLLMインスタンスを用いたフィードバック生成手法であるMARGを開発した。 エージェント間で紙のテキストを配布することにより、MARGは、ベースLSMの入力長制限を超えて論文の全文を消費し、エージェントを専門化し、異なるコメントタイプ(実験、明確性、影響)に合わせて調整されたサブタスクを組み込むことで、フィードバックの有用性と特異性を改善することができる。 ユーザスタディでは、GPT-4を用いたベースラインメソッドは、ジェネリックあるいは非常にジェネリックなコメントを半分以上生成するものとして評価され、1紙あたりのコメントは1.7に過ぎなかった。 本システムでは, GPT-4による具体的なフィードバック生成能力を大幅に向上させ, 一般的なコメントの率を60%から29%に削減し, 紙あたり3.7の良質なコメントを生成する(2.2倍)。

We study the ability of LLMs to generate feedback for scientific papers and develop MARG, a feedback generation approach using multiple LLM instances that engage in internal discussion. By distributing paper text across agents, MARG can consume the full text of papers beyond the input length limitations of the base LLM, and by specializing agents and incorporating sub-tasks tailored to different comment types (experiments, clarity, impact) it improves the helpfulness and specificity of feedback. In a user study, baseline methods using GPT-4 were rated as producing generic or very generic comments more than half the time, and only 1.7 comments per paper were rated as good overall in the best baseline. Our system substantially improves the ability of GPT-4 to generate specific and helpful feedback, reducing the rate of generic comments from 60% to 29% and generating 3.7 good comments per paper (a 2.2x improvement).
翻訳日:2024-01-10 18:23:30 公開日:2024-01-08
# 隠れ融合モデルによる顔合成の検出

Detecting Face Synthesis Using a Concealed Fusion Model ( http://arxiv.org/abs/2401.04257v1 )

ライセンス: Link先を確認
Roberto Leyva, Victor Sanchez, Gregory Epiphaniou, Carsten Maple(参考訳) 顔画像合成は、偽バイオメトリックスなど、潜在的なネガティブな影響に対する懸念から、コンピュータセキュリティにおいて注目を集めている。 したがって、合成顔画像を検出するモデルを構築することは、取り組むべき重要な課題である。 本稿では,複数の攻撃に対して回復力を提供しながら,顔画像の合成を検出する融合方式を提案する。 提案手法は, ランダムな多項式係数と指数に頼り, 新たな特徴空間を隠蔽することで, いくつかの未開示モデルによって計算された出力の後期融合を利用する。 既存の隠蔽ソリューションとは異なり、当社の戦略は量子化を必要とせず、特徴空間の保存に役立ちます。 実験の結果,我々の戦略は,中毒,摂動,バックドア,逆モデル攻撃に対する防御を提供しながら,最先端のパフォーマンスを達成することがわかった。

Face image synthesis is gaining more attention in computer security due to concerns about its potential negative impacts, including those related to fake biometrics. Hence, building models that can detect the synthesized face images is an important challenge to tackle. In this paper, we propose a fusion-based strategy to detect face image synthesis while providing resiliency to several attacks. The proposed strategy uses a late fusion of the outputs computed by several undisclosed models by relying on random polynomial coefficients and exponents to conceal a new feature space. Unlike existing concealing solutions, our strategy requires no quantization, which helps to preserve the feature space. Our experiments reveal that our strategy achieves state-of-the-art performance while providing protection against poisoning, perturbation, backdoor, and reverse model attacks.
翻訳日:2024-01-10 18:23:10 公開日:2024-01-08
# グラフ機械学習におけるトポロジカルデータ解析のパワーについて

Explaining the Power of Topological Data Analysis in Graph Machine Learning ( http://arxiv.org/abs/2401.04250v1 )

ライセンス: Link先を確認
Funmilola Mary Taiwo, Umar Islambekov, Cuneyt Gurcan Akcora(参考訳) トポロジカルデータ分析(TDA)は、データ内の複雑な形状や構造をキャプチャする能力を研究者によって称賛されている。 TDAはノイズや高次元データセットを扱う上で堅牢であると考えられており、その解釈可能性はモデル行動の直感的な理解を促進すると考えられている。 しかしながら、TDAのパワーと有用性に関する主張は、TDAベースのモデルがグラフニューラルネットワークのような他のグラフ機械学習アプローチと比較されるアプリケーション領域でのみ部分的にテストされている。 我々は,総合的な実験を通じて,tdaの主張を慎重に検証し,そのメリットを検証する。 以上の結果から,TDAの外れ値に対する頑健性とその解釈可能性は,支持者の主張と一致した。 しかし,本実験では,TDAが既存手法の予測能力を大幅に向上させるには至らず,計算コストの大幅な増大が期待できる。 本稿では,TDA計算の計算コストを軽減するため,小径および高クラスタリング係数などのグラフ特性に関連する現象について検討する。 我々の結果は、グラフ機械学習タスクにTDAを統合するための貴重な視点を提供する。

Topological Data Analysis (TDA) has been praised by researchers for its ability to capture intricate shapes and structures within data. TDA is considered robust in handling noisy and high-dimensional datasets, and its interpretability is believed to promote an intuitive understanding of model behavior. However, claims regarding the power and usefulness of TDA have only been partially tested in application domains where TDA-based models are compared to other graph machine learning approaches, such as graph neural networks. We meticulously test claims on TDA through a comprehensive set of experiments and validate their merits. Our results affirm TDA's robustness against outliers and its interpretability, aligning with proponents' arguments. However, we find that TDA does not significantly enhance the predictive power of existing methods in our specific experiments, while incurring significant computational costs. We investigate phenomena related to graph characteristics, such as small diameters and high clustering coefficients, to mitigate the computational expenses of TDA computations. Our results offer valuable perspectives on integrating TDA into graph machine learning tasks.
翻訳日:2024-01-10 18:22:56 公開日:2024-01-08
# 安定拡散を用いたロバスト画像透かし

Robust Image Watermarking using Stable Diffusion ( http://arxiv.org/abs/2401.04247v1 )

ライセンス: Link先を確認
Lijun Zhang, Xiao Liu, Antoni Viros Martin, Cindy Xiong Bearfield, Yuriy Brun, Hui Guan(参考訳) ウォーターマーク画像は、画像の出所を追跡し、所有権を主張するために重要である。 安定した拡散のような生成モデルが出現し、フェイクだが現実的なイメージを生成できるようになると、ウォーターマーキングは特に重要になり、例えば、生成された画像が確実に識別できるようになる。 残念ながら、非常に安定した拡散技術は既存の方法で注入された透かしを除去することができる。 本研究では,事前学習した安定拡散モデルを用いて学習可能な潜在空間に透かしを注入し,攻撃された場合でも潜在ベクトル内で確実に検出可能な透かしを生成するzodiacを提案する。 我々は, ms-coco, diffusiondb, wikiartの3つのベンチマークでzodiacを評価し, 最新のウォーターマーク攻撃に対してzodiacは堅牢であり, ウォーターマーク検出率は98%以上であり, 偽陽性率は6.4%以下であることを確認した。 本研究では,安定拡散は堅牢な透かしへの有望なアプローチであり,安定拡散に基づく攻撃にも耐えられることを示す。

Watermarking images is critical for tracking image provenance and claiming ownership. With the advent of generative models, such as stable diffusion, able to create fake but realistic images, watermarking has become particularly important, e.g., to make generated images reliably identifiable. Unfortunately, the very same stable diffusion technology can remove watermarks injected using existing methods. To address this problem, we present a ZoDiac, which uses a pre-trained stable diffusion model to inject a watermark into the trainable latent space, resulting in watermarks that can be reliably detected in the latent vector, even when attacked. We evaluate ZoDiac on three benchmarks, MS-COCO, DiffusionDB, and WikiArt, and find that ZoDiac is robust against state-of-the-art watermark attacks, with a watermark detection rate over 98% and a false positive rate below 6.4%, outperforming state-of-the-art watermarking methods. Our research demonstrates that stable diffusion is a promising approach to robust watermarking, able to withstand even stable-diffusion-based attacks.
翻訳日:2024-01-10 18:22:38 公開日:2024-01-08
# スケーラブルな正規化フローによるマクロ分子のボルツマン生成

Scalable Normalizing Flows Enable Boltzmann Generators for Macromolecules ( http://arxiv.org/abs/2401.04246v1 )

ライセンス: Link先を確認
Joseph C. Kim, David Bloore, Karan Kapoor, Jun Feng, Ming-Hong Hao, Mengdi Wang(参考訳) タンパク質のボルツマン分布は、その全ての機能状態へのロードマップを提供する。 正規化フローは、この分布をモデル化するための有望なツールであるが、現在の手法は典型的な薬理学的な対象に対して難解であり、それらはシステムのサイズ、分子内ポテンシャルエネルギーの不均一性、長距離相互作用によって計算的に難解になる。 そこで本研究では,スプリットチャネルを応用し,内部座標で定義されたタンパク質のコンフォメーション分布を効率的に学習するための新しいフローアーキテクチャを提案する。 2-wasserstein損失を利用することで,最大確率トレーニングからエネルギーベーストレーニングへの移行を円滑に行うことができ,マクロ分子に対するボルツマンジェネレータのトレーニングが可能となる。 ビリンヘッドピースHP35(nle-nle),35-residueサブドメイン,56-residueタンパク質Gのモデルとトレーニング戦略について検討した。 我々は,新しいアーキテクチャと多段階のトレーニング戦略がタンパク質gとhp35のコンフォメーション分布をモデル化できるのに対し,標準アーキテクチャとトレーニング戦略,例えば最大可能性単独では失敗することを実証する。

The Boltzmann distribution of a protein provides a roadmap to all of its functional states. Normalizing flows are a promising tool for modeling this distribution, but current methods are intractable for typical pharmacological targets; they become computationally intractable due to the size of the system, heterogeneity of intra-molecular potential energy, and long-range interactions. To remedy these issues, we present a novel flow architecture that utilizes split channels and gated attention to efficiently learn the conformational distribution of proteins defined by internal coordinates. We show that by utilizing a 2-Wasserstein loss, one can smooth the transition from maximum likelihood training to energy-based training, enabling the training of Boltzmann Generators for macromolecules. We evaluate our model and training strategy on villin headpiece HP35(nle-nle), a 35-residue subdomain, and protein G, a 56-residue protein. We demonstrate that standard architectures and training strategies, such as maximum likelihood alone, fail while our novel architecture and multi-stage training strategy are able to model the conformational distributions of protein G and HP35.
翻訳日:2024-01-10 18:22:16 公開日:2024-01-08
# 時空間乱流緩和 : 翻訳的視点

Spatio-Temporal Turbulence Mitigation: A Translational Perspective ( http://arxiv.org/abs/2401.04244v1 )

ライセンス: Link先を確認
Xingguang Zhang, Nicholas Chimitt, Yiheng Chi, Zhiyuan Mao, Stanley H. Chan(参考訳) 大気乱流によって歪んだ画像の復元は、乱流の確率的性質による逆問題である。 多数の乱流緩和(tm)アルゴリズムが提案されているが、その効率性と実世界の動的シナリオへの一般化は依然として厳しく制限されている。 従来のTMアルゴリズムの直感に基づいて,DATUM(Deep Atmospheric TUrbulence Mitigation Network)を提案する。 DATUMは、古典的なアプローチからディープラーニングアプローチに移行する際の大きな課題を克服することを目指している。 従来のマルチフレームtm法の利点を慎重に深層ネットワーク構造に組み込むことにより,datumは再帰的手法を用いて長距離のテンポラリアグリゲーションを効率的に行うことができ,かつ,変形可能な注意と時間チャネルの注意が画素登録とラッキーイメージングをシームレスに促進できることを示す。 さらなる監督により、傾きとぼやけた劣化を共同で緩和することができる。 これらの誘導バイアスにより、DATUMは処理速度を10倍に向上させながら、既存の手法を大幅に上回る。 大規模なトレーニングデータセットであるATSynは、実際の乱流における一般化を可能にする共発明として提示される。 私たちのコードとデータセットは、 \href{https://xg416.github.io/DATUM}{\textcolor{pink}{https://xg416.github.io/DATUM}}で公開されます。

Recovering images distorted by atmospheric turbulence is a challenging inverse problem due to the stochastic nature of turbulence. Although numerous turbulence mitigation (TM) algorithms have been proposed, their efficiency and generalization to real-world dynamic scenarios remain severely limited. Building upon the intuitions of classical TM algorithms, we present the Deep Atmospheric TUrbulence Mitigation network (DATUM). DATUM aims to overcome major challenges when transitioning from classical to deep learning approaches. By carefully integrating the merits of classical multi-frame TM methods into a deep network structure, we demonstrate that DATUM can efficiently perform long-range temporal aggregation using a recurrent fashion, while deformable attention and temporal-channel attention seamlessly facilitate pixel registration and lucky imaging. With additional supervision, tilt and blur degradation can be jointly mitigated. These inductive biases empower DATUM to significantly outperform existing methods while delivering a tenfold increase in processing speed. A large-scale training dataset, ATSyn, is presented as a co-invention to enable generalization in real turbulence. Our code and datasets will be available at \href{https://xg416.github.io/DATUM}{\textcolor{pink}{https://xg416.github.io/DATUM}}
翻訳日:2024-01-10 18:21:55 公開日:2024-01-08
# ベイジアンCNNを用いたデータ非依存顔画像合成検出

Data-Agnostic Face Image Synthesis Detection Using Bayesian CNNs ( http://arxiv.org/abs/2401.04241v1 )

ライセンス: Link先を確認
Roberto Leyva, Victor Sanchez, Gregory Epiphaniou, Carsten Maple(参考訳) 顔画像合成検出は、この種の合成データが社会にもたらす潜在的なネガティブな影響により、注目を集めている。 本稿では,顔画像合成プロセスを検出するためのデータ非依存な手法を提案する。 特に、このソリューションは、推論プロセスを学ぶために実際のデータのみを必要とする異常検出フレームワークに基づいています。 したがって、合成顔画像を必要としないという意味ではデータ非依存である。 この解は、参照データに対する後方確率を用いて、新しいサンプルが合成であるか否かを判定する。 異なるシンセサイザーを用いた評価結果から,トレーニングに合成データを必要とする最先端技術と非常に競合することがわかった。

Face image synthesis detection is considerably gaining attention because of the potential negative impact on society that this type of synthetic data brings. In this paper, we propose a data-agnostic solution to detect the face image synthesis process. Specifically, our solution is based on an anomaly detection framework that requires only real data to learn the inference process. It is therefore data-agnostic in the sense that it requires no synthetic face images. The solution uses the posterior probability with respect to the reference data to determine if new samples are synthetic or not. Our evaluation results using different synthesizers show that our solution is very competitive against the state-of-the-art, which requires synthetic data for training.
翻訳日:2024-01-10 18:21:31 公開日:2024-01-08
# 最適化解法の自動構成のための学習型数学的プログラミング定式化

A learning-based mathematical programming formulation for the automatic configuration of optimization solvers ( http://arxiv.org/abs/2401.04237v1 )

ライセンス: Link先を確認
Gabriele Iommazzo, Claudia D'Ambrosio, Antonio Frangioni, Leo Liberti(参考訳) 本稿では,機械学習と最適化に基づいて,あるインスタンスのソルバ構成を選択する手法を提案する。 まず、解決したインスタンスと構成の集合を用いて、解決者の性能関数を学習する。 次に,学習対象/制約が学習情報を明示的に符号化する混合整数非線形プログラムを定式化し,未知のインスタンスが到着すると,そのインスタンスに最適な解器構成を求める。 我々のアプローチの主な目新しさは、構成集合探索問題は数学的プログラムとして定式化されているという事実である。 a) 構成に対するハード依存及び互換性の制約を強制すること b)オフザシェルフ最適化ツールで効率よく解決する。

We propose a methodology, based on machine learning and optimization, for selecting a solver configuration for a given instance. First, we employ a set of solved instances and configurations in order to learn a performance function of the solver. Secondly, we formulate a mixed-integer nonlinear program where the objective/constraints explicitly encode the learnt information, and which we solve, upon the arrival of an unknown instance, to find the best solver configuration for that instance, based on the performance function. The main novelty of our approach lies in the fact that the configuration set search problem is formulated as a mathematical program, which allows us to a) enforce hard dependence and compatibility constraints on the configurations, and b) solve it efficiently with off-the-shelf optimization tools.
翻訳日:2024-01-10 18:21:21 公開日:2024-01-08
# 検索可能な音声テキスト埋め込みによる高精度音声検索クエリの補正

High-precision Voice Search Query Correction via Retrievable Speech-text Embedings ( http://arxiv.org/abs/2401.04235v1 )

ライセンス: Link先を確認
Christopher Li, Gary Wang, Kyle Kastner, Heng Su, Allen Chen, Andrew Rosenberg, Zhehuai Chen, Zelin Wu, Leonid Velikovich, Pat Rondon, Diamantino Caseiro, Petar Aleksic(参考訳) 自動音声認識(asr)システムは、ノイズオーディオや十分なトレーニングデータの欠如など、さまざまな理由でリコールが不十分な場合がある。 以前の研究は、asr仮説テキストの埋め込みを探索し、修正と修正候補を探索することで、仮説テキストの、おそらくコンテキスト的に関連する、大きなデータベースからリライト候補を検索することで、リコールを改善することができることを示した。 しかし、ASR-hypothesisに基づく検索は、テキスト仮説が転写真理と音声的に相違しすぎる場合、精度が劣る可能性がある。 本稿では、発話音声から直接埋め込みを用いて修正データベースをクエリすることで、仮説音声のミスマッチ問題を解消し、発話音声の埋め込みとそれに対応するテキストテキストの埋め込みを近接させるように訓練されたマルチモーダル音声テキスト埋め込みネットワークにより、発話音声と候補訂正の埋め込みを生成する。 最寄りの探索を用いて適切な修正候補を探索した後, 候補をn-bestリストに追加する前に, 音声テキストの埋め込み距離で評価する。 一般発話においてWERを増大させることなく,文章が候補集合に現れる発話に対して,相対単語誤り率(WER)を6%削減することを示す。

Automatic speech recognition (ASR) systems can suffer from poor recall for various reasons, such as noisy audio, lack of sufficient training data, etc. Previous work has shown that recall can be improved by retrieving rewrite candidates from a large database of likely, contextually-relevant alternatives to the hypothesis text using nearest-neighbors search over embeddings of the ASR hypothesis text to correct and candidate corrections. However, ASR-hypothesis-based retrieval can yield poor precision if the textual hypotheses are too phonetically dissimilar to the transcript truth. In this paper, we eliminate the hypothesis-audio mismatch problem by querying the correction database directly using embeddings derived from the utterance audio; the embeddings of the utterance audio and candidate corrections are produced by multimodal speech-text embedding networks trained to place the embedding of the audio of an utterance and the embedding of its corresponding textual transcript close together. After locating an appropriate correction candidate using nearest-neighbor search, we score the candidate with its speech-text embedding distance before adding the candidate to the original n-best list. We show a relative word error rate (WER) reduction of 6% on utterances whose transcripts appear in the candidate set, without increasing WER on general utterances.
翻訳日:2024-01-10 18:21:09 公開日:2024-01-08
# S-FABLEとLS-FABLE:非構造スパース行列に対する高速近似ブロック符号化アルゴリズム

S-FABLE and LS-FABLE: Fast approximate block-encoding algorithms for unstructured sparse matrices ( http://arxiv.org/abs/2401.04234v1 )

ライセンス: Link先を確認
Parker Kuklinski, Benjamin Rempfer(参考訳) Fast Approximate BLock-Encoding algorithm (FABLE) は、任意の$N\times N$高密度行列を最大$O(N^2)$1と2キュービットゲートと$\mathcal{O}(N^2\log{N})$古典演算を用いて量子回路にブロックエンコードする手法である。 この方法は、行列$A$をブロック符号化回路内の$y$回転ゲートのシーケンスで実装される角度の集合に非自明に変換する。 角度がしきい値以下であれば、その対応する回転ゲートを符号化の精度に悪影響を及ぼすことなく除去することができる。 理想的には、これらの回転ゲートの多くは、量子リソースが最小化されるようなブロックエンコーディングの精度のために、少ないコストで排除できる。 本稿では, スパース行列を効率的にエンコードするFABLEの2つの修正について述べる; 最初の方法 Sparse-FABLE (S-FABLE) において, 一般的な非構造スパース行列に対して$A$ を用いて, アンダマール共役行列 $H^{\otimes n}AH^{\otimes n}$ ($\mathcal{O}(N^2\log N)$ 古典演算で計算) をエンコードし, 結果として回路をそれぞれの側で$n$ 余分なアダマールゲートで共役し, ブロック近似を$A$に戻す。 ブロックエンコードする $h^{\otimes n}ah^{\otimes n}$ に対応するfable回路は著しく圧縮され、全体的なスケーリングは経験的に有利である(すなわち、$\mathcal{o}(n)$ のスパース行列をブロックエンコードするのに s-fable を使うことは、約 $\mathcal{o}(n)$ 回転ゲートと $\mathcal{o}(n\log n)$ cnot ゲートが必要である)。 lazy' sparse-fable (ls-fable) と呼ばれる第二のメソッドでは、s-fable oracle の回転ゲートに sparse matrix $a$ のスケールされたエントリを直接実装することで、二次古典的オーバーヘッドを完全に排除する。 これにより、S-FABLEよりも少し精度の低いブロックエンコーディングが実現される一方で、S-FABLEと同様のスケールがFABLEに向いている。

The Fast Approximate BLock-Encoding algorithm (FABLE) is a technique to block-encode arbitrary $N\times N$ dense matrices into quantum circuits using at most $O(N^2)$ one and two-qubit gates and $\mathcal{O}(N^2\log{N})$ classical operations. The method nontrivially transforms a matrix $A$ into a collection of angles to be implemented in a sequence of $y$-rotation gates within the block-encoding circuit. If an angle falls below a threshold value, its corresponding rotation gate may be eliminated without significantly impacting the accuracy of the encoding. Ideally many of these rotation gates may be eliminated at little cost to the accuracy of the block-encoding such that quantum resources are minimized. In this paper we describe two modifications of FABLE to efficiently encode sparse matrices; in the first method termed Sparse-FABLE (S-FABLE), for a generic unstructured sparse matrix $A$ we use FABLE to block encode the Hadamard-conjugated matrix $H^{\otimes n}AH^{\otimes n}$ (computed with $\mathcal{O}(N^2\log N)$ classical operations) and conjugate the resulting circuit with $n$ extra Hadamard gates on each side to reclaim a block-approximation to $A$. We demonstrate that the FABLE circuits corresponding to block-encoding $H^{\otimes n}AH^{\otimes n}$ significantly compress and that overall scaling is empirically favorable (i.e. using S-FABLE to block-encode a sparse matrix with $\mathcal{O}(N)$ nonzero entries requires approximately $\mathcal{O}(N)$ rotation gates and $\mathcal{O}(N\log N)$ CNOT gates). In the second method called `Lazy' Sparse-FABLE (LS-FABLE), we eliminate the quadratic classical overhead altogether by directly implementing scaled entries of the sparse matrix $A$ in the rotation gates of the S-FABLE oracle. This leads to a slightly less accurate block-encoding than S-FABLE, while still demonstrating favorable scaling to FABLE similar to that found in S-FABLE.
翻訳日:2024-01-10 18:20:44 公開日:2024-01-08
# app storeとは何か? ソフトウェア工学の視点

What Is an App Store? The Software Engineering Perspective ( http://arxiv.org/abs/2401.04287v1 )

ライセンス: Link先を確認
Wenhan Zhu, Sebastian Proksch, Daniel M. German, Michael W. Godfrey, Li Li and Shane McIntosh(参考訳) アプリケーションストア」とは、エンドユーザーがソフトウェアアプリケーションを閲覧、購入、ダウンロード、インストールできるオンラインソフトウェアストアである。 今のところ、最もよく知られているアプリストアは、Google Play for AndroidやAppleのApp Store for iOSなど、モバイルプラットフォームに関連付けられている。 スマートフォンのユビキタス化によって、モバイルアプリストアは現代の生活の原動力となった。 しかし、アプリストアの研究のほとんどは、ストア自体よりもアプリの特性に重点を置いている。 アプリストアは、多くの独特なプラットフォームに存在し、異なる種類のユーザーをターゲットにしており、スマートフォンユーザーにスタンドアローンのアプリを売る以上の、異なるエンドゴールを持っている。 われわれは,アプリストアの幅広い次元を調査し,システム設計やリリース管理といったソフトウェア開発プラクティスにどのような影響を与えるのかを考察する。 まず、Web検索クエリからアプリストアの例を集めてみます。 結果の分析とキュレーションにより、アプリストアに共通する一連の機能を導出します。 そして、これらの機能に基づいてアプリストアの次元モデルを構築し、このモデルに設定したWeb検索結果から各アプリストアを適合させます。 次に,教師なしのクラスタリングをapp storeに実施して,自然なグループ化について検討した。 その結果,現代のソフトウェア開発において,アプリストアが重要なステークホルダーになっていることが示唆された。 彼らはエンドユーザへの配布チャネルをコントロールし、アプリケーションが適切な品質であることを保証する。 しかし、アプリストアの運用モデルは店によって大きく異なる可能性があり、この変動は、既存のアプリストアの理解の一般化に影響を及ぼす可能性がある。

"App stores" are online software stores where end users may browse, purchase, download, and install software applications. By far, the best known app stores are associated with mobile platforms, such as Google Play for Android and Apple's App Store for iOS. The ubiquity of smartphones has led to mobile app stores becoming a touchstone experience of modern living. However, most of app store research has concentrated on properties of the apps rather than the stores themselves. Today, there is a rich diversity of app stores and these stores have largely been overlooked by researchers: app stores exist on many distinctive platforms, are aimed at different classes of users, and have different end-goals beyond simply selling a standalone app to a smartphone user. We survey and characterize the broader dimensionality of app stores, and explore how and why they influence software development practices, such as system design and release management. We begin by collecting a set of app store examples from web search queries. By analyzing and curating the results, we derive a set of features common to app stores. We then build a dimensional model of app stores based on these features, and we fit each app store from our web search result set into this model. Next, we performed unsupervised clustering to the app stores to find their natural groupings. Our results suggest that app stores have become an essential stakeholder in modern software development. They control the distribution channel to end users and ensure that the applications are of suitable quality; in turn, this leads to developers adhering to various store guidelines when creating their applications. However, we found the app stores operational model could vary widely between stores, and this variability could in turn affect the generalizability of existing understanding of app stores.
翻訳日:2024-01-10 17:13:58 公開日:2024-01-08
# Kolmogorov-Donoho 最適関数クラスに対するワイドおよびディープReLUニューラルネットワークの普遍一貫性と最小収束率

Universal Consistency of Wide and Deep ReLU Neural Networks and Minimax Optimal Convergence Rates for Kolmogorov-Donoho Optimal Function Classes ( http://arxiv.org/abs/2401.04286v1 )

ライセンス: Link先を確認
Hyunouk Ko and Xiaoming Huo(参考訳) 本稿では,まずfl93の結果を拡張し,ロジスティック損失を訓練した広大かつ深いreluニューラルネットワークに基づく分類規則の普遍的一貫性を証明する。 推定と経験的誤差を分解するfl93のアプローチとは異なり、十分な広さを持つニューラルネットワークの実現によって任意の数の点を補間できるという観測に基づいて、分類リスクを直接分析する。 第二に、ニューラルネットワークに基づく分類器が収束の最小値を達成する確率尺度のクラスに対して十分な条件を与える。 その結果,提案するニューラルネットワーク分類器の場合,ニューラルネットワークは0のトレーニングエラーを達成するために訓練されることが多かった。 この証明は,最近の経験的リスク最小化の進展と,様々な関心関数クラスに対する深層reluニューラルネットワークの近似率にかかっている。 滑らかな古典関数空間への応用は、我々の結果の有用性を示している。

In this paper, we first extend the result of FL93 and prove universal consistency for a classification rule based on wide and deep ReLU neural networks trained on the logistic loss. Unlike the approach in FL93 that decomposes the estimation and empirical error, we directly analyze the classification risk based on the observation that a realization of a neural network that is wide enough is capable of interpolating an arbitrary number of points. Secondly, we give sufficient conditions for a class of probability measures under which classifiers based on neural networks achieve minimax optimal rates of convergence. Our result is motivated from the practitioner's observation that neural networks are often trained to achieve 0 training error, which is the case for our proposed neural network classifiers. Our proofs hinge on recent developments in empirical risk minimization and on approximation rates of deep ReLU neural networks for various function classes of interest. Applications to classical function spaces of smoothness illustrate the usefulness of our result.
翻訳日:2024-01-10 17:13:33 公開日:2024-01-08
# 動的最適化と縮小ヒストグラムを用いた高速グラフ探索アルゴリズムによる二項分類問題の判別

A Fast Graph Search Algorithm with Dynamic Optimization and Reduced Histogram for Discrimination of Binary Classification Problem ( http://arxiv.org/abs/2401.04282v1 )

ライセンス: Link先を確認
Qinwu Xu(参考訳) 本研究では,二分分類問題に対する最適識別経路を求めるグラフ探索アルゴリズムを開発した。 目的関数は真正(TP)と偽正(FP)の違いとして定義される。 depth first search (dfs)アルゴリズムを使用して、識別のためのトップダウンパスを見つける。 上層部におけるTP最適化と下層部におけるFP低減のための動的最適化手法を提案する。 精度を向上して計算速度を高速化するため,すべてのデータポイントをループする代わりに,可変ビンサイズのヒストグラムアルゴリズムを提案し,識別の特徴しきい値を求める。 このアルゴリズムは、人が適合するか不適合であるかという二分分類問題に対するサポートベクターマシン(svm)モデルの上に適用される。 TPを大幅に改善し、SVMの結果のFPを減少させる(例えば、FPを90%削減し、わずか5%のTPを失う)。 グラフ検索は、合計328,464個のオブジェクトの入力から9秒以内に2.59ghzのプロセッサを搭載したデュアルコアラップトップコンピュータを使用して識別パスを自動生成する。

This study develops a graph search algorithm to find the optimal discrimination path for the binary classification problem. The objective function is defined as the difference of variations between the true positive (TP) and false positive (FP). It uses the depth first search (DFS) algorithm to find the top-down paths for discrimination. It proposes a dynamic optimization procedure to optimize TP at the upper levels and then reduce FP at the lower levels. To accelerate computing speed with improving accuracy, it proposes a reduced histogram algorithm with variable bin size instead of looping over all data points, to find the feature threshold of discrimination. The algorithm is applied on top of a Support Vector Machine (SVM) model for a binary classification problem on whether a person is fit or unfit. It significantly improves TP and reduces FP of the SVM results (e.g., reduced FP by 90% with a loss of only\ 5% TP). The graph search auto-generates 39 ranked discrimination paths within 9 seconds on an input of total 328,464 objects, using a dual-core Laptop computer with a processor of 2.59 GHz.
翻訳日:2024-01-10 17:13:17 公開日:2024-01-08
# 低侵襲手術ビデオにおける弱半教師付きツール検出

Weakly Semi-supervised Tool Detection in Minimally Invasive Surgery Videos ( http://arxiv.org/abs/2401.02791v2 )

ライセンス: Link先を確認
Ryo Fujii and Ryo Hachiuma and Hideo Saito(参考訳) 外科的ツール検出は、最小侵襲の手術ビデオの分析と評価に不可欠である。 現在のアプローチは、主に大きなインスタンスレベルのラベル(すなわちバウンディングボックス)を必要とする教師付きメソッドに基づいている。 しかし、アノテーションの負担のため、インスタンスレベルのラベルを持つ大きな画像データセットは制限されることが多い。 したがって、画像レベルのアノテーションはインスタンスレベルのアノテーションよりもはるかに時間効率がよいため、インスタンスレベルのラベルの代わりに画像レベルのラベルを提供する場合、手術用ツールの検出が重要である。 本研究では,非常にコストのかかるアノテーション負荷と検出性能のバランスをとることを提案する。 さらに,画像レベルのラベルを活用するために,複数のツールペアが画像内で共起する特性を考慮した共起損失を提案する。 共起損失を用いた共起知識のカプセル化は、いくつかのツールが類似した形状やテクスチャを持っているという事実から生じる分類の難しさを克服するのに役立つ。 各種データ設定におけるEndovis2018データセットの大規模な実験により,本手法の有効性が示された。

Surgical tool detection is essential for analyzing and evaluating minimally invasive surgery videos. Current approaches are mostly based on supervised methods that require large, fully instance-level labels (i.e., bounding boxes). However, large image datasets with instance-level labels are often limited because of the burden of annotation. Thus, surgical tool detection is important when providing image-level labels instead of instance-level labels since image-level annotations are considerably more time-efficient than instance-level annotations. In this work, we propose to strike a balance between the extremely costly annotation burden and detection performance. We further propose a co-occurrence loss, which considers a characteristic that some tool pairs often co-occur together in an image to leverage image-level labels. Encapsulating the knowledge of co-occurrence using the co-occurrence loss helps to overcome the difficulty in classification that originates from the fact that some tools have similar shapes and textures. Extensive experiments conducted on the Endovis2018 dataset in various data settings show the effectiveness of our method.
翻訳日:2024-01-10 12:57:46 公開日:2024-01-08
# 深部ニューラルネットワークのリプシッツ定数推定のための弦間距離

Chordal Sparsity for Lipschitz Constant Estimation of Deep Neural Networks ( http://arxiv.org/abs/2204.00846v2 )

ライセンス: Link先を確認
Anton Xue, Lars Lindemann, Alexander Robey, Hamed Hassani, George J. Pappas, and Rajeev Alur(参考訳) ニューラルネットワークのリプシッツ定数は、画像分類の堅牢性、コントローラ設計の安全性、トレーニングデータを超えた一般化性を保証する。 リプシッツ定数の計算はNPハードであるため、リプシッツ定数を推定する手法はスケーラビリティと精度のトレードオフをナビゲートする必要がある。 本研究では,LipSDPと呼ばれる半定値プログラミング手法のスケーラビリティフロンティアを大幅に推し進め,精度損失をゼロにする。 まず,LipSDPは弦の間隔が小さいことを示し,このことにより,弦の粗い定式化を導出する。 鍵となる利点は、大きな半定義的な制約であるlipsdpの主な計算ボトルネックが、より小さなものの集合に分解されることだ: ネットワークの深さが大きくなるにつれて、chordal-lipsdpがlipsdpよりも優れる。 さらに,計算コストを増大させることなく,より厳密な推定が可能となる可変スパルシティパラメータを用いる。 我々は,我々のアプローチのスケーラビリティを広範囲な数値実験によって示す。

Lipschitz constants of neural networks allow for guarantees of robustness in image classification, safety in controller design, and generalizability beyond the training data. As calculating Lipschitz constants is NP-hard, techniques for estimating Lipschitz constants must navigate the trade-off between scalability and accuracy. In this work, we significantly push the scalability frontier of a semidefinite programming technique known as LipSDP while achieving zero accuracy loss. We first show that LipSDP has chordal sparsity, which allows us to derive a chordally sparse formulation that we call Chordal-LipSDP. The key benefit is that the main computational bottleneck of LipSDP, a large semidefinite constraint, is now decomposed into an equivalent collection of smaller ones: allowing Chordal-LipSDP to outperform LipSDP particularly as the network depth grows. Moreover, our formulation uses a tunable sparsity parameter that enables one to gain tighter estimates without incurring a significant computational cost. We illustrate the scalability of our approach through extensive numerical experiments.
翻訳日:2024-01-10 00:59:54 公開日:2024-01-08
# 不均衡最適輸送について:勾配法、スパーシティおよび近似誤差

On Unbalanced Optimal Transport: Gradient Methods, Sparsity and Approximation Error ( http://arxiv.org/abs/2202.03618v4 )

ライセンス: Link先を確認
Quang Minh Nguyen, Hoang H. Nguyen, Yi Zhou, Lam M. Nguyen(参考訳) 標準最適輸送(OT)の限界制約は、正規化係数$\tau$でクルバック・リーブラー分散(Kullback-Leibler divergence)を介して緩和される。 Sinkhorn をベースとした UOT ソルバは、文献において ${O}\big(\tfrac{\tau \log(n)}{\varepsilon} \log\big(\tfrac{\log(n)}{{\varepsilon}}\big)\big)$ と per-iteration cost of $O(n^2)$ の反復複雑性でのみ分析されているが、その正に密度の高い出力輸送計画が実用性を強く妨げている。 一方、現代の深層学習アプリケーションにおいて、UOT計算のヒューリスティックスとして広く使われており、疎部OT問題に成功しているにもかかわらず、UOTに適用された勾配法は公式には研究されていない。 本稿では,Gdient Extrapolation Method (GEM-UOT) に基づく新しいアルゴリズムを提案し,UOT問題に対する$\varepsilon$-approximate Solution を$O\big( \kappa \log\big(\frac{\tau n}{\varepsilon}\big) \big)$ iterations with $\widetilde{O}(n^2)$ per-iteration cost, where $\kappa$は2つの入力手段のみに依存する条件数である。 この証明手法は、2乗の$\ell_2$-norm uot 目的の新たな二重定式化に基づくもので、uot と ot の近似誤差の新たなキャラクタリゼーションを導出する。 この目的のために我々はさらに,$\tau$ を微調整した gem-uot に基づいた uot からの ot 検索手法と後処理の投影ステップを提案する。 合成データと実データに関する広範な実験は,理論を検証し,実際の手法の良好な性能を示す。

We study the Unbalanced Optimal Transport (UOT) between two measures of possibly different masses with at most $n$ components, where the marginal constraints of standard Optimal Transport (OT) are relaxed via Kullback-Leibler divergence with regularization factor $\tau$. Although only Sinkhorn-based UOT solvers have been analyzed in the literature with the iteration complexity of ${O}\big(\tfrac{\tau \log(n)}{\varepsilon} \log\big(\tfrac{\log(n)}{{\varepsilon}}\big)\big)$ and per-iteration cost of $O(n^2)$ for achieving the desired error $\varepsilon$, their positively dense output transportation plans strongly hinder the practicality. On the other hand, while being vastly used as heuristics for computing UOT in modern deep learning applications and having shown success in sparse OT problem, gradient methods applied to UOT have not been formally studied. In this paper, we propose a novel algorithm based on Gradient Extrapolation Method (GEM-UOT) to find an $\varepsilon$-approximate solution to the UOT problem in $O\big( \kappa \log\big(\frac{\tau n}{\varepsilon}\big) \big)$ iterations with $\widetilde{O}(n^2)$ per-iteration cost, where $\kappa$ is the condition number depending on only the two input measures. Our proof technique is based on a novel dual formulation of the squared $\ell_2$-norm UOT objective, which fills the lack of sparse UOT literature and also leads to a new characterization of approximation error between UOT and OT. To this end, we further present a novel approach of OT retrieval from UOT, which is based on GEM-UOT with fine tuned $\tau$ and a post-process projection step. Extensive experiments on synthetic and real datasets validate our theories and demonstrate the favorable performance of our methods in practice.
翻訳日:2024-01-10 00:58:51 公開日:2024-01-08
# 2光子球面状態の角分布と偏光相関

Angular distributions and polarization correlations of the two-photon spherical states ( http://arxiv.org/abs/2109.14984v2 )

ライセンス: Link先を確認
Moorad Alexanian and Vanik E. Mkrtchian(参考訳) 我々は、運動量空間におけるランダウの2光子球面状態の質量参照フレームの中心における角偏光特性を詳細に分析した。 J$と$M$の固定値に対する角分布はパリティに依存しないが、相対運動量と量子化軸の間の極角の2つの異なる関数によって定義される。 2光子偏光密度行列は、それぞれ$J$、$M$、$P$の値で導出される。 個々の光子の線形偏光相関を詳細に解析する。 J\geq 2$ の通常の相関法則に加えて、$sin$ と $cos$ はアナライザの向きの間の角度の和、アナライザの向きの角度の和の相関関係である。

We have analyzed in detail the angular polarization properties in the center of mass reference frame of Landau's two-photon spherical states in momentum space. The angular distributions for fixed values of $J$ and $M$ do not depend on the parity but are defined by two different functions of the polar angle between the relative momentum and the quantization axes. The two-photon polarization density matrices are derived for each values of $J$, $M$, and $P$. The linear polarization correlations of individual photons are analyzed in detail. We find, besides the usual correlation laws for $J\geq 2$ in terms of $sin$ and $cos$ of the angle between the orientation of the analyzers, correlations in terms of the sum of the orientation angles of the analyzers.
翻訳日:2024-01-10 00:57:40 公開日:2024-01-08
# InVIGORATE: Clutterにおけるインタラクティブなビジュアルグラウンドとグラッピング

INVIGORATE: Interactive Visual Grounding and Grasping in Clutter ( http://arxiv.org/abs/2108.11092v2 )

ライセンス: Link先を確認
Hanbo Zhang, Yunfan Lu, Cunjun Yu, David Hsu, Xuguang Lan, Nanning Zheng(参考訳) 本稿では,自然言語を介して人間と対話し,特定の物体をクラッターで把握するロボットシステムinvigorateを提案する。 オブジェクトは、互いにブロックしたり、妨害したり、あるいは積み重ねたりすることができる。 活気づけはいくつかの課題を具現化します (i)入力言語表現とrgb画像から他のoccludingオブジェクトの中から対象オブジェクトを推測する。 (ii)画像からオブジェクトブロッキング関係(OBR)を推測し、 (iii)対象オブジェクトを曖昧にしない質問をしたり、それをうまく把握するための多段階計画の合成。 我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。 トレーニングデータセットの対象となる、制限なしのオブジェクトカテゴリと言語表現を許可する。 しかしながら、人間の言語における視覚知覚と曖昧さの誤りは避けられず、ロボットの性能に悪影響を及ぼす。 これらの不確実性を克服するため、我々は学習したニューラルネットワークモジュールを統合する部分可観測マルコフ決定プロセス(pomdp)を構築した。 近似的なPOMDP計画を通じて、ロボットは観測履歴を追跡し、対象物を識別して把握する、ほぼ最適な行動列を達成するために曖昧な質問を行う。 INVIGORATEはモデルベースのPOMDP計画とデータ駆動ディープラーニングの利点を組み合わせる。 InVIGORATEによるFetchロボットの予備実験は、自然言語の相互作用を伴うクラッタにおける物体の把握に対するこの統合的アプローチの大きな利点を示している。 デモビデオはhttps://youtu.be/zYakh80SGcUで公開されている。

This paper presents INVIGORATE, a robot system that interacts with human through natural language and grasps a specified object in clutter. The objects may occlude, obstruct, or even stack on top of one another. INVIGORATE embodies several challenges: (i) infer the target object among other occluding objects, from input language expressions and RGB images, (ii) infer object blocking relationships (OBRs) from the images, and (iii) synthesize a multi-step plan to ask questions that disambiguate the target object and to grasp it successfully. We train separate neural networks for object detection, for visual grounding, for question generation, and for OBR detection and grasping. They allow for unrestricted object categories and language expressions, subject to the training datasets. However, errors in visual perception and ambiguity in human languages are inevitable and negatively impact the robot's performance. To overcome these uncertainties, we build a partially observable Markov decision process (POMDP) that integrates the learned neural network modules. Through approximate POMDP planning, the robot tracks the history of observations and asks disambiguation questions in order to achieve a near-optimal sequence of actions that identify and grasp the target object. INVIGORATE combines the benefits of model-based POMDP planning and data-driven deep learning. Preliminary experiments with INVIGORATE on a Fetch robot show significant benefits of this integrated approach to object grasping in clutter with natural language interactions. A demonstration video is available at https://youtu.be/zYakh80SGcU.
翻訳日:2024-01-10 00:57:26 公開日:2024-01-08
# 緩和を考慮した最適化のリスクの理論とその支援ベクトルマシンへの応用

A Theory of the Risk for Optimization with Relaxation and its Application to Support Vector Machines ( http://arxiv.org/abs/2004.05839v4 )

ライセンス: Link先を確認
Marco C. Campi and Simone Garatti(参考訳) 本稿では,データ駆動設計のパラダイムである緩和による最適化について考察する。 このアプローチは以前、Garatti and Campi (2019)におけるこの研究の著者たちによって、リスク(新しい、アウト・オブ・サンプレット、制約を満たさない確率)と複雑性(Garatti and Campi (2019)で導入された定義による)という2つの概念の深い関係を明らかにする研究である。 この接続は、データ生成メカニズムを知らずにデータから測定できる量である複雑性からリスクを推定できることを暗示しているため、アプリケーションに大きな影響を与えることが示されている。 本研究で新たな成果が得られた。 まず、GarattiとCampi(2019)の範囲を広げて、機械学習のさまざまなアルゴリズムをカバーするより一般的なセットアップを取り入れます。 次に、SVM(Support Vector Machine)、SVR(Support Vector Regression)、SVDD(Support Vector Data Description)などの古典的サポートベクター手法について検討し、これらの手法を一般化するための新たな結果を得る。 すべての結果はデータセットの有限サイズに対して有効である。 サンプルサイズが無限大になる傾向にある場合、リスクが複雑さの値に関係なく、データサンプルの濃度と複雑さの比に近づくという前例のない結果が確立される。

In this paper we consider optimization with relaxation, an ample paradigm to make data-driven designs. This approach was previously considered by the same authors of this work in Garatti and Campi (2019), a study that revealed a deep-seated connection between two concepts: risk (probability of not satisfying a new, out-of-sample, constraint) and complexity (according to a definition introduced in paper Garatti and Campi (2019)). This connection was shown to have profound implications in applications because it implied that the risk can be estimated from the complexity, a quantity that can be measured from the data without any knowledge of the data-generation mechanism. In the present work we establish new results. First, we expand the scope of Garatti and Campi (2019) so as to embrace a more general setup that covers various algorithms in machine learning. Then, we study classical support vector methods - including SVM (Support Vector Machine), SVR (Support Vector Regression) and SVDD (Support Vector Data Description) - and derive new results for the ability of these methods to generalize. All results are valid for any finite size of the data set. When the sample size tends to infinity, we establish the unprecedented result that the risk approaches the ratio between the complexity and the cardinality of the data sample, regardless of the value of the complexity.
翻訳日:2024-01-10 00:56:36 公開日:2024-01-08
# 不完全位相ランダム化による量子鍵分布のセキュリティ

Security of quantum key distribution with imperfect phase randomisation ( http://arxiv.org/abs/2210.08183v3 )

ライセンス: Link先を確認
Guillermo Curr\'as-Lorenzo, Shlok Nahar, Norbert L\"utkenhaus, Kiyoshi Tamaki, Marcos Curty(参考訳) 量子鍵分布(qkd)の性能は光子数分散攻撃により多光子放出によって著しく制限される。 最も効率的な解はデコイ状態法であり、全てのパルスの位相は独立で均一にランダムである。 しかし実際には、これらの位相はしばしば相関しており、特に高速システムではセキュリティの抜け穴が開いている。 ここでは,このプレッシャー問題に対して,理想的なシナリオに近いキーレートを提供する相関位相を持つ解答状態QKDのセキュリティ証明を提供することによって対処する。 我々の研究は、実用的なレーザー源による高性能なセキュアQKDへの道を切り開いており、QKDを超える応用が期待できる。

The performance of quantum key distribution (QKD) is severely limited by multiphoton emissions, due to the photon-number-splitting attack. The most efficient solution, the decoy-state method, requires that the phases of all transmitted pulses are independent and uniformly random. In practice, however, these phases are often correlated, especially in high-speed systems, which opens a security loophole. Here, we address this pressing problem by providing a security proof for decoy-state QKD with correlated phases that offers key rates close to the ideal scenario. Our work paves the way towards high-performance secure QKD with practical laser sources, and may have applications beyond QKD.
翻訳日:2024-01-10 00:52:23 公開日:2024-01-08
# 視覚・生理的手がかりを用いた顎関節のスプーフィングと偽造検出

Benchmarking Joint Face Spoofing and Forgery Detection with Visual and Physiological Cues ( http://arxiv.org/abs/2208.05401v2 )

ライセンス: Link先を確認
Zitong Yu, Rizhao Cai, Zhi Li, Wenhan Yang, Jingang Shi, Alex C. Kot(参考訳) face anti-spoofing (fas) と face forgery detection (face forgery detection) は、プレゼンテーションアタック (pas) や悪質なデジタル操作 (例えばディープフェイク) から顔の生体認証システムを確保する上で重要な役割を果たす。 大規模データと強力な深層モデルの性能は高いが、既存のアプローチの一般化問題は依然として未解決の問題である。 最近のアプローチのほとんどは 1)単調な視覚的外観または生理学的(すなわち、遠隔フォトプレチモグラフィ(rppg))の手がかり 2)fasまたは顔偽造検出のための分離特徴表現。 片面では,高忠実な顔3Dマスクとビデオ再生攻撃に対して,一方向の外観とrPPGの特徴がそれぞれ脆弱であり,汎用的な顔攻撃検出のための信頼性の高いマルチモーダル融合機構を設計する必要がある。 一方、FASと顔偽造検出タスク(例えば、周期的なrPPGリズムやボナファイドのバニラ外観など)に共通する特徴が豊富にあり、複数タスクの学習方法で共同FASと顔偽造検出システムを設計するための確固たる証拠を提供する。 本稿では,視覚的外見と生理的rPPGを用いた第1回顔偽造検出ベンチマークを確立する。 rppgの周期性判定を強化するために,顔面時空間rppg信号マップと連続ウェーブレット変換を入力として,二次元生理ネットワークを設計する。 モーダリティバイアスを緩和し, 核融合効率を向上させるため, マルチモーダル核融合前に, 外観およびrPPGの特徴を加重バッチおよび層正規化する。 この2つのタスクを共同でトレーニングすることで,単目的(外観またはrPPG)モデルとマルチモーダル(外観+rPPG)モデルの一般化能力が明らかに向上できることが判明した。 この新しいベンチマークは、fasとdeepfake検出コミュニティの両方の将来的な研究を促進することを願っている。

Face anti-spoofing (FAS) and face forgery detection play vital roles in securing face biometric systems from presentation attacks (PAs) and vicious digital manipulation (e.g., deepfakes). Despite promising performance upon large-scale data and powerful deep models, the generalization problem of existing approaches is still an open issue. Most of recent approaches focus on 1) unimodal visual appearance or physiological (i.e., remote photoplethysmography (rPPG)) cues; and 2) separated feature representation for FAS or face forgery detection. On one side, unimodal appearance and rPPG features are respectively vulnerable to high-fidelity face 3D mask and video replay attacks, inspiring us to design reliable multi-modal fusion mechanisms for generalized face attack detection. On the other side, there are rich common features across FAS and face forgery detection tasks (e.g., periodic rPPG rhythms and vanilla appearance for bonafides), providing solid evidence to design a joint FAS and face forgery detection system in a multi-task learning fashion. In this paper, we establish the first joint face spoofing and forgery detection benchmark using both visual appearance and physiological rPPG cues. To enhance the rPPG periodicity discrimination, we design a two-branch physiological network using both facial spatio-temporal rPPG signal map and its continuous wavelet transformed counterpart as inputs. To mitigate the modality bias and improve the fusion efficacy, we conduct a weighted batch and layer normalization for both appearance and rPPG features before multi-modal fusion. We find that the generalization capacities of both unimodal (appearance or rPPG) and multi-modal (appearance+rPPG) models can be obviously improved via joint training on these two tasks. We hope this new benchmark will facilitate the future research of both FAS and deepfake detection communities.
翻訳日:2024-01-10 00:49:37 公開日:2024-01-08
# SDPに基づくニューラルネットワーク検証のための弦間距離

Chordal Sparsity for SDP-based Neural Network Verification ( http://arxiv.org/abs/2206.03482v3 )

ライセンス: Link先を確認
Anton Xue, Lars Lindemann, Rajeev Alur(参考訳) ニューラルネットワークは多くの新興技術の中心だが、その正確性を検証することは依然として大きな課題である。 ネットワーク出力は小さな入力摂動にも敏感で脆弱であり、予測不能で望ましくない行動のリスクを増大させることが知られている。 したがって、ニューラルネットワークの迅速かつ正確な検証は、その普及に不可欠であり、近年ではこの問題への対応として様々な手法が開発されている。 本稿では,半定義型プログラミング(sdp)に基づくニューラルネットワーク検証手法の改善に着目する。 このような手法は凸問題定式化を保ちながら複雑な幾何学的制約を表現できるが、スケーラビリティは依然として大きな問題である。 我々の出発点はfazlyabらによって提案されたdeepsdpフレームワークで、二次制約を使って検証問題を大規模sdpに抽象化する。 しかし、ネットワークが大きくなると、このSDPの解決はすぐに困難になる。 我々のキーとなる観察は、弦の間隔を利用することで、大きな線形行列不等式(LMI)であるDeepSDPの計算ボトルネックを、より小さなLMIの等価なコレクションに分解できるということである。 コードスパース最適化プログラムをchordal-DeepSDPと呼び、その構成がDeepSDPと同一表現であることを示す。 さらに、Chordal-DeepSDPのさらなる解析により、Chordal-DeepSDP-2と呼ばれる第2レベルの分解でLMIのコレクションをさらに書き直せることが示される。 最後に,Chordal-DeepSDPとChordal-DeepSDP-2によるDeepSDP上の計算優位性を示す。

Neural networks are central to many emerging technologies, but verifying their correctness remains a major challenge. It is known that network outputs can be sensitive and fragile to even small input perturbations, thereby increasing the risk of unpredictable and undesirable behavior. Fast and accurate verification of neural networks is therefore critical to their widespread adoption, and in recent years, various methods have been developed as a response to this problem. In this paper, we focus on improving semidefinite programming (SDP) based techniques for neural network verification. Such techniques offer the power of expressing complex geometric constraints while retaining a convex problem formulation, but scalability remains a major issue in practice. Our starting point is the DeepSDP framework proposed by Fazlyab et al., which uses quadratic constraints to abstract the verification problem into a large-scale SDP. However, solving this SDP quickly becomes intractable when the network grows. Our key observation is that by leveraging chordal sparsity, we can decompose the primary computational bottleneck of DeepSDP -- a large linear matrix inequality (LMI) -- into an equivalent collection of smaller LMIs. We call our chordally sparse optimization program Chordal-DeepSDP and prove that its construction is identically expressive as that of DeepSDP. Moreover, we show that additional analysis of Chordal-DeepSDP allows us to further rewrite its collection of LMIs in a second level of decomposition that we call Chordal-DeepSDP-2 -- which results in another significant computational gain. Finally, we provide numerical experiments on real networks of learned cart-pole dynamics, showcasing the computational advantage of Chordal-DeepSDP and Chordal-DeepSDP-2 over DeepSDP.
翻訳日:2024-01-10 00:47:46 公開日:2024-01-08
# スパースグラフの半教師付きクラスタリング:情報理論閾値を越えて

Semi-Supervised Clustering of Sparse Graphs: Crossing the Information-Theoretic Threshold ( http://arxiv.org/abs/2205.11677v3 )

ライセンス: Link先を確認
Junda Sheng and Thomas Strohmer(参考訳) 確率ブロックモデルは、ネットワーク構造データのクラスタリングとコミュニティ検出のための標準ランダムグラフモデルである。 この問題に関する広範な研究は、ケステン・スティグム閾値における相転移が数学的および応用的な観点から特に興味深い、多くの重要な結果を生み出している。 ネットワークトポロジに基づく推定器は、モデルパラメータが一定の閾値以下である場合、スパースグラフの確率よりも大幅に向上する。 それでも、地平線をユビキタスな半教師付き設定に少し拡張すれば、そのような基本的な制限は完全に消える。 ラベルの任意の部分を明らかにすると、検出問題はパラメータ領域全体にわたって実現可能であることを示す。 さらに,ラベル情報をグラフ構造と統合するために,組合せと最適化に基づく2つの効率的なアルゴリズムを導入する。 我々の研究は、ネットワークの確率モデルと半定値プログラム研究に新たな視点をもたらす。

The stochastic block model is a canonical random graph model for clustering and community detection on network-structured data. Decades of extensive study on the problem have established many profound results, among which the phase transition at the Kesten-Stigum threshold is particularly interesting both from a mathematical and an applied standpoint. It states that no estimator based on the network topology can perform substantially better than chance on sparse graphs if the model parameter is below certain threshold. Nevertheless, if we slightly extend the horizon to the ubiquitous semi-supervised setting, such a fundamental limitation will disappear completely. We prove that with arbitrary fraction of the labels revealed, the detection problem is feasible throughout the parameter domain. Moreover, we introduce two efficient algorithms, one combinatorial and one based on optimization, to integrate label information with graph structures. Our work brings a new perspective to stochastic model of networks and semidefinite program research.
翻訳日:2024-01-10 00:46:17 公開日:2024-01-08
# キャビティ強化および歪調整したGaAs量子ドットに基づく絡み合った光子の源

A source of entangled photons based on a cavity-enhanced and strain-tuned GaAs quantum dot ( http://arxiv.org/abs/2212.12506v3 )

ライセンス: Link先を確認
Michele B. Rota, Tobias M. Krieger, Quirin Buchinger, Mattia Beccaceci, Julia Neuwirth, H\^elio Huet, Nikola Horov\'a, Gabriele Lovicu, Giuseppe Ronco, Saimon F. Covre da Silva, Giorgio Pettinari, Magdalena Mocza{\l}a-Dusanowska, Christoph Kohlberger, Santanu Manna, Sandra Stroj, Julia Freund, Xueyong Yuan, Christian Schneider, Miroslav Je\v{z}ek, Sven H\"ofling, Francesco Basso Basset, Tobias Huber-Loyola, Armando Rastelli and Rinaldo Trotta(参考訳) 高い輝度と高いエンタングルメントを持つ光子を供給できる量子光源は、効率の良いエンタングルメントベースの量子鍵分布系の開発に基礎を置いている。 あらゆる候補の中で、エピタキシャル量子ドットは、非常に絡み合った光子の最も明るい源の1つとして現在出現している。 しかし、現在、輝度と絡み合いの両方の最適化には、スケーラブルな方法で組み合わせるのが難しい異なる技術が必要である。 本研究では、円ブラッグ共振器に埋め込まれた量子ドットからなる新しいデバイスをマイクロ加工された圧電アクチュエータに組み込むことにより、この課題を克服する。 共振器は、最大0.69(4)までの抽出効率を高めるために光物質相互作用を設計する。 同時に、アクチュエータは、0.96(1)までのフィディティを有する絡み合った光子を生成するために量子ドットをチューニングする歪場を操作する。 このハイブリッド技術は、エンタングルメントベースの量子鍵分布とエンタングルメントベースの量子ネットワークに対する現在のアプローチを悩ませる鍵レートの限界を克服する可能性を秘めている。 はじめに

A quantum-light source that delivers photons with a high brightness and a high degree of entanglement is fundamental for the development of efficient entanglement-based quantum-key distribution systems. Among all possible candidates, epitaxial quantum dots are currently emerging as one of the brightest sources of highly entangled photons. However, the optimization of both brightness and entanglement currently requires different technologies that are difficult to combine in a scalable manner. In this work, we overcome this challenge by developing a novel device consisting of a quantum dot embedded in a circular Bragg resonator, in turn, integrated onto a micromachined piezoelectric actuator. The resonator engineers the light-matter interaction to empower extraction efficiencies up to 0.69(4). Simultaneously, the actuator manipulates strain fields that tune the quantum dot for the generation of entangled photons with fidelities up to 0.96(1). This hybrid technology has the potential to overcome the limitations of the key rates that plague current approaches to entanglement-based quantum key distribution and entanglement-based quantum networks. Introduction
翻訳日:2024-01-10 00:38:59 公開日:2024-01-08
# 磁気材料のための一般時間反転同値ニューラルネットワークポテンシャル

General time-reversal equivariant neural network potential for magnetic materials ( http://arxiv.org/abs/2211.11403v3 )

ライセンス: Link先を確認
Hongyu Yu, Boyu Liu, Yang Zhong, Liangliang Hong, Junyi Ji, Changsong Xu, Xingao Gong, Hongjun Xiang(参考訳) 本研究では、スピン軌道結合と非線形磁気モーメントを含む、時間反転E(3)同変ニューラルネットワークと磁気システムのための包括的な原子間ポテンシャルを構築するSpinGNN++フレームワークを提案する。 spingnn++はハイゼンベルク、dzyaloshinskii-moriya、キタエフ、単イオン異方性、およびバイカドリック相互作用を含む明示的なスピン格子項を持つマルチタスクスピン同変ニューラルネットワークを統合し、時間反転同変ニューラルネットワークを用いて時間反転e(3)-同変畳み込みを用いて高次スピン格子相互作用を学ぶ。 SpinGNN++を検証するために、複雑な磁気モデルデータセットがベンチマークとして導入され、その能力を実証するために使用される。 SpinGNN++ は単層 CrI$_3$ と CrTe$_2$ の複雑なスピン格子結合の正確な記述を提供する。 重要なことに、これは大規模な平行スピン格子ダイナミクスを促進し、磁気基底状態や相転移を含む関連する特性の探索を可能にする。 注目すべきことに、SpinGNN++は単層CrTe2の基底磁気状態として新しい強磁性状態を特定し、相図を充実させ、様々な実験で観測された異なる磁気信号について深い洞察を与える。

This study introduces time-reversal E(3)-equivariant neural network and SpinGNN++ framework for constructing a comprehensive interatomic potential for magnetic systems, encompassing spin-orbit coupling and noncollinear magnetic moments. SpinGNN++ integrates multitask spin equivariant neural network with explicit spin-lattice terms, including Heisenberg, Dzyaloshinskii-Moriya, Kitaev, single-ion anisotropy, and biquadratic interactions, and employs time-reversal equivariant neural network to learn high-order spin-lattice interactions using time-reversal E(3)-equivariant convolutions. To validate SpinGNN++, a complex magnetic model dataset is introduced as a benchmark and employed to demonstrate its capabilities. SpinGNN++ provides accurate descriptions of the complex spin-lattice coupling in monolayer CrI$_3$ and CrTe$_2$, achieving sub-meV errors. Importantly, it facilitates large-scale parallel spin-lattice dynamics, thereby enabling the exploration of associated properties, including the magnetic ground state and phase transition. Remarkably, SpinGNN++ identifies a new ferrimagnetic state as the ground magnetic state for monolayer CrTe2, thereby enriching its phase diagram and providing deeper insights into the distinct magnetic signals observed in various experiments.
翻訳日:2024-01-10 00:37:22 公開日:2024-01-08
# カラーイベントベースのトラッキングを再考する:統一ネットワーク、データセット、メトリクス

Revisiting Color-Event based Tracking: A Unified Network, Dataset, and Metric ( http://arxiv.org/abs/2211.11010v2 )

ライセンス: Link先を確認
Chuanming Tang, Xiao Wang, Ju Huang, Bo Jiang, Lin Zhu, Jianlin Zhang, Yaowei Wang, Yonghong Tian(参考訳) 堅牢なオブジェクトトラッキングのためにColorとEventのカメラ(Dynamic Vision Sensors、DVSとも呼ばれる)を組み合わせることは、近年新たに登場した研究トピックである。 既存のカラーイベントトラッキングフレームワークは、通常、複数の分散モジュールを含んでおり、機能抽出、融合、マッチング、インタラクティブ学習など、低い効率と高い計算複雑性をもたらす可能性がある。 本稿では,カラーイベント統一トラッキング(CEUTrack)のためのシングルステージバックボーンネットワークを提案する。 イベントポイントとRGBフレームが与えられた場合、まず点をボクセルに変換し、テンプレートと検索領域をそれぞれモダリティに分解する。 その後、これらの領域はトークンに投影され、統一トランスフォーマーバックボーンネットワークに並列に供給される。 出力機能は、ターゲットオブジェクトのローカライズのためにトラッキングヘッドに供給される。 提案するCEUTrackはシンプルで,効率的で,75FPS以上を達成し,新たなSOTA性能を実現している。 また,本モデルの有効性をよりよく検証し,課題のデータ不足に対処するために,90のカテゴリと1354の動画シーケンスを含むCOESOTと呼ばれるカラーイベント追跡のための総合的かつ大規模ベンチマークデータセットを提案する。 さらに,BOCと呼ばれる新しい評価指標を評価ツールキットで提案し,ベースライン手法の優位性を評価する。 新たに提案した手法,データセット,評価基準が,色覚に基づくトラッキングのためのより良いプラットフォームを提供することを期待している。 データセット、ツールキット、ソースコードは次の通りリリースされる。

Combining the Color and Event cameras (also called Dynamic Vision Sensors, DVS) for robust object tracking is a newly emerging research topic in recent years. Existing color-event tracking framework usually contains multiple scattered modules which may lead to low efficiency and high computational complexity, including feature extraction, fusion, matching, interactive learning, etc. In this paper, we propose a single-stage backbone network for Color-Event Unified Tracking (CEUTrack), which achieves the above functions simultaneously. Given the event points and RGB frames, we first transform the points into voxels and crop the template and search regions for both modalities, respectively. Then, these regions are projected into tokens and parallelly fed into the unified Transformer backbone network. The output features will be fed into a tracking head for target object localization. Our proposed CEUTrack is simple, effective, and efficient, which achieves over 75 FPS and new SOTA performance. To better validate the effectiveness of our model and address the data deficiency of this task, we also propose a generic and large-scale benchmark dataset for color-event tracking, termed COESOT, which contains 90 categories and 1354 video sequences. Additionally, a new evaluation metric named BOC is proposed in our evaluation toolkit to evaluate the prominence with respect to the baseline methods. We hope the newly proposed method, dataset, and evaluation metric provide a better platform for color-event-based tracking. The dataset, toolkit, and source code will be released on: \url{https://github.com/Event-AHU/COESOT}.
翻訳日:2024-01-10 00:36:27 公開日:2024-01-08
# マルチラベル分類を用いた分散ガウス過程のエキスパート選択

Entry Dependent Expert Selection in Distributed Gaussian Processes Using Multilabel Classification ( http://arxiv.org/abs/2211.09940v2 )

ライセンス: Link先を確認
Hamed Jalali and Gjergji Kasneci(参考訳) トレーニングプロセスの分散により、局所近似は標準ガウス過程のコストを低減させる。 アンサンブルのテクニックは、データ分割を訓練したガウスの専門家による局所的な予測を組み合わせる。 アンサンブル法は、局所予測器の完全な多様性を仮定してモデルの予測を集約する。 アグリゲーションは扱いやすいが、実際にはこの仮定はしばしば違反する。 アンサンブル法は専門家間の依存関係を仮定して一貫した結果を与えるが、計算コストが高く、関係する専門家の数は3倍になる。 専門家選択戦略を実装することで、最終的な集約ステップは専門家を少なくし、より効率的になる。 しかしながら、新しいデータポイントごとに専門家の固定セットを割り当てる選択アプローチでは、各ユニークなデータポイントの特定のプロパティをエンコードすることはできない。 本稿では,入力データ点の特性に基づくフレキシブルなエキスパート選択手法を提案する。 この目的のために,専門家がラベルを定義し,各エントリポイントを専門家に割り当てるマルチラベル分類問題として選択課題を検討する。 提案手法は, 予測品質, 効率, 漸近特性を詳細に検討した。 本手法は,合成および実世界のデータセットを用いた広範囲な数値実験により有効性を示す。

By distributing the training process, local approximation reduces the cost of the standard Gaussian Process. An ensemble technique combines local predictions from Gaussian experts trained on different partitions of the data. Ensemble methods aggregate models' predictions by assuming a perfect diversity of local predictors. Although it keeps the aggregation tractable, this assumption is often violated in practice. Even though ensemble methods provide consistent results by assuming dependencies between experts, they have a high computational cost, which is cubic in the number of experts involved. By implementing an expert selection strategy, the final aggregation step uses fewer experts and is more efficient. However, a selection approach that assigns a fixed set of experts to each new data point cannot encode the specific properties of each unique data point. This paper proposes a flexible expert selection approach based on the characteristics of entry data points. To this end, we investigate the selection task as a multi-label classification problem where the experts define labels, and each entry point is assigned to some experts. The proposed solution's prediction quality, efficiency, and asymptotic properties are discussed in detail. We demonstrate the efficacy of our method through extensive numerical experiments using synthetic and real-world data sets.
翻訳日:2024-01-10 00:35:37 公開日:2024-01-08
# NESTER:因果効果推定のための適応的ニューロシンボリック法

NESTER: An Adaptive Neurosymbolic Method for Causal Effect Estimation ( http://arxiv.org/abs/2211.04370v5 )

ライセンス: Link先を確認
Abbavaram Gowtham Reddy, Vineeth N Balasubramanian(参考訳) 観測データからの因果効果推定は因果推論の中心的な問題である。 潜在的な結果の枠組みに基づく手法は、因果推論から帰納的バイアスとヒューリスティックスを利用してこの問題を解決する。 これらの手法は、ニューラルネットワーク(NN)アーキテクチャと正規化器を設計することにより、確率スコアの制御、ランダム化の強制など、因果効果推定の特定の側面に対処する。 本稿では,因果効果推定の一般化手法であるニューロシンボリック因果効果推定器(nester)と呼ばれる適応的手法を提案する。 NESTERは、マルチヘッドNNに基づく既存の手法で使われているアイデアを1つのフレームワークに統合する。 文献における因果帰納バイアスに基づく因果効果推定に適したドメイン固有言語(DSL)を設計する。 我々はNESTERの因果効果を推定するための理論的解析を行った。 総合的な実験結果から,nesterはベンチマークデータセットにおいて最先端のメソッドよりも優れた性能を示す。

Causal effect estimation from observational data is a central problem in causal inference. Methods based on potential outcomes framework solve this problem by exploiting inductive biases and heuristics from causal inference. Each of these methods addresses a specific aspect of causal effect estimation, such as controlling propensity score, enforcing randomization, etc., by designing neural network (NN) architectures and regularizers. In this paper, we propose an adaptive method called Neurosymbolic Causal Effect Estimator (NESTER), a generalized method for causal effect estimation. NESTER integrates the ideas used in existing methods based on multi-head NNs for causal effect estimation into one framework. We design a Domain Specific Language (DSL) tailored for causal effect estimation based on causal inductive biases used in literature. We conduct a theoretical analysis to investigate NESTER's efficacy in estimating causal effects. Our comprehensive empirical results show that NESTER performs better than state-of-the-art methods on benchmark datasets.
翻訳日:2024-01-10 00:34:59 公開日:2024-01-08
# 最適化問題としてのデジタル画像におけるDCT係数の符号ビットの復元

Recovering Sign Bits of DCT Coefficients in Digital Images as an Optimization Problem ( http://arxiv.org/abs/2211.01096v2 )

ライセンス: Link先を確認
Ruiyuan Lin, Sheng Liu, Jun Jiang, Shujun Li, Chengqing Li, C.-C. Jay Kuo(参考訳) 画像圧縮、選択的画像暗号化、画像通信など、デジタル画像処理の複数の応用において、未知、欠落、歪曲、失われた情報を復元することは一般的な課題である。 本稿では,デジタル画像のdct係数における符号ビットの復元について,npハードな混合整数線形計画(milp)問題の解法として2つの異なる近似法を提案する。 1つの方法は、MILP問題を線形プログラミング(LP)問題に緩和することであり、もう1つは元のMILP問題をより小さなMILP問題とLP問題に分割する。 提案手法をjpeg符号化画像に適用する方法を検討し,その性能を検証するために広範囲な実験を行った。 実験の結果,提案手法は,客観的品質指標と主観的評価の両方により,既存の手法よりもかなり優れた性能を示した。

Recovering unknown, missing, damaged, distorted, or lost information in DCT coefficients is a common task in multiple applications of digital image processing, including image compression, selective image encryption, and image communication. This paper investigates the recovery of sign bits in DCT coefficients of digital images, by proposing two different approximation methods to solve a mixed integer linear programming (MILP) problem, which is NP-hard in general. One method is a relaxation of the MILP problem to a linear programming (LP) problem, and the other splits the original MILP problem into some smaller MILP problems and an LP problem. We considered how the proposed methods can be applied to JPEG-encoded images and conducted extensive experiments to validate their performances. The experimental results showed that the proposed methods outperformed other existing methods by a substantial margin, both according to objective quality metrics and our subjective evaluation.
翻訳日:2024-01-10 00:34:44 公開日:2024-01-08
# ソフトウェア定義ネットワークをテストする失敗モデル学習

Learning Failure-Inducing Models for Testing Software-Defined Networks ( http://arxiv.org/abs/2210.15469v3 )

ライセンス: Link先を確認
Rapha\"el Ollando, Seung Yeob Shin, Lionel C. Briand(参考訳) ソフトウェア定義ネットワーク(SDN)は、集中型ソフトウェアコントローラによって管理される柔軟で効果的な通信システムを実現する。 しかし、そのようなコントローラはSDNベースのシステムの基盤となる通信ネットワークを損なう可能性があるため、慎重にテストする必要がある。 SDNベースのシステムが失敗した場合、そのような障害に対処するためには、エンジニアはそれが起こる条件を正確に理解する必要がある。 本稿では,(1)sdn系システムにおける障害につながる効果的なテストデータの生成,(2)システムが故障した条件を特徴付ける正確な障害誘発モデルの学習を目標とする,fuzzsdnという機械学習誘導ファジング手法を提案する。 私たちの知る限り、sdnsの2つの目的を同時に扱う既存の作業はありません。 2つのオープンソースSDNコントローラで制御されるシステムにFizzSDNを適用して評価する。 さらに,sdnsをファジングする2つの最先端手法と,障害誘発モデルを学ぶための2つのベースラインと比較した。 その結果,(1)最先端の手法と比較して,FazSDNはファジィングにかなり頑健なコントローラと,(2)故障発生モデルでは平均98%の精度と86%のリコールで,少なくとも12倍の故障を発生し,ベースラインを著しく上回っていることがわかった。

Software-defined networks (SDN) enable flexible and effective communication systems that are managed by centralized software controllers. However, such a controller can undermine the underlying communication network of an SDN-based system and thus must be carefully tested. When an SDN-based system fails, in order to address such a failure, engineers need to precisely understand the conditions under which it occurs. In this article, we introduce a machine learning-guided fuzzing method, named FuzzSDN, aiming at both (1) generating effective test data leading to failures in SDN-based systems and (2) learning accurate failure-inducing models that characterize conditions under which such system fails. To our knowledge, no existing work simultaneously addresses these two objectives for SDNs. We evaluate FuzzSDN by applying it to systems controlled by two open-source SDN controllers. Further, we compare FuzzSDN with two state-of-the-art methods for fuzzing SDNs and two baselines for learning failure-inducing models. Our results show that (1) compared to the state-of-the-art methods, FuzzSDN generates at least 12 times more failures, within the same time budget, with a controller that is fairly robust to fuzzing and (2) our failure-inducing models have, on average, a precision of 98% and a recall of 86%, significantly outperforming the baselines.
翻訳日:2024-01-10 00:34:29 公開日:2024-01-08
# マルチステージクラスタリングによる高効率リアルタイムストリーミングと全デバイス話者ダイアリゼーション

Highly Efficient Real-Time Streaming and Fully On-Device Speaker Diarization with Multi-Stage Clustering ( http://arxiv.org/abs/2210.13690v4 )

ライセンス: Link先を確認
Quan Wang, Yiling Huang, Han Lu, Guanlong Zhao, Ignacio Lopez Moreno(参考訳) 近年の話者ダイアリゼーションの研究は、ダイアリゼーション結果の質向上に重点を置いているが、ダイアリゼーションシステムの効率向上にも関心が高まっている。 本稿では、異なる長さの入力に異なるクラスタリングアルゴリズムを使用する多段階クラスタリング戦略が、デバイス上での話者ダイアリゼーションアプリケーションの多面的課題に対処できることを実証する。 具体的には、フォールバッククラスタが短文入力の処理に使用され、メインクラスタが中文入力の処理に使用され、プリクラスタがメインクラスタが処理する前に長文入力の圧縮に使用される。 メインのクラスタとプリクラスタの両方を計算複雑性の上限で設定して、リソース制約の異なるデバイスに適応させることができる。 このマルチステージクラスタリング戦略は、cpu、メモリ、バッテリの予算が厳しい、デバイス上の話者ダイアリゼーションシステムをストリーミングする上で極めて重要である。

While recent research advances in speaker diarization mostly focus on improving the quality of diarization results, there is also an increasing interest in improving the efficiency of diarization systems. In this paper, we demonstrate that a multi-stage clustering strategy that uses different clustering algorithms for input of different lengths can address multi-faceted challenges of on-device speaker diarization applications. Specifically, a fallback clusterer is used to handle short-form inputs; a main clusterer is used to handle medium-length inputs; and a pre-clusterer is used to compress long-form inputs before they are processed by the main clusterer. Both the main clusterer and the pre-clusterer can be configured with an upper bound of the computational complexity to adapt to devices with different resource constraints. This multi-stage clustering strategy is critical for streaming on-device speaker diarization systems, where the budgets of CPU, memory and battery are tight.
翻訳日:2024-01-10 00:34:07 公開日:2024-01-08
# プログラム生成のための言語モデルの信頼性と説明可能性について

On the Reliability and Explainability of Language Models for Program Generation ( http://arxiv.org/abs/2302.09587v3 )

ライセンス: Link先を確認
Yue Liu, Chakkrit Tantithamthavorn, Yonghui Liu, Li Li(参考訳) 近年の研究では、コード生成、修復、翻訳といった自動プログラム生成タスクに、CodeT5やCodeGPTといった事前訓練された言語モデルが採用されている。 多くの言語モデルに基づくアプローチが提案され、様々なベンチマークデータセットで評価され、有望な性能を示す。 しかし、これらのモデルの信頼性、特にコードシーケンスを一貫して変換する現実的な能力についてはまだ不確実性がある。 これらのテクニックは、プログラムの自動生成に十分な信頼性がありますか? したがって、モデル論理を理解し、信頼性と説明可能性を評価するためのさらなる研究が必要である。 これらの研究ギャップを埋めるため、5つの代表的なデータセット上で8つのポピュラー言語モデルを徹底的に実験し、自動プログラム生成手法の能力と限界を決定する。 さらに、コード変換に大きく貢献するトークンを強調するために、高度な説明可能なAIアプローチを採用しています。 現状のアプローチは、重度のデータ重複に起因する不適切な性能評価に悩まされ、過度な最適化結果をもたらすことが判明した。 説明可能性分析の結果,様々な実験シナリオにおいて,言語モデルはコード文法や構造情報を認識できるが,入力シーケンスの変化に対して限定的な頑健性を示すことが明らかになった。 全体として、より厳密な評価手法とベンチマークは、自動プログラム生成の信頼性と説明可能性を高めるために重要である。 我々の発見は、この目標に重要なガイドラインを提供する。

Recent studies have adopted pre-trained language models, such as CodeT5 and CodeGPT, for automated program generation tasks like code generation, repair, and translation. Numerous language model-based approaches have been proposed and evaluated on various benchmark datasets, demonstrating promising performance. However, there is still uncertainty about the reliability of these models, particularly their realistic ability to consistently transform code sequences. This raises the question: are these techniques sufficiently trustworthy for automated program generation? Consequently, Further research is needed to understand model logic and assess reliability and explainability. To bridge these research gaps, we conduct a thorough empirical study of eight popular language models on five representative datasets to determine the capabilities and limitations of automated program generation approaches. We further employ advanced explainable AI approaches to highlight the tokens that significantly contribute to the code transformation. We discover that state-of-the-art approaches suffer from inappropriate performance evaluation stemming from severe data duplication, causing over-optimistic results. Our explainability analysis reveals that, in various experimental scenarios, language models can recognize code grammar and structural information, but they exhibit limited robustness to changes in input sequences. Overall, more rigorous evaluation approaches and benchmarks are critical to enhance the reliability and explainability of automated program generation moving forward. Our findings provide important guidelines for this goal.
翻訳日:2024-01-10 00:27:40 公開日:2024-01-08
# リスク分解による自己指導型学習の評価

Evaluating Self-Supervised Learning via Risk Decomposition ( http://arxiv.org/abs/2302.03068v3 )

ライセンス: Link先を確認
Yann Dubois and Tatsunori Hashimoto and Percy Liang(参考訳) 自己教師付き学習(SSL)パイプラインは、アーキテクチャや拡張、事前トレーニングデータなど、多くの設計上の選択肢が異なる。 しかし、SSLは通常、1つのメトリックを使って評価される。 これにより、モデルがなぜ、いつ、どのように改善されるのか、多くの洞察が得られない。 そこで本研究では,表現学習ステップから生じる誤りを考慮し,古典的教師付き近似推定分解を一般化したsslリスク分解を提案する。 分解は,近似,表現ユーザビリティ,プローブ一般化,エンコーダ一般化の4つの誤差成分からなる。 我々は,各コンポーネントに対して効率的な推定器を提供し,imagenet で評価した 169 ssl ビジョンモデルに対する30 の設計選択の影響を分析する。 私たちの分析はSSLモデルを設計、使用するための貴重な洞察を与えます。 例えば、エラーの主なソースを強調し、エラーコンポーネントのトレーディングによって特定の設定(フル対数ショット)でSSLを改善する方法を示している。 すべての結果と事前訓練されたモデルはhttps://github.com/YannDubs/SSL-Risk-Decompositionにある。

Self-supervised learning (SSL) pipelines differ in many design choices such as the architecture, augmentations, or pretraining data. Yet SSL is typically evaluated using a single metric: linear probing on ImageNet. This does not provide much insight into why or when a model is better, now how to improve it. To address this, we propose an SSL risk decomposition, which generalizes the classical supervised approximation-estimation decomposition by considering errors arising from the representation learning step. Our decomposition consists of four error components: approximation, representation usability, probe generalization, and encoder generalization. We provide efficient estimators for each component and use them to analyze the effect of 30 design choices on 169 SSL vision models evaluated on ImageNet. Our analysis gives valuable insights for designing and using SSL models. For example, it highlights the main sources of error and shows how to improve SSL in specific settings (full- vs few-shot) by trading off error components. All results and pretrained models are at https://github.com/YannDubs/SSL-Risk-Decomposition.
翻訳日:2024-01-10 00:26:14 公開日:2024-01-08
# QCM-SGM+:スコアベース生成モデルによる量子圧縮センシングの改良

QCM-SGM+: Improved Quantized Compressed Sensing With Score-Based Generative Models ( http://arxiv.org/abs/2302.00919v4 )

ライセンス: Link先を確認
Xiangming Meng and Yoshiyuki Kabashima(参考訳) 実際に圧縮センシング(CS)において、得られた測定値は通常、伝送または記憶の前に限られたビット数に量子化を必要とする。 この非線形量子化プロセスは、特に1ビットのような極端に粗い量子化において、大きな回復の課題をもたらす。 近年、スコアベース生成モデル(SGM)を暗黙の先行として利用する量子CS(QCS)に対して、QCS-SGMと呼ばれる効率的なアルゴリズムが提案されている。 自然信号の複雑な構造を捉える際にSGMが有効であることから、QCS-SGMは従来のQCS法よりも大幅に優れていた。 しかし、QCS-SGMは、確率スコアの計算が難解になるにつれて(ほぼ)行直交の知覚行列に制約される。 この制限に対処するために、一般行列を効果的に処理できるQCS-SGM+と呼ばれる先進的なQCS-SGMを導入した。 鍵となるアイデアは、近似計算に期待伝播が用いられる確率スコア計算に関するベイズ推論の視点である。 また,QCS-SGMよりもQCS-SGM+の方が,行直交性以上の一般感覚行列に対してかなり優れていることを示した。

In practical compressed sensing (CS), the obtained measurements typically necessitate quantization to a limited number of bits prior to transmission or storage. This nonlinear quantization process poses significant recovery challenges, particularly with extreme coarse quantization such as 1-bit. Recently, an efficient algorithm called QCS-SGM was proposed for quantized CS (QCS) which utilizes score-based generative models (SGM) as an implicit prior. Due to the adeptness of SGM in capturing the intricate structures of natural signals, QCS-SGM substantially outperforms previous QCS methods. However, QCS-SGM is constrained to (approximately) row-orthogonal sensing matrices as the computation of the likelihood score becomes intractable otherwise. To address this limitation, we introduce an advanced variant of QCS-SGM, termed QCS-SGM+, capable of handling general matrices effectively. The key idea is a Bayesian inference perspective on the likelihood score computation, wherein expectation propagation is employed for its approximate computation. Extensive experiments are conducted, demonstrating the substantial superiority of QCS-SGM+ over QCS-SGM for general sensing matrices beyond mere row-orthogonality.
翻訳日:2024-01-10 00:25:18 公開日:2024-01-08
# 乳腺病理組織学における浸潤性癌分類における非教師なし染色適応の標準化サイクガン訓練

Standardized CycleGAN training for unsupervised stain adaptation in invasive carcinoma classification for breast histopathology ( http://arxiv.org/abs/2301.13128v2 )

ライセンス: Link先を確認
Nicolas Nerrienet and R\'emy Peyret and Marie Sockeel and St\'ephane Sockeel(参考訳) 一般化は、計算病理学の主要な課題の1つである。 スライド準備の不均一性とスキャナの多様性は、トレーニング中に見えない医療センターのデータで使用する場合のモデル性能の低下につながる。 乳腺浸潤癌パッチ分類における染色不均一性を実現するために,CycleGANsを用いた非教師なし画像・画像翻訳のための染色翻訳戦略を実装した。 本研究では,3つのサイクルGANをベースライン分類モデルと比較する。 提案手法の2つは, 投機や訓練においてサイクガンの翻訳を用い, 染色特異的分類モデルを構築した。 最後の方法は、トレーニング中にそれらをステンドデータ拡張に使用する。 これは分類モデルにステンド不変な特徴を学ぶように制約する。 ベースラインメトリクスは、ベースライン分類モデルのトレーニングとテストによって、参照ステイン上で設定される。 H&EとH&E&S染色を併用した3つの医療センターによる評価を行った。 この研究でテストされたすべてのアプローチは、ターゲットステインのラベルを必要とせずに、ベースラインメトリクスを改善します。 染色増量に基づくアプローチは,すべての染色に対して最良の結果をもたらした。 それぞれの方法の長所と短所について検討し,本論文で論じる。 しかし、ハイパフォーマンスなCycleGANsモデルのトレーニング自体が課題である。 本研究では,新しい停止基準を設定し,サイクルGANトレーニングを最適化するための体系的手法を提案する。 本手法は,サイクルGANの結果を視覚的に検査する必要がなく,事前定義されたトレーニングエポック数を用いた手法よりも優れていることを示す。 また,サイクルGANトレーニングに必要なデータ量についても検討した。

Generalization is one of the main challenges of computational pathology. Slide preparation heterogeneity and the diversity of scanners lead to poor model performance when used on data from medical centers not seen during training. In order to achieve stain invariance in breast invasive carcinoma patch classification, we implement a stain translation strategy using cycleGANs for unsupervised image-to-image translation. We compare three cycleGAN-based approaches to a baseline classification model obtained without any stain invariance strategy. Two of the proposed approaches use cycleGAN's translations at inference or training in order to build stain-specific classification models. The last method uses them for stain data augmentation during training. This constrains the classification model to learn stain-invariant features. Baseline metrics are set by training and testing the baseline classification model on a reference stain. We assessed performances using three medical centers with H&E and H&E&S staining. Every approach tested in this study improves baseline metrics without needing labels on target stains. The stain augmentation-based approach produced the best results on every stain. Each method's pros and cons are studied and discussed in this paper. However, training highly performing cycleGANs models in itself represents a challenge. In this work, we introduce a systematical method for optimizing cycleGAN training by setting a novel stopping criterion. This method has the benefit of not requiring any visual inspection of cycleGAN results and proves superiority to methods using a predefined number of training epochs. In addition, we also study the minimal amount of data required for cycleGAN training.
翻訳日:2024-01-10 00:24:02 公開日:2024-01-08
# lextreme: 法的ドメインのためのマルチランゲージおよびマルチタスクベンチマーク

LEXTREME: A Multi-Lingual and Multi-Task Benchmark for the Legal Domain ( http://arxiv.org/abs/2301.13126v3 )

ライセンス: Link先を確認
Joel Niklaus, Veton Matoshi, Pooja Rani, Andrea Galassi, Matthias St\"urmer, Ilias Chalkidis(参考訳) 近年, トランスアーキテクチャの周辺における驚くべき進歩により, NLP分野は飛躍的な成長を遂げている。 進捗を測定するには、十分にキュレーションされ、挑戦的なベンチマークが不可欠である。 しかし、ほとんどのベンチマークは英語のみであり、法律上のNLPでは、特にマルチリンガルベンチマークはまだ利用できない。 さらに、多くのベンチマークは飽和しており、最高のモデルは最高の人間よりも明らかに優れており、ほぼ完璧なスコアに達している。 法的なNLP文献を調査し、LEXTREMEを作成する24言語を含む11のデータセットを選択した。 公平な比較のために,データセットに基づくスコアと言語に基づくスコアの2つを提案する。 ベストベースライン(XLM-R大)は、両方のデータセットアグリゲーションが言語アグリゲーションスコア61.3を達成する。 これは、LEXTREMEが依然として非常に困難であり、改善の余地が十分にあることを示している。 研究者や実践者が簡単に使えるように、モデルを評価するのに必要なすべてのコードと、すべての実行で公開のWeights and Biasesプロジェクトとともに、ハグフェイスでLEXTREMEをリリースします。

Lately, propelled by the phenomenal advances around the transformer architecture, the legal NLP field has enjoyed spectacular growth. To measure progress, well curated and challenging benchmarks are crucial. However, most benchmarks are English only and in legal NLP specifically there is no multilingual benchmark available yet. Additionally, many benchmarks are saturated, with the best models clearly outperforming the best humans and achieving near perfect scores. We survey the legal NLP literature and select 11 datasets covering 24 languages, creating LEXTREME. To provide a fair comparison, we propose two aggregate scores, one based on the datasets and one on the languages. The best baseline (XLM-R large) achieves both a dataset aggregate score a language aggregate score of 61.3. This indicates that LEXTREME is still very challenging and leaves ample room for improvement. To make it easy for researchers and practitioners to use, we release LEXTREME on huggingface together with all the code required to evaluate models and a public Weights and Biases project with all the runs.
翻訳日:2024-01-10 00:23:42 公開日:2024-01-08
# 圧縮・一般化・学習

Compression, Generalization and Learning ( http://arxiv.org/abs/2301.12767v2 )

ライセンス: Link先を確認
Marco C. Campi and Simone Garatti(参考訳) 圧縮関数(英: compression function)は、観測セットを小さくしたサブセットにスリム化し、その情報内容を保存するマップである。 複数の応用において、1つの新しい観察が圧縮集合の変化をもたらす条件は、この観測が余分な情報をもたらすと解釈され、学習理論では、これは誤分類または誤予測に対応する。 本稿では,新しい理論の基礎を定め,圧縮変化の確率(学習アプリケーションにおいて統計的「リスク」にマップされる)の制御を可能にする。 適切な条件下では、圧縮集合の濃度が圧縮変化の確率の一貫した推定者であることが示され(圧縮集合の大きさの上限を含まずに)、さらに圧縮変化の確率を評価するための前例のない厳密な有限サンプル境界が、一般に適用可能な選好条件の下で得られる。 すべての結果は、観測の確率分布に関する事前知識を必要とせずに、完全に非依存的な設定で利用できる。 これらの結果は、観察駆動手法の信頼性向上に有効な支援を提供するだけでなく、ハイパーパラメータチューニングのツールとしての学習技術において、基本的な役割を果たす。

A compression function is a map that slims down an observational set into a subset of reduced size, while preserving its informational content. In multiple applications, the condition that one new observation makes the compressed set change is interpreted that this observation brings in extra information and, in learning theory, this corresponds to misclassification, or misprediction. In this paper, we lay the foundations of a new theory that allows one to keep control on the probability of change of compression (which maps into the statistical "risk" in learning applications). Under suitable conditions, the cardinality of the compressed set is shown to be a consistent estimator of the probability of change of compression (without any upper limit on the size of the compressed set); moreover, unprecedentedly tight finite-sample bounds to evaluate the probability of change of compression are obtained under a generally applicable condition of preference. All results are usable in a fully agnostic setup, i.e., without requiring any a priori knowledge on the probability distribution of the observations. Not only these results offer a valid support to develop trust in observation-driven methodologies, they also play a fundamental role in learning techniques as a tool for hyper-parameter tuning.
翻訳日:2024-01-10 00:23:24 公開日:2024-01-08
# 大規模試料における行列のメジャー化

Matrix majorization in large samples ( http://arxiv.org/abs/2301.07353v2 )

ライセンス: Link先を確認
Muhammad Usman Farooq and Tobias Fritz and Erkka Haapasalo and Marco Tomamichel(参考訳) 確率ベクトルの一方のタプルは、最初のタプルの確率ベクトルを他方の確率ベクトルに変換する単一の確率行列が存在するとき、他のタプルよりも有益である。 これを行列汎化と呼ぶ。 mu と al によって引き起こされた解法では、ある単調(すなわち r\'{e}nyi の発散の多変量拡大)が2つのタプルの間に厳密に順序付けされている場合、十分大きな n$ に対して、各入力分布の $n$-fold kronecker パワーを対応する出力分布の $n$-fold kronecker パワーに取る確率行列が存在する。 モノトンの非制限順序を持つ同じ条件は、大きなサンプルでそのような行列の偏極化にも必要である。 また, 入力分布の1つのコピーを対応する出力分布に変換し, 復帰しない触媒の助けを借りて, 漸近的に(誤差を無くした)統計マップの存在条件も提示した。 任意の誤差で変換が可能であると、そのような触媒行列の偏化に必要かつ十分である条件が見つかる。 著者の1人が最近開発した事前順序付き半環の一般代数的理論に基づいて、その結果を導出する。 また, 大規模試料, 触媒系において, および相対的偏化を統一的に行うことにより, 様々な既存結果の回収が可能となる。

One tuple of probability vectors is more informative than another tuple when there exists a single stochastic matrix transforming the probability vectors of the first tuple into the probability vectors of the other. This is called matrix majorization. Solving an open problem raised by Mu et al, we show that if certain monotones - namely multivariate extensions of R\'{e}nyi divergences - are strictly ordered between the two tuples, then for sufficiently large $n$, there exists a stochastic matrix taking the $n$-fold Kronecker power of each input distribution to the $n$-fold Kronecker power of the corresponding output distribution. The same conditions, with non-strict ordering for the monotones, are also necessary for such matrix majorization in large samples. Our result also gives conditions for the existence of a sequence of statistical maps that asymptotically (with vanishing error) convert a single copy of each input distribution to the corresponding output distribution with the help of a catalyst that is returned unchanged. Allowing for transformation with arbitrarily small error, we find conditions that are both necessary and sufficient for such catalytic matrix majorization. We derive our results by building on a general algebraic theory of preordered semirings recently developed by one of the authors. This also allows us to recover various existing results on majorization in large samples and in the catalytic regime as well as relative majorization in a unified manner.
翻訳日:2024-01-10 00:22:53 公開日:2024-01-08
# テクストエッジを用いたネットワークのクラスタリングと表現のためのdeep latent position topic model

The Deep Latent Position Topic Model for Clustering and Representation of Networks with Textual Edges ( http://arxiv.org/abs/2304.08242v2 )

ライセンス: Link先を確認
R\'emi Boutin, Pierre Latouche, Charles Bouveyron(参考訳) 他のユーザが公開するテキストコンテンツを共有することにつながる数値的なインタラクションは、ノードに個人が関連づけられ、エッジで交換されたテキストが生成されるネットワークによって自然に表現される。 このような不均一で複雑なデータ構造を理解するには、ノードを均質なグループにクラスタリングし、データの理解可能な視覚化を強制される。 両問題に対処するために,変分グラフオートエンコーダアプローチに基づくモデルベースのクラスタリング戦略であるDeep-LPTMと,議論のトピックを特徴付ける確率的モデルを導入する。 Deep-LPTMは2つの埋め込み空間にノードとエッジの合同表現を構築することができる。 パラメータは変分推論アルゴリズムを用いて推定される。 また,クラスタリングと可視化特性を考慮したモデル選択のためのモデル選択基準であるic2lについても紹介する。 合成データに関する広範なベンチマーク研究が提供されている。 特に、Deep-LPTMは最先端のETSBMやSTBMよりもノードの分割を回復する。 最終的に、Enron社のEメールは分析され、結果の視覚化が行われ、グラフ構造の意義あるハイライトが示される。

Numerical interactions leading to users sharing textual content published by others are naturally represented by a network where the individuals are associated with the nodes and the exchanged texts with the edges. To understand those heterogeneous and complex data structures, clustering nodes into homogeneous groups as well as rendering a comprehensible visualisation of the data is mandatory. To address both issues, we introduce Deep-LPTM, a model-based clustering strategy relying on a variational graph auto-encoder approach as well as a probabilistic model to characterise the topics of discussion. Deep-LPTM allows to build a joint representation of the nodes and of the edges in two embeddings spaces. The parameters are inferred using a variational inference algorithm. We also introduce IC2L, a model selection criterion specifically designed to choose models with relevant clustering and visualisation properties. An extensive benchmark study on synthetic data is provided. In particular, we find that Deep-LPTM better recovers the partitions of the nodes than the state-of-the art ETSBM and STBM. Eventually, the emails of the Enron company are analysed and visualisations of the results are presented, with meaningful highlights of the graph structure.
翻訳日:2024-01-10 00:14:47 公開日:2024-01-08
# 位相材料からの点ギャップ位相の普遍的プラットフォーム

Universal platform of point-gap topological phases from topological materials ( http://arxiv.org/abs/2304.08110v4 )

ライセンス: Link先を確認
Daichi Nakamura, Kazuya Inaka, Nobuyuki Okuma, Masatoshi Sato(参考訳) 点ギャップ位相は非エルミート系に固有の例外現象の原因であるが、量子材料におけるそれらの実現はいまだ解明されていない。 ここでは、エルミートトポロジカル絶縁体と超伝導体から構築された点ギャップ位相の単純で普遍的なプラットフォームを提案する。 d-次元位相絶縁体と超伝導体の境界を散逸させることにより(d-1)次元の点ギャップ位相相を実現する。 この提案の重要な観察は、D次元トポロジカル絶縁体と超伝導体における境界モードに崩壊定数を加えることは、(d-1)次元ポイントギャップトポロジカル位相を境界に取り付けることと位相的に等価であるということである。 さらに、散逸的なギャップレスモードを点ギャップ位相数に関連付けるNielsen-Ninomiya定理の拡張版から提案をさらに確立する。 点ギャップ位相のバルク境界対応から、点ギャップ位相は例外的な境界状態または高次非エルミート皮膚効果を示す。

Whereas point-gap topological phases are responsible for exceptional phenomena intrinsic to non-Hermitian systems, their realization in quantum materials is still elusive. Here we propose a simple and universal platform of point-gap topological phases constructed from Hermitian topological insulators and superconductors. We show that (d-1)-dimensional point-gap topological phases are realized by making a boundary in d-dimensional topological insulators and superconductors dissipative. A crucial observation of the proposal is that adding a decay constant to boundary modes in d-dimensional topological insulators and superconductors is topologically equivalent to attaching a (d-1)-dimensional point-gap topological phase to the boundary. We furthermore establish the proposal from the extended version of the Nielsen-Ninomiya theorem, relating dissipative gapless modes to point-gap topological numbers. From the bulk-boundary correspondence of the point-gap topological phases, the resultant point-gap topological phases exhibit exceptional boundary states or in-gap higher-order non-Hermitian skin effects.
翻訳日:2024-01-10 00:14:27 公開日:2024-01-08
# 古典量子確率過程の客観性

Objectivity of classical quantum stochastic processes ( http://arxiv.org/abs/2304.07110v3 )

ライセンス: Link先を確認
Piotr Sza\'nkowski and {\L}ukasz Cywi\'nski(参考訳) 量子確率過程(英語版)(quantum stochastic process)と呼ばれる、観測可能な量子の逐次測定がコルモゴロフの一貫性条件を満たし、従って観測者が古典軌道のサンプリングとして現れるとき、量子系について何が結論づけられるかを調べる。 システム力学に課される物理条件の集合を同定し, 満足すると, 上記の測定結果の軌道解釈に導かれる。 そして、別の量子系が可観測性に結合されたとき、それを表わす演算子を外部ノイズに置き換えることができることを示す。 重要なことに、このサロゲート(古典的)確率過程の実現は、観測者によって測定されたものと同じ軌道に従っている。 したがって、コルモゴロフの一貫した測定によって示唆される軌道解釈は、逐次測定以外の文脈にも適用できると言える。

We investigate what can be concluded about the quantum system when the sequential quantum measurements of its observable -- a prominent example of the so-called quantum stochastic process -- fulfill the Kolmogorov consistency condition, and thus, appear to an observer as a sampling of classical trajectory. We identify a set of physical conditions imposed on the system dynamics, that when satisfied lead to the aforementioned trajectory interpretation of the measurement results. Then, we show that when another quantum system is coupled to the observable, the operator representing it can be replaced by an external noise. Crucially, the realizations of this surrogate (classical) stochastic process are following the same trajectories as those measured by the observer. Therefore, it can be said that the trajectory interpretation suggested by the Kolmogorov consistent measurements also applies in contexts other than sequential measurements.
翻訳日:2024-01-10 00:14:07 公開日:2024-01-08
# SimDistill: BEV 3Dオブジェクト検出のためのマルチモーダル蒸留

SimDistill: Simulated Multi-modal Distillation for BEV 3D Object Detection ( http://arxiv.org/abs/2303.16818v4 )

ライセンス: Link先を確認
Haimei Zhao, Qiming Zhang, Shanshan Zhao, Zhe Chen, Jing Zhang, Dacheng Tao(参考訳) 多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難であり、性能の低下につながる可能性がある。 LiDARデータから正確な3D幾何学的知識を抽出することは、この課題に対処するのに役立つかもしれないが、LiDAR情報の利点は、異なる感覚的モダリティ間の大きなモダリティギャップによって著しく妨げられる可能性がある。 そこで本研究では, モデルアーキテクチャと蒸留戦略を慎重に構築し, シミュレート・マルチモーダル蒸留(SimDistill)法を提案する。 具体的には,lidar-camera fusion-based teacherとsimed fusion-based studentを含む,教師モデルと学生モデルの両方に対してマルチモーダルアーキテクチャを考案する。 この「アイデンティティ」アーキテクチャ設計により、学生は教師を模倣してマルチビューイメージを入力としてマルチモーダルな特徴を生成することができ、そこで幾何学補償モジュールを導入してモダリティギャップを埋めることができる。 さらに,鳥の眼視空間で同時にモード内,クロスモーダル,マルチモーダル融合蒸留をサポートする包括的マルチモーダル蒸留スキームを提案する。 それらを組み合わせることで、コスト効率のよいカメラのみのデプロイメントを維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習できます。 大規模な実験により、SimDistillの最先端技術に対する効果と優位性を検証し、ベースライン検出器に対する4.8\% mAPと4.1\% NDSの改善を実現した。 ソースコードはhttps://github.com/ViTAE-Transformer/SimDistillで公開される。

Multi-view camera-based 3D object detection has become popular due to its low cost, but accurately inferring 3D geometry solely from camera data remains challenging and may lead to inferior performance. Although distilling precise 3D geometry knowledge from LiDAR data could help tackle this challenge, the benefits of LiDAR information could be greatly hindered by the significant modality gap between different sensory modalities. To address this issue, we propose a Simulated multi-modal Distillation (SimDistill) method by carefully crafting the model architecture and distillation strategy. Specifically, we devise multi-modal architectures for both teacher and student models, including a LiDAR-camera fusion-based teacher and a simulated fusion-based student. Owing to the ``identical'' architecture design, the student can mimic the teacher to generate multi-modal features with merely multi-view images as input, where a geometry compensation module is introduced to bridge the modality gap. Furthermore, we propose a comprehensive multi-modal distillation scheme that supports intra-modal, cross-modal, and multi-modal fusion distillation simultaneously in the Bird's-eye-view space. Incorporating them together, our SimDistill can learn better feature representations for 3D object detection while maintaining a cost-effective camera-only deployment. Extensive experiments validate the effectiveness and superiority of SimDistill over state-of-the-art methods, achieving an improvement of 4.8\% mAP and 4.1\% NDS over the baseline detector. The source code will be released at https://github.com/ViTAE-Transformer/SimDistill.
翻訳日:2024-01-10 00:13:15 公開日:2024-01-08
# 完全二重ノードを持つ無線ネットワークにおける電力割当のためのグラフニューラルネットワーク

Graph Neural Networks for Power Allocation in Wireless Networks with Full Duplex Nodes ( http://arxiv.org/abs/2303.16113v2 )

ライセンス: Link先を確認
Lili Chen, Jingge Zhu, Jamie Evans(参考訳) ユーザ間の相互干渉のため、無線ネットワークにおける電力割当問題は、しばしば非凸かつ計算上困難である。 グラフニューラルネットワーク(GNN)は、これらの問題を解決するための有望なアプローチとして最近登場し、無線ネットワークの基盤となるトポロジを利用するアプローチである。 本稿では,完全二重化(fd)ノードを含む無線ネットワークのための新しいグラフ表現手法を提案する。 次に、送信電力を割り当ててネットワークスループットを最大化するために、対応するFDグラフニューラルネットワーク(F-GNN)を設計する。 その結果,f-gnnは計算時間を大幅に削減して最先端の性能を達成できた。 さらに、F-GNNは古典的なアプローチに比べてパフォーマンスと複雑さのトレードオフが優れている。 ネットワーク内のエッジを包含または排除するための距離ベースしきい値を導入することで、このトレードオフをさらに改善する。 適度に選択された閾値は、比較的少ない性能で、必要なトレーニング時間を約20%短縮することを示す。

Due to mutual interference between users, power allocation problems in wireless networks are often non-convex and computationally challenging. Graph neural networks (GNNs) have recently emerged as a promising approach to tackling these problems and an approach that exploits the underlying topology of wireless networks. In this paper, we propose a novel graph representation method for wireless networks that include full-duplex (FD) nodes. We then design a corresponding FD Graph Neural Network (F-GNN) with the aim of allocating transmit powers to maximise the network throughput. Our results show that our F-GNN achieves state-of-art performance with significantly less computation time. Besides, F-GNN offers an excellent trade-off between performance and complexity compared to classical approaches. We further refine this trade-off by introducing a distance-based threshold for inclusion or exclusion of edges in the network. We show that an appropriately chosen threshold reduces required training time by roughly 20% with a relatively minor loss in performance.
翻訳日:2024-01-10 00:12:45 公開日:2024-01-08
# トランスフォーマー固有のパッチを用いたコントラスト学習方式

A Contrastive Learning Scheme with Transformer Innate Patches ( http://arxiv.org/abs/2303.14806v2 )

ライセンス: Link先を確認
Sander Riis{\o}en Jyhne, Per-Arne Andersen, Morten Goodwin(参考訳) 本稿では,Transformer固有のパッチを用いたコントラスト学習方式であるContrastive Transformerを提案する。 Contrastive Transformerは、画像分類によく使用される既存のコントラスト学習技術を提供し、セマンティックセグメンテーションのような下流の密集した予測タスクに役立てる。 このスキームは、教師付きパッチレベルのコントラスト学習を行い、地上の真理マスクに基づいてパッチを選択し、その後、ハードネガティブおよびハード陽性サンプリングに使用される。 このスキームは、すべての視覚変換アーキテクチャに適用され、実装が容易であり、最小限のメモリフットプリントを導入する。 さらに、このスキームは、各パッチがイメージとして扱われるため、巨大なバッチサイズの必要性を取り除く。 本研究では,低分解能データ,大等級不均衡,類似意味クラスで知られている空中画像セグメンテーションにContrastive Transformerを適用して検証する。 ISPRS Potsdam空中画像セグメンテーションデータセットにおけるContrastive Transformerスキームの有効性を示すための広範な実験を行った。 さらに,複数の異なるトランスフォーマーアーキテクチャに適用することで,本手法の一般化可能性を示す。 最終的に、結果はすべてのクラスで平均IoUが一貫した増加を示した。

This paper presents Contrastive Transformer, a contrastive learning scheme using the Transformer innate patches. Contrastive Transformer enables existing contrastive learning techniques, often used for image classification, to benefit dense downstream prediction tasks such as semantic segmentation. The scheme performs supervised patch-level contrastive learning, selecting the patches based on the ground truth mask, subsequently used for hard-negative and hard-positive sampling. The scheme applies to all vision-transformer architectures, is easy to implement, and introduces minimal additional memory footprint. Additionally, the scheme removes the need for huge batch sizes, as each patch is treated as an image. We apply and test Contrastive Transformer for the case of aerial image segmentation, known for low-resolution data, large class imbalance, and similar semantic classes. We perform extensive experiments to show the efficacy of the Contrastive Transformer scheme on the ISPRS Potsdam aerial image segmentation dataset. Additionally, we show the generalizability of our scheme by applying it to multiple inherently different Transformer architectures. Ultimately, the results show a consistent increase in mean IoU across all classes.
翻訳日:2024-01-10 00:12:33 公開日:2024-01-08
# ニューラルネットワークにおける間接因果効果の学習と説明に向けて

Towards Learning and Explaining Indirect Causal Effects in Neural Networks ( http://arxiv.org/abs/2303.13850v3 )

ライセンス: Link先を確認
Abbavaram Gowtham Reddy, Saketh Bachu, Harsharaj Pathak, Benin L Godfrey, Vineeth N. Balasubramanian, Varshaneya V, Satya Narayanan Kar(参考訳) 近年,ニューラルネットワーク(NN)モデルにおける因果関係の学習と説明への関心が高まっている。 NNアーキテクチャにより、入力変数間の独立性を仮定する直接的な因果効果と完全な因果効果のみを考慮する。 NNを構造因果モデル(Structuor causal model, SCM)とみなし、入力ニューロン間のフィードフォワード接続を導入することで間接因果効果を含むように焦点を絞る。 NNモデルトレーニング中の直接的・間接的・総因果効果を捕捉・維持するアンテホック法を提案する。 また,nnモデルにおいて学習因果効果を定量化するアルゴリズムと,高次元データにおける因果効果を定量化する効率的な近似戦略を提案する。 人工的および実世界のデータセットで行った大規模な実験により、我々のアンテホック法で得られた因果効果が、既存の方法よりも地上の真理効果をよりよく近似することを示した。

Recently, there has been a growing interest in learning and explaining causal effects within Neural Network (NN) models. By virtue of NN architectures, previous approaches consider only direct and total causal effects assuming independence among input variables. We view an NN as a structural causal model (SCM) and extend our focus to include indirect causal effects by introducing feedforward connections among input neurons. We propose an ante-hoc method that captures and maintains direct, indirect, and total causal effects during NN model training. We also propose an algorithm for quantifying learned causal effects in an NN model and efficient approximation strategies for quantifying causal effects in high-dimensional data. Extensive experiments conducted on synthetic and real-world datasets demonstrate that the causal effects learned by our ante-hoc method better approximate the ground truth effects compared to existing methods.
翻訳日:2024-01-10 00:12:12 公開日:2024-01-08
# マルチモーダルパラメータ効率の良いFew-Shotクラスインクリメンタルラーニング

Multimodal Parameter-Efficient Few-Shot Class Incremental Learning ( http://arxiv.org/abs/2303.04751v2 )

ライセンス: Link先を確認
Marco D'Alessandro, Alberto Alonso, Enrique Calabr\'es, Mikel Galar(参考訳) FSCIL(Few-Shot Class Incremental Learning)は、いくつかの学習セッションで限られたトレーニング例が利用できる、挑戦的な継続的学習タスクである。 このタスクを成功させるためには,マイナショットトレーニングセットにおけるバイアス分散に起因する新しいクラスへの過剰適合を避ける必要がある。 この問題に対処する一般的なアプローチは、古いクラスとの後方互換性のために特別なモジュールを追加することで、事前定義されたバックボーンアーキテクチャの表現能力を高めることである。 しかし、この手法は、より大きなトレーニングセットとより小さなトレーニングセットで得られた性能のギャップを減らしながら、時間とともに高い分類精度を確保するというジレンマをまだ解決していない。 本研究では,異なる学習セッション間での情報損失を低減するために,連続パラメータ効率クリップ(cpe-clip)と呼ばれる代替手法を提案する。 情報損失に対処するために追加モジュールを適用する代わりに、大規模事前学習においてCLIPが獲得した膨大な知識を活用し、新しい概念への一般化に有効である。 我々のアプローチはマルチモーダルかつパラメータ効率であり、セッション間の移動学習を可能にするために言語と視覚エンコーダの両方で学習可能なプロンプトに依存している。 また、パフォーマンスを改善し、忘れることを防ぐために、即興の規則化も導入します。 実験の結果,CPE-CLIPは最新の提案に比べてFSCILの性能を著しく向上させるとともに,学習可能なパラメータの数やトレーニングコストを大幅に削減することがわかった。

Few-Shot Class Incremental Learning (FSCIL) is a challenging continual learning task, where limited training examples are available during several learning sessions. To succeed in this task, it is necessary to avoid over-fitting new classes caused by biased distributions in the few-shot training sets. The general approach to address this issue involves enhancing the representational capability of a pre-defined backbone architecture by adding special modules for backward compatibility with older classes. However, this approach has not yet solved the dilemma of ensuring high classification accuracy over time while reducing the gap between the performance obtained on larger training sets and the smaller ones. In this work, we propose an alternative approach called Continual Parameter-Efficient CLIP (CPE-CLIP) to reduce the loss of information between different learning sessions. Instead of adapting additional modules to address information loss, we leverage the vast knowledge acquired by CLIP in large-scale pre-training and its effectiveness in generalizing to new concepts. Our approach is multimodal and parameter-efficient, relying on learnable prompts for both the language and vision encoders to enable transfer learning across sessions. We also introduce prompt regularization to improve performance and prevent forgetting. Our experimental results demonstrate that CPE-CLIP significantly improves FSCIL performance compared to state-of-the-art proposals while also drastically reducing the number of learnable parameters and training costs.
翻訳日:2024-01-10 00:10:45 公開日:2024-01-08
# 最小観測可能性原理による量子力学

Quantum Mechanics From Principle of Least Observability ( http://arxiv.org/abs/2302.14619v7 )

ライセンス: Link先を確認
Jianhao M. Yang(参考訳) 基礎的非相対論的量子定式化は最小可観測性原理から導出できることを示す。 この原理は、2つの仮定を分解することで古典力学から最小の作用原理を拡張する。 第一に、Planck定数は、観測可能となるために、物理オブジェクトがそのダイナミクス中に示す必要がある個別のアクションの量を定義する。 第二に、古典軌道に沿って一定の真空揺らぎがある。 真空変動による観測可能な追加情報を測定するための新しい手法が提案され,第1の仮定によって追加動作に変換される。 全作用を最小化するために変分原理を適用することにより、不確実性関係を含む基本量子定式化と、位置および運動量表現の両方においてシュル・"{o}ディンガー方程式をエレガントに回復することができる。 好ましくない表現仮定を加えると、位置と運動量表現の間の変換の定式化が得られる。 拡張最小作用原理は、古典力学がどのように量子力学になるかを明確に示す。 さらに、新しい結果をもたらすことができる数学的ツールである。 相対エントロピーのより一般的な定義を用いて真空揺らぎの情報メトリクスを定義することにより、相対エントロピーの順序に依存する一般化されたシュルンディンガー方程式を得る。 この原理は、量子スカラー場理論のようなより先進的な量子形式論を導出するために応用することができる。

We show that the basic non-relativistic quantum formulations can be derived from a least observability principle. The principle extends the least action principle from classical mechanics by factoring in two assumptions. First, the Planck constant defines the discrete amount of action a physical object needs to exhibit during its dynamics in order to be observable. Second, there is constant vacuum fluctuation along a classical trajectory. A novel method is introduced to define the information metrics that measures additional observable information due to vacuum fluctuations, which is then converted to the additional action through the first assumption. Applying the variation principle to minimize the total actions allows us to elegantly recover the basic quantum formulations including the uncertainty relation and the Schr\"{o}dinger equation in both position and momentum representations. Adding the no preferred representation assumption, we obtain the transformation formulation between position and momentum representations. The extended least action principle shows clearly how classical mechanics becomes quantum mechanics. Furthermore, it is a mathematical tool that can bring in new results. By defining the information metrics for vacuum fluctuations using more general definitions of relative entropy, we obtain a generalized Schr\"{o}dinger equation that depends on the order of relative entropy. The principle can be applied to derive more advance quantum formalism such as quantum scalar field theory.
翻訳日:2024-01-10 00:10:19 公開日:2024-01-08
# 量子コンピューティングにおけるデータ入力のためのブロック符号化構造行列

Block-encoding structured matrices for data input in quantum computing ( http://arxiv.org/abs/2302.10949v2 )

ライセンス: Link先を確認
Christoph S\"underhauf, Earl Campbell, Joan Camps(参考訳) データ入力のコストは、量子アルゴリズムの実行時間を支配します。 本稿では,ブロック符号化回路,量子特異値変換の入力モデル,関連するアルゴリズムを用いて,算術的構成行列のデータ入力を考える。 本稿では,行列の繰り返し値のスパーシティとパターンの算術的記述に基づいてブロック符号化回路を構築する方法を示す。 我々はブロック符号化の異なる部分正規化を与えるスキームを提示する; 比較により、最良の選択は特定の行列に依存する。 得られた回路は、間隔に応じてフラグキュービット数を削減し、繰り返し値に応じてデータ読み込みコストを削減し、特定の行列に対して指数関数的に改善する。 我々は、toeplitz や tridiagonal matrices を含むいくつかの行列にブロック符号化スキームを適用する例を示す。

The cost of data input can dominate the run-time of quantum algorithms. Here, we consider data input of arithmetically structured matrices via block encoding circuits, the input model for the quantum singular value transform and related algorithms. We demonstrate how to construct block encoding circuits based on an arithmetic description of the sparsity and pattern of repeated values of a matrix. We present schemes yielding different subnormalisations of the block encoding; a comparison shows that the best choice depends on the specific matrix. The resulting circuits reduce flag qubit number according to sparsity, and data loading cost according to repeated values, leading to an exponential improvement for certain matrices. We give examples of applying our block encoding schemes to a few families of matrices, including Toeplitz and tridiagonal matrices.
翻訳日:2024-01-10 00:09:55 公開日:2024-01-08
# 自己注意力学におけるクラスターの出現

The emergence of clusters in self-attention dynamics ( http://arxiv.org/abs/2305.05465v4 )

ライセンス: Link先を確認
Borjan Geshkovski, Cyril Letrouit, Yury Polyanskiy, Philippe Rigollet(参考訳) 相互作用する粒子系としてトランスフォーマーを見ることにより,重みが時間に依存しない場合の学習表現の幾何学を記述する。 トークンを表す粒子は、時間とともに無限大となるため、特定の制限対象に向かって集結する傾向にある。 クラスタ位置は初期トークンによって決定され、Transformersが学習した表現のコンテキスト認識を確認する。 力学系と偏微分方程式の手法を用いて、出現する制限対象の型は値行列のスペクトルに依存することを示した。 さらに、一次元の場合、自己着行列が低階ブール行列に収束することを証明する。 これらの結果の組み合わせは、vaswaniらによる経験的観察を数学的に確認する。 [VSP'17]トランスフォーマーによって処理されると、リーダーが一連のトークンに現れる。

Viewing Transformers as interacting particle systems, we describe the geometry of learned representations when the weights are not time dependent. We show that particles, representing tokens, tend to cluster toward particular limiting objects as time tends to infinity. Cluster locations are determined by the initial tokens, confirming context-awareness of representations learned by Transformers. Using techniques from dynamical systems and partial differential equations, we show that the type of limiting object that emerges depends on the spectrum of the value matrix. Additionally, in the one-dimensional case we prove that the self-attention matrix converges to a low-rank Boolean matrix. The combination of these results mathematically confirms the empirical observation made by Vaswani et al. [VSP'17] that leaders appear in a sequence of tokens when processed by Transformers.
翻訳日:2024-01-10 00:02:54 公開日:2024-01-08
# 医療記録凝縮 : 医療データの民主化に向けたロードマップ

Medical records condensation: a roadmap towards healthcare data democratisation ( http://arxiv.org/abs/2305.03711v2 )

ライセンス: Link先を確認
Yujiang Wang, Anshul Thakur, Mingzhi Dong, Pingchuan Ma, Stavros Petridis, Li Shang, Tingting Zhu, David A. Clifton(参考訳) 人工知能(AI)の流行は、すべてのステークホルダーに新しいより良い生活様式を約束する医療民主化の時代を思い描いている。 しかし、臨床AI研究の進歩は、医療におけるデータの民主化の後退によって著しくハードルがかかる。 ai研究のデータを真に民主化するには、課題は2つある。 一 臨床データの機密情報を適切に匿名化し、かつ 2.ai指向の臨床知識は組織全体に自由に流れるべきである。 本稿では,近年の深層学習の進展であるデータセット凝縮(DC)を,医療データの民主化において2羽の鳥を殺す石として考察する。 統計メタデータと見なせるDC以降の凝縮したデータは、オリジナルの臨床記録を抽象化し、個々のレベルで機密情報を不可逆的に隠蔽する。 より好ましくは、圧縮されたボリュームと凝縮データの加速されたモデル学習は、データの民主化によって必要となるように、より効率的な臨床知識共有とフローシステムを表している。 我々は、臨床データ、特に電気医療記録(ehrs)を民主化するdcの展望を、さまざまなデータタイプの3つの医療データセットにまたがる実験結果と分析を通じて強調する。

The prevalence of artificial intelligence (AI) has envisioned an era of healthcare democratisation that promises every stakeholder a new and better way of life. However, the advancement of clinical AI research is significantly hurdled by the dearth of data democratisation in healthcare. To truly democratise data for AI studies, challenges are two-fold: 1. the sensitive information in clinical data should be anonymised appropriately, and 2. AI-oriented clinical knowledge should flow freely across organisations. This paper considers a recent deep-learning advent, dataset condensation (DC), as a stone that kills two birds in democratising healthcare data. The condensed data after DC, which can be viewed as statistical metadata, abstracts original clinical records and irreversibly conceals sensitive information at individual levels; nevertheless, it still preserves adequate knowledge for learning deep neural networks (DNNs). More favourably, the compressed volumes and the accelerated model learnings of condensed data portray a more efficient clinical knowledge sharing and flowing system, as necessitated by data democratisation. We underline DC's prospects for democratising clinical data, specifically electrical healthcare records (EHRs), for AI research through experimental results and analysis across three healthcare datasets of varying data types.
翻訳日:2024-01-10 00:00:55 公開日:2024-01-08
# 一般ドメイン上に定義されたニューラルネットワーク関連カーネル関数の固有値減少率について

On the Eigenvalue Decay Rates of a Class of Neural-Network Related Kernel Functions Defined on General Domains ( http://arxiv.org/abs/2305.02657v4 )

ライセンス: Link先を確認
Yicheng Li, Zixiong Yu, Guhan Chen, Qian Lin(参考訳) 本稿では、$\mathbb S^{d}$ではなく、一般領域上で定義される大きなカーネル関数の固有値減衰率(EDR)を決定するための戦略を提供する。 この種類のカーネル関数は包含するが、異なる深さと様々な活性化関数を持つニューラルネットワークに関連する神経接核に限定されない。 広義のニューラルネットワークのトレーニングのダイナミクスが一般領域における神経接核回帰のそれと均一に近似していることが証明された後、地下真理関数 $f\in [\mathcal h_{\mathrm{ntk}}]^{s}$, rkhs $\mathcal{h}_{\mathrm{ntk}}$ of ntk に付随する補間空間として、広義のニューラルネットワークの最小最適性を示すことができる。 また、過剰に適合したニューラルネットワークはうまく一般化できないことを示した。 カーネルのEDRを決定するための我々のアプローチも、独立した関心事であると考えています。

In this paper, we provide a strategy to determine the eigenvalue decay rate (EDR) of a large class of kernel functions defined on a general domain rather than $\mathbb S^{d}$. This class of kernel functions include but are not limited to the neural tangent kernel associated with neural networks with different depths and various activation functions. After proving that the dynamics of training the wide neural networks uniformly approximated that of the neural tangent kernel regression on general domains, we can further illustrate the minimax optimality of the wide neural network provided that the underground truth function $f\in [\mathcal H_{\mathrm{NTK}}]^{s}$, an interpolation space associated with the RKHS $\mathcal{H}_{\mathrm{NTK}}$ of NTK. We also showed that the overfitted neural network can not generalize well. We believe our approach for determining the EDR of kernels might be also of independent interests.
翻訳日:2024-01-10 00:00:33 公開日:2024-01-08
# MaskSearch: イメージマスクを大規模にクエリする

MaskSearch: Querying Image Masks at Scale ( http://arxiv.org/abs/2305.02375v2 )

ライセンス: Link先を確認
Dong He, Jieyu Zhang, Maureen Daum, Alexander Ratner, Magdalena Balazinska(参考訳) 画像データベース上の機械学習タスクは、しばしば画像コンテンツに注釈をつけるマスク(例えば、塩分マップ、セグメンテーションマップ、深度マップ)を生成し、様々なアプリケーションを可能にする(例えば、モデルがスプリアス相関を学習しているかどうか、または、画像が悪意を持ってモデルを見誤っているかどうかを判断する)。 マスク特性に基づいて例を検索するクエリは実践者にとって価値があるが、既存のシステムはそれらを効率的にサポートしていない。 本稿では,この問題を形式化し,クエリ結果の正確性を確保しつつ,画像マスクのデータベース上でクエリを高速化するシステムであるmasksearchを提案する。 MaskSearchは、新しいインデックス技術と効率的なフィルタ検証クエリ実行フレームワークを活用している。 プロトタイプを用いた実験では,圧縮されたデータサイズの約5%のインデックスを使用して,個々のクエリを最大2桁高速化し,データセット探索と分析プロセスをシミュレートした,さまざまなマルチクエリワークロードの既存メソッドを一貫して上回っている。

Machine learning tasks over image databases often generate masks that annotate image content (e.g., saliency maps, segmentation maps, depth maps) and enable a variety of applications (e.g., determine if a model is learning spurious correlations or if an image was maliciously modified to mislead a model). While queries that retrieve examples based on mask properties are valuable to practitioners, existing systems do not support them efficiently. In this paper, we formalize the problem and propose MaskSearch, a system that focuses on accelerating queries over databases of image masks while guaranteeing the correctness of query results. MaskSearch leverages a novel indexing technique and an efficient filter-verification query execution framework. Experiments with our prototype show that MaskSearch, using indexes approximately 5% of the compressed data size, accelerates individual queries by up to two orders of magnitude and consistently outperforms existing methods on various multi-query workloads that simulate dataset exploration and analysis processes.
翻訳日:2024-01-10 00:00:13 公開日:2024-01-08
# バイアスノイズ量子ビットに対するスケーラブルノイズ量子回路

Scalable noisy quantum circuits for biased-noise qubits ( http://arxiv.org/abs/2305.02045v4 )

ライセンス: Link先を確認
Marco Fellous-Asiani, Moein Naseri, Chandan Datta, Alexander Streltsov, Micha{\l} Oszmaniec(参考訳) 本研究では,安定猫量子ビットの既存システムに動機づけられたビットフリップ誤差のみに影響されるバイアスノイズ量子ビットについて考察する。 この特性により、アルゴリズム繰り返しの多項式オーバーヘッドだけで確実に実行される、絡み合いと非クリフォードゲートを含むノイズの多いアダマールテストのクラスを設計できる。 逆に、古典的なアルゴリズムは、特定のHadamardテストのノイズとノイズのないバージョンの両方を効率的にシミュレートできることがわかった。 これらのアルゴリズムを,大規模回路規模における雑音のバイアスネスの簡易ベンチマークとして用いることを提案する。 完全な計算タスクでチェックされるバイアスにより、ベンチマークはクロストークや時間関連のエラーに敏感になり、通常は個々のゲートトモグラフィーからは見えない。 現実的なノイズモデルでは位相フリップは無視できないが、pauli-twirling近似では、ノイズバイアスを利用していない回路よりも数桁大きい10^6$ゲートを含む回路の正確性をチェックすることができる。 我々のベンチマークは、パウリモデル以外の任意のノイズバイアスに適用できる。

In this work, we consider biased-noise qubits affected only by bit-flip errors, which is motivated by existing systems of stabilized cat qubits. This property allows us to design a class of noisy Hadamard-tests involving entangling and certain non-Clifford gates, which can be conducted reliably with only a polynomial overhead in algorithm repetitions. On the flip side we also found classical algorithms able to efficiently simulate both the noisy and noiseless versions of our specific variants of Hadamard test. We propose to use these algorithms as a simple benchmark of the biasness of the noise at the scale of large circuits. The bias being checked on a full computational task, it makes our benchmark sensitive to crosstalk or time-correlated errors, which are usually invisible from individual gate tomography. For realistic noise models, phase-flip will not be negligible, but in the Pauli-Twirling approximation, we show that our benchmark could check the correctness of circuits containing up to $10^6$ gates, several orders of magnitudes larger than circuits not exploiting a noise-bias. Our benchmark is applicable for an arbitrary noise-bias, beyond Pauli models.
翻訳日:2024-01-09 23:59:50 公開日:2024-01-08
# 欠陥の存在下での量子誤り訂正符号とモジュラーチップレットの符号

Codesign of quantum error-correcting codes and modular chiplets in the presence of defects ( http://arxiv.org/abs/2305.00138v2 )

ライセンス: Link先を確認
Sophia Fuhui Lin, Joshua Viszlai, Kaitlin N. Smith, Gokul Subramanian Ravi, Charles Yuan, Frederic T. Chong, Benjamin J. Brown(参考訳) 製造エラーは、固体量子デバイスをフォールトトレラント(FT)量子アプリケーションに必要なサイズにスケールアップする上で大きな課題となる。 製造エラーによるリソースオーバーヘッドを軽減するために,(1)モジュールアーキテクチャの柔軟性を活用する,(2)qec(quantum error correction)の手順を適用する、という2つのアプローチを組み合わせる。 我々は、任意に分散した欠陥を持つキュービットアレイに適応した表面コードをシミュレートし、欠陥が忠実性に与える影響を特徴づける指標を見つける。 次に、フォールトトレラントな量子コンピュータを実現する際のリソースオーバーヘッドに対する欠陥の影響をチップレットベースのモジュラーアーキテクチャで決定する。 提案手法は,回路系ノイズモデルにおいて,非正則物理量子ビットの誤差率が0.1%程度であるような論理故障の指数関数的抑制を示す。 これは、欠陥のないsurfaceコードを実行するような典型的な仕組みです。 我々は,欠陥チップレットからデバイスを構築するための選択後基準を確立するために,数値結果を用いた。 この基準を用いて,論理キュービット当たりの物理キュービットの平均個数の観点から,資源のオーバーヘッドを評価する。 欠陥率と目標忠実度に基づいて最適なチップレットサイズを選択することは、欠陥による追加のエラー修正オーバーヘッドを制限するのに不可欠である。 最適なチップレットサイズを選択すると、1%の欠陥率でリソースオーバーヘッドを2つの欠陥モデルでそれぞれ3倍と6倍に減らし、幅広い目標性能を得ることができる。 また、qubitを無効にするか、エラー訂正コードの一部として保持すべきかを特定するのに役立つカットオフ忠実度値を判定する。

Fabrication errors pose a significant challenge in scaling up solid-state quantum devices to the sizes required for fault-tolerant (FT) quantum applications. To mitigate the resource overhead caused by fabrication errors, we combine two approaches: (1) leveraging the flexibility of a modular architecture, (2) adapting the procedure of quantum error correction (QEC) to account for fabrication defects. We simulate the surface code adapted to qubit arrays with arbitrarily distributed defects to find metrics that characterize how defects affect fidelity. We then determine the impact of defects on the resource overhead of realizing a fault-tolerant quantum computer, on a chiplet-based modular architecture. Our strategy for dealing with fabrication defects demonstrates an exponential suppression of logical failure where error rates of non-faulty physical qubits are ~0.1% in a circuit-based noise model. This is a typical regime where we imagine running the defect-free surface code. We use our numerical results to establish post-selection criteria for building a device from defective chiplets. Using our criteria, we then evaluate the resource overhead in terms of the average number of fabricated physical qubits per logical qubit. We find that an optimal choice of chiplet size, based on the defect rate and target fidelity, is essential to limiting any additional error correction overhead due to defects. When the optimal chiplet size is chosen, at a defect rate of 1% the resource overhead can be reduced to below 3X and 6X respectively for the two defect models we use, for a wide range of target performance. We also determine cutoff fidelity values that help identify whether a qubit should be disabled or kept as part of the error correction code.
翻訳日:2024-01-09 23:59:16 公開日:2024-01-08
# 量子作用素上のマイクロカノニカルウィンドウ

Microcanonical windows on quantum operators ( http://arxiv.org/abs/2304.10948v3 )

ライセンス: Link先を確認
Silvia Pappalardi, Laura Foini and Jorge Kurchan(参考訳) 本稿では、エネルギーウィンドウフィルタwによって誘起される量子演算子oのマイクロカノニカル射影wの構築、そのスペクトル、およびそれからの正準多時間相関の検索について論じる。

We discuss the construction of a microcanonical projection WOW of a quantum operator O induced by an energy window filter W, its spectrum, and the retrieval of canonical many-time correlations from it.
翻訳日:2024-01-09 23:58:20 公開日:2024-01-08
# 正規化8点アルゴリズムと自己教師付き深解の再検討

A Revisit of the Normalized Eight-Point Algorithm and A Self-Supervised Deep Solution ( http://arxiv.org/abs/2304.10771v2 )

ライセンス: Link先を確認
Bin Fan, Yuchao Dai, Yongduek Seo, Mingyi He(参考訳) 正規化八点アルゴリズムは、2次元幾何学計算の基盤として広く見なされており、半正規化は直線形変換(DLT)アルゴリズムの性能を大幅に向上させる。 自然な疑問は、入力サンプルごとにさらに性能を向上させるであろう他の正規化方法が存在するかどうかである。 本稿では、新しい視点を提供し、この根本的な問題に2つの貢献をする。 1) 正規化された8点アルゴリズムを再検討し, より優れた正規化アルゴリズムの存在を示すことによって理論的貢献を行う。 2) 自己教師型学習戦略を正規化に適用した深層畳み込みニューラルネットワークを提案する。 8対の対応が与えられると、ネットワークは正規化行列を直接予測し、各入力サンプルの正規化を学習する。 私たちの学習ベースの正規化モジュールは、最小限の努力で、従来の(例えば、RANSAC)とディープラーニングフレームワークの両方に統合できます。 合成画像と実画像の両方について広範な実験を行い,提案手法の有効性を示した。

The Normalized Eight-Point algorithm has been widely viewed as the cornerstone in two-view geometry computation, where the seminal Hartley's normalization greatly improves the performance of the direct linear transformation (DLT) algorithm. A natural question is, whether there exists and how to find other normalization methods that may further improve the performance as per each input sample. In this paper, we provide a novel perspective and make two contributions towards this fundamental problem: 1) We revisit the normalized eight-point algorithm and make a theoretical contribution by showing the existence of different and better normalization algorithms; 2) We present a deep convolutional neural network with a self-supervised learning strategy to the normalization. Given eight pairs of correspondences, our network directly predicts the normalization matrices, thus learning to normalize each input sample. Our learning-based normalization module could be integrated with both traditional (e.g., RANSAC) and deep learning framework (affording good interpretability) with minimal efforts. Extensive experiments on both synthetic and real images show the effectiveness of our proposed approach.
翻訳日:2024-01-09 23:58:15 公開日:2024-01-08
# チャトGPTの教育・教育における中国の社会的視点に関する研究

A Study on Chinese Social Perspective regarding ChatGPT for Education and Beyond ( http://arxiv.org/abs/2306.04325v2 )

ライセンス: Link先を確認
Yao Tian, Chengwei Tong, Lik-Hang Lee, Reza Hadi Mogavi, Yong Liao, Pengyuan Zhou(参考訳) ChatGPTは多くの分野、特に学術コミュニティの関心を喚起してきた。 最新バージョンのGPT-4はマルチモーダル入力と出力をサポートする。 本研究は、中国国民がChatGPTの可能性を教育的、一般目的にどう捉えているかをソーシャルメディアで分析する。 この研究は、GPT-4のリリース以来、世論の変化を調査する最初の試みでもある。 分析結果によると、GPT-4の前には、一部のソーシャルメディア利用者はAIの進歩が教育や社会に恩恵をもたらすと信じていたが、ChatGPTのような先進的なAIは人間を劣悪に感じさせ、不正行為や道徳的原則の低下などの問題を招き、大多数は中立なままだと信じていた。 興味深いことに、GPT-4の公開以降、公衆の態度はポジティブな方向に移行する傾向にある。 教育におけるchatgpt様モデルの倫理的適用性を確保するため,トレンドシフトとロードマップを徹底的に分析した。

ChatGPT has piqued the interest of many fields, particularly in the academic community. GPT-4, the latest version, starts supporting multimodal input and output. This study examines social media posts to analyze how the Chinese public perceives the potential of ChatGPT for educational and general purposes. The study also serves as the first effort to investigate the changes in public opinion since the release of GPT-4. According to the analysis results, prior to GPT-4, although some social media users believed that AI advancements would benefit education and society, some believed that advanced AI, such as ChatGPT, would make humans feel inferior and lead to problems such as cheating and a decline in moral principles, while the majority remain neutral. Interestingly, public attitudes have tended to shift in a positive direction since the release of GPT-4. We present a thorough analysis of the trending shift and a roadmap to ensure the ethical application of ChatGPT-like models in education and beyond.
翻訳日:2024-01-09 23:51:27 公開日:2024-01-08
# qudit量子力学のフレーム表現

Frame representations of qudit quantum mechanics ( http://arxiv.org/abs/2305.19287v8 )

ライセンス: Link先を確認
Nicolae Cotfas(参考訳) quditsのwigner関数を定義する試みは数多くあり、それぞれにその利点と限界がある。 既存の有限バージョンは単純な定義を持つが、構成上は人工的であり、直感的な状態解析を許さない。 連続バージョンはより複雑な定義を持つが、元のウィグナー関数と類似しており、量子状態の可視化を可能にする。 我々が提示するタイトフレームの概念に基づくバージョンは有限であるが、連続バージョンと似た特性と応用がある。

There exist many attempts to define a Wigner function for qudits, each of them coming with its advantages and limitations. The existing finite versions have simple definitions, but they are artificial in their construction and do not allow an intuitive state analysis. The continuous versions have more complicated definitions, but they are similar to the original Wigner function and allow a visualization of the quantum states. The version based on the concept of tight frame we present is finite, but it has certain properties and applications similar to those of continuous versions.
翻訳日:2024-01-09 23:49:30 公開日:2024-01-08
# 行列積状態と雑音量子コンピュータの組み合わせによる量子シミュレーション

Combining Matrix Product States and Noisy Quantum Computers for Quantum Simulation ( http://arxiv.org/abs/2305.19231v2 )

ライセンス: Link先を確認
Baptiste Anselme Martin, Thomas Ayral, Fran\c{c}ois Jamet, Marko J. Ran\v{c}i\'c, Pascal Simon(参考訳) 行列生成状態(MPS)と演算子(MPO)は、量子多体系を研究するための強力なツールであることが証明されているが、パラメータの数がエントロピーと指数関数的にスケールするため、適度に絡み合った状態に制限されている。 MPSは1Dシステムの基底状態を効率的に見つけることができるが、その能力は力学をシミュレートする際に制限される。 一方、量子デバイスは相関した多体状態の時間発展をエンコードし実行するための自然なプラットフォームとして現れる。 しかし、長期力学の体系にアクセスすることは量子ノイズによって妨げられる。 本研究では,MPO最適化量子回路を効率よく実現し,より効率的なMPO最適化量子回路により,量子コンピュータに時間的・時間的に処理を行う。 このハイブリッド古典量子スキームの容量をノイズモデルを考慮した忠実度の観点から定量化する。 古典的知識をテンソルネットワークの形で用いることで、限られた量子リソースをより効果的に利用し、実用的な量子アドバンテージに到達するためのノイズ要件を大幅に低減できることを示す。 最後に,本手法の実験的実現により,本手法の実証に成功した。 低次元MPSや純粋量子トロッターの進化よりも長い時間スケールで、10量子ビットのシステムを実際の量子デバイス上でシミュレートする。

Matrix Product States (MPS) and Operators (MPO) have been proven to be a powerful tool to study quantum many-body systems but are restricted to moderately entangled states as the number of parameters scales exponentially with the entanglement entropy. While MPS can efficiently find ground states of 1D systems, their capacities are limited when simulating their dynamics, where the entanglement can increase ballistically with time. On the other hand, quantum devices appear as a natural platform to encode and perform the time evolution of correlated many-body states. However, accessing the regime of long-time dynamics is hampered by quantum noise. In this study we use the best of worlds: the short-time dynamics is efficiently performed by MPSs, compiled into short-depth quantum circuits, and is performed further in time on a quantum computer thanks to efficient MPO-optimized quantum circuits. We quantify the capacities of this hybrid classical-quantum scheme in terms of fidelities taking into account a noise model. We show that using classical knowledge in the form of tensor networks provides a way to better use limited quantum resources and lowers drastically the noise requirements to reach a practical quantum advantage. Finally we successfully demonstrate our approach with an experimental realization of the technique. Combined with efficient circuit transpilation we simulate a 10-qubit system on an actual quantum device over a longer time scale than low-bond-dimension MPSs and purely quantum Trotter evolution.
翻訳日:2024-01-09 23:49:21 公開日:2024-01-08
# YOLOv8を用いた新しいリアルタイム不整脈検出モデル

A Novel real-time arrhythmia detection model using YOLOv8 ( http://arxiv.org/abs/2305.16727v3 )

ライセンス: Link先を確認
Guang Jun Nicholas Ang, Aritejh Kr Goil, Henryk Chan, Jieyi Jeric Lew, Xin Chun Lee, Raihan Bin Ahmad Mustaffa, Timotius Jason, Ze Ting Woon and Bingquan Shen(参考訳) 心血管疾患の急増に伴う接続性や移動性の向上を特徴とする景観では、心血管の健康状態の遠隔監視による医療費の削減がますます顕著になっている。 心不整脈の正確な検出と分類は、心臓の不整脈を診断する上で重要である。 本研究は,心電図(ecg)を用いた実時間不整脈検出の可能性について検討する。 不整脈検出の新しい応用として, 最先端のYou-Only-Look-Once (YOLO)v8アルゴリズムを用いて, 単一リードECG信号の分類を行う。 我々は,MIT-BIH不整脈データセットを微調整した損失修正型YOLOv8モデルを提案する。 その結果,モデルの平均精度は99.5% と 0.992 map@50 となり,nvidia tesla v100 では 0.002 秒 の高速検出が可能となった。 本研究は,実時間不整脈検出の可能性を示すもので,利用者は自宅の快適さの中でモデル出力を視覚的に解釈することができる。 さらに、本研究では、医療分野に展開可能なリアルタイム説明可能なAI(XAI)モデルへの拡張の基礎を定め、医療ソリューションの領域を大幅に発展させる。

In a landscape characterized by heightened connectivity and mobility, coupled with a surge in cardiovascular ailments, the imperative to curtail healthcare expenses through remote monitoring of cardiovascular health has become more pronounced. The accurate detection and classification of cardiac arrhythmias are pivotal for diagnosing individuals with heart irregularities. This study underscores the feasibility of employing electrocardiograms (ECG) measurements in the home environment for real-time arrhythmia detection. Presenting a fresh application for arrhythmia detection, this paper leverages the cutting-edge You-Only-Look-Once (YOLO)v8 algorithm to categorize single-lead ECG signals. We introduce a novel loss-modified YOLOv8 model, fine-tuned on the MIT-BIH arrhythmia dataset, enabling real-time continuous monitoring. The obtained results substantiate the efficacy of our approach, with the model attaining an average accuracy of 99.5% and 0.992 mAP@50, and a rapid detection time of 0.002 seconds on an NVIDIA Tesla V100. Our investigation exemplifies the potential of real-time arrhythmia detection, enabling users to visually interpret the model output within the comfort of their homes. Furthermore, this study lays the groundwork for an extension into a real-time explainable AI (XAI) model capable of deployment in the healthcare sector, thereby significantly advancing the realm of healthcare solutions.
翻訳日:2024-01-09 23:48:42 公開日:2024-01-08
# 量子デジタル支払いの実証

Demonstration of quantum-digital payments ( http://arxiv.org/abs/2305.14504v2 )

ライセンス: Link先を確認
Peter Schiansky, Julia Kalb, Esther Sztatecsny, Marie-Christine Roehsner, Tobias Guggemos, Alessandro Trenti, Mathieu Bozzio, Philip Walther(参考訳) デジタル決済は、私たちの日常生活の多くの面において、物理的な紙幣を置き換える。 紙幣と同様に、使いやすく、ユニークで、タンパーに耐性があり、追跡不能だが、デジタル攻撃やデータ漏洩にも耐えられる。 現在の技術は、顧客の機密データをランダム化トークンで置き換え、暗号通貨と呼ばれる暗号関数で支払いの独特性を確保している。 しかし、計算能力の強い攻撃はこれらの機能のセキュリティを侵害する。 量子技術は無限の計算能力からでも保護される可能性がある。 ここでは、量子光が本質的に忘れられない量子暗号を生成することによって、日々のデジタル支払いを安全にする方法を示す。 本手法を都市光ファイバリンク上で実装し,ノイズや損失依存攻撃に対するロバスト性を示す。 提案したプロトコルとは異なり、我々のソリューションは長期量子ストレージや信頼できるエージェント、認証チャネルに依存しない。 短期技術では実用的であり、量子可能なセキュリティの時代を告げるかもしれない。

Digital payments have replaced physical banknotes in many aspects of our daily lives. Similarly to banknotes, they should be easy to use, unique, tamper-resistant and untraceable, but additionally withstand digital attackers and data breaches. Current technology substitutes customers' sensitive data by randomized tokens, and secures the payment's uniqueness with a cryptographic function, called a cryptogram. However, computationally powerful attacks violate the security of these functions. Quantum technology comes with the potential to protect even against infinite computational power. Here, we show how quantum light can secure daily digital payments by generating inherently unforgeable quantum cryptograms. We implement the scheme over an urban optical fiber link, and show its robustness to noise and loss-dependent attacks. Unlike previously proposed protocols, our solution does not depend on long-term quantum storage or trusted agents and authenticated channels. It is practical with near-term technology and may herald an era of quantum-enabled security.
翻訳日:2024-01-09 23:48:18 公開日:2024-01-08
# AlpacaFarm:人間のフィードバックから学ぶ方法のシミュレーションフレームワーク

AlpacaFarm: A Simulation Framework for Methods that Learn from Human Feedback ( http://arxiv.org/abs/2305.14387v4 )

ライセンス: Link先を確認
Yann Dubois, Xuechen Li, Rohan Taori, Tianyi Zhang, Ishaan Gulrajani, Jimmy Ba, Carlos Guestrin, Percy Liang, Tatsunori B. Hashimoto(参考訳) ChatGPTのような大規模言語モデル(LLM)は、強い命令追従能力のために広く採用されている。 これらのLLMの開発には、人間のフィードバックによるトレーニングを必要とする複雑なワークフローが伴う。 データ収集のコストの高さ、信頼性の高い評価の欠如、参照メソッドの実装の欠如という3つの大きな課題に取り組む必要がある。 低コストでフィードバックから学ぶための研究と開発を可能にするシミュレータAlpacaFarmでこれらの課題に対処する。 まず、群衆労働者よりも50倍安い人間のフィードバックをシミュレートし、人間と高い合意を示すllmプロンプトをデザインする。 第2に,実世界インタラクションで得られたヒューマンインストラクションに対して,自動評価を行い,検証する。 第3に、ペアのフィードバックから学ぶいくつかのメソッド(PPO、DPO、ベストプラクティス、専門家のイテレーションなど)の参照実装にコントリビュートする。 最後に、AlpacaFarmのエンドツーエンド検証として、実際の10k対のフィードバックに対して11のモデルをトレーニングし、評価し、AlpacaFarmでトレーニングされたモデルのランキングが、人間のデータに基づいてトレーニングされたモデルのランキングと一致することを示す。 AlpacaFarmで可能な研究の実証として、報酬モデルを用いた手法は教師付き微調整よりも大幅に改善され、我々の参照PPO実装はDavinci003に対する勝利率を+10%向上させることがわかった。 https://github.com/tatsu-lab/alpaca_farm.com/alpacaFarmのすべてのコンポーネントをリリースします。

Large language models (LLMs) such as ChatGPT have seen widespread adoption due to their strong instruction-following abilities. Developing these LLMs involves a complex yet poorly understood workflow requiring training with human feedback. Replicating and understanding this instruction-following requires tackling three major challenges: the high cost of data collection, the lack of trustworthy evaluation, and the absence of reference method implementations. We address these challenges with AlpacaFarm, a simulator that enables research and development for learning from feedback at a low cost. First, we design LLM prompts to simulate human feedback that are 50x cheaper than crowdworkers and display high agreement with humans. Second, we propose an automatic evaluation and validate it against human instructions obtained on real-world interactions. Third, we contribute reference implementations for several methods (PPO, DPO, best-of-n, expert iteration, and more) that learn from pairwise feedback. Finally, as an end-to-end validation of AlpacaFarm, we train and evaluate eleven models on 10k pairs of real human feedback and show that rankings of models trained in AlpacaFarm match rankings of models trained on human data. As a demonstration of the research possible in AlpacaFarm, we find that methods that use a reward model can substantially improve over supervised fine-tuning and that our reference PPO implementation leads to a +10% improvement in win-rate against Davinci003. We release all components of AlpacaFarm at https://github.com/tatsu-lab/alpaca_farm.
翻訳日:2024-01-09 23:48:05 公開日:2024-01-08
# 非平坦ABAは双極子論の例である

Non-flat ABA is an Instance of Bipolar Argumentation ( http://arxiv.org/abs/2305.12453v2 )

ライセンス: Link先を確認
Markus Ulbricht, Nico Potyka, Anna Rapberger, and Francesca Toni(参考訳) ABA (Assumption-based Argumentation) はよく知られた構造化された議論形式であり、それらの間の議論と攻撃はルールやデファシブルな仮定、それらの反則から引き出される。 ABAフレームワーク(ABAFs)に課される一般的な制限は、それらが平坦である、すなわち、それぞれのデファシブルな仮定は仮定できるが導出されないことである。 平坦なABAFは、Dungが提案した抽象的議論フレームワーク(AF)に翻訳できることは知られているが、一般的な、おそらく非平坦なABAFから抽象的議論形式への翻訳は存在しない。 本稿では、このギャップを埋めて、双極性AF(BAF)が一般的なABAFをインスタンス化できることを示す。 この目的のために私たちは,帰納的支援の概念を借用した,適切な新しいbafセマンティクスを開発する。 計算複雑性を含むbafの基本特性を調査し,複数の意味論に基づくabfsとの関係を検証した。 最後に,計算と説明可能性をサポートするために,bafセマンティクスのための論争木の概念を提案する。

Assumption-based Argumentation (ABA) is a well-known structured argumentation formalism, whereby arguments and attacks between them are drawn from rules, defeasible assumptions and their contraries. A common restriction imposed on ABA frameworks (ABAFs) is that they are flat, i.e., each of the defeasible assumptions can only be assumed, but not derived. While it is known that flat ABAFs can be translated into abstract argumentation frameworks (AFs) as proposed by Dung, no translation exists from general, possibly non-flat ABAFs into any kind of abstract argumentation formalism. In this paper, we close this gap and show that bipolar AFs (BAFs) can instantiate general ABAFs. To this end we develop suitable, novel BAF semantics which borrow from the notion of deductive support. We investigate basic properties of our BAFs, including computational complexity, and prove the desired relation to ABAFs under several semantics. Finally, in order to support computation and explainability, we propose the notion of dispute trees for our BAF semantics.
翻訳日:2024-01-09 23:47:37 公開日:2024-01-08
# ポテンシャル障壁を横切る部分的および完全トンネル過程

Partial and full tunneling processes across potential barriers ( http://arxiv.org/abs/2305.09260v4 )

ライセンス: Link先を確認
Philip Caesar M. Flores, Dean Alvin L. Pablico, and Eric A. Galapon(参考訳) 論文でしばしば報告される矛盾する非零および消滅するトンネル時間を説明するために,部分的および完全トンネルプロセスの概念を導入する。 解析は、量子粒子の摂動時間の理論を用いて、ポテンシャル障壁(上界と下界の両方を含む)を通る量子粒子の摂動時間を考えることから始める。 次に,非トンネル,完全トンネル,部分トンネルの3つの過程が存在することを示す。 これら3つの区別は、バリアの形状に関する入射波束エネルギー分布の支持に依存している。 非トンネル化は、量子粒子のエネルギー分布がポテンシャル障壁の最大値を超えているときに起こる。 さもなくば、粒子のエネルギー分布がポテンシャル障壁の最小値以下であるときに、フルタンナリング過程が生じる。 このプロセスでは、得られた経時をトンネル時間と解釈する。 最後に、部分トンネル過程は、エネルギー分布がポテンシャル障壁の最小値と最大値の間にあるときに起こる。 これは、量子粒子がポテンシャル障壁の一部のみを通してトンネルされたことを意味する。 部分トンネル過程の持続時間はトンネル時間ではなく,全トンネル過程と区別するための部分横断時間として解釈されるべきである。 次に、全トンネルプロセスは常に瞬時であり、部分トンネルプロセスは非ゼロ時間を要することを示す。 実験によって測定した非零トンネル時間と消滅トンネル時間はそれぞれ部分トンネルと全トンネルプロセスに対応するという仮説が導かれる。

We introduce the concept of partial and full tunneling processes to explain the seemingly contradictory non-zero and vanishing tunneling times often reported in the literature. Our analysis starts by considering the traversal time of a quantum particle through a potential barrier, including both above and below-barrier traversals, using the theory of time-of-arrival operators. We then show that there are three traversal processes corresponding to non-tunneling, full-tunneling, and partial tunneling. The distinction between the three depends on the support of the incident wavepackets energy distribution in relation to the shape of the barrier. Non-tunneling happens when the energy distribution of the quantum particle lies above the maximum of the potential barrier. Otherwise, full-tunneling process occurs when the energy distribution of the particle is below the minimum of the potential barrier. For this process, the obtained traversal time is interpreted as the tunneling time. Finally, the partial-tunneling process occurs when the energy distribution lies between the minimum and maximum of the potential barrier. This signifies that the quantum particle tunneled only through some portions of the potential barrier. We argue that the duration for a partial-tunneling process should not be interpreted as the tunneling time but instead as a partial traversal time to differentiate it from the full-tunneling process. We then show that a full-tunneling process is always instantaneous, while a partial-tunneling process takes a non-zero amount of time. We are then led to the hypothesis that experimentally measured non-zero and vanishing tunneling times correspond to partial and full-tunneling processes, respectively.
翻訳日:2024-01-09 23:46:46 公開日:2024-01-08
# 自然言語の分解と複雑な発話の解釈

Natural Language Decomposition and Interpretation of Complex Utterances ( http://arxiv.org/abs/2305.08677v2 )

ライセンス: Link先を確認
Harsh Jhamtani, Hao Fang, Patrick Xia, Eran Levy, Jacob Andreas, Ben Van Durme(参考訳) 自然言語インターフェースの設計には、ユーザ要求を慎重に設計した意図表現に変換するために、これまでは教師付きデータ収集が必要だった。 これは、長いユーザーリクエストを列挙してラベル付けする必要があります。 同時に、大きな言語モデル(LLM)は、対話アシスタントが多数のステップを完了させるユーザ要求を解釈するのに役立つ目標と計画に関する知識を符号化する。 本稿では,階層的な自然言語分解と解釈のプロセスを通じて,ユーザからの複雑な意図的発話を処理するアプローチを提案する。 本手法では,複雑な発話をより単純な自然言語ステップに分解し,インタフェース用に設計された言語対プログラムモデルを用いて各ステップを解釈する。 このアプローチをテストするために、我々はDeCU(Decomposition of Complex Utterances)を評価する新しいNL-to- programベンチマーク)を収集、リリースした。 実験により,提案手法により,複雑な訓練データを持たない複雑な発話の解釈が可能となり,かつ,標準のマイナショット・プロンプト手法を上回っていることが示された。

Designing natural language interfaces has historically required collecting supervised data to translate user requests into carefully designed intent representations. This requires enumerating and labeling a long tail of user requests, which is challenging. At the same time, large language models (LLMs) encode knowledge about goals and plans that can help conversational assistants interpret user requests requiring numerous steps to complete. We introduce an approach to handle complex-intent-bearing utterances from a user via a process of hierarchical natural language decomposition and interpretation. Our approach uses a pre-trained language model to decompose a complex utterance into a sequence of simpler natural language steps and interprets each step using the language-to-program model designed for the interface. To test our approach, we collect and release DeCU -- a new NL-to-program benchmark to evaluate Decomposition of Complex Utterances. Experiments show that the proposed approach enables the interpretation of complex utterances with almost no complex training data, while outperforming standard few-shot prompting approaches.
翻訳日:2024-01-09 23:46:22 公開日:2024-01-08
# データストリームにおける異なるプライベートクラスタリング

Differentially Private Clustering in Data Streams ( http://arxiv.org/abs/2307.07449v2 )

ライセンス: Link先を確認
Alessandro Epasto, Tamalika Mukherjee, Peilin Zhong(参考訳) ストリーミングモデルは大規模データストリーム上のコンピューティングの抽象化であり、大規模データ分析を扱う一般的な方法である。 このモデルでは、データポイントのストリームが次々に存在します。 ストリーミングアルゴリズムは、データストリームをパスする唯一の方法であり、可能な限り小さなスペースを使用して、ストリーム中にいくつかの分析を行うことが目標である。 クラスタリング問題($k$-meansや$k$-medianなど)は基本的な教師なし機械学習プリミティブであり、ストリーミングクラスタリングアルゴリズムは過去に広く研究されてきた。 しかし、データプライバシが多くの現実世界アプリケーションにおいて中心的な関心事になっているため、プライベートでないクラスタリングアルゴリズムは多くのシナリオでは適用できない。 本研究では,$k$-means と $k$-median に対する最初の微分的プライベートなストリーミングアルゴリズムを提供する。$k$-means と $k$-median による,$d$-dimensional euclidean データポイントを最大$t$ のストリーム上にクラスタリングし,定数乗算誤差と $poly(k,d,\log(t))$ 加算誤差を達成するために $poly(k,d)$ を用いた。 特に,オフラインDPコアセットやクラスタリングアルゴリズムをブラックボックスとしてのみ必要とする,差分プライベートなストリーミングクラスタリングフレームワークを提案する。 DPクラスタリング Ghazi, Kumar, Manurangsi 2020 と Kaplan, Stemmer 2018 の既存の結果をプラグインすることで、(1) a $(1+\gamma)$-multiplicative approximation with $\tilde{O}_\gamma(poly(k,d,\log(T)))$ space for any $\gamma>0$, and the additive error is $poly(k,d,\log(T))$ or (2) a $O(1)$-multiplicative approximation with $\tilde{O}(k^{1.5} \cdot poly(d,\log(T)))$ space and $poly(k,d,\log(T))$ additive error。 さらに、我々のアルゴリズムフレームワークは、連続的なリリース設定の下で微分プライベートであり、すなわち、各タイムスタンプにおけるアルゴリズムの出力の統一は常に微分プライベートである。

The streaming model is an abstraction of computing over massive data streams, which is a popular way of dealing with large-scale modern data analysis. In this model, there is a stream of data points, one after the other. A streaming algorithm is only allowed one pass over the data stream, and the goal is to perform some analysis during the stream while using as small space as possible. Clustering problems (such as $k$-means and $k$-median) are fundamental unsupervised machine learning primitives, and streaming clustering algorithms have been extensively studied in the past. However, since data privacy becomes a central concern in many real-world applications, non-private clustering algorithms are not applicable in many scenarios. In this work, we provide the first differentially private streaming algorithms for $k$-means and $k$-median clustering of $d$-dimensional Euclidean data points over a stream with length at most $T$ using $poly(k,d,\log(T))$ space to achieve a constant multiplicative error and a $poly(k,d,\log(T))$ additive error. In particular, we present a differentially private streaming clustering framework which only requires an offline DP coreset or clustering algorithm as a blackbox. By plugging in existing results from DP clustering Ghazi, Kumar, Manurangsi 2020 and Kaplan, Stemmer 2018, we achieve (1) a $(1+\gamma)$-multiplicative approximation with $\tilde{O}_\gamma(poly(k,d,\log(T)))$ space for any $\gamma>0$, and the additive error is $poly(k,d,\log(T))$ or (2) an $O(1)$-multiplicative approximation with $\tilde{O}(k^{1.5} \cdot poly(d,\log(T)))$ space and $poly(k,d,\log(T))$ additive error. In addition, our algorithmic framework is also differentially private under the continual release setting, i.e., the union of outputs of our algorithms at every timestamp is always differentially private.
翻訳日:2024-01-09 23:39:35 公開日:2024-01-08
# 量子クエンチダイナミクスにおけるフラックス誘起対称性破れの長期剛性

Long time rigidity to flux-induced symmetry breaking in quantum quench dynamics ( http://arxiv.org/abs/2307.03580v2 )

ライセンス: Link先を確認
Lorenzo Rossi, Luca Barbiero, Jan Carl Budich, and Fabrizio Dolcini(参考訳) 電荷共役対称性$\mathcal{C}$の破れが、大域的クエンチ後の半充填フェルミオン格子系の力学に与える影響について検討する。 初期状態が絶縁され、$\mathcal{C}$-対称性が一定磁束によって非局所的に破られるとき、局所的な可観測性と相関は、システムサイズ$L$に比例する時間間隔で対称性が解けていないかのように振る舞う。 特に、焼成二量化絶縁体の局所的な粒子密度は、各格子の部位で広範囲にわたって1/2$にピン留めされるが、その後に顕著に変動し始める。 急速に上昇する海波の突然の到来と質的な類似性から、この現象を「ツネミ効果」と呼ぶ。 特に、キラル対称性はクエンチの直後に動的に破壊されているにもかかわらず発生する。 さらに、量子状態における対称性の破れの量を定量化する方法を特定し、磁束で摂動した絶縁体は指数関数的に系の大きさの関数として抑制されるが、局所的に破断された$\mathcal{c}$-対称性を持つ金属や絶縁体では代数的に抑制される。 弱い障害や相互作用に対する津波効果のロバスト性が実証され,実験的な実現が期待できる。

We investigate how the breaking of charge conjugation symmetry $\mathcal{C}$ impacts on the dynamics of a half-filled fermionic lattice system after global quenches. We show that, when the initial state is insulating and the $\mathcal{C}$-symmetry is broken non-locally by a constant magnetic flux, local observables and correlations behave as if the symmetry were unbroken for a time interval proportional to the system size $L$. In particular, the local particle density of a quenched dimerized insulator remains pinned to $1/2$ in each lattice site for an extensively long time, while it starts to significantly fluctuate only afterwards. Due to its qualitative resemblance to the sudden arrival of rapidly rising ocean waves, we dub this phenomenon the ``tsunami effect". Notably, it occurs even though the chiral symmetry is dynamically broken right after the quench. Furthermore, we identify a way to quantify the amount of symmetry breaking in the quantum state, showing that in insulators perturbed by a flux it is exponentially suppressed as a function of the system size, while it is only algebraically suppressed in metals and in insulators with locally broken $\mathcal{C}$-symmetry. The robustness of the tsunami effect to weak disorder and interactions is demonstrated, and possible experimental realizations are proposed.
翻訳日:2024-01-09 23:38:20 公開日:2024-01-08
# DamWorld: ロボットマニピュレーションのための世界モデルによるプログレッシブ推論

DamWorld: Progressive Reasoning with World Models for Robotic Manipulation ( http://arxiv.org/abs/2306.11335v3 )

ライセンス: Link先を確認
Pengzhen Ren, Kaidong Zhang, Hetao Zheng, Zixuan Li, Yuhang Wen, Fengda Zhu, Mas Ma, Xiaodan Liang(参考訳) 具体的AIの研究はロボット操作の発展を大いに促進してきた。 しかし、ベンチマーク構築、マルチモーダル知覚、意思決定、物理的実行など、さまざまな面で大きな課題に直面している。 従来のロボット操作シミュレータは、マルチモーダル環境における物理操作と言語命令の複雑さのバランスを無視しながら、操作タイプとオブジェクトのタイプを豊かにするために設計されていた。 本稿では,新しいロボット操作シミュレータを提案し,シーウェーブと呼ばれるプログレッシブ推論タスクを用いた包括的かつ体系的なロボット操作ベンチマーク(即ちプログレッシブ推論ベンチマーク)を構築する。 マルチモーダル環境における組み込みaiエージェントのための標準テストプラットフォームを提供し、同時に4つのレベルの人間の自然言語命令を評価し実行することができる。 従来の世界モデルに基づくロボット操作作業は、マルチモーダル環境における複雑な命令の認識と意思決定に関する研究を欠いていた。 そこで本研究では, クロスモーダルロボット操作のための新しい世界モデルであるdamworldを提案する。 具体的には、DamWorldは現在の視覚的なシーンを取り込み、自然言語の指示に基づいて実行行動を予測し、次のアクションフレームを使用して世界モデルの出力を監督し、世界知識と整合したロボットの操作を学習させる。 私たちのDamWorldは、有名なベースライン(RT-1など)と比較して、4段階のプログレッシブ推論タスクで平均5.6%の操作成功率を改善する。 もっとも難しいレベル4操作タスクでは、DamWorldは以前の作業と比べて9.0%改善している点に注意が必要だ。

The research on embodied AI has greatly promoted the development of robot manipulation. However, it still faces significant challenges in various aspects such as benchmark construction, multi-modal perception and decision-making, and physical execution. Previous robot manipulation simulators were primarily designed to enrich manipulation types and types of objects while neglecting the balance between physical manipulation and language instruction complexity in multi-modal environments. This paper proposes a new robot manipulation simulator and builds a comprehensive and systematic robot manipulation benchmark with progressive reasoning tasks called SeaWave (i.e., a progressive reasoning benchmark). It provides a standard test platform for embedded AI agents in a multi-modal environment, which can evaluate and execute four levels of human natural language instructions at the same time. Previous world model-based robot manipulation work lacked research on the perception and decision-making of complex instructions in multi-modal environments. To this end, we propose a new world model tailored for cross-modal robot manipulation called DamWorld. Specifically, DamWorld takes the current visual scene and predicted execution actions based on natural language instructions as input, and uses the next action frame to supervise the output of the world model to force the model to learn robot manipulation consistent with world knowledge. Compared with the renowned baselines (e.g., RT-1), our DamWorld improves the manipulation success rate by 5.6% on average on four levels of progressive reasoning tasks. It is worth noting that on the most challenging level 4 manipulation task, DamWorld still improved by 9.0% compared to prior works.
翻訳日:2024-01-09 23:35:19 公開日:2024-01-08
# コンパクト化演算子を用いた条件付き期待

Conditional expectation using compactification operators ( http://arxiv.org/abs/2306.10592v4 )

ライセンス: Link先を確認
Suddhasattwa Das(参考訳) 分数化、最小二乗期待、多様体学習という別のタスクは、しばしば2つの確率変数の積から生じる条件付き期待を見つける共通の設定で与えられる。 本稿では、このより一般的な問題に焦点をあて、条件付き期待値を推定する演算子理論的アプローチについて述べる。 カーネル積分作用素は、再生カーネルヒルベルト空間における線形逆問題として推定問題を設定するためのコンパクト化ツールとして用いられる。 この方程式は数値近似を許容する解を持ち、したがってデータ駆動実装の収束を保証する。 全体的なテクニックは実装が容易で、現実世界の問題に対する彼らの成功例も示されています。

The separate tasks of denoising, least squares expectation, and manifold learning can often be posed in a common setting of finding the conditional expectations arising from a product of two random variables. This paper focuses on this more general problem and describes an operator theoretic approach to estimating the conditional expectation. Kernel integral operators are used as a compactification tool, to set up the estimation problem as a linear inverse problem in a reproducing kernel Hilbert space. This equation is shown to have solutions that allow numerical approximation, thus guaranteeing the convergence of data-driven implementations. The overall technique is easy to implement, and their successful application to some real-world problems are also shown.
翻訳日:2024-01-09 23:34:14 公開日:2024-01-08
# Union-find 量子デコード

Union-find quantum decoding without union-find ( http://arxiv.org/abs/2306.09767v3 )

ライセンス: Link先を確認
Sam J. Griffiths and Dan E. Browne(参考訳) ユニオンフィンデコーダは、物理量子ビット数でほぼ直線的にスケールする減算計算時間を持つ最小重完全マッチング(MWPM)に匹敵する符号しきい値を達成し、表面符号上の量子エラーの補正に先導するアルゴリズムである。 この複雑さはdisjoint-setデータ構造によって提供される最適化によって達成される。 しかしながら,大規模デコーダの動作は,このデータ構造を解析的・アルゴリズム的な2つの理由から活用し,アーキテクチャ設計に改良や単純化を施し,リソースオーバヘッドを実際に削減できることを実証する。 これを強化するため、デコーダによって形成される消去クラスタの挙動をモデル化し、いかなる動作モードにおいてもデータ構造内にパーコレーションしきい値が存在しないことを示す。 これにより、一般的な最適化を省略したナイーブな実装であっても、大規模なデコーダでは線形時最悪ケースが複雑になる。

The union-find decoder is a leading algorithmic approach to the correction of quantum errors on the surface code, achieving code thresholds comparable to minimum-weight perfect matching (MWPM) with amortised computational time scaling near-linearly in the number of physical qubits. This complexity is achieved via optimisations provided by the disjoint-set data structure. We demonstrate, however, that the behaviour of the decoder at scale underutilises this data structure for twofold analytic and algorithmic reasons, and that improvements and simplifications can be made to architectural designs to reduce resource overhead in practice. To reinforce this, we model the behaviour of erasure clusters formed by the decoder and show that there does not exist a percolation threshold within the data structure for any mode of operation. This yields a linear-time worst-case complexity for the decoder at scale, even with a naive implementation omitting popular optimisations.
翻訳日:2024-01-09 23:34:03 公開日:2024-01-08
# 量子JPEG

Quantum JPEG ( http://arxiv.org/abs/2306.09323v3 )

ライセンス: Link先を確認
Simone Roncallo, Lorenzo Maccone, Chiara Macchiavello(参考訳) JPEGアルゴリズムは、その高空間周波数成分をフィルタリングすることによりデジタル画像を圧縮する。 同様に、量子フーリエ変換を用いて画像の高空間周波数量子ビットを破棄し、それを低分解能にダウンサンプリングする量子アルゴリズムを導入する。 これにより、保存と通信のために限られた量子リソースでも画像をキャプチャ、圧縮、送信することができる。 我々は,このプロトコルが古典的プロトコルに対して有利である条件下で示す。

The JPEG algorithm compresses a digital image by filtering its high spatial-frequency components. Similarly, we introduce a quantum algorithm that uses the quantum Fourier transform to discard the high spatial-frequency qubits of an image, downsampling it to a lower resolution. This allows one to capture, compress, and send images even with limited quantum resources for storage and communication. We show under which conditions this protocol is advantageous with respect to its classical counterpart.
翻訳日:2024-01-09 23:33:43 公開日:2024-01-08
# AIにインスパイアされたAnsatzデザインパターンであるReduceed-Width QNNの導入

Introducing Reduced-Width QNNs, an AI-inspired Ansatz Design Pattern ( http://arxiv.org/abs/2306.05047v3 )

ライセンス: Link先を確認
Jonas Stein, Tobias Rohe, Francesco Nappi, Julian Hager, David Bucher, Maximilian Zorn, Michael K\"olle, Claudia Linnhoff-Popien(参考訳) 変分量子アルゴリズムは、最初に工業的に関連する量子優位をもたらす最も有望な候補の1つである。 任意の関数近似が可能であるため、古典的ニューラルネットワーク(ANN)のようなアナログ設定で使用される場合、量子ニューラルネットワーク(QNN)と呼ばれることが多い。 古典的機械学習の初期と同様に、これらのネットワークの効率的なアーキテクチャのための既知のスキームは少ない。 既存の設計パターンを超えて、近年のQNNにおけるドロップアウト正規化解析の結果に動機づけられた小型回路アンザッツ設計を提案する。 より正確には、過度にパラメータ化されたQNNのゲートは、その表現性が低下するまで大きく刈り取ることができるという洞察を活用できる。 ケーススタディの結果,提案した設計パターンは,ノイズの存在下での標準の「フル幅」設計と同じ品質を維持しつつ,トレーニング時間を著しく短縮できることがわかった。

Variational Quantum Algorithms are one of the most promising candidates to yield the first industrially relevant quantum advantage. Being capable of arbitrary function approximation, they are often referred to as Quantum Neural Networks (QNNs) when being used in analog settings as classical Artificial Neural Networks (ANNs). Similar to the early stages of classical machine learning, known schemes for efficient architectures of these networks are scarce. Exploring beyond existing design patterns, we propose a reduced-width circuit ansatz design, which is motivated by recent results gained in the analysis of dropout regularization in QNNs. More precisely, this exploits the insight, that the gates of overparameterized QNNs can be pruned substantially until their expressibility decreases. The results of our case study show, that the proposed design pattern can significantly reduce training time while maintaining the same result quality as the standard "full-width" design in the presence of noise.
翻訳日:2024-01-09 23:33:37 公開日:2024-01-08
# 非ユニタリボソン力学における変動束状態への吸収

Absorption to Fluctuating Bunching States in Non-Unitary Boson Dynamics ( http://arxiv.org/abs/2308.04716v2 )

ライセンス: Link先を確認
Ken Mochizuki and Ryusuke Hamazaki(参考訳) ボソンの雑音非一意力学は任意の初期状態を揺らぎ束縛状態へと誘導し、全てのボソンが1つの時間依存モードを占有することを示す。 雑音のないシステムにおけるスペクトルギャップの一般化である雑音スペクトルギャップの概念を提案し、変動束状態への指数的に高速な吸収が漸近的に起こることを示した。 揺らぎ束縛状態はノイズ非ユニタリダイナミクスに特有のものであり、単位力学や時間非依存ジェネレータによって記述される非ユニタリダイナミクスとは相容れない。 また、ゆらぎ束縛状態への緩和時間は、一般雑音非単位力学における雑音パラメータの関数として普遍的なパワー則に従う。

We show that noisy nonunitary dynamics of bosons drives arbitrary initial states into a novel fluctuating bunching state, where all bosons occupy one time-dependent mode. We propose a concept of the noisy spectral gap, a generalization of the spectral gap in noiseless systems, and demonstrate that the exponentially fast absorption to the fluctuating bunching state takes place asymptotically. The fluctuating bunching state is unique to noisy nonunitary dynamics, with no counterpart in any unitary dynamics and nonunitary dynamics described by a time-independent generator. We also argue that the times of relaxation to the fluctuating bunching state obey a universal power law as functions of the noise parameter in generic noisy nonunitary dynamics.
翻訳日:2024-01-09 23:26:50 公開日:2024-01-08
# LEFormer:リモートセンシング画像からの湖沼抽出のためのハイブリッドCNN変換器アーキテクチャ

LEFormer: A Hybrid CNN-Transformer Architecture for Accurate Lake Extraction from Remote Sensing Imagery ( http://arxiv.org/abs/2308.04397v2 )

ライセンス: Link先を確認
Ben Chen, Xuechao Zou, Yu Zhang, Jiayu Li, Kai Li, Junliang Xing, Pin Tao(参考訳) リモートセンシング画像からの湖の抽出は、複雑な湖の形状と固有のデータノイズのために困難である。 既存の手法は曖昧なセグメンテーション境界と貧弱なフォアグラウンドモデリングに悩まされている。 本稿では, LEFormer と呼ばれるCNN-Transformer アーキテクチャを用いて, 正確な湖沼抽出を行う。 LEFormerにはCNNエンコーダ、Transformerエンコーダ、クロスエンコーダの3つの主要なモジュールが含まれている。 CNNエンコーダは、局所空間情報を効果的に回復し、微細な詳細を改善する。 同時にTransformerエンコーダは、任意の長さのシーケンス間の長距離依存関係をキャプチャし、グローバルな特徴とコンテキスト情報を取得する。 cross-encoder fusionモジュールは、ローカル機能とグローバル機能を統合し、マスク予測を改善する。 実験の結果,LEFormerは表層水と清海・チベット高原湖のデータセット上で,最先端の性能と効率を一貫して達成していることがわかった。 具体的には、LEFormerはパラメータ数3.61Mの2つのデータセットに対して90.86%と97.42% mIoUを達成し、以前の最良の湖の抽出方法よりも20マイナーである。 ソースコードはhttps://github.com/BastianChen/LEFormerで入手できる。

Lake extraction from remote sensing images is challenging due to the complex lake shapes and inherent data noises. Existing methods suffer from blurred segmentation boundaries and poor foreground modeling. This paper proposes a hybrid CNN-Transformer architecture, called LEFormer, for accurate lake extraction. LEFormer contains three main modules: CNN encoder, Transformer encoder, and cross-encoder fusion. The CNN encoder effectively recovers local spatial information and improves fine-scale details. Simultaneously, the Transformer encoder captures long-range dependencies between sequences of any length, allowing them to obtain global features and context information. The cross-encoder fusion module integrates the local and global features to improve mask prediction. Experimental results show that LEFormer consistently achieves state-of-the-art performance and efficiency on the Surface Water and the Qinghai-Tibet Plateau Lake datasets. Specifically, LEFormer achieves 90.86% and 97.42% mIoU on two datasets with a parameter count of 3.61M, respectively, while being 20 minor than the previous best lake extraction method. The source code is available at https://github.com/BastianChen/LEFormer.
翻訳日:2024-01-09 23:26:37 公開日:2024-01-08
# メタファー検出のためのディープラーニングに基づく知識注入:包括的レビュー

Deep Learning-Based Knowledge Injection for Metaphor Detection: A Comprehensive Review ( http://arxiv.org/abs/2308.04306v4 )

ライセンス: Link先を確認
Cheng Yang, Zheng Li, Zhiyue Liu, Qingbao Huang(参考訳) 高度な認知的モダリティとしてのメタファは、ソースドメインの曖昧で抽象的な概念を理解するために、ターゲットドメインの見慣れた概念を抽出することで機能します。 これにより、人間は新しいドメインを素早く理解し、マスターし、変化する環境に適応できる。 自然言語コミュニティにおけるメタファ研究の継続的な発展に伴い、近年、知識支援モデルを用いてテキストメタファを検出する研究が数多く現れている。 近年の研究では、知識を使わないシステムに比べて、様々な知識を導入するシステムは、より優れたパフォーマンスを実現し、SOTAに到達している。 本研究の目的は,メタファ検出タスクにおける知識注入への深層学習の適用における研究成果の総合的なレビューを提供することである。 まず、主流の知識と知識注入の原則を体系的に要約し、一般化する。 次に、メタファ検出タスクで使用されるデータセット、評価指標、ベンチマークモデルについて検討する。 最後に,ナレッジインジェクション手法が直面する課題を探究し,今後の研究の方向性を展望する。

Metaphor as an advanced cognitive modality works by extracting familiar concepts in the target domain in order to understand vague and abstract concepts in the source domain. This helps humans to quickly understand and master new domains and thus adapt to changing environments. With the continuous development of metaphor research in the natural language community, many studies using knowledge-assisted models to detect textual metaphors have emerged in recent years. Compared to not using knowledge, systems that introduce various kinds of knowledge achieve greater performance gains and reach SOTA in a recent study. Based on this, the goal of this paper is to provide a comprehensive review of research advances in the application of deep learning for knowledge injection in metaphor detection tasks. We will first systematically summarize and generalize the mainstream knowledge and knowledge injection principles. Then, the datasets, evaluation metrics, and benchmark models used in metaphor detection tasks are examined. Finally, we explore the current issues facing knowledge injection methods and provide an outlook on future research directions.
翻訳日:2024-01-09 23:26:19 公開日:2024-01-08
# 結合しきい値近傍の理想ボースガス中の線形回転子

Linear rotor in an ideal Bose gas near the threshold for binding ( http://arxiv.org/abs/2308.03852v2 )

ライセンス: Link先を確認
Tibor Dome, Artem G. Volosniev, Areg Ghazaryan, Laleh Safari, Richard Schmidt, and Mikhail Lemeshko(参考訳) 我々は,アングロンフォーマリズム内のボソニック浴槽内の線形回転子について検討した。 我々は、等方性または異方性不純物-ボゾン相互作用が浅い境界状態をサポートするシステムに焦点を当てている。 境界状態形成近傍におけるアングロンの運命を研究するために、超線形結合型アングロンハミルトニアンを定式化する。 まず、線形回転子を静的不純物にマッピングできる魅力的な球対称不純物-ボソン相互作用について研究する。 有名なポーラロン形式は、この極限において適切な記述を与える。 第2に、異方性ポテンシャルを考察し、異方性特性の顕著な浅い境界状態の存在が、アングロン力学を洗い流す多体不安定をもたらすことを示す。

We study a linear rotor in a bosonic bath within the angulon formalism. Our focus is on systems where isotropic or anisotropic impurity-boson interactions support a shallow bound state. To study the fate of the angulon in the vicinity of bound-state formation, we formulate a beyond-linear-coupling angulon Hamiltonian. First, we use it to study attractive, spherically symmetric impurity-boson interactions for which the linear rotor can be mapped onto a static impurity. The well-known polaron formalism provides an adequate description in this limit. Second, we consider anisotropic potentials, and show that the presence of a shallow bound state with pronounced anisotropic character leads to a many-body instability that washes out the angulon dynamics.
翻訳日:2024-01-09 23:26:05 公開日:2024-01-08
# MetaDiff:Few-Shot Learningのための条件付き拡散によるメタラーニング

MetaDiff: Meta-Learning with Conditional Diffusion for Few-Shot Learning ( http://arxiv.org/abs/2307.16424v2 )

ライセンス: Link先を確認
Baoquan Zhang, Chuyao Luo, Demin Yu, Huiwei Lin, Xutao Li, Yunming Ye, Bowen Zhang(参考訳) 深層モデルの導入 数少ない学習、すなわちごく少数の例から素早く学ぶことは、人工知能にとって重要な課題である。 勾配に基づくメタラーニングアプローチは、新しいタスクの学習方法を学ぶことによって、課題を効果的に解決する。 その鍵となる考え方は、双方向の最適化方法でディープモデルを学習することであり、そこでは、外ループプロセスは共有勾配降下アルゴリズム(すなわちハイパーパラメータ)を学習し、一方インナーループプロセスは、わずかなラベル付きデータを用いてタスク固有モデルを最適化する。 これらの既存手法は優れた性能を示したが、外ループ法では内部最適化経路に沿って2階微分を計算する必要があり、メモリ負荷が大きくなり勾配が消える危険性がある。 拡散モデルの最近の進展から着想を得た結果、内ループ勾配降下過程は、デノナイジングの対象がモデル重みではなく原データである拡散の逆過程(デノナイジング)として実際に見ることができることがわかった。 本稿では,拡散モデルとして勾配降下最適化器をモデル化し,メタディフ(MetaDiff)と呼ばれるタスク条件拡散に基づくメタラーニングを提案し,ガウスノイズから目標重みへのモデル重みの最適化プロセスを効果的にモデル化する。 拡散モデルのトレーニング効率のため、私たちのMetaDiffはインナーループパスを通して差別化する必要がなく、メモリ負荷と消滅する勾配のリスクを効果的に軽減できる。 実験の結果,メタディフは,最先端の勾配に基づくメタラーニングファミリよりも,数ショットの学習タスクで優れていた。

Equipping a deep model the abaility of few-shot learning, i.e., learning quickly from only few examples, is a core challenge for artificial intelligence. Gradient-based meta-learning approaches effectively address the challenge by learning how to learn novel tasks. Its key idea is learning a deep model in a bi-level optimization manner, where the outer-loop process learns a shared gradient descent algorithm (i.e., its hyperparameters), while the inner-loop process leverage it to optimize a task-specific model by using only few labeled data. Although these existing methods have shown superior performance, the outer-loop process requires calculating second-order derivatives along the inner optimization path, which imposes considerable memory burdens and the risk of vanishing gradients. Drawing inspiration from recent progress of diffusion models, we find that the inner-loop gradient descent process can be actually viewed as a reverse process (i.e., denoising) of diffusion where the target of denoising is model weights but the origin data. Based on this fact, in this paper, we propose to model the gradient descent optimizer as a diffusion model and then present a novel task-conditional diffusion-based meta-learning, called MetaDiff, that effectively models the optimization process of model weights from Gaussion noises to target weights in a denoising manner. Thanks to the training efficiency of diffusion models, our MetaDiff do not need to differentiate through the inner-loop path such that the memory burdens and the risk of vanishing gradients can be effectvely alleviated. Experiment results show that our MetaDiff outperforms the state-of-the-art gradient-based meta-learning family in few-shot learning tasks.
翻訳日:2024-01-09 23:25:08 公開日:2024-01-08
# 命令チューニングのためのフォーマット一貫性の探求

Exploring Format Consistency for Instruction Tuning ( http://arxiv.org/abs/2307.15504v2 )

ライセンス: Link先を確認
Shihao Liang, Runchu Tian, Kunlun Zhu, Yujia Qin, Huadong Wang, Xin Cong, Zhiyuan Liu, Xiaojiang Liu, Maosong Sun(参考訳) 命令チューニングは、人間の指示に従う大きな言語モデルを強化するための有望なアプローチとして現れてきた。 トレーニングデータにおける多様性と命令数の増加は、連続的に一般化性能を高め、最近の取り組みにより、様々な命令を収集し、既存の命令チューニングデータセットをより大きなコレクションに統合することが可能になる。 しかし、異なるユーザは独自の命令の表現方法を持っており、命令スタイルやフォーマット、すなわちフォーマットの矛盾など、さまざまなデータセットにまたがるバリエーションが存在することが多い。 本稿では,PromptSourceやFLAN,CrossFitなど,さまざまな命令チューニングデータセット間で,OpenAI APIを自動フォーマット転送するためのフレームワークとして,Unified Instruction Tuning (UIT)を提案する。 本フレームワークでは,(1) 命令チューニングにおけるフォーマット整合性の維持の必要性,(2) T5-LM-xl の未確認命令に対する一般化性能の向上,(3) 自動フォーマット転送のノイズを低減し,UIT フレームワークをより実用的にし,また GPT-J をベースとしたより小さなオフラインモデルを提供することにより,OpenAI API に匹敵するフォーマット転送能力を実現し,コスト削減を実現している。 ターゲットフォーマットのバリエーションや他の効果に関するさらなる分析が意図されている。

Instruction tuning has emerged as a promising approach to enhancing large language models in following human instructions. It is shown that increasing the diversity and number of instructions in the training data can consistently enhance generalization performance, which facilitates a recent endeavor to collect various instructions and integrate existing instruction tuning datasets into larger collections. However, different users have their unique ways of expressing instructions, and there often exist variations across different datasets in the instruction styles and formats, i.e., format inconsistency. In this work, we propose a framework named Unified Instruction Tuning (UIT), which calls OpenAI APIs for automatic format transfer among different instruction tuning datasets such as PromptSource, FLAN and CrossFit. With the framework, we (1) demonstrate the necessity of maintaining format consistency in instruction tuning; (2) improve the generalization performance on unseen instructions on T5-LM-xl; (3) provide a novel perplexity-based denoising method to reduce the noise of automatic format transfer to make the UIT framework more practical and a smaller offline model based on GPT-J that achieves comparable format transfer capability to OpenAI APIs to reduce costs in practice. Further analysis regarding variations of targeted formats and other effects is intended.
翻訳日:2024-01-09 23:24:37 公開日:2024-01-08
# デジタル化カウンタダイアバティックqaoaの収束:回路深度と自由パラメータの比較

Convergence of Digitized-Counterdiabatic QAOA: circuit depth versus free parameters ( http://arxiv.org/abs/2307.14079v4 )

ライセンス: Link先を確認
Mara Vizzuso, Gianluca Passarelli, Giovanni Cantele, and Procolo Lucignano(参考訳) 近年,連続時間量子アニーリングにおけるトロータライズ・カウンターダイアベイト駆動に触発されて,qaoaを少ないステップで最適化問題の解に収束させるために,cd量子近似最適化アルゴリズム(qaoa)が提案されている。 本稿では,パラダイム的重み付きおよび非重み付き1次元MaxCut問題に着目して,このアプローチを批判的に再検討する。 1階と2階のCD補正を施した2種類のQAOAについて検討した。 その結果,高次cd補正は変動コスト関数の複雑性を増大させることにより,問題の厳密な解へのより迅速な収束を可能にすることがわかった。 しかし、この結果を達成するのに必要な自由パラメータの総数は、分析された特定のQAOA変種とは独立である。

Recently, Digitized-Counterdiabatic (CD) Quantum Approximate Optimization Algorithm (QAOA) has been proposed to make QAOA converge to the solution of an optimization problem in fewer steps, inspired by Trotterized counterdiabatic driving in continuous-time quantum annealing. In this paper, we critically revisit this approach by focusing on the paradigmatic weighted and unweighted one-dimensional MaxCut problem. We study two variants of QAOA with first and second-order CD corrections. Our results show that, indeed, higher order CD corrections allow for a quicker convergence to the exact solution of the problem at hand by increasing the complexity of the variational cost function. Remarkably, however, the total number of free parameters needed to achieve this result is independent of the particular QAOA variant analyzed.
翻訳日:2024-01-09 23:23:24 公開日:2024-01-08
# (2+1)d su(2)yang-mills格子ゲージ理論のテンソルネットワークによる有限密度

(2+1)D SU(2) Yang-Mills Lattice Gauge Theory at finite density via tensor networks ( http://arxiv.org/abs/2307.09396v2 )

ライセンス: Link先を確認
Giovanni Cataldi, Giuseppe Magnifico, Pietro Silvi, and Simone Montangero(参考訳) テンソルネットワーク(TN)を用いて,非アベリア格子ゲージ理論を2次元で数値シミュレーションする。 ハミルトンの定式化におけるsu(2)yang-millsモデルに注目し,動的物質と最小切断ゲージ場(ハードコアグルーオン)を用いた。 tn符号プロブレムフリーアプローチにより、ゼロおよび有限バリオン数におけるモデルの位相図をクォーク素質量と色電荷の関数として特徴づける。 すでに中間系の大きさでは、クォークペア境界状態準粒子(バリオン)の液相をはっきりと検出し、その質量は連続体極限に向かって有限である。 興味深い現象は、色-電気的および色-磁気的用語が最大にイライラする遷移境界で起こる: クォーク質量が低い場合には、潜在的な崩壊の痕跡が見られるが、高質量では、可能な位相秩序のシグネチャが見られる。

We numerically simulate a non-Abelian lattice gauge theory in two spatial dimensions, with Tensor Networks (TN). We focus on the SU(2) Yang-Mills model in Hamiltonian formulation, with dynamical matter and minimally truncated gauge field (hardcore gluon). Thanks to the TN sign-problem-free approach, we characterize the phase diagram of the model at zero and finite baryon number as a function of the quark bare mass and color charge. Already at intermediate system sizes, we distinctly detect a liquid phase of quark-pair bound-state quasi-particles (baryons), whose mass is finite towards the continuum limit. Interesting phenomena arise at the transition boundary where color-electric and color-magnetic terms are maximally frustrated: for low quark masses, we see traces of potential deconfinement, while for high masses, signatures of a possible topological order.
翻訳日:2024-01-09 23:23:09 公開日:2024-01-08
# マルチモーダルディスカッション変換器:ソーシャルメディア上でのヘイトスピーチ検出のためのテキスト・画像・グラフ変換器の統合

Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media ( http://arxiv.org/abs/2307.09312v3 )

ライセンス: Link先を確認
Liam Hebert, Gaurav Sahu, Yuxuan Guo, Nanda Kishore Sreenivas, Lukasz Golab, Robin Cohen(参考訳) Reddit のようなオンラインソーシャルネットワーク上でヘイトスピーチを検出する新しい手法である Multi-Modal discussion Transformer (mDT) を提案する。 従来のコメントのみの手法とは対照的に、ヘイトスピーチとしてコメントをラベル付けするアプローチには、議論の文脈に根ざしたテキストや画像の全体的分析が含まれる。 これは、コメントを取り巻く議論において、グラフトランスフォーマーを利用してコンテキスト関係をキャプチャし、モーダルを別々に処理するのではなく、テキストと画像の埋め込みを組み合わせた相互融合層を基盤とする。 reddit上の複数のオンラインコミュニティによる、完全なマルチモーダルな議論からなる新しいデータセットであるhatefuldiscussionsを提案する。 モデルの性能を,個々のコメントのみを処理し,広範なアブレーション研究を行うベースラインと比較する。

We present the Multi-Modal Discussion Transformer (mDT), a novel methodfor detecting hate speech in online social networks such as Reddit discussions. In contrast to traditional comment-only methods, our approach to labelling a comment as hate speech involves a holistic analysis of text and images grounded in the discussion context. This is done by leveraging graph transformers to capture the contextual relationships in the discussion surrounding a comment and grounding the interwoven fusion layers that combine text and image embeddings instead of processing modalities separately. To evaluate our work, we present a new dataset, HatefulDiscussions, comprising complete multi-modal discussions from multiple online communities on Reddit. We compare the performance of our model to baselines that only process individual comments and conduct extensive ablation studies.
翻訳日:2024-01-09 23:22:51 公開日:2024-01-08
# ConViTを用いた静止画像における人間の行動認識

Human Action Recognition in Still Images Using ConViT ( http://arxiv.org/abs/2307.08994v2 )

ライセンス: Link先を確認
Seyed Rohollah Hosseyni, Sanaz Seyedin, Hasan Taheri(参考訳) 画像の異なる部分間の関係を理解することは、オブジェクト認識、シーン理解、画像分類など、さまざまなアプリケーションにおいて重要である。 畳み込みニューラルネットワーク(CNN)は、物体の分類と検出において顕著な結果を示したが、人間の行動認識(HAR)において重要な要素である画像の異なる部分間の関係を抽出する能力は欠如している。 この問題に対処するために,視覚変換器(ViT)を用いた畳み込み層のように機能する新しいモジュールを提案する。 提案したモデルでは、視覚変換器は、画像の様々な部分間の関係を効果的に抽出することにより、様々なタスクにおいて畳み込みニューラルネットワークを補完することができる。 提案手法は,単純なCNNと比較して,画像の意味的な部分を抽出し,誤解を招く部分を抑えることができる。 提案したモデルは、Stanford40とPASCAL VOC 2012のアクションデータセットで評価され、平均精度(mAP)が95.5%、平均精度(mAP)が91.5%に達した。

Understanding the relationship between different parts of an image is crucial in a variety of applications, including object recognition, scene understanding, and image classification. Despite the fact that Convolutional Neural Networks (CNNs) have demonstrated impressive results in classifying and detecting objects, they lack the capability to extract the relationship between different parts of an image, which is a crucial factor in Human Action Recognition (HAR). To address this problem, this paper proposes a new module that functions like a convolutional layer that uses Vision Transformer (ViT). In the proposed model, the Vision Transformer can complement a convolutional neural network in a variety of tasks by helping it to effectively extract the relationship among various parts of an image. It is shown that the proposed model, compared to a simple CNN, can extract meaningful parts of an image and suppress the misleading parts. The proposed model has been evaluated on the Stanford40 and PASCAL VOC 2012 action datasets and has achieved 95.5% mean Average Precision (mAP) and 91.5% mAP results, respectively, which are promising compared to other state-of-the-art methods.
翻訳日:2024-01-09 23:22:35 公開日:2024-01-08
# ARFA:時空間予測のための非対称受容野オートエンコーダモデル

ARFA: An Asymmetric Receptive Field Autoencoder Model for Spatiotemporal Prediction ( http://arxiv.org/abs/2309.00314v2 )

ライセンス: Link先を確認
Wenxuan Zhang, Xuechao Zou, Li Wu, Xiaoying Wang, Jianqiang Huang, Junliang Xing(参考訳) 時空間予測は、歴史的文脈から学んだパラダイムによって将来のシーケンスを生成することを目的としている。 交通量予測や気象予報など、多くの分野において必須である。 近年、この分野での研究は主にオートエンコーダアーキテクチャに基づくディープニューラルネットワークによって進められている。 しかし、既存の手法では、同じ受信フィールドサイズを持つオートエンコーダアーキテクチャが一般的である。 そこで本研究では,非対称受容体オートエンコーダ(arfa)モデルを提案し,エンコーダとデコーダの異なる機能に合わせて対応する受容体モジュールのサイズを導入する。 エンコーダでは,大域的時空間特徴抽出のためのカーネルモジュールを提案する。 デコーダでは,局所時空間情報再構成のためのカーネルモジュールを開発する。 実験結果から、ARFAは一般的なデータセット上での最先端のパフォーマンスを一貫して達成していることがわかった。 さらに,降雨予測のための大規模レーダエコーデータセットであるRainBenchを構築し,その領域における気象データの不足に対処する。

Spatiotemporal prediction aims to generate future sequences by paradigms learned from historical contexts. It is essential in numerous domains, such as traffic flow prediction and weather forecasting. Recently, research in this field has been predominantly driven by deep neural networks based on autoencoder architectures. However, existing methods commonly adopt autoencoder architectures with identical receptive field sizes. To address this issue, we propose an Asymmetric Receptive Field Autoencoder (ARFA) model, which introduces corresponding sizes of receptive field modules tailored to the distinct functionalities of the encoder and decoder. In the encoder, we present a large kernel module for global spatiotemporal feature extraction. In the decoder, we develop a small kernel module for local spatiotemporal information reconstruction. Experimental results demonstrate that ARFA consistently achieves state-of-the-art performance on popular datasets. Additionally, we construct the RainBench, a large-scale radar echo dataset for precipitation prediction, to address the scarcity of meteorological data in the domain.
翻訳日:2024-01-09 23:15:48 公開日:2024-01-08
# LLMによる交通信号制御のためのSim-to-real転送

LLM Powered Sim-to-real Transfer for Traffic Signal Control ( http://arxiv.org/abs/2308.14284v4 )

ライセンス: Link先を確認
Longchao Da, Minchiuan Gao, Hao Mei, Hua Wei(参考訳) 交通信号制御(TSC)の課題に対して,効率的な輸送と渋滞の軽減を目的とした多くの解決策が提案されている。 近年,シミュレータの試行錯誤による強化学習 (Reinforcement Learning, RL) 手法によって有望な結果が得られ,都市での混雑頭痛の解決に自信が持たれている。 しかし、シミュレータ訓練されたポリシーが現実世界にデプロイされる際には、まだパフォーマンスのギャップが残っている。 この問題は主に、トレーニングシミュレータと実環境とのシステムの動的差異によって引き起こされる。 大規模言語モデル(LLM)は大量知識に基づいて訓練されており、驚くべき推論能力を備えていることが判明した。 本研究では,llmを利用して,プロンプトベースの接地行動変換によるシステムダイナミクスの理解とプロファイルを行う。 クローズプロンプトテンプレートを受信し、アクセス可能なコンテキストに基づいて回答を入力し、事前学習したLCMの推論能力を利用して、気象条件、交通状況、道路タイプが交通力学にどのように影響するかを理解し、これを認識し、現実的なダイナミクスに基づいてポリシーのアクションを取り込み、グラウンドドするので、エージェントはより現実的なポリシーを学ぶのに役立つ。 我々はDQNを用いてシミュレーションから現実(シミュレート・トゥ・リアル)までの性能ギャップを緩和するPromptGATの有効性を示す実験を行った。

Numerous solutions are proposed for the Traffic Signal Control (TSC) tasks aiming to provide efficient transportation and mitigate congestion waste. In recent, promising results have been attained by Reinforcement Learning (RL) methods through trial and error in simulators, bringing confidence in solving cities' congestion headaches. However, there still exist performance gaps when simulator-trained policies are deployed to the real world. This issue is mainly introduced by the system dynamic difference between the training simulator and the real-world environments. The Large Language Models (LLMs) are trained on mass knowledge and proved to be equipped with astonishing inference abilities. In this work, we leverage LLMs to understand and profile the system dynamics by a prompt-based grounded action transformation. Accepting the cloze prompt template, and then filling in the answer based on accessible context, the pre-trained LLM's inference ability is exploited and applied to understand how weather conditions, traffic states, and road types influence traffic dynamics, being aware of this, the policies' action is taken and grounded based on realistic dynamics, thus help the agent learn a more realistic policy. We conduct experiments using DQN to show the effectiveness of the proposed PromptGAT's ability in mitigating the performance gap from simulation to reality (sim-to-real).
翻訳日:2024-01-09 23:14:51 公開日:2024-01-08
# SuperCalo:カロリメータシャワーの超高解像度化

SuperCalo: Calorimeter shower super-resolution ( http://arxiv.org/abs/2308.11700v2 )

ライセンス: Link先を確認
Ian Pang, John Andrew Raine, David Shih(参考訳) カロリメータシャワーシミュレーションは、大型ハドロン衝突型加速器計算パイプラインの主要なボトルネックである。 近年,この課題を克服するために,深部的なサロゲートモデルの採用が試みられている。 しかし、優れたパフォーマンスモデルの多くは、高次元のカロリーメータシャワーにうまくスケールしないトレーニングと生成時間を持っている。 本研究では,フローベース超解像モデルであるSuperCaloを導入し,粗粒のシャワーから高次元の微粒なカロリーメータシャワーを素早くアップサンプリングできることを実証した。 この新しいアプローチは、計算コスト、メモリ要件、高速なカロリメータシミュレーションモデルに関連する生成時間を削減する方法を示す。 さらに,SuperCaloによってサンプリングされたシャワーには,高いばらつきがあることが判明した。 これにより、多数の高次元のカロリーメータシャワーが、非常に少ない粗いシャワーと高忠実度でアップサンプリングされ、結果として生成時間が短縮される。

Calorimeter shower simulation is a major bottleneck in the Large Hadron Collider computational pipeline. There have been recent efforts to employ deep-generative surrogate models to overcome this challenge. However, many of best performing models have training and generation times that do not scale well to high-dimensional calorimeter showers. In this work, we introduce SuperCalo, a flow-based super-resolution model, and demonstrate that high-dimensional fine-grained calorimeter showers can be quickly upsampled from coarse-grained showers. This novel approach presents a way to reduce computational cost, memory requirements and generation time associated with fast calorimeter simulation models. Additionally, we show that the showers upsampled by SuperCalo possess a high degree of variation. This allows a large number of high-dimensional calorimeter showers to be upsampled from much fewer coarse showers with high-fidelity, which results in additional reduction in generation time.
翻訳日:2024-01-09 23:11:41 公開日:2024-01-08
# Convoifilter : カクテルパーティー音声認識の事例

Convoifilter: A case study of doing cocktail party speech recognition ( http://arxiv.org/abs/2308.11380v2 )

ライセンス: Link先を確認
Thai-Binh Nguyen and Alexander Waibel(参考訳) 本稿では、混み合った雑音環境下で、特定の話者に対する音声認識(ASR)を改善するために設計されたエンドツーエンドモデルを提案する。 このモデルは、バックグラウンドノイズ(convoifilter)とasrモジュールから話者の声を分離するシングルチャネル音声強調モジュールを使用している。 このアプローチにより、asrの単語誤り率(wer)を80%から26.4%に下げることができる。 通常、これらの2つのコンポーネントはデータ要求の変化のために独立して調整される。 しかし、音声強調は、ASR効率を低下させる異常を引き起こす可能性がある。 ジョイントファインチューニング戦略を実装することで、WERを26.4%の個別チューニングから14.5%のジョイントチューニングに削減することができる。 我々はオープンに事前学習モデルを共有し、hf.co/nguyenvulebinh/voice-filterのさらなる研究を促進する。

This paper presents an end-to-end model designed to improve automatic speech recognition (ASR) for a particular speaker in a crowded, noisy environment. The model utilizes a single-channel speech enhancement module that isolates the speaker's voice from background noise (ConVoiFilter) and an ASR module. The model can decrease ASR's word error rate (WER) from 80% to 26.4% through this approach. Typically, these two components are adjusted independently due to variations in data requirements. However, speech enhancement can create anomalies that decrease ASR efficiency. By implementing a joint fine-tuning strategy, the model can reduce the WER from 26.4% in separate tuning to 14.5% in joint tuning. We openly share our pre-trained model to foster further research hf.co/nguyenvulebinh/voice-filter.
翻訳日:2024-01-09 23:11:24 公開日:2024-01-08
# 陰謀のない超決定論

Superdeterminism Without Conspiracy ( http://arxiv.org/abs/2308.11262v3 )

ライセンス: Link先を確認
Tim Palmer(参考訳) 超決定論(ベルの定理における測定独立性仮定に違反する)は、しばしば、測定される粒子の性質と測定設定がx$とy$の間に有意な共謀関係があると仮定される。 超決定論的だが非共謀的局所因果モデル(英語版)が開発され、各組の絡み合った粒子が一意に$\lambda$を持つ。 このモデルは、複素ヒルベルト空間の特定のけれども任意に微妙な離散化に基づいており、ここでは$\lambda$が情報を定義し、自由に選択された名目設定である$x$と$y$が設定され、ベル実験の正確な測定設定が$x$と$y$が固定される。 ベル型自由変数が$x$か$y$かを評価するのに必要なパール的介入は、離散化されたヒルベルト状態の有理数制約と矛盾する。 これらの制約は、$\lambda$と$y$を固定するが、$\lambda$、$X$および$Y$の粗いグレーニングで消滅し、いわゆるドラッグ・トライアル・コンスピラシーは無関係である。 離散空間の点は、'all-at-once' フラクタル誘引子上の象徴的なラベル付き決定論的軌道のアンサンブルとして実現することができる。 ヒルベルト空間の離散化の特異連続極限として量子力学が「大まかに説明され、導出される」ことが示されており、ベルの定理の背後にある真のメッセージは局所性、リアリズム、選択の自由とはあまり関係がなく、量子物理学と重力物理学を合成しようとするときにより明確な全体論的理論を開発する必要性がある。

Superdeterminism - where the Measurement Independence assumption in Bell's Theorem is violated - is frequently assumed to imply implausibly conspiratorial correlations between properties $\lambda$ of particles being measured and measurement settings $x$ and $y$. But it doesn't have to be: a superdeterministic but non-conspiratorial locally causal model is developed where each pair of entangled particles has unique $\lambda$. The model is based on a specific but arbitrarily fine discretisation of complex Hilbert space, where $\lambda$ defines the information, over and above the freely chosen nominal settings $x$ and $y$, which fixes the exact measurement settings $X$ and $Y$ of a run of a Bell experiment. Pearlean interventions, needed to assess whether $x$ and $y$ are Bell-type free variables, are shown to be inconsistent with rational-number constraints on the discretised Hilbert states. These constraints limit the post-hoc freedom to vary $x$ keeping $\lambda$ and $y$ fixed but disappear with any coarse-graining of $\lambda$, $X$ and $Y$, rendering so-called drug-trial conspiracies irrelevant. Points in the discretised space can be realised as ensembles of symbolically labelled deterministic trajectories on an `all-at-once' fractal attractor. It is shown how quantum mechanics might be `gloriously explained and derived' as the singular continuum limit of the discretisation of Hilbert space; It is argued that the real message behind Bell's Theorem has less to do with locality, realism or freedom to choose, and more to do with the need to develop more explicitly holistic theories when attempting to synthesise quantum and gravitational physics.
翻訳日:2024-01-09 23:11:12 公開日:2024-01-08
# 不等な局所次元の束縛されたベル対角状態とその目撃者

Bound entangled Bell diagonal states of unequal local dimensions, and their witnesses ( http://arxiv.org/abs/2308.10607v2 )

ライセンス: Link先を確認
Johannes Moerland, Nikolai Wyderka, Hermann Kampermann, Dagmar Bru{\ss}(参考訳) ベル対角状態(英: Bell diagonal state)は、量子情報の様々な文脈で自然に生じる二部量子状態のよく研究された族である。 本稿では,ベル対角状態の概念を不等局所次元の場合に一般化し,その絡み合い特性について検討する。 我々は、Sarbicki et al. の絡み合いの基準の族を非エルミート作用素基底に拡張し、一般化されたベル対角状態のクラスに対する絡み合いの証人を構築する。 次に、ノイズの堅牢性に関して、証人を最適化する方法を示す。 最後に、これらの証人を用いて、通常の計算可能なクロスノルムやアライメントやデ・ビセンテの基準によって検出されない有界な絡み合った状態を構築する。

Bell diagonal states constitute a well-studied family of bipartite quantum states that arise naturally in various contexts in quantum information. In this paper we generalize the notion of Bell diagonal states to the case of unequal local dimensions and investigate their entanglement properties. We extend the family of entanglement criteria of Sarbicki et al. to non-Hermitian operator bases to construct entanglement witnesses for the class of generalized Bell diagonal states. We then show how to optimize the witnesses with respect to noise robustness. Finally, we use these witnesses to construct bound entangled states that are not detected by the usual computable cross norm or realignment and de Vicente criteria.
翻訳日:2024-01-09 23:10:35 公開日:2024-01-08
# 高次DeepTrails: *Trailsへの統一アプローチ

Higher-Order DeepTrails: Unified Approach to *Trails ( http://arxiv.org/abs/2310.04477v2 )

ライセンス: Link先を確認
Tobias Koopmann, Jan Pfister, Andr\'e Markus, Astrid Carolus, Carolin Wienrich and Andreas Hotho(参考訳) 人間の行動の分析、理解、記述は、webブラウジングやトラフィックナビゲーションなど、さまざまな設定で有利である。 人間の振る舞いを理解することは、基盤となるインフラストラクチャやユーザインターフェースを改善し最適化するのに自然に役立ちます。 通常、人間のナビゲーションは状態間の遷移のシーケンスで表現される。 以前の研究は、これらの遷移を分析するためにナビゲーションに関する異なる直観を表現する仮説を使うことを示唆している。 この設定を数学的に把握するために、一階マルコフ連鎖を用いて振る舞いを捉え、それによって異なる種類のグラフ比較を適用することができるが、シーケンス内の高階依存に関する情報を失うという固有の欠点がある。 そこで本研究では,従来,シーケンスの高次依存関係のモデル化に用いられてきた自己回帰言語モデルを用いて,シーケンス全体を解析することを提案する。 我々は、我々のアプローチが、HypTrails、MixedTrails、SubTrailsといった以前の作業で導入された異なる設定に容易に適応できることを示します。 1.状態遷移間の高次依存性のモデリング 2 提案仮説における短期の到来を識別できること、及び 3.すべての設定をモデル化するための統一的なアプローチを自然に導入する。 提案手法の表現性を示すために,異なる合成データセットに対するアプローチを評価し,実世界のデータセットを例示的に分析し,音声アシスタントと対話するユーザの行動を調べる。

Analyzing, understanding, and describing human behavior is advantageous in different settings, such as web browsing or traffic navigation. Understanding human behavior naturally helps to improve and optimize the underlying infrastructure or user interfaces. Typically, human navigation is represented by sequences of transitions between states. Previous work suggests to use hypotheses, representing different intuitions about the navigation to analyze these transitions. To mathematically grasp this setting, first-order Markov chains are used to capture the behavior, consequently allowing to apply different kinds of graph comparisons, but comes with the inherent drawback of losing information about higher-order dependencies within the sequences. To this end, we propose to analyze entire sequences using autoregressive language models, as they are traditionally used to model higher-order dependencies in sequences. We show that our approach can be easily adapted to model different settings introduced in previous work, namely HypTrails, MixedTrails and even SubTrails, while at the same time bringing unique advantages: 1. Modeling higher-order dependencies between state transitions, while 2. being able to identify short comings in proposed hypotheses, and 3. naturally introducing a unified approach to model all settings. To show the expressiveness of our approach, we evaluate our approach on different synthetic datasets and conclude with an exemplary analysis of a real-world dataset, examining the behavior of users who interact with voice assistants.
翻訳日:2024-01-09 23:02:28 公開日:2024-01-08
# 頻繁な逐次学習のためのベイズ設計原理

Bayesian Design Principles for Frequentist Sequential Learning ( http://arxiv.org/abs/2310.00806v5 )

ライセンス: Link先を確認
Yunbei Xu, Assaf Zeevi(参考訳) 逐次学習問題に対する頻繁な後悔を最適化する一般的な理論を開発し,ベイズ主義の原理から効率的な帯域幅と強化学習アルゴリズムを導出する。 各ラウンドで「アルゴリズム的信念」を生成するための新しい最適化手法を提案し、ベイズ的後続法を用いて意思決定を行う。 アルゴリズムの頻繁な後悔を効果的に特徴づける本質的な複雑性尺度を「アルゴリズム情報比」と呼ぶ「アルゴリズム的信念」を作成するための最適化目標とする。 我々の知る限りでは、これはベイズ型アルゴリズムを事前自由化し、汎用的で最適な方法で敵の設定に適用する最初の体系的なアプローチである。 さらに、アルゴリズムは、実装がシンプルで、しばしば効率的である。 そこで本研究では, 確率的, 敵対的, 非定常環境において, 経験的性能を実現するマルチアームバンディットのための新しいアルゴリズムを提案する。 そして,これらの原理が線形包帯,包帯凸最適化,強化学習にどのように利用できるかを説明する。

We develop a general theory to optimize the frequentist regret for sequential learning problems, where efficient bandit and reinforcement learning algorithms can be derived from unified Bayesian principles. We propose a novel optimization approach to generate "algorithmic beliefs" at each round, and use Bayesian posteriors to make decisions. The optimization objective to create "algorithmic beliefs," which we term "Algorithmic Information Ratio," represents an intrinsic complexity measure that effectively characterizes the frequentist regret of any algorithm. To the best of our knowledge, this is the first systematical approach to make Bayesian-type algorithms prior-free and applicable to adversarial settings, in a generic and optimal manner. Moreover, the algorithms are simple and often efficient to implement. As a major application, we present a novel algorithm for multi-armed bandits that achieves the "best-of-all-worlds" empirical performance in the stochastic, adversarial, and non-stationary environments. And we illustrate how these principles can be used in linear bandits, bandit convex optimization, and reinforcement learning.
翻訳日:2024-01-09 23:02:04 公開日:2024-01-08
# 優れた量子LDPC符号を用いた手術に向けて

Towards surgery with good quantum LDPC codes ( http://arxiv.org/abs/2309.16406v2 )

ライセンス: Link先を確認
Alexander Cowtan(参考訳) 本稿では,Panteleev-Kalachev \cite{PK} の量子LDPC符号を用いて,任意の論理量子ビットを用いた手術を行うことができることを示す。 また, 漸近的ペナルティを伴って手術を行うための4つの条件のうち3つを満たせることを証明した。 最後の条件も満足すれば、$k, d\in \theta(n)$を維持しながらコード手術を行うことができます。

We show that the good quantum LDPC codes of Panteleev-Kalachev \cite{PK} allow for surgery using any logical qubits, albeit incurring an asymptotic penalty which lowers the rate and distance scaling. We also prove that we can satisfy 3 of the 4 conditions for performing surgery \textit{without} incurring an asymptotic penalty. If the last condition is also satisfied then we can perform code surgery while maintaining $k, d\in \Theta(n)$.
翻訳日:2024-01-09 23:01:47 公開日:2024-01-08
# 非エルミート系における対称性保護退化点のブレイディングトポロジー

Braiding topology of symmetry-protected degeneracy points in non-Hermitian systems ( http://arxiv.org/abs/2309.16152v2 )

ライセンス: Link先を確認
Jia-Zheng Li, Kai Bai, Cheng Guo, Tian-Rui Liu, Liang Fang, Duanduan Wan, Meng Xiao(参考訳) 非エルミート系における退化点は非常に興味深い。 ホモトピー的枠組みは対称性がなければそれらの振る舞いを理解するために存在するが、対称性に保護された縮退点には適用されない。 本研究では, 代数トポロジーを用いて, 対称性が保護された縮退点の系統的分類を行い, ブレイド保存則を考察する。 モデルハミルトニアンと回路シミュレーションを用いて、単純な消滅とは対照的に、ペアワイズで生成した対称性保護縮退点が、アーベル像を超えた高次縮退点に融合することを発見した。 本研究は,様々な分野の研究者に対して,対称性が保護される非エルミート的縮退点を利用した新しい現象や応用を明らかにすることを可能にする。

Degeneracy points in non-Hermitian systems are of great interest. While a homotopic framework exists for understanding their behavior in the absence of symmetry, it does not apply to symmetry-protected degeneracy points with reduced codimension. In this work, utilizing algebraic topology, we provide a systematic classification of these symmetry-protected degenerate points and investigate the braid conservation rule followed by them. Using a model Hamiltonian and circuit simulation, we discover that, contrary to simple annihilation, pairwise-created symmetry-protected degeneracy points merge into a higher-order degeneracy point, which goes beyond the abelian picture. Our findings empower researchers across diverse fields to uncover new phenomena and applications harnessing symmetry-protected non-Hermitian degeneracy points.
翻訳日:2024-01-09 23:01:36 公開日:2024-01-08
# 病的近視認識のための効率的なピラミッドチャネルアテンションネットワーク

Efficient Pyramid Channel Attention Network for Pathological Myopia Recognition ( http://arxiv.org/abs/2309.09196v2 )

ライセンス: Link先を確認
Xiaoqing Zhang, Jilu Zhao, Yan Li, Hao Wu, Xiangtian Zhou, Jiang Liu(参考訳) 病理性近視(PM)は世界中の視力障害の先進的な眼疾患である。 臨床におけるpmの病理分布の特徴は, 眼底像上でグローバルに分布し, 臨床医の診断支援に重要な役割を担っている。 しかし、既存のディープニューラルネットワークのほとんどは複雑なアーキテクチャの設計に重点を置いているが、PM以前の病理分布を探索することは稀である。 この課題に対処するために, ピラミッドプールと多スケールコンテキスト融合によるPM前臨床病理の可能性をフル活用した, 効率的なピラミッドチャネルアテンション (EPCA) モジュールを提案する。 そこで我々は,EPCAモジュールのシーケンスを積み重ねることで,基礎画像に基づく自動PM認識のためのEPCA-Netを構築した。 さらに,近年の事前学習・ファインタニングのパラダイムを背景として,PM認識のための学習済み自然画像モデルを冷凍し,EPCAや他の注意モジュールをアダプタとして扱うことを試みた。 また,pm-fundus と呼ばれる pm 認識ベンチマークを構築し,公開データセットから pm の基金イメージを収集した。 包括的実験により,pm認識タスクにおけるepca-netの最先端手法に対する優位性が実証された。 また,本手法は,従来の微調整パラダイムをベースとした従来手法と比較することにより,従来手法と比較することで,より自然な画像基盤モデルを活用して,PM認識タスクを限定的な医療データシステムで実現する可能性が示唆された。

Pathological myopia (PM) is the leading ocular disease for impaired vision worldwide. Clinically, the characteristic of pathology distribution in PM is global-local on the fundus image, which plays a significant role in assisting clinicians in diagnosing PM. However, most existing deep neural networks focused on designing complex architectures but rarely explored the pathology distribution prior of PM. To tackle this issue, we propose an efficient pyramid channel attention (EPCA) module, which fully leverages the potential of the clinical pathology prior of PM with pyramid pooling and multi-scale context fusion. Then, we construct EPCA-Net for automatic PM recognition based on fundus images by stacking a sequence of EPCA modules. Moreover, motivated by the recent pretraining-and-finetuning paradigm, we attempt to adapt pre-trained natural image models for PM recognition by freezing them and treating the EPCA and other attention modules as adapters. In addition, we construct a PM recognition benchmark termed PM-fundus by collecting fundus images of PM from publicly available datasets. The comprehensive experiments demonstrate the superiority of our EPCA-Net over state-of-the-art methods in the PM recognition task. The results also show that our method based on the pretraining-and-finetuning paradigm achieves competitive performance through comparisons to part of previous methods based on traditional fine-tuning paradigm with fewer tunable parameters, which has the potential to leverage more natural image foundation models to address the PM recognition task in limited medical data regime.
翻訳日:2024-01-09 23:00:49 公開日:2024-01-08
# 大規模言語モデルは実世界の複雑な命令を理解することができるか?

Can Large Language Models Understand Real-World Complex Instructions? ( http://arxiv.org/abs/2309.09150v2 )

ライセンス: Link先を確認
Qianyu He, Jie Zeng, Wenhao Huang, Lina Chen, Jin Xiao, Qianxi He, Xunzhe Zhou, Lida Chen, Xintao Wang, Yuncheng Huang, Haoning Ye, Zihan Li, Shisong Chen, Yikai Zhang, Zhouhong Gu, Jiaqing Liang, Yanghua Xiao(参考訳) 大規模言語モデル(llm)は人間の指示を理解でき、従来のnlpタスクを超えた実用的応用の可能性を示している。 しかし、複数のタスクや制約を必要とする複雑なタスク記述や、長いコンテキスト、ノイズ、異種情報、マルチターン形式を含む複雑な入力にはまだ苦労している。 これらの特徴のため、LLMはタスク記述からのセマンティック制約を無視し、誤ったフォーマットを生成し、長さやサンプルカウントの制約に違反し、入力テキストに反することが多い。 既存のベンチマークは、LLMが複雑な命令を理解する能力を評価するには不十分である。 このギャップを埋めるために,LLMの複雑な命令を体系的に追従する能力を評価するベンチマークであるCellOを提案する。 複雑な命令のための8つの特徴を設計し、実世界のシナリオから包括的な評価データセットを構築する。 私たちはまた、4つの基準を確立し、現在の基準が不十分でバイアスがあり、厳しすぎるため、対応するメトリクスを開発します。 中国語と英語を対象とする代表的なモデルの性能を、広範な実験を通して複雑な指示に従うことで比較する。 CellOのリソースはhttps://github.com/Abbey4799/CELLOで公開されている。

Large language models (LLMs) can understand human instructions, showing their potential for pragmatic applications beyond traditional NLP tasks. However, they still struggle with complex instructions, which can be either complex task descriptions that require multiple tasks and constraints, or complex input that contains long context, noise, heterogeneous information and multi-turn format. Due to these features, LLMs often ignore semantic constraints from task descriptions, generate incorrect formats, violate length or sample count constraints, and be unfaithful to the input text. Existing benchmarks are insufficient to assess LLMs' ability to understand complex instructions, as they are close-ended and simple. To bridge this gap, we propose CELLO, a benchmark for evaluating LLMs' ability to follow complex instructions systematically. We design eight features for complex instructions and construct a comprehensive evaluation dataset from real-world scenarios. We also establish four criteria and develop corresponding metrics, as current ones are inadequate, biased or too strict and coarse-grained. We compare the performance of representative Chinese-oriented and English-oriented models in following complex instructions through extensive experiments. Resources of CELLO are publicly available at https://github.com/Abbey4799/CELLO.
翻訳日:2024-01-09 23:00:22 公開日:2024-01-08
# TextBind: 野生のマルチターンインターリーブマルチモーダルインストラクションフォロー

TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild ( http://arxiv.org/abs/2309.08637v4 )

ライセンス: Link先を確認
Huayang Li and Siheng Li and Deng Cai and Longyue Wang and Lemao Liu and Taro Watanabe and Yujiu Yang and Shuming Shi(参考訳) 命令追従能力を持つ大規模言語モデルは、人工知能の分野に革命をもたらした。 これらのモデルは、自然言語インターフェイスを通じて様々な現実世界のタスクに取り組むための例外的な一般化性を示している。 しかし、その性能は高品質な模範データに大きく依存しており、入手が難しいことが多い。 この課題は、マルチモーダル命令のフォローに関してさらに悪化する。 マルチターンインターリーブ型マルチモーダル命令追従機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。 本手法では,画像キャプチャペアのみを必要とし,言語モデルからマルチターンマルチモーダル命令応答会話を生成する。 そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。 我々は,マルチモーダルインストラクションの分野における今後の研究を促進するために,データセット,モデル,デモをリリースする。

Large language models with instruction-following abilities have revolutionized the field of artificial intelligence. These models show exceptional generalizability to tackle various real-world tasks through their natural language interfaces. However, their performance heavily relies on high-quality exemplar data, which is often difficult to obtain. This challenge is further exacerbated when it comes to multimodal instruction following. We introduce TextBind, an almost annotation-free framework for empowering larger language models with the multi-turn interleaved multimodal instruction-following capabilities. Our approach requires only image-caption pairs and generates multi-turn multimodal instruction-response conversations from a language model. To accommodate interleaved image-text inputs and outputs, we devise MIM, a language model-centric architecture that seamlessly integrates image encoder and decoder models. We release our dataset, model, and demo to foster future research in the area of multimodal instruction following.
翻訳日:2024-01-09 22:59:59 公開日:2024-01-08
# オンライン凸最適化によるオンラインサブモジュラー最大化

Online Submodular Maximization via Online Convex Optimization ( http://arxiv.org/abs/2309.04339v4 )

ライセンス: Link先を確認
Tareq Si Salem, G\"ozde \"Ozcan, Iasonas Nikolaou, Evimaria Terzi, Stratis Ioannidis(参考訳) 一般マトロイド制約下でのモノトン部分モジュラー最大化をオンライン環境で検討する。 重み付けされたしきい値ポテンシャル関数のオンライン最適化は,オンライン凸最適化(OCO)に還元されることを示す。 これは、このクラスの関数が凹凸緩和(concave relaxation)を許容するためであり、結果として、OCOポリシーと適切な丸めのスキームが組み合わさって、組合せ設定におけるサブ線形後悔を達成できる。 我々は,オンライン学習問題において,動的後悔,盗賊,楽観的な学習設定など,多くの異なるバージョンに縮小が及んでいることを示す。

We study monotone submodular maximization under general matroid constraints in the online setting. We prove that online optimization of a large class of submodular functions, namely, weighted threshold potential functions, reduces to online convex optimization (OCO). This is precisely because functions in this class admit a concave relaxation; as a result, OCO policies, coupled with an appropriate rounding scheme, can be used to achieve sublinear regret in the combinatorial setting. We show that our reduction extends to many different versions of the online learning problem, including the dynamic regret, bandit, and optimistic-learning settings.
翻訳日:2024-01-09 22:59:21 公開日:2024-01-08
# ハイブリッド量子/古典計算のためのpragmaベースのc++フレームワーク

A pragma based C++ framework for hybrid quantum/classical computation ( http://arxiv.org/abs/2309.02605v2 )

ライセンス: Link先を確認
Arnaud Gazda and Oceane Koska(参考訳) 量子コンピュータは、様々なタスクのために古典的コンピュータよりも指数関数的なスピードアップを約束する。 この新興技術は、HPCの範囲を超えて問題を解決することができるため、HPC(High Performance Computing)に初めて大きな影響を与えることが期待されている。 そのためにHPCは、古典的および量子的デバイスの両方で、ハイブリッドな量子古典的ノードを介してアプリケーションを動作させる量子アクセラレータを必要とする。 ハイブリッド量子HPCアプリケーションはスケーラブルで、Quantum Error Corrected (QEC)デバイス上で実行可能なものでなければならない。 しかし、スケーラビリティの欠如、性能の低さ、量子アプリケーションに古典的なスキームを挿入できないため、現在の量子フレームワークはHPCコミュニティによって採用されなくなった。 本稿では,hpc環境と互換性のあるハイブリッド量子古典フレームワークの要件を定義し,q-pragmaと呼ばれる新しいハードウェア非依存フレームワークを提案する。 このフレームワークは、量子計算を管理するためにプラグマディレクティブを追加することで、HPCでよく使われる古典的なプログラミング言語C++を拡張している。

Quantum computers promise exponential speed ups over classical computers for various tasks. This emerging technology is expected to have its first huge impact in High Performance Computing (HPC), as it can solve problems beyond the reach of HPC. To that end, HPC will require quantum accelerators, which will enable applications to run on both classical and quantum devices, via hybrid quantum-classical nodes. Hybrid quantum-HPC applications should be scalable, executable on Quantum Error Corrected (QEC) devices, and could use quantum-classical primitives. However, the lack of scalability, poor performances, and inability to insert classical schemes within quantum applications has prevented current quantum frameworks from being adopted by the HPC community. This paper specifies the requirements of a hybrid quantum-classical framework compatible with HPC environments, and introduces a novel hardware-agnostic framework called Q-Pragma. This framework extends the classical programming language C++ heavily used in HPC via the addition of pragma directives to manage quantum computations.
翻訳日:2024-01-09 22:58:32 公開日:2024-01-08
# フェデレーション多目的学習

Federated Multi-Objective Learning ( http://arxiv.org/abs/2310.09866v3 )

ライセンス: Link先を確認
Haibo Yang, Zhuqing Liu, Jia Liu, Chaosheng Dong, Michinari Momma(参考訳) 近年、多目的最適化(MOO)は多くのマルチエージェントマルチタスク学習アプリケーションを支える基礎的な問題として現れている。 しかし,MOO文学における既存のアルゴリズムは,マルチエージェントマルチタスク学習アプリケーションの分散性やデータプライバシ要求を満足しない集中型学習設定に限定されている。 これにより、複数のクライアントがMOO問題を分散的かつ協調的に解決し、トレーニングデータをプライベートに保ちながら、新しいFMOL(Federated Multi-Objective Learning)フレームワークを提案することができる。 特に,我々のFMOLフレームワークは,異なるクライアント間で異なる目的関数のセットを提供して,MOOの定式化を初めてフェデレート学習パラダイムに発展させ,一般化する幅広いアプリケーションをサポートする。 このfmolフレームワークのために,federated multi-gradient descent averaging (fmgda) と federated stochastic multi-gradient descent averaging (fsmgda) と呼ばれる2つの新しいfederated multi-objective optimization (fmoo) アルゴリズムを提案する。 両方のアルゴリズムは、局所的な更新によって通信コストを著しく削減し、一方、単目的フェデレーション学習においてアルゴリズムのアルゴリズムと同等の収束率を達成する。 また,提案したFMOOアルゴリズムの有効性についても検討した。

In recent years, multi-objective optimization (MOO) emerges as a foundational problem underpinning many multi-agent multi-task learning applications. However, existing algorithms in MOO literature remain limited to centralized learning settings, which do not satisfy the distributed nature and data privacy needs of such multi-agent multi-task learning applications. This motivates us to propose a new federated multi-objective learning (FMOL) framework with multiple clients distributively and collaboratively solving an MOO problem while keeping their training data private. Notably, our FMOL framework allows a different set of objective functions across different clients to support a wide range of applications, which advances and generalizes the MOO formulation to the federated learning paradigm for the first time. For this FMOL framework, we propose two new federated multi-objective optimization (FMOO) algorithms called federated multi-gradient descent averaging (FMGDA) and federated stochastic multi-gradient descent averaging (FSMGDA). Both algorithms allow local updates to significantly reduce communication costs, while achieving the {\em same} convergence rates as those of their algorithmic counterparts in the single-objective federated learning. Our extensive experiments also corroborate the efficacy of our proposed FMOO algorithms.
翻訳日:2024-01-09 22:50:29 公開日:2024-01-08
# 共変量シフトによるフェアネス: 未ラベルテストサンプルの少ないフェアネス精度トレードオフの改善

Fairness under Covariate Shift: Improving Fairness-Accuracy tradeoff with few Unlabeled Test Samples ( http://arxiv.org/abs/2310.07535v3 )

ライセンス: Link先を確認
Shreyas Havaldar, Jatin Chauhan, Karthikeyan Shanmugam, Jay Nandy, Aravindan Raghuveer(参考訳) テストデータの共変量シフトは、モデルの精度と公平性の両方を著しく低下させることができる一般的な実用的な現象である。 共変量シフトの下での異なるセンシティブなグループ間の公平性の確保は、刑事司法のような社会的意味から最も重要である。 ラベル付きトレーニングセットとともに、ラベル付きテストサンプルの小さなセットのみが利用可能である教師なしのシステムで運用します。 この非常に挑戦的で現実的なシナリオの下で公平性を改善するために、私たちは3つの貢献をします。 まず,新しい複合重み付きエントロピーに基づく予測精度を目標とし,フェアネスの表現マッチング損失を最適化した。 我々は、いくつかの標準データセットの公平性・正確性トレードオフに関して、損失定式化による最適化がパレート意味で多くの最先端ベースラインを上回っていることを実験的に検証する。 第二の貢献は、Asymmetric Covariate Shift(非対称共変量シフト)という新しい設定である。 非対称共変量シフト (asymmetric covariate shift) は、ある群の共変量の分布が他の群に比べて著しく変化し、支配的な群が過剰に表現されたときに起こる。 この設定は現在のベースラインでは極めて困難であるが,提案手法がベースラインを大きく上回っていることを示す。 第3の貢献は理論であり、トレーニングセットにおける予測損失と重み付きエントロピー項が共変量シフトの下でのテスト損失を近似することを示す。 経験的および形式的サンプル複雑性境界により、この未知のテスト損失に対する近似は、他の多くのベースラインに影響を及ぼす重要サンプリング分散に依存しないことを示す。

Covariate shift in the test data is a common practical phenomena that can significantly downgrade both the accuracy and the fairness performance of the model. Ensuring fairness across different sensitive groups under covariate shift is of paramount importance due to societal implications like criminal justice. We operate in the unsupervised regime where only a small set of unlabeled test samples along with a labeled training set is available. Towards improving fairness under this highly challenging yet realistic scenario, we make three contributions. First is a novel composite weighted entropy based objective for prediction accuracy which is optimized along with a representation matching loss for fairness. We experimentally verify that optimizing with our loss formulation outperforms a number of state-of-the-art baselines in the pareto sense with respect to the fairness-accuracy tradeoff on several standard datasets. Our second contribution is a new setting we term Asymmetric Covariate Shift that, to the best of our knowledge, has not been studied before. Asymmetric covariate shift occurs when distribution of covariates of one group shifts significantly compared to the other groups and this happens when a dominant group is over-represented. While this setting is extremely challenging for current baselines, We show that our proposed method significantly outperforms them. Our third contribution is theoretical, where we show that our weighted entropy term along with prediction loss on the training set approximates test loss under covariate shift. Empirically and through formal sample complexity bounds, we show that this approximation to the unseen test loss does not depend on importance sampling variance which affects many other baselines.
翻訳日:2024-01-09 22:50:09 公開日:2024-01-08
# AdaMesh: 適応型音声駆動型顔アニメーションのための個人化顔表情と頭部電位

AdaMesh: Personalized Facial Expressions and Head Poses for Adaptive Speech-Driven 3D Facial Animation ( http://arxiv.org/abs/2310.07236v2 )

ライセンス: Link先を確認
Liyang Chen, Weihong Bao, Shun Lei, Boshi Tang, Zhiyong Wu, Shiyin Kang, Haozhi Huang(参考訳) 音声駆動型3d顔アニメーションは、近年広く研究されている運転音声と同期した顔の動きを生成することを目的としている。 既存の作品は、顔の表情や頭ポーズスタイルなど、世代ごとの話し方を無視している。 いくつかの作品は微調整モジュールによってパーソナリティを捉えようとしている。 しかし、トレーニングデータの制限は、鮮明さの欠如につながる。 本研究では,約10秒の参照映像からパーソナライズされた発話スタイルを学習し,表情と頭部ポーズを鮮明に生成する,適応型発話駆動型顔アニメーション手法であるadameshを提案する。 具体的には,表情適応器を微調整するためのMoLoRA(mixed-of-low-rank adaptation)を提案する。 パーソナライズされたポーズスタイルに対しては、個別のポーズを事前に構築し、微調整なしでセマンティックなポーズスタイルマトリックスに埋め込まれた適切なスタイルを検索することで、ポーズアダプタを提案する。 広範な実験結果から,本手法は最先端手法よりも優れており,参照ビデオの発話スタイルを保ち,鮮明な顔アニメーションを生成できることがわかった。 追加のビデオとコードはhttps://adamesh.github.io.comで入手できる。

Speech-driven 3D facial animation aims at generating facial movements that are synchronized with the driving speech, which has been widely explored recently. Existing works mostly neglect the person-specific talking style in generation, including facial expression and head pose styles. Several works intend to capture the personalities by fine-tuning modules. However, limited training data leads to the lack of vividness. In this work, we propose AdaMesh, a novel adaptive speech-driven facial animation approach, which learns the personalized talking style from a reference video of about 10 seconds and generates vivid facial expressions and head poses. Specifically, we propose mixture-of-low-rank adaptation (MoLoRA) to fine-tune the expression adapter, which efficiently captures the facial expression style. For the personalized pose style, we propose a pose adapter by building a discrete pose prior and retrieving the appropriate style embedding with a semantic-aware pose style matrix without fine-tuning. Extensive experimental results show that our approach outperforms state-of-the-art methods, preserves the talking style in the reference video, and generates vivid facial animation. The supplementary video and code will be available at https://adamesh.github.io.
翻訳日:2024-01-09 22:49:39 公開日:2024-01-08
# 関係概念分析の段階的機能再構築

Stepwise functional refoundation of relational concept analysis ( http://arxiv.org/abs/2310.06441v2 )

ライセンス: Link先を確認
J\'er\^ome Euzenat (MOEX )(参考訳) relational concept analysis(rca)は、複数の関連するコンテキストを同時に扱う形式的概念分析の拡張である。 データから記述論理理論を学習するために設計され、様々なアプリケーションで使用される。 RCAに関する厄介な観察は、データに円形の依存関係がある場合、他の解は許容できると考えられるが、単一の概念格子の族を返すことである。 運用上の方法で提供されるRCAのセマンティクスは、この問題に光を当てていない。 本報告では、これらの許容可能な解を、初期文脈によって決定される空間に属する概念格子の族として定義し、新しい属性をスケールできない(飽和)ことと、家族の概念のみを参照する(自己支持)。 我々は、十分に整形された解の空間と、その空間上の2つの関数を定義することにより、RCAプロセス上の関数的ビューを採用する。 許容できる解は両方の函数の共通固定点であることを示す。 これは、コンテキスト空間と格子空間で定義された1つのコンテキストのみを考えるRCAの最小バージョンから始めることで、段階的に達成される。 これらの空間はその後、文脈-格子対の1つの空間に結合され、RCAによって操作される対象を表す文脈-格子対のインデックス付き族の空間にさらに拡張される。 我々はRCAが許容できる解の集合の最小要素を返すことを示す。 さらに、最大の要素を生成する操作を二重に構築することも可能である。 許容される解の集合は、これら2つの元の間の間隔の完全な部分集合である。 その構造と定義された函数がどのようにそれを詳細に研究するか。

Relational concept analysis (RCA) is an extension of formal concept analysis allowing to deal with several related contexts simultaneously. It has been designed for learning description logic theories from data and used within various applications. A puzzling observation about RCA is that it returns a single family of concept lattices although, when the data feature circular dependencies, other solutions may be considered acceptable. The semantics of RCA, provided in an operational way, does not shed light on this issue. In this report, we define these acceptable solutions as those families of concept lattices which belong to the space determined by the initial contexts (well-formed), cannot scale new attributes (saturated), and refer only to concepts of the family (self-supported). We adopt a functional view on the RCA process by defining the space of well-formed solutions and two functions on that space: one expansive and the other contractive. We show that the acceptable solutions are the common fixed points of both functions. This is achieved step-by-step by starting from a minimal version of RCA that considers only one single context defined on a space of contexts and a space of lattices. These spaces are then joined into a single space of context-lattice pairs, which is further extended to a space of indexed families of context-lattice pairs representing the objects manippulated by RCA. We show that RCA returns the least element of the set of acceptable solutions. In addition, it is possible to build dually an operation that generates its greatest element. The set of acceptable solutions is a complete sublattice of the interval between these two elements. Its structure and how the defined functions traverse it are studied in detail.
翻訳日:2024-01-09 22:49:15 公開日:2024-01-08
# 極小可観測性の原理に基づく量子スカラー場理論

Quantum Scalar Field Theory Based On Principle of Least Observability ( http://arxiv.org/abs/2310.02274v2 )

ライセンス: Link先を確認
Jianhao M. Yang(参考訳) 近年、非相対論的量子定式化は最小可観測性原理 [36] から導出できることが示されている。 本稿では,この原理を大規模スカラー場に適用し,スカラー場に対する波動汎関数のschr\"{o}dinger方程式を導出する。 この原理は、2つの仮定による分解によって古典場理論における最小作用原理を拡張する。 まず、プランク定数は、観測可能となるためにフィールドが提示する必要がある最小のアクション量を定義する。 第2に、一定の確率場ゆらぎがある。 フィールドのゆらぎによる観測可能な追加情報を測定するための情報メトリクスを定義するために,新しい手法が導入された。 } 全作用を最小化するために変動原理を適用することにより、電場変動の遷移確率、不確実性関係、および波動関数のシュル・"{o}ディンガー方程式をエレガントに導出することができる。 さらに、相対エントロピーの一般定義を用いて場のゆらぎに関する情報メトリクスを定義することにより、相対エントロピーの順序に依存する波動汎関数の一般化されたschr\"{o}dinger方程式を得る。 その結果、拡張最小作用原理は非相対論的量子力学と相対論的量子スカラー場理論の両方を導出するために応用できることが示された。 非スカラー場に対する量子論を得るためにさらに利用できると期待している。

Recently it is shown that the non-relativistic quantum formulations can be derived from a least observability principle [36]. In this paper, we apply the principle to massive scalar fields, and derive the Schr\"{o}dinger equation of the wave functional for the scalar fields. The principle extends the least action principle in classical field theory by factoring in two assumptions. First, the Planck constant defines the minimal amount of action a field needs to exhibit in order to be observable. Second, there are constant random field fluctuations. A novel method is introduced to define the information metrics to measure additional observable information due to the field fluctuations, \added{which is then converted to the additional action through the first assumption.} Applying the variation principle to minimize the total actions allows us to elegantly derive the transition probability of field fluctuations, the uncertainty relation, and the Schr\"{o}dinger equation of the wave functional. Furthermore, by defining the information metrics for field fluctuations using general definitions of relative entropy, we obtain a generalized Schr\"{o}dinger equation of the wave functional that depends on the order of relative entropy. Our results demonstrate that the extended least action principle can be applied to derive both non-relativistic quantum mechanics and relativistic quantum scalar field theory. We expect it can be further used to obtain quantum theory for non-scalar fields.
翻訳日:2024-01-09 22:47:11 公開日:2024-01-08
# ガウス・ボネットからの自発的相互作用量子ビット

Spontaneously interacting qubits from Gauss-Bonnet ( http://arxiv.org/abs/2310.01550v2 )

ライセンス: Link先を確認
Sean Prudhoe, Rishabh Kumar, Sarah Shandera(参考訳) 局所的に相互作用する小さな量子系の集合が、高次元の単一粒子系から自発的に対称性を破り、どのように出現するかを調べる以前の構成に基づいて、幾何損失関数のより大きなファミリーを考え、「量子ビットについて知る」(KAQ)いくつかの重要なメトリクスのクラスを明示的に構築する。 損失関数は、自発的対称性の破れを許容する順序パラメータを導入するガウス・ボネット項を付加したリッチスカラーからなる。 この方法の魅力は2つある。 (i)Ricciスカラーは既にKAQクリティカルメトリクスを持っていることが示されている。 (ii)運動の正確な方程式は、2つの微分の一般曲率項を持つ損失函数で知られている。 本稿では,ガウス・ボンネット項を含む損失汎関数に対して,左不変計量の空間における運動方程式の解であるKAQクリティカルメトリクスが存在することを示す。 部分代数構造を利用すると、ランダムなハミルトニアンの慣れ親しんだ分布(gue, goe, gse)を含むkaqメトリクスの自然なクラスがもたらされることがわかった。 本解析では,数値的集約的ではあるが,他の損失関数や高次元システムへの拡張を可能にするツールを導入する。

Building on previous constructions examining how a collection of small, locally interacting quantum systems might emerge via spontaneous symmetry breaking from a single-particle system of high dimension, we consider a larger family of geometric loss functionals and explicitly construct several classes of critical metrics which "know about qubits" (KAQ). The loss functional consists of the Ricci scalar with the addition of the Gauss-Bonnet term, which introduces an order parameter that allows for spontaneous symmetry breaking. The appeal of this method is two-fold: (i) the Ricci scalar has already been shown to have KAQ critical metrics and (ii) exact equations of motions are known for loss functionals with generic curvature terms up to two derivatives. We show that KAQ critical metrics, which are solutions to the equations of motion in the space of left-invariant metrics with fixed determinant, exist for loss functionals that include the Gauss-Bonnet term. We find that exploiting the subalgebra structure leads us to natural classes of KAQ metrics which contain the familiar distributions (GUE, GOE, GSE) for random Hamiltonians. We introduce tools for this analysis that will allow for straightfoward, although numerically intensive, extension to other loss functionals and higher-dimension systems.
翻訳日:2024-01-09 22:46:26 公開日:2024-01-08
# 大規模言語モデルの微調整による低リソース環境における合成データ生成

Synthetic Data Generation in Low-Resource Settings via Fine-Tuning of Large Language Models ( http://arxiv.org/abs/2310.01119v2 )

ライセンス: Link先を確認
Jean Kaddour, Qi Liu(参考訳) 大規模言語モデル(LLM)のコンテキスト内学習能力により、比較的少ないラベル付き例で、ダウンストリームタスクを一般化することができる。 しかし、それらは膨大な計算資源をデプロイする必要がある。 あるいは、ラベル付きの例で微調整すれば、より小さなモデルは特定のタスクを解決できる。 しかし、これらの例は入手に費用がかかる。 両世界のベストを追求するため,より小さなモデルの下流性能を改善するために,微調整教師llmによる微調整トレーニングデータの合成データ生成について検討した。 4つのテキスト分類と2つのテキスト生成タスクで、データ生成とアノテーションの両方がそれぞれの下流モデルのパフォーマンスを劇的に改善し、時には元のトレーニングデータセットのほんの一部しか必要としないことが分かった。

The in-context learning ability of large language models (LLMs) enables them to generalize to novel downstream tasks with relatively few labeled examples. However, they require enormous computational resources to be deployed. Alternatively, smaller models can solve specific tasks if fine-tuned with enough labeled examples. These examples, however, are expensive to obtain. In pursuit of the best of both worlds, we study synthetic data generation of fine-tuning training data via fine-tuned teacher LLMs to improve the downstream performance of much smaller models. In four text classification and two text generation tasks, we find that both data generation and annotation dramatically improve the respective downstream model's performance, occasionally necessitating only a minor fraction of the original training dataset.
翻訳日:2024-01-09 22:45:34 公開日:2024-01-08
# 微分プライベート学習におけるオンライン感度最適化

Online Sensitivity Optimization in Differentially Private Learning ( http://arxiv.org/abs/2310.00829v2 )

ライセンス: Link先を確認
Filippo Galli and Catuscia Palamidessi and Tommaso Cucinotta(参考訳) 微分プライベート機械学習モデルのトレーニングには、最適化プロセスへの個人の貢献を制約する必要がある。 これは、平均化およびバッチ衛生化の前に、所定の閾値で勾配の2ドルノームをクリップすることで達成される。 この選択は2つの反対の方法で最適化に悪影響を及ぼす:より低い値での過剰な切断によるバイアスを悪化させるか、より高い値での衛生ノイズを増加させる。 この選択はデータセットやモデルアーキテクチャといった要素に大きく依存し、同じ最適化の範囲内でさえも異なり、通常はグリッド検索によって精巧なチューニングが要求される。 ハイパーパラメータチューニングにおけるプライバシ費用を回避するため,クリッピング閾値を動的に最適化する新しいアプローチを提案する。 このしきい値を学習可能なパラメータとして扱い、しきい値とコスト関数のクリーンな関係を確立する。 これにより、全体のプライバシー分析に最小限の影響を与えることなく、勾配勾配で前者を最適化できる。 提案手法は,様々なデータセット,タスク,モデル次元,プライバシレベルにわたる代替固定および適応戦略に対して徹底的に評価される。 結果から,同じプライバシ要件を考慮すれば,評価されたシナリオで比較可能なか,あるいは良好に動作することが示唆された。

Training differentially private machine learning models requires constraining an individual's contribution to the optimization process. This is achieved by clipping the $2$-norm of their gradient at a predetermined threshold prior to averaging and batch sanitization. This selection adversely influences optimization in two opposing ways: it either exacerbates the bias due to excessive clipping at lower values, or augments sanitization noise at higher values. The choice significantly hinges on factors such as the dataset, model architecture, and even varies within the same optimization, demanding meticulous tuning usually accomplished through a grid search. In order to circumvent the privacy expenses incurred in hyperparameter tuning, we present a novel approach to dynamically optimize the clipping threshold. We treat this threshold as an additional learnable parameter, establishing a clean relationship between the threshold and the cost function. This allows us to optimize the former with gradient descent, with minimal repercussions on the overall privacy analysis. Our method is thoroughly assessed against alternative fixed and adaptive strategies across diverse datasets, tasks, model dimensions, and privacy levels. Our results indicate that it performs comparably or better in the evaluated scenarios, given the same privacy requirements.
翻訳日:2024-01-09 22:45:21 公開日:2024-01-08
# RFトラップと動的光ポテンシャルを用いたトラップイオン量子コンピューティングのためのスケーラブルアーキテクチャ

Scalable architecture for trapped-ion quantum computing using RF traps and dynamic optical potentials ( http://arxiv.org/abs/2311.01168v2 )

ライセンス: Link先を確認
David Schwerdt, Lee Peleg, Yotam Shapira, Nadav Priel, Yanay Florshaim, Avram Gross, Ayelet Zalic, Gadi Afek, Nitzan Akerman, Ady Stern, Amit Ben Kish, Roee Ozeri(参考訳) 線形高周波トラップに閉じ込められたイオンに基づく量子ビットは、演算の忠実度、すべての接続性、局所制御の程度によって量子コンピューティングのプラットフォームとして成功している。 原則として、単一の1Dレジスタに閉じ込められるイオンベースの量子ビットの数に根本的な制限はない。 しかし実際には、長い閉じ込められたイオン結晶に関連する2つの主な問題は、イオンの運動の高熱速度と密集した運動スペクトルのスケールアップによる運動モードの「軟化」に起因し、どちらも高忠実な量子ビット操作の性能を阻害している。 本稿では,これらの問題を克服する大きなイオン結晶を持つ量子コンピューティングのための,総合的でスケーラブルなアーキテクチャを提案する。 この方法は、イオン結晶を即座に管理可能なサイズの細胞に分割する動的に機能する光学ポテンシャルに依存する。 これらの細胞は、ほぼ独立した量子レジスタとして振る舞うことが示され、全ての細胞に平行なエンタングゲートが可能である。 光電位を再構成する能力は、全イオン結晶間の接続を保証し、効率的な中回路測定を可能にする。 本研究では,全セルで同時に動作する大規模並列マルチビットエンタングルゲートの実装について検討し,クロストークエラーを補償するプロトコルを提案する。 このアーキテクチャは、フォールトトレラントなディジタル量子計算とアナログ量子シミュレーションの両方に有利である。

Qubits based on ions trapped in linear radio-frequency traps form a successful platform for quantum computing, due to their high fidelity of operations, all-to-all connectivity and degree of local control. In principle there is no fundamental limit to the number of ion-based qubits that can be confined in a single 1D register. However, in practice there are two main issues associated with long trapped-ion crystals, that stem from the 'softening' of their modes of motion, upon scaling up: high heating rates of the ions' motion, and a dense motional spectrum; both impede the performance of high-fidelity qubit operations. Here we propose a holistic, scalable architecture for quantum computing with large ion-crystals that overcomes these issues. Our method relies on dynamically-operated optical potentials, that instantaneously segment the ion-crystal into cells of a manageable size. We show that these cells behave as nearly independent quantum registers, allowing for parallel entangling gates on all cells. The ability to reconfigure the optical potentials guarantees connectivity across the full ion-crystal, and also enables efficient mid-circuit measurements. We study the implementation of large-scale parallel multi-qubit entangling gates that operate simultaneously on all cells, and present a protocol to compensate for crosstalk errors, enabling full-scale usage of an extensively large register. We illustrate that this architecture is advantageous both for fault-tolerant digital quantum computation and for analog quantum simulations.
翻訳日:2024-01-09 22:38:39 公開日:2024-01-08
# スピンスピン結合を持つ2量子ラビモデルにおける熱力学的限界

Thermodynamic Limit in the Two-qubit Quantum Rabi Model with Spin-Spin Coupling ( http://arxiv.org/abs/2310.19595v3 )

ライセンス: Link先を確認
R. Grimaudo, G. Falci, A. Messina, E. Paladino, A. Sergi, E. Solano, and D. Valenti(参考訳) 同じ量子化場モードに結合された2つの相互作用量子ビットからなる量子系において、2階超放射性量子相転移が発生する。 スピンスピン相互作用を持つ積分可能な2量子ビット量子ラビモデルに対して,熱力学的に適切な限界を導入する。 すなわち、スピンとモードの周波数比に関係なく、スピンスピンとスピンモードのカップリングとモード周波数との無限比によって決定される。

The occurrence of a second-order superradiant quantum phase transition is brought to light in a quantum system consisting of two interacting qubits coupled to the same quantized field mode. We introduce an appropriate thermodynamic-like limit for the integrable two-qubit quantum Rabi model with spin-spin interaction. Namely, it is determined by the infinite ratios of the spin-spin and the spin-mode couplings to the mode frequency, regardless of the spin-to-mode frequency ratios.
翻訳日:2024-01-09 22:38:02 公開日:2024-01-08
# 事前訓練型レコメンダシステム:因果脱バイアスの観点から

Pre-trained Recommender Systems: A Causal Debiasing Perspective ( http://arxiv.org/abs/2310.19251v4 )

ライセンス: Link先を確認
Ziqian Lin, Hao Ding, Nghia Trong Hoang, Branislav Kveton, Anoop Deoras, Hao Wang(参考訳) 事前学習されたビジョン/言語モデルに関する最近の研究は、AIにおける新しい有望なソリューション構築パラダイムの実践的な利点を実証している。一般的なタスク空間を記述する広いデータに基づいてモデルを事前学習し、トレーニングデータが著しく制限されている場合(例えばゼロまたは少数ショットの学習シナリオ)に、幅広い下流タスクを解決するためにうまく適応できる。 このような進展にインスパイアされた本論文では,事前学習モデルの観点からは,このようなパラダイムをレコメンダシステムのコンテキストに適用する可能性や課題について考察する。 特に,異なるドメインから抽出された汎用ユーザ・イテムインタラクションデータに基づいて,汎用的なインタラクションパターンを学習することにより,汎用的なインタラクションパターンをキャプチャする汎用レコメンデータを提案する。 しかし、セマンティック空間において強い適合性を持つビジョン/言語データとは異なり、異なるドメイン(例えば、異なる国や異なるeコマースプラットフォーム)にまたがるレコメンデーションデータの基礎となる普遍的なパターンは、しばしば、ユーザとアイテムの文化的な違いと、異なるeコマースプラットフォームの使用によって暗黙的に課されるドメイン内およびドメイン横断のバイアスによって引き起こされる。 実験で示したように、データ内の不均一なバイアスは、事前学習されたモデルの有効性を阻害する傾向がある。 この課題に対処するため,我々は,階層型ベイズ深層学習モデルであるPreRecを用いて,因果脱バイアスの観点を導入し,定式化する。 実世界データを用いた実験により,提案モデルが,クロスマーケットシナリオとクロスプラットフォームシナリオの両方において,ゼロ・マイ・ショット学習環境でのレコメンデーション性能を大幅に向上できることを示した。

Recent studies on pre-trained vision/language models have demonstrated the practical benefit of a new, promising solution-building paradigm in AI where models can be pre-trained on broad data describing a generic task space and then adapted successfully to solve a wide range of downstream tasks, even when training data is severely limited (e.g., in zero- or few-shot learning scenarios). Inspired by such progress, we investigate in this paper the possibilities and challenges of adapting such a paradigm to the context of recommender systems, which is less investigated from the perspective of pre-trained model. In particular, we propose to develop a generic recommender that captures universal interaction patterns by training on generic user-item interaction data extracted from different domains, which can then be fast adapted to improve few-shot learning performance in unseen new domains (with limited data). However, unlike vision/language data which share strong conformity in the semantic space, universal patterns underlying recommendation data collected across different domains (e.g., different countries or different E-commerce platforms) are often occluded by both in-domain and cross-domain biases implicitly imposed by the cultural differences in their user and item bases, as well as their uses of different e-commerce platforms. As shown in our experiments, such heterogeneous biases in the data tend to hinder the effectiveness of the pre-trained model. To address this challenge, we further introduce and formalize a causal debiasing perspective, which is substantiated via a hierarchical Bayesian deep learning model, named PreRec. Our empirical studies on real-world data show that the proposed model could significantly improve the recommendation performance in zero- and few-shot learning settings under both cross-market and cross-platform scenarios.
翻訳日:2024-01-09 22:37:55 公開日:2024-01-08
# 異なるプライベートな置換テスト:カーネルメソッドへの応用

Differentially Private Permutation Tests: Applications to Kernel Methods ( http://arxiv.org/abs/2310.19043v2 )

ライセンス: Link先を確認
Ilmun Kim and Antonin Schrab(参考訳) 近年、機密データのプライバシーに関する懸念が高まっている。 これらの懸念に応えて、差分プライバシーはプライバシー保護の厳格な枠組みとして浮上し、学術界と産業界の両方で広く認識されるようになった。 個人データ分析においてかなりの進歩があったが、既存の手法はしばしば非現実性や統計的効率の著しい損失に悩まされる。 本稿では,これらの懸念を仮説テストの文脈で緩和し,微分プライベートな置換テストを導入することを目的とする。 提案フレームワークは、従来の非プライベートな置換試験をプライベートな設定に拡張し、有限サンプルの妥当性と差分プライバシーの両方を厳密な方法で維持する。 提案するテストのパワーは,テスト統計の選択に依存し,一貫性と非漸近的一様パワーの一般的な条件を確立する。 本フレームワークの有用性と実用性を示すため,カーネルベースのテスト統計を再現することに注力し,dpMMDとdpHSICという2サンプル独立テストのための差分プライベートカーネルテストを導入する。 提案されたカーネルテストは、実装が簡単で、さまざまな種類のデータに適用でき、異なるプライバシレシで最小限の電力を得ることができる。 私たちの経験的評価は、様々な合成および実世界のシナリオ下での競争力をさらに強調し、実用的価値を強調します。 フレームワークの実装を容易にするために、コードは公開されています。

Recent years have witnessed growing concerns about the privacy of sensitive data. In response to these concerns, differential privacy has emerged as a rigorous framework for privacy protection, gaining widespread recognition in both academic and industrial circles. While substantial progress has been made in private data analysis, existing methods often suffer from impracticality or a significant loss of statistical efficiency. This paper aims to alleviate these concerns in the context of hypothesis testing by introducing differentially private permutation tests. The proposed framework extends classical non-private permutation tests to private settings, maintaining both finite-sample validity and differential privacy in a rigorous manner. The power of the proposed test depends on the choice of a test statistic, and we establish general conditions for consistency and non-asymptotic uniform power. To demonstrate the utility and practicality of our framework, we focus on reproducing kernel-based test statistics and introduce differentially private kernel tests for two-sample and independence testing: dpMMD and dpHSIC. The proposed kernel tests are straightforward to implement, applicable to various types of data, and attain minimax optimal power across different privacy regimes. Our empirical evaluations further highlight their competitive power under various synthetic and real-world scenarios, emphasizing their practical value. The code is publicly available to facilitate the implementation of our framework.
翻訳日:2024-01-09 22:37:19 公開日:2024-01-08
# 自己精製対応型クロスモーダルアクティブ補完学習

Cross-modal Active Complementary Learning with Self-refining Correspondence ( http://arxiv.org/abs/2310.17468v2 )

ライセンス: Link先を確認
Yang Qin, Yuan Sun, Dezhong Peng, Joey Tianyi Zhou, Xi Peng, Peng Hu(参考訳) 近年,画像テキストマッチングは,視覚的・テキスト的モダリティにまたがる潜在的対応を理解する上での基礎となる,学術・産業の注目を集めている。 しかし、既存のほとんどの手法は、ユビキタスアノテーションノイズ、すなわちノイズ対応(NC)を無視しながら、トレーニングペアがうまく一致していると暗黙的に仮定している。 このようなノイズに対処しようとする手法もあるが、過度な記憶/過度な適合と、特に高雑音下でのNCの信頼性の低い修正という2つの難しい問題に直面している。 そこで本研究では,既存の手法のロバスト性を改善するために,新しいacl(active complement loss)とscc(auto-refining correspondence correction)の恩恵を受ける汎用的なcrcl(cross-modal robust complement learning framework)を提案する。 特に、aclはアクティブで補完的な学習損失を利用して誤った監督を提供するリスクを低減し、理論的および実験的にncに対する堅牢性が実証される。 SCCは、モーメント補正を伴う複数の自己精製プロセスを利用して、対応を補正するために受容場を拡大し、エラーの蓄積を緩和し、正確で安定した補正を達成する。 我々は3つの画像テキストベンチマーク(Flickr30K, MS-COCO, CC152K)で広範な実験を行い、CRCLの合成および実世界の雑音対応に対する優れた堅牢性を検証する。

Recently, image-text matching has attracted more and more attention from academia and industry, which is fundamental to understanding the latent correspondence across visual and textual modalities. However, most existing methods implicitly assume the training pairs are well-aligned while ignoring the ubiquitous annotation noise, a.k.a noisy correspondence (NC), thereby inevitably leading to a performance drop. Although some methods attempt to address such noise, they still face two challenging problems: excessive memorizing/overfitting and unreliable correction for NC, especially under high noise. To address the two problems, we propose a generalized Cross-modal Robust Complementary Learning framework (CRCL), which benefits from a novel Active Complementary Loss (ACL) and an efficient Self-refining Correspondence Correction (SCC) to improve the robustness of existing methods. Specifically, ACL exploits active and complementary learning losses to reduce the risk of providing erroneous supervision, leading to theoretically and experimentally demonstrated robustness against NC. SCC utilizes multiple self-refining processes with momentum correction to enlarge the receptive field for correcting correspondences, thereby alleviating error accumulation and achieving accurate and stable corrections. We carry out extensive experiments on three image-text benchmarks, i.e., Flickr30K, MS-COCO, and CC152K, to verify the superior robustness of our CRCL against synthetic and real-world noisy correspondences.
翻訳日:2024-01-09 22:36:33 公開日:2024-01-08
# キキかブバか? 視覚・言語モデルにおける音の象徴

Kiki or Bouba? Sound Symbolism in Vision-and-Language Models ( http://arxiv.org/abs/2310.16781v2 )

ライセンス: Link先を確認
Morris Alper and Hadar Averbuch-Elor(参考訳) 人間の言語における音と意味のマッピングは概ね任意であると仮定されているが、認知科学の研究では、特定の音と意味の間には言語と人口集団の間で非自明な相関関係があることが示されている。 多くの意味の次元の中で、音の象徴は特に、言語と視覚領域の相互関連に関して、健全でよく実証されている。 本研究では,クリップや安定拡散といった視覚・言語モデルに音の象徴性が反映されるかどうかという問題に対処する。 これらのモデルの固有知識を調べるためにゼロショット知識を用いて、精神言語学でよく知られたkiki-bouba効果と並行して、これらのパターンを示す強い証拠を見つける。 本研究は,音の象徴性を示す新しい方法を提供し,その性質を計算ツールを用いて理解する。 私たちのコードは公開されます。

Although the mapping between sound and meaning in human language is assumed to be largely arbitrary, research in cognitive science has shown that there are non-trivial correlations between particular sounds and meanings across languages and demographic groups, a phenomenon known as sound symbolism. Among the many dimensions of meaning, sound symbolism is particularly salient and well-demonstrated with regards to cross-modal associations between language and the visual domain. In this work, we address the question of whether sound symbolism is reflected in vision-and-language models such as CLIP and Stable Diffusion. Using zero-shot knowledge probing to investigate the inherent knowledge of these models, we find strong evidence that they do show this pattern, paralleling the well-known kiki-bouba effect in psycholinguistics. Our work provides a novel method for demonstrating sound symbolism and understanding its nature using computational tools. Our code will be made publicly available.
翻訳日:2024-01-09 22:35:46 公開日:2024-01-08
# 群集歩行者検出におけるDETRのランク付けに基づく適応クエリ生成

Ranking-based Adaptive Query Generation for DETRs in Crowded Pedestrian Detection ( http://arxiv.org/abs/2310.15725v2 )

ライセンス: Link先を確認
Feng Gao, Jiaxu Leng, Ji Gan, and Xinbo Gao(参考訳) トラアンフォーマー(DETR)とその変種(DETR)は,歩行者の混雑検知に適用され,高い性能を実現している。 しかし、混み合ったシーンでは、DETRのクエリの数が手動で調整されなければならず、そうでなければ、パフォーマンスは様々な程度に低下する。 本稿では,2つのクエリ生成手法をまず分析し,適応クエリ生成手法を設計するための4つのガイドラインを要約する。 そこで我々は,この問題を軽減するためにランクベースの適応クエリ生成(RAQG)を提案する。 具体的には、エンコーダが生成する最も信頼度の低い正のトレーニングサンプルのランクを予測できるランク予測ヘッドを設計する。 予測ランクに基づいて,エンコーダが生成した粗い検出結果を適応的に選択してクエリを生成する適応的選択法を設計する。 さらに、ランク予測ヘッドをより良く訓練するために、ソフトグラディエントL1損失を提案する。 ソフトグラディエントL1損失の勾配は連続であり、損失値とモデルパラメータの更新値の関係を粒度的に記述することができる。 提案手法は単純かつ効果的であり,任意のDETRに接続してクエリ適応性を実現する。 crowdhuman dataset と citypersons dataset の実験結果は,detr に対するクエリを適応的に生成し,競合的な結果が得られることを示した。 特に,crowdhumanデータセットで39.4%のmrを実現する。

DEtection TRansformer (DETR) and its variants (DETRs) have been successfully applied to crowded pedestrian detection, which achieved promising performance. However, we find that, in different degrees of crowded scenes, the number of DETRs' queries must be adjusted manually, otherwise, the performance would degrade to varying degrees. In this paper, we first analyze the two current query generation methods and summarize four guidelines for designing the adaptive query generation method. Then, we propose Rank-based Adaptive Query Generation (RAQG) to alleviate the problem. Specifically, we design a rank prediction head that can predict the rank of the lowest confidence positive training sample produced by the encoder. Based on the predicted rank, we design an adaptive selection method that can adaptively select coarse detection results produced by the encoder to generate queries. Moreover, to train the rank prediction head better, we propose Soft Gradient L1 Loss. The gradient of Soft Gradient L1 Loss is continuous, which can describe the relationship between the loss value and the updated value of model parameters granularly. Our method is simple and effective, which can be plugged into any DETRs to make it query-adaptive in theory. The experimental results on Crowdhuman dataset and Citypersons dataset show that our method can adaptively generate queries for DETRs and achieve competitive results. Especially, our method achieves state-of-the-art 39.4% MR on Crowdhuman dataset.
翻訳日:2024-01-09 22:35:06 公開日:2024-01-08
# scalablemap: オンラインの長距離ベクトル化hdマップ構築のためのスケーラブルマップ学習

ScalableMap: Scalable Map Learning for Online Long-Range Vectorized HD Map Construction ( http://arxiv.org/abs/2310.13378v2 )

ライセンス: Link先を確認
Jingyi Yu and Zizhao Zhang and Shengfu Xia and Jizhang Sang(参考訳) オンライン長範囲ベクトル化ハイデフィニション(HD)マップ構築のための,オンボードカメラセンサを用いた新しいエンドツーエンドパイプラインを提案する。 地図要素を表現するためにポリラインとポリゴンを用いるHDマップのベクトル化表現は、下流タスクで広く使われている。 しかし、動的オブジェクト検出に言及して設計された以前のスキームは、線形マップ要素の構造的制約を見落とし、長距離シナリオにおける性能劣化をもたらす。 本稿では,地図要素の特性を利用して地図構築の性能を向上させる。 より正確な鳥眼ビュー(BEV)の特徴を線形構造で導いた上で,ベクトル化された地図要素のスケーラビリティをさらに活用する階層的なスパースマップ表現を提案し,この表現に基づいて進行的復号機構と監督戦略を設計する。 当社のアプローチである scalablemap は,nuscenes データセット,特に長距離シナリオにおいて,18.3 fps を達成したまま,以前の最先端モデルを6.5 map で上回って優れたパフォーマンスを示している。 コードはhttps://github.com/jingy1yu/ScalableMapで入手できる。

We propose a novel end-to-end pipeline for online long-range vectorized high-definition (HD) map construction using on-board camera sensors. The vectorized representation of HD maps, employing polylines and polygons to represent map elements, is widely used by downstream tasks. However, previous schemes designed with reference to dynamic object detection overlook the structural constraints within linear map elements, resulting in performance degradation in long-range scenarios. In this paper, we exploit the properties of map elements to improve the performance of map construction. We extract more accurate bird's eye view (BEV) features guided by their linear structure, and then propose a hierarchical sparse map representation to further leverage the scalability of vectorized map elements and design a progressive decoding mechanism and a supervision strategy based on this representation. Our approach, ScalableMap, demonstrates superior performance on the nuScenes dataset, especially in long-range scenarios, surpassing previous state-of-the-art model by 6.5 mAP while achieving 18.3 FPS. Code is available at https://github.com/jingy1yu/ScalableMap.
翻訳日:2024-01-09 22:34:26 公開日:2024-01-08
# 注意深核融合前処理によるボリュームレンダリングによる暗黙的学習

Learning Neural Implicit through Volume Rendering with Attentive Depth Fusion Priors ( http://arxiv.org/abs/2310.11598v2 )

ライセンス: Link先を確認
Pengchong Hu, Zhizhong Han(参考訳) ニューラル暗示表現の学習は、多視点画像から3次元再構成において顕著な性能を達成した。 現在の手法では、ボリュームレンダリングを使用して、暗黙の表現をRGBまたは深度画像にレンダリングする。 しかし、毎回ビューのレンダリングは、穴の深さが不完全なことと、奥行きの監督から隠蔽された構造の無意識に悩まされ、ボリュームレンダリングによる幾何学的推論の精度に深刻な影響を及ぼす。 そこで本研究では,複数視点のRGBD画像からの暗黙表現を,暗黙的深度融合によるボリュームレンダリングにより学習することを提案する。 従来のニューラルネットワークでは,全深度画像から抽出したtsdf(truncated signed distance function)から粗い3d構造を認識できた。 TSDFは、ある深度画像の穴と現在の視界から見えない閉塞された部分へのアクセスを可能にする。 新たな注意機構を導入することで、ニューラルネットワークは学習された暗黙の関数として、推論された占有度に先立って直接深度融合を使用できる。 注意機構は,シーン全体を表す1回の融合tsdfと,同時局在マッピング(slam)の文脈で部分的なシーンを表すインクリメンタルに融合したtsdfのいずれかで動作する。 合成および実世界のスキャンを含む広く使われているベンチマークの評価は、最新のニューラル暗黙法よりも優れていることを示している。 プロジェクトページ: https://machineperceptionlab.github.io/attentive_df_prior/

Learning neural implicit representations has achieved remarkable performance in 3D reconstruction from multi-view images. Current methods use volume rendering to render implicit representations into either RGB or depth images that are supervised by multi-view ground truth. However, rendering a view each time suffers from incomplete depth at holes and unawareness of occluded structures from the depth supervision, which severely affects the accuracy of geometry inference via volume rendering. To resolve this issue, we propose to learn neural implicit representations from multi-view RGBD images through volume rendering with an attentive depth fusion prior. Our prior allows neural networks to perceive coarse 3D structures from the Truncated Signed Distance Function (TSDF) fused from all depth images available for rendering. The TSDF enables accessing the missing depth at holes on one depth image and the occluded parts that are invisible from the current view. By introducing a novel attention mechanism, we allow neural networks to directly use the depth fusion prior with the inferred occupancy as the learned implicit function. Our attention mechanism works with either a one-time fused TSDF that represents a whole scene or an incrementally fused TSDF that represents a partial scene in the context of Simultaneous Localization and Mapping (SLAM). Our evaluations on widely used benchmarks including synthetic and real-world scans show our superiority over the latest neural implicit methods. Project page: https://machineperceptionlab.github.io/Attentive_DF_Prior/
翻訳日:2024-01-09 22:34:04 公開日:2024-01-08
# ウォームアップを伴う運動失調の大型カタパルト : 実証的研究

Large Catapults in Momentum Gradient Descent with Warmup: An Empirical Study ( http://arxiv.org/abs/2311.15051v2 )

ライセンス: Link先を確認
Prin Phunyaphibarn, Junghyun Lee, Bohan Wang, Huishuai Zhang, Chulhee Yun(参考訳) 運動量による勾配降下は現代の深層学習で広く用いられているが、訓練軌道に対するその影響の具体的な理解はいまだに解明されていない。 本研究では,学習速度が大きい運動量勾配降下と学習速度ウォームアップが大きなカタパルトを表示し,傾斜降下によって得られるものよりも平坦な最小値に向かってイテレートを駆動することを示す。 すると、大きなカタパルトが自安定効果を「増幅する」運動量によって引き起こされるという実証的な証拠と理論的直観を与える(damian et al., 2023)。 B.1

Although gradient descent with momentum is widely used in modern deep learning, a concrete understanding of its effects on the training trajectory still remains elusive. In this work, we empirically show that momentum gradient descent with a large learning rate and learning rate warmup displays large catapults, driving the iterates towards flatter minima than those found by gradient descent. We then provide empirical evidence and theoretical intuition that the large catapult is caused by momentum "amplifying" the self-stabilization effect (Damian et al., 2023).B.1
翻訳日:2024-01-09 22:27:52 公開日:2024-01-08
# フーリエ位相検索のための座標ベースニューラルネットワーク

Coordinate-based Neural Network for Fourier Phase Retrieval ( http://arxiv.org/abs/2311.14925v2 )

ライセンス: Link先を確認
Tingyou Li, Zixin Xu, Yong S. Chu, Xiaojing Huang, Jizhou Li(参考訳) フーリエ位相検索は様々な分野、特にコヒーレント回折イメージングにおけるナノスケール構造の高分解能イメージングに不可欠である。 本研究では、位相探索性能の向上を目的としたニューラルネットワークの協調設計ツールであるSingle ImpliCit neurAl Network(SCAN)を提案する。 局所的な最小解に閉じ込められ、ノイズに敏感な従来の反復手法の欠点を補うため、SCANは、教師なしの方法でオブジェクト座標を、統一ネットワーク内の振幅と位相に順応的に接続する。 既存手法の多くは損失関数にフーリエ等級を用いるが,本手法では予測等級と位相を併用し,検索精度を向上させる。 総合的なテストにより、SCANは従来のディープラーニングモデルよりも精度とノイズ堅牢性に関して優れていることが検証される。 また,SCANがptychography設定で優れていることを示す。

Fourier phase retrieval is essential for high-definition imaging of nanoscale structures across diverse fields, notably coherent diffraction imaging. This study presents the Single impliCit neurAl Network (SCAN), a tool built upon coordinate neural networks meticulously designed for enhanced phase retrieval performance. Remedying the drawbacks of conventional iterative methods which are easiliy trapped into local minimum solutions and sensitive to noise, SCAN adeptly connects object coordinates to their amplitude and phase within a unified network in an unsupervised manner. While many existing methods primarily use Fourier magnitude in their loss function, our approach incorporates both the predicted magnitude and phase, enhancing retrieval accuracy. Comprehensive tests validate SCAN's superiority over traditional and other deep learning models regarding accuracy and noise robustness. We also demonstrate that SCAN excels in the ptychography setting.
翻訳日:2024-01-09 22:27:43 公開日:2024-01-08
# 自動医療報告における精度指標の比較実験 : 耳炎相談の場合

Comparative Experimentation of Accuracy Metrics in Automated Medical Reporting: The Case of Otitis Consultations ( http://arxiv.org/abs/2311.13273v2 )

ライセンス: Link先を確認
Wouter Faber, Renske Eline Bootsma, Tom Huibers, Sandra van Dulmen, Sjaak Brinkkemper(参考訳) 生成人工知能(AI)は、医療相談の書面に基づく医療報告を自動的に生成するために用いられる。 その目的は、医療従事者が直面する管理負担を減らすことだ。 生成したレポートの正確性は、その正確性と有用性を保証するために確立する必要がある。 AIが生成したレポートの正確性を測定する指標はいくつかあるが、これらの指標を医療報告に適用するための作業はほとんど行われていない。 耳炎診察に関する一般診療報告(GP)に対するAI生成医療報告に対して,10の精度指標の比較実験が実施されている。 生成したレポートの欠落、不正、および追加のステートメントの数は、測定値と相関している。 さらに, 自動医療報告の分野における測定値を比較するために, 単一のスコアを生成する複合精度スコアについて紹介し, 定義する。 その結果、相関研究と複合正確度スコアに基づいて、ルージュlとワードムーバーの距離メトリクスが、以前の作業と一致しない指標として好まれることがわかった。 これらの発見は、GPの医療報告を生成するシステムの開発を支援するAI生成された医療レポートの正確性を決定するのに役立つ。

Generative Artificial Intelligence (AI) can be used to automatically generate medical reports based on transcripts of medical consultations. The aim is to reduce the administrative burden that healthcare professionals face. The accuracy of the generated reports needs to be established to ensure their correctness and usefulness. There are several metrics for measuring the accuracy of AI generated reports, but little work has been done towards the application of these metrics in medical reporting. A comparative experimentation of 10 accuracy metrics has been performed on AI generated medical reports against their corresponding General Practitioner's (GP) medical reports concerning Otitis consultations. The number of missing, incorrect, and additional statements of the generated reports have been correlated with the metric scores. In addition, we introduce and define a Composite Accuracy Score which produces a single score for comparing the metrics within the field of automated medical reporting. Findings show that based on the correlation study and the Composite Accuracy Score, the ROUGE-L and Word Mover's Distance metrics are the preferred metrics, which is not in line with previous work. These findings help determine the accuracy of an AI generated medical report, which aids the development of systems that generate medical reports for GPs to reduce the administrative burden.
翻訳日:2024-01-09 22:27:08 公開日:2024-01-08
# iot侵入検出のためのopen set dandelion network

Open Set Dandelion Network for IoT Intrusion Detection ( http://arxiv.org/abs/2311.11249v2 )

ライセンス: Link先を確認
Jiashu Wu, Hao Dai, Kenneth B. Kent, Jerome Yen, Chengzhong Xu, Yang Wang(参考訳) IoTデバイスが広く普及するにつれて、悪意のある侵入から保護することが不可欠である。 しかし、IoTのデータ不足は、データ依存の従来の侵入検出手法の適用性を制限している。 そこで本稿では,非教師付きヘテロジニアスドメイン適応に基づくオープンセット型Dandelion Network(OSDN)を提案する。 OSDNモデルは、知識豊富なソースネットワーク侵入ドメインからの侵入知識転送を実行し、データスカースターゲットIoT侵入ドメインのより正確な侵入検出を容易にする。 オープンセット設定の下では、ソースドメインで観測されない新規のターゲットドメイン侵入を検出することもできる。 これを実現するために、osdnモデルは、ソースドメインを、各侵入カテゴリがコンパクトにグループ化され、異なる侵入カテゴリが分離される、すなわち、カテゴリ間分離性とカテゴリ内コンパクト性を同時に強調する、タンポレーションのような特徴空間に形成する。 タンポポをベースとしたターゲットメンバシップ機構は、ターゲットタンポポを形成する。 そして、タンポポ角分離機構によりカテゴリー間分離性が向上し、タンポポ埋め込みアライメント機構はさらに細かな方法で両タンポポを整列させる。 カテゴリ内コンパクト性を促進するために、識別されたサンプルタンポポ機構を用いる。 未知の侵入知識と生成した未知の侵入知識の両方を用いて訓練された侵入分類器の支援により、セマンティクスダンポレーション補正機構は、難解なカテゴリを強調し、カテゴリ間分離性を改善する。 理論的には、これらのメカニズムはIoT侵入検出のために侵入知識転送を効果的に実行するOSDNモデルを形成する。 いくつかの侵入データセットに関する包括的な実験は、OSDNモデルの有効性を検証し、3つの最先端のベースライン法を16.9%上回った。

As IoT devices become widely, it is crucial to protect them from malicious intrusions. However, the data scarcity of IoT limits the applicability of traditional intrusion detection methods, which are highly data-dependent. To address this, in this paper we propose the Open-Set Dandelion Network (OSDN) based on unsupervised heterogeneous domain adaptation in an open-set manner. The OSDN model performs intrusion knowledge transfer from the knowledge-rich source network intrusion domain to facilitate more accurate intrusion detection for the data-scarce target IoT intrusion domain. Under the open-set setting, it can also detect newly-emerged target domain intrusions that are not observed in the source domain. To achieve this, the OSDN model forms the source domain into a dandelion-like feature space in which each intrusion category is compactly grouped and different intrusion categories are separated, i.e., simultaneously emphasising inter-category separability and intra-category compactness. The dandelion-based target membership mechanism then forms the target dandelion. Then, the dandelion angular separation mechanism achieves better inter-category separability, and the dandelion embedding alignment mechanism further aligns both dandelions in a finer manner. To promote intra-category compactness, the discriminating sampled dandelion mechanism is used. Assisted by the intrusion classifier trained using both known and generated unknown intrusion knowledge, a semantic dandelion correction mechanism emphasises easily-confused categories and guides better inter-category separability. Holistically, these mechanisms form the OSDN model that effectively performs intrusion knowledge transfer to benefit IoT intrusion detection. Comprehensive experiments on several intrusion datasets verify the effectiveness of the OSDN model, outperforming three state-of-the-art baseline methods by 16.9%.
翻訳日:2024-01-09 22:25:53 公開日:2024-01-08
# コードのための大規模言語モデルに関する調査:進化、ベンチマークおよび今後のトレンド

A Survey of Large Language Models for Code: Evolution, Benchmarking, and Future Trends ( http://arxiv.org/abs/2311.10372v2 )

ライセンス: Link先を確認
Zibin Zheng and Kaiwen Ning and Yanlin Wang and Jingwen Zhang and Dewu Zheng and Mingxi Ye and Jiachi Chen(参考訳) ChatGPTで表される一般的な大規模言語モデル(LLM)は、ソフトウェア工学におけるコード生成のようなタスクにおいて大きな可能性を示している。 このことが、Code LLMとして知られるソフトウェア工学のための特殊なLLMの開発につながった。 Code LLMのかなりの部分は、モデルファインチューニングを通じて一般的なLLMから派生している。 結果として、コード LLM は頻繁に更新され、その性能はベース LLM の影響を受けやすい。 しかし、現在、Code LLMとそのパフォーマンスに関する体系的な調査が欠如している。 本研究では,一般のLLMと比較して,コードLLMの種類と性能の違いに関する総合的な調査と分析を行う。 1) ソフトウェアエンジニアリングタスク用に特別に設計されたLLMとは何か、そして、これらのコードLLMとは何の関係があるのか? 2) コードLLMはソフトウェア工学のタスクにおいて一般的なLLMよりも優れているか? 3)どのllmが異なるソフトウェアエンジニアリングタスクに習熟しているか? これらの質問に答えるために、私たちはまず、関連する文献を収集し、5つの主要なデータベースとオープンソースコミュニティから作業を行い、分析のために134の作業を行いました。 次に、それらの出版社に基づいてコードLLMを分類し、一般LLMとそれらの関係について検討する。 さらに,各種ソフトウェアエンジニアリングタスクにおける一般LLMとコードLLMのパフォーマンス差について検討し,ベースモデルとコードLLMの影響を実証する。 最後に、複数の主要なベンチマークでLLMの性能を総合的に維持し、各ソフトウェアエンジニアリングタスクで最高の性能のLLMを特定する。 私たちの研究は、より高度なLLMを開発するためのベースモデルを選択する上で、コードLLMの開発者を支援するだけでなく、実践者がコードLLMの重要な改善方向を理解するための洞察も提供します。

General large language models (LLMs), represented by ChatGPT, have demonstrated significant potential in tasks such as code generation in software engineering. This has led to the development of specialized LLMs for software engineering, known as Code LLMs. A considerable portion of Code LLMs is derived from general LLMs through model fine-tuning. As a result, Code LLMs are often updated frequently and their performance can be influenced by the base LLMs. However, there is currently a lack of systematic investigation into Code LLMs and their performance. In this study, we conduct a comprehensive survey and analysis of the types of Code LLMs and their differences in performance compared to general LLMs. We aim to address three questions: (1) What LLMs are specifically designed for software engineering tasks, and what is the relationship between these Code LLMs? (2) Do Code LLMs really outperform general LLMs in software engineering tasks? (3) Which LLMs are more proficient in different software engineering tasks? To answer these questions, we first collect relevant literature and work from five major databases and open-source communities, resulting in 134 works for analysis. Next, we categorize the Code LLMs based on their publishers and examine their relationships with general LLMs and among themselves. Furthermore, we investigate the performance differences between general LLMs and Code LLMs in various software engineering tasks to demonstrate the impact of base models and Code LLMs. Finally, we comprehensively maintained the performance of LLMs across multiple mainstream benchmarks to identify the best-performing LLMs for each software engineering task. Our research not only assists developers of Code LLMs in choosing base models for the development of more advanced LLMs but also provides insights for practitioners to better understand key improvement directions for Code LLMs.
翻訳日:2024-01-09 22:25:04 公開日:2024-01-08
# 分散化フェデレーション学習ネットワークにおける対立ノード配置の影響

The Impact of Adversarial Node Placement in Decentralized Federated Learning Networks ( http://arxiv.org/abs/2311.07946v2 )

ライセンス: Link先を確認
Adam Piaseczny, Eric Ruzomberka, Rohit Parasnis, Christopher G. Brinton(参考訳) 連邦学習(FL)の人気が高まるにつれ、新しい分散フレームワークが広まりつつある。 これらのフレームワークは分散環境の利点を利用して、高速でエネルギー効率の良いデバイス間通信を可能にする。 しかし、この人気は、堅牢なセキュリティ対策の必要性も増している。 既存の研究はFLセキュリティの様々な側面を探求してきたが、分散ネットワークにおける敵ノード配置の役割はほとんど解明されていない。 本稿では,ネットワーク内で協調的に配置を調整できる様々な敵配置戦略における分散flの性能を分析することにより,このギャップを解消する。 ランダムな配置とネットワーク中心性に基づく配置の2つの基本戦略を確立する。 本稿では, 敵同士の平均ネットワーク距離を最大化し, 敵中心性よりも敵の拡散を優先する新たな攻撃アルゴリズムを提案する。 新しい攻撃アルゴリズムは、テスト精度などの重要なパフォーマンス指標に大きく影響し、考慮された設定でベースラインフレームワークを9%から66.5%上回った。 我々の研究は、分散FLシステムの脆弱性に関する貴重な知見を提供し、よりセキュアで堅牢な分散FLフレームワークを開発するための将来の研究の舞台となる。

As Federated Learning (FL) grows in popularity, new decentralized frameworks are becoming widespread. These frameworks leverage the benefits of decentralized environments to enable fast and energy-efficient inter-device communication. However, this growing popularity also intensifies the need for robust security measures. While existing research has explored various aspects of FL security, the role of adversarial node placement in decentralized networks remains largely unexplored. This paper addresses this gap by analyzing the performance of decentralized FL for various adversarial placement strategies when adversaries can jointly coordinate their placement within a network. We establish two baseline strategies for placing adversarial node: random placement and network centrality-based placement. Building on this foundation, we propose a novel attack algorithm that prioritizes adversarial spread over adversarial centrality by maximizing the average network distance between adversaries. We show that the new attack algorithm significantly impacts key performance metrics such as testing accuracy, outperforming the baseline frameworks by between 9% and 66.5% for the considered setups. Our findings provide valuable insights into the vulnerabilities of decentralized FL systems, setting the stage for future research aimed at developing more secure and robust decentralized FL frameworks.
翻訳日:2024-01-09 22:23:33 公開日:2024-01-08
# GTP-ViT:グラフベースのトークン伝播による効率的な視覚変換器

GTP-ViT: Efficient Vision Transformers via Graph-based Token Propagation ( http://arxiv.org/abs/2311.03035v2 )

ライセンス: Link先を確認
Xuwei Xu, Sen Wang, Yudong Chen, Yanping Zheng, Zhewei Wei, Jiajun Liu(参考訳) ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野に革命をもたらしたが、高い計算要求のためにリソース制約のあるデバイスへの展開は難しいままである。 プリトレーニングされたvitsを迅速化するために,トークンプルーニングとトークンマージのアプローチが開発されており,計算に関わるトークンの数を減らすことを目的としている。 しかし、これらの手法には、プルーニングトークンからの画像情報損失やトークンマッチングプロセスにおける非効率性など、いくつかの制限がある。 本稿では,効率的なvitsのためのモデル効率と情報保存のバランスの課題を解決するために,グラフベーストークン伝播法(gtp)を提案する。 グラフ要約アルゴリズムにインスパイアされたGTPは、より重要でないトークンの情報を、より重要かつ意味的に連結されたトークンに厳密に伝播する。 その結果、残りの少数のトークンはトークングラフ全体の要約として機能し、削除されたトークンの必須情報を保存しながら計算の複雑さを低減できる。 革新的なトークン選択戦略と組み合わせることで、GTPは伝播する画像トークンを効率的に識別することができる。 広範な実験によりgtpの有効性が検証され、効率と性能が向上した。 具体的には、gtpはdeit-sとdeit-bの両方の計算の複雑さを最大26%削減し、imagenet-1kの微調整なしでの精度低下は最小限である。 ソースコードはhttps://github.com/Ackesnal/GTP-ViTで入手できる。

Vision Transformers (ViTs) have revolutionized the field of computer vision, yet their deployments on resource-constrained devices remain challenging due to high computational demands. To expedite pre-trained ViTs, token pruning and token merging approaches have been developed, which aim at reducing the number of tokens involved in the computation. However, these methods still have some limitations, such as image information loss from pruned tokens and inefficiency in the token-matching process. In this paper, we introduce a novel Graph-based Token Propagation (GTP) method to resolve the challenge of balancing model efficiency and information preservation for efficient ViTs. Inspired by graph summarization algorithms, GTP meticulously propagates less significant tokens' information to spatially and semantically connected tokens that are of greater importance. Consequently, the remaining few tokens serve as a summarization of the entire token graph, allowing the method to reduce computational complexity while preserving essential information of eliminated tokens. Combined with an innovative token selection strategy, GTP can efficiently identify image tokens to be propagated. Extensive experiments have validated GTP's effectiveness, demonstrating both efficiency and performance improvements. Specifically, GTP decreases the computational complexity of both DeiT-S and DeiT-B by up to 26% with only a minimal 0.3% accuracy drop on ImageNet-1K without finetuning, and remarkably surpasses the state-of-the-art token merging method on various backbones at an even faster inference speed. The source code is available at https://github.com/Ackesnal/GTP-ViT.
翻訳日:2024-01-09 22:22:09 公開日:2024-01-08
# Ensemble Kalman Filtering:非平均場とオンライン推論のためのガウスプロセスSSM

Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference ( http://arxiv.org/abs/2312.05910v3 )

ライセンス: Link先を確認
Zhidi Lin and Yiyong Sun and Feng Yin and Alexandre Hoang Thi\'ery(参考訳) ガウス過程状態空間モデル(英: Gaussian process state-space model、GPSSM)は、非線形力学系のモデルである。 しかし、既存のGPSSMの変分学習と推論手法では、かなりの数の変分パラメータを最適化する必要があることが多く、性能と効率が不十分である。 この問題を解決するために,モデルベースフィルタリング手法であるアンサンブル・カルマンフィルタ(EnKF)を変分推論フレームワークに組み込んで,潜時状態の後方分布を近似する手法を提案する。 このEnKFの利用は、変分分布のパラメータ化を不要にしつつ、潜時状態とGPダイナミクスの依存関係を効果的に活用し、変動パラメータの数を著しく削減できる。 さらに,提案アルゴリズムは,複数の項を簡単な閉形式解で要約することで,近似的エビデンスローバウンド(ELBO)を変分推論で容易に評価できることを示す。 自動微分ツールを活用することで、ELBOを最大化し、GPSSMを効率的に訓練することができる。 また、提案アルゴリズムをオンライン設定に合わせて拡張し、詳細なアルゴリズム分析と洞察を提供する。 多様な実・合成データセットに対する広範囲な評価は、既存の手法と比較して学習・推論性能の点で、我々のEnKF支援変分推論アルゴリズムの優位性を示している。

Gaussian process state-space models (GPSSMs) are a versatile and principled family of nonlinear dynamical system models. However, existing variational learning and inference methods for GPSSMs often necessitate optimizing a substantial number of variational parameters, leading to inadequate performance and efficiency. To overcome this issue, we propose incorporating the ensemble Kalman filter (EnKF), a well-established model-based filtering technique, into the variational inference framework to approximate the posterior distribution of latent states. This utilization of EnKF can effectively exploit the dependencies between latent states and GP dynamics, while eliminating the need for parameterizing the variational distribution, thereby significantly reducing the number of variational parameters. Moreover, we show that our proposed algorithm allows straightforward evaluation of an approximated evidence lower bound (ELBO) in variational inference via simply summating multiple terms with readily available closed-form solutions. Leveraging automatic differentiation tools, we hence can maximize the ELBO and train the GPSSM efficiently. We also extend the proposed algorithm to accommodate an online setting and provide detailed algorithmic analyses and insights. Extensive evaluation on diverse real and synthetic datasets demonstrates the superiority of our EnKF-aided variational inference algorithms in terms of learning and inference performance compared to existing methods.
翻訳日:2024-01-09 22:13:53 公開日:2024-01-08
# バリウムイオン光量子ビット用スケーラブル狭線幅高出力レーザー

A scalable narrow linewidth high power laser for barium ion optical qubit ( http://arxiv.org/abs/2312.03388v2 )

ライセンス: Link先を確認
Morteza Ahmadi, Tarun Dutta, and Manas Mukherjee(参考訳) レーザーの直線幅は、イオントラップ量子プロセッサと光時計の高忠実性を保証する上で重要な役割を果たす。 量子コンピューティングが量子ビット数でスケールアップするにつれて、超狭線幅の高出力レーザーの需要は必須となり、これらの要求を満たすための有望なアプローチとしてファイバ増幅器が出現する。 本研究では, 閉じ込められたバリウムイオン量子ビットの光量子ビット遷移に対処する手段として, タリウムドープファイバ増幅器(TDFAs)の有効性を検討した。 我々は, 極小強度雑音を発生させながら, 量子ビットに高忠実ゲートを施すことにより, TDFAsはシードレーザーの直線幅を著しく拡大しないことを示した。 我々は, 遅延自己ヘテロダイン法を併用したvoigtフィッティング法を用いて線幅を独立に測定し, バリウムイオンを捕捉した四極子分光法を用いて検討した。 その結果, ライン幅値は, それぞれ160 \pm 15$ hz と 156 \pm 16$ hz の値を示し, この2つの手法を用いて, 測定手法の信頼性を強調した。 2つの方法のわずかな変化は、tdfaの増幅自発的放出やヘテロダイン設定遅延ライン内の1/fノイズの影響によって引き起こされる。 これらは、イオントラップ量子コンピューティングの文脈でレーザー線幅制御の理解を深め、cバンドを超える狭線幅の高出力波長可変レーザーの可用性を伸ばすのに役立つ。

The linewidth of a laser plays a pivotal role in ensuring the high fidelity of ion trap quantum processors and optical clocks. As quantum computing endeavors scale up in qubit number, the demand for higher laser power with ultra-narrow linewidth becomes imperative, and leveraging fiber amplifiers emerges as a promising approach to meet these requirements. This study explores the effectiveness of Thulium-doped fiber amplifiers (TDFAs) as a viable solution for addressing optical qubit transitions in trapped barium ion qubits. We demonstrate that by performing high-fidelity gates on the qubit while introducing minimal intensity noise, TDFAs do not significantly broaden the linewidth of the seed lasers. We employed a Voigt fitting scheme in conjunction with a delayed self-heterodyne method to accurately measure the linewidth independently, corroborating our findings through quadrupole spectroscopy with trapped barium ions. Our results show linewidth values of $160 \pm 15$ Hz and $156 \pm 16$ Hz, respectively, using these two methods, underscoring the reliability of our measurement techniques. The slight variation between the two methods can be attributed to factors such as amplified spontaneous emission in the TDFA or the influence of 1/f noise within the heterodyne setup delay line. These contribute to advancing our understanding of laser linewidth control in the context of ion trap quantum computing as well as stretching the availability of narrow linewidth, high-power tunable lasers beyond the C-band.
翻訳日:2024-01-09 22:12:43 公開日:2024-01-08
# アインシュタイン-ポドルスキー-ローゼンステアリングのコヒーレンス蒸留

Coherence Distillation Unveils Einstein-Podolsky-Rosen Steering ( http://arxiv.org/abs/2312.01055v2 )

ライセンス: Link先を確認
Kuan-Yi Lee, Jhen-Dong Lin, Karel Lemr, Anton\'in \v{C}ernoch, Adam Miranowicz, Franco Nori, Huan-Yu Ku, and Yueh-Nan Chen(参考訳) 量子コヒーレンス(quantum coherence)は、量子情報科学の基本的な性質である。 近年の発展は、その蒸留可能性と量子ディスコードや絡み合いのような非局所量子相関との関係について貴重な洞察を与えている。 本研究は, ステアリング部分系の量子ステアリングと局所蒸留性コヒーレンスに着目したものである。 協調的コヒーレンス蒸留に基づくステアリング不等式を提案する。 特に、提案したステアリング証人は片道ステアリング可能な状態と、すべての純粋な絡み合った状態を検出することができる。 線形光学実験により、純粋な絡み合った状態を検出する理論的有効性を裏付ける。 さらに, 操舵不等式違反を測定不適合性の定量化に活用できることを実証する。 我々の研究は、コヒーレンスと絡み合い、量子理論の2つの目覚ましい表現、および量子技術のキーイネーブラーの間の明確な量的および操作的な接続を提供する。

Quantum coherence is a fundamental property in quantum information science. Recent developments have provided valuable insights into its distillability and its relationship with nonlocal quantum correlations, such as quantum discord and entanglement. In this work, we focus on quantum steering and the local distillable coherence for a steered subsystem. We propose a steering inequality based on collaborative coherence distillation. Notably, we prove that the proposed steering witness can detect one-way steerable and all pure entangled states. Through linear optical experiments, we corroborate our theoretical efficacy in detecting pure entangled states. Furthermore, we demonstrate that the violation of the steering inequality can be employed as a quantifier of measurement incompatibility. Our work provides a clear quantitative and operational connection between coherence and entanglement, two landmark manifestations of quantum theory and both key enablers for quantum technologies.
翻訳日:2024-01-09 22:11:01 公開日:2024-01-08
# 脳波モータ画像復号のための校正不要オンラインテストタイム適応

Calibration-free online test-time adaptation for electroencephalography motor imagery decoding ( http://arxiv.org/abs/2311.18520v2 )

ライセンス: Link先を確認
Martin Wimpff, Mario D\"obler, Bin Yang(参考訳) 人間の脳と外部機器をつなぐ有望な経路を提供することで、ブレイン・コンピュータ・インタフェース(bcis)はデコーディング能力において顕著な進歩を遂げており、主に高度な技術、特にディープラーニングが中心となっている。 しかし,実世界のシナリオにおいて高い精度を達成するには,セッションと課題の分散が困難である。 本稿では,オンラインテスト時間適応 (OTTA) の概念について検討する。 提案手法は,適応プロセス中にソースデータにアクセスする必要をなくし,プライバシの保護を保証している。 さらに、OTTAはセッションや主題固有のデータを一切必要とせず、キャリブレーションフリーな操作を実現する。 我々は、アライメント、適応バッチ正規化、エントロピー最小化といった様々なOTTA技術とともに軽量なアーキテクチャを用いて、脳波(EEG)運動画像デコーディングの課題について検討する。 包括的分析のための2つのデータセットと3つの異なるデータ設定について検討する。 提案手法は最新の結果をもたらし,bciデコーディングにおけるトランスファー学習のオンライン適応へのシフトを惹起する可能性がある。

Providing a promising pathway to link the human brain with external devices, Brain-Computer Interfaces (BCIs) have seen notable advancements in decoding capabilities, primarily driven by increasingly sophisticated techniques, especially deep learning. However, achieving high accuracy in real-world scenarios remains a challenge due to the distribution shift between sessions and subjects. In this paper we will explore the concept of online test-time adaptation (OTTA) to continuously adapt the model in an unsupervised fashion during inference time. Our approach guarantees the preservation of privacy by eliminating the requirement to access the source data during the adaptation process. Additionally, OTTA achieves calibration-free operation by not requiring any session- or subject-specific data. We will investigate the task of electroencephalography (EEG) motor imagery decoding using a lightweight architecture together with different OTTA techniques like alignment, adaptive batch normalization, and entropy minimization. We examine two datasets and three distinct data settings for a comprehensive analysis. Our adaptation methods produce state-of-the-art results, potentially instigating a shift in transfer learning for BCI decoding towards online adaptation.
翻訳日:2024-01-09 22:10:12 公開日:2024-01-08
# 量子フィードバックによる電荷輸送電池

Charge transport battery with quantum feedback ( http://arxiv.org/abs/2311.17219v2 )

ライセンス: Link先を確認
Oscar Bohorquez(参考訳) バッテリ(英: battery)は、仕事用の蓄電装置、すなわち、他の装置が後で使用する作業形態でエネルギーを蓄電する装置である。 本研究では,2つの量子ドットを直列に配置し,異なる化学ポテンシャルで2つの電極に帯電し,マルコフ量子フィードバックプロトコルにより最適化した量子電池の実現について検討する。 エルゴトロピーの概念をメリットの図形として用い、まず2レベルシステムにおける最大エルゴトロピーの簡単な表現を確立し、マルコフフィードバックがこの最適なエルゴトロピーを達成するためのパラメータを見つける。 また,電池の充電・放電過程に及ぼすフォノン環境との相互作用の影響についても検討した。

A battery is a work storage device, i.e. a device that stores energy in the form of work for later use by other devices. In this work, we study the realization of a quantum battery in a double quantum dot in series, charged by two electrodes at different chemical potentials and optimized by a Markovian quantum feedback protocol. Using the concept of ergotropy as a figure of merit, we first establish a simple expression for the maximum ergotropy in a two-level system, and then find the parameters under which a Markovian feedback can achieve this optimal ergotropy. We also study the influence of interaction with a phonon environment on the charging and discharging process of the battery.
翻訳日:2024-01-09 22:09:43 公開日:2024-01-08
# 移動メッシュPDEによる物理インフォームニューラルネットワークの動作サンプリング

Moving Sampling Physics-informed Neural Networks induced by Moving Mesh PDE ( http://arxiv.org/abs/2311.16167v2 )

ライセンス: Link先を確認
Yu Yang, Qihong Yang, Yangtao Deng, Qiaolin He(参考訳) 本研究では,移動メッシュpdeを解いて新たなサンプリングポイントを適応的に生成できる移動メッシュ法に基づくエンドツーエンド適応サンプリングニューラルネットワーク(mmpde-net)を提案する。 このモデルはサンプリングポイント生成の品質向上に焦点を当てている。 さらに,MMPDE-Netに基づく反復アルゴリズムを開発し,サンプリングポイントをより正確に制御できるようにする。 MMPDE-Netはディープラーニングソルバに依存しないフレームワークであるため、物理インフォームドニューラルネットワーク(PINN)と組み合わせて、移動サンプリングPINN(MS-PINN)を提案し、いくつかの仮定の下でエラー解析による効果を示す。 最後に,本手法の有効性を数値的に検証する4つの典型例の数値実験により,MS-PINNの性能改善をPINNと比較した。

In this work, we propose an end-to-end adaptive sampling neural network (MMPDE-Net) based on the moving mesh method, which can adaptively generate new sampling points by solving the moving mesh PDE. This model focuses on improving the quality of sampling points generation. Moreover, we develop an iterative algorithm based on MMPDE-Net, which makes the sampling points more precise and controllable. Since MMPDE-Net is a framework independent of the deep learning solver, we combine it with physics-informed neural networks (PINN) to propose moving sampling PINN (MS-PINN) and demonstrate its effectiveness by error analysis under some assumptions. Finally, we demonstrate the performance improvement of MS-PINN compared to PINN through numerical experiments of four typical examples, which numerically verify the effectiveness of our method.
翻訳日:2024-01-09 22:09:30 公開日:2024-01-08
# 負条件エントロピーを破壊する量子チャネルについて

On quantum channels that destroy negative conditional entropy ( http://arxiv.org/abs/2311.15705v2 )

ライセンス: Link先を確認
PV Srinidhi, Indranil Chakrabarty, Samyadeb Bhattacharya, Nirman Ganguly(参考訳) 古典的概念に反する直観的な量子条件エントロピーは、情報処理タスクにおいて重要な役割を果たす。 この記事では、量子チャネルに深く入り込み、負条件エントロピー破断チャネル(nceb)を強調し、負条件エントロピー消滅チャネル(ncea)を導入する。 我々はこれらのチャネルをトポロジカルと情報理論の両方の観点から特徴付け、連続的にNCEBを並列に組み合わせた際の特性を調べる。 本研究は,NCEBに付随する補足チャネルにまで拡張し,情報学習チャネルの導入に繋がる。 標準偏極チャネルのパラメータを利用して、具体的な例とさらなる特徴付けを提供する。 本研究では,新たに導入したcoherent information breaking (cib) や mutual information breaking (mib) などのチャネルと nceb と ncea の関係を示す。 量子資源の保存は量子情報理論の不可欠な構成要素である。 これを認識し,条件エントロピーのネガティビティを損なうことのないチャネルの検出を処方し,この量子資源の保存を確保する。

Counter-intuitive to classical notions, quantum conditional entropy can be negative, playing a pivotal role in information-processing tasks. This article delves deeply into quantum channels, emphasizing negative conditional entropy breaking channels (NCEB) and introducing negative conditional entropy annihilating channels (NCEA). We characterize these channels from both topological and information-theoretic perspectives, examining their properties when combined serially and NCEB in parallel. Our exploration extends to complimentary channels associated with NCEB, leading to the introduction of information-leaking channels. Utilizing the parameters of the standard depolarizing channel, we provide tangible examples and further characterization. We demonstrate the relationship of NCEB and NCEA with newly introduced channels like coherent information breaking (CIB) and mutual information breaking (MIB), along with standard channels like zero capacity channels. Preservation of quantum resources is an integral constituent of quantum information theory. Recognizing this, we lay prescriptions to detect channels that do not break the negativity of conditional entropy, ensuring the conservation of this quantum resource.
翻訳日:2024-01-09 22:09:14 公開日:2024-01-08
# 強化学習に基づく音声不均一性最小化のための薬理調整システムの提案

Toward A Reinforcement-Learning-Based System for Adjusting Medication to Minimize Speech Disfluency ( http://arxiv.org/abs/2312.11509v2 )

ライセンス: Link先を確認
Pavlos Constas, Vikram Rawal, Matthew Honorio Oliveira, Andreas Constas, Aditya Khan, Kaison Cheung, Najma Sultani, Carrie Chen, Micol Altomare, Michael Akzam, Jiacheng Chen, Vhea He, Lauren Altomare, Heraa Murqi, Asad Khan, Nimit Amikumar Bhanshali, Youssef Rachad, Michael Guerzhoy(参考訳) そこで本研究では,患者が精神健康関連言語障害を患うのに役立つ仮説的な患者薬剤を自動的に処方し,患者の流血の頻度をゼロコストで測定し,薬や服用量を調整できる強化学習システムを提案する。 そこで本研究では,大規模データセット上で音声不均一性を検出し評価するモジュールと,医薬品の適切な組み合わせを自動的に発見する強化学習アルゴリズムを提案する。 この2つのモジュールを支援するために,文献からの音声拡散に対する精神医学薬の効果に関するデータを収集し,患者シミュレーションシステムを構築した。 強化学習システムは,ある状況下では,優れた医薬品体制に収束できることを実証する。 音声不均一性のある人々のデータセットを収集し,ラベル付けし,そのデータセットを用いた方法を示す。 私たちの研究は概念実証であり、不整合に対処するために自動データ収集を使用するというアイデアには、約束があることを示しています。

We propose a Reinforcement-Learning-based system that would automatically prescribe a hypothetical patient medication that may help the patient with their mental-health-related speech disfluency, and adjust the medication and the dosages in response to zero-cost frequent measurement of the fluency of the patient. We demonstrate the components of the system: a module that detects and evaluates speech disfluency on a large dataset we built, and a Reinforcement Learning algorithm that automatically finds good combinations of medications. To support the two modules, we collect data on the effect of psychiatric medications for speech disfluency from the literature, and build a plausible patient simulation system. We demonstrate that the Reinforcement Learning system is, under some circumstances, able to converge to a good medication regime. We collect and label a dataset of people with possible speech disfluency and demonstrate our methods using that dataset. Our work is a proof of concept: we show that there is promise in the idea of using automatic data collection to address disfluency.
翻訳日:2024-01-09 22:01:50 公開日:2024-01-08
# 量子状態検証におけるメモリ効果

Memory Effects in Quantum State Verification ( http://arxiv.org/abs/2312.11066v2 )

ライセンス: Link先を確認
Siyuan Chen, Wei Xie, and Kun Wang(参考訳) 我々は、局所検証者が量子状態のコピーを保存し、それらをまとめて測定できる量子メモリ支援状態検証タスクについて検討する。 ベル測度のみを含むマルチキュービットグラフ状態に対して,2つのコピー状態検証を最適化するための正確な解析式を確立した。 本稿では,メモリの任意の利用のために,GHZライクな状態への応用を示す,効率的な検証戦略を設計する次元展開手法を提案する。 これらの戦略は、メモリリソースの増加にますます有利になり、最終的に効率の理論的限界に近づいている。 本研究により, 量子メモリは, 状態検証効率を劇的に向上させ, エラー耐性戦略に光を当て, 大規模量子メモリ支援検証の実用化を図っている。

We consider the quantum memory assisted state verification task, where the local verifiers can store copies of quantum states and measure them collectively. We establish an exact analytic formula for optimizing two-copy state verification and give a globally optimal two-copy strategy for multi-qubit graph states involving only Bell measurements. For arbitrary memory availability, we present a dimension expansion technique that designs efficient verification strategies, showcasing its application to GHZ-like states. These strategies become increasingly advantageous with growing memory resources, ultimately approaching the theoretical limit of efficiency. Our findings demonstrate that quantum memories dramatically enhance state verification efficiency, sheding light on error-resistant strategies and practical applications of large-scale quantum memory-assisted verification.
翻訳日:2024-01-09 22:01:14 公開日:2024-01-08
# モデル抽出攻撃に対するサンプル再構成

SAME: Sample Reconstruction against Model Extraction Attacks ( http://arxiv.org/abs/2312.10578v2 )

ライセンス: Link先を確認
Yi Xie, Jie Zhang, Shiqian Zhao, Tianwei Zhang, Xiaofeng Chen(参考訳) ディープラーニングモデルはさまざまなドメインで大きなパフォーマンスを示しているが、デプロイメントには広範なリソースと高度なコンピューティングインフラストラクチャが必要である。 ソリューションとして、MLaaS(Machine Learning as a Service)が登場し、ユーザがディープラーニングモデルをリリースまたは製品化するための障壁を低くする。 しかし、以前の研究はMLaaSに関連する潜在的なプライバシーとセキュリティ上の懸念を強調しており、主要な脅威はモデル抽出攻撃である。 これに対処するために、多くの防御ソリューションが存在するが、それらは非現実的な仮定と一般化の問題に苦しんでおり、信頼性の高い保護には実用的でない。 これらの制約を前提として,サンプル再構成の概念に基づく新しい防御機構であるhetを紹介した。 この戦略はディフェンダーの能力に最小限の前提条件を課し、補助的なout-of-Distribution(OOD)データセット、ユーザクエリ履歴、ホワイトボックスモデルアクセス、モデルトレーニング中の追加介入の必要性を排除している。 既存の防御方法と互換性がある。 我々の広範な実験は、最先端のソリューションよりもITTの優れた効果を裏付けるものである。 私たちのコードはhttps://github.com/xythink/sameで利用可能です。

While deep learning models have shown significant performance across various domains, their deployment needs extensive resources and advanced computing infrastructure. As a solution, Machine Learning as a Service (MLaaS) has emerged, lowering the barriers for users to release or productize their deep learning models. However, previous studies have highlighted potential privacy and security concerns associated with MLaaS, and one primary threat is model extraction attacks. To address this, there are many defense solutions but they suffer from unrealistic assumptions and generalization issues, making them less practical for reliable protection. Driven by these limitations, we introduce a novel defense mechanism, SAME, based on the concept of sample reconstruction. This strategy imposes minimal prerequisites on the defender's capabilities, eliminating the need for auxiliary Out-of-Distribution (OOD) datasets, user query history, white-box model access, and additional intervention during model training. It is compatible with existing active defense methods. Our extensive experiments corroborate the superior efficacy of SAME over state-of-the-art solutions. Our code is available at https://github.com/xythink/SAME.
翻訳日:2024-01-09 22:01:00 公開日:2024-01-08
# 深層学習を用いた胎児ドップラー超音波のリアルタイム信号品質

Point-of-Care Real-Time Signal Quality for Fetal Doppler Ultrasound Using a Deep Learning Approach ( http://arxiv.org/abs/2312.09433v2 )

ライセンス: Link先を確認
Mohsen Motie-Shirazi, Reza Sameni, Peter Rohloff, Nasim Katebi, and Gari D. Clifford(参考訳) 本研究では,前回開発したシステムと統合し,データ品質の向上を目的とした大規模1d胎児ドップラーデータ収集を支援するディープラーニングフレームワークを提案する。 このシステムは、低リソースのコミュニティの伝統的な助産婦向けに作られたもので、コスト効率の良いandroid携帯を利用して、記録された信号の品質を向上させる。 妊娠中の胎児の成長制限や高血圧などの問題に対して,ドップラーデータを用いて診断できることが示されている。 しかし、シグナルの質は、無線周波数干渉、胎児の位置、母体習慣、入所者によるドップラーの使用など、多くの要因に依存している。 ソースにあるデータの修正を可能にするために、瞬時にフィードバックを提供するには、携帯電話でリアルタイムに実行できる信号品質指標が必要である。 本研究は,5~10分の範囲で継続する191DUS信号を品質評価し,3.75秒の分解能で,善,悪,(高周波)干渉,しゃべ,サイレントという5つのカテゴリに分類した。 これらの記録から3.75秒毎にディープニューラルネットワークを訓練し、5倍のクロスバリデーションを用いて検証した。 平均的なマイクロF1 = 97.4\%、マクロF1 = 94.2\%が達成され、F1 = 99.2\%が‘Good’の品質データである。 これらの結果は,現在ミッドワイブのアプリに実装されているアルゴリズムが,キャプチャ時のデータ品質を大幅に向上させることができることを示唆している。

In this study, we present a deep learning framework designed to integrate with our previously developed system that facilitates large-scale 1D fetal Doppler data collection, aiming to enhance data quality. This system, tailored for traditional Indigenous midwives in low-resource communities, leverages a cost-effective Android phone to improve the quality of recorded signals. We have shown that the Doppler data can be used to identify fetal growth restriction, hypertension, and other concerning issues during pregnancy. However, the quality of the signal is dependent on many factors, including radio frequency interference, position of the fetus, maternal body habitus, and usage of the Doppler by the birth attendants. In order to provide instant feedback to allow correction of the data at source, a signal quality metric is required that can run in real-time on the mobile phone. In this study, 191 DUS signals with durations mainly in the range between 5 to 10 minutes were evaluated for quality and classified into five categories: Good, Poor, (Radiofrequency) Interference, Talking, and Silent, at a resolution of 3.75 seconds. A deep neural network was trained on each 3.75-second segment from these recordings and validated using five-fold cross-validation. An average micro F1 = 97.4\% and macro F1 = 94.2\% were achieved, with F1 = 99.2\% for `Good' quality data. These results indicate that the algorithm, which will now be implemented in the midwives' app, should allow a significant increase in the quality of data at the time of capture.
翻訳日:2024-01-09 21:59:13 公開日:2024-01-08
# 沈黙を破る - ソフトウェア工学におけるLLMの使用の脅威

Breaking the Silence: the Threats of Using LLMs in Software Engineering ( http://arxiv.org/abs/2312.08055v2 )

ライセンス: Link先を確認
June Sallou, Thomas Durieux, Annibale Panichella(参考訳) 大規模言語モデル(LLM)は、コード補完からテスト生成まで、プログラムの修復からコードの要約に至るまで、様々なSEタスクに影響を与え、ソフトウェア工学(SE)コミュニティ内で大きな注目を集めています。 彼らの約束にもかかわらず、多くの複雑な要因がLSMを含む実験の結果に影響を与えるため、研究者は依然として注意が必要である。 本稿では,LCM の学習データと研究評価間のデータ漏洩の可能性,LCM による研究結果の再現性など,LCM ベースの研究の有効性に対する潜在的な脅威について,オープンな議論を開始する。 そこで本研究では,SE研究者と言語モデル提供者を対象に,これらの懸念を緩和するためのガイドラインを提案する。 このガイドラインの意義は、LLMプロバイダによる既存のベストプラクティスと、テストケース生成の文脈におけるSE研究者の実践例を用いて説明されている。

Large Language Models (LLMs) have gained considerable traction within the Software Engineering (SE) community, impacting various SE tasks from code completion to test generation, from program repair to code summarization. Despite their promise, researchers must still be careful as numerous intricate factors can influence the outcomes of experiments involving LLMs. This paper initiates an open discussion on potential threats to the validity of LLM-based research including issues such as closed-source models, possible data leakage between LLM training data and research evaluation, and the reproducibility of LLM-based findings. In response, this paper proposes a set of guidelines tailored for SE researchers and Language Model (LM) providers to mitigate these concerns. The implications of the guidelines are illustrated using existing good practices followed by LLM providers and a practical example for SE researchers in the context of test case generation.
翻訳日:2024-01-09 21:57:51 公開日:2024-01-08
# 安全なマルチタスクベイズ最適化

Safe Multi-Task Bayesian Optimization ( http://arxiv.org/abs/2312.07281v2 )

ライセンス: Link先を確認
Jannis O. L\"ubsen, Christian Hespe, Annika Eichler(参考訳) ベイズ最適化は、高いサンプル効率とノイズロバスト性のため、システムの安全なオンライン最適化のための強力なツールとなっている。 さらなる高速化のために、システムの物理的モデルを最適化に組み込むことができ、実際のシステムの近似を提供することができ、それらからのサンプリングは大幅に安価である。 モデルと現実の類似性は、追加のハイパーパラメータによって表現され、最適化プロセスで学習される。 安全性はベイズ最適化のようなオンライン最適化手法の重要な基準であり、既知のハイパーパラメータを仮定した安全性保証を提供する最近の文献によって取り扱われている。 しかし、実際にはこれは適用されない。 そこで我々は,マルコフ連鎖モンテカルロ法による高パラメータ後方分布からの信頼領域の計算を含むマルチタスク設定を満たすために,ロバストなガウス過程の一様誤差境界を拡張した。 そして、ロバストな安全性境界を用いて、ベイジアン最適化を適用し、モデルの測定を取り入れながら安全な最適化を行う。 シミュレーションにより、モデルの忠実度に応じて、他の最先端の安全なベイズ最適化手法と比較して、最適化が大幅に加速できることが示されている。

Bayesian optimization has become a powerful tool for safe online optimization of systems, due to its high sample efficiency and noise robustness. For further speed-up reduced physical models of the system can be incorporated into the optimization to accelerate the process, since the models are able to offer an approximation of the actual system, and sampling from them is significantly cheaper. The similarity between model and reality is represented by additional hyperparameters and learned within the optimization process. Safety is an important criteria for online optimization methods like Bayesian optimization, which has been addressed by recent literature, which provide safety guarantees under the assumption of known hyperparameters. However, in practice this is not applicable. Therefore, we extend the robust Gaussian process uniform error bounds to meet the multi-task setting, which involves the calculation of a confidence region from the hyperparameter posterior distribution utilizing Markov chain Monte Carlo methods. Then, using the robust safety bounds, Bayesian optimization is applied to safely optimize the system while incorporating measurements of the models. Simulations show that the optimization can be significantly accelerated compared to other state-of-the-art safe Bayesian optimization methods depending on the fidelity of the models.
翻訳日:2024-01-09 21:57:11 公開日:2024-01-08
# 長期時系列予測のための混合線形専門家

Mixture-of-Linear-Experts for Long-term Time Series Forecasting ( http://arxiv.org/abs/2312.06786v2 )

ライセンス: Link先を確認
Ronghao Ni, Zinan Lin, Shuaiqi Wang, Giulia Fanti(参考訳) 長期時系列予測(LTSF)は、過去の値から時系列の将来値を予測することを目的としている。 この問題に対する現在の最先端(SOTA)は、主に線形写像層を特徴とする線形中心モデルによって達成されている。 しかし、本質的に単純であるため、予測ルールを時系列パターンの周期的変化に適応することはできない。 この課題に対処するために、線形中心モデルに対するMixture-of-Expertsスタイルの拡張を提案し、Mixture-of-Linear-Experts (MoLE)を提案する。 単一のモデルをトレーニングする代わりに、MoLEは複数の線形中心モデル(専門家など)とルータモデルを訓練し、出力を重み付け、混合する。 フレームワーク全体がエンドツーエンドでトレーニングされている間、各専門家は特定の時間パターンを専門的に学習し、ルータモデルは専門家を適応的に構成することを学ぶ。 実験の結果, DLinear, RLinear, RMLPを含む線形中心モデルの予測誤差を, 評価したデータセットと設定の78%以上で低減することがわかった。 既存の線形中心モデルを用いることで、PatchTSTが報告した実験の68%でSOTA LTSFを達成でき、一方、既存の単頭線形中心モデルではわずか25%のケースでSOTAを達成できる。 さらに、MoLEモデルは新たにリリースされたWeather2Kデータセットのすべての設定でSOTAを達成する。

Long-term time series forecasting (LTSF) aims to predict future values of a time series given the past values. The current state-of-the-art (SOTA) on this problem is attained in some cases by linear-centric models, which primarily feature a linear mapping layer. However, due to their inherent simplicity, they are not able to adapt their prediction rules to periodic changes in time series patterns. To address this challenge, we propose a Mixture-of-Experts-style augmentation for linear-centric models and propose Mixture-of-Linear-Experts (MoLE). Instead of training a single model, MoLE trains multiple linear-centric models (i.e., experts) and a router model that weighs and mixes their outputs. While the entire framework is trained end-to-end, each expert learns to specialize in a specific temporal pattern, and the router model learns to compose the experts adaptively. Experiments show that MoLE reduces forecasting error of linear-centric models, including DLinear, RLinear, and RMLP, in over 78% of the datasets and settings we evaluated. By using MoLE existing linear-centric models can achieve SOTA LTSF results in 68% of the experiments that PatchTST reports and we compare to, whereas existing single-head linear-centric models achieve SOTA results in only 25% of cases. Additionally, MoLE models achieve SOTA in all settings for the newly released Weather2K datasets.
翻訳日:2024-01-09 21:56:55 公開日:2024-01-08
# 生成再生を伴う連続学習のためのクラスプロトタイプ条件拡散モデル

Class-Prototype Conditional Diffusion Model for Continual Learning with Generative Replay ( http://arxiv.org/abs/2312.06710v2 )

ライセンス: Link先を確認
Khanh Doan, Quyen Tran, Tuan Nguyen, Dinh Phung, Trung Le(参考訳) 破滅的な忘れを緩和することは、継続的な学習において重要なハードルである。 Deep Generative Replay (GR)は、モデルのメモリ能力を向上するために、以前のタスクからサンプルを生成する技術を提供する。 生成型aiの進歩に伴い、生成型モデルは生成型逆ネットワーク(gans)からより最近の拡散モデル(dms)へと進化してきた。 主な問題は、ジェネレータが出力から継続的に自己学習するため、生成データの品質がオリジナルと比較して低下することである。 この劣化は、分類器で起こる壊滅的な忘れの潜在的なリスクにつながる可能性がある。 そこで本研究では,連続学習のためのクラスプロトタイプ条件拡散モデル(CPDM, Class-Prototype Conditional Diffusion Model)を提案する。 CPDMの基礎は学習可能なクラスプロトタイプであり、与えられたクラスの画像のコア特性をキャプチャする。 このプロトタイプは拡散モデルの復調プロセスに統合され、高品質な画像の生成を保証する。 新たなタスクが導入されても古いタスクの有効性を維持し、画像生成の品質を保ち、分類器における破滅的な忘れ込みのリスクを低減する。 多様なデータセットに関する実証研究により,提案手法が既存の最先端モデルを大幅に上回っており,画像品質を保ち,メモリ保持能力を向上させる能力に特筆すべき点が示された。

Mitigating catastrophic forgetting is a key hurdle in continual learning. Deep Generative Replay (GR) provides techniques focused on generating samples from prior tasks to enhance the model's memory capabilities. With the progression in generative AI, generative models have advanced from Generative Adversarial Networks (GANs) to the more recent Diffusion Models (DMs). A major issue is the deterioration in the quality of generated data compared to the original, as the generator continuously self-learns from its outputs. This degradation can lead to the potential risk of catastrophic forgetting occurring in the classifier. To address this, we propose the Class-Prototype Conditional Diffusion Model (CPDM), a GR-based approach for continual learning that enhances image quality in generators and thus reduces catastrophic forgetting in classifiers. The cornerstone of CPDM is a learnable class-prototype that captures the core characteristics of images in a given class. This prototype, integrated into the diffusion model's denoising process, ensures the generation of high-quality images. It maintains its effectiveness for old tasks even when new tasks are introduced, preserving image generation quality and reducing the risk of catastrophic forgetting in classifiers. Our empirical studies on diverse datasets demonstrate that our proposed method significantly outperforms existing state-of-the-art models, highlighting its exceptional ability to preserve image quality and enhance the model's memory retention.
翻訳日:2024-01-09 21:56:27 公開日:2024-01-08
# ヘマトキシリンおよびエオシンスライス画像からの乳がんHER2の予測のためのフェデレート学習を用いたポイントトランスフォーマー

Point Transformer with Federated Learning for Predicting Breast Cancer HER2 Status from Hematoxylin and Eosin-Stained Whole Slide Images ( http://arxiv.org/abs/2312.06454v2 )

ライセンス: Link先を確認
Bao Li, Zhenyu Liu, Lizhi Shao, Bensheng Qiu, Hong Bu, Jie Tian(参考訳) ヒト表皮成長因子受容体2(HER2)を、広く利用可能なヘマトキシリンおよびエオシン含有全スライド画像(WSI)から直接予測することで、技術的コストを低減し、治療選択を迅速化することができる。 HER2を正確に予測するには、多地点WSIの大規模なコレクションが必要である。 フェデレートラーニングは、ギガバイトサイズのWSIとデータプライバシの懸念なしに、これらのWSIの協調的なトレーニングを可能にする。 しかし,実世界の多地点WSIにおけるラベル不均衡に対処する上で,連合学習は課題に直面している。 さらに、既存のwsi分類手法では、フェデレーション学習のサイト-エンド特徴表現において、ローカルコンテキスト情報と長距離依存性を同時に利用することはできない。 そこで本研究では,多地点her2状態予測のためのフェデレーション学習を伴う点トランスフォーマを提案する。 我々のアプローチには2つの新しいデザインが組み込まれている。 本稿では, 動的ラベル分布戦略と補助分類器を提案し, 適切な初期化モデルを確立し, サイト間でのラベル分布のばらつきを軽減する。 さらに,コサイン距離に基づく最遠のコサインサンプリングを提案する。 最も特徴的な特徴をサンプリングし、長距離の依存関係をキャプチャする。 広範な実験と解析により,本手法は4地点で2687wsisの最先端性能を達成できた。 さらに,本モデルが229 wsisの未発見部位に一般化できることを実証する。

Directly predicting human epidermal growth factor receptor 2 (HER2) status from widely available hematoxylin and eosin (HE)-stained whole slide images (WSIs) can reduce technical costs and expedite treatment selection. Accurately predicting HER2 requires large collections of multi-site WSIs. Federated learning enables collaborative training of these WSIs without gigabyte-size WSIs transportation and data privacy concerns. However, federated learning encounters challenges in addressing label imbalance in multi-site WSIs from the real world. Moreover, existing WSI classification methods cannot simultaneously exploit local context information and long-range dependencies in the site-end feature representation of federated learning. To address these issues, we present a point transformer with federated learning for multi-site HER2 status prediction from HE-stained WSIs. Our approach incorporates two novel designs. We propose a dynamic label distribution strategy and an auxiliary classifier, which helps to establish a well-initialized model and mitigate label distribution variations across sites. Additionally, we propose a farthest cosine sampling based on cosine distance. It can sample the most distinctive features and capture the long-range dependencies. Extensive experiments and analysis show that our method achieves state-of-the-art performance at four sites with a total of 2687 WSIs. Furthermore, we demonstrate that our model can generalize to two unseen sites with 229 WSIs.
翻訳日:2024-01-09 21:56:03 公開日:2024-01-08
# YAYI-UIE: ユニバーサル情報抽出のためのチャット強化学習フレームワーク

YAYI-UIE: A Chat-Enhanced Instruction Tuning Framework for Universal Information Extraction ( http://arxiv.org/abs/2312.15548v2 )

ライセンス: Link先を確認
Xinglin Xiao, Yijie Wang, Nan Xu, Yuqi Wang, Hanxuan Yang, Minzheng Wang, Yin Luo, Lei Wang, Wenji Mao, Daniel Zeng(参考訳) 情報抽出タスクの難しさは、タスク固有のラベルスキーマと異種データ構造を扱うことである。 近年,様々な情報抽出タスクを均一にモデル化する大規模言語モデルに基づく手法が提案されている。 しかし、これらの既存の手法は、英語以外の中国語の情報抽出能力に欠ける。 本稿では、中国語と英語の両方をサポートするユニバーサル情報抽出(YAYI-UIE)のためのエンドツーエンドのチャット強化指導フレームワークを提案する。 具体的には,対話データと情報抽出データを用いて情報抽出性能を向上する。 実験の結果,提案フレームワークは中国語データセットの最先端性能を実現し,教師付き設定とゼロショット設定の両方において,英語データセットで同等の性能を達成していることがわかった。

The difficulty of the information extraction task lies in dealing with the task-specific label schemas and heterogeneous data structures. Recent work has proposed methods based on large language models to uniformly model different information extraction tasks. However, these existing methods are deficient in their information extraction capabilities for Chinese languages other than English. In this paper, we propose an end-to-end chat-enhanced instruction tuning framework for universal information extraction (YAYI-UIE), which supports both Chinese and English. Specifically, we utilize dialogue data and information extraction data to enhance the information extraction performance jointly. Experimental results show that our proposed framework achieves state-of-the-art performance on Chinese datasets while also achieving comparable performance on English datasets under both supervised settings and zero-shot settings.
翻訳日:2024-01-09 21:49:32 公開日:2024-01-08
# gerrymandering平面グラフ

Gerrymandering Planar Graphs ( http://arxiv.org/abs/2312.14721v2 )

ライセンス: Link先を確認
Jack Dippel, Max Dupr\'e la Tour, April Niu, Sanjukta Roy, Adrian Vetta(参考訳) 地図再帰問題 (gerrymandering) の計算複雑性について検討する。 数学的には、選挙地区設計者 (gerrymanderer) は、重み付きグラフを$k$連結成分 (districts) に分割し、その候補 (party) ができるだけ多くの地区で勝利する。 先行研究は主に、グラフがパスまたはツリーである特別なケースに関するものである。 私たちの焦点は、グラフが平面である現実的なケースに関するものです。 我々は、候補数と$\lambda$が定数であり、頂点重み(投票重み)が多項式有界であるとき、ジェリーマンディング問題は$\lambda$-outerplanar graphsの多項式時間で解けることを証明した。 対照的に、問題は2つの候補でさえ一般平面グラフにおいてNP完全である。 これは、gerrymandering平面グラフの近似アルゴリズムの研究を動機付ける。 しかし、候補数が大きければ、ゲリーマンデラーが1つの地区に勝てない場合と、ゲリーマンデラーが少なくとも1つの地区に勝てる場合とを区別することは困難である。 これは即時、 P=NP でない限り、再制限問題は平面グラフの多項式時間では適用できないことを意味する。 この結論は、優れた近似アルゴリズムの設計のターミナルであるように見えるが、そうではない。 ゲリーマンデラーが勝つことができる範囲の最大数が極端に小さい場合にのみ適用されるため、近似可能性の境界は回避できる。 実際、固定数の候補に対して、我々の主な結果は、最適値が十分大きな定数であれば、未重み付き平面グラフを再配置するための定数係数近似アルゴリズムが存在することである。

We study the computational complexity of the map redistricting problem (gerrymandering). Mathematically, the electoral district designer (gerrymanderer) attempts to partition a weighted graph into $k$ connected components (districts) such that its candidate (party) wins as many districts as possible. Prior work has principally concerned the special cases where the graph is a path or a tree. Our focus concerns the realistic case where the graph is planar. We prove that the gerrymandering problem is solvable in polynomial time in $\lambda$-outerplanar graphs, when the number of candidates and $\lambda$ are constants and the vertex weights (voting weights) are polynomially bounded. In contrast, the problem is NP-complete in general planar graphs even with just two candidates. This motivates the study of approximation algorithms for gerrymandering planar graphs. However, when the number of candidates is large, we prove it is hard to distinguish between instances where the gerrymanderer cannot win a single district and instances where the gerrymanderer can win at least one district. This immediately implies that the redistricting problem is inapproximable in polynomial time in planar graphs, unless P=NP. This conclusion appears terminal for the design of good approximation algorithms -- but it is not. The inapproximability bound can be circumvented as it only applies when the maximum number of districts the gerrymanderer can win is extremely small, say one. Indeed, for a fixed number of candidates, our main result is that there is a constant factor approximation algorithm for redistricting unweighted planar graphs, provided the optimal value is a large enough constant.
翻訳日:2024-01-09 21:48:10 公開日:2024-01-08
# 結合複素syk模型の熱力学と動力学

Thermodynamics and dynamics of coupled complex SYK models ( http://arxiv.org/abs/2312.14644v2 )

ライセンス: Link先を確認
Jan C. Louw, Linda M. van Manen, Rishabh Jha(参考訳) 大きな$qの複素SYKモデルはファン・デル・ワールス(平均体)と同じ普遍性クラスに該当し、様々なブラックホールで共有されるマルダセナ-シェンカー-スタンフォード境界を飽和させることが知られている。 これにより、SYKモデルは量子カオスとホログラフィック双対性の基本的な性質を探索するのに有用なツールとなる。 この研究は、この共有普遍性クラスとSYK様モデルに対するカオス的性質の堅牢性を確立し、異なる順序の大きいq$複素SYKモデルのシステムに拡張する。 本稿では, 熱力学的特性, 特に観測相転移の臨界指数, 特にリャプノフ指数の動的特性を, 時間外相関計算により詳細に導出する。 解析の結果, 相互作用強度比による追加スケーリングパラメータの導入にもかかわらず, 単一SYKモデルと同様, 低温で連続的な位相遷移を行うことがわかった。 臨界指数は、ファンデルワールスガスや様々なAdSブラックホールと共有されるランダウ・ギンツブルク(平均場)普遍性クラスと一致している。 さらに、結合したSYK系は、Maldacena-Shenker-Stanford境界に固執して、低温における大きな$q$制限において最大カオスのままであることを示した。 これらの発見は、複雑な量子システムにおける普遍性とカオスに対するより広い問合せのための強固さとオープンな道筋を確立する。 結論として, 正則(非カオス)相転移が再び最大カオスとなる極低温状態を考える。 次にホログラフィック双対ブラックホールで観測されたホーキング・ページ相転移との関係について考察する。

It has been known that the large-$q$ complex SYK model falls under the same universality class as that of van der Waals (mean-field) and saturates the Maldacena-Shenker-Stanford bound, both features shared by various black holes. This makes the SYK model a useful tool in probing the fundamental nature of quantum chaos and holographic duality. This work establishes the robustness of this shared universality class and chaotic properties for SYK-like models by extending to a system of coupled large-$q$ complex SYK models of different orders. We provide a detailed derivation of thermodynamic properties, specifically the critical exponents for an observed phase transition, as well as dynamical properties, in particular the Lyapunov exponent, via the out-of-time correlator calculations. Our analysis reveals that, despite the introduction of an additional scaling parameter through interaction strength ratios, the system undergoes a continuous phase transition at low temperatures, similar to that of the single SYK model. The critical exponents align with the Landau-Ginzburg (mean-field) universality class, shared with van der Waals gases and various AdS black holes. Furthermore, we demonstrate that the coupled SYK system remains maximally chaotic in the large-$q$ limit at low temperatures, adhering to the Maldacena-Shenker-Stanford bound, a feature consistent with the single SYK model. These findings establish robustness and open avenues for broader inquiries into the universality and chaos in complex quantum systems. We conclude by considering the very low-temperature regime where there is again a maximally chaotic to regular (non-chaotic) phase transition. We then discuss relations with the Hawking-Page phase transition observed in the holographic dual black holes.
翻訳日:2024-01-09 21:47:39 公開日:2024-01-08
# 完全連続変数量子計算アーキテクチャ:クラスタ状態生成からフォールトトレラントな達成まで

A complete continuous-variable quantum computation architecture: from cluster state generation to fault-tolerant accomplishment ( http://arxiv.org/abs/2312.13877v2 )

ライセンス: Link先を確認
Peilin Du, Jing Zhang, Tiancai Zhang, Rongguo Yang, Jiangrui Gao(参考訳) 連続変数計測に基づく量子計算は、決定論的に生成された大規模クラスタ状態を必要とするが、実用的でスケーラブルで普遍的でフォールトトレラントな量子計算の候補として有望である。 本研究では,クラスタ状態の準備,ゲート実装,エラー訂正を含む完全なアーキテクチャを実証する。 まず,時間領域と空間領域の両方を多重化して2次元大規模連続変数クラスタ状態を生成する手法を提案する。 次に、ゲートテレポーテーションによる普遍量子計算のゲート実装について論じ、生成されたクラスタ状態からの実際のゲートノイズとGottesman-Kitaev-Preskill(GKP)状態について考察する。 その後、二乗格子GKP符号を利用して量子誤差補正を行うことができる。 最後に、フォールトトレラントな量子計算は、(位相フリップを防ぐために)正方格子GKP符号にバイアスを導入し、(残ビットフリップエラーを処理するために)古典的な繰り返し符号を12.3dBで結合することで実現できる。 我々の研究は、将来完全なフォールトトレラントな量子計算アーキテクチャに可能な選択肢を提供する。

Continuous-variable measurement-based quantum computation, which requires deterministically generated large-scale cluster state, is a promising candidate for practical, scalable, universal, and fault-tolerant quantum computation. In this work, a complete architecture including cluster state preparation, gate implementations, and error correction, is demonstrated. First, a scheme for generating two-dimensional large-scale continuous-variable cluster state by multiplexing both the temporal and spatial domains is proposed. Then, the corresponding gate implementations for universal quantum computation by gate teleportation are discussed and the actual gate noise from the generated cluster state and Gottesman-Kitaev-Preskill (GKP) state are considered. After that, the quantum error correction can be further achieved by utilizing the square-lattice GKP code. Finally, a fault-tolerent quantum computation can be realized by introducing bias into the square-lattice GKP code (to protect against phase-flips) and concatenating a classical repetition code (to handle the residual bit-flip errors), with a squeezing threshold of 12.3 dB. Our work provides a possible option for a complete fault-tolerent quantum computation architecture in the future.
翻訳日:2024-01-09 21:46:52 公開日:2024-01-08
# 分割特徴符号化による分散量子ニューラルネットワーク

Distributed Quantum Neural Networks via Partitioned Features Encoding ( http://arxiv.org/abs/2312.13650v2 )

ライセンス: Link先を確認
Yoshiaki Kawase(参考訳) 量子ニューラルネットワークは、短期量子コンピューティングにおいて有望な応用であると期待されているが、最適化中の勾配の消失や、限られた数の量子ビットと浅い回路による表現可能性の制限といった課題に直面している。 これらの課題を軽減するために、分散量子ニューラルネットワークを用いたアプローチが提案され、複数の小さな回路を用いて大きな回路の出力を近似して予測する。 しかし、大きな回路の近似には指数関数的な回路評価が必要となる。 ここでは、分割された特徴を複数の小さな量子ニューラルネットワークに分散し、予測値のアンサンブルを用いて予測を生成することを提案する。 分散アプローチを検証するために, semeion と mnist の手書き文字データセットの10種類の分類を示す。 Semeionデータセットの結果は、分散アプローチが分類性能において単一の量子ニューラルネットワークを上回っているのに対して、過剰なパーティショニングは性能を低下させることを示している。 それでも,MNISTデータセットでは,96\%以上の精度で10種類の分類に成功した。 提案手法は,大規模データセットの高精度な予測だけでなく,大規模単一量子ニューラルネットワークと比較して,各量子ニューラルネットワークのハードウェア要件も低減した。 本研究では,分散量子ニューラルネットワークを,近距離量子デバイスと互換性のある実用的な量子機械学習アルゴリズムの有望な方向性として強調する。 このアプローチが量子機械学習アプリケーション探索に有用であることを願っています。

Quantum neural networks are expected to be a promising application in near-term quantum computing, but face challenges such as vanishing gradients during optimization and limited expressibility by a limited number of qubits and shallow circuits. To mitigate these challenges, an approach using distributed quantum neural networks has been proposed to make a prediction by approximating outputs of a large circuit using multiple small circuits. However, the approximation of a large circuit requires an exponential number of small circuit evaluations. Here, we instead propose to distribute partitioned features over multiple small quantum neural networks and use the ensemble of their expectation values to generate predictions. To verify our distributed approach, we demonstrate ten class classification of the Semeion and MNIST handwritten digit datasets. The results of the Semeion dataset imply that while our distributed approach may outperform a single quantum neural network in classification performance, excessive partitioning reduces performance. Nevertheless, for the MNIST dataset, we succeeded in ten class classification with exceeding 96\% accuracy. Our proposed method not only achieved highly accurate predictions for a large dataset but also reduced the hardware requirements for each quantum neural network compared to a large single quantum neural network. Our results highlight distributed quantum neural networks as a promising direction for practical quantum machine learning algorithms compatible with near-term quantum devices. We hope that our approach is useful for exploring quantum machine learning applications.
翻訳日:2024-01-09 21:46:31 公開日:2024-01-08
# 強相関型トポロジカル絶縁体におけるエッジモードの絡み合い

Entanglement of edge modes in (very) strongly correlated topological insulators ( http://arxiv.org/abs/2312.13598v2 )

ライセンス: Link先を確認
Nisa Ara, Rudranil Basu, Emil Mathew, and Indrakshi Raychowdhury(参考訳) 強相関理論に対する位相相の同定は、ベリー相のような順序パラメータを定義することは単純ではないため、非自明なタスクである。 量子情報理論は、システムの異なる絡み合い測度に関連する順序パラメータの適切な定義を持つ量子位相遷移を示す理論の位相位相位相を識別することができる。 本研究では,二層SSHモデルのエンタングルメントエントロピーについて,ハバード相互作用の有無と相互作用強度の差異について検討する。 自由理論では、エッジの絡み合いは順序パラメータとして機能し、解析計算と数値計算(DMRG)の研究によって支持される。 このモデルでは, エッジモードで計算された場合, 次数パラメータとして機能し, 対称性を計算し, エンタングルメントの等分性を示す。 DMRG計算は自由理論を超越することを許すので、同じモデルに対するオンサイトハバード相互作用の存在下でのエッジモードの絡み合い構造について検討する。 相互作用が切り替わるにつれて、エッジ絡みの突然の低減が得られる。 この説明は、相互作用の存在と不在における退化部分空間の大きさの変化に関係している。 また, 相互作用強度が極端に強いときの絡み合いのサインについて検討し, エッジ絡み合いが保護されていることを示す。 この極限において、エネルギー固有状態は本質的にテンソル積状態となり、ゼロエンタングルメントを意味する。 しかし、残差エントロピーはエッジモードの絡み合いによる非自明な位相相に残っている。

Identifying topological phases for a strongly correlated theory remains a non-trivial task, as defining order parameters, such as Berry phases, is not straightforward. Quantum information theory is capable of identifying topological phases for a theory that exhibits quantum phase transition with a suitable definition of order parameters that are related to different entanglement measures for the system. In this work, we study entanglement entropy for a bi-layer SSH model, both in the presence and absence of Hubbard interaction and at varying interaction strengths. For the free theory, edge entanglement acts as an order parameter, which is supported by analytic calculations and numerical (DMRG) studies. We calculate the symmetry-resolved entanglement and demonstrate the equipartition of entanglement for this model which itself acts as an order parameter when calculated for the edge modes. As the DMRG calculation allows one to go beyond the free theory, we study the entanglement structure of the edge modes in the presence of on-site Hubbard interaction for the same model. A sudden reduction of edge entanglement is obtained as interaction is switched on. The explanation for this lies in the change in the size of the degenerate subspaces in the presence and absence of interaction. We also study the signature of entanglement when the interaction strength becomes extremely strong and demonstrate that the edge entanglement remains protected. In this limit, the energy eigenstates essentially become a tensor product state, implying zero entanglement. However, a remnant entropy survives in the non-trivial topological phase which is exactly due to the entanglement of the edge modes.
翻訳日:2024-01-09 21:45:52 公開日:2024-01-08
# Tavis-Cummings量子電池の最適エネルギー貯蔵

Optimal energy storage in the Tavis-Cummings quantum battery ( http://arxiv.org/abs/2312.13444v2 )

ライセンス: Link先を確認
Hui-Yu Yang, Hai-Long Shi, Qing-Kun Wan, Kun Zhang, Xiao-Hui Wang, and Wen-Li Yang(参考訳) 量子電池の自然な物理実現として機能するTavis-Cummings(TC)モデルは、電池セルとしてN_b$原子を含み、共有光子フィールドと一括して相互作用し、最初は$n_0$光子を含むチャージャーとして機能する。 本研究では,TC電池の量子力学を効果的に表現するための不変部分空間法を提案する。 以上の結果から,$n_0\! やれ! n_b$ または $n_b\! n_0$, 特異なsu(2)対称性が力学に現れ、最適なエネルギー貯蔵の実現が保証される。 また,バッテリ・チャージャーの絡み合いとエネルギー貯蔵容量の負の関係も確立した。 その結果,この漸近的最適エネルギー貯蔵は,$N_b\!のシナリオで達成できることが実証された。 =\! n_0\! やれ! 1$. 我々のアプローチは、TCモデルに固有の代数構造に対する理解を深めるだけでなく、量子電池のより広範な理論的枠組みにも貢献する。 さらに、エネルギー移動と量子相関の関係に関する重要な洞察を提供する。

The Tavis-Cummings (TC) model, which serves as a natural physical realization of a quantum battery, comprises $N_b$ atoms as battery cells that collectively interact with a shared photon field, functioning as the charger, initially containing $n_0$ photons. In this study, we introduce the invariant subspace method to effectively represent the quantum dynamics of the TC battery. Our findings indicate that in the limiting case of $n_0\!\gg\! N_b$ or $N_b\!\gg\! n_0$, a distinct SU(2) symmetry emerges in the dynamics, thereby ensuring the realization of optimal energy storage. We also establish a negative relationship between the battery-charger entanglement and the energy storage capacity. As a result, we demonstrate that the asymptotically optimal energy storage can be achieved in the scenario where $N_b\!=\!n_0\!\gg\! 1$. Our approach not only enhances our comprehension of the algebraic structure inherent in the TC model but also contributes to the broader theoretical framework of quantum batteries. Furthermore, it provides crucial insights into the relation between energy transfer and quantum correlations.
翻訳日:2024-01-09 21:45:26 公開日:2024-01-08
# セマンティック画像合成のための訓練済み画像バックボーンのアンロック

Unlocking Pre-trained Image Backbones for Semantic Image Synthesis ( http://arxiv.org/abs/2312.13314v2 )

ライセンス: Link先を確認
Tariq Berrada, Jakob Verbeek, Camille Couprie, Karteek Alahari(参考訳) セマンティック画像合成、すなわちユーザが提供するセマンティックラベルマップから画像を生成することは、生成された画像のコンテンツと空間的レイアウトの両方を制御できる重要な条件付き画像生成タスクである。 拡散モデルは生成的画像モデリングにおいて技術の状態を推し進めてきたが、それらの推論プロセスの反復的性質はそれらを計算的に要求する。 ganのような他のアプローチは、生成に単一のフィードフォワードパスしか必要としないため効率が良いが、画像品質は大規模で多様なデータセットに苦しむ傾向がある。 本研究では,画像分類などのタスクのために事前学習された特徴バックボーンネットワークを活用し,高度に現実的な画像を生成する意味画像合成のためのgan判別器を提案する。 また,新たなジェネレータアーキテクチャを導入して,コンテキストモデリングを改良し,潜在変数にノイズを注入するクロスアテンションを用いることにより,より多様な画像を生成する。 DP-SIMSをダブした我々のモデルは、ADE-20K、COCO-Stuff、Cityscapesの入力ラベルマップの画質と一貫性の点から、最新の拡散モデルを超え、推論に2桁も少ない計算を必要とする。

Semantic image synthesis, i.e., generating images from user-provided semantic label maps, is an important conditional image generation task as it allows to control both the content as well as the spatial layout of generated images. Although diffusion models have pushed the state of the art in generative image modeling, the iterative nature of their inference process makes them computationally demanding. Other approaches such as GANs are more efficient as they only need a single feed-forward pass for generation, but the image quality tends to suffer on large and diverse datasets. In this work, we propose a new class of GAN discriminators for semantic image synthesis that generates highly realistic images by exploiting feature backbone networks pre-trained for tasks such as image classification. We also introduce a new generator architecture with better context modeling and using cross-attention to inject noise into latent variables, leading to more diverse generated images. Our model, which we dub DP-SIMS, achieves state-of-the-art results in terms of image quality and consistency with the input label maps on ADE-20K, COCO-Stuff, and Cityscapes, surpassing recent diffusion models while requiring two orders of magnitude less compute for inference.
翻訳日:2024-01-09 21:45:03 公開日:2024-01-08
# 不完全発話書き換えのための多面的情報インタラクションフレームワーク

Multi-Granularity Information Interaction Framework for Incomplete Utterance Rewriting ( http://arxiv.org/abs/2312.11945v2 )

ライセンス: Link先を確認
Haowei Du, Dinghao Zhang, Chen Li, Yang Li, Dongyan Zhao(参考訳) Incomplete Utterance Rewriting (IUR) の最近のアプローチでは、不完全な発話を編集し、無関係な発話から単語を導入する上で重要な重要な単語のソースを捕捉できない。 本稿では,コンテキスト選択,編集行列構築,関連づけを含む,新しい効果的なマルチタスク情報インタラクションフレームワークを提案する。 提案手法は,関連する発話の抽出と重要な単語の抽出に適しており,この分野ではRecovery-200KとCANANDの2つのベンチマークデータセット上で,既存の最先端モデルよりも優れている。 コードは \url{https://github.com/yanmenxue/QR} で提供される。

Recent approaches in Incomplete Utterance Rewriting (IUR) fail to capture the source of important words, which is crucial to edit the incomplete utterance, and introduce words from irrelevant utterances. We propose a novel and effective multi-task information interaction framework including context selection, edit matrix construction, and relevance merging to capture the multi-granularity of semantic information. Benefiting from fetching the relevant utterance and figuring out the important words, our approach outperforms existing state-of-the-art models on two benchmark datasets Restoration-200K and CANAND in this field. Code will be provided on \url{https://github.com/yanmenxue/QR}.
翻訳日:2024-01-09 21:44:12 公開日:2024-01-08
# 大規模言語モデルにおける幻覚緩和手法に関する包括的調査

A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models ( http://arxiv.org/abs/2401.01313v3 )

ライセンス: Link先を確認
S.M Towhidul Islam Tonmoy, S M Mehedi Zaman, Vinija Jain, Anku Rani, Vipula Rawte, Aman Chadha, Amitava Das(参考訳) 大きな言語モデル (LLMs) は、人間のような文章を書く能力が向上し続けているため、現実的に見えるが根拠のないコンテンツを生み出す傾向に重要な課題が残っている。 この幻覚の問題は、人々の生活に影響を及ぼす現実世界のプロダクションシステムにこれらの強力なLSMを安全に配置する上で、おそらく最大の障害である。 実践環境でのllmの普及に向けた旅は、幻覚の対処と緩和に大きく依存している。 限られたタスクに焦点を当てた従来のAIシステムとは異なり、LLMはトレーニング中に大量のオンラインテキストデータにさらされている。 これにより、印象的な言語流感を表現できる一方で、トレーニングデータのバイアスから情報を外挿したり、曖昧なプロンプトを誤解釈したり、情報を入力と表面的に整合させることもできる。 医療記録の要約や財務分析レポートなど、センシティブなアプリケーションに言語生成機能に頼ると、これは非常に不安になります。 本稿では, llmsの幻覚を緩和するために開発された32以上の手法の包括的調査を行った。 中でも有名なものは、Retrieval Augmented Generation (Lewis et al, 2021), Knowledge Retrieval (Varshney et al, 2023), CoNLI (Lei et al, 2023), CoVe (Dhuliawala et al, 2023)である。 さらに,これらの手法をデータセットの利用,共通タスク,フィードバック機構,レトリバータイプなどのパラメータに基づいて分類する詳細な分類法を提案する。 この分類は、LLMの幻覚問題に取り組むために特別に設計された様々なアプローチを区別するのに役立つ。 さらに,これらの技術に固有の課題や限界を分析し,LLMの領域における幻覚や関連する現象に対処する上で,今後の研究の基盤となる。

As Large Language Models (LLMs) continue to advance in their ability to write human-like text, a key challenge remains around their tendency to hallucinate generating content that appears factual but is ungrounded. This issue of hallucination is arguably the biggest hindrance to safely deploying these powerful LLMs into real-world production systems that impact people's lives. The journey toward widespread adoption of LLMs in practical settings heavily relies on addressing and mitigating hallucinations. Unlike traditional AI systems focused on limited tasks, LLMs have been exposed to vast amounts of online text data during training. While this allows them to display impressive language fluency, it also means they are capable of extrapolating information from the biases in training data, misinterpreting ambiguous prompts, or modifying the information to align superficially with the input. This becomes hugely alarming when we rely on language generation capabilities for sensitive applications, such as summarizing medical records, financial analysis reports, etc. This paper presents a comprehensive survey of over 32 techniques developed to mitigate hallucination in LLMs. Notable among these are Retrieval Augmented Generation (Lewis et al, 2021), Knowledge Retrieval (Varshney et al,2023), CoNLI (Lei et al, 2023), and CoVe (Dhuliawala et al, 2023). Furthermore, we introduce a detailed taxonomy categorizing these methods based on various parameters, such as dataset utilization, common tasks, feedback mechanisms, and retriever types. This classification helps distinguish the diverse approaches specifically designed to tackle hallucination issues in LLMs. Additionally, we analyze the challenges and limitations inherent in these techniques, providing a solid foundation for future research in addressing hallucinations and related phenomena within the realm of LLMs.
翻訳日:2024-01-09 21:38:47 公開日:2024-01-08
# コンテキストを取り戻す:マルチモーダル知識グラフにおけるリンク予測としてのカメラトラップ種識別

Bringing Back the Context: Camera Trap Species Identification as Link Prediction on Multimodal Knowledge Graphs ( http://arxiv.org/abs/2401.00608v2 )

ライセンス: Link先を確認
Vardaan Pahuja, Weidi Luo, Yu Gu, Cheng-Hao Tu, Hong-You Chen, Tanya Berger-Wolf, Charles Stewart, Song Gao, Wei-Lun Chao, Yu Su(参考訳) カメラトラップは生物多様性の監視と保護のために動物生態学において貴重な道具である。 しかし、新しい見えない場所でのデプロイメントへの一般化の欠如のような課題は、実用的応用を制限する。 イメージは、おそらく異なるモダリティで、異種形式のコンテキストと自然に関連づけられる。 本研究では,カメラトラップ画像に付随する構造的コンテキストを利用して,カメラトラップの種識別作業における分布外一般化を改善する。 例えば、野生動物の写真は、いつどこで撮影されたかに関する情報や、動物種に関する構造生物学の知識と関連付けられるかもしれない。 通常、既存の作業では見過ごされるが、そのようなコンテキストを戻すことで、データの不足の解消や一般化の促進など、画像理解を改善する潜在的なメリットがいくつかある。 しかし、このような異種コンテキストを視覚領域に効果的に統合することは難しい問題である。 そこで本研究では,多変量知識グラフ (kg) において種分類をリンク予測として再編成する新しい枠組みを提案する。 このフレームワークは視覚認識のための様々な形態のマルチモーダルコンテキストをシームレスに統合する。 この枠組みをiwildcam2020-wildsとスナップショットマウンテンゼブラデータセットの分散種分類に適用し,最先端手法による競合性能を達成する。 さらに, 生物分類学を取り入れ, 一般化に成功し, 低発現種を識別するサンプル効率を高めた。

Camera traps are valuable tools in animal ecology for biodiversity monitoring and conservation. However, challenges like poor generalization to deployment at new unseen locations limit their practical application. Images are naturally associated with heterogeneous forms of context possibly in different modalities. In this work, we leverage the structured context associated with the camera trap images to improve out-of-distribution generalization for the task of species identification in camera traps. For example, a photo of a wild animal may be associated with information about where and when it was taken, as well as structured biology knowledge about the animal species. While typically overlooked by existing work, bringing back such context offers several potential benefits for better image understanding, such as addressing data scarcity and enhancing generalization. However, effectively integrating such heterogeneous context into the visual domain is a challenging problem. To address this, we propose a novel framework that reformulates species classification as link prediction in a multimodal knowledge graph (KG). This framework seamlessly integrates various forms of multimodal context for visual recognition. We apply this framework for out-of-distribution species classification on the iWildCam2020-WILDS and Snapshot Mountain Zebra datasets and achieve competitive performance with state-of-the-art approaches. Furthermore, our framework successfully incorporates biological taxonomy for improved generalization and enhances sample efficiency for recognizing under-represented species.
翻訳日:2024-01-09 21:38:14 公開日:2024-01-08
# EFHQ: 多目的ExtremePose-Face-HQデータセット

EFHQ: Multi-purpose ExtremePose-Face-HQ dataset ( http://arxiv.org/abs/2312.17205v3 )

ライセンス: Link先を確認
Trung Tuan Dao, Duc Hong Vu, Cuong Pham, Anh Tran(参考訳) 既存の顔データセットは、正面近のビューで豊富な画像を持っているが、極端な頭部ポーズのイメージが欠けているため、プロファイルやピッチされた顔を扱う際に、ディープラーニングモデルの性能が低下する。 この研究は、Extreme Pose Face High-Quality Dataset (EFHQ)と呼ばれる新しいデータセットを導入することで、このギャップに対処することを目的としている。 このような膨大なデータセットを生成するために、我々は、新しく精巧なデータセット処理パイプラインを使用して、さまざまな設定でキャプチャされた高解像度の顔ビデオを含む2つの公開データセット、VFHQとCelebV-HQをキュレートする。 我々のデータセットは、顔合成と2D/3D認識GAN、拡散ベースの顔生成、顔の再現など、さまざまな顔関連タスクに関する既存のデータセットを補完することができる。 具体的には、EFHQを使用したトレーニングは、モデルがさまざまなポーズにまたがって適切に一般化し、極端なビューを含むシナリオのパフォーマンスを大幅に向上するのに役立つ。 さらに,efhqを用いて,soma顔認証モデルの性能が前頭対頭シナリオと比較して5~37%低下し,野生の重度のポーズ条件下での顔認識研究を刺激する,難易度の高いクロスビュー顔検証ベンチマークを定義する。

The existing facial datasets, while having plentiful images at near frontal views, lack images with extreme head poses, leading to the downgraded performance of deep learning models when dealing with profile or pitched faces. This work aims to address this gap by introducing a novel dataset named Extreme Pose Face High-Quality Dataset (EFHQ), which includes a maximum of 450k high-quality images of faces at extreme poses. To produce such a massive dataset, we utilize a novel and meticulous dataset processing pipeline to curate two publicly available datasets, VFHQ and CelebV-HQ, which contain many high-resolution face videos captured in various settings. Our dataset can complement existing datasets on various facial-related tasks, such as facial synthesis with 2D/3D-aware GAN, diffusion-based text-to-image face generation, and face reenactment. Specifically, training with EFHQ helps models generalize well across diverse poses, significantly improving performance in scenarios involving extreme views, confirmed by extensive experiments. Additionally, we utilize EFHQ to define a challenging cross-view face verification benchmark, in which the performance of SOTA face recognition models drops 5-37% compared to frontal-to-frontal scenarios, aiming to stimulate studies on face recognition under severe pose conditions in the wild.
翻訳日:2024-01-09 21:36:12 公開日:2024-01-08
# 同一粒子干渉法による$N$-partite $N$-levelシングルト状態のロバスト生成

Robust generation of $N$-partite $N$-level singlet states by identical particle interferometry ( http://arxiv.org/abs/2312.17184v2 )

ライセンス: Link先を確認
Matteo Piccolini, Marcin Karczewski, Andreas Winter, Rosario Lo Franco(参考訳) 我々は、N$同一ボソンとN$内部レベル(一般化シングルト)の完全非対称状態を生成するための干渉計方式を提案する。 この状態は、劇的な量子優位を持つ様々な問題の資源である。 この手順は、フーリエマルチポートのシーケンスと、その結果をフィルタリングする偶然の測定を組み合わせたものである。 入力状態の$N$粒子が各マルチポート上で分離(反バンチ)されたときに、一般化シングルトの良好な調製が確認される。 このスキームは局所的なロスレスノイズに対して堅牢であり、完全に混合された入力状態でも動作する。

We propose an interferometric scheme for generating the totally antisymmetric state of $N$ identical bosons with $N$ internal levels (generalized singlet). This state is a resource for various problems with dramatic quantum advantage. The procedure uses a sequence of Fourier multi-ports, combined with coincidence measurements filtering the results. Successful preparation of the generalized singlet is confirmed when the $N$ particles of the input state stay separate (anti-bunch) on each multiport. The scheme is robust to local lossless noise and works even with a totally mixed input state.
翻訳日:2024-01-09 21:35:46 公開日:2024-01-08
# TSPP: 時系列予測のための統一ベンチマークツール

TSPP: A Unified Benchmarking Tool for Time-series Forecasting ( http://arxiv.org/abs/2312.17100v2 )

ライセンス: Link先を確認
Jan B\k{a}czek, Dmytro Zhylko, Gilberto Titericz, Sajad Darabi, Jean-Francois Puget, Izzy Putterman, Dawid Majchrowski, Anmol Gupta, Kyle Kranen, Pawel Morkisz(参考訳) 機械学習は大きな進歩を見せている一方、データ取得とモデル生成に重点を置いている。 しかし、現実世界の設定で機械学習ソリューションを総合的に評価するためには、パイプライン全体の標準化が必要である。 このニーズは時系列予測において特に深刻であり、多様な設定が様々な方法間の有意義な比較を妨げる。 このギャップを埋めるために、時系列予測モデルの開発に関わる重要なモデリングと機械学習の決定を明らかにする統一ベンチマークフレームワークを提案する。 このフレームワークはモデルとデータセットのシームレスな統合を促進し、実践者と研究者の両方の開発を支援します。 このフレームワークで最近提案されたモデルをベンチマークし、最小限の労力で慎重に実装されたディープラーニングモデルが、広範な機能工学と専門知識を必要とする勾配ブースト決定木に匹敵することを示した。

While machine learning has witnessed significant advancements, the emphasis has largely been on data acquisition and model creation. However, achieving a comprehensive assessment of machine learning solutions in real-world settings necessitates standardization throughout the entire pipeline. This need is particularly acute in time series forecasting, where diverse settings impede meaningful comparisons between various methods. To bridge this gap, we propose a unified benchmarking framework that exposes the crucial modelling and machine learning decisions involved in developing time series forecasting models. This framework fosters seamless integration of models and datasets, aiding both practitioners and researchers in their development efforts. We benchmark recently proposed models within this framework, demonstrating that carefully implemented deep learning models with minimal effort can rival gradient-boosting decision trees requiring extensive feature engineering and expert knowledge.
翻訳日:2024-01-09 21:35:35 公開日:2024-01-08
# Vital Phase Augmentationによるドメインの一般化

Domain Generalization with Vital Phase Augmentation ( http://arxiv.org/abs/2312.16451v2 )

ライセンス: Link先を確認
Ingyun Lee, Wooju Lee, Hyun Myung(参考訳) ディープニューラルネットワークは画像分類において顕著な性能を示している。 しかし, 入力データの劣化により性能は著しく低下した。 分散データに対するロバストモデルをトレーニングするためにドメイン一般化法が提案されている。 周波数領域におけるデータ拡張は、モデルが位相特徴を学習してドメイン不変表現を確立することを可能にするアプローチの1つである。 このアプローチは、位相を保ちながら入力データの振幅を変化させる。 しかしながら、固定位相を用いると、振幅と位相の変動が分布外に存在するため、位相変動への感受性が生じる。 本研究では,この問題を解決するために,固定位相の維持よりも入力データの位相の有限変化を用いた手法を提案する。 ドメイン不変特徴の程度が各位相ごとに異なるという仮定に基づき、この次数に基づいて位相を識別する手法を提案する。 さらに, 与えられた位相の領域不変特性の度合いに応じて, 位相に異なる変化を施す「バイタル位相拡張法(VIPAug)」を提案する。 このモデルは、振幅と位相変動に対する堅牢性を達成するために、よりドメイン不変の特徴を含む必要不可欠な位相に依存する。 本研究では, クリーンデータと破損データの両方の性能向上を示す提案手法を実験的に評価した。 VIPAug は、ベンチマーク CIFAR-10 と CIFAR-100 のデータセットで SOTA のパフォーマンス、ImageNet-100 と ImageNet のデータセットで SOTA に近いパフォーマンスを達成した。 私たちのコードはhttps://github.com/excitedkid/vipaugで入手できる。

Deep neural networks have shown remarkable performance in image classification. However, their performance significantly deteriorates with corrupted input data. Domain generalization methods have been proposed to train robust models against out-of-distribution data. Data augmentation in the frequency domain is one of such approaches that enable a model to learn phase features to establish domain-invariant representations. This approach changes the amplitudes of the input data while preserving the phases. However, using fixed phases leads to susceptibility to phase fluctuations because amplitudes and phase fluctuations commonly occur in out-of-distribution. In this study, to address this problem, we introduce an approach using finite variation of the phases of input data rather than maintaining fixed phases. Based on the assumption that the degree of domain-invariant features varies for each phase, we propose a method to distinguish phases based on this degree. In addition, we propose a method called vital phase augmentation (VIPAug) that applies the variation to the phases differently according to the degree of domain-invariant features of given phases. The model depends more on the vital phases that contain more domain-invariant features for attaining robustness to amplitude and phase fluctuations. We present experimental evaluations of our proposed approach, which exhibited improved performance for both clean and corrupted data. VIPAug achieved SOTA performance on the benchmark CIFAR-10 and CIFAR-100 datasets, as well as near-SOTA performance on the ImageNet-100 and ImageNet datasets. Our code is available at https://github.com/excitedkid/vipaug.
翻訳日:2024-01-09 21:35:22 公開日:2024-01-08
# オーディオイベント検出用変形可能なオーディオトランス

Deformable Audio Transformer for Audio Event Detection ( http://arxiv.org/abs/2312.16228v2 )

ライセンス: Link先を確認
Wentao Zhu(参考訳) トランスフォーマーは様々なタスクで有望な結果を得た。 しかし、セルフアテンション計算の二次的な複雑さは、特に低リソース設定やモバイルまたはエッジデバイスにおいて、アプリケーションを制限する。 既存の作業では、計算複雑性を低減するために手作りの注意パターンを利用する方法が提案されている。 しかし、このような手作りのパターンはデータに依存しず最適ではないかもしれない。 したがって、関連するキーや値が減っている可能性が高いが、重要でないキーは保存されている。 そこで本研究では,ピラミッド型トランスフォーマーのバックボーンを装着した変形可能な注意を構築・学習可能な,新しいオーディオ認識用変形型オーディオトランスフォーマーdatarを提案する。 このようなアーキテクチャは、予測タスク、~\textit{例えば}、イベント分類において有効であることが証明されている。 さらに,変形可能なアテンションマップ計算が入力機能を単純化し,さらに拡張できることを示す。 そこで我々は,この問題を解消するために学習可能な入力アダプタを導入し,datarは最先端のパフォーマンスを実現する。

Transformers have achieved promising results on a variety of tasks. However, the quadratic complexity in self-attention computation has limited the applications, especially in low-resource settings and mobile or edge devices. Existing works have proposed to exploit hand-crafted attention patterns to reduce computation complexity. However, such hand-crafted patterns are data-agnostic and may not be optimal. Hence, it is likely that relevant keys or values are being reduced, while less important ones are still preserved. Based on this key insight, we propose a novel deformable audio Transformer for audio recognition, named DATAR, where a deformable attention equipping with a pyramid transformer backbone is constructed and learnable. Such an architecture has been proven effective in prediction tasks,~\textit{e.g.}, event classification. Moreover, we identify that the deformable attention map computation may over-simplify the input feature, which can be further enhanced. Hence, we introduce a learnable input adaptor to alleviate this issue, and DATAR achieves state-of-the-art performance.
翻訳日:2024-01-09 21:34:09 公開日:2024-01-08
# Adaptive FSS: プロトタイプ拡張による新しいFew-Shotセグメンテーションフレームワーク

Adaptive FSS: A Novel Few-Shot Segmentation Framework via Prototype Enhancement ( http://arxiv.org/abs/2312.15731v3 )

ライセンス: Link先を確認
Jing Wang, Jinagyun Li, Chen Chen, Yisi Zhang, Haoran Shen, Tianxiang Zhang(参考訳) Few-Shot Segmentation (FSS)は、いくつかの注釈付き画像を用いて、新しいクラスセグメンテーションタスクを達成することを目的としている。 メタラーニングに基づく最近のFSS研究は、クエリとサポート機能の間の複雑な相互作用機構の設計に焦点を当てている。 しかし、限られたサンプルから新しいことを素早く学習できる人間とは異なり、既存のアプローチは、新しいタスクに取り組むための固定された特徴マッチングにのみ依存し、適応性に欠ける。 本稿では,既存のFSSモデルを新しいクラスに効率的に適応できるアダプタ機構,すなわちAdaptive FSSに基づく新しいフレームワークを提案する。 具体的には、クラスプロトタイプを導出するためのサポートセットが提供する正確なカテゴリ情報を利用して、多段階表現におけるクラス固有情報を強化するプロトタイプ適応モジュール(pam)を設計する。 さらに,本手法は,エンコーダの層間にPAMを挿入するだけで,異なるバックボーンを持つ多様なFSS手法と互換性がある。 MSANet, HDMNet, FPTrans, DCAMAなどのFSSモデルの性能を効果的に向上し, PASCAL-5$^i$1ショットおよび5ショット設定で72.4\%, 79.1\% mIoU, COCO-20$^i$1ショットおよび5ショット設定で52.7\% mIoU, 60.0\% mIoU) を新たに達成した。 私たちのコードはhttps://github.com/jingw193/AdaptiveFSSで利用可能です。

The Few-Shot Segmentation (FSS) aims to accomplish the novel class segmentation task with a few annotated images. Current FSS research based on meta-learning focus on designing a complex interaction mechanism between the query and support feature. However, unlike humans who can rapidly learn new things from limited samples, the existing approach relies solely on fixed feature matching to tackle new tasks, lacking adaptability. In this paper, we propose a novel framework based on the adapter mechanism, namely Adaptive FSS, which can efficiently adapt the existing FSS model to the novel classes. In detail, we design the Prototype Adaptive Module (PAM), which utilizes accurate category information provided by the support set to derive class prototypes, enhancing class-specific information in the multi-stage representation. In addition, our approach is compatible with in diverse FSS methods with different backbones by simply inserting PAM between the layers of the encoder. Experiments demonstrate that our method effectively improves the performance of the FSS models (e.g., MSANet, HDMNet, FPTrans, and DCAMA) and achieve new state-of-the-art (SOTA) results (i.e., 72.4\% and 79.1\% mIoU on PASCAL-5$^i$ 1-shot and 5-shot settings, 52.7\% and 60.0\% mIoU on COCO-20$^i$ 1-shot and 5-shot settings). Our code can be available at https://github.com/jingw193/AdaptiveFSS.
翻訳日:2024-01-09 21:33:05 公開日:2024-01-08
# TPC-ViT:高能率ビジョントランスのためのトークン伝搬制御

TPC-ViT: Token Propagation Controller for Efficient Vision Transformer ( http://arxiv.org/abs/2401.01470v2 )

ライセンス: Link先を確認
Wentao Zhu(参考訳) ビジョントランスフォーマー (vits) は様々なコンピュータビジョンタスクで有望な結果を得たが、入力トークンの数の二次的な複雑さは、特にリソース制約のある設定でアプリケーションを制限する。 この課題に対処するために段階的なトークン削減を使用する以前のアプローチでは、ひとつのレイヤのトークン冗長性が、以下のすべてのレイヤの冗長性を意味すると仮定している。 我々は、この仮定がしばしば正しくないことを実証する。すなわち、1つの層で冗長なトークンは、後続の層で有用である。 本稿では,トークンの低減と再利用をそれぞれ制御する2つの異なるトークン分布,すなわち停止確率と再起動確率を組み込んだ新しいトークン伝搬制御(TPC)を提案する。 トークン分布の推定値を改善するために,正規化器として機能し,ノイズの多い外乱を除去するスムース化機構を提案する。 さらに,提案したTPCのトレーニング安定性を向上させるために,局所像構造を暗黙的に符号化し,モデルトレーニング中の精度変動を最小限に抑えるモデル安定化器を提案する。 提案手法の有効性を実証するために,DeiT,LV-ViT,Swinモデルを用いたImageNet-1Kデータセットの広範な実験結果を示す。 例えば、ベースラインモデルと比較して、提案手法はDeiT-Sの推論速度を250%向上し、分類精度は1.0%向上した。

Vision transformers (ViTs) have achieved promising results on a variety of Computer Vision tasks, however their quadratic complexity in the number of input tokens has limited their application specially in resource-constrained settings. Previous approaches that employ gradual token reduction to address this challenge assume that token redundancy in one layer implies redundancy in all the following layers. We empirically demonstrate that this assumption is often not correct, i.e., tokens that are redundant in one layer can be useful in later layers. We employ this key insight to propose a novel token propagation controller (TPC) that incorporates two different token-distributions, i.e., pause probability and restart probability to control the reduction and reuse of tokens respectively, which results in more efficient token utilization. To improve the estimates of token distributions, we propose a smoothing mechanism that acts as a regularizer and helps remove noisy outliers. Furthermore, to improve the training-stability of our proposed TPC, we introduce a model stabilizer that is able to implicitly encode local image structures and minimize accuracy fluctuations during model training. We present extensive experimental results on the ImageNet-1K dataset using DeiT, LV-ViT and Swin models to demonstrate the effectiveness of our proposed method. For example, compared to baseline models, our proposed method improves the inference speed of the DeiT-S by 250% while increasing the classification accuracy by 1.0%.
翻訳日:2024-01-09 21:25:39 公開日:2024-01-08
# 新しいQ-ニュートン法,ニュートン流,ボロノイ図,確率的根発見のバックトラック

Backtracking New Q-Newton's method, Newton's flow, Voronoi's diagram and Stochastic root finding ( http://arxiv.org/abs/2401.01393v2 )

ライセンス: Link先を確認
John Erik Fornaess, Mi Hu, Tuyen Trung Truong, Takayuki Watanabe(参考訳) new q-newton's method (bnqn) と呼ばれるニュートン法の新しい変種は、強力な理論的保証を持ち、実装が容易であり、実験性能も良いが、最近3人目の著者によって紹介された。 以前に行われた実験では、BNQN を用いて多項式やメロモルフィック関数の根を見つけるアトラクションの盆地のいくつかの顕著な特性を示した。 一般に、それらはニュートンの方法よりも滑らかに見えます。 本稿では、この顕著な現象を実験的に探求し、BNQNをニュートンの流れとボロノイ図に接続する。 このリンクは、説明すべきいくつかの難しいパズルを表している。 実験により、BNQNはニュートン法やランダム緩和ニュートン法よりもランダム摂動に対して強いことが示されている。

A new variant of Newton's method - named Backtracking New Q-Newton's method (BNQN) - which has strong theoretical guarantee, is easy to implement, and has good experimental performance, was recently introduced by the third author. Experiments performed previously showed some remarkable properties of the basins of attractions for finding roots of polynomials and meromorphic functions, with BNQN. In general, they look more smooth than that of Newton's method. In this paper, we continue to experimentally explore in depth this remarkable phenomenon, and connect BNQN to Newton's flow and Voronoi's diagram. This link poses a couple of challenging puzzles to be explained. Experiments also indicate that BNQN is more robust against random perturbations than Newton's method and Random Relaxed Newton's method.
翻訳日:2024-01-09 21:24:51 公開日:2024-01-08
# スカースデータを用いた多軌道GNNによる乳幼児脳結合性の予測

Predicting Infant Brain Connectivity with Federated Multi-Trajectory GNNs using Scarce Data ( http://arxiv.org/abs/2401.01383v2 )

ライセンス: Link先を確認
Michalis Pistos, Gang Li, Weili Lin, Dinggang Shen and Islem Rekik(参考訳) 産後1年間における幼児脳ネットワークの畳み込み進化の理解は、初期の脳接続発達のダイナミクスを特定する上で重要である。 既存のディープラーニングソリューションには3つの大きな制限がある。 まず、各グラフ軌跡が特定の画像モダリティや接続タイプ(例えばT1-w MRI)に対応するようなマルチトラック予測タスクには一般化できない。 第二に、既存のモデルは十分なパフォーマンスを達成するために広範なトレーニングデータセットが必要です。 第3に、不完全な時系列データを効率的に利用しない。 これらの制約に対処するために、フェデレーショングラフベースの多軌道進化ネットワークであるFedGmTE-Net++を導入する。 フェデレーションの力を利用して、限られたデータセットを持つ多様な病院の地域学習を集約する。 その結果,データプライバシを保ちながら,各病院の局所的生成モデルの性能を向上させることができた。 FedGmTE-Net++の3つの重要なイノベーションは次のとおりである。 (i)データキャリア環境における脳のマルチトラック進化予測専用に設計された最初の連合学習フレームワークの提示 (ii)局所目的関数に補助正則化器を組み込んで、進化軌道内の全ての縦脳接続を活用し、データ利用を最大化すること。 (iii)予備的なknベースのプリコンプリートと、類似度スコアを改善し、インプチューションを洗練するためにレグレッサーを用いるインプテーション改良ステップとからなる2段階インプテーションプロセスを導入すること。 総合的な実験結果から,単一のベースライングラフからの脳内多軌道予測におけるFedGmTE-Net++の性能がベンチマーク法と比較された。

The understanding of the convoluted evolution of infant brain networks during the first postnatal year is pivotal for identifying the dynamics of early brain connectivity development. Existing deep learning solutions suffer from three major limitations. First, they cannot generalize to multi-trajectory prediction tasks, where each graph trajectory corresponds to a particular imaging modality or connectivity type (e.g., T1-w MRI). Second, existing models require extensive training datasets to achieve satisfactory performance which are often challenging to obtain. Third, they do not efficiently utilize incomplete time series data. To address these limitations, we introduce FedGmTE-Net++, a federated graph-based multi-trajectory evolution network. Using the power of federation, we aggregate local learnings among diverse hospitals with limited datasets. As a result, we enhance the performance of each hospital's local generative model, while preserving data privacy. The three key innovations of FedGmTE-Net++ are: (i) presenting the first federated learning framework specifically designed for brain multi-trajectory evolution prediction in a data-scarce environment, (ii) incorporating an auxiliary regularizer in the local objective function to exploit all the longitudinal brain connectivity within the evolution trajectory and maximize data utilization, (iii) introducing a two-step imputation process, comprising a preliminary KNN-based precompletion followed by an imputation refinement step that employs regressors to improve similarity scores and refine imputations. Our comprehensive experimental results showed the outperformance of FedGmTE-Net++ in brain multi-trajectory prediction from a single baseline graph in comparison with benchmark methods.
翻訳日:2024-01-09 21:24:35 公開日:2024-01-08
# 無限次元ヒルベルト空間におけるおもちゃ制約最適化問題の学習解

Learning solutions to some toy constrained optimization problems in infinite dimensional Hilbert spaces ( http://arxiv.org/abs/2401.01306v2 )

ライセンス: Link先を確認
Pinak Mandal(参考訳) 本研究では、無限次元ヒルベルト空間における2つの一般的な理論的制約付き最適化アルゴリズム、すなわちペナルティと拡張ラグランジアン手法のディープラーニング実装を提案する。 これらのアルゴリズムは、変分法または物理の計算から生じるいくつかのおもちゃの問題で検証する。 いずれの手法も,テスト問題に対して適度な近似を生成可能であり,異なる誤差の観点で比較可能であることを実証する。 ラグランジュ乗算器更新規則の共通発生は、ペナルティ法における部分問題を解くよりも計算コストが低く、制約関数の出力自体が関数である場合の大幅な高速化を実現する。

In this work we present deep learning implementations of two popular theoretical constrained optimization algorithms in infinite dimensional Hilbert spaces, namely, the penalty and the augmented Lagrangian methods. We test these algorithms on some toy problems originating in either calculus of variations or physics. We demonstrate that both methods are able to produce decent approximations for the test problems and are comparable in terms of different errors produced. Leveraging the common occurrence of the Lagrange multiplier update rule being computationally less expensive than solving subproblems in the penalty method, we achieve significant speedups in cases when the output of the constraint function is itself a function.
翻訳日:2024-01-09 21:23:49 公開日:2024-01-08
# 大規模言語モデルの知識編集に関する総合的研究

A Comprehensive Study of Knowledge Editing for Large Language Models ( http://arxiv.org/abs/2401.01286v2 )

ライセンス: Link先を確認
Ningyu Zhang, Yunzhi Yao, Bozhong Tian, Peng Wang, Shumin Deng, Mengru Wang, Zekun Xi, Shengyu Mao, Jintian Zhang, Yuansheng Ni, Siyuan Cheng, Ziwen Xu, Xin Xu, Jia-Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Lei Liang, Zhiqiang Zhang, Xiaowei Zhu, Jun Zhou, Huajun Chen(参考訳) 大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。 しかしながら、主な制限はトレーニング中の重要な計算要求であり、その広範なパラメータ化が原因である。 この課題は世界のダイナミックな性質によってさらに強化され、古い情報を修正したり、新しい知識を統合するためにllmの頻繁な更新が必要である。 多くのアプリケーションは、欠陥や望ましくない振る舞いに対処するために、訓練後のモデル調整を要求している。 オンザフライモデル修正のための効率的で軽量な手法への関心が高まっている。 この目的のために, 近年, LLM の知識編集技術が盛んになり, 様々な入力の全体的な性能を保ちながら, 特定の領域内での LLM の振る舞いを効率的に修正することを目指している。 本稿ではまず,知識編集の問題を定義し,最先端アプローチの総合的なレビューを行う。 教育・認知研究理論から着想を得て,外部知識への依存,モデルへの知識の融合,内在知識の編集という,知識編集手法を3つのグループに分類する統一分類基準を提案する。 さらに,代表的知識編集手法の包括的評価のために,新しいベンチマークであるnoweditを導入する。 さらに,LLMに含まれる知識構造をより深く理解することのできる,知識位置の詳細な分析を行う。 最後に,知識編集の潜在的な応用について検討し,その広範かつ影響の大きい影響について概説する。

Large Language Models (LLMs) have shown extraordinary capabilities in understanding and generating text that closely mirrors human communication. However, a primary limitation lies in the significant computational demands during training, arising from their extensive parameterization. This challenge is further intensified by the dynamic nature of the world, necessitating frequent updates to LLMs to correct outdated information or integrate new knowledge, thereby ensuring their continued relevance. Note that many applications demand continual model adjustments post-training to address deficiencies or undesirable behaviors. There is an increasing interest in efficient, lightweight methods for on-the-fly model modifications. To this end, recent years have seen a burgeoning in the techniques of knowledge editing for LLMs, which aim to efficiently modify LLMs' behaviors within specific domains while preserving overall performance across various inputs. In this paper, we first define the knowledge editing problem and then provide a comprehensive review of cutting-edge approaches. Drawing inspiration from educational and cognitive research theories, we propose a unified categorization criterion that classifies knowledge editing methods into three groups: resorting to external knowledge, merging knowledge into the model, and editing intrinsic knowledge. Furthermore, we introduce a new benchmark, KnowEdit, for a comprehensive empirical evaluation of representative knowledge editing approaches. Additionally, we provide an in-depth analysis of knowledge location, which can provide a deeper understanding of the knowledge structures inherent within LLMs. Finally, we discuss several potential applications of knowledge editing, outlining its broad and impactful implications.
翻訳日:2024-01-09 21:23:37 公開日:2024-01-08
# 自動計測のための機械翻訳基準の品質と量

Quality and Quantity of Machine Translation References for Automated Metrics ( http://arxiv.org/abs/2401.01283v3 )

ライセンス: Link先を確認
Vil\'em Zouhar, Ond\v{r}ej Bojar(参考訳) 自動機械翻訳メトリクスは、システム翻訳の品質を決定するために人間の翻訳を使うことが多い。 この分野の一般的な知恵は、人間の参照は非常に高品質であるべきだと規定している。 しかし,機械翻訳評価の参考資料収集を計画する実践者の指導には,費用対効果分析は使用できない。 高品質な参照は、セグメントレベルでの人間とのメトリクス相関をより良くする。 セグメントごとに7つの参照を持ち、平均を取ることは、すべてのメトリクスに役立つ。 興味深いことに、異なる品質のベンダーからの参照を混ぜ合わせてメトリクスの成功を改善することができる。 しかし、高品質な参照は作成により多くのコストがかかり、これを最適化の問題とみなす:特定の予算が与えられたら、メートル法の成功を最大化するためにどの参照を収集すべきか。 これらの発見は、特定の予算の下で参照を作成する必要がある場合、共有タスクの評価者によって利用することができる。

Automatic machine translation metrics often use human translations to determine the quality of system translations. Common wisdom in the field dictates that the human references should be of very high quality. However, there are no cost-benefit analyses that could be used to guide practitioners who plan to collect references for machine translation evaluation. We find that higher-quality references lead to better metric correlations with humans at the segment-level. Having up to 7 references per segment and taking their average helps all metrics. Interestingly, the references from vendors of different qualities can be mixed together and improve metric success. Higher quality references, however, cost more to create and we frame this as an optimization problem: given a specific budget, what references should be collected to maximize metric success. These findings can be used by evaluators of shared tasks when references need to be created under a certain budget.
翻訳日:2024-01-09 21:23:12 公開日:2024-01-08
# PPBFL: ブロックチェーンベースのフェデレーション学習モデル

PPBFL: A Privacy Protected Blockchain-based Federated Learning Model ( http://arxiv.org/abs/2401.01204v2 )

ライセンス: Link先を確認
Yang Li, Chunhe Xia, Wanshuang Lin, Tianbo Wang(参考訳) 機械学習の急速な発展とデータプライバシーに対する懸念の高まりにより、フェデレーション学習は注目の的になっている。 しかし、モデルパラメータへの攻撃とインセンティブ機構の欠如は、連合学習の有効性を阻害する。 そこで本研究では,プライバシ保護ブロックチェーンに基づくフェデレート学習モデル(PPBFL)を提案し,フェデレーション学習の安全性を高め,モデルトレーニングにおけるノードの積極的な参加を促す。 ブロックチェーン技術は、IPFS(InterPlanetary File System)に格納されているモデルパラメータの整合性を保証する。 ブロックチェーン内では,訓練ノードのインセンティブ化を目的とした,連合学習に適した学習作業(potw)コンセンサスアルゴリズムを紹介する。 このアルゴリズムは、より大きな計算能力を持つノードに報酬を与え、連合学習プロセスへの参加と努力を促進する。 新しい適応微分プライバシーアルゴリズムは、同時に局所モデルと大域モデルに適用される。 これにより、トレーニングクライアントのローカルデータのプライバシーを保護し、悪意のあるノードが推論攻撃を開始するのを防ぐ。 さらに、グローバルモデルのセキュリティを強化し、多数のローカルモデルの組み合わせによる潜在的なセキュリティ低下を防止する。 セキュリティ劣化の可能性は合成定理から導かれる。 グローバルモデルにリバースノイズを導入することにより、ローカルモデルとグローバルモデルの間の差分プライバシーノイズのゼロバイアス推定を実現する。 さらに,リングシグネチャ技術を利用した新たなミックストランザクション機構を提案し,ローカルトレーニングクライアントのIDプライバシをよりよく保護する。 セキュリティ分析と実験の結果,ppbflは,ベースライン法と比較して,優れたモデル性能を示すだけでなく,高いセキュリティを実現することが示された。

With the rapid development of machine learning and a growing concern for data privacy, federated learning has become a focal point of attention. However, attacks on model parameters and a lack of incentive mechanisms hinder the effectiveness of federated learning. Therefore, we propose A Privacy Protected Blockchain-based Federated Learning Model (PPBFL) to enhance the security of federated learning and encourage active participation of nodes in model training. Blockchain technology ensures the integrity of model parameters stored in the InterPlanetary File System (IPFS), providing protection against tampering. Within the blockchain, we introduce a Proof of Training Work (PoTW) consensus algorithm tailored for federated learning, aiming to incentive training nodes. This algorithm rewards nodes with greater computational power, promoting increased participation and effort in the federated learning process. A novel adaptive differential privacy algorithm is simultaneously applied to local and global models. This safeguards the privacy of local data at training clients, preventing malicious nodes from launching inference attacks. Additionally, it enhances the security of the global model, preventing potential security degradation resulting from the combination of numerous local models. The possibility of security degradation is derived from the composition theorem. By introducing reverse noise in the global model, a zero-bias estimate of differential privacy noise between local and global models is achieved. Furthermore, we propose a new mix transactions mechanism utilizing ring signature technology to better protect the identity privacy of local training clients. Security analysis and experimental results demonstrate that PPBFL, compared to baseline methods, not only exhibits superior model performance but also achieves higher security.
翻訳日:2024-01-09 21:22:58 公開日:2024-01-08
# LLMがウィザードなら、コードはワンドだ: コードが大規模言語モデルをどのように強化し、インテリジェントエージェントとして機能させるか

If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents ( http://arxiv.org/abs/2401.00812v2 )

ライセンス: Link先を確認
Ke Yang, Jiateng Liu, John Wu, Chaoqi Yang, Yi R. Fung, Sha Li, Zixuan Huang, Xu Cao, Xingyao Wang, Yiquan Wang, Heng Ji, Chengxiang Zhai(参考訳) 現在の顕著な大きな言語モデル(LLM)は、サイズだけでなく、自然言語と形式言語(コード)の組み合わせで訓練されているという事実においても、過去の言語モデルとは異なる。 人間とコンピュータの間の媒体として、コードはハイレベルな目標を実行可能なステップに変換し、標準構文、論理的一貫性、抽象化、モジュール化を特徴とする。 本稿では、LLMのトレーニングデータにコードを統合する際の様々な利点について概説する。 具体的には、コード生成におけるllmの拡張以外にも、コードのユニークな特性が役立ちます。 i) LLMの推論能力を解き、より複雑な自然言語タスクへの応用を可能にする。 (ii) LLM を使用して構造化された正確な中間ステップを生成し、関数呼び出しを通じて外部実行終端に接続することができる。 (iii)コードコンパイルと実行環境を活用し、モデル改善のための多様なフィードバックを提供する。 さらに、コードによってもたらされるこれらのllmの深い能力が、命令を理解し、目標を分解し、行動を計画し実行し、フィードバックから洗練することが下流タスクの成功に不可欠である状況において、インテリジェントエージェント(ias)としてどのように出現したかを追跡する。 最後に,LLMをコードで強化する上で重要な課題と今後の方向性を示す。

The prominent large language models (LLMs) of today differ from past language models not only in size, but also in the fact that they are trained on a combination of natural language and formal language (code). As a medium between humans and computers, code translates high-level goals into executable steps, featuring standard syntax, logical consistency, abstraction, and modularity. In this survey, we present an overview of the various benefits of integrating code into LLMs' training data. Specifically, beyond enhancing LLMs in code generation, we observe that these unique properties of code help (i) unlock the reasoning ability of LLMs, enabling their applications to a range of more complex natural language tasks; (ii) steer LLMs to produce structured and precise intermediate steps, which can then be connected to external execution ends through function calls; and (iii) take advantage of code compilation and execution environment, which also provides diverse feedback for model improvement. In addition, we trace how these profound capabilities of LLMs, brought by code, have led to their emergence as intelligent agents (IAs) in situations where the ability to understand instructions, decompose goals, plan and execute actions, and refine from feedback are crucial to their success on downstream tasks. Finally, we present several key challenges and future directions of empowering LLMs with code.
翻訳日:2024-01-09 21:21:55 公開日:2024-01-08
# 脆弱性:病理診断のための多モード視覚言語モデルへの逆攻撃

Vulnerabilities Unveiled: Adversarially Attacking a Multimodal Vision Language Model for Pathology Imaging ( http://arxiv.org/abs/2401.02565v2 )

ライセンス: Link先を確認
Jai Prakash Veerla, Poojitha Thota, Partha Sai Guttikonda, Shirin Nilizadeh, Jacob M. Luber(参考訳) 本研究は,医学人工知能のダイナミックな状況において,対象とする対人条件下で,ビジョン言語基礎モデルであるPLIPモデルの脆弱性について検討する。 そこで本研究では,9種類の組織に対して7,180個のH&E画像を用いたKather Colonデータセットを応用し,PGD (Projected Gradient Descent) 対逆攻撃を用いて意図的に誤分類を誘導する。 結果は、plipの予測を操作するのに100%の成功率を示し、その逆の摂動に対する感受性を強調する。 敵の例の質的分析は解釈可能性の問題に陥り、敵の操作によって引き起こされる予測の微妙な変化に光を当てている。 これらの知見は、医用画像におけるビジョン言語モデルの解釈可能性、ドメイン適応、信頼性に関する重要な洞察に寄与する。 この研究は、AIモデルの信頼性を確保するための堅牢な防御の必要性を強調している。

In the dynamic landscape of medical artificial intelligence, this study explores the vulnerabilities of the Pathology Language-Image Pretraining (PLIP) model, a Vision Language Foundation model, under targeted adversarial conditions. Leveraging the Kather Colon dataset with 7,180 H&E images across nine tissue types, our investigation employs Projected Gradient Descent (PGD) adversarial attacks to intentionally induce misclassifications. The outcomes reveal a 100% success rate in manipulating PLIP's predictions, underscoring its susceptibility to adversarial perturbations. The qualitative analysis of adversarial examples delves into the interpretability challenges, shedding light on nuanced changes in predictions induced by adversarial manipulations. These findings contribute crucial insights into the interpretability, domain adaptation, and trustworthiness of Vision Language Models in medical imaging. The study emphasizes the pressing need for robust defenses to ensure the reliability of AI models.
翻訳日:2024-01-09 21:14:08 公開日:2024-01-08
# 永続エネルギーによる${\lambda}$cdm宇宙における階層的クラスタリング

Hierarchical Clustering in ${\Lambda}$CDM Cosmologies via Persistence Energy ( http://arxiv.org/abs/2401.01988v2 )

ライセンス: Link先を確認
Michael Etienne Van Huffel, Leonardo Aldo Alejandro Barberi, Tobias Sagis(参考訳) 本研究では、トポロジカルデータ解析による高度な手法を用いて、宇宙ウェブの構造的進化を考察する。 我々のアプローチは、最近の文献から得られた革新的手法であるLITEを活用し、永続化図をベクトル空間の要素に埋め込む。 この手法を用いて、クラスター、フィラメント、空隙の3つのクインテシデント宇宙構造を解析する。 中心となる発見は \textit{persistence energy} と赤方偏移値の相関であり、永続ホモロジーと宇宙の進化を結びつけ、宇宙構造のダイナミクスに関する洞察を提供する。

In this research, we investigate the structural evolution of the cosmic web, employing advanced methodologies from Topological Data Analysis. Our approach involves leveraging LITE, an innovative method from recent literature that embeds persistence diagrams into elements of vector spaces. Utilizing this methodology, we analyze three quintessential cosmic structures: clusters, filaments, and voids. A central discovery is the correlation between \textit{Persistence Energy} and redshift values, linking persistent homology with cosmic evolution and providing insights into the dynamics of cosmic structures.
翻訳日:2024-01-09 21:13:50 公開日:2024-01-08
# マスキング特徴再構成による3次元物体検出のための時空間知識の蒸留

Distilling Temporal Knowledge with Masked Feature Reconstruction for 3D Object Detection ( http://arxiv.org/abs/2401.01918v2 )

ライセンス: Link先を確認
Haowen Zheng, Dong Cao, Jintao Xu, Rui Ai, Weihao Gu, Yang Yang, Yanyan Liang(参考訳) 精度と効率のバランスを取ることは、鳥の目視(BEV)3次元物体検出において顕著な課題となる。 従来のカメラベースのBEV手法は、長期の時間情報を組み込むことで優れた性能を発揮するが、そのほとんどは依然として低効率の問題に直面している。 一つの潜在的な解決策は知識蒸留である。 既存の蒸留法は、時間的知識を見越しながら、空間的特徴の再構築のみに焦点を当てている。 そこで本研究では,時間知識ディステレータであるTempDistillerを提案し,限られたフレーム数で教師検出器から長期記憶を取得する。 具体的には、特徴教師に適用されるセルフ・アテンション操作を通じて、長期の時間的知識を統合することで、復興目標を定式化する。 その後、ジェネレータを介して、マスク付き学生機能のための新機能が生成される。 最終的に,この再構成目標を用いて学生の特徴を再構築する。 また,学生モデルのためのフルフレーム入力時の時間的関係知識についても検討する。 提案手法の有効性を nuScenes ベンチマークで検証する。 実験により,本手法は,ベースラインに比べて+1.6 mAPおよび+1.1 NDSの増大,時間的知識の圧縮による約6 FPSの速度向上,そして最も正確な速度推定が得られることを示した。

Striking a balance between precision and efficiency presents a prominent challenge in the bird's-eye-view (BEV) 3D object detection. Although previous camera-based BEV methods achieved remarkable performance by incorporating long-term temporal information, most of them still face the problem of low efficiency. One potential solution is knowledge distillation. Existing distillation methods only focus on reconstructing spatial features, while overlooking temporal knowledge. To this end, we propose TempDistiller, a Temporal knowledge Distiller, to acquire long-term memory from a teacher detector when provided with a limited number of frames. Specifically, a reconstruction target is formulated by integrating long-term temporal knowledge through self-attention operation applied to feature teachers. Subsequently, novel features are generated for masked student features via a generator. Ultimately, we utilize this reconstruction target to reconstruct the student features. In addition, we also explore temporal relational knowledge when inputting full frames for the student model. We verify the effectiveness of the proposed method on the nuScenes benchmark. The experimental results show our method obtain an enhancement of +1.6 mAP and +1.1 NDS compared to the baseline, a speed improvement of approximately 6 FPS after compressing temporal knowledge, and the most accurate velocity estimation.
翻訳日:2024-01-09 21:12:31 公開日:2024-01-08
# De-Hallucinator: LLMベースのコード補完のための反復的なグラウンド

De-Hallucinator: Iterative Grounding for LLM-Based Code Completion ( http://arxiv.org/abs/2401.01701v2 )

ライセンス: Link先を確認
Aryaz Eghbali, Michael Pradel(参考訳) 公開ソースコードのデータセットでトレーニングされた大規模言語モデル(llm)は、コード補完の新たな最先端を確立した。 しかし、これらのモデルは、ほとんどが特定のプロジェクト内に存在するコードを知らないため、モデルが既存のapiをうまく利用できない。 代わりにllmは、存在しないapiを発明したり、すでに存在するコードの変種を作ったりすることが多い。 API情報はIDEで利用できるが、LLMの入力サイズ制限は、コード補完技術が関連するすべてのコンテキストをプロンプトに含めるのを防ぐ。 本稿では, LLMに基づくコード補完手法であるDe-Hallucinatorについて, 適切なAPI参照を検索し, より適切なコンテキスト情報でモデルを反復的にクエリすることで, モデルの予測を基礎とする手法を提案する。 このアプローチは、llmが望ましい補完によく似たコードを予測しているが、すでに存在するapiを正確に参照できないという観察を生かしている。 De-Hallucinatorは、コードプレフィックスとモデルの初期予測に関連するプロジェクト固有のAPI参照を自動的に識別し、これらの参照をプロンプトに追加する。 我々の評価は、オープンソースのPythonプロジェクトでのAPI使用率を予測するタスクにアプローチを適用します。 De-Hallucinatorは、カーソル前のコードだけでモデルをクエリするのに比べて、4つの最先端LCMで予測されたコードを改善する。 特に,提案手法は,予測コードの編集距離を23~51%改善し,予測されたAPI使用率をベースラインに対して24~61%改善する。

Large languages models (LLMs) trained on datasets of publicly available source code have established a new state-of-the-art in code completion. However, these models are mostly unaware of the code that already exists within a specific project, preventing the models from making good use of existing APIs. Instead, LLMs often invent, or "hallucinate", non-existent APIs or produce variants of already existing code. Although the API information is available to IDEs, the input size limit of LLMs prevents code completion techniques from including all relevant context into the prompt. This paper presents De-Hallucinator, an LLM-based code completion technique that grounds the predictions of a model through a novel combination of retrieving suitable API references and iteratively querying the model with increasingly suitable context information in the prompt. The approach exploits the observation that LLMs often predict code that resembles the desired completion, but that fails to correctly refer to already existing APIs. De-Hallucinator automatically identifies project-specific API references related to the code prefix and to the model's initial predictions and adds these references into the prompt. Our evaluation applies the approach to the task of predicting API usages in open-source Python projects. We show that De-Hallucinator consistently improves the predicted code across four state-of-the-art LLMs compared to querying the model only with the code before the cursor. In particular, the approach improves the edit distance of the predicted code by 23-51% and the recall of correctly predicted API usages by 24-61% relative to the baseline.
翻訳日:2024-01-09 21:11:59 公開日:2024-01-08
# AIGCBench: AIが生成した画像間コンテンツの総合評価

AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated by AI ( http://arxiv.org/abs/2401.01651v2 )

ライセンス: Link先を確認
Fanda Fan, Chunjie Luo, Wanling Gao, Jianfeng Zhan(参考訳) 人工知能生成コンテンツ(AIGC)の急成長する分野は、特にビデオ生成において急速に進歩している。 本稿では,画像対ビデオ(i2v)生成に重点を置き,様々な映像生成タスクを評価するための総合的・スケーラブルなベンチマークであるaigcbenchについて述べる。 AIGCBenchは、同等条件下で異なる最先端アルゴリズムを評価するさまざまなオープンドメインの画像テキストデータセットを含めることで、多様なデータセットの不足に悩まされる既存のベンチマークの制限に取り組む。 我々は、リッチテキストプロンプトを作成するために、新しいテキストコンバインダーとGPT-4を使用し、高度なテキスト・ツー・イメージモデルを用いて画像を生成する。 ビデオ生成タスクの統一評価フレームワークを確立するため,ベンチマークでは,アルゴリズムの性能を評価するために,4次元にまたがる11のメトリクスを含む。 これらの次元は、制御ビデオアライメント、モーションエフェクト、時間的一貫性、ビデオ品質である。 これらの指標は、参照ビデオ依存とビデオフリーの両方であり、包括的な評価戦略を確実にする。 提案した評価基準は人間の判断とよく相関し、現在のI2Vアルゴリズムの強みと弱みに関する洞察を提供する。 本研究はI2V分野におけるさらなる研究・開発を促進することを目的としている。 AIGCBenchは、より広範なAIGCランドスケープのための標準化されたベンチマークを作成するための重要なステップであり、ビデオ生成タスクの将来の評価に適応可能で公平なフレームワークを提案する。 私たちは、プロジェクトwebサイトでデータセットと評価コードをオープンソース化した。

The burgeoning field of Artificial Intelligence Generated Content (AIGC) is witnessing rapid advancements, particularly in video generation. This paper introduces AIGCBench, a pioneering comprehensive and scalable benchmark designed to evaluate a variety of video generation tasks, with a primary focus on Image-to-Video (I2V) generation. AIGCBench tackles the limitations of existing benchmarks, which suffer from a lack of diverse datasets, by including a varied and open-domain image-text dataset that evaluates different state-of-the-art algorithms under equivalent conditions. We employ a novel text combiner and GPT-4 to create rich text prompts, which are then used to generate images via advanced Text-to-Image models. To establish a unified evaluation framework for video generation tasks, our benchmark includes 11 metrics spanning four dimensions to assess algorithm performance. These dimensions are control-video alignment, motion effects, temporal consistency, and video quality. These metrics are both reference video-dependent and video-free, ensuring a comprehensive evaluation strategy. The evaluation standard proposed correlates well with human judgment, providing insights into the strengths and weaknesses of current I2V algorithms. The findings from our extensive experiments aim to stimulate further research and development in the I2V field. AIGCBench represents a significant step toward creating standardized benchmarks for the broader AIGC landscape, proposing an adaptable and equitable framework for future assessments of video generation tasks. We have open-sourced the dataset and evaluation code on the project website: https://www.benchcouncil.org/AIGCBench.
翻訳日:2024-01-09 21:11:15 公開日:2024-01-08
# SCALA:分散ネットワーク上の異常検出のためのスパシフィケーションに基づくコントラスト学習

SCALA: Sparsification-based Contrastive Learning for Anomaly Detection on Attributed Networks ( http://arxiv.org/abs/2401.01625v2 )

ライセンス: Link先を確認
Enbo He, Yitong Hao, Yue Zhang, Guisheng Yin and Lina Yao(参考訳) 属性付きネットワーク上の異常検出は、他の多数ノードと大きく異なる振る舞いを持つノードを見つけることを目的としている。 一般に、ネットワークデータはエンティティ間の関係に関する情報を含み、異常は通常これらの関係に具体化される。 したがって、ネットワーク内の複雑な相互作用パターンを包括的にモデル化する方法は、依然として大きな焦点である。 ネットワークの異常がホモフィリー仮定に違反していることは観察できる。 しかし、既存の研究の多くは、この現象を明示的にではなく斜めにしか考えていない。 さらに、異常ノードが導入したノイズ関係により、通常のエンティティのノード表現が容易に摂動できる。 そこで本研究では,ネットワークの組込み品質を向上させることを目的とした,属性付きネットワーク上の異常検出のための新しいコントラスト学習フレームワークである \textbf{scala} を提案する。 5つのベンチマーク実世界のデータセットで大規模な実験が行われ、結果はSCALAがすべてのベースライン手法を大幅に上回っていることを示している。

Anomaly detection on attributed networks aims to find the nodes whose behaviors are significantly different from other majority nodes. Generally, network data contains information about relationships between entities, and the anomaly is usually embodied in these relationships. Therefore, how to comprehensively model complex interaction patterns in networks is still a major focus. It can be observed that anomalies in networks violate the homophily assumption. However, most existing studies only considered this phenomenon obliquely rather than explicitly. Besides, the node representation of normal entities can be perturbed easily by the noise relationships introduced by anomalous nodes. To address the above issues, we present a novel contrastive learning framework for anomaly detection on attributed networks, \textbf{SCALA}, aiming to improve the embedding quality of the network and provide a new measurement of qualifying the anomaly score for each node by introducing sparsification into the conventional method. Extensive experiments are conducted on five benchmark real-world datasets and the results show that SCALA consistently outperforms all baseline methods significantly.
翻訳日:2024-01-09 21:10:51 公開日:2024-01-08
# フェデレート蒸留におけるロジット中毒

Logits Poisoning Attack in Federated Distillation ( http://arxiv.org/abs/2401.03685v1 )

ライセンス: Link先を確認
Yuhan Tang, Zhiyuan Wu, Bo Gao, Tian Wen, Yuwei Wang, Sheng Sun(参考訳) フェデレート蒸留(Federated Distillation、FD)は、フェデレーション学習において、より効率的で柔軟なクロスデバイス知識伝達を促進するために知識蒸留を活用する、新しくて有望な分散機械学習パラダイムである。 知識蒸留で局所モデルを最適化することにより、FDは大規模モデルパラメータを中央サーバにアップロードし、ローカルクライアントの生データを同時に保存する必要性を回避する。 FDの人気は高まっているが、この枠組みにおける毒殺事件の探索に関する以前の研究には顕著なギャップがある。 これにより、潜在的な敵行動に対する脆弱性の理解が薄れてしまう可能性がある。 この目的のために,本研究ではFDLAについて紹介する。 FDLAはFDにおけるロジット通信を操作し、プライベートサンプルの識別を誤解させ、クライアントのモデル性能を著しく低下させることを目的としている。 様々なデータセット、攻撃シナリオ、FD構成の広範なシミュレーション実験を通じて、LPAがクライアントモデルの精度を効果的に妥協し、この点において確立されたベースラインアルゴリズムより優れていることを示す。 以上の結果から,FD設定における堅牢な防御機構の必要性が示唆された。

Federated Distillation (FD) is a novel and promising distributed machine learning paradigm, where knowledge distillation is leveraged to facilitate a more efficient and flexible cross-device knowledge transfer in federated learning. By optimizing local models with knowledge distillation, FD circumvents the necessity of uploading large-scale model parameters to the central server, simultaneously preserving the raw data on local clients. Despite the growing popularity of FD, there is a noticeable gap in previous works concerning the exploration of poisoning attacks within this framework. This can lead to a scant understanding of the vulnerabilities to potential adversarial actions. To this end, we introduce FDLA, a poisoning attack method tailored for FD. FDLA manipulates logit communications in FD, aiming to significantly degrade model performance on clients through misleading the discrimination of private samples. Through extensive simulation experiments across a variety of datasets, attack scenarios, and FD configurations, we demonstrate that LPA effectively compromises client model accuracy, outperforming established baseline algorithms in this regard. Our findings underscore the critical need for robust defense mechanisms in FD settings to mitigate such adversarial threats.
翻訳日:2024-01-09 18:06:08 公開日:2024-01-08
# スキルギャップのブリッジ:プロトコル化された治療の共感的提供を伴うケアプロバイダを支援するAI支援プロバイダプラットフォームの評価

Bridging the Skills Gap: Evaluating an AI-Assisted Provider Platform to Support Care Providers with Empathetic Delivery of Protocolized Therapy ( http://arxiv.org/abs/2401.03631v1 )

ライセンス: Link先を確認
William R. Kearns, Jessica Bertram, Myra Divina, Lauren Kemp, Yinzhou Wang, Alex Marin, Trevor Cohen, Weichao Yuwen(参考訳) 精神的健康状態の有病率や負担が高いにもかかわらず、心的健康提供者が世界的に不足している。 ai(artificial intelligence, 人工知能)の手法はこの不足に対処する方法として提案されている。 そこで我々は,テキストベースの仮想セラピーインタフェースであるai-assisted provider platform (a2p2) を開発した。 メンタルヘルス治療の専門知識のない提供者を対象に,ai支援機能のない(介入)プラットフォームを用いたセラピーセッションの実施について検討した。 評価すると、ai支援システムは、応答時間を29.34%(p=0.002)、共感応答精度を3倍(p=0.0001)、ゴール推奨精度を66.67%(p=0.001)向上させた。 どちらのグループもシステムが優れたユーザビリティを持つと評価した。

Despite the high prevalence and burden of mental health conditions, there is a global shortage of mental health providers. Artificial Intelligence (AI) methods have been proposed as a way to address this shortage, by supporting providers with less extensive training as they deliver care. To this end, we developed the AI-Assisted Provider Platform (A2P2), a text-based virtual therapy interface that includes a response suggestion feature, which supports providers in delivering protocolized therapies empathetically. We studied providers with and without expertise in mental health treatment delivering a therapy session using the platform with (intervention) and without (control) AI-assistance features. Upon evaluation, the AI-assisted system significantly decreased response times by 29.34% (p=0.002), tripled empathic response accuracy (p=0.0001), and increased goal recommendation accuracy by 66.67% (p=0.001) across both user groups compared to the control. Both groups rated the system as having excellent usability.
翻訳日:2024-01-09 18:05:47 公開日:2024-01-08
# 大規模言語モデルによるマルチエージェントパス探索が成功していない理由

Why Solving Multi-agent Path Finding with Large Language Model has not Succeeded Yet ( http://arxiv.org/abs/2401.03630v1 )

ライセンス: Link先を確認
Weizhe Chen, Sven Koenig, Bistra Dilkina(参考訳) ChatGPTやGPT-4のような大規模言語モデル(LLM)の成功によって引き起こされた爆発的な影響により、近年、基礎モデルが様々なタスクを解くために利用できることを示す研究が数多く行われている。 しかし、マルチエージェント計画に関する洞察を共有する作業は非常に限られている。 マルチエージェント計画は他のドメインと異なり、マルチエージェント調整と計画の難しさを組み合わせ、必要な推論を容易にするために外部ツールを活用することが困難になる。 本稿では,マルチロボット経路計画(Multi-robot route planning)として知られるMAPF問題に着目し,LLMを用いたMAPFの解法について検討する。 まず、障害物のない空の部屋マップにモチベーションの高い成功を示し、それから少し難しい部屋マップの計画に失敗します。 LLMを用いたMAPFの直接解法がまだ成功していない理由の仮説を提示する。

With the explosive influence caused by the success of large language models (LLM) like ChatGPT and GPT-4, there has been an extensive amount of recent work showing that foundation models can be used to solve a large variety of tasks. However, there is very limited work that shares insights on multi-agent planning. Multi-agent planning is different from other domains by combining the difficulty of multi-agent coordination and planning, and making it hard to leverage external tools to facilitate the reasoning needed. In this paper, we focus on the problem of multi-agent path finding (MAPF), which is also known as multi-robot route planning, and study how to solve MAPF with LLMs. We first show the motivating success on an empty room map without obstacles, then the failure to plan on a slightly harder room map. We present our hypothesis of why directly solving MAPF with LLMs has not been successful yet, and we use various experiments to support our hypothesis.
翻訳日:2024-01-09 18:05:25 公開日:2024-01-08
# 外傷性脳損傷診断と予後診断における機械学習の応用 : 軽度TBIとCT画像のスポットライト

Machine Learning Applications in Traumatic Brain Injury Diagnosis and Prognosis: A Spotlight on Mild TBI and CT Imaging ( http://arxiv.org/abs/2401.03621v1 )

ライセンス: Link先を確認
Hanem Ellethy, Shekhar S. Chandra, and Viktor Vegh(参考訳) 外傷性脳損傷(TBI)は、世界的な公衆衛生上の大きな課題となり、高い死亡率と死亡率をもたらし、世界中の医療システムに重大な経済的負担を負う。 TBIの診断と予後は、CTスキャナーを用いてしばしば取得される臨床データと画像データの組み合わせに依存している。 TBIによって引き起こされる多面的課題に対処するには、この複雑な状態に対して革新的なデータ駆動アプローチが必要である。 そこで本研究では,TBIにおける臨床・画像に応用される最先端機械学習(ML)と深層学習(DL)技術について,特に軽度TBI(mTBI)に焦点を当てて概説する。 MLおよびDL技法の豊富なスペクトルを探索し,そのTBIへの影響を明らかにする。 MLとDLメソッドをTBI重大度で分類し,mTBIおよび中程度のTBIシナリオでその適用例を示す。 最後に,mTBI診断におけるMLとDLの役割を強調し,従来の手法が不足することが多く,TBIにおけるCTベースのML応用の可能性についてコメントする。 このレビューは、TBIの診断と予後を改善することを目的とした将来の研究のインスピレーションの源となるかもしれない。

Traumatic Brain Injury (TBI) poses a significant global public health challenge, contributing to high morbidity and mortality rates and placing a substantial economic burden on healthcare systems worldwide. The diagnosis and prognosis of TBI relies on a combination of clinical and imaging data often acquired using a Computed Tomography (CT) scanner. Addressing the multifaceted challenges posed by TBI requires innovative, data-driven approaches, for this complex condition. As such, we provide a summary of the state-of-the-art Machine Learning (ML) and Deep Learning (DL) techniques applied to clinical and images in TBI, with a particular focus on mild TBI (mTBI). We explore the rich spectrum of ML and DL techniques used and highlight their impact in TBI . We categorize ML and DL methods by TBI severity and showcase their application in mTBI and moderate-to-severe TBI scenarios. Finally, we emphasize the role of ML and DL in mTBI diagnosis, where conventional methods often fall short, and comment on the potential of CT-based ML applications in TBI. This review may serve as a source of inspiration for future research endeavours aimed at improving the diagnosis and prognosis of TBI.
翻訳日:2024-01-09 18:05:07 公開日:2024-01-08
# AA-DLADMM: ディープニューラルネットワークをトレーニングするための高速化ADMMベースのフレームワーク

AA-DLADMM: An Accelerated ADMM-based Framework for Training Deep Neural Networks ( http://arxiv.org/abs/2401.03619v1 )

ライセンス: Link先を確認
Zeinab Ebrahimi, Gustavo Batista and Mohammad Deghat(参考訳) 確率勾配勾配(SGD)とその多くの変種は、ディープニューラルネットワークを訓練するための広範な最適化アルゴリズムである。 しかし、SGDは、勾配の消失、理論的保証の欠如、入力に対するかなりの感度など、避けられない欠点に悩まされている。 勾配に基づく手法の効果的な代替として, 乗算器の交互方向法(admm)が提案されている。 ディープニューラルネットワークのトレーニングに成功している。 しかし、ADMMベースのオプティマイザは収束速度が遅い。 本稿では,この欠点に対処するため,Anderson Acceleration for Deep Learning ADMM (AA-DLADMM)アルゴリズムを提案する。 AA-DLADMMアルゴリズムの主な目的は、アンダーソン加速度をADMMに採用することであり、固定点反復として考慮し、ほぼ2次収束率に達することである。 本研究では,AA-DLADMMアルゴリズムの有効性と効率を,他の最先端最適化アルゴリズムとは対照的に4つのベンチマークデータセットに対して広範な実験を行うことにより検証する。

Stochastic gradient descent (SGD) and its many variants are the widespread optimization algorithms for training deep neural networks. However, SGD suffers from inevitable drawbacks, including vanishing gradients, lack of theoretical guarantees, and substantial sensitivity to input. The Alternating Direction Method of Multipliers (ADMM) has been proposed to address these shortcomings as an effective alternative to the gradient-based methods. It has been successfully employed for training deep neural networks. However, ADMM-based optimizers have a slow convergence rate. This paper proposes an Anderson Acceleration for Deep Learning ADMM (AA-DLADMM) algorithm to tackle this drawback. The main intention of the AA-DLADMM algorithm is to employ Anderson acceleration to ADMM by considering it as a fixed-point iteration and attaining a nearly quadratic convergence rate. We verify the effectiveness and efficiency of the proposed AA-DLADMM algorithm by conducting extensive experiments on four benchmark datasets contrary to other state-of-the-art optimizers.
翻訳日:2024-01-09 18:04:44 公開日:2024-01-08
# スピンキューズおよび共振器非線形性によるスピンキュービットの高速・高忠実分散読み出し

Fast and high-fidelity dispersive readout of a spin qubit via squeezing and resonator nonlinearity ( http://arxiv.org/abs/2401.03617v1 )

ライセンス: Link先を確認
Chon-Fai Kam and Xuedong Hu(参考訳) 高速かつ高忠実な量子ビット測定は、普遍量子コンピューティングの発展における基本的な要素である量子エラー補正を達成するために不可欠である。 電子スピン量子ビットの場合、高速読み出しは誤り訂正の追求において大きな障害となっている。 本研究では、非線形マイクロ波共振器に結合した半導体二重量子ドットにおけるスピンの分散測定について検討する。 置換真空状態を利用して,半導体スピン量子ビットの高速かつ高忠実な読み出しを実現する。 以上の結果より, 信号対雑音比 (SNR) とqubit-statereadoutの忠実度を両立させることができることがわかった。 スクイーズ、非線形強度、局所振動子の位相を適切に進行させることで、最適な読み出し時間をサブミクロ秒範囲に短縮することができる。 現在の技術パラメータ (\kappa\approx 2\chi_s$, $\chi_s\approx 2\pi\times 0.15 \:\mbox{MHz}$) では、30$の光子とモデストのスクイーズパラメータ $r\approx 0.6$ と、$\lambda\approx -1.2 \chi_s$ の強度を特徴とする非線形マイクロ波共振器を用いて、約 0.6\:\mu\mbox{s}$ の読み出し時間内に 9.8\% の読み出しフィリティを達成できる。 興味深いことに、正の非線形強度を$\lambda\approx 1.2\chi_s$とすることで、SNRが約6ドル、読み出しフィリティが約99.99\%$をわずかに後に達成でき、同じ設定で他の全てのパラメータを保ちながら、約0.9\:\mu\mbox{s}$にすることができる。

Fast and high-fidelity qubit measurement is crucial for achieving quantum error correction, a fundamental element in the development of universal quantum computing. For electron spin qubits, fast readout stands out as a major obstacle in the pursuit of error correction. In this work, we explore the dispersive measurement of an individual spin in a semiconductor double quantum dot coupled to a nonlinear microwave resonator. By utilizing displaced squeezed vacuum states, we achieve rapid and high-fidelity readout for semiconductor spin qubits. Our findings reveal that introducing modest squeezing and mild nonlinearity can significantly improve both the signal-to-noise ratio (SNR) and the fidelity of qubit-state readout. By properly marching the phases of squeezing, the nonlinear strength, and the local oscillator, the optimal readout time can be reduced to the sub-microsecond range. With current technology parameters ($\kappa\approx 2\chi_s$, $\chi_s\approx 2\pi\times 0.15 \:\mbox{MHz}$), utilizing a displaced squeezed vacuum state with $30$ photons and a modest squeezing parameter $r\approx 0.6$, along with a nonlinear microwave resonator charactered by a strength of $\lambda\approx -1.2 \chi_s$, a readout fidelity of $98\%$ can be attained within a readout time of around $0.6\:\mu\mbox{s}$. Intriguing, by using a positive nonlinear strength of $\lambda\approx 1.2\chi_s$, it is possible to achieve an SNR of approximately $6$ and a readout fidelity of $99.99\%$ at a slightly later time, around $0.9\:\mu\mbox{s}$, while maintaining all other parameters at the same settings.
翻訳日:2024-01-09 18:04:26 公開日:2024-01-08
# マッチングによる量子最大カット近似の改良

An improved Quantum Max Cut approximation via matching ( http://arxiv.org/abs/2401.03616v1 )

ライセンス: Link先を確認
Eunou Lee(参考訳) 与えられた量子ハミルトニアンの高(または低)エネルギー状態を見つけることは、証明可能かつ実用的な量子優位を得る可能性領域である。 最近の一連の研究は量子マックス切断に焦点を当てており、そこでは与えられた反強磁性ハイゼンベルクハミルトニアンの高エネルギー状態を求める。 本研究では,一般的な入力に対して0.584の近似比と0.595の三角形のない入力を与える量子マックスカットの古典近似アルゴリズムを提案し,Lie \cite{Lee22} (0.562,ジェネリック入力)とKing \cite{King22} (0.582,三角形なし入力)のアルゴリズムよりも優れた精度で性能を向上した。 このアルゴリズムは、入力グラフの最大重み付きマッチングを見つけ、以前の最良のアルゴリズムの完全な絡み合った出力状態よりも単純な、最大2量子ビット状態の積を出力する。

Finding a high (or low) energy state of a given quantum Hamiltonian is a potential area to gain a provable and practical quantum advantage. A line of recent studies focuses on Quantum Max Cut, where one is asked to find a high energy state of a given antiferromagnetic Heisenberg Hamiltonian. In this work, we present a classical approximation algorithm for Quantum Max Cut that achieves an approximation ratio of 0.584 given a generic input, and a ratio of 0.595 given a triangle-free input, outperforming the previous best algorithms of Lee \cite{Lee22} (0.562, generic input) and King \cite{King22} (0.582, triangle-free input). The algorithm is based on finding the maximum weighted matching of an input graph and outputs a product of at most 2-qubit states, which is simpler than the fully entangled output states of the previous best algorithms.
翻訳日:2024-01-09 18:03:39 公開日:2024-01-08
# mmac 2023における筋様黄斑の自動検出 : 分類・分節化・球面等価予測の成果

Automated Detection of Myopic Maculopathy in MMAC 2023: Achievements in Classification, Segmentation, and Spherical Equivalent Prediction ( http://arxiv.org/abs/2401.03615v1 )

ライセンス: Link先を確認
Yihao Li and Philippe Zhang and Yubo Tan and Jing Zhang and Zhihan Wang and Weili Jiang and Pierre-Henri Conze and Mathieu Lamard and Gwenol\'e Quellec and Mostafa El Habib Daho(参考訳) 近視性黄斑変性は、近視の最も一般的な合併症であり、病的近視者における視力喪失の主な原因である。 近視性黄斑症による視力障害の予防には早期発見と早期治療が不可欠である。 これは、MMAC(Myopic Maculopathy Analysis Challenge)の焦点であり、私たちが参加した。 課題1では、非ラベルデータからリッチな特徴を効果的に捉えて分類精度を高めるために、対照的な学習フレームワーク、特にSimCLRを用いた。 このアプローチは,本質的なデータ理解の向上だけでなく,分類モデルの性能向上にも寄与する。 第2タスク(筋萎縮と病変の分離)では,異なる病変分割作業に適した独立セグメンテーションモデルを開発し,モデルの性能をさらに向上するためのテストタイム増強戦略を実装した。 タスク3(球面等価性の予測)については,データセットのデータ分布に基づく深部回帰モデルを設計し,モデルの予測精度を高めるための統合戦略を採用した。 得られた結果は有望であり、分類タスクの上位6位、セグメンテーションタスクの上位2位、予測タスクの上位1位に位置づけることができた。 コードは \url{https://github.com/liyihao76/mmac_latim_solution} で入手できる。

Myopic macular degeneration is the most common complication of myopia and the primary cause of vision loss in individuals with pathological myopia. Early detection and prompt treatment are crucial in preventing vision impairment due to myopic maculopathy. This was the focus of the Myopic Maculopathy Analysis Challenge (MMAC), in which we participated. In task 1, classification of myopic maculopathy, we employed the contrastive learning framework, specifically SimCLR, to enhance classification accuracy by effectively capturing enriched features from unlabeled data. This approach not only improved the intrinsic understanding of the data but also elevated the performance of our classification model. For Task 2 (segmentation of myopic maculopathy plus lesions), we have developed independent segmentation models tailored for different lesion segmentation tasks and implemented a test-time augmentation strategy to further enhance the model's performance. As for Task 3 (prediction of spherical equivalent), we have designed a deep regression model based on the data distribution of the dataset and employed an integration strategy to enhance the model's prediction accuracy. The results we obtained are promising and have allowed us to position ourselves in the Top 6 of the classification task, the Top 2 of the segmentation task, and the Top 1 of the prediction task. The code is available at \url{https://github.com/liyihao76/MMAC_LaTIM_Solution}.
翻訳日:2024-01-09 18:03:23 公開日:2024-01-08
# データから洞察へ:甲状腺癌研究における高度な応用に関する包括的調査

From Data to Insights: A Comprehensive Survey on Advanced Applications in Thyroid Cancer Research ( http://arxiv.org/abs/2401.03722v1 )

ライセンス: Link先を確認
Xinyu Zhang, Vincent CS Lee, Feng Liu(参考訳) 最も多い内分泌癌である甲状腺癌は、公衆衛生への影響で世界的に注目されている。 この病気の早期発見に人工知能(AI)の手法を活用することに注力し、その死亡率の低減を目指している。 しかし、この分野における研究応用の構造的組織に関する包括的理解は、いまだ解明されていない。 この知見ギャップに対処するため, 甲状腺癌, 診断, 予後における機械学習応用の包括的分類法を体系的に検討し, 開発した。 我々の主な目的は、研究コミュニティが技術進歩を継続し、この分野の新たなトレンドを導く能力を促進することであった。 本研究は甲状腺癌研究における先進的手法を解釈するためのコヒーレント文献レビューフレームワークを提案する。 合計758の関連研究が特定され、精査された。 我々の知る限りでは、甲状腺がんの文脈で使用されるAI応用の様々な側面を詳細に分析する最初のレビューである。 さらに,本領域で直面する重要な課題を取り上げ,最新の研究動向や甲状腺癌研究の低次側面を探究する人々に対する今後の研究機会を提案する。 この総合的なレビューと分類を提示することにより、この分野の既存の知識に貢献するとともに、研究者、臨床医、ステークホルダーにこの病気の理解と管理を促進する上で貴重な洞察を提供する。

Thyroid cancer, the most prevalent endocrine cancer, has gained significant global attention due to its impact on public health. Extensive research efforts have been dedicated to leveraging artificial intelligence (AI) methods for the early detection of this disease, aiming to reduce its morbidity rates. However, a comprehensive understanding of the structured organization of research applications in this particular field remains elusive. To address this knowledge gap, we conducted a systematic review and developed a comprehensive taxonomy of machine learning-based applications in thyroid cancer pathogenesis, diagnosis, and prognosis. Our primary objective was to facilitate the research community's ability to stay abreast of technological advancements and potentially lead the emerging trends in this field. This survey presents a coherent literature review framework for interpreting the advanced techniques used in thyroid cancer research. A total of 758 related studies were identified and scrutinized. To the best of our knowledge, this is the first review that provides an in-depth analysis of the various aspects of AI applications employed in the context of thyroid cancer. Furthermore, we highlight key challenges encountered in this domain and propose future research opportunities for those interested in studying the latest trends or exploring less-investigated aspects of thyroid cancer research. By presenting this comprehensive review and taxonomy, we contribute to the existing knowledge in the field, while providing valuable insights for researchers, clinicians, and stakeholders in advancing the understanding and management of this disease.
翻訳日:2024-01-09 17:45:19 公開日:2024-01-08
# ジョイントライダートリップ計画とクルーシフトスケジューリングのためのグラフニューラルネットワークによるカラム生成

Boosting Column Generation with Graph Neural Networks for Joint Rider Trip Planning and Crew Shift Scheduling ( http://arxiv.org/abs/2401.03692v1 )

ライセンス: Link先を確認
Jiawei Lu, Tinghan Ye, Wenbo Chen, Pascal Van Hentenryck(参考訳) サービスのスケジュールを最適化することは、信頼性が高く、効率的で、包括的なオンデマンドモビリティに欠かせない。 この課題は、高齢化のニーズの増加、既存サービスの過剰な加入、効果的な解決方法の欠如によってさらに悪化している。 本研究は,複雑な動的移動サービスのための乗り継ぎ計画と乗務員スケジューリングを共同で最適化することで,サービススケジューリングの複雑さに対処する。 結果として生じる最適化問題は、最先端の手法では計算上極めて困難である。 このギャップを解消するために,本論文では,JRTPCSSP の最適解をリアルタイムに取得するために,コラム生成と機械学習を併用する AGGNNI-CG (Attention and Gated GNN- Informed Column Generation) と呼ばれる新しい解法を提案する。 機械学習コンポーネントのキーとなる考え方は、価格コンポーネントで探索するパスの数を劇的に減らし、列生成の最も時間を要するコンポーネントを加速することだ。 機械学習コンポーネントは、注目機構とゲートアーキテクチャを備えたグラフニューラルネットワークであり、特に日々の操作から得られるさまざまな入力サイズに対応するのに適している。 AGGNNI-CGは、ジョージア州チャタム郡のパラトランジットシステムからの挑戦的な実世界のデータセットに適用されている。 これは、通常、中規模と大規模の両方の複雑なインスタンスにおいて妥当な時間で実現可能なソリューションを生成できない、ベースライン列生成アプローチと比較して劇的な改善をもたらす。 aggnni-cgは既存のシステムに比べてサービスを大幅に改善している。

Optimizing service schedules is pivotal to the reliable, efficient, and inclusive on-demand mobility. This pressing challenge is further exacerbated by the increasing needs of an aging population, the over-subscription of existing services, and the lack of effective solution methods. This study addresses the intricacies of service scheduling, by jointly optimizing rider trip planning and crew scheduling for a complex dynamic mobility service. The resulting optimization problems are extremely challenging computationally for state-of-the-art methods. To address this fundamental gap, this paper introduces the Joint Rider Trip Planning and Crew Shift Scheduling Problem (JRTPCSSP) and a novel solution method, called AGGNNI-CG (Attention and Gated GNN- Informed Column Generation), that hybridizes column generation and machine learning to obtain near-optimal solutions to the JRTPCSSP with the real-time constraints of the application. The key idea of the machine-learning component is to dramatically reduce the number of paths to explore in the pricing component, accelerating the most time-consuming component of the column generation. The machine learning component is a graph neural network with an attention mechanism and a gated architecture, that is particularly suited to cater for the different input sizes coming from daily operations. AGGNNI-CG has been applied to a challenging, real-world dataset from the Paratransit system of Chatham County in Georgia. It produces dramatic improvements compared to the baseline column generation approach, which typically cannot produce feasible solutions in reasonable time on both medium-sized and large-scale complex instances. AGGNNI-CG also produces significant improvements in service compared to the existing system.
翻訳日:2024-01-09 17:44:54 公開日:2024-01-08
# 2023 ICON共有課題の概要 : 辞書言語におけるジェンダー付き乱用検出

Overview of the 2023 ICON Shared Task on Gendered Abuse Detection in Indic Languages ( http://arxiv.org/abs/2401.03677v1 )

ライセンス: Link先を確認
Aatman Vaidya, Arnav Arora, Aditya Joshi, Tarunima Prabhakar(参考訳) Indic Languages における Gendered Abuse Detection に関する ICON 2023 の知見を報告する。 共有タスクは、オンラインテキストにおける性差別の検出を扱う。 共有作業は、ヒンディー語、タミル語、インドの英語方言の斬新なデータセットに基づいて、イコン2023の一部として行われた。 参加者は、Twitterから送られてきた約6500の投稿からなる列車データセットで3つのサブタスクを与えられた。 テストセットには約1200のポストが提供された。 共有タスクは合計9回の登録を受けた。 最高のf-1スコアは、サブタスク1、0.572、サブタスク2、0.616、0.582である。 この論文は、その話題による憎悪コンテンツの例を含んでいる。

This paper reports the findings of the ICON 2023 on Gendered Abuse Detection in Indic Languages. The shared task deals with the detection of gendered abuse in online text. The shared task was conducted as a part of ICON 2023, based on a novel dataset in Hindi, Tamil and the Indian dialect of English. The participants were given three subtasks with the train dataset consisting of approximately 6500 posts sourced from Twitter. For the test set, approximately 1200 posts were provided. The shared task received a total of 9 registrations. The best F-1 scores are 0.616 for subtask 1, 0.572 for subtask 2 and, 0.616 and 0.582 for subtask 3. The paper contains examples of hateful content owing to its topic.
翻訳日:2024-01-09 17:44:27 公開日:2024-01-08
# AI生成コードの識別におけるAI検出器の評価:教育への影響

Assessing AI Detectors in Identifying AI-Generated Code: Implications for Education ( http://arxiv.org/abs/2401.03676v1 )

ライセンス: Link先を確認
Wei Hung Pan, Ming Jie Chok, Jonathan Leong Shan Wong, Yung Xin Shin, Yeong Shian Poon, Zhou Yang, Chun Yong Chong, David Lo, Mei Kuan Lim(参考訳) 教育者は、プログラミング教育におけるChatGPTのような大規模言語モデル(LLM)の使用、特に人工知能生成コンテンツ(AIGC)検出装置における欠陥の潜在的利用について、ますます懸念している。 本稿では,AIGC検出器による検出を回避しようとするLLMについて,実験的検討を行った。 これは、異なる変種を使用して与えられた質問に応答してコードを生成することで達成される。 我々は,5,069個のサンプルからなるデータセットを収集し,各サンプルは,符号化問題とその対応するPythonソリューションコードのテキスト記述からなる。 これらのサンプルは、Quescolの80、Kaggleの3,264、LeetCodeの1,725など、さまざまなソースから得られた。 データセットから13組のコード問題変動プロンプトを作成し、ChatGPTに出力を生成するように指示した。 その後,5つのAIGC検出器の性能評価を行った。 以上の結果から,既存のAIGCインテグレータは,人間の書き起こしたコードとAI生成したコードとの区別が不十分であることが示された。

Educators are increasingly concerned about the usage of Large Language Models (LLMs) such as ChatGPT in programming education, particularly regarding the potential exploitation of imperfections in Artificial Intelligence Generated Content (AIGC) Detectors for academic misconduct. In this paper, we present an empirical study where the LLM is examined for its attempts to bypass detection by AIGC Detectors. This is achieved by generating code in response to a given question using different variants. We collected a dataset comprising 5,069 samples, with each sample consisting of a textual description of a coding problem and its corresponding human-written Python solution codes. These samples were obtained from various sources, including 80 from Quescol, 3,264 from Kaggle, and 1,725 from LeetCode. From the dataset, we created 13 sets of code problem variant prompts, which were used to instruct ChatGPT to generate the outputs. Subsequently, we assessed the performance of five AIGC detectors. Our results demonstrate that existing AIGC Detectors perform poorly in distinguishing between human-written code and AI-generated code.
翻訳日:2024-01-09 17:44:16 公開日:2024-01-08
# コヒーレンス量子利益を用いた量子遠隔状態生成の効率的検出

Efficient Detection of Preparing Quantum Remote States Using Coherence Quantum Benefits ( http://arxiv.org/abs/2401.03674v1 )

ライセンス: Link先を確認
Yuan-Sung Liu, Shih-Hsuan Chen, Bing-Yuan Lee, Chan Hsu, Guang-Yin Chen, Yueh-Nan Chen, Che-Ming Li(参考訳) 送信者は、予め整合されたペアを使用してリモート受信機に対して量子状態を作成することができ、送信機は単一量子ビットの測定のみを行い、受信機は送信機から通知される単純な補正を行う。 量子情報に対する量子テレポーテーションよりも資源効率のよい利点を提供する。 本稿では、共有ペアの量子コヒーレンス静的リソースと、RSP参加者の入力の両方の動的リソースの量子的利点に基づいて、リモート状態準備(RSP)を検出するための最も効率的なアプローチを提案する。 RSPを検証するには、受信機の最低1つのコヒーレンス生成操作のみが必要となる。 本研究では,高品位偏光サーニャック干渉計から発生する異なる光子対状態を用いたrsp評価を行い,静的および動的量子コヒーレンスリソースが果たす必要十分の役割を確認し,効率的なrsp検証を行う。 この結果は,量子ネットワークにおける量子情報などの現実的なシナリオにおいて,RSPを効率的に評価するための経路を提供する。

A sender can prepare a quantum state for a remote receiver using preshared entangled pairs, only the sender's single-qubit measurement, and the receiver's simple correction informed by the sender. It provides resource-efficient advantages over quantum teleportation for quantum information. Here, we propose the most efficient approach to detect the remote state preparation (RSP) based on the quantum benefits powered by quantum coherence's static resources of the shared pairs and the dynamic resources both the RSP participants input. It requires only the receiver's minimum of one additional coherence creation operation to verify RSP. Experimentally, we implement the introduced RSP assessment using different photon pair states generated from a high-quality polarization Sagnac interferometer, confirming the necessary and sufficient role played by the static and dynamic quantum coherence resources and demonstrating efficient RSP verification. Our results provide a route to efficiently assess RSP in practical scenarios such as quantum information in quantum networks.
翻訳日:2024-01-09 17:43:54 公開日:2024-01-08
# 3次元医用画像分割のためのプリミティブ幾何セグメント事前学習

Primitive Geometry Segment Pre-training for 3D Medical Image Segmentation ( http://arxiv.org/abs/2401.03665v1 )

ライセンス: Link先を確認
Ryu Tadokoro, Ryosuke Yamada, Kodai Nakashima, Ryo Nakamura, Hirokatsu Kataoka(参考訳) 3次元医用画像データセットの構築は、データ収集に多大な財政的コストとアノテーションの専門知識を必要とすること、また、自然画像データセットと比較して患者の機密性に対する厳格なプライバシー上の懸念など、いくつかの問題を提示している。 そのため, 3次元医用画像分割において, 限られた3次元医用データと監督によるデータ効率のよい学習を実現するため, 課題となっている。 有望なアプローチは事前トレーニングであるが、既存の3次元医用画像データセットの小さいため、3次元医用画像セグメンテーションの性能向上は困難である。 そこで我々は,PrimGeoSeg(PrimGeoSeg)法を用いて,3次元医用画像セグメンテーションのための原始的幾何学的オブジェクトのみを用いて,セグメンテーションタスクを事前学習することで,3次元セグメンテーション特徴の学習を可能にする。 PrimGeoSegは手動のデータ収集やアノテーションなしでより正確で効率的な3D画像分割を行う。 さらに実験の結果、PrimGeoSeg on SwinUNETRはBTCV、MSD(Task06)、BraTSのデータセットをそれぞれ3.7%、4.4%、0.3%でスクラッチから学習し、パフォーマンスを改善していることがわかった。 注目すべきは、事前学習データの数に等しいにも関わらず、パフォーマンスは最先端の自己教師型学習と同等かそれ以上であったことだ。 実験結果から,プリミティブな幾何学的対象のみを調べることで,効果的な事前学習を実現することができると結論付けた。 コードとデータセットはhttps://github.com/SUPER-TADORY/PrimGeoSegで入手できる。

The construction of 3D medical image datasets presents several issues, including requiring significant financial costs in data collection and specialized expertise for annotation, as well as strict privacy concerns for patient confidentiality compared to natural image datasets. Therefore, it has become a pressing issue in 3D medical image segmentation to enable data-efficient learning with limited 3D medical data and supervision. A promising approach is pre-training, but improving its performance in 3D medical image segmentation is difficult due to the small size of existing 3D medical image datasets. We thus present the Primitive Geometry Segment Pre-training (PrimGeoSeg) method to enable the learning of 3D semantic features by pre-training segmentation tasks using only primitive geometric objects for 3D medical image segmentation. PrimGeoSeg performs more accurate and efficient 3D medical image segmentation without manual data collection and annotation. Further, experimental results show that PrimGeoSeg on SwinUNETR improves performance over learning from scratch on BTCV, MSD (Task06), and BraTS datasets by 3.7%, 4.4%, and 0.3%, respectively. Remarkably, the performance was equal to or better than state-of-the-art self-supervised learning despite the equal number of pre-training data. From experimental results, we conclude that effective pre-training can be achieved by looking at primitive geometric objects only. Code and dataset are available at https://github.com/SUPER-TADORY/PrimGeoSeg.
翻訳日:2024-01-09 17:43:35 公開日:2024-01-08
# 説明可能な属性と不確かさの定量化に基づくデュアルチャネル信頼乳房超音波画像分類

Dual-Channel Reliable Breast Ultrasound Image Classification Based on Explainable Attribution and Uncertainty Quantification ( http://arxiv.org/abs/2401.03664v1 )

ライセンス: Link先を確認
Shuge Lei, Haonan Hu, Dasheng Sun, Huabin Zhang, Kehong Yuan, Jian Dai, Jijun Tang, Yan Tong(参考訳) 本稿では乳房超音波画像の分類課題と分類結果の信頼性測定に関する研究について述べる。 提案する推定信頼性と予測信頼性スコアに基づくデュアルチャネル評価フレームワークを提案する。 推論信頼性評価には、改良された特徴属性アルゴリズムSP-RISAに基づいて、ヒトアライメントおよび医師アライメントされた推論論理を適用する。 不確実性定量化は、テストタイムエンハンスメントによる予測信頼性を評価するために使用される。 この信頼性評価フレームワークの有効性を胸部超音波臨床データセットYBUSで検証し,その堅牢性について公開データセットBUSIで検証した。 両データセットの予測校正誤差は従来の評価手法に比べて有意に低く,提案手法の有効性が証明された。

This paper focuses on the classification task of breast ultrasound images and researches on the reliability measurement of classification results. We proposed a dual-channel evaluation framework based on the proposed inference reliability and predictive reliability scores. For the inference reliability evaluation, human-aligned and doctor-agreed inference rationales based on the improved feature attribution algorithm SP-RISA are gracefully applied. Uncertainty quantification is used to evaluate the predictive reliability via the Test Time Enhancement. The effectiveness of this reliability evaluation framework has been verified on our breast ultrasound clinical dataset YBUS, and its robustness is verified on the public dataset BUSI. The expected calibration errors on both datasets are significantly lower than traditional evaluation methods, which proves the effectiveness of our proposed reliability measurement.
翻訳日:2024-01-09 17:43:08 公開日:2024-01-08
# ディープラーニングフレームワーク開発における仮定の自動識別に関する探索的研究

An exploratory study on automatic identification of assumptions in the development of deep learning frameworks ( http://arxiv.org/abs/2401.03653v1 )

ライセンス: Link先を確認
Chen Yanga, Peng Liang, Zinan Ma(参考訳) ステークホルダは、ディープラーニング(DL)フレームワークの開発において、常に仮定を行います。 これらの仮定は、様々な種類のソフトウェアアーティファクト(要求、設計決定、技術的負債など)と関連付けられており、システム障害につながる可能性がある。 既存の仮定管理のためのアプローチとツールは通常、仮定のマニュアル識別に依存する。 しかし、仮定はdlフレームワーク開発の様々なソース(例えば、コードコメント、コミット、プルリクエスト、問題)に分散しており、手動で仮定を特定することは高いコスト(例えば、時間とリソース)を持つ。 DLフレームワーク開発における仮定を手動で特定する問題を克服するため、GitHubのTensorFlowとKerasリポジトリから収集された仮定の新しい最大データセット(AssuEval)を構築し、AssuEvalデータセット上の仮定を特定するための7つの伝統的な機械学習モデル(例えば、サポートベクタマシン、分類と回帰ツリー)、人気のあるDLモデル(ALBERT)、大きな言語モデル(例えば、ChatGPT)のパフォーマンスを調査した。 ALBERTは、他のモデルよりもはるかに優れたAssuEvalデータセット上の仮定を特定する最高のパフォーマンス(f1スコア: 0.9584)を達成する(第2の最良のf1スコアは、ChatGPTによって達成された0.6211)。 ChatGPTは、最もポピュラーな大規模言語モデルであるが、タスクの性能が低いため、DLフレームワーク開発における仮定を特定するためにの使用は推奨しない。 仮定識別のための微調整ChatGPTは性能を向上する可能性がある。 この研究では、さらなる研究のための仮定データセット(仮定分類、評価、推論など)を研究者に提供し、実践者が仮定の理解を深め、プロジェクトでそれらを管理する方法を支援する。

Stakeholders constantly make assumptions in the development of deep learning (DL) frameworks. These assumptions are related to various types of software artifacts (e.g., requirements, design decisions, and technical debt) and can turn out to be invalid, leading to system failures. Existing approaches and tools for assumption management usually depend on manual identification of assumptions. However, assumptions are scattered in various sources (e.g., code comments, commits, pull requests, and issues) of DL framework development, and manually identifying assumptions has high costs (e.g., time and resources). To overcome the issues of manually identifying assumptions in DL framework development, we constructed a new and largest dataset (i.e., AssuEval) of assumptions collected from the TensorFlow and Keras repositories on GitHub; explored the performance of seven traditional machine learning models (e.g., Support Vector Machine, Classification and Regression Trees), a popular DL model (i.e., ALBERT), and a large language model (i.e., ChatGPT) of identifying assumptions on the AssuEval dataset. The experiment results show that: ALBERT achieves the best performance (f1-score: 0.9584) of identifying assumptions on the AssuEval dataset, which is much better than the other models (the 2nd best f1-score is 0.6211, achieved by ChatGPT). Though ChatGPT is the most popular large language model, we do not recommend using it to identify assumptions in DL framework development because of its low performance on the task. Fine-tuning ChatGPT specifically for assumption identification could improve the performance. This study provides researchers with the largest dataset of assumptions for further research (e.g., assumption classification, evaluation, and reasoning) and helps practitioners better understand assumptions and how to manage them in their projects.
翻訳日:2024-01-09 17:42:57 公開日:2024-01-08
# 機械的解釈性のための自動回路探索における脳誘発モジュールトレーニングの評価

Evaluating Brain-Inspired Modular Training in Automated Circuit Discovery for Mechanistic Interpretability ( http://arxiv.org/abs/2401.03646v1 )

ライセンス: Link先を確認
Jatin Nainani(参考訳) 大規模言語モデル(LLM)はAIの急速な増加を経験し、その高度な能力で幅広いアプリケーションを変更している。 これらのモデルが意思決定にますます不可欠になるにつれて、徹底的な解釈可能性の必要性は決して重要ではない。 機械的な解釈性は、複雑なシステム内の特定のサブネットワークや「回路」を同定し分析することで、この理解への経路を提供する。 このアプローチの重要な側面はAutomated Circuit Discoveryであり、GPT4やLLAMAのような大型モデルの研究を実現可能な方法で促進する。 本研究では、ニューラルネットワークの解釈可能性を高めるために、最近の方法であるBIMT(Brain-Inspired Modular Training)を評価する。 本稿では,BIMTが自動回路発見の効率と品質を著しく向上し,手作業による手法の限界を克服することを示す。 我々の比較分析により、BIMTは回路品質、発見時間、スパーシリティの点で既存のモデルより優れていることが明らかになった。 さらに、トレーニング時間、メモリ割り当て要求、推論速度などの側面を含むBIMTの総合的な計算分析を提供する。 この研究は、信頼できる透明なAIシステムを構築するという大きな目標を推し進め、BIMTがいかにニューラルネットワークをより理解しやすいかを示す。

Large Language Models (LLMs) have experienced a rapid rise in AI, changing a wide range of applications with their advanced capabilities. As these models become increasingly integral to decision-making, the need for thorough interpretability has never been more critical. Mechanistic Interpretability offers a pathway to this understanding by identifying and analyzing specific sub-networks or 'circuits' within these complex systems. A crucial aspect of this approach is Automated Circuit Discovery, which facilitates the study of large models like GPT4 or LLAMA in a feasible manner. In this context, our research evaluates a recent method, Brain-Inspired Modular Training (BIMT), designed to enhance the interpretability of neural networks. We demonstrate how BIMT significantly improves the efficiency and quality of Automated Circuit Discovery, overcoming the limitations of manual methods. Our comparative analysis further reveals that BIMT outperforms existing models in terms of circuit quality, discovery time, and sparsity. Additionally, we provide a comprehensive computational analysis of BIMT, including aspects such as training duration, memory allocation requirements, and inference speed. This study advances the larger objective of creating trustworthy and transparent AI systems in addition to demonstrating how well BIMT works to make neural networks easier to understand.
翻訳日:2024-01-09 17:42:23 公開日:2024-01-08
# 学術出版物のコンテンツに基づく新規性尺度:概念実証

A Content-Based Novelty Measure for Scholarly Publications: A Proof of Concept ( http://arxiv.org/abs/2401.03642v1 )

ライセンス: Link先を確認
Haining Wang(参考訳) 進化における遺伝子変異に似た新規性は、科学的進歩の可能性を開く。 学術的なコミュニケーションと資源配分のノベルティを評価するための金の基準であるピアレビューにもかかわらず、膨大な量の提出は科学ノベルティの自動化を必要とする。 既存の知識の非典型的組み合わせとしてノベルティを捉える視点を取り入れ,学術出版物にノベルティの情報理論尺度を導入する。 この尺度は、科学的な談話の分布を表す言語モデルによって認識される「サプライズ」の程度によって定量化される。 前者は科学的常識に対応することを示し、後者はドメイン専門家の選抜パネルによる新規性評価と一致して支持される。 さらに、その解釈可能性、粒度、アクセシビリティによって特徴づけられるこの測定は、既存の手法でよく見られるギャップに対処する。 我々は、この尺度が編集者、利害関係者、政策立案者に大きな利益をもたらすと信じており、創造性、学際性、科学的進歩など、新奇性と科学的ダイナミクスの関係を調べるための自信あるレンズを提供する。

Novelty, akin to gene mutation in evolution, opens possibilities for scientific advancement. Despite peer review being the gold standard for evaluating novelty in scholarly communication and resource allocation, the vast volume of submissions necessitates an automated measure of scientific novelty. Adopting a perspective that views novelty as the atypical combination of existing knowledge, we introduce an information-theoretic measure of novelty in scholarly publications. This measure is quantified by the degree of `surprise' perceived by a language model that represents the distribution of scientific discourse. The proposed measure is accompanied by face and construct validity evidence; the former demonstrates correspondence to scientific common sense, and the latter is endorsed through alignments with novelty evaluations from a select panel of domain experts. Additionally, characterized by its interpretability, fine granularity, and accessibility, this measure addresses gaps prevalent in existing methods. We believe this measure holds great potential to benefit editors, stakeholders, and policymakers, and it provides a confident lens for examining the relationship between novelty and scientific dynamics such as creativity, interdisciplinarity, scientific advances, and more.
翻訳日:2024-01-09 17:42:00 公開日:2024-01-08
# DME-Driver:自律運転における人間の決定論理と3次元シーン知覚の統合

DME-Driver: Integrating Human Decision Logic and 3D Scene Perception in Autonomous Driving ( http://arxiv.org/abs/2401.03641v1 )

ライセンス: Link先を確認
Wencheng Han, Dongqian Guo, Cheng-Zhong Xu, Jianbing Shen(参考訳) 自律運転の分野では、自律運転システムの2つの重要な特徴は、決定論理の説明可能性と環境認識の精度である。 本稿では、自律運転システムの性能と信頼性を高める新しい自動運転システムであるDME-Driverを紹介する。 DME-Driverは、意思決定者として強力な視覚言語モデル、制御信号生成者として計画指向認識モデルを利用する。 説明可能かつ信頼性の高い運転決定を保証するため、論理的意思決定者は、大きな視覚言語モデルに基づいて構築される。 このモデルは経験豊富な人間ドライバーが採用する論理に従い、同様の方法で意思決定を行う。 一方で、正確な制御信号の生成は、3dシーンの知覚モデルが優れている精密で詳細な環境知覚に依存する。 そのため、信号発生器として計画指向認識モデルを用いる。 意思決定者が行う論理的判断を、自動運転車の正確な制御信号に変換する。 提案モデルを効果的に訓練するために,自動運転のための新しいデータセットを開発した。 このデータセットは、さまざまな人間の運転行動とその基礎となる動機を含んでいる。 このデータセットを活用することで,論理的な思考プロセスを通じて高精度な計画精度を実現する。

In the field of autonomous driving, two important features of autonomous driving car systems are the explainability of decision logic and the accuracy of environmental perception. This paper introduces DME-Driver, a new autonomous driving system that enhances the performance and reliability of autonomous driving system. DME-Driver utilizes a powerful vision language model as the decision-maker and a planning-oriented perception model as the control signal generator. To ensure explainable and reliable driving decisions, the logical decision-maker is constructed based on a large vision language model. This model follows the logic employed by experienced human drivers and makes decisions in a similar manner. On the other hand, the generation of accurate control signals relies on precise and detailed environmental perception, which is where 3D scene perception models excel. Therefore, a planning oriented perception model is employed as the signal generator. It translates the logical decisions made by the decision-maker into accurate control signals for the self-driving cars. To effectively train the proposed model, a new dataset for autonomous driving was created. This dataset encompasses a diverse range of human driver behaviors and their underlying motivations. By leveraging this dataset, our model achieves high-precision planning accuracy through a logical thinking process.
翻訳日:2024-01-09 17:41:40 公開日:2024-01-08
# 視覚神経補綴のための深層学習

Deep Learning for Visual Neuroprosthesis ( http://arxiv.org/abs/2401.03639v1 )

ライセンス: Link先を確認
Peter Beech, Shanshan Jia, Zhaofei Yu, Jian K. Liu(参考訳) 視覚経路は、視覚情報の符号化と処理に寄与する細胞と領域の複雑なネットワークを含んでいる。 視覚知覚のいくつかの側面は理解されているが、視覚エンコーディングの正確なメカニズムと経路に沿った視覚情報の組織化に関して、まだ多くの未解決の疑問がある。 本章では,視覚情報がどのようにエンコードされ,脳で表現されるかを理解する上で,視覚知覚の重要性と課題について論じる。 身体機能の強化や置換のために設計されたデバイスであり、そのようなデバイスの実装において視覚経路の計算モデルを構築することの重要性を強調している。 ディープラーニングモデルを用いたこれらのモデルのいくつかを概説し、視覚的コーディングと自然な視覚を理解する上での価値について論じる。

The visual pathway involves complex networks of cells and regions which contribute to the encoding and processing of visual information. While some aspects of visual perception are understood, there are still many unanswered questions regarding the exact mechanisms of visual encoding and the organization of visual information along the pathway. This chapter discusses the importance of visual perception and the challenges associated with understanding how visual information is encoded and represented in the brain. Furthermore, this chapter introduces the concept of neuroprostheses: devices designed to enhance or replace bodily functions, and highlights the importance of constructing computational models of the visual pathway in the implementation of such devices. A number of such models, employing the use of deep learning models, are outlined, and their value to understanding visual coding and natural vision is discussed.
翻訳日:2024-01-09 17:41:26 公開日:2024-01-08
# グラフメッセージ拡張によるグラフコントラスト学習の統一

Unifying Graph Contrastive Learning via Graph Message Augmentation ( http://arxiv.org/abs/2401.03638v1 )

ライセンス: Link先を確認
Ziyan Zhang, Bo Jiang, Jin Tang and Bin Luo(参考訳) グラフコントラスト学習は通常、まずグラフデータ拡張(GDA)を実行し、次にGNNのトレーニングにコントラスト学習パイプラインを使用する。 GDAはグラフの対照的な学習にとって重要な問題です。 近年, エッジ, ノード, ノード属性, エッジ属性のドロップや摂動など, 様々なGDAが開発されている。 しかし、我々の知る限りでは、異なる種類のグラフデータに適した、普遍的で効果的な拡張子がない。 本稿では,まず,グラフデータのグラフメッセージ表現について述べる。 そこで我々は,既存の多くのGDAを統一する汎用的スキームであるグラフメッセージ拡張(GMA)を提案する。 提案した統合GMAは、既存の多くのGDAを理解するための新たな視点を提供するだけでなく、グラフ自己教師型学習タスクのための普遍的で効果的なグラフデータ拡張を提供する。 さらに、GMAは、画像には自然だが、グラフには難題であるmixup Augmentorを実装する簡単な方法を導入している。 提案するgmaに基づいて,グラフコントラスト学習のための帰属誘導型ユニバーサルgmaを用いた統一グラフコントラスト学習,いわゆるグラフメッセージコントラスト学習(gmcl)を提案する。 多くのグラフ学習タスクの実験は、提案したGMAおよびGMCLアプローチの有効性と利点を示している。

Graph contrastive learning is usually performed by first conducting Graph Data Augmentation (GDA) and then employing a contrastive learning pipeline to train GNNs. As we know that GDA is an important issue for graph contrastive learning. Various GDAs have been developed recently which mainly involve dropping or perturbing edges, nodes, node attributes and edge attributes. However, to our knowledge, it still lacks a universal and effective augmentor that is suitable for different types of graph data. To address this issue, in this paper, we first introduce the graph message representation of graph data. Based on it, we then propose a novel Graph Message Augmentation (GMA), a universal scheme for reformulating many existing GDAs. The proposed unified GMA not only gives a new perspective to understand many existing GDAs but also provides a universal and more effective graph data augmentation for graph self-supervised learning tasks. Moreover, GMA introduces an easy way to implement the mixup augmentor which is natural for images but usually challengeable for graphs. Based on the proposed GMA, we then propose a unified graph contrastive learning, termed Graph Message Contrastive Learning (GMCL), that employs attribution-guided universal GMA for graph contrastive learning. Experiments on many graph learning tasks demonstrate the effectiveness and benefits of the proposed GMA and GMCL approaches.
翻訳日:2024-01-09 17:41:10 公開日:2024-01-08
# 読み順推定と動的サンプリングによる逆様アンタゴニシックシーンテキストスポッティング

Inverse-like Antagonistic Scene Text Spotting via Reading-Order Estimation and Dynamic Sampling ( http://arxiv.org/abs/2401.03637v1 )

ライセンス: Link先を確認
Shi-Xue Zhang, Chun Yang, Xiaobin Zhu, Hongyang Zhou, Hongfa Wang, Xu-Cheng Yin(参考訳) シーンのテキストスポッティングは、特に、ミラー、対称、逆反射といった複雑なレイアウトを持つ逆様のシーンテキストにとって、難しいタスクである。 本稿では,汎用テキストを犠牲にすることなく,効果的に逆向きのシーンテキストを見つけることができるIATSという,エンドツーエンドでトレーニング可能な逆向きテキストスポッティングフレームワークを提案する。 具体的には、初期境界モジュール(IBM)によって生成された初期テキスト境界から読み出し順序情報を抽出する革新的な読み出し順序推定モジュール(REM)を提案する。 本稿では,REMの最適化と学習のために,分類損失,直交損失,分布損失からなる共同読解順序推定損失を提案する。 IBMの助けを借りて、初期テキスト境界を2つの対称制御点に分割し、様々な形状やスケールに適応するための軽量境界修正モジュール(BRM)を用いて、新しいテキスト境界を反復的に洗練することができる。 テキスト検出と認識の不適合性を軽減するため,検出されたテキスト領域における認識に適した特徴を動的にサンプリングできる薄板スプライン付き動的サンプリングモジュール(DSM)を提案する。 余分な監督がなければ、DSMは認識モジュールから返される勾配を通じて、テキスト認識の適切な特徴を積極的に学習することができる。 本手法が不規則テキストスポッティングと逆テキストスポッティングの両方において優れた性能を実現することを示す。

Scene text spotting is a challenging task, especially for inverse-like scene text, which has complex layouts, e.g., mirrored, symmetrical, or retro-flexed. In this paper, we propose a unified end-to-end trainable inverse-like antagonistic text spotting framework dubbed IATS, which can effectively spot inverse-like scene texts without sacrificing general ones. Specifically, we propose an innovative reading-order estimation module (REM) that extracts reading-order information from the initial text boundary generated by an initial boundary module (IBM). To optimize and train REM, we propose a joint reading-order estimation loss consisting of a classification loss, an orthogonality loss, and a distribution loss. With the help of IBM, we can divide the initial text boundary into two symmetric control points and iteratively refine the new text boundary using a lightweight boundary refinement module (BRM) for adapting to various shapes and scales. To alleviate the incompatibility between text detection and recognition, we propose a dynamic sampling module (DSM) with a thin-plate spline that can dynamically sample appropriate features for recognition in the detected text region. Without extra supervision, the DSM can proactively learn to sample appropriate features for text recognition through the gradient returned by the recognition module. Extensive experiments on both challenging scene text and inverse-like scene text datasets demonstrate that our method achieves superior performance both on irregular and inverse-like text spotting.
翻訳日:2024-01-09 17:40:49 公開日:2024-01-08
# 言語モデルは、少なくとも部分的には数字を理解する

Language Models Understand Numbers, at Least Partially ( http://arxiv.org/abs/2401.03735v1 )

ライセンス: Link先を確認
Fangwei Zhu, Damai Dai, Zhifang Sui(参考訳) 大規模言語モデル(LLM)は、様々なテキスト関連タスクにおいて優れた能力を示した。 しかし、それらの不透明な内部機構は数学的問題でそれらを活用するのに障害となる。 本稿では,言語モデルが数学的問題の基本要素である数を理解するかどうかという,基本的な問題について考察する。 数学的問題を解くためには、言語モデルは数を理解し、これらの数を隠された状態に圧縮する必要があると仮定する。 付加問題を含む合成データセットを構築し,線形プローブを用いてモデルの隠れた状態から入力数を読み出す。 実験結果は初期層からのllama-2モデルファミリーにおける圧縮数の存在を裏付ける証拠を示している。 しかし、圧縮過程は損なわれず、元の数値を正確に再構築することは困難である。 さらなる実験により、言語モデルは符号化された数を使って算術計算を行い、計算能力はモデルサイズに拡大できることが示された。 我々の予備研究は、言語モデルが数の部分的な理解を示し、数学的問題を解くモデルの能力に関する今後の研究への洞察を提供することを示唆している。

Large language models (LLMs) have exhibited impressive competency in various text-related tasks. However, their opaque internal mechanisms become a hindrance to leveraging them in mathematical problems. In this paper, we study a fundamental question: whether language models understand numbers, which play a basic element in mathematical problems. We assume that to solve mathematical problems, language models should be capable of understanding numbers and compressing these numbers in their hidden states. We construct a synthetic dataset comprising addition problems and utilize linear probes to read out input numbers from the hidden states of models. Experimental results demonstrate evidence supporting the existence of compressed numbers in the LLaMA-2 model family from early layers. However, the compression process seems to be not lossless, presenting difficulty in precisely reconstructing the original numbers. Further experiments show that language models can utilize the encoded numbers to perform arithmetic computations, and the computational ability scales up with the model size. Our preliminary research suggests that language models exhibit a partial understanding of numbers, offering insights into future investigations about the models' capability of solving mathematical problems.
翻訳日:2024-01-09 17:28:29 公開日:2024-01-08
# バターフライのプロンプト効果:小変化と脱獄が大規模言語モデルの性能に与える影響

The Butterfly Effect of Altering Prompts: How Small Changes and Jailbreaks Affect Large Language Model Performance ( http://arxiv.org/abs/2401.03729v1 )

ライセンス: Link先を確認
Abel Salinas and Fred Morstatter(参考訳) 大規模言語モデル(LLM)は、多くのドメインにわたるデータや無数のタスクに定期的に使われています。 単に LLM に答えを求めるだけで、'prompting'' の実践者は LLM を使って任意のタスクに対する応答を素早く得ることができる。 このプロンプトは、プロンプトの単純なワード化から特定のデータ形式の出力要求、よりセンシティブなトピックに対処するプロンプトの場合のジェイルブレイクに至るまで、実践者による一連の決定を通じて行われる。 プロンプトの構築方法のバリエーションは、llmの最終的な決定を変えるのでしょうか? 我々は、様々なテキスト分類タスクにまたがる一連のプロンプトなバリエーションを用いて、これに応える。 我々は、プロンプトの最後に空間を追加するなど、最小の摂動であっても、llmがその答えを変える可能性があることを発見した。 さらに,XML や一般的なjailbreak の要求応答が LLM でラベル付けされたデータにカタクリスティックな影響があることが判明した。

Large Language Models (LLMs) are regularly being used to label data across many domains and for myriad tasks. By simply asking the LLM for an answer, or ``prompting,'' practitioners are able to use LLMs to quickly get a response for an arbitrary task. This prompting is done through a series of decisions by the practitioner, from simple wording of the prompt, to requesting the output in a certain data format, to jailbreaking in the case of prompts that address more sensitive topics. In this work, we ask: do variations in the way a prompt is constructed change the ultimate decision of the LLM? We answer this using a series of prompt variations across a variety of text classification tasks. We find that even the smallest of perturbations, such as adding a space at the end of a prompt, can cause the LLM to change its answer. Further, we find that requesting responses in XML and commonly used jailbreaks can have cataclysmic effects on the data labeled by LLMs.
翻訳日:2024-01-09 17:28:14 公開日:2024-01-08
# 一般化ラグランジアンニューラルネットワーク

Generalized Lagrangian Neural Networks ( http://arxiv.org/abs/2401.03728v1 )

ライセンス: Link先を確認
Shanshan Xiao, Jiawei Zhang, Yifa Tang(参考訳) 正規微分方程式(ODE)の解に対するニューラルネットワークの導入は、計算数学における重要な研究方向である。 ニューラルネットワークアーキテクチャでは、odesの内部構造の統合は、予測能力の向上やデータ利用の削減といったアドバンテージを提供する。 これらの構造ODE形式の中で、ラグランジアン表現はその重要な物理的基盤のために際立っている。 このフレームワークに基づいて、Bhattoo氏はLagrangian Neural Networks(LNN)の概念を導入した。 そこで本論文では,ラグランジアンニューラルネットワーク(LNN)に対して,非保守系に最適化した基盤破壊拡張(Genralized Lagrangian Neural Networks)を導入する。 ラグランジュ方程式の基本的な重要性を活用することで、一般化されたラグランジュ方程式に基づいてモデルを定式化する。 この修正は予測精度を高めるだけでなく、非保守系におけるラグランジアン表現も保証する。 さらに,1次元および2次元の例を含む様々な実験を行い,一般化ラグランジアンニューラルネットワーク(glnn)の優位性を証明したネットワークパラメータの影響について検討した。

Incorporating neural networks for the solution of Ordinary Differential Equations (ODEs) represents a pivotal research direction within computational mathematics. Within neural network architectures, the integration of the intrinsic structure of ODEs offers advantages such as enhanced predictive capabilities and reduced data utilization. Among these structural ODE forms, the Lagrangian representation stands out due to its significant physical underpinnings. Building upon this framework, Bhattoo introduced the concept of Lagrangian Neural Networks (LNNs). Then in this article, we introduce a groundbreaking extension (Genralized Lagrangian Neural Networks) to Lagrangian Neural Networks (LNNs), innovatively tailoring them for non-conservative systems. By leveraging the foundational importance of the Lagrangian within Lagrange's equations, we formulate the model based on the generalized Lagrange's equation. This modification not only enhances prediction accuracy but also guarantees Lagrangian representation in non-conservative systems. Furthermore, we perform various experiments, encompassing 1-dimensional and 2-dimensional examples, along with an examination of the impact of network parameters, which proved the superiority of Generalized Lagrangian Neural Networks(GLNNs).
翻訳日:2024-01-09 17:27:54 公開日:2024-01-08
# $^{164}$Dy超固体と液滴のトンネル力学

Tunneling dynamics of $^{164}$Dy supersolids and droplets ( http://arxiv.org/abs/2401.03725v1 )

ライセンス: Link先を確認
S. I. Mistakidis, K. Mukherjee, S. M. Reimann and H. R. Sadeghpour(参考訳) 伸長・円歪二重井戸トラップにおける磁気的$^{164}$dy量子ガスのトンネル動力学を時間に依存したgross-pitaevskii法を用いて検討した。 エネルギーオフセットを持ち上げると、異なるトンネル機構が特定できる。 伸長トラップと十分に大きなオフセットでは、異なる構成が集合的なマクロなトンネルを示す。 より小さなオフセットの場合、バリアからの部分反射と透過は、両井戸の密度蓄積につながり、最終的にはトンネルロックに繋がる。 また、相対的な双極子相互作用強度を高めるための巨視的な自己トラップレジームに到達でき、トンネルは大きなバリアハイツのために消滅する。 円トラップに対してよりリッチな動的挙動が観察される。 例えば、超固体はその形状を維持し、超流動密度は、巨視的トンネル構造における特異な励起パターンの出現を示す歪曲する。 ここで報告された発見は、超固体および液滴系における特異な動的特徴を探索する新しい方法を提供するかもしれない。

The tunneling dynamics of a magnetic $^{164}$Dy quantum gas in an elongated or circular skewed double-well trap is investigated with a time-dependent extended Gross-Pitaevskii approach. Upon lifting the energy offset, different tunneling regimes can be identified. In the elongated trap and for sufficiently large offset, the different configurations exhibit collective macroscopic tunneling. For smaller offset, partial reflection from and transmission through the barrier lead to density accumulation in both wells, and eventually to tunneling-locking. One can also reach the macroscopic self-trapping regime for increasing relative dipolar interaction strength, while tunneling vanishes for large barrier heights. A richer dynamical behavior is observed for the circular trap. For instance, the supersolid maintains its shape, while the superfluid density gets distorted signifying the emergence of peculiar excitation patterns in the macroscopic tunneling regime. The findings reported here may offer new ways to probe distinctive dynamical features in the supersolid and droplet regimes.
翻訳日:2024-01-09 17:27:36 公開日:2024-01-08
# Sibyl: 時間進化型クエリワークロードの予測

Sibyl: Forecasting Time-Evolving Query Workloads ( http://arxiv.org/abs/2401.03723v1 )

ライセンス: Link先を確認
Hanxian Huang, Tarique Siddiqui, Rana Alotaibi, Carlo Curino, Jyoti Leeka, Alekh Jindal, Jishen Zhao, Jesus Camacho-Rodriguez, Yuanyuan Tian(参考訳) データベースシステムは、しばしばワークロードベースのパフォーマンスチューニングを実行するために、過去のクエリトレースに依存する。 しかし、実際の運用ワークロードは時間的進化であり、将来のワークロードの最適化には過去のクエリが有効ではない。 この課題に対処するために、様々な予測ウィンドウにおいて、クエリ文全体のシーケンスを正確に予測するエンド・ツー・エンドの機械学習ベースのフレームワークであるSIBYLを提案する。 実作業負荷からの洞察を抽出し,テンプレートベースの成果化手法を提案し,クエリ処理の正確な予測を行うエンコーダ・デコーダアーキテクチャを用いた積み重ねLSTMを開発した。 また,大規模な予測ウィンドウ上での予測精度の向上や,クエリの到着率のばらつきが高い大規模ワークロードでのスケーラビリティ向上も実現している。 最後に,ワークロードのドリフトを処理する手法を提案する。 4つの実ワークロードに対する我々の評価は、SIBYLが中央値のF1スコア8.7.3\%でワークロードを予測でき、1.7\times$と1.3\times$のパフォーマンス改善を、それぞれ実体化されたビュー選択とインデックス選択アプリケーションに適用できることを示している。

Database systems often rely on historical query traces to perform workload-based performance tuning. However, real production workloads are time-evolving, making historical queries ineffective for optimizing future workloads. To address this challenge, we propose SIBYL, an end-to-end machine learning-based framework that accurately forecasts a sequence of future queries, with the entire query statements, in various prediction windows. Drawing insights from real-workloads, we propose template-based featurization techniques and develop a stacked-LSTM with an encoder-decoder architecture for accurate forecasting of query workloads. We also develop techniques to improve forecasting accuracy over large prediction windows and achieve high scalability over large workloads with high variability in arrival rates of queries. Finally, we propose techniques to handle workload drifts. Our evaluation on four real workloads demonstrates that SIBYL can forecast workloads with an $87.3\%$ median F1 score, and can result in $1.7\times$ and $1.3\times$ performance improvement when applied to materialized view selection and index selection applications, respectively.
翻訳日:2024-01-09 17:27:19 公開日:2024-01-08
# リカレントニューラルネットワークにおける畳み込みブロック注意モジュールのスパイクによる適応履歴保存の強化

Enhancing Adaptive History Reserving by Spiking Convolutional Block Attention Module in Recurrent Neural Networks ( http://arxiv.org/abs/2401.03719v1 )

ライセンス: Link先を確認
Qi Xu, Yuyuan Gao, Jiangrong Shen, Yaxin Li, Xuming Ran, Huajin Tang, Gang Pan(参考訳) スパイキングニューラルネットワーク(SNN)は、ダイナミックビジョンセンサー(DVS)から収集されたアドレスイベント表現データなど、時系列中の時空間パターンを処理するための1種類の効率的なモデルとして機能する。 畳み込み型snsは、畳み込み構造の空間的特徴抽出能力の恩恵を受け、これらのaerデータセットにおいて顕著な性能を発揮するが、逐次時間点に関連する時間的特徴を無視する。 本稿では,時空間パターンの空間的特徴と時間的特徴を組み合わせるために,spiking convolutional block attention module (scbam) コンポーネントを組み込んだrecurrent spiking neural network (rsnn)モデルを開発した。 SCBAMを通して空間的・時間的チャネルの履歴情報を適応的に呼び出すことで、効率的なメモリ呼び出しと履歴冗長性排除の利点をもたらす。 本モデルの性能はdsv128-gestureデータセットや他の時系列データセットで評価した。 実験の結果,srnn-scbamモデルでは,記憶空間の少ない空間的・時間的次元における履歴情報の利用が向上し,他のモデルと比較して精度が向上した。

Spiking neural networks (SNNs) serve as one type of efficient model to process spatio-temporal patterns in time series, such as the Address-Event Representation data collected from Dynamic Vision Sensor (DVS). Although convolutional SNNs have achieved remarkable performance on these AER datasets, benefiting from the predominant spatial feature extraction ability of convolutional structure, they ignore temporal features related to sequential time points. In this paper, we develop a recurrent spiking neural network (RSNN) model embedded with an advanced spiking convolutional block attention module (SCBAM) component to combine both spatial and temporal features of spatio-temporal patterns. It invokes the history information in spatial and temporal channels adaptively through SCBAM, which brings the advantages of efficient memory calling and history redundancy elimination. The performance of our model was evaluated in DVS128-Gesture dataset and other time-series datasets. The experimental results show that the proposed SRNN-SCBAM model makes better use of the history information in spatial and temporal dimensions with less memory space, and achieves higher accuracy compared to other models.
翻訳日:2024-01-09 17:26:59 公開日:2024-01-08
# ユニバーサル時系列表現学習:調査

Universal Time-Series Representation Learning: A Survey ( http://arxiv.org/abs/2401.03717v1 )

ライセンス: Link先を確認
Patara Trirat, Yooju Shin, Junhyeok Kang, Youngeun Nam, Jihye Na, Minyoung Bae, Joeun Kim, Byunghyun Kim, Jae-Gil Lee(参考訳) 時系列データは、空の衛星から人体のウェアラブルデバイスまで、現実世界のシステムやサービスのあらゆる角に存在する。 これらの時系列から貴重な情報を抽出し推論することで表現を学習することは、特定の現象の複雑なダイナミクスを理解し、インフォームドな決定を可能にするために重要である。 学習した表現により、より効果的に多数の下流分析を行うことができる。 いくつかのアプローチの中で、ディープラーニングは手動の特徴工学を使わずに時系列データから隠れパターンや特徴を抽出する際、顕著な性能を示した。 本調査はまず,時系列における最先端の普遍表現学習手法の設計における3つの基本要素に基づく新しい分類法を提案する。 提案する分類法では,既存の研究を総合的にレビューし,これらの手法が学習表現の質をいかに高めるか,直観と洞察を議論する。 最後に、今後の研究の指針として、実験装置とデータセットを概説し、いくつかの有望な研究方向性について論じる。 最新の対応リソースはhttps://github.com/itouchz/awesome-deep-time-series-representationsで入手できる。

Time-series data exists in every corner of real-world systems and services, ranging from satellites in the sky to wearable devices on human bodies. Learning representations by extracting and inferring valuable information from these time series is crucial for understanding the complex dynamics of particular phenomena and enabling informed decisions. With the learned representations, we can perform numerous downstream analyses more effectively. Among several approaches, deep learning has demonstrated remarkable performance in extracting hidden patterns and features from time-series data without manual feature engineering. This survey first presents a novel taxonomy based on three fundamental elements in designing state-of-the-art universal representation learning methods for time series. According to the proposed taxonomy, we comprehensively review existing studies and discuss their intuitions and insights into how these methods enhance the quality of learned representations. Finally, as a guideline for future studies, we summarize commonly used experimental setups and datasets and discuss several promising research directions. An up-to-date corresponding resource is available at https://github.com/itouchz/awesome-deep-time-series-representations.
翻訳日:2024-01-09 17:26:35 公開日:2024-01-08
# 非線形Schr\"{o}dinger方程式と物理インフォームドニューラルネットワークを用いた水面波のデータの同化とパラメータ同定

Data assimilation and parameter identification for water waves using the nonlinear Schr\"{o}dinger equation and physics-informed neural networks ( http://arxiv.org/abs/2401.03708v1 )

ライセンス: Link先を確認
Svenja Ehlers, Niklas A. Wagner, Annamaria Scherzl, Marco Klein, Norbert Hoffmann, Merten Stender(参考訳) 波動ゲージなどのその場観測装置を用いた深海重力波の上昇の測定は、通常空間的に疎いデータをもたらす。 この間隔は、設置の労力と高い運用コストのために限られた数のゲージが配置されたことから生じる。 表面標高の時空間範囲の再構成は、従来の数値手法では解決が難しい、不適切なデータ同化問題を引き起こす。 そこで本研究では, 物理インフォームドニューラルネットワーク (PINN) を応用し, 数メートル離れた2地点間における物理的に一貫した波動場を再構成することを目的とした。 本手法は, 動的非線形Schr\"{o}dinger equation (NLSE) の残余をPINNの損失関数に統合することにより, この物理的整合性を保証する。 波形タンク内の異なる位置から合成波の上昇時間系列を用いて, 一定かつ所定のNLSE係数を用いることで, 復元精度を向上する。 しかし, PINNトレーニング中に NLSE 係数を付加可能な変数として導入することにより, 再現性をさらに向上する。 結果は,pinn法の技術的応用を示すだけでなく,決定論的波動予測法の初期化を改善するための先駆的なステップを示す。

The measurement of deep water gravity wave elevations using in-situ devices, such as wave gauges, typically yields spatially sparse data. This sparsity arises from the deployment of a limited number of gauges due to their installation effort and high operational costs. The reconstruction of the spatio-temporal extent of surface elevation poses an ill-posed data assimilation problem, challenging to solve with conventional numerical techniques. To address this issue, we propose the application of a physics-informed neural network (PINN), aiming to reconstruct physically consistent wave fields between two designated measurement locations several meters apart. Our method ensures this physical consistency by integrating residuals of the hydrodynamic nonlinear Schr\"{o}dinger equation (NLSE) into the PINN's loss function. Using synthetic wave elevation time series from distinct locations within a wave tank, we initially achieve successful reconstruction quality by employing constant, predetermined NLSE coefficients. However, the reconstruction quality is further improved by introducing NLSE coefficients as additional identifiable variables during PINN training. The results not only showcase a technically relevant application of the PINN method but also represent a pioneering step towards improving the initialization of deterministic wave prediction methods.
翻訳日:2024-01-09 17:26:19 公開日:2024-01-08
# fma-net: フロー誘導型動的フィルタリングとマルチアテンションによる反復的特徴改善によるビデオの高分解能化とデブラリング

FMA-Net: Flow-Guided Dynamic Filtering and Iterative Feature Refinement with Multi-Attention for Joint Video Super-Resolution and Deblurring ( http://arxiv.org/abs/2401.03707v1 )

ライセンス: Link先を確認
Geunhyuk Youk, Jihyong Oh, Munchurl Kim(参考訳) 本稿では,高分解能ビデオと高分解能ビデオとの連成学習手法であるVSRDBを,ぼやけた低分解能ビデオから復元する手法を提案する。 この共同修復問題は単一修復問題に比べてはるかに少ない注意を引いている。 本稿では,新しいフロー誘導型動的フィルタリング(fgdf)と,fma-net と呼ばれる vsrdb フレームワークを構成するマルチアテンション(frma)による反復的特徴改善を提案する。 特に,提案するfgdfは,高精度な運動表現学習によって運動軌跡を認識できる時空間変化劣化と復元核の両方を正確に推定することができる。 FGDFは従来の動的フィルタリングと比較して、FMA-NetがVSRDBへの大きな動きを効果的に処理できる。 さらに、新しい時間的アンカー(TA)損失で訓練されたFRMAブロックは、時間的アンカーを固定し、特徴を鋭くし、反復的な更新によって細かな特徴を洗練します。 拡張実験は、定量および定性的品質の両方の観点から、最先端手法よりも提案されたFMA-Netの方が優れていることを示す。 コードと事前訓練されたモデルは以下の通りである。

We present a joint learning scheme of video super-resolution and deblurring, called VSRDB, to restore clean high-resolution (HR) videos from blurry low-resolution (LR) ones. This joint restoration problem has drawn much less attention compared to single restoration problems. In this paper, we propose a novel flow-guided dynamic filtering (FGDF) and iterative feature refinement with multi-attention (FRMA), which constitutes our VSRDB framework, denoted as FMA-Net. Specifically, our proposed FGDF enables precise estimation of both spatio-temporally-variant degradation and restoration kernels that are aware of motion trajectories through sophisticated motion representation learning. Compared to conventional dynamic filtering, the FGDF enables the FMA-Net to effectively handle large motions into the VSRDB. Additionally, the stacked FRMA blocks trained with our novel temporal anchor (TA) loss, which temporally anchors and sharpens features, refine features in a course-to-fine manner through iterative updates. Extensive experiments demonstrate the superiority of the proposed FMA-Net over state-of-the-art methods in terms of both quantitative and qualitative quality. Codes and pre-trained models are available at: https://kaist-viclab.github.io/fmanet-site
翻訳日:2024-01-09 17:25:56 公開日:2024-01-08
# sur2f:マルチビュー画像からの高品質かつ効率的な表面再構成のためのハイブリッド表現

Sur2f: A Hybrid Representation for High-Quality and Efficient Surface Reconstruction from Multi-view Images ( http://arxiv.org/abs/2401.03704v1 )

ライセンス: Link先を確認
Zhangjin Huang, Zhihao Liang, Haojie Zhang, Yangkai Lin, Kui Jia(参考訳) 多視点表面再構成は3次元視覚研究において不適切な逆問題である。 幾何と外観を適切な表面表現でモデル化する。 既存の手法のほとんどは、明示的なメッシュ、再構成にメッシュの表面レンダリング、あるいは再構成にフィールドのボリュームレンダリングを使用する暗黙のフィールド関数のいずれかに依存している。 実際、2種類の表現にはそれぞれの利点がある。 本研究では,両表現を相補的に利用することを目的とした,新たなハイブリッド表現であるsur2fを提案する。 技術的には、暗黙の符号付き距離場と明示的な代理面Sur2fメッシュの2つの並列ストリームを学習し、暗黙の符号付き距離関数(SDF)のボリュームレンダリングとサーロゲートメッシュの表面レンダリングを共有のニューラルシェーダで統一し、統一シェーディングはそれらの収束を同じ基底面に促進する。 我々は,その変形を暗黙のsdfから誘導される関数と駆動することにより,サーロゲートメッシュの学習を同期させる。 さらに、同期サロゲートメッシュにより、表面誘導ボリュームサンプリングが可能となり、ボリュームレンダリングにおける1線当たりのサンプリング効率が大幅に向上する。 Sur^2$fは, 回収品質と回収効率の両面で, 既設の再建方法やハイブリッドを含む表面表現より優れることを示す徹底的な実験を行った。

Multi-view surface reconstruction is an ill-posed, inverse problem in 3D vision research. It involves modeling the geometry and appearance with appropriate surface representations. Most of the existing methods rely either on explicit meshes, using surface rendering of meshes for reconstruction, or on implicit field functions, using volume rendering of the fields for reconstruction. The two types of representations in fact have their respective merits. In this work, we propose a new hybrid representation, termed Sur2f, aiming to better benefit from both representations in a complementary manner. Technically, we learn two parallel streams of an implicit signed distance field and an explicit surrogate surface Sur2f mesh, and unify volume rendering of the implicit signed distance function (SDF) and surface rendering of the surrogate mesh with a shared, neural shader; the unified shading promotes their convergence to the same, underlying surface. We synchronize learning of the surrogate mesh by driving its deformation with functions induced from the implicit SDF. In addition, the synchronized surrogate mesh enables surface-guided volume sampling, which greatly improves the sampling efficiency per ray in volume rendering. We conduct thorough experiments showing that Sur$^2$f outperforms existing reconstruction methods and surface representations, including hybrid ones, in terms of both recovery quality and recovery efficiency.
翻訳日:2024-01-09 17:25:30 公開日:2024-01-08
# 格子、誤りを伴う学習、ランダム線形符号および暗号について

On Lattices, Learning with Errors, Random Linear Codes, and Cryptography ( http://arxiv.org/abs/2401.03703v1 )

ライセンス: Link先を確認
Oded Regev(参考訳) 主な結果は、gapsvpやsivpといった最悪の場合の格子問題から特定の学習問題への削減です。 この学習問題は‘パリティからエラーへの学習’問題をより高いモジュライに自然な拡張である。 これはまた、ランダムな線形コードから復号する問題と見なすこともできる。 これは、これらの問題が難しいという強い兆候だ、とわれわれは信じている。 しかし、我々の減少は量子的だ。 したがって、学習問題の効率的な解はgapsvpとsivpの量子アルゴリズムを意味する。 主な疑問は、この還元が古典的(すなわち非量子的)にできるかどうかである。 また,学習問題の難易度に基づくセキュリティを備えた(古典的な)公開鍵暗号システムを提案する。 その結果、そのセキュリティは、GapSVPとSIVPの最悪の量子硬度にも基づいている。 公開鍵は$\tilde{O}(n^2)$で、メッセージの暗号化は$\tilde{O}(n)$(以前の暗号システムでは$\tilde{O}(n^4)$と$\tilde{O}(n^2)$)でそのサイズを増大させる。 実際、すべての当事者が長さ$\tilde{O}(n^2)$のランダムビット列を共有するという仮定の下で、公開鍵のサイズは$\tilde{O}(n)$に縮めることができる。

Our main result is a reduction from worst-case lattice problems such as GapSVP and SIVP to a certain learning problem. This learning problem is a natural extension of the `learning from parity with error' problem to higher moduli. It can also be viewed as the problem of decoding from a random linear code. This, we believe, gives a strong indication that these problems are hard. Our reduction, however, is quantum. Hence, an efficient solution to the learning problem implies a quantum algorithm for GapSVP and SIVP. A main open question is whether this reduction can be made classical (i.e., non-quantum). We also present a (classical) public-key cryptosystem whose security is based on the hardness of the learning problem. By the main result, its security is also based on the worst-case quantum hardness of GapSVP and SIVP. The new cryptosystem is much more efficient than previous lattice-based cryptosystems: the public key is of size $\tilde{O}(n^2)$ and encrypting a message increases its size by a factor of $\tilde{O}(n)$ (in previous cryptosystems these values are $\tilde{O}(n^4)$ and $\tilde{O}(n^2)$, respectively). In fact, under the assumption that all parties share a random bit string of length $\tilde{O}(n^2)$, the size of the public key can be reduced to $\tilde{O}(n)$.
翻訳日:2024-01-09 17:25:06 公開日:2024-01-08
# 医療チームコミュニケーションと患者の成果をつなぐビジュアル分析設計

A Visual Analytics Design for Connecting Healthcare Team Communication to Patient Outcomes ( http://arxiv.org/abs/2401.03700v1 )

ライセンス: Link先を確認
Hsiao-Ying Lu, Yiran Li, Kwan-Liu Ma(参考訳) 医療専門家(HCP)間のコミュニケーションは、患者の治療の質に不可欠である。 各患者の治療の周囲では、Electronic Health Record (EHR) アクセスログから構築した時間的ネットワークとして、HCP間の通信を調べることができる。 本稿では,ERHシステムを利用した時間通信ネットワークの有効性と効率性を検討するために,視覚分析システムを提案する。 本稿では,ネットワーク計測と患者の生存率を関連付け,それらの関連に基づいて有効性指標を考案する手法を提案する。 通信効率を分析するために,EHRアクセスのレイテンシと周波数を抽出する。 視覚分析システムは,構成したコミュニケーション効率指標の検査と理解を支援するとともに,情報フロー図にレイテンシと周波数をエンコードすることで通信効率の探索を可能にする。 複数のケーススタディと専門家によるレビューを通じて,システムの実証と評価を行った。

Communication among healthcare professionals (HCPs) is crucial for the quality of patient treatment. Surrounding each patient's treatment, communication among HCPs can be examined as temporal networks, constructed from Electronic Health Record (EHR) access logs. This paper introduces a visual analytics system designed to study the effectiveness and efficiency of temporal communication networks mediated by the EHR system. We present a method that associates network measures with patient survival outcomes and devises effectiveness metrics based on these associations. To analyze communication efficiency, we extract the latencies and frequencies of EHR accesses. Our visual analytics system is designed to assist in inspecting and understanding the composed communication effectiveness metrics and to enable the exploration of communication efficiency by encoding latencies and frequencies in an information flow diagram. We demonstrate and evaluate our system through multiple case studies and an expert review.
翻訳日:2024-01-09 17:24:39 公開日:2024-01-08
# 深層学習モデルの公平性向上に関する大規模実証的研究

A Large-scale Empirical Study on Improving the Fairness of Deep Learning Models ( http://arxiv.org/abs/2401.03695v1 )

ライセンス: Link先を確認
Junjie Yang, Jiajun Jiang, Zeyu Sun, Junjie Chen(参考訳) 公平性は、実運用におけるディープラーニングモデルの採用に影響を与える重要な問題である。 モデルフェアネスを改善するために、既存の多くの手法が提案され、評価されている。 しかし、同じ文脈で総合的な比較を行うための体系的な評価はいまだ存在せず、両者のパフォーマンスの区別を理解することは困難であり、研究の進展や実用化を妨げている。 このギャップを埋めるため,本稿では,既存の公平性向上手法の性能を包括的に比較する最初の大規模実証研究を行う。 具体的には、3つの異なるデータセットと5つの一般的なパフォーマンス指標を用いて、さまざまなカテゴリから合計13の手法を評価する。 以上の結果から,各手法の性能は,多くの既存手法で特定のデータセットに過度に適合していることが示唆された。 さらに、異なる公平性評価指標は、それぞれの焦点が異なるため、評価結果が著しく異なる。 全体として,前処理法と内処理法は後処理法より優れ,前処理法は最高の性能を示す。 本研究は,深層学習モデルの公平性を高めるための総合的な推奨を提供する。 複数の次元からこの問題にアプローチし、一様評価プラットフォームを提供することを目標とし、研究者に一連の影響を通じてより効果的な公平性ソリューションを探求するよう促す。

Fairness has been a critical issue that affects the adoption of deep learning models in real practice. To improve model fairness, many existing methods have been proposed and evaluated to be effective in their own contexts. However, there is still no systematic evaluation among them for a comprehensive comparison under the same context, which makes it hard to understand the performance distinction among them, hindering the research progress and practical adoption of them. To fill this gap, this paper endeavours to conduct the first large-scale empirical study to comprehensively compare the performance of existing state-of-the-art fairness improving techniques. Specifically, we target the widely-used application scenario of image classification, and utilized three different datasets and five commonly-used performance metrics to assess in total 13 methods from diverse categories. Our findings reveal substantial variations in the performance of each method across different datasets and sensitive attributes, indicating over-fitting on specific datasets by many existing methods. Furthermore, different fairness evaluation metrics, due to their distinct focuses, yield significantly different assessment results. Overall, we observe that pre-processing methods and in-processing methods outperform post-processing methods, with pre-processing methods exhibiting the best performance. Our empirical study offers comprehensive recommendations for enhancing fairness in deep learning models. We approach the problem from multiple dimensions, aiming to provide a uniform evaluation platform and inspire researchers to explore more effective fairness solutions via a set of implications.
翻訳日:2024-01-09 17:24:25 公開日:2024-01-08
# GloTSFormer:グローバルビデオテキストスポッティング変換器

GloTSFormer: Global Video Text Spotting Transformer ( http://arxiv.org/abs/2401.03694v1 )

ライセンス: Link先を確認
Han Wang and Yanjie Wang and Yang Li and Can Huang(参考訳) ビデオテキストスポッティング(VTS)は、ビデオ中のテキストの軌跡や内容を予測するための基本的な視覚的タスクである。 従来の作業は通常、局所的な関連を行ない、IoUベースの距離と複雑な後処理の手順を適用してパフォーマンスを高め、VTSの豊富な時間的情報や形態的特性を無視している。 本稿では,追跡問題をグローバルアソシエーションとしてモデル化する新しいグローバルビデオテキストスポッティングトランスglotsformerを提案し,ガウス的ワッサースタイン距離を用いてフレーム間の形態的相関を導出する。 主なコントリビューションは3つにまとめることができます。 1). 本稿では,複数のフレームを同時に関連付けるトランスフォーマーを用いたグローバルトラッキング手法GloTSFormerを提案する。 2). フレーム間の位置関連を行うためのワッサーシュタイン距離に基づく手法を提案する。 3). 公開データセットに関する広範な実験を行う。 ICDAR2015ビデオデータセットでは、GloTSFormerは以前のSOTA法と比較して4.6の絶対改善で56.0 MOTAを達成し、トランスフォーマーベースの手法を8.3 MOTAで上回っている。

Video Text Spotting (VTS) is a fundamental visual task that aims to predict the trajectories and content of texts in a video. Previous works usually conduct local associations and apply IoU-based distance and complex post-processing procedures to boost performance, ignoring the abundant temporal information and the morphological characteristics in VTS. In this paper, we propose a novel Global Video Text Spotting Transformer GloTSFormer to model the tracking problem as global associations and utilize the Gaussian Wasserstein distance to guide the morphological correlation between frames. Our main contributions can be summarized as three folds. 1). We propose a Transformer-based global tracking method GloTSFormer for VTS and associate multiple frames simultaneously. 2). We introduce a Wasserstein distance-based method to conduct positional associations between frames. 3). We conduct extensive experiments on public datasets. On the ICDAR2015 video dataset, GloTSFormer achieves 56.0 MOTA with 4.6 absolute improvement compared with the previous SOTA method and outperforms the previous Transformer-based method by a significant 8.3 MOTA.
翻訳日:2024-01-09 17:23:59 公開日:2024-01-08
# エネルギー分解能が$\hbar$以下の浮遊強磁性磁力計

Levitated ferromagnetic magnetometer with energy resolution well below $\hbar$ ( http://arxiv.org/abs/2401.03774v1 )

ライセンス: Link先を確認
Felix Ahrens, Wei Ji, Dmitry Budker, Chris Timberlake, Hendrik Ulbricht, Andrea Vinante(参考訳) 近年、磁場測定の量子限界が指摘され、いわゆるエネルギー分解能 $e_\mathrm{r}$ は $e_\mathrm{r} \gtrsim \hbar$ に制限されている。 この制限は、SQUID、固体スピン、光学的に励起された原子磁気センサなど、既存の量子磁気センサの大多数に当てはまる。 しかし、近年の単磁区スピノルボース=アインシュタイン凝縮体で証明されたように、高い相関性を持つスピン系によって超えることができる。 ここでは,超伝導体上に高温で浮遊した強磁性体を用いて,同様の,より優れた分解能が得られることを示す。 我々は、$E_\mathrm{R}=\left( 0.064 \pm 0.010 \right) \, \hbar$ を証明し、$E_\mathrm{R}<10^{-3} \, \hbar$ が近い将来に改善されると予想する。 この発見は、凝縮物質、生物物理学、基礎科学の新しい応用への道を開く。 特に, アクシオン様ダークマターを探索し, 従来の検索よりも感度の高いオーダーを投影する実験を提案する。

A quantum limit on the measurement of magnetic field has been recently pointed out, stating that the so-called Energy Resolution $E_\mathrm{R}$ is bounded to $E_\mathrm{R} \gtrsim \hbar$. This limit holds indeed true for the vast majority of existing quantum magnetometers, including SQUIDs, solid state spins and optically pumped atomic magnetometers. However, it can be surpassed by highly correlated spin systems, as recently demonstrated with a single-domain spinor Bose-Einstein Condensate. Here we show that similar and potentially much better resolution can be achieved with a hard ferromagnet levitated above a superconductor at cryogenic temperature. We demonstrate $E_\mathrm{R}=\left( 0.064 \pm 0.010 \right) \, \hbar$ and anticipate that $E_\mathrm{R}<10^{-3} \, \hbar$ is within reach with near-future improvements. This finding opens the way to new applications in condensed matter, biophysics and fundamental science. In particular, we propose an experiment to search for axionlike dark matter and project a sensitivity orders of magnitude better than in previous searches.
翻訳日:2024-01-09 17:14:57 公開日:2024-01-08
# Skyrmion Qubits:将来の量子コンピューティングアプリケーションへの挑戦

Skyrmion Qubits: Challenges For Future Quantum Computing Applications ( http://arxiv.org/abs/2401.03773v1 )

ライセンス: Link先を確認
Christina Psaroudaki, Elias Peraticos, Christos Panagopoulos(参考訳) 磁性ナノスキャミオンは量子化ヘリシティ励起を発達させ、異なるヘリシティを持つナノスキャミオン間の量子トンネルはこれらの粒子の量子的性質を示す。 トポロジカルスピンテクスチャの量子的側面、それらの局所的動的応答、そしてそれらの機能は、量子演算のための実用的なデバイスアーキテクチャを非破壊的に解決できる実験方法である。 原子レベルでの計測、工学、制御の能力により、ナノスキルミオンはアイデアを固体技術に変換する機会を提供する。 概念実証装置はヘリシティーを電気的に制御し、skyrmionsに基づく量子コンピュータの実現のために集団スピン状態の機能化に向けた有望な新しい経路を開く。 この視点は、量子磁性と量子情報の新しい研究の道における開発と課題を議論することを目的としている。

Magnetic nano-skyrmions develop quantized helicity excitations, and the quantum tunneling between nano-skyrmions possessing distinct helicities is indicative of the quantum nature of these particles. Experimental methods capable of non-destructively resolving the quantum aspects of topological spin textures, their local dynamical response, and their functionality now promise practical device architectures for quantum operations. With abilities to measure, engineer, and control matter at the atomic level, nano-skyrmions present opportunities to translate ideas into solid-state technologies. Proof-of-concept devices will offer electrical control over the helicity, opening a promising new pathway towards functionalizing collective spin states for the realization of a quantum computer based on skyrmions. This Perspective aims to discuss developments and challenges in this new research avenue in quantum magnetism and quantum information.
翻訳日:2024-01-09 17:14:31 公開日:2024-01-08
# nerfmentation:単眼深度推定のためのnerfベース拡張法

NeRFmentation: NeRF-based Augmentation for Monocular Depth Estimation ( http://arxiv.org/abs/2401.03771v1 )

ライセンス: Link先を確認
Casimir Feldmann, Niall Siegenheim, Nikolas Hars, Lovro Rabuzin, Mert Ertugrul, Luca Wolfart, Marc Pollefeys, Zuria Bauer, Martin R. Oswald(参考訳) 単眼深度推定(MDE)モデルの能力は、十分かつ多様なデータセットの可用性によって制限される。 自動運転のためのMDEモデルの場合、この問題は捕捉されたデータ軌跡の線形性によって悪化する。 トレーニングデータセットに,より多様な視方向を持つ合成データを導入するための,nerfベースのデータ拡張パイプラインを提案し,モデル性能とロバスト性に対するアプローチの利点を実証する。 私たちが“NeRFmentation”と呼ぶデータ拡張パイプラインは、データセットの各シーンでNeRFをトレーニングし、関連するメトリクスに基づいてサブパーのNeRFをフィルタリングし、新しい視聴方向からキャプチャされた合成RGB-D画像を生成する。 本研究では,一般的な自動運転データセットKITTI上で,最先端の3つのMDEアーキテクチャと併用して,Eigenスプリットのトレーニングセットを拡大する手法を提案する。 本研究は, 原テストセット, 人気駆動セット, および, 自作の合成テストセットにおいて, 結果の性能向上を評価するものである。

The capabilities of monocular depth estimation (MDE) models are limited by the availability of sufficient and diverse datasets. In the case of MDE models for autonomous driving, this issue is exacerbated by the linearity of the captured data trajectories. We propose a NeRF-based data augmentation pipeline to introduce synthetic data with more diverse viewing directions into training datasets and demonstrate the benefits of our approach to model performance and robustness. Our data augmentation pipeline, which we call "NeRFmentation", trains NeRFs on each scene in the dataset, filters out subpar NeRFs based on relevant metrics, and uses them to generate synthetic RGB-D images captured from new viewing directions. In this work, we apply our technique in conjunction with three state-of-the-art MDE architectures on the popular autonomous driving dataset KITTI, augmenting its training set of the Eigen split. We evaluate the resulting performance gain on the original test set, a separate popular driving set, and our own synthetic test set.
翻訳日:2024-01-09 17:14:15 公開日:2024-01-08
# 農家意思決定支援システムのためのディープニューラルネットワークを用いたトウモロコシ収量予測モデル

Corn Yield Prediction Model with Deep Neural Networks for Smallholder Farmer Decision Support System ( http://arxiv.org/abs/2401.03768v1 )

ライセンス: Link先を確認
Chollette Olisah, Lyndon Smith, Melvyn Smith, Lawrence Morolake, Osi Ojukwu(参考訳) 気象と土壌変数の相互作用の非線形性を考えると、新しいディープニューラルネットワーク回帰器(DNNR)は、深さ、隠れた層のニューロン数、最適化されたハイパーパラメータを考慮して慎重に設計されている。 さらに, 根の平均二乗誤差 (RMSE) と平均絶対二乗誤差 (MAE) の欠点に対処し, その強度を組み合わせながら, 絶対二乗誤差 (ARSE) の平均値を提案した。 ARSE測定値を用いて,無作為森林回帰器 (RFR) と極勾配増進回帰器 (XGBR) をDNNRと比較した。 RFRとXGBRはそれぞれ0.0000294 t/ha、0.0000792 t/ha、DNNRは0.00146 t/ha、0.0209 t/haであった。 すべてのエラーは驚くほど小さい。 しかし、予期せぬデータに対する一般化性を確保するための説明変数の変更により、DNNR(s)が最善を尽くした。 予期せぬデータとは違って、気候変動による気象や土壌の変数に対する突然かつ説明不能な変化を表すために作られた。 さらなる分析により、天候と土壌変数の間に強い相互作用が存在することが明らかとなった。 降水が減少し, シルトが増加すると, 収量と強く負の相関関係にある沈殿とシルトを用いて, 収量の増加が観察された。

Given the nonlinearity of the interaction between weather and soil variables, a novel deep neural network regressor (DNNR) was carefully designed with considerations to the depth, number of neurons of the hidden layers, and the hyperparameters with their optimizations. Additionally, a new metric, the average of absolute root squared error (ARSE) was proposed to address the shortcomings of root mean square error (RMSE) and mean absolute error (MAE) while combining their strengths. Using the ARSE metric, the random forest regressor (RFR) and the extreme gradient boosting regressor (XGBR), were compared with DNNR. The RFR and XGBR achieved yield errors of 0.0000294 t/ha, and 0.000792 t/ha, respectively, compared to the DNNR(s) which achieved 0.0146 t/ha and 0.0209 t/ha, respectively. All errors were impressively small. However, with changes to the explanatory variables to ensure generalizability to unforeseen data, DNNR(s) performed best. The unforeseen data, different from unseen data, is coined to represent sudden and unexplainable change to weather and soil variables due to climate change. Further analysis reveals that a strong interaction does exist between weather and soil variables. Using precipitation and silt, which are strong-negatively and strong-positively correlated with yield, respectively, yield was observed to increase when precipitation was reduced and silt increased, and vice-versa.
翻訳日:2024-01-09 17:13:56 公開日:2024-01-08
# InvariantOODG:out-of-distribution Generalizationのための点雲の不変性学習

InvariantOODG: Learning Invariant Features of Point Clouds for Out-of-Distribution Generalization ( http://arxiv.org/abs/2401.03765v1 )

ライセンス: Link先を確認
Zhimin Zhang, Xiang Gao, Wei Hu(参考訳) 3Dセンサの利便性は、様々なアプリケーションにおける3Dポイントクラウドの利用の増加につながっている。 しかしながら、取得デバイスやシナリオの違いは、ポイントクラウドのデータ分散の多様化につながり、ポイントクラウド表現学習方法を適切に一般化する必要がある。 従来のほとんどのメソッドは、ターゲットのドメインデータに事前トレーニングされたモデルを微調整するドメイン適応に依存していたが、ターゲットのドメインデータが利用できない現実のシナリオでは、必ずしも実現不可能であるとは限らない。 この問題に対処するために,二分岐ネットワークを用いて,異なる分布を持つ点群間の不変性を学び,原点群と拡張点群から局所的・グローバル的特徴を抽出するinvariantoodgを提案する。 具体的には,ポイントクラウドの局所的特徴学習を強化するために,最も有用なローカル領域と,入力ポイントクラウドを増強する2種類の変換を探索可能なアンカーポイントの集合を定義する。 実験結果は,3次元領域一般化ベンチマークにおける提案モデルの有効性を示す。

The convenience of 3D sensors has led to an increase in the use of 3D point clouds in various applications. However, the differences in acquisition devices or scenarios lead to divergence in the data distribution of point clouds, which requires good generalization of point cloud representation learning methods. While most previous methods rely on domain adaptation, which involves fine-tuning pre-trained models on target domain data, this may not always be feasible in real-world scenarios where target domain data may be unavailable. To address this issue, we propose InvariantOODG, which learns invariability between point clouds with different distributions using a two-branch network to extract local-to-global features from original and augmented point clouds. Specifically, to enhance local feature learning of point clouds, we define a set of learnable anchor points that locate the most useful local regions and two types of transformations to augment the input point clouds. The experimental results demonstrate the effectiveness of the proposed model on 3D domain generalization benchmarks.
翻訳日:2024-01-09 17:13:22 公開日:2024-01-08
# 3D-SSGAN: 3D-Aware 合成のための2Dセマンティクスのリフティング

3D-SSGAN: Lifting 2D Semantics for 3D-Aware Compositional Portrait Synthesis ( http://arxiv.org/abs/2401.03764v1 )

ライセンス: Link先を確認
Ruiqi Liu, Peng Zheng, Ye Wang, Rui Ma(参考訳) 既存の3D対応のポートレート合成手法は、強い3D一貫性を維持しながら、印象的な高品質な画像を生成することができる。 しかし、そのほとんどは、合成画像に対するきめ細かい部分レベルの制御をサポートできない。 逆に、GANをベースとした2D画像合成手法では、顔領域の明確なゆがみを実現することができるが、3Dモデリング能力の欠如により、視界の一貫性を維持することはできない。 これらの問題に対処するため,我々は3d認識合成のための新しい枠組みである3d-ssganを提案する。 まず、単純だが効果的な2D-to-3Dリフトモジュールが生成された2D部分の特徴とセマンティクスを3Dにマッピングする。 そして、新規な3D対応セマンティックマスクレンダラーを備えたボリュームレンダラーを用いて、合成顔特徴および対応するマスクを生成する。 フレームワーク全体は、実画像と合成された2d画像とそれらのセマンティックマスクを区別することで、エンドツーエンドでトレーニングされる。 定量的および定性的な評価は、3次元ビューの一貫性を維持しながら制御可能な部分レベル合成における3D-SSGANの優位性を示す。

Existing 3D-aware portrait synthesis methods can generate impressive high-quality images while preserving strong 3D consistency. However, most of them cannot support the fine-grained part-level control over synthesized images. Conversely, some GAN-based 2D portrait synthesis methods can achieve clear disentanglement of facial regions, but they cannot preserve view consistency due to a lack of 3D modeling abilities. To address these issues, we propose 3D-SSGAN, a novel framework for 3D-aware compositional portrait image synthesis. First, a simple yet effective depth-guided 2D-to-3D lifting module maps the generated 2D part features and semantics to 3D. Then, a volume renderer with a novel 3D-aware semantic mask renderer is utilized to produce the composed face features and corresponding masks. The whole framework is trained end-to-end by discriminating between real and synthesized 2D images and their semantic masks. Quantitative and qualitative evaluations demonstrate the superiority of 3D-SSGAN in controllable part-level synthesis while preserving 3D view consistency.
翻訳日:2024-01-09 17:13:04 公開日:2024-01-08
# 現実世界の薬物発見のための一般化量子コンピューティングパイプライン

Generalizable Quantum Computing Pipeline for Real World Drug Discovery ( http://arxiv.org/abs/2401.03759v1 )

ライセンス: Link先を確認
Weitang Li, Zhi Yin, Xiaoran Li, Dongqiang Ma, Zhenxing Zhang, Chenji Zou, Kunliang Bu, Maochun Dai, Jie Yue, Yuzong Chen, Xiaojin Zhang, Shengyu Zhang(参考訳) 量子コンピューティングは、古典的アプローチよりも優れた計算能力を持ち、医薬品を含む多くの科学領域に革命を起こす可能性を秘めている。 しかし、量子コンピューティングの薬物発見への応用は主に概念実証研究に限られており、現実の薬物開発課題の複雑さを捉えるのに失敗することが多い。 本研究では,創薬設計問題に対処するための高度な量子コンピューティングパイプラインを開発することにより,従来の研究から逸脱する。 提案手法は, 量子計算の実用的応用を強調し, 実用化に向けて推進するものである。 具体的には, 共有結合切断を伴うプロドラッグ活性化のためのギブス自由エネルギープロファイルの正確な決定と, 共有結合相互作用の正確なシミュレーションという, 薬物発見における2つの重要な課題に対処する汎用量子コンピューティングパイプラインを構築した。 この研究は、薬物設計で遭遇する検証可能なシナリオ、特に2つのケーススタディに存在する共有結合問題に対する量子コンピューティングのベンチマークの先駆的な取り組みとなり、理論モデルから具体的応用へと移行する。 本結果は,現実の薬物設計ワークフローに統合するための量子コンピューティングパイプラインの可能性を示す。

Quantum computing, with its superior computational capabilities compared to classical approaches, holds the potential to revolutionize numerous scientific domains, including pharmaceuticals. However, the application of quantum computing for drug discovery has primarily been limited to proof-of-concept studies, which often fail to capture the intricacies of real-world drug development challenges. In this study, we diverge from conventional investigations by developing an advanced quantum computing pipeline tailored to address genuine drug design problems. Our approach underscores the pragmatic application of quantum computation and propels it towards practical industrial adoption. We specifically construct our versatile quantum computing pipeline to address two critical tasks in drug discovery: the precise determination of Gibbs free energy profiles for prodrug activation involving covalent bond cleavage, and the accurate simulation of covalent bond interactions. This work serves as a pioneering effort in benchmarking quantum computing against veritable scenarios encountered in drug design, especially the covalent bonding issue present in both of the case studies, thereby transitioning from theoretical models to tangible applications. Our results demonstrate the potential of a quantum computing pipeline for integration into real world drug design workflows.
翻訳日:2024-01-09 17:12:45 公開日:2024-01-08
# コンテキスト固定型ベストアーム識別:政策学習による適応的実験設計

Contextual Fixed-Budget Best Arm Identification: Adaptive Experimental Design with Policy Learning ( http://arxiv.org/abs/2401.03756v1 )

ライセンス: Link先を確認
Masahiro Kato and Kyohei Okumura and Takuya Ishihara and Toru Kitagawa(参考訳) 個別治療勧告は証拠に基づく意思決定において重要な課題である。 本研究では,このタスクをコンテキスト情報を用いた固定予算ベストアーム識別(BAI)問題として定式化する。 この設定では、複数の治療アームを付与した適応実験を考える。 各ラウンドにおいて、意思決定者は、実験ユニットを特徴付けるコンテキスト(共変量)を観察し、そのユニットを治療アームの1つに割り当てる。 実験の終わりに、意思決定者は、コンテキスト(ベスト治療アーム)で条件付けられた最も期待された結果をもたらすと推定される治療アームを推奨する。 この決定の有効性は、最悪の場合の単純な後悔(政治の後悔)の観点で測定され、与えられた文脈において、最善の条件付き期待結果と推奨治療アームの最大差を表す。 私たちの最初のステップは、最悪のケースで予想される単純な後悔に対して、漸近的な低い境界を導き出すことです。 下限に従えば,適応サンプリング (adaptive sampling, as)-policy learning recommendation (pl) 戦略を提案する。 この戦略では、各ラウンドにおける目標割り当て比率の比で処理アームをランダムに割り当てる。 実験の最後には、実証的実証的ポリシー値の最大化により、コンテキストを指定した治療アームを推奨するポリシーを訓練する。 その結果,as-pl戦略は漸近的にミニマックス最適であり,既定の最悪ケース下限に収束する単純後悔が期待できる主要因であることがわかった。 本研究は,様々な領域において広範な意味を持ち,既存の文献から見て,政策学習,オンポリシー学習,適応福祉最大化に適した適応型実験デザインと捉えることができる。

Individualized treatment recommendation is a crucial task in evidence-based decision-making. In this study, we formulate this task as a fixed-budget best arm identification (BAI) problem with contextual information. In this setting, we consider an adaptive experiment given multiple treatment arms. At each round, a decision-maker observes a context (covariate) that characterizes an experimental unit and assigns the unit to one of the treatment arms. At the end of the experiment, the decision-maker recommends a treatment arm estimated to yield the highest expected outcome conditioned on a context (best treatment arm). The effectiveness of this decision is measured in terms of the worst-case expected simple regret (policy regret), which represents the largest difference between the conditional expected outcomes of the best and recommended treatment arms given a context. Our initial step is to derive asymptotic lower bounds for the worst-case expected simple regret, which also implies ideal treatment assignment rules. Following the lower bounds, we propose the Adaptive Sampling (AS)-Policy Learning recommendation (PL) strategy. Under this strategy, we randomly assign a treatment arm with a ratio of a target assignment ratio at each round. At the end of the experiment, we train a policy, a function that recommends a treatment arm given a context, by maximizing the counterfactual empirical policy value. Our results show that the AS-PL strategy is asymptotically minimax optimal, with its leading factor of expected simple regret converging with our established worst-case lower bound. This research has broad implications in various domains, and in light of existing literature, our method can be perceived as an adaptive experimental design tailored for policy learning, on-policy learning, or adaptive welfare maximization.
翻訳日:2024-01-09 17:12:27 公開日:2024-01-08
# Color-$S^{4}L$:イメージカラー化による自己教師付きセミ教師付き学習

Color-$S^{4}L$: Self-supervised Semi-supervised Learning with Image Colorization ( http://arxiv.org/abs/2401.03753v1 )

ライセンス: Link先を確認
Hanxiao Chen(参考訳) 本研究は,複数の効果的な自己教師付きプリテキストタスクを統合することで,半教師付き画像分類タスクの問題に対処する。 半教師付き学習において広く使われている整合性正規化とは違って,特に画像カラー化プロキシタスクを用いた自己教師付き半教師付き学習フレームワーク(Color-$S^{4}L$)を探索し,そのような特殊なパイプラインにおける各種ネットワークアーキテクチャの性能を深く評価した。 また, CIFAR-10, SVHN, CIFAR-100データセットに対して, 従来の教師付きおよび半教師付き最適手法と比較して, その有効性と最適性能を示した。

This work addresses the problem of semi-supervised image classification tasks with the integration of several effective self-supervised pretext tasks. Different from widely-used consistency regularization within semi-supervised learning, we explored a novel self-supervised semi-supervised learning framework (Color-$S^{4}L$) especially with image colorization proxy task and deeply evaluate performances of various network architectures in such special pipeline. Also, we demonstrated its effectiveness and optimal performance on CIFAR-10, SVHN and CIFAR-100 datasets in comparison to previous supervised and semi-supervised optimal methods.
翻訳日:2024-01-09 17:12:01 公開日:2024-01-08
# 監視ビデオにおける飛鳥物体検出アルゴリズム

Flying Bird Object Detection Algorithm in Surveillance Video ( http://arxiv.org/abs/2401.03749v1 )

ライセンス: Link先を確認
Ziwei Sun, Zexi Hua, Hengchao Li, and Yan Li(参考訳) 単一フレーム画像の特徴など,監視ビデオにおける飛行する鳥の物体の特徴を考慮し,その大きさがほとんどの場合小さく,非対称であり,FBOD-SV(Flying Bird Object Detection for Surveillance Video)を提案する。 まず,複数フレームの画像に対して鳥の物体の相関関係に応じて,鳥の飛来物体の特徴を集約する機能集約モジュールであるcorrelation attention feature aggregation (co-attention-fa)モジュールを提案する。 次に、ダウンサンプリングとアップサンプリングを備えたフライングバードオブジェクト検出ネットワーク(fbod-net)をデザインし、細かな空間情報と大きな受容フィールド情報とを融合させ、特別なマルチスケール(主に小規模)バードオブジェクトを検出する。 最後に,SimOTA動的ラベルアロケーション手法をワンカテゴリオブジェクト検出に適用し,不規則飛行鳥によるラベルアロケーションの難しさを解決するため,SimOTA動的ラベル戦略を提案する。 本稿では, トラクション変電所の空飛ぶ鳥物体の監視映像のデータセットを用いて, アルゴリズムの性能を検証した。 実験結果から,本論文で提案する飛行鳥物体検出法は,飛行鳥物体の検出性能を効果的に向上することが示された。

Aiming at the characteristics of the flying bird object in surveillance video, such as the single frame image feature is not obvious, the size is small in most cases, and asymmetric, this paper proposes a Flying Bird Object Detection method for Surveillance Video (FBOD-SV). Firstly, a new feature aggregation module, the Correlation Attention Feature Aggregation (Co-Attention-FA) module, is designed to aggregate the features of the flying bird object according to the bird object's correlation on multiple consecutive frames of images. Secondly, a Flying Bird Object Detection Network (FBOD-Net) with down-sampling and then up-sampling is designed, which uses a large feature layer that fuses fine spatial information and large receptive field information to detect special multi-scale (mostly small-scale) bird objects. Finally, the SimOTA dynamic label allocation method is applied to One-Category object detection, and the SimOTA-OC dynamic label strategy is proposed to solve the difficult problem of label allocation caused by irregular flying bird objects. In this paper, the algorithm's performance is verified by the experimental data set of the surveillance video of the flying bird object of the traction substation. The experimental results show that the surveillance video flying bird object detection method proposed in this paper effectively improves the detection performance of flying bird objects.
翻訳日:2024-01-09 17:11:49 公開日:2024-01-08
# 低ランクトレーニングによる効果的なコミュニケーション連合推薦システムの構築

Towards Efficient Communication Federated Recommendation System via Low-rank Training ( http://arxiv.org/abs/2401.03748v1 )

ライセンス: Link先を確認
Ngoc-Hieu Nguyen, Tuan-Anh Nguyen, Tuan Nguyen, Vu Tien Hoang, Dung D. Le, Kok-Seng Wong(参考訳) Federated Recommendation(FedRec)システムでは、通信コストは、ユーザデバイスと中央サーバ間でニューラルネットワークモデルを送信する必要から生じる重要なボトルネックである。 これらの課題に対する以前のアプローチは、しばしば計算オーバーヘッド、モデル固有性制約、セキュアアグリゲーションプロトコルとの互換性問題などの問題を引き起こす。 そこで本研究では,多くのパラメータを凍結しながら軽量な学習可能なパラメータを調整するという概念を活かした,相関型低ランク構造(colr)と呼ばれる新しい枠組みを提案する。 提案手法は,計算負荷を伴わずに通信オーバーヘッドを大幅に削減する。 批判的に、当社のフレームワークは、準同型暗号の堅牢な使用を含む、セキュアなアグリゲーションプロトコルと完全に互換性があります。 このアプローチにより、ペイロードサイズの最大93.75%が削減され、データセット間での推奨性能はおよそ8%低下した。 実験を再現するためのコードはhttps://github.com/NNHieu/CoLR-FedRec.orgにある。

In Federated Recommendation (FedRec) systems, communication costs are a critical bottleneck that arises from the need to transmit neural network models between user devices and a central server. Prior approaches to these challenges often lead to issues such as computational overheads, model specificity constraints, and compatibility issues with secure aggregation protocols. In response, we propose a novel framework, called Correlated Low-rank Structure (CoLR), which leverages the concept of adjusting lightweight trainable parameters while keeping most parameters frozen. Our approach substantially reduces communication overheads without introducing additional computational burdens. Critically, our framework remains fully compatible with secure aggregation protocols, including the robust use of Homomorphic Encryption. Our approach resulted in a reduction of up to 93.75% in payload size, with only an approximate 8% decrease in recommendation performance across datasets. Code for reproducing our experiments can be found at https://github.com/NNHieu/CoLR-FedRec.
翻訳日:2024-01-09 17:11:27 公開日:2024-01-08
# Flowmind2Digital: 最初の包括的フローミンド認識と変換アプローチ

Flowmind2Digital: The First Comprehensive Flowmind Recognition and Conversion Approach ( http://arxiv.org/abs/2401.03742v1 )

ライセンス: Link先を確認
Huanyu Liu, Jianfeng Cai, Tingjia Zhang, Hongsheng Li, Siyuan Wang, Guangming Zhu, Syed Afaq Ali Shah, Mohammed Bennamoun and Liang Zhang(参考訳) フローチャートとマインドマップは、フローミンド(flowmind)と呼ばれ、日々の活動において不可欠であり、手書き版はリアルタイムのコラボレーションを容易にする。 しかし、効率的な処理のためにデジタル化する必要性が増しています。 手動変換を克服するためには自動変換法が不可欠である。 既存のスケッチ認識手法では、フィールド固有であり、デジタル変換手順が欠如している。 本稿では,これらの課題に対処するため,Flowmind2digital法とhdFlowmindデータセットを提案する。 Flowmind2digitalはニューラルネットワークとキーポイント検出を利用して、データセット上で87.3%の精度を達成した。 hdFlowmindデータセットは、22のシナリオにわたる1,776のアノテートフローミンドで構成され、既存のデータセットを上回っている。 さらに,単純なグラフィックの重要性を強調し,精度を9.3%向上させた。

Flowcharts and mind maps, collectively known as flowmind, are vital in daily activities, with hand-drawn versions facilitating real-time collaboration. However, there's a growing need to digitize them for efficient processing. Automated conversion methods are essential to overcome manual conversion challenges. Existing sketch recognition methods face limitations in practical situations, being field-specific and lacking digital conversion steps. Our paper introduces the Flowmind2digital method and hdFlowmind dataset to address these challenges. Flowmind2digital, utilizing neural networks and keypoint detection, achieves a record 87.3% accuracy on our dataset, surpassing previous methods by 11.9%. The hdFlowmind dataset, comprising 1,776 annotated flowminds across 22 scenarios, outperforms existing datasets. Additionally, our experiments emphasize the importance of simple graphics, enhancing accuracy by 9.3%.
翻訳日:2024-01-09 17:11:09 公開日:2024-01-08
# 大規模言語モデルによるコードの脆弱性修復の強化

Enhanced Automated Code Vulnerability Repair using Large Language Models ( http://arxiv.org/abs/2401.03741v1 )

ライセンス: Link先を確認
David de-Fitero-Dominguez, Eva Garcia-Lopez, Antonio Garcia-Cabot, Jose-Javier Martinez-Herraiz(参考訳) この研究は、ますます技術主導の世界でデジタルセキュリティを強化する上で不可欠な、コードの脆弱性を自動修復する複雑な課題に対処する。 この研究は、コードラマやMistralのような高度なLarge Language Model(LLM)を使用して、コード修正を表現するための、新しく効率的なフォーマットを紹介している。 cコードの脆弱性を特徴とするデータセットを微調整したこれらのモデルは、自動コード修正技術の正確性と適応性を大幅に改善する。 重要な発見は、VulRepairのような従来の手法と比較して、これらのモデルの修復精度が向上していることである。 この研究はまた、完璧な予測のような現在の評価指標に対する批判的な評価と、現実のシナリオにおける自動修復モデルの真の能力を反映する限界も提供する。 これに続いて、列車のサンプルを欠いたテストデータセットの使用の重要性を強調し、コード修復タスクにおけるllmの有効性を高めるためにデータセットの完全性の必要性を強調している。 この研究の意義は、デジタルセキュリティへの貢献、自動コード脆弱性修復の新しい標準の設定、サイバーセキュリティと人工知能の分野における今後の進歩への道を開くことである。 この研究は、コードセキュリティ強化におけるllmの可能性を強調するだけでなく、これらの重要な領域におけるさらなる調査と研究を促進する。

This research addresses the complex challenge of automated repair of code vulnerabilities, vital for enhancing digital security in an increasingly technology-driven world. The study introduces a novel and efficient format for the representation of code modification, using advanced Large Language Models (LLMs) such as Code Llama and Mistral. These models, fine-tuned on datasets featuring C code vulnerabilities, significantly improve the accuracy and adaptability of automated code repair techniques. A key finding is the enhanced repair accuracy of these models when compared to previous methods such as VulRepair, which underscores their practical utility and efficiency. The research also offers a critical assessment of current evaluation metrics, such as perfect predictions, and their limitations in reflecting the true capabilities of automated repair models in real-world scenarios. Following this, it underscores the importance of using test datasets devoid of train samples, emphasizing the need for dataset integrity to enhance the effectiveness of LLMs in code repair tasks. The significance of this work is its contribution to digital security, setting new standards for automated code vulnerability repair and paving the way for future advancements in the fields of cybersecurity and artificial intelligence. The study does not only highlight the potential of LLMs in enhancing code security but also fosters further exploration and research in these crucial areas.
翻訳日:2024-01-09 17:10:56 公開日:2024-01-08
# 大型言語モデルはウォール街に勝てるか? 株式選択におけるAIの可能性

Can Large Language Models Beat Wall Street? Unveiling the Potential of AI in Stock Selection ( http://arxiv.org/abs/2401.03737v1 )

ライセンス: Link先を確認
Georgios Fatouros, Konstantinos Metaxas, John Soldatos, Dimosthenis Kyriazis(参考訳) 本稿では,GPT-4の高度な推論機能を活用して,スケーラブルな株式選択を実現する,新たなAI駆動フレームワークであるMarketSenseAIを紹介する。 marketsenseaiは、思考と文脈内学習の一連の方法論を取り入れ、市場価格のダイナミクス、金融ニュース、企業の基本、そして著名な金融投資チームの意思決定プロセスを模倣したマクロ経済レポートなど、幅広いデータソースを分析する。 MarketSenseAIの開発、実装、実証検証は、コジェントな説明を裏付けた実用的な投資シグナル(購入、保持、販売)を提供する能力に焦点が当てられている。 この研究の特筆すべき点は、GPT-4を予測ツールとしてだけでなく、評価手段としても使用することであり、AIが生成した説明が提案する投資信号の信頼性と受容に与える影響を明らかにしている。 S&P100種株価に対する広範な実証評価で、MarketSenseAIは13%上昇し、最大40%のリターンを達成し、市場と同等のリスクプロファイルを維持した。 これらの結果は、複雑な金融意思決定における大規模言語モデルの有効性を示し、金融分析および投資戦略へのaiの統合の著しい進歩を示す。 この研究は、金融AI分野に貢献し、革新的なアプローチを示し、従来の金融分析投資方法論に革命をもたらすAIの変革の可能性を強調する。

In the dynamic and data-driven landscape of financial markets, this paper introduces MarketSenseAI, a novel AI-driven framework leveraging the advanced reasoning capabilities of GPT-4 for scalable stock selection. MarketSenseAI incorporates Chain of Thought and In-Context Learning methodologies to analyze a wide array of data sources, including market price dynamics, financial news, company fundamentals, and macroeconomic reports emulating the decision making process of prominent financial investment teams. The development, implementation, and empirical validation of MarketSenseAI are detailed, with a focus on its ability to provide actionable investment signals (buy, hold, sell) backed by cogent explanations. A notable aspect of this study is the use of GPT-4 not only as a predictive tool but also as an evaluator, revealing the significant impact of the AI-generated explanations on the reliability and acceptance of the suggested investment signals. In an extensive empirical evaluation with S&P 100 stocks, MarketSenseAI outperformed the benchmark index by 13%, achieving returns up to 40%, while maintaining a risk profile comparable to the market. These results demonstrate the efficacy of Large Language Models in complex financial decision-making and mark a significant advancement in the integration of AI into financial analysis and investment strategies. This research contributes to the financial AI field, presenting an innovative approach and underscoring the transformative potential of AI in revolutionizing traditional financial analysis investment methodologies.
翻訳日:2024-01-09 17:10:33 公開日:2024-01-08
# 再現性、再現性、停止時間から学んだ教訓

Lessons Learned Reproducibility, Replicability, and When to Stop ( http://arxiv.org/abs/2401.03736v1 )

ライセンス: Link先を確認
Milton S. Gomez, Tom Beucler(参考訳) 自身の研究の再現性を確保するための広範なガイダンスが存在するが、自身の研究における外部研究の再生と複製に関する議論はほとんどない。 この議論を開始するため,熱帯サイクロジェネレーション予測のための運用製品を再現した経験から,再現と複製に関するガイダンスを提供するための2次元フレームワークを提案する。 当社のフレームワークは、ある軸に適合するモデルとその推論における使用を表現し、データセット、メトリクス、モデル自体という3つの重要な側面の上に構築しています。 この2次元平面の研究の軌跡を評価することで、我々の研究で得られた主張をよりよく知ることができる。 さらに、このフレームワークを使用して、大気科学におけるベンチマークデータセットの有用性をコンテキスト化する。 我々の2次元のフレームワークは、研究者、特に初期の研究者が、自身の研究に先行研究を取り入れ、この文脈でできる主張を伝えるためのツールを提供する。

While extensive guidance exists for ensuring the reproducibility of one's own study, there is little discussion regarding the reproduction and replication of external studies within one's own research. To initiate this discussion, drawing lessons from our experience reproducing an operational product for predicting tropical cyclogenesis, we present a two-dimensional framework to offer guidance on reproduction and replication. Our framework, representing model fitting on one axis and its use in inference on the other, builds upon three key aspects: the dataset, the metrics, and the model itself. By assessing the trajectories of our studies on this 2D plane, we can better inform the claims made using our research. Additionally, we use this framework to contextualize the utility of benchmark datasets in the atmospheric sciences. Our two-dimensional framework provides a tool for researchers, especially early career researchers, to incorporate prior work in their own research and to inform the claims they can make in this context.
翻訳日:2024-01-09 17:10:07 公開日:2024-01-08
# 駆動型量子レイリー・ヴァンデルpol発振器:位相局在とスペクトル応答

Driven generalized quantum Rayleigh-van der Pol oscillators: Phase localization and spectral response ( http://arxiv.org/abs/2401.03823v1 )

ライセンス: Link先を確認
A. J. Sudler, J. Talukdar, D. Blume(参考訳) 駆動型古典的自己持続型発振器は同期の文脈で広く研究されている。 マスター方程式を用いて、古典的に駆動される一般化量子Rayleigh-van der Pol発振器を考察し、線形散逸項と損失項と3つの非線形散逸項を特徴とする。 非線形項のうち2つが回転相空間対称性を破るので、非駆動系の量子力学的極限サイクル状態のウィグナー分布は一般には回転対称ではない。 駆動系の長時間ダイナミクスに対する対称性破壊散逸剤の影響は、駆動強度とデチューニングの関数として解析され、深い量子構造から古典に近い状態までをカバーできる。 同期に必要な位相局在と周波数エントレインメントについて詳述する。 発振器が位相局在を示す大きなパラメータ空間を同定するが、エントレメントは弱か無かであり、同期の欠如を示す。 いくつかの観測対象は古典的アーノルド舌の類似性を示すが、ある場合において、アーノルド舌は外部の駆動と自然振動子周波数の間の非対称性に関して非対称である。

Driven classical self-sustained oscillators have been studied extensively in the context of synchronization. Using the master equation, this work considers the classically driven generalized quantum Rayleigh-van der Pol oscillator, which is characterized by linear dissipative gain and loss terms as well as three non-linear dissipative terms. Since two of the non-linear terms break the rotational phase space symmetry, the Wigner distribution of the quantum mechanical limit cycle state of the undriven system is, in general, not rotationally symmetric. The impact of the symmetry-breaking dissipators on the long-time dynamics of the driven system are analyzed as functions of the drive strength and detuning, covering the deep quantum to near-classical regimes. Phase localization and frequency entrainment, which are required for synchronization, are discussed in detail. We identify a large parameter space where the oscillators exhibit appreciable phase localization but only weak or no entrainment, indicating the absence of synchronization. Several observables are found to exhibit the analog of the celebrated classical Arnold tongue; in some cases, the Arnold tongue is found to be asymmetric with respect to vanishing detuning between the external drive and the natural oscillator frequency.
翻訳日:2024-01-09 17:00:23 公開日:2024-01-08
# 最適微分プライベートpcaとスパイク共分散行列の推定

Optimal Differentially Private PCA and Estimation for Spiked Covariance Matrices ( http://arxiv.org/abs/2401.03820v1 )

ライセンス: Link先を確認
T. Tony Cai, Dong Xia and Mengyue Zha(参考訳) 共分散行列とその関連する主成分の推定は、現代の統計学における根本的な問題である。 最適推定手順は、よく理解された特性で開発されているが、プライバシー保護の需要が高まると、この古典的な問題に新たな複雑さがもたらされる。 本稿では,spiked covarianceモデルにおける最適微分プライベート主成分分析(pca)と共分散推定について検討する。 このモデルの下で固有値と固有ベクトルの感度を正確に評価し、主成分と共分散行列の両方を推定するための収束の最小値を確立する。 これらの速度は対数因子を持ち、スペクトルノルム、フロベニウスノルム、核ノルムを含む一般のシャッテンノルムを特別な場合として包含する。 計算効率のよい微分プライベート推定器を導入し、対数係数まで、最小値の最適性を証明した。 さらに、ミニマックス下限のマッチングが確立される。 既存の文献と比較すると,本研究の結果は,異なる主成分間の固有ギャップ条件を必要とせず,サンプルサイズが寸法よりもはるかに小さい場合でも有効である。

Estimating a covariance matrix and its associated principal components is a fundamental problem in contemporary statistics. While optimal estimation procedures have been developed with well-understood properties, the increasing demand for privacy preservation introduces new complexities to this classical problem. In this paper, we study optimal differentially private Principal Component Analysis (PCA) and covariance estimation within the spiked covariance model. We precisely characterize the sensitivity of eigenvalues and eigenvectors under this model and establish the minimax rates of convergence for estimating both the principal components and covariance matrix. These rates hold up to logarithmic factors and encompass general Schatten norms, including spectral norm, Frobenius norm, and nuclear norm as special cases. We introduce computationally efficient differentially private estimators and prove their minimax optimality, up to logarithmic factors. Additionally, matching minimax lower bounds are established. Notably, in comparison with existing literature, our results accommodate a diverging rank, necessitate no eigengap condition between distinct principal components, and remain valid even if the sample size is much smaller than the dimension.
翻訳日:2024-01-09 16:59:59 公開日:2024-01-08
# Tunable Coupler-based Superconducting Quantum Computer におけるコンテキストアウェア・カプラ再構成

Context-Aware Coupler Reconfiguration for Tunable Coupler-Based Superconducting Quantum Computers ( http://arxiv.org/abs/2401.03817v1 )

ライセンス: Link先を確認
Leanghok Hour, Sovanmonynuth Heng, Sengthai Heng, Myeongseong Go, Youngsun Han(参考訳) 我々は,量子量子コンピュータ(sqc)における相互接続の課題に対処し,演算中に量子ビットの相互作用が拡大することによるクロストークエラーに直面することが多い。 既存の緩和手法では、ハードウェアカプラやソフトウェアベースのゲートスケジューリングといったトレードオフがある。 私たちのイノベーションであるCA-CORE(Context-Aware Coupler Reconfiguration)コンパイルメソッドは、アプリケーション固有の設計原則に準拠しています。 キュービット接続を最適化してSQC性能を改善し、調整可能なカプラを活用する。 量子ビット相関の文脈解析を通じて、SQC制約を考慮した効率的なカップリングマップを構成する。 本手法では,深度とSWAP操作をそれぞれ18.84%,42.47%削減する。 また、IBMやGoogleのトポロジと比べて回路の忠実度を40%向上させる。 特に、33量子ビットの回路を1秒未満でコンパイルする。

We address interconnection challenges in limited-qubit superconducting quantum computers (SQC), which often face crosstalk errors due to expanded qubit interactions during operations. Existing mitigation methods carry trade-offs, like hardware couplers or software-based gate scheduling. Our innovation, the Context-Aware COupler REconfiguration (CA-CORE) compilation method, aligns with application-specific design principles. It optimizes the qubit connections for improved SQC performance, leveraging tunable couplers. Through contextual analysis of qubit correlations, we configure an efficient coupling map considering SQC constraints. Our method reduces depth and SWAP operations by up to 18.84% and 42.47%, respectively. It also enhances circuit fidelity by 40% compared to IBM and Google's topologies. Notably, our method compiles a 33-qubit circuit in less than 1 second.
翻訳日:2024-01-09 16:59:40 公開日:2024-01-08
# gnuastro:カラーイメージの完全なダイナミックレンジの可視化

Gnuastro: visualizing the full dynamic range in color images ( http://arxiv.org/abs/2401.03814v1 )

ライセンス: Link先を確認
Ra\'ul Infante-Sainz, Mohammad Akhlaghi(参考訳) 色は多波長天体画像の可視化、解釈、分析において重要な役割を果たす。 しかし、天文学的源の完全なダイナミックレンジを正確に表現するカラー画像の生成は困難である。 gnuastro v0.22では'astscript-color-faint-gray'というプログラムが導入されている。 8ビットのRGB(Red-Green-Blue)値を明るいピクセルに割り当てるために非線形変換を使用し、ファインを逆グレースケールで表示する。 このアプローチにより、同一画像内の低輝度特徴を同時に可視化することができる。 この研究ノートはGit commit 48f5408でManeageと再現可能である。

Color plays a crucial role in the visualization, interpretation, and analysis of multi-wavelength astronomical images. However, generating color images that accurately represent the full dynamic range of astronomical sources is challenging. In response, Gnuastro v0.22 introduces the program 'astscript-color-faint-gray', which is extensively documented in the Gnuastro manual. It employs a non-linear transformation to assign an 8-bit RGB (Red-Green-Blue) value to brighter pixels, while the fainter ones are shown in an inverse grayscale. This approach enables the simultaneous visualization of low surface brightness features within the same image. This research note is reproducible with Maneage, on the Git commit 48f5408.
翻訳日:2024-01-09 16:59:30 公開日:2024-01-08
# FM-AEを用いた亜鉛電解プレート接触異常検出用マルチモーダルオートエンコーダ

FM-AE: Frequency-masked Multimodal Autoencoder for Zinc Electrolysis Plate Contact Abnormality Detection ( http://arxiv.org/abs/2401.03806v1 )

ライセンス: Link先を確認
Canzong Zhou, Can Zhou, Hongqiu Zhu, Tianhao Liu(参考訳) 亜鉛電解は亜鉛の溶融において重要なプロセスの1つであり、亜鉛電解の安定運転は製造効率と製品品質を確保する上で重要な要素である。 しかし、亜鉛電解カソードと陽極との接触不良は、製造効率の低下と電解セルの損傷につながる一般的な問題である。 したがって, 板の接触状況のオンラインモニタリングは, 製造品質と効率の確保に不可欠である。 この問題に対処するために、FM-AE(Fluquency-masked Multimodal Autoencoder)というエンドツーエンドネットワークを提案する。 セル電圧信号と赤外線画像情報を入力とし、自動符号化によりこれら2つの特徴を融合させ、カスケード検出器を介してプレートの接触状態の悪化を予測する。 実験結果から, 亜鉛電解槽の接触状態の低下を効果的に検出し, 高い信頼性(86.2%)を維持しつつ, 製造プラクティスを強力に支援できることが示唆された。

Zinc electrolysis is one of the key processes in zinc smelting, and maintaining stable operation of zinc electrolysis is an important factor in ensuring production efficiency and product quality. However, poor contact between the zinc electrolysis cathode and the anode is a common problem that leads to reduced production efficiency and damage to the electrolysis cell. Therefore, online monitoring of the contact status of the plates is crucial for ensuring production quality and efficiency. To address this issue, we propose an end-to-end network, the Frequency-masked Multimodal Autoencoder (FM-AE). This method takes the cell voltage signal and infrared image information as input, and through automatic encoding, fuses the two features together and predicts the poor contact status of the plates through a cascaded detector. Experimental results show that the proposed method maintains high accuracy (86.2%) while having good robustness and generalization ability, effectively detecting poor contact status of the zinc electrolysis cell, providing strong support for production practice.
翻訳日:2024-01-09 16:59:17 公開日:2024-01-08
# テレチャット技術報告

TeleChat Technical Report ( http://arxiv.org/abs/2401.03804v1 )

ライセンス: Link先を確認
Zihan Wang, Xinzhang Liu, Shixuan Liu, Yitong Yao, Yuyao Huang, Zhongjiang He, Xuelong Li, Yongxiang Li, Zhonghao Che, Zhaoxi Zhang, Yan Wang, Xin Wang, Luwen Pu, Huihan Xu, Ruiyu Fang, Yu Zhao, Jie Zhang, Xiaomeng Huang, Zhilong Lu, Jiaxin Peng, Wenjun Zheng, Shiquan Wang, Bingkai Yang, Xuewei he, Zhuoru Jiang, Qiyi Xie, Yanhan Zhang, Zhongqiu Li, Lingling Shi, Weiwei Fu, Yin Zhang, Zilu Huang, Sishi Xiong, Yuxiang Zhang, Chao Wang, Shuangyong Song(参考訳) 本稿では,30億,70億,120億のパラメータを持つ大規模言語モデル(LLM)の集合であるTeleChatを紹介する。 事前訓練された言語モデルと、人間の好みに合わせて微調整されたチャットモデルが含まれている。 TeleChatは最初、数十兆のトークンを含む英語と中国語のテキストの多種多様なコレクションを含む広範なコーパスで事前訓練されている。 その後、このモデルは、我々が記述した詳細な方法論に従って、人間の好みに合わせて微調整を行う。 言語理解,数学,推論,コード生成,知識に基づく質問応答など,様々なタスクにおけるTeleChatの性能を評価する。 以上の結果から,TeleChatは,他のオープンソースモデルと同等の規模で,幅広い公開ベンチマークで比較可能な性能を実現していることがわかった。 llmsを活用した将来の研究やアプリケーションをサポートするため、telechatの7bと12bのモデルの微調整されたチェックポイントと、コードとトレーニングデータの一部をパブリックコミュニティにリリースします。

In this technical report, we present TeleChat, a collection of large language models (LLMs) with parameters of 3 billion, 7 billion and 12 billion. It includes pretrained language models as well as fine-tuned chat models that is aligned with human preferences. TeleChat is initially pretrained on an extensive corpus containing a diverse collection of texts from both English and Chinese languages, including trillions of tokens. Subsequently, the model undergoes fine-tuning to align with human preferences, following a detailed methodology that we describe. We evaluate the performance of TeleChat on various tasks, including language understanding, mathematics, reasoning, code generation, and knowledge-based question answering. Our findings indicate that TeleChat achieves comparable performance to other open-source models of similar size across a wide range of public benchmarks. To support future research and applications utilizing LLMs, we release the fine-tuned model checkpoints of TeleChat's 7B and 12B variant, along with code and a portion of our pretraining data, to the public community.
翻訳日:2024-01-09 16:58:59 公開日:2024-01-08
# MvKSR:多視点の知識誘導型シーンリカバリ

MvKSR: Multi-view Knowledge-guided Scene Recovery for Hazy and Rainy Degradation ( http://arxiv.org/abs/2401.03800v1 )

ライセンス: Link先を確認
Dong Yang, Wenyu Xu, Yuxu Lu, Yuan Gao, Jingming Zhang, and Yu Guo(参考訳) 交通や産業などの分野における安全管理とインテリジェントな展開の確保には、高品質なイメージングが不可欠である。 操作の正確かつ詳細な監視を可能にし、潜在的な危険性のタイムリーな検出と効率的な管理を容易にする。 しかし、大気のハジネスや降水などの悪天候条件は、画質に大きな影響を与える可能性がある。 大気中に高密度の迷路や水滴が含まれていると、入射光が散乱し、捕獲された画像が劣化する。 この劣化は画像のぼやけやコントラストの減少という形で明らかであり、インテリジェントイメージングシステム(IIS)による誤った評価や解釈の可能性を高めている。 そこで本研究では,多視点の知識誘導型シーンリカバリネットワーク(MvKSR)を提案する。 具体的には、劣化画像上で誘導フィルタリングを行い、高/低周波成分を分離する。 その後、エンデコーダベースのマルチビュー特徴粗抽出モジュール(MCE)を用いて、劣化画像の異なるビューから特徴を粗く抽出する。 マルチビュー機能ファインフュージョンモジュール(MFF)は、異なる視点下での混合監視により劣化した画像の復元を学習し、推測する。 さらに,hazy/rainy/mixedシーンにおいて,グローバル修復と局所修復を処理できる高機能な残余ブロックを提案する。 大規模な実験結果から,MvKSRはIISの劣化シナリオの回復における効率と安定性の観点から,他の最先端手法よりも優れていることが示された。

High-quality imaging is crucial for ensuring safety supervision and intelligent deployment in fields like transportation and industry. It enables precise and detailed monitoring of operations, facilitating timely detection of potential hazards and efficient management. However, adverse weather conditions, such as atmospheric haziness and precipitation, can have a significant impact on image quality. When the atmosphere contains dense haze or water droplets, the incident light scatters, leading to degraded captured images. This degradation is evident in the form of image blur and reduced contrast, increasing the likelihood of incorrect assessments and interpretations by intelligent imaging systems (IIS). To address the challenge of restoring degraded images in hazy and rainy conditions, this paper proposes a novel multi-view knowledge-guided scene recovery network (termed MvKSR). Specifically, guided filtering is performed on the degraded image to separate high/low-frequency components. Subsequently, an en-decoder-based multi-view feature coarse extraction module (MCE) is used to coarsely extract features from different views of the degraded image. The multi-view feature fine fusion module (MFF) will learn and infer the restoration of degraded images through mixed supervision under different views. Additionally, we suggest an atrous residual block to handle global restoration and local repair in hazy/rainy/mixed scenes. Extensive experimental results demonstrate that MvKSR outperforms other state-of-the-art methods in terms of efficiency and stability for restoring degraded scenarios in IIS.
翻訳日:2024-01-09 16:58:44 公開日:2024-01-08
# 神経言語モデルの解剖学

Anatomy of Neural Language Models ( http://arxiv.org/abs/2401.03797v1 )

ライセンス: Link先を確認
Majd Saleh and St\'ephane Paquelet(参考訳) 生成的AIと伝達学習分野は近年,特に自然言語処理(NLP)分野において顕著な進歩を遂げている。 トランスフォーマーは、最先端のトランスフォーマーベースの言語モデル(LM)によって、様々な応用において新しい最先端の成果がもたらされたこれらの進歩の中心であった。 神経lsmに関する研究は指数関数的に増加しているが、その大多数はハイレベルであり、自己完結にはほど遠い。 したがって、この分野における文献の深い理解は、特にニューラルLMの主要なタイプを説明する統一された数学的枠組みが欠如している場合の難しい課題である。 このチュートリアルでは、視覚的図形が明確で、複雑で、単純化され、曖昧な数学的枠組みで、ニューラルLMを説明することが目的である。 BERT や GPT2 のような広く使われているモデルの具体例を探索する。 最後に,言語モデリングを前提としたトランスフォーマーがコンピュータビジョンや時系列アプリケーションで広く採用されていることから,前述の領域でのトランスフォーマーの動作を読者が理解できるように,このようなソリューションのいくつかの例を,NLPのオリジナルと対比する。

Generative AI and transfer learning fields have experienced remarkable advancements in recent years especially in the domain of Natural Language Processing (NLP). Transformers were at the heart of these advancements where the cutting-edge transformer-based Language Models (LMs) enabled new state-of-the-art results in a wide spectrum of applications. While the number of research works involving neural LMs is exponentially increasing, their vast majority are high-level and far from self-contained. Consequently, a deep understanding of the literature in this area is a tough task especially at the absence of a unified mathematical framework explaining the main types of neural LMs. We address the aforementioned problem in this tutorial where the objective is to explain neural LMs in a detailed, simplified and unambiguous mathematical framework accompanied with clear graphical illustrations. Concrete examples on widely used models like BERT and GPT2 are explored. Finally, since transformers pretrained on language-modeling-like tasks have been widely adopted in computer vision and time series applications, we briefly explore some examples of such solutions in order to enable readers understand how transformers work in the aforementioned domains and compare this use with the original one in NLP.
翻訳日:2024-01-09 16:58:17 公開日:2024-01-08
# 大気補正センチネル-2データを用いたmlアルゴリズムによる沿岸域の水質汚染モニタリング

Monitoring water contaminants in coastal areas through ML algorithms leveraging atmospherically corrected Sentinel-2 data ( http://arxiv.org/abs/2401.03792v1 )

ライセンス: Link先を確認
Francesca Razzano, Francesco Mauro, Pietro Di Stasio, Gabriele Meoni, Marco Esposito, Gilda Schirinzi, Silvia Liberata Ullo(参考訳) 水汚染物質をモニタリングすることが最重要であり、公衆衛生と環境の健全性を確保する。 重要なパラメータである濁度は、水質に影響を及ぼす重大な問題を引き起こす。 その正確な評価は、生態系と人間の消費を守るために重要であり、注意深く注意と行動を要求する。 そこで本研究では,sentinel-2レベル2aの高分解能データにcatboost machine learning(ml)を統合することにより,濁度汚染をモニタリングする新しい手法を提案する。 従来の方法は労働集約的であり、CatBoostは効率的なソリューションを提供し、予測精度に優れている。 大気補正されたSentinel-2データをGoogle Earth Engine(GEE)を通じて利用することで、スケーラブルで正確な濁度モニタリングに寄与する。 香港の汚染物質モニタリングステーションに由来する特定の表型データセットは、研究を豊かにし、地域固有の洞察を提供する。 結果は、この統合アプローチの妥当性を示し、世界的な水質管理に高度な技術を採用するための基礎を築いた。

Monitoring water contaminants is of paramount importance, ensuring public health and environmental well-being. Turbidity, a key parameter, poses a significant problem, affecting water quality. Its accurate assessment is crucial for safeguarding ecosystems and human consumption, demanding meticulous attention and action. For this, our study pioneers a novel approach to monitor the Turbidity contaminant, integrating CatBoost Machine Learning (ML) with high-resolution data from Sentinel-2 Level-2A. Traditional methods are labor-intensive while CatBoost offers an efficient solution, excelling in predictive accuracy. Leveraging atmospherically corrected Sentinel-2 data through the Google Earth Engine (GEE), our study contributes to scalable and precise Turbidity monitoring. A specific tabular dataset derived from Hong Kong contaminants monitoring stations enriches our study, providing region-specific insights. Results showcase the viability of this integrated approach, laying the foundation for adopting advanced techniques in global water quality management.
翻訳日:2024-01-09 16:57:58 公開日:2024-01-08
# 原子蒸気を用いた光学エクストリーム学習機

Optical Extreme Learning Machines with Atomic Vapors ( http://arxiv.org/abs/2401.03791v1 )

ライセンス: Link先を確認
Nuno A. Silva, Vicente Rocha, Tiago D. Ferreira(参考訳) 極端学習機械は、高次元出力空間上の計算タスクを実行するために非線形ランダムプロジェクションを探索する。 トレーニングは出力層でのみ行われるため、このアプローチはトレーニングプロセスをスピードアップする可能性と、物理システムをコンピューティングプラットフォームに変換する能力を持っている。 しかし, 従来の非線形光学材料では, 強い非線形ダイナミクスを必要とするため, 高速・低消費電力の光学解は実現が困難である。 この文脈において、この写本は、近共振条件下で原子ガスを使用して、その拡張された非線形光学特性を利用した光学的極端な学習マシンを実装する可能性を探求する。 以上の結果から,これらのシステムは光学的極端学習機として機能するだけでなく,数光子レベルでの計算も可能であり,エネルギー効率のよい計算ソリューションの可能性が示唆された。

Extreme learning machines explore nonlinear random projections to perform computing tasks on high-dimensional output spaces. Since training only occurs at the output layer, the approach has the potential to speed up the training process and the capacity to turn any physical system into a computing platform. Yet, requiring strong nonlinear dynamics, optical solutions operating at fast processing rates and low power can be hard to achieve with conventional nonlinear optical materials. In this context, this manuscript explores the possibility of using atomic gases in near-resonant conditions to implement an optical extreme learning machine leveraging their enhanced nonlinear optical properties. Our results suggest that these systems have the potential not only to work as an optical extreme learning machine but also to perform these computations at the few-photon level, paving opportunities for energy-efficient computing solutions.
翻訳日:2024-01-09 16:57:43 公開日:2024-01-08
# グラフニューラルネットワークの推論特性

Inferring Properties of Graph Neural Networks ( http://arxiv.org/abs/2401.03790v1 )

ライセンス: Link先を確認
Dat Nguyen (1), Hieu M. Vu (2), Cong-Thanh Le (1), Bach Le (1), David Lo (4), Corina Pasareanu (5) ((1) University of Melbourne, (2) Independent Researcher, (3) George Mason University, (4) Singapore Management University, (5) Carnegie Mellon University)(参考訳) GNNにおける最初の自動プロパティ推論手法であるGNNInferを提案する。 GNNにおける入力構造の変化に対処するため、GNNInferはまず、GNNの予測に大きく貢献する代表的影響力を持つ構造の集合を同定する。 これらの構造を用いて、gnninferは、影響のある構造とgnnの各対を等価なfnnに変換し、既存のプロパティ推論技術を利用して、影響のある構造に特有のgnnのプロパティを効果的にキャプチャする。 GNNINferは取得したプロパティを、影響力のある構造を含む任意の入力グラフに一般化する。 最後に、GNNInferは、完全な入力グラフが与えられた推論特性からGNN出力の偏差を推定するモデル(決定木または線形回帰)を構築することにより、推論特性の正しさを改善する。 学習モデルは、GNNInferがGNNの入力と出力に制約のある推論プロパティを拡張し、完全な入力グラフを保持する強いプロパティを得るのに役立つ。 我々の実験は、GNNInferが、人気のある現実世界のGNNの潜在的な特性を推測するのに効果的であることを示し、さらに重要なのは、これらの特性がGNNのバックドア攻撃を効果的に防御するのに役立ちます。 特に、13の基底真理特性のうち、GNNInferは8つの正しい性質を再発見し、残りの5つの基底真理特性を近似するおそらく正しい性質を発見した。 GNNInferが推定したプロパティを使用して、GNNの最先端のバックドア攻撃テクニック、すなわちUGBAを防御する実験により、GNNInferの防衛成功率は、既存のベースラインの最大30倍であることが示された。

We propose GNNInfer, the first automatic property inference technique for GNNs. To tackle the challenge of varying input structures in GNNs, GNNInfer first identifies a set of representative influential structures that contribute significantly towards the prediction of a GNN. Using these structures, GNNInfer converts each pair of an influential structure and the GNN to their equivalent FNN and then leverages existing property inference techniques to effectively capture properties of the GNN that are specific to the influential structures. GNNINfer then generalizes the captured properties to any input graphs that contain the influential structures. Finally, GNNInfer improves the correctness of the inferred properties by building a model (either a decision tree or linear regression) that estimates the deviation of GNN output from the inferred properties given full input graphs. The learned model helps GNNInfer extend the inferred properties with constraints to the input and output of the GNN, obtaining stronger properties that hold on full input graphs. Our experiments show that GNNInfer is effective in inferring likely properties of popular real-world GNNs, and more importantly, these inferred properties help effectively defend against GNNs' backdoor attacks. In particular, out of the 13 ground truth properties, GNNInfer re-discovered 8 correct properties and discovered likely correct properties that approximate the remaining 5 ground truth properties. Using properties inferred by GNNInfer to defend against the state-of-the-art backdoor attack technique on GNNs, namely UGBA, experiments show that GNNInfer's defense success rate is up to 30 times better than existing baselines.
翻訳日:2024-01-09 16:57:28 公開日:2024-01-08
# クリップフーリエ誘導ウェーブレット拡散による低光度画像強調

Low-light Image Enhancement via CLIP-Fourier Guided Wavelet Diffusion ( http://arxiv.org/abs/2401.03788v1 )

ライセンス: Link先を確認
Minglong Xue, Jinhong He, Yanyi He, Zhipu Liu, Wenhai Wang and Mingliang Zhou(参考訳) 低光度画像強調技術は著しく進歩しているが、不安定な画像品質回復と不十分な視覚知覚は依然として重要な課題である。 これらの問題を解決するために,CLIP-Fourier Guided Wavelet Diffusion(CFWD)による新しい低照度画像強調手法を提案する。 具体的には,ウェーブレット変換に基づく周波数領域の多スケール視覚言語を用いた誘導ネットワークの設計を行い,反復的に効果的な画像強調を実現する。 さらに,フーリエ変換のアドバンテージを細部まで組み合わせ,有意な知覚能力(hfdpm)を有するハイブリッド周波数領域空間を構築する。 この操作はウェーブレット拡散を誘導し、画像の微細な構造を復元し、多様性の混乱を避ける。 実世界の公開ベンチマークにおける広範囲な定量的・定性的実験により,本手法が既存の最先端手法を上回っており,通常の画像と類似した画像の再現性が向上した。 コードはhttps://github.com/He-Jinhong/CFWDで入手できる。

Low-light image enhancement techniques have significantly progressed, but unstable image quality recovery and unsatisfactory visual perception are still significant challenges. To solve these problems, we propose a novel and robust low-light image enhancement method via CLIP-Fourier Guided Wavelet Diffusion, abbreviated as CFWD. Specifically, we design a guided network with a multiscale visual language in the frequency domain based on the wavelet transform to achieve effective image enhancement iteratively. In addition, we combine the advantages of Fourier transform in detail perception to construct a hybrid frequency domain space with significant perceptual capabilities(HFDPM). This operation guides wavelet diffusion to recover the fine-grained structure of the image and avoid diversity confusion. Extensive quantitative and qualitative experiments on publicly available real-world benchmarks show that our method outperforms existing state-of-the-art methods and better reproduces images similar to normal images. Code is available at https://github.com/He-Jinhong/CFWD.
翻訳日:2024-01-09 16:57:00 公開日:2024-01-08
# 二元フィードバックによる長期安全強化学習

Long-term Safe Reinforcement Learning with Binary Feedback ( http://arxiv.org/abs/2401.03786v1 )

ライセンス: Link先を確認
Akifumi Wachi, Wataru Hashimoto, Kazumune Hashimoto(参考訳) 安全は実問題に強化学習(RL)を適用する上で必須の要件である。 近年、安全なRLアルゴリズムが提案されているが、ほとんどの既存の研究は概ねそうである。 1) 数値的安全フィードバックの受信に依存している。 2) 学習過程における安全性は保証されない。 3) 問題を既知の決定論的遷移力学に限定する; および/または 4) いかなる州に対しても既知の安全政策の存在を前提とする。 そこで我々は,二項安全性フィードバックと未知の確率的状態遷移関数を有する制約付きマルコフ決定プロセス(cmdps)のための安全性rlアルゴリズムであるlobisarlを提案する。 lobisarlは報酬を最大化するポリシーを最適化し、エージェントが各エピソードを通して安全な状態-アクションペアだけを高い確率で実行する長期的な安全性を保証する。 具体的には、LoBiSaRLは一般化線形モデル(GLM)を介して二項安全関数をモデル化し、適切な仮定の下での将来の安全性への影響を推論しながら、各ステップで保守的にのみ安全な行動をとる。 理論的には,LoBiSaRLは長期安全制約を高い確率で保証している。 最後に,提案手法は既存の手法よりも安全であり,報奨効果を著しく損なわないことを示す。

Safety is an indispensable requirement for applying reinforcement learning (RL) to real problems. Although there has been a surge of safe RL algorithms proposed in recent years, most existing work typically 1) relies on receiving numeric safety feedback; 2) does not guarantee safety during the learning process; 3) limits the problem to a priori known, deterministic transition dynamics; and/or 4) assume the existence of a known safe policy for any states. Addressing the issues mentioned above, we thus propose Long-term Binaryfeedback Safe RL (LoBiSaRL), a safe RL algorithm for constrained Markov decision processes (CMDPs) with binary safety feedback and an unknown, stochastic state transition function. LoBiSaRL optimizes a policy to maximize rewards while guaranteeing a long-term safety that an agent executes only safe state-action pairs throughout each episode with high probability. Specifically, LoBiSaRL models the binary safety function via a generalized linear model (GLM) and conservatively takes only a safe action at every time step while inferring its effect on future safety under proper assumptions. Our theoretical results show that LoBiSaRL guarantees the long-term safety constraint, with high probability. Finally, our empirical results demonstrate that our algorithm is safer than existing methods without significantly compromising performance in terms of reward.
翻訳日:2024-01-09 16:56:40 公開日:2024-01-08
# 相互作用を用いた重要な画素群の同定

Identifying Important Group of Pixels using Interactions ( http://arxiv.org/abs/2401.03785v1 )

ライセンス: Link先を確認
Kosuke Sumiyasu, Kazuhiko Kawamoto, Hiroshi Kera(参考訳) 画像分類器の挙動をよりよく理解するには,個々の画素のモデル予測への寄与を可視化することが有用である。 本研究では,予測信頼度の高い画素群を効率的に正確に識別する手法であるmoxi~($\textbf{mo}$del e$\textbf{x}$planation by $\textbf{i}$nteractions)を提案する。 提案手法は,個々の画素の影響とモデルの信頼性に対する画素の協調的影響を考慮し,ゲーム理論の概念,シェープ値,相互作用を利用する。 理論的解析と実験により, grad-cam, attention rollout, shapley値を用いた可視化手法よりも, モデル出力に寄与する画素の識別性が向上した。 先行研究はshapley値と相互作用の計算における指数計算コストに苦しめられているが、これは我々のタスクの線形コストに還元できることを示した。

To better understand the behavior of image classifiers, it is useful to visualize the contribution of individual pixels to the model prediction. In this study, we propose a method, MoXI~($\textbf{Mo}$del e$\textbf{X}$planation by $\textbf{I}$nteractions), that efficiently and accurately identifies a group of pixels with high prediction confidence. The proposed method employs game-theoretic concepts, Shapley values and interactions, taking into account the effects of individual pixels and the cooperative influence of pixels on model confidence. Theoretical analysis and experiments demonstrate that our method better identifies the pixels that are highly contributing to the model outputs than widely-used visualization methods using Grad-CAM, Attention rollout, and Shapley value. While prior studies have suffered from the exponential computational cost in the computation of Shapley value and interactions, we show that this can be reduced to linear cost for our task.
翻訳日:2024-01-09 16:56:20 公開日:2024-01-08
# 臨界インフラにおけるサイバーセキュリティ:ポスト量子暗号の視点

Cybersecurity in Critical Infrastructures: A Post-Quantum Cryptography Perspective ( http://arxiv.org/abs/2401.03780v1 )

ライセンス: Link先を確認
Javier Oliva del Moral, Antonio deMarti iOlius, Gerard Vidal, Pedro M. Crespo, Josu Etxezarreta Martinez(参考訳) 産業環境の機械は、数年前にインターネットに接続され、その性能が向上した。 しかし、このような環境はサイバー攻撃に対して脆弱であり、経済や社会問題を引き起こしている。 近年,産業環境へのサイバー攻撃の増加が経験されている。 さらに、otデバイス間の通信における暗号システムの実装は、otが一般的にレガシー要素で構成され、低計算能力で特徴付けられるため、it環境よりも難しいタスクである。 このため、産業用通信ネットワークにおける暗号システムの実装は、通信のセキュリティと産業用インフラの償却とのトレードオフに直面している。 クリティカル・インフラストラクチャー(英: critical infrastructure、ci)とは、電気や水など、日々の社会や経済の発展に重要な資源を提供する産業であり、それらの通信はサイバー攻撃の標的となっている。 さらに、サイバーセキュリティに対する新たな脅威は、RSAやECCのような最先端の暗号プロトコルを破る可能性から、量子コンピュータの理論的な提案で発生している。 機能的量子コンピュータの追求は、多くのグローバルエージェントを含む技術競争を引き起こした。 これらのエージェントは、セキュアな通信を量子セキュアなパラダイムに移行することが、フォールトトレランスの到来前に確立すべき優先事項であることを認識するようになった。 この意味では、QKDとPQCの2つの主要な暗号解が提案されている。 それでも、量子セキュアソリューションは主にIT環境の観点から中心を置いている。 本稿では,pqcソリューションをciに適用し,これらのシナリオに最も適した暗号スキームを解析するという問題点について考察する。

The machinery of industrial environments was connected to the Internet years ago with the scope of increasing their performance. However, this made such environments vulnerable against cyber-attacks that can compromise their correct functioning resulting in economic or social problems. Lately, an increase of cyberattacks to industrial environments has been experienced. Moreover, implementing cryptosystems in the communications between OT devices is a more challenging task than for IT environments since the OT are generally composed of legacy elements, characterized by low-computational capabilities. Consequently, implementing cryptosystems in industrial communication networks faces a trade-off between the security of the communications and the amortization of the industrial infrastructure. Critical Infrastructure (CI) refers to the industries which provide key resources for the daily social and economical development, e.g. electricity or water, and their communications are a very exposed target to cyberattacks. Furthermore, a new threat to cybersecurity has arisen with the theoretical proposal of quantum computers, due to their potential ability of breaking state-of-the-art cryptography protocols, such as RSA or ECC. The chase of functional quantum computers has resulted in a technological race involving many global agents. Those agents have become aware that transitioning their secure communications to a quantum secure paradigm is a priority that should be established before the arrival of fault-tolerance. In this sense, two main cryptographic solutions have been proposed: QKD and PQC. Nevertheless, quantum secure solutions have been mainly centered from the perspective of IT environments. In this paper, we provide a perspective of the problem of applying PQC solutions to CI and analyze which could be the most suitable cryptography schemes for these scenarios.
翻訳日:2024-01-09 16:55:58 公開日:2024-01-08
# 準最適専門家による逆強化学習

Inverse Reinforcement Learning with Sub-optimal Experts ( http://arxiv.org/abs/2401.03857v1 )

ライセンス: Link先を確認
Riccardo Poiani, Gabriele Curti, Alberto Maria Metelli, Marcello Restelli(参考訳) 逆強化学習(IRL)技術は、下層の未知のタスクにおいて最適に振る舞うと仮定される専門家エージェントの振る舞いを説明する報酬関数を推論する問題を扱う。 しかし、関心のあるいくつかの問題では、複数の専門家の最適度の異なる行動(例えば、アマチュアからプロまでスキルの異なるレーシングドライバー)を観察することが可能である。 このことから,本研究では,最適なエージェントによるデモンストレーションに加えて,複数のサブ最適専門家の振る舞いを観察できる問題まで,irlの定式化を拡張する。 この問題を考えると、我々はまず、与えられた専門家集合、すなわち実現可能な報酬集合と適合する報酬関数のクラスの理論的性質について研究する。 以上の結果から,複数の準最適専門家の存在は,相反する報酬の組を大幅に縮小できることが示唆された。 さらに,生成モデルを用いて実現可能な報酬集合を推定する統計的複雑性について検討した。 そこで本研究では,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合,最小限のサンプリングアルゴリズムを解析する。

Inverse Reinforcement Learning (IRL) techniques deal with the problem of deducing a reward function that explains the behavior of an expert agent who is assumed to act optimally in an underlying unknown task. In several problems of interest, however, it is possible to observe the behavior of multiple experts with different degree of optimality (e.g., racing drivers whose skills ranges from amateurs to professionals). For this reason, in this work, we extend the IRL formulation to problems where, in addition to demonstrations from the optimal agent, we can observe the behavior of multiple sub-optimal experts. Given this problem, we first study the theoretical properties of the class of reward functions that are compatible with a given set of experts, i.e., the feasible reward set. Our results show that the presence of multiple sub-optimal experts can significantly shrink the set of compatible rewards. Furthermore, we study the statistical complexity of estimating the feasible reward set with a generative model. To this end, we analyze a uniform sampling algorithm that results in being minimax optimal whenever the sub-optimal experts' performance level is sufficiently close to the one of the optimal agent.
翻訳日:2024-01-09 16:48:11 公開日:2024-01-08
# ベンチマークがこれまでになかった大胆な道のり - コード生成評価におけるバイアスと欠点の顕在化

Boldly Going Where No Benchmark Has Gone Before: Exposing Bias and Shortcomings in Code Generation Evaluation ( http://arxiv.org/abs/2401.03855v1 )

ライセンス: Link先を確認
Ankit Yadav, Mayank Singh(参考訳) 大規模言語モデル(LLM)を用いた人間記述からのコード生成の人気が高まり、既存のモデルと新興モデルの能力を評価するためにいくつかのベンチマークが提案されている。 本研究では,pythonコード生成に広く使用されている2つのベンチマークであるhumanevalとmbppについて,その多様性と難易度に焦点をあてた大規模評価を行った。 以上の結果から,ほとんどの概念を無視的あるいは全く表現しない,限られた数のプログラミング概念に対する顕著なバイアスが明らかとなった。 さらに,簡単なプログラミング質問の比率が比較的高いことも指摘し,コード生成タスクにおけるモデル性能の過大評価につながる可能性も示唆した。

Motivated by the increasing popularity of code generation from human descriptions using large language models (LLMs), several benchmarks have been proposed to assess the capabilities of existing and emerging models. This study presents a large-scale human evaluation of HumanEval and MBPP, two widely used benchmarks for Python code generation, focusing on their diversity and difficulty. Our findings reveal a significant bias towards a limited number of programming concepts, with negligible or no representation of most concepts. Additionally, we identify a concerningly high proportion of easy programming questions, potentially leading to an overestimation of model performance on code generation tasks.
翻訳日:2024-01-09 16:47:52 公開日:2024-01-08
# TIER:AIGC画像品質評価のためのテキストおよび画像エンコーダに基づく回帰

TIER: Text and Image Encoder-based Regression for AIGC Image Quality Assessment ( http://arxiv.org/abs/2401.03854v1 )

ライセンス: Link先を確認
Jiquan Yuan, Xinyan Cao, Jinming Che, Qinyuan Wang, Sen Liang, Wei Ren, Jinlong Lin, Xixin Cao(参考訳) 近年,人間の知覚から見たAIGC画像の品質評価を目的としたAIGC画像品質評価(AIGCIQA)が,コンピュータビジョンの新しいトピックとして登場した。 AIGCIQAタスクでは、ノイズ、ぼかし、圧縮によって歪んだ元の画像から画像が導出される一般的な画像品質評価タスクとは異なり、画像は通常、テキストプロンプトを使用して生成モデルによって生成される。 近年,AIGCIQAの推進に向けた重要な取り組みが行われている。 しかし、既存のほとんどのAIGCIQAメソッドは、予測されたスコアを直接生成した画像から取り除き、これらの画像のテキストプロンプトに含まれる情報を見渡す。 この監視はAIGCIQA法の性能を部分的に制限する。 この問題に対処するため,テキストおよび画像エンコーダに基づく回帰(TIER)フレームワークを提案する。 具体的には、生成された画像と対応するテキストプロンプトを入力として処理し、テキストエンコーダと画像エンコーダを用いて、これらのテキストプロンプトと生成された画像から特徴を抽出する。 提案手法の有効性を実証するため, AGIQA-1K, AGIQA-3K, AIGCIQA2023 など,いくつかの主要なAIGCIQAデータベース上で実験を行った。 実験結果から,提案手法は一般にベースラインよりも優れた性能を示すことが示唆された。

Recently, AIGC image quality assessment (AIGCIQA), which aims to assess the quality of AI-generated images from a human perception perspective, has emerged as a new topic in computer vision. Unlike common image quality assessment tasks where images are derived from original ones distorted by noise, blur, and compression, in AIGCIQA tasks, images are typically generated by generative models using text prompts. Considerable efforts have been made in the past years to advance AIGCIQA. However, most existing AIGCIQA methods regress predicted scores directly from individual generated images, overlooking the information contained in the text prompts of these images. This oversight partially limits the performance of these AIGCIQA methods. To address this issue, we propose a text and image encoder-based regression (TIER) framework. Specifically, we process the generated images and their corresponding text prompts as inputs, utilizing a text encoder and an image encoder to extract features from these text prompts and generated images, respectively. To demonstrate the effectiveness of our proposed TIER method, we conduct extensive experiments on several mainstream AIGCIQA databases, including AGIQA-1K, AGIQA-3K, and AIGCIQA2023. The experimental results indicate that our proposed TIER method generally demonstrates superior performance compared to baseline in most cases.
翻訳日:2024-01-09 16:47:39 公開日:2024-01-08
# 視覚野におけるfMRI活動の符号化のための新しいマルチモーダルトレーニングパラダイム LLM の配向

Aligned with LLM: a new multi-modal training paradigm for encoding fMRI activity in visual cortex ( http://arxiv.org/abs/2401.03851v1 )

ライセンス: Link先を確認
Shuxiao Ma, Linyuan Wang, Senbao Hou, Bin Yan(参考訳) 近年,NLP(Natural Language Processing)とCV(Computer Vision)コミュニティ全体にわたって,事前訓練された大規模言語モデル(LLM)(GPT-4など)の人気が高まっている。 これらのLSMは高度なマルチモーダル理解能力を示し、様々なベンチマークで高い性能を示した。 llmは、視覚エンコーディングモデルにおける脳のような特性を強化するための重要なガイダンスを持つ、人工知能の特徴を具現化し始めた。 そこで本研究では,視覚野のfMRI活性を符号化するためのマルチモーダルトレーニングパラダイムを提案する。 このパラダイムに基づいて,LLM-Visual Encoding Model (LLM-VEM) というfMRIデータの符号化モデルを訓練した。 具体的には、LLM(miniGPT4)を用いて、すべての刺激画像に対して記述テキストを生成し、高品質なテキスト記述セットを形成する。 さらに,事前学習されたテキストエンコーダ(clip)を用いて,これらの詳細な記述を処理し,テキスト埋め込み機能を得る。 次に、コントラスト損失関数を用いて画像埋め込み特徴とテキスト埋め込み特徴との間の距離を最小化し、刺激画像とテキスト情報のアライメント操作を完了させる。 事前学習されたLLMの助けを借りて、このアライメントプロセスは視覚的エンコーディングモデルのより良い学習を容易にし、より高い精度を実現する。 最終実験の結果から,我々の学習パラダイムは,視覚エンコーディングモデルの性能向上に大きく寄与したことが示唆された。

Recently, there has been a surge in the popularity of pre trained large language models (LLMs) (such as GPT-4), sweeping across the entire Natural Language Processing (NLP) and Computer Vision (CV) communities. These LLMs have demonstrated advanced multi-modal understanding capabilities and showcased strong performance across various benchmarks. The LLM has started to embody traits of artificial general intelligence, which holds vital guidance for enhancing brain-like characteristics within visual encoding models. Hence, This paper proposes a new multi-modal training paradigm, aligning with LLM, for encoding fMRI activity in visual cortex. Based on this paradigm, we trained an encoding model in fMRI data named the LLM-Visual Encoding Model (LLM-VEM). Specifically, we utilize LLM (miniGPT4) to generate descriptive text for all stimulus images, forming a high-quality textual description set. Moreover, we use the pre-trained text encoder (CLIP) to process these detailed descriptions, obtaining the text embedding features. Next, we use the contrast loss function to minimize the distance between the image embedding features and the text embedding features to complete the alignment operation of the stimulus image and text information. With the assistance of the pre-trained LLM, this alignment process facilitates better learning of the visual encoding model, resulting in higher precision. The final experimental results indicate that our training paradigm has significantly aided in enhancing the performance of the visual encoding model.
翻訳日:2024-01-09 16:47:16 公開日:2024-01-08
# e-healthcareエコシステムにおけるブロックチェーン統合の分析

Analysis of Blockchain Integration in the e-Healthcare Ecosystem ( http://arxiv.org/abs/2401.03848v1 )

ライセンス: Link先を確認
Abdellah Ouaguid, Mohamed Hanine, Zouhair Chiba, Noreddine Abghour, Hassan Ghazal(参考訳) ブロックチェーン技術の破壊的な影響については議論の余地がない。 医療エコシステムへの統合は、医療システムによって直面する多くの困難と制約を克服する助けとなった。 これは電子健康記録(EHR)とそのアクセス権の厳密な管理、および他のシステムとのセキュリティ、スケーラビリティ、柔軟性、相互運用性の点で顕著に証明されている。 本稿では、ブロックチェーン技術を用いた医療データ管理システムにおいて、最も一般的なアプローチの研究と分析を行う。 次に、観察された共通特性に基づいて評価を行い、1つのアプローチを他のアプローチと区別する。 本分析の結果は, それぞれのアプローチの利点と限界を浮き彫りにして, 読者のケーススタディに最も適した手法の選択を容易にする。 さらに、eヘルスの文脈における効果的な実装として、ブロックチェーンネットワークにおける主要な利害関係者の不完全な表現、国家間の法的相互運用を保証するための規制柔軟性の欠如、倫理的および法的基準の遵守を保証する公式な規制当局の不十分な統合など、重要な課題の存在を強調します。 これらの課題に対処するには、規制当局、技術開発者、医療関係者の緊密な協力を確立する必要がある。

No one can dispute the disruptive impact of blockchain technology, which has long been considered one of the major revolutions of contemporary times. Its integration into the healthcare ecosystem has helped overcome numerous difficulties and constraints faced by healthcare systems. This has been notably demonstrated in the meticulous management of electronic health records (EHR) and their access rights, as well as in its capabilities in terms of security, scalability, flexibility, and interoperability with other systems. This article undertakes the study and analysis of the most commonly adopted approaches in healthcare data management systems using blockchain technology. An evaluation is then conducted based on a set of observed common characteristics, distinguishing one approach from the others. The results of this analysis highlight the advantages and limitations of each approach, thus facilitating the choice of the method best suited to the readers' specific case study. Furthermore, for effective implementation in the context of e-health, we emphasize the existence of crucial challenges, such as the incomplete representation of major stakeholders in the blockchain network, the lack of regulatory flexibility to ensure legal interoperability by country, and the insufficient integration of an official regulatory authority ensuring compliance with ethical and legal standards. To address these challenges, it is necessary to establish close collaboration between regulators, technology developers, and healthcare stakeholders.
翻訳日:2024-01-09 16:46:51 公開日:2024-01-08
# UFO:3Dポイント・クラウドでの物体検出

UFO: Unidentified Foreground Object Detection in 3D Point Cloud ( http://arxiv.org/abs/2401.03846v1 )

ライセンス: Link先を確認
Hyunjun Choi, Hawook Jeong, Jin Young Choi(参考訳) 本稿では,未確認のフォアグラウンド物体(ufo)を3dポイントクラウドで検出する新たな課題を提起する。 UFO検出は、既存の3Dオブジェクト検出器が、3Dローカライゼーションとout-of-Distribution(OOD)検出の両方において非常に難しい課題に直面するという点で困難である。 これらの課題に対処するために,評価プロトコル,方法論,ベンチマークの3つのタスクを含む新しいUFO検出フレームワークを提案する。 本評価は,UFOの局所化とOOD検出の両面から,我々の目標に対する性能を測定するための新しいアプローチを含む。 本手法は,目標達成のための実践的手法を含む。 このベンチマークは、KITTI Miscベンチマークと、より多様なUFOをモデリングするための追加の合成ベンチマークで構成されています。 提案したフレームワークは、SECOND、PointPillars、PV-RCNN、PartA2の4つのベースライン検出器の広い範囲で性能を継続的に向上させ、将来におけるUFO検出の知見を提供する。

In this paper, we raise a new issue on Unidentified Foreground Object (UFO) detection in 3D point clouds, which is a crucial technology in autonomous driving in the wild. UFO detection is challenging in that existing 3D object detectors encounter extremely hard challenges in both 3D localization and Out-of-Distribution (OOD) detection. To tackle these challenges, we suggest a new UFO detection framework including three tasks: evaluation protocol, methodology, and benchmark. The evaluation includes a new approach to measure the performance on our goal, i.e. both localization and OOD detection of UFOs. The methodology includes practical techniques to enhance the performance of our goal. The benchmark is composed of the KITTI Misc benchmark and our additional synthetic benchmark for modeling a more diverse range of UFOs. The proposed framework consistently enhances performance by a large margin across all four baseline detectors: SECOND, PointPillars, PV-RCNN, and PartA2, giving insight for future work on UFO detection in the wild.
翻訳日:2024-01-09 16:46:27 公開日:2024-01-08
# Er$^{3+}$:CaWO$_4$における光-RF変換

Opto-RF transduction in Er$^{3+}$:CaWO$_4$ ( http://arxiv.org/abs/2401.03845v1 )

ライセンス: Link先を確認
Thierry Chaneli\`ere, R\'emi Dardaillon, Pierre Lemonde, J\'er\'emie J. Viennot, Emmanuel Flurin, Patrice Bertet, Diana Serrano, Philippe Goldner(参考訳) erbiumをドープしたcawo$_4$結晶を、それぞれ12ghzおよび1532nmの光領域間の共振トランスデューサとして使用する。 我々は、スピン結合を高めるためにRF共振器を用いるが、光に単一パス(非共振)設定を保持する。 全体的な効率は低いが、私たちはトランスダクション過程を慎重に特徴づけ、その性能は、私たちが定義し区別する2つの異なる指標、すなわち電気光学と量子効率によって説明できることを示す。 15.7 dbm rf電力で-84 dbの電気光学効率に達する。 対応する量子効率は 0.4 dbm の光学パワー -142 db である。 我々は変換過程をモデル化するために、原子系における光-物質相互作用を記述することでよく知られるschr\"odinger-maxwell形式論を開発した。 一般に量子トランスダクションを記述するために用いられる空洞量子電磁力学(キャビティQED)アプローチとの接続を明確にする。

We use an erbium doped CaWO$_4$ crystal as a resonant transducer between the RF and optical domains at 12 GHz and 1532 nm respectively. We employ a RF resonator to enhance the spin coupling but keep a single-pass (non-resonant) setup in optics. The overall efficiency is low but we carefully characterize the transduction process and show that the performance can be described by two different metrics that we define and distinguish: the electro-optics and the quantum efficiencies. We reach an electro-optics efficiency of -84 dB for 15.7 dBm RF power. The corresponding quantum efficiency is -142 dB for 0.4 dBm optical power. We develop the Schr\"odinger-Maxwell formalism, well-known to describe light-matter interactions in atomic systems, in order to model the conversion process. We explicitly make the connection with the cavity quantum electrodynamics (cavity QED) approach that are generally used to describe quantum transduction.
翻訳日:2024-01-09 16:46:07 公開日:2024-01-08
# 自己重み付きトークンラベル付き完全注意ネットワーク

Fully Attentional Networks with Self-emerging Token Labeling ( http://arxiv.org/abs/2401.03844v1 )

ライセンス: Link先を確認
Bingyin Zhao, Zhiding Yu, Shiyi Lan, Yutao Cheng, Anima Anandkumar, Yingjie Lao, Jose M. Alvarez(参考訳) 近年の研究では、ViT(Vision Transformer)が配布外シナリオに対して堅牢であることが示されている。 特に、VTバックボーンのファミリーであるFully Attentional Network (FAN)は最先端の堅牢性を実現している。 本稿では,FANモデルを再検討し,STL(Self-emerging token labeling)フレームワークを用いて事前学習を改善する。 本手法は2段階のトレーニングフレームワークを含む。 具体的には,まずfan token labeler (fan-tl) を訓練し,意味的に有意義なpatch token labelsを生成する。 提案したSTLフレームワークでは、FAN-L-Hybrid(77.3Mパラメータ)に基づく最良のモデルが、ImageNet-1KおよびImageNet-C上で84.8%のTop-1精度と42.1%のmCEを実現し、余分なデータを使用しずにImageNet-A(46.1%)とImageNet-R(56.6%)の新たな最先端を設定。 提案するフレームワークでは,セマンティックセグメンテーションなどの下流タスクのパフォーマンスも大幅に向上し,モデルのロバスト性も最大1.7%向上した。 コードはhttps://github.com/NVlabs/STLで入手できる。

Recent studies indicate that Vision Transformers (ViTs) are robust against out-of-distribution scenarios. In particular, the Fully Attentional Network (FAN) - a family of ViT backbones, has achieved state-of-the-art robustness. In this paper, we revisit the FAN models and improve their pre-training with a self-emerging token labeling (STL) framework. Our method contains a two-stage training framework. Specifically, we first train a FAN token labeler (FAN-TL) to generate semantically meaningful patch token labels, followed by a FAN student model training stage that uses both the token labels and the original class label. With the proposed STL framework, our best model based on FAN-L-Hybrid (77.3M parameters) achieves 84.8% Top-1 accuracy and 42.1% mCE on ImageNet-1K and ImageNet-C, and sets a new state-of-the-art for ImageNet-A (46.1%) and ImageNet-R (56.6%) without using extra data, outperforming the original FAN counterpart by significant margins. The proposed framework also demonstrates significantly enhanced performance on downstream tasks such as semantic segmentation, with up to 1.7% improvement in robustness over the counterpart model. Code is available at https://github.com/NVlabs/STL.
翻訳日:2024-01-09 16:45:53 公開日:2024-01-08
# widthformer:効率的なトランスフォーマティブベースのbevビュー変換に向けて

WidthFormer: Toward Efficient Transformer-based BEV View Transformation ( http://arxiv.org/abs/2401.03836v1 )

ライセンス: Link先を確認
Chenhongyi Yang, Tianwei Lin, Lichao Huang and Elliot J. Crowley(参考訳) 本稿では,リアルタイム自動運転アプリケーション用に調整された,新しいトランスフォーマティブベースバードズアイビュー(bev)3次元検出手法であるwidthformerを提案する。 WidthFormerは計算効率が高く、堅牢で、デプロイに特別なエンジニアリング作業を必要としない。 本研究では,3次元幾何情報を高精度にカプセル化できる新しい3次元位置符号化機構を提案する。 この機構は既存のスパース3Dオブジェクト検出器にも有用である。 最近提案した作業にインスパイアされ,注目キーや値として機能する際の画像特徴を垂直に圧縮することで,モデルの有効性をさらに向上する。 特徴圧縮による潜在的な情報損失を補償する2つのモジュールも導入する。 広範に使用されている3dオブジェクト検出ベンチマークの実験的評価では,従来の3d検出アーキテクチャよりも優れていた。 さらに重要なことは、私たちのモデルは極めて効率的です。 例えば、256\times 704$の入力イメージを使用すると、NVIDIA 3090 GPUで1.5ミリ秒のレイテンシを実現する。 さらに、widthformerは、異なるカメラの摂動に対して強いロバスト性を示す。 我々の研究は、現実の複雑な道路環境におけるBEV変換手法の展開に関する貴重な洞察を提供する。 コードはhttps://github.com/ChenhongyiYang/WidthFormerで入手できる。

In this work, we present WidthFormer, a novel transformer-based Bird's-Eye-View (BEV) 3D detection method tailored for real-time autonomous-driving applications. WidthFormer is computationally efficient, robust and does not require any special engineering effort to deploy. In this work, we propose a novel 3D positional encoding mechanism capable of accurately encapsulating 3D geometric information, which enables our model to generate high-quality BEV representations with only a single transformer decoder layer. This mechanism is also beneficial for existing sparse 3D object detectors. Inspired by the recently-proposed works, we further improve our model's efficiency by vertically compressing the image features when serving as attention keys and values. We also introduce two modules to compensate for potential information loss due to feature compression. Experimental evaluation on the widely-used nuScenes 3D object detection benchmark demonstrates that our method outperforms previous approaches across different 3D detection architectures. More importantly, our model is highly efficient. For example, when using $256\times 704$ input images, it achieves 1.5 ms latency on NVIDIA 3090 GPU. Furthermore, WidthFormer also exhibits strong robustness to different degrees of camera perturbations. Our study offers valuable insights into the deployment of BEV transformation methods in real-world, complex road environments. Code is available at https://github.com/ChenhongyiYang/WidthFormer .
翻訳日:2024-01-09 16:45:24 公開日:2024-01-08
# データ駆動スペクトル再構成の限界 --光学的解析--

Limitations of Data-Driven Spectral Reconstruction -- An Optics-Aware Analysis ( http://arxiv.org/abs/2401.03835v1 )

ライセンス: Link先を確認
Qiang Fu, Matheus Souza, Eunsue Choi, Suhyun Shin, Seung-Hwan Baek, Wolfgang Heidrich(参考訳) ハイパースペクトルイメージングは、スペクトルシグネチャを記録することで、物質を識別する能力を持つコンピュータビジョンシステムに権限を与える。 データ駆動型スペクトル再構成における最近の取り組みは、専用ハードウェアではなく、コスト効率の高いRGBカメラで撮影したRGB画像からスペクトル情報を抽出することを目的としている。 本稿では,RGB画像に符号化された情報の性質と,カメラの光学系における情報依存性に関する基礎的限界と,現行のデータセットと過適合性に関する実用的限界の両方を評価することによって,そのような手法の性能を体系的に解析する。 現在のモデルは、例えばノイズレベルやRGBファイルの圧縮など、わずかなバリエーションの下では堅牢ではない。 メソッドとデータセットはどちらも、メタメラ色に対処する能力に制限されている。 この問題はメタメリックデータ拡張によって部分的に克服できる。 さらに、光学レンズ収差は、RGB画像へのメタマー情報の符号化を改善するのに役立つ。

Hyperspectral imaging empowers computer vision systems with the distinct capability of identifying materials through recording their spectral signatures. Recent efforts in data-driven spectral reconstruction aim at extracting spectral information from RGB images captured by cost-effective RGB cameras, instead of dedicated hardware. In this paper we systematically analyze the performance of such methods, evaluating both the practical limitations with respect to current datasets and overfitting, as well as fundamental limits with respect to the nature of the information encoded in the RGB images, and the dependency of this information on the optical system of the camera. We find that the current models are not robust under slight variations, e.g., in noise level or compression of the RGB file. Both the methods and the datasets are also limited in their ability to cope with metameric colors. This issue can in part be overcome with metameric data augmentation. Moreover, optical lens aberrations can help to improve the encoding of the metameric information into the RGB image, which paves the road towards higher performing spectral imaging and reconstruction approaches.
翻訳日:2024-01-09 16:45:04 公開日:2024-01-08
# T-FREX: モバイルアプリレビューからトランスフォーマーに基づく特徴抽出手法

T-FREX: A Transformer-based Feature Extraction Method from Mobile App Reviews ( http://arxiv.org/abs/2401.03833v1 )

ライセンス: Link先を確認
Quim Motger, Alessio Miaschi, Felice Dell'Orletta, Xavier Franch, Jordi Marco(参考訳) モバイルアプリレビューは、ソフトウェア保守、進化、フィードバック分析を含むソフトウェア関連の知識生成活動のための大規模なデータソースである。 これらのレビューから機能(機能や特徴)を効果的に抽出することが、これらの特徴の受け入れ、関連する新機能要求の特定、機能開発の優先順位付けなどの分析を支援する鍵となる。 従来の方法は構文パターンベースのアプローチ(一般的にコンテキストに依存しない)にフォーカスし、クローズドなアプリのセットで評価し、複製が困難で、アプリのセットとドメインの削減に制限されている。 一方,ソフトウェア工学タスクにおけるトランスフォーマーアーキテクチャに基づく大規模言語モデル(LLM)の普及は,これらのモデルの性能を実証的に評価し,特徴抽出をサポートする基盤となる。 本研究では,モバイルアプリケーションレビュー機能抽出のためのトランスフォーマーベースの完全自動アプローチであるT-FREXを提案する。 まず、実際にクラウドソースされたソフトウェアレコメンデーションプラットフォームのユーザから、一連の真実の機能を収集し、自動的にアプリレビューのデータセットに転送します。 次に、新たに作成されたデータセットを使用して、異なるデータ構成の下で名前付きエンティティ認識タスクの複数のllmを微調整する。 我々は,T-FREXの性能をこの基礎的事実に対して評価し,T-FREXとフィールドのベースライン法を比較して解析を補完する。 最後に,T-FREXにより予測される特徴の質を人体外的評価により評価する。 以上の結果から,T-FREXは従来の構文に基づく手法よりも優れており,特にモデルが微調整された領域から新たな特徴を発見できる。

Mobile app reviews are a large-scale data source for software-related knowledge generation activities, including software maintenance, evolution and feedback analysis. Effective extraction of features (i.e., functionalities or characteristics) from these reviews is key to support analysis on the acceptance of these features, identification of relevant new feature requests and prioritization of feature development, among others. Traditional methods focus on syntactic pattern-based approaches, typically context-agnostic, evaluated on a closed set of apps, difficult to replicate and limited to a reduced set and domain of apps. Meanwhile, the pervasiveness of Large Language Models (LLMs) based on the Transformer architecture in software engineering tasks lays the groundwork for empirical evaluation of the performance of these models to support feature extraction. In this study, we present T-FREX, a Transformer-based, fully automatic approach for mobile app review feature extraction. First, we collect a set of ground truth features from users in a real crowdsourced software recommendation platform and transfer them automatically into a dataset of app reviews. Then, we use this newly created dataset to fine-tune multiple LLMs on a named entity recognition task under different data configurations. We assess the performance of T-FREX with respect to this ground truth, and we complement our analysis by comparing T-FREX with a baseline method from the field. Finally, we assess the quality of new features predicted by T-FREX through an external human evaluation. Results show that T-FREX outperforms on average the traditional syntactic-based method, especially when discovering new features from a domain for which the model has been fine-tuned.
翻訳日:2024-01-09 16:44:47 公開日:2024-01-08
# NLPにおける分類評価基準について

We Need to Talk About Classification Evaluation Metrics in NLP ( http://arxiv.org/abs/2401.03831v1 )

ライセンス: Link先を確認
Peter Vickers, Lo\"ic Barrault, Emilio Monti, Nikolaos Aletras(参考訳) トピック分類や感情分析などの自然言語処理(NLP)の分類タスクでは、モデル一般化可能性は通常、精度、F-Measure、AUC-ROCといった標準メトリクスで測定される。 メトリクスの多様性とそれらのアプリケーションの任意性は、使用すべき最高のメトリックに対して、NLP内に合意がないことを示唆している。 この欠如は、各計量がエンコードする基礎的ヒューリスティックの十分な検査がないことを示唆している。 これを解決するために、いくつかの標準分類基準をより「エキゾチック」なメトリクスと比較し、ランダムガウス正規化インフォームドネス指標がタスクパフォーマンスの相似ベースラインであることを実証する。 メトリクスの選択がどれほど重要であるかを示すために,合成シナリオ,自然言語理解,質問応答,機械翻訳など,幅広いnlpタスクについて広範な実験を行う。 これらのタスク全体で、モデルのランク付けにメトリクスのスーパーセットを使用し、Informednessが理想的なモデル特性を最もよく捉えていることを見つけます。 最後に、scikitlearn分類フォーマットに従ってインフォームドネスのpython実装をリリースする。

In Natural Language Processing (NLP) classification tasks such as topic categorisation and sentiment analysis, model generalizability is generally measured with standard metrics such as Accuracy, F-Measure, or AUC-ROC. The diversity of metrics, and the arbitrariness of their application suggest that there is no agreement within NLP on a single best metric to use. This lack suggests there has not been sufficient examination of the underlying heuristics which each metric encodes. To address this we compare several standard classification metrics with more 'exotic' metrics and demonstrate that a random-guess normalised Informedness metric is a parsimonious baseline for task performance. To show how important the choice of metric is, we perform extensive experiments on a wide range of NLP tasks including a synthetic scenario, natural language understanding, question answering and machine translation. Across these tasks we use a superset of metrics to rank models and find that Informedness best captures the ideal model characteristics. Finally, we release a Python implementation of Informedness following the SciKitLearn classifier format.
翻訳日:2024-01-09 16:44:18 公開日:2024-01-08
# 正確な二元化形態的ニューラルネットワークの基礎

A foundation for exact binarized morphological neural networks ( http://arxiv.org/abs/2401.03830v1 )

ライセンス: Link先を確認
Theodore Aouad, Hugues Talbot(参考訳) ディープニューラルネットワーク(nns)のトレーニングと実行には、多くの計算とエネルギー集約的なハードウェア(gpu、tpu...など)が必要です。 計算量と消費電力を減らす方法の1つは二重NNを使うことであるが、これは符号関数が非滑らかな勾配を持つため訓練が難しい。 本稿では,特定の条件下での性能を損なうことなくコンブネットを二元化できる数学的形態(mm)に基づくモデルを提案するが,現実のシナリオではこれらの条件が満足できない可能性がある。 そこで本研究では,2つの新しい近似手法を提案し,MMを用いたConvNets二項化のための堅牢な理論フレームワークを開発した。 最適化を改善するために正規化損失も提案する。 実験により,我々のモデルは複雑な形態素ネットワークを学習し,その性能を分類タスクで探索できることを示す。

Training and running deep neural networks (NNs) often demands a lot of computation and energy-intensive specialized hardware (e.g. GPU, TPU...). One way to reduce the computation and power cost is to use binary weight NNs, but these are hard to train because the sign function has a non-smooth gradient. We present a model based on Mathematical Morphology (MM), which can binarize ConvNets without losing performance under certain conditions, but these conditions may not be easy to satisfy in real-world scenarios. To solve this, we propose two new approximation methods and develop a robust theoretical framework for ConvNets binarization using MM. We propose as well regularization losses to improve the optimization. We empirically show that our model can learn a complex morphological network, and explore its performance on a classification task.
翻訳日:2024-01-09 16:43:59 公開日:2024-01-08
# デスクトップ・コンピュータインタラクションのためのマルチモーダルジェスチャー認識データセット

A multimodal gesture recognition dataset for desktop human-computer interaction ( http://arxiv.org/abs/2401.03828v1 )

ライセンス: Link先を確認
Qi Wang, Fengchao Zhu, Guangming Zhu, Liang Zhang, Ning Li, Eryang Gao(参考訳) ジェスチャー認識は、特にデスクトップレベルのアプリケーションにおいて、自然で効率的なヒューマンコンピュータインタラクション技術において必須の要素である。 しかし、現在のジェスチャー認識コミュニティには、軽量なジェスチャーキャプチャデバイスに適したデスクトップレベル(トップ視点)データセットがない。 本研究ではGR4DHCIというデータセットを構築した。 このデータセットを区別するのは、その固有の自然性、直感的な特徴、多様性である。 その主な目的は、デスクトップレベルのポータブルアプリケーションを開発するための貴重なリソースとして機能することである。 gr4dhciは7,000以上のジェスチャサンプルと合計382,447フレームからなる。 また,27の異なる手の位置をデータセットに組み込むことで,デスクトップインタラクション中の手の位置のばらつきを解消する。 GR4DHCIデータセットを用いて一連の実験を行い,本論文で提案した細粒度分類ブロックがモデルの認識精度を向上させることを実証した。 本論文で提示されたデータセットと実験結果は,デスクトップレベルのジェスチャ認識研究の進展を促進することが期待されている。

Gesture recognition is an indispensable component of natural and efficient human-computer interaction technology, particularly in desktop-level applications, where it can significantly enhance people's productivity. However, the current gesture recognition community lacks a suitable desktop-level (top-view perspective) dataset for lightweight gesture capture devices. In this study, we have established a dataset named GR4DHCI. What distinguishes this dataset is its inherent naturalness, intuitive characteristics, and diversity. Its primary purpose is to serve as a valuable resource for the development of desktop-level portable applications. GR4DHCI comprises over 7,000 gesture samples and a total of 382,447 frames for both Stereo IR and skeletal modalities. We also address the variances in hand positioning during desktop interactions by incorporating 27 different hand positions into the dataset. Building upon the GR4DHCI dataset, we conducted a series of experimental studies, the results of which demonstrate that the fine-grained classification blocks proposed in this paper can enhance the model's recognition accuracy. Our dataset and experimental findings presented in this paper are anticipated to propel advancements in desktop-level gesture recognition research.
翻訳日:2024-01-09 16:43:43 公開日:2024-01-08
# ベティ数に基づく損失面の位相的記述

A topological description of loss surfaces based on Betti Numbers ( http://arxiv.org/abs/2401.03824v1 )

ライセンス: Link先を確認
Maria Sofia Bucarelli, Giuseppe Alessio D'Inverno, Monica Bianchini, Franco Scarselli and Fabrizio Silvestri(参考訳) 深層学習モデルの文脈では, 最近, 勾配降下に基づく方法の学習をより理解するために, 損失関数表面の研究に注目が集まっている。 解析的およびトポロジカルな双方で適切な記述を求めるこの探索は、突発的なミニマを同定し、勾配力学を特徴づけるための多くの努力を導いた。 本研究の目的は,多層ニューラルネットワークの場合の損失複雑性を評価するためのトポロジカル尺度を提供することである。 深層および浅層アーキテクチャと共通のシグモイド活性化関数を比較し,損失関数の複雑性を上下境界から導出し,その複雑さが隠れた単位数,トレーニングモデル,使用する活性化関数にどのように影響するかを明らかにする。 さらに、損失関数やモデルアーキテクチャの特定のバリエーションとして、$\ell_2$正規化項の追加やフィードフォワードネットワークにおけるスキップ接続の実装は、特定のケースでは損失トポロジに影響しないことがわかった。

In the context of deep learning models, attention has recently been paid to studying the surface of the loss function in order to better understand training with methods based on gradient descent. This search for an appropriate description, both analytical and topological, has led to numerous efforts to identify spurious minima and characterize gradient dynamics. Our work aims to contribute to this field by providing a topological measure to evaluate loss complexity in the case of multilayer neural networks. We compare deep and shallow architectures with common sigmoidal activation functions by deriving upper and lower bounds on the complexity of their loss function and revealing how that complexity is influenced by the number of hidden units, training models, and the activation function used. Additionally, we found that certain variations in the loss function or model architecture, such as adding an $\ell_2$ regularization term or implementing skip connections in a feedforward network, do not affect loss topology in specific cases.
翻訳日:2024-01-09 16:43:27 公開日:2024-01-08
# STAIR:ビデオ質問応答における聴取中間結果を用いた時空間推論

STAIR: Spatial-Temporal Reasoning with Auditable Intermediate Results for Video Question Answering ( http://arxiv.org/abs/2401.03901v1 )

ライセンス: Link先を確認
Yueqian Wang, Yuxuan Wang, Kai Chen, Dongyan Zhao(参考訳) 近年,ビデオ質問応答モデルの急速な発展が見られた。 しかし、ほとんどのモデルは、時間的推論の観点からのみ単純なビデオを扱うことができ、そのパフォーマンスは、長く情報的なビデオに関する時間的推論に答えるときに低下する傾向にある。 この問題を解決するために,ビデオ質問応答のための聴取中間結果を用いた時空間推論モデルSTAIRを提案する。 STAIRは、与えられた質問をいくつかのサブタスクの階層的な組み合わせに分解するプログラムジェネレータと、これらのサブタスクを補完する軽量なニューラルモジュールのセットを含む、ニューラルモジュールネットワークである。 ニューラルモジュールネットワークはすでに画像テキストタスクで広く研究されているが、ビデオの推論には異なる能力が必要であるため、ビデオに適用するのは簡単な作業ではない。 本稿では,ビデオ質問応答のための基本的なビデオテキストサブタスクのセットを定義し,それらを完成させるための軽量モジュールのセットを設計する。 以前の作業とは異なり、STAIRのモジュールは、常に注意マップを返すのではなく、その意図に固有の中間出力を返す。 また、これらの中間出力をより正確にするために中間監視を導入する。 我々は,stairの性能,説明可能性,事前学習モデルとの互換性,プログラムアノテーションが利用できない場合の適用性を示すため,各種設定の映像質問応答データセットを広範囲に実験した。 コード: https://github.com/yellow-binary-tree/stair

Recently we have witnessed the rapid development of video question answering models. However, most models can only handle simple videos in terms of temporal reasoning, and their performance tends to drop when answering temporal-reasoning questions on long and informative videos. To tackle this problem we propose STAIR, a Spatial-Temporal Reasoning model with Auditable Intermediate Results for video question answering. STAIR is a neural module network, which contains a program generator to decompose a given question into a hierarchical combination of several sub-tasks, and a set of lightweight neural modules to complete each of these sub-tasks. Though neural module networks are already widely studied on image-text tasks, applying them to videos is a non-trivial task, as reasoning on videos requires different abilities. In this paper, we define a set of basic video-text sub-tasks for video question answering and design a set of lightweight modules to complete them. Different from most prior works, modules of STAIR return intermediate outputs specific to their intentions instead of always returning attention maps, which makes it easier to interpret and collaborate with pre-trained models. We also introduce intermediate supervision to make these intermediate outputs more accurate. We conduct extensive experiments on several video question answering datasets under various settings to show STAIR's performance, explainability, compatibility with pre-trained models, and applicability when program annotations are not available. Code: https://github.com/yellow-binary-tree/STAIR
翻訳日:2024-01-09 16:32:15 公開日:2024-01-08
# マルチエージェント強化学習のためのテンソルネットワークの実装

A Tensor Network Implementation of Multi Agent Reinforcement Learning ( http://arxiv.org/abs/2401.03896v1 )

ライセンス: Link先を確認
Sunny Howard(参考訳) 近年、テンソルネットワーク (TN) は、単一エージェント有限マルコフ決定過程 (FMDP) の返却を期待できる能力を持っていることが示されている。 TNは、全ての可能な軌道が考慮される分布モデルを表す。 これらのアイデアをマルチエージェント設定に拡張するとき、分布モデルは次元の呪い、つまり可能な軌道の数とエージェントの数の間の指数的関係に苦しむ。 この設定でTNを使うことの主な利点は、TNに固有の多くの確立された最適化と分解技術が存在し、最も効率的な表現が見つかるように適用できることである。 本報告では,これらの手法を用いて,マルチエージェント強化学習(MARL)タスクの復帰を期待するTNを形成する。 このモデルを2エージェントランダムウォーカの例に適用し、DMRG法を用いてポリシーが正しく最適化されていることを示した。 最後に、情報損失を経験することなく、テンソル内の要素数を97.5%削減する、正確な分解技術の使用を実演する。

Recently it has been shown that tensor networks (TNs) have the ability to represent the expected return of a single-agent finite Markov decision process (FMDP). The TN represents a distribution model, where all possible trajectories are considered. When extending these ideas to a multi-agent setting, distribution models suffer from the curse of dimensionality: the exponential relation between the number of possible trajectories and the number of agents. The key advantage of using TNs in this setting is that there exists a large number of established optimisation and decomposition techniques that are specific to TNs, that one can apply to ensure the most efficient representation is found. In this report, these methods are used to form a TN that represents the expected return of a multi-agent reinforcement learning (MARL) task. This model is then applied to a 2 agent random walker example, where it was shown that the policy is correctly optimised using a DMRG technique. Finally, I demonstrate the use of an exact decomposition technique, reducing the number of elements in the tensors by 97.5%, without experiencing any loss of information.
翻訳日:2024-01-09 16:31:50 公開日:2024-01-08
# 非線形2時間スケール確率近似における有限時間デカップリング収束

Finite-Time Decoupled Convergence in Nonlinear Two-Time-Scale Stochastic Approximation ( http://arxiv.org/abs/2401.03893v1 )

ライセンス: Link先を確認
Yuze Han, Xiang Li, Zhihua Zhang(参考訳) 2時間スケールの確率近似(sa)では、2つのイテレートが異なるステップサイズで異なる速度で更新され、それぞれの更新が他方に影響を与える。 線形二時間スケールsaにおける以前の研究では、これらの更新に対する平均二乗誤差の収束率は、それぞれのステップサイズのみに依存しており、分離収束と呼ばれる。 しかし、この分離収束を非線形saで達成する可能性はまだ分かっていない。 本研究は,非線形2時間スケールSAにおける有限時間疎結合収束の可能性を探る。 より弱いリプシッツ条件下では、従来の解析は疎収束を達成するには不十分である。 この発見は反例によってさらに数値的に支持される。 しかし,入れ子付き局所線形性の条件を付加することにより,分離収束は相変わらず実現可能であり,滑らか性パラメータに関連するステップサイズの選択が適切であることを示す。 本解析は, 2つのイテレート間の行列クロス項の洗練されたキャラクタリゼーションに依存し, 4次モーメントを用いて局所線形性仮定による高次近似誤差を制御する。

In two-time-scale stochastic approximation (SA), two iterates are updated at varying speeds using different step sizes, with each update influencing the other. Previous studies in linear two-time-scale SA have found that the convergence rates of the mean-square errors for these updates are dependent solely on their respective step sizes, leading to what is referred to as decoupled convergence. However, the possibility of achieving this decoupled convergence in nonlinear SA remains less understood. Our research explores the potential for finite-time decoupled convergence in nonlinear two-time-scale SA. We find that under a weaker Lipschitz condition, traditional analyses are insufficient for achieving decoupled convergence. This finding is further numerically supported by a counterexample. But by introducing an additional condition of nested local linearity, we show that decoupled convergence is still feasible, contingent on the appropriate choice of step sizes associated with smoothness parameters. Our analysis depends on a refined characterization of the matrix cross term between the two iterates and utilizes fourth-order moments to control higher-order approximation errors induced by the local linearity assumption.
翻訳日:2024-01-09 16:31:32 公開日:2024-01-08
# kernel fisher-rao flowを用いた単位時間サンプリング

Sampling in Unit Time with Kernel Fisher-Rao Flow ( http://arxiv.org/abs/2401.03892v1 )

ライセンス: Link先を確認
Aimee Maurais and Youssef Marzouk(参考訳) 非正規化された目標密度またはベイズ後方からサンプリングするための新しい平均場odeおよび対応する相互作用粒子系を提案する。 相互作用する粒子系は勾配が無く、閉じた形で利用でき、参照密度からサンプリングし、(正規化されていない)ターゲット-参照密度比を計算する能力のみを必要とする。 平均場ODEは、特定のフィッシャー-ラオ勾配流の経路である2つの密度の幾何学的混合に沿ってサンプルを輸送する速度場に対するポアソン方程式を解くことで得られる。 速度場を再現するカーネルヒルベルト空間 ansatz を用いてポアソン方程式を扱いやすくし, 有限サンプル上の平均場 ode を単純な相互作用粒子系として識別する。 平均場ODEは、サンプル駆動最適輸送として知られるフレームワーク内でのモンゲ・アンプ・エル方程式の連続線型化の極限として離散時間の観点からも導出することができる。 我々は,相互作用する粒子系が異なる特性の分布から高品質なサンプルを生成できることを実証的に示す。

We introduce a new mean-field ODE and corresponding interacting particle systems for sampling from an unnormalized target density or Bayesian posterior. The interacting particle systems are gradient-free, available in closed form, and only require the ability to sample from the reference density and compute the (unnormalized) target-to-reference density ratio. The mean-field ODE is obtained by solving a Poisson equation for a velocity field that transports samples along the geometric mixture of the two densities, which is the path of a particular Fisher-Rao gradient flow. We employ a reproducing kernel Hilbert space ansatz for the velocity field, which makes the Poisson equation tractable and enables us to discretize the resulting mean-field ODE over finite samples, as a simple interacting particle system. The mean-field ODE can be additionally be derived from a discrete-time perspective as the limit of successive linearizations of the Monge-Amp\`ere equations within a framework known as sample-driven optimal transport. We demonstrate empirically that our interacting particle systems can produce high-quality samples from distributions with varying characteristics.
翻訳日:2024-01-09 16:31:14 公開日:2024-01-08
# 3次元gaussian splattingに関する調査研究

A Survey on 3D Gaussian Splatting ( http://arxiv.org/abs/2401.03890v1 )

ライセンス: Link先を確認
Guikun Chen, Wenguan Wang(参考訳) 3d gaussian splatting (3d gs) は、最近、明示的な輝度場とコンピュータグラフィックスのランドスケープにおける変換技術として登場した。 この革新的なアプローチは、数百万の3Dガウスアンの利用を特徴とし、暗黙的な座標モデルを用いて空間座標をピクセル値にマッピングするニューラル放射場(NeRF)方法論から著しく離れている。 3D GSは、明示的なシーン表現と差別化可能なレンダリングアルゴリズムを持ち、リアルタイムレンダリング能力を約束するだけでなく、前例のないレベルのコントロールと編集性も導入している。 これにより、3d gsは次世代の3d再構成と表現のゲームチェンジャーとして位置づけられる。 本稿では,3D GSの領域における最近の発展と重要な貢献について,初めて体系的に概説する。 まず、3D GSの出現の背後にある基礎となる原理と推進力の詳細な調査から始め、その意義を理解するためのステージを設定します。 我々の議論の焦点は、3d gsの実用的適用性である。 リアルタイムパフォーマンスを促進することで、3d gsは、仮想現実からインタラクティブメディアまで、さまざまなアプリケーションを開きます。 これは主要な3d gsモデルの比較分析によって補完され、様々なベンチマークタスクで評価され、パフォーマンスと実用性が強調される。 この調査は、現在の課題を特定し、この領域における将来の研究への潜在的な道を提案することで締めくくられる。 本研究は,新参者および熟練研究者の双方に貴重な資源を提供し,適用可能かつ明示的な放射能場表現のさらなる探索と発展を促進することを目的としている。

3D Gaussian splatting (3D GS) has recently emerged as a transformative technique in the explicit radiance field and computer graphics landscape. This innovative approach, characterized by the utilization of millions of 3D Gaussians, represents a significant departure from the neural radiance field (NeRF) methodologies, which predominantly use implicit, coordinate-based models to map spatial coordinates to pixel values. 3D GS, with its explicit scene representations and differentiable rendering algorithms, not only promises real-time rendering capabilities but also introduces unprecedented levels of control and editability. This positions 3D GS as a potential game-changer for the next generation of 3D reconstruction and representation. In the present paper, we provide the first systematic overview of the recent developments and critical contributions in the domain of 3D GS. We begin with a detailed exploration of the underlying principles and the driving forces behind the advent of 3D GS, setting the stage for understanding its significance. A focal point of our discussion is the practical applicability of 3D GS. By facilitating real-time performance, 3D GS opens up a plethora of applications, ranging from virtual reality to interactive media and beyond. This is complemented by a comparative analysis of leading 3D GS models, evaluated across various benchmark tasks to highlight their performance and practical utility. The survey concludes by identifying current challenges and suggesting potential avenues for future research in this domain. Through this survey, we aim to provide a valuable resource for both newcomers and seasoned researchers, fostering further exploration and advancement in applicable and explicit radiance field representation.
翻訳日:2024-01-09 16:30:54 公開日:2024-01-08
# 2-tone Floquet Engineering による格子系のスピン揺らぎ

Steering spin fluctuations in lattice systems via two-tone Floquet engineering ( http://arxiv.org/abs/2401.03889v1 )

ライセンス: Link先を確認
Ruben Pe\~na, Felipe Torres, Guillermo Romero(参考訳) 2重フロッケ工学を用いた反強磁性ダイマーの作成と破壊の制御について報告する。 パラメトリック共鳴を用いた周期変調結合を持つ一次元スピン-1/2格子を考える。 分散結合変調から生じるストロボスコピックダイナミクスはスピン間の対相関をもたらす。 その結果、局所観測可能な部分調和応答は離散時間翻訳対称性を破り、フロケの動的二量化が起こる。 本稿では、一周期進化演算子によって駆動される局所スピン関連ペアの制御を可能にし、現在の量子シミュレータプラットフォームで実装可能な新しい非平衡状態に関する重要な洞察を提供する。

We report on the controlled creation and destruction of antiferromagnetic dimers using two-tone Floquet engineering. We consider a one-dimensional spin-1/2 lattice with periodically modulated bonds using parametric resonances. The stroboscopic dynamics generated from distributed bond modulations lead to pair correlation between spins. Consequently, subharmonic response in local observables breaks discrete time translational symmetry and leads to the emergence of Floquet dynamical dimerisation. We present a protocol allowing the control of local spin-correlated pairs driven by one-period evolution operators, providing significant insight into new nonequilibrium states of matter that can be feasibly implemented in current quantum simulator platforms.
翻訳日:2024-01-09 16:30:29 公開日:2024-01-08
# 商業用温室エコノミックディスパッチテストベッドにおける変更可能な構造設計

A Modifiable Architectural Design for Commercial Greenhouses Energy Economic Dispatch Testbed ( http://arxiv.org/abs/2401.03888v1 )

ライセンス: Link先を確認
Christian Skafte Beck Clausen, Bo N{\o}rregaard J{\o}rgensen, Zheng Grace Ma(参考訳) 企業や消費者の多様な目的による経済的課題に直面し、商業用温室はCO2排出量に対処しながらエネルギーコストを最小化しようとしている。 このシナリオは、エネルギーコストの上昇とco2排出量削減の世界的な推進によって強化される。 本稿では,これらの動的な経済課題に対処するため,商業用温室用エネルギー経済派遣テストベッドの建築設計を提案する。 属性駆動脱符号法を用いて,多目的最適化問題に対するモジュール性と注意深い考察を強調する,software-in-the-loopテストベッドのコアアーキテクチャコンポーネントを提案する。 このアプローチは、Javaでモジュール化された多目的最適化フレームワークを実装することで、以前の研究を拡張します。 その結果、最小限の労力で、モジュールアーキテクチャにおけるCO2削減目標の達成を実証した。 多目的最適化アウトプットはコストやco2目標を調べるためにも用いられ、最終的に価値のある意思決定ツールとして機能する。 新たなテストベッドアーキテクチャとモジュラーアプローチは、多目的最適化問題に取り組み、商業用温室が複雑なエネルギーコストとCO2排出管理をナビゲートできるようにする。

Facing economic challenges due to the diverse objectives of businesses, and consumers, commercial greenhouses strive to minimize energy costs while addressing CO2 emissions. This scenario is intensified by rising energy costs and the global imperative to curtail CO2 emissions. To address these dynamic economic challenges, this paper proposes an architectural design for an energy economic dispatch testbed for commercial greenhouses. Utilizing the Attribute-Driven De-sign method, core architectural components of a software-in-the-loop testbed are proposed which emphasizes modularity and careful consideration of the multi-objective optimization problem. This approach extends prior research by implementing a modular multi-objective optimization framework in Java. The results demonstrate the successful integration of the CO2 reduction objective within the modular architecture with minimal effort. The multi-objective optimization output can also be employed to examine cost and CO2 objectives, ultimately serving as a valuable decision-support tool. The novel testbed architecture and a modular approach can tackle the multi-objective optimization problem and enable commercial greenhouses to navigate the intricate landscape of energy cost and CO2 emissions management.
翻訳日:2024-01-09 16:30:19 公開日:2024-01-08
# HgTe/CdTe量子井戸の量子回復と位相相転移

Quantum revivals in HgTe/CdTe quantum wells and topological phase transitions ( http://arxiv.org/abs/2401.03884v1 )

ライセンス: Link先を確認
A. Mayorgas, M. Calixto, N.A. Cordero, E. Romera, O. Casta\~nos(参考訳) 波動パケットの時間発展は、グラフェンやシリセンのような二次元ディラック物質の位相相転移を検出するツールである。 ここでは、解析をHgTe/CdTe量子井戸に拡張し、2次元有効ディラックハミルトニアンと異なる層厚を用いて電子電流波パケットの進化を研究する。 この時間的進化に現れる2つの異なる周期性は、システムが通常の状態から逆状態へと変化する臨界厚さ付近で最小となることを示す。 さらに、電子電流振幅の最大値は層厚とともに変化し、臨界厚さにおいて電流極大がより高い値に達することを同定する。 したがって、電子電流の周期性と振幅の観点から位相相転移を特徴づけることができる。

The time evolution of a wave packet is a tool to detect topological phase transitions in two-dimensional Dirac materials, such as graphene and silicene. Here we extend the analysis to HgTe/CdTe quantum wells and study the evolution of their electron current wave packet, using 2D effective Dirac Hamiltonians and different layer thicknesses. We show that the two different periodicities that appear in this temporal evolution reach a minimum near the critical thickness, where the system goes from normal to inverted regime. Moreover, the maximum of the electron current amplitude changes with the layer thickness, identifying that current maxima reach their higher value at the critical thickness. Thus, we can characterize the topological phase transitions in terms of the periodicity and amplitude of the electron currents.
翻訳日:2024-01-09 16:29:58 公開日:2024-01-08
# 可変サイズの)混合最適化問題のメタヒューリスティックス:統一分類とサーベイ

Metaheuristics for (Variable-Size) Mixed Optimization Problems: A Unified Taxonomy and Survey ( http://arxiv.org/abs/2401.03880v1 )

ライセンス: Link先を確認
Prof. El-Ghazali Talbi(参考訳) 多くの実世界の最適化問題は、連続変数と離散変数の両方を含む混合変数最適化問題(MVOP)として定式化されている。 次元変数を含むMVOPは、変数サイズの探索空間によって特徴づけられる。 次元変数の値に依存すると、問題の変数の数と型は動的に変化する。 MVOPと変数サイズのMVOP(VMVOP)は、メタヒューリスティックスの設計において解決が困難であり、多くの科学的課題を提起する。 標準的なメタヒューリスティックは、まず連続的あるいは離散的な最適化問題に対処するために設計され、効率的な方法で(V)MVOPに対処できない。 このような問題を解決するメタヒューリスティックスの開発は多くの研究者の注目を集め、人気が高まっている。 しかし、我々の知る限り、この重要な最適化問題を扱うための分類学や総合的な調査は確立されていない。 本稿では,メタヒューリスティックな解の解法として(V)MVOPを統一した分類法を提案する。 これは(V)MVOPの一般的な数学的定式化と概念を提供し、メタヒューリスティックスで適用できるような様々な解法を識別する。 提案手法の利点,弱点,限界について論じる。 提案された分類法はまた、さらなる詳細な調査を必要とするいくつかのオープンな研究課題を特定できる。

Many real world optimization problems are formulated as mixed-variable optimization problems (MVOPs) which involve both continuous and discrete variables. MVOPs including dimensional variables are characterized by a variable-size search space. Depending on the values of dimensional variables, the number and type of the variables of the problem can vary dynamically. MVOPs and variable-size MVOPs (VMVOPs) are difficult to solve and raise a number of scientific challenges in the design of metaheuristics. Standard metaheuristics have been first designed to address continuous or discrete optimization problems, and are not able to tackle (V)MVOPs in an efficient way. The development of metaheuristics for solving such problems has attracted the attention of many researchers and is increasingly popular. However, to our knowledge there is no well established taxonomy and comprehensive survey for handling this important family of optimization problems. This paper presents a unified taxonomy for metaheuristic solutions for solving (V)MVOPs in an attempt to provide a common terminology and classification mechanisms. It provides a general mathematical formulation and concepts of (V)MVOPs, and identifies the various solving methodologies than can be applied in metaheuristics. The advantages, the weaknesses and the limitations of the presented methodologies are discussed. The proposed taxonomy also allows to identify some open research issues which needs further in-depth investigations.
翻訳日:2024-01-09 16:29:44 公開日:2024-01-08
# 透明オブジェクト追跡のための新しいデータセットと気晴らしアウェアアーキテクチャ

A New Dataset and a Distractor-Aware Architecture for Transparent Object Tracking ( http://arxiv.org/abs/2401.03872v1 )

ライセンス: Link先を確認
Alan Lukezic, Ziga Trojer, Jiri Matas, Matej Kristan(参考訳) 現代のトラッカーの性能は透明物体に対して不透明物体に比べて著しく低下する。 これは主に2つの異なる理由による。 透明な物体は、その外観が背景によって直接影響を受けるという点でユニークである。 さらに、透明なオブジェクトシーンには多くの視覚的に類似したオブジェクト(ディストリクタ)が含まれており、しばしば障害の追跡につながる。 しかし、現代のトラッキングアーキテクチャの開発には、透明なオブジェクト追跡には存在しない大きなトレーニングセットが必要である。 上記の問題に対する2つのコントリビューションを提示する。 2k以上のシーケンスと104,343の画像で構成され、ボックスとセグメンテーションマスクによって注釈付けされた最初の透明なオブジェクト追跡トレーニングデータセットTrans2kを提案する。 このデータセットでトレーニングされた標準トラッカーは、一貫して16%改善されている。 2つめの貢献は、位置推定精度とターゲット識別を別個のタスクとして扱い、新しいアーキテクチャでそれらを実装する、ditra(distributor-aware transparent object tracker)です。 ditraは透明なオブジェクト追跡に新たな最先端を設定し、不透明なオブジェクトにうまく一般化する。

Performance of modern trackers degrades substantially on transparent objects compared to opaque objects. This is largely due to two distinct reasons. Transparent objects are unique in that their appearance is directly affected by the background. Furthermore, transparent object scenes often contain many visually similar objects (distractors), which often lead to tracking failure. However, development of modern tracking architectures requires large training sets, which do not exist in transparent object tracking. We present two contributions addressing the aforementioned issues. We propose the first transparent object tracking training dataset Trans2k that consists of over 2k sequences with 104,343 images overall, annotated by bounding boxes and segmentation masks. Standard trackers trained on this dataset consistently improve by up to 16%. Our second contribution is a new distractor-aware transparent object tracker (DiTra) that treats localization accuracy and target identification as separate tasks and implements them by a novel architecture. DiTra sets a new state-of-the-art in transparent object tracking and generalizes well to opaque objects.
翻訳日:2024-01-09 16:29:24 公開日:2024-01-08
# gramformer: グラフ変調トランスフォーマーによる群衆カウントの学習

Gramformer: Learning Crowd Counting via Graph-Modulated Transformer ( http://arxiv.org/abs/2401.03870v1 )

ライセンス: Link先を確認
Hui Lin and Zhiheng Ma and Xiaopeng Hong and Qinnan Shangguan and Deyu Meng(参考訳) トランスフォーマーは、伝統的なCNNの限られた受容領域を破って以来、近年の観客数で人気がある。 しかし, 群集画像には常に類似したパッチが多数含まれているため, トランスフォーマーの自己注意機構は, ほぼすべてのパッチの注目マップが同一である均質化解を見つける傾向にある。 本稿では,2種類のグラフに基づいて,注目点と入力ノードの特徴をそれぞれ調整してネットワークを強化するグラフ変調変換器であるGramformerを提案する。 まず、相補的な情報に対応するために、多様な注目マップに注目グラフを提案する。 グラフはパッチ間の相似性を基盤とし、反相似性の方法で注意を変調している。 次に,ノードの中心的な位置や重要度を検出するために,特徴量に基づく中心性符号化を提案する。 我々は、ノードの特徴と類似性の関係を変調する中心性指標スキームでそれらを符号化する。 提案手法の競争性を検証した4つの挑戦的群集カウントデータセットの大規模な実験を行った。 コードは、https://github.com/LoraLinH/Gramformer}で入手できる。

Transformer has been popular in recent crowd counting work since it breaks the limited receptive field of traditional CNNs. However, since crowd images always contain a large number of similar patches, the self-attention mechanism in Transformer tends to find a homogenized solution where the attention maps of almost all patches are identical. In this paper, we address this problem by proposing Gramformer: a graph-modulated transformer to enhance the network by adjusting the attention and input node features respectively on the basis of two different types of graphs. Firstly, an attention graph is proposed to diverse attention maps to attend to complementary information. The graph is building upon the dissimilarities between patches, modulating the attention in an anti-similarity fashion. Secondly, a feature-based centrality encoding is proposed to discover the centrality positions or importance of nodes. We encode them with a proposed centrality indices scheme to modulate the node features and similarity relationships. Extensive experiments on four challenging crowd counting datasets have validated the competitiveness of the proposed method. Code is available at {https://github.com/LoraLinH/Gramformer}.
翻訳日:2024-01-09 16:29:06 公開日:2024-01-08
# FlightLLM:FPGA上の完全なマッピングフローを持つ効率的な大言語モデル推論

FlightLLM: Efficient Large Language Model Inference with a Complete Mapping Flow on FPGA ( http://arxiv.org/abs/2401.03868v1 )

ライセンス: Link先を確認
Shulin Zeng, Jun Liu, Guohao Dai, Xinhao Yang, Tianyu Fu, Hongyi Wang, Wenheng Ma, Hanbo Sun, Shiyao Li, Zixiao Huang, Yadong Dai, Jintao Li, Zehao Wang, Ruoyu Zhang, Kairui Wen, Xuefei Ning, Yu Wang(参考訳) Transformer-based Large Language Models (LLMs) は様々な領域に多大な影響を与えた。 しかし、llmsの効率は、重い計算とメモリオーバーヘッドの両方に苦しむ。 スパーシフィケーションや量子化のような圧縮技術は、LLMの計算/メモリオーバーヘッドとハードウェア容量のギャップを軽減するために一般的に用いられる。 しかし、計算効率の低さ、未使用のメモリ帯域幅、大規模なコンパイルオーバーヘッドといった未解決の課題のために、既存のGPUとトランスフォーマーベースのアクセラレータは、圧縮LDMを効率的に処理することはできない。 本稿では,FPGA上での完全なマッピングフローによる効率的なLLM推論を実現するFlightLLMを提案する。 FlightLLMでは、FPGA固有のリソース(DSP48や異種メモリ階層など)を利用することで、LCMの計算とメモリオーバーヘッドを解決できる革新的なソリューションを強調している。 本研究では,計算効率のよい分散パターンをサポートする構成可能なスパースDSPチェーンを提案する。 第2に、混合精度のサポートによりメモリ帯域幅を増大させる常時オンチップデコード方式を提案する。 最後に,FlightLLMを実世界のLLMで利用できるようにするため,コンパイルオーバーヘッドを低減するために,長さ適応型コンパイル法を提案する。 Xilinx Alveo U280 FPGAに実装されたFlightLLMは6.0$\times$高エネルギー効率と1.8$\times$高コストのGPU(例えばNVIDIA V100S)に対して、vLLMとSmoothQuantをバッチサイズで使用した現代のLLM(例えばLLaMA2-7B)に対するコスト効率を実現している。 FlightLLMは最新のVersal VHK158 FPGAを使用して1.2$\times$高スループットでNVIDIA A100 GPUを上回る。

Transformer-based Large Language Models (LLMs) have made a significant impact on various domains. However, LLMs' efficiency suffers from both heavy computation and memory overheads. Compression techniques like sparsification and quantization are commonly used to mitigate the gap between LLM's computation/memory overheads and hardware capacity. However, existing GPU and transformer-based accelerators cannot efficiently process compressed LLMs, due to the following unresolved challenges: low computational efficiency, underutilized memory bandwidth, and large compilation overheads. This paper proposes FlightLLM, enabling efficient LLMs inference with a complete mapping flow on FPGAs. In FlightLLM, we highlight an innovative solution that the computation and memory overhead of LLMs can be solved by utilizing FPGA-specific resources (e.g., DSP48 and heterogeneous memory hierarchy). We propose a configurable sparse DSP chain to support different sparsity patterns with high computation efficiency. Second, we propose an always-on-chip decode scheme to boost memory bandwidth with mixed-precision support. Finally, to make FlightLLM available for real-world LLMs, we propose a length adaptive compilation method to reduce the compilation overhead. Implemented on the Xilinx Alveo U280 FPGA, FlightLLM achieves 6.0$\times$ higher energy efficiency and 1.8$\times$ better cost efficiency against commercial GPUs (e.g., NVIDIA V100S) on modern LLMs (e.g., LLaMA2-7B) using vLLM and SmoothQuant under the batch size of one. FlightLLM beats NVIDIA A100 GPU with 1.2$\times$ higher throughput using the latest Versal VHK158 FPGA.
翻訳日:2024-01-09 16:28:47 公開日:2024-01-08
# 重力場の量子性:一夫一婦関係の展望

Quantumness of gravitational field: A perspective on monogamy relation ( http://arxiv.org/abs/2401.03867v1 )

ライセンス: Link先を確認
Yuuki Sugiyama, Akira Matsumura, and Kazuhiro Yamamoto(参考訳) 質量量子粒子によって引き起こされる重力場の量子重ね合わせ現象を理解することは、量子重力の重要な出発点である。 本研究の目的は,重力場の量子重ね合わせ現象の理解を深めることである。 この目的のために、2つの粒子と互いに絡み合うかもしれない重力場からなる三成分系における絡み合い(単元関係)のトレードオフ関係を考える。 したがって、2つの粒子が相互に情報を交換できない場合、それらは分離可能な状態にあり、粒子と重力場は常に絡み合っている。 さらに、2つの粒子が互いに情報を送ることができる場合でも、2つの粒子と重力場の間にトレードオフが存在する。 また,量子ディスコードを用いた重力場の量子重ね合わせの挙動についても検討した。 量子的不協和は粒子の重ね合わせの長さのスケールによって増加する。 この結果は、重力場の量子化と重力場の量子重ね合わせの意味との関係を理解するのに役立つかもしれない。

Understanding the phenomenon of quantum superposition of gravitational fields induced by massive quantum particles is an important starting point for quantum gravity. The purpose of this study is to deepen our understanding of the phenomenon of quantum superposition of gravitational fields. To this end, we consider a trade-off relation of entanglement (monogamy relation) in a tripartite system consisting of two massive particles and a gravitational field that may be entangled with each other. Consequently, if two particles cannot exchange information mutually, they are in a separable state, and the particle and gravitational field are always entangled. Furthermore, even when two particles can send information to each other, there is a trade-off between the two particles and the gravitational field. We also investigate the behavior of the quantum superposition of the gravitational field using quantum discord. We find that quantum discord increases depending on the length scale of the particle superposition. Our results may help understand the relationship between the quantization of the gravitational field and the meaning of the quantum superposition of the gravitational field.
翻訳日:2024-01-09 16:28:13 公開日:2024-01-08
# 粉末X線回折による終端結晶構造予測

End-to-End Crystal Structure Prediction from Powder X-Ray Diffraction ( http://arxiv.org/abs/2401.03862v1 )

ライセンス: Link先を確認
Qingsi Lai, Lin Yao, Zhifeng Gao, Siyuan Liu, Hongshuai Wang, Shuqi Lu, Di He, Liwei Wang, Cheng Wang and Guolin Ke(参考訳) 粉末X線回折(PXRD)は結晶構造決定の重要な手段である。 このような決定には、構造的な類似物を見つけるための外部データベースマッチングや、より細かい構造を得るためのリエトヴェルト精細化が必要となる。 しかし、データベースは不完全であり、リエトヴェルト・リファインメントには訓練された実験家による集中的な試行錯誤作業がしばしば必要となる。 これらの問題を解決するために,PXRDパターンに正確に一致する結晶構造を創出できる,最初のエンドツーエンドディープラーニングベースのフレームワークであるXtalNetを提案する。 このモデルは、pxrdパターンに基づく結晶構造検索と条件構造生成の2つのタスクを同時に実行可能にするために、コントラスト学習と拡散ベースの条件生成を用いる。 xtalnetの有効性を検証するために、より挑戦的で実用的なデータセットhmof-100をキュレートし、xtalnetはデータベース検索タスクで96.3\%のトップ10ヒット率、ランキング構造生成タスクで95.0\%トップ10マッチ率に達した。

Powder X-ray diffraction (PXRD) is a crucial means for crystal structure determination. Such determination often involves external database matching to find a structural analogue and Rietveld refinement to obtain finer structure. However, databases may be incomplete and Rietveld refinement often requires intensive trial-and-error efforts from trained experimentalists, which remains ineffective in practice. To settle these issues, we propose XtalNet, the first end-to-end deep learning-based framework capable of ab initio generation of crystal structures that accurately match given PXRD patterns. The model employs contrastive learning and Diffusion-based conditional generation to enable the simultaneous execution of two tasks: crystal structure retrieval based on PXRD patterns and conditional structure generations. To validate the effectiveness of XtalNet, we curate a much more challenging and practical dataset hMOF-100, XtalNet performs well on this dataset, reaching 96.3\% top-10 hit ratio on the database retrieval task and 95.0\% top-10 match rate on the ranked structure generation task.
翻訳日:2024-01-09 16:27:57 公開日:2024-01-08
# 真の多光子量子相関に対する光子融合の定量化

Quantification of Photon Fusion for Genuine Multiphoton Quantum Correlations ( http://arxiv.org/abs/2401.03860v1 )

ライセンス: Link先を確認
Sheng-Yan Sun, Yu-Cheng Li, Shih-Hsuan Chen, Kuan-Jou Wang, Ching-Jui Huang, Tung-Ju Tsai, Wei-Ting Kao, Tzu-Liang Hsu, Che-Ming Li(参考訳) 融合光子対は、2つの2光子振幅が同じ結合光検出イベントに寄与する不明瞭性が存在するアリーナを生成する。 この2光子干渉は、受動的からスケーラブルな生成から、バルク光学からチップスケールの実装まで、多光子絡み込みの生成に広く利用されている。 重要ではあるが、光子融合の完全な能力が量子実体のように完全に量子化できるという実験的な証拠は存在しない。 ここでは、実験光子融合の最初の完全能力定量化を示す。 実験における光子融合の全能力を忠実に測定し, 絡み合った光子対を創り, 保存する。 自発パラメトリックダウンコンバージョンエンタングルメント源を用いた4光および6光子エンタングルド状態により、実光子エンタングルメントとアインシュタイン・ポドルスキー・ローゼンステアリングを生成するための干渉計を忠実に評価できることを示す。 これらの結果は、一般的な量子フォトニクスデバイスやネットワークにおけるプリミティブ操作の根底にある光子融合をベンチマークする実用的な診断方法を明らかにする。

Fusing photon pairs creates an arena where indistinguishability can exist between two two-photon amplitudes contributing to the same joint photodetection event. This two-photon interference has been extensively utilized in creating multiphoton entanglement, from passive to scalable generation, from bulk-optical to chip-scale implementations. While significant, no experimental evidence exists that the full capability of photon fusion can be utterly quantified like a quantum entity. Herein, we demonstrate the first complete capability quantification of experimental photon fusion. Our characterization faithfully measures the whole abilities of photon fusion in the experiment to create and preserve entangled photon pairs. With the created four- and six-photon entangled states using spontaneous parametric down-conversion entanglement sources, we show that capability quantification provides a faithful assessment of interferometry for generating genuine multiphoton entanglement and Einstein-Podolsky-Rosen steering. These results reveal a practical diagnostic method to benchmark photon fusion underlying the primitive operations in general quantum photonics devices and networks.
翻訳日:2024-01-09 16:27:37 公開日:2024-01-08
# 大規模変量結晶計測のためのマルチスケール注目型インスタンスセグメンテーション

Multi-scale attention-based instance segmentation for measuring crystals with large size variation ( http://arxiv.org/abs/2401.03939v1 )

ライセンス: Link先を確認
Theresa Neubauer, Astrid Berg, Maria Wimmer, Dimitrios Lenis, David Major, Philip Matthias Winter, Gaia Romana De Paolis, Johannes Novotny, Daniel L\"uftner, Katja Reinharter, Katja B\"uhler(参考訳) 高解像度画像における結晶の定量測定は、基礎となる材料特性に関する重要な洞察を与える。 ディープラーニングは、視覚に基づく自動結晶サイズ測定において大きな進歩を示しているが、現在のインスタンス分割法は、結晶サイズが大きく変化するか、結晶境界を検出するのが難しい画像で限界に達する。 誤りや分離されたセグメントなどの小さな画像分割誤差であっても、測定結果の精度を著しく低下させることができる。 既存の画素境界分割法を改良するのではなく,より頑健な分割結果を与え,測定精度を向上させるインスタンスベースセグメンテーション法を提案する。 提案手法は,サイズを意識したマルチスケールアテンションモジュールを用いたフローマップを改良する。 アテンションモジュールは、複数のスケールから情報を適応的に融合させ、各セグメンテーション画像領域の最も関連するスケールに焦点を当てる。 提案手法は,最先端のインスタンスと境界セグメンテーション法,およびマルチスケール予測の単純な平均融合よりも優れていることを示す。 結晶粒径の変動が大きい高解像度画像の屈折率原材料データセットを用いて本手法の評価を行い,既存の方法よりも高精度に結晶粒径を計算できることを示す。

Quantitative measurement of crystals in high-resolution images allows for important insights into underlying material characteristics. Deep learning has shown great progress in vision-based automatic crystal size measurement, but current instance segmentation methods reach their limits with images that have large variation in crystal size or hard to detect crystal boundaries. Even small image segmentation errors, such as incorrectly fused or separated segments, can significantly lower the accuracy of the measured results. Instead of improving the existing pixel-wise boundary segmentation methods, we propose to use an instance-based segmentation method, which gives more robust segmentation results to improve measurement accuracy. Our novel method enhances flow maps with a size-aware multi-scale attention module. The attention module adaptively fuses information from multiple scales and focuses on the most relevant scale for each segmented image area. We demonstrate that our proposed attention fusion strategy outperforms state-of-the-art instance and boundary segmentation methods, as well as simple average fusion of multi-scale predictions. We evaluate our method on a refractory raw material dataset of high-resolution images with large variation in crystal size and show that our model can be used to calculate the crystal size more accurately than existing methods.
翻訳日:2024-01-09 16:08:26 公開日:2024-01-08
# 音声コンテンツマスキングの探索的評価

Exploratory Evaluation of Speech Content Masking ( http://arxiv.org/abs/2401.03936v1 )

ライセンス: Link先を確認
Jennifer Williams, Karla Pizzi, Paul-Gauthier Noe, Sneha Das(参考訳) 最近の音声プライバシーの取り組みは、音声話者属性の匿名化に重点を置いているが、音声コンテンツから情報を保護する研究はあまり行われていない。 本稿では,選択した単語やフレーズを音声で隠蔽する「コンテンツマスキング」と呼ばれる,新たなタイプのプライバシを探索する玩具問題を提案する。 本稿では, ベクトル量子化変分オートエンコーダ(VQ-VAE)から生成し, WaveRNNを用いて再合成した離散的な音声表現(音声符号)のシーケンスを改良した序列ベースラインマスキング手法について検討する。 本稿では,3種類のマスキング場所と3種類のマスキング戦略について検討する。 本研究では,自動音声認識(ASR)と自動話者検証(ASV)の2つの下流タスクにマスキングがどう影響するかを特徴付ける。 異なるマスクの種類や場所がこれらの下流タスクにどのように影響するかを観察し、これらの問題がプライバシーの目標にどのように影響するかを議論する。

Most recent speech privacy efforts have focused on anonymizing acoustic speaker attributes but there has not been as much research into protecting information from speech content. We introduce a toy problem that explores an emerging type of privacy called "content masking" which conceals selected words and phrases in speech. In our efforts to define this problem space, we evaluate an introductory baseline masking technique based on modifying sequences of discrete phone representations (phone codes) produced from a pre-trained vector-quantized variational autoencoder (VQ-VAE) and re-synthesized using WaveRNN. We investigate three different masking locations and three types of masking strategies: noise substitution, word deletion, and phone sequence reversal. Our work attempts to characterize how masking affects two downstream tasks: automatic speech recognition (ASR) and automatic speaker verification (ASV). We observe how the different masks types and locations impact these downstream tasks and discuss how these issues may influence privacy goals.
翻訳日:2024-01-09 16:08:07 公開日:2024-01-08
# $\mu$Hzスケール光磁気四極子遷移のコヒーレント励起

Coherent excitation of a $\mu$Hz scale optical magnetic quadrupole transition ( http://arxiv.org/abs/2401.03934v1 )

ライセンス: Link先を確認
V. Kl\"usener, S. Pucher, D. Yankelev, J. Trautmann, F. Spriestersbach, D. Filin, S. G. Porsev, M. S. Safronova, I. Bloch, S. Blatt(参考訳) 極小値の$^{1}\mathrm{s}_0$-$^{3}\mathrm{p}_2$ magnetic quadrupole transition in $^{88}\mathrm{sr}$のコヒーレント励起について報告する。 原子を無感光格子に閉じ込めることで、97(1)%の励起率を獲得し、58(1)Hzの狭い線幅を観測する。 ラムゼー分光法では14(1)msのコヒーレンス時間を見つけ、スピン-エチョ系列を用いて266(36)msまで拡張することができる。 M2遷移の直線幅を24(7)$\mu$Hzとし、長年の理論的予測を確認する。 これらの結果はストロンチウムのさらなるクロック遷移を確立し、量子コンピューティングおよび量子シミュレーションにおける準安定$^{3}\mathrm{P}_2$状態の応用の道を開く。

We report on the coherent excitation of the ultranarrow $^{1}\mathrm{S}_0$-$^{3}\mathrm{P}_2$ magnetic quadrupole transition in $^{88}\mathrm{Sr}$. By confining atoms in a state insensitive optical lattice, we achieve excitation fractions of 97(1)% and observe linewidths as narrow as 58(1) Hz. With Ramsey spectroscopy, we find coherence times of 14(1) ms, which can be extended to 266(36) ms using a spin-echo sequence. We determine the linewidth of the M2 transition to 24(7) $\mu$Hz, confirming longstanding theoretical predictions. These results establish an additional clock transition in strontium and pave the way for applications of the metastable $^{3}\mathrm{P}_2$ state in quantum computing and quantum simulations.
翻訳日:2024-01-09 16:07:46 公開日:2024-01-08
# 強化学習を用いたドローンによる温室効果ガスフラックスの推定

Using reinforcement learning to improve drone-based inference of greenhouse gas fluxes ( http://arxiv.org/abs/2401.03932v1 )

ライセンス: Link先を確認
Alouette van Hove, Kristoffer Aalstad, Norbert Pirk(参考訳) 地球表面における温室効果ガスフラックスの正確なマッピングは、気候モデルの検証と校正に不可欠である。 本研究では,ドローンを用いた表面フラックス推定の枠組みを提案する。 このアプローチでは,ドローンによる観測からフラックスを推定するためにデータ同化(DA)と,ドローンのサンプリング戦略を最適化するために強化学習(RL)を用いる。 ここでは、RLで訓練されたドローンが、排出管を横断する予め定義された飛行経路に沿ってサンプリングするドローンよりも、CO2ホットスポットを正確に定量化できることを実証する。 その結果,情報に基づく報奨関数は,推定表面フラックスと真値との差を定量化する誤差に基づく報奨関数の性能と一致することがわかった。 情報ゲインと情報エントロピーに基づくリワード関数は、真の表面フラックスの知識を必要とせずに、ドローンの信頼性を高めるアクションを動機付けることができる。 これらの知見は、より複雑な表面フラックス場のマッピングのためのフレームワークのさらなる開発に有用な洞察を与える。

Accurate mapping of greenhouse gas fluxes at the Earth's surface is essential for the validation and calibration of climate models. In this study, we present a framework for surface flux estimation with drones. Our approach uses data assimilation (DA) to infer fluxes from drone-based observations, and reinforcement learning (RL) to optimize the drone's sampling strategy. Herein, we demonstrate that a RL-trained drone can quantify a CO2 hotspot more accurately than a drone sampling along a predefined flight path that traverses the emission plume. We find that information-based reward functions can match the performance of an error-based reward function that quantifies the difference between the estimated surface flux and the true value. Reward functions based on information gain and information entropy can motivate actions that increase the drone's confidence in its updated belief, without requiring knowledge of the true surface flux. These findings provide valuable insights for further development of the framework for the mapping of more complex surface flux fields.
翻訳日:2024-01-09 16:07:31 公開日:2024-01-08
# Rastro-DM: トレイルによるデータマイニング

Rastro-DM: data mining with a trail ( http://arxiv.org/abs/2401.03925v1 )

ライセンス: Link先を確認
Marcus Vinicius Borela de Castro and Remis Balaniuk(参考訳) 本稿では,データマイニング(DM)プロジェクトであるRastro-DM(Trail Data Mining)の文書化手法を提案する。 提案手法は,DMプロセスの方法論的・パラダイム的な枠組みを確立するCRISP-DMなどのDMの方法論を補完するものである。 ベストプラクティスの適用とそのメリットは、ブラジル連邦財務省への損害調査プロセスに関連するPDF文書の分類のために作成された「クラドップ」と呼ばれるプロジェクトで説明されている。 プロジェクトのコンテキストでRastro-DMキットを構築することは、企業横断の道筋を共有し、利用することによって達成される制度的な飛躍に繋がる小さなステップです。

This paper proposes a methodology for documenting data mining (DM) projects, Rastro-DM (Trail Data Mining), with a focus not on the model that is generated, but on the processes behind its construction, in order to leave a trail (Rastro in Portuguese) of planned actions, training completed, results obtained, and lessons learned. The proposed practices are complementary to structuring methodologies of DM, such as CRISP-DM, which establish a methodological and paradigmatic framework for the DM process. The application of best practices and their benefits is illustrated in a project called 'Cladop' that was created for the classification of PDF documents associated with the investigative process of damages to the Brazilian Federal Public Treasury. Building the Rastro-DM kit in the context of a project is a small step that can lead to an institutional leap to be achieved by sharing and using the trail across the enterprise.
翻訳日:2024-01-09 16:07:14 公開日:2024-01-08
# スパースおよびロバスト回帰のための近似メッセージパッシングの非漸近分布理論

A non-asymptotic distributional theory of approximate message passing for sparse and robust regression ( http://arxiv.org/abs/2401.03923v1 )

ライセンス: Link先を確認
Gen Li, Yuting Wei(参考訳) 高次元統計推定器の分布の特徴付けは、高次元の古典漸近理論の崩壊のために難しい課題である。 本稿では, 高速な推定器と強力な理論機械として有効である反復アルゴリズムのファミリであるAMPの非漸近分布特性を, スパースおよびロバストレグレッションの両方に対して開発することによって, これに向けて前進する。 AMP理論は高次元の漸近性に注目していたが、反復数が$o\big({\log n}/{\log \log n}\big)$(サンプルサイズ$n$)を超えるとAMPの振る舞いを記述できなかった。 我々は、多項式数の反復に対応するスパースおよびロバスト回帰の両方に対して、AMPの初めての有限サンプル非漸近分布理論を確立する。 提案手法は, AMP 反復のガウス近似の近似精度を導出し, 最適に調整されたラッソとロバストなM-推定器の分布特性の向上を示唆する。

Characterizing the distribution of high-dimensional statistical estimators is a challenging task, due to the breakdown of classical asymptotic theory in high dimension. This paper makes progress towards this by developing non-asymptotic distributional characterizations for approximate message passing (AMP) -- a family of iterative algorithms that prove effective as both fast estimators and powerful theoretical machinery -- for both sparse and robust regression. Prior AMP theory, which focused on high-dimensional asymptotics for the most part, failed to describe the behavior of AMP when the number of iterations exceeds $o\big({\log n}/{\log \log n}\big)$ (with $n$ the sample size). We establish the first finite-sample non-asymptotic distributional theory of AMP for both sparse and robust regression that accommodates a polynomial number of iterations. Our results derive approximate accuracy of Gaussian approximation of the AMP iterates, which improves upon all prior results and implies enhanced distributional characterizations for both optimally tuned Lasso and robust M-estimator.
翻訳日:2024-01-09 16:06:58 公開日:2024-01-08
# アルツハイマー病のモデリングと分類のための構造中心神経変性畳み込みニューラルネットワーク

Structure-focused Neurodegeneration Convolutional Neural Network for Modeling and Classification of Alzheimer's Disease ( http://arxiv.org/abs/2401.03922v1 )

ライセンス: Link先を確認
Simisola Odimayo, Chollette C. Olisah, and Khadija Mohammed(参考訳) 認知症の主要な形態であるアルツハイマー病(AD)は、世界的な課題となり、正確な早期診断の緊急性を強調している。 軽度認知障害 (MCI) とAD (AD) を区別するために, MRI (Machine Resonance Imaging) を併用した臨床技術は, 整合性や信頼性に乏しいため, 障害に遭遇する。 機械学習は、早期の広告診断に有望であることが示されている。 しかし、既存のモデルでは、脳大脳皮質の神経変性に関する情報を提供する焦点構造の特徴を考慮せずに焦点微細な特徴に焦点を当てている。 そこで本稿では,画像強調技術であるガンマ補正を統合した機械学習(ML)フレームワークを提案し,ADとMCIを識別するための構造中心の神経変性畳み込みニューラルネットワーク(CNN)アーキテクチャ(SNeurodCNN)を提案する。 MLフレームワークは、構造に焦点を当てたアルツハイマー病神経画像イニシアチブ(ADNI)データセットの、中矢状および準矢状脳像の視点を活用する。 実験により,提案する機械学習フレームワークは優れた性能を示す。 準矢状視線は97.8%の精度で、97.0%の特異性と98.5%の感度を持つ。 正解率98.1% 97.2%、正解率99.0%、正解率98.1%、正解率99.0%、正解率98.1%、正解率98.1%、正解率99.0%である。 また,GradCAM法を用いて,前頭葉,後頭葉,小脳,頭頂葉などに存在するMCIおよびADの構造動態を把握できることが示唆された。 したがって、adの早期診断のための脳構造変化ジギバイオマーカーとしてのモデルそのものが考えられる。

Alzheimer's disease (AD), the predominant form of dementia, poses a growing global challenge and underscores the urgency of accurate and early diagnosis. The clinical technique radiologists adopt for distinguishing between mild cognitive impairment (MCI) and AD using Machine Resonance Imaging (MRI) encounter hurdles because they are not consistent and reliable. Machine learning has been shown to offer promise for early AD diagnosis. However, existing models focused on focal fine-grain features without considerations to focal structural features that give off information on neurodegeneration of the brain cerebral cortex. Therefore, this paper proposes a machine learning (ML) framework that integrates Gamma correction, an image enhancement technique, and includes a structure-focused neurodegeneration convolutional neural network (CNN) architecture called SNeurodCNN for discriminating between AD and MCI. The ML framework leverages the mid-sagittal and para-sagittal brain image viewpoints of the structure-focused Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset. Through experiments, our proposed machine learning framework shows exceptional performance. The parasagittal viewpoint set achieves 97.8% accuracy, with 97.0% specificity and 98.5% sensitivity. The midsagittal viewpoint is shown to present deeper insights into the structural brain changes given the increase in accuracy, specificity, and sensitivity, which are 98.1% 97.2%, and 99.0%, respectively. Using GradCAM technique, we show that our proposed model is capable of capturing the structural dynamics of MCI and AD which exist about the frontal lobe, occipital lobe, cerebellum, and parietal lobe. Therefore, our model itself as a potential brain structural change Digi-Biomarker for early diagnosis of AD.
翻訳日:2024-01-09 16:06:35 公開日:2024-01-08
# 効率的なマニフォールドデノイングのための複雑な高次元雑音に対する計量ロバストの設計

Design a Metric Robust to Complicated High Dimensional Noise for Efficient Manifold Denoising ( http://arxiv.org/abs/2401.03921v1 )

ライセンス: Link先を確認
Hau-Tieng Wu(参考訳) 本稿では,複雑な高次元雑音とコンパクトな多様体設定下でのランドマーク拡散と最適収縮に基づく効率的な多様体デノイザーを提案する。 高次元または低次元の部分空間を占有する多様体を持つ高周囲空間次元を含むいくつかの設定を扱うのは柔軟であり、ノイズは色付けされ、依存することができる。 シミュレーションと実データの両方で既存のアルゴリズムと体系的に比較する。 本写本は主にアルゴリズムであり,いくつかの既存ツールと数値的な結果が報告されている。 この写本の公式論文には、理論的保証とさらなる比較が報告される。

In this manuscript, we propose an efficient manifold denoiser based on landmark diffusion and optimal shrinkage under the complicated high dimensional noise and compact manifold setup. It is flexible to handle several setups, including the high ambient space dimension with a manifold embedding that occupies a subspace of high or low dimensions, and the noise could be colored and dependent. A systematic comparison with other existing algorithms on both simulated and real datasets is provided. This manuscript is mainly algorithmic and we report several existing tools and numerical results. Theoretical guarantees and more comparisons will be reported in the official paper of this manuscript.
翻訳日:2024-01-09 16:05:55 公開日:2024-01-08
# NV中心スピン進化の離散的測定による核偏極の推定

Estimation of nuclear polarization via discrete measurement of NV center spin evolution ( http://arxiv.org/abs/2401.03916v1 )

ライセンス: Link先を確認
Mateusz Kuniej and Katarzyna Roszak(参考訳) 本研究では,nv中心スピン量子ビットのコヒーレンスの進化を計測することにより,ダイヤモンド中の{}^{13}c$同位体のスピン核の初期偏極を推定する方法を提案する。 既存の偏光測定方法は、量子ビットの環境に直接干渉する必要があるため、実験的に実装するのが困難である。 ここで、情報を得るためには、印加された磁場によって曖昧に決定される特定の時点における量子ビットのコヒーレンスを測定する必要がある。 十分に高磁場の場合、測定されたコヒーレンスの最小値は、各環境スピンの初期偏極の積の上界を構成する。 この方法の最も大きな利点は、環境に直接アクセスすることなく核偏極の初期値を推測することであり、その単純さと必要な実験資源の少なさにある。 8個の核スピンの現実的なランダム生成環境上でのスキームの動作を例示し、初期偏光を合理的に正確に推定する。

We propose a method for the estimation of the initial polarization of spinful nuclei of the ${}^{13}C$ isotope in diamond via a measurement of the evolution of the coherence of an NV center spin qubit. Existing polarization measurement methods are difficult to implement experimentally, because they require direct interference in the environment of the qubit. Here, in order to obtain the information, it is necessary to measure the qubit coherence at certain points of time, which are unambiguously determined by the applied magnetic field. For sufficiently high magnetic fields, the minimum value of the measured coherence constitutes an upper bound on the product of the initial polarizations of each environmental spin. The most significant advantage of the method, which allows to infer initial values of nuclear polarizations without any direct access to the environment, lies in its simplicity and the small amount of experimental resources that it requires. We exemplify the operation of the scheme on a realistic, randomly generated environment of eight nuclear spins, obtaining a reasonably accurate estimation of the initial polarization.
翻訳日:2024-01-09 16:05:47 公開日:2024-01-08
# D3PRefiner:D3PRefinerによる3次元空間の微細化

D3PRefiner: A Diffusion-based Denoise Method for 3D Human Pose Refinement ( http://arxiv.org/abs/2401.03914v1 )

ライセンス: Link先を確認
Danqi Yan, Qing Gao, Yuepeng Qian, Xinxing Chen, Chenglong Fu, and Yuquan Leng(参考訳) 単眼カメラを用いた3次元ポーズ推定は, 実装が容易で, 日常生活から得られるデータが豊富であることから, 注目を集めている。 しかし、画像の奥行きのあいまいさのため、既存の単眼カメラによる3Dポーズ推定手法の精度は相容れないままであり、推定された3Dポーズには通常多くのノイズが含まれる。 このノイズのヒストグラムを観察することで、ノイズのそれぞれの次元は特定の分布に従っており、ニューラルネットワークがノイズのポーズと地面の真実のポーズの間のマッピングを学習する可能性を示している。 本研究では,より正確な3dポーズを得るため,既存の3dポーズ推定器の出力を精錬するために拡散型3dポーズ精錬器(d3prefiner)を提案する。 まず,条件付き多変量ガウス分布を導入し,より精度の高い条件として2次元ポーズと3次元ポーズのペアを用いた3次元ポーズ分布のモデル化を行った。 さらに,現在の拡散モデルのアーキテクチャを活用して,ノイズの多い3dポーズの分布を基底真理3dポーズに変換する。 提案手法の有効性を評価するため, 基本3次元ポーズ推定モデルとして, 2つの最先端の3Dポーズ推定器を用い, 入力シーケンスの異なるタイプの2Dポーズと異なる長さで評価した。 実験により,提案アーキテクチャは,MPJPE平均の少なくとも10.3%,P-MPJPE平均の少なくとも11.0%を削減し,現在の3次元ポーズ推定器の性能を著しく向上させることができることを示した。

Three-dimensional (3D) human pose estimation using a monocular camera has gained increasing attention due to its ease of implementation and the abundance of data available from daily life. However, owing to the inherent depth ambiguity in images, the accuracy of existing monocular camera-based 3D pose estimation methods remains unsatisfactory, and the estimated 3D poses usually include much noise. By observing the histogram of this noise, we find each dimension of the noise follows a certain distribution, which indicates the possibility for a neural network to learn the mapping between noisy poses and ground truth poses. In this work, in order to obtain more accurate 3D poses, a Diffusion-based 3D Pose Refiner (D3PRefiner) is proposed to refine the output of any existing 3D pose estimator. We first introduce a conditional multivariate Gaussian distribution to model the distribution of noisy 3D poses, using paired 2D poses and noisy 3D poses as conditions to achieve greater accuracy. Additionally, we leverage the architecture of current diffusion models to convert the distribution of noisy 3D poses into ground truth 3D poses. To evaluate the effectiveness of the proposed method, two state-of-the-art sequence-to-sequence 3D pose estimators are used as basic 3D pose estimation models, and the proposed method is evaluated on different types of 2D poses and different lengths of the input sequence. Experimental results demonstrate the proposed architecture can significantly improve the performance of current sequence-to-sequence 3D pose estimators, with a reduction of at least 10.3% in the mean per joint position error (MPJPE) and at least 11.0% in the Procrustes MPJPE (P-MPJPE).
翻訳日:2024-01-09 16:05:32 公開日:2024-01-08
# 注意誘導型消去:下流乳腺密度分類を向上するための新しい拡張法

Attention-Guided Erasing: A Novel Augmentation Method for Enhancing Downstream Breast Density Classification ( http://arxiv.org/abs/2401.03912v1 )

ライセンス: Link先を確認
Adarsh Bhandary Panambur, Hui Yu, Sheethal Bhat, Prathmesh Madhu, Siming Bayer, Andreas Maier(参考訳) 乳房密度の評価は乳癌検診の文脈において重要であり、特に高濃度乳房組織の割合が高い集団では重要である。 本研究は,ベトナムのコホートにおけるBI-RADS勧告に従って,乳房の4つの異なる乳房密度カテゴリーの下流分類を強化するために考案された新しいデータ拡張手法であるAtention-Guided Erasing (AGE)を紹介する。 提案手法は,自己教師付きdino法を用いて訓練された視覚トランスフォーマーバックボーンから得られた視覚注意マップを用いて,転送学習中に補足情報を統合する。 これらの地図はマンモグラム画像の背景領域を消去するために利用され、乳房組織が密集する潜在領域のみをネットワークに公開する。 トランスファー学習におけるAGEの組み入れにより,AGEのないシナリオや従来のランダム消去変換に比べて,分類性能は一貫して上回っている。 VinDr-Mammoデータセットを用いて提案手法を検証する。 具体的には、年齢のないシナリオとランダム消去(re)でそれぞれ0.5594と0.5691の平均f1スコア(0.5910)を達成する。 この優越性は、t検定によりさらに証明され、p<0.0001のp値が明らかとなり、我々のアプローチの統計的意義を裏付ける。

The assessment of breast density is crucial in the context of breast cancer screening, especially in populations with a higher percentage of dense breast tissues. This study introduces a novel data augmentation technique termed Attention-Guided Erasing (AGE), devised to enhance the downstream classification of four distinct breast density categories in mammography following the BI-RADS recommendation in the Vietnamese cohort. The proposed method integrates supplementary information during transfer learning, utilizing visual attention maps derived from a vision transformer backbone trained using the self-supervised DINO method. These maps are utilized to erase background regions in the mammogram images, unveiling only the potential areas of dense breast tissues to the network. Through the incorporation of AGE during transfer learning with varying random probabilities, we consistently surpass classification performance compared to scenarios without AGE and the traditional random erasing transformation. We validate our methodology using the publicly available VinDr-Mammo dataset. Specifically, we attain a mean F1-score of 0.5910, outperforming values of 0.5594 and 0.5691 corresponding to scenarios without AGE and with random erasing (RE), respectively. This superiority is further substantiated by t-tests, revealing a p-value of p<0.0001, underscoring the statistical significance of our approach.
翻訳日:2024-01-09 16:04:58 公開日:2024-01-08
# 言語モデルに関する哲学入門-その1:古典的議論との連続性

A Philosophical Introduction to Language Models -- Part I: Continuity With Classic Debates ( http://arxiv.org/abs/2401.03910v1 )

ライセンス: Link先を確認
Rapha\"el Milli\`ere, Cameron Buckner(参考訳) GPT-4のような大規模言語モデルは、言語に基づくタスクの幅広い範囲で卓越した熟練を実現している。 このことは、言語モデルに対するいかなる言語的または認知的能力も有意に説明できる範囲について、継続的な意見の相違を引き起こしている。 このような疑問は深い哲学的ルーツを持ち、認知モデルとしてのニューラルネットワークの現状に関する長年の議論を反映している。 この記事は2つの共著の第1部であり、哲学者の言語モデルに関するプライマーとして、また哲学の認知科学、人工知能、言語学における古典的な議論に関連するそれらの重要性に関する意見調査としての役割を果たす。 我々は,構成性,言語習得,意味能力,接地,世界モデル,文化知識の伝達といったトピックを取り上げている。 言語モデルの成功は、ニューラルネットワークに関する長期にわたる仮定に挑戦していると論じている。 しかし、内部メカニズムをよりよく理解するためには、さらなる実験的な調査の必要性も強調する。 これは、言語モデルの内部動作を探索する新しい経験的手法と、それらの最新の発展によって引き起こされた新たな哲学的問題に転換する、共用紙(Part II)のステージを定めている。

Large language models like GPT-4 have achieved remarkable proficiency in a broad spectrum of language-based tasks, some of which are traditionally associated with hallmarks of human intelligence. This has prompted ongoing disagreements about the extent to which we can meaningfully ascribe any kind of linguistic or cognitive competence to language models. Such questions have deep philosophical roots, echoing longstanding debates about the status of artificial neural networks as cognitive models. This article -- the first part of two companion papers -- serves both as a primer on language models for philosophers, and as an opinionated survey of their significance in relation to classic debates in the philosophy cognitive science, artificial intelligence, and linguistics. We cover topics such as compositionality, language acquisition, semantic competence, grounding, world models, and the transmission of cultural knowledge. We argue that the success of language models challenges several long-held assumptions about artificial neural networks. However, we also highlight the need for further empirical investigation to better understand their internal mechanisms. This sets the stage for the companion paper (Part II), which turns to novel empirical methods for probing the inner workings of language models, and new philosophical questions prompted by their latest developments.
翻訳日:2024-01-09 16:04:32 公開日:2024-01-08
# RoboFusion:SAMによるロバストなマルチモーダル3次元オビオクト検出を目指して

RoboFusion: Towards Robust Multi-Modal 3D obiect Detection via SAM ( http://arxiv.org/abs/2401.03907v1 )

ライセンス: Link先を確認
Ziying Song, Guoxing Zhang, Lin Liu, Lei Yang, Shaoqing Xu, Caiyan Jia, Feiyang Jia, Li Wang(参考訳) マルチモーダル3Dオブジェクト検出器は、自律運転(AD)のための安全で信頼性の高い認識システムを探究する。 しかし、クリーンなベンチマークデータセット上での最先端(SOTA)パフォーマンスを達成する一方で、現実の環境の複雑さと厳しい条件を見落としてしまう傾向がある。 一方、視覚基礎モデル(VFM)の出現に伴い、自律運転におけるマルチモーダル3次元物体検出の堅牢性と一般化を改善するための機会と課題が提示される。 そこで,本研究では,SAM などの VFM を利用した強靭なフレームワークであるRoboFusion を提案する。 まず、SAM-ADという自律走行シナリオに適用する。 SAM や SAM-AD をマルチモーダルな手法に合わせるため,SAM が抽出した画像特徴のアップサンプリングを行う AD-FPN を導入する。 我々はウェーブレット分解法を用いて深度誘導画像のノイズ低減と気象干渉を行う。 最後に, 自己着脱機構を用いて融通した特徴を適応的に重み付けし, 余分な雑音を抑制しつつ, 情報的特徴量を高めた。 要約すると, vfmの一般化とロバスト性を利用し, マルチモーダル3次元物体検出の弾力性を高めることにより, 徐々にノイズを低減する。 その結果、我々のRoboFusionは、KITTI-CとnuScenes-Cベンチマークで示されているように、ノイズの多いシナリオで最先端のパフォーマンスを達成する。

Multi-modal 3D object detectors are dedicated to exploring secure and reliable perception systems for autonomous driving (AD). However, while achieving state-of-the-art (SOTA) performance on clean benchmark datasets, they tend to overlook the complexity and harsh conditions of real-world environments. Meanwhile, with the emergence of visual foundation models (VFMs), opportunities and challenges are presented for improving the robustness and generalization of multi-modal 3D object detection in autonomous driving. Therefore, we propose RoboFusion, a robust framework that leverages VFMs like SAM to tackle out-of-distribution (OOD) noise scenarios. We first adapt the original SAM for autonomous driving scenarios named SAM-AD. To align SAM or SAM-AD with multi-modal methods, we then introduce AD-FPN for upsampling the image features extracted by SAM. We employ wavelet decomposition to denoise the depth-guided images for further noise reduction and weather interference. Lastly, we employ self-attention mechanisms to adaptively reweight the fused features, enhancing informative features while suppressing excess noise. In summary, our RoboFusion gradually reduces noise by leveraging the generalization and robustness of VFMs, thereby enhancing the resilience of multi-modal 3D object detection. Consequently, our RoboFusion achieves state-of-the-art performance in noisy scenarios, as demonstrated by the KITTI-C and nuScenes-C benchmarks.
翻訳日:2024-01-09 16:04:10 公開日:2024-01-08
# WEBDial - RDFを用いたマルチドメイン・マルチタスク統計対話フレームワーク

WEBDial, a Multi-domain, Multitask Statistical Dialogue Framework with RDF ( http://arxiv.org/abs/2401.03905v1 )

ライセンス: Link先を確認
Morgan Veyret, Jean-Baptiste Duchene, Kekeli Afonouvi, Quentin Brabant, Gwenole Lecorve and Lina M. Rojas-Barahona(参考訳) 一般的に利用可能な対話フレームワークは、対話行為とスロット値ペアに基づく意味表現を採用している。 その単純さにもかかわらず、表現力の欠如、拡張性、説明可能性などの欠点がある。 スロット値ペアの代わりにRDFトリプルを用いることでグラフ形式に依存した対話フレームワークであるWEBDialを提案する。 アーキテクチャ全体とグラフに基づく意味表現について述べる。 単一のドメインやタスクから複数のドメインや複雑なタスクに至るまで、ドメインとタスクの複雑さを変化させることで、その適用性を示す。

Typically available dialogue frameworks have adopted a semantic representation based on dialogue-acts and slot-value pairs. Despite its simplicity, this representation has disadvantages such as the lack of expressivity, scalability and explainability. We present WEBDial: a dialogue framework that relies on a graph formalism by using RDF triples instead of slot-value pairs. We describe its overall architecture and the graph-based semantic representation. We show its applicability from simple to complex applications, by varying the complexity of domains and tasks: from single domain and tasks to multiple domains and complex tasks.
翻訳日:2024-01-09 16:03:41 公開日:2024-01-08
# 位相空間における共役磁場による構成空間の非可換性

Noncommutativity in Configuration Space Induced by A Conjugate Magnetic Field in Phase Space ( http://arxiv.org/abs/2401.03902v1 )

ライセンス: Link先を確認
Jan Govaerts (CP3, Univ. cath. Louvain, UCLouvain, Louvain-la-Neuve, Belgium)(参考訳) 良く知られているように、量子力学に結合した構成空間の外部磁場は、その速度運動量空間における非可換性を誘導する。 位相空間双対性により、系の共役運動量セクターの外部ベクトルポテンシャルはその構成空間において非可換性を誘導する。 非可換性に対するそのような理性は、ユークリッド幾何学の任意の構成空間に対して研究される。 可換構成空間を持つ通常の量子力学は、まず再訪される。 任意の正の定値 $*$-積の導入により、抽象量子状態のヒルベルト空間と位置量子作用素の包み込み代数の間の1対1の対応が特定される。 次に、構成空間が非可換であるときに平行な議論を行い、共役磁場が運動量独立かつ非退化であるときに徹底的に解析する。 再び量子状態の空間は、非可換位置量子作用素の包絡代数と同一視することができる。 さらに、座標作用素の可換代数を決定する共役磁場の値に従って正定値の$*$-積が選択されるとき、これらの作用素は、標準コヒーレント状態が関連する可換構成空間幾何学の鋭く構造のない局所点の局所的非可換量子アナログであるフォック代数にまたがる。 これらの結果は、通常の正準量子化の文脈において、F. G. Scholtz と彼の協力者によって構築され、開発された非可換ユークリッド平面における量子力学に対するヒューリスティックなアプローチを一般化し、正当化する。

As is well known, an external magnetic field in configuration space coupled to a quantum dynamics induces noncommutativity in its velocity momentum space. By phase space duality, an external vector potential in the conjugate momentum sector of the system induces noncommutativity in its configuration space. Such a rationale for noncommutativity is explored herein for an arbitrary configuration space of Euclidean geometry. Ordinary quantum mechanics with a commutative configuration space is revisited first. Through the introduction of an arbitrary positive definite $*$-product, a one-to-one correspondence between the Hilbert space of abstract quantum states and that of the enveloping algebra of the position quantum operators is identified. A parallel discussion is then presented when configuration space is noncommutative, and thoroughly analysed when the conjugate magnetic field is momentum independent and nondegenerate. Once again the space of quantum states may be identified with the enveloping algebra of the noncommutative position quantum operators. Furthermore when the positive definite $*$-product is chosen in accordance with the value of the conjugate magnetic field which determines the commutator algebra of the coordinate operators, these operators span a Fock algebra of which the canonical coherent states are the localised noncommutative quantum analogues of the sharp and structureless local points of the associated commutative configuration space geometry. These results generalise and justify a posteriori within the context of ordinary canonical quantisation the heuristic approach to quantum mechanics in the noncommutative Euclidean plane as constructed and developed by F. G. Scholtz and his collaborators.
翻訳日:2024-01-09 16:03:32 公開日:2024-01-08
# アライメント研究センター行列完成問題に対する多項式精度依存解

Polynomial Precision Dependence Solutions to Alignment Research Center Matrix Completion Problems ( http://arxiv.org/abs/2401.03999v1 )

ライセンス: Link先を確認
Rico Angell(参考訳) 精度$\varepsilon$ の多項式依存性を持つアライメント研究センターによって提案された行列完成問題の解を提案する。 これらの問題の動機は、ヒューリスティックな推定器の効率的な計算を可能にし、aiアライメントの利益のために、異なる量のディープニューラルネットワークについて公式に評価し推論することにある。 提案手法では,行列完備化問題を半定プログラム(SDP)として再検討し,高速で効率的でスケーラブルなSDP解決のためのスペクトルバンドル手法の最近の進歩を利用する。

We present solutions to the matrix completion problems proposed by the Alignment Research Center that have a polynomial dependence on the precision $\varepsilon$. The motivation for these problems is to enable efficient computation of heuristic estimators to formally evaluate and reason about different quantities of deep neural networks in the interest of AI alignment. Our solutions involve reframing the matrix completion problems as a semidefinite program (SDP) and using recent advances in spectral bundle methods for fast, efficient, and scalable SDP solving.
翻訳日:2024-01-09 15:32:50 公開日:2024-01-08
# ナイジェリアのICTとデジタル時代の経済的持続性

Nigeria's ICT and Economic Sustainability in the Digital Age ( http://arxiv.org/abs/2401.03996v1 )

ライセンス: Link先を確認
Abayomi Agbeyangi, Ayodeji Makinde and Isaac Odun-Ayo(参考訳) ナイジェリアの目覚ましい情報通信技術(ict)の旅は数十年にわたって続き、特に60歳で国を祝って経済の持続可能性において重要な役割を担っている。 本稿では,ナイジェリアのICTの歩みを概観し,持続的経済繁栄におけるその中心的な役割を概説する。 私たちは人工知能、ブロックチェーン、IoT(Internet of Things)の可能性を探り、地平線上における驚くべき機会を明らかにします。 我々は、デジタル排他性を達成し、都市と社会のギャップを橋渡しし、技術格差を減らすという緊急性を強調する。 ナイジェリアは、このデジタル時代における経済発展の持続を目指しており、政策立案者、ビジネスリーダー、教育機関にとってICTの貴重な機会を証明しようとしている。 具体的には、新興技術が産業を再定義し、経済成長を超過し、ナイジェリア全土の生活の質を高めるダイナミックな環境を構想する。

Nigeria's remarkable information and communication technology (ICT) journey spans decades, playing a pivotal role in economic sustainability, especially as the nation celebrates its Republic at Sixty. This paper provides an overview of Nigeria's ICT journey, underscoring its central role in sustainable economic prosperity. We explore the potential of artificial intelligence, blockchain, and the Internet of Things (IoT), revealing the remarkable opportunities on the horizon. We stress the urgency of achieving digital inclusivity, bridging the urban-rural gap, and reducing the technological divide, all of which are critical as Nigeria marks its sixtieth year. We intend to prove the invaluable opportunities of ICT for policymakers, business leaders, and educational institutes as Nigeria looks towards enduring economic development in this digital age. Specifically, we envision a dynamic landscape where emerging technologies are set to redefine industries, supercharge economic growth, and enhance the quality of life for every Nigerian.
翻訳日:2024-01-09 15:32:40 公開日:2024-01-08
# VizDoomにおける行動クローン

Behavioural Cloning in VizDoom ( http://arxiv.org/abs/2401.03993v1 )

ライセンス: Link先を確認
Ryan Spick, Timothy Bradley, Ayush Raina, Pierluigi Vito Amadori, Guy Moss(参考訳) 本稿では,画素データのみを入力としてImitation Learning (IL) を用いて,自律エージェントがゲーム「Doom 2」をプレイする訓練方法について述べる。 また,Reinforcement Learning (RL) がカメラの動きと軌跡データを比較することで,人間性に対するILとの比較を行う。 行動クローニングを通して、個々のモデルが様々な行動特性を学習する能力を検討する。 私たちは、プレイスタイルの異なるリアルプレイヤーの振る舞いを模倣しようと試み、従来のAIよりも攻撃的、受動的、あるいは単に人間らしく振る舞うエージェントを訓練することができる。 ビデオゲームにおけるエージェントにより深みと人間的な振る舞いを導入する手法を提案する。 トレーニングされたILエージェントは、データセット内の平均的なプレイヤーと同等に動作します。 パフォーマンスは一般的なRLアプローチほど強力ではなかったが、エージェントに強い人間のような行動特性を提供する。

This paper describes methods for training autonomous agents to play the game "Doom 2" through Imitation Learning (IL) using only pixel data as input. We also explore how Reinforcement Learning (RL) compares to IL for humanness by comparing camera movement and trajectory data. Through behavioural cloning, we examine the ability of individual models to learn varying behavioural traits. We attempt to mimic the behaviour of real players with different play styles, and find we can train agents that behave aggressively, passively, or simply more human-like than traditional AIs. We propose these methods of introducing more depth and human-like behaviour to agents in video games. The trained IL agents perform on par with the average players in our dataset, whilst outperforming the worst players. While performance was not as strong as common RL approaches, it provides much stronger human-like behavioural traits to the agent.
翻訳日:2024-01-09 15:32:22 公開日:2024-01-08
# 大規模言語モデルにおける空間推論の強化:StepGameベンチマークを用いた奥行き評価と拡張

Advancing Spatial Reasoning in Large Language Models: An In-Depth Evaluation and Enhancement Using the StepGame Benchmark ( http://arxiv.org/abs/2401.03991v1 )

ライセンス: Link先を確認
Fangjun Li, David C. Hogg, Anthony G. Cohn(参考訳) 人工知能(AI)はさまざまな領域で顕著な進歩を遂げており、ChatGPTのような大きな言語モデルは、人間のようなテキスト生成機能に対して大きな注目を集めている。 これらの成果にもかかわらず、空間的推論はこれらのモデルにとって重要な課題である。 StepGameのようなベンチマークでは、ChatGPTが満足できないパフォーマンスを示したAI空間推論を評価している。 しかし、ベンチマークにおけるテンプレートエラーの存在は評価結果に影響を与えている。 このように、ChatGPTがこれらのテンプレートエラーに対処すれば、その空間的推論能力をより正確に評価できる可能性がある。 本研究では,StepGameベンチマークを改良し,モデル評価のためのより正確なデータセットを提供する。 我々は、GPTの空間推論性能を補正されたベンチマークで分析し、自然言語テキストを空間関係にマッピングする習熟度を同定するが、マルチホップ推論では制限する。 テンプレートとリレーショナルマッピングと論理ベースの推論を組み合わせることで、ベンチマークに欠陥のないソリューションを提供する。 この組み合わせは、エラーに遭遇することなくStepGameで定性的推論を実行する能力を示す。 次に,空間的推論におけるGPTモデルの限界に対処する。 我々は,思考の連鎖と思考のツリーを配置し,GPTの「認知過程」に関する洞察を提供し,精度を著しく向上させる。 我々の調査は、モデル欠陥だけでなく、強化も提案しており、より堅牢な空間推論能力を持つAIの進歩に貢献しています。

Artificial intelligence (AI) has made remarkable progress across various domains, with large language models like ChatGPT gaining substantial attention for their human-like text-generation capabilities. Despite these achievements, spatial reasoning remains a significant challenge for these models. Benchmarks like StepGame evaluate AI spatial reasoning, where ChatGPT has shown unsatisfactory performance. However, the presence of template errors in the benchmark has an impact on the evaluation results. Thus there is potential for ChatGPT to perform better if these template errors are addressed, leading to more accurate assessments of its spatial reasoning capabilities. In this study, we refine the StepGame benchmark, providing a more accurate dataset for model evaluation. We analyze GPT's spatial reasoning performance on the rectified benchmark, identifying proficiency in mapping natural language text to spatial relations but limitations in multi-hop reasoning. We provide a flawless solution to the benchmark by combining template-to-relation mapping with logic-based reasoning. This combination demonstrates proficiency in performing qualitative reasoning on StepGame without encountering any errors. We then address the limitations of GPT models in spatial reasoning. We deploy Chain-of-thought and Tree-of-thoughts prompting strategies, offering insights into GPT's ``cognitive process", and achieving remarkable improvements in accuracy. Our investigation not only sheds light on model deficiencies but also proposes enhancements, contributing to the advancement of AI with more robust spatial reasoning capabilities.
翻訳日:2024-01-09 15:32:04 公開日:2024-01-08
# MS-DETR:Mixed Supervisionを用いた効率的なDETRトレーニング

MS-DETR: Efficient DETR Training with Mixed Supervision ( http://arxiv.org/abs/2401.03989v1 )

ライセンス: Link先を確認
Chuyang Zhao, Yifan Sun, Wenhao Wang, Qiang Chen, Errui Ding, Yi Yang, Jingdong Wang(参考訳) detrは、画像特徴に基づいて複数のオブジェクト候補を反復生成し、各接地オブジェクトに対して1つの候補を宣伝することで、エンドツーエンドのオブジェクト検出を実現する。 元のdetrで1対1の監督を用いる伝統的な訓練手順は、対象検出候補に対する直接の監督を欠いている。 我々は,1対1の監督と1対1の監督を混合することにより,候補生成手順を明示的に監督し,DETR訓練効率の向上を目指す。 我々のアプローチ、すなわちMS-DETRは単純であり、推論に使用されるプライマリデコーダのオブジェクトクエリを1対1で監視する。 Group DETRやHybrid DETRのような1対多の監視機能を持つ既存のDETRと比べ、我々のアプローチはデコーダブランチやオブジェクトクエリの追加を必要としない。 提案手法におけるプライマリデコーダのオブジェクトクエリは,一対多の監視の恩恵を受けており,オブジェクト候補予測において優れている。 実験結果から,DN-DETR,Hybrid DETR,Group DETRなどのDTR変異体よりも優れた性能を示し,DTR変異体と組み合わせることで性能が向上した。

DETR accomplishes end-to-end object detection through iteratively generating multiple object candidates based on image features and promoting one candidate for each ground-truth object. The traditional training procedure using one-to-one supervision in the original DETR lacks direct supervision for the object detection candidates. We aim at improving the DETR training efficiency by explicitly supervising the candidate generation procedure through mixing one-to-one supervision and one-to-many supervision. Our approach, namely MS-DETR, is simple, and places one-to-many supervision to the object queries of the primary decoder that is used for inference. In comparison to existing DETR variants with one-to-many supervision, such as Group DETR and Hybrid DETR, our approach does not need additional decoder branches or object queries. The object queries of the primary decoder in our approach directly benefit from one-to-many supervision and thus are superior in object candidate prediction. Experimental results show that our approach outperforms related DETR variants, such as DN-DETR, Hybrid DETR, and Group DETR, and the combination with related DETR variants further improves the performance.
翻訳日:2024-01-09 15:31:40 公開日:2024-01-08
# 時間グラフ学習におけるプライマー

A Primer on Temporal Graph Learning ( http://arxiv.org/abs/2401.03988v1 )

ライセンス: Link先を確認
Aniq Ur Rahman, Justin P. Coon(参考訳) 本論文は, テンポラルグラフ学習(TGL)をコンセプトファーストアプローチで読者に親しみやすくすることを目的とする。 我々は,TGLフレームワークの動作を理解する上で不可欠な重要な概念を体系的に提示してきた。 質的説明に加えて,適用可能な数学的定式化を取り入れ,文章の明快さを高めた。 tglは時間的および空間的学習を伴うため、再帰的および畳み込み型ニューラルネットワークからトランスフォーマおよびグラフニューラルネットワークまで、関連する学習アーキテクチャを導入する。 また、TGLの解釈可能な学習ソリューションに刺激を与える古典的時系列予測手法についても論じる。

This document aims to familiarize readers with temporal graph learning (TGL) through a concept-first approach. We have systematically presented vital concepts essential for understanding the workings of a TGL framework. In addition to qualitative explanations, we have incorporated mathematical formulations where applicable, enhancing the clarity of the text. Since TGL involves temporal and spatial learning, we introduce relevant learning architectures ranging from recurrent and convolutional neural networks to transformers and graph neural networks. We also discuss classical time series forecasting methods to inspire interpretable learning solutions for TGL.
翻訳日:2024-01-09 15:31:18 公開日:2024-01-08
# 慣性および加速観測者の場の量子論における局在

Localization in Quantum Field Theory for inertial and accelerated observers ( http://arxiv.org/abs/2401.03975v1 )

ライセンス: Link先を確認
Riccardo Falcone, Claudio Conti(参考訳) 量子場理論(QFT)における局所化の問題について,慣性および加速実験の観点から検討する。 ニュートン・ウィグナー(newton-wigner)、代数的量子場理論(aqft)、モーダル局在スキーム(modal localization schemes)は、それぞれ空間の非連結領域に局在する状態の直交条件に基づいており、qftへの代数的アプローチと場方程式の正の周波数解としての単粒子の表現について考察する。 AQFTスキームのみが微分同相の下で因果性と物理的不変性に従うことを示す。 次に、リンドラー系における場の非相対論的極限を考える。 我々は, aqftとモーダルスキームの収束を実証し, 状態の局在化と可観測性の概念の出現を示す。 また,実験者が非相対論的局所演算子を用いてバックグラウンド真空上で状態を準備し,別の実験者が異なる領域で非相対論的局所測定を行うシナリオについても検討した。 両実験者が加速し,背景状態がリンドラー真空と異なる場合, あるいは2つの実験者の1人が慣性である場合, 状態と測定値の独立性は保証されない。

We study the problem of localization in Quantum Field Theory (QFT) from the point of view of inertial and accelerated experimenters. We consider the Newton-Wigner, the Algebraic Quantum Field Theory (AQFT) and the modal localization schemes, which are, respectively, based on the orthogonality condition for states localized in disjoint regions of space, on the algebraic approach to QFT and on the representation of single particles as positive frequency solution of the field equation. We show that only the AQFT scheme obeys causality and physical invariance under diffeomorphisms. Then, we consider the nonrelativistic limit of quantum fields in the Rindler frame. We demonstrate the convergence between the AQFT and the modal scheme and we show the emergence of the Born notion of localization of states and observables. Also, we study the scenario in which an experimenter prepares states over a background vacuum by means of nonrelativistic local operators and another experimenter carries out nonrelativistic local measurements in a different region. We find that the independence between preparation of states and measurements is not guaranteed when both experimenters are accelerated and the background state is different from Rindler vacuum, or when one of the two experimenters is inertial.
翻訳日:2024-01-09 15:31:09 公開日:2024-01-08
# scdiffusion:拡散モデルを用いた高品質単細胞データの条件生成

scDiffusion: conditional generation of high-quality single-cell data using diffusion model ( http://arxiv.org/abs/2401.03968v1 )

ライセンス: Link先を確認
Erpai Luo, Minsheng Hao, Lei Wei, Xuegong Zhang(参考訳) 単一細胞RNAシークエンシング(scRNA-seq)データは、単一細胞レベルでの発生や疾患の生物学を研究する上で重要である。 データの性質をよりよく理解し、下流メソッドをテストするための制御されたベンチマークデータを構築し、十分な実データを集める際にデータを強化することが困難となるため、合成srna-seqデータを計算的に生成する生成モデルが提案されている。 しかし、現在のモデルで生成されたデータは、特に制御された条件でデータを生成する必要がある場合、まだあまり現実的ではない。 一方、Diffusionモデルはコンピュータビジョンのデータを高い忠実度で生成する能力を示しており、scRNA-seq生成の新しい機会となっている。 本研究では,制御条件付き高品質な scRNA-seq データを生成する拡散モデルである scDiffusion を開発した。 拡散過程を同時に導くために複数の分類器を設計し、複数の条件の組み合わせでScDiffusionでデータを生成する。 また,勾配補間と呼ばれる新しい制御戦略を提案した。 この戦略により、モデルは所定の細胞状態から細胞発達の連続的な軌道を生成することができる。 実験の結果、ScDiffusionは実際のScRNA-seqデータとよく似た単一細胞遺伝子発現データを生成でき、複数のメトリクスで最先端モデルを上回ることがわかった。 また、 scDiffusionは稀な細胞型を含む特定の細胞型のデータを生成することができる。 さらに,scdiffusionの多条件生成により,トレーニングデータから得られた細胞型を生成することができた。 勾配補間戦略を活用し,マウス胚細胞の発達過程を連続的に追跡した。 これらの実験は、scDiffusionが実際のscRNA-seqデータを増強する強力なツールであり、細胞運命研究の洞察を与えることを実証している。

Single-cell RNA sequencing (scRNA-seq) data are important for studying the biology of development or diseases at single-cell level. To better understand the properties of the data, to build controlled benchmark data for testing downstream methods, and to augment data when collecting sufficient real data is challenging, generative models have been proposed to computationally generate synthetic scRNA-seq data. However, the data generated with current models are not very realistic yet, especially when we need to generate data with controlled conditions. In the meantime, the Diffusion models have shown their power in generating data in computer vision at high fidelity, providing a new opportunity for scRNA-seq generation. In this study, we developed scDiffusion, a diffusion-based model to generate high-quality scRNA-seq data with controlled conditions. We designed multiple classifiers to guide the diffusion process simultaneously, enabling scDiffusion to generate data under multiple condition combinations. We also proposed a new control strategy called Gradient Interpolation. This strategy allows the model to generate continuous trajectories of cell development from a given cell state. Experiments showed that scDiffusion can generate single-cell gene expression data closely resembling real scRNA-seq data, surpassing state-of-the-art models in multiple metrics. Also, scDiffusion can conditionally produce data on specific cell types including rare cell types. Furthermore, we could use the multiple-condition generation of scDiffusion to generate cell type that was out of the training data. Leveraging the Gradient Interpolation strategy, we generated a continuous developmental trajectory of mouse embryonic cells. These experiments demonstrate that scDiffusion is a powerful tool for augmenting the real scRNA-seq data and can provide insights into cell fate research.
翻訳日:2024-01-09 15:30:44 公開日:2024-01-08
# 連続時間深層学習のための微分方程式

Differential Equations for Continuous-Time Deep Learning ( http://arxiv.org/abs/2401.03965v1 )

ライセンス: Link先を確認
Lars Ruthotto(参考訳) この短い自己完結型論文は、ニューラル常微分方程式(ニューラルODE)に基づく継続的時間深層学習のアプローチを導入し、調査することを目指している。 主に、通常の偏微分方程式やその分析に精通した読者を対象にしており、機械学習における自身の役割を知りたがっている。 機械学習と応用数学の3つの例を使って、ニューラルODEがディープラーニングに対する新たな洞察を提供し、より効率的なアルゴリズムの基礎を提供するかを見る。

This short, self-contained article seeks to introduce and survey continuous-time deep learning approaches that are based on neural ordinary differential equations (neural ODEs). It primarily targets readers familiar with ordinary and partial differential equations and their analysis who are curious to see their role in machine learning. Using three examples from machine learning and applied mathematics, we will see how neural ODEs can provide new insights into deep learning and a foundation for more efficient algorithms.
翻訳日:2024-01-09 15:30:13 公開日:2024-01-08
# 落葉広葉樹林におけるフェノロジー予測のためのデータ駆動モデルと機械モデルの比較

Comparing Data-Driven and Mechanistic Models for Predicting Phenology in Deciduous Broadleaf Forests ( http://arxiv.org/abs/2401.03960v1 )

ライセンス: Link先を確認
Christian Reimers, David Hafezi Rachti, Guahua Liu, Alexander J. Winkler(参考訳) 将来の気候を理解することは、気候変動の予防と緩和に関する情報的な政策決定に不可欠である。 地球系モデルは将来の気候を予測する上で重要な役割を果たし、複数の時間スケールと空間スケールにまたがる複雑なサブプロセスの正確な表現を必要とする。 季節的および年次気候変動と周期的生物学的事象を関連付けるそのような過程の1つは、落葉広葉樹林の樹木現象である。 成長期の始まりと終わりのような現象学的日付は、生物圏と大気の間の炭素と水の交換を理解する上で重要である。 これらの日付の機械的予測は難しい。 データ駆動アプローチを複雑なモデルに統合するハイブリッドモデリングは、ソリューションを提供する。 この研究では、この目標に向かう第一歩として、深層ニューラルネットワークを訓練し、気象時系列から現象指数を予測する。 このアプローチは従来のプロセスベースのモデルよりも優れています。 これは、気候予測を改善するデータ駆動手法の可能性を強調している。 また、時系列のどの変数や側面がシーズンの予測開始に影響を与えるかを分析し、モデルの利点や限界をよりよく理解するために、分析を行う。

Understanding the future climate is crucial for informed policy decisions on climate change prevention and mitigation. Earth system models play an important role in predicting future climate, requiring accurate representation of complex sub-processes that span multiple time scales and spatial scales. One such process that links seasonal and interannual climate variability to cyclical biological events is tree phenology in deciduous broadleaf forests. Phenological dates, such as the start and end of the growing season, are critical for understanding the exchange of carbon and water between the biosphere and the atmosphere. Mechanistic prediction of these dates is challenging. Hybrid modelling, which integrates data-driven approaches into complex models, offers a solution. In this work, as a first step towards this goal, train a deep neural network to predict a phenological index from meteorological time series. We find that this approach outperforms traditional process-based models. This highlights the potential of data-driven methods to improve climate predictions. We also analyze which variables and aspects of the time series influence the predicted onset of the season, in order to gain a better understanding of the advantages and limitations of our model.
翻訳日:2024-01-09 15:30:03 公開日:2024-01-08
# TTM:多変量時系列のゼロショットおよびFewショット予測改善のための高速マルチレベルタイニー時間ミキサ

TTMs: Fast Multi-level Tiny Time Mixers for Improved Zero-shot and Few-shot Forecasting of Multivariate Time Series ( http://arxiv.org/abs/2401.03955v1 )

ライセンス: Link先を確認
Vijay Ekambaram, Arindam Jati, Nam H. Nguyen, Pankaj Dayama, Chandra Reddy, Wesley M. Gifford, Jayant Kalagnanam(参考訳) zero/few-shot学習のための大規模事前学習モデルは、言語領域や視覚領域で優れているが、多変量時系列(ts)での課題に遭遇する。 その結果,事前学習された大規模言語モデル (LLM) の時系列予測への適応が活発化している。 これらのアプローチはクロスドメイン転送学習を採用し、非常に印象的な結果をもたらす。 しかし、これらのモデルは典型的には非常に大きい($sim$b)パラメータであり、実行が遅く、チャネル間の相関を考慮しない。 そこで本研究では,軽量なTSMixerアーキテクチャに基づくモデルとして,TTM(Multi-level Tiny Time Mixers)を提案する。 TTMは、効果的な転送学習機能を備えた公開TSデータにのみトレーニングされた、小さな事前訓練済みモデル(100万ドル相当のパラメータ)を開発する最初の成功である。 時間分解能の異なる複数のデータセットにおける事前トレーニングの複雑さに対処するために,適応パッチ処理,ダウンサンプリングによるデータセット拡張,解像度プレフィックスチューニングなど,いくつかの新しい拡張を導入する。 さらに,チャネル相関を効果的にモデル化し,既存のベンチマークに欠落する重要な機能である微調整中に外因性シグナルを組み込むためのマルチレベルモデリング手法を用いる。 TTMは少数/ゼロショットの予測に優れており、既存のベンチマークよりも相当な精度(12-38%)向上を示している。 さらに、モデルパラメータの14-106倍の削減を実現し、LCM-TSベンチマークと比較して54-65倍高速なトレーニング/推論を実現している。 実際、ttmのゼロショットの結果は、多くのベンチマークで数ショットの結果を上回っており、我々のアプローチの有効性を強調しています。 CodeとPretrained Modelsはオープンソースになる。

Large Pretrained models for Zero/Few-shot learning excel in language and vision domains but encounter challenges in multivariate time series (TS) due to the diverse nature and scarcity of publicly available pretraining data. Consequently, there has been a recent surge in utilizing pretrained large language models (LLMs) with various adaptations for time series forecasting. These approaches employ cross-domain transfer learning, yielding highly impressive results. However, these models are typically very large ($\sim$ billion parameters), exhibit slow execution, and do not consider cross-channel correlations. To address this, we present Multi-level Tiny Time Mixers (TTM), a significantly smaller model based on the lightweight TSMixer architecture. TTM marks the first success in developing tiny pretrained models ($\le$1 million parameters), exclusively trained on public TS data with effective transfer learning capabilities. To tackle the complexity of pretraining on multiple datasets with varied temporal resolutions, we introduce several novel enhancements such as adaptive patching, dataset augmentation via downsampling, and resolution prefix tuning. Moreover, we employ a multi-level modeling strategy to effectively model channel correlations and incorporate exogenous signals during finetuning, a crucial capability lacking in existing benchmarks. TTM excels in few/zero-shot forecasting, demonstrating significant accuracy gains (12-38%) over existing benchmarks. Further, it achieves a remarkable 14-106X reduction in model parameters, enabling 54-65X faster training/inference as compared to the LLM-TS benchmarks. In fact, TTM's zero-shot results often surpass the few-shot results in many benchmarks, highlighting the efficacy of our approach. Code and Pretrained Models will be open-sourced.
翻訳日:2024-01-09 15:29:45 公開日:2024-01-08
# 情報収集によるドローン誘導

Guiding drones by information gain ( http://arxiv.org/abs/2401.03947v1 )

ライセンス: Link先を確認
Alouette van Hove, Kristoffer Aalstad, Norbert Pirk(参考訳) 環境モニタリングや温室効果ガス排出分析など、さまざまな領域において、ガス源の位置と排出率の正確な推定が重要である。 本研究では,大気観測からガス配管のパラメーターを推定するための2つのドローンサンプリング手法について検討した。 両方の戦略は、シーケンシャルな場所での観測から得られる情報の獲得を最大化するという目標によって導かれる。 本研究は,インフォタキシーの近視的アプローチと深い強化学習を通じて訓練された遠視ナビゲーション戦略を比較した。 非等方性ガスプルーム環境におけるインフォテキシーよりも深い強化学習の優れた性能を示す。

The accurate estimation of locations and emission rates of gas sources is crucial across various domains, including environmental monitoring and greenhouse gas emission analysis. This study investigates two drone sampling strategies for inferring source term parameters of gas plumes from atmospheric measurements. Both strategies are guided by the goal of maximizing information gain attained from observations at sequential locations. Our research compares the myopic approach of infotaxis to a far-sighted navigation strategy trained through deep reinforcement learning. We demonstrate the superior performance of deep reinforcement learning over infotaxis in environments with non-isotropic gas plumes.
翻訳日:2024-01-09 15:29:12 公開日:2024-01-08
# TextMachina: マシン生成テキストデータセットのシームレス生成

TextMachina: Seamless Generation of Machine-Generated Text Datasets ( http://arxiv.org/abs/2401.03946v1 )

ライセンス: Link先を確認
Areg Mikael Sarvazyan and Jos\'e \'Angel Gonz\'alez and Marc Franco-Salvador(参考訳) 近年のLLM(Large Language Models)の進歩は、高品質なMachine-Generated Text(MGT)を生み出し、多数の新しいユースケースやアプリケーションを生み出している。 しかし、LLMへのアクセスが簡単であることは、誤用による新たな課題となっている。 悪意のある使用に対処するため、研究者はMGT関連のタスクでモデルを効果的にトレーニングするデータセットをリリースした。 同様の戦略でこれらのデータセットをコンパイルするが、現在ツールがそれらを統一することはない。 このシナリオでは、モジュール化された拡張可能なPythonフレームワークであるTextMachinaを導入し、高品質でバイアスのないデータセットの作成を支援し、検出、属性、境界検出などのMGT関連タスクのための堅牢なモデルを構築する。 LLM統合、迅速なテンプレート化、バイアス軽減など、MGTデータセット構築の固有の複雑さを抽象化する、ユーザフレンドリなパイプラインを提供する。 TextMachinaが生成したデータセットの品質は、100以上のチームが堅牢なMGT検出器をトレーニングしたタスクの共有を含む、これまでの研究で評価されてきた。

Recent advancements in Large Language Models (LLMs) have led to high-quality Machine-Generated Text (MGT), giving rise to countless new use cases and applications. However, easy access to LLMs is posing new challenges due to misuse. To address malicious usage, researchers have released datasets to effectively train models on MGT-related tasks. Similar strategies are used to compile these datasets, but no tool currently unifies them. In this scenario, we introduce TextMachina, a modular and extensible Python framework, designed to aid in the creation of high-quality, unbiased datasets to build robust models for MGT-related tasks such as detection, attribution, or boundary detection. It provides a user-friendly pipeline that abstracts away the inherent intricacies of building MGT datasets, such as LLM integrations, prompt templating, and bias mitigation. The quality of the datasets generated by TextMachina has been assessed in previous works, including shared tasks where more than one hundred teams trained robust MGT detectors.
翻訳日:2024-01-09 15:29:03 公開日:2024-01-08
# 音声エージェント:マルチモーダルマルチエージェントシステムを用いたヒューマンコミュニケーションシミュレーション

SpeechAgents: Human-Communication Simulation with Multi-Modal Multi-Agent Systems ( http://arxiv.org/abs/2401.03945v1 )

ライセンス: Link先を確認
Dong Zhang, Zhaowei Li, Pengyu Wang, Xin Zhang, Yaqian Zhou, Xipeng Qiu(参考訳) 人間のコミュニケーションは複雑で多様なプロセスであり、言語、常識、文化的な背景など複数の要素を含むだけでなく、音声などのマルチモーダルな情報も必要となる。 大規模言語モデル(LLM)に基づくマルチエージェントシステムは,人間の社会をシミュレートする上で有望な性能を示した。 LLMベースのマルチエージェントシステムを利用して人間のコミュニケーションをシミュレートできるか? しかし、現在のllmベースのマルチエージェントシステムは、主にテキストを主要な媒体としている。 本稿では,人間のコミュニケーションをシミュレートするマルチモーダルllmベースのマルチエージェントシステムであるspeechagentsを提案する。 SpeechAgentsは、個別エージェントの制御センタとしてマルチモーダルLLMを使用し、エージェント間のメッセージ交換媒体としてマルチモーダル信号を使用する。 さらに,汎用能力を損なうことなく,LLMのマルチエージェント能力を向上させるマルチエージェントチューニングを提案する。 人体通信シミュレーションの有効性を高め評価するために,人体通信シミュレーションベンチマークを構築した。 実験の結果,音声エージェントは,一貫した内容やリズム,リッチな感情を持った人間のコミュニケーション対話をシミュレートでき,最大25のエージェントでも優れたスケーラビリティを示し,ドラマ生成やオーディオノベル生成などのタスクに適用できることがわかった。 コードとモデルはhttps://github.com/でオープンソース化される。 com/0nutation/SpeechAgents

Human communication is a complex and diverse process that not only involves multiple factors such as language, commonsense, and cultural backgrounds but also requires the participation of multimodal information, such as speech. Large Language Model (LLM)-based multi-agent systems have demonstrated promising performance in simulating human society. Can we leverage LLM-based multi-agent systems to simulate human communication? However, current LLM-based multi-agent systems mainly rely on text as the primary medium. In this paper, we propose SpeechAgents, a multi-modal LLM based multi-agent system designed for simulating human communication. SpeechAgents utilizes multi-modal LLM as the control center for individual agent and employes multi-modal signals as the medium for exchanged messages among agents. Additionally, we propose Multi-Agent Tuning to enhance the multi-agent capabilities of LLM without compromising general abilities. To strengthen and evaluate the effectiveness of human communication simulation, we build the Human-Communication Simulation Benchmark. Experimental results demonstrate that SpeechAgents can simulate human communication dialogues with consistent content, authentic rhythm, and rich emotions and demonstrate excellent scalability even with up to 25 agents, which can apply to tasks such as drama creation and audio novels generation. Code and models will be open-sourced at https://github. com/0nutation/SpeechAgents
翻訳日:2024-01-09 15:28:22 公開日:2024-01-08
# BQP, meet NP: Search-to-Decision reductions and almost counting

BQP, meet NP: Search-to-decision reductions and approximate counting ( http://arxiv.org/abs/2401.03943v1 )

ライセンス: Link先を確認
Sevag Gharibian and Jonas Kamminga(参考訳) np oracleにアクセスした多項式時間量子計算のパワーは何でしょうか。 本研究では,探索と判定の削減と近似カウントという,ブール充足可能性(SAT)問題の研究の2つの基本的な課題に焦点をあてる。 まず、ポリ時間チューリングマシンが与えられたSAT公式の証人を計算するためにNPオラクルに$\Theta(n)$クエリを必要とする古典的な設定とは対照的に、量子的に$\Theta(\log n)$クエリが十分であることを示す。 式への"NPライクな"クエリアクセスを持つ任意の量子アルゴリズムは、一定の確率で解を抽出するために$\Omega(\log n)$クエリを必要とする。 SAT解の近似カウントに移行し、探索-決定還元と近似カウントの量子リンクを利用して、既存の古典的近似カウントアルゴリズムが最適であることを示す。 まず、"npライクな"ブラックボックスクエリの設定において下限を与える:近似カウントは量子コンピュータ上でさえ$\omega(\log n)$クエリを必要とする。 すると、「ホワイトボックス」の下界(すなわち、入力公式がオラクルに隠されていない場合)を与える -$o(log n)$ NPクエリを作るためにランダム化されたポリ時間古典的あるいは量子的アルゴリズムが存在するなら、$\text{BPP}^{\text{NP}[o(n)]}$は古典的であれば$\text{P}^{\text{NP}}$-完全問題を含み、$\text{FQP}^{\text{NP}[o(n)]}$は量子的であれば$\text{FP}^{\text{NP}}$-完全問題を含む。

What is the power of polynomial-time quantum computation with access to an NP oracle? In this work, we focus on two fundamental tasks from the study of Boolean satisfiability (SAT) problems: search-to-decision reductions, and approximate counting. We first show that, in strong contrast to the classical setting where a poly-time Turing machine requires $\Theta(n)$ queries to an NP oracle to compute a witness to a given SAT formula, quantumly $\Theta(\log n)$ queries suffice. We then show this is tight in the black-box model - any quantum algorithm with "NP-like" query access to a formula requires $\Omega(\log n)$ queries to extract a solution with constant probability. Moving to approximate counting of SAT solutions, by exploiting a quantum link between search-to-decision reductions and approximate counting, we show that existing classical approximate counting algorithms are likely optimal. First, we give a lower bound in the "NP-like" black-box query setting: Approximate counting requires $\Omega(\log n)$ queries, even on a quantum computer. We then give a "white-box" lower bound (i.e. where the input formula is not hidden in the oracle) - if there exists a randomized poly-time classical or quantum algorithm for approximate counting making $o(log n)$ NP queries, then $\text{BPP}^{\text{NP}[o(n)]}$ contains a $\text{P}^{\text{NP}}$-complete problem if the algorithm is classical and $\text{FBQP}^{\text{NP}[o(n)]}$ contains an $\text{FP}^{\text{NP}}$-complete problem if the algorithm is quantum.
翻訳日:2024-01-09 15:27:57 公開日:2024-01-08
# 浮揚光力学の非線形運動への熱状態の絞り込みによる古典的非ガウス分布の生成

Generation of classical non-Gaussian distributions by squeezing a thermal state into non-linear motion of levitated optomechanics ( http://arxiv.org/abs/2401.04066v1 )

ライセンス: Link先を確認
Rafael Muffato, Tiberius Georgescu, Jack Homans, Thiago Guerreiro, Qiongyuan Wu, Diana Chisholm, Matteo Carlesso, Mauro Paternostro, and Hendrik Ulbricht(参考訳) 本稿では,非ガウス状態の運動の動的生成を実現する実験について報告する。 我々は,そのトラップの周波数を迅速に切り換えることで発振器の動作状態を絞ることで,内在的なダフィング様の非線形性にアクセスする。 実験的な非ガウシアン状態をシミュレーションの期待に対して特徴付け、真の非古典的特徴の出現を展望する。

We report on an experiment achieving the dynamical generation of non-Gaussian states of motion of a levitated optomechanical system. We access intrinsic Duffing-like non-linearities by squeezing an oscillator's state of motion through rapidly switching the frequency of its trap. We characterize the experimental non-Gaussian state against expectations from simulations and give prospects for the emergence of genuine non-classical features.
翻訳日:2024-01-09 14:49:45 公開日:2024-01-08
# 効率的なオンライン実験のための比率尺度のばらつき低減

Variance Reduction in Ratio Metrics for Efficient Online Experiments ( http://arxiv.org/abs/2401.04062v1 )

ライセンス: Link先を確認
Shubham Baweja, Neeti Pokharna, Aleksei Ustimenko and Olivier Jeunen(参考訳) A/Bテストのようなオンライン制御実験は、現代の技術企業が継続的システム改善を実現するために一般的に使われている。 最重要にもかかわらず、A/Bテストは高価であり、その定義上、トラフィックのパーセンテージは劣るシステムの変種に割り当てられる。 トップレベルのメトリクスで統計的に重要なことを保証するため、オンライン実験は通常数週間にわたって行われる。 それでも、かなりの量の実験が決定不可能な結果(例えば、偽陰性またはタイプIIエラー)につながる。 この非効率性の主な原因は、オンラインメトリクスのばらつきである。 文献ではばらつき低減技術が提案されているが、一般的に使用される比率(クリックスルー率やユーザ保持率など)への直接的な適用性は限られている。 そこで本研究では,大規模なショートビデオプラットフォームであるShareChat上で,分散低減手法の比率測定に成功している。 その結果,77%の症例でA/Bテストの信頼性を向上できるか,30%少ないデータポイントで同一レベルの信頼性を維持することができることがわかった。 重要なのは,回帰に可能な限り多くの共変量を含む一般的なアプローチは非生産的であることを示し,勾配ブースト決定木予測系に基づく制御変動が最も効果的であることを強調する。 本稿では,これらの手法を大規模に実装し,コスト削減を実証する。

Online controlled experiments, such as A/B-tests, are commonly used by modern tech companies to enable continuous system improvements. Despite their paramount importance, A/B-tests are expensive: by their very definition, a percentage of traffic is assigned an inferior system variant. To ensure statistical significance on top-level metrics, online experiments typically run for several weeks. Even then, a considerable amount of experiments will lead to inconclusive results (i.e. false negatives, or type-II error). The main culprit for this inefficiency is the variance of the online metrics. Variance reduction techniques have been proposed in the literature, but their direct applicability to commonly used ratio metrics (e.g. click-through rate or user retention) is limited. In this work, we successfully apply variance reduction techniques to ratio metrics on a large-scale short-video platform: ShareChat. Our empirical results show that we can either improve A/B-test confidence in 77% of cases, or can retain the same level of confidence with 30% fewer data points. Importantly, we show that the common approach of including as many covariates as possible in regression is counter-productive, highlighting that control variates based on Gradient-Boosted Decision Tree predictors are most effective. We discuss the practicalities of implementing these methods at scale and showcase the cost reduction they beget.
翻訳日:2024-01-09 14:49:37 公開日:2024-01-08
# 大規模言語モデルの公平性評価におけるバイアスの解き放つ:音楽・映画推薦システムの批判的文献レビュー

Unveiling Bias in Fairness Evaluations of Large Language Models: A Critical Literature Review of Music and Movie Recommendation Systems ( http://arxiv.org/abs/2401.04057v1 )

ライセンス: Link先を確認
Chandan Kumar Sah, Dr. Lian Xiaoli, Muhammad Mirajul Islam(参考訳) 生成型人工知能、特に大規模言語モデル(llm)の台頭は、正確性とともに公平性を検査する必要性を強めた。 近年,レコメンデーションなどのドメイン内のllmの公平性評価に関する研究が始まっている。 パーソナライゼーションがレコメンデーションシステムの本質的な側面であることを考えると、公平性評価への取り入れが最重要である。 しかし、現在の公平性評価フレームワークがパーソナライズに寄与する程度は未定である。 本研究の総合的な文献レビューは, LLMの公平性評価をどのように扱うかを検討することで, パーソナライズ要因の統合に着目し, このギャップを埋めることを目的としている。 関連作品の徹底的な収集と分析を行った結果,ほとんどの評価は,レコメンデーションシステムの重要な側面であるパーソナライゼーションを軽視し,不当な慣行を必然的に持続させることが判明した。 以上の結果から,パーソナライゼーションを承認する,より曖昧な公平性評価の必要性が浮き彫りになった。 このような改善は、AIコミュニティ内での公平な開発を促進する上で不可欠である。

The rise of generative artificial intelligence, particularly Large Language Models (LLMs), has intensified the imperative to scrutinize fairness alongside accuracy. Recent studies have begun to investigate fairness evaluations for LLMs within domains such as recommendations. Given that personalization is an intrinsic aspect of recommendation systems, its incorporation into fairness assessments is paramount. Yet, the degree to which current fairness evaluation frameworks account for personalization remains unclear. Our comprehensive literature review aims to fill this gap by examining how existing frameworks handle fairness evaluations of LLMs, with a focus on the integration of personalization factors. Despite an exhaustive collection and analysis of relevant works, we discovered that most evaluations overlook personalization, a critical facet of recommendation systems, thereby inadvertently perpetuating unfair practices. Our findings shed light on this oversight and underscore the urgent need for more nuanced fairness evaluations that acknowledge personalization. Such improvements are vital for fostering equitable development within the AI community.
翻訳日:2024-01-09 14:49:15 公開日:2024-01-08
# 人間のフィードバックによる強化学習のためのミニマキシマリストアプローチ

A Minimaximalist Approach to Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2401.04056v1 )

ライセンス: Link先を確認
Gokul Swamy, Christoph Dann, Rahul Kidambi, Zhiwei Steven Wu, Alekh Agarwal(参考訳) 人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。 私たちのアプローチは、報酬モデルや不安定な敵のトレーニングを必要とせず、実装が比較的簡単であるという点で最小限のものです。 我々のアプローチは、非マルコフ的、非推移的、確率的選好を、オフラインアプローチでシーケンシャルな予測に苦しむ複合的エラーに頑健であるという点において、最大主義的である。 先行する資質を達成するために,「ミニマックス・ウィナー(mw)」という概念,すなわち2つの政策間のゼロサムゲームとしての選好から学習する社会選択論文献からの選好アグリゲーションの概念を構築した。 このゲームの対称性を活用することで、MWを計算するために2つのポリシーをデュエルする従来の手法を使う代わりに、強い収束保証を維持しつつ、ただ1つのエージェントが自身に対してプレイできることを証明できる。 実際には、これはポリシーから複数の軌道をサンプリングし、レートや選好モデルに比較を依頼し、特定の軌道に対する報酬として勝利の割合を使用することに相当する。 連続制御タスクのスイートでは、人間の判断を集約する際に頻繁に発生する非推移的かつ確率的選好に対する堅牢性を維持しながら、報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証する。

We present Self-Play Preference Optimization (SPO), an algorithm for reinforcement learning from human feedback. Our approach is minimalist in that it does not require training a reward model nor unstable adversarial training and is therefore rather simple to implement. Our approach is maximalist in that it provably handles non-Markovian, intransitive, and stochastic preferences while being robust to the compounding errors that plague offline approaches to sequential prediction. To achieve the preceding qualities, we build upon the concept of a Minimax Winner (MW), a notion of preference aggregation from the social choice theory literature that frames learning from preferences as a zero-sum game between two policies. By leveraging the symmetry of this game, we prove that rather than using the traditional technique of dueling two policies to compute the MW, we can simply have a single agent play against itself while maintaining strong convergence guarantees. Practically, this corresponds to sampling multiple trajectories from a policy, asking a rater or preference model to compare them, and then using the proportion of wins as the reward for a particular trajectory. We demonstrate that on a suite of continuous control tasks, we are able to learn significantly more efficiently than reward-model based approaches while maintaining robustness to the intransitive and stochastic preferences that frequently occur in practice when aggregating human judgments.
翻訳日:2024-01-09 14:48:55 公開日:2024-01-08
# 大規模事前学習言語モデルのための効率的なファインチューニング手法の実証分析

Empirical Analysis of Efficient Fine-Tuning Methods for Large Pre-Trained Language Models ( http://arxiv.org/abs/2401.04051v1 )

ライセンス: Link先を確認
Nigel Doering, Cyril Gorlla, Trevor Tuttle, Adhvaith Vijay(参考訳) 下流タスクのための事前学習された大規模言語モデルの微調整は、自然言語処理において重要な課題である。 本稿では,bitfit と adapter モジュールの2つの効率的な微調整法を標準フルモデルの微調整法と比較した。 GLUEベンチマークデータセット(MRPC、COLA、STS-B)で実施された実験は、いくつかの重要な洞察を明らかにしている。 バイアス項とタスクヘッドのみをトレーニングするBitFitアプローチは、さまざまなトレーニングデータと時間制約にまたがる完全な微調整パフォーマンスと一致します。 データの30分の1に過ぎず、中間データレベルで完全な微調整よりも優れた安定性を示す。 アダプタモジュールは、デフォルトモデルよりも一貫性のないゲインを持つ、高い可変性を示す。 結果から、bitfitは性能とパラメータの効率のバランスが魅力的であることが分かる。 私たちの研究は、モデルのチューニング、堅牢性を強調し、BitFitをリソース制約やストリーミングタスク設定の有望な代替手段として強調する上で、貴重な視点を提供します。 この分析は、大きな事前訓練されたモデルの効率的な適応のための実用的なガイドラインを提供する一方で、アダプタモジュールのようなテクニックの安定化に関するオープンな課題を説明できる。

Fine-tuning large pre-trained language models for downstream tasks remains a critical challenge in natural language processing. This paper presents an empirical analysis comparing two efficient fine-tuning methods - BitFit and adapter modules - to standard full model fine-tuning. Experiments conducted on GLUE benchmark datasets (MRPC, COLA, STS-B) reveal several key insights. The BitFit approach, which trains only bias terms and task heads, matches full fine-tuning performance across varying amounts of training data and time constraints. It demonstrates remarkable stability even with only 30\% of data, outperforming full fine-tuning at intermediate data levels. Adapter modules exhibit high variability, with inconsistent gains over default models. The findings indicate BitFit offers an attractive balance between performance and parameter efficiency. Our work provides valuable perspectives on model tuning, emphasizing robustness and highlighting BitFit as a promising alternative for resource-constrained or streaming task settings. The analysis offers actionable guidelines for efficient adaptation of large pre-trained models, while illustrating open challenges in stabilizing techniques like adapter modules.
翻訳日:2024-01-09 14:48:29 公開日:2024-01-08
# FFSplit: 言語モデル推論における精度効率トレードオフを最適化するためのフィードフォワードネットワーク

FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency Trade-off in Language Model Inference ( http://arxiv.org/abs/2401.04044v1 )

ライセンス: Link先を確認
Zirui Liu, Qingquan Song, Qiang Charles Xiao, Sathiya Keerthi Selvaraj, Rahul Mazumder, Aman Gupta, and Xia Hu(参考訳) Pretrained Language Modelsの多数のパラメータは、パフォーマンスを向上させると同時に、リソース集約化も実現しているため、単一のGPUのようなコモディティハードウェアへのデプロイが困難になる。 これらのデバイスのメモリと電力の制限のため、モデル圧縮技術はモデルのサイズと推論遅延の両方を減らすためにしばしば使用される。 これは通常、モデルの精度と効率のトレードオフをもたらす。 したがって、このバランスを最適化することは、LLMをコモディティハードウェアに効果的に展開するのに不可欠である。 効率上の課題のかなりの部分はFeed-forward Network (FFN) コンポーネントであり、これはおよそ$\frac{2}{3}$ のパラメータと推論遅延を考慮に入れている。 本稿では、FFNモジュールの少数のニューロンが入力トークン、すなわち重打手に対して大きな出力ノルムを持つのに対し、他のニューロンは異なるトークンによってわずかにトリガーされるのを観察する。 この観測に基づいて、重打者に応じてFFNを2つの部分に明確に分割した。 我々は,より多くの資源を重くFFN部品に割り当てることで,既存の圧縮手法の効率・精度トレードオフを改善する。 実際、本手法はモデルサイズを43.1\%削減でき、異なるハードウェア上で1.25\sim1.56\times$ wall clock time speedupをもたらす。

The large number of parameters in Pretrained Language Models enhance their performance, but also make them resource-intensive, making it challenging to deploy them on commodity hardware like a single GPU. Due to the memory and power limitations of these devices, model compression techniques are often used to decrease both the model's size and its inference latency. This usually results in a trade-off between model accuracy and efficiency. Therefore, optimizing this balance is essential for effectively deploying LLMs on commodity hardware. A significant portion of the efficiency challenge is the Feed-forward network (FFN) component, which accounts for roughly $\frac{2}{3}$ total parameters and inference latency. In this paper, we first observe that only a few neurons of FFN module have large output norm for any input tokens, a.k.a. heavy hitters, while the others are sparsely triggered by different tokens. Based on this observation, we explicitly split the FFN into two parts according to the heavy hitters. We improve the efficiency-accuracy trade-off of existing compression methods by allocating more resource to FFN parts with heavy hitters. In practice, our method can reduce model size by 43.1\% and bring $1.25\sim1.56\times$ wall clock time speedup on different hardware with negligible accuracy drop.
翻訳日:2024-01-09 14:48:11 公開日:2024-01-08
# IDoFew: テキスト分類のための言語モデルにおけるデュアルクラスタリングを用いた中間訓練

IDoFew: Intermediate Training Using Dual-Clustering in Language Models for Few Labels Text Classification ( http://arxiv.org/abs/2401.04025v1 )

ライセンス: Link先を確認
Abdullah Alsuhaibani, Hamad Zogan, Imran Razzak, Shoaib Jameel, Guandong Xu(参考訳) Bidirectional Encoder Representations from Transformers (BERT) のような言語モデルは、様々な自然言語処理(NLP)やテキスト分類を含むテキストマイニングタスクに非常に効果的である。 しかし、いくつかのタスクは、制限されたラベルによるテキスト分類など、これらのモデルに課題をもたらす。 これはコールドスタート問題を引き起こす可能性がある。 いくつかの手法は、事前訓練された言語モデルと組み合わされた中間訓練段階としてシングルステージクラスタリングを通じてこの問題に対処しようとするが、クラスタリングアルゴリズムの限界により、しばしばエラーが発生しやすい。 そこで我々は, 擬似ラベルを確実にモデル化し, 予測誤差を低減した新たな2段階中間クラスタリングを開発した。 このモデルの重要な特徴であるidofewは、2段階のクラスタリングと2つの異なるクラスタリングアルゴリズムを組み合わせることで、信頼できる擬似ラベルを生成する際のエラーを減らす補完アルゴリズムの利点を活用できるということです。 我々のアプローチは、強い比較モデルと比較して大幅に改善されている。

Language models such as Bidirectional Encoder Representations from Transformers (BERT) have been very effective in various Natural Language Processing (NLP) and text mining tasks including text classification. However, some tasks still pose challenges for these models, including text classification with limited labels. This can result in a cold-start problem. Although some approaches have attempted to address this problem through single-stage clustering as an intermediate training step coupled with a pre-trained language model, which generates pseudo-labels to improve classification, these methods are often error-prone due to the limitations of the clustering algorithms. To overcome this, we have developed a novel two-stage intermediate clustering with subsequent fine-tuning that models the pseudo-labels reliably, resulting in reduced prediction errors. The key novelty in our model, IDoFew, is that the two-stage clustering coupled with two different clustering algorithms helps exploit the advantages of the complementary algorithms that reduce the errors in generating reliable pseudo-labels for fine-tuning. Our approach has shown significant improvements compared to strong comparative models.
翻訳日:2024-01-09 14:47:46 公開日:2024-01-08
# 音声映像分類のためのマルチスケールマルチモーダルブートネック変換器

Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video Classification ( http://arxiv.org/abs/2401.04023v1 )

ライセンス: Link先を確認
Wentao Zhu(参考訳) 近年、研究者は音声信号と映像信号を組み合わせることで、アクションが視覚的な手掛かりによってうまく表現されないような課題に対処している。 しかし、この2つのモダリティを効果的に活用する方法はまだ開発中である。 本研究では,階層的表現学習を利用したマルチスケールマルチモーダルトランスフォーマ(mmt)を開発した。 特に、MMTは、新しいマルチスケールオーディオ変換器(MAT)とマルチスケールビデオ変換器[43]から構成される。 識別可能なクロスモダリティ融合を学ぶために,我々は,オーディオビデオコントラスト損失 (avc) とイントラモダリティコントラスト損失 (imc) と呼ばれる2つのモダリティをロバストに整合させるマルチモダリティ教師付きコントラスト目標を更に設計する。 MMTは従来の最先端の手法を7.3%、Kinetics-SoundsとVGGSoundで2.1%上回っている。 さらに,提案手法は3つのベンチマークデータセットにおいて,ast[28]を22.2%,4.4%,4.7%と有意に上回り,フロップ数に基づいて約3%,gpuメモリ使用量に基づいて9.8%効率が向上した。

In recent years, researchers combine both audio and video signals to deal with challenges where actions are not well represented or captured by visual cues. However, how to effectively leverage the two modalities is still under development. In this work, we develop a multiscale multimodal Transformer (MMT) that leverages hierarchical representation learning. Particularly, MMT is composed of a novel multiscale audio Transformer (MAT) and a multiscale video Transformer [43]. To learn a discriminative cross-modality fusion, we further design multimodal supervised contrastive objectives called audio-video contrastive loss (AVC) and intra-modal contrastive loss (IMC) that robustly align the two modalities. MMT surpasses previous state-of-the-art approaches by 7.3% and 2.1% on Kinetics-Sounds and VGGSound in terms of the top-1 accuracy without external training data. Moreover, the proposed MAT significantly outperforms AST [28] by 22.2%, 4.4% and 4.7% on three public benchmark datasets, and is about 3% more efficient based on the number of FLOPs and 9.8% more efficient based on GPU memory usage.
翻訳日:2024-01-09 14:47:26 公開日:2024-01-08
# フォトニック量子ゲートとしての非断熱ホロノミー

Non-adiabatic holonomies as photonic quantum gates ( http://arxiv.org/abs/2401.04014v1 )

ライセンス: Link先を確認
Vera Neef, Julien Pinske, Tom A.W. Wolterink, Karo Becker, Matthias Heinrich, Stefan Scheel, and Alexander Szameit(参考訳) 最も有望な技術の一つとして、量子計算は大きな課題に直面している。 単一量子ゲートとして使用できる非断熱ホロノミーの量子光学的実現について述べる。 非アベリア幾何学的位相のホールマーク的保護は、基本的な物理レベルでの量子エラー補正の必要性を減らし、構造の本質的な非断熱性は、前例のない小型化の道を開く。 その汎用性を示すために、ハダマールとパウリ-xゲートを認識し、実験的にそれらの非可換性を示し、それらを1量子ビット量子アルゴリズムであるpq penny flipoverに結合する。 このような設計の平面幾何学は、現在全てのプラットフォームにわたるフォトニック量子アーキテクチャで広く使われている従来の指向性カプラメッシュに置き換えることができる。

One of the most promising nascent technologies, quantum computation faces a major challenge: The need for stable computational building blocks. We present the quantum-optical realization of non-adiabatic holonomies that can be used as single-qubit quantum gates. The hallmark topological protection of non-Abelian geometric phases reduces the need for quantum error correction on a fundamental physical level, while the inherent non-adiabaticity of the structures paves the way for unprecedented miniaturization. To demonstrate their versatility, we realize the Hadamard and Pauli-X gates, experimentally show their non-Abelian nature, and combine them into a single-qubit quantum algorithm, the PQ penny flipover. The planar geometry of such designs enables them to be substituted for the conventional directional coupler meshes currently in wide-spread use in photonic quantum architectures across all platforms.
翻訳日:2024-01-09 14:47:02 公開日:2024-01-08
# 勾配学習システムの線形化の原理としての弱相関

Weak Correlations as the Underlying Principle for Linearization of Gradient-Based Learning Systems ( http://arxiv.org/abs/2401.04013v1 )

ライセンス: Link先を確認
Ori Shem-Ur, Yaron Oz(参考訳) 広いニューラルネットワークのようなディープラーニングモデルは、様々な相互作用する自由度によって特徴づけられる非線形力学物理系として概念化することができる。 このような無限極限系は、単純化されたダイナミクスを示す傾向がある。 本稿では,ニューラルネットワークカーネルを連想させるパラメータの線形構造を示す勾配降下に基づく学習アルゴリズムについて述べる。 この明らかな線型性は、パラメータに関する仮説関数の第一階と高等階の導関数と、その初期値に関する弱い相関によって生じる。 この知見は、これらの弱い相関がそのような系における観測された線形化の根本的な理由であることを示唆している。 そこで,本研究では,ニューラルネットワーク内の弱い相関構造を幅の広い範囲で示す。 線形性と弱相関の関係を生かして,確率的勾配降下の訓練軌跡中に観測された線形性からの偏差を導出する。 そこで本研究では,ランダムテンソルの漸近的挙動を特徴付ける新しい手法を提案する。

Deep learning models, such as wide neural networks, can be conceptualized as nonlinear dynamical physical systems characterized by a multitude of interacting degrees of freedom. Such systems in the infinite limit, tend to exhibit simplified dynamics. This paper delves into gradient descent-based learning algorithms, that display a linear structure in their parameter dynamics, reminiscent of the neural tangent kernel. We establish this apparent linearity arises due to weak correlations between the first and higher-order derivatives of the hypothesis function, concerning the parameters, taken around their initial values. This insight suggests that these weak correlations could be the underlying reason for the observed linearization in such systems. As a case in point, we showcase this weak correlations structure within neural networks in the large width limit. Exploiting the relationship between linearity and weak correlations, we derive a bound on deviations from linearity observed during the training trajectory of stochastic gradient descent. To facilitate our proof, we introduce a novel method to characterise the asymptotic behavior of random tensors.
翻訳日:2024-01-09 14:46:46 公開日:2024-01-08
# 開駆動二階系のリウビリアン例外点

Liouvillian exceptional points of an open driven two-level system ( http://arxiv.org/abs/2401.04011v1 )

ライセンス: Link先を確認
Nikhil Seshadri, Anqi Li, Michael Galperin(参考訳) ナノスケールオープン量子システムへのLiouvillianException points (LEPs)アプローチの適用性について検討する。 非平衡グリーン関数 (negf) とブロッホ量子マスター方程式 (qme) の定式化において, 熱環境における駆動型2レベル系の汎用モデルの解析を行った。 後者は、正確なnegfdyson方程式から始まり、その導出に使用される近似を調べることによって、lep処理の質的限界を強調する。 開量子系における非マルコフ的な進化の性格は、それらの力学を記述するために例外点の概念を導入することを許さない。 理論解析は数値シミュレーションによって示される。

We study the applicability of the Liouvillian exceptional points (LEPs) approach to nanoscale open quantum systems. A generic model of the driven two-level system in a thermal environment is analyzed within the nonequilibrium Green's function (NEGF) and Bloch quantum master equation (QME) formulations. We derive the latter starting from the exact NEGF Dyson equations and highlight the qualitative limitations of the LEP treatment by examining the approximations employed in its derivation. We find that non-Markov character of evolution in open quantum systems does not allow for the introduction of the concept of exceptional points for a description of their dynamics. Theoretical analysis is illustrated with numerical simulations.
翻訳日:2024-01-09 14:46:30 公開日:2024-01-08
# バイアス雑音に適応した曲面符号の有限サイズ補正に関する厳密な結果

Exact results on finite size corrections for surface codes tailored to biased noise ( http://arxiv.org/abs/2401.04008v1 )

ライセンス: Link先を確認
Yinzi Xiao, Basudha Srivastava, and Mats Granath(参考訳) スケーラブルな量子誤差補正安定器コードの符号容量閾値は、ランダムな結合不規則を持つ対応するイジングモデルの熱力学的相転移として表現することができる。 ここでは、位相バイアス雑音(p_x=p_y=p_z/(2\eta)$,$\eta\geq 1/2$,および総誤差率$p=p_x+p_y+p_z$)の下で、XYおよびXZX曲面符号について検討する。 境界条件を適切に定式化することにより、回転符号幾何学において、任意の奇符号距離 $d$ に対して、特別な不規則点である $p=\frac{1+\eta^{-1}}{2+\eta^{-1}}\gtrsim 0.5$ で厳密解を見つけることができる。 p_{f}=\frac{3}{4}-\frac{1}{4}e^{-2d_z\,\text{artanh}(1/2\eta)}$, ここで、$d_{z}=d^2$と$d$は、純粋位相フリップノイズの有効符号距離である。 $d_Z<\eta$に対する大きな有限サイズ補正はしきい値抽出を行い、中間符号距離に対する論理的失敗率の合計は信頼できない。 我々は、独立に$X_L$ (phase-flip), $Y_L$, $Z_L$ (bit-flip)論理的故障率の閾値を推定すると、より確実な閾値推定が得られることを示した。 テンソルネットワークベースのデコーダを持つXZZXモデルのこの手法を用いて、しきい値がハッシングバウンダリの上の誤差率に対応する適度なバイアス (\eta=30, 100$) でコード距離に収束することを示した。 対照的に、より大きなバイアスでは、閾値は事実上最大で可逆な符号距離($d\approx 100$)に収束せず、正確な閾値に大きな不確実性を残している。

The code-capacity threshold of a scalable quantum error correcting stabilizer code can be expressed as a thermodynamic phase transition of a corresponding Ising model with random bond-disorder. Here we study the XY and XZZX surface codes under phase-biased noise, $p_x=p_y=p_z/(2\eta)$, with $\eta\geq 1/2$, and total error rate $p=p_x+p_y+p_z$. By appropriately formulating the boundary conditions, in the rotated code geometry, we find exact solutions at a special disordered point, $p=\frac{1+\eta^{-1}}{2+\eta^{-1}}\gtrsim 0.5$, for arbitrary odd code-distance $d$. The total logical failure rate is given by $P_{f}=\frac{3}{4}-\frac{1}{4}e^{-2d_Z\,\text{artanh}(1/2\eta)}$, where $d_{Z}=d^2$ and $d$ for the two codes respectively, is the effective code distance for pure phase-flip noise. The large finite size corrections for $d_Z<\eta$ make threshold extractions, using the total logical failure rate for moderate code-distances, unreliable. We show that independently estimating thresholds for the $X_L$ (phase-flip), $Y_L$, and $Z_L$ (bit-flip) logical failure rates can give a more confident threshold estimate. Using this method for the XZZX model with a tensor-network based decoder we find that the thresholds converge with code distance to a single value at moderate bias ($\eta=30, 100$), corresponding to an error rate above the hashing bound. In contrast, for larger bias the thresholds do not converge for practically maximum-likelihood-decodable code distances (up to $d\approx 100$), leaving a large uncertainty in the precise threshold value.
翻訳日:2024-01-09 14:46:20 公開日:2024-01-08
# 生成逆ウェーブレットニューラル演算子:多変量時系列データの故障検出と分離への応用

Generative adversarial wavelet neural operator: Application to fault detection and isolation of multivariate time series data ( http://arxiv.org/abs/2401.04004v1 )

ライセンス: Link先を確認
Jyoti Rani and Tapas Tripura and Hariprasad Kodamana and Souvik Chakraborty(参考訳) 複雑なシステムにおける故障検出と隔離は、信頼性と効率的な操作を保証するために重要である。 しかし、従来の故障検出法は、時系列変数の非線形性や多変量特性といった問題にしばしば苦労する。 本稿では,多変量時系列プロセスの障害検出と分離のための新しい教師なし深層学習手法としてgawnoを提案する。gawnoは,ウェーブレット・ニューラル・オペレータとgans(generative adversarial network)の強みを組み合わせて,下位システムの異なる変数間の時間分布と空間依存性の両方を効果的に捉える。 GAWNOを用いた断層検出と分離のアプローチは2つの主要な段階から構成される。 最初の段階では、GAWNOは通常の運用条件のデータセットに基づいてトレーニングされ、基礎となるデータ分布を学習する。 第2段階では、トレーニングされたGAWNOを用いた再構成エラーに基づくしきい値アプローチを用いて、誤差値に基づいて障害を検出し、分離する。 提案手法をテネシー・イーストマン・プロセス(TEP)データセットとアベドール排水処理プラント(WWTP)およびN2O排出源を用いて検証した。 全体として,ウェーブレット解析,ニューラル演算子,生成モデルのパワーを単一フレームワークで活用して障害を検出し,分離するというアイデアは,文献で確立された様々なベースラインと比較して有望な結果を示している。

Fault detection and isolation in complex systems are critical to ensure reliable and efficient operation. However, traditional fault detection methods often struggle with issues such as nonlinearity and multivariate characteristics of the time series variables. This article proposes a generative adversarial wavelet neural operator (GAWNO) as a novel unsupervised deep learning approach for fault detection and isolation of multivariate time series processes.The GAWNO combines the strengths of wavelet neural operators and generative adversarial networks (GANs) to effectively capture both the temporal distributions and the spatial dependencies among different variables of an underlying system. The approach of fault detection and isolation using GAWNO consists of two main stages. In the first stage, the GAWNO is trained on a dataset of normal operating conditions to learn the underlying data distribution. In the second stage, a reconstruction error-based threshold approach using the trained GAWNO is employed to detect and isolate faults based on the discrepancy values. We validate the proposed approach using the Tennessee Eastman Process (TEP) dataset and Avedore wastewater treatment plant (WWTP) and N2O emissions named as WWTPN2O datasets. Overall, we showcase that the idea of harnessing the power of wavelet analysis, neural operators, and generative models in a single framework to detect and isolate faults has shown promising results compared to various well-established baselines in the literature.
翻訳日:2024-01-09 14:45:37 公開日:2024-01-08
# 階層型時間論理仕様に基づく複数ロボットのタスク割当と計画

Simultaneous Task Allocation and Planning for Multi-Robots under Hierarchical Temporal Logic Specifications ( http://arxiv.org/abs/2401.04003v1 )

ライセンス: Link先を確認
Xusheng Luo and Changliu Liu(参考訳) 時間論理仕様を用いたロボット計画に関する過去の研究、特に線形時間論理(LTL)は、主に個々のロボットやグループの特異な公式に基づいていた。 しかし、タスクの複雑さが増すにつれて、ltlの公式は避けられないほど長くなり、解釈や仕様作成を複雑にし、プランナーの計算能力に負担がかかる。 LTL仕様の可能性を最大化するために,タスクの本質的な構造に着目し,LTL仕様に階層構造を導入し,入力シーケンスが満たされているかどうかを確認するアルゴリズムを設計した。 第2に,マルチロボットシステムの計画合成に検索に基づく手法を採用し,タスク割り当てと計画の同時実行を実現している。 探索空間は緩い相互接続された部分空間によって近似され、各部分空間は1つのLTL仕様に対応する。 探索は主に1つの部分空間に限られ、ある条件下で別の部分空間に遷移し、オートマトン分解によって決定される。 さらに、複数のヒューリスティックを定式化し、探索を著しく高速化する。 完全性と最適性に関する理論的解析は、穏やかな仮定の下で行われる。 サービスタスクの既存のメソッドと比較すると、このメソッドは実行時間と同等のソリューション品質で優れています。 最後に、30のロボットのグループをテストし、適切なランタイムを達成することでスケーラビリティを評価する。

Past research into robotic planning with temporal logic specifications, notably Linear Temporal Logic (LTL), was largely based on singular formulas for individual or groups of robots. But with increasing task complexity, LTL formulas unavoidably grow lengthy, complicating interpretation and specification generation, and straining the computational capacities of the planners. In order to maximize the potential of LTL specifications, we capitalized on the intrinsic structure of tasks and introduced a hierarchical structure to LTL specifications, and designed an algorithm to ascertain whether they are satisfied given an input sequence. Second, we employ a search-based approach to synthesize plans for a multi-robot system, accomplishing simultaneous task allocation and planning. The search space is approximated by loosely interconnected sub-spaces, with each sub-space corresponding to one LTL specification. The search is predominantly confined to a single sub-space, transitioning to another sub-space under certain conditions, determined by the decomposition of automatons. Moreover, multiple heuristics are formulated to expedite the search significantly. A theoretical analysis concerning completeness and optimality is conducted under mild assumptions. When compared with existing methods on service tasks, our method outperforms in terms of execution times with comparable solution quality. Finally, scalability is evaluated by testing a group of 30 robots and achieving reasonable runtimes.
翻訳日:2024-01-09 14:45:12 公開日:2024-01-08
# 隠れた変数: フォン・ノイマンの分析のリハビリとパウリの不可解なチェック

Hidden Variables: Rehabilitation of von Neumann's Analysis, and Pauli's Uncashable Check ( http://arxiv.org/abs/2401.04002v1 )

ライセンス: Link先を確認
Robert Golub and Steve K. Lamoreaux(参考訳) 1932年に出版された著書 \textit{The Mathematical Foundations of Quantum Mechanics} では、J. von Neumann が量子力学に隠れたパラメータ(隠れ変数)を導入する結果の分析を行った。 隠された変数は、大きな修正なしには量子力学の既存の理論に組み込めないことを示し、もしそれが存在すれば、その理論はうまく適用された状況で既に失敗していただろうと結論づけた。 フォン・ノイマンは、理論が完備ではない可能性を明らかにし、内部整合性の解析は自己参照論理系(G\"odel's theorem")のためにできる最良の方法である。この分析は隠れ変数の存在に対して「不正確な証明」として扱われていた。 フォン・ノイマンのいわゆる証明は、そのような証明が存在しないので誤りではない。 隠れ変数理論の最も初期の試みの1つは、D. Bohm によるものであり、実験的な結果がなかったため、W. Pauli は '`uncashable check' と呼んだ。 「我々の知識では、量子力学の実証可能な結果を伴う隠れ変数拡張がまだ実現されていないので、フォン・ノイマンの分析は回復に値するものであり、簡単な方法で提供しようと試みている。」

In his book \textit{The Mathematical Foundations of Quantum Mechanics}, published in 1932, J. von Neumann performed an analysis of the consequences of introducing hidden parameters (hidden variables) into quantum mechanics. He showed that hidden variables cannot be incorporated into the existing theory of quantum mechanics without major modifications, and concluded that if they did exist, the theory would have already failed in situations where it has been successfully applied. von Neumann left open the possibility that the theory is not complete, and his analysis for internal consistency is the best that can be done for a self-referenced logical system (G\"odel's theorem). This analysis had been taken as an ``incorrect proof" against the existence of hidden variables. von Neumann's so-called proof isn't even wrong as such a proof does not exist. One of the earliest attempts at a hidden variable theory was by D. Bohm, and because there were no experimental consequences, W. Pauli referred to it as an ``uncashable check." To our knowledge, a successful hidden variable extension to quantum mechanics with testable consequences has not yet been produced, suggesting that von Neumann's analysis is worthy of rehabilitation, which we attempt to provide in a straightforward manner.
翻訳日:2024-01-09 14:44:49 公開日:2024-01-08
# Dr$2$Net: メモリ効率の良いファインタニングのための動的可逆デュアルレジデンシャルネットワーク

Dr$^2$Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning ( http://arxiv.org/abs/2401.04105v1 )

ライセンス: Link先を確認
Chen Zhao, Shuming Liu, Karttikeya Mangalam, Guocheng Qian, Fatimah Zohra, Abdulmohsen Alghannam, Jitendra Malik, Bernard Ghanem(参考訳) 大規模な事前学習モデルは、現代のコンピュータビジョンタスクにおいてますます重要になっている。 これらのモデルは通常、エンド・ツー・エンドの微調整によって下流のタスクで使用され、高解像度なデータ、例えばビデオ理解、小さなオブジェクト検出、ポイントクラウド分析などのタスクにメモリ集約的に使用される。 本稿では、メモリ消費を大幅に削減した事前学習モデルの微調整を行う代理ネットワークとして機能する新しいネットワークアーキテクチャ群であるDynamic Reversible Dual-Residual Networks(Dr^2$Net)を提案する。 dr$^2$net は2種類の残差接続を含み、1つは事前訓練されたモデルの残差構造を維持し、もう1つはネットワークを可逆化する。 その可逆性のため、出力から再構築可能な中間活性化は、トレーニング中にメモリからクリアされる。 いずれの残差接続にも2つの係数を用いており、より高い数値精度で事前学習されたモデルを可逆ネットワークにシームレスに移行する動的トレーニング戦略を導入する。 各種事前学習モデルと各種タスクについてDr^2$Netを評価し,従来の微調整に匹敵する性能を示すが,メモリ使用量を大幅に削減できることを示す。

Large pretrained models are increasingly crucial in modern computer vision tasks. These models are typically used in downstream tasks by end-to-end finetuning, which is highly memory-intensive for tasks with high-resolution data, e.g., video understanding, small object detection, and point cloud analysis. In this paper, we propose Dynamic Reversible Dual-Residual Networks, or Dr$^2$Net, a novel family of network architectures that acts as a surrogate network to finetune a pretrained model with substantially reduced memory consumption. Dr$^2$Net contains two types of residual connections, one maintaining the residual structure in the pretrained models, and the other making the network reversible. Due to its reversibility, intermediate activations, which can be reconstructed from output, are cleared from memory during training. We use two coefficients on either type of residual connections respectively, and introduce a dynamic training strategy that seamlessly transitions the pretrained model to a reversible network with much higher numerical precision. We evaluate Dr$^2$Net on various pretrained models and various tasks, and show that it can reach comparable performance to conventional finetuning but with significantly less memory usage.
翻訳日:2024-01-09 13:57:14 公開日:2024-01-08
# スピン-2ボース-アインシュタイン凝縮体におけるモノポールとアリス環の複合核

Composite cores of monopoles and Alice rings in spin-2 Bose-Einstein condensates ( http://arxiv.org/abs/2401.04103v1 )

ライセンス: Link先を確認
Giuseppe Baio, Magnus O. Borgh(参考訳) エネルギー緩和によりスピン-2ボース・アインシュタイン凝縮体の一軸-ネマティック相に点欠陥が生じ、スピン-アリス環に変形し、特異線から短距離と長距離に異なる位相を持つ複合コア構造を示す。 外二軸ネマティックコアは、一軸ネマティック内部コアを有するスピン半量子渦構造を示す。 数値シミュレーションにより,スピンアリスリングとスプリットコアヘッジホッグ形状との動的振動を,拡張コア領域内の渦性を伴う強磁性リングの出現を通じて示す。 さらに, スピン渦列を囲むスピンアリス環により, スピン渦列上のスピン渦列上のモノポールの緩和により, 同様のダイナミクスが示されることを示した。 循環相類似状態において、初期構成に応じて、空間形状が環状内心のオーダーパラメータ対称性を反映する分数質量循環の環を含む拡張相混合コアを形成するように示される。

We show that energy relaxation causes a point defect in the uniaxial-nematic phase of a spin-2 Bose-Einstein condensate to deform into a spin-Alice ring that exhibits a composite core structure with distinct topology at short and long distances from the singular line. An outer biaxial-nematic core exhibits a spin half-quantum vortex structure with a uniaxial-nematic inner core. By numerical simulation we demonstrate a dynamical oscillation between the spin-Alice ring and a split-core hedgehog configuration via the appearance of ferromagnetic rings with associated vorticity inside an extended core region. We further show that a similar dynamics is exhibited by a spin-Alice ring surrounding a spin-vortex line resulting from the relaxation of a monopole situated on a spin-vortex line in the biaxial-nematic phase. In the cyclic phase similar states are shown instead to form extended phase-mixing cores containing rings with fractional mass circulation or cores whose spatial shape reflect the order-parameter symmetry of cyclic inner core, depending on the initial configuration.
翻訳日:2024-01-09 13:56:52 公開日:2024-01-08
# AGG:1枚の画像から3Dに再生可能な3Dガウシアン

AGG: Amortized Generative 3D Gaussians for Single Image to 3D ( http://arxiv.org/abs/2401.04099v1 )

ライセンス: Link先を確認
Dejia Xu, Ye Yuan, Morteza Mardani, Sifei Liu, Jiaming Song, Zhangyang Wang, Arash Vahdat(参考訳) 自動3Dコンテンツ作成パイプラインの必要性が高まっているため、単一の画像から3Dオブジェクトを生成するために様々な3D表現が研究されている。 レンダリング効率が優れているため、3Dガウススプラッティングベースのモデルは3D再構成と生成の両方に優れている。 画像から3D生成への3Dガウス的スプレイティングアプローチは、しばしば最適化ベースであり、多くの計算コストのかかるスコア蒸留ステップを必要とする。 これらの課題を克服するために、単一画像から即座に3Dガウスを生成できるAmortized Generative 3D Gaussian framework (AGG)を導入し、インスタンスごとの最適化の必要性を排除した。 中間ハイブリッド表現を用いて、AGGは共同最適化のための3次元ガウス位置および他の外観属性の生成を分解する。 さらに,まず3次元データの粗い表現を生成し,後にそれを3次元ガウス超解像モジュールでアップサンプリングするカスケードパイプラインを提案する。 提案手法は,既存の最適化に基づく3次元ガウシアンフレームワークやサンプリングに基づくパイプラインに対して,他の3次元表現を用いて評価し,AGGは数桁高速かつ定性的かつ定量的に競合生成能力を示す。 プロジェクトページ: https://ir1d.github.io/AGG/

Given the growing need for automatic 3D content creation pipelines, various 3D representations have been studied to generate 3D objects from a single image. Due to its superior rendering efficiency, 3D Gaussian splatting-based models have recently excelled in both 3D reconstruction and generation. 3D Gaussian splatting approaches for image to 3D generation are often optimization-based, requiring many computationally expensive score-distillation steps. To overcome these challenges, we introduce an Amortized Generative 3D Gaussian framework (AGG) that instantly produces 3D Gaussians from a single image, eliminating the need for per-instance optimization. Utilizing an intermediate hybrid representation, AGG decomposes the generation of 3D Gaussian locations and other appearance attributes for joint optimization. Moreover, we propose a cascaded pipeline that first generates a coarse representation of the 3D data and later upsamples it with a 3D Gaussian super-resolution module. Our method is evaluated against existing optimization-based 3D Gaussian frameworks and sampling-based pipelines utilizing other 3D representations, where AGG showcases competitive generation abilities both qualitatively and quantitatively while being several orders of magnitude faster. Project page: https://ir1d.github.io/AGG/
翻訳日:2024-01-09 13:56:33 公開日:2024-01-08
# gpt-4v(ision)はテキストから3d生成のための人間指向型評価器である

GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation ( http://arxiv.org/abs/2401.04092v1 )

ライセンス: Link先を確認
Tong Wu, Guandao Yang, Zhibing Li, Kai Zhang, Ziwei Liu, Leonidas Guibas, Dahua Lin, Gordon Wetzstein(参考訳) テキストから3次元生成手法の最近の進歩にもかかわらず、信頼性の高い評価指標が欠けている。 既存のメトリクスは通常、アセットが入力テキストとどのように一致しているかなど、それぞれ1つの基準に集中します。 これらの指標には、異なる評価基準に一般化する柔軟性がなく、人間の好みとうまく一致しない可能性がある。 ユーザ嗜好研究は、適応性と人間に合わせた結果の両方を提供する代替手段である。 しかし、ユーザスタディはスケールするのに非常に高価である。 本稿では,テキストから3次元生成モデルに対する自動的,汎用的,人間指向の評価指標を提案する。 この目的のために,まずGPT-4Vを用いたプロンプト生成装置を開発し,テキストから3Dモデルを比較した。 さらに,ユーザ定義基準に従って2つの3Dアセットを比較することをGPT-4Vに指示する手法を設計する。 最後に、これらのペア比較結果を用いて、これらのモデルElo評価を割り当てる。 実験結果から,評価基準の異なる人の嗜好に強く一致することが示唆された。

Despite recent advances in text-to-3D generative methods, there is a notable absence of reliable evaluation metrics. Existing metrics usually focus on a single criterion each, such as how well the asset aligned with the input text. These metrics lack the flexibility to generalize to different evaluation criteria and might not align well with human preferences. Conducting user preference studies is an alternative that offers both adaptability and human-aligned results. User studies, however, can be very expensive to scale. This paper presents an automatic, versatile, and human-aligned evaluation metric for text-to-3D generative models. To this end, we first develop a prompt generator using GPT-4V to generate evaluating prompts, which serve as input to compare text-to-3D models. We further design a method instructing GPT-4V to compare two 3D assets according to user-defined criteria. Finally, we use these pairwise comparison results to assign these models Elo ratings. Experimental results suggest our metric strongly align with human preference across different evaluation criteria.
翻訳日:2024-01-09 13:56:10 公開日:2024-01-08
# 量子ポテンシャルを持たない量子力学

Quantum mechanics without quantum potentials ( http://arxiv.org/abs/2401.04091v1 )

ライセンス: Link先を確認
Adam Brownstein(参考訳) 量子力学における非局所性の問題は、4次元時空における相対論的共変拡散を考えることで解決できる。 クライン=ゴルドン方程式によって記述された確率的粒子は、時空座標において古典的な拡散過程を経ることが示され、これは量子コーシー-モーメント方程式を参照のラグランジアンフレームに変換することによって見ることができる。 この変換の下で量子ポテンシャル項は取り除かれるため、粒子軌道に沿った運動量伝播の方程式は古典形式となる。 クライン=ゴルドン系の局所確率的ド・ブロイ=ボーム解釈は、後に導出することができる。 また, 運動量同分散の概念を導入し, 確率的ラグランジアン微分の非線形項により崩壊する2次ボム・ニュートン運動方程式を置き換えた。

The issue of non-locality in quantum mechanics can potentially be resolved by considering relativistically covariant diffusion in four-dimensional spacetime. Stochastic particles described by the Klein-Gordon equation are shown to undergo a classical diffusion process in spacetime coordinates, which is seen by transforming the quantum Cauchy-momentum equations to a Lagrangian frame of reference. Since the quantum potential term is removed under this transformation, the equations for momentum propagation along particle trajectories assume a classical form. A local stochastic de Broglie-Bohm interpretation for the Klein-Gordon system can subsequently be derived. We also introduce the concept of momentum equivariance to replace the second-order Bohm-Newton equations of motion, which break down due to non-linear terms of the stochastic Lagrangian derivative.
翻訳日:2024-01-09 13:55:56 公開日:2024-01-08
# 専門家の混ざり合い

Mixtral of Experts ( http://arxiv.org/abs/2401.04088v1 )

ライセンス: Link先を確認
Albert Q. Jiang, Alexandre Sablayrolles, Antoine Roux, Arthur Mensch, Blanche Savary, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Emma Bou Hanna, Florian Bressand, Gianna Lengyel, Guillaume Bour, Guillaume Lample, L\'elio Renard Lavaud, Lucile Saulnier, Marie-Anne Lachaux, Pierre Stock, Sandeep Subramanian, Sophia Yang, Szymon Antoniak, Teven Le Scao, Th\'eophile Gervet, Thibaut Lavril, Thomas Wang, Timoth\'ee Lacroix, William El Sayed(参考訳) 本研究では,SMOE(Sparse Mixture of Experts)言語モデルであるMixtral 8x7Bを紹介する。 mixtralはmistral 7bと同じアーキテクチャを持ち、各レイヤが8つのフィードフォワードブロック(すなわち専門家)で構成されている点が異なる。 各トークンについて、ルータネットワークは2人の専門家を選択して現在の状態を処理し、出力を組み合わせる。 各トークンには2人の専門家しかいないが、選択された専門家は各タイミングで異なることができる。 その結果、各トークンは47Bパラメータにアクセスできるが、推論中にアクティブパラメータは13Bしかない。 Mixtralは32kトークンのコンテキストサイズでトレーニングされ、評価されたすべてのベンチマークでLlama 2 70BとGPT-3.5を上回り、マッチする。 特にmixtralは、数学、コード生成、多言語ベンチマークにおいてllama 2 70bを大きく上回っている。 また、GPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70Bを超越したMixtral 8x7B - Instructという命令に従うモデルも提供する。 ベースモデルとインストラクションモデルの両方がApache 2.0ライセンスでリリースされている。

We introduce Mixtral 8x7B, a Sparse Mixture of Experts (SMoE) language model. Mixtral has the same architecture as Mistral 7B, with the difference that each layer is composed of 8 feedforward blocks (i.e. experts). For every token, at each layer, a router network selects two experts to process the current state and combine their outputs. Even though each token only sees two experts, the selected experts can be different at each timestep. As a result, each token has access to 47B parameters, but only uses 13B active parameters during inference. Mixtral was trained with a context size of 32k tokens and it outperforms or matches Llama 2 70B and GPT-3.5 across all evaluated benchmarks. In particular, Mixtral vastly outperforms Llama 2 70B on mathematics, code generation, and multilingual benchmarks. We also provide a model fine-tuned to follow instructions, Mixtral 8x7B - Instruct, that surpasses GPT-3.5 Turbo, Claude-2.1, Gemini Pro, and Llama 2 70B - chat model on human benchmarks. Both the base and instruct models are released under the Apache 2.0 license.
翻訳日:2024-01-09 13:55:41 公開日:2024-01-08
# 事前試験確率の事前決定

A Priori Determination of the Pretest Probability ( http://arxiv.org/abs/2401.04086v1 )

ライセンス: Link先を確認
Jacques Balayla(参考訳) 本論文では,スクリーニング検査の適切な解釈のための重要な前提条件である,疾患の有病率を推定する様々な方法を提案する。 これらのアプローチの限界に対処するために,ロジスティック回帰モデルからロジット関数を活用し,疾患の前テスト確率を推定する新しい手法を提案する。 このアプローチはマクギーのヒューリスティックの修正であり、元々は病気の検査後の確率を推定するために設計された。 n_\theta$ の徴候または症状を呈示する患者では、テスト前の確率の最小境界である $\phi$ を次のように近似することができる: $\phi \approx \frac{1}{5}{ln\left[\displaystyle \prod_{\theta=1}^{i}\kappa_\theta\right]} ここで$ln$ は自然対数であり、$\kappa_\theta$ は問題の徴候または症状に付随する確率比である。

In this manuscript, we present various proposed methods estimate the prevalence of disease, a critical prerequisite for the adequate interpretation of screening tests. To address the limitations of these approaches, which revolve primarily around their a posteriori nature, we introduce a novel method to estimate the pretest probability of disease, a priori, utilizing the Logit function from the logistic regression model. This approach is a modification of McGee's heuristic, originally designed for estimating the posttest probability of disease. In a patient presenting with $n_\theta$ signs or symptoms, the minimal bound of the pretest probability, $\phi$, can be approximated by: $\phi \approx \frac{1}{5}{ln\left[\displaystyle\prod_{\theta=1}^{i}\kappa_\theta\right]}$ where $ln$ is the natural logarithm, and $\kappa_\theta$ is the likelihood ratio associated with the sign or symptom in question.
翻訳日:2024-01-09 13:55:21 公開日:2024-01-08
# 量子力学の動的プログラミング解釈

A dynamic programming interpretation of quantum mechanics ( http://arxiv.org/abs/2401.04085v1 )

ライセンス: Link先を確認
Adam Brownstein(参考訳) 量子力学の決定論的方程式を確率粒子のラグランジュ基準系に変換する量子位相 $s'=s+\frac{\hbar}{2}\log\rho$ の変換を導入する。 量子ポテンシャルは、確率的ハミルトン・ヤコビ・ベルマン方程式として解かれた場合、変換された量子ハミルトン・ヤコビ方程式から取り除くことができる。 方程式系は量子力学の局所的な記述を提供し、確率的ハミルトン・ヤコビ・ベルマン方程式の本質的に遡及的性質によって実現される。 また、古典系の確率的変換についても研究し、量子ポテンシャルが$\frac{1}{2}$の因子で還元された量子力学が古典的表現を持つことを示した。 最後に、全量子系のオントロジーを制約するサブシステム対応原理の概念について論じる。

We introduce a transformation of the quantum phase $S'=S+\frac{\hbar}{2}\log\rho$, which converts the deterministic equations of quantum mechanics into the Lagrangian reference frame of stochastic particles. We show that the quantum potential can be removed from the transformed quantum Hamilton-Jacobi equations if they are solved as stochastic Hamilton-Jacobi-Bellman equations. The system of equations provide a local description of quantum mechanics, which is enabled by the inherently retrocausal nature of stochastic Hamilton-Jacobi-Bellman equations. We also investigate the stochastic transformation of the classical system, where is it shown that quantum mechanics with the quantum potential reduced by a factor of $\frac{1}{2}$ has a classical representation, which may have interesting implications. Finally, we discuss the notion of a subsystem correspondence principle, which constrains the ontology of the total quantum system.
翻訳日:2024-01-09 13:54:55 公開日:2024-01-08
# se(3)フローマッチングによるモチーフカフォールディングの改善

Improved motif-scaffolding with SE(3) flow matching ( http://arxiv.org/abs/2401.04082v1 )

ライセンス: Link先を確認
Jason Yim, Andrew Campbell, Emile Mathieu, Andrew Y. K. Foong, Michael Gastegger, Jos\'e Jim\'enez-Luna, Sarah Lewis, Victor Garcia Satorras, Bastiaan S. Veeling, Frank No\'e, Regina Barzilay, Tommi S. Jaakkola(参考訳) タンパク質の設計は、しばしばモチーフから所望の機能の知識から始まり、モチーフ・スキャフォールディングは機能タンパク質を周囲に構築することを目的としている。 近年,多種多様なモチーフの足場設計において,生成モデルが画期的な成功を収めている。 しかし、生成された足場は構造的な多様性を欠く傾向にあり、ウェットラブ検証の成功を妨げる。 本研究では,タンパク質骨格生成のためのse(3)フローマッチングモデルであるframeflowを拡張し,相補的アプローチを用いてモチーフスキャフォールディングを行う。 1つ目はモチーフ・アモーティゼーションで、FrameFlowはデータ拡張戦略を使用して入力としてモチーフでトレーニングされる。 2つ目はモチーフガイダンスで、FrameFlowから条件スコアを推定してスキャフォールディングを実行し、追加のトレーニングを必要としない。 どちらのアプローチも、従来の最先端手法と同等あるいは高い成功率を達成し、構造的に多様な足場を持つ。 コード: https://github.com/ microsoft/frame-flow。

Protein design often begins with knowledge of a desired function from a motif which motif-scaffolding aims to construct a functional protein around. Recently, generative models have achieved breakthrough success in designing scaffolds for a diverse range of motifs. However, the generated scaffolds tend to lack structural diversity, which can hinder success in wet-lab validation. In this work, we extend FrameFlow, an SE(3) flow matching model for protein backbone generation, to perform motif-scaffolding with two complementary approaches. The first is motif amortization, in which FrameFlow is trained with the motif as input using a data augmentation strategy. The second is motif guidance, which performs scaffolding using an estimate of the conditional score from FrameFlow, and requires no additional training. Both approaches achieve an equivalent or higher success rate than previous state-of-the-art methods, with 2.5 times more structurally diverse scaffolds. Code: https://github.com/ microsoft/frame-flow.
翻訳日:2024-01-09 13:54:40 公開日:2024-01-08
# moe-mamba: 専門家の混合による効率的な選択状態空間モデル

MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts ( http://arxiv.org/abs/2401.04081v1 )

ライセンス: Link先を確認
Maciej Pi\'oro, Kamil Ciebiera, Krystian Kr\'ol, Jan Ludziejewski, Sebastian Jaszczur(参考訳) 状態空間モデル(ssm)はシーケンシャルモデリングの分野で真剣な競争相手となり、トランスフォーマーの支配に挑戦している。 同時に、Mixture of Experts (MoE)は、最新の最先端オープンソースモデルを含むTransformerベースのLLMを大幅に改善した。 スケーリングのためのSSMの可能性を解き放つためには、MoEと組み合わせるべきである。 本稿では,SSMをベースとした最新のモデルであるMambaについて紹介する。 私たちのモデルであるMoE-Mambaは、MambaとTransformer-MoEの両方より優れています。 特に、MoE-Mambaは2.2倍のトレーニングステップでMambaと同じパフォーマンスを達成しつつ、MambaのTransformerに対する推論性能向上を保っている。

State Space Models (SSMs) have become serious contenders in the field of sequential modeling, challenging the dominance of Transformers. At the same time, Mixture of Experts (MoE) has significantly improved Transformer-based LLMs, including recent state-of-the-art open-source models. We propose that to unlock the potential of SSMs for scaling, they should be combined with MoE. We showcase this on Mamba, a recent SSM-based model that achieves remarkable, Transformer-like performance. Our model, MoE-Mamba, outperforms both Mamba and Transformer-MoE. In particular, MoE-Mamba reaches the same performance as Mamba in 2.2x less training steps while preserving the inference performance gains of Mamba against the Transformer.
翻訳日:2024-01-09 13:54:23 公開日:2024-01-08
# RudolfV:病理学者のための基礎モデル

RudolfV: A Foundation Model by Pathologists for Pathologists ( http://arxiv.org/abs/2401.04079v1 )

ライセンス: Link先を確認
Jonas Dippel, Barbara Feulner, Tobias Winterhoff, Simon Schallenberg, Gabriel Dernbach, Andreas Kunft, Stephan Tietz, Philipp Jurmeister, David Horst, Lukas Ruff, Klaus-Robert M\"uller, Frederick Klauschen, Maximilian Alber(参考訳) 病理は臨床医学や生医学研究において中心的な役割を果たす。 人工知能は多くの病理学的タスクで有望な結果を示しているが、トレーニングデータが不足しているまれな疾患の一般化と対処は依然として課題である。 ラベルのないデータからの知識を基礎モデルに蒸留し、潜在的に限定されたラベル付きデータから学ぶことは、これらの課題に対処するための有効な道を提供する。 本稿では,準自動データキュレーションと病理学領域知識の統合により,デジタル病理学の基礎モデルの現状を,スライド画像全体に適用する。 具体的には、計算と病理医のドメイン知識を組み合わせて、異なる固定、染色、走査プロトコルからのデータに加えて、EUと米国全体で異なる表示や実験室のデータを含む750万の画像パッチに対応する103万のスライドの多様なデータセットを算出し、(2)意味論的に類似したスライドと組織パッチをグループ化し、(3)トレーニング中に入力画像を拡張する。 その結果得られたモデルを,公開ベンチマークと内部ベンチマークで評価し,基礎モデルは1桁以下のスライドでトレーニングされているものの,競合するモデルと同等以上のパフォーマンスを示す。 より多くのデータとより大きなモデルにアプローチをスケールすることで、診断や生体医学研究においてますます複雑な現実世界のタスクに対処するためのパフォーマンスとキャパシティがさらに高まると期待しています。

Histopathology plays a central role in clinical medicine and biomedical research. While artificial intelligence shows promising results on many pathological tasks, generalization and dealing with rare diseases, where training data is scarce, remains a challenge. Distilling knowledge from unlabeled data into a foundation model before learning from, potentially limited, labeled data provides a viable path to address these challenges. In this work, we extend the state of the art of foundation models for digital pathology whole slide images by semi-automated data curation and incorporating pathologist domain knowledge. Specifically, we combine computational and pathologist domain knowledge (1) to curate a diverse dataset of 103k slides corresponding to 750 million image patches covering data from different fixation, staining, and scanning protocols as well as data from different indications and labs across the EU and US, (2) for grouping semantically similar slides and tissue patches, and (3) to augment the input images during training. We evaluate the resulting model on a set of public and internal benchmarks and show that although our foundation model is trained with an order of magnitude less slides, it performs on par or better than competing models. We expect that scaling our approach to more data and larger models will further increase its performance and capacity to deal with increasingly complex real world tasks in diagnostics and biomedical research.
翻訳日:2024-01-09 13:54:09 公開日:2024-01-08
# 開量子カオス系におけるスペクトル変動の普遍性

Universality of spectral fluctuations in open quantum chaotic systems ( http://arxiv.org/abs/2401.04078v1 )

ライセンス: Link先を確認
Jisha C and Ravi Prakash(参考訳) 1次元のスペクトルを持つ量子カオス系は、時間反転と回転の下で不変性に依存するランダム行列の直交(oe)、ユニタリ(ue)、シンプレクティックアンサンブル(se)のスペクトル相関に従う。 本稿では、複素対称、複素非対称(ジニブレ)、複素四元数の自己双対行列の対称性に基づく非エルミート的および非単位的アンサンブルについて研究する。 これらのアンサンブルの固有値は二次元平面にある。 これらのアンサンブルのゆらぎ統計は、OE, UE, SEに属する普遍的で量子カオス的なシステムであり、散逸性環境の存在下でも同様なスペクトル変動を示す。 短距離相関を間隔比と間隔分布を用いて検討した。 長距離相関では、非局所スケールでの展開が重要である。 非一様密度の2次元スペクトルを展開する汎用的な方法を提案し,その相関を数分散を用いて評価する。 短距離相関も長距離相関も普遍的である。 我々は, oe, ue, seの対称性を保存的限度で表せるように調整可能な散逸環境において, 量子キックトップを用いて結果を検証する。

Quantum chaotic systems with one-dimensional spectra follow spectral correlations of orthogonal (OE), unitary (UE), or symplectic ensembles (SE) of random matrices depending on their invariance under time reversal and rotation. In this letter, we study the non-Hermitian and non-unitary ensembles based on the symmetry of matrix elements, viz. ensemble of complex symmetric, complex asymmetric (Ginibre), and self-dual matrices of complex quaternions. The eigenvalues for these ensembles lie in the two-dimensional plane. We show that the fluctuation statistics of these ensembles are universal and quantum chaotic systems belonging to OE, UE, and SE in the presence of a dissipative environment show similar spectral fluctuations. The short-range correlations are studied using spacing ratio and spacing distribution. For long-range correlations, unfolding at a non-local scale is crucial. We describe a generic method to unfold the two-dimensional spectra with non-uniform density and evaluate correlations using number variance. We find that both short-range and long-range correlations are universal. We verify our results with the quantum kicked top in a dissipative environment that can be tuned to exhibit symmetries of OE, UE, and SE in its conservative limit.
翻訳日:2024-01-09 13:53:40 公開日:2024-01-08
# 中性原子量子プロセッサ間の高速・高忠実モジュラー配線

High-rate and high-fidelity modular interconnects between neutral atom quantum processors ( http://arxiv.org/abs/2401.04075v1 )

ライセンス: Link先を確認
Yiyi Li, Jeff Thompson(参考訳) 物理的に分離されたモジュール間の量子リンクは多くの量子コンピューティング技術のスケーリングに重要である。 主な指標は、リモートベルペアの生成率と忠実度である。 本研究では,中性イッテルビウム原子量子ビット間の遠隔絡み合いを光学空洞を用いて生成する実験プロトコルを提案する。 多数の原子を1つの空洞に積み込み、局所的な光シフトのみを用いて結合を制御することにより、多くの絡み合いの試みにおいて原子の輸送と初期化のコストを減らし、絡み合いの発生率を最大化する。 ツイストリングキャビティ幾何は多くの誤差源を抑制し、高い忠実度エンタングルメント生成を可能にする。 スピン-光子絡み合い速度は5 \times 10^5$ s$^{-1}$、ベル対レートは1.0\times 10^5$ s$^{-1}$で、平均忠実度は0.999$である。 さらに,光子検出時間は誤りの所在についてかなりの量のソフト情報を提供し,論理量子ビットの性能向上に役立てることができることを示した。 このアプローチは、中性イッテルビウム原子を用いたスケーラブルなモジュラー量子コンピューティングへの実践的なパスを提供する。

Quantum links between physically separated modules are important for scaling many quantum computing technologies. The key metrics are the generation rate and fidelity of remote Bell pairs. In this work, we propose an experimental protocol for generating remote entanglement between neutral ytterbium atom qubits using an optical cavity. By loading a large number of atoms into a single cavity, and controlling their coupling using only local light shifts, we amortize the cost of transporting and initializing atoms over many entanglement attempts, maximizing the entanglement generation rate. A twisted ring cavity geometry suppresses many sources of error, allowing high fidelity entanglement generation. We estimate a spin-photon entanglement rate of $5 \times 10^5$ s$^{-1}$, and a Bell pair rate of $1.0\times 10^5$ s$^{-1}$, with an average fidelity near $0.999$. Furthermore, we show that the photon detection times provide a significant amount of soft information about the location of errors, which may be used to improve the logical qubit performance. This approach provides a practical path to scalable modular quantum computing using neutral ytterbium atoms.
翻訳日:2024-01-09 13:52:44 公開日:2024-01-08
# フラッグで楽しむ:フラッグマニフォールドによるロバストな主要方向

Fun with Flags: Robust Principal Directions via Flag Manifolds ( http://arxiv.org/abs/2401.04071v1 )

ライセンス: Link先を確認
Nathan Mankovich, Gustau Camps-Valls, Tolga Birdal(参考訳) 主成分分析(PCA)は、多様体の拡張や外層汚染データとともに、コンピュータビジョンや機械学習では不可欠である。 本稿では,pcaとその変種に対する統一的形式論を提示し,線形部分空間のフラグに基づく枠組み,すなわち拡大次元のネスト付き線形部分空間の階層について紹介する。 分散を最大化するか、再構成誤差を最小化する従来のPCA手法を一般化することから始める。 我々はこれらの解釈を拡張して、外れ値とデータ多様体を考慮し、幅広い次元削減アルゴリズムを開発する。 共通の計算手法を考案するために、フラグ多様体の最適化問題として、頑健で双対なPCAを再放送する。 次に、このフラグベースのフレームワークに主測地解析(Tangent-PCA)の接空間近似を組み込み、新しいロバストかつ双対測地PCAのバリエーションを作成する。 ここで導入された'フラグ化'によってもたらされる顕著な柔軟性により、特定のフラグタイプによって識別されるアルゴリズム的な変種がさらに増える。 最後に,スタイフェル多様体を用いたフラッグ形式に対する効果的な収束解法を提案する。 実世界のシナリオと合成シナリオの両方に関する実証的な結果から、新しいアルゴリズムの優位性、特に多様体上の外れ値に対するロバスト性を示す。

Principal component analysis (PCA), along with its extensions to manifolds and outlier contaminated data, have been indispensable in computer vision and machine learning. In this work, we present a unifying formalism for PCA and its variants, and introduce a framework based on the flags of linear subspaces, \ie a hierarchy of nested linear subspaces of increasing dimension, which not only allows for a common implementation but also yields novel variants, not explored previously. We begin by generalizing traditional PCA methods that either maximize variance or minimize reconstruction error. We expand these interpretations to develop a wide array of new dimensionality reduction algorithms by accounting for outliers and the data manifold. To devise a common computational approach, we recast robust and dual forms of PCA as optimization problems on flag manifolds. We then integrate tangent space approximations of principal geodesic analysis (tangent-PCA) into this flag-based framework, creating novel robust and dual geodesic PCA variations. The remarkable flexibility offered by the 'flagification' introduced here enables even more algorithmic variants identified by specific flag types. Last but not least, we propose an effective convergent solver for these flag-formulations employing the Stiefel manifold. Our empirical results on both real-world and synthetic scenarios, demonstrate the superiority of our novel algorithms, especially in terms of robustness to outliers on manifolds.
翻訳日:2024-01-09 13:51:54 公開日:2024-01-08
# Convex SGD: 早期停止のない一般化

Convex SGD: Generalization Without Early Stopping ( http://arxiv.org/abs/2401.04067v1 )

ライセンス: Link先を確認
Julien Hendrickx and Alex Olshevsky(参考訳) コンパクトな集合上の滑らかな凸関数上の確率勾配降下に伴う一般化誤差を考察する。 1/\sqrt{t} + 1/\sqrt{n})$であり、ステップサイズ$\alpha_t = 1/\sqrt{t}$である。 特に、確率的勾配降下がうまく一般化するには強い凸性は必要ない。

We consider the generalization error associated with stochastic gradient descent on a smooth convex function over a compact set. We show the first bound on the generalization error that vanishes when the number of iterations $T$ and the dataset size $n$ go to zero at arbitrary rates; our bound scales as $\tilde{O}(1/\sqrt{T} + 1/\sqrt{n})$ with step-size $\alpha_t = 1/\sqrt{t}$. In particular, strong convexity is not needed for stochastic gradient descent to generalize well.
翻訳日:2024-01-09 13:51:30 公開日:2024-01-08
# デカップリングによる言語フリー合成行動生成

Language-free Compositional Action Generation via Decoupling Refinement ( http://arxiv.org/abs/2307.03538v3 )

ライセンス: Link先を確認
Xiao Liu, Guangyi Chen, Yansong Tang, Guangrun Wang, Xiao-Ping Zhang, Ser-Nam Lim(参考訳) 単純な要素を複雑な概念に組み込むことは、特に3Dアクション生成において非常に難しい。 既存の手法は主に、構成可能な潜在意味論を識別するための広範囲なニューラルネットワークアノテーションに依存している。 本研究では,言語助詞に頼らずに合成動作を生成する新しい枠組みを提案する。 このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントの3つの主要コンポーネントから構成される。 アクションカップリングは、各サブアクションのアテンションマスクを抽出するためにエネルギーモデルを使用し、これらのアテンションを使用して2つのアクションを統合して擬似トレーニング例を生成する。 次に,条件付き生成モデルであるcvaeを用いて潜在空間を学習し,多様な世代を促進する。 最後に,自己教師付き事前学習モデルMAEを利用して,サブアクションと構成動作のセマンティック一貫性を確保するデカップリングリファインメントを提案する。 この改良プロセスでは、生成された3dアクションを2d空間にレンダリングし、これらのイメージを2つのサブセグメントに分離し、maeモデルを使用してサブセグメントから完全なイメージを復元する。 サブアクションとコンポジションアクションの両方を含む既存のデータセットがないため、HumanAct-CとUESTC-Cという2つの新しいデータセットを作成し、対応する評価指標を提示した。 質的・定量的評価はともに有効性を示すために行われる。

Composing simple elements into complex concepts is crucial yet challenging, especially for 3D action generation. Existing methods largely rely on extensive neural language annotations to discern composable latent semantics, a process that is often costly and labor-intensive. In this study, we introduce a novel framework to generate compositional actions without reliance on language auxiliaries. Our approach consists of three main components: Action Coupling, Conditional Action Generation, and Decoupling Refinement. Action Coupling utilizes an energy model to extract the attention masks of each sub-action, subsequently integrating two actions using these attentions to generate pseudo-training examples. Then, we employ a conditional generative model, CVAE, to learn a latent space, facilitating the diverse generation. Finally, we propose Decoupling Refinement, which leverages a self-supervised pre-trained model MAE to ensure semantic consistency between the sub-actions and compositional actions. This refinement process involves rendering generated 3D actions into 2D space, decoupling these images into two sub-segments, using the MAE model to restore the complete image from sub-segments, and constraining the recovered images to match images rendered from raw sub-actions. Due to the lack of existing datasets containing both sub-actions and compositional actions, we created two new datasets, named HumanAct-C and UESTC-C, and present a corresponding evaluation metric. Both qualitative and quantitative assessments are conducted to show our efficacy.
翻訳日:2024-01-09 11:33:58 公開日:2024-01-08
# 運動パターンの解明--軌道予測のためのパターン記憶に基づく拡散モデル

Uncovering the human motion pattern: Pattern Memory-based Diffusion Model for Trajectory Prediction ( http://arxiv.org/abs/2401.02916v2 )

ライセンス: Link先を確認
Yuxin Yang, Pengfei Zhu, Mengshi Qi, Huadong Ma(参考訳) 人間の軌道予測はロボット工学や自動運転といった分野において重要な課題である。 現実のシナリオにおける人間の行動や意図に固有の不確実性があるため、様々な予期せぬ出来事が起こる可能性がある。 本稿では,人間の行動における潜在運動パターンを明らかにするために,新しいメモリベース手法であるモーションパターンプリエンスメモリネットワークを提案する。 本手法は,訓練セットの軌跡で観測された動きパターンの事前知識をクラスタ化したメモリバンクを構築することを含む。 本稿では,エージェントが提示する自然動作パターンの識別と検索を可能にするメモリバンクからの予測毎にマッチングされたパターンと潜在的なターゲット分布を検索するアドレッシング機構を導入し,ターゲットプリエントメモリトークンを用いて拡散モデルをガイドし,予測を生成する。 広範な実験により,提案手法の有効性が検証され,最新の軌道予測精度が得られた。 コードは公開される予定だ。

Human trajectory forecasting is a critical challenge in fields such as robotics and autonomous driving. Due to the inherent uncertainty of human actions and intentions in real-world scenarios, various unexpected occurrences may arise. To uncover latent motion patterns in human behavior, we introduce a novel memory-based method, named Motion Pattern Priors Memory Network. Our method involves constructing a memory bank derived from clustered prior knowledge of motion patterns observed in the training set trajectories. We introduce an addressing mechanism to retrieve the matched pattern and the potential target distributions for each prediction from the memory bank, which enables the identification and retrieval of natural motion patterns exhibited by agents, subsequently using the target priors memory token to guide the diffusion model to generate predictions. Extensive experiments validate the effectiveness of our approach, achieving state-of-the-art trajectory prediction accuracy. The code will be made publicly available.
翻訳日:2024-01-09 11:30:56 公開日:2024-01-08
# DiffBody:人間の画像の拡散に基づくポーズと形状編集

DiffBody: Diffusion-based Pose and Shape Editing of Human Images ( http://arxiv.org/abs/2401.02804v2 )

ライセンス: Link先を確認
Yuta Okuyama, Yuki Endo, Yoshihiro Kanamori(参考訳) 人間の画像における姿勢と身体形状の編集に注目が集まっている。 しかし、現在の手法は、ユーザーが大規模な編集を行うとき、しばしばデータセットバイアスと現実主義を悪化させる。 本稿では,アイデンティティを保存した大規模な編集を可能にするワンショットアプローチを提案する。 大きな編集を可能にするため、3Dボディモデルに適合し、入力画像を3Dモデルに投影し、身体のポーズと形状を変更する。 この初期テクスチャボディーモデルは、閉塞や不正確な体形によるアーティファクトを有するため、強いノイズが体の構造やアイデンティティを損なうが、不十分なノイズは役に立たない拡散ベースの精細化を行う。 そこで我々は,まず体全体に適用し,次に顔に適応する,ノイズの少ない反復的な改良を提案する。 自己教師付き学習によるテキスト埋め込みの微調整により、リアリズムをさらに強化する。 定量的および定性的な評価は,本手法が他の既存手法よりも優れていることを示す。

Pose and body shape editing in a human image has received increasing attention. However, current methods often struggle with dataset biases and deteriorate realism and the person's identity when users make large edits. We propose a one-shot approach that enables large edits with identity preservation. To enable large edits, we fit a 3D body model, project the input image onto the 3D model, and change the body's pose and shape. Because this initial textured body model has artifacts due to occlusion and the inaccurate body shape, the rendered image undergoes a diffusion-based refinement, in which strong noise destroys body structure and identity whereas insufficient noise does not help. We thus propose an iterative refinement with weak noise, applied first for the whole body and then for the face. We further enhance the realism by fine-tuning text embeddings via self-supervised learning. Our quantitative and qualitative evaluations demonstrate that our method outperforms other existing methods across various datasets.
翻訳日:2024-01-09 11:30:42 公開日:2024-01-08
# マルチジョブフェデレーション学習のためのフェアネスを考慮したジョブスケジューリング

Fairness-Aware Job Scheduling for Multi-Job Federated Learning ( http://arxiv.org/abs/2401.02740v2 )

ライセンス: Link先を確認
Yuxin Shi, Han Yu(参考訳) フェデレートラーニング(FL)は、複数のデータ所有者(FLクライアント)が機密性の高いプライベートデータを開示することなく、協調的に機械学習モデルをトレーニングすることを可能にする。 既存のFL研究は主に、1つのFLサーバがFLクライアントのサブセットを選択して各トレーニングラウンドでローカルモデルを更新する独占シナリオに焦点を当てている。 実際には、複数のFLサーバが同時に同じプールからクライアントを選ぼうとしています。 本稿では,このギャップを埋めるためのFairFedJS(Federated Job Scheduling)アプローチを提案する。 lyapunov最適化に基づき、待ち時間が長くなるのを防ぐために、現在の需要と求職入札を共同で考慮し、要求の高いflクライアントデータセットをflジョブに公平に割り当てることを保証する。 FairFedJSと2つのデータセットに対する4つの最先端アプローチを比較した大規模な実験は、その大きな利点を示している。 これは、スケジューリングの公平さと収束時間に関して、平均で31.9%と1.0%という最高のベースラインを上回り、比較試験の正確さを実現している。

Federated learning (FL) enables multiple data owners (a.k.a. FL clients) to collaboratively train machine learning models without disclosing sensitive private data. Existing FL research mostly focuses on the monopoly scenario in which a single FL server selects a subset of FL clients to update their local models in each round of training. In practice, there can be multiple FL servers simultaneously trying to select clients from the same pool. In this paper, we propose a first-of-its-kind Fairness-aware Federated Job Scheduling (FairFedJS) approach to bridge this gap. Based on Lyapunov optimization, it ensures fair allocation of high-demand FL client datasets to FL jobs in need of them, by jointly considering the current demand and the job payment bids, in order to prevent prolonged waiting. Extensive experiments comparing FairFedJS against four state-of-the-art approaches on two datasets demonstrate its significant advantages. It outperforms the best baseline by 31.9% and 1.0% on average in terms of scheduling fairness and convergence time, respectively, while achieving comparable test accuracy.
翻訳日:2024-01-09 11:30:25 公開日:2024-01-08
# 一般的なタスクにおける命令チューニングのためのパラメータ効率の高いスパルシティ製作法

Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks ( http://arxiv.org/abs/2401.02731v2 )

ライセンス: Link先を確認
Haoyuan Wu, Haisheng Zheng, Bei Yu(参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)のタスクにおいて、かなり熟練している。 成功しているパラダイムであるインストラクションチューニングは、LLMが自然言語命令に従う能力を高め、幅広いタスクにまたがる堅牢な一般化を示す。 しかしながら、モデルキャパシティの制約により、これらのモデルは複数のタスクにまたがるパフォーマンスの制限に直面することが多い。 命令チューニングフェーズでこの能力を拡張することは、大きな課題となる。 この問題に対処するために,パラメータ効率のよいスパシティ・クラフト (PESC) という新しい手法を導入し,Mixture of Experts (MoE) アーキテクチャを用いて高密度モデルからスパースモデルへ変換する。 PESCはアダプタをスパースモデルのMoE層に統合し、これらの層内の個々の重みを変更することなく専門家を差別化する。 この方法は計算コストとGPUメモリの要求を大幅に削減し、挿入アダプタによるパラメータの最小増加によるモデルの容量拡張を容易にする。 実験によりPESC法の有効性が示された。 インストラクションチューニングにおいてPESCを用いて,Camelidaeと称されるスパースモデルは,他のすべてのオープンソーススパースモデルより優れ,GPT3.5と比較して優れた汎用性を示す。

Large Language Models (LLMs) have demonstrated considerable proficiency in general natural language processing (NLP) tasks. Instruction tuning, a successful paradigm, enhances the ability of LLMs to follow natural language instructions and exhibit robust generalization across a wide range of tasks. However, these models often encounter performance limitations across multiple tasks due to constrained model capacity. Expanding this capacity during the instruction tuning phase poses significant challenges. To address this issue, we introduce a novel approach, Parameter-Efficient Sparsity Crafting (PESC), which transitions dense models to sparse models using a Mixture of Experts (MoE) architecture. PESC integrates adapters into the MoE layers of sparse models, differentiating experts without altering the individual weights within these layers. This method significantly reduces computational costs and GPU memory requirements, facilitating model capacity expansion through a minimal increase in parameters via the inserted adapters. Our empirical evaluation demonstrates the effectiveness of the PESC method. Using PESC during instruction tuning, our sparse models, dubbed Camelidae outperform all other opensource sparse models and exhibit superior general capabilities compared to GPT3.5.
翻訳日:2024-01-09 11:30:07 公開日:2024-01-08
# 機械学習の計算分割: 学術的貢献と精査に対する脅威?

The Compute Divide in Machine Learning: A Threat to Academic Contribution and Scrutiny? ( http://arxiv.org/abs/2401.02452v2 )

ライセンス: Link先を確認
Tamay Besiroglu, Sage Andrus Bergerson, Amelia Michael, Lennart Heim, Xueyun Luo, Neil Thompson(参考訳) 産業と学術のAIラボがコンピューティングリソースを使用する範囲には、明らかな違いがある。 本稿では,機械学習研究における計算分割の役割に関するデータ駆動調査を行う。 計算分断は、計算集約的な研究トピック、特に基礎モデルにおける学術のみの研究チームの表現の減少と一致していることを示す。 学術は関連する技術の進歩、批判的な評価と精査、そしてそのようなモデルの拡散において、より小さな役割を担っていると我々は主張する。 この研究の焦点の変更と並行して、業界内で開発されたオープンソースの事前学習モデルを受け入れることへの学術研究のシフトが目覚ましい。 この傾向から生じる課題、特に影響力のあるモデルの精査を減らすために、学術的洞察を思慮深く拡大することを目的としたアプローチを推奨する。 国家が支援するコンピューティングインフラストラクチャとオープンサイエンスのイニシアチブが組み合わさることで、アカデミックな計算アクセスを公平に促進し、解釈可能性、安全性、セキュリティの研究を優先することができる。 構造化されたアクセスプログラムとサードパーティの監査により、産業システムの外部評価も可能となる。

There are pronounced differences in the extent to which industrial and academic AI labs use computing resources. We provide a data-driven survey of the role of the compute divide in shaping machine learning research. We show that a compute divide has coincided with a reduced representation of academic-only research teams in compute intensive research topics, especially foundation models. We argue that, academia will likely play a smaller role in advancing the associated techniques, providing critical evaluation and scrutiny, and in the diffusion of such models. Concurrent with this change in research focus, there is a noticeable shift in academic research towards embracing open source, pre-trained models developed within the industry. To address the challenges arising from this trend, especially reduced scrutiny of influential models, we recommend approaches aimed at thoughtfully expanding academic insights. Nationally-sponsored computing infrastructure coupled with open science initiatives could judiciously boost academic compute access, prioritizing research on interpretability, safety and security. Structured access programs and third-party auditing may also allow measured external evaluation of industry systems.
翻訳日:2024-01-09 11:29:47 公開日:2024-01-08
# BA-SAM: セグメンテーションモデルのためのスケーラブルなバイアスモード注意マスク

BA-SAM: Scalable Bias-Mode Attention Mask for Segment Anything Model ( http://arxiv.org/abs/2401.02317v2 )

ライセンス: Link先を確認
Yiran Song, Qianyu Zhou, Xiangtai Li, Deng-Ping Fan, Xuequan Lu, Lizhuang Ma(参考訳) 本稿では,Segment Anything Model (SAM)における画像解像度変化の課題について述べる。 SAMはゼロショットの汎用性で知られており、様々な画像サイズを持つデータセットに直面すると性能劣化を示す。 以前のアプローチでは、イメージを一定のサイズにリサイズしたり、構造を変更したりする傾向があり、サムの豊富な事前知識の保存を妨げている。 さらに、このようなタスク固有のチューニングは、ダウンストリームタスクのデプロイに費用対効果があり許容できないモデルを完全に再トレーニングする必要があります。 本稿では,この問題を,異なるサイズの画像に対する一貫したパッチサイズを維持しつつ,トークン列の長さが変化する長さ補間問題として再検討する。 そこで本研究では,多様な画像解像度に対するSAMの適応性を向上し,構造修正の必要をなくすために,スケーラブルバイアス修正注意マスク(BA-SAM)を提案する。 まず,トークン列の長さが変化すると,注目層のドット積値が一貫した大きさとなるような新しいスケーリング係数を導入する。 第2に,未学習の遠方情報の影響を緩和し,各トークンが隣り合う情報を優先できるバイアスモードの注目マスクを提案する。 我々のBA-SAMはゼロショットと微調整の2つのシナリオで有効性を示す。 DIS5K、DUTS、ISIC、COD10K、COCOを含む多様なデータセットに対する広範な評価は、ゼロショット設定のパフォーマンス劣化を著しく軽減し、最小限の微調整で最先端のパフォーマンスを達成する能力を明らかにしている。 さらに,BA-SAMの一般化可能性を4つのデータセットで同時に示す一般化モデルとベンチマークを提案する。

In this paper, we address the challenge of image resolution variation for the Segment Anything Model (SAM). SAM, known for its zero-shot generalizability, exhibits a performance degradation when faced with datasets with varying image sizes. Previous approaches tend to resize the image to a fixed size or adopt structure modifications, hindering the preservation of SAM's rich prior knowledge. Besides, such task-specific tuning necessitates a complete retraining of the model, which is cost-expensive and unacceptable for deployment in the downstream tasks. In this paper, we reformulate this issue as a length extrapolation problem, where token sequence length varies while maintaining a consistent patch size for images of different sizes. To this end, we propose Scalable Bias-Mode Attention Mask (BA-SAM) to enhance SAM's adaptability to varying image resolutions while eliminating the need for structure modifications. Firstly, we introduce a new scaling factor to ensure consistent magnitude in the attention layer's dot product values when the token sequence length changes. Secondly, we present a bias-mode attention mask that allows each token to prioritize neighboring information, mitigating the impact of untrained distant information. Our BA-SAM demonstrates efficacy in two scenarios: zero-shot and fine-tuning. Extensive evaluation on diverse datasets, including DIS5K, DUTS, ISIC, COD10K, and COCO, reveals its ability to significantly mitigate performance degradation in the zero-shot setting and achieve state-of-the-art performance with minimal fine-tuning. Furthermore, we propose a generalized model and benchmark, showcasing BA-SAM's generalizability across all four datasets simultaneously.
翻訳日:2024-01-09 11:29:07 公開日:2024-01-08
# カイラルキャビティ-マグノンカップリングを利用したキャビティマグノメカニクスにおける非相互絡み合い

Nonreciprocal entanglement in cavity magnomechanics exploiting chiral cavity-magnon coupling ( http://arxiv.org/abs/2401.02280v2 )

ライセンス: Link先を確認
Zhi-Yuan Fan, Xuan Zuo, Hao-Tian Li, Jie Li(参考訳) キラルキャビティ-マグノンカップリングを利用したキャビティマグノメカニカルシステムにおいて,非相反的な量子絡み合いを実現する方法を示す。 システムはマグノンモード、機械振動モード、トーラス型キャビティ内の2つの縮退反伝搬マイクロ波キャビティモードで構成される。 キラルカップリングを有する異なる循環キャビティモードをそれぞれ駆動することにより,非逆定常マイクロ波-マグノンおよび-フォノン二分極およびフォトン-フォノン-フォノン三分極の絡み合いが達成できることを示す。 非相互の絡み合いは様々な実験的な欠陥に対して堅牢である。 この研究は、非相互電気力学量子テレポーテーションやカイラル磁気量子ネットワークにおけるキャビティ・マグノメカニクスシステムの有望な応用を見出すことができる。

We show how to achieve nonreciprocal quantum entanglement in a cavity magnomechanical system by exploiting the chiral cavity-magnon coupling. The system consists of a magnon mode, a mechanical vibration mode, and two degenerate counter-propagating microwave cavity modes in a torus-shaped cavity. We show that nonreciprocal stationary microwave-magnon and -phonon bipartite entanglements and photon-magnon-phonon tripartite entanglement can be achieved by respectively driving different circulating cavity modes that hold a chiral coupling to the magnon mode. The nonreciprocal entanglements are shown to be robust against various experimental imperfections. The work may find promising applications of the cavity magnomechanical systems in nonreciprocal electromechanical quantum teleportation and chiral magnonic quantum networks.
翻訳日:2024-01-09 11:28:37 公開日:2024-01-08
# グラフニューラルネットワークのためのビューベース説明

View-based Explanations for Graph Neural Networks ( http://arxiv.org/abs/2401.02086v2 )

ライセンス: Link先を確認
Tingyang Chen, Dazhuo Qiu, Yinghui Wu, Arijit Khan, Xiangyu Ke, Yunjun Gao(参考訳) グラフニューラルネットワーク(GNN)について,グラフ分類などの解析的タスクにおいて,その振る舞いを理解するために説明を生成する。 既存のアプローチは、特定のクラスラベルの説明を提供するのではなく、GNNの全体的な結果を理解することを目的としており、アクセスしにくく、直接クエリしにくい説明構造を返す可能性がある。 1)説明ビューと呼ばれる二層説明構造を設計する。 説明ビューは、グラフパターンのセットと、誘導された説明サブグラフのセットで構成される。 複数のグラフからなるデータベースGと、GNN ベースの分類器 M によって割り当てられた特定のクラスラベル l が与えられた場合、G の分節を簡潔に記述し、なぜ l が M によって割り当てられるのかを最もよく説明する。 問題は$\Sigma^2_P$-hardである。 3) 2つのアルゴリズムを提示する。 ひとつは説明と要約の戦略で、まずはgnnを機能影響の最大化の観点から説明し、次にパターンを生成するための要約ステップを実行する高品質な説明サブグラフを生成する。 この戦略は近似比が1/2であることを示す。 第2のアルゴリズムは、バッチで入力ノードストリームへのシングルパスを実行し、説明ビューをインクリメンタルに維持し、1/4近似の時間品質を保証する。 実世界のベンチマークデータを用いて,GVEXの有効性,効率,スケーラビリティを実験的に検証した。 ケーススタディを通じて,GVEXの実用化について紹介する。

Generating explanations for graph neural networks (GNNs) has been studied to understand their behavior in analytical tasks such as graph classification. Existing approaches aim to understand the overall results of GNNs rather than providing explanations for specific class labels of interest, and may return explanation structures that are hard to access, nor directly queryable.We propose GVEX, a novel paradigm that generates Graph Views for EXplanation. (1) We design a two-tier explanation structure called explanation views. An explanation view consists of a set of graph patterns and a set of induced explanation subgraphs. Given a database G of multiple graphs and a specific class label l assigned by a GNN-based classifier M, it concisely describes the fraction of G that best explains why l is assigned by M. (2) We propose quality measures and formulate an optimization problem to compute optimal explanation views for GNN explanation. We show that the problem is $\Sigma^2_P$-hard. (3) We present two algorithms. The first one follows an explain-and-summarize strategy that first generates high-quality explanation subgraphs which best explain GNNs in terms of feature influence maximization, and then performs a summarization step to generate patterns. We show that this strategy provides an approximation ratio of 1/2. Our second algorithm performs a single-pass to an input node stream in batches to incrementally maintain explanation views, having an anytime quality guarantee of 1/4 approximation. Using real-world benchmark data, we experimentally demonstrate the effectiveness, efficiency, and scalability of GVEX. Through case studies, we showcase the practical applications of GVEX.
翻訳日:2024-01-09 11:27:20 公開日:2024-01-08
# ハミルトニアンはテンソル積構造と3次元空間を決定するか?

Does the Hamiltonian determine the tensor product structure and the 3d space? ( http://arxiv.org/abs/2401.01793v3 )

ライセンス: Link先を確認
Ovidiu Cristinel Stoica(参考訳) ヒルベルト空間のテンソル積構造は、ある条件を満たす多くの有限次元の場合においてハミルトンのスペクトルによって一意に決定される。 任意の方法が無限に多くのテンソル積構造をもたらすことを示す。 解の空間の次元は qudit の数で指数関数的に増加する。 さらに、結果が一意であっても、そのようなハミルトニアンは部分系を絡めない。 これらの結果は、ハミルトニアンから3次元空間を復元する提案に影響を与える。

It was proposed that the tensor product structure of the Hilbert space is uniquely determined by the Hamiltonian's spectrum, for most finite-dimensional cases satisfying certain conditions. I show that any such method would lead to infinitely many tensor product structures. The dimension of the space of solutions grows exponentially with the number of qudits. In addition, even if the result were unique, such a Hamiltonian would not entangle subsystems. These results affect the proposals to recover the 3d space from the Hamiltonian.
翻訳日:2024-01-09 11:26:42 公開日:2024-01-08
# Deformable-DETR と Multi-Level Feature Fusion を用いた正確な白血球検出による血液疾患の診断支援

Accurate Leukocyte Detection Based on Deformable-DETR and Multi-Level Feature Fusion for Aiding Diagnosis of Blood Diseases ( http://arxiv.org/abs/2401.00926v3 )

ライセンス: Link先を確認
Yifei Chen, Chenyan Zhang, Ben Chen, Yiyu Huang, Yifei Sun, Changmiao Wang, Xianjun Fu, Yuxing Dai, Feiwei Qin, Yong Peng, Yu Gao(参考訳) 通常の病院血液検査では、医師は顕微鏡で患者の血液の顕微鏡画像から白血球を手動で分離する必要がある。 これらの単離白血球は、自動白血球分類器を介して分類され、血液サンプルに存在する異なる種類の白血球の割合と体積を判定し、疾患の診断を支援する。 この手法は時間と労力を消費するだけでなく、画像の品質や環境条件などの要因によるエラーの確率が高く、その後の分類や誤診断につながる可能性がある。 これらの課題に対処するために, マルチレベル機能融合と変形性自己注意型DETR (MFDS-DETR) を提案する。 白血球スケールの格差問題に対処するため,高レベルスクリーニング機能融合ピラミッド (hs-fpn) を設計し,マルチレベル融合を可能にした。 このモデルは、チャネルアテンションモジュールを介して低レベル特徴情報をフィルタリングし、スクリーニングされた情報を高レベル特徴とマージすることにより、モデルの特徴表現能力を向上する。 さらに,多スケールの変形可能な自己着脱モジュールをエンコーダに組み込んで,自己着脱および相互着脱可能な注意機構をデコーダに組み込むことで白血球特徴量不足の問題に対処し,白血球特徴マップの全体的特徴の抽出を支援する。 提案手法の有効性, 優位性, 一般化性は, プライベートWBCDD, パブリックLISC, BCCDデータセットを用いた他の最先端白血球検出モデルとの比較により確認した。 ソースコードとプライベートなWBCCDデータセットはhttps://github.com/JustlfC03/MFDS-DETRで公開されています。

In standard hospital blood tests, the traditional process requires doctors to manually isolate leukocytes from microscopic images of patients' blood using microscopes. These isolated leukocytes are then categorized via automatic leukocyte classifiers to determine the proportion and volume of different types of leukocytes present in the blood samples, aiding disease diagnosis. This methodology is not only time-consuming and labor-intensive, but it also has a high propensity for errors due to factors such as image quality and environmental conditions, which could potentially lead to incorrect subsequent classifications and misdiagnosis. To address these issues, this paper proposes an innovative method of leukocyte detection: the Multi-level Feature Fusion and Deformable Self-attention DETR (MFDS-DETR). To tackle the issue of leukocyte scale disparity, we designed the High-level Screening-feature Fusion Pyramid (HS-FPN), enabling multi-level fusion. This model uses high-level features as weights to filter low-level feature information via a channel attention module and then merges the screened information with the high-level features, thus enhancing the model's feature expression capability. Further, we address the issue of leukocyte feature scarcity by incorporating a multi-scale deformable self-attention module in the encoder and using the self-attention and cross-deformable attention mechanisms in the decoder, which aids in the extraction of the global features of the leukocyte feature maps. The effectiveness, superiority, and generalizability of the proposed MFDS-DETR method are confirmed through comparisons with other cutting-edge leukocyte detection models using the private WBCDD, public LISC and BCCD datasets. Our source code and private WBCCD dataset are available at https://github.com/JustlfC03/MFDS-DETR.
翻訳日:2024-01-09 11:26:34 公開日:2024-01-08
# コンパタンスサンプリングによるリワード, 最大優先度最適化の選好

Preference as Reward, Maximum Preference Optimization with Importance Sampling ( http://arxiv.org/abs/2312.16430v4 )

ライセンス: Link先を確認
Zaifan Jiang, Xing Huang, Chao Wei(参考訳) 優先度学習は、言語モデルと人間の価値を合わせるための重要な技術である。 人的フィードバックからの強化学習(rlhf)は、まず選好スコアに対して報奨モデルに適合し、次に報奨を最大化するためにオンポリシーppoアルゴリズムで生成ポリシーを最適化する、選好学習を最適化するモデルベースアルゴリズムである。 RLHFの処理は複雑で、時間がかかり、不安定である。 オフラインアルゴリズムを用いた直接選好最適化(DPO)アルゴリズムにより、生成ポリシーを直接最適化し、データ効率が高く安定した報酬モデルの必要性を排除する。 DPOはBradley-Terryモデルとログロスを使用し、好みが決定論的である場合のKL正規化項を無視して、好みデータに過度に適合する。 IPOは、無視するKL正規化問題を解決するために、根絶するMSE損失を使用する。 本論では、優先性が決定論的である場合にIPOが問題を修正するが、DPOとIPOはいずれも基準分布と一致しないため、KL正規化項に失敗する。 次に,最大選好最適化(mpo)と呼ぶ重要サンプリング視点から,単純で直感的なオフポリシー選好最適化アルゴリズムを設計し,kl正規化を真に効果的にするオフポリシーkl正規化項を追加する。 MPOの目的は、RLHFの目的に似ており、IPOと同様に、MPOは非政治である。 したがって、MPOは両方の世界のベストを達成できる。 学習プロセスを簡素化し、メモリ使用量を節約するために、MPOは報酬モデルと参照ポリシーの両方の必要性を排除する。

Preference learning is a key technology for aligning language models with human values. Reinforcement Learning from Human Feedback (RLHF) is a model based algorithm to optimize preference learning, which first fitting a reward model for preference score, and then optimizing generating policy with on-policy PPO algorithm to maximize the reward. The processing of RLHF is complex, time-consuming and unstable. Direct Preference Optimization (DPO) algorithm using off-policy algorithm to direct optimize generating policy and eliminating the need for reward model, which is data efficient and stable. DPO use Bradley-Terry model and log-loss which leads to over-fitting to the preference data at the expense of ignoring KL-regularization term when preference is deterministic. IPO uses a root-finding MSE loss to solve the ignoring KL-regularization problem. In this paper, we'll figure out, although IPO fix the problem when preference is deterministic, but both DPO and IPO fails the KL-regularization term because the support of preference distribution not equal to reference distribution. Then, we design a simple and intuitive off-policy preference optimization algorithm from an importance sampling view, which we call Maximum Preference Optimization (MPO), and add off-policy KL-regularization terms which makes KL-regularization truly effective. The objective of MPO bears resemblance to RLHF's objective, and likes IPO, MPO is off-policy. So, MPO attains the best of both worlds. To simplify the learning process and save memory usage, MPO eliminates the needs for both reward model and reference policy.
翻訳日:2024-01-09 11:26:04 公開日:2024-01-08