このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230702となっている論文です。

PDF登録状況(公開日: 20230702)

TitleAuthorsAbstract論文公表日・翻訳日
# コードレビューにおける情報拡散の上限

The Upper Bound of Information Diffusion in Code Review ( http://arxiv.org/abs/2306.08980v2 )

ライセンス: Link先を確認
Michael Dorner and Daniel Mendez and Krzysztof Wnuk and Ehsan Zabardast and Jacek Czerwonka(参考訳) 背景: 人間間のコード変更に関する議論であるコードレビューは、参加者が情報を交換し、広めるためのコミュニケーションネットワークを形成する。 定性的な研究によって報告されているが、コードレビューのコミュニケーションネットワークとしての能力に対する理解はまだ限られている。 目的:本稿では,コードレビューにおける情報拡散の上限の上限である,コードレビューの速度と範囲を定量化することにより,通信ネットワークとしてのコードレビューの能力を評価するための第一歩を報告する。 方法:本実験では,大規模(Microsoft),中規模(Spotify),小型コードレビューシステム(Trivago)を通信ネットワークとしてモデル化し,人工的な情報拡散をシミュレーションする。 次に,参加者間の最小限のトポロジカル距離と時間的距離を測定して,コードレビューにおける情報の拡散速度を定量化します。 結果: 中小規模のコードレビューシステムにおける平均的なコードレビュー参加者は,ネットワークサイズやツーリングとは独立して4週間以内に,すべてのコードレビュー参加者の72%から85%に情報を広めることができる。 平均(中間)では、コードレビューの参加者2人の間で5ホップ未満、5日以内で情報を拡散することができる。 結論: コードレビューから生まれたコミュニケーションネットワークが十分にスケールし,情報を迅速かつ広範囲に拡散する証拠を見出した。 この研究は、コードレビューをコミュニケーションネットワークとして理解し、改善するための基礎を築いた。

Background: Code review, the discussion around a code change among humans, forms a communication network that enables its participants to exchange and spread information. Although reported by qualitative studies, our understanding of the capability of code review as a communication network is still limited. Objective: In this article, we report on a first step towards evaluating the capability of code review as a communication network by quantifying how fast and how far information can spread through code review: the upper bound of information diffusion in code review. Method: In an in-silico experiment, we simulate an artificial information diffusion within large (Microsoft), mid-sized (Spotify), and small code review systems (Trivago) modelled as communication networks. We then measure the minimal topological and temporal distances between the participants to quantify how far and how fast information can spread in code review. Results: An average code review participants in the small and mid-sized code review systems can spread information to between 72% and 85% of all code review participants within four weeks independently of network size and tooling; for the large code review systems, we found an absolute boundary of about 11000 reachable participants. On average (median), information can spread between two participants in code review in less than five hops and less than five days. Conclusion: We found evidence that the communication network emerging from code review scales well and spreads information fast and broadly, corroborating the findings of prior qualitative work. The study lays the foundation for understanding and improving code review as a communication network.
翻訳日:2023-10-23 19:36:06 公開日:2023-07-02
# LLM4CBI: コンパイラバグ分離のための効率的なテストプログラムを生成するためのLLMのモデリング

LLM4CBI: Taming LLMs to Generate Effective Test Programs for Compiler Bug Isolation ( http://arxiv.org/abs/2307.00593v1 )

ライセンス: Link先を確認
Haoxin Tu, Zhide Zhou, He Jiang, Imam Nur Bani Yusuf, Yuxian Li, Lingxiao Jiang(参考訳) コンパイラのバグは、セーフティクリティカルなアプリケーションにとって重大な脅威となり、これらのバグを迅速かつ効果的に分離することは、コンパイラの品質の確保に不可欠である。 しかし、報告されたバグのデバッグ情報が限られているため、コンパイラのバグ分離タスクが複雑になる。 既存のコンパイラのバグ分離アプローチは、通常、問題をテストプログラムの突然変異問題に変換するが、効果のない突然変異戦略や高い人的労力要件によって制限される。 コード生成におけるChatGPTなどの事前学習された大規模言語モデル(LLM)の最近の進歩から着想を得て,LLM4CBIと呼ばれる新しいアプローチを提案し,コンパイラバグ分離のための効率的なテストプログラムを生成する。 しかし、試験プログラムの突然変異にLSMを直接使用すると、正確なプロンプトの定式化や特別なプロンプトの選択に関連する課題のために、望ましい結果が得られない可能性がある。 この課題を克服するために、3つの新しいコンポーネントがllm4cbiで設計されている。 1) LLM4CBIは, プログラムの複雑化誘導型プロンプト生産成分を利用して, データと制御フロー解析を利用して, 突然変異のためのプログラムにおいて最も重要な変数や位置を同定する。 2) LLM4CBIは, テストプログラムを連続的に変更するための特別なプロンプトを選択するために, 強化学習を採用した記憶付きプロンプト選択成分を用いる。 3) 突然変異過程中に同じ間違いを繰り返すのを避けるために、特別なフィードバックプロンプトを選択するためのテストプログラム検証コンポーネントを提案する。 最先端のアプローチ(diwiとrecbi)と比較すると、llm4cbiの利点を実証する: 他のアプローチよりも、さまざまな設定で13.6%から90.9%のバグを分離する。 さらに,LLM4CBIは拡張可能であり,他のLLMと容易に統合できることを示す。

Compiler bugs pose a significant threat to safety-critical applications, and promptly and effectively isolating these bugs is crucial for assuring the quality of compilers. However, the limited availability of debugging information on reported bugs complicates the compiler bug isolation task. Existing compiler bug isolation approaches typically convert the problem into a test program mutation problem, but they are still limited by ineffective mutation strategies or high human effort requirements. Drawing inspiration from the recent progress of pre-trained Large Language Models (LLMs), such as ChatGPT, in code generation, we propose a new approach named LLM4CBI to tame LLMs to generate effective test programs for compiler bug isolation. However, using LLMs directly for test program mutation may not yield the desired results due to the challenges associated with formulating precise prompts and selecting specialized prompts. To overcome the challenges, three new components are designed in LLM4CBI. (1) LLM4CBI utilizes a program complexity-guided prompt production component, which leverages data and control flow analysis to identify the most valuable variables and locations in programs for mutation. (2) LLM4CBI employs a memorized prompt selection component, which adopts reinforcement learning to select specialized prompts for mutating test programs continuously. (3) A test program validation component is proposed to select specialized feedback prompts to avoid repeating the same mistakes during the mutation process. Compared with the state-of-the-art approaches (DiWi and RecBi), our evaluation demonstrates the advantages of LLM4CBI: It isolates more bugs, ranging from 13.6% to 90.9% in various settings, than the other approaches. Additionally, we demonstrate that LLM4CBI is extensible, allowing for easy integration with other LLMs.
翻訳日:2023-10-23 18:36:14 公開日:2023-07-02
# ChatGPT vs SBST: 単体テストスイート生成の比較評価

ChatGPT vs SBST: A Comparative Assessment of Unit Test Suite Generation ( http://arxiv.org/abs/2307.00588v1 )

ライセンス: Link先を確認
Yutian Tang, Zhijie Liu, Zhichao Zhou, and Xiapu Luo(参考訳) 大規模言語モデル(llm)の最近の進歩は、質問応答や後続の指示など、幅広い一般的なドメインタスクにおいて例外的な成功を収めている。 さらに、LLMは様々なソフトウェア工学の応用の可能性を示している。 本研究では,ChatGPT LLM と最先端 SBST ツール EvoSuite によるテストスイートの系統比較を行った。 私たちの比較は、正確性、可読性、コードカバレッジ、バグ検出機能など、いくつかの重要な要素に基づいています。 ユニットテストケースを生成する際のllm(特にchatgpt)の長所と短所をevosuiteと比較することで、本研究はソフトウエアエンジニアリング問題を解決する上でllmのパフォーマンスに関する貴重な洞察を提供する。 全体として、ソフトウェア工学におけるLLMの可能性を強調し、この分野におけるさらなる研究の道を開いた。

Recent advancements in large language models (LLMs) have demonstrated exceptional success in a wide range of general domain tasks, such as question answering and following instructions. Moreover, LLMs have shown potential in various software engineering applications. In this study, we present a systematic comparison of test suites generated by the ChatGPT LLM and the state-of-the-art SBST tool EvoSuite. Our comparison is based on several critical factors, including correctness, readability, code coverage, and bug detection capability. By highlighting the strengths and weaknesses of LLMs (specifically ChatGPT) in generating unit test cases compared to EvoSuite, this work provides valuable insights into the performance of LLMs in solving software engineering problems. Overall, our findings underscore the potential of LLMs in software engineering and pave the way for further research in this area.
翻訳日:2023-10-23 18:35:43 公開日:2023-07-02
# SATによる暗号回路の形式的フォールト抵抗検証

SAT-based Formal Fault-Resistance Verification of Cryptographic Circuits ( http://arxiv.org/abs/2307.00561v1 )

ライセンス: Link先を確認
Huiyu Tan and Pengfei Gao and Taolue Chen and Fu Song and Zhilin Wu(参考訳) フォールトインジェクション攻撃は、暗号回路に対するアクティブで物理的攻撃の一種である。 このような攻撃を阻止するための様々な対策が提案されているが、その設計と実装は複雑で、エラーの危険性があり、厳しい。 現在の正式な耐障害性検証アプローチは、効率とスケーラビリティに制限がある。 本稿では,NP完全であることを示す耐故障性検証問題を定式化する。 そこで我々は,既設のSATソルバを活用できるように,耐故障性検証問題をBoolean satisfiability (SAT)問題として符号化する新しい手法を考案した。 この手法は、リアルな暗号回路ベンチマークで広く評価されているオープンソースツールFIRMERで実装されている。 実験の結果、FIRMERは3分でほぼ全ての(46/48)ベンチマークの耐故障性を検証することができる(他の2つは35分で検証される)。 対照的に、先行するアプローチは、24時間後(タスク毎)に23の耐障害性検証タスクで失敗する。

Fault injection attacks represent a type of active, physical attack against cryptographic circuits. Various countermeasures have been proposed to thwart such attacks, the design and implementation of which are, however, intricate, error-prone, and laborious. The current formal fault-resistance verification approaches are limited in efficiency and scalability. In this paper, we formalize the fault-resistance verification problem which is shown to be NP-complete. We then devise a novel approach for encoding the fault-resistance verification problem as the Boolean satisfiability (SAT) problem so that off-the-shelf SAT solvers can be utilized. The approach is implemented in an open-source tool FIRMER which is evaluated extensively on realistic cryptographic circuit benchmarks. The experimental results show that FIRMER is able to verify fault-resistance of almost all (46/48) benchmarks in 3 minutes (the other two are verified in 35 minutes). In contrast, the prior approach fails on 23 fault-resistance verification tasks even after 24 hours (per task).
翻訳日:2023-10-23 18:35:26 公開日:2023-07-02
# FedDefender:フェデレートラーニングにおけるバックドア攻撃防御

FedDefender: Backdoor Attack Defense in Federated Learning ( http://arxiv.org/abs/2307.08672v1 )

ライセンス: Link先を確認
Waris Gill (1), Ali Anwar (2), Muhammad Ali Gulzar (1) ((1) Virginia Tech, (2) University of Minnesota Twin Cities)(参考訳) Federated Learning(FL)は、個々のクライアント(ユーザ参加者、エッジデバイス、組織など)が、セキュアな環境でローカルデータ上でモデルをトレーニングし、トレーニングされたモデルをアグリゲータと共有し、グローバルモデルを協調的に構築することを可能にする、プライバシー保護の分散機械学習技術である。 本研究では,feddefenderを提案する。feddefenderは,flにおける標的中毒攻撃に対する防御メカニズムである。 提案手法は,同一入力におけるクライアントモデルのニューロン活性化を識別し,バックドアを含む潜在的に悪意のあるクライアントを特定する。 我々は, mnist と fashionmnist のデータセットを用いて 20 と 30 のクライアントを用いてfeeddefender を評価し, feddefender による攻撃を効果的に軽減し, グローバルモデルの性能を損なうことなく攻撃成功率 (asr) を 10 % に低下させることを示した。

Federated Learning (FL) is a privacy-preserving distributed machine learning technique that enables individual clients (e.g., user participants, edge devices, or organizations) to train a model on their local data in a secure environment and then share the trained model with an aggregator to build a global model collaboratively. In this work, we propose FedDefender, a defense mechanism against targeted poisoning attacks in FL by leveraging differential testing. Our proposed method fingerprints the neuron activations of clients' models on the same input and uses differential testing to identify a potentially malicious client containing a backdoor. We evaluate FedDefender using MNIST and FashionMNIST datasets with 20 and 30 clients, and our results demonstrate that FedDefender effectively mitigates such attacks, reducing the attack success rate (ASR) to 10\% without deteriorating the global model performance.
翻訳日:2023-07-23 12:17:16 公開日:2023-07-02
# Realistic Thick-Slice CT シミュレーションによる超解像ネットワークの強化

Enhancing Super-Resolution Networks through Realistic Thick-Slice CT Simulation ( http://arxiv.org/abs/2307.10182v1 )

ライセンス: Link先を確認
Zeyu Tang, Xiaodan Xing and Guang Yang(参考訳) 本研究は,AAPM-Mayoの2016 Low Dose CT Grand Challengeデータセットにおいて,実際の画像によく似た濃厚なCT画像を生成するための革新的なシミュレーションアルゴリズムを開発し,評価することを目的とする。 提案手法はピーク信号対雑音比 (psnr) と根平均二乗誤差 (rmse) の指標を用いて評価し, シミュレーションにより実際の画像とより一致した画像を生成すると仮定した。 提案手法は,PSNR法とRMSE法の両方で他のシミュレーション法よりも大幅に向上した。 提案手法により最も高いpsnr値が得られ、それぞれ49.7369 $\pm$ 2.5223 と 48.5801 $\pm$ 7.3271 が得られた。 提案手法は,D45およびB30に対してそれぞれ0.0068$\pm$ 0.0020,0.0108$\pm$ 0.0099の値で最低のRMSEを登録し,より密集した分布を示す。 TCIA LDCT- and-Projection-dataデータセットを用いてシミュレーションアルゴリズムのさらなる検証を行った。 生成された画像は4つの異なる超解像モデル(SR)を訓練するために利用され、その後2016年の低線CTグランドチャレンジデータセットの実際の厚画像を用いて評価された。 新たなアルゴリズムによって生成されたデータを用いてトレーニングすると,4つのsrモデルで性能が向上した。

This study aims to develop and evaluate an innovative simulation algorithm for generating thick-slice CT images that closely resemble actual images in the AAPM-Mayo's 2016 Low Dose CT Grand Challenge dataset. The proposed method was evaluated using Peak Signal-to-Noise Ratio (PSNR) and Root Mean Square Error (RMSE) metrics, with the hypothesis that our simulation would produce images more congruent with their real counterparts. Our proposed method demonstrated substantial enhancements in terms of both PSNR and RMSE over other simulation methods. The highest PSNR values were obtained with the proposed method, yielding 49.7369 $\pm$ 2.5223 and 48.5801 $\pm$ 7.3271 for D45 and B30 reconstruction kernels, respectively. The proposed method also registered the lowest RMSE with values of 0.0068 $\pm$ 0.0020 and 0.0108 $\pm$ 0.0099 for D45 and B30, respectively, indicating a distribution more closely aligned with the authentic thick-slice image. Further validation of the proposed simulation algorithm was conducted using the TCIA LDCT-and-Projection-data dataset. The generated images were then leveraged to train four distinct super-resolution (SR) models, which were subsequently evaluated using the real thick-slice images from the 2016 Low Dose CT Grand Challenge dataset. When trained with data produced by our novel algorithm, all four SR models exhibited enhanced performance.
翻訳日:2023-07-23 11:36:15 公開日:2023-07-02
# 3D-IDS:ダブルアンタングル動的侵入検出

3D-IDS: Doubly Disentangled Dynamic Intrusion Detection ( http://arxiv.org/abs/2307.11079v1 )

ライセンス: Link先を確認
Chenyang Qiu, Yingsheng Geng, Junrui Lu, Kaida Chen, Shitong Zhu, Ya Su, Guoshun Nan, Can Zhang, Junsong Fu, Qimei Cui, Xiaofeng Tao(参考訳) ネットワークベースの侵入検知システム(nids)は、悪意のある活動に対するネットワークトラフィックを監視し、情報インフラに対する攻撃の増加に対する前線防御を形成する。 有望ではあるが,既存の手法では,未知の攻撃(例えば,SVMベースの2つの異なる脅威に対してそれぞれ9%と35%のF1)の宣言や,既知の既知の攻撃(例えば,バックドア用の31%F1と,GCNベースの最先端手法によるDDoS用の93%F1)の検出に一貫性がないことが示され,その根本原因がフロー特徴の絡み合った分布であることが明らかになった。 これは,2段階の特徴分散と動的グラフ拡散方式により,上記の課題に対処することを目的とした新しい手法である。 具体的には、まず、相互情報に基づく非パラメータ最適化によりトラフィック特徴を分離し、様々な攻撃の数十と数百の複雑な特徴を自動的に識別する。 このような差別化された機能は、メモリモデルに送られて表現を生成します。 最後に,進化するデータストリームの時空間アグリゲーションにネットワークトポロジを動的に融合するグラフ拡散法を提案する。 これにより、未知の脅威や容易に検出できない既知の攻撃を含む、暗号化されたトラフィックにおける様々な攻撃を効果的に識別できる。 実験は、我々の3D-IDSの優位性を示している。 また,2段階の機能障害がNIDSの説明可能性に有益であることを示す。

Network-based intrusion detection system (NIDS) monitors network traffic for malicious activities, forming the frontline defense against increasing attacks over information infrastructures. Although promising, our quantitative analysis shows that existing methods perform inconsistently in declaring various unknown attacks (e.g., 9% and 35% F1 respectively for two distinct unknown threats for an SVM-based method) or detecting diverse known attacks (e.g., 31% F1 for the Backdoor and 93% F1 for DDoS by a GCN-based state-of-the-art method), and reveals that the underlying cause is entangled distributions of flow features. This motivates us to propose 3D-IDS, a novel method that aims to tackle the above issues through two-step feature disentanglements and a dynamic graph diffusion scheme. Specifically, we first disentangle traffic features by a non-parameterized optimization based on mutual information, automatically differentiating tens and hundreds of complex features of various attacks. Such differentiated features will be fed into a memory model to generate representations, which are further disentangled to highlight the attack-specific features. Finally, we use a novel graph diffusion method that dynamically fuses the network topology for spatial-temporal aggregation in evolving data streams. By doing so, we can effectively identify various attacks in encrypted traffics, including unknown threats and known ones that are not easily detected. Experiments show the superiority of our 3D-IDS. We also demonstrate that our two-step feature disentanglements benefit the explainability of NIDS.
翻訳日:2023-07-23 11:10:36 公開日:2023-07-02
# Cryptoart: NFT革命の倫理的挑戦

Cryptoart: Ethical Challenges of the NFT Revolution ( http://arxiv.org/abs/2307.03194v1 )

ライセンス: Link先を確認
Patrici Calvo(参考訳) アート世界のデジタルトランスフォーメーションは、セクターにとって革命となった。 非偽造トークン(NFT)をベースとしたCryptoartは、デジタル市場におけるアートとして販売できるあらゆる要素をトークン化する能力によって、アーティスト、コレクター、愛好家の注目を集めている。 つまり、デジタルアートの市場価値をカプセル化することで、希少な資源と経済資産となり得るということだ。 この研究は、NFT革命として知られる倫理的側面、特に文化遺産の濫用や破壊、投機、経済バブルの発生、環境不持続性に関連する影響を掘り下げるものである。

The digital transformation of the art world has become a revolution for the sector. Cryptoart, based on non-fungible tokens (NFT), is attracting the attention of artists, collectors and enthusiasts for its ability to tokenise any element that can be sold as art in the digital market. That means it is able to become a scarce resource and an economic asset by encapsulating the market value of a piece of digital art, which may or may not have a reference in the real world. This study will delve into the ethical aspects underlying what is known as the NFT Revolution, particularly impacts related to the abuse or destruction of cultural heritage, speculation and the generation of economic bubbles and environmental unsustainability.
翻訳日:2023-07-16 04:13:15 公開日:2023-07-02
# 未来を守る : 空間時間モデルを用いた新生児静置検出

Protecting the Future: Neonatal Seizure Detection with Spatial-Temporal Modeling ( http://arxiv.org/abs/2307.05382v1 )

ライセンス: Link先を確認
Ziyue Li, Yuchen Fang, You Li, Kan Ren, Yansen Wang, Xufang Luo, Juanyong Duan, Congrui Huang, Dongsheng Li, Lili Qiu(参考訳) 新生児脳波(EEG)を呈する新生児の発作のタイムリーな検出は、新生児集中治療室(NICU)で一般的に行われている。 しかし、新生児発作検出の自動化ソリューションを求めるリアルタイムモニタリングには、優れた人間の努力が必要である。 さらに,成人てんかんモニタリングに焦点を絞る現在の自動化手法は,しばしば失敗する。 i)ヒト脳における動的発作発生位置 (ii)新生児及び新生児の異なるモンタージュ (iii)異なる被験者間での大きな分布変化。 本稿では,時間的,空間的,モデルレベルでの厳密な設計による排他的課題に対処する,深層学習フレームワークSTATENetを提案する。 実世界の大規模新生児脳波データセットに対する実験により,我々のフレームワークは発作検出性能を著しく向上することが示された。

A timely detection of seizures for newborn infants with electroencephalogram (EEG) has been a common yet life-saving practice in the Neonatal Intensive Care Unit (NICU). However, it requires great human efforts for real-time monitoring, which calls for automated solutions to neonatal seizure detection. Moreover, the current automated methods focusing on adult epilepsy monitoring often fail due to (i) dynamic seizure onset location in human brains; (ii) different montages on neonates and (iii) huge distribution shift among different subjects. In this paper, we propose a deep learning framework, namely STATENet, to address the exclusive challenges with exquisite designs at the temporal, spatial and model levels. The experiments over the real-world large-scale neonatal EEG dataset illustrate that our framework achieves significantly better seizure detection performance.
翻訳日:2023-07-16 03:43:20 公開日:2023-07-02
# GPT-3.5における時間的選好の言語横断的分析

A Cross-Linguistic Analysis of Intertemporal Preferences in GPT-3.5 ( http://arxiv.org/abs/2305.02531v4 )

ライセンス: Link先を確認
Ali Goli, Amandeep Singh(参考訳) 言語は時間と報酬に対する認識に強い影響を与えます。 これは、大きな言語モデルが、異なる言語で同じ質問をするときに、時間とともに報酬に対する異なる好みを示し、その選択が人間のものと似ているかどうかという疑問を提起する。 本研究では,複数の言語におけるプロンプトに対するgpt-3.5(以下gptと呼ぶ)の反応を分析し,より小さく,より早い報酬とより大きな後続報酬の選好について検討した。 以上の結果から, GPTはドイツ語やマンダリンなどの言語において, 英語やフランス語のような強いFTRを持つ言語と比較して, FTRが弱い言語において, より忍耐力を示すことが示された。 これらの知見は既存の文献と一致しており、GPTの選択と話者の好みの相関関係が示唆されている。 しかし、さらなる分析により、早期または後期の報酬の選好は、報酬ギャップによって体系的に変化せず、早期の支払いに対する語彙選好を示すことが明らかとなった。 GPTは言語間の興味深いバリエーションを捉えることができるが、これらのモデルによる選択は人間の意思決定者とは一致しない。

Language has a strong influence on our perceptions of time and rewards. This raises the question of whether large language models, when asked the same question in different languages, show different preferences for rewards over time and if their choices are similar to those of humans. In this study, we analyze the responses of GPT-3.5 (hereafter referred to as GPT) to prompts in multiple languages, exploring preferences between smaller, sooner rewards and larger, later rewards. Our results show that GPT displays greater patience when prompted in languages with weak future tense references (FTR), such as German and Mandarin, compared to languages with strong FTR, like English and French. These findings are consistent with the existing literature and suggest a correlation between GPT's choices and the preferences of speakers of these languages. However, further analysis reveals that the preference for earlier or later rewards does not systematically change with reward gaps, indicating a lexicographic preference for earlier payments. While GPT may capture intriguing variations across languages, our findings indicate that the choices made by these models do not correspond to those of human decision-makers.
翻訳日:2023-07-06 22:16:58 公開日:2023-07-02
# 画像の複雑さを計測する最小記述長クラスタリング

Minimum Description Length Clustering to Measure Meaningful Image Complexity ( http://arxiv.org/abs/2306.14937v2 )

ライセンス: Link先を確認
Louis Mahon, Thomas Lukasiewicz(参考訳) 既存の画像複雑性指標は、有意義なコンテンツとノイズを区別できない。 これは、意味のある情報を含まないホワイトノイズ画像は、非常に複雑であると判断されることを意味する。 本稿では,パッチの階層的クラスタリングによる画像複雑性指標を提案する。 最小記述長の原理を用いて、クラスタ数を決定し、特定の点を外れ値として指定し、ホワイトノイズを低いスコアに正しく割り当てる。 提案手法は有意義な複雑性を測定するための理論的アイデアと類似性を有する。 我々は,7種類の異なる画像に対して実験を行い,最も正確なスコアを考慮されたすべての画像に割り当てることを示す。 さらに、クラスタ階層の異なるレベルを比較することで、ローカルディテールからグローバル構造まで、さまざまなスケールで複雑さがどのように現れるかが分かる。 次に,本手法の成分の寄与を示すアブレーション研究を行い,ガウス雑音の付加や分解能の低下など,入力が特定の方法で修正された場合でも妥当なスコアを付与し続けていることを示す。

Existing image complexity metrics cannot distinguish meaningful content from noise. This means that white noise images, which contain no meaningful information, are judged as highly complex. We present a new image complexity metric through hierarchical clustering of patches. We use the minimum description length principle to determine the number of clusters and designate certain points as outliers and, hence, correctly assign white noise a low score. The presented method has similarities to theoretical ideas for measuring meaningful complexity. We conduct experiments on seven different sets of images, which show that our method assigns the most accurate scores to all images considered. Additionally, comparing the different levels of the hierarchy of clusters can reveal how complexity manifests at different scales, from local detail to global structure. We then present ablation studies showing the contribution of the components of our method, and that it continues to assign reasonable scores when the inputs are modified in certain ways, including the addition of Gaussian noise and the lowering of the resolution.
翻訳日:2023-07-06 19:52:48 公開日:2023-07-02
# Recommenderシステムにおけるフィルタバブル - Fact or Fallacy -- システムレビュー

Filter Bubbles in Recommender Systems: Fact or Fallacy -- A Systematic Review ( http://arxiv.org/abs/2307.01221v1 )

ライセンス: Link先を確認
Qazi Mohammad Areeb, Mohammad Nadeem, Shahab Saquib Sohail, Raza Imam, Faiyaz Doctor, Yassine Himeur, Amir Hussain and Abbes Amira(参考訳) フィルターバブルとは、インターネットのカスタマイズによって様々な意見や素材から個人を効果的に隔離し、特定のコンテンツだけを露出させる現象を指す。 これは既存の態度、信念、あるいは状況の強化につながる可能性がある。 本研究では,レコメンダシステムにおけるフィルタ気泡の影響について検討する。 この先駆的な研究は、この問題の原因を明らかにし、潜在的な解決策を探求し、レコメンダシステムにおけるフィルタバブルを避けるための統合ツールを提案することを目的としている。 この目的を達成するために,レコメンダシステムにおけるフィルタバブルの話題に関する体系的文献レビューを行う。 レビューされた記事は慎重に分析され、分類され、統合アプローチの開発を知らせる貴重な洞察を提供する。 特に,レコメンデーションシステムにおけるフィルタバブルの証拠を明らかにし,その存在に寄与するバイアスを浮き彫りにした。 さらに,フィルタバブルの影響を緩和する機構を提案し,多様性をレコメンデーションに取り入れることで,この問題を緩和できる可能性を実証する。 このタイムリーなレビューの結果は、プライバシ、人工知能倫理、レコメンデーションシステムといった学際的な分野で働く研究者のベンチマークとして役立つだろう。 さらに、関係分野における今後の研究の新たな道を開き、この重要分野のさらなる探究と発展を促す。

A filter bubble refers to the phenomenon where Internet customization effectively isolates individuals from diverse opinions or materials, resulting in their exposure to only a select set of content. This can lead to the reinforcement of existing attitudes, beliefs, or conditions. In this study, our primary focus is to investigate the impact of filter bubbles in recommender systems. This pioneering research aims to uncover the reasons behind this problem, explore potential solutions, and propose an integrated tool to help users avoid filter bubbles in recommender systems. To achieve this objective, we conduct a systematic literature review on the topic of filter bubbles in recommender systems. The reviewed articles are carefully analyzed and classified, providing valuable insights that inform the development of an integrated approach. Notably, our review reveals evidence of filter bubbles in recommendation systems, highlighting several biases that contribute to their existence. Moreover, we propose mechanisms to mitigate the impact of filter bubbles and demonstrate that incorporating diversity into recommendations can potentially help alleviate this issue. The findings of this timely review will serve as a benchmark for researchers working in interdisciplinary fields such as privacy, artificial intelligence ethics, and recommendation systems. Furthermore, it will open new avenues for future research in related domains, prompting further exploration and advancement in this critical area.
翻訳日:2023-07-06 19:47:45 公開日:2023-07-02
# ARHNet: セグメント性能向上のための病変認識拡張のための適応型領域調和

ARHNet: Adaptive Region Harmonization for Lesion-aware Augmentation to Improve Segmentation Performance ( http://arxiv.org/abs/2307.01220v1 )

ライセンス: Link先を確認
Jiayu Huo, Yang Liu, Xi Ouyang, Alejandro Granados, Sebastien Ourselin, Rachel Sparks(参考訳) MRIスキャンにおける脳病変の正確なセグメンテーションは、予後と神経学的モニタリングを患者に提供するために重要である。 しかしながら、cnnに基づくセグメンテーション手法の性能は、限られたトレーニングセットサイズによって制限される。 高度なデータ拡張は、モデルの堅牢性を改善する効果的な戦略である。 しかし、しばしば前景と背景地域と境界アーティファクトの強度格差を導入し、そのような戦略の有効性を弱める。 本稿では,高強度差に対処し,合成画像をよりリアルに見せるための前景調和フレームワーク(ARHNet)を提案する。 特に,アダプティブ領域調和 (ARH) モジュールを提案する。 実画像と合成画像を用いたセグメンテーション性能の向上に本手法の有効性を実証する。 ATLAS 2.0データセットの実験結果は、ARHNetが画像調和タスクの他の手法よりも優れており、下流セグメンテーション性能が向上していることを示している。 私たちのコードはhttps://github.com/King-HAW/ARHNet.comで公開されています。

Accurately segmenting brain lesions in MRI scans is critical for providing patients with prognoses and neurological monitoring. However, the performance of CNN-based segmentation methods is constrained by the limited training set size. Advanced data augmentation is an effective strategy to improve the model's robustness. However, they often introduce intensity disparities between foreground and background areas and boundary artifacts, which weakens the effectiveness of such strategies. In this paper, we propose a foreground harmonization framework (ARHNet) to tackle intensity disparities and make synthetic images look more realistic. In particular, we propose an Adaptive Region Harmonization (ARH) module to dynamically align foreground feature maps to the background with an attention mechanism. We demonstrate the efficacy of our method in improving the segmentation performance using real and synthetic images. Experimental results on the ATLAS 2.0 dataset show that ARHNet outperforms other methods for image harmonization tasks, and boosts the down-stream segmentation performance. Our code is publicly available at https://github.com/King-HAW/ARHNet.
翻訳日:2023-07-06 19:47:23 公開日:2023-07-02
# 深部プロキシ因果学習とバンドポリシー評価への活用

Deep Proxy Causal Learning and its Application to Confounded Bandit Policy Evaluation ( http://arxiv.org/abs/2106.03907v3 )

ライセンス: Link先を確認
Liyuan Xu, Heishiro Kanagawa, Arthur Gretton(参考訳) プロキシ因果学習 (proxy causal learning, pcl) は、共同設立者のプロキシ(構造化側情報)を用いて、観察されていない共同研究の存在下での成果に対する治療の因果効果を推定する手法である。 第1段階では、治療とプロキシの関係をモデル化し、第2段階では、プロキシによって提供されるコンテキストを考慮して、治療が結果に与える影響を学習するためにこのモデルを使用します。 pclは同一性条件下で真の因果効果の回復を保証する。 深部ニューラルネットワークの特徴によって表現されるような,高次元かつ非線形な複雑な関係を持つプロキシ,治療,結果を扱うため,PCLの新しい手法であるDFPV(Deep Feature proxy variable method)を提案する。 DFPVは,高次元画像データを含む設定を含む,最新のPCL法よりも高い性能を示すことを示す。 さらに, DFPV が競合性能を示す包括的バンディット問題に対して, PCL を非政治的評価に適用できることが示唆された。

Proxy causal learning (PCL) is a method for estimating the causal effect of treatments on outcomes in the presence of unobserved confounding, using proxies (structured side information) for the confounder. This is achieved via two-stage regression: in the first stage, we model relations among the treatment and proxies; in the second stage, we use this model to learn the effect of treatment on the outcome, given the context provided by the proxies. PCL guarantees recovery of the true causal effect, subject to identifiability conditions. We propose a novel method for PCL, the deep feature proxy variable method (DFPV), to address the case where the proxies, treatments, and outcomes are high-dimensional and have nonlinear complex relationships, as represented by deep neural network features. We show that DFPV outperforms recent state-of-the-art PCL methods on challenging synthetic benchmarks, including settings involving high dimensional image data. Furthermore, we show that PCL can be applied to off-policy evaluation for the confounded bandit problem, in which DFPV also exhibits competitive performance.
翻訳日:2023-07-05 18:31:46 公開日:2023-07-02
# フロッケ系の非エルミート状態の境界における量子臨界性

Quantum criticality at the boundary of the non-Hermitian regime of a Floquet system ( http://arxiv.org/abs/2307.00462v1 )

ライセンス: Link先を確認
Wen-Lei Zhao and Jie Liu(参考訳) 量子共鳴条件下での非エルミート量子蹴りロータにおいて、時間外順序相関器(OTOC)を特徴とする量子スクランブルの力学を解析的および数値的に検討する。 時間関数としてのOTOCの解析式が得られ、非エルミートパラメータがゼロになるときに、線形成長から二次成長への突然の遷移を示す。 この臨界点において、線形成長の速度は無限大に分岐し、非エルミート状態の境界における量子臨界性の存在を示す。 この量子臨界性の根底にあるメカニズムが解明され、量子論における考えられる応用が議論される。

We investigate both analytically and numerically the dynamics of quantum scrambling, characterized by the out-of-time ordered correlators (OTOCs), in a non-Hermitian quantum kicked rotor subject to quantum resonance conditions. Analytical expressions for OTOCs as a function of time are obtained, demonstrating a sudden transition from the linear growth to quadratic growth when the non-Hermitian parameter decays to zero. At this critical point, the rates of the linear growth are found to diverge to infinity, indicating the existence of quantum criticality at the boundary of the non-Hermitian regime. The underlying mechanism of this quantum criticality is uncovered, and possible applications in quantum metrology are discussed.
翻訳日:2023-07-05 16:05:23 公開日:2023-07-02
# conformer llms --畳み込みによる大規模言語モデルの拡張

Conformer LLMs -- Convolution Augmented Large Language Models ( http://arxiv.org/abs/2307.00461v1 )

ライセンス: Link先を確認
Prateek Verma(参考訳) この研究は、大きな言語モデル(LLM)のための2つの一般的なニューラルネットワークブロック、すなわち畳み込み層とトランスフォーマーを構築する。 非コーサルコンフォーマは、自動音声認識においてユビキタスに使用される。 この作業は、これらのアーキテクチャをllmトレーニングのための因果設定に適応することを目的としている。 トランスフォーマーデコーダは、複数のモードにわたる長距離依存関係を効果的にキャプチャし、機械学習の現代的な進歩のコアバックボーンを形成する。 畳み込み型アーキテクチャは、生の1次元信号、音声、画像などのドメインの特徴を抽出することで人気があり、いくつかを挙げている。 本稿では,因果畳み込みフィルタとTransformerを用いた潜在表現に対する局所的および大域的依存関係を組み合わせることで,性能の大幅な向上を実現する。 本研究は,大規模言語モデリングのための音声アプリケーションを超えて,因果設定に統合・適応可能なロバストな音声アーキテクチャを示す。

This work builds together two popular blocks of neural architecture, namely convolutional layers and Transformers, for large language models (LLMs). Non-causal conformers are used ubiquitously in automatic speech recognition. This work aims to adapt these architectures in a causal setup for training LLMs. Transformers decoders effectively capture long-range dependencies over several modalities and form a core backbone of modern advancements in machine learning. Convolutional architectures have been popular in extracting features in domains such as raw 1-D signals, speech, and images, to name a few. In this paper, by combining local and global dependencies over latent representations using causal convolutional filters and Transformer, we achieve significant gains in performance. This work showcases a robust speech architecture that can be integrated and adapted in a causal setup beyond speech applications for large-scale language modeling.
翻訳日:2023-07-05 16:05:10 公開日:2023-07-02
# テキストを理解不能に - 効果的なパターンを活用した個人データ保護

Make Text Unlearnable: Exploiting Effective Patterns to Protect Personal Data ( http://arxiv.org/abs/2307.00456v1 )

ライセンス: Link先を確認
Xinzhe Li, Ming Liu, Shang Gao(参考訳) 本稿では、深層学習モデルにおける不正な公開データの使用による倫理的懸念に対処し、新しい解決策を提案する。 具体的には,Huang et al. (2021) の作業に基づいて,二段階最適化手法を拡張して,勾配に基づく探索手法を用いて学習不能テキストを生成する。 しかし、このアプローチは有効ではあるが、インスタンスのバッチの要求や、通常のユーザにはアクセスできない独自のデータへのアクセス制限を含む、実用的な制限に直面している。 さらに、セマンティクス保存の制約があっても、理解不能なノイズはテキストの意味を変化させることができる。 これらの課題に対処するために,二段階最適化によって生成した理解不能なテキストから単純なパターンを抽出し,未知のモデルではデータが理解不能であることを示す。 さらに、これらのパターンはインスタンス特化やデータセット特化ではなく、ユーザが公開コンテンツに実装するユーザのごく一部であっても、テキスト分類や質問応答タスクに簡単に適用することができる。 また、学習不可能なテキストを生成し、学習不能なノイズを評価し、公衆や将来の研究に役立てるために、オープンソースコードも作成します。

This paper addresses the ethical concerns arising from the use of unauthorized public data in deep learning models and proposes a novel solution. Specifically, building on the work of Huang et al. (2021), we extend their bi-level optimization approach to generate unlearnable text using a gradient-based search technique. However, although effective, this approach faces practical limitations, including the requirement of batches of instances and model architecture knowledge that is not readily accessible to ordinary users with limited access to their own data. Furthermore, even with semantic-preserving constraints, unlearnable noise can alter the text's semantics. To address these challenges, we extract simple patterns from unlearnable text produced by bi-level optimization and demonstrate that the data remains unlearnable for unknown models. Additionally, these patterns are not instance- or dataset-specific, allowing users to readily apply them to text classification and question-answering tasks, even if only a small proportion of users implement them on their public content. We also open-source codes to generate unlearnable text and assess unlearnable noise to benefit the public and future studies.
翻訳日:2023-07-05 16:04:54 公開日:2023-07-02
# 自己スーパービジョンを止めるな - 残差アダプタによる音声表現のアクセント適応

Don't Stop Self-Supervision: Accent Adaptation of Speech Representations via Residual Adapters ( http://arxiv.org/abs/2307.00453v1 )

ライセンス: Link先を確認
Anshu Bhatia, Sanchit Sinha, Saket Dingliwal, Karthik Gopalakrishnan, Sravan Bodapati, Katrin Kirchhoff(参考訳) 大規模未ラベル音声コーパスから自己教師型で学習した音声表現は、複数の下流タスクに適応した。 しかし、そのような表現は、そのようなコーパスの標準的データ特性に偏り、非典型的、非母語アクセントな話者集団ではうまく機能しない。 最先端のhubertモデルをベースラインとして,アクセント固有の残差アダプタの訓練を通じて,これらの集団に対する音声表現の自己教師あり適応をパラメータ効率良く提案し,検討する。 4つのアクセントを実験し,下流課題として自動音声認識(asr)を選択した。 全4アクセントに対してHuBERT-largeよりも強い単語誤り率(WERR)が減少し,アクセント特異的アダプターでは平均WERRが22.7%,全エンコーダがアクセント適応であれば平均WERRが25.1%となる。 実験では,HuBERT と ASR を下流タスクとして用いているが,提案手法はモデルとタスクに依存しない。

Speech representations learned in a self-supervised fashion from massive unlabeled speech corpora have been adapted successfully toward several downstream tasks. However, such representations may be skewed toward canonical data characteristics of such corpora and perform poorly on atypical, non-native accented speaker populations. With the state-of-the-art HuBERT model as a baseline, we propose and investigate self-supervised adaptation of speech representations to such populations in a parameter-efficient way via training accent-specific residual adapters. We experiment with 4 accents and choose automatic speech recognition (ASR) as the downstream task of interest. We obtain strong word error rate reductions (WERR) over HuBERT-large for all 4 accents, with a mean WERR of 22.7% with accent-specific adapters and a mean WERR of 25.1% if the entire encoder is accent-adapted. While our experiments utilize HuBERT and ASR as the downstream task, our proposed approach is both model and task-agnostic.
翻訳日:2023-07-05 16:04:34 公開日:2023-07-02
# 音声対話における感情認識のためのグローバルローカル認識付きデュアルストリーム再帰ネットワーク

A Dual-Stream Recurrence-Attention Network with Global-Local Awareness for Emotion Recognition in Textual Dialogue ( http://arxiv.org/abs/2307.00449v1 )

ライセンス: Link先を確認
Jiang Li, Xiaoping Wang, Zhigang Zeng(参考訳) 現実世界の対話システムでは,ユーザの感情を理解し,人為的に対話する能力が非常に重要である。 会話における感情認識(erc)は、この目標を達成するための重要な方法の1つであり、注目を集めている。 会話におけるコンテキストのモデル化は、ERCタスクにおける中心的な側面であり、大きな課題である。 既存のアプローチの多くは、グローバルとローカルの両方のコンテキスト情報を効率的に捉えることができず、ネットワーク構造は設計が複雑すぎる。 そこで本研究では,Recurrent Neural Network(RNN)とMulti-head Attention Network(MAT)をベースとしたDualRAN(DualRAN)を提案する。 提案モデルでは,現在の手法の複雑なネットワーク構造を推定し,注意に基づく手法と反復型手法の組み合わせに着目した。 DualRANは、主にローカルおよびグローバルなモジュールで構成され、異なる視点から会話をモデル化するデュアルストリーム構造である。 ローカル・アウェア・モジュールを実現するため、RNNの構造を拡張し、ネットワークの表現能力を高める。 さらに,DualRAN,SingleRANv1,SingleRANv2の2つのシングルストリームネットワークバリアントを開発した。 広範に使用されている4つのベンチマークデータセットについて広範な実験を行い、提案モデルがすべてのベースラインより優れていることを示した。 アブレーション研究はさらに各成分の有効性を示す。

In real-world dialogue systems, the ability to understand the user's emotions and interact anthropomorphically is of great significance. Emotion Recognition in Conversation (ERC) is one of the key ways to accomplish this goal and has attracted growing attention. How to model the context in a conversation is a central aspect and a major challenge of ERC tasks. Most existing approaches are generally unable to capture both global and local contextual information efficiently, and their network structures are too complex to design. For this reason, in this work, we propose a straightforward Dual-stream Recurrence-Attention Network (DualRAN) based on Recurrent Neural Network (RNN) and Multi-head ATtention network (MAT). The proposed model eschews the complex network structure of current methods and focuses on combining recurrence-based methods with attention-based methods. DualRAN is a dual-stream structure mainly consisting of local- and global-aware modules, modeling a conversation from distinct perspectives. To achieve the local-aware module, we extend the structure of RNN, thus enhancing the expressive capability of the network. In addition, we develop two single-stream network variants for DualRAN, i.e., SingleRANv1 and SingleRANv2. We conduct extensive experiments on four widely used benchmark datasets, and the results reveal that the proposed model outshines all baselines. Ablation studies further demonstrate the effectiveness of each component.
翻訳日:2023-07-05 16:04:14 公開日:2023-07-02
# クエリ効率の良い決定型ブラックボックスパッチアタック

Query-Efficient Decision-based Black-Box Patch Attack ( http://arxiv.org/abs/2307.00477v1 )

ライセンス: Link先を確認
Zhaoyu Chen, Bo Li, Shuang Wu, Shouhong Ding, Wenqiang Zhang(参考訳) ディープニューラルネットワーク(DNN)は、知覚不能な逆境摂動に対して非常に脆弱であることが示されている。 画像に知覚的な摂動をもたらすパッチ攻撃は、相補的な種類の敵として研究者の興味を惹きつけている。 既存のパッチ攻撃は、モデルのアーキテクチャや予測の確率に依存しており、決定ベースの設定では不十分である。 本研究ではまず,意思決定に基づくパッチ攻撃について検討する。 攻撃効率を向上させるために,ペアのキーポイントを用いてパッチをモデル化し,パッチの初期化としてターゲットイメージを使用し,パラメータ最適化を整数領域で行う。 次に,クエリ効率の高い決定ベースパッチ攻撃のための微分進化アルゴリズムであるdevopatchを提案する。 DevoPatchは、画像分類と顔認証に関する所定のクエリ予算内で、パッチ領域やアタック成功率の観点から、最先端のブラックボックスパッチ攻撃よりも優れています。 また,vitとmlpによる画像分類の脆弱性評価を,決定に基づくパッチアタック設定において初めて実施する。 DevoPatchを使うことで、ブラックボックスパッチ攻撃に対するモデルの堅牢性を評価することができる。 本手法は将来,様々なDNNアーキテクチャに基づく堅牢な視覚モデルの設計と展開を刺激する可能性がある。

Deep neural networks (DNNs) have been showed to be highly vulnerable to imperceptible adversarial perturbations. As a complementary type of adversary, patch attacks that introduce perceptible perturbations to the images have attracted the interest of researchers. Existing patch attacks rely on the architecture of the model or the probabilities of predictions and perform poorly in the decision-based setting, which can still construct a perturbation with the minimal information exposed -- the top-1 predicted label. In this work, we first explore the decision-based patch attack. To enhance the attack efficiency, we model the patches using paired key-points and use targeted images as the initialization of patches, and parameter optimizations are all performed on the integer domain. Then, we propose a differential evolutionary algorithm named DevoPatch for query-efficient decision-based patch attacks. Experiments demonstrate that DevoPatch outperforms the state-of-the-art black-box patch attacks in terms of patch area and attack success rate within a given query budget on image classification and face verification. Additionally, we conduct the vulnerability evaluation of ViT and MLP on image classification in the decision-based patch attack setting for the first time. Using DevoPatch, we can evaluate the robustness of models to black-box patch attacks. We believe this method could inspire the design and deployment of robust vision models based on various DNN architectures in the future.
翻訳日:2023-07-05 15:57:51 公開日:2023-07-02
# Google AutoML、TensorFlow、XGBoostによるヨーロッパのオプションの価格設定

Pricing European Options with Google AutoML, TensorFlow, and XGBoost ( http://arxiv.org/abs/2307.00476v1 )

ライセンス: Link先を確認
Juan Esteban Berger(参考訳) 研究者は1990年代初めから、ニューラルネットワークやその他の機械学習技術を使って価格設定を行ってきた。 機械学習技術、計算処理能力、クラウドコンピューティング、データ可用性の30年間の改善の後、本論文は、google cloudのautoml regressor、tensorflow neural networks、およびxgboostgradient boosting decision treeを使用して、ヨーロッパオプションの価格設定を比較できる。 3つのモデルは全て、平均的な絶対誤差の観点からブラックシェールモデルを上回ることができた。 これらの結果は、特に従来のパラメトリックモデルが考慮しない複雑なパターンを学習する機械学習アルゴリズムを使用する場合、オプションの根底にある資産からヨーロッパのオプションを価格で使用する可能性を示している。

Researchers have been using Neural Networks and other related machine-learning techniques to price options since the early 1990s. After three decades of improvements in machine learning techniques, computational processing power, cloud computing, and data availability, this paper is able to provide a comparison of using Google Cloud's AutoML Regressor, TensorFlow Neural Networks, and XGBoost Gradient Boosting Decision Trees for pricing European Options. All three types of models were able to outperform the Black Scholes Model in terms of mean absolute error. These results showcase the potential of using historical data from an option's underlying asset for pricing European options, especially when using machine learning algorithms that learn complex patterns that traditional parametric models do not take into account.
翻訳日:2023-07-05 15:57:34 公開日:2023-07-02
# スペクトル近似におけるモーメント, ランダムウォーク, 限界

Moments, Random Walks, and Limits for Spectrum Approximation ( http://arxiv.org/abs/2307.00474v1 )

ライセンス: Link先を確認
Yujia Jin and Christopher Musco and Aaron Sidford and Apoorv Vikram Singh(参考訳) モーメント(モーメント)の1次元分布を近似する問題に対する下限について検討する。 それらのモーメントの \emph{all} を乗法精度 $(1\pm2^{-\Omega(1/\epsilon)})$ であるとしても、精度に近似できない$[-1,1]$ 上の分布は、Kong と Valiant [Annals of Statistics, 2017] の上限と一致する。 この結果を得るために,注意深いグラフ隣接行列の固有値スペクトルによって引き起こされる分布を含むハードインスタンスを提案する。 そのようなスペクトルをwasserstein-1距離で効率的に近似することはよく研究されたアルゴリズムの問題であり、cohen-steinerらによる最近の結果である。 [kdd 2018]は、グラフ内の一様ランダムノードから開始される2^{o(1/\epsilon)}$ランダムウォークを使用して、スペクトルモーメントを正確に近似する手法を提供する。 この結果から,1/\epsilon$への依存度の向上には新たなアルゴリズム的アプローチが必要であることが示唆された。 特に、2^{\omega(1/\epsilon)$ ランダムウォークの長さ 2^{\omega(1/\epsilon)}$ ランダムノードで開始されたランダムウォークが与えられたとしても、一定の確率で正規化されたグラフ隣接行列のスペクトルに対する$\epsilon$-accurateの近似を計算できない。

We study lower bounds for the problem of approximating a one dimensional distribution given (noisy) measurements of its moments. We show that there are distributions on $[-1,1]$ that cannot be approximated to accuracy $\epsilon$ in Wasserstein-1 distance even if we know \emph{all} of their moments to multiplicative accuracy $(1\pm2^{-\Omega(1/\epsilon)})$; this result matches an upper bound of Kong and Valiant [Annals of Statistics, 2017]. To obtain our result, we provide a hard instance involving distributions induced by the eigenvalue spectra of carefully constructed graph adjacency matrices. Efficiently approximating such spectra in Wasserstein-1 distance is a well-studied algorithmic problem, and a recent result of Cohen-Steiner et al. [KDD 2018] gives a method based on accurately approximating spectral moments using $2^{O(1/\epsilon)}$ random walks initiated at uniformly random nodes in the graph. As a strengthening of our main result, we show that improving the dependence on $1/\epsilon$ in this result would require a new algorithmic approach. Specifically, no algorithm can compute an $\epsilon$-accurate approximation to the spectrum of a normalized graph adjacency matrix with constant probability, even when given the transcript of $2^{\Omega(1/\epsilon)}$ random walks of length $2^{\Omega(1/\epsilon)}$ started at random nodes.
翻訳日:2023-07-05 15:57:17 公開日:2023-07-02
# 両無限遠点で異なるしきい値を持つ直線上のSchr\"{o}dinger方程式に対するマルチチャネル散乱

Multichannel scattering for the Schr\"{o}dinger equation on a line with different thresholds at both infinities ( http://arxiv.org/abs/2307.00473v1 )

ライセンス: Link先を確認
P.O. Kazinski, P.S. Korolev(参考訳) 定常Schr\"{o}dinger方程式の両無限遠点での閾値の異なる直線上の多重チャネル散乱問題について検討した。 スペクトルパラメータの関数としてのJost解の解析構造とJost解に関する遷移行列について述べる。 散乱行列のユニタリティーは、散乱チャネルのいくつかを閉じることができ、直線上の左右の無限大で閾値が異なる場合の一般的な場合で証明される。 S$-行列の対称性関係が確立される。 境界状態を決定する条件を得る。 ジョスト関数と遷移行列の漸近は、大きなスペクトルパラメータに対して導出される。

The multichannel scattering problem for the stationary Schr\"{o}dinger equation on a line with different thresholds at both infinities is investigated. The analytical structure of the Jost solutions and of the transition matrix relating the Jost solutions as functions of the spectral parameter is described. Unitarity of the scattering matrix is proved in the general case when some of the scattering channels can be closed and the thresholds can be different at left and right infinities on the line. The symmetry relations of the $S$-matrix are established. The condition determining the bound states is obtained. The asymptotics of the Jost functions and of the transition matrix are derived for a large spectral parameter.
翻訳日:2023-07-05 15:56:40 公開日:2023-07-02
# 等融合公正性:自動決定システムにおける群ベース格差の測定

Equal Confusion Fairness: Measuring Group-Based Disparities in Automated Decision Systems ( http://arxiv.org/abs/2307.00472v1 )

ライセンス: Link先を確認
Furkan Gursoy and Ioannis A. Kakadiaris(参考訳) 人工知能が人間や社会に影響を及ぼす決定において重要な役割を担っているため、自動意思決定システムの説明責任は研究者や実践者から注目を集めている。 公平は、個人や敏感なグループに対する不当な扱いや差別を排除することに関心があり、説明責任の重要な側面である。 しかし、公平さを評価するために、文献にはしばしば相容れない異なる視点と仮定を用いる多くの公正度指標が存在する。 この作品はグループフェアネスに焦点を当てている。 ほとんどの集団公平度指標は、異なる敏感群に属する混乱行列から計算された選択された統計値のパリティを求める。 本稿では,この直感を一般化し,公平度の自動決定システムと不公平度を定量化する新しい混乱パリティ誤差をチェックするための,新しい等混同公平性テストを提案する。 さらに、潜在的不公平の原因をさらに分析するために、適切なポストホック分析手法も提示する。 テスト、メートル法、およびポストホック分析の有用性は、再犯リスクを評価する裁判官を支援するために米国で使用されている自動決定システムであるCompASのケーススタディによって実証される。 全体として、ここで提供される方法とメトリクスは、システム説明責任ベンチマークに基づくものなど、より広範な説明責任評価の一部として、自動決定システムの公平性を評価することができる。

As artificial intelligence plays an increasingly substantial role in decisions affecting humans and society, the accountability of automated decision systems has been receiving increasing attention from researchers and practitioners. Fairness, which is concerned with eliminating unjust treatment and discrimination against individuals or sensitive groups, is a critical aspect of accountability. Yet, for evaluating fairness, there is a plethora of fairness metrics in the literature that employ different perspectives and assumptions that are often incompatible. This work focuses on group fairness. Most group fairness metrics desire a parity between selected statistics computed from confusion matrices belonging to different sensitive groups. Generalizing this intuition, this paper proposes a new equal confusion fairness test to check an automated decision system for fairness and a new confusion parity error to quantify the extent of any unfairness. To further analyze the source of potential unfairness, an appropriate post hoc analysis methodology is also presented. The usefulness of the test, metric, and post hoc analysis is demonstrated via a case study on the controversial case of COMPAS, an automated decision system employed in the US to assist judges with assessing recidivism risks. Overall, the methods and metrics provided here may assess automated decision systems' fairness as part of a more extensive accountability assessment, such as those based on the system accountability benchmark.
翻訳日:2023-07-05 15:56:31 公開日:2023-07-02
# PatternGPT : 大言語モデルテキスト生成のためのパターン駆動フレームワーク

PatternGPT :A Pattern-Driven Framework for Large Language Model Text Generation ( http://arxiv.org/abs/2307.00470v1 )

ライセンス: Link先を確認
Le Xiao and Xin Shan(参考訳) 大規模言語モデル(llm)は優れたテキスト生成能力を示しているが、文法的誤りや意味的不正確さ、文脈的不整合など、モデルの信頼性に重大な影響を与える場合もあります。 これらの問題は、大規模言語モデルのパターン抽出段階で発生する困難と限界から生じる可能性がある。 大規模言語モデルの生成力を生かして可能な限り多くのパターンを生成し、問題を解決し、そのパターンから最適なパターンを見つけ出す方法、そして大規模言語モデルを用いて優れたコンテンツを生成する方法が、現在研究ホットスポットとなっている。 本稿では,大規模言語モデルの抽出能力を通じてリッチなパターンを生成するパターン抽出・選択フレームワークであるパターンgptを提案し,複数のエージェントが連携して多様なパターンを生成するフェデレーション学習のアイデアを浮き彫りにする。 モデル生成プロセスのガイダンスをパーソナライズするための基準と最適化アルゴリズムを定義することで、高品質なパターンを選択する。 PatternGPTは、多様で有用なパターンを生成し、関連する知識を拡張し、効率的なパターンの使用と転送を容易にし、生成した結果の質とユーザエクスペリエンスを最適化し、大きな言語モデルのテキスト生成能力を最適化する効果的な方法を提供し、インテリジェントな対話とコンテンツ生成の分野でさらなる発展を期待できる。 知的対話とコンテンツ生成の分野におけるさらなる発展を促進することが期待されている。

Large language models(LLMs) have shown excellent text generation capabilities, but there is still much space for improvement in accuracy, sometimes with grammatical errors, semantic inaccuracies, and contextual incoherence, which seriously affect the reliability of the models. These problems may originate from the difficulties and limitations encountered in the pattern extraction stage of large language models. How to utilize the generative power of large language models to generate as many possible patterns that help solve problems and find the optimal patterns from them, so as to use patterns to guide large language models to generate good content, has become a current research hotspot. In this paper, we propose a pattern extraction and selection framework, PatternGPT, which generates rich patterns through the extraction ability of large language models and draws on the idea of federation learning, where multiple agents collaborate with each other to generate diverse patterns. High-quality patterns are selected by defining criteria and optimization algorithms to personalize the guidance of the model generation process. PatternGPT has the advantages of generating diverse and useful patterns, extending relevant knowledge, facilitating efficient pattern use and transfer, and optimizing the quality of generated results and user experience, which provides an effective method for optimizing the text generation capability of large language models and is expected to drive further development in the field of intelligent dialogue and content generation. It is expected to promote further development in the field of intelligent dialogue and content generation.
翻訳日:2023-07-05 15:56:09 公開日:2023-07-02
# モデル不確実性を考慮した電気自動車のデータ駆動確率的エネルギー消費推定

Data-Driven Probabilistic Energy Consumption Estimation for Battery Electric Vehicles with Model Uncertainty ( http://arxiv.org/abs/2307.00469v1 )

ライセンス: Link先を確認
Ayan Maity, Sudeshna Sarkar(参考訳) 本稿では,バッテリ電気自動車(BEV)のトリップレベルエネルギー消費推定のための新しい確率的データ駆動手法を提案する。 電気自動車(EV)充電ステーションが極めて少ないため、EV走行エネルギー消費量の推定により、ドライバーにとってEVルーティングや充電計画が容易になる。 本稿では,モデル不確実性を伴う確率的ニューラルネットワークを用いた運転行動中心のEVエネルギー消費推定モデルを提案する。 モデル不確かさをニューラルネットワークに組み込むことにより,モンテカルロ近似を用いたニューラルネットワークのアンサンブルを構築した。 本手法は, 走行時のEVエネルギー消費量を推定するために, 様々な車両動特性, 運転行動, 環境要因を包括的に検討する。 本稿では、evエネルギー消費推定における運転行動要因として、相対正加速度(rpa)、平均加速度、平均減速を提案するとともに、これらの運転行動特徴を用いることにより、evエネルギー消費モデルの精度が大幅に向上することを示す。 本提案手法は,EV走行エネルギー消費の単一点推定ではなく,EV走行エネルギー消費の確率分布を予測する。 実験の結果,提案する重み不確かさを持つ確率的ニューラルネットワークは平均絶対パーセンテージ誤差9.3%を達成し,既存のevエネルギー消費モデルよりも精度が優れていることがわかった。

This paper presents a novel probabilistic data-driven approach to trip-level energy consumption estimation of battery electric vehicles (BEVs). As there are very few electric vehicle (EV) charging stations, EV trip energy consumption estimation can make EV routing and charging planning easier for drivers. In this research article, we propose a new driver behaviour-centric EV energy consumption estimation model using probabilistic neural networks with model uncertainty. By incorporating model uncertainty into neural networks, we have created an ensemble of neural networks using Monte Carlo approximation. Our method comprehensively considers various vehicle dynamics, driver behaviour and environmental factors to estimate EV energy consumption for a given trip. We propose relative positive acceleration (RPA), average acceleration and average deceleration as driver behaviour factors in EV energy consumption estimation and this paper shows that the use of these driver behaviour features improves the accuracy of the EV energy consumption model significantly. Instead of predicting a single-point estimate for EV trip energy consumption, this proposed method predicts a probability distribution for the EV trip energy consumption. The experimental results of our approach show that our proposed probabilistic neural network with weight uncertainty achieves a mean absolute percentage error of 9.3% and outperforms other existing EV energy consumption models in terms of accuracy.
翻訳日:2023-07-05 15:55:27 公開日:2023-07-02
# MissDiff: 失敗値を持つ語彙データに基づく拡散モデルのトレーニング

MissDiff: Training Diffusion Models on Tabular Data with Missing Values ( http://arxiv.org/abs/2307.00467v1 )

ライセンス: Link先を確認
Yidong Ouyang, Liyan Xie, Chongxuan Li, Guang Cheng(参考訳) 拡散モデルはデータ分布のモデル化とデータの合成において顕著な性能を示した。 しかし、バニラ拡散モデルは、訓練のために完全なまたは完全な観測データを必要とする。 不完全なデータは、医療や金融、特に表形式のデータセットを扱う場合など、さまざまな現実世界のアプリケーションで一般的な問題である。 本研究は,様々な欠落メカニズムの下で値の欠落したデータから学習するための統一的かつ原理的な拡散ベースフレームワークを提案する。 まず,広く採用されている"impute-then-generate"パイプラインが,偏りのある学習目標につながる可能性があることを観察した。 次に, 学習段階における発声スコアマッチングの回帰損失を隠蔽する。 提案手法は,データ分布のスコアの学習に一貫性があることを実証し,ある場合において,提案手法が負の確率の上限となることを示す。 提案手法は, 実効性と有効性のある指標を用いて複数の表層データセット上で評価し, 「入出力」パイプラインを用いた表層データ上での「最先端拡散モデル」を大きなマージンで上回ることを示す。

The diffusion model has shown remarkable performance in modeling data distributions and synthesizing data. However, the vanilla diffusion model requires complete or fully observed data for training. Incomplete data is a common issue in various real-world applications, including healthcare and finance, particularly when dealing with tabular datasets. This work presents a unified and principled diffusion-based framework for learning from data with missing values under various missing mechanisms. We first observe that the widely adopted "impute-then-generate" pipeline may lead to a biased learning objective. Then we propose to mask the regression loss of Denoising Score Matching in the training phase. We prove the proposed method is consistent in learning the score of data distributions, and the proposed training objective serves as an upper bound for the negative likelihood in certain cases. The proposed framework is evaluated on multiple tabular datasets using realistic and efficacious metrics and is demonstrated to outperform state-of-the-art diffusion model on tabular data with "impute-then-generate" pipeline by a large margin.
翻訳日:2023-07-05 15:54:44 公開日:2023-07-02
# 部分ラベル学習における不偏探究に向けて

Towards Unbiased Exploration in Partial Label Learning ( http://arxiv.org/abs/2307.00465v1 )

ライセンス: Link先を確認
Zsolt Zombori and Agapi Rissaki and Krist\'of Szab\'o and Wolfgang Gatterbauer and Michael Benedikt(参考訳) 我々は、ソフトマックスを最終層とする標準ニューラルアーキテクチャを用いて、部分ラベル付き監督(複数の可能性で表される入力)から確率的分類法を学ぶことを検討する。 我々は,単純なアーキテクチャであってもソフトマックス層から生じるバイアス現象を同定し,代替選択肢の適切な探索を防止し,勾配降下のダイナミクスを初期化に過度に敏感にする。 代替出力の空間における偏りのない探索を可能にする新しい損失関数を提案する。 我々は、損失関数の理論的正当性を示し、その合成データへの影響、標準部分ラベル付きベンチマーク、および既存のルール学習課題に関連する新たなベンチマークを広範囲に評価する。

We consider learning a probabilistic classifier from partially-labelled supervision (inputs denoted with multiple possibilities) using standard neural architectures with a softmax as the final layer. We identify a bias phenomenon that can arise from the softmax layer in even simple architectures that prevents proper exploration of alternative options, making the dynamics of gradient descent overly sensitive to initialisation. We introduce a novel loss function that allows for unbiased exploration within the space of alternative outputs. We give a theoretical justification for our loss function, and provide an extensive evaluation of its impact on synthetic data, on standard partially labelled benchmarks and on a contributed novel benchmark related to an existing rule learning challenge.
翻訳日:2023-07-05 15:54:23 公開日:2023-07-02
# 人と人間のインタラクション検出

Human-to-Human Interaction Detection ( http://arxiv.org/abs/2307.00464v1 )

ライセンス: Link先を確認
Zhenhua Wang, Kaining Ying, Jiajun Meng, Jifeng Ning, Cong Bai(参考訳) キューイング、ハンドシェイキング、戦闘、追跡などのビデオストリームにおける人間と人間の相互作用に関する包括的な理解は、キャンパス、広場、公園などの地域の公共安全の監視において非常に重要である。 振付映像を入力として使用し,同時に対話型グループを無視し,別段に検出と認識を行う従来のヒューマンインタラクション認識とは異なり,hid(human-to-human interaction detection)という新しいタスクを導入する。 HIDは、対象を検出し、個人的行動を認識し、対話的な関係に従って人々をグループ化する。 まず、アクション検出のために作成された人気のあるAVAデータセットに基づいて、フレームごとの対話的関係に関するアノテーションを追加することで、AVA-Interaction (AVA-I)と呼ばれる新しいHIDベンチマークを確立する。 AVA-Iは85,254フレームと86,338のインタラクティブグループで構成され、各画像は4つの同時対話グループを含む。 第2に、視覚特徴抽出器と、Transformerベースのモデルを用いてアクションインスタンスと対話型グループをデコードする分割ステージと、インスタンスとグループの関係を再構築するマージステージを含む、HIDのための新しいベースラインアプローチSaMFormerを提案する。 すべてのSaMFormerコンポーネントはエンドツーエンドで共同でトレーニングされる。 AVA-Iに関する大規模な実験は、代表法よりもSaMFormerの方が優れていることを検証する。 データセットとコードは公開され、さらなるフォローアップ研究が促進される。

A comprehensive understanding of interested human-to-human interactions in video streams, such as queuing, handshaking, fighting and chasing, is of immense importance to the surveillance of public security in regions like campuses, squares and parks. Different from conventional human interaction recognition, which uses choreographed videos as inputs, neglects concurrent interactive groups, and performs detection and recognition in separate stages, we introduce a new task named human-to-human interaction detection (HID). HID devotes to detecting subjects, recognizing person-wise actions, and grouping people according to their interactive relations, in one model. First, based on the popular AVA dataset created for action detection, we establish a new HID benchmark, termed AVA-Interaction (AVA-I), by adding annotations on interactive relations in a frame-by-frame manner. AVA-I consists of 85,254 frames and 86,338 interactive groups, and each image includes up to 4 concurrent interactive groups. Second, we present a novel baseline approach SaMFormer for HID, containing a visual feature extractor, a split stage which leverages a Transformer-based model to decode action instances and interactive groups, and a merging stage which reconstructs the relationship between instances and groups. All SaMFormer components are jointly trained in an end-to-end manner. Extensive experiments on AVA-I validate the superiority of SaMFormer over representative methods. The dataset and code will be made public to encourage more follow-up studies.
翻訳日:2023-07-05 15:53:59 公開日:2023-07-02
# 機械学習による第2次世界大戦の暗号分類

Classifying World War II Era Ciphers with Machine Learning ( http://arxiv.org/abs/2307.00501v1 )

ライセンス: Link先を確認
Brooke Dalton and Mark Stamp(参考訳) 暗号文のみ利用可能な場合,機械学習とディープラーニング技術が選択した第2次世界大戦時代の暗号を分類できる精度を決定する。 種小名はenigma, m-209, sigaba, purple, typexである。 我々は、SVM(Support Vector Machines)、$k$-Nearest Neighbors(k$-NN)、Random Forest(RF)の3つの古典的な機械学習モデルで実験を行った。 また、MLP(Multi-Layer Perceptrons)、LSTM(Long Short-Term Memory)、ELM(Extreme Learning Machines)、CNN(Convolutional Neural Networks)の4つのディープラーニングニューラルネットワークモデルについても実験を行った。 各モデルはヒストグラム、ダイアグラム、生の暗号文の文字配列からなる特徴に基づいて訓練される。 さらに、分類問題は、固定キー付き固定平文、固定キー付きランダム平文、ランダムキー付き固定平文、ランダムキー付きランダム平文の4つの異なるシナリオで検討されている。 最も現実的なシナリオでは、暗号文ごとに1000文字を与えられた場合、97%以上の精度で暗号を識別できる。 さらに,学習手法のサブセットの精度を,暗号文メッセージの長さの関数として考慮する。 意外なことに、私たちの古典的な機械学習モデルは、ディープラーニングモデルと同様に少なくとも機能します。 また、設計においてより類似している暗号は区別が難しいが、期待したほど難しいものではないこともわかりました。

We determine the accuracy with which machine learning and deep learning techniques can classify selected World War II era ciphers when only ciphertext is available. The specific ciphers considered are Enigma, M-209, Sigaba, Purple, and Typex. We experiment with three classic machine learning models, namely, Support Vector Machines (SVM), $k$-Nearest Neighbors ($k$-NN), and Random Forest (RF). We also experiment with four deep learning neural network-based models: Multi-Layer Perceptrons (MLP), Long Short-Term Memory (LSTM), Extreme Learning Machines (ELM), and Convolutional Neural Networks (CNN). Each model is trained on features consisting of histograms, digrams, and raw ciphertext letter sequences. Furthermore, the classification problem is considered under four distinct scenarios: Fixed plaintext with fixed keys, random plaintext with fixed keys, fixed plaintext with random keys, and random plaintext with random keys. Under the most realistic scenario, given 1000 characters per ciphertext, we are able to distinguish the ciphers with greater than 97% accuracy. In addition, we consider the accuracy of a subset of the learning techniques as a function of the length of the ciphertext messages. Somewhat surprisingly, our classic machine learning models perform at least as well as our deep learning models. We also find that ciphers that are more similar in design are somewhat more challenging to distinguish, but not as difficult as might be expected.
翻訳日:2023-07-05 15:46:28 公開日:2023-07-02
# 微調整のない混合精度補償によるデータ自由量子化

Data-Free Quantization via Mixed-Precision Compensation without Fine-Tuning ( http://arxiv.org/abs/2307.00498v1 )

ライセンス: Link先を確認
Jun Chen, Shipeng Bai, Tianxin Huang, Mengmeng Wang, Guanzhong Tian, Yong Liu(参考訳) ニューラルネットワーク量子化はモデル圧縮の分野で非常に有望な解であるが、その結果の精度はトレーニング/ファインチューニングプロセスに大きく依存し、元のデータを必要とする。 これは計算量と時間コストをもたらすだけでなく、プライバシや機密情報保護にも影響しない。 そのため、最近の研究はデータフリーな量子化に焦点を合わせ始めている。 しかし、超低精度量子化を扱う場合、データフリー量子化はうまく機能しない。 研究者はこの問題に部分的に対処するために合成データの生成手法を使用しているが、データ合成には多くの計算と時間を要する。 本稿では,データや微調整をすることなく,超低精度量子化モデルの性能を回復するデータフリー混合精度補償(df-mpc)法を提案する。 高精度量子化層の再構築により低精度量子化層に起因する量子化誤差を回復できると仮定し、事前訓練された全精度モデルと層別混合量子化モデルとの再構成損失を数学的に定式化する。 本定式化に基づいて,特徴写像の再構成損失を最小限に抑え,閉形式解を理論的に導出する。 DF-MPCはオリジナル/合成データを必要としないため、完全精度モデルを近似するより効率的な方法である。 実験により, df-mpcはデータや微調整処理をすることなく, 最近の手法と比較して, 超低精度量子化モデルにおいて高い精度を実現することができた。

Neural network quantization is a very promising solution in the field of model compression, but its resulting accuracy highly depends on a training/fine-tuning process and requires the original data. This not only brings heavy computation and time costs but also is not conducive to privacy and sensitive information protection. Therefore, a few recent works are starting to focus on data-free quantization. However, data-free quantization does not perform well while dealing with ultra-low precision quantization. Although researchers utilize generative methods of synthetic data to address this problem partially, data synthesis needs to take a lot of computation and time. In this paper, we propose a data-free mixed-precision compensation (DF-MPC) method to recover the performance of an ultra-low precision quantized model without any data and fine-tuning process. By assuming the quantized error caused by a low-precision quantized layer can be restored via the reconstruction of a high-precision quantized layer, we mathematically formulate the reconstruction loss between the pre-trained full-precision model and its layer-wise mixed-precision quantized model. Based on our formulation, we theoretically deduce the closed-form solution by minimizing the reconstruction loss of the feature maps. Since DF-MPC does not require any original/synthetic data, it is a more efficient method to approximate the full-precision model. Experimentally, our DF-MPC is able to achieve higher accuracy for an ultra-low precision quantized model compared to the recent methods without any data and fine-tuning process.
翻訳日:2023-07-05 15:46:02 公開日:2023-07-02
# 記憶してはいけない; 過去ミミック: エピソジック記憶のないフェデレーションクラスインクリメンタルラーニング

Don't Memorize; Mimic The Past: Federated Class Incremental Learning Without Episodic Memory ( http://arxiv.org/abs/2307.00497v1 )

ライセンス: Link先を確認
Sara Babakniya, Zalan Fabian, Chaoyang He, Mahdi Soltanolkotabi, Salman Avestimehr(参考訳) ディープラーニングモデルは、新しいデータでトレーニングされた時に過去に学んだ情報を忘れやすい。 この問題は、データが分散化され、ユーザ毎に独立した変更が行われるフェデレーション学習(fl)の文脈でさらに顕著になる。 連続学習(CL)は、いわゆる‘textit{catastrophic forgetting’現象を主に集中的な設定で研究し、学習者は完全なトレーニングデータセットに直接アクセスできる。 しかし、プライバシの懸念とリソース制限のため、CLテクニックをFLに適用することは簡単ではない。 本稿では,生成モデルを用いて過去のデータの一部を保存するのではなく,過去の分布からサンプルを合成するフェデレーションクラスインクリメンタル学習の枠組みを提案する。 そして、クライアントは生成モデルを利用して、局所的な破滅的な忘れを緩和できる。 生成モデルは、クライアントからデータを要求することなく、各タスクの最後にデータフリーのメソッドを使用してサーバ上でトレーニングされる。 そのため、クライアントのプライベートデータでトレーニングするのではなく、データ漏洩のリスクを低減する。 既存のベースラインと比較して,CIFAR-100データセットの大幅な改善を示す。

Deep learning models are prone to forgetting information learned in the past when trained on new data. This problem becomes even more pronounced in the context of federated learning (FL), where data is decentralized and subject to independent changes for each user. Continual Learning (CL) studies this so-called \textit{catastrophic forgetting} phenomenon primarily in centralized settings, where the learner has direct access to the complete training dataset. However, applying CL techniques to FL is not straightforward due to privacy concerns and resource limitations. This paper presents a framework for federated class incremental learning that utilizes a generative model to synthesize samples from past distributions instead of storing part of past data. Then, clients can leverage the generative model to mitigate catastrophic forgetting locally. The generative model is trained on the server using data-free methods at the end of each task without requesting data from clients. Therefore, it reduces the risk of data leakage as opposed to training it on the client's private data. We demonstrate significant improvements for the CIFAR-100 dataset compared to existing baselines.
翻訳日:2023-07-05 15:45:37 公開日:2023-07-02
# STG4Traffic:交通予測のための空間時間グラフニューラルネットワークの調査とベンチマーク

STG4Traffic: A Survey and Benchmark of Spatial-Temporal Graph Neural Networks for Traffic Prediction ( http://arxiv.org/abs/2307.00495v1 )

ライセンス: Link先を確認
Xunlian Luo, Chunjiang Zhu, Detian Zhang, Qing Li(参考訳) 交通予測は時空間データマイニング分野において活発な研究課題となっている。 スマートシティシステムの安全性,安定性,汎用性,すなわち交通制御と最適ルーティングを改善するためには,正確なリアルタイムトラフィック予測が不可欠である。 複雑で非常にダイナミックな時空間依存は、効果的な予測をまだ多くの課題に直面している。 近年の研究では、空間時間グラフニューラルネットワークは、グラフ畳み込みネットワークと逐次モデルを組み合わせて時間的・空間的相関をモデル化する交通予測に大きな可能性を示すことが示されている。 しかし, グラフ学習, 交通の時空間グラフモデル, ベースラインモデルの公正な比較に関する調査は, 未解決の問題や避けられない問題となっている。 本稿では,まず,グラフ学習戦略と一般的なグラフ畳み込みアルゴリズムの体系的レビューを行う。 次に,最近提案された空間時間グラフネットワークモデルの長所と短所を包括的に解析する。 さらに、ディープラーニングフレームワークPyTorchを使用してSTG4Trafficと呼ばれる研究を構築し、2種類のトラフィックデータセットに対して標準化されたスケーラブルなベンチマークを確立する。 モデル設定を均一なメトリクスでパーソナライズすることで、パフォーマンスを評価することができる。 最後に,本研究の問題点を指摘し,今後の方向性について論じる。 ソースコードはhttps://github.com/trainingl/stg4trafficで入手できる。

Traffic prediction has been an active research topic in the domain of spatial-temporal data mining. Accurate real-time traffic prediction is essential to improve the safety, stability, and versatility of smart city systems, i.e., traffic control and optimal routing. The complex and highly dynamic spatial-temporal dependencies make effective predictions still face many challenges. Recent studies have shown that spatial-temporal graph neural networks exhibit great potential applied to traffic prediction, which combines sequential models with graph convolutional networks to jointly model temporal and spatial correlations. However, a survey study of graph learning, spatial-temporal graph models for traffic, as well as a fair comparison of baseline models are pending and unavoidable issues. In this paper, we first provide a systematic review of graph learning strategies and commonly used graph convolution algorithms. Then we conduct a comprehensive analysis of the strengths and weaknesses of recently proposed spatial-temporal graph network models. Furthermore, we build a study called STG4Traffic using the deep learning framework PyTorch to establish a standardized and scalable benchmark on two types of traffic datasets. We can evaluate their performance by personalizing the model settings with uniform metrics. Finally, we point out some problems in the current study and discuss future directions. Source codes are available at https://github.com/trainingl/STG4Traffic.
翻訳日:2023-07-05 15:45:18 公開日:2023-07-02
# グラフに基づく平滑化によるgibbsサンプリングによるタンパク質適合性の最適化

Optimizing protein fitness using Gibbs sampling with Graph-based Smoothing ( http://arxiv.org/abs/2307.00494v1 )

ライセンス: Link先を確認
Andrew Kirjner, Jason Yim, Raman Samusevich, Tommi Jaakkola, Regina Barzilay, Ila Fiete(参考訳) 与えられたタスクで高い適合性を持つ新規タンパク質を設計する能力は、多くの医学分野で革命的なものになる。 しかし、組合せ的に大きい列空間をブルートフォースで探索することは不可能である。 以前の手法では、参照配列から小さな突然変異半径に探索を制限しているが、そのようなヒューリスティックスは設計空間を劇的に制限する。 我々の研究は、効率的な探索を可能にしながら、突然変異距離の制限を取り除こうとしている。 グラフベーススムースティング(GGS)を用いたギブズサンプリング法を提案し,グラフベーススムースメントを用いてギブズと勾配を反復的に適用し,偽陽性につながる雑音的な勾配を除去する。 本手法は,トレーニングセットから最大8変異の高適合性タンパク質を探索する技術である。 GFP と AAV の設計問題,アブレーション,ベースラインについて検討し,その結果を解明した。 コード: https://github.com/kirjner/ggs

The ability to design novel proteins with higher fitness on a given task would be revolutionary for many fields of medicine. However, brute-force search through the combinatorially large space of sequences is infeasible. Prior methods constrain search to a small mutational radius from a reference sequence, but such heuristics drastically limit the design space. Our work seeks to remove the restriction on mutational distance while enabling efficient exploration. We propose Gibbs sampling with Graph-based Smoothing (GGS) which iteratively applies Gibbs with gradients to propose advantageous mutations using graph-based smoothing to remove noisy gradients that lead to false positives. Our method is state-of-the-art in discovering high-fitness proteins with up to 8 mutations from the training set. We study the GFP and AAV design problems, ablations, and baselines to elucidate the results. Code: https://github.com/kirjner/GGS
翻訳日:2023-07-05 15:44:58 公開日:2023-07-02
# Fourier-Mixed Window Attention: 時系列時系列予測のためのインバータ高速化

Fourier-Mixed Window Attention: Accelerating Informer for Long Sequence Time-Series Forecasting ( http://arxiv.org/abs/2307.00493v1 )

ライセンス: Link先を確認
Nhat Thanh Tran, Jack Xin(参考訳) Informerを高速化するための高速なローカル・グローバルウィンドウベースアテンション手法について検討した。 ウィンドウの注意は局所的であり、計算量を大幅に節約する一方で、その後のフーリエ変換ブロックによって補償されるグローバルトークン情報をキャプチャする能力が欠如している。 提案手法は,クエリの空間性仮説と,Informer の ProbSparse 対応に基づく経験的近似に依存しない。 単変量および多変量データセットの実験により、FWinトランスフォーマーはインフォーマーの全体的な予測精度を改善しつつ、推論速度を40%から50%加速することを示した。 また,非線形回帰モデルでは,時系列データに作用するインフォメータモデルのフルアテンション層から抽出したキーベクトルに基づいて,学習したフウィン型アテンションアプローチやソフトマックスフルアテンションよりも優れることを示した。

We study a fast local-global window-based attention method to accelerate Informer for long sequence time-series forecasting. While window attention is local and a considerable computational saving, it lacks the ability to capture global token information which is compensated by a subsequent Fourier transform block. Our method, named FWin, does not rely on query sparsity hypothesis and an empirical approximation underlying the ProbSparse attention of Informer. Through experiments on univariate and multivariate datasets, we show that FWin transformers improve the overall prediction accuracies of Informer while accelerating its inference speeds by 40 to 50 %. We also show in a nonlinear regression model that a learned FWin type attention approaches or even outperforms softmax full attention based on key vectors extracted from an Informer model's full attention layer acting on time series data.
翻訳日:2023-07-05 15:44:42 公開日:2023-07-02
# TopicFM+: Topic-Assisted Feature Matching の精度向上と効率向上

TopicFM+: Boosting Accuracy and Efficiency of Topic-Assisted Feature Matching ( http://arxiv.org/abs/2307.00485v1 )

ライセンス: Link先を確認
Khang Truong Giang, Soohwan Song, Sungho Jo(参考訳) 本研究は,大きなバリエーションや限られたテクスチャを持つシーンなど,困難なシナリオにおける画像マッチングの課題に,計算効率に重点を置いて取り組む。 従来の研究では、トランスフォーマーを用いてグローバルシーンコンテキストを符号化することで、この問題に対処しようと試みてきた。 しかしながら、これらのアプローチは高い計算コストに悩まされており、構造形状やセマンティックインスタンスのような十分な高レベルのコンテキスト情報をキャプチャできない可能性がある。 その結果、符号化された特徴は、挑戦的な場面で差別力に欠ける可能性がある。 これらの制約を克服するために,トピックモデリング戦略を利用して画像中の高レベルのコンテキストをキャプチャする新しい画像マッチング手法を提案する。 提案手法は,各トピックが潜在意味インスタンスを表すトピック上の多項分布として,各イメージを表す。 これらのトピックを組み込むことで、包括的コンテキスト情報を効果的に捉え、識別的かつ高品質な特徴を得ることができる。 さらに,本手法は,可視的トピックを推定することにより,対応する意味領域内の特徴を効果的にマッチングする。 特徴マッチングの効率を高めるため,我々はプール・アンド・マージアテンションモジュールを備えたネットワークを設計した。 このモジュールは、固定サイズのトピックと小さな機能のみに注意を払って計算を減らします。 大規模な実験を通じて,挑戦シナリオにおける手法の優位性を実証した。 具体的には,最先端手法と比較して画像マッチング精度を高く保ちながら,計算コストを大幅に削減する。 コードは近々https://github.com/TruongKhang/TopicFMで更新される。

This study tackles the challenge of image matching in difficult scenarios, such as scenes with significant variations or limited texture, with a strong emphasis on computational efficiency. Previous studies have attempted to address this challenge by encoding global scene contexts using Transformers. However, these approaches suffer from high computational costs and may not capture sufficient high-level contextual information, such as structural shapes or semantic instances. Consequently, the encoded features may lack discriminative power in challenging scenes. To overcome these limitations, we propose a novel image-matching method that leverages a topic-modeling strategy to capture high-level contexts in images. Our method represents each image as a multinomial distribution over topics, where each topic represents a latent semantic instance. By incorporating these topics, we can effectively capture comprehensive context information and obtain discriminative and high-quality features. Additionally, our method effectively matches features within corresponding semantic regions by estimating the covisible topics. To enhance the efficiency of feature matching, we have designed a network with a pooling-and-merging attention module. This module reduces computation by employing attention only on fixed-sized topics and small-sized features. Through extensive experiments, we have demonstrated the superiority of our method in challenging scenarios. Specifically, our method significantly reduces computational costs while maintaining higher image-matching accuracy compared to state-of-the-art methods. The code will be updated soon at https://github.com/TruongKhang/TopicFM
翻訳日:2023-07-05 15:44:22 公開日:2023-07-02
# 原子ボース-アインシュタイン凝縮体のデジタルツインニングによる量子力センシング

Enhanced Quantum Force Sensing by Digital Twinning of Atomic Bose-Einstein Condensates ( http://arxiv.org/abs/2307.00484v1 )

ライセンス: Link先を確認
Tangyou Huang, Zhongcheng Yu, Zhongyi Ni, Xiaoji Zhou, and Xiaopeng Li(参考訳) 高感度検出は、科学的発見と技術応用において重要な役割を果たす。 感度の進歩は、その境界を広げる上で重要である。 集合多体相関と量子エンタングルメントを利用した興味深い手法は、感度を高めるために物理学で開発されているが、厳密な技術的要求のために実践的な実装は難しいままである。 本稿では,機械学習の能力を活用し,弱信号検出感度を著しく向上させる革新的な手法を提案する。 原子ボース・アインシュタイン凝縮体(BEC)からの飛行時間測定に基づいて生成機械学習モデルを訓練することにより、確率分布を正確に一致させて実験システムのデジタルツインニングを作成する。 デジタルレプリカは、典型的な構成と非定型構成の両方を生成でき、量子ショットノイズと技術的ノイズによる実験的測定で観測された変動を反映することができる。 機械学習モデルを用いて、構成非定型性のレベルを定量化する異常スコアを得る。 外部力が作用すると、物理系の測定結果に摂動する。 驚くべきことに、異常スコアを調べることで、機械学習モデルによって弱影響の物理システムさえ検出することができ、異常検出が可能になる。 フォースセンシングに対するこの非伝統的なアプローチは完全にデータ駆動であり、物理システムに関する事前の知識やセンシングプロセスに関する仮定を欠いている。 その結果,感度が著しく向上し,約10^{-25}N$の弱い力を検出するため,従来のプロトコルよりも格段に向上した。 感度は1.7(4)\times10^{-25}N/\sqrt{Hz}$に達する。

High sensitivity detection plays a vital role in science discoveries and technological applications. The advancement of sensitivity has been pivotal in expanding their boundaries. While intriguing methods utilizing collective many-body correlations and quantum entanglements have been developed in physics to enhance sensitivity, their practical implementation remains challenging due to rigorous technological requirements. Here, we propose an innovative approach that harnesses the capabilities of machine learning, to significantly augment weak-signal detection sensitivity. By training a generative machine learning model on time-of-flight measurements from atomic Bose-Einstein condensates (BEC), we create a digital twinning of the experimental system, accurately matching probabilistic distributions. The digital replica is capable of generating both typical and atypical configurations, mirroring the fluctuations observed in experimental measurements caused by quantum shot-noise and technical noise. An anomaly score, quantifying the level of configuration atypicality, is obtained through the machine learning model. When an external force is applied, it perturbs the measurement outcomes of the physical system. Remarkably, even a weakly affected physical system can be detected by the machine learning model by examining the anomaly score, enabling anomaly detection. This unconventional approach to force sensing is entirely data-driven, devoid of prior knowledge about the physical system or assumptions regarding the sensing process. Our findings demonstrate a significant advancement in sensitivity, achieving an order of magnitude improvement over conventional protocols in detecting a weak force of approximately $10^{-25}N$. The resulting sensitivity reaches $1.7(4)\times10^{-25}N/\sqrt{Hz}$.
翻訳日:2023-07-05 15:44:00 公開日:2023-07-02
# 見ることは信じない: 人間の視覚のプライバシー保護のためのアイデンティティ・ハイダー

Seeing is not Believing: An Identity Hider for Human Vision Privacy Protection ( http://arxiv.org/abs/2307.00481v1 )

ライセンス: Link先を確認
Tao Wang, Yushu Zhang, Zixuan Yang, Hua Zhang, and Zhongyun Hua(参考訳) 大量の撮像された顔画像は、個人を特定するためにデータベースに格納される。 しかし、保存された画像は、個人の意思ではなく、プライバシー侵害を引き起こす可能性があるデータマネージャによって、意図的に、または意図せず観察される。 既存の保護は、顔の視覚的な内容をわずかに変えるだけで、識別の効用を保ちながら、人間の視覚による真のアイデンティティの推論に影響を受けやすい。 本稿では,顔認識器の高識別性を維持しつつ,人間の視力に対する視覚的変化を顕著に抑制するアイデンティティ隠蔽器を提案する。 まず、idハイダは、stylegan2の潜在空間を操作して、新たな視覚コンテンツを持つ仮想顔を生成する。 特に、仮想顔は、例えばポーズや表現など、元の顔と同じ無関係な属性を持つ。 次に、仮想顔の視覚内容が元の顔に転送され、背景が元の顔に置き換えられる。 さらに、アイデンティティハイダは、強い転送性を有し、任意の顔認識器が良好な精度を達成できる。 適切な実験により,提案手法はプライバシ保護と識別性保存において優れた性能を発揮することが示された。

Massive captured face images are stored in the database for the identification of individuals. However, the stored images can be observed intentionally or unintentionally by data managers, which is not at the will of individuals and may cause privacy violations. Existing protection works only slightly change the visual content of the face while maintaining the utility of identification, making it susceptible to the inference of the true identity by human vision. In this paper, we propose an identity hider that enables significant visual content change for human vision while preserving high identifiability for face recognizers. Firstly, the identity hider generates a virtual face with new visual content by manipulating the latent space in StyleGAN2. In particular, the virtual face has the same irrelevant attributes as the original face, e.g., pose and expression. Secondly, the visual content of the virtual face is transferred into the original face and then the background is replaced with the original one. In addition, the identity hider has strong transferability, which ensures an arbitrary face recognizer can achieve satisfactory accuracy. Adequate experiments show that the proposed identity hider achieves excellent performance on privacy protection and identifiability preservation.
翻訳日:2023-07-05 15:43:35 公開日:2023-07-02
# 不確かさを意識した前立腺癌分類のための画像間翻訳によるドメイン転送

Domain Transfer Through Image-to-Image Translation for Uncertainty-Aware Prostate Cancer Classification ( http://arxiv.org/abs/2307.00479v1 )

ライセンス: Link先を確認
Meng Zhou, Amoon Jamzad, Jason Izard, Alexandre Menard, Robert Siemens, Parvin Mousavi(参考訳) 前立腺癌(PCa)はしばしば高分解能の3.0 Tesla(T) MRIを用いて診断される。 しかし、PCaの実際の診断プロセスに1.5T MRIユニットを使用する医療センターは、まだたくさんある。 近年,PCa分類作業において深層学習に基づくモデルが効率的であることが証明され,診断過程における放射線技師の支援に成功している。 しかし、そのようなモデルのトレーニングには大量のデータが必要であることが多く、実際は達成できないこともある。 さらに、マルチソースMRIは、ドメイン間の分散の違いによって、課題を提起することができる。 本稿では,臨床上重要なPCaを分類するために,前立腺前立腺MRIのイメージ・ツー・イメージ翻訳を行う新しい手法を提案する。 まず、未ペアの3.0T多パラメータ前立腺MRIを1.5Tに変換する新しいパイプラインであるドメイン転送を導入し、トレーニングデータを増やす。 第2に,我々のモデルの不確かさを明白なディープラーニングアプローチで推定し,トレーニングプロセス中にデータセットフィルタリング技術を活用する。 さらに,モデルの学習に焦点損失と明らかな不確実性が組み合わさった,単純かつ効率的で有意な焦点損失について紹介する。 実験の結果,提案手法は従来の研究(98.4%対76.2%)と比較してAUC(Area Under ROC Curve)を20%以上改善することがわかった。 放射線技師に予測の不確実性を提供することは、不確実性にもっと注力し、診断プロセスの迅速化に役立つと期待する。 私たちのコードはhttps://github.com/med-i-lab/DT_UE_PCaで利用可能です。

Prostate Cancer (PCa) is often diagnosed using High-resolution 3.0 Tesla(T) MRI, which has been widely established in clinics. However, there are still many medical centers that use 1.5T MRI units in the actual diagnostic process of PCa. In the past few years, deep learning-based models have been proven to be efficient on the PCa classification task and can be successfully used to support radiologists during the diagnostic process. However, training such models often requires a vast amount of data, and sometimes it is unobtainable in practice. Additionally, multi-source MRIs can pose challenges due to cross-domain distribution differences. In this paper, we have presented a novel approach for unpaired image-to-image translation of prostate mp-MRI for classifying clinically significant PCa, to be applied in data-constrained settings. First, we introduce domain transfer, a novel pipeline to translate unpaired 3.0T multi-parametric prostate MRIs to 1.5T, to increase the number of training data. Second, we estimate the uncertainty of our models through an evidential deep learning approach; and leverage the dataset filtering technique during the training process. Furthermore, we introduce a simple, yet efficient Evidential Focal Loss that incorporates the focal loss with evidential uncertainty to train our model. Our experiments demonstrate that the proposed method significantly improves the Area Under ROC Curve (AUC) by over 20% compared to the previous work (98.4% vs. 76.2%). We envision that providing prediction uncertainty to radiologists may help them focus more on uncertain cases and thus expedite the diagnostic process effectively. Our code is available at https://github.com/med-i-lab/DT_UE_PCa
翻訳日:2023-07-05 15:43:17 公開日:2023-07-02
# テンソルGPT:テンソル-トレイン分解に基づくLLMの埋め込み層の効率的な圧縮

TensorGPT: Efficient Compression of the Embedding Layer in LLMs based on the Tensor-Train Decomposition ( http://arxiv.org/abs/2307.00526v1 )

ライセンス: Link先を確認
Mingxue Xu, Yao Lei Xu, Danilo P. Mandic(参考訳) 高次元トークン埋め込みは、微妙な意味情報をキャプチャし、複雑な言語パターンのモデリングを大幅に強化できるため、Large Language Models(LLM)の基盤となる。 しかし、関連する高次元はまた、かなりのモデルパラメータと、非常に高いモデルストレージをもたらす。 この問題に対処するために,各トークンの埋め込みを,分散的に効率的に計算可能なマトリックス製品状態(MPS)として扱うTTD(Tensor-Train Decomposition)に基づくアプローチを提案する。 GPT-2実験の結果, 埋め込み層を最大38.40倍圧縮することができ, 圧縮係数が3.31倍であれば, 従来のGPT-2モデルよりも優れた性能が得られることがわかった。

High-dimensional token embeddings underpin Large Language Models (LLMs), as they can capture subtle semantic information and significantly enhance the modelling of complex language patterns. However, the associated high dimensionality also introduces considerable model parameters, and a prohibitively high model storage. To address this issue, this work proposes an approach based on the Tensor-Train Decomposition (TTD), where each token embedding is treated as a Matrix Product State (MPS) that can be efficiently computed in a distributed manner. The experimental results on GPT-2 demonstrate that, through our approach, the embedding layer can be compressed by a factor of up to 38.40 times, and when the compression factor is 3.31 times, even produced a better performance than the original GPT-2 model.
翻訳日:2023-07-05 15:37:08 公開日:2023-07-02
# フルショットクラスタリングが可能な大規模言語モデル

Large Language Models Enable Few-Shot Clustering ( http://arxiv.org/abs/2307.00524v1 )

ライセンス: Link先を確認
Vijay Viswanathan, Kiril Gashteovski, Carolin Lawrence, Tongshuang Wu, Graham Neubig(参考訳) 従来の教師なしクラスタリングとは異なり、半教師付きクラスタリングでは、ユーザはデータに意味のある構造を提供でき、クラスタリングアルゴリズムがユーザの意図にマッチするのに役立つ。 半教師付きクラスタリングに対する既存のアプローチは、クラスタを改善するために専門家からのかなりの量のフィードバックを必要とします。 本稿では,大規模言語モデルがエキスパートの指導を増幅し,クエリ効率が良く,半教師なしのテキストクラスタリングを実現するかどうかを問う。 LLMはクラスタリングを改善するのに驚くほど効果的であることを示す。 クラスタリング前(入力機能の改善)、クラスタリング中(クラスタリングに制約を提供すること)、クラスタリング後(LLMのポストコレクションを使用)の3つの段階について検討する。 最初の2つのステージにLLMを組み込むことで、クラスタの品質が大幅に向上し、LLMはユーザが所望のクラスタを生成するためのコストと精度のトレードオフを可能にする。 私たちはコードをリリースし、一般向けにllmプロンプトを公開します。

Unlike traditional unsupervised clustering, semi-supervised clustering allows users to provide meaningful structure to the data, which helps the clustering algorithm to match the user's intent. Existing approaches to semi-supervised clustering require a significant amount of feedback from an expert to improve the clusters. In this paper, we ask whether a large language model can amplify an expert's guidance to enable query-efficient, few-shot semi-supervised text clustering. We show that LLMs are surprisingly effective at improving clustering. We explore three stages where LLMs can be incorporated into clustering: before clustering (improving input features), during clustering (by providing constraints to the clusterer), and after clustering (using LLMs post-correction). We find incorporating LLMs in the first two stages can routinely provide significant improvements in cluster quality, and that LLMs enable a user to make trade-offs between cost and accuracy to produce desired clusters. We release our code and LLM prompts for the public to use.
翻訳日:2023-07-05 15:36:52 公開日:2023-07-02
# 実用性からハイプを遠ざける - 量子アドバンテージの実現に向けて

Disentangling Hype from Practicality: On Realistically Achieving Quantum Advantage ( http://arxiv.org/abs/2307.00523v1 )

ライセンス: Link先を確認
Torsten Hoefler, Thomas Haener, Matthias Troyer(参考訳) 量子コンピュータは、想像可能な古典的コンピュータをはるかに上回る可能性を持つ新しい計算パラダイムを提供する。 これは新しい量子アルゴリズムとハードウェアにゴールドラッシュをもたらした。 量子コンピューティングを取り巻く期待と誇大広告の高まりを踏まえて、量子優位性を実現するための有望なアプリケーションについて質問する。 量子コンピュータを実用的にするためには、小さなデータ問題や超量子速さを持つ量子アルゴリズムが不可欠であると主張する。 これらのガイドラインにより、量子コンピューティングのための有望なアプリケーションを古典的なソリューションが追求されるべきものから切り離すことができる。 提案された量子アルゴリズムや応用のほとんどは実用的と見なされるために必要な高速化を達成していないが、物質科学や化学において既に大きな可能性を見出している。 ガイドラインに基づいて、さらなるアプリケーションの開発が期待されます。

Quantum computers offer a new paradigm of computing with the potential to vastly outperform any imagineable classical computer. This has caused a gold rush towards new quantum algorithms and hardware. In light of the growing expectations and hype surrounding quantum computing we ask the question which are the promising applications to realize quantum advantage. We argue that small data problems and quantum algorithms with super-quadratic speedups are essential to make quantum computers useful in practice. With these guidelines one can separate promising applications for quantum computing from those where classical solutions should be pursued. While most of the proposed quantum algorithms and applications do not achieve the necessary speedups to be considered practical, we already see a huge potential in material science and chemistry. We expect further applications to be developed based on our guidelines.
翻訳日:2023-07-05 15:36:35 公開日:2023-07-02
# LEDITS:DDPMインバージョンとセマンティックガイダンスによるリアルイメージ編集

LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance ( http://arxiv.org/abs/2307.00522v1 )

ライセンス: Link先を確認
Linoy Tsaban (1), Apolin\'ario Passos (1) ((1) Hugging Face)(参考訳) 最近の大規模テキスト誘導拡散モデルは強力な画像生成機能を提供する。 現在、直感的で汎用的な編集を提供する手段としてのみ、テキストによる画像の修正を可能にするために重要な努力がなされている。 しかし、編集技術の本質的な性質から、原画像から特定のコンテンツを保存するなど、これらの生成モデルでは編集が困難であることが証明されている。 逆に、テキストベースのモデルでは、テキストの小さな変更でさえも、しばしば全く異なる結果をもたらすので、ユーザの意図と正確に一致したワンショット生成を達成することは、極めて困難である。 さらに、これらの最先端ツールを使って実際の画像を編集するには、まず、事前訓練されたモデルドメインにイメージを反転する必要があります。 本報告では,実画像編集のためのライトウェイトなアプローチであるLEDITSを提案し,セマンティックガイダンスを用いた編集フレンドリーDDPMインバージョン技術を導入し,セマンティックガイダンスを実画像編集に拡張するとともに,DDPMインバージョン編集機能も活用する。 このアプローチは、アーキテクチャの最適化や拡張を必要とせず、構成やスタイルの変更だけでなく、微妙で広範囲な編集を実現する。

Recent large-scale text-guided diffusion models provide powerful image-generation capabilities. Currently, a significant effort is given to enable the modification of these images using text only as means to offer intuitive and versatile editing. However, editing proves to be difficult for these generative models due to the inherent nature of editing techniques, which involves preserving certain content from the original image. Conversely, in text-based models, even minor modifications to the text prompt frequently result in an entirely distinct result, making attaining one-shot generation that accurately corresponds to the users intent exceedingly challenging. In addition, to edit a real image using these state-of-the-art tools, one must first invert the image into the pre-trained models domain - adding another factor affecting the edit quality, as well as latency. In this exploratory report, we propose LEDITS - a combined lightweight approach for real-image editing, incorporating the Edit Friendly DDPM inversion technique with Semantic Guidance, thus extending Semantic Guidance to real image editing, while harnessing the editing capabilities of DDPM inversion as well. This approach achieves versatile edits, both subtle and extensive as well as alterations in composition and style, while requiring no optimization nor extensions to the architecture.
翻訳日:2023-07-05 15:36:25 公開日:2023-07-02
# 自己教師型サンプリングによる分布終端検出

End-to-End Out-of-distribution Detection with Self-supervised Sampling ( http://arxiv.org/abs/2307.00519v1 )

ライセンス: Link先を確認
Sen Pei, Jiaxi Sun, Peng Qin, Qi Chen, Xinglong Wu, Xun Wang(参考訳) out-of-distribution (ood) 検出は、オープンワールドで未知のデータを特定するためにクローズドセットでトレーニングされたモデルを強化する。 多くの先行技術は大幅に改善されたが、2つの重要な障害が残っている。 第一に、先進的な芸術を個々のデザインで見るための統一的な視点はまだ提示されておらず、関連する方向についての洞察を提供するのに不可欠である。 第2に、ほとんどの研究は、事前訓練された特徴の処理後のスキームに着目し、エンドツーエンドトレーニングの優位性を無視し、ood検出の上限を劇的に制限する。 そこで本研究では,既存の手法を多用する一般的な確率的枠組みと,ood検出のための自己教師ありサンプリング(ssod)モデルを提案し,エンドツーエンド学習の可能性を明らかにする。 SSODは、畳み込みの局所特性に基づいて、IDデータから自然のOOD信号を効率的に活用する。 これらの監視により、OOD検出と従来のID分類を共同で最適化する。 広範な実験の結果、SSODは多くの大規模ベンチマークにおいて競争力のある最先端性能を確立しており、KNNのような最近のアプローチでは48.99%から35.52%の差でFPR95でSUNを上回っていることが明らかになった。

Out-of-distribution (OOD) detection empowers the model trained on the closed set to identify unknown data in the open world. Though many prior techniques have yielded considerable improvements, two crucial obstacles still remain. Firstly, a unified perspective has yet to be presented to view the developed arts with individual designs, which is vital for providing insights into the related directions. Secondly, most research focuses on the post-processing schemes of the pre-trained features while disregarding the superiority of end-to-end training, dramatically limiting the upper bound of OOD detection. To tackle these issues, we propose a general probabilistic framework to interpret many existing methods and an OOD-data-free model, namely Self-supervised Sampling for OOD Detection (SSOD), to unfold the potential of end-to-end learning. SSOD efficiently exploits natural OOD signals from the in-distribution (ID) data based on the local property of convolution. With these supervisions, it jointly optimizes the OOD detection and conventional ID classification. Extensive experiments reveal that SSOD establishes competitive state-of-the-art performance on many large-scale benchmarks, where it outperforms the most recent approaches, such as KNN, by a large margin, e.g., 48.99% to 35.52% on SUN at FPR95.
翻訳日:2023-07-05 15:36:02 公開日:2023-07-02
# DSTCGCN:交通予測のための動的空間的時間的相互依存の学習

DSTCGCN: Learning Dynamic Spatial-Temporal Cross Dependencies for Traffic Forecasting ( http://arxiv.org/abs/2307.00518v1 )

ライセンス: Link先を確認
Binqing Wu, Ling Chen(参考訳) 交通予測は、道路網内の複雑な空間的および時間的依存関係のため、インテリジェント交通システムにとって不可欠である。 既存の作業は通常、空間的および時間的依存関係を別々に学習し、空間的および時間的次元を渡る依存関係を無視します。 本稿では,交通予測のためのグラフを通して動的空間的および時間的依存関係を協調的に学習する動的時空間グラフ畳み込みネットワークDSTCGCNを提案する。 具体的には,時間変動トラヒックデータに基づいて時間ステップ毎に関連する時間ステップを選択するために,高速フーリエ変換(fft)に基づく注意セレクタを導入する。 選択した時間ステップを前提として,空間グラフ構築,時間接続グラフ構築,融合モジュールからなる動的クロスグラフ構築モジュールを導入し,事前定義された事前定義なしに動的空間-時間的クロス依存関係を学習する。 6つの実世界のデータセットに対する大規模な実験は、DSTCGCNが最先端のパフォーマンスを達成することを示した。

Traffic forecasting is essential to intelligent transportation systems, which is challenging due to the complicated spatial and temporal dependencies within a road network. Existing works usually learn spatial and temporal dependencies separately, ignoring the dependencies crossing spatial and temporal dimensions. In this paper, we propose DSTCGCN, a dynamic spatial-temporal cross graph convolution network to learn dynamic spatial and temporal dependencies jointly via graphs for traffic forecasting. Specifically, we introduce a fast Fourier transform (FFT) based attentive selector to choose relevant time steps for each time step based on time-varying traffic data. Given the selected time steps, we introduce a dynamic cross graph construction module, consisting of the spatial graph construction, temporal connection graph construction, and fusion modules, to learn dynamic spatial-temporal cross dependencies without pre-defined priors. Extensive experiments on six real-world datasets demonstrate that DSTCGCN achieves the state-of-the-art performance.
翻訳日:2023-07-05 15:35:38 公開日:2023-07-02
# SUGAR: 皮質表面登録のための球面超高速グラフ注意フレームワーク

SUGAR: Spherical Ultrafast Graph Attention Framework for Cortical Surface Registration ( http://arxiv.org/abs/2307.00511v1 )

ライセンス: Link先を確認
Jianxun Ren, Ning An, Youjia Zhang, Danyang Wang, Zhenyu Sun, Cong Lin, Weigang Cui, Weiwei Wang, Ying Zhou, Wei Zhang, Qingyu Hu, Ping Zhang, Dan Hu, Danhong Wang, Hesheng Liu(参考訳) 皮質表面の登録は、個人間の皮質機能的および解剖学的特徴の調整において重要な役割を担っている。 しかし、従来の登録アルゴリズムは計算的に非効率である。 近年,学習に基づく登録アルゴリズムが有望なソリューションとして登場し,処理効率が大幅に向上した。 それでも、ディープラーニングアプローチの理論的により大きな表現能力にもかかわらず、計算効率、登録精度、歪み制御を同時に行う最先端の手法を超える学習ベースの手法の開発にはギャップがある。 この課題に対処するために,厳密な登録と非厳密な登録のための統一された教師なしディープラーニングフレームワークSUGARを提案する。 SUGARはU-Netベースの球面グラフアテンションネットワークを導入し、変形にオイラー角表現を利用する。 類似性損失に加えて,折りたたみと多重歪み損失を導入し,トポロジーを保ち,様々な種類の歪みを最小化する。 さらに,球面登録用に特別に調整したデータ拡張戦略を提案し,登録性能を向上させる。 7つの多種多様なデータセットから1万以上のスキャンを行った結果,従来の手法や学習に基づく手法と比較して,精度,歪み,テスト-テスト信頼性において同等か優れた登録性能を示した。 さらにsugarは、驚くべきサブ秒処理時間を達成し、英国のバイオバンクデータセットから9000人の被験者をわずか32分で登録することで、約12,000回のスピードアップを実現している。 この高い登録性能と高速化された処理時間の組み合わせは、大規模な神経画像研究に大いに役立つかもしれない。

Cortical surface registration plays a crucial role in aligning cortical functional and anatomical features across individuals. However, conventional registration algorithms are computationally inefficient. Recently, learning-based registration algorithms have emerged as a promising solution, significantly improving processing efficiency. Nonetheless, there remains a gap in the development of a learning-based method that exceeds the state-of-the-art conventional methods simultaneously in computational efficiency, registration accuracy, and distortion control, despite the theoretically greater representational capabilities of deep learning approaches. To address the challenge, we present SUGAR, a unified unsupervised deep-learning framework for both rigid and non-rigid registration. SUGAR incorporates a U-Net-based spherical graph attention network and leverages the Euler angle representation for deformation. In addition to the similarity loss, we introduce fold and multiple distortion losses, to preserve topology and minimize various types of distortions. Furthermore, we propose a data augmentation strategy specifically tailored for spherical surface registration, enhancing the registration performance. Through extensive evaluation involving over 10,000 scans from 7 diverse datasets, we showed that our framework exhibits comparable or superior registration performance in accuracy, distortion, and test-retest reliability compared to conventional and learning-based methods. Additionally, SUGAR achieves remarkable sub-second processing times, offering a notable speed-up of approximately 12,000 times in registering 9,000 subjects from the UK Biobank dataset in just 32 minutes. This combination of high registration performance and accelerated processing time may greatly benefit large-scale neuroimaging studies.
翻訳日:2023-07-05 15:35:21 公開日:2023-07-02
# HeGeL:ヘブライ語テキストからのジオロケーションのための新しいデータセット

HeGeL: A Novel Dataset for Geo-Location from Hebrew Text ( http://arxiv.org/abs/2307.00509v1 )

ライセンス: Link先を確認
Tzuf Paz-Argaman, Tal Bauman, Itai Mondshine, Itzhak Omer, Sagi Dalyot, Reut Tsarfaty(参考訳) テキストジオロケーションのタスク – 自由形式の言語記述に基づく場所の座標を取得する – は、接地だけでなく、自然言語の理解や地理空間的推論も要求する。 位置情報に使用される英語のデータセットは少ないが、現在はオープンソースのデータ(WikipediaとTwitter)に基づいており、その場所の位置はほとんど暗黙的であり、位置検索の解像度が制限されている。 さらに、ヘブライ語のような形態的に豊かで資源が乏しい言語におけるテキストジオロケーションの問題に対処するためのデータセットは存在しない。 本稿では,リテラルな場所記述を収集し,言語的地理空間推論を分析するヘブライ語ジオロケーション (hegel) コーパスを提案する。 5,649箇所のヘブライ語地名記述をイスラエルの3都市でクラウドソースした。 定性的かつ実証的な分析により、データは地理空間的推論を多用し、新しい環境表現を必要とすることが示された。

The task of textual geolocation - retrieving the coordinates of a place based on a free-form language description - calls for not only grounding but also natural language understanding and geospatial reasoning. Even though there are quite a few datasets in English used for geolocation, they are currently based on open-source data (Wikipedia and Twitter), where the location of the described place is mostly implicit, such that the location retrieval resolution is limited. Furthermore, there are no datasets available for addressing the problem of textual geolocation in morphologically rich and resource-poor languages, such as Hebrew. In this paper, we present the Hebrew Geo-Location (HeGeL) corpus, designed to collect literal place descriptions and analyze lingual geospatial reasoning. We crowdsourced 5,649 literal Hebrew place descriptions of various place types in three cities in Israel. Qualitative and empirical analysis show that the data exhibits abundant use of geospatial reasoning and requires a novel environmental representation.
翻訳日:2023-07-05 15:34:55 公開日:2023-07-02
# 確率的構成網を有する転がり軸受の故障診断のためのクラウドアンサンブル学習

Cloud Ensemble Learning for Fault Diagnosis of Rolling Bearings with Stochastic Configuration Networks ( http://arxiv.org/abs/2307.00507v1 )

ライセンス: Link先を確認
Wei Dai, Jiang Liu, and Lanhao Wang(参考訳) 転がり軸受の故障診断は, 回転機械の保守後において非常に重要であるが, 少数の試料で効率的に断層を診断することは困難である。 さらに, 外部環境の複雑化や転がり軸受の構造が原因で, 異常やファジィが頻繁に発生し, 断層特性の効果的なマイニングが妨げられ, 最終的に故障診断の精度が制限される。 これらの問題を解決するために、SCN-CELと呼ばれる確率的構成ネットワーク(SCN)ベースのクラウドアンサンブル学習を開発した。 具体的には, 雲の特徴抽出法として, 通常の雲モデルの逆向き雲発生器を用いて断層情報の不確かさを抽出する手法を開発した。 そこで, 双方向クラウドジェネレータを用いて十分な雲滴を生成するクラウドサンプリング手法を提案し, 雲の特徴サンプルを拡張した。 最後に、SCNを用いたアンサンブルモデルを開発し、故障情報の不確実性を包括的に特徴付け、故障診断機の一般化性能を向上させる。 実験結果から, 提案手法は, 少数のショットシナリオにおいて, 転がり軸受の故障カテゴリの識別に有効であることが示された。

Fault diagnosis of rolling bearings is of great significance for post-maintenance in rotating machinery, but it is a challenging work to diagnose faults efficiently with a few samples. Additionally, faults commonly occur with randomness and fuzziness due to the complexity of the external environment and the structure of rolling bearings, hindering effective mining of fault characteristics and eventually restricting accuracy of fault diagnosis. To overcome these problems, stochastic configuration network (SCN) based cloud ensemble learning, called SCN-CEL, is developed in this work. Concretely, a cloud feature extraction method is first developed by using a backward cloud generator of normal cloud model to mine the uncertainty of fault information. Then, a cloud sampling method, which generates enough cloud droplets using bidirectional cloud generator, is proposed to extend the cloud feature samples. Finally, an ensemble model with SCNs is developed to comprehensively characterize the uncertainty of fault information and advance the generalization performance of fault diagnosis machine. Experimental results demonstrate that the proposed method indeed performs favorably for distinguishing fault categories of rolling bearings in the few shot scenarios.
翻訳日:2023-07-05 15:34:37 公開日:2023-07-02
# 能動推論における効率的な計算について

On efficient computation in active inference ( http://arxiv.org/abs/2307.00504v1 )

ライセンス: Link先を確認
Aswin Paul, Noor Sajid, Lancelot Da Costa, Adeel Razi(参考訳) 神経生物学的に考えられるが、計算コストやエージェントの適切なターゲット分布を特定することが困難であるため、複雑な環境でのインテリジェントな振る舞いをシミュレートするために用いられると、能動的推論は困難に直面する。 本稿では,これらの制約に対処する2つのソリューションを紹介する。 まず,計算量を大幅に減らした有限時間地平線に対する新しい計画アルゴリズムを提案する。 第2に,制御理論文献からのz学習に触発され,新規および既存アクティブ推論計画計画のための適切な目標分布の設定プロセスを簡素化する。 我々の最初のアプローチは、計算効率で知られている動的プログラミングアルゴリズムを利用して、ベルマン最適原理による計画に使用されるコスト関数を最小化する。 したがって,本アルゴリズムは,作用の期待自由エネルギーを逆時間順に再帰的に評価する。 これにより計算効率は桁違いに向上し、不確定な条件下でも正確なモデル学習と計画が可能になる。 提案手法は,エージェントの最終目標状態のみを指定する場合でも,計画プロセスを単純化し,有意義な行動を示す。 提案手法は, 目標状態から目標分布を定義するのが簡単であり, 時間的情報に基づく目標分布を定義するより複雑なタスクである。 これらの手法の有効性は,標準的なグリッドワールドタスクのシミュレーションを通じて検証・実証されている。 これらの進歩は、様々なアプリケーションに新たな機会をもたらす。

Despite being recognized as neurobiologically plausible, active inference faces difficulties when employed to simulate intelligent behaviour in complex environments due to its computational cost and the difficulty of specifying an appropriate target distribution for the agent. This paper introduces two solutions that work in concert to address these limitations. First, we present a novel planning algorithm for finite temporal horizons with drastically lower computational complexity. Second, inspired by Z-learning from control theory literature, we simplify the process of setting an appropriate target distribution for new and existing active inference planning schemes. Our first approach leverages the dynamic programming algorithm, known for its computational efficiency, to minimize the cost function used in planning through the Bellman-optimality principle. Accordingly, our algorithm recursively assesses the expected free energy of actions in the reverse temporal order. This improves computational efficiency by orders of magnitude and allows precise model learning and planning, even under uncertain conditions. Our method simplifies the planning process and shows meaningful behaviour even when specifying only the agent's final goal state. The proposed solutions make defining a target distribution from a goal state straightforward compared to the more complicated task of defining a temporally informed target distribution. The effectiveness of these methods is tested and demonstrated through simulations in standard grid-world tasks. These advances create new opportunities for various applications.
翻訳日:2023-07-05 15:34:14 公開日:2023-07-02
# 異なるセル不均一性のための条件不変表現学習

Conditionally Invariant Representation Learning for Disentangling Cellular Heterogeneity ( http://arxiv.org/abs/2307.00558v1 )

ライセンス: Link先を確認
Hananeh Aliee, Ferdinand Kapl, Soroor Hediyeh-Zadeh, Fabian J. Theis(参考訳) 本稿では,不必要な変数や乱れに条件付き不変な表現を学習するために,ドメインの可変性を活用する新しい手法を提案する。 本手法は,潜伏特徴に条件付き事前設定を施し,正確な再構築を実現するために必要なスプリアスと不変潜伏特徴を同定する。 不変信号は、因果意味を持つ解釈可能なモデルの構築を容易にする独立性を強制することによってノイズから切り離される。 データドメインとラベル間の相互作用を利用して、不変な特徴を同時に識別し、不変な予測器を構築する。 異なる条件や複数の研究室から得られた多数のサンプルを含むデータセット間での生物学的変異を捉えることを目的として,単細胞ゲノミクスにおけるデータ統合のような壮大な生物学的課題に本手法を適用した。 我々のアプローチは、遺伝子プログラム、疾患状態、または治療条件を含む特定の生物学的メカニズムをデータ統合プロセスに組み込むことを可能にし、理論的な仮定と実際の生物学的応用のギャップを埋める。 特に、提案手法は、対象タスクや関心の因果説明と無関係なデータバイアスから生物学的シグナルを分離するのに役立つ。 大規模ヒト造血器とヒト肺がんデータを用いて広範なベンチマークを行い,既存の方法よりも優れたアプローチを検証し,細胞多様性や疾患細胞状態の同定に深い洞察を与えることができることを実証した。

This paper presents a novel approach that leverages domain variability to learn representations that are conditionally invariant to unwanted variability or distractors. Our approach identifies both spurious and invariant latent features necessary for achieving accurate reconstruction by placing distinct conditional priors on latent features. The invariant signals are disentangled from noise by enforcing independence which facilitates the construction of an interpretable model with a causal semantic. By exploiting the interplay between data domains and labels, our method simultaneously identifies invariant features and builds invariant predictors. We apply our method to grand biological challenges, such as data integration in single-cell genomics with the aim of capturing biological variations across datasets with many samples, obtained from different conditions or multiple laboratories. Our approach allows for the incorporation of specific biological mechanisms, including gene programs, disease states, or treatment conditions into the data integration process, bridging the gap between the theoretical assumptions and real biological applications. Specifically, the proposed approach helps to disentangle biological signals from data biases that are unrelated to the target task or the causal explanation of interest. Through extensive benchmarking using large-scale human hematopoiesis and human lung cancer data, we validate the superiority of our approach over existing methods and demonstrate that it can empower deeper insights into cellular heterogeneity and the identification of disease cell states.
翻訳日:2023-07-05 15:27:57 公開日:2023-07-02
# クローズドセットとオープンセットの併用による部分ラベル学習

Partial-label Learning with Mixed Closed-set and Open-set Out-of-candidate Examples ( http://arxiv.org/abs/2307.00553v1 )

ライセンス: Link先を確認
Shuo He, Lei Feng, Guowu Yang(参考訳) 部分ラベル学習(PLL)は、各トレーニング例の真のラベルが候補ラベルセットになければならないという重要な仮定に依存する。 この制限的な仮定は、複雑な実世界のシナリオで破られる可能性があり、したがって収集されたいくつかの実例の真のラベルは、割り当てられた候補のラベルセットの外側に予期せず置かれる可能性がある。 本稿では, 真のラベルがOOC (out-of-candidate) の例の外部にある事例を述べるとともに, OOC の例から学ぶための新たな PLL 研究の先駆者となる。 実際、実例では、真のラベルが既知のラベル空間の内外にある閉集合/開集合 ooc の例の2つのタイプを考える。 この新たなPLL問題を解決するために,まず候補ラベルと非候補ラベルからの木製クロスエントロピー損失を計算し,特殊設計基準に基づいて2種類のOCO例を動的に識別する。 そして、閉集合OCCの場合、非候補ラベルセットで逆ラベル曖昧化を行い、オープンセットOCCの場合、候補ラベルセットからランダムな候補ラベルを動的に割り当てる効果的な正規化戦略を利用してトレーニングを行う。 このように、OOCの2種類の例を区別し、モデルトレーニングにさらに活用することができる。 実験の結果,提案手法は最先端のPLL法よりも優れていた。

Partial-label learning (PLL) relies on a key assumption that the true label of each training example must be in the candidate label set. This restrictive assumption may be violated in complex real-world scenarios, and thus the true label of some collected examples could be unexpectedly outside the assigned candidate label set. In this paper, we term the examples whose true label is outside the candidate label set OOC (out-of-candidate) examples, and pioneer a new PLL study to learn with OOC examples. We consider two types of OOC examples in reality, i.e., the closed-set/open-set OOC examples whose true label is inside/outside the known label space. To solve this new PLL problem, we first calculate the wooden cross-entropy loss from candidate and non-candidate labels respectively, and dynamically differentiate the two types of OOC examples based on specially designed criteria. Then, for closed-set OOC examples, we conduct reversed label disambiguation in the non-candidate label set; for open-set OOC examples, we leverage them for training by utilizing an effective regularization strategy that dynamically assigns random candidate labels from the candidate label set. In this way, the two types of OOC examples can be differentiated and further leveraged for model training. Extensive experiments demonstrate that our proposed method outperforms state-of-the-art PLL methods.
翻訳日:2023-07-05 15:27:19 公開日:2023-07-02
# 多エージェント倫理的行動の適応的強化学習:QSOMとQDSOMアルゴリズム

Adaptive reinforcement learning of multi-agent ethically-aligned behaviours: the QSOM and QDSOM algorithms ( http://arxiv.org/abs/2307.00552v1 )

ライセンス: Link先を確認
R\'emy Chaput, Olivier Boissier, Mathieu Guillermin(参考訳) 多数のデプロイされた人工知能システムは、われわれの倫理的配慮に沿う必要がある。 しかし、このような倫理的考察は時が経つにつれて変わるかもしれない:我々の社会は固定されておらず、社会は進化する。 これはこれらのAIシステムにとって難しく、特にマシン倫理分野においては、未研究の課題である。 本稿では,環境の変化に適応可能なqsomとqdsomという2つのアルゴリズム,特にこれらのシステムと連携させたい倫理的考察を表す報酬関数を提案する。 彼らは有名なQ-Tableを(動的)自己組織化マップに関連付け、連続的かつ多次元の状態と行動空間を扱う。 本研究では,小規模のスマートグリッド近傍におけるマルチエージェントエネルギー分割の利用事例について評価し,その適応能力と,ベースライン強化学習アルゴリズムと比較して高い性能を示す。

The numerous deployed Artificial Intelligence systems need to be aligned with our ethical considerations. However, such ethical considerations might change as time passes: our society is not fixed, and our social mores evolve. This makes it difficult for these AI systems; in the Machine Ethics field especially, it has remained an under-studied challenge. In this paper, we present two algorithms, named QSOM and QDSOM, which are able to adapt to changes in the environment, and especially in the reward function, which represents the ethical considerations that we want these systems to be aligned with. They associate the well-known Q-Table to (Dynamic) Self-Organizing Maps to handle the continuous and multi-dimensional state and action spaces. We evaluate them on a use-case of multi-agent energy repartition within a small Smart Grid neighborhood, and prove their ability to adapt, and their higher performance compared to baseline Reinforcement Learning algorithms.
翻訳日:2023-07-05 15:26:53 公開日:2023-07-02
# リスク感性強化学習は適切に解決されるか?

Is Risk-Sensitive Reinforcement Learning Properly Resolved? ( http://arxiv.org/abs/2307.00547v1 )

ライセンス: Link先を確認
Ruiwen Zhou, Minghuan Liu, Kan Ren, Xufang Luo, Weinan Zhang, Dongsheng Li(参考訳) 適用政策の学習におけるリスク管理の性質から,リスク感応強化学習(rsrl)が重要な方向性として実現されている。 RSRLは通常、分散強化学習の枠組みの下で、様々なリスク対策によって特徴づけられるリスク感受性の学習によって達成される。 しかし、分布的ベルマン作用素がリスク対策の意味でRSRLの目的を適切に最適化するかどうかは不明である。 本稿では,既存のRSRL法が非バイアス最適化を達成せず,蓄積した戻り分布に対するリスク対策の改善や最適性を保証できないことを示す。 そこで本研究では, 最適方針に収束可能なrsrl問題に対して, 軌跡q-learning (tql) という新しいアルゴリズムを提案する。 新たな学習アーキテクチャに基づいて,さまざまなリスク対応政策を学習するための,さまざまなリスク対策の汎用的かつ実践的な実装を自由に導入できる。 実験では,アルゴリズムの学習性を検証するとともに,リスクに敏感な目標に対するよりよい性能を実現する方法を示す。

Due to the nature of risk management in learning applicable policies, risk-sensitive reinforcement learning (RSRL) has been realized as an important direction. RSRL is usually achieved by learning risk-sensitive objectives characterized by various risk measures, under the framework of distributional reinforcement learning. However, it remains unclear if the distributional Bellman operator properly optimizes the RSRL objective in the sense of risk measures. In this paper, we prove that the existing RSRL methods do not achieve unbiased optimization and can not guarantee optimality or even improvements regarding risk measures over accumulated return distributions. To remedy this issue, we further propose a novel algorithm, namely Trajectory Q-Learning (TQL), for RSRL problems with provable convergence to the optimal policy. Based on our new learning architecture, we are free to introduce a general and practical implementation for different risk measures to learn disparate risk-sensitive policies. In the experiments, we verify the learnability of our algorithm and show how our method effectively achieves better performances toward risk-sensitive objectives.
翻訳日:2023-07-05 15:26:38 公開日:2023-07-02
# ブロックチェーンによるフェデレーション学習における悪意的行動の防止

Defending Against Malicious Behaviors in Federated Learning with Blockchain ( http://arxiv.org/abs/2307.00543v1 )

ライセンス: Link先を確認
Nanqing Dong, Zhipeng Wang, Jiahao Sun, Michael Kampffmeyer, Yizhe Wen, Shuoying Zhang, William Knottenbelt, Eric Xing(参考訳) ディープラーニングの時代、フェデレートドラーニング(FL)は、データプライバシを損なうことなく、多施設のデータ所有者やクライアントが協調して機械学習モデルをトレーニングできる有望なアプローチを提示している。 しかし、既存のFLアプローチのほとんどは、グローバルモデルアグリゲーションのための集中型サーバに依存しており、単一障害点につながる。 これにより、システムは不正なクライアントを扱う際に悪意のある攻撃に対して脆弱になる。 本研究では,ブロックチェーンと分散台帳技術に基づくセキュアで信頼性の高いFLシステムを提案することにより,この問題に対処する。 本システムでは,オンチェーン型スマートコントラクトを利用したピアツーピア投票機構と報酬アンドスラッシュ機構を組み込んで,悪意ある行動の検出と検出を行う。 提案手法の有効性を実証するために,理論的および実証的な解析を行った結果,我々のフレームワークは悪意のあるクライアント側の動作に対して堅牢であることがわかった。

In the era of deep learning, federated learning (FL) presents a promising approach that allows multi-institutional data owners, or clients, to collaboratively train machine learning models without compromising data privacy. However, most existing FL approaches rely on a centralized server for global model aggregation, leading to a single point of failure. This makes the system vulnerable to malicious attacks when dealing with dishonest clients. In this work, we address this problem by proposing a secure and reliable FL system based on blockchain and distributed ledger technology. Our system incorporates a peer-to-peer voting mechanism and a reward-and-slash mechanism, which are powered by on-chain smart contracts, to detect and deter malicious behaviors. Both theoretical and empirical analyses are presented to demonstrate the effectiveness of the proposed approach, showing that our framework is robust against malicious client-side behaviors.
翻訳日:2023-07-05 15:26:19 公開日:2023-07-02
# フェデレーション強化学習を用いたクラウドエッジ端末IoTネットワークにおける動的スケジューリングタスクの協調的ポリシー学習

Collaborative Policy Learning for Dynamic Scheduling Tasks in Cloud-Edge-Terminal IoT Networks Using Federated Reinforcement Learning ( http://arxiv.org/abs/2307.00541v1 )

ライセンス: Link先を確認
Do-Yup Kim, Da-Eun Lee, Ji-Wan Kim, Hyun-Suk Lee(参考訳) 本稿では,エッジが様々な動的スケジューリングタスクを実行するクラウドエッジ端末型IoTネットワークについて検討する。 これらのIoTネットワークでは、各タスクの中央ポリシーをクラウドサーバで構築することができる。 中央ポリシーは、タスクを実行するエッジによって使用することができるため、彼ら自身のポリシをゼロから学ぶ必要が軽減される。 さらに、この中心的なポリシは、IoTネットワークの階層的なアーキテクチャのおかげで、エッジからローカルエクスペリエンスを集約することで、クラウドサーバで共同で学習することができる。 そこで本研究では,協調強化学習を用いた動的スケジューリングタスクのための新しい協調ポリシー学習フレームワークを提案する。 効果的な学習のために,本フレームワークは各ラウンドで協調学習を行うタスクを適応的に選択し,タスク間の公平さを考慮に入れた。 また,フレームワークの重要な実現要因として,異なるエッジからのローカルポリシの集約を可能にするエッジに依存しないポリシ構造を提案する。 次に、フレームワークの収束分析を提供する。 シミュレーションにより,提案手法が協調的な政策学習を行なわずに,アプローチを著しく上回ることを示す。 特に、ポリシーの学習速度を加速し、新しく到着したエッジがより簡単にタスクに適応できるようにする。

In this paper, we examine cloud-edge-terminal IoT networks, where edges undertake a range of typical dynamic scheduling tasks. In these IoT networks, a central policy for each task can be constructed at a cloud server. The central policy can be then used by the edges conducting the task, thereby mitigating the need for them to learn their own policy from scratch. Furthermore, this central policy can be collaboratively learned at the cloud server by aggregating local experiences from the edges, thanks to the hierarchical architecture of the IoT networks. To this end, we propose a novel collaborative policy learning framework for dynamic scheduling tasks using federated reinforcement learning. For effective learning, our framework adaptively selects the tasks for collaborative learning in each round, taking into account the need for fairness among tasks. In addition, as a key enabler of the framework, we propose an edge-agnostic policy structure that enables the aggregation of local policies from different edges. We then provide the convergence analysis of the framework. Through simulations, we demonstrate that our proposed framework significantly outperforms the approaches without collaborative policy learning. Notably, it accelerates the learning speed of the policies and allows newly arrived edges to adapt to their tasks more easily.
翻訳日:2023-07-05 15:25:59 公開日:2023-07-02
# フレーム間相互作用とモード間相関によるビデオオブジェクトセグメンテーションの参照

Referring Video Object Segmentation with Inter-Frame Interaction and Cross-Modal Correlation ( http://arxiv.org/abs/2307.00536v1 )

ライセンス: Link先を確認
Meng Lan, Fu Rong, Lefei Zhang(参考訳) ビデオオブジェクトセグメンテーション(RVOS)は、対象オブジェクトを言語表現によって記述されたビデオシーケンスにセグメントすることを目的としている。 典型的なクエリベースの手法は、フレームに依存しない方法でビデオシーケンスを処理し、高い計算コストを削減するが、時間的コヒーレンスモデリングと参照対象の時空間表現学習のためのフレーム間相互作用の欠如により、パフォーマンスに影響を及ぼす。 また、視覚的特徴と言語的特徴の弱い相関がターゲット情報をデコードすることの難しさを増加させ、モデルの性能を制限した、言語的特徴をデコードするための言語クエリとして、生および高水準の文機能を直接採用している。 本稿では,これらの問題に対処するために,ifirvos と呼ばれる新しい rvos フレームワークを提案する。 具体的には、トランスフォーマーデコーダのプラグアンドプレイフレーム間相互作用モジュールを設計し、参照オブジェクトの時空間的特徴を効率的に学習し、ビデオシーケンス内のオブジェクト情報をより正確にデコードし、より正確なセグメンテーション結果を生成する。 さらに,マルチモーダルトランスフォーマの前に視覚言語間インタラクションモジュールを考案し,視覚特徴と言語特徴の相関性を高めることにより,トランスフォーマデコーダにおける言語クエリによる視覚特徴からオブジェクト情報を復号するプロセスを容易にし,セグメンテーション性能を向上させる。 3つのベンチマークによる大規模な実験結果から,IFIRVOSの最先端手法に対する優位性と提案モジュールの有効性が検証された。

Referring video object segmentation (RVOS) aims to segment the target object in a video sequence described by a language expression. Typical query-based methods process the video sequence in a frame-independent manner to reduce the high computational cost, which however affects the performance due to the lack of inter-frame interaction for temporal coherence modeling and spatio-temporal representation learning of the referred object. Besides, they directly adopt the raw and high-level sentence feature as the language queries to decode the visual features, where the weak correlation between visual and linguistic features also increases the difficulty of decoding the target information and limits the performance of the model. In this paper, we proposes a novel RVOS framework, dubbed IFIRVOS, to address these issues. Specifically, we design a plug-and-play inter-frame interaction module in the Transformer decoder to efficiently learn the spatio-temporal features of the referred object, so as to decode the object information in the video sequence more precisely and generate more accurate segmentation results. Moreover, we devise the vision-language interaction module before the multimodal Transformer to enhance the correlation between the visual and linguistic features, thus facilitating the process of decoding object information from visual features by language queries in Transformer decoder and improving the segmentation performance. Extensive experimental results on three benchmarks validate the superiority of our IFIRVOS over state-of-the-art methods and the effectiveness of our proposed modules.
翻訳日:2023-07-05 15:25:40 公開日:2023-07-02
# 自由方向知識蒸留によるグラフニューラルネットワークの共有成長

Shared Growth of Graph Neural Networks via Free-direction Knowledge Distillation ( http://arxiv.org/abs/2307.00534v1 )

ライセンス: Link先を確認
Kaituo Feng, Yikun Miao, Changsheng Li, Ye Yuan, Guoren Wang(参考訳) 知識蒸留(KD)は,より深い教師GNNからより浅い学生GNNへ知識を抽出することを目的としたグラフニューラルネットワーク(GNN)の性能向上に有効であることが示されている。 しかし、よく知られた過度にパラメータ化され過度にスムースな問題のために、十分に深いGNNを訓練することはしばしば困難であり、実用的なアプリケーションでは知識の伝達が無効になる。 本稿では,より高度に最適化された教師GNNを提供するのに不要な,GNNの強化学習(FreeKD)による初のフリーダイレクト知識蒸留フレームワークを提案する。 私たちの核となるアイデアは、階層的な方法で強化学習を通じて知識を交換するために、より浅い2つのgnnを共同学習することです。 1つの典型的なGNNモデルは、トレーニング中に異なるノードでより良く、より悪いパフォーマンスを示すことが多いので、動的かつ自由方向の知識伝達戦略を考案する。 1)ノードレベル動作は、2つのネットワークの対応するノード間の知識伝達の方向を決定する。 2) 構造レベルアクションは、ノードレベルアクションが伝搬する局所構造のいずれかを決定する。 さらに、マルチビュー入力を扱う際に異なるGNNに存在する多様な知識を考慮し、マルチビュー入力で動作する複数の浅いGNN間で自由方向の知識伝達を可能にするソリューションとしてFreeKD++を導入する。 5つのベンチマークデータセットに対する大規模な実験により、我々のアプローチはベースGNNよりも大きなマージンで優れており、様々なGNNに対して有効性を示している。 さらに驚くべきことに、私たちのFreeKDは、より深く強力な教師GNNから知識を抽出する従来のKDアルゴリズムと比べて、同等か、さらに優れたパフォーマンスを持っています。

Knowledge distillation (KD) has shown to be effective to boost the performance of graph neural networks (GNNs), where the typical objective is to distill knowledge from a deeper teacher GNN into a shallower student GNN. However, it is often quite challenging to train a satisfactory deeper GNN due to the well-known over-parametrized and over-smoothing issues, leading to invalid knowledge transfer in practical applications. In this paper, we propose the first Free-direction Knowledge Distillation framework via reinforcement learning for GNNs, called FreeKD, which is no longer required to provide a deeper well-optimized teacher GNN. Our core idea is to collaboratively learn two shallower GNNs in an effort to exchange knowledge between them via reinforcement learning in a hierarchical way. As we observe that one typical GNN model often exhibits better and worse performances at different nodes during training, we devise a dynamic and free-direction knowledge transfer strategy that involves two levels of actions: 1) node-level action determines the directions of knowledge transfer between the corresponding nodes of two networks; and then 2) structure-level action determines which of the local structures generated by the node-level actions to be propagated. Furthermore, considering the diverse knowledge present in different GNNs when dealing with multi-view inputs, we introduce FreeKD++ as a solution to enable free-direction knowledge transfer among multiple shallow GNNs operating on multi-view inputs. Extensive experiments on five benchmark datasets demonstrate our approaches outperform the base GNNs in a large margin, and shows their efficacy to various GNNs. More surprisingly, our FreeKD has comparable or even better performance than traditional KD algorithms that distill knowledge from a deeper and stronger teacher GNN.
翻訳日:2023-07-05 15:25:11 公開日:2023-07-02
# 学習オートマトンを用いたセルフイッシュマイニングとダブルスペンディングアタックのリスク軽減のための新しい知的防御システム

New intelligent defense systems to reduce the risks of Selfish Mining and Double-Spending attacks using Learning Automata ( http://arxiv.org/abs/2307.00529v1 )

ライセンス: Link先を確認
Seyed Ardalan Ghoreishi and Mohammad Reza Meybodi(参考訳) 本稿では、ブロックチェーンベースのデジタル通貨における二重投機と自己中心的なマイニング攻撃の重大な課題に対処する。 ダブルスペンディング(double-spending)は、デジタル通貨取引中に同じテンダーが複数回費やされる問題であり、一方利己的なマイニングは、ある採掘者または鉱山労働者のグループに対する報酬を増やすためのブロックチェーンの意図的な変更である。 これら2つの攻撃を組み合わせる新たな攻撃を導入し、それらに関連するリスクを軽減するための機械学習ベースのソリューションを提案する。 具体的には,強力なオンライン学習手法であるlearning automatonを用いて,利己的なマイニング攻撃に対して効果的に防御できるsdtlaとwvbmという2つのモデルを開発した。 以上の結果から,sdtla法は利己的な鉱業の収益性閾値を最大47$%$まで向上させるが,wvbm法はさらに優れており,各鉱夫の収益が共有ハッシュ処理能力に比例する理想的な状況に非常に近いことがわかった。 さらに, 両手法が$Z$パラメータを調整することにより, ダブルスペンディングのリスクを効果的に低減できることを示す。 ブロックチェーンネットワークのセキュリティと効率を向上させるための有望なソリューションとして、sdtlaとwvbmの可能性を強調する。

In this paper, we address the critical challenges of double-spending and selfish mining attacks in blockchain-based digital currencies. Double-spending is a problem where the same tender is spent multiple times during a digital currency transaction, while selfish mining is an intentional alteration of a blockchain to increase rewards to one miner or a group of miners. We introduce a new attack that combines both these attacks and propose a machine learning-based solution to mitigate the risks associated with them. Specifically, we use the learning automaton, a powerful online learning method, to develop two models, namely the SDTLA and WVBM, which can effectively defend against selfish mining attacks. Our experimental results show that the SDTLA method increases the profitability threshold of selfish mining up to 47$\%$, while the WVBM method performs even better and is very close to the ideal situation where each miner's revenue is proportional to their shared hash processing power. Additionally, we demonstrate that both methods can effectively reduce the risks of double-spending by tuning the $Z$ Parameter. Our findings highlight the potential of SDTLA and WVBM as promising solutions for enhancing the security and efficiency of blockchain networks.
翻訳日:2023-07-05 15:24:40 公開日:2023-07-02
# グラフニューラルネットワークを用いたログ異常検出と説明

Graph Neural Network based Log Anomaly Detection and Explanation ( http://arxiv.org/abs/2307.00527v1 )

ライセンス: Link先を確認
Zhong Li, Jiayang Shi, Matthijs van Leeuwen(参考訳) イベントログはハイテクシステムの状態を記録するために広く使われており、ログ異常検出はシステムを監視する上で重要である。 既存のログ異常検出手法のほとんどは、ログイベントカウントマトリックスまたはログイベントシーケンスを入力として、ログイベント間の量的および/または逐次的な関係を利用して異常を検出する。 残念ながら、量的あるいは逐次的な関係を考慮すれば、多くの偽陽性や偽陰性につながる可能性がある。 この問題を軽減するために,まずイベントログを属性付き,方向付き,重み付きグラフに変換し,次にグラフニューラルネットワークを利用してグラフレベルの異常検出を行う,Logs2Graphsという,教師なしログ異常検出のためのグラフベースの手法を提案する。 具体的には、属性付き、有向、重み付きグラフの集合において、グラフレベルの異常を検出する新しいグラフニューラルネットワークモデルであるOCDiGCNと略されるOne-Class Digraph Inception Convolutional Networksを紹介する。 グラフ表現と異常検出ステップを結合することにより、OCDiGCNは特に異常検出に適した表現を学ぶことができ、高い検出精度が得られる。 重要なことに、同定された各異常に対して、OCDiGCNの予測を説明として重要な役割を果たす少数のノードも提供し、その後の根本原因診断に有用な手がかりを提供する。 5つのベンチマークデータセットにおける実験では、logs2graphsは、単純なデータセット上では少なくとも最先端のログ異常検出メソッドを実行し、複雑なデータセットでは最先端のログ異常検出メソッドをほとんど上回っている。

Event logs are widely used to record the status of high-tech systems, making log anomaly detection important for monitoring those systems. Most existing log anomaly detection methods take a log event count matrix or log event sequences as input, exploiting quantitative and/or sequential relationships between log events to detect anomalies. Unfortunately, only considering quantitative or sequential relationships may result in many false positives and/or false negatives. To alleviate this problem, we propose a graph-based method for unsupervised log anomaly detection, dubbed Logs2Graphs, which first converts event logs into attributed, directed, and weighted graphs, and then leverages graph neural networks to perform graph-level anomaly detection. Specifically, we introduce One-Class Digraph Inception Convolutional Networks, abbreviated as OCDiGCN, a novel graph neural network model for detecting graph-level anomalies in a collection of attributed, directed, and weighted graphs. By coupling the graph representation and anomaly detection steps, OCDiGCN can learn a representation that is especially suited for anomaly detection, resulting in a high detection accuracy. Importantly, for each identified anomaly, we additionally provide a small subset of nodes that play a crucial role in OCDiGCN's prediction as explanations, which can offer valuable cues for subsequent root cause diagnosis. Experiments on five benchmark datasets show that Logs2Graphs performs at least on par state-of-the-art log anomaly detection methods on simple datasets while largely outperforming state-of-the-art log anomaly detection methods on complicated datasets.
翻訳日:2023-07-05 15:24:15 公開日:2023-07-02
# ClipSitu:状況認識における条件予測のためのCLIPの有効活用

ClipSitu: Effectively Leveraging CLIP for Conditional Predictions in Situation Recognition ( http://arxiv.org/abs/2307.00586v1 )

ライセンス: Link先を確認
Debaditya Roy, Dhruv Verma, Basura Fernando(参考訳) 状況認識とは、活動動詞とアクターやオブジェクトによって演じられる意味的役割を用いて、画像内で起こっていることの構造化された要約を生成するタスクである。 このタスクでは、同じアクティビティ動詞が多様な状況の集合を記述することができ、同じアクターやオブジェクトカテゴリが、画像に表示される状況に応じて多様なセマンティックな役割を演じることができる。 したがって、モデルは画像の文脈と意味役割の視覚的言語学的意味を理解する必要がある。 そこで我々は,言語記述を通して画像の文脈を学習したCLIP基盤モデルを活用する。 より深い多層パーセプトロン(MLP)ブロックは、CLIP画像とテキスト埋め込み機能を用いて、状況認識タスクの注目すべき結果が得られることを示し、CLIPがカプセル化した外部暗黙的視覚言語知識と現代のMLPブロック設計の表現力のおかげで、トランスフォーマーベースのモデルであるCoFormerよりも優れていた。 テキストの役割と視覚的実体の関係をモデル化するCLIPビジュアルトークンを用いた横断的アテンションベースのトランスフォーマーを設計する。 ClipSitu XTFとして知られる当社のクロスアテンションベースのトランスフォーマーは、Imsituデータセットを使用してトップ1の精度で意味的役割ラベリング(値)を14.1%向上させ、既存の最先端技術よりも優れています。 私たちはそのコードを公開します。

Situation Recognition is the task of generating a structured summary of what is happening in an image using an activity verb and the semantic roles played by actors and objects. In this task, the same activity verb can describe a diverse set of situations as well as the same actor or object category can play a diverse set of semantic roles depending on the situation depicted in the image. Hence model needs to understand the context of the image and the visual-linguistic meaning of semantic roles. Therefore, we leverage the CLIP foundational model that has learned the context of images via language descriptions. We show that deeper-and-wider multi-layer perceptron (MLP) blocks obtain noteworthy results for the situation recognition task by using CLIP image and text embedding features and it even outperforms the state-of-the-art CoFormer, a Transformer-based model, thanks to the external implicit visual-linguistic knowledge encapsulated by CLIP and the expressive power of modern MLP block designs. Motivated by this, we design a cross-attention-based Transformer using CLIP visual tokens that model the relation between textual roles and visual entities. Our cross-attention-based Transformer known as ClipSitu XTF outperforms existing state-of-the-art by a large margin of 14.1% on semantic role labelling (value) for top-1 accuracy using imSitu dataset. We will make the code publicly available.
翻訳日:2023-07-05 15:18:16 公開日:2023-07-02
# 頸動脈プラーク分割と超音波画像からの分類のためのマルチタスク学習フレームワーク

A multi-task learning framework for carotid plaque segmentation and classification from ultrasound images ( http://arxiv.org/abs/2307.00583v1 )

ライセンス: Link先を確認
Haitao Gan and Ran Zhou and Yanghan Ou and Furong Wang and Xinyao Cheng and Xiaoyan Wu and Aaron Fenster(参考訳) 動脈硬化の治療と脳卒中リスク評価において頸動脈プラーク分節と分類が重要である。 深層学習法は, 頸動脈プラークのセグメンテーションと分類に用いられているが, 主に単一課題に焦点を当て, 頸動脈プラークのセグメンテーションと分類の関係を無視している。 そこで本研究では,領域重みモジュール (RWM) と標本重みモジュール (SWM) を用いた超音波頸動脈プラーク分類と分類のためのマルチタスク学習フレームワークを提案する。 RWMは、分類タスクに対するプラークな地域事前知識を提供し、SWMは、分割タスクのカテゴリ的なサンプル重量を学習するために設計されている。 総計1270枚の頸動脈プラークの2次元超音波画像が,中国湖南省の病院から採取された。 実験の結果,提案手法は1つのタスクで訓練された既存ネットワークと比較して,85.82%の分類精度,84.92%のDice類似度係数で性能を著しく向上させることができることがわかった。 アブレーション実験では,設計したRWMとSWMの両方がネットワークの性能向上に有効であることを示した。 そこで本手法は,臨床および臨床における頸動脈プラーク解析に有用であると考えられた。

Carotid plaque segmentation and classification play important roles in the treatment of atherosclerosis and assessment for risk of stroke. Although deep learning methods have been used for carotid plaque segmentation and classification, most focused on a single task and ignored the relationship between the segmentation and classification of carotid plaques. Therefore, we propose a multi-task learning framework for ultrasound carotid plaque segmentation and classification, which utilizes a region-weight module (RWM) and a sample-weight module (SWM) to exploit the correlation between these two tasks. The RWM provides a plaque regional prior knowledge to the classification task, while the SWM is designed to learn the categorical sample weight for the segmentation task. A total of 1270 2D ultrasound images of carotid plaques were collected from Zhongnan Hospital (Wuhan, China) for our experiments. The results of the experiments showed that the proposed method can significantly improve the performance compared to existing networks trained for a single task, with an accuracy of 85.82% for classification and a Dice similarity coefficient of 84.92% for segmentation. In the ablation study, the results demonstrated that both the designed RWM and SWM were beneficial in improving the network's performance. Therefore, we believe that the proposed method could be useful for carotid plaque analysis in clinical trials and practice.
翻訳日:2023-07-05 15:17:46 公開日:2023-07-02
# 高精度・リアルタイムデータ解析のための機械学習によるIoTによる大気質モニタリングシステム

IoT-Based Air Quality Monitoring System with Machine Learning for Accurate and Real-time Data Analysis ( http://arxiv.org/abs/2307.00580v1 )

ライセンス: Link先を確認
Hemanth Karnati(参考訳) 都市部の大気汚染は、人間の健康と環境の両方に深刻な影響をもたらし、主に自動車からの排気によって引き起こされる。 大気汚染の認識に対処するために、大気汚染監視システムは、大気中のCO2、煙、アルコール、ベンゼン、NH3などのガス濃度を測定するために使用される。 しかし,現在のモバイルアプリケーションでは,位置情報に特有のリアルタイムデータをユーザに提供できない。 本稿では,どこでも使用できる携帯型空気品質検出装置の開発を提案する。 収集されたデータはクラウドベースのwebアプリthinkspeakを使って保存および可視化される。 この装置は2つのセンサー、mq135とmq3を使用して有害ガスを検出し、ppm(part per million)の空気品質を測定する。 さらに、収集したデータに機械学習分析を適用する。

Air pollution in urban areas has severe consequences for both human health and the environment, predominantly caused by exhaust emissions from vehicles. To address the issue of air pollution awareness, Air Pollution Monitoring systems are used to measure the concentration of gases like CO2, smoke, alcohol, benzene, and NH3 present in the air. However, current mobile applications are unable to provide users with real-time data specific to their location. In this paper, we propose the development of a portable air quality detection device that can be used anywhere. The data collected will be stored and visualized using the cloud-based web app ThinkSpeak. The device utilizes two sensors, MQ135 and MQ3, to detect harmful gases and measure air quality in parts per million (PPM). Additionally, machine learning analysis will be employed on the collected data.
翻訳日:2023-07-05 15:17:21 公開日:2023-07-02
# バイオメトリック解析のためのtinysiamese network

TinySiamese Network for Biometric Analysis ( http://arxiv.org/abs/2307.00578v1 )

ライセンス: Link先を確認
Islem Jarraya, Tarek M. Hamdani, Habib Chabchoub, Adel M. Alimi(参考訳) バイオメトリック認識(biometric recognition)は、画像やビデオにおける人間の特性を検証または分類するプロセスである。 これは、畳み込みニューラルネットワーク(CNN)やシームズネットワークなど、機械学習アルゴリズムを必要とする複雑なタスクである。 さらに、これらのアルゴリズムを画像検証や分類タスクに使用する場合、考慮すべきいくつかの制限がある。 実際、トレーニングは計算集約的であり、トレーニングとデプロイには特別なハードウェアと重要な計算リソースが必要である。 さらに、大量のラベル付きデータが必要であり、時間と費用がかかる。 提案されたTinySiameseと標準のSiameseの主な利点は、トレーニングにCNN全体を必要としないことである。 実際、予め訓練されたcnnを特徴抽出器とtinysiameseを使って抽出された特徴を学習することは、生体認証の標準のsiameseとほとんど同じ性能と効率をもたらした。 このようにして、tinysiameseは、メモリと計算時間の問題を、少ない層で解決する。 通常のGPUを持ち、大きなRAMスペースを割り当てることができない低消費電力マシンで実行することができる。 わずか8 GOのTinySiameseを使用すると、マッチング時間はB2F(指紋と顔の生体画像)、FVC2000、FVC2002、FVC2004で76.78%減少し、10エポックのトレーニング時間はB2F、FVC2002、THDD-part1、CASIA-Bデータセットで93.14%減少した。 指紋、歩行(NM角180度)、顔認証の精度は標準シームズの精度よりも0.87%、20.24%、および3.85%向上した。 TinySiameseは指紋および歩行分類タスクに関連する作業と同等の精度を達成した。

Biometric recognition is the process of verifying or classifying human characteristics in images or videos. It is a complex task that requires machine learning algorithms, including convolutional neural networks (CNNs) and Siamese networks. Besides, there are several limitations to consider when using these algorithms for image verification and classification tasks. In fact, training may be computationally intensive, requiring specialized hardware and significant computational resources to train and deploy. Moreover, it necessitates a large amount of labeled data, which can be time-consuming and costly to obtain. The main advantage of the proposed TinySiamese compared to the standard Siamese is that it does not require the whole CNN for training. In fact, using a pre-trained CNN as a feature extractor and the TinySiamese to learn the extracted features gave almost the same performance and efficiency as the standard Siamese for biometric verification. In this way, the TinySiamese solves the problems of memory and computational time with a small number of layers which did not exceed 7. It can be run under low-power machines which possess a normal GPU and cannot allocate a large RAM space. Using TinySiamese with only 8 GO of memory, the matching time decreased by 76.78% on the B2F (Biometric images of Fingerprints and Faces), FVC2000, FVC2002 and FVC2004 while the training time for 10 epochs went down by approximately 93.14% on the B2F, FVC2002, THDD-part1 and CASIA-B datasets. The accuracy of the fingerprint, gait (NM-angle 180 degree) and face verification tasks was better than the accuracy of a standard Siamese by 0.87%, 20.24% and 3.85% respectively. TinySiamese achieved comparable accuracy with related works for the fingerprint and gait classification tasks.
翻訳日:2023-07-05 15:17:07 公開日:2023-07-02
# 量子鍵分布におけるカスケードの利用

Using Cascade in Quantum Key Distribution ( http://arxiv.org/abs/2307.00576v1 )

ライセンス: Link先を確認
Devashish Tupkary, Norbert L\"utkenhaus(参考訳) 本稿では,2方向誤り訂正プロトコルカスケードを用いた量子鍵分配(QKD)プロトコルの解析における重大な欠陥を指摘する。 具体的には、この欠陥はカスケードプロトコルの期間中に発生する双方向通信の完全な考慮から来ている。 我々は,この欠陥に対処し,有効な鍵レートを生成する,単純でエレガントなアプローチを提案する。 我々は、Qubit BB84およびDecoy-State BB84プロトコルにおいて、キーレートと古い不正なアプローチを用いて生成された手法を比較して、新しいアプローチを例示する。 多くの現実的な状況において、我々の修正されたアプローチは、古い、誤ったアプローチと同じ鍵レートを生み出す。 しかし,他のシナリオでは,カスケード中の双方向通信を適切に考慮することの重要性が強調され,有効な鍵レートが低下する。

We point out a critical flaw in the analysis of Quantum Key Distribution (QKD) protocols that employ the two-way error correction protocol Cascade. Specifically, this flaw stems from an incom-plete consideration of all two-way communication that occurs during the Cascade protocol. We present a straightforward and elegant alternative approach that addresses this flaw and produces valid key rates. We exemplify our new approach by comparing its key rates with those generated using older, incorrect approaches, for Qubit BB84 and Decoy-State BB84 protocols. We show that in many practically relevant situations, our rectified approach produces the same key rate as older, incorrect approaches. However, in other scenarios, our approach produces valid key rates that are lower, highlighting the importance of properly accounting for all two-way communication during Cascade.
翻訳日:2023-07-05 15:16:32 公開日:2023-07-02
# モードワイズ主部分空間追従と行列スパイク共分散モデル

Mode-wise Principal Subspace Pursuit and Matrix Spiked Covariance Model ( http://arxiv.org/abs/2307.00575v1 )

ライセンス: Link先を確認
Runshi Tang and Ming Yuan and Anru R. Zhang(参考訳) 本稿では,行列データの行次元と列次元の両方に隠れたバリエーションを抽出するMOP-UP(Mode-wise principal Subspace Pursuit)を提案する。 フレームワークの理解を深めるために,MOP-UPアルゴリズムの開発にインスピレーションを与える,行列変量スパイク共分散モデルのクラスを導入する。 MOP-UPアルゴリズムはAverage Subspace Capture (ASC) と Alternating Projection (AP) の2つのステップで構成されている。 これらのステップは、データの最も情報性の高い特徴を含む行単位と列単位の次元還元された部分空間を捉えるように設計されている。 ASCは、新しい平均射影演算子を初期化として、ノイズのない設定で正確な回復を実現する。 MOP-UPの収束および非漸近誤差境界を解析し、古典的摂動境界が失敗する所望の境界を証明するブロックワイズ行列固有値摂動境界を導入する。 提案フレームワークの有効性と実用性は、シミュレーションと実データの両方の実験を通して実証される。 最後に,高次データに対するアプローチの一般化について述べる。

This paper introduces a novel framework called Mode-wise Principal Subspace Pursuit (MOP-UP) to extract hidden variations in both the row and column dimensions for matrix data. To enhance the understanding of the framework, we introduce a class of matrix-variate spiked covariance models that serve as inspiration for the development of the MOP-UP algorithm. The MOP-UP algorithm consists of two steps: Average Subspace Capture (ASC) and Alternating Projection (AP). These steps are specifically designed to capture the row-wise and column-wise dimension-reduced subspaces which contain the most informative features of the data. ASC utilizes a novel average projection operator as initialization and achieves exact recovery in the noiseless setting. We analyze the convergence and non-asymptotic error bounds of MOP-UP, introducing a blockwise matrix eigenvalue perturbation bound that proves the desired bound, where classic perturbation bounds fail. The effectiveness and practical merits of the proposed framework are demonstrated through experiments on both simulated and real datasets. Lastly, we discuss generalizations of our approach to higher-order data.
翻訳日:2023-07-05 15:16:20 公開日:2023-07-02
# 時間整合ヒトアニメーションのための双方向時間拡散モデル

Bidirectional Temporal Diffusion Model for Temporally Consistent Human Animation ( http://arxiv.org/abs/2307.00574v1 )

ライセンス: Link先を確認
Tserendorj Adiya, Sanghun Kim, ung Eun Lee, Jae Shin Yoon and Hwasup Lim(参考訳) 本稿では,映像,映像,無作為な雑音から時間的コヒーレントな人間のアニメーションを生成する手法を提案する。 この問題は、過去のフレームを後退させて将来のフレームをデコードする自動回帰生成のモデリングとして定式化されている。 しかし、このような一方向生成は時間とともに動きが漂う傾向が高く、外観歪みのような重要な人工物を持つ非現実的な人間のアニメーションを生成する。 双方向の時間的モデリングは,人間の顔の運動のあいまいさをほとんど抑制することにより,生成ネットワーク上で時間的コヒーレンスを強制する。 ニューラルネットワークは、中間結果を連続フレーム間で双方向に条件付けした時相ガウス雑音を復調することにより、人の画像を生成することを学習する。 実験では,実時間的コヒーレンスを持つ既存一方向アプローチと比較して強い性能を示す。

We introduce a method to generate temporally coherent human animation from a single image, a video, or a random noise. This problem has been formulated as modeling of an auto-regressive generation, i.e., to regress past frames to decode future frames. However, such unidirectional generation is highly prone to motion drifting over time, generating unrealistic human animation with significant artifacts such as appearance distortion. We claim that bidirectional temporal modeling enforces temporal coherence on a generative network by largely suppressing the motion ambiguity of human appearance. To prove our claim, we design a novel human animation framework using a denoising diffusion model: a neural network learns to generate the image of a person by denoising temporal Gaussian noises whose intermediate results are cross-conditioned bidirectionally between consecutive frames. In the experiments, our method demonstrates strong performance compared to existing unidirectional approaches with realistic temporal coherence
翻訳日:2023-07-05 15:16:01 公開日:2023-07-02
# SSP:会話検索のための自己教師付きポストトレーニング

SSP: Self-Supervised Post-training for Conversational Search ( http://arxiv.org/abs/2307.00569v1 )

ライセンス: Link先を確認
Quan Tu, Shen Gao, Xiaolong Wu, Zhao Cao, Ji-Rong Wen and Rui Yan(参考訳) 対話型検索は次世代の検索パラダイムとみなされている。 データ不足によって制約された既存の手法のほとんどは、訓練されたアドホックレトリバーを会話レトリバーに蒸留する。 しかし、これらの手法は通常、クエリ再構成によってパラメータを初期化してコンテキスト依存を発見するが、対話構造情報の理解や文脈意味の消滅に苦慮する。 本稿では,対話構造と文脈意味理解を強化するために,対話型検索モデルを効率的に初期化するための3つの自己指導タスクを備えた新しい訓練後パラダイムである'fullmodel(\model)を提案する。 さらに、 \model は、パフォーマンスを向上させるために既存の会話モデルの多くにプラグインすることができる。 提案手法の有効性を検証するために,CAsT-19 と CAsT-20 の2つのベンチマークデータセットを用いた対話検索タスクに, \model で訓練後の会話エンコーダを適用した。 既存の対話型検索手法の性能向上を図った実験を行った。 ソースコードは \url{https://github.com/morecry/ssp} で利用可能です。

Conversational search has been regarded as the next-generation search paradigm. Constrained by data scarcity, most existing methods distill the well-trained ad-hoc retriever to the conversational retriever. However, these methods, which usually initialize parameters by query reformulation to discover contextualized dependency, have trouble in understanding the dialogue structure information and struggle with contextual semantic vanishing. In this paper, we propose \fullmodel (\model) which is a new post-training paradigm with three self-supervised tasks to efficiently initialize the conversational search model to enhance the dialogue structure and contextual semantic understanding. Furthermore, the \model can be plugged into most of the existing conversational models to boost their performance. To verify the effectiveness of our proposed method, we apply the conversational encoder post-trained by \model on the conversational search task using two benchmark datasets: CAsT-19 and CAsT-20. Extensive experiments that our \model can boost the performance of several existing conversational search methods. Our source code is available at \url{https://github.com/morecry/SSP}.
翻訳日:2023-07-05 15:15:46 公開日:2023-07-02
# 複数のカメラビューからの監視映像におけるMILによる異常検出

A MIL Approach for Anomaly Detection in Surveillance Videos from Multiple Camera Views ( http://arxiv.org/abs/2307.00562v1 )

ライセンス: Link先を確認
Silas Santiago Lopes Pereira, Jos\'e Everardo Bessa Maia(参考訳) 閉塞と乱れは、監視ビデオで異常を検出するのが難しくなる2つのシーン状態である。 さらに、異常事象は稀であり、結果として、クラス不均衡とラベル付き異常データの欠如もこの課題の重要な特徴である。 そのため、この用途には弱い教師付き手法が深く研究されている。 本稿では、ラベルの欠如に対処するためにMIL(Multiple Instance Learning)とMC(Multiple Camera Views)を組み合わせることで、監視ビデオにおける異常検出の典型的な問題に取り組む。 得られたMC-MILアルゴリズムでは、SultaniのMILランキング関数を用いた回帰ネットワークのトレーニングに多重カメラ複合損失関数を適用した。 ここで最初に提案されたMC-MILアルゴリズムを評価するために、複数のカメラビューからの異常検出タスクに対して、複数のカメラPETS-2009ベンチマークデータセットを再ラベルした。 その結果、シングルカメラ構成に比べてF1スコアが大幅に向上した。

Occlusion and clutter are two scene states that make it difficult to detect anomalies in surveillance video. Furthermore, anomaly events are rare and, as a consequence, class imbalance and lack of labeled anomaly data are also key features of this task. Therefore, weakly supervised methods are heavily researched for this application. In this paper, we tackle these typical problems of anomaly detection in surveillance video by combining Multiple Instance Learning (MIL) to deal with the lack of labels and Multiple Camera Views (MC) to reduce occlusion and clutter effects. In the resulting MC-MIL algorithm we apply a multiple camera combined loss function to train a regression network with Sultani's MIL ranking function. To evaluate the MC-MIL algorithm first proposed here, the multiple camera PETS-2009 benchmark dataset was re-labeled for the anomaly detection task from multiple camera views. The result shows a significant performance improvement in F1 score compared to the single-camera configuration.
翻訳日:2023-07-05 15:15:28 公開日:2023-07-02
# 量子暗号によるエントロピーの蓄積

Entropy Accumulation under Post-Quantum Cryptographic Assumptions ( http://arxiv.org/abs/2307.00559v1 )

ライセンス: Link先を確認
Ilya Merkulov, Rotem Arnon-Friedman(参考訳) デバイス非依存(di)量子プロトコルでは、セキュリティステートメントは量子デバイスの特徴付けに従わない。 最もよく知られた設定はいわゆる非局所的なもので、互いに通信できない2つのデバイスがベルの不等式に違反している。 近年では、単一のデバイスのみを必要とする新しいDIプロトコルが登場している。 この新たな研究経路では、通信不要の仮定は計算的な仮定に置き換えられ、すなわち、デバイスは量子後の特定の暗号処理を解くことができない。 例えば、文献で分析されたランダム性証明のためのプロトコルはアドホックな証明手法を使用しており、達成された結果の強さはその複雑さのために判断し比較することは困難である。 本稿では,非局所diプロトコルの研究から得られたアイデアに基づいて,単一デバイス計算環境のためのモジュラー証明手法を開発した。 本稿では、エントロピー不確実性関係やエントロピー累積定理といった量子情報理論からのツールの組み合わせを利用して、そのようなプロトコルの安全性を証明するフレキシブルな枠組みを提案する。 これにより、明確で単純なセキュリティの証明と、明示的な定量的境界が導かれる。 我々の研究は、量子化後の暗号仮定に基づくdi乱数生成、拡張、増幅、鍵分布の将来のプロトコル分析の基盤として機能する。

In device-independent (DI) quantum protocols, the security statements are oblivious to the characterization of the quantum apparatus - they are based solely on the classical interaction with the quantum devices as well as some well-defined assumptions. The most commonly known setup is the so-called non-local one, in which two devices that cannot communicate between themselves present a violation of a Bell inequality. In recent years, a new variant of DI protocols, that requires only a single device, arose. In this novel research avenue, the no-communication assumption is replaced with a computational assumption, namely, that the device cannot solve certain post-quantum cryptographic tasks. The protocols for, e.g., randomness certification, in this setting that have been analyzed in the literature used ad hoc proof techniques and the strength of the achieved results is hard to judge and compare due to their complexity. Here, we build on ideas coming from the study of non-local DI protocols and develop a modular proof technique for the single-device computational setting. We present a flexible framework for proving the security of such protocols by utilizing a combination of tools from quantum information theory, such as the entropic uncertainty relation and the entropy accumulation theorem. This leads to an insightful and simple proof of security, as well as to explicit quantitative bounds. Our work acts as the basis for the analysis of future protocols for DI randomness generation, expansion, amplification and key distribution based on post-quantum cryptographic assumptions.
翻訳日:2023-07-05 15:15:10 公開日:2023-07-02
# 潜時拡散モデルを用いた後方サンプリングによる線形逆問題の解法

Solving Linear Inverse Problems Provably via Posterior Sampling with Latent Diffusion Models ( http://arxiv.org/abs/2307.00619v1 )

ライセンス: Link先を確認
Litu Rout and Negin Raoof and Giannis Daras and Constantine Caramanis and Alexandros G. Dimakis and Sanjay Shakkottai(参考訳) 本稿では,事前学習した潜在拡散モデルを利用した線形逆問題の最初の枠組みを提案する。 従来提案されたアルゴリズム(DPSやDDRMなど)はピクセル空間拡散モデルにのみ適用される。 線形モデル設定において,証明可能なサンプル回復を示すアルゴリズムを理論的に解析する。 我々の分析から得られたアルゴリズム的洞察は、実際よく考慮されるより一般的な設定にまで拡張される。 実験では, ランダムな塗り込み, ブロック塗り込み, デノージング, デブロリング, デトリップ, スーパーレゾリューションなど, 様々な問題において, 従来提案していた後方サンプリングアルゴリズムを上回った。

We present the first framework to solve linear inverse problems leveraging pre-trained latent diffusion models. Previously proposed algorithms (such as DPS and DDRM) only apply to pixel-space diffusion models. We theoretically analyze our algorithm showing provable sample recovery in a linear model setting. The algorithmic insight obtained from our analysis extends to more general settings often considered in practice. Experimentally, we outperform previously proposed posterior sampling algorithms in a wide variety of problems including random inpainting, block inpainting, denoising, deblurring, destriping, and super-resolution.
翻訳日:2023-07-05 15:06:56 公開日:2023-07-02
# Bounce: Combinatorと混合スペースのための信頼性の高いベイズ最適化アルゴリズム

Bounce: a Reliable Bayesian Optimization Algorithm for Combinatorial and Mixed Spaces ( http://arxiv.org/abs/2307.00618v1 )

ライセンス: Link先を確認
Leonard Papenmeier, Luigi Nardi, Matthias Poloczek(参考訳) 材料発見、ハードウェア設計、ニューラルアーキテクチャ探索、ポートフォリオ最適化などのインパクトのあるアプリケーションでは、複合入力空間と組合せ入力空間で高次元ブラックボックス関数を最適化する必要がある。 ベイズ最適化は近年、そのような問題を解決する上で大きな進歩を遂げているが、詳細な分析の結果、現在の最先端の手法は信頼できないことが判明した。 それらの性能は、関数の未知の最適度が特定の構造を持っていない場合に著しく低下する。 組合せ空間と混合空間に対する信頼性のあるアルゴリズムの必要性を補うために,様々な変数型の新しい写像を次元が増大する入れ子埋め込みに頼ったバウンスを提案する。 総合的な実験により、バウンスは様々な高次元問題に対する最先端の性能を確実に達成し、しばしば改善することを示した。

Impactful applications such as materials discovery, hardware design, neural architecture search, or portfolio optimization require optimizing high-dimensional black-box functions with mixed and combinatorial input spaces. While Bayesian optimization has recently made significant progress in solving such problems, an in-depth analysis reveals that the current state-of-the-art methods are not reliable. Their performances degrade substantially when the unknown optima of the function do not have a certain structure. To fill the need for a reliable algorithm for combinatorial and mixed spaces, this paper proposes Bounce that relies on a novel map of various variable types into nested embeddings of increasing dimensionality. Comprehensive experiments show that Bounce reliably achieves and often even improves upon state-of-the-art performance on a variety of high-dimensional problems.
翻訳日:2023-07-05 15:06:45 公開日:2023-07-02
# 皮膚病変分類のための特徴抽出器としての前方アルゴリズム:予備的検討

The Forward-Forward Algorithm as a feature extractor for skin lesion classification: A preliminary study ( http://arxiv.org/abs/2307.00617v1 )

ライセンス: Link先を確認
Abel Reyes-Angulo and Sidike Paheding(参考訳) 皮膚がんは致命的ながんであり、米国では23倍の生存率を示し、診断は遅れている。 早期発見は生存率を大幅に増加させ、適時治療を容易にする。 正確なバイオメディカルイメージの分類は医療分析において不可欠であり、臨床医の疾患の診断と治療を支援する。 畳み込みニューラルネットワークやトランスフォーマーなどのディープラーニング(DL)技術は、臨床意思決定自動化に革命をもたらした。 しかし、計算コストとハードウェアの制約は最先端のDLアーキテクチャの実装を制限する。 本研究では,皮膚病変の分類を行うために,バックプロパゲーション(BP)を必要としない新しいタイプのニューラルネットワーク,すなわちフォワードフォワードアルゴリズム(FFA)を提案する。 FFAは非常に低消費電力のアナログハードウェアを使用しているとされているが、BPは分類精度の点で優れている傾向にある。 さらに, 実験結果から, FFAとBPの組み合わせは, より正確な予測を行うためのより良い代替となる可能性が示唆された。

Skin cancer, a deadly form of cancer, exhibits a 23\% survival rate in the USA with late diagnosis. Early detection can significantly increase the survival rate, and facilitate timely treatment. Accurate biomedical image classification is vital in medical analysis, aiding clinicians in disease diagnosis and treatment. Deep learning (DL) techniques, such as convolutional neural networks and transformers, have revolutionized clinical decision-making automation. However, computational cost and hardware constraints limit the implementation of state-of-the-art DL architectures. In this work, we explore a new type of neural network that does not need backpropagation (BP), namely the Forward-Forward Algorithm (FFA), for skin lesion classification. While FFA is claimed to use very low-power analog hardware, BP still tends to be superior in terms of classification accuracy. In addition, our experimental results suggest that the combination of FFA and BP can be a better alternative to achieve a more accurate prediction.
翻訳日:2023-07-05 15:06:31 公開日:2023-07-02
# カー非線形性の存在下でのjaynes-cummings dimerの非平衡ダイナミクス

Non-equilibrium dynamics of Jaynes-Cummings dimer in presence of Kerr nonlinearity ( http://arxiv.org/abs/2307.00614v1 )

ライセンス: Link先を確認
G. Vivek, Debabrata Mondal, and S. Sinha(参考訳) キャビティおよび回路量子電磁力学系で実現可能なkerr非線形性の存在下でのジョセフソン結合jaynes-cummings dimerの非平衡ダイナミクスについて検討する。 半古典力学は系統的に解析され、様々なフォトニックジョセフソン振動とその安定性の制御を図示する。 異なるタイプの自己捕捉状態は、様々な力学遷移によって現れ、2つのキャビティの間に光子集団の不均衡が生じる。 また, 異なる定常状態の特性の同定や, スピンデファスメント, 位相ゆらぎ, および光子場の再生現象, スピン量子ビットの絡み合いなど, 興味深い量子効果を探求するために, 動力学量子力学的に研究した。 特定の 'self trap' 状態の場合、原子量子ビット間の相互情報は光子集団の不均衡と直接相関を示し、光子を介する2つの非相互作用量子ビット間の絡み合いを制御的に生成することを約束する。 安定状態から不安定状態への急激なクエンチの下では、光子分布は熱状態に似たコヒーレンスが急速に失われる相空間の混合を示す。 最後に、量子情報処理や量子技術に応用できる実験における新しい結果の関連性について論じる。

We investigate the non-equilibrium dynamics of a Josephson coupled Jaynes-Cummings dimer in the presence of Kerr nonlinearity, which can be realized in the cavity and circuit quantum electrodynamics systems. The semiclassical dynamics is analyzed systematically to chart out a variety of photonic Josephson oscillations and their regime of stability. Different types of self trapped states appear due to various dynamical transitions, resulting in a photon population imbalance between the two cavities. We also study the dynamics quantum mechanically to identify characteristic features of different steady states and to explore fascinating quantum effects, such as spin dephasing, phase fluctuation and revival phenomena of the photon field, as well as the entanglement of spin qubits. For a particular `self trapped' state, the mutual information between the atomic qubits exhibits a direct correlation with the photon population imbalance, which is promising for generating photon mediated entanglement between two apparently non interacting qubits in a controlled manner. Under a sudden quench from stable to unstable regime, the photon distribution exhibits phase space mixing with a rapid loss of coherence, resembling a thermal state. Finally, we discuss the relevance of the new results in experiment, which can have applications in quantum information processing and quantum technologies.
翻訳日:2023-07-05 15:06:16 公開日:2023-07-02
# Fraunhofer SIT at CheckThat! 2023年:マルチモーダルツイートのチェックウェアネスを推定するためにシングルモーダル分類器を混合

Fraunhofer SIT at CheckThat! 2023: Mixing Single-Modal Classifiers to Estimate the Check-Worthiness of Multi-Modal Tweets ( http://arxiv.org/abs/2307.00610v1 )

ライセンス: Link先を確認
Raphael Frick, Inna Vogel(参考訳) ソーシャルメディア上で画像、ビデオ、オーディオファイルを共有するオプションは、インターネット上で偽情報と偽ニュースを区別する新たな可能性を開く。 ソーシャルメディア上で毎秒に大量のデータが共有されているため、すべてのデータがコンピュータや人間の専門家によって検証されるわけではない。 ここで、チェック値解析は、ファクトチェックパイプラインの第1ステップとして、また、効率を改善するフィルタリングメカニズムとして使用できる。 本稿では,マルチモーダルつぶやきのチェック性を検出する新しい手法を提案する。 1つのモダリティで訓練された2つの分類器を利用する。 画像データについては,OCR解析による埋め込みテキストの抽出が最良であることが示されている。 2つの分類器を組み合わせることで、提案されたソリューションは最初にCheckThatに配置することができた! 2023 タスク1a プライベートテストセットで達成された f1 スコア 0.7297 のタスク1。

The option of sharing images, videos and audio files on social media opens up new possibilities for distinguishing between false information and fake news on the Internet. Due to the vast amount of data shared every second on social media, not all data can be verified by a computer or a human expert. Here, a check-worthiness analysis can be used as a first step in the fact-checking pipeline and as a filtering mechanism to improve efficiency. This paper proposes a novel way of detecting the check-worthiness in multi-modal tweets. It takes advantage of two classifiers, each trained on a single modality. For image data, extracting the embedded text with an OCR analysis has shown to perform best. By combining the two classifiers, the proposed solution was able to place first in the CheckThat! 2023 Task 1A with an F1 score of 0.7297 achieved on the private test set.
翻訳日:2023-07-05 15:05:50 公開日:2023-07-02
# 時間依存プロジェクタと開量子系への熱力学的アプローチの一般化について

On time-dependent projectors and on generalization of thermodynamical approach to open quantum systems ( http://arxiv.org/abs/2307.00607v1 )

ライセンス: Link先を確認
K. Sh. Meretukov, A. E. Teretenkov(参考訳) 本稿では,プロジェクタが時間に依存する場合の投影法に基づく時間局所マスター方程式を得るための一貫した摂動手法を開発する。 次に、川崎ガントンプロジェクターの一般化を導入し、この手法を用いて、ある観測可能な集合と整合な任意のアンサーゼの場合、一般に非線形マスター方程式を導出することができる。 結果のほとんどは非常に一般的なものですが、議論ではこれらの結果のオープン量子システム理論への応用に重点を置いています。

In this paper, we develop a consistent perturbative technique for obtaining a time-local master equation based on projective methods in the case where the projector depends on time. We then introduce a generalization of the Kawasaki--Gunton projector, which allows us to use this technique to derive, generally speaking, nonlinear master equations in the case of arbitrary ansatzes consistent with some set of observables. Most of our results are very general, but in our discussion we focus on the application of these results to the theory of open quantum systems.
翻訳日:2023-07-05 15:05:38 公開日:2023-07-02
# 共鳴時のリングリング時間:Sb型トンネル装置の場合

Lingering Times at Resonance: The Case of Sb-based Tunneling Devices ( http://arxiv.org/abs/2307.00597v1 )

ライセンス: Link先を確認
Edgar David Guarin Castro, Andreas Pfenning, Fabian Hartmann, Andrea Naranjo, Georg Knebl, Marcio Daldin Teodoro, Gilmar Eugenio Marques, Sven H\"ofling, Gerald Bastard, Victor Lopez-Richard(参考訳) 緩和、再結合、トラップおよびドリフト過程に関連する同時的自然時間スケールは、電荷キャリアフラックスが誘導されるときに外部ドライブに対する半導体ヘテロ構造の応答を制御する。 本稿では,電子ホールダイナミクスの定量的チューニングのみならず,共振トンネル装置の動作における時間分解光応答の有意な定性的コントラストにおいても,stoichiometryが果たす役割について述べる。 そのため, 構造パラメータ, 放射的再結合過程, 電子ホール対と少数担体緩和機構の相関を解明するために, 類似のデバイス構造と異なる組成を比較した。 これらの材料がsb系トンネル装置の電子構造と混合すると、同様の設計と輸送特性を持つas系トンネル装置で観測されたものと異なり、電流フラックスの強度に応じて様々な時間スケールを評価できることが証明される。 これらの時間スケールは、Sbベースの二重バリア量子井戸における$\Gamma$およびL状態の充填過程だけでなく、Asに基づく同様のヘテロ構造に比べて、これらの状態の分離によっても強い影響を受ける。

Concurrent natural time scales related to relaxation, recombination, trapping, and drifting processes rule the semiconductor heterostructures' response to external drives when charge carrier fluxes are induced. This paper highlights the role of stoichiometry not only for the quantitative tuning of the electron-hole dynamics but also for significant qualitative contrasts of time-resolved optical responses during the operation of resonant tunneling devices. Therefore, similar device architectures and different compositions have been compared to elucidate the correlation among structural parameters, radiative recombination processes, and electron-hole pair and minority carrier relaxation mechanisms. When these ingredients intermix with the electronic structure in Sb-based tunneling devices, it is proven possible to assess various time scales according to the intensity of the current flux, contrary to what has been observed in As-based tunneling devices with similar design and transport characteristics. These time scales are strongly affected not only by the filling process in the $\Gamma$ and L states in Sb-based double-barrier quantum wells but also by the small separation between these states, compared to similar heterostructures based on As.
翻訳日:2023-07-05 15:05:28 公開日:2023-07-02
# RH20T:ワンショットで多様なスキルを学習するロボットデータセット

RH20T: A Robotic Dataset for Learning Diverse Skills in One-Shot ( http://arxiv.org/abs/2307.00595v1 )

ライセンス: Link先を確認
Hao-Shu Fang, Hongjie Fang, Zhenyu Tang, Jirong Liu, Junbo Wang, Haoyi Zhu, Cewu Lu(参考訳) オープンドメインでのロボット操作における重要な課題は、ロボットの多様な一般化可能なスキルの獲得方法である。 ワンショット模倣学習における最近の研究は、訓練されたポリシーをデモに基づいて新しいタスクに移す約束を示している。 この機能は、ロボットが新しいスキルを身につけ、タスクや動きの計画を改善するのに役立ちます。 しかしながら、トレーニングデータセットの制限のため、コミュニティの現在の焦点は主に、視覚的なガイダンスのみに依存するプッシュやピックプレースタスクのような単純なケースに置かれている。 現実には、多くの複雑なスキルがあり、そのいくつかは、視覚と触覚の両方の知覚を必要とする。 本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。 そこで本研究では,実世界における110,000以上のemph{contact-rich}ロボット操作シーケンスからなるデータセットを,さまざまなスキル,コンテキスト,ロボット,カメラ視点で収集した。 データセットの各シーケンスには、視覚、力、音声、アクション情報と対応する人間のデモンストレーションビデオが含まれている。 我々は、すべてのセンサーの校正と高品質なデータセットの確保に多大な努力を払っています。 データセットはrh20t.github.ioで公開されている

A key challenge in robotic manipulation in open domains is how to acquire diverse and generalizable skills for robots. Recent research in one-shot imitation learning has shown promise in transferring trained policies to new tasks based on demonstrations. This feature is attractive for enabling robots to acquire new skills and improving task and motion planning. However, due to limitations in the training dataset, the current focus of the community has mainly been on simple cases, such as push or pick-place tasks, relying solely on visual guidance. In reality, there are many complex skills, some of which may even require both visual and tactile perception to solve. This paper aims to unlock the potential for an agent to generalize to hundreds of real-world skills with multi-modal perception. To achieve this, we have collected a dataset comprising over 110,000 \emph{contact-rich} robot manipulation sequences across diverse skills, contexts, robots, and camera viewpoints, all collected \emph{in the real world}. Each sequence in the dataset includes visual, force, audio, and action information, along with a corresponding human demonstration video. We have invested significant efforts in calibrating all the sensors and ensuring a high-quality dataset. The dataset is made publicly available at rh20t.github.io
翻訳日:2023-07-05 15:05:11 公開日:2023-07-02
# X-MLP: ビジョンのためのパッチ埋め込みなしMLPアーキテクチャ

X-MLP: A Patch Embedding-Free MLP Architecture for Vision ( http://arxiv.org/abs/2307.00592v1 )

ライセンス: Link先を確認
Xinyue Wang, Zhicheng Cai and Chenglei Peng(参考訳) convolutional neural networks (cnns) と vision transformers (vit) はコンピュータビジョンにおいて大きな業績を上げている。 近年、視覚のための多層パーセプトロン(mlp)アーキテクチャの研究が再び盛んになっている。 ビジョンMLPは、畳み込みや自己注意操作から独立して設計されている。 しかし、既存のビジョンMLPアーキテクチャは常にパッチ埋め込みの畳み込みに依存している。 そこで我々は,完全連結層上に完全に構築されたアーキテクチャであるX-MLPを提案する。 特徴を極端に分離し、mlpを使用して、幅、高さ、チャネルの次元を独立して交互に情報をやり取りする。 x-mlpは10のベンチマークデータセットでテストされ、すべて他のvision mlpモデルよりも優れたパフォーマンスを得る。 さまざまなデータセットに対して明確なマージンでCNNを超えています。 さらに,空間重みを数学的に復元することにより,特徴マップ内の任意の画素間の情報通信を可視化し,長距離依存を捉える現象を観察する。

Convolutional neural networks (CNNs) and vision transformers (ViT) have obtained great achievements in computer vision. Recently, the research of multi-layer perceptron (MLP) architectures for vision have been popular again. Vision MLPs are designed to be independent from convolutions and self-attention operations. However, existing vision MLP architectures always depend on convolution for patch embedding. Thus we propose X-MLP, an architecture constructed absolutely upon fully connected layers and free from patch embedding. It decouples the features extremely and utilizes MLPs to interact the information across the dimension of width, height and channel independently and alternately. X-MLP is tested on ten benchmark datasets, all obtaining better performance than other vision MLP models. It even surpasses CNNs by a clear margin on various dataset. Furthermore, through mathematically restoring the spatial weights, we visualize the information communication between any couples of pixels in the feature map and observe the phenomenon of capturing long-range dependency.
翻訳日:2023-07-05 15:04:50 公開日:2023-07-02
# BioCPT:ゼロショットバイオメディカル情報検索のための大規模PubMed検索ログ付きコントラスト事前学習トランス

BioCPT: Contrastive Pre-trained Transformers with Large-scale PubMed Search Logs for Zero-shot Biomedical Information Retrieval ( http://arxiv.org/abs/2307.00589v1 )

ライセンス: Link先を確認
Qiao Jin, Won Kim, Qingyu Chen, Donald C. Comeau, Lana Yeganova, John Wilbur, Zhiyong Lu(参考訳) 情報検索(IR)は、バイオメディカル知識獲得と臨床決定支援に不可欠である。 近年,言語モデルエンコーダのセマンティック検索が向上していることが示されているが,このようなモデルのトレーニングには,バイオメディシンでは入手が困難である大量のクエリーアーティクルアノテーションが必要である。 その結果、ほとんどの生体赤外系は語彙マッチングのみを行う。 そこで本研究では,ゼロショットバイオメディカルIRのためのコントラスト事前学習トランスフォーマモデルであるBioCPTを紹介する。 BioCPTをトレーニングするために、PubMedから2億5500万のユーザクリックログを収集しました。 このようなデータを用いて、コントラスト学習を用いて、密接に統合されたレトリバーとリランクラーのペアを訓練する。 実験結果から,バイオCPTは5つのバイオメディカルIRタスクに新たな最先端性能を設定し,GPT-3サイズのcpt-text-XLのような大きなモデルを含む様々なベースラインを上回った。 さらに、BioCPTは、セマンティック評価のためのより良いバイオメディカル記事や文表現を生成する。 このように、バイオCPTは様々な現実世界の生体医学IRタスクに容易に適用できる。 BioCPT APIとコードはhttps://github.com/ncbi/BioCPTで公開されている。

Information retrieval (IR) is essential in biomedical knowledge acquisition and clinical decision support. While recent progress has shown that language model encoders perform better semantic retrieval, training such models requires abundant query-article annotations that are difficult to obtain in biomedicine. As a result, most biomedical IR systems only conduct lexical matching. In response, we introduce BioCPT, a first-of-its-kind Contrastively Pre-trained Transformer model for zero-shot biomedical IR. To train BioCPT, we collected an unprecedented scale of 255 million user click logs from PubMed. With such data, we use contrastive learning to train a pair of closely-integrated retriever and re-ranker. Experimental results show that BioCPT sets new state-of-the-art performance on five biomedical IR tasks, outperforming various baselines including much larger models such as GPT-3-sized cpt-text-XL. In addition, BioCPT also generates better biomedical article and sentence representations for semantic evaluations. As such, BioCPT can be readily applied to various real-world biomedical IR tasks. BioCPT API and code are publicly available at https://github.com/ncbi/BioCPT.
翻訳日:2023-07-05 15:04:35 公開日:2023-07-02
# 単一制約木を用いたマルチエージェントターゲット割り当てと経路探索の解法

Solving Multi-Agent Target Assignment and Path Finding with a Single Constraint Tree ( http://arxiv.org/abs/2307.00663v1 )

ライセンス: Link先を確認
Yimin Tang, Zhongqiang Ren, Jiaoyang Li, Katia Sycara(参考訳) 目標割り当て問題と経路探索問題(tapf: target-assignment and path-finding problem)は、エージェントに対して同時にターゲットを割り当てることと、エージェントの開始位置から割り当てられたターゲットへの衝突のない経路を計画することである。 TAPFに対処するための主要なアプローチとして、CBS-TA(Conflict-Based Search with Target Assignment)は、K-bestターゲットの割り当てを利用して複数の検索ツリーを作成し、CBS(Conflict-Based Search)は各検索ツリーの衝突を解決する。 最適解を見つけることができる一方で、cbs-taは複数の木で重複する衝突解決とk-best代入の高価な計算のためにスケーラビリティに苦しむ。 そこで我々は,この2つの計算ボトルネックを回避するために,Incremental Target Assignment CBS (ITA-CBS) を開発した。 ITA-CBSは、単一の検索ツリーのみを生成し、検索中に新しい1-bestの割り当てをインクリメンタルに計算することで、K-bestの割り当ての計算を避ける。 我々は,理論上,ITA-CBSは最適解を見つけることが保証され,実際は計算効率が高いことを示す。

Combined Target-Assignment and Path-Finding problem (TAPF) requires simultaneously assigning targets to agents and planning collision-free paths for agents from their start locations to their assigned targets. As a leading approach to address TAPF, Conflict-Based Search with Target Assignment (CBS-TA) leverages both K-best target assignments to create multiple search trees and Conflict-Based Search (CBS) to resolve collisions in each search tree. While being able to find an optimal solution, CBS-TA suffers from scalability due to the duplicated collision resolution in multiple trees and the expensive computation of K-best assignments. We therefore develop Incremental Target Assignment CBS (ITA-CBS) to bypass these two computational bottlenecks. ITA-CBS generates only a single search tree and avoids computing K-best assignments by incrementally computing new 1-best assignments during the search. We show that, in theory, ITA-CBS is guaranteed to find an optimal solution and, in practice, is computationally efficient.
翻訳日:2023-07-05 14:58:53 公開日:2023-07-02
# 数値関連ルールマイニング:体系的文献レビュー

Numerical Association Rule Mining: A Systematic Literature Review ( http://arxiv.org/abs/2307.00662v1 )

ライセンス: Link先を確認
Minakshi Kaushik and Rahul Sharma and Iztok Fister Jr. and Dirk Draheim(参考訳) アソシエーション・ルール・マイニングは、アソシエーション・ルール・マイニング手法の変種として広く用いられており、数値データにおけるパターンや関係の発見に広く用いられている。 当初、研究者や科学者は様々な離散化手法を用いて関連ルールマイニングに数値的属性を統合したが、この分野では多くの代替手法が登場してきた。 残念ながら, 代替手法の増加は, 数値結合ルールマイニングにおける多様な手法の理解において, 重要な知識ギャップを生じさせ, 総合的な体系的な文献レビューを行うことで, この知識ギャップを埋めようとしている。 1996年から2022年までの数値関連ルールマイニングの開始から1,140の学術論文から得られた多様な方法、アルゴリズム、メトリクス、データセットの詳細な研究を行った。 包括性、排他性、品質評価基準に従って68の論文が選択され、広く評価された。 我々の知る限り、この体系的な文献レビューは、現在の文献の網羅的な分析と、数値関連ルールマイニングに関する以前の調査を提供する最初のものである。 本稿は,数値関連ルールマイニングの重要課題,現状,今後の可能性について論じる。 この体系的なレビューに基づいて、この論文は、分割の人間的認識に合致する数値データの分割を提供することによって貢献する新しい離散化尺度も提示する。

Numerical association rule mining is a widely used variant of the association rule mining technique, and it has been extensively used in discovering patterns and relationships in numerical data. Initially, researchers and scientists integrated numerical attributes in association rule mining using various discretization approaches; however, over time, a plethora of alternative methods have emerged in this field. Unfortunately, the increase of alternative methods has resulted into a significant knowledge gap in understanding diverse techniques employed in numerical association rule mining -- this paper attempts to bridge this knowledge gap by conducting a comprehensive systematic literature review. We provide an in-depth study of diverse methods, algorithms, metrics, and datasets derived from 1,140 scholarly articles published from the inception of numerical association rule mining in the year 1996 to 2022. In compliance with the inclusion, exclusion, and quality evaluation criteria, 68 papers were chosen to be extensively evaluated. To the best of our knowledge, this systematic literature review is the first of its kind to provide an exhaustive analysis of the current literature and previous surveys on numerical association rule mining. The paper discusses important research issues, the current status, and future possibilities of numerical association rule mining. On the basis of this systematic review, the article also presents a novel discretization measure that contributes by providing a partitioning of numerical data that meets well human perception of partitions.
翻訳日:2023-07-05 14:58:33 公開日:2023-07-02
# 人工モラル剤の解釈可能性の最小レベル

Minimum Levels of Interpretability for Artificial Moral Agents ( http://arxiv.org/abs/2307.00660v1 )

ライセンス: Link先を確認
Avish Vijayaraghavan, Cosmin Badea(参考訳) 人工知能(AI)モデルが拡大を続けるにつれ、より能力が高くなり、さまざまな意思決定システムに統合されている。 道徳的意思決定に関わるモデル、別名「人為的モラルエージェント(ama)」では、解釈可能性(英語版)はエージェントの内部推論機構を信頼し理解し、効果的な使用と誤り訂正を行う手段を提供する。 本稿では,この急速に進化するAI解釈可能性のサブフィールドの概要を述べるとともに,MLI(Minimum Level of Interpretability)の概念を導入し,さまざまなエージェントに対してMLIを推奨し,実際の環境における安全なデプロイメントを支援する。

As artificial intelligence (AI) models continue to scale up, they are becoming more capable and integrated into various forms of decision-making systems. For models involved in moral decision-making, also known as artificial moral agents (AMA), interpretability provides a way to trust and understand the agent's internal reasoning mechanisms for effective use and error correction. In this paper, we provide an overview of this rapidly-evolving sub-field of AI interpretability, introduce the concept of the Minimum Level of Interpretability (MLI) and recommend an MLI for various types of agents, to aid their safe deployment in real-world settings.
翻訳日:2023-07-05 14:58:09 公開日:2023-07-02
# ニューロシンボリックsudokuソルバ

Neuro-Symbolic Sudoku Solver ( http://arxiv.org/abs/2307.00653v1 )

ライセンス: Link先を確認
Ashutosh Hathidara, Lalit Pandey(参考訳) ディープニューラルネットワークは、人間が簡単にできる複雑なタスクのいくつかで大きな成功を収めています。 画像認識/分類、自然言語処理、ゲームプレイなどが含まれる。 しかし、バックトラックや従来のアルゴリズムを使って簡単に解決できるタスクでトレーニングされた場合、現代のニューラルネットワークは失敗またはパフォーマンスが悪くなる。 そこで我々は,Nuro Logic Machine (NLM) のアーキテクチャを用いて,その機能を拡張し,9×9のスドゥークゲームを解決する。 nlmsの適用を拡大するために,解決されたゲームのデータセットからランダムなセルグリッドを生成し,最大10個の新しい空セルを割り当てる。 ゲームの目的は、1から9までの目標値を見つけ、有効な構成を維持しながら残りの空のセルを埋めることである。 本研究では,3から10までの空の細胞でスドクを解くための100%の精度が得られるNLMについて紹介する。 本研究の目的は, nlms が複雑な問題や sudoku のようなゲームを解決できることを示すことである。 また,同じ問題に対するグラフプロットを用いて収束時間を比較することで,バックトラッキングアルゴリズムを用いてnlmの挙動を解析した。 本研究では,従来のディープラーニングアーキテクチャが強化学習で失敗するタスクに対して,ニューラルロジックマシンをトレーニング可能であることを示す。 また,NLMのハイブリッドモデルにおける体系性を説明する上で,記号学習の重要性を提案する。

Deep Neural Networks have achieved great success in some of the complex tasks that humans can do with ease. These include image recognition/classification, natural language processing, game playing etc. However, modern Neural Networks fail or perform poorly when trained on tasks that can be solved easily using backtracking and traditional algorithms. Therefore, we use the architecture of the Neuro Logic Machine (NLM) and extend its functionality to solve a 9X9 game of Sudoku. To expand the application of NLMs, we generate a random grid of cells from a dataset of solved games and assign up to 10 new empty cells. The goal of the game is then to find a target value ranging from 1 to 9 and fill in the remaining empty cells while maintaining a valid configuration. In our study, we showcase an NLM which is capable of obtaining 100% accuracy for solving a Sudoku with empty cells ranging from 3 to 10. The purpose of this study is to demonstrate that NLMs can also be used for solving complex problems and games like Sudoku. We also analyze the behaviour of NLMs with a backtracking algorithm by comparing the convergence time using a graph plot on the same problem. With this study we show that Neural Logic Machines can be trained on the tasks that traditional Deep Learning architectures fail using Reinforcement Learning. We also aim to propose the importance of symbolic learning in explaining the systematicity in the hybrid model of NLMs.
翻訳日:2023-07-05 14:57:57 公開日:2023-07-02
# よりシナジーで冗長性が低い:自己指導型学習のための共同相互情報の爆発

More Synergy, Less Redundancy: Exploiting Joint Mutual Information for Self-Supervised Learning ( http://arxiv.org/abs/2307.00651v1 )

ライセンス: Link先を確認
Salman Mohamadi, Gianfranco Doretto, Donald A. Adjeroh(参考訳) 自己教師付き学習(SSL)は、データアノテーションを必要としないにもかかわらず、教師付き学習にとって深刻な競争相手となっている。 いくつかのベースラインは、SSLモデルをデータ配布に関する情報を利用して、拡張効果に頼らないよう試みている。 しかし、拡張ビューの表現間の相互情報の最大化や最小化がSSLモデルの性能改善や劣化に実質的に寄与するかどうかについては明確な合意は得られていない。 本稿では、SSLにおける相互情報の役割を調査し、相互情報に対する新たな視点の文脈でSSLの問題を再考する基礎研究である。 この目的のために、部分的情報分解(PID)の観点からの相互情報を、textbf{reliable multivariate information Measurement} における重要なステップとみなす。 pidは,協調的な相互情報を3つの重要な要素,すなわちユニークな情報,冗長な情報,相乗的情報に分解することを可能にする。 本フレームワークは,相乗的情報を同時に最大化しながら,ビューと所望のターゲット表現間の冗長情報を最小化することを目的とする。 実験の結果,2つの冗長化ベースラインの再校正と新たなSSLトレーニングプロトコルの提案が得られた。 複数のデータセットと2つの下流タスクに対する大規模な実験結果は、このフレームワークの有効性を示している。

Self-supervised learning (SSL) is now a serious competitor for supervised learning, even though it does not require data annotation. Several baselines have attempted to make SSL models exploit information about data distribution, and less dependent on the augmentation effect. However, there is no clear consensus on whether maximizing or minimizing the mutual information between representations of augmentation views practically contribute to improvement or degradation in performance of SSL models. This paper is a fundamental work where, we investigate role of mutual information in SSL, and reformulate the problem of SSL in the context of a new perspective on mutual information. To this end, we consider joint mutual information from the perspective of partial information decomposition (PID) as a key step in \textbf{reliable multivariate information measurement}. PID enables us to decompose joint mutual information into three important components, namely, unique information, redundant information and synergistic information. Our framework aims for minimizing the redundant information between views and the desired target representation while maximizing the synergistic information at the same time. Our experiments lead to a re-calibration of two redundancy reduction baselines, and a proposal for a new SSL training protocol. Extensive experimental results on multiple datasets and two downstream tasks show the effectiveness of this framework.
翻訳日:2023-07-05 14:57:35 公開日:2023-07-02
# ドメイン一般化改善のためのイントラ・イントラ・ソース・exemplar-based style synthesis

Intra- & Extra-Source Exemplar-Based Style Synthesis for Improved Domain Generalization ( http://arxiv.org/abs/2307.00648v1 )

ライセンス: Link先を確認
Yumeng Li, Dan Zhang, Margret Keuper, Anna Khoreva(参考訳) ドメインシフトに関する一般化は、自律運転のようなアプリケーションに頻繁に現れるように、ディープラーニングモデルにとって残る大きな課題の1つである。 そこで本研究では,意味セグメンテーションにおけるドメイン一般化を改善するために,exemplarベースのスタイル合成パイプラインを提案する。 提案手法は,StyleGAN2インバージョンのためのマスク付きノイズエンコーダに基づく。 モデルはイメージを忠実に再構築し、ノイズ予測を通じてセマンティックなレイアウトを保存する。 提案したマスク付きノイズエンコーダを用いてトレーニングセットのスタイルとコンテントの組み合わせをランダム化する。すなわち、ソース内スタイル拡張(ISSA)は、トレーニングデータの多様性を効果的に増加させ、スプリアス相関を減少させる。 その結果,異なるデータシフト,すなわち地理的な場所の変化,悪天候,昼夜の運転シーンセマンティックセマンティックセグメンテーションにおいて,最大12.4\%のmIoUの改善が達成された。 ISSAはモデルに依存しず、CNNやTransformerで簡単に適用できる。 また、他の領域一般化手法、例えば最近の最先端ソリューションであるRobustNetをCityscapesのmIoUをDark Z\"urichに$3\%改善している。 さらに,提案したスタイル合成パイプラインの強力なプラグインn-play能力を示す。これは,例えばWebcrawled画像のソース外例に対して,リトレーニングや微調整を行なわずに容易に利用できる。 さらに,スタイライズされたプロキシ検証セットを構築することで,ニューラルネットワークの一般化能力を示す新たなユースケースについて検討した。 このアプリケーションは、オープンな環境にデプロイされるモデルを選択するために非常に実用的な意味を持っている。 私たちのコードは \url{https://github.com/boschresearch/ISSA} で利用可能です。

The generalization with respect to domain shifts, as they frequently appear in applications such as autonomous driving, is one of the remaining big challenges for deep learning models. Therefore, we propose an exemplar-based style synthesis pipeline to improve domain generalization in semantic segmentation. Our method is based on a novel masked noise encoder for StyleGAN2 inversion. The model learns to faithfully reconstruct the image, preserving its semantic layout through noise prediction. Using the proposed masked noise encoder to randomize style and content combinations in the training set, i.e., intra-source style augmentation (ISSA) effectively increases the diversity of training data and reduces spurious correlation. As a result, we achieve up to $12.4\%$ mIoU improvements on driving-scene semantic segmentation under different types of data shifts, i.e., changing geographic locations, adverse weather conditions, and day to night. ISSA is model-agnostic and straightforwardly applicable with CNNs and Transformers. It is also complementary to other domain generalization techniques, e.g., it improves the recent state-of-the-art solution RobustNet by $3\%$ mIoU in Cityscapes to Dark Z\"urich. In addition, we demonstrate the strong plug-n-play ability of the proposed style synthesis pipeline, which is readily usable for extra-source exemplars e.g., web-crawled images, without any retraining or fine-tuning. Moreover, we study a new use case to indicate neural network's generalization capability by building a stylized proxy validation set. This application has significant practical sense for selecting models to be deployed in the open-world environment. Our code is available at \url{https://github.com/boschresearch/ISSA}.
翻訳日:2023-07-05 14:57:15 公開日:2023-07-02
# マルチクラスブースティング:単純で直感的な弱み学習基準

Multiclass Boosting: Simple and Intuitive Weak Learning Criteria ( http://arxiv.org/abs/2307.00642v1 )

ライセンス: Link先を確認
Nataly Brukhim, Amit Daniely, Yishay Mansour, Shay Moran(参考訳) マルチクラス設定へのブースティングの一般化について検討する。 弱学習可能性の概念を「ランダムな推測よりもわずかに良い」と捉えたマルチクラス分類のための弱学習条件を導入する。 実現可能性の仮定を必要とせず、サンプルとoracleの複雑性境界はクラス数に依存しない、シンプルで効率的なブースティングアルゴリズムを提供する。 さらに,新しいブースティング手法を,リストPAC学習の文脈におけるいくつかの理論的応用に活用する。 まず,弱pac学習に対する等価性を確立する。 さらに,リスト学習者の育成に関する新たな成果と,マルチクラスpac学習とリストpac学習の特徴付けの新たな証明を提案する。 特に,本手法は解析を単純化し,従来の結果と比較して大きなリストサイズに対するエラーバウンドを改善したことを示す。

We study a generalization of boosting to the multiclass setting. We introduce a weak learning condition for multiclass classification that captures the original notion of weak learnability as being "slightly better than random guessing". We give a simple and efficient boosting algorithm, that does not require realizability assumptions and its sample and oracle complexity bounds are independent of the number of classes. In addition, we utilize our new boosting technique in several theoretical applications within the context of List PAC Learning. First, we establish an equivalence to weak PAC learning. Furthermore, we present a new result on boosting for list learners, as well as provide a novel proof for the characterization of multiclass PAC learning and List PAC learning. Notably, our technique gives rise to a simplified analysis, and also implies an improved error bound for large list sizes, compared to previous results.
翻訳日:2023-07-05 14:56:38 公開日:2023-07-02
# 自動運転における説明特異性が乗客に及ぼす影響

Effects of Explanation Specificity on Passengers in Autonomous Driving ( http://arxiv.org/abs/2307.00633v1 )

ライセンス: Link先を確認
Daniel Omeiza, Raunak Bhattacharyya, Nick Hawes, Marina Jirotka, Lars Kunze(参考訳) 説明可能なAIアルゴリズムによって提供される説明の性質は、説明可能なAIと人間とコンピュータのインタラクションコミュニティにおいて関心の的になっている。 本稿では,自然言語説明の特異性が自律運転の乗客に与える影響について検討する。 説明生成のためのルールベースオプションを追加することで,既存のデータ駆動型ツリーベース説明アルゴリズムを拡張した。 固有性(抽象的・特定的)の異なる難聴性自然言語説明を作成し,没入型物理駆動シミュレーションを用いて対象内ユーザ調査(n=39)で実験を行った。 その結果, 抽象的・特異的な説明は, 乗客の安心感や不安感に類似した効果が認められた。 しかし、具体的説明は、乗客が自動運転車(AV)を乗っ取るという欲求に影響したが、抽象的な説明はしなかった。 自然言語による聴覚説明は、運転中の乗客にとって有用であり、その特異性レベルは、車内参加者が運転活動の制御を望んでいるかに影響する可能性があると結論づけた。

The nature of explanations provided by an explainable AI algorithm has been a topic of interest in the explainable AI and human-computer interaction community. In this paper, we investigate the effects of natural language explanations' specificity on passengers in autonomous driving. We extended an existing data-driven tree-based explainer algorithm by adding a rule-based option for explanation generation. We generated auditory natural language explanations with different levels of specificity (abstract and specific) and tested these explanations in a within-subject user study (N=39) using an immersive physical driving simulation setup. Our results showed that both abstract and specific explanations had similar positive effects on passengers' perceived safety and the feeling of anxiety. However, the specific explanations influenced the desire of passengers to takeover driving control from the autonomous vehicle (AV), while the abstract explanations did not. We conclude that natural language auditory explanations are useful for passengers in autonomous driving, and their specificity levels could influence how much in-vehicle participants would wish to be in control of the driving activity.
翻訳日:2023-07-05 14:56:25 公開日:2023-07-02
# 適応型および非適応型モーメントム最適化器に対する2重指数移動平均を用いた双方向探索

Bidirectional Looking with A Novel Double Exponential Moving Average to Adaptive and Non-adaptive Momentum Optimizers ( http://arxiv.org/abs/2307.00631v1 )

ライセンス: Link先を確認
Yineng Chen, Zuchao Li, Lefei Zhang, Bo Du, Hai Zhao(参考訳) 最適化はディープラーニングの成功に不可欠な要素であり、トレーニングセットの損失に応じてニューラルネットワークがパラメータを更新するように誘導する。 SGDとAdamは2つの古典的で効果的なオプティマイザであり、研究者はSGDMやRAdamなど多くの変種を提案している。 本稿では,オプティマイザアルゴリズムの後方的および前方的側面を革新的に結合し,新しい最適化フレームワークである \textsc{admeta} (\textbf{a} \textbf{d}ouble exponential \textbf{m}oving averag\textbf{e} \textbf{t}o \textbf{a}daptive and non-adaptive momentum) を提案する。 後ろ向きに見える部分については,株式市場の指標に動機づけられ,一般的な指数移動平均スキームに取って代わるdema変種スキームを提案する。 前方に見える部分では,漸近的にセット値に近づく動的ルックアヘッド戦略を示し,初期速度を維持し,最終段階では高い収束性能を示す。 この考えに基づいて、我々は2つの最適化実装を提供している: \textsc{AdmetaR} と \textsc{AdmetaS} 、前者はRAdam、後者はSGDMである。 多様なタスクに関する広範な実験により,提案した \textsc{Admeta} オプティマイザはベースオプティマイザよりも優れており,最近提案した競合オプティマイザよりも優位性を示す。 また、提案した \textsc{Admeta} の収束性を検証する2つのアルゴリズムの理論的証明も提供する。

Optimizer is an essential component for the success of deep learning, which guides the neural network to update the parameters according to the loss on the training set. SGD and Adam are two classical and effective optimizers on which researchers have proposed many variants, such as SGDM and RAdam. In this paper, we innovatively combine the backward-looking and forward-looking aspects of the optimizer algorithm and propose a novel \textsc{Admeta} (\textbf{A} \textbf{D}ouble exponential \textbf{M}oving averag\textbf{E} \textbf{T}o \textbf{A}daptive and non-adaptive momentum) optimizer framework. For backward-looking part, we propose a DEMA variant scheme, which is motivated by a metric in the stock market, to replace the common exponential moving average scheme. While in the forward-looking part, we present a dynamic lookahead strategy which asymptotically approaches a set value, maintaining its speed at early stage and high convergence performance at final stage. Based on this idea, we provide two optimizer implementations, \textsc{AdmetaR} and \textsc{AdmetaS}, the former based on RAdam and the latter based on SGDM. Through extensive experiments on diverse tasks, we find that the proposed \textsc{Admeta} optimizer outperforms our base optimizers and shows advantages over recently proposed competitive optimizers. We also provide theoretical proof of these two algorithms, which verifies the convergence of our proposed \textsc{Admeta}.
翻訳日:2023-07-05 14:56:07 公開日:2023-07-02
# denoising diffusion probabilistic modelを用いた変分自己符号化分子グラフ

Variational Autoencoding Molecular Graphs with Denoising Diffusion Probabilistic Model ( http://arxiv.org/abs/2307.00623v1 )

ライセンス: Link先を確認
Daiki Koge, Naoaki Ono and Shigehiko Kanaya(参考訳) データ駆動の薬物発見では、分子ディスクリプタの設計は非常に重要な課題である。 変分オートエンコーダ(VAE)のような深い生成モデルは、分子構造から派生した確率潜在ベクトルとして記述子を設計することで潜在的な解を提供する。 これらのモデルは、分子構造しか持たない大規模なデータセットで訓練でき、伝達学習に適用できる。 それにもかかわらず、通常のvaeの潜在ベクトルの近似的な後方分布は、ゼロ共分散を持つ単純多変量ガウス分布を仮定し、潜在特徴を表す性能を制限できる。 この制限を克服するために,階層構造を確率的潜在ベクトルに組み込んだ新しい分子深部生成モデルを提案する。 拡散確率モデル(DDPM)によりこれを達成した。 本モデルは,物理特性と活性に関する小さなデータセットを用いて,分子特性予測のための有効な分子潜在ベクトルを設計できることを実証する。 その結果,既存の手法と比較して予測性能と頑健性が向上した。

In data-driven drug discovery, designing molecular descriptors is a very important task. Deep generative models such as variational autoencoders (VAEs) offer a potential solution by designing descriptors as probabilistic latent vectors derived from molecular structures. These models can be trained on large datasets, which have only molecular structures, and applied to transfer learning. Nevertheless, the approximate posterior distribution of the latent vectors of the usual VAE assumes a simple multivariate Gaussian distribution with zero covariance, which may limit the performance of representing the latent features. To overcome this limitation, we propose a novel molecular deep generative model that incorporates a hierarchical structure into the probabilistic latent vectors. We achieve this by a denoising diffusion probabilistic model (DDPM). We demonstrate that our model can design effective molecular latent vectors for molecular property prediction from some experiments by small datasets on physical properties and activity. The results highlight the superior prediction performance and robustness of our model compared to existing approaches.
翻訳日:2023-07-05 14:55:29 公開日:2023-07-02
# CLIMAX: 分類器に基づくコントラスト説明の探索

CLIMAX: An exploration of Classifier-Based Contrastive Explanations ( http://arxiv.org/abs/2307.00680v1 )

ライセンス: Link先を確認
Praharsh Nanavati, Ranjitha Prasad(参考訳) 説明可能なaiは、機械学習モデルの意思決定を理解することを扱う進化した領域であり、これらのモデルをより透明で、説明可能で、人間にとって理解しやすいものにします。 特に、ポストホックモデル非依存のAI技術は、単一のインスタンスに対するブラックボックスMLモデルの決定を、MLモデルの本質的な性質を知らずに局所的に説明する。 シンプルさと価値ある洞察を提供する能力にもかかわらず、既存のアプローチは一貫性があり、信頼できる説明を提供することができない。 さらに、ブラックボックス分類器の文脈では、既存のアプローチは予測されたクラスを正当化するが、これらの方法は、説明スコアが他のクラスと大きく異なることを保証しない。 本稿では,ブラックボックス分類器の分類を正当化するための対比的説明と,他のクラスが予測されなかった理由の推論を提供するポストホックモデル非依存xai手法を提案する。 本手法は, コントラスト的ラベル認識型インフルエンスベースモデルxaiの略であるclimaxと呼ばれ, 局所的分類器に基づいている。 説明者のモデルの忠実性を保証するために、摂動をクラスバランスのよいサロゲートデータセットに導くようにする必要がある。 そこで我々は,ランダムなオーバーサンプリングとガウス混合モデルサンプリングに基づくラベル対応サロゲートデータ生成手法を提案する。 さらに, 有効試料の保持と試料の複雑さの確保のために, 影響サブサンプリングを提案する。 LIME, BayLIME, SLIMEなどのベースラインと比較して, 一貫性が向上することを示す。 また、テキストと画像に基づくデータセットに結果を記述し、興味のある場合にのみクラス確率をクエリできるブラックボックス分類モデルに対して、コントラスト的な説明を生成する。

Explainable AI is an evolving area that deals with understanding the decision making of machine learning models so that these models are more transparent, accountable, and understandable for humans. In particular, post-hoc model-agnostic interpretable AI techniques explain the decisions of a black-box ML model for a single instance locally, without the knowledge of the intrinsic nature of the ML model. Despite their simplicity and capability in providing valuable insights, existing approaches fail to deliver consistent and reliable explanations. Moreover, in the context of black-box classifiers, existing approaches justify the predicted class, but these methods do not ensure that the explanation scores strongly differ as compared to those of another class. In this work we propose a novel post-hoc model agnostic XAI technique that provides contrastive explanations justifying the classification of a black box classifier along with a reasoning as to why another class was not predicted. Our method, which we refer to as CLIMAX which is short for Contrastive Label-aware Influence-based Model Agnostic XAI, is based on local classifiers . In order to ensure model fidelity of the explainer, we require the perturbations to be such that it leads to a class-balanced surrogate dataset. Towards this, we employ a label-aware surrogate data generation method based on random oversampling and Gaussian Mixture Model sampling. Further, we propose influence subsampling in order to retaining effective samples and hence ensure sample complexity. We show that we achieve better consistency as compared to baselines such as LIME, BayLIME, and SLIME. We also depict results on textual and image based datasets, where we generate contrastive explanations for any black-box classification model where one is able to only query the class probabilities for an instance of interest.
翻訳日:2023-07-05 14:47:57 公開日:2023-07-02
# SDC-HSDD-NDSA:正規化密度と自己適応を考慮した階層的二次微分による構造検出クラスタ

SDC-HSDD-NDSA: Structure Detecting Cluster by Hierarchical Secondary Directed Differential with Normalized Density and Self-Adaption ( http://arxiv.org/abs/2307.00677v1 )

ライセンス: Link先を確認
Hao Shu(参考訳) 密度に基づくクラスタリングは、異なる(高密度)クラスタが低密度領域で分離される限り、任意の形状のクラスタを識別できるため、最も一般的なクラスタリングアルゴリズムである可能性がある。 しかし、低密度領域によるクラスタの分離要件は、高密度領域が異なるグループにクラスタ化されるべき異なる構造を持つため、簡単ではない。 このような状況は、密度の高いクラスタでは既知の構造が検出できない以前の密度ベースのクラスタリングアルゴリズムの最大の欠陥を示している。 そこで本稿では,前者では有する能力を持つだけでなく,低密度者では分離されない高密度領域の構造を検出できる密度ベースのクラスタリング方式を提案する。 このアルゴリズムは二次指向性差分、階層性、正規化密度、および自己適応係数を用いており、SDC-HSDD-NDSAによって略して呼ばれる正規化密度と自己適応を伴う階層的二次指向性差分による構造検出クラスタと呼ばれる。 その効果を説明するために、アルゴリズムを複数のデータセットで実行した。 その結果, 構造検出の妥当性, 騒音に対する頑健性, および粒度の独立性を検証し, 従来より優れていることを示した。 論文のPythonコードはhttps://github.com/Hao-B-Shu/SDC-HSDD-NDSAで確認できる。

Density-based clustering could be the most popular clustering algorithm since it can identify clusters of arbitrary shape as long as different (high-density) clusters are separated by low-density regions. However, the requirement of the separateness of clusters by low-density regions is not trivial since a high-density region might have different structures which should be clustered into different groups. Such a situation demonstrates the main flaw of all previous density-based clustering algorithms we have known--structures in a high-density cluster could not be detected. Therefore, this paper aims to provide a density-based clustering scheme that not only has the ability previous ones have but could also detect structures in a high-density region not separated by low-density ones. The algorithm employs secondary directed differential, hierarchy, normalized density, as well as the self-adaption coefficient, and thus is called Structure Detecting Cluster by Hierarchical Secondary Directed Differential with Normalized Density and Self-Adaption, dubbed by SDC-HSDD-NDSA for short. To illustrate its effectiveness, we run the algorithm in several data sets. The results verify its validity in structure detection, robustness over noises, as well as independence of granularities, and demonstrate that it could outperform previous ones. The Python code of the paper could be found on https://github.com/Hao-B-Shu/SDC-HSDD-NDSA.
翻訳日:2023-07-05 14:47:29 公開日:2023-07-02
# atlas: atlasによる3次元医用画像分割のためのテスト時間適応法

Pay Attention to the Atlas: Atlas-Guided Test-Time Adaptation Method for Robust 3D Medical Image Segmentation ( http://arxiv.org/abs/2307.00676v1 )

ライセンス: Link先を確認
Jingjie Guo, Weitong Zhang, Matthew Sinclair, Daniel Rueckert, Chen Chen(参考訳) 畳み込みニューラルネットワーク(CNN)は、トレーニング(ソース)データ分布とは異なるターゲットデータでテストした場合、特に、異なる臨床部位とスキャナーにわたるイメージングプロトコルのバリエーションが異なる画像の出現につながる医療画像アプリケーションにおいて、パフォーマンスが低下することが多い。 しかし、教師なしドメイン適応のためのソーストレーニングデータの再アクセスやモデル微調整のための追加テストデータへのラベル付けは、それぞれプライバシー問題と高いラベル付けコストのために困難である。 そこで本研究では,AdaAtlas と呼ばれる,堅牢な3次元医用画像分割のための新しいatlas-guided test-time adaptation (TTA)法を提案する。 AdaAtlasは1つの未ラベルのテストサンプルのみを入力として取り、アトラスベースの損失を最小限に抑えてセグメンテーションネットワークに適応する。 具体的には、登録後の予測がatlas空間で学習されたatlasと一致するようにネットワークを適応させ、テスト時に解剖学的セグメンテーションエラーを低減させる。 また、セグメント化ネットワークにおけるバッチ正規化ブロックへの適応を制限する既存のほとんどのTTA手法とは異なり、テスト時の適応性を向上させるためにチャネルおよび空間アテンションブロックの利用をさらに活用する。 AdaAtlas-Attention(AdaAtlas-Attention)に適応したアテンションブロックを持つAdaAtlasは優れたパフォーマンス向上を実現し、他の競合するTTA手法よりも大幅に優れていた。

Convolutional neural networks (CNNs) often suffer from poor performance when tested on target data that differs from the training (source) data distribution, particularly in medical imaging applications where variations in imaging protocols across different clinical sites and scanners lead to different imaging appearances. However, re-accessing source training data for unsupervised domain adaptation or labeling additional test data for model fine-tuning can be difficult due to privacy issues and high labeling costs, respectively. To solve this problem, we propose a novel atlas-guided test-time adaptation (TTA) method for robust 3D medical image segmentation, called AdaAtlas. AdaAtlas only takes one single unlabeled test sample as input and adapts the segmentation network by minimizing an atlas-based loss. Specifically, the network is adapted so that its prediction after registration is aligned with the learned atlas in the atlas space, which helps to reduce anatomical segmentation errors at test time. In addition, different from most existing TTA methods which restrict the adaptation to batch normalization blocks in the segmentation network only, we further exploit the use of channel and spatial attention blocks for improved adaptability at test time. Extensive experiments on multiple datasets from different sites show that AdaAtlas with attention blocks adapted (AdaAtlas-Attention) achieves superior performance improvements, greatly outperforming other competitive TTA methods.
翻訳日:2023-07-05 14:47:06 公開日:2023-07-02
# ENN: DCT適応活性化機能を持つニューラルネットワーク

ENN: A Neural Network with DCT-Adaptive Activation Functions ( http://arxiv.org/abs/2307.00673v1 )

ライセンス: Link先を確認
Marc Martinez-Gost, Ana P\'erez-Neira, Miguel \'Angel Lagunas(参考訳) ニューラルネットワークの表現性はアクティベーション関数の性質に大きく依存するが、トレーニング段階では事前に定義され固定されることが多い。 本稿では,非線形活性化関数を離散コサイン変換(dct)を用いてモデル化し,トレーニング中にバックプロパゲーションを用いて適応する,新しい表現型ニューラルネットワーク(enn)を提案する。 このパラメータ化は、トレーニング可能なパラメータの数を低く抑え、勾配ベースのスキームに適し、異なる学習タスクに適応する。 これは、信号処理の観点から、ネットワークに高い柔軟性と表現性を提供する、アクティベーション関数のための最初の非線形モデルである。 我々は,バンプの概念,すなわち出力空間における各アクティベーション関数の応答を回復することで,収束時のネットワークの説明可能性に関する洞察を寄与し,洞察を提供する。 最後に、徹底的な実験を通して、モデルが分類および回帰タスクに適応できることを示します。 ENNのパフォーマンスは、いくつかのシナリオで最大40倍の精度で、アートベンチマークの状態を上回ります。

The expressiveness of neural networks highly depends on the nature of the activation function, although these are usually assumed predefined and fixed during the training stage. In this paper we present Expressive Neural Network (ENN), a novel architecture in which the non-linear activation functions are modeled using the Discrete Cosine Transform (DCT) and adapted using backpropagation during training. This parametrization keeps the number of trainable parameters low, is appropriate for gradient-based schemes, and adapts to different learning tasks. This is the first non-linear model for activation functions that relies on a signal processing perspective, providing high flexibility and expressiveness to the network. We contribute with insights in the explainability of the network at convergence by recovering the concept of bump, this is, the response of each activation function in the output space to provide insights. Finally, through exhaustive experiments we show that the model can adapt to classification and regression tasks. The performance of ENN outperforms state of the art benchmarks, providing up to a 40\% gap in accuracy in some scenarios.
翻訳日:2023-07-05 14:46:37 公開日:2023-07-02
# 重ね合わせ現象としての芳香族の電子非局在化

Electron delocalization in aromaticity as a superposition phenomenon ( http://arxiv.org/abs/2307.00672v1 )

ライセンス: Link先を確認
Mahir H. Ye\c{s}iller and Onur Pusuluk(参考訳) この手紙は、量子化学の領域における量子重ね合わせの資源理論の適用と拡張を調査している。 具体的には, ベンゼンとその誘導体の構造対称性, エネルギー安定性, 化学反応性を解明するための基本概念である芳香族の探索に重点を置いている。 芳香族度と反芳香族性の両方が非直交原子軌道間の電子の非局在化と関連しているが、それらは普遍的に受け入れられ、包括的定義を欠いている。 生物直交原子軌道で示される真の量子重ね合わせは、分子の芳香族度秩序を効果的に捉えることを実証する。 これらの結果は、量子資源理論が重要な意味を持ち、化学結合現象の理解に新たな洞察を与えていることを示している。

This letter investigates the applications and extensions of the resource theory of quantum superposition within the realm of quantum chemistry. Specifically, our emphasis is placed on the exploration of aromaticity, a fundamental concept originally developed to elucidate the structural symmetry, energetic stability, and chemical reactivity of benzene and its derivatives. While both aromaticity and its counterpart, antiaromaticity, are associated with the delocalization of electrons between nonorthogonal atomic orbitals, they lack a universally accepted and comprehensive definition. We demonstrate that the genuine quantum superposition exhibited by biorthogonal atomic orbitals effectively captures the aromaticity order of molecules. These findings reveal that the quantum resource theories hold significant implications, offering fresh insights into our comprehension of chemical bonding phenomena.
翻訳日:2023-07-05 14:46:18 公開日:2023-07-02
# 問題類似性学習によるMILPソルバーの自動構成

Automatic MILP Solver Configuration By Learning Problem Similarities ( http://arxiv.org/abs/2307.00670v1 )

ライセンス: Link先を確認
Abdelrahman Hosny, Sherief Reda(参考訳) 多くの実世界の最適化問題をMILP(Mixed Integer Linear Programs)として定式化することができる。 MILPソルバは内部アルゴリズムを制御するために多数の設定パラメータを公開する。 問題インスタンスが同じ数の決定変数と制約を持つ場合でも、ソリューションとその関連するコストやランタイムは、設定パラメータの選択によって大きく影響を受ける。 一方、デフォルトのソルバ構成を使用することで、最適化されたソリューションが実現される。 一方で、問題インスタンス毎の多数の構成の検索と評価には時間がかかり、場合によっては実現不可能な場合もある。 本研究では,探索・評価設定の時間的オーバーヘッドを伴わずに,低コストなソリューションを実現する未確認問題インスタンスの構成パラメータを予測することを目的とする。 その目的に向けて,我々はまず,異なる構成を用いて解くと,同一分布から生じるmilp問題インスタンスのコスト相関について検討する。 同様のコストを持つインスタンスが,同じランタイム環境において,別のソルバ構成を使用する場合も同様のコストを持つことを示す。 その後、最終ソリューションのコストと相関するMILP類似性を学習するためのDeep Metric Learningに基づく方法論を提案する。 新しい問題インスタンスが与えられた場合、まずトレーニングされたモデルを用いて学習されたメトリック空間に投影し、学習された埋め込み空間内の隣のインスタンスから探索された設定を用いて構成パラメータを即座に予測する。 実世界の問題ベンチマーク実験の結果,提案手法は既存手法と比較して最大38%のコスト削減を実現する構成パラメータを予測できることがわかった。

A large number of real-world optimization problems can be formulated as Mixed Integer Linear Programs (MILP). MILP solvers expose numerous configuration parameters to control their internal algorithms. Solutions, and their associated costs or runtimes, are significantly affected by the choice of the configuration parameters, even when problem instances have the same number of decision variables and constraints. On one hand, using the default solver configuration leads to suboptimal solutions. On the other hand, searching and evaluating a large number of configurations for every problem instance is time-consuming and, in some cases, infeasible. In this study, we aim to predict configuration parameters for unseen problem instances that yield lower-cost solutions without the time overhead of searching-and-evaluating configurations at the solving time. Toward that goal, we first investigate the cost correlation of MILP problem instances that come from the same distribution when solved using different configurations. We show that instances that have similar costs using one solver configuration also have similar costs using another solver configuration in the same runtime environment. After that, we present a methodology based on Deep Metric Learning to learn MILP similarities that correlate with their final solutions' costs. At inference time, given a new problem instance, it is first projected into the learned metric space using the trained model, and configuration parameters are instantly predicted using previously-explored configurations from the nearest neighbor instance in the learned embedding space. Empirical results on real-world problem benchmarks show that our method predicts configuration parameters that improve solutions' costs by up to 38% compared to existing approaches.
翻訳日:2023-07-05 14:46:06 公開日:2023-07-02
# 予測符号化と不確かさ最小化によるアクティブセンシング

Active Sensing with Predictive Coding and Uncertainty Minimization ( http://arxiv.org/abs/2307.00668v1 )

ライセンス: Link先を確認
Abdelrahman Sharafeldin, Nabil Imam, Hannah Choi(参考訳) 本稿では,生物にインスパイアされた2つの計算,予測符号化と不確実性最小化に基づくエンドツーエンド探索手法を提案する。 この手順は、タスクに依存しない本質的に駆動された方法で、任意の探索設定に適用することができる。 まず,mazeナビゲーションタスクで提案手法を実証し,基礎となる遷移分布を発見し,環境の空間的特徴を再構築できることを示す。 第2に,エージェントが情報を収集するために,その視覚環境を積極的にサンプリングする必要があるアクティブビジョンのより複雑なタスクに,このモデルを適用する。 我々のモデルは教師なしの表現を構築でき、センサのシーンを積極的にサンプリングし、効率的に分類できることを示す。 さらに,これらの表現を下流分類の入力として用いると,他のベースラインと比較してデータ効率と学習速度が向上すると同時に,パラメータの複雑さも低下することを示した。 最後に、モデルのモジュラリティにより、内部メカニズムを分析し、探索行動中の知覚と行動の相互作用についての洞察を導き出すことができる。

We present an end-to-end procedure for embodied exploration based on two biologically inspired computations: predictive coding and uncertainty minimization. The procedure can be applied to any exploration setting in a task-independent and intrinsically driven manner. We first demonstrate our approach in a maze navigation task and show that our model is capable of discovering the underlying transition distribution and reconstructing the spatial features of the environment. Second, we apply our model to the more complex task of active vision, where an agent must actively sample its visual environment to gather information. We show that our model is able to build unsupervised representations that allow it to actively sample and efficiently categorize sensory scenes. We further show that using these representations as input for downstream classification leads to superior data efficiency and learning speed compared to other baselines, while also maintaining lower parameter complexity. Finally, the modularity of our model allows us to analyze its internal mechanisms and to draw insight into the interactions between perception and action during exploratory behavior.
翻訳日:2023-07-05 14:45:40 公開日:2023-07-02
# 不確実性定量化のためのモースニューラルネットワーク

Morse Neural Networks for Uncertainty Quantification ( http://arxiv.org/abs/2307.00667v1 )

ライセンス: Link先を確認
Benoit Dherin, Huiyi Hu, Jie Ren, Michael W. Dusenberry, and Balaji Lakshminarayanan(参考訳) 非正規化ガウス密度を離散点ではなく高次元部分多様体のモードに一般化するモースニューラルネットワーク(morse neural network)を提案する。 KL分割損失によるMorseニューラルネットワークの適合 1) a(正規化されていない)生成密度 2)OOD検出器 3)キャリブレーション温度。 4)生成サンプラー,及び教師付きケース 5) 距離認識分類器。 Morseネットワークはトレーニング済みのネットワーク上で使用することができ、トレーニングデータに対して距離対応キャリブレーションを行うことができる。 その汎用性のため、モースニューラルネットワークは、ood検出における(mac\^edo et al., 2021)のエントロピーアウトオブディストリビューション検出器、異常検出における(ruff et al., 2018)の1つのクラスディープサポートベクター記述法、あるいは連続学習における1つのクラス分類器(sun et al., 2021)など、多くのテクニックを統一する。 モースニューラルネットワークは、トポロジーにおけるベクトルマシン、カーネルメソッド、モース理論をサポートする接続を持つ。

We introduce a new deep generative model useful for uncertainty quantification: the Morse neural network, which generalizes the unnormalized Gaussian densities to have modes of high-dimensional submanifolds instead of just discrete points. Fitting the Morse neural network via a KL-divergence loss yields 1) a (unnormalized) generative density, 2) an OOD detector, 3) a calibration temperature, 4) a generative sampler, along with in the supervised case 5) a distance aware-classifier. The Morse network can be used on top of a pre-trained network to bring distance-aware calibration w.r.t the training data. Because of its versatility, the Morse neural networks unifies many techniques: e.g., the Entropic Out-of-Distribution Detector of (Mac\^edo et al., 2021) in OOD detection, the one class Deep Support Vector Description method of (Ruff et al., 2018) in anomaly detection, or the Contrastive One Class classifier in continuous learning (Sun et al., 2021). The Morse neural network has connections to support vector machines, kernel methods, and Morse theory in topology.
翻訳日:2023-07-05 14:45:26 公開日:2023-07-02
# 室内環境におけるロボットのリアルタイム視覚に基づくナビゲーション

Real-time Vision-based Navigation for a Robot in an Indoor Environment ( http://arxiv.org/abs/2307.00666v1 )

ライセンス: Link先を確認
Sagar Manglani (Stanford University)(参考訳) 本稿では,家庭環境における自律ナビゲーションのための障害物回避ナビゲーションシステムの開発について述べる。 このシステムは視覚に基づく技術と高度な経路計画アルゴリズムを使用して、障害物を避けながら目的地に向かってロボットが移動できるようにする。 システムの性能は質的かつ定量的な指標によって評価され、その強みと限界が強調される。 この結果は屋内ロボットナビゲーションの進歩に寄与し、リアルタイム自律ナビゲーションにおける視覚に基づく技術の可能性を示している。

This paper presents a study on the development of an obstacle-avoidance navigation system for autonomous navigation in home environments. The system utilizes vision-based techniques and advanced path-planning algorithms to enable the robot to navigate toward the destination while avoiding obstacles. The performance of the system is evaluated through qualitative and quantitative metrics, highlighting its strengths and limitations. The findings contribute to the advancement of indoor robot navigation, showcasing the potential of vision-based techniques for real-time, autonomous navigation.
翻訳日:2023-07-05 14:45:02 公開日:2023-07-02
# 英語手書き文字認識のためのCNN-BiLSTMモデル:IAMデータセットの総合評価

CNN-BiLSTM model for English Handwriting Recognition: Comprehensive Evaluation on the IAM Dataset ( http://arxiv.org/abs/2307.00664v1 )

ライセンス: Link先を確認
Firat Kizilirmak and Berrin Yanikoglu(参考訳) 本稿では,CNN-BiLSTMによるオフライン英語手書き文字認識システムについて,モデルサイズ,データ拡張,語彙の影響など,パブリックIAMデータセットに対する広範な評価を行った。 最良モデルはctc層を有するcnn-bilstmネットワークを用いて3.59\% cerと9.44\% werを実現する。 入力画像に印加された回転およびせん断変換によるテスト時間増大は,難解な症例の認識を高めるために提案され,単語誤り率を2.5 % 削減した。 また,提案手法をiamデータセット上で誤り解析し,手書き画像のハードケースを示し,誤ったラベルを用いてサンプルを探索する。 我々のソースコードをパブリックドメインとして提供し、さらなる研究を奨励し、科学的再現性を促進する。

We present a CNN-BiLSTM system for the problem of offline English handwriting recognition, with extensive evaluations on the public IAM dataset, including the effects of model size, data augmentation and the lexicon. Our best model achieves 3.59\% CER and 9.44\% WER using CNN-BiLSTM network with CTC layer. Test time augmentation with rotation and shear transformations applied to the input image, is proposed to increase recognition of difficult cases and found to reduce the word error rate by 2.5\% points. We also conduct an error analysis of our proposed method on IAM dataset, show hard cases of handwriting images and explore samples with erroneous labels. We provide our source code as public-domain, to foster further research to encourage scientific reproducibility.
翻訳日:2023-07-05 14:44:54 公開日:2023-07-02
# 単一画像楕円体からのカメラキャリブレーション:月のキャリブレーションアルゴリズム

Camera Calibration from a Single Imaged Ellipsoid: A Moon Calibration Algorithm ( http://arxiv.org/abs/2307.00689v1 )

ライセンス: Link先を確認
Kalani R. Danas Rivera and Mason A. Peck(参考訳) 本研究は、太陽系の天体の画像を衛星カメラのキャリブレーションに適用する手法を提案する。 拡張された天体は、三軸楕円体で十分にモデル化された惑星と衛星で構成されている。 撮像されると、三軸楕円体は一般に楕円形の円錐面に突出する。 この研究は、撮像された楕円と観測者の目標関係状態に関する情報を組み合わせることで、単一の撮像された楕円体からカメラキャリブレーションを実現する。 そのため、この研究は1つの非球面像楕円体からカメラキャリブレーションを初めて達成した。 カメラキャリブレーションアルゴリズムは、カッシーニ探査機が捉えたように、楕円形の合成画像や土星の衛星の惑星画像に適用される。 単一の画像から、アルゴリズムはキャシーニの狭角カメラの焦点距離と主点をそれぞれ1.0mmと10ピクセル以内に推定する。 複数の画像では、焦点距離の標準偏差不確かさと主点推定値はそれぞれ0.5mmと3.1ピクセルに減少する。 宇宙船のカメラキャリブレーションを念頭に置いて作られたものだが、この研究は地上カメラキャリブレーションにも応用できる。

This work introduces a method that applies images of the extended bodies in the solar system to spacecraft camera calibration. The extended bodies consist of planets and moons that are well-modeled by triaxial ellipsoids. When imaged, the triaxial ellipsoid projects to a conic section which is generally an ellipse. This work combines the imaged ellipse with information on the observer's target-relative state to achieve camera calibration from a single imaged ellipsoid. As such, this work is the first to accomplish camera calibration from a single, non-spherical imaged ellipsoid. The camera calibration algorithm is applied to synthetic images of ellipsoids as well as planetary images of Saturn's moons as captured by the Cassini spacecraft. From a single image, the algorithm estimates the focal length and principal point of Cassini's Narrow Angle Camera within 1.0 mm and 10 pixels, respectively. With multiple images, the one standard deviation uncertainty in focal length and principal point estimates reduce to 0.5 mm and 3.1 pixels, respectively. Though created for spacecraft camera calibration in mind, this work also generalizes to terrestrial camera calibration using any number of imaged ellipsoids.
翻訳日:2023-07-05 14:36:45 公開日:2023-07-02
# ネットワークスライミングのための近似アルゴリズム

A Proximal Algorithm for Network Slimming ( http://arxiv.org/abs/2307.00684v1 )

ライセンス: Link先を確認
Kevin Bui, Fanghui Xue, Fredrick Park, Yingyong Qi, Jack Xin(参考訳) 畳み込みニューラルネットワーク(cnns)の一般的なチャネルプルーニング方法として、ネットワークスライニング(ns)は、(1)バッチ正規化層のスケーリング係数に適用された$\ell_1$正規化でcnnを訓練する、(2)スケーリング係数が選択しきい値以下であるチャネルを削除する、(3)プルーニングモデルを再訓練して元の精度を回復する3段階のプロセスを有する。 この3段階のプロセスは、CNNの訓練に段階的に降下した結果である。 サブグレードの降下はcnnを正確な構造へと正確に訓練するものではないため、後者の2ステップは必須である。 さらに、劣勾配降下は収束保証を持たない。 そこで我々は近位NSという代替アルゴリズムを開発した。 提案アルゴリズムは,CNNをスパースかつ高精度な構造に訓練するので,スケーリング係数のしきい値の特定は不要である。 Kurdyka-{\L}ojasiewicz 仮定を用いて、近位NSの大域収束を確立する。 最後に,提案アルゴリズムをvggnet,drknet,resnetのcifar 10/100の有効性を検証する。 実験の結果,1ラウンドのトレーニングの後,近位NSは競争精度と圧縮性を備えたCNNが得られることがわかった。

As a popular channel pruning method for convolutional neural networks (CNNs), network slimming (NS) has a three-stage process: (1) it trains a CNN with $\ell_1$ regularization applied to the scaling factors of the batch normalization layers; (2) it removes channels whose scaling factors are below a chosen threshold; and (3) it retrains the pruned model to recover the original accuracy. This time-consuming, three-step process is a result of using subgradient descent to train CNNs. Because subgradient descent does not exactly train CNNs towards sparse, accurate structures, the latter two steps are necessary. Moreover, subgradient descent does not have any convergence guarantee. Therefore, we develop an alternative algorithm called proximal NS. Our proposed algorithm trains CNNs towards sparse, accurate structures, so identifying a scaling factor threshold is unnecessary and fine tuning the pruned CNNs is optional. Using Kurdyka-{\L}ojasiewicz assumptions, we establish global convergence of proximal NS. Lastly, we validate the efficacy of the proposed algorithm on VGGNet, DenseNet and ResNet on CIFAR 10/100. Our experiments demonstrate that after one round of training, proximal NS yields a CNN with competitive accuracy and compression.
翻訳日:2023-07-05 14:36:29 公開日:2023-07-02
# 神経モデルのトレーニングデータを検証するためのツール

Tools for Verifying Neural Models' Training Data ( http://arxiv.org/abs/2307.00682v1 )

ライセンス: Link先を確認
Dami Choi, Yonadav Shavit, David Duvenaud(参考訳) 消費者と規制当局が大きなニューラルモデルの存在を検証し、その能力とリスクを評価することが重要である。 本稿では,モデルトレーナーがモデルの重みを生成したトレーニングデータの検証者に対して,モデルトレーナーが納得できるようなプロトコルについて紹介する。 このようなプロトコルは、特定の有害または有益なデータソースでトレーニングされたかどうかを含む、モデルのトレーニングに使用されるデータ量と種類、計算を検証することができる。 本稿では,現在行われているほとんどの大規模モデルの訓練手順と互換性のある訓練データの有効性を検証する。 これには、トレーニングに使用されるランダムシードに確実に事前コミットするモデルトレーナの方法と、与えられたデータポイントがトレーニングに含まれているかどうかを検出するために、トレーニングデータに一時的に過度に適合するモデルの傾向を利用する方法が含まれる。 筆者らによる検証手法は,実証文献からの既知の攻撃を含め,多種多様な攻撃をキャッチできることを実験的に示す。

It is important that consumers and regulators can verify the provenance of large neural models to evaluate their capabilities and risks. We introduce the concept of a "Proof-of-Training-Data": any protocol that allows a model trainer to convince a Verifier of the training data that produced a set of model weights. Such protocols could verify the amount and kind of data and compute used to train the model, including whether it was trained on specific harmful or beneficial data sources. We explore efficient verification strategies for Proof-of-Training-Data that are compatible with most current large-model training procedures. These include a method for the model-trainer to verifiably pre-commit to a random seed used in training, and a method that exploits models' tendency to temporarily overfit to training data in order to detect whether a given data-point was included in training. We show experimentally that our verification procedures can catch a wide variety of attacks, including all known attacks from the Proof-of-Learning literature.
翻訳日:2023-07-05 14:36:04 公開日:2023-07-02
# 量子鍵分配プロトコルの測定・デバイス・インデペンデント化

Measurement-Device-Independenization of Quantum Key Distribution Protocols ( http://arxiv.org/abs/2110.01979v9 )

ライセンス: Link先を確認
Hao Shu(参考訳) 量子鍵分布(qkd)により、正当なパートナーは物理的法則のみに依存する秘密鍵を確立することができる。 近年、安全でない測定装置、すなわち計測デバイスに依存しないQKD(MDI-QKD)を用いたQKDの研究が増加している。 MDI-QKDは測定装置に対する全ての攻撃を取り除き、信頼できない第三者を計測に使用することができる。 しかし、従来のMDI-QKDプロトコルの弱点は、ベル測定のような実際の効率が低い共同測定の必要性である。 一方、すべてのqkdプロトコルが測定デバイス非依存になるのは問題である。 本稿では,共同測定を必要とせず,弱いコヒーレンス源によって効率的に実装できる$'measurement-device-independenization'$と呼ばれる,準備測定qkdプロトコルをmdi-qkdプロトコルとする方式を提案する。 このプロトコルはディテクターデバイス非依存(ddi)プロトコルに似ているが、トロイの木馬攻撃でも安全である。 これを説明するために、光子数加算(pna)攻撃を調査し、ddi や plug-and-play など以前のプロトコルの抜け穴を閉じるために使用できる $'photon-number-purification'$ と呼ばれるスキームを提案する。

Quantum key distribution(QKD) allows the legitimate partner to establish a secret key whose security only depends on physical laws. In recent years, research on QKD by employing insecure measurement devices, namely measurement-device-independent QKD (MDI-QKD) is increased. MDI-QKD removes all attacks on measurement devices and thus an untrusted third party can be employed for measuring. However, a weakness of previous MDI-QKD protocols is the need for joint measurements such as Bell measurements whose efficiency is low in practice. On the other hand, can all QKD protocols become measurement-device-independent remains a problem. In this paper, we present a scheme making prepare-measure QKD protocols become MDI-QKD protocols, called $'measurement-device-independenization'$, which does not need to employ joint measurements and could be efficiently implemented by weak coherence sources. The protocol might look like the detector-device-independent(DDI) protocols but it is also secure under the Trojan horse attack. To illustrate this, we investigate the photon-number-adding(PNA) attack and present a scheme, called $'photon-number-purification'$, which can also be employed to close loopholes for previous protocols such as DDI and plug-and-play ones.
翻訳日:2023-07-04 16:38:17 公開日:2023-07-02
# アルミニウム超伝導共振器の2レベル飽和下での異常損失低減

Anomalous Loss Reduction Below Two-Level System Saturation in Aluminum Superconducting Resonators ( http://arxiv.org/abs/2109.11742v3 )

ライセンス: Link先を確認
Tamin Tai, Jingnan Cai, Steven M. Anlage(参考訳) 超伝導共振器は量子コンピューティングのためのキュービットリードアウトや運動インダクタンス検出器など多くの用途で広く使われている。 これらの共振器は、数光子マイクロ波励起下での多数の損失やノイズ、特に準粒子と2レベルシステム(tls)による散逸を受けやすいため、高品質の超伝導共振器では超伝導固有品質係数(q_i)$が低下する可能性がある。 特にTLS損失は、数光子および低温(T$)体制において支配的な損失機構となる。 本研究では, 容量結合型半波長コプラナー導波路共振器について検討した。 意外なことに, 共振器の損失は低励磁温度とTLS飽和度以下の温度で減少することが観察された。 この挙動は、TLSの離散アンサンブルにおけるTLSと共振光子周波数の遅延を減らし、TLSの温度と電力を低下させることによるTLS共鳴応答帯域の減少に起因する。 TLSは、応答帯域が共振器からの遅延よりも小さい場合、共振器の応答を減少させ、損失を減少させる。 より高い励起力では、損失は一般化されたトンネルモデルからの予測と一致する対数的パワー依存に従った。

Superconducting resonators are widely used in many applications such as qubit readout for quantum computing, and kinetic inductance detectors. These resonators are susceptible to numerous loss and noise mechanisms under few-photon microwave excitation, especially the dissipation due to quasi-particles and two-level systems (TLS), which can result in a decrease of the superconducting intrinsic quality factor $(Q_i)$ in high quality superconducting resonators. In particular, TLS losses can become the dominant loss mechanism in the few-photon and low temperature ($T$) regime. In this study, capacitively-coupled aluminum half-wavelength coplanar waveguide resonators are investigated. Surprisingly, the loss of the resonators was observed to decrease with a lowering temperature at low excitation powers and temperatures below the TLS saturation. This behavior is attributed to the reduction of the TLS resonant response bandwidth with decreasing temperature and power to below the detuning between the TLS and the resonant photon frequency in a discrete ensemble of TLS. TLS fall out of resonance when their response bandwidths are smaller than their detunings from the resonance, reducing the resonant response and thus lowering the loss. At higher excitation powers, the loss followed a logarithmic power dependence, consistent with predictions from the generalized tunneling model.
翻訳日:2023-07-04 16:37:54 公開日:2023-07-02
# 3次元点雲におけるロバスト外部対称性の推定

Robust Extrinsic Symmetry Estimation in 3D Point Clouds ( http://arxiv.org/abs/2109.09927v2 )

ライセンス: Link先を確認
Rajendra Nagar(参考訳) 3次元点雲で表される物体の反射対称性面の検出は, 圧縮, 物体検出, ロボット把握, 3次元表面再構成などの様々な応用により, 3次元コンピュータビジョンと幾何学処理の基本的な問題である。 クリーンな3Dポイントクラウドに対して、この問題を解決するための効率的なアプローチがいくつか存在する。 しかし、外れ値と欠落部分の存在下では、解決が難しい問題である。 既存の手法は、主に投票ベースの手法でこの課題を克服しようとするが、効率的に機能しない。 本研究では,外乱や欠落部分に対して頑健な反射対称性平面に対する統計的推定器に基づくアプローチを提案する。 近似初期化のための大域解に迅速に収束する2次元球面上の最適化問題として,反射対称性の最適推定器を求める問題を提起する。 さらに,鏡面対称点の対称性不変量マッチングに熱核シグネチャを適用する。 このアプローチは、最適対称性平面と反射対称点間の対応を求める鶏卵問題を分離するのに役立つ。 提案手法は、ベンチマークデータセットの最先端手法と比較して、Fスコアにおける平均地絡誤差と4.5\%のインクリメントを達成する。

Detecting the reflection symmetry plane of an object represented by a 3D point cloud is a fundamental problem in 3D computer vision and geometry processing due to its various applications, such as compression, object detection, robotic grasping, 3D surface reconstruction, etc. There exist several efficient approaches for solving this problem for clean 3D point clouds. However, it is a challenging problem to solve in the presence of outliers and missing parts. The existing methods try to overcome this challenge mostly by voting-based techniques but do not work efficiently. In this work, we proposed a statistical estimator-based approach for the plane of reflection symmetry that is robust to outliers and missing parts. We pose the problem of finding the optimal estimator for the reflection symmetry as an optimization problem on a 2-Sphere that quickly converges to the global solution for an approximate initialization. We further adapt the heat kernel signature for symmetry invariant matching of mirror symmetric points. This approach helps us to decouple the chicken-and-egg problem of finding the optimal symmetry plane and correspondences between the reflective symmetric points. The proposed approach achieves comparable mean ground-truth error and 4.5\% increment in the F-score as compared to the state-of-the-art approaches on the benchmark dataset.
翻訳日:2023-07-04 16:37:05 公開日:2023-07-02
# 分類システムにおける説明のための統一論理枠組み

A unified logical framework for explanations in classifier systems ( http://arxiv.org/abs/2105.14452v6 )

ライセンス: Link先を確認
Xinghan Liu and Emiliano Lorini(参考訳) 近年では、説明可能なAI(XAI)分野におけるバイナリ分類器の説明において、ブール関数に対する新たな関心が高まっている。 ブール関数の標準的なアプローチは命題論理である。 我々は,二項入力分類器とその特性に関する推論をサポートするceteris paribusの性質のモーダル言語を提案する。 我々は、分類子モデルの族を研究し、言語の濃度に関する2つの証明体系として公理化し、我々の公理学の完全性を示す。 さらに、我々の様相言語に対する充足可能性チェック問題は無限変数の場合ではnexptime-completeであり、有限変数の場合では多項式となることを証明した。 さらに、無限変数の場合において、我々の言語の興味深いNPフラグメントを同定する。 我々はこの言語を,帰納的,対比的,反事実的説明,バイアスを含む様々な説明概念と同様に,反事実条件を形式化するために活用する。 最後に,この言語の2つの拡張について述べる: 代入可能分類器変更の概念による動的拡張と,実際の入力に対する分類器の不確実性を表現できる認識的拡張である。

Recent years have witnessed a renewed interest in Boolean function in explaining binary classifiers in the field of explainable AI (XAI). The standard approach of Boolean function is propositional logic. We present a modal language of a ceteris paribus nature which supports reasoning about binary input classifiers and their properties. We study a family of classifier models, axiomatize it as two proof systems regarding the cardinality of the language and show completeness of our axiomatics. Moreover, we prove that satisfiability checking problem for our modal language is NEXPTIME-complete in the infinite-variable case, while it becomes polynomial in the finite-variable case. We furthermore identify an interesting NP fragment of our language in the infinite-variable case. We leverage the language to formalize counterfactual conditional as well as a variety of notions of explanation including abductive, contrastive and counterfactual explanations, and biases. Finally, we present two extensions of our language: a dynamic extension by the notion of assignment enabling classifier change and an epistemic extension in which the classifier's uncertainty about the actual input can be represented.
翻訳日:2023-07-04 16:35:46 公開日:2023-07-02
# 畳み込みとコンテクストトランスを用いたスペクトル圧縮画像再構成

Spectral Compressive Imaging Reconstruction Using Convolution and Contextual Transformer ( http://arxiv.org/abs/2201.05768v4 )

ライセンス: Link先を確認
Lishun Wang, Zongliang Wu, Yong Zhong, Xin Yuan(参考訳) スペクトル圧縮イメージング(SCI)は、高次元のハイパースペクトル画像を2次元計測にエンコードし、アルゴリズムを用いてスペクトルデータキューブを再構成する。 現在、SCIの主なボトルネックは再構成アルゴリズムであり、現状のSOTA (State-of-the-art Restruction Method) は、一般に長い復元時間や細部回復の問題に直面している。 本稿では,畳み込みのインダクティブバイアス能力とトランスフォーマの強力なモデリング能力を同時に得ることができる新しいハイブリッドネットワークモジュールであるccot(convolution and context transformer)ブロックを提案する。 提案したCCoTブロックを一般化された交互投影アルゴリズムに基づく深層展開フレームワークに統合し,さらにGAP-CCoTネットワークを提案する。 大規模な合成データと実データを用いた実験により,提案モデルでは,既存のSOTAアルゴリズムよりも高い再現性(PSNRでは2dB)と実行時間の短縮を実現している。 コードとモデルはhttps://github.com/ucaswangls/GAP-CCoT.comで公開されている。

Spectral compressive imaging (SCI) is able to encode the high-dimensional hyperspectral image to a 2D measurement, and then uses algorithms to reconstruct the spatio-spectral data-cube. At present, the main bottleneck of SCI is the reconstruction algorithm, and the state-of-the-art (SOTA) reconstruction methods generally face the problem of long reconstruction time and/or poor detail recovery. In this paper, we propose a novel hybrid network module, namely CCoT (Convolution and Contextual Transformer) block, which can acquire the inductive bias ability of convolution and the powerful modeling ability of transformer simultaneously,and is conducive to improving the quality of reconstruction to restore fine details. We integrate the proposed CCoT block into deep unfolding framework based on the generalized alternating projection algorithm, and further propose the GAP-CCoT network. Through the experiments of extensive synthetic and real data, our proposed model achieves higher reconstruction quality ($>$2dB in PSNR on simulated benchmark datasets) and shorter running time than existing SOTA algorithms by a large margin. The code and models are publicly available at https://github.com/ucaswangls/GAP-CCoT.
翻訳日:2023-07-04 16:27:47 公開日:2023-07-02
# 外部に有効な政策選択

Externally Valid Policy Choice ( http://arxiv.org/abs/2205.05561v3 )

ライセンス: Link先を確認
Christopher Adjaho and Timothy Christensen(参考訳) 我々は、データをサンプル化した実験的(または訓練的)人口以外に、他の対象集団でよく機能する、外部的に有効または一般化可能なパーソナライズされた治療方針を学習する問題を考える。 まず, 実験集団の福祉最大化政策は, 実験個体群と対象個体群間の結果の分布(特性)の変化に頑健であることを示す。 そして、結果や特徴の変化に頑健な政策を学ぶための新しい方法を開発する。 そこで本研究では, 実験集団における治療効果の多様性が, 政策の一般化性に与える影響を強調する。 本手法は実験データや観察データ(内因性の場合)で用いることができる。 私たちの手法の多くは線形プログラミングで実装できます。

We consider the problem of learning personalized treatment policies that are externally valid or generalizable: they perform well in other target populations besides the experimental (or training) population from which data are sampled. We first show that welfare-maximizing policies for the experimental population are robust to shifts in the distribution of outcomes (but not characteristics) between the experimental and target populations. We then develop new methods for learning policies that are robust to shifts in outcomes and characteristics. In doing so, we highlight how treatment effect heterogeneity within the experimental population affects the generalizability of policies. Our methods may be used with experimental or observational data (where treatment is endogenous). Many of our methods can be implemented with linear programming.
翻訳日:2023-07-04 16:19:42 公開日:2023-07-02
# 行方不明の観測場所が不明な隠れマルコフモデルを学ぶ

Learning Hidden Markov Models When the Locations of Missing Observations are Unknown ( http://arxiv.org/abs/2203.06527v3 )

ライセンス: Link先を確認
Binyamin Perets, Mark Kozdoba, Shie Mannor(参考訳) 隠れマルコフモデル(HMM)は、シーケンシャルデータ解析において最も広く使われている統計モデルの一つである。 この汎用性の主要な理由の1つは、HMMが欠落したデータを扱う能力である。 しかし、標準HMM学習アルゴリズムは、欠落した観測である 'emph{within the Observation sequence} の位置が知られているという仮定に大きく依存している。 この仮定にはしばしば違反する自然科学では、Silent-state HMMs (SHMMs)として知られるHMMの特別な変種が用いられる。 広く使われているにもかかわらず、これらのアルゴリズムは非巡回性のような基底鎖の特定の構造的仮定に強く依存しており、これらの方法の適用可能性を制限する。 また, 非循環例においても, これらの方法が再建不良につながることが示されている。 本稿では,未知の観測位置を持つデータからhmmを学習する一般的な問題について考察する。 SHMMとは異なり,本アルゴリズムでは,基礎となる鎖の構造に関する仮定を一切必要とせず,事前知識を限定して使用することもできる。 各種シナリオにおけるアルゴリズムの評価と比較を行い,モデルミス特定に基づく再現精度とロバスト性を評価する。 特に, 適切な仕様の下では, 観測位置が分かっていない場合と同様に, プロセスダイナミクスを再構築できることを示した。

The Hidden Markov Model (HMM) is one of the most widely used statistical models for sequential data analysis. One of the key reasons for this versatility is the ability of HMM to deal with missing data. However, standard HMM learning algorithms rely crucially on the assumption that the positions of the missing observations \emph{within the observation sequence} are known. In the natural sciences, where this assumption is often violated, special variants of HMM, commonly known as Silent-state HMMs (SHMMs), are used. Despite their widespread use, these algorithms strongly rely on specific structural assumptions of the underlying chain, such as acyclicity, thus limiting the applicability of these methods. Moreover, even in the acyclic case, it has been shown that these methods can lead to poor reconstruction. In this paper we consider the general problem of learning an HMM from data with unknown missing observation locations. We provide reconstruction algorithms that do not require any assumptions about the structure of the underlying chain, and can also be used with limited prior knowledge, unlike SHMM. We evaluate and compare the algorithms in a variety of scenarios, measuring their reconstruction precision, and robustness under model miss-specification. Notably, we show that under proper specifications one can reconstruct the process dynamics as well as if the missing observations positions were known.
翻訳日:2023-07-04 16:16:57 公開日:2023-07-02
# 不公平な勧告における学習目的の再考:分布シフトの視点から

Reconsidering Learning Objectives in Unbiased Recommendation: A Distribution Shift Perspective ( http://arxiv.org/abs/2206.03851v2 )

ライセンス: Link先を確認
Teng Xiao, Zhengyu Chen, Suhang Wang(参考訳) この研究は、バイアスのないフィードバックからバイアスのないアルゴリズムを学習し、推奨する問題を研究する。 我々はこの問題を新しい分布シフトの観点から解決する。 アンバイアスド・レコメンデーションの最近の研究は、再重み付け、マルチタスク学習、メタラーニングといった様々な技術で最先端の技術の進歩を遂げている。 実証的な成功にもかかわらず、そのほとんどは理論的な保証がなく、理論と最近のアルゴリズムの間に非無視的なギャップを形成している。 本稿では,既存の非偏り学習目標がなぜ偏りのない推薦に働くのかを理論的に理解する。 既存の非偏り学習目標が偏りのあるトレーニングと偏りのないテスト分布を暗黙的に調整していることを示す,偏りのない推薦と分布シフトの密接な関係を確立する。 この接続に基づいて,既存の偏りのない学習手法に対する2つの一般化境界を開発し,学習行動の解析を行う。 また, 流通シフトの結果として, 非バイアスな推薦のために, 適応自己学習(AST)の原則的枠組みをさらに提案する。 実世界および半合成データセットに関する大規模な実験は、ASTの有効性を示す。

This work studies the problem of learning unbiased algorithms from biased feedback for recommendation. We address this problem from a novel distribution shift perspective. Recent works in unbiased recommendation have advanced the state-of-the-art with various techniques such as re-weighting, multi-task learning, and meta-learning. Despite their empirical successes, most of them lack theoretical guarantees, forming non-negligible gaps between theories and recent algorithms. In this paper, we propose a theoretical understanding of why existing unbiased learning objectives work for unbiased recommendation. We establish a close connection between unbiased recommendation and distribution shift, which shows that existing unbiased learning objectives implicitly align biased training and unbiased test distributions. Built upon this connection, we develop two generalization bounds for existing unbiased learning methods and analyze their learning behavior. Besides, as a result of the distribution shift, we further propose a principled framework, Adversarial Self-Training (AST), for unbiased recommendation. Extensive experiments on real-world and semi-synthetic datasets demonstrate the effectiveness of AST.
翻訳日:2023-07-04 16:08:14 公開日:2023-07-02
# 言語モデルによるマルチホップQAの評価

Few-shot Reranking for Multi-hop QA via Language Model Prompting ( http://arxiv.org/abs/2205.12650v3 )

ライセンス: Link先を確認
Muhammad Khalifa, Lajanugen Logeswaran, Moontae Lee, Honglak Lee, Lu Wang(参考訳) オープンドメイン質問を用いたマルチホップQAにおける数点のリランクについて検討した。 検索学習において大量のラベル付き質問文書ペアの必要性を軽減するため,マルチホップパスの再ランク付けを促す大規模言語モデルに依存するPromptRankを提案する。 PromptRankはまず、候補文書パスを含む命令ベースのプロンプトを構築し、その後、言語モデルに従って与えられたパスプロンプトの条件付き確率に基づいて、与えられた質問とパスの間の関連スコアを算出する。 プロンプトランクは、何千もの例で訓練された最先端のリコール@10とpathretrieverによる77.8、マルチホップの密検索による77.5に比べて、128のトレーニング例しか持たないhotpotqaで強力な検索性能を発揮する。 コードはhttps://github.com/mukhal/promptrankで利用可能

We study few-shot reranking for multi-hop QA with open-domain questions. To alleviate the need for a large number of labeled question-document pairs for retriever training, we propose PromptRank, which relies on large language models prompting for multi-hop path reranking. PromptRank first constructs an instruction-based prompt that includes a candidate document path and then computes the relevance score between a given question and the path based on the conditional likelihood of the question given the path prompt according to a language model. PromptRank yields strong retrieval performance on HotpotQA with only 128 training examples compared to state-of-the-art methods trained on thousands of examples -- 73.6 recall@10 by PromptRank vs. 77.8 by PathRetriever and 77.5 by multi-hop dense retrieval. Code available at https://github.com/mukhal/PromptRank
翻訳日:2023-07-04 16:06:26 公開日:2023-07-02
# DRSOM:次元還元2次法

DRSOM: A Dimension Reduced Second-Order Method ( http://arxiv.org/abs/2208.00208v3 )

ライセンス: Link先を確認
Chuwen Zhang, Dongdong Ge, Chang He, Bo Jiang, Yuntian Jiang, Yinyu Ye(参考訳) 本稿では,凸および非凸(非拘束)最適化のための次元縮小二階法(drsom)を提案する。 信頼領域的な枠組みの下では, 曲率情報のみを数方向で使用しながら, 第二次手法の収束を保っている。 その結果, 本手法の計算オーバーヘッドは勾配降下法のような一階法に匹敵することがわかった。 理論的には、この方法では局所二次収束と大域収束率を o(\epsilon^{-3/2})$ とすることで、部分空間が一般に採用されている近似ヘッセンの仮定を満たすならば、一階および二階の条件を満たすことができる。 さらに,アルゴリズムの終了段階において,krylovのような手法を周期的に使用して修正ステップを行えば,この仮定を除去できることを示す。 DRSOMの適用性と性能は、$L_2 - L_p$最小化、CUTEst問題、センサネットワークのローカライゼーションなど、様々な計算実験によって示されている。

In this paper, we propose a Dimension-Reduced Second-Order Method (DRSOM) for convex and nonconvex (unconstrained) optimization. Under a trust-region-like framework, our method preserves the convergence of the second-order method while using only curvature information in a few directions. Consequently, the computational overhead of our method remains comparable to the first-order such as the gradient descent method. Theoretically, we show that the method has a local quadratic convergence and a global convergence rate of $O(\epsilon^{-3/2})$ to satisfy the first-order and second-order conditions if the subspace satisfies a commonly adopted approximated Hessian assumption. We further show that this assumption can be removed if we perform a corrector step using a Krylov-like method periodically at the end stage of the algorithm. The applicability and performance of DRSOM are exhibited by various computational experiments, including $L_2 - L_p$ minimization, CUTEst problems, and sensor network localization.
翻訳日:2023-07-04 15:58:45 公開日:2023-07-02
# 量子乱流理論に向けて:渦ループの相互作用を伴う単純なモデル

Towards quantum turbulence theory: A simple model with interaction of the vortex loops ( http://arxiv.org/abs/2207.05414v3 )

ライセンス: Link先を確認
Sergei V. Talalov(参考訳) 本稿では内部構造を持つ量子化された薄い渦輪について検討する。 この力学系の量子化スキームは、著者が以前に提案したアプローチに基づいている。 エネルギースペクトルと循環スペクトルの両方が計算される。 例として、許容循環値の集合がフラクタル構造を持つことを示す。 提案されたモデルにより、孤立渦環と相互作用を持つ渦環の系を記述することができる。 さらに、量子乱流理論への応用についても論じる。 乱流の分配関数の一般表現を提案する。

This paper investigates quantized thin vortex rings with an internal structure. The quantization scheme of this dynamical system is based on an earlier the approach proposed by the author. Both energy spectrum and circulation spectrum are calculated. Examples show that the set of permissible circulation values has a fractal structure. The suggested model allows us to describe the system of isolated vortex rings as well as the vortex rings with interaction. Furthermore, the application to the quantum turbulence theory is discussed. The general expression for the partition function of a turbulent flow is suggested.
翻訳日:2023-07-04 15:57:48 公開日:2023-07-02
# srcn3d:コンパクトな畳み込み型マルチビュー3dオブジェクト検出と追跡のためのスパースr-cnn3d

SRCN3D: Sparse R-CNN 3D for Compact Convolutional Multi-View 3D Object Detection and Tracking ( http://arxiv.org/abs/2206.14451v3 )

ライセンス: Link先を確認
Yining Shi, Jingyan Shen, Yifan Sun, Yunlong Wang, Jiaxin Li, Shiqi Sun, Kun Jiang, Diange Yang(参考訳) 移動物体の検出と追跡は、自律運転における環境認識の重要な要素である。 マルチビューカメラベース検出器の発達する分野において、異なるトランスフォーマーベースのパイプラインは視点ビューの2次元特徴マップから3次元空間でのクエリを学習するために設計されているが、支配的なBEVクエリメカニズムは計算的に非効率である。 本稿では、スパースクエリ、ボックスワイズサンプリングによるスパースアテンション、スパース予測を含む2段階フルスパース検出器であるスパースR-CNN3Dを提案する。 SRCN3Dは、固定数のクエリボックスと遅延クエリ機能の両方をツイントラックで更新するカスケード構造を採用している。 新しいスパース機能サンプリングモジュールは、3dクエリボックスのプロジェクションによって計算される局所的な2次元関心領域(roi)機能のみを利用するため、完全な畳み込みとデプロイフレンドリなパイプラインへと繋がる。 マルチオブジェクト追跡では、モーション機能、クエリ機能、roi機能がマルチハイポテーゼデータアソシエーションで包括的に活用されている。 nuScenesデータセットの大規模な実験により、SRCN3Dは3Dオブジェクト検出と多目的追跡タスクの両方において競合性能を達成し、トランスフォーマーベースの手法よりも優れた効率を示した。 コードとモデルはhttps://github.com/synsin0/SRCN3Dで入手できる。

Detection and tracking of moving objects is an essential component in environmental perception for autonomous driving. In the flourishing field of multi-view 3D camera-based detectors, different transformer-based pipelines are designed to learn queries in 3D space from 2D feature maps of perspective views, but the dominant dense BEV query mechanism is computationally inefficient. This paper proposes Sparse R-CNN 3D (SRCN3D), a novel two-stage fully-sparse detector that incorporates sparse queries, sparse attention with box-wise sampling, and sparse prediction. SRCN3D adopts a cascade structure with the twin-track update of both a fixed number of query boxes and latent query features. Our novel sparse feature sampling module only utilizes local 2D region of interest (RoI) features calculated by the projection of 3D query boxes for further box refinement, leading to a fully-convolutional and deployment-friendly pipeline. For multi-object tracking, motion features, query features and RoI features are comprehensively utilized in multi-hypotheses data association. Extensive experiments on nuScenes dataset demonstrate that SRCN3D achieves competitive performance in both 3D object detection and multi-object tracking tasks, while also exhibiting superior efficiency compared to transformer-based methods. Code and models are available at https://github.com/synsin0/SRCN3D.
翻訳日:2023-07-04 15:57:43 公開日:2023-07-02
# 熱力学極限におけるマルコフ進化生成体のスペクトル:非エルミートから三角形ローレント行列による完全進化へ

Spectra of generators of Markovian evolution in the thermodynamic limit: From non-Hermitian to full evolution via tridiagonal Laurent matrices ( http://arxiv.org/abs/2206.09879v2 )

ライセンス: Link先を確認
Frederik Ravn Klausen and Albert H. Werner(参考訳) 無限直線上の単粒子変換不変リンドブラッド作用素のスペクトルを決定する。 離散ラプラシアンによってハミルトン作用素が与えられ、リンドブラッド作用素がランク$r$、有限範囲、相互の変換である場合には、ランク$r$-摂動を持つ有限範囲双無限ローレント行列の直積分としてのリンドブラッド作用素の表現を得る。 直接積分を解析することにより、一般の場合のスペクトルを厳密に決定し、いくつかのタイプの散逸(例えば、\デファスメントやコヒーレントホッピング)に対して明示的に計算する。 さらに、このスペクトルに関する詳細な情報を用いて、ギャップレス性、残留スペクトルの欠如、有限体積スペクトルの無限体積スペクトルへの収束条件を示す。 この議論はアンダーソン・ハミルトンの場合に拡張され、開量子系における局所化に関連するリンドブラディアンの研究を可能にした。

We determine spectra of single-particle translation-invariant Lindblad operators on the infinite line. In the case where the Hamiltonian is given by the discrete Laplacian and the Lindblad operators are rank $r$, finite range and translates of each other, we obtain a representation of the Lindbladian as a direct integral of finite range bi-infinite Laurent matrices with rank-$r$-perturbations. By analyzing the direct integral we rigorously determine the spectra in the general case and calculate it explicitly for several types of dissipation e.g.\ dephasing, and coherent hopping. We further use the detailed information about the spectrum to prove gaplessness, absence of residual spectrum and a condition for convergence of finite volume spectra to their infinite volume counterparts. We finally extend the discussion to the case of the Anderson Hamiltonian, which enables us to study a Lindbladian recently associated with localization in open quantum systems.
翻訳日:2023-07-04 15:56:46 公開日:2023-07-02
# t-person-gan:アイデンティティと多様体混合を用いたテキスト対人画像生成

T-Person-GAN: Text-to-Person Image Generation with Identity-Consistency and Manifold Mix-Up ( http://arxiv.org/abs/2208.12752v3 )

ライセンス: Link先を確認
Deyin Liu, Lin Yuanbo Wu, Bo Li, Zongyuan Ge(参考訳) 本稿では,テキストのみに条件付き高解像度人物画像を生成するためのエンドツーエンドアプローチを提案する。 State-of-the-the-art text-to-image generation modelは主に花や鳥などの中心オブジェクトの生成のために設計されている。 類似した形状と向きを持つ中心配置オブジェクトとは異なり、人物画像生成はより困難な作業であり、以下に示すように観察する。 1)同一人物の生成した画像は、識別に一貫性のある視覚的詳細を示す。 2)これらの画像は,視覚的あいまいさによって引き起こされる対人的変動に対して頑健でなければならない。 上記の課題に対処するため,我々は2つの新しいメカニズムを持つ人物画像を生成する効果的な生成モデルを開発した。 特に、我々の最初のメカニズム(T-Person-GAN-ID)は、一ストリームジェネレータとID保存ネットワークを統合することで、生成したデータの表現が特徴空間で正規化され、ID一貫性が保証される。 第2のメカニズム(t-person-gan-id-mmと呼ばれる)は、多様体のミックスアップに基づき、異なる多様体の同一性から生成された画像の線形補間を介して混合画像を生成する。 これは、2つのアイデンティティから画像を完全に分離できる線形分類境界を学習するためである。 提案手法は,テキスト対人画像生成における顕著な改善を実現するために実証的に検証される。 我々のアーキテクチャはStackGAN++と直交しており、画像生成タスクのためにGANのスペクトルを豊かにするために、人画像生成に重点を置いている。 コードは \url{https://github.com/linwu-github/person-image-generation.git} で入手できる。

In this paper, we present an end-to-end approach to generate high-resolution person images conditioned on texts only. State-of-the-art text-to-image generation models are mainly designed for center-object generation, e.g., flowers and birds. Unlike center-placed objects with similar shapes and orientation, person image generation is a more challenging task, for which we observe the followings: 1) the generated images for the same person exhibit visual details with identity-consistency, e.g., identity-related textures/clothes/shoes across the images, and 2) those images should be discriminant for being robust against the inter-person variations caused by visual ambiguities. To address the above challenges, we develop an effective generative model to produce person images with two novel mechanisms. In particular, our first mechanism (called T-Person-GAN-ID) is to integrate the one-stream generator with an identity-preserving network such that the representations of generated data are regularized in their feature space to ensure the identity-consistency. The second mechanism (called T-Person-GAN-ID-MM) is based on the manifold mix-up to produce mixed images via the linear interpolation across generated images from different manifold identities, and we further enforce such interpolated images to be linearly classified in the feature space. This amounts to learning a linear classification boundary that can perfectly separate images from two identities. Our proposed method is empirically validated to achieve a remarkable improvement in text-to-person image generation. Our architecture is orthogonal to StackGAN++ , and focuses on person image generation, with all of them together to enrich the spectrum of GANs for the image generation task. Codes are available on \url{https://github.com/linwu-github/Person-Image-Generation.git}.
翻訳日:2023-07-04 15:49:04 公開日:2023-07-02
# Vendi Score: マシンラーニングのための多様性評価指標

The Vendi Score: A Diversity Evaluation Metric for Machine Learning ( http://arxiv.org/abs/2210.02410v2 )

ライセンス: Link先を確認
Dan Friedman and Adji Bousso Dieng(参考訳) 多様性は、生成モデリングやデータセットキュレーションを含む、機械学習(ML)の多くの領域において重要な基準である。 しかしながら、多様性を測定するための既存のメトリクスは、しばしばドメイン固有であり、柔軟性に制限がある。 本稿では,エコロジーや量子統計力学のアイデアをMLに接続し,拡張するVendi Scoreを提案することにより,多様性評価の問題に対処する。 ヴェンディスコアは類似行列の固有値のシャノンエントロピーの指数として定義される。 このマトリックスは、多様性を評価するためにサンプルに適用されたユーザー定義の類似度関数によって誘導される。 類似機能を入力として取り込むことで、Vendi Scoreはユーザが望む多様性の形式を指定することができる。 重要な点として、MLの既存のメトリクスとは異なり、Vendi Scoreは参照データセットやサンプルやラベル上の分布を必要としないため、類似性を定義することができる任意の領域からの任意の生成モデル、デコードアルゴリズム、データセットに適用可能である。 我々は、分子生成モデリングに関するVendi Scoreを紹介し、その領域における現在の多様性指標の欠点に対処することを発見した。 また、Vendi Scoreを画像の生成モデルやテキストの復号アルゴリズムに適用し、それらの領域の多様性に関する既知の結果を確認した。 さらに,generative adversarial network (gans) の既知の欠点であるモード崩壊を測定するために,vendiスコアを用いた。 特にVendi Scoreは、ラベル付きデータセットのすべてのモードをキャプチャするGANでさえ、元のデータセットよりも多様性が低いことを示した。 最後に、vendiスコアの解釈可能性により、多様性のためにいくつかのベンチマークmlデータセットを診断することができ、多様性に欠けるデータ拡張の扉を開くことができた。

Diversity is an important criterion for many areas of machine learning (ML), including generative modeling and dataset curation. However, existing metrics for measuring diversity are often domain-specific and limited in flexibility. In this paper, we address the diversity evaluation problem by proposing the Vendi Score, which connects and extends ideas from ecology and quantum statistical mechanics to ML. The Vendi Score is defined as the exponential of the Shannon entropy of the eigenvalues of a similarity matrix. This matrix is induced by a user-defined similarity function applied to the sample to be evaluated for diversity. In taking a similarity function as input, the Vendi Score enables its user to specify any desired form of diversity. Importantly, unlike many existing metrics in ML, the Vendi Score does not require a reference dataset or distribution over samples or labels, it is therefore general and applicable to any generative model, decoding algorithm, and dataset from any domain where similarity can be defined. We showcase the Vendi Score on molecular generative modeling where we found it addresses shortcomings of the current diversity metric of choice in that domain. We also applied the Vendi Score to generative models of images and decoding algorithms of text where we found it confirms known results about diversity in those domains. Furthermore, we used the Vendi Score to measure mode collapse, a known shortcoming of generative adversarial networks (GANs). In particular, the Vendi Score revealed that even GANs that capture all the modes of a labeled dataset can be less diverse than the original dataset. Finally, the interpretability of the Vendi Score allowed us to diagnose several benchmark ML datasets for diversity, opening the door for diversity-informed data augmentation.
翻訳日:2023-07-04 15:40:11 公開日:2023-07-02
# fair-fate: 勢いのあるフェアフェデレーション学習

FAIR-FATE: Fair Federated Learning with Momentum ( http://arxiv.org/abs/2209.13678v2 )

ライセンス: Link先を確認
Teresa Salazar, Miguel Fernandes, Helder Araujo, Pedro Henriques Abreu(参考訳) 公平を意識した機械学習アルゴリズムが注目されている一方で、集中型機械学習に重点が置かれており、分散化手法は未検討のままである。 フェデレートラーニング(Federated Learning)は、クライアントがローカルモデルをサーバでトレーニングし、共有グローバルモデルを取得するための分散型機械学習である。 クライアント間のデータの不均一性は、人種や性別などの繊細な属性によって定義された非特権集団の識別を誘導または悪化させるフェデレーション学習の一般的な特徴である。 本研究では,クライアントの公平性を考慮し,グローバルモデルを計算するフェアネスアウェアアグリゲーション手法を用いて,高い実用性を維持しつつ,グループフェアネスを達成することを目的とした,新しいフェアフェデレーション学習アルゴリズムであるfair-fateを提案する。 これを達成するために、グローバルモデル更新は、不等勾配の振動を克服するのに役立つMomentum項を用いて公正モデル更新を推定することで計算される。 我々の知る限りでは、公正なモメンタム推定を用いて公平性を達成することを目的とした機械学習における最初のアプローチである。 実世界のデータセットに対する実験結果から、FAIR-FATEは、さまざまなレベルのデータヘテロジニティの下で、最先端のフェデレーション学習アルゴリズムよりも優れています。

While fairness-aware machine learning algorithms have been receiving increasing attention, the focus has been on centralized machine learning, leaving decentralized methods underexplored. Federated Learning is a decentralized form of machine learning where clients train local models with a server aggregating them to obtain a shared global model. Data heterogeneity amongst clients is a common characteristic of Federated Learning, which may induce or exacerbate discrimination of unprivileged groups defined by sensitive attributes such as race or gender. In this work we propose FAIR-FATE: a novel FAIR FederATEd Learning algorithm that aims to achieve group fairness while maintaining high utility via a fairness-aware aggregation method that computes the global model by taking into account the fairness of the clients. To achieve that, the global model update is computed by estimating a fair model update using a Momentum term that helps to overcome the oscillations of non-fair gradients. To the best of our knowledge, this is the first approach in machine learning that aims to achieve fairness using a fair Momentum estimate. Experimental results on real-world datasets demonstrate that FAIR-FATE outperforms state-of-the-art fair Federated Learning algorithms under different levels of data heterogeneity.
翻訳日:2023-07-04 15:39:08 公開日:2023-07-02
# 離散フーリエ変換(dft)によるjpeg圧縮における構成損失を低減する畳み込みニューラルネットワーク(cnn)

Convolutional Neural Network (CNN) to reduce construction loss in JPEG compression caused by Discrete Fourier Transform (DFT) ( http://arxiv.org/abs/2209.03475v2 )

ライセンス: Link先を確認
Suman Kunwar(参考訳) 近年,デジタル画像処理が盛んに行われている。 その結果,画像表現に必要な情報量を最小化する目的で,データ圧縮戦略がいくつも実施されている。 その中でもJPEG圧縮は、マルチメディアやデジタルアプリケーションに広く応用されている最も一般的な方法の1つである。 DFTの周期的な性質は、画像の対向するエッジの周期的な条件を満たすことが、深刻なアーチファクトを生成することなく不可能となり、画像の視覚的品質を低下させる。 一方,ディープラーニングは音声認識,画像の縮小,自然言語処理などの応用において,近年顕著な成果を上げている。 畳み込みニューラルネットワーク(CNN)は他の多くのディープニューラルネットワークよりも注目されている。 特徴抽出における畳み込みの使用により、冗長な特徴マップは少なくなり、データセットも小さくなり、どちらも画像圧縮に不可欠である。 本研究では,オートエンコーダを用いた効果的な画像圧縮手法を提案する。 研究の結果, 自己エンコーダを用いて, 良好な再建と良好な圧縮を達成できることを示唆するいくつかの重要な傾向が明らかになった。

In recent decades, digital image processing has gained enormous popularity. Consequently, a number of data compression strategies have been put forth, with the goal of minimizing the amount of information required to represent images. Among them, JPEG compression is one of the most popular methods that has been widely applied in multimedia and digital applications. The periodic nature of DFT makes it impossible to meet the periodic condition of an image's opposing edges without producing severe artifacts, which lowers the image's perceptual visual quality. On the other hand, deep learning has recently achieved outstanding results for applications like speech recognition, image reduction, and natural language processing. Convolutional Neural Networks (CNN) have received more attention than most other types of deep neural networks. The use of convolution in feature extraction results in a less redundant feature map and a smaller dataset, both of which are crucial for image compression. In this work, an effective image compression method is purposed using autoencoders. The study's findings revealed a number of important trends that suggested better reconstruction along with good compression can be achieved using autoencoders.
翻訳日:2023-07-04 15:38:11 公開日:2023-07-02
# RSC:ランダムスパース計算によるグラフニューラルネットワークトレーニングの高速化

RSC: Accelerating Graph Neural Networks Training via Randomized Sparse Computations ( http://arxiv.org/abs/2210.10737v2 )

ライセンス: Link先を確認
Zirui Liu, Shengyuan Chen, Kaixiong Zhou, Daochen Zha, Xiao Huang, Xia Hu(参考訳) グラフニューラルネットワーク(gnns)のトレーニングは、ハードウェアによってスパースグラフベースの操作を加速することが難しいため、非常に時間がかかる。 先行技術は、サンプリングに基づく近似による時間の複雑さを減らすために計算精度をトレードオフする。 この考えに基づいて、以前の研究は無視できる精度の低下で密度行列に基づく演算(例えば畳み込みや線形)を加速させることに成功した。 しかし、密度行列とは異なり、スパース行列は不規則なデータ形式に格納され、各行/カラムは異なる数の非ゼロエントリを持つ。 したがって、密接な比較により、スパース演算の近似化には、(1)非ゼロエントリでのみ計算を行うため、近似スパース演算の効率を直接制御できないこと、(2)サブサンプリングスパース行列は不規則なデータフォーマットのため、はるかに非効率である。 この問題に対処するためには,計算資源割当を階層的に,画期的に最適化することにより,精度と効率のトレードオフを制御することが重要となる。 具体的には、最初の課題として、計算リソースを異なるスパース操作にカスタマイズし、使用済みリソースの合計を予算未満に制限する。 第2の課題として、サンプリング済みスパース行列をキャッシュし、エポックワイズサンプリングオーバーヘッドを削減する。 最後に,近似演算で学習したgnnの一般化を改善するスイッチング機構を提案する。 そこで本研究では,GNNを近似演算でトレーニングする可能性を初めて示すランダム化スパース計算を提案する。 実際には、rscは1回のスパース操作で最大11.6\times$ speedupを達成でき、エンドツーエンドのウォールクロックタイムスピードアップは1.6\times$である。

The training of graph neural networks (GNNs) is extremely time consuming because sparse graph-based operations are hard to be accelerated by hardware. Prior art explores trading off the computational precision to reduce the time complexity via sampling-based approximation. Based on the idea, previous works successfully accelerate the dense matrix based operations (e.g., convolution and linear) with negligible accuracy drop. However, unlike dense matrices, sparse matrices are stored in the irregular data format such that each row/column may have different number of non-zero entries. Thus, compared to the dense counterpart, approximating sparse operations has two unique challenges (1) we cannot directly control the efficiency of approximated sparse operation since the computation is only executed on non-zero entries; (2) sub-sampling sparse matrices is much more inefficient due to the irregular data format. To address the issues, our key idea is to control the accuracy-efficiency trade off by optimizing computation resource allocation layer-wisely and epoch-wisely. Specifically, for the first challenge, we customize the computation resource to different sparse operations, while limit the total used resource below a certain budget. For the second challenge, we cache previous sampled sparse matrices to reduce the epoch-wise sampling overhead. Finally, we propose a switching mechanisms to improve the generalization of GNNs trained with approximated operations. To this end, we propose Randomized Sparse Computation, which for the first time demonstrate the potential of training GNNs with approximated operations. In practice, rsc can achieve up to $11.6\times$ speedup for a single sparse operation and a $1.6\times$ end-to-end wall-clock time speedup with negligible accuracy drop.
翻訳日:2023-07-04 15:29:57 公開日:2023-07-02
# マルチドメイン学習のための予算対応pruning

Budget-Aware Pruning for Multi-Domain Learning ( http://arxiv.org/abs/2210.08101v2 )

ライセンス: Link先を確認
Samuel Felipe dos Santos, Rodrigo Berriel, Thiago Oliveira-Santos, Nicu Sebe, Jurandy Almeida(参考訳) ディープラーニングは、いくつかのコンピュータビジョンタスクやドメインで最先端のパフォーマンスを達成した。 それにもかかわらず、計算コストは高く、かなりの量のパラメータを必要とする。 このような要件は、リソース制限された環境での使用を妨げ、ソフトウェアとハードウェアの最適化を要求する。 別の制限として、深層モデルは通常単一のドメインやタスクに特化しており、新しいパラメータを学習し、新しいパラメータを格納する必要がある。 マルチドメイン学習(MDL)は、複数のドメインでうまく機能する単一のモデルを学習することでこの問題を解決する。 それでも、モデルは通常、1つのドメインのベースラインよりも大きい。 本研究の目的は, ユーザ定義予算に従って複数のドメインを処理可能なモデルを試作し, 類似の分類性能を維持しつつ, 計算的に安価に処理できるようにすることである。 これを実現するために、すべてのドメインに対して、ベースラインモデルからユーザーの予算で定義された量まで、同様のフィルタのサブセットを使用することを奨励します。 次に、任意のドメインで使用されていないフィルタをネットワークからプルーニングする。 提案手法は、リソース制限されたデバイスへの適応性を向上させると同時に、我々の知識では、単一のドメインのベースラインモデルよりも少ないパラメータと低い計算複雑性で、テスト時に複数のドメインを処理できる唯一の仕事である。

Deep learning has achieved state-of-the-art performance on several computer vision tasks and domains. Nevertheless, it still has a high computational cost and demands a significant amount of parameters. Such requirements hinder the use in resource-limited environments and demand both software and hardware optimization. Another limitation is that deep models are usually specialized into a single domain or task, requiring them to learn and store new parameters for each new one. Multi-Domain Learning (MDL) attempts to solve this problem by learning a single model that is capable of performing well in multiple domains. Nevertheless, the models are usually larger than the baseline for a single domain. This work tackles both of these problems: our objective is to prune models capable of handling multiple domains according to a user defined budget, making them more computationally affordable while keeping a similar classification performance. We achieve this by encouraging all domains to use a similar subset of filters from the baseline model, up to the amount defined by the user's budget. Then, filters that are not used by any domain are pruned from the network. The proposed approach innovates by better adapting to resource-limited devices while, to our knowledge, being the only work that is capable of handling multiple domains at test time with fewer parameters and lower computational complexity than the baseline model for a single domain.
翻訳日:2023-07-04 15:28:43 公開日:2023-07-02
# cab:long sequence modelingの総合的注意ベンチマーク

CAB: Comprehensive Attention Benchmarking on Long Sequence Modeling ( http://arxiv.org/abs/2210.07661v3 )

ライセンス: Link先を確認
Jun Zhang, Shuyang Jiang, Jiangtao Feng, Lin Zheng, Lingpeng Kong(参考訳) トランスフォーマーは、言語、画像、音声処理で顕著な成功を収めた。 近年,特に長周期のモデリングにおいて,変圧器の効率を向上し,その有効性を保ちつつ,様々な効率的な注目アーキテクチャが提案されている。 長距離モデリングにおいてこれらの効率的な手法の能力をテストするために広く利用されているベンチマークはLong Range Arena (LRA)である。 しかし、LRAは標準的な双方向(または非因果的)自己注意のみに焦点を当てており、下流アプリケーションでも同じように重要であるクロスアテンションや一方向(または因果的)の注意を完全に無視している。 本稿では,非因果的自己,因果的自己,非因果的クロス,因果的横断的注意という4つの区別可能な注意パターンを持つ,細粒度注意分類法の下での包括的注意度ベンチマーク(cab)を提案する。 CABは、異なる研究領域から7つの現実世界のタスクを収集し、4つの注意パターンの下で効率的な注意力を評価する。 これらのタスクのうち、cabは8つのバックボーンネットワークの効率的な注意を検証し、ニューラルネットワーク全体の一般化を示す。 我々は,cab上で異なる哲学を持つ9つの高効率アテンションアーキテクチャの性能をベンチマークするために,徹底的な実験を行う。 また,バニラの注意に対する効率長,注意パターン間の性能の整合性,注意機構の利点,長文言語モデリングにおける補間・外挿といった,効率的な注意の基本的な問題にも光を当てた。

Transformer has achieved remarkable success in language, image, and speech processing. Recently, various efficient attention architectures have been proposed to improve transformer's efficiency while largely preserving its efficacy, especially in modeling long sequences. A widely-used benchmark to test these efficient methods' capability on long-range modeling is Long Range Arena (LRA). However, LRA only focuses on the standard bidirectional (or noncausal) self attention, and completely ignores cross attentions and unidirectional (or causal) attentions, which are equally important to downstream applications. In this paper, we propose Comprehensive Attention Benchmark (CAB) under a fine-grained attention taxonomy with four distinguishable attention patterns, namely, noncausal self, causal self, noncausal cross, and causal cross attentions. CAB collects seven real-world tasks from different research areas to evaluate efficient attentions under the four attention patterns. Among these tasks, CAB validates efficient attentions in eight backbone networks to show their generalization across neural architectures. We conduct exhaustive experiments to benchmark the performances of nine widely-used efficient attention architectures designed with different philosophies on CAB. Extensive experimental results also shed light on the fundamental problems of efficient attentions, such as efficiency length against vanilla attention, performance consistency across attention patterns, the benefit of attention mechanisms, and interpolation/extrapolation on long-context language modeling.
翻訳日:2023-07-04 15:28:23 公開日:2023-07-02
# MixUp-MIL:マルチインスタンス学習のための新しいデータ拡張と甲状腺癌の診断に関する研究

MixUp-MIL: Novel Data Augmentation for Multiple Instance Learning and a Study on Thyroid Cancer Diagnosis ( http://arxiv.org/abs/2211.05862v3 )

ライセンス: Link先を確認
Michael Gadermayr, Lukas Koller, Maximilian Tschuchnig, Lea Maria Stangassinger, Christina Kreutzer, Sebastien Couillard-Despres, Gertie Janneke Oostingh, Anton Hittmair(参考訳) 複数のインスタンス学習は、ピクセルレベルやパッチレベルのアノテーションがなければ、スライドイメージベースの診断全体に対して強力なアプローチを示す。 ホールスライド画像の巨大なサイズにもかかわらず、個々のスライドの数はかなり少なく、少数のラベル付きサンプルに繋がる。 トレーニングを改善するために,特徴ベクトルの線形補間(ミックスアップ)という考え方に基づいて,複数インスタンス学習のための異なるデータ拡張戦略を提案し,検討する。 最先端の複数インスタンス学習アーキテクチャと2つの甲状腺癌データセットに基づいて,様々な共通データ拡張戦略を総合的に検討した。 元々のミックスアップアプローチに基づく戦略では精度が低下したが,新しいスライド内補間法を用いることにより,精度が一貫して向上した。

Multiple instance learning exhibits a powerful approach for whole slide image-based diagnosis in the absence of pixel- or patch-level annotations. In spite of the huge size of hole slide images, the number of individual slides is often rather small, leading to a small number of labeled samples. To improve training, we propose and investigate different data augmentation strategies for multiple instance learning based on the idea of linear interpolations of feature vectors (known as MixUp). Based on state-of-the-art multiple instance learning architectures and two thyroid cancer data sets, an exhaustive study is conducted considering a range of common data augmentation strategies. Whereas a strategy based on to the original MixUp approach showed decreases in accuracy, the use of a novel intra-slide interpolation method led to consistent increases in accuracy.
翻訳日:2023-07-04 15:21:19 公開日:2023-07-02
# アライメント正規化による音声認識のストリーム化

Streaming Audio-Visual Speech Recognition with Alignment Regularization ( http://arxiv.org/abs/2211.02133v2 )

ライセンス: Link先を確認
Pingchuan Ma, Niko Moritz, Stavros Petridis, Christian Fuegen, Maja Pantic(参考訳) 本研究では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。 オーディオとビジュアルエンコーダのニューラルネットワークはどちらもコンフォーマーアーキテクチャに基づいており、チャンクワイド・セルフアテンション(CSA)と因果畳み込みを用いてストリーム化されている。 デコーダニューラルネットワークを用いたストリーム認識は、共同CTC/アテンションスコアによる時間同期復号を行うトリガアテンション技術を用いて実現される。 さらに、音声と視覚エンコーダの同期を促進する新しいアライメント正規化手法を提案する。これにより、ストリーミングおよびオフラインAV-ASRモデルのための全てのSNRレベルにおいて、より優れた単語誤り率(WER)が得られる。 提案するav-asrモデルは,リップ読解文3(lrs3)データセットをオフラインとオンラインでそれぞれ2.0%,2.6%のwersを実現する。

In this work, we propose a streaming AV-ASR system based on a hybrid connectionist temporal classification (CTC)/attention neural network architecture. The audio and the visual encoder neural networks are both based on the conformer architecture, which is made streamable using chunk-wise self-attention (CSA) and causal convolution. Streaming recognition with a decoder neural network is realized by using the triggered attention technique, which performs time-synchronous decoding with joint CTC/attention scoring. Additionally, we propose a novel alignment regularization technique that promotes synchronization of the audio and visual encoder, which in turn results in better word error rates (WERs) at all SNR levels for streaming and offline AV-ASR models. The proposed AV-ASR model achieves WERs of 2.0% and 2.6% on the Lip Reading Sentences 3 (LRS3) dataset in an offline and online setup, respectively, which both present state-of-the-art results when no external training data are used.
翻訳日:2023-07-04 15:19:53 公開日:2023-07-02
# Dense Hebbian Neural Network:教師付き学習のレプリカ対称画像

Dense Hebbian neural networks: a replica symmetric picture of supervised learning ( http://arxiv.org/abs/2212.00606v2 )

ライセンス: Link先を確認
Elena Agliari, Linda Albanese, Francesco Alemanno, Andrea Alessandrelli, Adriano Barra, Fosca Giannotti, Daniele Lotito, Dino Pedreschi(参考訳) 教師が訓練した密集した連想型ニューラルネットワークについて検討し,スピングラスの統計力学,モンテカルロシミュレーションによる数値計算によりその計算能力を解析的に検討した。 In particular, we obtain a phase diagram summarizing their performance as a function of the control parameters such as quality and quantity of the training dataset, network storage and noise, that is valid in the limit of large network size and structureless datasets: these networks may work in a ultra-storage regime (where they can handle a huge amount of patterns, if compared with shallow neural networks) or in a ultra-detection regime (where they can perform pattern recognition at prohibitive signal-to-noise ratios, if compared with shallow neural networks). また,MNist や Fashion MNist などの構造化データセット上で,これらのネットワークが示す数値学習,記憶,検索機能についても検証した。 As technical remarks, from the analytic side, we implement large deviations and stability analysis within Guerra's interpolation to tackle the not-Gaussian distributions involved in the post-synaptic potentials while, from the computational counterpart, we insert Plefka approximation in the Monte Carlo scheme, to speed up the evaluation of the synaptic tensors, overall obtaining a novel and broad approach to investigate supervised learning in neural networks, beyond the shallow limit, in general.

We consider dense, associative neural-networks trained by a teacher (i.e., with supervision) and we investigate their computational capabilities analytically, via statistical-mechanics of spin glasses, and numerically, via Monte Carlo simulations. In particular, we obtain a phase diagram summarizing their performance as a function of the control parameters such as quality and quantity of the training dataset, network storage and noise, that is valid in the limit of large network size and structureless datasets: these networks may work in a ultra-storage regime (where they can handle a huge amount of patterns, if compared with shallow neural networks) or in a ultra-detection regime (where they can perform pattern recognition at prohibitive signal-to-noise ratios, if compared with shallow neural networks). Guided by the random theory as a reference framework, we also test numerically learning, storing and retrieval capabilities shown by these networks on structured datasets as MNist and Fashion MNist. As technical remarks, from the analytic side, we implement large deviations and stability analysis within Guerra's interpolation to tackle the not-Gaussian distributions involved in the post-synaptic potentials while, from the computational counterpart, we insert Plefka approximation in the Monte Carlo scheme, to speed up the evaluation of the synaptic tensors, overall obtaining a novel and broad approach to investigate supervised learning in neural networks, beyond the shallow limit, in general.
翻訳日:2023-07-04 15:11:13 公開日:2023-07-02
# 密集したヘビーニューラルネットワーク:教師なし学習のレプリカ対称画像

Dense Hebbian neural networks: a replica symmetric picture of unsupervised learning ( http://arxiv.org/abs/2211.14067v2 )

ライセンス: Link先を確認
Elena Agliari, Linda Albanese, Francesco Alemanno, Andrea Alessandrelli, Adriano Barra, Fosca Giannotti, Daniele Lotito, Dino Pedreschi(参考訳) 我々は,教師なしの高密度な連想型ニューラルネットワークを考察し,モンテカルロシミュレーションを用いて,統計力学手法を用いて解析的な計算能力について検討する。 特に,トレーニングデータセットの品質や量,ネットワークストレージなどの制御パラメータの関数としての性能を要約した位相図を,ネットワークサイズや構造レスデータセットの限界値として有効とする。 さらに,統計力学で標準的に使用されるマクロ観測器と,機械学習で一般的に使用される損失関数との間に橋渡しを行う。 技術的には、分析的な側面から、ゲラの補間において大きな偏差と安定性解析を行い、ポストシナプスポテンシャルに関連する非ガウシアン分布に取り組む一方で、モンテカルロスキームにプレフカ近似を挿入し、シナプステンソルの評価を高速化し、全体としてはニューラルネットワークを一般に研究するための新しい広範なアプローチを得る。

We consider dense, associative neural-networks trained with no supervision and we investigate their computational capabilities analytically, via a statistical-mechanics approach, and numerically, via Monte Carlo simulations. In particular, we obtain a phase diagram summarizing their performance as a function of the control parameters such as the quality and quantity of the training dataset and the network storage, valid in the limit of large network size and structureless datasets. Moreover, we establish a bridge between macroscopic observables standardly used in statistical mechanics and loss functions typically used in the machine learning. As technical remarks, from the analytic side, we implement large deviations and stability analysis within Guerra's interpolation to tackle the not-Gaussian distributions involved in the post-synaptic potentials while, from the computational counterpart, we insert Plefka approximation in the Monte Carlo scheme, to speed up the evaluation of the synaptic tensors, overall obtaining a novel and broad approach to investigate neural networks in general.
翻訳日:2023-07-04 15:10:06 公開日:2023-07-02
# 協調型ハイブリッドアサインメントトレーニングによるDETR

DETRs with Collaborative Hybrid Assignments Training ( http://arxiv.org/abs/2211.12860v4 )

ライセンス: Link先を確認
Zhuofan Zong, Guanglu Song, Yu Liu(参考訳) 本稿では、一対一のセットマッチングを持つdetrの正のサンプルとして割り当てられるクエリが少なすぎると、エンコーダの出力にばらばらな監督を生じさせ、エンコーダの識別的特徴学習と、デコーダにおける注意学習の副ビザを著しく損なうという観察を行う。 そこで本研究では,より効率的かつ効率的なDETRベースの検出器を多目的ラベル割り当て方式で学習するために,Co-DETRという新しい協調型ハイブリット割当て訓練手法を提案する。 この新しいトレーニング方式は、atssや高速rcnnなどの1対1ラベル割り当てによって管理される複数の並列補助ヘッドを訓練することにより、エンドツーエンド検出器におけるエンコーダの学習能力を高めることができる。 また,これらの補助ヘッドから正座標を抽出することで,デコーダ内の正のサンプルのトレーニング効率を向上させることで,さらにカスタマイズした正の問い合わせを行う。 そこで本手法では,手作り非最大抑制(NMS)を必要とせずに,元の検出器に余分なパラメータや計算コストを導入する。 我々は,DAB-DETR,Deformable-DETR,DINO-Deformable-DETRなど,提案手法の有効性を評価するための広範囲な実験を行った。 具体的には,12エポックトレーニングでは5.8%,36エポックトレーニングでは3.2%の改善を行った。 最先端のDINO-Deformable-DETRとSwin-Lは今でも58.5%から59.5%に改善できる。 驚いたことに、vit-l backboneを組み込んだcoco test-devでは65.6%のapを達成し、モデルサイズがはるかに少ない従来のメソッドよりも優れています。 コードはhttps://github.com/Sense-X/Co-DETRで入手できる。

In this paper, we provide the observation that too few queries assigned as positive samples in DETR with one-to-one set matching leads to sparse supervisions on the encoder's output which considerably hurt the discriminative feature learning of the encoder and vice visa for attention learning in the decoder. To alleviate this, we present a novel collaborative hybrid assignments training scheme, namely Co-DETR, to learn more efficient and effective DETR-based detectors from versatile label assignment manners. This new training scheme can easily enhance the encoder's learning ability in end-to-end detectors by training the multiple parallel auxiliary heads supervised by one-to-many label assignments such as ATSS and Faster RCNN. In addition, we conduct extra customized positive queries by extracting the positive coordinates from these auxiliary heads to improve the training efficiency of positive samples in the decoder. In inference, these auxiliary heads are discarded and thus our method introduces no additional parameters and computational cost to the original detector while requiring no hand-crafted non-maximum suppression (NMS). We conduct extensive experiments to evaluate the effectiveness of the proposed approach on DETR variants, including DAB-DETR, Deformable-DETR, and DINO-Deformable-DETR. Specifically, we improve the basic Deformable-DETR by 5.8% AP in 12-epoch training and 3.2% AP in 36-epoch training. The state-of-the-art DINO-Deformable-DETR with Swin-L can still be improved from 58.5% to 59.5% AP on COCO val. Surprisingly, incorporated with ViT-L backbone, we achieve 65.6% AP on COCO test-dev, outperforming previous methods with much fewer model sizes. Codes will be available at https://github.com/Sense-X/Co-DETR.
翻訳日:2023-07-04 15:09:34 公開日:2023-07-02
# ひずみ結晶InGaPからの高Qトランポリン共振器による自由空間光力学

High-Q trampoline resonators from strained crystalline InGaP for integrated free-space optomechanics ( http://arxiv.org/abs/2211.12469v3 )

ライセンス: Link先を確認
Sushanth Kini Manjeshwar, Anastasiia Ciers, Fia Hellman, J\"urgen Bl\"asing, Andr\'e Strittmater, Witlef Wieczorek(参考訳) 引張拘束材料は、kHzからMHzの周波数範囲で超低振動のナノ・マイクロメカニカル共振器を製造するために使用されている。 これらの機械共振器は室温での力覚応用や量子光学に特に関心がある。 ヘテロ構造のエピタキシャル成長に適合する引張ひずみ結晶材料は、安定性、超小型モードボリューム、スケーラビリティの恩恵を受けるモノリシックな自由空間光機械デバイスを実現することができる。 本研究は,AlGaAsヘテロ構造上にエピタキシャルに成長可能な結晶材料である引張ひずみInGaPを用いた弦・トランポリン共振器について述べる。 InGaP層のひずみは(Al,Ga)As上に成長するとGa含有量を介して定義される。 このケースでは、[1\,1\,0]$結晶方向に沿って最大470\,mpaの応力を持つデバイスを実現する。 異方性応力, 降伏強度, 固有品質係数など, 懸濁したInGaP素子の機械的特性を特徴付ける。 時間が経つにつれ、後者は劣化する。 我々は, トランポリン形マイクロメカニカル共振器を用いて, 室内温度で10^7ドルを超える機械的品質係数を, 最大7$10^{11}\, $Hzで達成し, ひずみ工学を利用して機械的消散を希釈した。 吊り下げられたトランポリン共振器の広い面積は、光子結晶をパターン化して、光への機械的動きの効率的な信号伝達が望まれるテレコムバンドの面外反射率を設計することができる。 内在的品質因子の安定化と、階層的クランプや機械学習に基づく最適化手法による機械的散逸のさらなる低減は、結晶性材料プラットフォームにおける室温における統合自由空間量子光学への道を開く。

Tensile-strained materials have been used to fabricate nano- and micromechanical resonators with ultra-low mechanical dissipation in the kHz to MHz frequency range. These mechanical resonators are of particular interest for force sensing applications and quantum optomechanics at room temperature. Tensile-strained crystalline materials that are compatible with epitaxial growth of heterostructures would thereby allow realizing monolithic free-space optomechanical devices, which benefit from stability, ultra-small mode volumes, and scalability. In our work, we demonstrate string- and trampoline resonators made from tensile-strained InGaP, which is a crystalline material that can be epitaxially grown on an AlGaAs heterostructure. The strain of the InGaP layer is defined via its Ga content when grown on (Al,Ga)As. In our case, we realize devices with a stress of up to 470\,MPa along the $[1\,1\,0]$ crystal direction. We characterize the mechanical properties of the suspended InGaP devices, such as anisotropic stress, yield strength, and intrinsic quality factor. We find that the latter degrades over time. We reach mechanical quality factors surpassing $10^7$ at room temperature with a $Q\cdot f$-product as high as $7\cdot10^{11}\,$Hz with trampoline-shaped micromechanical resonators, which exploit strain engineering to dilute mechanical dissipation. The large area of the suspended trampoline resonator allows us to pattern a photonic crystal to engineer its out-of-plane reflectivity in the telecom band, which is desired for efficient signal transduction of mechanical motion to light. Stabilization of the intrinsic quality factor together with a further reduction of mechanical dissipation through hierarchical clamping or machine learning-based optimization methods paves the way for integrated free-space quantum optomechanics at room temperature in a crystalline material platform.
翻訳日:2023-07-04 15:09:00 公開日:2023-07-02
# 電子商取引マーケティングにおける外見的な顧客発見

Finding Lookalike Customers for E-Commerce Marketing ( http://arxiv.org/abs/2301.03147v2 )

ライセンス: Link先を確認
Yang Peng, Changzheng Liu, Wei Shen(参考訳) 顧客中心のマーケティングキャンペーンは、walmartのeコマースウェブサイトのトラフィックの大部分を生み出している。 顧客データの規模が大きくなるにつれて、より多くの顧客にリーチするためのマーケティングのオーディエンスの拡大は、eコマース企業にとってビジネスの成長を促進し、顧客により多くの価値をもたらすことがますます重要になっている。 本稿では,数億人の顧客に対応可能な,ターゲットとするマーケティングキャンペーンのオーディエンスを拡大するための,スケーラブルで効率的なシステムを提案する。 深層学習に基づく埋め込みモデルを用いて顧客を表現し、近隣の検索手法を用いて興味のある顧客を素早く見つける。 このモデルは、解釈可能で意味のある顧客類似度メトリクスを構築することで、さまざまなビジネス上の関心事を扱うことができる。 システムと顧客埋め込みモデルの優れた性能を実証するために、広範な実験を行う。

Customer-centric marketing campaigns generate a large portion of e-commerce website traffic for Walmart. As the scale of customer data grows larger, expanding the marketing audience to reach more customers is becoming more critical for e-commerce companies to drive business growth and bring more value to customers. In this paper, we present a scalable and efficient system to expand targeted audience of marketing campaigns, which can handle hundreds of millions of customers. We use a deep learning based embedding model to represent customers and an approximate nearest neighbor search method to quickly find lookalike customers of interest. The model can deal with various business interests by constructing interpretable and meaningful customer similarity metrics. We conduct extensive experiments to demonstrate the great performance of our system and customer embedding model.
翻訳日:2023-07-04 15:02:41 公開日:2023-07-02
# 局所バルク密度変動による量子化バレーホール応答

Quantized valley Hall response from local bulk density variations ( http://arxiv.org/abs/2212.14054v2 )

ライセンス: Link先を確認
Maxime Jamotte, Lucila Peralta Gavensky, Cristiane Morais Smith, Marco Di Liberto and Nathan Goldman(参考訳) 2次元材料への機械的ひずみの適用は擬似磁場を発生させ、量子化されたバレーホール効果をもたらす。 しかしながら、バレー分解効果の測定は、その固有のフレギリティとサンプルの適切な設計に依存するため、依然として困難な課題である。 加えて、多端子装置に基づく非局所輸送プローブは、バレーホール信号の確定的な証拠を得るのに不十分であることがしばしば証明されている。 そこで本研究では,試料の奥深くにおける局所密度測定に完全依存する,量子化された谷ホール効果の検出方法を提案する。 結果として得られる量子化信号は、エッジ物理学とは独立な真のフェルミ海応答であり、widom-st\v{r}eda公式を通じてバレーホール効果を反映する。 具体的には, ひずみの強度を変化させて, 局所的に粒子密度の変動を測定した。 量子化された谷ホール効果に対するこのアプローチは、粒子密度(あるいは状態の集積密度)を空間的に解くことができる合成格子に基づく実験に特に適している。

The application of a mechanical strain to a 2D material can create pseudo-magnetic fields and lead to a quantized valley Hall effect. However, measuring valley-resolved effects remains a challenging task due to their inherent fragility and dependence on the sample's proper design. Additionally, non-local transport probes based on multiterminal devices have often proven to be inadequate in yielding conclusive evidence of the valley Hall signal. Here, we introduce an alternative way of detecting the quantized valley Hall effect, which entirely relies on local density measurements, performed deep in the bulk of the sample. The resulting quantized signal is a genuine Fermi sea response, independent of the edge physics, and reflects the underlying valley Hall effect through the Widom-St\v{r}eda formula. Specifically, our approach is based on measuring the variation of the particle density, locally in the bulk, upon varying the strength of the applied strain. This approach to the quantized valley Hall effect is particularly well suited for experiments based on synthetic lattices, where the particle density (or integrated density of states) can be spatially resolved.
翻訳日:2023-07-04 15:02:29 公開日:2023-07-02
# ボゾン符号化量子ビット上のゲートの高オンオフ比ビームスプリッター相互作用

A high on-off ratio beamsplitter interaction for gates on bosonically encoded qubits ( http://arxiv.org/abs/2212.11929v2 )

ライセンス: Link先を確認
Benjamin J. Chapman, Stijn J. de Graaf, Sophia H. Xue, Yaxing Zhang, James Teoh, Jacob C. Curtis, Takahiro Tsunoda, Alec Eickbusch, Alexander P. Read, Akshay Koottandavida, Shantanu O. Mundhada, Luigi Frunzio, M. H. Devoret, S. M. Girvin, R. J. Schoelkopf(参考訳) 量子ビットを高品質の超伝導マイクロ波空洞にエンコードすることで、1つのデバイスで最初のエラー補正を行う機会が得られるが、量子発振器を最小限のエラーチャネルを導入しながら制御する方法が課題となる。 本研究では3波混合結合素子を用いて1オクターブ以上の周波数で分離された2つのボソニックモード間のプログラム可能なビームスプリッタ相互作用を設計し,この制御問題の2ビット部分に着目した。 これを分散結合トランスモンによって提供される単一オシレータ制御と組み合わせることで、複数の符号化量子ビットの量子制御のためのフレームワークを提供する。 ビームスプリッター相互作用 $g_\text{bs}$ は発振子のデコヒーレンスの時間スケールと比較して高速であり、コヒーレンス時間あたり10^3$のビームスプリッター操作が可能であり、個々の発振器制御に使用される分散結合 $\chi$ の典型的な速度に近づく。 さらに、10^5$を超える操作のオンオフ比が示すように、プログラマブル結合は、発振器間の望ましくない相互作用を加えることなく設計される。 次に,2つのボソニックモードのSWAPに対して,トランスモンが制御ビットを提供するレシエーション$g_{bs}\approx\chi$におけるハイブリッド制御SWAP演算を実現するための新しいプロトコルを提案する。 最後に、このゲートをSWAPテストで使用し、1対のボソニック量子ビットを9,5\% \pm 0.2\%$の精度でベル状態に投影する。

Encoding a qubit in a high quality superconducting microwave cavity offers the opportunity to perform the first layer of error correction in a single device, but presents a challenge: how can quantum oscillators be controlled while introducing a minimal number of additional error channels? We focus on the two-qubit portion of this control problem by using a 3-wave mixing coupling element to engineer a programmable beamsplitter interaction between two bosonic modes separated by more than an octave in frequency, without introducing major additional sources of decoherence. Combining this with single-oscillator control provided by a dispersively coupled transmon provides a framework for quantum control of multiple encoded qubits. The beamsplitter interaction $g_\text{bs}$ is fast relative to the timescale of oscillator decoherence, enabling over $10^3$ beamsplitter operations per coherence time, and approaching the typical rate of the dispersive coupling $\chi$ used for individual oscillator control. Further, the programmable coupling is engineered without adding unwanted interactions between the oscillators, as evidenced by the high on-off ratio of the operations, which can exceed $10^5$. We then introduce a new protocol to realize a hybrid controlled-SWAP operation in the regime $g_{bs}\approx\chi$, in which a transmon provides the control bit for the SWAP of two bosonic modes. Finally, we use this gate in a SWAP test to project a pair of bosonic qubits into a Bell state with measurement-corrected fidelity of $95.5\% \pm 0.2\%$.
翻訳日:2023-07-04 15:01:49 公開日:2023-07-02
# 言語モデルを信頼しないとき-パラメトリックおよび非パラメトリック記憶の有効性の検討

When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories ( http://arxiv.org/abs/2212.10511v4 )

ライセンス: Link先を確認
Alex Mallen, Akari Asai, Victor Zhong, Rajarshi Das, Daniel Khashabi, Hannaneh Hajishirzi(参考訳) 大きな言語モデル(LM)は、多種多様なタスクにおける印象的なパフォーマンスにもかかわらず、豊かな世界の知識を必要とするタスクに苦戦し、豊富な世界の知識を符号化するためにパラメータのみに依存するという制限を暗示している。 本稿では,10モデルと4つの拡張手法を用いた大規模知識探索実験をPopQA上で実施することにより,事実知識の記憶におけるLMの強みと限界を理解することを目的とする。 LMは、あまり一般的でない事実知識に苦しむとともに、長期にわたる事実知識の記憶の改善に失敗する。 そして, 検索拡張されたLMは, 大容量のLMよりもはるかに優れており, 高人気エンティティに関する問題では, LMの非支援が競争力を維持していることを示す。 これらの結果に基づき,非パラメトリック記憶を必要時にのみ検索できる,強力かつ効率的な検索型lms法を考案した。 実験結果から,モデルの性能が大幅に向上し,推論コストが低減された。

Despite their impressive performance on diverse tasks, large language models (LMs) still struggle with tasks requiring rich world knowledge, implying the limitations of relying solely on their parameters to encode a wealth of world knowledge. This paper aims to understand LMs' strengths and limitations in memorizing factual knowledge, by conducting large-scale knowledge probing experiments of 10 models and 4 augmentation methods on PopQA, our new open-domain QA dataset with 14k questions. We find that LMs struggle with less popular factual knowledge, and that scaling fails to appreciably improve memorization of factual knowledge in the long tail. We then show that retrieval-augmented LMs largely outperform orders of magnitude larger LMs, while unassisted LMs remain competitive in questions about high-popularity entities. Based on those findings, we devise a simple, yet effective, method for powerful and efficient retrieval-augmented LMs, which retrieves non-parametric memories only when necessary. Experimental results show that this significantly improves models' performance while reducing the inference costs.
翻訳日:2023-07-04 15:00:54 公開日:2023-07-02
# 自己再生による多様性誘導型環境設計

Diversity Induced Environment Design via Self-Play ( http://arxiv.org/abs/2302.02119v3 )

ライセンス: Link先を確認
Dexun Li, Wenjun Li, Pradeep Varakantham(参考訳) 環境の適切な分布を設計する最近の研究は、効果的な汎用エージェントの訓練を約束していることを示している。 その成功の一部は、エージェントの能力の最前線で環境インスタンス(またはレベル)を生成する適応的なカリキュラム学習の形式が原因である。 しかし、このような環境設計フレームワークは、しばしば挑戦的な設計空間において効果的なレベルを見つけるのに苦労し、環境とのコストのかかる相互作用を必要とする。 本稿では,Unsupervised Environment Design (UED) フレームワークに多様性を導入することを目的とする。 具体的には,与えられたレベルを表す観測/隠蔽状態を特定するタスク非依存の手法を提案する。 この手法の結果は, 2つのレベル間の多様性を特徴付けるために利用され, 有効性能に欠かせないことが示されている。 さらに, サンプリング効率を向上させるため, 環境生成装置が学習エージェントにとって非常に有益な環境を自動的に生成できるセルフプレイ技術も取り入れた。 提案手法は,DivSP(DivSP)による環境設計であり,既存の手法よりも優れた性能を示す。

Recent work on designing an appropriate distribution of environments has shown promise for training effective generally capable agents. Its success is partly because of a form of adaptive curriculum learning that generates environment instances (or levels) at the frontier of the agent's capabilities. However, such an environment design framework often struggles to find effective levels in challenging design spaces and requires costly interactions with the environment. In this paper, we aim to introduce diversity in the Unsupervised Environment Design (UED) framework. Specifically, we propose a task-agnostic method to identify observed/hidden states that are representative of a given level. The outcome of this method is then utilized to characterize the diversity between two levels, which as we show can be crucial to effective performance. In addition, to improve sampling efficiency, we incorporate the self-play technique that allows the environment generator to automatically generate environments that are of great benefit to the training agent. Quantitatively, our approach, Diversity-induced Environment Design via Self-Play (DivSP), shows compelling performance over existing methods.
翻訳日:2023-07-04 14:52:06 公開日:2023-07-02
# 強化学習のための学習

Learning to Optimize for Reinforcement Learning ( http://arxiv.org/abs/2302.01470v2 )

ライセンス: Link先を確認
Qingfeng Lan, A. Rupam Mahmood, Shuicheng Yan, Zhongwen Xu(参考訳) 近年、多くのデータ、計算、多様なタスクを活用することで、学習オプティマイザは教師付き学習において大きな成功を収め、古典的な手設計オプティマイザよりも優れています。 強化学習(Reinforcement Learning, RL)は、教師あり学習とは本質的に異なり、実際にこれらの学習最適化は単純なRLタスクでもうまく機能しない。 この現象と同一性は3つある。 第一に、RLエージェントの勾配は、その絶対値が小さい範囲にある間、幅広い対数の範囲で変化し、ニューラルネットワークが正確なパラメータ更新を得るのが困難になる。 第二に、エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。 最後に, エージェント・環境相互作用の高度化により, エージェント・グラディエントは高いバイアスと分散を有し, 最適化器の学習が困難になる。 これらの問題に対処するために,勾配処理,パイプライントレーニング,インダクティブバイアスの高い新しいオプティマイザ構造を提案する。 これらの手法を適用することで、初めてRLの最適化をスクラッチから学習できることが示される。 おもちゃのタスクでしか訓練されないが、学習したオプティマイザはブラックスの複雑なタスクに一般化できる。

In recent years, by leveraging more data, computation, and diverse tasks, learned optimizers have achieved remarkable success in supervised learning, outperforming classical hand-designed optimizers. Reinforcement learning (RL) is essentially different from supervised learning and in practice these learned optimizers do not work well even in simple RL tasks. We investigate this phenomenon and identity three issues. First, the gradients of an RL agent vary across a wide range in logarithms while their absolute values are in a small range, making neural networks hard to obtain accurate parameter updates. Second, the agent-gradient distribution is non-independent and identically distributed, leading to inefficient meta-training. Finally, due to highly stochastic agent-environment interactions, the agent-gradients have high bias and variance, which increase the difficulty of learning an optimizer for RL. We propose gradient processing, pipeline training, and a novel optimizer structure with good inductive bias to address these issues. By applying these techniques, for the first time, we show that learning an optimizer for RL from scratch is possible. Although only trained in toy tasks, our learned optimizer can generalize to unseen complex tasks in Brax.
翻訳日:2023-07-04 14:51:30 公開日:2023-07-02
# 微調整言語モデルにおけるタスク特化スキルローカライゼーション

Task-Specific Skill Localization in Fine-tuned Language Models ( http://arxiv.org/abs/2302.06600v2 )

ライセンス: Link先を確認
Abhishek Panigrahi, Nikunj Saunshi, Haoyu Zhao, Sanjeev Arora(参考訳) 事前訓練された言語モデルは、数ショット設定を含む多様なNLPタスクを解決するために微調整できる。 このように微調整することで、モデルがタスク固有の `skills,'' を素早く拾うことができるが、これらの新しい学習スキルが巨大なモデル内に存在する場所についての研究は限られている。 本稿では,この問題に対するスキルローカライズという用語を紹介し,解決策を提案する。 ダウンストリームタスクと、そのタスクに微調整されたモデルが与えられた場合、モデルのパフォーマンスに責任を持つパラメータのごく小さなサブセット(モデルパラメータの\sim0.01$%)を特定するために、単純な最適化が使われます。 パラメータ効率の良い微調整に関する最近の研究を思い出す一方で、新しい側面は以下のとおりである。 (i)未成年者(宝くじなどを除く。)には再訓練は不要。 (ii)分布の予測のキャリブレーション(40〜90$%の誤差削減)と分布外の予測の質(ood)に関して、バニラの微調整よりも顕著な改善が見られる。 複数のタスクで訓練されたモデルでは、異なるタスクに対応するスパース領域がほぼ不整合であり、そのオーバーラップ(その場合)がタスク類似性のプロキシとなるような、スキルローカライゼーションの強い概念が観察される。 実験により、移植による局所化はある種の連続学習を支援することが示唆された。

Pre-trained language models can be fine-tuned to solve diverse NLP tasks, including in few-shot settings. Thus fine-tuning allows the model to quickly pick up task-specific ``skills,'' but there has been limited study of where these newly-learnt skills reside inside the massive model. This paper introduces the term skill localization for this problem and proposes a solution. Given the downstream task and a model fine-tuned on that task, a simple optimization is used to identify a very small subset of parameters ($\sim0.01$% of model parameters) responsible for ($>95$%) of the model's performance, in the sense that grafting the fine-tuned values for just this tiny subset onto the pre-trained model gives performance almost as well as the fine-tuned model. While reminiscent of recent works on parameter-efficient fine-tuning, the novel aspects here are that: (i) No further re-training is needed on the subset (unlike, say, with lottery tickets). (ii) Notable improvements are seen over vanilla fine-tuning with respect to calibration of predictions in-distribution ($40$-$90$% error reduction) as well as the quality of predictions out-of-distribution (OOD). In models trained on multiple tasks, a stronger notion of skill localization is observed, where the sparse regions corresponding to different tasks are almost disjoint, and their overlap (when it happens) is a proxy for task similarity. Experiments suggest that localization via grafting can assist certain forms of continual learning.
翻訳日:2023-07-04 14:42:29 公開日:2023-07-02
# less is more: subtuningによる選択的層微調整

Less is More: Selective Layer Finetuning with SubTuning ( http://arxiv.org/abs/2302.06354v3 )

ライセンス: Link先を確認
Gal Kaplun, Andrey Gurevich, Tal Swisa, Mazor David, Shai Shalev-Shwartz and Eran Malach(参考訳) 事前訓練されたモデルを微調整することは、ニューラルネットワークを新しいタスクで訓練するための標準的なアプローチとなり、高速な収束と性能の向上をもたらす。 そこで本研究では,ネットワークの全重みを微調整する代わりに,注意深く選択したレイヤのサブセットのみを訓練し,残りの重みを初期(事前訓練)の値で凍結させる方法を検討した。 我々は,モデルの完全微調整に匹敵する精度をしばしば達成し,訓練データ不足時の完全微調整性能を超過することを示した。 したがって、サブチューニングはモデル全体の微調整の利点を享受しながら、計算コストの最小化で新しいタスクのデプロイを可能にする。 これにより、異なるタスクが互いに干渉せず、推論時にほとんどのリソースを共有するマルチタスク学習のためのシンプルで効果的な方法が得られる。 複数のタスクにまたがるSubTuningの効率を、異なるネットワークアーキテクチャと事前学習手法を用いて実証する。

Finetuning a pretrained model has become a standard approach for training neural networks on novel tasks, resulting in fast convergence and improved performance. In this work, we study an alternative finetuning method, where instead of finetuning all the weights of the network, we only train a carefully chosen subset of layers, keeping the rest of the weights frozen at their initial (pretrained) values. We demonstrate that \emph{subset finetuning} (or SubTuning) often achieves accuracy comparable to full finetuning of the model, and even surpasses the performance of full finetuning when training data is scarce. Therefore, SubTuning allows deploying new tasks at minimal computational cost, while enjoying the benefits of finetuning the entire model. This yields a simple and effective method for multi-task learning, where different tasks do not interfere with one another, and yet share most of the resources at inference time. We demonstrate the efficiency of SubTuning across multiple tasks, using different network architectures and pretraining methods.
翻訳日:2023-07-04 14:42:05 公開日:2023-07-02
# U統計量の高次元収束理論とカーネルベーステストへの応用

A High-dimensional Convergence Theorem for U-statistics with Applications to Kernel-based Testing ( http://arxiv.org/abs/2302.05686v3 )

ライセンス: Link先を確認
Kevin H. Huang, Xing Liu, Andrew B. Duncan, Axel Gandy(参考訳) 次数2のU-統計量に対して収束定理を証明し、データ次元$d$はサンプルサイズ$n$でスケールすることができる。 U-統計量の極限分布は、非退化ガウス極限から退化極限への位相遷移を、その縮退性によらず、モーメント比のみに依存する。 驚くべき結果として、高次元の非退化 u-統計量はより大きい分散と非対称分布を持つ非ガウス極限を持つことができる。 我々の境界は有限の n$ と $d$ に対して有効であり、基底関数の個々の固有値とは独立であり、穏やかな仮定の下で次元非依存である。 その結果,高次元性能の研究が困難であった2つのカーネルベース分布試験(mmdとksd)に本理論を適用した。 簡単な経験的設定では、固定しきい値におけるテストパワーが$d$と帯域幅でどのようにスケールするかを正確に予測する。

We prove a convergence theorem for U-statistics of degree two, where the data dimension $d$ is allowed to scale with sample size $n$. We find that the limiting distribution of a U-statistic undergoes a phase transition from the non-degenerate Gaussian limit to the degenerate limit, regardless of its degeneracy and depending only on a moment ratio. A surprising consequence is that a non-degenerate U-statistic in high dimensions can have a non-Gaussian limit with a larger variance and asymmetric distribution. Our bounds are valid for any finite $n$ and $d$, independent of individual eigenvalues of the underlying function, and dimension-independent under a mild assumption. As an application, we apply our theory to two popular kernel-based distribution tests, MMD and KSD, whose high-dimensional performance has been challenging to study. In a simple empirical setting, our results correctly predict how the test power at a fixed threshold scales with $d$ and the bandwidth.
翻訳日:2023-07-04 14:41:10 公開日:2023-07-02
# Likelihood Annealing: 回帰に対する高速キャリブレーションの不確実性

Likelihood Annealing: Fast Calibrated Uncertainty for Regression ( http://arxiv.org/abs/2302.11012v2 )

ライセンス: Link先を確認
Uddeshya Upadhyay, Jae Myung Kim, Cordelia Schmidt, Bernhard Sch\"olkopf, Zeynep Akata(参考訳) 近年,医療画像,自然言語処理,自律システムなどの応用において,不確実性評価がますます重要になりつつあることが,ディープラーニングの進歩によって示されている。 しかし、特に出力空間が連続的な回帰タスクでは、不確実性を正確に定量化することは難しい問題である。 回帰問題に対する不確実性推定を可能にするディープラーニングアプローチは、しばしば緩やかに収束し、定量化に効果的に利用できない不確実性推定の校正が不十分である。 最近提案されたポストホック校正技術は回帰問題にはほとんど適用されず、しばしば既に遅いモデルトレーニングフェーズにオーバーヘッドを加える。 本研究は,高次回帰モデルの収束を一貫して改善し,ポストホックキャリブレーションフェーズを必要とせずに不確かさを校正する,回帰課題に対する高速校正不確実性推定法を提案する。 Unlike previous methods for calibrated uncertainty in regression that focus only on low-dimensional regression problems, our method works well on a broad spectrum of regression problems, including high-dimensional regression.Our empirical analysis shows that our approach is generalizable to various network architectures, including multilayer perceptrons, 1D/2D convolutional networks, and graph neural networks, on five vastly diverse tasks, i.e., chaotic particle trajectory denoising, physical property prediction of molecules using 3D atomistic representation, natural image super-resolution, and medical image translation using MRI.

Recent advances in deep learning have shown that uncertainty estimation is becoming increasingly important in applications such as medical imaging, natural language processing, and autonomous systems. However, accurately quantifying uncertainty remains a challenging problem, especially in regression tasks where the output space is continuous. Deep learning approaches that allow uncertainty estimation for regression problems often converge slowly and yield poorly calibrated uncertainty estimates that can not be effectively used for quantification. Recently proposed post hoc calibration techniques are seldom applicable to regression problems and often add overhead to an already slow model training phase. This work presents a fast calibrated uncertainty estimation method for regression tasks called Likelihood Annealing, that consistently improves the convergence of deep regression models and yields calibrated uncertainty without any post hoc calibration phase. Unlike previous methods for calibrated uncertainty in regression that focus only on low-dimensional regression problems, our method works well on a broad spectrum of regression problems, including high-dimensional regression.Our empirical analysis shows that our approach is generalizable to various network architectures, including multilayer perceptrons, 1D/2D convolutional networks, and graph neural networks, on five vastly diverse tasks, i.e., chaotic particle trajectory denoising, physical property prediction of molecules using 3D atomistic representation, natural image super-resolution, and medical image translation using MRI.
翻訳日:2023-07-04 14:31:39 公開日:2023-07-02
# FrankenSplit: モバイルエッジコンピューティングのための低変分ボトルネック注入による効率的なニューラル特徴圧縮

FrankenSplit: Efficient Neural Feature Compression with Shallow Variational Bottleneck Injection for Mobile Edge Computing ( http://arxiv.org/abs/2302.10681v3 )

ライセンス: Link先を確認
Alireza Furutanpey, Philipp Raith, Schahram Dustdar(参考訳) モバイルAIアクセラレータの台頭により、レイテンシに敏感なアプリケーションは、クライアント側で軽量なDeep Neural Networks(DNN)を実行することができる。 しかし、重要なアプリケーションはエッジデバイスがホストできない強力なモデルを必要とするため、高次元データが限られた帯域幅で競合する要求をオフロードする必要がある。 この研究は、分割されたDNNの浅い層の実行に焦点を絞ることから脱却することを提案する。 代わりに、機械解釈に最適化された変分圧縮にローカルリソースを集中することを推奨している。 本稿では,エッジデバイスとサーバ間の非対称なリソース分布を反映した環境下で,リソースを考慮した圧縮モデルを提案する。 提案手法は,最先端のSC法よりも60%低ビットレートを実現し,既存のコーデック標準のオフロードよりも最大16倍高速である。

The rise of mobile AI accelerators allows latency-sensitive applications to execute lightweight Deep Neural Networks (DNNs) on the client side. However, critical applications require powerful models that edge devices cannot host and must therefore offload requests, where the high-dimensional data will compete for limited bandwidth. This work proposes shifting away from focusing on executing shallow layers of partitioned DNNs. Instead, it advocates concentrating the local resources on variational compression optimized for machine interpretability. We introduce a novel framework for resource-conscious compression models and extensively evaluate our method in an environment reflecting the asymmetric resource distribution between edge devices and servers. Our method achieves 60% lower bitrate than a state-of-the-art SC method without decreasing accuracy and is up to 16x faster than offloading with existing codec standards.
翻訳日:2023-07-04 14:30:53 公開日:2023-07-02
# ディープニューラルネットワークにおけるショートカット学習の取り組み--解釈可能なモデルによる反復的アプローチ

Tackling Shortcut Learning in Deep Neural Networks: An Iterative Approach with Interpretable Models ( http://arxiv.org/abs/2302.10289v8 )

ライセンス: Link先を確認
Shantanu Ghosh, Ke Yu, Forough Arabshahi, Kayhan Batmanghelich(参考訳) 概念に基づく解釈モデルを用いてショートカット学習を緩和する。 既存の方法には解釈性がない。 ブラックボックスから始めると、解釈可能な専門家(moie)と残りのネットワークの混合を反復的に作り出す。 各専門家は、FOL(First Order Logic)を使用してデータのサブセットを説明する。 サンプルを説明しながら、偏りのあるBB由来のMoIEからFOLがショートカットを効果的に検出する。 BBをメタデータ正規化(MDN)で微調整すると、ショートカットがなくなる。 微細BB由来MoIEからのFOLはショートカットの除去を検証する。 実験の結果,MoIEは元のBBの精度を損なわず,ショートカットを効果的に除去することがわかった。

We use concept-based interpretable models to mitigate shortcut learning. Existing methods lack interpretability. Beginning with a Blackbox, we iteratively carve out a mixture of interpretable experts (MoIE) and a residual network. Each expert explains a subset of data using First Order Logic (FOL). While explaining a sample, the FOL from biased BB-derived MoIE detects the shortcut effectively. Finetuning the BB with Metadata Normalization (MDN) eliminates the shortcut. The FOLs from the finetuned-BB-derived MoIE verify the elimination of the shortcut. Our experiments show that MoIE does not hurt the accuracy of the original BB and eliminates shortcuts effectively.
翻訳日:2023-07-04 14:30:39 公開日:2023-07-02
# 拡大次元空間における低離散サンプリング:粒子群最適化のための加速法

Low-discrepancy Sampling in the Expanded Dimensional Space: An Acceleration Technique for Particle Swarm Optimization ( http://arxiv.org/abs/2303.03055v3 )

ライセンス: Link先を確認
Feng Wu, Yuelin Zhao, Jianhua Pang, Jun Yan, and Wanxie Zhong(参考訳) ランダムサンプリングと比較すると,低差分サンプリングの方が探索空間の被覆に有効である。 しかし, 粒子群最適化 (pso) に対する低分散サンプルの影響が正か負かは, 既存の研究で明らかに述べられていない。 ニダーレイターの定理を用いて、この研究はPSOの誤差解析を完了し、各反復におけるPSOの誤差境界は拡張次元空間におけるサンプル集合の分散に依存することを示した。 この誤差解析に基づいて,拡張次元空間における低差分サンプリングによるPSO型アルゴリズムの高速化手法を提案する。 加速度法は、拡張次元空間においてランダムサンプリングに比べて分散が小さい低分散サンプル集合を生成することができ、また、各イテレーションにおける誤差を低減し、収束速度を向上できる。 高速化手法を標準PSOと総合学習粒子群最適化と組み合わせ,改良アルゴリズムの性能を元のアルゴリズムと比較した。 実験の結果, 2つの改良アルゴリズムは同じ精度で収束速度が著しく速いことがわかった。

Compared with random sampling, low-discrepancy sampling is more effective in covering the search space. However, the existing research cannot definitely state whether the impact of a low-discrepancy sample on particle swarm optimization (PSO) is positive or negative. Using Niderreiter's theorem, this study completes an error analysis of PSO, which reveals that the error bound of PSO at each iteration depends on the dispersion of the sample set in an expanded dimensional space. Based on this error analysis, an acceleration technique for PSO-type algorithms is proposed with low-discrepancy sampling in the expanded dimensional space. The acceleration technique can generate a low-discrepancy sample set with a smaller dispersion, compared with a random sampling, in the expanded dimensional space; it also reduces the error at each iteration, and hence improves the convergence speed. The acceleration technique is combined with the standard PSO and the comprehensive learning particle swarm optimization, and the performance of the improved algorithm is compared with the original algorithm. The experimental results show that the two improved algorithms have significantly faster convergence speed under the same accuracy requirement.
翻訳日:2023-07-04 14:24:12 公開日:2023-07-02
# 単一光子波パケットの感受性

Susceptibility of a single photon wave packet ( http://arxiv.org/abs/2303.02821v3 )

ライセンス: Link先を確認
P.O. Kazinski, T.V. Solovyev(参考訳) 光子質量殻上の単一光子波パケットの感受性テンソルに対する明示的なコンパクト表現を導出する。 プローブ光子は硬く、テスト光子は柔らかく、全エネルギーは電子-ポジトロン対生成しきい値以下であると考えられている。 単一光子波パケットは、光による散乱の過程において二屈折性ジャイロトロピック分散媒体と見なすことができることが判明した。 光による散乱の過程でプローブ光子を記録する包括的確率の明示的な表現は、光波関数の自由通過と散乱部の干渉効果が支配する摂動理論の第1次非自明な順序で得られる。 この効果は、光による散乱断面積に対する標準的な寄与である$\alpha^4$とは対照的に、オーダー$\alpha^2$である。 プローブとテスト光子の波動関数の非自明な形状を考慮に入れた。 プローブ光子のストークスパラメータの進化について述べる。 ストークスパラメータの変化は、ハードプローブ光子とソフトテスト光子の十分な強度のビームに対してかなり大きい。

The explicit compact expression for the susceptibility tensor of a single photon wave packet on the photon mass-shell is derived. It is assumed that the probe photon is hard, the test photon is soft, and their total energy is below the electron-positron pair creation threshold. It turns out that a single photon wave packet can be regarded as a birefringent gyrotropic dispersive medium in the process of light-by-light scattering. The explicit expression for the inclusive probability to record the probe photon in the process of light-by-light scattering is obtained in the first nontrivial order of perturbation theory where the interference effect of the free passed and scattered parts of the photon wave function dominates. This effect is of order $\alpha^2$ in contrast to the standard contribution to the light-by-light scattering cross-section which is of order $\alpha^4$. The possible nontrivial shapes of the wave functions of probe and test photons are taken into account. The evolution of the Stokes parameters of a probe photon is described. The change of the Stokes parameters is rather large for hard probe photons and sufficiently intense beams of soft test photons.
翻訳日:2023-07-04 14:23:54 公開日:2023-07-02
# SVDiff:拡散微細調整のためのコンパクトパラメータ空間

SVDiff: Compact Parameter Space for Diffusion Fine-Tuning ( http://arxiv.org/abs/2303.11305v4 )

ライセンス: Link先を確認
Ligong Han, Yinxiao Li, Han Zhang, Peyman Milanfar, Dimitris Metaxas, Feng Yang(参考訳) 拡散モデルは、テキストから画像への生成において著しく成功し、テキストプロンプトや他のモダリティから高品質な画像を生成することができる。 しかし、これらのモデルをカスタマイズするための既存の方法は、複数のパーソナライズされた主題と過剰適合のリスクを扱うことで制限されている。 さらに、その大量のパラメータはモデルストレージに非効率である。 本稿では,既存のテキスト・画像拡散モデルにおけるパーソナライゼーションの制約に対処するための新しい手法を提案する。 本手法では, 重み行列の特異値を微調整し, パラメータ空間をコンパクトかつ効率的にすることで, 重み付けや言語ドリフトのリスクを低減する。 また,マルチサブジェクト画像生成の品質を向上させるためのカット・ミックス・アンミックスデータ提示手法と,簡易テキストベースの画像編集フレームワークを提案する。 提案するSVDiff法は,既存の手法に比べてモデルサイズが大幅に小さく(バニラDreamBoothの約2,200倍のパラメータ),現実のアプリケーションではより実用的である。

Diffusion models have achieved remarkable success in text-to-image generation, enabling the creation of high-quality images from text prompts or other modalities. However, existing methods for customizing these models are limited by handling multiple personalized subjects and the risk of overfitting. Moreover, their large number of parameters is inefficient for model storage. In this paper, we propose a novel approach to address these limitations in existing text-to-image diffusion models for personalization. Our method involves fine-tuning the singular values of the weight matrices, leading to a compact and efficient parameter space that reduces the risk of overfitting and language drifting. We also propose a Cut-Mix-Unmix data-augmentation technique to enhance the quality of multi-subject image generation and a simple text-based image editing framework. Our proposed SVDiff method has a significantly smaller model size compared to existing methods (approximately 2,200 times fewer parameters compared with vanilla DreamBooth), making it more practical for real-world applications.
翻訳日:2023-07-04 14:13:08 公開日:2023-07-02
# 完全満足な不等式制約をもつソフトアクタ臨界アルゴリズム

Soft Actor-Critic Algorithm with Truly-satisfied Inequality Constraint ( http://arxiv.org/abs/2303.04356v2 )

ライセンス: Link先を確認
Taisuke Kobayashi(参考訳) 強化学習におけるソフトアクター批判(SAC)は,次世代ロボット制御方式の一つとして期待されている。 ポリシーエントロピーを最大化することで、ノイズや摂動に頑健なロボットコントローラーが実現する。 しかし、ポリシーエントロピーを最大化する優先事項は、現在の実施において自動的に調整され、その規則は平等制約の1つとして解釈され、ポリシーエントロピーを指定された下限に拘束する。 したがって現在のSACは、私たちの期待に反して、政策のエントロピーを最大化しない。 SACにおけるこの問題を解決するため,不等式制約を適切に扱うための学習可能な状態依存スラック変数による実装を改良し,それに対応する等式制約として修正し,政策エントロピーを最大化する。 導入されたスラック変数は、等価性制約を満たし、下位境界をチェックするという2つの目的を考慮したスイッチング型損失関数によって最適化される。 Mujoco と Pybullet のシミュレータでは、修正された SAC は、行動規範を定式化しながら、敵攻撃に対する高い堅牢性を統計的に達成した。 実世界ロボット制御への改良SACの適用性を示すために,実ロボット可変インピーダンスタスクを実証した。 特に、修正されたSACは、トレーニング中に全く経験のない物理的人間とロボットの相互作用に対して適応的な行動を維持した。 https://youtu.be/EH3xVtlVaJw

Soft actor-critic (SAC) in reinforcement learning is expected to be one of the next-generation robot control schemes. Its ability to maximize policy entropy would make a robotic controller robust to noise and perturbation, which is useful for real-world robot applications. However, the priority of maximizing the policy entropy is automatically tuned in the current implementation, the rule of which can be interpreted as one for equality constraint, binding the policy entropy into its specified lower bound. The current SAC is therefore no longer maximize the policy entropy, contrary to our expectation. To resolve this issue in SAC, this paper improves its implementation with a learnable state-dependent slack variable for appropriately handling the inequality constraint to maximize the policy entropy by reformulating it as the corresponding equality constraint. The introduced slack variable is optimized by a switching-type loss function that takes into account the dual objectives of satisfying the equality constraint and checking the lower bound. In Mujoco and Pybullet simulators, the modified SAC statistically achieved the higher robustness for adversarial attacks than before while regularizing the norm of action. A real-robot variable impedance task was demonstrated for showing the applicability of the modified SAC to real-world robot control. In particular, the modified SAC maintained adaptive behaviors for physical human-robot interaction, which had no experience at all during training. https://youtu.be/EH3xVtlVaJw
翻訳日:2023-07-04 14:11:03 公開日:2023-07-02
# Transfer-Once-For-All:エッジのためのAIモデル最適化

Transfer-Once-For-All: AI Model Optimization for Edge ( http://arxiv.org/abs/2303.15485v2 )

ライセンス: Link先を確認
Achintya Kundu (IBM Research), Laura Wynter (IBM Research), Rhui Dih Lee (IBM Research), Luis Angel Bathen (IBM Research)(参考訳) 重量共有型ニューラルネットワークサーチは、リソース制約の異なる多くのデバイスにまたがるさまざまなデプロイメントシナリオに対して、設定可能なニューラルネットワークモデル(スーパーネット)を最適化することを目的としている。 既存のアプローチでは、進化的探索を用いて、非常に大きなデータセットで訓練されたスーパーネットから異なるサイズのモデルを抽出し、典型的な小さな実世界のデータセットで抽出されたモデルを微調整する。 これにより、トレーニングの計算コストは、異なるモデル展開シナリオの数に応じて線形に増加する。 そこで我々は,任意のエッジ配置シナリオに対して一定の計算訓練コストの小さなデータセット上でのスーパーネット型トレーニングのためのTransfer-Once-For-All(TOFA)を提案する。 タスクを与えられたTOFAは、さまざまなエッジデプロイメントシナリオに最適化されたトポロジとウェイトの両方のカスタムニューラルネットワークを取得する。 小さなデータから生じる課題を克服するため、TOFAは、統合された半教師付きトレーニング損失を使用して、スーパーネット内のすべてのサブネットを同時にトレーニングし、デプロイ時にオンザフライアーキテクチャの選択と組み合わせる。

Weight-sharing neural architecture search aims to optimize a configurable neural network model (supernet) for a variety of deployment scenarios across many devices with different resource constraints. Existing approaches use evolutionary search to extract models of different sizes from a supernet trained on a very large data set, and then fine-tune the extracted models on the typically small, real-world data set of interest. The computational cost of training thus grows linearly with the number of different model deployment scenarios. Hence, we propose Transfer-Once-For-All (TOFA) for supernet-style training on small data sets with constant computational training cost over any number of edge deployment scenarios. Given a task, TOFA obtains custom neural networks, both the topology and the weights, optimized for any number of edge deployment scenarios. To overcome the challenges arising from small data, TOFA utilizes a unified semi-supervised training loss to simultaneously train all subnets within the supernet, coupled with on-the-fly architecture selection at deployment time.
翻訳日:2023-07-04 14:03:22 公開日:2023-07-02
# Gazeformer: 目標指向の人間意識のスケーラブルで効果的で高速な予測

Gazeformer: Scalable, Effective and Fast Prediction of Goal-Directed Human Attention ( http://arxiv.org/abs/2303.15274v3 )

ライセンス: Link先を確認
Sounak Mondal, Zhibo Yang, Seoyoung Ahn, Dimitris Samaras, Gregory Zelinsky, Minh Hoai(参考訳) HCI(Human-Computer Interaction)では、人間の視線を予測することが重要である。 しかし、実際にHCIアプリケーションに役立てるためには、視線予測モデルは空間的および時間的視線予測においてスケーラブルで高速で正確でなければならない。 最近のスキャンパス予測モデルは目標指向の注意に焦点を当てている(研究)。 このようなモデルは、すべての可能な対象に対して訓練されたターゲット検出器に依存する共通のアプローチと、トレーニングのための人間の視線データ(どちらもスケーラブルではない)が利用できるため、アプリケーション内で制限される。 これに対し,ZeroGazeと呼ばれるゼロショット学習という新たなタスクを,前例のない対象に対して視線を予測し,新たなモデルであるGazeformerを開発し,ZeroGaze問題を解く。 オブジェクト検出器モジュールを使用する既存の方法とは対照的に、gazeformerはターゲットを自然言語モデルでエンコードし、スキャンパス予測で意味的類似性を利用する。 変換器は文脈表現を生成するのに特に有用であるため,変換器ベースのエンコーダデコーダアーキテクチャを用いる。 gazeformerはzerogaze設定で他のモデルを大きく上回っている。 また、目標現在および目標存在探索タスクの標準視線予測において、既存の目標検出モデルよりも優れている。 パフォーマンスの改善に加えて、Gazeformerは最先端のターゲット表示型ビジュアルサーチモデルよりも5倍以上高速である。

Predicting human gaze is important in Human-Computer Interaction (HCI). However, to practically serve HCI applications, gaze prediction models must be scalable, fast, and accurate in their spatial and temporal gaze predictions. Recent scanpath prediction models focus on goal-directed attention (search). Such models are limited in their application due to a common approach relying on trained target detectors for all possible objects, and the availability of human gaze data for their training (both not scalable). In response, we pose a new task called ZeroGaze, a new variant of zero-shot learning where gaze is predicted for never-before-searched objects, and we develop a novel model, Gazeformer, to solve the ZeroGaze problem. In contrast to existing methods using object detector modules, Gazeformer encodes the target using a natural language model, thus leveraging semantic similarities in scanpath prediction. We use a transformer-based encoder-decoder architecture because transformers are particularly useful for generating contextual representations. Gazeformer surpasses other models by a large margin on the ZeroGaze setting. It also outperforms existing target-detection models on standard gaze prediction for both target-present and target-absent search tasks. In addition to its improved performance, Gazeformer is more than five times faster than the state-of-the-art target-present visual search model.
翻訳日:2023-07-04 14:03:06 公開日:2023-07-02
# 第3モードとの分散結合による2つのボソニックポラリトンの絡み合い

Entangling Two Bosonic Polaritons via Dispersive Coupling with a Third Mode ( http://arxiv.org/abs/2303.15217v3 )

ライセンス: Link先を確認
Xuan Zuo, Zhi-Yuan Fan, Hang Qian, Rui-Chang Shen, Jie Li(参考訳) 2つのハイブリッド化(偏光子)モードを形成する2つの強結合ボソニック系を絡む一般的なメカニズムを提供する。 これは第3ボソニックモードとの分散結合によって実現される。 2つのハイブリッドモードがそれぞれ第3のモードで散在する駆動フィールドのサイドバンドと共振する場合と、2つのポラリトンにおける2つのボソニックモードの重みが適切に選択された場合に、静止絡みが達成される。 絡み合いは、系の散逸と浴槽温度に対して堅牢である。 絡み合い理論は非常に一般的であり、キャビティマグノメカニクス、エキシトン-オプトメカニクス、プラズモン-フォトン-フォノン系など様々なボソニック系に適用できる。

We provide a general mechanism of entangling two strongly-coupled bosonic systems that form two hybridized (polariton) modes. This is realized by dispersively coupling with a third bosonic mode. Stationary entanglement is achieved when the two hybridized modes are respectively resonant with the sidebands of the drive field scattered by the third mode and when the weights of the two bosonic modes in the two polaritons are appropriately chosen. The entanglement is robust against dissipations of the system and bath temperature. The entanglement theory is quite general and applicable to a variety of bosonic systems, such as cavity magnomechanical, exciton-optomechanics, and plasmon-photon-phonon systems.
翻訳日:2023-07-04 14:02:46 公開日:2023-07-02
# tsetlinマシンの特性検証

Verifying Properties of Tsetlin Machines ( http://arxiv.org/abs/2303.14464v2 )

ライセンス: Link先を確認
Emilia Przybysz and Bimal Bhattarai and Cosimo Persia and Ana Ozaki and Ole-Christoffer Granmo and Jivitesh Sharma(参考訳) Tsetlin Machines (TsMs) は様々な分類タスクに適用できる有望かつ解釈可能な機械学習手法である。 本稿では、命題論理にTsMsを正確に符号化し、SATソルバを用いてTsMsの特性を正式に検証する。 特に,本稿では,機械学習モデルの類似性の概念を紹介し,tsmsの類似性をチェックするためにこの概念を適用する。 また,文献からロバスト性と等価性の概念を考察し,tsmに適用する。 次に、符号化の正確性を示し、逆ロバスト性、等価性、tsmsの類似性などの特性について結果を提供する。 実験では,MNISTとIMDBのデータセットを用いて,画像と感情の分類を行った。 本稿では,mnist上の2値化ニューラルネットワークを用いた文献を用いて,tsmsによるロバスト性検証結果について考察する。

Tsetlin Machines (TsMs) are a promising and interpretable machine learning method which can be applied for various classification tasks. We present an exact encoding of TsMs into propositional logic and formally verify properties of TsMs using a SAT solver. In particular, we introduce in this work a notion of similarity of machine learning models and apply our notion to check for similarity of TsMs. We also consider notions of robustness and equivalence from the literature and adapt them for TsMs. Then, we show the correctness of our encoding and provide results for the properties: adversarial robustness, equivalence, and similarity of TsMs. In our experiments, we employ the MNIST and IMDB datasets for (respectively) image and sentiment classification. We discuss the results for verifying robustness obtained with TsMs with those in the literature obtained with Binarized Neural Networks on MNIST.
翻訳日:2023-07-04 14:02:28 公開日:2023-07-02
# 文脈付き大規模言語モデルによる法的文書の理解

Understand Legal Documents with Contextualized Large Language Models ( http://arxiv.org/abs/2303.12135v3 )

ライセンス: Link先を確認
Xin Jin, Yuchen Wang(参考訳) インドなど、人口の多い国における未解決の訴訟の成長は大きな問題となっている。 法律文書の処理・理解に有効な手法を開発することは,この問題の解決に極めて有用である。 本稿では,SemEval-2023タスク6における法文理解システムについて述べる(Modi et al., 2023)。 具体的には、まず、文内と文間の両方の包括的文脈情報を考察し、修辞的役割(サブタスクA)を予測する法-BERT-HSLNモデルを開発し、法-コンテキスト化およびエンティティ認識の法-LUKEモデルを訓練し、法的実体(サブタスクB)を認識する。 私たちの設計モデルはベースラインよりも正確であること,例えばサブタスクBでは15.0%,タスクリーダボードでは0.834マイクロF1スコア,サブタスクAでは27チーム中5位など,優れたパフォーマンスを実現しています。

The growth of pending legal cases in populous countries, such as India, has become a major issue. Developing effective techniques to process and understand legal documents is extremely useful in resolving this problem. In this paper, we present our systems for SemEval-2023 Task 6: understanding legal texts (Modi et al., 2023). Specifically, we first develop the Legal-BERT-HSLN model that considers the comprehensive context information in both intra- and inter-sentence levels to predict rhetorical roles (subtask A) and then train a Legal-LUKE model, which is legal-contextualized and entity-aware, to recognize legal entities (subtask B). Our evaluations demonstrate that our designed models are more accurate than baselines, e.g., with an up to 15.0% better F1 score in subtask B. We achieved notable performance in the task leaderboard, e.g., 0.834 micro F1 score, and ranked No.5 out of 27 teams in subtask A.
翻訳日:2023-07-04 14:01:47 公開日:2023-07-02
# シュレディンガー-ロバートソン不確実性関係に基づくより強いEPRステアリング基準

Stronger EPR-steering criterion based on inferred Schrodinger-Robertson uncertainty relation ( http://arxiv.org/abs/2303.11914v2 )

ライセンス: Link先を確認
Laxmi Prasad Naik, Rakesh Mohan Das, Prasanta K. Panigrahi(参考訳) ステアリングはベル非局所性と絡み合いの間の3つの非局所相関の3つの非等価形式の一つである。 シュロディンガー・ロバートソンの不確実性関係(SRUR)は、絡みや操舵の検知に広く用いられている。 しかし、SRURに基づく初期の研究におけるステアリング基準は、完全に推論されたばらつきの不確実性関係を含まない。 本稿では,局所隠れ状態モデルとレイズ形式を考慮し,二成分シナリオにおけるsrurに基づく完全な推定分散epr-steering基準を導出する。 さらに, 離散変数2量子ビット, 2量子ビット, 2量子ビット, 2量子方性状態に対するステアリング基準の有効性を確認した。

Steering is one of the three inequivalent forms of nonlocal correlations intermediate between Bell nonlocality and entanglement. Schrodinger-Robertson uncertainty relation (SRUR), has been widely used to detect entanglement and steering. However, the steering criterion in earlier works, based on SRUR, did not involve complete inferred variance uncertainty relation. In this paper, by considering the local hidden state model and Reids formalism, we derive a complete inferred-variance EPR-steering criterion based on SRUR in the bipartite scenario. Furthermore, we check the effectiveness of our steering criterion to discrete variable bipartite two qubit, two qutrit and two ququart isotropic states.
翻訳日:2023-07-04 14:01:13 公開日:2023-07-02
# ChatGPTは株価変動を予測できるのか? 戻り予測可能性と大規模言語モデル

Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models ( http://arxiv.org/abs/2304.07619v3 )

ライセンス: Link先を確認
Alejandro Lopez-Lira and Yuehua Tang(参考訳) ニュース見出しの感情分析を用いて株式市場のリターンを予測するため,ChatGPTや他の大規模言語モデルの可能性を検討する。 chatgptを使って、ある見出しが企業の株価に良い、悪い、あるいは関係のないニュースかどうかを示す。 そして、数値スコアを計算し、これらの‘chatgptスコア’とその後の毎日の株式市場リターンとの正の相関関係を文書化する。 さらに、ChatGPTは従来の感情分析方法よりも優れています。 GPT-1, GPT-2, BERTのようなより基本的なモデルではリターンを正確に予測できないことが分かり、リターン予測能力は複雑なモデルの出現能力を示す。 ChatGPT-4のインプリッドシャープ比はChatGPT-3よりも大きいが、後者のモデルは総リターンが大きい。 この結果から,先進言語モデルを投資決定プロセスに組み込むことで,より正確な予測が得られ,量的トレーディング戦略の性能が向上することが示唆された。 予測可能性(predictability)は小さな株に集中し、悪いニュースの会社に注目する。

We examine the potential of ChatGPT, and other large language models, in predicting stock market returns using sentiment analysis of news headlines. We use ChatGPT to indicate whether a given headline is good, bad, or irrelevant news for firms' stock prices. We then compute a numerical score and document a positive correlation between these ``ChatGPT scores'' and subsequent daily stock market returns. Further, ChatGPT outperforms traditional sentiment analysis methods. We find that more basic models such as GPT-1, GPT-2, and BERT cannot accurately forecast returns, indicating return predictability is an emerging capacity of complex models. ChatGPT-4's implied Sharpe ratios are larger than ChatGPT-3's; however, the latter model has larger total returns. Our results suggest that incorporating advanced language models into the investment decision-making process can yield more accurate predictions and enhance the performance of quantitative trading strategies. Predictability is concentrated on smaller stocks and more prominent on firms with bad news, consistent with limits-to-arbitrage arguments rather than market inefficiencies.
翻訳日:2023-07-04 13:53:13 公開日:2023-07-02
# 教師なしビデオ異常検出のための拡散モデル探索

Exploring Diffusion Models for Unsupervised Video Anomaly Detection ( http://arxiv.org/abs/2304.05841v2 )

ライセンス: Link先を確認
Anil Osman Tur and Nicola Dall'Asen and Cigdem Beyan and Elisa Ricci(参考訳) 本稿では,ビデオ異常検出(VAD)における拡散モデルの性能について,データアノテーションを使用しない最も困難なシナリオについても検討する。 希薄で、多様で、文脈的であり、しばしば曖昧であるので、異常事象を正確に検出することは非常に野心的な作業である。 この目的のために,情報豊富な時空間データのみに依存し,高い再構成誤差を生かした拡散モデルの再構成能力を用いて異常を判定する。 2つの大規模ビデオ異常検出データセットを用いて行った実験は、提案手法の最先端生成モデルに対する一貫した改善を実証する一方、我々の手法はより複雑なモデルよりも優れたスコアを得る。 これは拡散モデルを用いた最初の研究であり、そのパラメーターが監視シナリオにおけるvadの指導に与えた影響を調べるものである。

This paper investigates the performance of diffusion models for video anomaly detection (VAD) within the most challenging but also the most operational scenario in which the data annotations are not used. As being sparse, diverse, contextual, and often ambiguous, detecting abnormal events precisely is a very ambitious task. To this end, we rely only on the information-rich spatio-temporal data, and the reconstruction power of the diffusion models such that a high reconstruction error is utilized to decide the abnormality. Experiments performed on two large-scale video anomaly detection datasets demonstrate the consistent improvement of the proposed method over the state-of-the-art generative models while in some cases our method achieves better scores than the more complex models. This is the first study using a diffusion model and examining its parameters' influence to present guidance for VAD in surveillance scenarios.
翻訳日:2023-07-04 13:51:52 公開日:2023-07-02
# 教師なし画像間翻訳のためのマルチクロップコントラスト学習とドメイン一貫性

Multi-crop Contrastive Learning and Domain Consistency for Unsupervised Image-to-Image Translation ( http://arxiv.org/abs/2304.12235v2 )

ライセンス: Link先を確認
Chen Zhao, Wei-Ling Cai, Zheng Yuan, Cheng-Wei Hu(参考訳) 近年,コントラスト学習に基づく教師なし画像から画像への翻訳手法は,多くのタスクにおいて最先端の成果を上げている。 しかし,先行研究では,入力画像自体から負点をサンプリングし,選択した負点の品質向上のためのデータ拡張法を考案する。 また、埋め込み空間におけるパッチによるコントラスト学習によるコンテンツ類似性を保ちながら、従来の手法では生成された画像と対象領域の実画像とのドメイン一貫性を無視する。 本稿では,MCDUTと呼ばれるマルチループコントラスト学習とドメイン整合性に基づく新しい教師なし画像画像変換フレームワークを提案する。 具体的には,マルチクロップビューをセンタークロップとランダムクロップを介して取得し,負値を生成することにより,負値の品質を向上させることができる。 深い特徴空間への埋め込みを制限するために、生成された画像が同じ領域の埋め込み空間内の実画像に近付くように促す新しいドメイン一貫性の損失を定式化する。 さらに、DCAと呼ばれるチャネルアテンションに位置情報を埋め込むことにより、二重座標アテンションネットワークを提案する。 DCAネットワークをジェネレータの設計に用いて,水平および垂直のグローバルな依存性情報を取得する。 多くの画像と画像の翻訳タスクにおいて,本手法は最先端の結果を達成し,その利点は広範囲な比較実験とアブレーション研究によって証明されている。

Recently, unsupervised image-to-image translation methods based on contrastive learning have achieved state-of-the-art results in many tasks. However, in the previous work, the negatives are sampled from the input image itself, which inspires us to design a data augmentation method to improve the quality of the selected negatives. Moreover, retaining the content similarity via patch-wise contrastive learning in the embedding space, the previous methods ignore the domain consistency between the generated image and the real images of target domain. In this paper, we propose a novel unsupervised image-to-image translation framework based on multi-crop contrastive learning and domain consistency, called MCDUT. Specifically, we obtain the multi-crop views via the center-crop and the random-crop to generate the negatives, which can increase the quality of the negatives. To constrain the embeddings in the deep feature space, we formulate a new domain consistency loss, which encourages the generated images to be close to the real images in the embedding space of same domain. Furthermore, we present a dual coordinate attention network by embedding positional information into channel attention, which called DCA. We employ the DCA network in the design of generator, which makes the generator capture the horizontal and vertical global information of dependency. In many image-to-image translation tasks, our method achieves state-of-the-art results, and the advantages of our method have been proven through extensive comparison experiments and ablation research.
翻訳日:2023-07-04 13:44:18 公開日:2023-07-02
# シーン理解の深層化の進展

Advances in Deep Concealed Scene Understanding ( http://arxiv.org/abs/2304.11234v2 )

ライセンス: Link先を確認
Deng-Ping Fan, Ge-Peng Ji, Peng Xu, Ming-Ming Cheng, Christos Sakaridis, Luc Van Gool(参考訳) Concealed scene Understanding (CSU) は、カモフラージュを呈する物体を知覚することを目的とした、ホットコンピュータビジョンのトピックである。 技術と応用の面での現在のブームは、最新の調査を保証している。 これにより、研究者は現在の成果と残る課題を含むグローバルなCSU分野の理解を深めることができる。 本稿では,(1)CSUを対象とするディープラーニング技術について,分類学,タスク固有の課題,進行中の開発など,総合的な調査を行った。 2)最先端技術の信頼性定量化を可能にするため,隠蔽オブジェクトセグメンテーション(COS)の最大かつ最新のベンチマークを提供する。 3) 実用シナリオにおける深部CSUの一般化性を評価するため,CDS2Kと呼ばれる最大の欠陥セグメントデータセットを多種多様な産業シナリオから収集し,包括的ベンチマークを構築した。 (4) オープン問題とCSU研究の方向性について論じる。 私たちのコードとデータセットはhttps://github.com/DengPingFan/CSUで公開されています。

Concealed scene understanding (CSU) is a hot computer vision topic aiming to perceive objects exhibiting camouflage. The current boom in terms of techniques and applications warrants an up-to-date survey. This can help researchers to better understand the global CSU field, including both current achievements and remaining challenges. This paper makes four contributions: (1) For the first time, we present a comprehensive survey of deep learning techniques aimed at CSU, including a taxonomy, task-specific challenges, and ongoing developments. (2) To allow for an authoritative quantification of the state-of-the-art, we offer the largest and latest benchmark for concealed object segmentation (COS). (3) To evaluate the generalizability of deep CSU in practical scenarios, we collect the largest concealed defect segmentation dataset termed CDS2K with the hard cases from diversified industrial scenarios, on which we construct a comprehensive benchmark. (4) We discuss open problems and potential research directions for CSU. Our code and datasets are available at https://github.com/DengPingFan/CSU, which will be updated continuously to watch and summarize the advancements in this rapidly evolving field.
翻訳日:2023-07-04 13:43:30 公開日:2023-07-02
# 野生でのロバストでアジャイルで自然な足の歩行スキルを学ぶ

Learning Robust, Agile, Natural Legged Locomotion Skills in the Wild ( http://arxiv.org/abs/2304.10888v2 )

ライセンス: Link先を確認
Yikai Wang, Zheyuan Jiang, Jianyu Chen(参考訳) 近年,強化学習はロボット脚歩行にとって有望で多目的なソリューションとなっている。 モデルベースの制御と比較して、強化学習ベースのコントローラは、simから実環境への学習を通じて、環境の不確実性に対するロバスト性が向上する。 しかし、学習の歩みは概して保守的で不自然なものである。 本稿では,挑戦的な地形上での頑健で,アジャイルで,自然な足の歩行スキルを学習するための新しいフレームワークを提案する。 実動物移動データに基づく敵対的訓練枝を教師・生徒の訓練パイプラインに組み込み,堅牢なsim-to-real転送を行う。 四足歩行ロボットのシミュレーションと実世界における実証実験の結果,提案アルゴリズムは,階段,岩場,滑りやすい床などの難易度の高い地形を,主観的認識のみで頑健に横断できることを示した。 一方、歩幅はベースラインよりもアジャイルで、自然で、エネルギー効率が高い。 本稿では質的および定量的な結果について述べる。

Recently, reinforcement learning has become a promising and polular solution for robot legged locomotion. Compared to model-based control, reinforcement learning based controllers can achieve better robustness against uncertainties of environments through sim-to-real learning. However, the corresponding learned gaits are in general overly conservative and unatural. In this paper, we propose a new framework for learning robust, agile and natural legged locomotion skills over challenging terrain. We incorporate an adversarial training branch based on real animal locomotion data upon a teacher-student training pipeline for robust sim-to-real transfer. Empirical results on both simulation and real world of a quadruped robot demonstrate that our proposed algorithm enables robustly traversing challenging terrains such as stairs, rocky ground and slippery floor with only proprioceptive perception. Meanwhile, the gaits are more agile, natural, and energy efficient compared to the baselines. Both qualitative and quantitative results are presented in this paper.
翻訳日:2023-07-04 13:43:12 公開日:2023-07-02
# ポピュリズムの顔:機械学習を用いた政治指導者の感情表現の相違について

The Face of Populism: Examining Differences in Facial Emotional Expressions of Political Leaders Using Machine Learning ( http://arxiv.org/abs/2304.09914v2 )

ライセンス: Link先を確認
Sara Major, Aleksandar Toma\v{s}evi\'c(参考訳) オンラインメディアは、政治情報がグローバルに拡散され消費される方法に革命をもたらしており、この変化によって、政治関係者は有権者の注意を引き付けて維持する新しい戦略を採用せざるを得なくなった。 これらの戦略はしばしば感情的な説得と魅力に頼り、視覚的コンテンツがバーチャル空間でますます普及するにつれて、政治的コミュニケーションの多くは、挑発的なビデオコンテンツとイメージによって特徴づけられるようになった。 本稿では, この種の材料を解析するための新しいアプローチを提案する。 我々は、pythonライブラリferが提供する既存のトレーニング済み畳み込みニューラルネットワークアーキテクチャに基づいて、15カ国の政治指導者を描いた220のyoutubeビデオのサンプルにディープラーニングベースのコンピュータビジョンアルゴリズムを適用する。 このアルゴリズムは6つの感情状態(不安、嫌悪感、恐怖、幸福、悲しみ、驚き)の相対的な存在を表す感情スコアと、処理されたYouTubeビデオのフレームごとに中立的な表現を返す。 我々は,Global Party Survey (GPS) で定義されている,ポピュリスト・レトリックの度合いの異なるリーダー群の平均否定感情スコアの統計的に有意な差を観察し,ポピュリスト・リーダーは,非ポピュリスト・レトリックよりも公的なパフォーマンスにおいて否定感情を表現する傾向を示した。 全体として、我々の貢献は、政治指導者間の視覚的自己表現の特徴と、非言語コミュニケーションのさらなる計算研究のためのオープンソースワークフローに関する洞察を与えます。

Online media has revolutionized the way political information is disseminated and consumed on a global scale, and this shift has compelled political figures to adopt new strategies of capturing and retaining voter attention. These strategies often rely on emotional persuasion and appeal, and as visual content becomes increasingly prevalent in virtual space, much of political communication too has come to be marked by evocative video content and imagery. The present paper offers a novel approach to analyzing material of this kind. We apply a deep-learning-based computer-vision algorithm to a sample of 220 YouTube videos depicting political leaders from 15 different countries, which is based on an existing trained convolutional neural network architecture provided by the Python library fer. The algorithm returns emotion scores representing the relative presence of 6 emotional states (anger, disgust, fear, happiness, sadness, and surprise) and a neutral expression for each frame of the processed YouTube video. We observe statistically significant differences in the average score of expressed negative emotions between groups of leaders with varying degrees of populist rhetoric as defined by the Global Party Survey (GPS), indicating that populist leaders tend to express negative emotions to a greater extent during their public performance than their non-populist counterparts. Overall, our contribution provides insight into the characteristics of visual self-representation among political leaders, as well as an open-source workflow for further computational studies of their non-verbal communication.
翻訳日:2023-07-04 13:42:43 公開日:2023-07-02
# BrainNPT:脳ネットワーク分類のためのトランスフォーマーネットワークの事前学習

BrainNPT: Pre-training of Transformer networks for brain network classification ( http://arxiv.org/abs/2305.01666v3 )

ライセンス: Link先を確認
Jinlong Hu, Yangmin Huang, Nan Wang, Shoubin Dong(参考訳) 深層学習法はここ数年、脳画像解析において急速に進歩してきたが、通常は限られたラベル付きデータによって制限されている。 ラベルなしデータの事前学習モデルでは、自然言語処理やコンピュータビジョンなど、多くの領域で機能学習の改善が期待できる。 しかし、この手法は脳ネットワーク解析において未検討である。 本稿では,トランスフォーマーネットワークを用いた事前学習手法に着目し,既存のラベルなしデータを脳機能ネットワーク分類に活用する。 まず,脳機能的ネットワーク分類のために,brainnptと呼ばれるトランスフォーマーベースのニューラルネットワークを提案した。 提案手法はトランスフォーマーモデルの分類埋め込みベクトルとして<cls>トークンを利用して,脳ネットワークの表現を効果的に捉える。 第2に,未ラベルの脳ネットワークデータを利用して脳ネットワークの構造情報を学習するBrainNPTモデルの事前学習フレームワークを提案する。 分類実験の結果,前訓練のないbrainnptモデルが最先端モデルで最高の性能を達成し,前訓練のbrainnptモデルが最先端モデルを大きく上回った。 トレーニング前のBrainNPTモデルは、トレーニング前のモデルと比較して精度が8.75%向上した。 さらに,事前学習戦略を比較検討し,モデルのパラメータの影響を分析し,学習モデルの解釈を行った。

Deep learning methods have advanced quickly in brain imaging analysis over the past few years, but they are usually restricted by the limited labeled data. Pre-trained model on unlabeled data has presented promising improvement in feature learning in many domains, including natural language processing and computer vision. However, this technique is under-explored in brain network analysis. In this paper, we focused on pre-training methods with Transformer networks to leverage existing unlabeled data for brain functional network classification. First, we proposed a Transformer-based neural network, named as BrainNPT, for brain functional network classification. The proposed method leveraged <cls> token as a classification embedding vector for the Transformer model to effectively capture the representation of brain network. Second, we proposed a pre-training framework for BrainNPT model to leverage unlabeled brain network data to learn the structure information of brain networks. The results of classification experiments demonstrated the BrainNPT model without pre-training achieved the best performance with the state-of-the-art models, and the BrainNPT model with pre-training strongly outperformed the state-of-the-art models. The pre-training BrainNPT model improved 8.75% of accuracy compared with the model without pre-training. We further compared the pre-training strategies, analyzed the influence of the parameters of the model, and interpreted the trained model.
翻訳日:2023-07-04 13:34:24 公開日:2023-07-02
# 領域からポイントへの探索:セマンティック・ジオメトリ複合機能マッチングのための階層的フレームワーク

Searching from Area to Point: A Hierarchical Framework for Semantic-Geometric Combined Feature Matching ( http://arxiv.org/abs/2305.00194v4 )

ライセンス: Link先を確認
Yesheng Zhang, Xu Zhao, Dahong Qian(参考訳) 特徴マッチングはコンピュータビジョンにおいて重要な技術である。 このタスクの統一的な視点は、検索問題として扱うことであり、画像間の一致点を検索空間を狭める効率的な検索戦略を目指している。 検索戦略の重要な側面の1つは検索空間であり、現在のアプローチでは注意深く定義されていないため、マッチング精度は限られている。 そこで本論文では,探索空間に注意を払って,特徴的意味領域マッチングを含むマッチング画像領域として,点マッチングの初期探索空間を設定することを提案する。 この探索空間は、突発的な特徴による点マッチングを好み、最近のトランスフォーマーベースのマッチング手法における精度の制限を緩和する。 この検索空間を実現するために、まず、画像間の意味的領域マッチングを見つけ、後にエリアマッチングでポイントマッチングを行うための area to point matching (a2pm) という階層的特徴マッチングフレームワークを導入する。 さらに,画像間の正確な領域マッチングを確立するために,意味的前後整合性と幾何学的一貫性を利用した意味的・幾何学的領域マッチング(sgam)手法を提案する。 SGAMを既製の最先端のマッカーと統合することにより,A2PMフレームワークを応用し,大規模点マッチングにおける精度向上とポーズ推定実験を実現する。

Feature matching is a crucial technique in computer vision. A unified perspective for this task is to treat it as a searching problem, aiming at an efficient search strategy to narrow the search space to point matches between images. One of the key aspects of search strategy is the search space, which in current approaches is not carefully defined, resulting in limited matching accuracy. This paper, thus, pays attention to the search space and proposes to set the initial search space for point matching as the matched image areas containing prominent semantic, named semantic area matches. This search space favors point matching by salient features and alleviates the accuracy limitation in recent Transformer-based matching methods. To achieve this search space, we introduce a hierarchical feature matching framework: Area to Point Matching (A2PM), to first find semantic area matches between images and later perform point matching on area matches. We further propose Semantic and Geometry Area Matching (SGAM) method to realize this framework, which utilizes semantic prior and geometry consistency to establish accurate area matches between images. By integrating SGAM with off-the-shelf state-of-the-art matchers, our method, adopting the A2PM framework, achieves encouraging precision improvements in massive point matching and pose estimation experiments.
翻訳日:2023-07-04 13:34:00 公開日:2023-07-02
# Let the Chart Spark: テキストから画像への生成モデルによるセマンティックコンテキストのグラフへの埋め込み

Let the Chart Spark: Embedding Semantic Context into Chart with Text-to-Image Generative Model ( http://arxiv.org/abs/2304.14630v2 )

ライセンス: Link先を確認
Shishi Xiao, Suizi Huang, Yue Lin, Yilin Ye, Wei Zeng(参考訳) 画像視覚化は、データとセマンティックコンテキストをシームレスに視覚表現に統合し、エンゲージメントとインフォメーションの両方の方法で複雑な情報を伝達する。 画像可視化の作成を単純化するオーサリングツールの開発に広範な研究がなされている。 しかし、主流の作業は、主に、専用のコーパスから取得した視覚要素に大きく依存する、検索と編集のパイプラインに従っている。 テキスト誘導生成法は登場しているが、事前に定義された実体によって適用性が制限される可能性がある。 本研究では,テキストから画像への生成モデルに基づく意味コンテキストをグラフに埋め込む新しいシステムであるChartSparkを提案する。 ChartSparkは、テキスト入力で伝達されるセマンティックコンテキストと、プレーンチャートに埋め込まれたデータ情報の両方に基づいて、画像視覚化を生成する。 この手法は前景と背景画像の生成の両方に汎用的であり、既存の画像視覚化に関する実証的研究から特定された設計プラクティスを満たす。 さらに,テキストアナライザ,編集モジュール,評価モジュールを統合し,ユーザが画像の可視化を生成,修正,評価できるインタラクティブなビジュアルインタフェースを開発する。 本ツールの有用性を実験的に実証し,テキストから画像への生成モデルとインタラクティブインタフェースを組み合わせた可視化設計の可能性について考察した。

Pictorial visualization seamlessly integrates data and semantic context into visual representation, conveying complex information in a manner that is both engaging and informative. Extensive studies have been devoted to developing authoring tools to simplify the creation of pictorial visualizations. However, mainstream works mostly follow a retrieving-and-editing pipeline that heavily relies on retrieved visual elements from a dedicated corpus, which often compromise the data integrity. Text-guided generation methods are emerging, but may have limited applicability due to its predefined recognized entities. In this work, we propose ChartSpark, a novel system that embeds semantic context into chart based on text-to-image generative model. ChartSpark generates pictorial visualizations conditioned on both semantic context conveyed in textual inputs and data information embedded in plain charts. The method is generic for both foreground and background pictorial generation, satisfying the design practices identified from an empirical research into existing pictorial visualizations. We further develop an interactive visual interface that integrates a text analyzer, editing module, and evaluation module to enable users to generate, modify, and assess pictorial visualizations. We experimentally demonstrate the usability of our tool, and conclude with a discussion of the potential of using text-to-image generative model combined with interactive interface for visualization design.
翻訳日:2023-07-04 13:33:15 公開日:2023-07-02
# 超流体のニューラルウェーブ関数

Neural Wave Functions for Superfluids ( http://arxiv.org/abs/2305.06989v2 )

ライセンス: Link先を確認
Wan Tong Lou, Halvard Sutterud, Gino Cassella, W.M.C. Foulkes, Johannes Knolle, David Pfau, James S. Spencer(参考訳) 超流動性を理解することは、凝縮物質物理学の主要な目標である。 本稿では,最近開発されたFermionic Neural Network (FermiNet) 波動関数 Ansatz を用いてモンテカルロの変分計算を行う。 超流動な基底状態を持つが定量的には説明が難しい強固な短距離2体相互作用を持つ一元的フェルミ気体の研究を行った。 我々は、一元性フェルミガスの研究におけるフェルミネット・アンサッツの重要な限界を示し、元のフェルミネットを著しく上回る簡単な修正を提案し、高精度な結果を与える。 反対称性化法によって元のAnsatzとしか異なる新しいAnsatzが、パラメータが少ないにもかかわらず、元のFermiNetアーキテクチャの厳密な一般化であることを数学的に証明する。 我々のアプローチはフェルミントといくつかの利点を共有している:ニューラルネットワークの使用は基礎となる基底セットの必要性をなくし、ネットワークの柔軟性は任意の基底状態期待値の偏りのない推定へのアクセスを提供する変分量子モンテカルロフレームワークにおいて非常に正確な結果をもたらす。 本手法を他の超流動体に拡張する方法について論じる。

Understanding superfluidity remains a major goal of condensed matter physics. Here we tackle this challenge utilizing the recently developed Fermionic neural network (FermiNet) wave function Ansatz for variational Monte Carlo calculations. We study the unitary Fermi gas, a system with strong, short-range, two-body interactions known to possess a superfluid ground state but difficult to describe quantitatively. We demonstrate key limitations of the FermiNet Ansatz in studying the unitary Fermi gas and propose a simple modification that outperforms the original FermiNet significantly, giving highly accurate results. We prove mathematically that the new Ansatz, which only differs from the original Ansatz by the method of antisymmetrization, is a strict generalization of the original FermiNet architecture, despite the use of fewer parameters. Our approach shares several advantages with the FermiNet: the use of a neural network removes the need for an underlying basis set; and the flexibility of the network yields extremely accurate results within a variational quantum Monte Carlo framework that provides access to unbiased estimates of arbitrary ground-state expectation values. We discuss how the method can be extended to study other superfluids.
翻訳日:2023-07-04 13:23:27 公開日:2023-07-02
# MERGE: 高速なプライベートテキスト生成

MERGE: Fast Private Text Generation ( http://arxiv.org/abs/2305.15769v2 )

ライセンス: Link先を確認
Zi Liang, Pinghui Wang, Ruofei Zhang, Lifeng Xing, Nuo Xu, Shuo Zhang(参考訳) 近年、NLPサービスとTransformerモデルのプライベートな推測に対する懸念が高まっている。 しかし、既存の2つのプライバシー保護手法はnluシナリオのみを考慮し、翻訳、対話、コード補完といったテキスト生成のプライベート推論は未解決である。 さらに、nlgモデルに移行する一方で、既存のプライバシ保存手法は推論速度の面ではパフォーマンスが悪く、トレーニング段階で収束問題に苦しんでいる。 そこで本稿では,トランスフォーマティブ言語モデルのための高速プライベートテキスト生成フレームワークmergeを提案する。 具体的には、マージは出力された隠れ状態をワード埋め込みとして再利用し、埋め込み計算をバイパスし、前方手続きを加速するためにトランスフォーマーモジュールの線形演算を再編成する。 これらの2つの最適化に基づいて、MERGEはシーケンス長512の26.5倍のスピードアップを実現し、80\%の通信バイトを削減し、既存の最先端モデルに最大10倍のスピードアップを達成できることを示した。

Recent years have seen increasing concerns about the private inference of NLP services and Transformer models. However, existing two-party privacy-preserving methods solely consider NLU scenarios, while the private inference of text generation such as translation, dialogue, and code completion remains unsolved. Besides, while migrated to NLG models, existing privacy-preserving methods perform poorly in terms of inference speed, and suffer from the convergence problem during the training stage. To address these issues, we propose MERGE, a fast private text generation framework for Transformer-based language models. Specifically, MERGE reuse the output hidden state as the word embedding to bypass the embedding computation, and reorganize the linear operations in the Transformer module to accelerate the forward procedure. Based on these two optimizations, extensive experiments show that MERGE can achieve a 26.5x speedup under the sequence length 512, and reduce 80\% communication bytes, with an up to 10x speedup to existing state-of-art models.
翻訳日:2023-07-04 13:13:06 公開日:2023-07-02
# MACE力場構造の評価-医薬化学から材料科学へ

Evaluation of the MACE Force Field Architecture: from Medicinal Chemistry to Materials Science ( http://arxiv.org/abs/2305.14247v2 )

ライセンス: Link先を確認
David Peter Kovacs, Ilyes Batatia, Eszter Sara Arany, Gabor Csanyi(参考訳) MACEアーキテクチャは、さまざまなドメイン内、外挿、低データレギュレーションタスクのための機械学習力フィールドの分野における芸術の状態を表現している。 本稿では,公開ベンチマークデータセットに適合するモデルを用いて,maceをさらに評価する。 MACEは、一般に、アモルファス炭素、普遍材料モデリング、有機化学の一般的な小さな分子から、大きな分子や液体水に至るまで、幅広いシステムの代替品よりも優れていることを示す。 制約付き幾何最適化から分子動力学シミュレーションに至るまでのタスクにおけるモデルの性能を実証し,全てのテスト領域で優れた性能を示す。 MACEは非常にデータ効率が高く、50個のランダムに選択された基準構成でトレーニングした場合、実験分子振動スペクトルを再現できることを示す。 さらに, 厳密な局所原子中心モデルが, 大きな分子や弱い相互作用を持つ分子集合体の場合においても十分であることを示す。

The MACE architecture represents the state of the art in the field of machine learning force fields for a variety of in-domain, extrapolation and low-data regime tasks. In this paper, we further evaluate MACE by fitting models for published benchmark datasets. We show that MACE generally outperforms alternatives for a wide range of systems from amorphous carbon, universal materials modelling, and general small molecule organic chemistry to large molecules and liquid water. We demonstrate the capabilities of the model on tasks ranging from constrained geometry optimisation to molecular dynamics simulations and find excellent performance across all tested domains. We show that MACE is very data efficient, and can reproduce experimental molecular vibrational spectra when trained on as few as 50 randomly selected reference configurations. We further demonstrate that the strictly local atom-centered model is sufficient for such tasks even in the case of large molecules and weakly interacting molecular assemblies.
翻訳日:2023-07-04 13:12:29 公開日:2023-07-02
# あらゆるパイプラインを復元する: segment anythingは画像復元を満たしている

Restore Anything Pipeline: Segment Anything Meets Image Restoration ( http://arxiv.org/abs/2305.13093v2 )

ライセンス: Link先を確認
Jiaxi Jiang, Christian Holz(参考訳) 近年,深層学習による画像復元技術が進歩している。 しかし、既存の手法では画像全体を単一の実体として扱う傾向があり、個々のテクスチャ特性を示す画像内の異なるオブジェクトを考慮しない。 既存のメソッドは、通常、異なるユーザの好みに合致しない単一の結果を生成する。 本稿では,ユーザが選択可能な異なる結果を生成するために,制御可能なモデルを組み込んだインタラクティブかつオブジェクト単位の画像復元手法であるRestore Anything Pipeline (RAP)を紹介する。 RAPは、最近のSegment Anything Model(SAM)を通じてイメージセグメンテーションを制御可能なイメージ復元モデルに組み込んで、複数のイメージ復元タスクのためのユーザフレンドリなパイプラインを作成する。 我々は,rapの汎用性を示すため,画像デブラリング,画像デノージング,jpegアーティファクト除去という3つの一般的な画像復元タスクに適用した。 実験の結果,RAPは最先端の手法に比べて優れた視覚効果が得られた。 RAPは、画像復元のための有望な方向を示し、ユーザーがより制御し、オブジェクトレベルで画像復元を可能にする。

Recent image restoration methods have produced significant advancements using deep learning. However, existing methods tend to treat the whole image as a single entity, failing to account for the distinct objects in the image that exhibit individual texture properties. Existing methods also typically generate a single result, which may not suit the preferences of different users. In this paper, we introduce the Restore Anything Pipeline (RAP), a novel interactive and per-object level image restoration approach that incorporates a controllable model to generate different results that users may choose from. RAP incorporates image segmentation through the recent Segment Anything Model (SAM) into a controllable image restoration model to create a user-friendly pipeline for several image restoration tasks. We demonstrate the versatility of RAP by applying it to three common image restoration tasks: image deblurring, image denoising, and JPEG artifact removal. Our experiments show that RAP produces superior visual results compared to state-of-the-art methods. RAP represents a promising direction for image restoration, providing users with greater control, and enabling image restoration at an object level.
翻訳日:2023-07-04 13:11:59 公開日:2023-07-02
# 大規模言語モデルによる実践的PCG

Practical PCG Through Large Language Models ( http://arxiv.org/abs/2305.18243v3 )

ライセンス: Link先を確認
Muhammad U Nasir and Julian Togelius(参考訳) 大規模言語モデル(llm)は、自然言語処理という分野以外の様々な分野において有用なツールであることが証明されている。 本研究では,メタボイダル(Metavoidal)という開発下ゲーム用2DゲームルームをLLMで生成する方法の実践的方向性を示す。 提案手法は,局所的制約の多いPCG (Procedural Content Generation) PCG に関して,非自明なゲームシナリオ下では,60個の手作りの部屋として,少ないデータから37%の再生可能・ノーベルレベルを生成できる,ループ内細調整による GPT-3 のパワーを利用することができる。

Large Language Models (LLMs) have proven to be useful tools in various domains outside of the field of their inception, which was natural language processing. In this study, we provide practical directions on how to use LLMs to generate 2D-game rooms for an under-development game, named Metavoidal. Our technique can harness the power of GPT-3 by Human-in-the-loop fine-tuning which allows our method to create 37% Playable-Novel levels from as scarce data as only 60 hand-designed rooms under a scenario of the non-trivial game, with respect to (Procedural Content Generation) PCG, that has a good amount of local and global constraints.
翻訳日:2023-07-04 13:02:39 公開日:2023-07-02
# 分布特徴マッチングによるロバスト性保証によるラベルシフト定量化

Label Shift Quantification with Robustness Guarantees via Distribution Feature Matching ( http://arxiv.org/abs/2306.04376v2 )

ライセンス: Link先を確認
Bastien Dussap, Gilles Blanchard, Badr-Eddine Ch\'erief-Abdellatif(参考訳) 定量化学習は、ラベルシフト下の目標ラベル分布を推定するタスクを扱う。 本稿では,まず,従来の文献で導入された様々な推定器の特定の例として回復する分散特徴マッチング(DFM)について述べる。 dfmプロシージャの一般的な性能バウンドを導出し、特定のケースで導かれる以前の境界においていくつかの重要な側面を改善した。 次に、この分析を拡張して、正確なラベルシフト仮説から外れた不特定設定におけるDFM手順の堅牢性、特に未知の分布によるターゲットの汚染の場合について検討する。 これらの理論的な知見は、シミュレーションおよび実世界のデータセットに関する詳細な数値研究によって確認される。 また、Random Fourier Featureの原理を用いて、カーネルベースのDFMの効率的でスケーラブルで堅牢なバージョンも導入する。

Quantification learning deals with the task of estimating the target label distribution under label shift. In this paper, we first present a unifying framework, distribution feature matching (DFM), that recovers as particular instances various estimators introduced in previous literature. We derive a general performance bound for DFM procedures, improving in several key aspects upon previous bounds derived in particular cases. We then extend this analysis to study robustness of DFM procedures in the misspecified setting under departure from the exact label shift hypothesis, in particular in the case of contamination of the target by an unknown distribution. These theoretical findings are confirmed by a detailed numerical study on simulated and real-world datasets. We also introduce an efficient, scalable and robust version of kernel-based DFM using the Random Fourier Feature principle.
翻訳日:2023-07-04 12:54:38 公開日:2023-07-02
# Quick-Tune: トレーニング済みモデルをファインチューンに学習する

Quick-Tune: Quickly Learning Which Pretrained Model to Finetune and How ( http://arxiv.org/abs/2306.03828v3 )

ライセンス: Link先を確認
Sebastian Pineda Arango, Fabio Ferreira, Arlind Kadra, Frank Hutter, Josif Grabocka(参考訳) トレーニング済みモデルが増え続ける中で、機械学習の実践者は、どのトレーニング済みモデルを使用するか、新しいデータセットのためにそれを微調整する方法を常に直面している。 本稿では,最適事前学習モデルとハイパーパラメータを共同で探索して微調整する手法を提案する。 本手法は,複数のハイパーパラメータ構成を持つ事前学習モデルの性能に関する知識を一連のデータセット上で伝達する。 そこで本研究では,87データセット上の24の事前学習画像分類モデルを微調整し,大規模メタデータセットを生成するために,20k以上のハイパーパラメータ構成を評価した。 我々は、このメタデータセットの学習曲線について多元的性能予測器をメタ学習し、新しいデータセットの高速ハイパーパラメータ最適化に使用する。 提案手法は,新しいデータセットの正確な事前学習モデルと最適なハイパーパラメータを迅速に選択できることを実証的に実証する。

With the ever-increasing number of pretrained models, machine learning practitioners are continuously faced with which pretrained model to use, and how to finetune it for a new dataset. In this paper, we propose a methodology that jointly searches for the optimal pretrained model and the hyperparameters for finetuning it. Our method transfers knowledge about the performance of many pretrained models with multiple hyperparameter configurations on a series of datasets. To this aim, we evaluated over 20k hyperparameter configurations for finetuning 24 pretrained image classification models on 87 datasets to generate a large-scale meta-dataset. We meta-learn a multi-fidelity performance predictor on the learning curves of this meta-dataset and use it for fast hyperparameter optimization on new datasets. We empirically demonstrate that our resulting approach can quickly select an accurate pretrained model for a new dataset together with its optimal hyperparameters.
翻訳日:2023-07-04 12:54:25 公開日:2023-07-02
# 分子特性予測のための3次元自動事前学習

Automated 3D Pre-Training for Molecular Property Prediction ( http://arxiv.org/abs/2306.07812v2 )

ライセンス: Link先を確認
Xu Wang and Huan Zhao and Weiwei Tu and Quanming Yao(参考訳) 分子特性予測は、創薬と物質科学において重要な問題である。 分子特性予測には幾何学的構造が必要であることが証明されているため、3次元情報は予測性能を高めるために様々なグラフ学習法と組み合わせられている。 しかし、計算コストが高いため、多くの実世界の応用では分子の幾何学的構造が得られない。 本研究では、3d分子グラフ上でモデルを事前学習し、3d構造を持たない分子グラフ上で微調整する新しい3d事前学習フレームワーク(dubbed 3d pgt)を提案する。 結合長,結合角,二面体角が完全分子3次元配座に対応する3つの基本的な幾何学的記述子であることから,まずこれら3つの属性に基づくマルチタスク生成前学習フレームワークを開発した。 次に,これら3つの生成的タスクを自動的に融合するために,3次元コンフォーメータの品質に対応する総エネルギーから3つの前文タスクの重み分布を探索するために, \textit{total energy} を用いたサロゲートメトリックを設計し,提案する3次元pgtの精度,効率,一般化能力を示すために2次元分子グラフの拡張実験を行った。

Molecular property prediction is an important problem in drug discovery and materials science. As geometric structures have been demonstrated necessary for molecular property prediction, 3D information has been combined with various graph learning methods to boost prediction performance. However, obtaining the geometric structure of molecules is not feasible in many real-world applications due to the high computational cost. In this work, we propose a novel 3D pre-training framework (dubbed 3D PGT), which pre-trains a model on 3D molecular graphs, and then fine-tunes it on molecular graphs without 3D structures. Based on fact that bond length, bond angle, and dihedral angle are three basic geometric descriptors corresponding to a complete molecular 3D conformer, we first develop a multi-task generative pre-train framework based on these three attributes. Next, to automatically fuse these three generative tasks, we design a surrogate metric using the \textit{total energy} to search for weight distribution of the three pretext task since total energy corresponding to the quality of 3D conformer.Extensive experiments on 2D molecular graphs are conducted to demonstrate the accuracy, efficiency and generalization ability of the proposed 3D PGT compared to various pre-training baselines.
翻訳日:2023-07-04 12:46:01 公開日:2023-07-02
# 近似制約最適化のための自己教師付きEquality Embedded Deep Lagrange Dual

Self-supervised Equality Embedded Deep Lagrange Dual for Approximate Constrained Optimization ( http://arxiv.org/abs/2306.06674v4 )

ライセンス: Link先を確認
Minsoo Kim, Hongseok Kim(参考訳) 従来の解法はしばしば、特に大規模かつ時間クリティカルな問題において、制約付き最適化のために計算コストがかかる。 これにより、ニューラルネットワーク(NN)を高速な最適解近似器として使用することへの関心が高まっているが、NNに制約を組み込むことは難しい。 そこで本研究では,ラベルを使わずに最適解を見つけることを学ぶフレームワークdeep lagrange dual with equal embedded (deeplde)を提案する。 実現可能なソリューションを確保するため、NNに等価性制約を組み込み、未等式制約を課すために原始双対法を用いてNNを訓練する。 さらに,DeepLDEの収束性を証明し,本手法だけでは等式埋め込みの助けなしには等式制約を保証できないことを示す。 コンベックス,非凸,AC最適電力流(AC-OPF)問題に関するシミュレーション結果から,提案したDeepLDEはNNベースの全アプローチの中で最小の最適性ギャップを達成でき,かつ常に実現可能な解を確保できることを示す。 さらに,制約付き凸,非凸最適化,ac-opfの解法において,提案手法の計算時間はdc3および従来の解法に比べて約5~250倍高速である。

Conventional solvers are often computationally expensive for constrained optimization, particularly in large-scale and time-critical problems. While this leads to a growing interest in using neural networks (NNs) as fast optimal solution approximators, incorporating the constraints with NNs is challenging. In this regard, we propose deep Lagrange dual with equality embedding (DeepLDE), a framework that learns to find an optimal solution without using labels. To ensure feasible solutions, we embed equality constraints into the NNs and train the NNs using the primal-dual method to impose inequality constraints. Furthermore, we prove the convergence of DeepLDE and show that the primal-dual learning method alone cannot ensure equality constraints without the help of equality embedding. Simulation results on convex, non-convex, and AC optimal power flow (AC-OPF) problems show that the proposed DeepLDE achieves the smallest optimality gap among all the NN-based approaches while always ensuring feasible solutions. Furthermore, the computation time of the proposed method is about 5 to 250 times faster than DC3 and the conventional solvers in solving constrained convex, non-convex optimization, and/or AC-OPF.
翻訳日:2023-07-04 12:44:59 公開日:2023-07-02
# フェデレーション・マイトショット学習

Federated Few-shot Learning ( http://arxiv.org/abs/2306.10234v3 )

ライセンス: Link先を確認
Song Wang, Xingbo Fu, Kaize Ding, Chen Chen, Huiyuan Chen, Jundong Li(参考訳) フェデレーション・ラーニング(fl)は、複数のクライアントがローカルデータを交換することなく、協調して機械学習モデルを学習できるようにする。 このようにして、サーバはすべてのクライアントの計算能力を活用し、すべてのクライアント間でより大きなデータサンプルセットでモデルをトレーニングすることができる。 このようなメカニズムは様々な分野で有効であることが証明されているが、既存の研究は、各クライアントがトレーニングに十分なデータを保存すると仮定している。 しかし実際には、特定のクライアントは限られた数のサンプル(すなわち、少数のサンプル)しか含まない。 例えば、特定のユーザーが新しいモバイルデバイスで撮影した写真データは、比較的まれである。 このシナリオでは、既存のFLの取り組みは、一般的にこれらのクライアントに大きなパフォーマンス低下に遭遇します。 そのため、FLシナリオの下で限られたデータを持つクライアントに一般化可能な数ショットモデルを開発することが急務である。 本稿では,この新たな問題を,フェデレーション付き数発学習と呼ぶ。 しかしながら、クライアント間のグローバルデータ分散(クライアント間のデータ分散の違い)と各クライアント内のローカルデータ不足(トレーニングに十分なローカルデータ不足)という2つの大きな理由により、この問題は依然として困難なままである。 これら2つの課題を克服するために,グローバルデータ分散と局所データ不足の悪影響を軽減すべく,2つのモデルと専用トレーニング戦略を別々に更新した,連帯型少数ショット学習フレームワークを提案する。 ニュース記事とイメージをカバーする4つの一般的なデータセットに関する広範囲な実験は、最先端のベースラインと比較して、フレームワークの有効性を検証する。 私たちのコードはhttps://github.com/SongW-SW/F2Lで提供されます。

Federated Learning (FL) enables multiple clients to collaboratively learn a machine learning model without exchanging their own local data. In this way, the server can exploit the computational power of all clients and train the model on a larger set of data samples among all clients. Although such a mechanism is proven to be effective in various fields, existing works generally assume that each client preserves sufficient data for training. In practice, however, certain clients may only contain a limited number of samples (i.e., few-shot samples). For example, the available photo data taken by a specific user with a new mobile device is relatively rare. In this scenario, existing FL efforts typically encounter a significant performance drop on these clients. Therefore, it is urgent to develop a few-shot model that can generalize to clients with limited data under the FL scenario. In this paper, we refer to this novel problem as federated few-shot learning. Nevertheless, the problem remains challenging due to two major reasons: the global data variance among clients (i.e., the difference in data distributions among clients) and the local data insufficiency in each client (i.e., the lack of adequate local data for training). To overcome these two challenges, we propose a novel federated few-shot learning framework with two separately updated models and dedicated training strategies to reduce the adverse impact of global data variance and local data insufficiency. Extensive experiments on four prevalent datasets that cover news articles and images validate the effectiveness of our framework compared with the state-of-the-art baselines. Our code is provided at https://github.com/SongW-SW/F2L.
翻訳日:2023-07-04 12:35:19 公開日:2023-07-02
# visio-linguistic の細粒度理解を高めるためのモーダル内およびランキングクロスモーダルハードネガティブの対比

Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Fine-grained Understanding ( http://arxiv.org/abs/2306.08832v2 )

ライセンス: Link先を確認
Le Zhang, Rabiul Awal, Aishwarya Agrawal(参考訳) 現在のビジョンと言語モデル(VLM)は、様々な視覚言語タスクにおいて強いパフォーマンスを示すが、細かな理解に苦慮している。 この問題は、事前訓練データセットにおけるイメージキャプチャアライメントの弱さと、関係性、アクション、属性などのニュアンスな基底要素を区別できない単純なコントラスト目的に起因している。 結果として、モデルは言葉の袋の表現を学習する傾向がある。 これらの課題を緩和するため,我々は,自動生成したハードマイナス値を利用してモデルのキャパシティを増強し,カリキュラム学習として機能する適応しきい値を持つ,モーダル内コントラストロスとユニークなクロスモーダルランクロスを導入する。 追加のアノテーションやパラメータを必要としない当社の戦略は、イメージテキストのコントラスト損失でトレーニングされたvlmに組み込むことができます。 提案手法は,CLIPに適用すると,4つの微細なベンチマークに対して大幅な改善がもたらされ,また,微細な推論における最先端のモッセルであるX-VLMの性能も向上する。

Current Vision and Language Models (VLMs) demonstrate strong performance across various vision-language tasks, yet they struggle with fine-grained understanding. This issue stems from weak image-caption alignment in pretraining datasets and a simplified contrastive objective that fails to distinguish nuanced grounding elements such as relations, actions, and attributes. As a result, the models tend to learn bag-of-words representations. To mitigate these challenges, we introduce an intra-modal contrastive loss and a unique cross-modal rank loss with an adaptive threshold that serves as curriculum learning, utilizing our automatically generated hard negatives to augment the model's capacity. Our strategy, which does not necessitate additional annotations or parameters, can be incorporated into any VLM trained with an image-text contrastive loss. Upon application to CLIP, our method leads to significant improvements on four fine-grained benchmarks, and it also enhances the performance of X-VLM, which is the state-of-art moodel on fine-grained reasoning.
翻訳日:2023-07-04 12:33:24 公開日:2023-07-02
# x-detect: 小売店舗における物体検出装置の敵対的パッチ検出法

X-Detect: Explainable Adversarial Patch Detection for Object Detectors in Retail ( http://arxiv.org/abs/2306.08422v2 )

ライセンス: Link先を確認
Omer Hofman, Amit Giloni, Yarin Hayun, Ikuya Morikawa, Toshiya Shimizu, Yuval Elovici and Asaf Shabtai(参考訳) 様々なドメイン(小売など)で広く使われているオブジェクト検出モデルは、敵の攻撃に対して脆弱であることが示されている。 既存の物体検出器に対する対向攻撃検出方法は、新しい実生活攻撃の検出が困難であった。 我々は、新しい対向パッチ検出器であるX-Detectを提示する。 一 敵のサンプルをリアルタイムで検出し、防御者が予防措置を講じることができること。 二 被告の意思決定プロセスを支援するために提起された警告について説明すること。 三 新たな攻撃の形で不慣れな脅威を扱うこと。 新しいシーンが与えられると、x-detectは、オブジェクト抽出、シーン操作、特徴変換技術を利用してアラートを発行する必要があるかどうかを判断する、設計毎に説明可能な検出器のアンサンブルを使用する。 X-Detectは5つの異なる攻撃シナリオ(アダプティブアタックを含む)とCOCOデータセットと新しいSuperstoreデータセットを使用して、物理空間とデジタル空間の両方で評価された。 実際の環境ではスマートショッピングカートのセットアップを用いて物理的評価を行い,17件の敵パッチ攻撃が1700件のビデオに記録された。 その結果、X-Detectは攻撃シナリオの良さと敵の情景を区別し、0%のFPR(誤報なし)を維持し、警告のアクション可能な説明を提供しながら、最先端の手法よりも優れていた。 デモが公開されている。

Object detection models, which are widely used in various domains (such as retail), have been shown to be vulnerable to adversarial attacks. Existing methods for detecting adversarial attacks on object detectors have had difficulty detecting new real-life attacks. We present X-Detect, a novel adversarial patch detector that can: i) detect adversarial samples in real time, allowing the defender to take preventive action; ii) provide explanations for the alerts raised to support the defender's decision-making process, and iii) handle unfamiliar threats in the form of new attacks. Given a new scene, X-Detect uses an ensemble of explainable-by-design detectors that utilize object extraction, scene manipulation, and feature transformation techniques to determine whether an alert needs to be raised. X-Detect was evaluated in both the physical and digital space using five different attack scenarios (including adaptive attacks) and the COCO dataset and our new Superstore dataset. The physical evaluation was performed using a smart shopping cart setup in real-world settings and included 17 adversarial patch attacks recorded in 1,700 adversarial videos. The results showed that X-Detect outperforms the state-of-the-art methods in distinguishing between benign and adversarial scenes for all attack scenarios while maintaining a 0% FPR (no false alarms) and providing actionable explanations for the alerts raised. A demo is available.
翻訳日:2023-07-04 12:33:04 公開日:2023-07-02
# mp3:運動原始型(再計画)政策

MP3: Movement Primitive-Based (Re-)Planning Policy ( http://arxiv.org/abs/2306.12729v2 )

ライセンス: Link先を確認
Fabian Otto, Hongyi Zhou, Onur Celik, Ge Li, Rudolf Lioutikov, Gerhard Neumann(参考訳) 本稿では,移動原始的計画政策(MP3)と呼ばれる新しい深層強化学習(RL)手法を紹介する。 運動プリミティブ(MP)を深いRLフレームワークに統合することにより、MP3は学習プロセス全体を通してスムーズな軌道の生成を可能にし、スパースや非マルコフの報酬から効果的に学習する。 さらに、MP3は実行中に環境の変化に適応する能力を維持している。 ロボットRLの初期の成功は、RLとMPを組み合わせることで達成されているが、これらのアプローチは単一のストロークベースの動作の学習に限られており、タスクのバリエーションに適応したり、実行中の動作を調整する能力に欠ける。 本稿では,MPパラメータを異なるタスク変数に非線形に適応するエピソードベースのRL手法を導入し,再計画戦略を取り入れたアプローチを拡張した。 これにより、動きの実行を通してMPパラメータの適応が可能になり、フィードバックを必要とする確率領域におけるオンラインモーション適応の欠如に対処できる。 最先端のRL法とRL法をMPs法と比較した。 その結果,厳密でスパースな報酬設定と再計画を必要とする領域の性能向上が示された。

We introduce a novel deep reinforcement learning (RL) approach called Movement Primitive-based Planning Policy (MP3). By integrating movement primitives (MPs) into the deep RL framework, MP3 enables the generation of smooth trajectories throughout the whole learning process while effectively learning from sparse and non-Markovian rewards. Additionally, MP3 maintains the capability to adapt to changes in the environment during execution. Although many early successes in robot RL have been achieved by combining RL with MPs, these approaches are often limited to learning single stroke-based motions, lacking the ability to adapt to task variations or adjust motions during execution. Building upon our previous work, which introduced an episode-based RL method for the non-linear adaptation of MP parameters to different task variations, this paper extends the approach to incorporating replanning strategies. This allows adaptation of the MP parameters throughout motion execution, addressing the lack of online motion adaptation in stochastic domains requiring feedback. We compared our approach against state-of-the-art deep RL and RL with MPs methods. The results demonstrated improved performance in sophisticated, sparse reward settings and in domains requiring replanning.
翻訳日:2023-07-04 12:26:13 公開日:2023-07-02
# グラフニューラルネットワークの限界への取り組み

On Addressing the Limitations of Graph Neural Networks ( http://arxiv.org/abs/2306.12640v2 )

ライセンス: Link先を確認
Sitao Luan(参考訳) 本稿では,グラフ畳み込みネットワーク(gcns)に関する2つの問題点について概説する。

This report gives a summary of two problems about graph convolutional networks (GCNs): over-smoothing and heterophily challenges, and outlines future directions to explore.
翻訳日:2023-07-04 12:25:53 公開日:2023-07-02
# G-NM:数値時系列予測モデルのグループ

G-NM: A Group of Numerical Time Series Prediction Models ( http://arxiv.org/abs/2306.11667v3 )

ライセンス: Link先を確認
Juyoung Yun(参考訳) 本研究では,数値時系列予測モデル群 (G-NM) と総称される数値時系列予測モデルの包括的アンサンブルの開発と実装に焦点を当てた。 この包括的セットは、リカレントニューラルネットワーク(RNN)やLong Short-Term Memory(LSTM)といった現代のニューラルネットワークモデルに加えて、Autoregressive Integrated moving Average(ARIMA)、Holt-Wintersのメソッド、SVR(Support Vector Regression)といった従来のモデルを含む。 G-NMは、複雑な自然現象に固有のパターンや傾向に関連する予測能力を増強するために明確に構成されている。 これらの事象に関連する時系列データを利用することで、g-nmは長期にわたってそのような現象の予測を容易にする。 本研究の目的は,このような事象に対する我々の理解を深めることと,予測の精度を著しく向上させることである。 g-nmは時系列データに現れる線形および非線形の依存関係、季節性、トレンドの両方をカプセル化する。 これらのモデルはそれぞれ、線形トレンドと季節性を扱うARIMAのレジリエンス、非線形パターンをキャプチャするSVRの習熟度、時系列データの様々なコンポーネントをモデル化するLSTMの適応性など、さまざまな長所に貢献している。 g-nmポテンシャルの活用を通じて,大規模時系列予測モデルにおける最先端の進歩を試みている。 我々は,本研究が,自然界を構成する複雑な事象を理解し,予測するための,現在進行中の取り組みにおいて,重要な足掛かりとなることを期待する。

In this study, we focus on the development and implementation of a comprehensive ensemble of numerical time series forecasting models, collectively referred to as the Group of Numerical Time Series Prediction Model (G-NM). This inclusive set comprises traditional models such as Autoregressive Integrated Moving Average (ARIMA), Holt-Winters' method, and Support Vector Regression (SVR), in addition to modern neural network models including Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM). G-NM is explicitly constructed to augment our predictive capabilities related to patterns and trends inherent in complex natural phenomena. By utilizing time series data relevant to these events, G-NM facilitates the prediction of such phenomena over extended periods. The primary objective of this research is to both advance our understanding of such occurrences and to significantly enhance the accuracy of our forecasts. G-NM encapsulates both linear and non-linear dependencies, seasonalities, and trends present in time series data. Each of these models contributes distinct strengths, from ARIMA's resilience in handling linear trends and seasonality, SVR's proficiency in capturing non-linear patterns, to LSTM's adaptability in modeling various components of time series data. Through the exploitation of the G-NM potential, we strive to advance the state-of-the-art in large-scale time series forecasting models. We anticipate that this research will represent a significant stepping stone in our ongoing endeavor to comprehend and forecast the complex events that constitute the natural world.
翻訳日:2023-07-04 12:24:39 公開日:2023-07-02
# mme:マルチモーダル大規模言語モデルのための総合評価ベンチマーク

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models ( http://arxiv.org/abs/2306.13394v2 )

ライセンス: Link先を確認
Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin, Zhenyu Qiu, Wei Lin, Jinrui Yang, Xiawu Zheng, Ke Li, Xing Sun, Rongrong Ji(参考訳) MLLM(Multimodal Large Language Model)は、マルチモーダルなタスクを実行するための強力なLLMに依存しており、画像に基づいた詩を書くなど、近年の研究において驚くべき創発的な能力を示している。 しかし、これらのケーススタディは、総合的な評価を欠いて、MLLMの性能を完全に反映することは困難である。 本稿では、この空白を埋め、最初のmllm評価ベンチマークmmeを提示する。 知覚能力と認知能力の両方を合計14のサブタスクで測定する。 評価に公開データセットを直接使用することから生じるデータ漏洩を避けるため、インストラクション・アンサーペアのアノテーションはすべて手動で設計されている。 簡潔な命令設計により、迅速なエンジニアリングに苦しむのではなく、MLLMを適切に比較することができる。 また、このような指示により、量的統計も容易に行うことができる。 これまでに12種類のMLLMを総合的に評価した結果,既存のMLLMにはまだ改善の余地があるだけでなく,その後のモデル最適化の可能性も明らかとなった。

Multimodal Large Language Model (MLLM) relies on the powerful LLM to perform multimodal tasks, showing amazing emergent abilities in recent studies, such as writing poems based on an image. However, it is difficult for these case studies to fully reflect the performance of MLLM, lacking a comprehensive evaluation. In this paper, we fill in this blank, presenting the first MLLM Evaluation benchmark MME. It measures both perception and cognition abilities on a total of 14 subtasks. In order to avoid data leakage that may arise from direct use of public datasets for evaluation, the annotations of instruction-answer pairs are all manually designed. The concise instruction design allows us to fairly compare MLLMs, instead of struggling in prompt engineering. Besides, with such an instruction, we can also easily carry out quantitative statistics. A total of 12 advanced MLLMs are comprehensively evaluated on our MME, which not only suggests that existing MLLMs still have a large room for improvement, but also reveals the potential directions for the subsequent model optimization.
翻訳日:2023-07-04 12:12:32 公開日:2023-07-02
# ボルツマンマシンと量子多体問題

Boltzmann machines and quantum many-body problems ( http://arxiv.org/abs/2306.16877v2 )

ライセンス: Link先を確認
Yusuke Nomura(参考訳) 量子多体問題の解析と量子状態の絡み合い構造の解明は、幅広い分野に共通する重要な課題である。 近年,この課題に対処するために,機械学習を用いた新しいアプローチが導入された。 このアイデアは、非自明な量子相関(量子エンタングルメント)をニューラルネットワークに"組み込む"ことである。 集中的な開発を通じて、人工ニューラルネットワーク法は量子多体問題を分析するための新しい強力なツールになりつつある。 様々な人工ニューラルネットワークの中で、このトピックレビューはボルツマンマシンに焦点を当て、最近の開発と応用の概要を提供する。

Analyzing quantum many-body problems and elucidating the entangled structure of quantum states is a significant challenge common to a wide range of fields. Recently, a novel approach using machine learning was introduced to address this challenge. The idea is to "embed" nontrivial quantum correlations (quantum entanglement) into artificial neural networks. Through intensive developments, artificial neural network methods are becoming new powerful tools for analyzing quantum many-body problems. Among various artificial neural networks, this topical review focuses on Boltzmann machines and provides an overview of recent developments and applications.
翻訳日:2023-07-04 10:22:28 公開日:2023-07-02