このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230405となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# グラフインフォームドシミュレーションによる活性物質のモデルの推定 Graph-informed simulation-based inference for models of active matter ( http://arxiv.org/abs/2304.06806v1 ) ライセンス: Link先を確認 | Namid R. Stillman, Silke Henkes, Roberto Mayor, Gilles Louppe | (参考訳) 多くの集団システムは、細胞シートから鳥の群れまで、平衡から遠く離れた自然界に存在する。
これらの系は活性物質の形態を反映しており、個々の物質成分は内部エネルギーを持つ。
特定のパラメータ規則の下では、これらの活性系は相転移を起こし、単一の成分の小さなゆらぎはシステムのレオロジーに大域的な変化をもたらす。
統計物理学のシミュレーションや方法は通常、実際の観測のためにこれらの相転移を理解し予測するために用いられる。
本研究では,シミュレーションに基づく推論を用いて,系の観測から活性物質パラメータを強く推算できることを実証する。
さらに,システムのスナップショット(1~3枚)をパラメータ推定に利用し,このグラフインフォームドアプローチが,平均速度や平均2乗変位といった一般的な指標よりも優れていることを示す。
我々の研究は、高レベルのシステム情報が集合システムのリレーショナル構造に含まれており、モデルとデータとの結合性を改善するために活用できることを強調している。 Many collective systems exist in nature far from equilibrium, ranging from cellular sheets up to flocks of birds. These systems reflect a form of active matter, whereby individual material components have internal energy. Under specific parameter regimes, these active systems undergo phase transitions whereby small fluctuations of single components can lead to global changes to the rheology of the system. Simulations and methods from statistical physics are typically used to understand and predict these phase transitions for real-world observations. In this work, we demonstrate that simulation-based inference can be used to robustly infer active matter parameters from system observations. Moreover, we demonstrate that a small number (from one to three) snapshots of the system can be used for parameter inference and that this graph-informed approach outperforms typical metrics such as the average velocity or mean square displacement of the system. Our work highlights that high-level system information is contained within the relational structure of a collective system and that this can be exploited to better couple models to data. | 翻訳日:2023-04-23 04:33:24 公開日:2023-04-05 |
# モデル駆動型量子連合学習(qfl) Model-Driven Quantum Federated Learning (QFL) ( http://arxiv.org/abs/2304.08496v1 ) ライセンス: Link先を確認 | Armin Moin, Atta Badii, Moharram Challenger | (参考訳) 近年,量子フェデレート学習(qfl)のためのフレームワークが提案されている。
例えば、Google TensorFlow Quantum(TFQ)とTensorFlow Federated(TFF)ライブラリは、QFLを実現するためにデプロイされている。
しかし、メインの開発者は、まだ量子コンピューティング(qc)ライブラリやフレームワークに精通していない。
基礎となるqcと連合学習(fl)ライブラリに抽象化層を提供するドメイン固有モデリング言語(dsml)は有益である。
これにより、実践者は量子機械学習(qml)の最先端技術をデプロイしながら、ソフトウェア開発とデータサイエンスのタスクを効率的に実行することができる。
本稿では,機械学習(ML)を実現するための既存のドメイン固有モデル駆動工学(MDE)ツールであるMontiAnna,ML-Quadrat,GreyCatを,QFLをサポートするために拡張することを提案する。 Recently, several studies have proposed frameworks for Quantum Federated Learning (QFL). For instance, the Google TensorFlow Quantum (TFQ) and TensorFlow Federated (TFF) libraries have been deployed for realizing QFL. However, developers, in the main, are not as yet familiar with Quantum Computing (QC) libraries and frameworks. A Domain-Specific Modeling Language (DSML) that provides an abstraction layer over the underlying QC and Federated Learning (FL) libraries would be beneficial. This could enable practitioners to carry out software development and data science tasks efficiently while deploying the state of the art in Quantum Machine Learning (QML). In this position paper, we propose extending existing domain-specific Model-Driven Engineering (MDE) tools for Machine Learning (ML) enabled systems, such as MontiAnna, ML-Quadrat, and GreyCat, to support QFL. | 翻訳日:2023-04-23 04:27:03 公開日:2023-04-05 |
# 電子商取引におけるスポンサー商品の最適化に関する実践的教訓 Practical Lessons on Optimizing Sponsored Products in eCommerce ( http://arxiv.org/abs/2304.09107v1 ) ライセンス: Link先を確認 | Yanbing Xue, Bo Liu, Weizhi Du, Jayanth Korlimarla, Musen Men | (参考訳) 本稿では,広告システムにおけるスポンサー付製品最適化の問題点について,位置ベースデバイアス,クリック変換マルチタスク学習,予測クリックスルーレート(pCTR)のキャリブレーションなどについて検討する。
本研究では,既存の機械学習モデルに構造的変更を加えることなく,そのような問題に対する解決策を提供する実用的な機械学習フレームワークを提案し,浅いモデルを含むほとんどの機械学習モデル(勾配ブースティング決定木,サポートベクターマシンなど)と組み合わせることができる。
本稿では,まず,広告システムにおける上記の問題に対処するデータと機能工学手法を提案し,その後,オンラインショッピングサイトからのトラフィックログから実世界のデータ集合に関する実践的枠組みの利点を評価する。
提案するデータと機能工学の実践的フレームワークは,広告システムにおける年次問題にも対処でき,複数の評価指標にインクリメントをもたらすことを示す。 In this paper, we study multiple problems from sponsored product optimization in ad system, including position-based de-biasing, click-conversion multi-task learning, and calibration on predicted click-through-rate (pCTR). We propose a practical machine learning framework that provides the solutions to such problems without structural change to existing machine learning models, thus can be combined with most machine learning models including shallow models (e.g. gradient boosting decision trees, support vector machines). In this paper, we first propose data and feature engineering techniques to handle the aforementioned problems in ad system; after that, we evaluate the benefit of our practical framework on real-world data sets from our traffic logs from online shopping site. We show that our proposed practical framework with data and feature engineering can also handle the perennial problems in ad systems and bring increments to multiple evaluation metrics. | 翻訳日:2023-04-23 04:18:22 公開日:2023-04-05 |
# LARD -- ランディングアプローチ 滑走路検出 -- ビジョンベースランディングのためのデータセット LARD -- Landing Approach Runway Detection -- Dataset for Vision Based Landing ( http://arxiv.org/abs/2304.09938v1 ) ライセンス: Link先を確認 | M\'elanie Ducoffe, Maxime Carrere, L\'eo F\'eliers, Adrien Gauffriau, Vincent Mussot, Claire Pagetti (IRIT-RMESS, Toulouse INP), Thierry Sammour | (参考訳) 自律システムへの関心が高まり続けている中、大きな課題の1つは、十分な実世界のデータを集めることだ。
航空宇宙分野における自律着陸システムへの実践的かつ商業的な関心にもかかわらず、オープンソースの航空画像データセットが不足している。
そこで,本研究では,接近・着陸時の滑走路検出を行うための高画質空中画像のデータセットを提案する。
データセットの大部分は合成画像で構成されているが、実際の着陸映像から手動でラベル付けされた画像も提供し、検出タスクをよりリアルな設定に拡張する。
また,このような合成フロントビュー画像を生成可能なジェネレータを提供し,幾何変換による滑走路コーナーの自動アノテーションを実現する。
このデータセットは、データセットの品質の分析や、検出タスクに対処するモデルの開発など、さらなる研究の道を開く。
https://github.com/deel-ai/LARD As the interest in autonomous systems continues to grow, one of the major challenges is collecting sufficient and representative real-world data. Despite the strong practical and commercial interest in autonomous landing systems in the aerospace field, there is a lack of open-source datasets of aerial images. To address this issue, we present a dataset-lard-of high-quality aerial images for the task of runway detection during approach and landing phases. Most of the dataset is composed of synthetic images but we also provide manually labelled images from real landing footages, to extend the detection task to a more realistic setting. In addition, we offer the generator which can produce such synthetic front-view images and enables automatic annotation of the runway corners through geometric transformations. This dataset paves the way for further research such as the analysis of dataset quality or the development of models to cope with the detection tasks. Find data, code and more up-to-date information at https://github.com/deel-ai/LARD | 翻訳日:2023-04-23 03:57:08 公開日:2023-04-05 |
# 松原 n-点関数のスペクトル表現:実核関数とその応用 Spectral representation of Matsubara n-point functions: Exact kernel functions and applications ( http://arxiv.org/abs/2304.03774v1 ) ライセンス: Link先を確認 | Johannes Halbinger, Benedikt Schneider and Bj\"orn Sbierski | (参考訳) 量子多体物理学の分野において、スペクトル(あるいはリーマン)表現は、ハミルトニアンの固有系が知られている場合、松原 n-点相関関数の計算を単純化する。
これは普遍カーネル関数と行列要素のシステムおよび相関子固有の積を介して表現される。
ここでは、任意の n に対して、ボソニック作用素またはフェルミオン作用素の任意の組み合わせ、および任意の数の異常項に対して、核関数を全一般性で提供する。
応用として、フェルミオンハバード原子と自由スピンに対するボソニック3点相関関数と4点相関関数を考える。 In the field of quantum many-body physics, the spectral (or Lehmann) representation simplifies the calculation of Matsubara n-point correlation functions if the eigensystem of a Hamiltonian is known. It is expressed via a universal kernel function and a system- and correlator-specific product of matrix elements. Here we provide the kernel functions in full generality, for arbitrary n, arbitrary combinations of bosonic or fermionic operators and an arbitrary number of anomalous terms. As an application, we consider bosonic 3- and 4-point correlation functions for the fermionic Hubbard atom and a free spin, respectively. | 翻訳日:2023-04-16 22:23:52 公開日:2023-04-05 |
# 運転支援のための深層学習システム Deep Learning Systems for Advanced Driving Assistance ( http://arxiv.org/abs/2304.06041v1 ) ライセンス: Link先を確認 | Francesco Rundo | (参考訳) 次世代車は、しばしば人工知能の使用に基づいて革新的なソリューションを通じて、車の運転安全性をインテリジェントに評価する。
安全運転モニタリングは、科学文献で広く扱われるいくつかの手法を用いて行うことができる。
本研究では, 自動車運転手の生理的注意状況の再構築に適したアドホックバイオセンシングシステムを用いた革新的なアプローチを提案する。
自動車運転者の生理的地位を再構築するために,光検出器を用いた近赤外(NiR)スペクトルで結合したLEDからなるバイオセンシングプローブを提案する。
監視対象の上のこのプローブは、PhotoPlethysmoGraphy(PPG)と呼ばれる生理学的信号を検出することができる。
ppgシグナルの形成は、監視対象血流中の酸素化および非酸素化ヘモグロビン濃度の変化によって制御され、これは、被験者の注意レベルを特徴付ける自律神経系(ans)によって、心臓活動に直接接続される。
この設計されたドライバーの眠気モニタリングは、相関したインテリジェントな運転シナリオ理解に基づいて、さらなる運転安全評価と組み合わせられる。 Next generation cars embed intelligent assessment of car driving safety through innovative solutions often based on usage of artificial intelligence. The safety driving monitoring can be carried out using several methodologies widely treated in scientific literature. In this context, the author proposes an innovative approach that uses ad-hoc bio-sensing system suitable to reconstruct the physio-based attentional status of the car driver. To reconstruct the car driver physiological status, the author proposed the use of a bio-sensing probe consisting of a coupled LEDs at Near infrared (NiR) spectrum with a photodetector. This probe placed over the monitored subject allows to detect a physiological signal called PhotoPlethysmoGraphy (PPG). The PPG signal formation is regulated by the change in oxygenated and non-oxygenated hemoglobin concentration in the monitored subject bloodstream which will be directly connected to cardiac activity in turn regulated by the Autonomic Nervous System (ANS) that characterizes the subject's attention level. This so designed car driver drowsiness monitoring will be combined with further driving safety assessment based on correlated intelligent driving scenario understanding. | 翻訳日:2023-04-16 22:08:08 公開日:2023-04-05 |
# マカク皮質における個体群動態の推定 Inferring Population Dynamics in Macaque Cortex ( http://arxiv.org/abs/2304.06040v1 ) ライセンス: Link先を確認 | Ganga Meghanath, Bryan Jimenez, Joseph G. Makin | (参考訳) 過去20年間の多単位皮質記録、特にマカクや運動制御タスクにおける増殖は、神経活動の時間的進化である神経の「人口動態」への関心を生んでいる。
これらのダイナミクスのよいモデルは、将来同じ集団内の観察されていないニューロンと観測されたニューロンの活動を推測できるはずである。
そのため、Pandarinath氏と同僚らは、この2つの(および関連する)基準のモデルを評価するためのベンチマークを導入した。
ここでは、リカレントニューラルネットワーク(RNN)に基づく単純で汎用的なアーキテクチャが、より多くの"bespoke"モデルより優れており、実際にベンチマークの4つのデータセットすべてで公開されたモデルよりも優れていることを示す。
トランスフォーマーネットワークのように、RNNを自己注意で強化する新しいハイブリッドアーキテクチャによって、パフォーマンスをさらに改善することができる。
しかし、純粋なトランスフォーマーモデルは、私たちの仕事でも他のグループでも、このレベルのパフォーマンスを達成できません。
我々は、RNNが課す自己回帰バイアスが最高レベルのパフォーマンスを達成するために重要であると論じる。
しかし、本報告で提案するような識別モデルよりも生成的を好む潜在力学の代替評価をベンチマークで拡張することを提案することで結論づける。 The proliferation of multi-unit cortical recordings over the last two decades, especially in macaques and during motor-control tasks, has generated interest in neural "population dynamics": the time evolution of neural activity across a group of neurons working together. A good model of these dynamics should be able to infer the activity of unobserved neurons within the same population and of the observed neurons at future times. Accordingly, Pandarinath and colleagues have introduced a benchmark to evaluate models on these two (and related) criteria: four data sets, each consisting of firing rates from a population of neurons, recorded from macaque cortex during movement-related tasks. Here we show that simple, general-purpose architectures based on recurrent neural networks (RNNs) outperform more "bespoke" models, and indeed outperform all published models on all four data sets in the benchmark. Performance can be improved further still with a novel, hybrid architecture that augments the RNN with self-attention, as in transformer networks. But pure transformer models fail to achieve this level of performance, either in our work or that of other groups. We argue that the autoregressive bias imposed by RNNs is critical for achieving the highest levels of performance. We conclude, however, by proposing that the benchmark be augmented with an alternative evaluation of latent dynamics that favors generative over discriminative models like the ones we propose in this report. | 翻訳日:2023-04-16 22:07:53 公開日:2023-04-05 |
# HumanLight: 交通信号制御における人間中心の深層強化学習によるライドシェアリングのインセンティブ HumanLight: Incentivizing Ridesharing via Human-centric Deep Reinforcement Learning in Traffic Signal Control ( http://arxiv.org/abs/2304.03697v1 ) ライセンス: Link先を確認 | Dimitris M. Vlachogiannis, Hua Wei, Scott Moura, Jane Macfarlane | (参考訳) 単一占有車両は多くの通勤者にとって最も魅力的な輸送手段であり、交通渋滞と大気汚染の増加につながっている。
情報技術の進歩は、都市における自動車のより軽いビジョンを実現するために、ライドシェアリングと、より高い占有率の車両(hov)へのモードシフトをインセンティブにするスマートソリューションの機会を生み出します。
本研究では,交差点でのスループットを最適化する分散型適応型信号制御アルゴリズムであるHumanLightを提案する。
提案するコントローラは,人間レベルでの圧力の概念を組み込んだ報酬関数を組み込んだ強化学習を基盤としている。
HOVの通勤者に1回の乗車で旅行時間節約を施すことで、HumanLightはグリーンタイムの均等な割り当てを実現している。
最先端(sota)ベースモデルであるfrapの採用とは別に、humanlightでは、アクションインターバルウィンドウ内の交差点に近い車両として、ゆるやかに定義されたアクティブカーの概念を導入している。
提案アルゴリズムは,HOV導入の様々なシナリオにおいて,マルチモーダル車両の分割を考慮した異なるネットワーク構成のヘッドルームとスケーラビリティを示す。
人事遅延や待ち行列の改善は、車両レベルのSOTAコントローラと比較して15%から55%以上である。
異なるネットワーク構造に対するRLモデルの定式化におけるアクティブカーの導入の影響を定量化する。
また、HumanLightはHOV優先順位付けの攻撃性を制御できる。
歩行者待ち時間に影響を与える非循環信号制御装置のキーコンポーネントとしてパラメータ設定が生成相プロファイルに与える影響を検討した。
HumanLightのスケーラブルで分散化された設計は、交通管理の解決をより人間中心にし、ライドシェアリングと公共交通システムにインセンティブを与えるポリシーに再形成することができる。 Single occupancy vehicles are the most attractive transportation alternative for many commuters, leading to increased traffic congestion and air pollution. Advancements in information technologies create opportunities for smart solutions that incentivize ridesharing and mode shift to higher occupancy vehicles (HOVs) to achieve the car lighter vision of cities. In this study, we present HumanLight, a novel decentralized adaptive traffic signal control algorithm designed to optimize people throughput at intersections. Our proposed controller is founded on reinforcement learning with the reward function embedding the transportation-inspired concept of pressure at the person-level. By rewarding HOV commuters with travel time savings for their efforts to merge into a single ride, HumanLight achieves equitable allocation of green times. Apart from adopting FRAP, a state-of-the-art (SOTA) base model, HumanLight introduces the concept of active vehicles, loosely defined as vehicles in proximity to the intersection within the action interval window. The proposed algorithm showcases significant headroom and scalability in different network configurations considering multimodal vehicle splits at various scenarios of HOV adoption. Improvements in person delays and queues range from 15% to over 55% compared to vehicle-level SOTA controllers. We quantify the impact of incorporating active vehicles in the formulation of our RL model for different network structures. HumanLight also enables regulation of the aggressiveness of the HOV prioritization. The impact of parameter setting on the generated phase profile is investigated as a key component of acyclic signal controllers affecting pedestrian waiting times. HumanLight's scalable, decentralized design can reshape the resolution of traffic management to be more human-centric and empower policies that incentivize ridesharing and public transit systems. | 翻訳日:2023-04-10 11:37:23 公開日:2023-04-05 |
# 等価ベイズ型ニューラルネットワークを用いた高精度不確実性認識原子間力モデリング High Accuracy Uncertainty-Aware Interatomic Force Modeling with Equivariant Bayesian Neural Networks ( http://arxiv.org/abs/2304.03694v1 ) ライセンス: Link先を確認 | Tim Rensmeyer, Benjamin Craig, Denis Kramer, Oliver Niggemann | (参考訳) ベイズ型ニューラルネットワークは、不確実性、アクティブラーニング、事前の物理知識をモデリングするための有望なフレームワークを提供するが、原子間力モデリングの文脈でそれらの応用が見つかることは少ない。
原子間力の学習における主な課題の1つは、一般的に使用されるアルゴリズムが多くの最先端アーキテクチャにおいて実用的な時間内に収束しないため、後続密度に対して適切なモンテカルロマルコフ連鎖サンプリングアルゴリズムが存在しないことである。
この課題への対応として,既存のサンプリング手法の問題を回避できるモンテカルロ・マルコフ連鎖サンプリングアルゴリズムを提案する。
さらに,nequipアーキテクチャに基づく新たな確率的ニューラルネットワークモデルを導入し,新たなサンプリングアルゴリズムと組み合わせることで,最先端の精度と不確実性の測定値を備えた予測が得られることを示す。 Even though Bayesian neural networks offer a promising framework for modeling uncertainty, active learning and incorporating prior physical knowledge, few applications of them can be found in the context of interatomic force modeling. One of the main challenges in their application to learning interatomic forces is the lack of suitable Monte Carlo Markov chain sampling algorithms for the posterior density, as the commonly used algorithms do not converge in a practical amount of time for many of the state-of-the-art architectures. As a response to this challenge, we introduce a new Monte Carlo Markov chain sampling algorithm in this paper which can circumvent the problems of the existing sampling methods. In addition, we introduce a new stochastic neural network model based on the NequIP architecture and demonstrate that, when combined with our novel sampling algorithm, we obtain predictions with state-of-the-art accuracy as well as a good measure of uncertainty. | 翻訳日:2023-04-10 11:36:42 公開日:2023-04-05 |
# atariエージェントの解釈を学ぶ Learn to Interpret Atari Agents ( http://arxiv.org/abs/1812.11276v3 ) ライセンス: Link先を確認 | Zhao Yang and Song Bai and Li Zhang and Philip H.S. Torr | (参考訳) deep reinforcement learning (deeprl)エージェントは多くのタスクで人間レベルのパフォーマンスを上回っています。
しかし、状態から行動への直接的なマッピングは、エージェントの意思決定の背後にある根拠を理解するのを難しくする。
本稿では,DeepRLのポリシーを視覚化する従来のa-posteriori法とは対照的に,本研究では,DeepRLモデルに固有の視覚化能力を持たせることを提案する。
提案するエージェントは地域感応性レインボー (RS-Rainbow) と名付けられ, 強力なQネットワークエージェントであるレインボーをベースとしたエンドツーエンドのトレーニングネットワークである。
注意モジュールを通じて入力領域の重要な領域を学習する。
推測時,各前方通過後,注目モジュールから入力フレームへの勾配を逆伝搬することにより,意思決定において最も重要な領域を可視化することができる。
提案モジュールの組み込みは,モデル解釈可能性の向上だけでなく,性能向上につながる。
atari 2600のゲームに関する広範囲な実験がrs-rainbowの有効性を実証している。 Deep reinforcement learning (DeepRL) agents surpass human-level performance in many tasks. However, the direct mapping from states to actions makes it hard to interpret the rationale behind the decision-making of the agents. In contrast to previous a-posteriori methods for visualizing DeepRL policies, in this work, we propose to equip the DeepRL model with an innate visualization ability. Our proposed agent, named region-sensitive Rainbow (RS-Rainbow), is an end-to-end trainable network based on the original Rainbow, a powerful deep Q-network agent. It learns important regions in the input domain via an attention module. At inference time, after each forward pass, we can visualize regions that are most important to decision-making by backpropagating gradients from the attention module to the input frames. The incorporation of our proposed module not only improves model interpretability, but leads to performance improvement. Extensive experiments on games from the Atari 2600 suite demonstrate the effectiveness of RS-Rainbow. | 翻訳日:2023-04-07 19:02:26 公開日:2023-04-05 |
# 高速かつ高精度:適応的な部分探索による計画水平の調整 Fast and Precise: Adjusting Planning Horizon with Adaptive Subgoal Search ( http://arxiv.org/abs/2206.00702v8 ) ライセンス: Link先を確認 | Micha{\l} Zawalski, Micha{\l} Tyrolski, Konrad Czechowski, Tomasz Odrzyg\'o\'zd\'z, Damian Stachura, Piotr Pi\k{e}kos, Yuhuai Wu, {\L}ukasz Kuci\'nski, Piotr Mi{\l}o\'s | (参考訳) 複雑な推論問題は、優れた行動計画を決定するのに必要な計算コストが異なる状態を含む。
この特性を生かして,計画の地平を適応的に調整する探索法であるadaptive subgoal search (adasubs)を提案する。
この目的のために、AdaSubSは異なる距離で多様なサブゴールの集合を生成する。
到達不能なサブゴールを迅速にフィルタリングするために検証機構が用いられ、さらなるサブゴールの実現に焦点が当てられる。
このようにしてadasubsは、より長いサブゴールを持つプランニングの効率と、より短いサブゴールでのファインコントロールの利点を享受し、難しいプランニング問題にうまくスケールできる。
adasubsは,sokoban,rubikキューブ,不等式証明ベンチマークintの3つの複雑な推論タスクにおいて,階層的計画アルゴリズムを大幅に上回っている。 Complex reasoning problems contain states that vary in the computational cost required to determine a good action plan. Taking advantage of this property, we propose Adaptive Subgoal Search (AdaSubS), a search method that adaptively adjusts the planning horizon. To this end, AdaSubS generates diverse sets of subgoals at different distances. A verification mechanism is employed to filter out unreachable subgoals swiftly, allowing to focus on feasible further subgoals. In this way, AdaSubS benefits from the efficiency of planning with longer subgoals and the fine control with the shorter ones, and thus scales well to difficult planning problems. We show that AdaSubS significantly surpasses hierarchical planning algorithms on three complex reasoning tasks: Sokoban, the Rubik's Cube, and inequality proving benchmark INT. | 翻訳日:2023-04-07 18:11:05 公開日:2023-04-05 |
# Sparse*BERT: スパースモデルが新しいタスクとドメインに一般化 Sparse*BERT: Sparse Models Generalize To New tasks and Domains ( http://arxiv.org/abs/2205.12452v3 ) ライセンス: Link先を確認 | Daniel Campos, Alexandre Marques, Tuan Nguyen, Mark Kurtz, and ChengXiang Zhai | (参考訳) 大規模言語モデルは、現代の自然言語処理(NLP)システムが構築するコアアーキテクチャとなっている。
これらのモデルは、タスクやドメイン間で印象的な精度と堅牢性を提供することができるが、高い計算オーバーヘッドによって推論が困難でコストがかかる。
これらのモデルの使用を安価にするために、最近の研究は、推論速度と縮小サイズを改善するために、構造化および非構造化プルーニング、量子化、蒸留を活用することを検討している。
本稿では,段階的非構造的マグニチュードプルーニングによるモデルプルーニングがドメインとタスク間の伝達に与える影響について検討する。
実験により,汎用ドメインマスク型言語モデルを用いた事前学習中のモデルが,超パラメータ探索や専門的なアプローチを伴わずに,新たなドメインやタスクに移行できることが確認された。
Sparse*BERTは、非構造化バイオメディカルテキスト上で圧縮されたアーキテクチャを事前学習することで、SparseBioBERTとなることを示す。
さらに,SparseBioBERTはBioBERTの品質と10倍のパラメータで一致できることを示した。 Large Language Models have become the core architecture upon which most modern natural language processing (NLP) systems build. These models can consistently deliver impressive accuracy and robustness across tasks and domains, but their high computational overhead can make inference difficult and expensive. To make using these models less costly, recent work has explored leveraging structured and unstructured pruning, quantization, and distillation to improve inference speed and decrease size. This paper studies how models pruned using Gradual Unstructured Magnitude Pruning can transfer between domains and tasks. Our experimentation shows that models that are pruned during pretraining using general domain masked language models can transfer to novel domains and tasks without extensive hyperparameter exploration or specialized approaches. We demonstrate that our general sparse model Sparse*BERT can become SparseBioBERT simply by pretraining the compressed architecture on unstructured biomedical text. Moreover, we show that SparseBioBERT can match the quality of BioBERT with only 10\% of the parameters. | 翻訳日:2023-04-07 18:10:23 公開日:2023-04-05 |
# PreF: 予測可能性の正規化ニューラルモーションフィールド PREF: Predictability Regularized Neural Motion Fields ( http://arxiv.org/abs/2209.10691v2 ) ライセンス: Link先を確認 | Liangchen Song, Xuan Gong, Benjamin Planche, Meng Zheng, David Doermann, Junsong Yuan, Terrence Chen, Ziyan Wu | (参考訳) ダイナミックなシーンで3dの動きを知ることは、多くの視覚アプリケーションにとって不可欠である。
最近の進歩は主に、人間のような特定の要素の活性を推定することに焦点を当てている。
本稿では,多視点環境における全点の動きを推定するために,神経運動場を利用する。
動的シーンからの動作をマルチビューデータでモデル化するのは,類似色点と時間変化色点のあいまいさのため困難である。
予測可能な動きを正規化することを提案する。
前のフレームからの動作が分かっている場合、近い将来の動作は予測可能であるべきである。
そこで我々は,まず遅延埋め込みに推定動作を条件付け,次に予測ネットワークを用いて埋め込みに予測可能性を適用することによって予測可能性正則化を提案する。
提案したフレームワーク PreF (Predictability Regularized Fields) は、最先端のニューラルモーション場に基づく動的シーン表現法よりも同等以上の結果が得られるが、シーンの事前の知識は不要である。 Knowing the 3D motions in a dynamic scene is essential to many vision applications. Recent progress is mainly focused on estimating the activity of some specific elements like humans. In this paper, we leverage a neural motion field for estimating the motion of all points in a multiview setting. Modeling the motion from a dynamic scene with multiview data is challenging due to the ambiguities in points of similar color and points with time-varying color. We propose to regularize the estimated motion to be predictable. If the motion from previous frames is known, then the motion in the near future should be predictable. Therefore, we introduce a predictability regularization by first conditioning the estimated motion on latent embeddings, then by adopting a predictor network to enforce predictability on the embeddings. The proposed framework PREF (Predictability REgularized Fields) achieves on par or better results than state-of-the-art neural motion field-based dynamic scene representation methods, while requiring no prior knowledge of the scene. | 翻訳日:2023-04-07 18:03:43 公開日:2023-04-05 |
# HistoPerm: 組織学的特徴表現学習を改善するための置換型ビュージェネレーションアプローチ HistoPerm: A Permutation-Based View Generation Approach for Improving Histopathologic Feature Representation Learning ( http://arxiv.org/abs/2209.06185v2 ) ライセンス: Link先を確認 | Joseph DiPalma, Lorenzo Torresani, Saeed Hassanpour | (参考訳) 深層学習はデジタル病理の組織像解析に有効である。
しかし、現在のディープラーニングアプローチの多くは、大きく、強く、あるいは弱いラベル付けされた画像と興味のある領域を必要とする。
そこで本稿では,ヒストロジー画像の表現学習を強化するジョイント埋め込みアーキテクチャを用いた表現学習のためのビュー生成手法であるhistopermを提案する。
ヒストペルムは全スリッド組織画像から抽出されたパッチのさらなるビューを置換し、分類性能を向上させる。
我々は,BYOL,SimCLR,VICRegの3つの共同埋め込み型表現学習法を用いて,Celiac病と腎細胞癌の2つの組織像データセットに対するHistoPermの有効性を検討した。
以上の結果から,HistoPermは,精度,F1スコア,AUCの点で,パッチレベルとスライドレベルの分類性能を一貫して向上させることがわかった。
具体的には、Celiac病データセットのパッチレベルの分類精度のために、HistoPermはBYOLとVICRegを8%、SimCLRを3%向上させる。
腎細胞癌データセットでは,BYOLおよびVICRegではパッチレベルの分類精度が2%,SimCLRでは1%向上した。
さらに、Celiac病データセットでは、HistoPermを用いたモデルは、BYOL、SimCLR、VICRegでそれぞれ6%、5%、2%の教師付きベースラインモデルを上回っている。
腎細胞癌データセットでは、HistoPermは、完全に教師されたベースラインと比較して、モデルの分類精度ギャップを最大10%下げる。
これらの結果は,ラベル付きデータへのアクセスが制限された場合の病理組織学的特徴の表現学習を改善する上で,ヒストペルムが有用であることを示唆している。 Deep learning has been effective for histology image analysis in digital pathology. However, many current deep learning approaches require large, strongly- or weakly-labeled images and regions of interest, which can be time-consuming and resource-intensive to obtain. To address this challenge, we present HistoPerm, a view generation method for representation learning using joint embedding architectures that enhances representation learning for histology images. HistoPerm permutes augmented views of patches extracted from whole-slide histology images to improve classification performance. We evaluated the effectiveness of HistoPerm on two histology image datasets for Celiac disease and Renal Cell Carcinoma, using three widely used joint embedding architecture-based representation learning methods: BYOL, SimCLR, and VICReg. Our results show that HistoPerm consistently improves patch- and slide-level classification performance in terms of accuracy, F1-score, and AUC. Specifically, for patch-level classification accuracy on the Celiac disease dataset, HistoPerm boosts BYOL and VICReg by 8% and SimCLR by 3%. On the Renal Cell Carcinoma dataset, patch-level classification accuracy is increased by 2% for BYOL and VICReg, and by 1% for SimCLR. In addition, on the Celiac disease dataset, models with HistoPerm outperform the fully-supervised baseline model by 6%, 5%, and 2% for BYOL, SimCLR, and VICReg, respectively. For the Renal Cell Carcinoma dataset, HistoPerm lowers the classification accuracy gap for the models up to 10% relative to the fully-supervised baseline. These findings suggest that HistoPerm can be a valuable tool for improving representation learning of histopathology features when access to labeled data is limited and can lead to whole-slide classification results that are comparable to or superior to fully-supervised methods. | 翻訳日:2023-04-07 18:02:59 公開日:2023-04-05 |
# 等角予測集合を用いたベイズ最適化 Bayesian Optimization with Conformal Prediction Sets ( http://arxiv.org/abs/2210.12496v3 ) ライセンス: Link先を確認 | Samuel Stanton, Wesley Maddox, and Andrew Gordon Wilson | (参考訳) ベイズ最適化は不確実性の下で意思決定を行うためのコヒーレントでユビキタスなアプローチであり、マルチアームバンディット、アクティブラーニング、ブラックボックス最適化などのアプリケーションがある。
ベイジアン最適化は、クエリ結果に関する再現可能でエピステマティックな不確実性を定量化するベイジアンモデルの後方分布に関する決定(すなわち、目的関数クエリ)を最大で期待できるユーティリティで選択する。
実際には、主観的に不可解な結果は2つの理由で定期的に起こりうる。
1)モデル誤特定及び
2)共変量シフト。
コンフォーマル予測は、不確実な定量化手法であり、不特定モデルであってもカバレッジを保証するとともに、共変量シフトを補正するための単純なメカニズムである。
本稿では,モデル予測の有効性が保証された探索空間の領域に対してクエリを指示する共形ベイズ最適化を提案し,ブラックボックス最適化タスクと表ランク付けタスクのスイート上でその振る舞いを検討する。
多くの場合、クエリのカバレッジはサンプル効率を損なうことなく大幅に改善できる。 Bayesian optimization is a coherent, ubiquitous approach to decision-making under uncertainty, with applications including multi-arm bandits, active learning, and black-box optimization. Bayesian optimization selects decisions (i.e. objective function queries) with maximal expected utility with respect to the posterior distribution of a Bayesian model, which quantifies reducible, epistemic uncertainty about query outcomes. In practice, subjectively implausible outcomes can occur regularly for two reasons: 1) model misspecification and 2) covariate shift. Conformal prediction is an uncertainty quantification method with coverage guarantees even for misspecified models and a simple mechanism to correct for covariate shift. We propose conformal Bayesian optimization, which directs queries towards regions of search space where the model predictions have guaranteed validity, and investigate its behavior on a suite of black-box optimization tasks and tabular ranking tasks. In many cases we find that query coverage can be significantly improved without harming sample-efficiency. | 翻訳日:2023-04-07 17:54:17 公開日:2023-04-05 |
# 大規模多言語機械翻訳における毒性 Toxicity in Multilingual Machine Translation at Scale ( http://arxiv.org/abs/2210.03070v2 ) ライセンス: Link先を確認 | Marta R. Costa-juss\`a, Eric Smith, Christophe Ropers, Daniel Licht, Jean Maillard, Javier Ferrando, Carlos Escolano | (参考訳) 機械翻訳システムは異なるタイプのエラーを発生させることができ、そのいくつかはユーザーに負の悪影響を与えるため、致命的あるいは破滅的と特徴づけられる。
本稿では,1種類の致命的エラー,すなわち毒性の付加に焦点をあてる。
大規模評価データセット(HOLISTICBIAS, 472k以上の文)を英語から164言語に翻訳する際に, 付加毒性を評価し, 解析した。
自動毒性評価は、言語間での毒性が0%から5%に変化することを示している。
最も高い毒性を持つ出力言語は低資源言語であり、最も高い毒性を持つ人口動態は、性的指向、性別、性、能力である。
また,8つの翻訳方向のサブセットについて人間による評価を行い,真に添加毒性の有意性を確認した。
我々は, 毒性の原因を解釈するために, 低ソースの寄与が幻覚を暗示する翻訳への寄与の量を測定する。
入力属性を用いることで,84%の言語で有毒性に有意な相関があるため,毒性を説明することができる。
本研究は, 誤訳を回避し, 幻覚を緩和し, 不安定な翻訳をチェックするため, 有毒度を低下させることを推奨する。 Machine Translation systems can produce different types of errors, some of which are characterized as critical or catastrophic due to the specific negative impact that they can have on users. In this paper we focus on one type of critical error: added toxicity. We evaluate and analyze added toxicity when translating a large evaluation dataset (HOLISTICBIAS, over 472k sentences, covering 13 demographic axes) from English into 164 languages. An automatic toxicity evaluation shows that added toxicity across languages varies from 0% to 5%. The output languages with the most added toxicity tend to be low-resource ones, and the demographic axes with the most added toxicity include sexual orientation, gender and sex, and ability. We also perform human evaluation on a subset of 8 translation directions, confirming the prevalence of true added toxicity. We use a measurement of the amount of source contribution to the translation, where a low source contribution implies hallucination, to interpret what causes toxicity. Making use of the input attributions allows us to explain toxicity, because the source contributions significantly correlate with toxicity for 84% of languages studied. Given our findings, our recommendations to reduce added toxicity are to curate training data to avoid mistranslations, mitigate hallucination and check unstable translations. | 翻訳日:2023-04-07 17:53:18 公開日:2023-04-05 |
# 量子極端学習マシンの可能性と限界について On the potential and limitations of quantum extreme learning machines ( http://arxiv.org/abs/2210.00780v2 ) ライセンス: Link先を確認 | Luca Innocenti, Salvatore Lorenzo, Ivan Palmisano, Alessandro Ferraro, Mauro Paternostro, Gioacchino Massimo Palma | (参考訳) 量子貯水池コンピュータ (QRC) と量子極端学習機械 (QELM) は、量子状態の性質の推定などの課題を解決するために、固定された(一般には校正されていない)量子デバイスの結果を効率的に後処理することを目的としている。
現在不足しているその可能性と制限の特性により、システム識別、デバイスパフォーマンスの最適化、状態やプロセスの再構築といった問題に対するアプローチの完全な展開が可能になる。
本稿では,QRCとQELMをモデル化するフレームワークを提案し,単一の有効測定によって簡潔に記述できることを示し,そのようなプロトコルで正確に検索可能な情報の明示的な特徴付けを提供する。
さらに、QELMのトレーニングプロセスと、そのデバイスを特徴付ける効果的な測定方法の再構築の類似点を見出した。
我々の分析は、QELMとQRCの両方の能力と限界をより深く理解する方法を示し、ノイズや不完全性に対してより耐性のある量子状態推定のための強力な測定パラダイムになる可能性がある。 Quantum reservoir computers (QRC) and quantum extreme learning machines (QELM) aim to efficiently post-process the outcome of fixed -- generally uncalibrated -- quantum devices to solve tasks such as the estimation of the properties of quantum states. The characterisation of their potential and limitations, which is currently lacking, will enable the full deployment of such approaches to problems of system identification, device performance optimization, and state or process reconstruction. We present a framework to model QRCs and QELMs, showing that they can be concisely described via single effective measurements, and provide an explicit characterisation of the information exactly retrievable with such protocols. We furthermore find a close analogy between the training process of QELMs and that of reconstructing the effective measurement characterising the given device. Our analysis paves the way to a more thorough understanding of the capabilities and limitations of both QELMs and QRCs, and has the potential to become a powerful measurement paradigm for quantum state estimation that is more resilient to noise and imperfections. | 翻訳日:2023-04-07 17:52:55 公開日:2023-04-05 |
# 機械学習分類器の可変ベース校正 Variable-Based Calibration for Machine Learning Classifiers ( http://arxiv.org/abs/2209.15154v3 ) ライセンス: Link先を確認 | Markelle Kelly and Padhraic Smyth | (参考訳) 高度な領域に機械学習分類器を配置するには、モデル予測に十分な信頼性スコアが必要となる。
本稿では,モデルのキャリブレーション特性を興味のある変数に対して特徴付ける変数ベースキャリブレーションの概念を導入し,期待キャリブレーション誤差(ece)などの従来のスコアベースメトリクスを一般化する。
特に、ECEがほぼ完全であるモデルでは、データの特徴の関数としてかなりの誤校正が得られることが判明した。
この現象を理論上,実際に複数のよく知られたデータセット上で実証し,既存の校正法の適用後も継続可能であることを示す。
この問題を軽減するため,変数ベースの校正誤差の検出,可視化,定量化のための手法を提案する。
次に,現在のスコアベース校正法の限界について検討し,潜在的な修正について検討する。
最後に,これらの知見の意義について考察し,公平性やモデル解釈可能性といった努力には,単純な集計尺度以上の校正の理解が不可欠であることを強調する。 The deployment of machine learning classifiers in high-stakes domains requires well-calibrated confidence scores for model predictions. In this paper we introduce the notion of variable-based calibration to characterize calibration properties of a model with respect to a variable of interest, generalizing traditional score-based metrics such as expected calibration error (ECE). In particular, we find that models with near-perfect ECE can exhibit significant miscalibration as a function of features of the data. We demonstrate this phenomenon both theoretically and in practice on multiple well-known datasets, and show that it can persist after the application of existing calibration methods. To mitigate this issue, we propose strategies for detection, visualization, and quantification of variable-based calibration error. We then examine the limitations of current score-based calibration methods and explore potential modifications. Finally, we discuss the implications of these findings, emphasizing that an understanding of calibration beyond simple aggregate measures is crucial for endeavors such as fairness and model interpretability. | 翻訳日:2023-04-07 17:52:36 公開日:2023-04-05 |
# ウェルログからの区間の非連続表現学習 Non-contrastive representation learning for intervals from well logs ( http://arxiv.org/abs/2209.14750v2 ) ライセンス: Link先を確認 | Alexander Marusov, Alexey Zaytsev | (参考訳) 石油・ガス産業における表現学習問題は,十分な間隔でログデータに基づく表現を提供するモデルの構築を目的としている。
以前の試みは主に監督され、間隔間の近さを推定する類似性タスクに焦点を当てていた。
教師付き(ラベル付き)データを使わずに、情報表現を構築したいのです。
可能なアプローチの1つは、自己教師付き学習(SSL)である。
教師付きパラダイムとは対照的に、データのラベルはほとんど、あるいは全く必要としない。
現在、ほとんどのSSLアプローチはコントラスト的または非コントラスト的である。
対照的な方法では、類似の(正の)オブジェクトの表現をより近くし、異なる(負の)オブジェクトを区別する。
正と負のペアの誤印が考えられるため、これらの手法は性能が劣る。
非コントラスト法はそのようなラベリングに依存しておらず、コンピュータビジョンで広く使われている。
ログデータの識別が容易な類似したオブジェクトのペアのみを使用して学習する。
私たちは、よくログするデータのための非コントラストSSLを最初に導入しました。
特にBootstrap Your Own Latent(BYOL)とBarlow Twinsメソッドを利用して、負のペアの使用を回避し、正のペアにのみフォーカスする。
これらの方法の重要な部分は強化戦略である。
BYOLとBarlow Twinsの強化戦略と適応により、クラスタ化における優れた品質と、主に異なる分類タスクにおける最高のパフォーマンスを実現できます。
提案する非矛盾的自己教師付きアプローチが,特に表現学習と区間類似性に有用であることを示す。 The representation learning problem in the oil & gas industry aims to construct a model that provides a representation based on logging data for a well interval. Previous attempts are mainly supervised and focus on similarity task, which estimates closeness between intervals. We desire to build informative representations without using supervised (labelled) data. One of the possible approaches is self-supervised learning (SSL). In contrast to the supervised paradigm, this one requires little or no labels for the data. Nowadays, most SSL approaches are either contrastive or non-contrastive. Contrastive methods make representations of similar (positive) objects closer and distancing different (negative) ones. Due to possible wrong marking of positive and negative pairs, these methods can provide an inferior performance. Non-contrastive methods don't rely on such labelling and are widespread in computer vision. They learn using only pairs of similar objects that are easier to identify in logging data. We are the first to introduce non-contrastive SSL for well-logging data. In particular, we exploit Bootstrap Your Own Latent (BYOL) and Barlow Twins methods that avoid using negative pairs and focus only on matching positive pairs. The crucial part of these methods is an augmentation strategy. Our augmentation strategies and adaption of BYOL and Barlow Twins together allow us to achieve superior quality on clusterization and mostly the best performance on different classification tasks. Our results prove the usefulness of the proposed non-contrastive self-supervised approaches for representation learning and interval similarity in particular. | 翻訳日:2023-04-07 17:52:19 公開日:2023-04-05 |
# 離散可変符号化論理量子ビットによる破れ点のビーティング Beating the break-even point with a discrete-variable-encoded logical qubit ( http://arxiv.org/abs/2211.09319v2 ) ライセンス: Link先を確認 | Zhongchu Ni, Sai Li, Xiaowei Deng, Yanyan Cai, Libo Zhang, Weiting Wang, Zhen-Biao Yang, Haifeng Yu, Fei Yan, Song Liu, Chang-Ling Zou, Luyan Sun, Shi-Biao Zheng, Yuan Xu, Dapeng Yu | (参考訳) qec(quantum error correction)は、大きなヒルベルト空間の冗長性を利用して、論理量子ビットをノイズから保護することを目的としている。
ほとんどのQEC符号では、論理量子ビットはいくつかの離散変数(例えば光子数)で符号化される。
このような符号化方式は符号語を直交させ、符号化された量子情報は処理後に曖昧に抽出できる。
このような離散変数エンコーディングに基づいて、繰り返しqecのデモンストレーションが様々なプラットフォームで報告されているが、エンコードされた論理量子ビットの寿命は、システム全体で利用可能な最良の物理量子ビットよりもまだ短い。
ここでは、マイクロ波共振器の光子数状態で符号化された論理量子ビットを、アンシラ超伝導量子ビットに分散結合したqec手順を示す。
アンシラに調整周波数コムを特徴とするパルスを印加することにより、高い忠実度で繰り返しエラーシンドロームを抽出し、フィードバック制御によりエラー訂正を行うことができ、これにより破断点を約16%延長することができる。
我々の研究は、ハードウェア効率の良い離散変数QEC符号の信頼性のある量子情報プロセッサへの可能性を示す。 Quantum error correction (QEC) aims to protect logical qubits from noises by utilizing the redundancy of a large Hilbert space, where an error, once it occurs, can be detected and corrected in real time. In most QEC codes, a logical qubit is encoded in some discrete variables, e.g., photon numbers. Such encoding schemes make the codewords orthogonal, so that the encoded quantum information can be unambiguously extracted after processing. Based on such discrete-variable encodings, repetitive QEC demonstrations have been reported on various platforms, but there the lifetime of the encoded logical qubit is still shorter than that of the best available physical qubit in the entire system, which represents a break-even point that needs to be surpassed for any QEC code to be of practical use. Here we demonstrate a QEC procedure with a logical qubit encoded in photon-number states of a microwave cavity, dispersively coupled to an ancilla superconducting qubit. By applying a pulse featuring a tailored frequency comb to the ancilla, we can repetitively extract the error syndrome with high fidelity and perform error correction with feedback control accordingly, thereby exceeding the break-even point by about 16% lifetime enhancement. Our work illustrates the potential of the hardware-efficient discrete-variable QEC codes towards a reliable quantum information processor. | 翻訳日:2023-04-07 17:44:08 公開日:2023-04-05 |
# 量を超えるデータ品質: プロセス分析のための落とし穴とガイドライン Data Quality Over Quantity: Pitfalls and Guidelines for Process Analytics ( http://arxiv.org/abs/2211.06440v2 ) ライセンス: Link先を確認 | Lim C. Siang, Shams Elnawawi, Lee D. Rippon, Daniel L. O'Connor and R. Bhushan Gopaluni | (参考訳) 高度なプロセス制御、プロセス分析、マシンラーニングに関わる作業の大部分は、データの取得と準備に関するものだ。
文学は、インクリメンタルなパフォーマンス改善を伴う、ますます複雑なモデリング技術を強調している。
しかし、産業ケーススタディが発行されると、しばしばデータ取得と準備に関する重要な詳細が欠落する。
データ前処理は不公平に自明で技術的に興味をそそらないものだが、実際には現実世界の人工知能アプリケーションの成功に大きな影響を与えている。
本研究は,産業プロセスにおけるデータ駆動モデリングと制御機会を追求するための運用データの獲得と準備のためのベストプラクティスについて述べる。
本稿では,産業時系列データの事前処理に関する実践的考察を行い,重要なプロセスインサイトを提供する信頼性の高いソフトセンサの開発について報告する。 A significant portion of the effort involved in advanced process control, process analytics, and machine learning involves acquiring and preparing data. Literature often emphasizes increasingly complex modelling techniques with incremental performance improvements. However, when industrial case studies are published they often lack important details on data acquisition and preparation. Although data pre-processing is unfairly maligned as trivial and technically uninteresting, in practice it has an out-sized influence on the success of real-world artificial intelligence applications. This work describes best practices for acquiring and preparing operating data to pursue data-driven modelling and control opportunities in industrial processes. We present practical considerations for pre-processing industrial time series data to inform the efficient development of reliable soft sensors that provide valuable process insights. | 翻訳日:2023-04-07 17:43:45 公開日:2023-04-05 |
# Delay Embedded Echo-State Network: 部分観測システムの予測器 Delay Embedded Echo-State Network: A Predictor for Partially Observed Systems ( http://arxiv.org/abs/2211.05992v2 ) ライセンス: Link先を確認 | Debdipta Goswami | (参考訳) 本稿では,リカレントニューラルネットワークを用いた部分観測システムのデータ駆動予測の問題について考察する。
ニューラルネットワークベースの動的予測器はフルステートトレーニングデータでうまく機能するが、トレーニングフェーズにおける部分的観測による予測は大きな課題となる。
ここでは、エコー状態ネットワーク(ESN)と部分観測状態の時間遅延埋め込みを用いて部分観測の予測器を開発する。
提案手法は,Takenの埋め込み定理と非線形系の強い可観測性によって理論的に正当化される。
提案手法の有効性は,カオス力学系からの2つの合成データセットと,リアルタイムトラヒックデータからなる3つのシステムで実証された。 This paper considers the problem of data-driven prediction of partially observed systems using a recurrent neural network. While neural network based dynamic predictors perform well with full-state training data, prediction with partial observation during training phase poses a significant challenge. Here a predictor for partial observations is developed using an echo-state network (ESN) and time delay embedding of the partially observed state. The proposed method is theoretically justified with Taken's embedding theorem and strong observability of a nonlinear system. The efficacy of the proposed method is demonstrated on three systems: two synthetic datasets from chaotic dynamical systems and a set of real-time traffic data. | 翻訳日:2023-04-07 17:43:33 公開日:2023-04-05 |
# 量子アニール時間における下界 Lower Bounds on Quantum Annealing Times ( http://arxiv.org/abs/2210.15687v3 ) ライセンス: Link先を確認 | Luis Pedro Garc\'ia-Pintos, Lucas T. Brady, Jacob Bringewatt, Yi-Kai Liu | (参考訳) 断熱定理は、目標基底状態を作成するのに必要な時間に対する十分な条件を与える。
より一般的な量子アニールプロトコルでターゲット状態を作ることができるが、断熱的な状態を超えた厳密な結果は稀である。
ここでは、量子アニールを成功させるのに必要な時間における低い境界を導出する。
境界は、ローランドとサーフの非構造探索モデル、ハミングのスパイク問題、強磁性のpスピンモデルという3つのおもちゃモデルによって漸近的に飽和している。
私たちの限界は、これらのスケジュールが最適なスケーリングを持つことを示しています。
また, 高速アニールにはエネルギー固有状態のコヒーレントな重ね合わせが必要であり, 量子コヒーレンスを計算資源として活用することが示唆された。 The adiabatic theorem provides sufficient conditions for the time needed to prepare a target ground state. While it is possible to prepare a target state much faster with more general quantum annealing protocols, rigorous results beyond the adiabatic regime are rare. Here, we provide such a result, deriving lower bounds on the time needed to successfully perform quantum annealing. The bounds are asymptotically saturated by three toy models where fast annealing schedules are known: the Roland and Cerf unstructured search model, the Hamming spike problem, and the ferromagnetic p-spin model. Our bounds demonstrate that these schedules have optimal scaling. Our results also show that rapid annealing requires coherent superpositions of energy eigenstates, singling out quantum coherence as a computational resource. | 翻訳日:2023-04-07 17:42:10 公開日:2023-04-05 |
# 教えるべきことを教える: データに基づく蒸留法 Teaching What You Should Teach: A Data-Based Distillation Method ( http://arxiv.org/abs/2212.05422v4 ) ライセンス: Link先を確認 | Shitong Shao and Huanran Chen and Zhen Huang and Linrui Gong and Shuai Wang and Xinxiao Wu | (参考訳) 実教育のシナリオでは、優秀な教師は常に自分が得意とするものを教えるが、生徒はそうではない。
これにより、生徒は自分の(または彼女の)弱点を補い、全体として良い人になるための最善の助けとなる。
そこで本研究では,知識蒸留の枠組みに「教育」戦略を導入するとともに,より効率的かつ合理的な蒸留を支援するために,望ましい増設試料を探索する「TST」というデータベースの蒸留手法を提案する。
具体的には,教師の強みを満たしているものの,生徒の弱みを見出すのに役立つ,事前バイアスを持つニューラルネットワークベースのデータ拡張モジュールを,大きさと確率を学習して適切なデータサンプルを生成する。
データ拡張モジュールと一般化蒸留パラダイムを訓練することにより、学生モデルが優れた一般化能力で学習される。
提案手法の有効性を検証するため,物体認識,検出,セグメンテーションタスクに関する広範な比較実験を行った。
CIFAR-10, ImageNet-1k, MS-COCO, Cityscapesのデータセットで得られた結果から, ほぼすべての教師と生徒のペアに対して, 最先端のパフォーマンスを実現することができた。
さらに,蒸留プロセスにおいてどのような大きさと確率が必要かを検討するために可視化研究を行う。 In real teaching scenarios, an excellent teacher always teaches what he (or she) is good at but the student is not. This gives the student the best assistance in making up for his (or her) weaknesses and becoming a good one overall. Enlightened by this, we introduce the "Teaching what you Should Teach" strategy into a knowledge distillation framework, and propose a data-based distillation method named "TST" that searches for desirable augmented samples to assist in distilling more efficiently and rationally. To be specific, we design a neural network-based data augmentation module with priori bias, which assists in finding what meets the teacher's strengths but the student's weaknesses, by learning magnitudes and probabilities to generate suitable data samples. By training the data augmentation module and the generalized distillation paradigm in turn, a student model is learned with excellent generalization ability. To verify the effectiveness of our method, we conducted extensive comparative experiments on object recognition, detection, and segmentation tasks. The results on the CIFAR-10, ImageNet-1k, MS-COCO, and Cityscapes datasets demonstrate that our method achieves state-of-the-art performance on almost all teacher-student pairs. Furthermore, we conduct visualization studies to explore what magnitudes and probabilities are needed for the distillation process. | 翻訳日:2023-04-07 17:35:38 公開日:2023-04-05 |
# 教示事項:視覚トランスフォーマーにおける監督の役割の検討 Teaching Matters: Investigating the Role of Supervision in Vision Transformers ( http://arxiv.org/abs/2212.03862v2 ) ライセンス: Link先を確認 | Matthew Walmer, Saksham Suri, Kamal Gupta, Abhinav Shrivastava | (参考訳) ビジョントランスフォーマー(ViT)は近年大きな人気を集め、多くのアプリケーションに普及している。
しかし、異なる学習パラダイムの下での行動はよく研究されていない。
我々は、異なる監督方法によって訓練されたViTを比較し、彼らの注意、表現、下流のパフォーマンスの観点から様々な行動を学ぶことを示す。
また、オフセットローカルアテンションヘッドの出現など、監督の面で一貫性のあるViT動作も発見する。
これらは、現在のトークンに隣接するトークンに固定された方向オフセットで出席するセルフアテンションヘッドである。
分析の結果,vitは高度に柔軟であり,訓練方法によって異なる順序で局所的およびグローバル的な情報を処理できることがわかった。
対照的な自己監督手法は、明示的な教師付き機能と競合する特徴を学習し、パートレベルのタスクに勝るものさえある。
また、再構成に基づくモデルの表現は、対照的な自己教師付きモデルと非自明な類似性を示す。
プロジェクトのWebサイト(https://www.cs.umd.edu/~sakshams/vit_analysis)とコード(https://www.github.com/mwalmer-umd/vit_analysis)が公開されている。 Vision Transformers (ViTs) have gained significant popularity in recent years and have proliferated into many applications. However, their behavior under different learning paradigms is not well explored. We compare ViTs trained through different methods of supervision, and show that they learn a diverse range of behaviors in terms of their attention, representations, and downstream performance. We also discover ViT behaviors that are consistent across supervision, including the emergence of Offset Local Attention Heads. These are self-attention heads that attend to a token adjacent to the current token with a fixed directional offset, a phenomenon that to the best of our knowledge has not been highlighted in any prior work. Our analysis shows that ViTs are highly flexible and learn to process local and global information in different orders depending on their training method. We find that contrastive self-supervised methods learn features that are competitive with explicitly supervised features, and they can even be superior for part-level tasks. We also find that the representations of reconstruction-based models show non-trivial similarity to contrastive self-supervised models. Project website (https://www.cs.umd.edu/~sakshams/vit_analysis) and code (https://www.github.com/mwalmer-umd/vit_analysis) are publicly available. | 翻訳日:2023-04-07 17:34:56 公開日:2023-04-05 |
# web階層を超えて:地理的に多様な画像データセットをクラウドソーシング Beyond web-scraping: Crowd-sourcing a geographically diverse image dataset ( http://arxiv.org/abs/2301.02560v2 ) ライセンス: Link先を確認 | Vikram V. Ramaswamy, Sing Yu Lin, Dora Zhao, Aaron B. Adcock, Laurens van der Maaten, Deepti Ghadiyaram, Olga Russakovsky | (参考訳) 現在のデータセット収集メソッドは、通常、webから大量のデータをスクレイピングする。
この手法は非常にスケーラブルであるが、この方法で収集されたデータは、ステレオタイプバイアスを強化し、個人が特定可能な情報を含むことができ、典型的にはヨーロッパと北アメリカに由来する。
本研究は,データセット収集のパラダイムを再考し,クラウドソーシングを通じて収集した,40のクラスと6つの世界領域の61,940の画像からなる地理的に多様なデータセットであるGeoDEを紹介する。
我々はGeoDEを分析し、Webスクラッピングと比較して、このような方法で収集された画像の違いを理解する。
このデータセットのサイズは小さいが、評価データセットとトレーニングデータセットの両方としての使用、現在のモデルの欠点の強調、そしてトレーニングデータセットに少量のジオデ(1リージョンあたり1000~2000画像)を追加してもパフォーマンスが向上することを示す。
完全なデータセットとコードはhttps://geodiverse-data-collection.cs.princeton.edu/でリリースします。 Current dataset collection methods typically scrape large amounts of data from the web. While this technique is extremely scalable, data collected in this way tends to reinforce stereotypical biases, can contain personally identifiable information, and typically originates from Europe and North America. In this work, we rethink the dataset collection paradigm and introduce GeoDE, a geographically diverse dataset with 61,940 images from 40 classes and 6 world regions, and no personally identifiable information, collected through crowd-sourcing. We analyse GeoDE to understand differences in images collected in this manner compared to web-scraping. Despite the smaller size of this dataset, we demonstrate its use as both an evaluation and training dataset, highlight shortcomings in current models, as well as show improved performances when even small amounts of GeoDE (1000 - 2000 images per region) are added to a training dataset. We release the full dataset and code at https://geodiverse-data-collection.cs.princeton.edu/ | 翻訳日:2023-04-07 17:26:54 公開日:2023-04-05 |
# Taylor Remainderシリーズの自動バウンド:タイターバウンドと新しい応用 Automatically Bounding the Taylor Remainder Series: Tighter Bounds and New Applications ( http://arxiv.org/abs/2212.11429v2 ) ライセンス: Link先を確認 | Matthew Streeter and Joshua V. Dillon | (参考訳) テイラー剰余級数を自動的に有界化する新しいアルゴリズムを提案する。
スカラー関数 $f: \mathbb{R} \to \mathbb{R}$ の特別な場合、我々のアルゴリズムは基準点 $x_0$, Trust region $[a, b]$, and integer $k \ge 1$ を入力とし、$f(x)\sum_{i=0}^{k-1} \frac {1} {i!
f^{(i)}(x_0) (x - x_0)^i \in i (x - x_0)^k$ すべての$x \in [a, b]$。
自動微分と同様に、関数 $f$ はシンボリックな形でアルゴリズムに提供され、既知の原子関数で構成されなければならない。
高いレベルでは、我々のアルゴリズムには2つのステップがある。
まず、様々な一般的な初等函数(例えば、$\exp$、$\log$)に対して、テイラー剰余級数上の鋭い多項式の上限と下限を導出する。
次に、テイラーモード自動微分のインターバル算術変種を用いて基本関数の有界を再帰的に結合する。
我々のアルゴリズムは機械学習ハードウェアアクセラレータを効率的に利用することができ、JAXでオープンソース実装を提供する。
そして、アプリケーションに注意を向けます。
最も注目すべきは、我々の新しい機械を用いて、最初の普遍的偏極最小化最適化アルゴリズムを作成することである:手ではなく自動で導出される行列化器を用いて任意の損失を反復的に最小化するアルゴリズム。
機械学習に適用すると、ハイパーパラメータチューニングなしで任意の出発点から収束するディープネットワークをトレーニングするためのアーキテクチャ固有の最適化が実現する。
実験の結果,いくつかの最適化問題に対して,これらのハイパーパラメータフリーオプティマイザは勾配降下,Adam,AdaGradの調整版よりも優れていた。
また,全球最適化と数値積分を検証し,jensenの不等式をより鋭いバージョンで証明できることを示す。 We present a new algorithm for automatically bounding the Taylor remainder series. In the special case of a scalar function $f: \mathbb{R} \to \mathbb{R}$, our algorithm takes as input a reference point $x_0$, trust region $[a, b]$, and integer $k \ge 1$, and returns an interval $I$ such that $f(x) - \sum_{i=0}^{k-1} \frac {1} {i!} f^{(i)}(x_0) (x - x_0)^i \in I (x - x_0)^k$ for all $x \in [a, b]$. As in automatic differentiation, the function $f$ is provided to the algorithm in symbolic form, and must be composed of known atomic functions. At a high level, our algorithm has two steps. First, for a variety of commonly-used elementary functions (e.g., $\exp$, $\log$), we derive sharp polynomial upper and lower bounds on the Taylor remainder series. We then recursively combine the bounds for the elementary functions using an interval arithmetic variant of Taylor-mode automatic differentiation. Our algorithm can make efficient use of machine learning hardware accelerators, and we provide an open source implementation in JAX. We then turn our attention to applications. Most notably, we use our new machinery to create the first universal majorization-minimization optimization algorithms: algorithms that iteratively minimize an arbitrary loss using a majorizer that is derived automatically, rather than by hand. Applied to machine learning, this leads to architecture-specific optimizers for training deep networks that converge from any starting point, without hyperparameter tuning. Our experiments show that for some optimization problems, these hyperparameter-free optimizers outperform tuned versions of gradient descent, Adam, and AdaGrad. We also show that our automatically-derived bounds can be used for verified global optimization and numerical integration, and to prove sharper versions of Jensen's inequality. | 翻訳日:2023-04-07 17:24:40 公開日:2023-04-05 |
# 言語モデルの重み付けによるデータレス知識融合 Dataless Knowledge Fusion by Merging Weights of Language Models ( http://arxiv.org/abs/2212.09849v2 ) ライセンス: Link先を確認 | Xisen Jin, Xiang Ren, Daniel Preotiuc-Pietro, Pengxiang Cheng | (参考訳) 微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
多くの場合、微調整されたモデルは簡単に利用できるが、データのプライバシーや知的財産の懸念からトレーニングデータは利用できない。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
本稿では、異なるトレーニングデータセット上に構築された個別モデルをマージして、すべてのデータセットドメインでよく機能し、ドメイン外のデータで一般化できる単一モデルを得るという課題について考察する。
本稿では,モデルと各モデルとの予測差を最小化する重み付けにより,パラメータ空間でモデルをマージするデータレス知識融合手法を提案する。
評価設定のバッテリ上では,提案手法がフィッシャー重み付け平均化やモデルアンサンブルなどのベースラインを著しく上回ることを示す。
さらに,本手法は,学習データにアクセスせずに個々のモデルを保存・改善できるマルチタスク学習に代わる有望な方法であることがわかった。
最後に、モデルマージはマルチタスクモデルのトレーニングよりも効率的であるため、より広範なシナリオに適用できる。 Fine-tuning pre-trained language models has become the prevalent paradigm for building downstream NLP models. Oftentimes fine-tuned models are readily available but their training data is not, due to data privacy or intellectual property concerns. This creates a barrier to fusing knowledge across individual models to yield a better single model. In this paper, we study the problem of merging individual models built on different training data sets to obtain a single model that performs well both across all data set domains and can generalize on out-of-domain data. We propose a dataless knowledge fusion method that merges models in their parameter space, guided by weights that minimize prediction differences between the merged model and the individual models. Over a battery of evaluation settings, we show that the proposed method significantly outperforms baselines such as Fisher-weighted averaging or model ensembling. Further, we find that our method is a promising alternative to multi-task learning that can preserve or sometimes improve over the individual models without access to the training data. Finally, model merging is more efficient than training a multi-task model, thus making it applicable to a wider set of scenarios. | 翻訳日:2023-04-07 17:23:45 公開日:2023-04-05 |
# a golden age:共謀説と偽情報、ニュースメディア、そしてより広いインターネットの関係 A Golden Age: Conspiracy Theories' Relationship with Misinformation Outlets, News Media, and the Wider Internet ( http://arxiv.org/abs/2301.10880v2 ) ライセンス: Link先を確認 | Hans W. A. Hanley, Deepak Kumar, Zakir Durumeric | (参考訳) 我々は「陰謀論の黄金時代」に生きているのか?
過去数十年間、陰謀説はインターネット上で広まり、現実世界では危険な結果をもたらしている。
1月6日の米国議会議事堂攻撃に参加した人々の多くは、QAnon陰謀説に熱心に信じていた。
本研究では,5つの有名な陰謀論(QAnon, COVID, UFO/Aliens, 9-11, Flat-Earth)と,それぞれのメディアとの関係について検討する。
5つの陰謀論を専門とする755の異なる陰謀論のウェブサイトを同定し公開し、それぞれのセットがしばしば同じ外部ドメインにハイパーリンクし、COVID-19とQAnonの陰謀論のウェブサイトは最大の共有接続数であることがわかった。
ニュースメディアの役割を見てみると、私たちの陰謀論ウェブサイトに誤情報ハイパーリンクを広めることで知られるメディアは、主流のウェブサイトよりも頻繁に存在するだけでなく、2018年から2021年にかけて、QAnonの出現と新型コロナウイルスのパンデミックの始まりによって、このハイパーリンクが劇的に増加したことが分かる。
誤報サイトからのハイパーリンクと陰謀論Webサイトの人気との間には,いくつかの肯定的な相関関係が発見され,誤報ニュースメディアが陰謀論の普及に果たす重要な役割が示唆された。 Do we live in a "Golden Age of Conspiracy Theories?" In the last few decades, conspiracy theories have proliferated on the Internet with some having dangerous real-world consequences. A large contingent of those who participated in the January 6th attack on the US Capitol believed fervently in the QAnon conspiracy theory. In this work, we study the relationships amongst five prominent conspiracy theories (QAnon, COVID, UFO/Aliens, 9-11, and Flat-Earth) and each of their respective relationships to the news media, both mainstream and fringe. Identifying and publishing a set of 755 different conspiracy theory websites dedicated to our five conspiracy theories, we find that each set often hyperlinks to the same external domains, with COVID and QAnon conspiracy theory websites largest amount of shared connections. Examining the role of news media, we further find that not only do outlets known for spreading misinformation hyperlink to our set of conspiracy theory websites more often than mainstream websites but this hyperlinking has increased dramatically between 2018 and 2021, with the advent of QAnon and the start of COVID-19 pandemic. Using partial Granger-causality, we uncover several positive correlative relationships between the hyperlinks from misinformation websites and the popularity of conspiracy theory websites, suggesting the prominent role that misinformation news outlets play in popularizing many conspiracy theories. | 翻訳日:2023-04-07 17:17:05 公開日:2023-04-05 |
# サーロゲートモデリングによる効率的な活性化関数最適化 Efficient Activation Function Optimization through Surrogate Modeling ( http://arxiv.org/abs/2301.05785v3 ) ライセンス: Link先を確認 | Garrett Bingham and Risto Miikkulainen | (参考訳) 慎重に設計されたアクティベーション機能は、多くの機械学習タスクにおけるニューラルネットワークのパフォーマンスを改善することができる。
しかし、人間が最適な活性化関数を構築することは困難であり、現在の活性化関数探索アルゴリズムは極めて高価である。
本研究の目的は, コンボリューション, 残留, 視覚トランスフォーマーの訓練により, act-bench-cnn, act-bench-resnet, act-bench-vitのベンチマークデータセットを2,913個の系統的生成アクティベーション関数を用いてスクラッチから作成することである。
第2に,ベンチマーク空間のキャラクタリゼーションが開発され,新たなサロゲートに基づく最適化手法が開発された。
より具体的には、初期化時のモデルの予測分布と活性化関数の出力分布に関連するフィッシャー情報行列のスペクトルは、高い性能予測値であることが判明した。
第3に、surrogateはcifar-100とimagenetタスクのアクティベーション機能を改善するために使用された。
これらのステップはいずれもそれ自体が貢献しており、アクティベーション関数の最適化に関するさらなる研究のための実践的で理論的な基礎となっている。
コードはhttps://github.com/cognizant-ai-labs/aquasurfで利用可能であり、ベンチマークデータセットはhttps://github.com/cognizant-ai-labs/act-benchにある。 Carefully designed activation functions can improve the performance of neural networks in many machine learning tasks. However, it is difficult for humans to construct optimal activation functions, and current activation function search algorithms are prohibitively expensive. This paper aims to improve the state of the art through three steps: First, the benchmark datasets Act-Bench-CNN, Act-Bench-ResNet, and Act-Bench-ViT were created by training convolutional, residual, and vision transformer architectures from scratch with 2,913 systematically generated activation functions. Second, a characterization of the benchmark space was developed, leading to a new surrogate-based method for optimization. More specifically, the spectrum of the Fisher information matrix associated with the model's predictive distribution at initialization and the activation function's output distribution were found to be highly predictive of performance. Third, the surrogate was used to discover improved activation functions in CIFAR-100 and ImageNet tasks. Each of these steps is a contribution in its own right; together they serve as a practical and theoretical foundation for further research on activation function optimization. Code is available at https://github.com/cognizant-ai-labs/aquasurf, and the benchmark datasets are at https://github.com/cognizant-ai-labs/act-bench. | 翻訳日:2023-04-07 17:15:40 公開日:2023-04-05 |
# 三方向決定に基づく臨床主観的アプローチによる精神障害の分類 Classifying Mental-Disorders through Clinicians Subjective Approach based on Three-way Decision ( http://arxiv.org/abs/2301.03351v3 ) ライセンス: Link先を確認 | Md Sakib Ullah Sourav, Huidong Wang, Mengdi Yang, Jiaping Zhang | (参考訳) 精神疾患診断において、現代のデータ駆動型手動による精神障害分類法は最も一般的な手法であるが、いくつかの必然的な欠陥がある。
3方向決定を枠組みとして, 定量的分析, 定量的解析, 評価に基づく分析の3つの部分からなる, 臨床医の主観的アプローチ(CSA)分析のための統一モデルを提案する。
臨床医の最大の想定値に応じた病気の程度に基づくランキングリストと数値の重み付けのセットは、質的かつ定量的な調査の結果である。
さらに, 疾患の分類を3つのグループに分類し, 評価に基づく3段階のモデルを用いて, より明確な方法による疾患の理解と表現を図っている。
提案手法は,精神疾患の診断における精度向上のための補完的ツールとして,マニュアルベースプロセスと統合される可能性がある。 In psychiatric diagnosis, a contemporary data-driven, manual-based method for mental disorders classification is the most popular technique; however, it has several inevitable flaws. Using the three-way decision as a framework, we propose a unified model that stands for clinicians' subjective approach (CSA) analysis consisting of three parts: quantitative analysis, quantitative analysis, and evaluation-based analysis. A ranking list and a set of numerical weights based on illness magnitude levels according to the clinician's greatest degree of assumptions are the findings of the qualitative and quantitative investigation. We further create a comparative classification of illnesses into three groups with varying important levels; a three-way evaluation-based model is utilized in this study for the aim of understanding and portraying these results in a more clear way. This proposed method might be integrated with the manual-based process as a complementary tool to improve precision while diagnosing mental disorders | 翻訳日:2023-04-07 17:14:40 公開日:2023-04-05 |
# 六方晶窒化ホウ素のスピン欠陥による量子センシングとイメージング Quantum sensing and imaging with spin defects in hexagonal boron nitride ( http://arxiv.org/abs/2302.11169v2 ) ライセンス: Link先を確認 | Sumukh Vaidya, Xingyu Gao, Saakshi Dikshit, Igor Aharonovich, Tongcang Li | (参考訳) 六方晶窒化ホウ素(hbn)のカラーセンターは、量子応用の新しい波の候補として最近登場した。
hBNの高安定性と2次元(2次元)層構造のおかげで、hBNのカラーセンターは、チップ上のナノフォトニック構造やプラズモン構造に容易に統合できる堅牢な量子エミッタとして機能する。
さらに重要なことに、hBNで最近発見された光学的に対応可能なスピン欠陥は、量子センシング応用のための光子と電子スピンの間の量子インターフェースを提供する。
最もよく研究されているhBNスピン欠陥(負電荷のホウ素空孔(V_B^-$)スピン欠陥)は、静磁場、磁気ノイズ、温度、ひずみ、核スピン、液体中の常磁性スピン、RF信号などの量子センシングに用いられている。
特に、スピン欠陥を持つhbnナノシートは、2d磁気や他の材料によるファンデルワールス(vdw)ヘテロ構造を形成し、in situ量子センシングやイメージングを行うことができる。
このレビューは、hbnにスピン欠陥を持つナノスケールおよびマイクロスケール量子センシングの急速に発展する分野を要約する。
我々は、hBNスピン欠陥の基礎的性質、量子センシングプロトコル、およびhBNスピン欠陥を用いた量子センシングとイメージングの最近の実験的実証を紹介する。
また、感度を高める方法についても論じる。
最後に、hBNスピン欠陥の潜在的な発展と応用を想定する。 Color centers in hexagonal boron nitride (hBN) have recently emerged as promising candidates for a new wave of quantum applications. Thanks to hBN's high stability and 2-dimensional (2D) layered structure, color centers in hBN can serve as robust quantum emitters that can be readily integrated into nanophotonic and plasmonic structures on a chip. More importantly, the recently discovered optically addressable spin defects in hBN provide a quantum interface between photons and electron spins for quantum sensing applications. The most well-studied hBN spin defects, the negatively charged boron vacancy ($V_B^-$) spin defects, have been used for quantum sensing of static magnetic fields, magnetic noise, temperature, strain, nuclear spins, paramagnetic spins in liquids, RF signals, and beyond. In particular, hBN nanosheets with spin defects can form van der Waals (vdW) heterostructures with 2D magnetic or other materials for in situ quantum sensing and imaging. This review summarizes the rapidly evolving field of nanoscale and microscale quantum sensing with spin defects in hBN. We introduce basic properties of hBN spin defects, quantum sensing protocols, and recent experimental demonstrations of quantum sensing and imaging with hBN spin defects. We also discuss methods to enhance their sensitivity. Finally, we envision some potential developments and applications of hBN spin defects. | 翻訳日:2023-04-07 17:07:46 公開日:2023-04-05 |
# データメッシュ: モチベーション要因,課題,ベストプラクティス Data Mesh: Motivational Factors, Challenges, and Best Practices ( http://arxiv.org/abs/2302.01713v2 ) ライセンス: Link先を確認 | Jan Bode, Niklas K\"uhl, Dominik Kreuzberger, Sebastian Hirschl, Carsten Holtmann | (参考訳) データと人工知能の重要性が高まり、組織はデータ駆動型になることを目指している。
しかし、現在のデータアーキテクチャは必ずしもデータとアナリティクスのユースケースの規模と範囲に対応するように設計されているわけではない。
実際、既存のアーキテクチャは、しばしばそれらに関連する約束された価値を提供できない。
データメッシュは、データの民主化を促進し、組織を真にデータ駆動にするためのアーキテクチャ的な側面を含む、社会技術的概念である。
データメッシュの概念はまだ新しいので、現場からの経験的な洞察が欠けている。
具体的には、データメッシュ導入の動機付け要因、関連する課題、ベストプラクティス、ビジネスへの影響、潜在的アーチタイプを理解することが欠けている。
このギャップに対処するため、業界の専門家との15の半構造化インタビューを実施します。
我々の結果は、業界の専門家が、データメッシュの概念、データ製品の開発、プロビジョニング、保守に対する責任のシフト、データ製品モデルの概念に関連するフェデレーションガバナンスへの移行に苦慮していることを示している。
当社の作業では、複数のベストプラクティスを導き、データファブリックの要素を取り入れ、データ製品の使用を観察し、初期段階で素早く成果を上げ、データプロダクトを優先する小さな専用チームを好むことを推奨しています。
組織は個々のニーズに応じてベストプラクティスを適用する必要があることは認めていますが、より詳細な提案を提供する2つのアーチタイプも提案しています。
我々の研究は、業界の専門家による洞察を合成し、データメッシュの採用を成功させるためのガイドラインを研究者や専門家に提供する。 With the increasing importance of data and artificial intelligence, organizations strive to become more data-driven. However, current data architectures are not necessarily designed to keep up with the scale and scope of data and analytics use cases. In fact, existing architectures often fail to deliver the promised value associated with them. Data mesh is a socio-technical concept that includes architectural aspects to promote data democratization and enables organizations to become truly data-driven. As the concept of data mesh is still novel, it lacks empirical insights from the field. Specifically, an understanding of the motivational factors for introducing data mesh, the associated challenges, best practices, its business impact, and potential archetypes, is missing. To address this gap, we conduct 15 semi-structured interviews with industry experts. Our results show, among other insights, that industry experts have difficulties with the transition toward federated governance associated with the data mesh concept, the shift of responsibility for the development, provision, and maintenance of data products, and the concept of a data product model. In our work, we derive multiple best practices and suggest organizations embrace elements of data fabric, observe the data product usage, create quick wins in the early phases, and favor small dedicated teams that prioritize data products. While we acknowledge that organizations need to apply best practices according to their individual needs, we also deduct two archetypes that provide suggestions in more detail. Our findings synthesize insights from industry experts and provide researchers and professionals with guidelines for the successful adoption of data mesh. | 翻訳日:2023-04-07 17:05:47 公開日:2023-04-05 |
# 完全はテストオラクルの敵です Perfect is the enemy of test oracle ( http://arxiv.org/abs/2302.01488v2 ) ライセンス: Link先を確認 | Ali Reza Ibrahimzada, Yigit Varli, Dilara Tekinoglu, Reyhaneh Jabbarvand | (参考訳) テストオーラクルの自動化は、ソフトウェアテストの最も難しい側面の1つだが、自動テスト入力生成と比較して、比較的扱いにくい。
テストのオーラクルは、テストが失敗する(バグを検出する)か通過するかを判断するために、正しい動作とバギーな動作を区別できる地平線に依存しています。
オラクルの問題を難しく、決定不能にしているのは、根本真実が正確な期待、正しい、またはバグの多い振る舞いを知るべきだという仮定である。
しかし、我々は、正確なoracleを、正確な正しい振る舞いやバグの振る舞いを知らずに構築できると主張しているが、この2つがどのように違うかもしれない。
本稿では,テストアサーションや他の種類のオラクルが存在しない場合に,テスト対象のメソッド(MUT)で単体テストが通過するか失敗するかを判断できる,学習に基づくSEERを提案する。
基底を構築するため、seerはユニットテストとmutsの実装を共同で統一ベクトル空間に組み込んでおり、テストの神経表現は、彼らが渡したmutと似ているが、それらが失敗したmutと似ていないようにしている。
このベクトル表現の上に構築された分類器は、テスト入力が mut あるいは "pass" ラベルのバグを検出するとき、oracle が "fail" ラベルを生成するのに役立ちます。
Our extensive experiments on applying SEER to more than 5K unit tests from a diverse set of open-source Java projects show that the produced oracle is (1) effective in predicting the fail or pass labels, achieving an overall accuracy, precision, recall, and F1 measure of 93%, 86%, 94%, and 90%, (2) generalizable, predicting the labels for the unit test of projects that were not in training or validation set with negligible performance drop, and (3) efficient, detecting the existence of bugs in only 6.5 milliseconds on average. Automation of test oracles is one of the most challenging facets of software testing, but remains comparatively less addressed compared to automated test input generation. Test oracles rely on a ground-truth that can distinguish between the correct and buggy behavior to determine whether a test fails (detects a bug) or passes. What makes the oracle problem challenging and undecidable is the assumption that the ground-truth should know the exact expected, correct, or buggy behavior. However, we argue that one can still build an accurate oracle without knowing the exact correct or buggy behavior, but how these two might differ. This paper presents SEER, a learning-based approach that in the absence of test assertions or other types of oracle, can determine whether a unit test passes or fails on a given method under test (MUT). To build the ground-truth, SEER jointly embeds unit tests and the implementation of MUTs into a unified vector space, in such a way that the neural representation of tests are similar to that of MUTs they pass on them, but dissimilar to MUTs they fail on them. The classifier built on top of this vector representation serves as the oracle to generate "fail" labels, when test inputs detect a bug in MUT or "pass" labels, otherwise. Our extensive experiments on applying SEER to more than 5K unit tests from a diverse set of open-source Java projects show that the produced oracle is (1) effective in predicting the fail or pass labels, achieving an overall accuracy, precision, recall, and F1 measure of 93%, 86%, 94%, and 90%, (2) generalizable, predicting the labels for the unit test of projects that were not in training or validation set with negligible performance drop, and (3) efficient, detecting the existence of bugs in only 6.5 milliseconds on average. | 翻訳日:2023-04-07 17:05:25 公開日:2023-04-05 |
# Nikiforov-Uvarov法によるポテンシャルについて On Potentials Integrated by the Nikiforov-Uvarov Method ( http://arxiv.org/abs/2303.02560v3 ) ライセンス: Link先を確認 | Lina Ellis, Ikumi Ellis, Christoph Koutschan, and Sergei K. Suslov | (参考訳) 計算機代数系を用いて,nikiforov と uvarov のパラダイムに統合可能な非相対論的・相対論的量子力学の基本ポテンシャルについて考察する。
この考察は、読者が量子物理学の分析方法を研究するのに役立つかもしれない。 We discuss basic potentials of the nonrelativistic and relativistic quantum mechanics that can be integrated in the Nikiforov and Uvarov paradigm with the aid of a computer algebra system. This consideration may help the readers to study analytical methods of quantum physics. | 翻訳日:2023-04-07 16:58:12 公開日:2023-04-05 |
# 敵陣における攻撃者の侵入計画 Planning for Attacker Entrapment in Adversarial Settings ( http://arxiv.org/abs/2303.00822v2 ) ライセンス: Link先を確認 | Brittany Cates, Anagha Kulkarni, Sarath Sreedharan | (参考訳) 本稿では,攻撃者の知識を使わずに攻撃者が操作できる環境で作業する攻撃者に対する防衛戦略を作成するための計画枠組みを提案する。
ディフェンダーの目的は、攻撃者が目標を達成できないトラップ状態まで、密かに攻撃者を誘導することである。
さらに、攻撃者が環境の脅威を疑う可能性が低い悲観的下界としてKが計算されるK個のステップで目標を達成することが制約される。
このような防衛戦略は、ハニーポットやハニーネットのような現実世界のシステムにおいて非常に有用であり、攻撃者が実際の生産システムであると仮定しながらシミュレーションされた生産システムと相互作用する。
通常、アタッカーとディフェンダーのインタラクションはゲーム理論のフレームワークを使ってキャプチャされる。
問題の定式化により、より単純な無限地平線割引MDPとして捉えることができ、MDPの最適方針は攻撃者の行動に対する防衛者の戦略を与える。
経験的評価を通じて,問題定式化のメリットを示す。 In this paper, we propose a planning framework to generate a defense strategy against an attacker who is working in an environment where a defender can operate without the attacker's knowledge. The objective of the defender is to covertly guide the attacker to a trap state from which the attacker cannot achieve their goal. Further, the defender is constrained to achieve its goal within K number of steps, where K is calculated as a pessimistic lower bound within which the attacker is unlikely to suspect a threat in the environment. Such a defense strategy is highly useful in real world systems like honeypots or honeynets, where an unsuspecting attacker interacts with a simulated production system while assuming it is the actual production system. Typically, the interaction between an attacker and a defender is captured using game theoretic frameworks. Our problem formulation allows us to capture it as a much simpler infinite horizon discounted MDP, in which the optimal policy for the MDP gives the defender's strategy against the actions of the attacker. Through empirical evaluation, we show the merits of our problem formulation. | 翻訳日:2023-04-07 16:58:06 公開日:2023-04-05 |
# 量子力学と古典力学の波動作用素表現 The wave operator representation of quantum and classical dynamics ( http://arxiv.org/abs/2302.13208v3 ) ライセンス: Link先を確認 | Gerard McCaul, Dmitry V. Zhdanov, Denys I. Bondar | (参考訳) 物理系を記述する際の数学的表現の選択は大きな結果であり、この選択は通常、目の前の問題の性質によって決定される。
ここでは、量子力学のほとんど知られていない波動演算子表現を調べ、量子力学の標準的な方法との接続について検討する。
この方法は密度行列の平方根を中心対象とし、標準表現よりもいくつかの特異な利点を享受する。
これを量子情報から抽出した浄化技術と組み合わせることで、多くの結果を得ることができる。
この形式主義は、位相とヒルベルト空間の量子力学と古典力学の両方の自然な橋渡しを提供するだけでなく、ウェーブ演算表現は、実時間力学と虚時間力学の両方の新たな半古典的近似を導き、古典的極限への透過的な対応をもたらす。
これは2次および4次ハミルトニアンの例を通して実証され、ウェーブ演算子のポテンシャル拡張とその量子古典ハイブリッドへの応用について論じられる。
我々は、ウェーブ演算子は、それまで無関係な表現をリンクする新しい視点を提供し、肯定性が保証されないシナリオ(ハイブリッドなど)の自然な候補モデルであると主張する。 The choice of mathematical representation when describing physical systems is of great consequence, and this choice is usually determined by the properties of the problem at hand. Here we examine the little-known wave operator representation of quantum dynamics, and explore its connection to standard methods of quantum dynamics. This method takes as its central object the square root of the density matrix, and consequently enjoys several unusual advantages over standard representations. By combining this with purification techniques imported from quantum information, we are able to obtain a number of results. Not only is this formalism able to provide a natural bridge between phase and Hilbert space representations of both quantum and classical dynamics, we also find the waveoperator representation leads to novel semiclassical approximations of both real and imaginary time dynamics, as well as a transparent correspondence to the classical limit. This is demonstrated via the example of quadratic and quartic Hamiltonians, while the potential extensions of the waveoperator and its application to quantum-classical hybrids is discussed. We argue that the wave operator provides a new perspective that links previously unrelated representations, and is a natural candidate model for scenarios (such as hybrids) in which positivity cannot be otherwise guaranteed. | 翻訳日:2023-04-07 16:56:45 公開日:2023-04-05 |
# 超高解像度衛星画像を用いた深層学習データ中心戦略による作物の選別と成熟度分類 Agave crop segmentation and maturity classification with deep learning data-centric strategies using very high-resolution satellite imagery ( http://arxiv.org/abs/2303.11564v2 ) ライセンス: Link先を確認 | Abraham S\'anchez, Ra\'ul Nanclares, Alexander Quevedo, Ulises Pelagio, Alejandra Aguilar, Gabriela Calvario and E. Ulises Moya-S\'anchez | (参考訳) 責任と持続可能なアガベテキラ生産の連鎖は、メキシコのアガベ地域の社会、環境、経済の発展に不可欠である。
したがって,大規模自動採集領域モニタリングのための新しいツールを開発することが重要である。
本稿では,高解像度衛星画像を用いたAgave tequilana Weber azul crop segmentationと成熟度分類について述べる。
そこで本研究では,データ不足,低品質ラベル,高不均衡データ,低モデル性能など,作物のセグメンテーションの極めて具体的な文脈における実世界のディープラーニング問題を解決する。
提案した戦略は、アクティブラーニングと人間の監督による合成画像の作成を組み合わせたデータ拡張とデータ転送に留まらない。
その結果、試験セットにおいて、IoU(Intersection over Union)値によるセグメンテーション性能は0.72から0.90に向上した。
また,95%の精度でアガベ作物の成熟度を分類する方法を提案する。
結果として得られた正確なモデルにより、大規模地域で生産予測を行うことができる。
また,アガベの過剰供給や森林破壊といった需給問題も早期に検出できた。 The responsible and sustainable agave-tequila production chain is fundamental for the social, environment and economic development of Mexico's agave regions. It is therefore relevant to develop new tools for large scale automatic agave region monitoring. In this work, we present an Agave tequilana Weber azul crop segmentation and maturity classification using very high resolution satellite imagery, which could be useful for this task. To achieve this, we solve real-world deep learning problems in the very specific context of agave crop segmentation such as lack of data, low quality labels, highly imbalanced data, and low model performance. The proposed strategies go beyond data augmentation and data transfer combining active learning and the creation of synthetic images with human supervision. As a result, the segmentation performance evaluated with Intersection over Union (IoU) value increased from 0.72 to 0.90 in the test set. We also propose a method for classifying agave crop maturity with 95% accuracy. With the resulting accurate models, agave production forecasting can be made available for large regions. In addition, some supply-demand problems such excessive supplies of agave or, deforestation, could be detected early. | 翻訳日:2023-04-07 16:46:48 公開日:2023-04-05 |
# バックプロパゲーションの代用としての予測符号化 : 批判的評価 Predictive Coding as a Neuromorphic Alternative to Backpropagation: A Critical Evaluation ( http://arxiv.org/abs/2304.02658v1 ) ライセンス: Link先を確認 | Umais Zahid, Qinghai Guo, Zafeirios Fountas | (参考訳) バックプロパゲーションは急速に現代のディープラーニング手法のワークホースクレジット割り当てアルゴリズムとなっている。
近年,計算神経科学に起源を持つアルゴリズムである予測符号化 (PC) の修正形式が,バックプロパゲーション下でのパラメータ更新にほぼ等しくなることが示されている。
この関係により、PCは神経形系における実装を容易にする望ましい特性を持つバックプロパゲーションの代替として機能することが示唆されている。
本稿では,これらの主張を,文献で提案されている異なるPC変種を用いて検討する。
バックプロパゲーションにより下界を示すこれらのPC変種に対する時間複雑性境界を得る。
また, ニューロバイオロジー的可能性とその解釈, 特に潜在確率モデルに対する変分ベイズアルゴリズムとしての標準pcの観点から, それらの変種の重要な特性を示す。
その結果,2つの学習フレームワークの関連性に新たな光を当てた上で,PCは従来考えられていたよりもバックプロパゲーションを直接置き換える可能性に限界がある可能性が示唆された。 Backpropagation has rapidly become the workhorse credit assignment algorithm for modern deep learning methods. Recently, modified forms of predictive coding (PC), an algorithm with origins in computational neuroscience, have been shown to result in approximately or exactly equal parameter updates to those under backpropagation. Due to this connection, it has been suggested that PC can act as an alternative to backpropagation with desirable properties that may facilitate implementation in neuromorphic systems. Here, we explore these claims using the different contemporary PC variants proposed in the literature. We obtain time complexity bounds for these PC variants which we show are lower-bounded by backpropagation. We also present key properties of these variants that have implications for neurobiological plausibility and their interpretations, particularly from the perspective of standard PC as a variational Bayes algorithm for latent probabilistic models. Our findings shed new light on the connection between the two learning frameworks and suggest that, in its current forms, PC may have more limited potential as a direct replacement of backpropagation than previously envisioned. | 翻訳日:2023-04-07 16:41:42 公開日:2023-04-05 |
# 対話型生体分子システムのためのグラフ表現学習 Graph Representation Learning for Interactive Biomolecule Systems ( http://arxiv.org/abs/2304.02656v1 ) ライセンス: Link先を確認 | Xinye Xiong, Bingxin Zhou, Yu Guang Wang | (参考訳) ディープラーニングモデルの進歩は、生体分子系とその機構の研究に革命をもたらした。
特にグラフ表現学習は,生体分子の幾何学的情報を異なるレベルで正確に把握するために重要である。
本稿では,生物分子や系をコンピュータで認識可能なオブジェクトとして表現する手法,例えば配列,グラフ,表面などについて概説する。
さらに、グラフに基づく手法を重視した幾何学的深層学習モデルが、生体分子データを分析して、薬物発見、タンパク質のキャラクタリゼーション、生物学的システム分析を可能にする方法について検討する。
この研究は、この分野の現在の状況の概要と、存在する課題と今後の研究の方向性を強調して締めくくっている。 Advances in deep learning models have revolutionized the study of biomolecule systems and their mechanisms. Graph representation learning, in particular, is important for accurately capturing the geometric information of biomolecules at different levels. This paper presents a comprehensive review of the methodologies used to represent biological molecules and systems as computer-recognizable objects, such as sequences, graphs, and surfaces. Moreover, it examines how geometric deep learning models, with an emphasis on graph-based techniques, can analyze biomolecule data to enable drug discovery, protein characterization, and biological system analysis. The study concludes with an overview of the current state of the field, highlighting the challenges that exist and the potential future research directions. | 翻訳日:2023-04-07 16:41:19 公開日:2023-04-05 |
# 大規模遠隔深層ニューラルネットワークの効率的利用のための2つのスーパーバイザの適用 Adopting Two Supervisors for Efficient Use of Large-Scale Remote Deep Neural Networks ( http://arxiv.org/abs/2304.02654v1 ) ライセンス: Link先を確認 | Michael Weiss and Paolo Tonella | (参考訳) 近年では、さまざまな人工知能タスクで人間の競争能力を達成するために、大規模ディープニューラルネットワーク(dnn)が台頭している。
数十億のパラメータではなく数十億のパラメータで構成されていることが多いが、これらのDNNは、携帯電話やIoTマイクロコントローラなどのリソースに制約のあるデバイスにデプロイしたり、効率的に動作するには大きすぎる。
したがって、大規模なDNNに依存するシステムは、ネットワーク上で対応するモデルを呼び出す必要があり、大規模なリモートモデルのホスティングと実行には相当なコストがかかる。
本稿では,大規模リモートDNNに頼らずに,小規模のローカルモデルで予測を行おうとする,新しいアーキテクチャであるBiSupervisedを提案する。
DNNスーパーバイザーは、その予測プロセスを監視し、ローカル予測を信頼できる簡単な入力を特定する。
これらの入力に対して、リモートモデルを呼び出す必要はなく、システム全体の精度にわずかな影響を与えながらコストを節約できる。
当社のアーキテクチャではさらに,リモート予測を監視し,これらを信頼できない入力を識別するために,第2のスーパーバイザを想定しています。
我々は,imdb movie review sentiment classification, github issue triaging, imagenet image classification, squadv2 free-text question answeringの4つのケーススタディにおいて,コスト削減と不正確な入力の検出能力を評価した。 Recent decades have seen the rise of large-scale Deep Neural Networks (DNNs) to achieve human-competitive performance in a variety of artificial intelligence tasks. Often consisting of hundreds of millions, if not hundreds of billion parameters, these DNNs are too large to be deployed to, or efficiently run on resource-constrained devices such as mobile phones or IoT microcontrollers. Systems relying on large-scale DNNs thus have to call the corresponding model over the network, leading to substantial costs for hosting and running the large-scale remote model, costs which are often charged on a per-use basis. In this paper, we propose BiSupervised, a novel architecture, where, before relying on a large remote DNN, a system attempts to make a prediction on a small-scale local model. A DNN supervisor monitors said prediction process and identifies easy inputs for which the local prediction can be trusted. For these inputs, the remote model does not have to be invoked, thus saving costs, while only marginally impacting the overall system accuracy. Our architecture furthermore foresees a second supervisor to monitor the remote predictions and identify inputs for which not even these can be trusted, allowing to raise an exception or run a fallback strategy instead. We evaluate the cost savings, and the ability to detect incorrectly predicted inputs on four diverse case studies: IMDB movie review sentiment classification, Github issue triaging, Imagenet image classification, and SQuADv2 free-text question answering | 翻訳日:2023-04-07 16:41:07 公開日:2023-04-05 |
# action++: アダプティブ解剖学的コントラストによる半教師付き医用画像分割の改善 ACTION++: Improving Semi-supervised Medical Image Segmentation with Adaptive Anatomical Contrast ( http://arxiv.org/abs/2304.02689v1 ) ライセンス: Link先を確認 | Chenyu You, Weicheng Dai, Yifei Min, Lawrence Staib, Jas Sekhon, James S. Duncan | (参考訳) 医学的データは、しばしば重いクラスの不均衡を伴うロングテール分布を示すため、マイノリティクラス(すなわち境界領域や希少なオブジェクト)の分類が困難になる。
最近の研究は、教師なしのコントラスト基準を付与することで、ロングテールシナリオにおける半教師付き医用画像分割を大幅に改善した。
しかし、クラス分布が高度に不均衡なデータのラベル付き部分で、どの程度うまく機能するかは、まだ不明である。
本稿では,半教師付き医学セグメント化のための適応的解剖学的コントラストを備えた,改良型コントラスト学習フレームワークであるaction++を提案する。
具体的には、まず、組込み空間(例えばオフライン)に均一に分布するクラスセンターの最適位置を計算し、異なるクラス特徴に適応的かつ一様に分布するクラスセンターを適応的に適合させることにより、オンラインコントラストマッチング訓練を行う適応型教師付きコントラスト損失を提案する。
さらに,ロングテール医療データに対する対照的な損失において,一定温度である$\tau$ を盲目的に採用することは最適ではなく,単純なコサインスケジュールを通じて動的$\tau$ を使うことを提案し,多数派と少数派階級の分離性を高める。
ACDCとLAのベンチマークでACTION++を評価し、2つの半教師付き設定で最先端を実現することを示す。
理論的には,適応解剖学的コントラストの性能を解析し,ラベル効率の優位性を確認した。 Medical data often exhibits long-tail distributions with heavy class imbalance, which naturally leads to difficulty in classifying the minority classes (i.e., boundary regions or rare objects). Recent work has significantly improved semi-supervised medical image segmentation in long-tailed scenarios by equipping them with unsupervised contrastive criteria. However, it remains unclear how well they will perform in the labeled portion of data where class distribution is also highly imbalanced. In this work, we present ACTION++, an improved contrastive learning framework with adaptive anatomical contrast for semi-supervised medical segmentation. Specifically, we propose an adaptive supervised contrastive loss, where we first compute the optimal locations of class centers uniformly distributed on the embedding space (i.e., off-line), and then perform online contrastive matching training by encouraging different class features to adaptively match these distinct and uniformly distributed class centers. Moreover, we argue that blindly adopting a constant temperature $\tau$ in the contrastive loss on long-tailed medical data is not optimal, and propose to use a dynamic $\tau$ via a simple cosine schedule to yield better separation between majority and minority classes. Empirically, we evaluate ACTION++ on ACDC and LA benchmarks and show that it achieves state-of-the-art across two semi-supervised settings. Theoretically, we analyze the performance of adaptive anatomical contrast and confirm its superiority in label efficiency. | 翻訳日:2023-04-07 16:31:07 公開日:2023-04-05 |
# さらに: 敵対的事例移転可能性の早期停止の救済における平坦性 Going Further: Flatness at the Rescue of Early Stopping for Adversarial Example Transferability ( http://arxiv.org/abs/2304.02688v1 ) ライセンス: Link先を確認 | Martin Gubri, Maxime Cordy and Yves Le Traon | (参考訳) 転送可能性(Transferability)は、それらが製作された代理モデルよりも、他のモデルによって誤って分類される敵の例の特性である。
従来の研究では、サロゲートモデルのトレーニングが早期に中止された場合、転送性が大幅に向上することが示されている。
これを説明する一般的な仮説は、後の訓練のエポックは、モデルが敵攻撃が悪用する非破壊的特徴を学ぶときである。
したがって、早期に停止したモデルは、完全に訓練されたモデルよりも堅牢(従って、より良い代理)である。
早期停止が転送可能性を向上させる理由は,モデルの学習ダイナミクスに影響を及ぼす副次効果にあることを実証する。
まず,ロバストでない特徴を持つデータから学習したモデルにおいても,早期停止が転送可能性を高めることを示す。
次に、移動可能性とパラメータ空間における損失景観の探索の関連性を確立し、早期停止は本質的に影響する。
より正確には、学習速度が低下すると伝達能力がピークとなり、損失の鋭さが著しく低下する時期でもある。
これにより、トランスファービリティを最大化するために、トレーニング中の損失シャープネスを最小限に抑える新しいトランスファービリティーのアプローチであるRFNを提案する。
大規模な平坦な地区を探索することで、RFNは常に早期停止(転送可能性の47ポイントまで)よりも改善し、強い最先端のベースラインに競争力があることが示される。 Transferability is the property of adversarial examples to be misclassified by other models than the surrogate model for which they were crafted. Previous research has shown that transferability is substantially increased when the training of the surrogate model has been early stopped. A common hypothesis to explain this is that the later training epochs are when models learn the non-robust features that adversarial attacks exploit. Hence, an early stopped model is more robust (hence, a better surrogate) than fully trained models. We demonstrate that the reasons why early stopping improves transferability lie in the side effects it has on the learning dynamics of the model. We first show that early stopping benefits transferability even on models learning from data with non-robust features. We then establish links between transferability and the exploration of the loss landscape in the parameter space, on which early stopping has an inherent effect. More precisely, we observe that transferability peaks when the learning rate decays, which is also the time at which the sharpness of the loss significantly drops. This leads us to propose RFN, a new approach for transferability that minimizes loss sharpness during training in order to maximize transferability. We show that by searching for large flat neighborhoods, RFN always improves over early stopping (by up to 47 points of transferability rate) and is competitive to (if not better than) strong state-of-the-art baselines. | 翻訳日:2023-04-07 16:30:41 公開日:2023-04-05 |
# nD-PDPA:n次元確率密度プロファイル解析 nD-PDPA: nDimensional Probability Density Profile Analysis ( http://arxiv.org/abs/2304.02682v1 ) ライセンス: Link先を確認 | Arjang Fahim, Stephanie Irausquin, Homayoun Valafar | (参考訳) 近年の様々な構造ゲノミクス計画の進展にもかかわらず、配列と構造的に特徴付けられたタンパク質の数の間には大きなギャップが残っている。
この相違の原因には、技術的困難、労力、NMR分光法のような実験的手法による構造決定に関連するコストがある。
時間的および経済的な問題をより効率的に解決し、NMR分光法の適用性を高めるために、いくつかの計算方法が開発されている。
これらの方法では、より困難で構造的に新しいタンパク質を解決できるが、コストは大幅に削減されていない。
確率密度プロファイル分析 (PDPA) は, 通常のタンパク質の構造決定の経済性や, NMRデータの最小セットから新規構造の同定に直接対処するために, 我々の研究室で導入されている。
2D-PDPA(2Dは2つのアライメント媒体からのデータの取り込みを表す)は、1000個のデコイ構造のライブラリー内で未知のタンパク質の構造的ホモログを同定することに成功した。
PDPAの選択性と感度をさらに向上するためには,追加データの導入が必要であった。
しかし、元のPDPAアプローチの拡張は、追加データを含めることで計算的に難解になる計算要求によって制限された。
本稿では,2D-PDPAの計算限界を排除し,複数のベクトルタイプからのRDCデータを複数のアライメントメディアに含めるPDPA法(nD-PDPA:n-dimensional Probability Density Profile Analysis)の最近の展開を示す。 Despite the recent advances in various Structural Genomics Projects, a large gap remains between the number of sequenced and structurally characterized proteins. Some reasons for this discrepancy include technical difficulties, labor, and the cost related to determining a structure by experimental methods such as NMR spectroscopy. Several computational methods have been developed to expand the applicability of NMR spectroscopy by addressing temporal and economical problems more efficiently. While these methods demonstrate successful outcomes to solve more challenging and structurally novel proteins, the cost has not been reduced significantly. Probability Density Profile Analysis (PDPA) has been previously introduced by our lab to directly address the economics of structure determination of routine proteins and the identification of novel structures from a minimal set of unassigned NMR data. 2D-PDPA (in which 2D denotes incorporation of data from two alignment media) has been successful in identifying the structural homolog of an unknown protein within a library of ~1000 decoy structures. In order to further expand the selectivity and sensitivity of PDPA, the incorporation of additional data was necessary. However, the expansion of the original PDPA approach was limited by its computational requirements where the inclusion of additional data would render it computationally intractable. Here we present the most recent developments of PDPA method (nD-PDPA: n Dimensional Probability Density Profile Analysis) that eliminate 2D-PDPA's computational limitations, and allows inclusion of RDC data from multiple vector types in multiple alignment media. | 翻訳日:2023-04-07 16:30:14 公開日:2023-04-05 |
# 二色駆動量子ビットにおける多光子共鳴バンドとBloch-Siegertシフト Multiphoton resonance band and Bloch-Siegert shift in a bichromatically driven qubit ( http://arxiv.org/abs/2304.02676v1 ) ライセンス: Link先を確認 | Yiying Yan, Zhiguo L\"u, Lipeng Chen, Hang Zheng | (参考訳) 周期的反回転ハイブリッド化回転波(CHRW)ハミルトン波(英語版)を用いて、強い非周期性双色場に露呈する量子ビットの共鳴とダイナミクスを合理的な近似の下で、元のハミルトン変換から導出し、フロケ理論の適用を可能にする。
その結果、CHRW結果と数値的に正確な一般化フロケット理論(GFT)の整合性は、広く使われている回転波近似(RWA)が崩壊する一方、前者の有効状態をもたらすことがわかった。
共振器はバンド構造を示し,複色場の反回転結合によって誘起されるBloch-Siegertシフトが多光子共鳴帯域で顕著になることを示す。
加えて、chrw法はgftアプローチよりも効率の面で大きな利点があり、特に後者が非常にゆっくりと収束する低ビート周波数の場合において顕著である。
現在のchrw法は、ブロッホ・シーガートシフトを組み込んだ共鳴周波数を計算するための非常に効率的な方法を提供し、強力な運転体制における二色界の反回転結合の効果についての洞察を提供する。 We study the resonance and dynamics of a qubit exposed to a strong aperiodic bichromatic field by using a periodic counter-rotating hybridized rotating wave (CHRW) Hamiltonian, which is derived from the original Hamiltonian with the unitary transformations under a reasonable approximation and enables the application of the Floquet theory. It is found that the consistency between the CHRW results and numerically exact generalized-Floquet-theory (GFT) results in the valid regime of the former while the widely used rotating-wave approximation (RWA) breaks down. We illustrate that the resonance exhibits band structure and the Bloch-Siegert shifts induced by the counter-rotating couplings of the bichromatic field become notable at the multiphoton resonance band. In addition, the CHRW method is found to have a great advantage of efficiency over the GFT approach particularly in the low beat-frequency case where the latter converges very slowly. The present CHRW method provides a highly efficient way to calculate the resonance frequency incorporating the Bloch-Siegert shift and provides insights into the effects of the counter-rotating couplings of the bichromatic field in the strong-driving regimes. | 翻訳日:2023-04-07 16:29:48 公開日:2023-04-05 |
# 超強結合状態における量子空洞系における放射スペクトル非マルコフ性 Emission spectral non-Markovianity in qubit-cavity systems in the ultrastrong coupling regime ( http://arxiv.org/abs/2304.02675v1 ) ライセンス: Link先を確認 | Chenyi Zhang, Minghong Yu, Yiying Yan, Lipeng Chen, Zhiguo L\"u, Yang Zhao | (参考訳) 非マルコフ系および超強結合系における散逸ラビおよびjaynes-cummingsモデルの放射スペクトルについて検討した。
我々は, マルコフ近似の既知の限界と標準2次摂動を除去し, 放射スペクトルを計算するために, ポラロン変換中島-ツワンツィヒマスター方程式(ptnze)を導出した。
PTNZEは, 標準2次中島-Zwanzigマスター方程式が崩壊するある種の超強結合系において, 時間依存性の変動スペクトルをベンチマークとして, 正確な放射スペクトルを得る。
散逸ラビおよびjaynes-cummingsモデルの放射スペクトルは, 様々な初期条件下で一般に非対称であることが示されている。
2つのモデルにおけるスペクトルの直接比較は、クォービット・キャビティ対回転項と異なるクォービット・キャビティ結合強度とシステム初期条件の下でのスペクトルの特徴の本質的な役割を示している。 We study the emission spectra of dissipative Rabi and Jaynes-Cummings models in the non-Markovian and ultrastrong coupling regimes. We have derived a polaron-transformed Nakajima-Zwanzig master equation (PTNZE) to calculate the emission spectra, which eliminates the well known limitations of the Markovian approximation and the standard second-order perturbation. Using the time-dependent variational approach as benchmark, the PTNZE is found to yield accurate emission spectra in certain ultrastrong coupling regimes where the standard second-order Nakajima-Zwanzig master equation breaks down. It is shown that the emission spectra of the dissipative Rabi and Jaynes-Cummings models are in general asymmetric under various initial conditions. Direct comparisons of spectra for the two models illustrate the essential role of the qubit-cavity counter-rotating term and the spectra features under different qubit-cavity coupling strengths and system initial conditions. | 翻訳日:2023-04-07 16:29:27 公開日:2023-04-05 |
# 強散逸環境におけるラムシフトと真空ラビ分裂 Lamb Shift and the Vacuum Rabi Splitting in a Strongly Dissipative Environment ( http://arxiv.org/abs/2304.02674v1 ) ライセンス: Link先を確認 | Yiying Yan, Tadele T. Ergogo, Zhiguo L\"u, Lipeng Chen, JunYan Luo, Yang Zhao | (参考訳) 高q$キャビティモードと放射貯水池に超強結合した量子ビットの真空ラビ分割について検討した。
複数のダヴィドフアンサッツを用いた数値的高精度な変分法、回転波近似(RWA)、変換されたRWAの3つの手法が採用されている。
変分結果と変換されたRWA結果との一致は、RWAが完全に崩壊する後者の妥当性の条件に見出される。
超強結合系における真空ラビ分割の修正においてラムシフトが必須であり、キャビティ周波数がキュービットの素遷移周波数と等しい場合でもオフ共振量子ビット-キャビティカップリングを生じさせる。
具体的には、放射スペクトルは比較的弱い空洞-量子結合の存在下で1つの広い低周波ピークと1つの狭い高周波ピークを示す。
キャビティ-クビット結合が増加するにつれて、低周波ピークは狭くなり、高周波ピークは同様の幅を持つまで広がる。 We study the vacuum Rabi splitting of a qubit ultrastrongly coupled to a high-$Q$ cavity mode and a radiation reservoir. Three methods are employed: a numerically exact variational approach with a multiple Davydov ansatz, the rotating-wave approximation (RWA), and the transformed RWA. Agreement between the variational results and the transformed RWA results is found in the regime of validity of the latter, where the RWA breaks down completely. We illustrate that the Lamb shift plays an essential role in modifying the vacuum Rabi splitting in the ultrastrong coupling regime, leading to off-resonant qubit-cavity coupling even though the cavity frequency equals to the bare transition frequency of the qubit. Specifically, the emission spectrum exhibits one broad low-frequency peak and one narrow high-frequency peak in the presence of relatively weak cavity-qubit coupling. As the cavity-qubit coupling increases, the low-frequency peak narrows while the high-frequency peak broadens until they have similar widths. | 翻訳日:2023-04-07 16:29:11 公開日:2023-04-05 |
# 非等尺写像からの近似可観測性:重複量子ビットを持つド・ジッターテンソルネットワーク Approximate observables from non-isometric maps: de Sitter tensor networks with overlapping qubits ( http://arxiv.org/abs/2304.02673v1 ) ライセンス: Link先を確認 | Chunjun Cao, Wissam Chemissany, Alexander Jahn, and Zolt\'an Zimbor\'as | (参考訳) 我々は、非等距離写像を用いて、およそ局所観測可能あるいは「重複量子ビット」を構築し、局所実効理論の過程がホログラフィーにおける期待と同じような、より少ない自由度を持つ量子系でスパーフできることを示す。
さらに、スプーフ系は自然に、量子重力の特徴と同一視できる方法で実際の局所理論から逸脱する。
具体的な例として、デ・ジッター時空の2つのメラトイモデルを構築し、大域的デ・ジッターの指数展開が量子自由度を多く減らし、局所物理学が崩壊する前にほぼ長い時間保存されていることを説明した。
量子ビットの重なりの近似は、ヒルベルト空間次元の検証、ブラックホールやホログラフィにおける自由度数、量子重力における近似局所性と概念的にどのように結びついているかを強調する。 We construct approximately local observables, or ``overlapping qubits'', using non-isometric maps and show that processes in local effective theories can be spoofed with a quantum system with fewer degrees of freedom, similar to our expectation in holography. Furthermore, the spoofed system naturally deviates from an actual local theory in ways that can be identified with features in quantum gravity. For a concrete example, we construct two MERA toy models of de Sitter space-time and explain how the exponential expansion in global de Sitter can be spoofed with many fewer quantum degrees of freedom and that local physics may be approximately preserved for an exceedingly long time before breaking down. We highlight how approximate overlapping qubits are conceptually connected to Hilbert space dimension verification, degree-of-freedom counting in black holes and holography, and approximate locality in quantum gravity. | 翻訳日:2023-04-07 16:28:53 公開日:2023-04-05 |
# フェルミオン鎖におけるノイズ誘起普遍拡散輸送 Noise Induced Universal Diffusive Transport in Fermionic Chains ( http://arxiv.org/abs/2304.02671v1 ) ライセンス: Link先を確認 | Christopher M. Langlett and Shenglong Xu | (参考訳) 我々は、雑音と静的カップリングの競合から演算子ダイナミクスが生じるランダム駆動フェルミオンモデルにおいて、顕微鏡輸送理論を開発する。
ノイズ平均作用素運動方程式を1次元非エルミートホッピングモデルに写像し、正確に解く。
普遍拡散挙動は、運動量の小さい作用素方程式における創発的雑音誘起境界状態に起因することが判明した。
運動量が増加すると、強い雑音の極限では、拡散方程式が拡散方程式となると拡散モードは$k=2\pi$まで持続し、密度-密度相互作用を含む局所電荷に可換な任意の強い静的項は影響を受けない。
一方、有限ノイズでは、境界状態は散乱状態の連続体に入り、消滅する。
しかし、境界状態は、境界-散乱状態相転移後のスペクトルの例外的な点において再帰する。
さらに、ノイズの存在下でのスターク局所化の運命を特徴づけ、最終的にノイズが局所化のサインを洗い流し、拡散を引き起こすことを示す。 We develop a microscopic transport theory in a randomly driven fermionic model where the operator dynamics arise from the competition between noisy and static couplings. We map the noise-averaged operator equation of motion to a one-dimensional non-hermitian hopping model and solve it exactly. We uncover that universal diffusive behavior is attributed to an emergent noise induced bound state in the operator equations of motion at small momentum. As momentum increases, in the strong noise limit, the diffusive mode persists to $k=2\pi$ as the operator equation becomes the diffusion equation and is unaffected by additional arbitrarily strong static terms that commute with the local charge, including density-density interactions. On the other hand, at finite noise, the bound state enters a continuum of scattering states and vanishes. However, the bound state reemerges at an exceptional-like point in the spectrum after the bound-to-scattering state phase transition. We further characterize the fate of Stark localization in the presence of noise, where we ultimately show that noise washes away any signature of localization, and diffusion ensues. | 翻訳日:2023-04-07 16:28:35 公開日:2023-04-05 |
# 最大ヒルベルト空間断片化の最小ハバードモデル Minimal Hubbard models of maximal Hilbert space fragmentation ( http://arxiv.org/abs/2304.02669v1 ) ライセンス: Link先を確認 | Yves H. Kwan, Patrick H. Wilhelm, Sounak Biswas, and S.A. Parameswaran | (参考訳) 最近傍ホッピングと最近傍ハードコア制約を持つハバードモデルは、任意の次元 $d$ の多くの格子において「最大」ヒルベルト空間のフラグメンテーションを示す。
$d=1$ rhombus 連鎖と $d=2$ Lieb 格子に着目して、この断片化が熱力学的極限のすべての充填に対して強いことを示し、より高度な対称性の集合を含む運動の創発的積分を明示的に構成する。
凍結粒子からなるブロックは、システムを実空間に分割し、異常なダイナミクスをもたらす。
以上の結果は、双極子およびリドバーグ型原子の光学格子と潜在的に関係している。 We show that Hubbard models with nearest-neighbor hopping and a nearest-neighbor hardcore constraint exhibit `maximal' Hilbert space fragmentation in many lattices of arbitrary dimension $d$. Focusing on the $d=1$ rhombus chain and the $d=2$ Lieb lattice, we demonstrate that the fragmentation is strong for all fillings in the thermodynamic limit, and explicitly construct all emergent integrals of motion, which include an extensive set of higher-form symmetries. Blockades consisting of frozen particles partition the system in real space, leading to anomalous dynamics. Our results are potentially relevant to optical lattices of dipolar and Rydberg-dressed atoms. | 翻訳日:2023-04-07 16:28:15 公開日:2023-04-05 |
# 境界散逸の存在下での量子符号化遷移 Quantum Coding Transitions in the Presence of Boundary Dissipation ( http://arxiv.org/abs/2304.02664v1 ) ライセンス: Link先を確認 | Izabella Lovas, Utkarsh Agrawal, and Sagar Vijay | (参考訳) 量子多体系における量子情報のエンコーディングにおける位相遷移について,ユニタリスクランブルと境界散逸の競合効果により検討する。
具体的には,一次元キューディチェーンにおける量子情報の運命を,境界における偏極ノイズの存在下での局所的なユニタリ量子回路の進化を考察する。
qudit連鎖が最初、局所的にアクセス可能な量子情報の有限量を含む場合、境界散逸の存在下でのユニタリ進化により、散逸が十分に弱ければ、この情報は部分的に保護され続け、システムサイズで線形に成長する時間スケールまでl$となる。
対照的に、十分な散逸性のため、この情報は散逸性環境に完全に失われる。
我々は,haar-random,局所ユニタリゲートを含むダイナミクスを考慮し,この ‘quantum coding transition' を解析的に検討し,クリフォード量子回路の数値シミュレーションによる予測を検証した。
我々は、消散の開始前に深さ$ \mathcal{O}(\log L)$のユニタリ回路でキューディチェーン内の量子情報をスクランブルすることで、この情報を遅くまで完全に保護できることを示した。
符号遷移の性質は、力学が$L$よりもずっと長い時間延びるときに変化する。
さらに, 弱散逸時には有限レートで符号化可能であり, 量子情報の符号化にはqudit連鎖の多体ヒルベルト空間の分数を用いることができることを示した。 We investigate phase transitions in the encoding of quantum information in a quantum many-body system due to the competing effects of unitary scrambling and boundary dissipation. Specifically, we study the fate of quantum information in a one-dimensional qudit chain, subject to local unitary quantum circuit evolution in the presence of depolarizating noise at the boundary. If the qudit chain initially contains a finite amount of locally-accessible quantum information, unitary evolution in the presence of boundary dissipation allows this information to remain partially protected when the dissipation is sufficiently weak, and up to time-scales growing linearly in system size $L$. In contrast, for strong enough dissipation, this information is completely lost to the dissipative environment. We analytically investigate this ``quantum coding transition" by considering dynamics involving Haar-random, local unitary gates, and confirm our predictions in numerical simulations of Clifford quantum circuits. We demonstrate that scrambling the quantum information in the qudit chain with a unitary circuit of depth $ \mathcal{O}(\log L)$ before the onset of dissipation can perfectly protect the information until late times. The nature of the coding transition changes when the dynamics extend for times much longer than $L$. We further show that at weak dissipation, it is possible to code at a finite rate, i.e. a fraction of the many-body Hilbert space of the qudit chain can be used to encode quantum information. | 翻訳日:2023-04-07 16:28:04 公開日:2023-04-05 |
# numsnet:3次元医用画像スタックのためのnested-u multi-class segmentation network NUMSnet: Nested-U Multi-class Segmentation network for 3D Medical Image Stacks ( http://arxiv.org/abs/2304.02713v1 ) ライセンス: Link先を確認 | Sohini Roychowdhury | (参考訳) 医用3D画像スタックのセマンティックセグメンテーションは、正確なボリューム再構成、コンピュータ支援診断、治療計画の追跡を可能にする。
本稿では,ネスト層を通してスキャンされたピクセル近傍の特徴を送信し,最小のトレーニングデータを用いて正確なマルチクラス意味セグメンテーションを実現する,numsnet という unet モデルの新たな変種を提案する。
NUMSnetモデルのセマンティックセマンティックセマンティックセマンティクス性能をいくつかのUnetモデルと比較して解析し,Lung-CTとHeart-CTのボリューム画像スタックのトレーニングに使用する画像の10%のみを用いて3~7領域の関心領域をセグメント化する。
提案したNUMSnetモデルは,Unet++モデルと比較して,Lung-CTスタックのDiceスコアが4-9%,Heart-CTスタックのDiceスコアが2.5-10%,セグメンテーションリコールが最大20%向上した。
NUMSnetモデルは、各ボリュームスタックの中央スキャン周辺の順序付きイメージによってトレーニングする必要がある。
Unet++モデルのネストされた6層からのイメージ特徴情報の伝搬は、Unet++モデルのすべてのアップサンプリングレイヤの伝搬よりも、計算とセグメンテーションのパフォーマンスが優れている。
numsnetモデルは既存の作品と同等のセグメンテーション性能を達成し、トレーニング画像の5\%の低さでトレーニングされている。
また、転写学習により、Lung-CT画像の病理からHeart-CTスタックの心臓領域への多クラスセマンティックセマンティックセマンティクスのためのNUMSnetモデルを高速に収束させることができる。
提案モデルでは,最小限のトレーニングデータセットを用いて,様々なボリュームイメージスタック上でのマルチクラスセマンティックセマンティックセマンティックセマンティクスを標準化することができる。
これにより、コンピュータ支援による検出と処理に関連するコスト、時間、オブザーバ間の変動を大幅に削減することができる。 Semantic segmentation for medical 3D image stacks enables accurate volumetric reconstructions, computer-aided diagnostics and follow up treatment planning. In this work, we present a novel variant of the Unet model called the NUMSnet that transmits pixel neighborhood features across scans through nested layers to achieve accurate multi-class semantic segmentations with minimal training data. We analyze the semantic segmentation performance of the NUMSnet model in comparison with several Unet model variants to segment 3-7 regions of interest using only 10% of images for training per Lung-CT and Heart-CT volumetric image stacks. The proposed NUMSnet model achieves up to 20% improvement in segmentation recall with 4-9% improvement in Dice scores for Lung-CT stacks and 2.5-10% improvement in Dice scores for Heart-CT stacks when compared to the Unet++ model. The NUMSnet model needs to be trained by ordered images around the central scan of each volumetric stack. Propagation of image feature information from the 6 nested layers of the Unet++ model are found to have better computation and segmentation performances than propagation of all up-sampling layers in a Unet++ model. The NUMSnet model achieves comparable segmentation performances to existing works, while being trained on as low as 5\% of the training images. Also, transfer learning allows faster convergence of the NUMSnet model for multi-class semantic segmentation from pathology in Lung-CT images to cardiac segmentations in Heart-CT stacks. Thus, the proposed model can standardize multi-class semantic segmentation on a variety of volumetric image stacks with minimal training dataset. This can significantly reduce the cost, time and inter-observer variabilities associated with computer-aided detections and treatment. | 翻訳日:2023-04-07 16:22:46 公開日:2023-04-05 |
# SPIRES(Structured prompt interrogation and Recursive extract of semantics: SPIRES):ゼロショット学習を用いた知識ベース獲得手法 Structured prompt interrogation and recursive extraction of semantics (SPIRES): A method for populating knowledge bases using zero-shot learning ( http://arxiv.org/abs/2304.02711v1 ) ライセンス: Link先を確認 | J. Harry Caufield, Harshad Hegde, Vincent Emonet, Nomi L. Harris, Marcin P. Joachimiak, Nicolas Matentzoglu, HyeongSik Kim, Sierra A.T. Moxon, Justin T. Reese, Melissa A. Haendel, Peter N. Robinson, and Christopher J. Mungall | (参考訳) 知識ベースとオントロジーの作成は、手動のキュレーションに依存する時間のかかる作業である。
ai/nlpアプローチは、これらの知識ベースを投入する専門家キュレーターを支援するが、現在のアプローチは広範なトレーニングデータに依存しており、任意の複雑なネストされた知識スキーマを投入できない。
本稿では,SPIRES(Structured Prompt Interrogation and Recursive extract of Semantics)を提案する。Large Language Models (LLMs) によるゼロショット学習(ZSL) と,フレキシブルプロンプトからの汎用クエリ応答を,特定のスキーマに準拠した情報から行うことによる知識抽出手法である。
詳細なユーザ定義の知識スキーマと入力テキストが与えられた場合、SPIRESはGPT-3+に対して即時尋問を行い、提供されたスキーマと一致する応答の集合を得る。
SPIRESは既存のオントロジーと語彙を使って、一致するすべての要素の識別子を提供する。
本稿では,食品レシピの抽出,多種の細胞シグナル伝達経路,疾患治療,多段階薬物機構,化学・疾患因果グラフなど,さまざまな領域におけるSPIRESの使用例を紹介する。
現在のSPIRES精度は、既存のリレーショナル抽出(RE)メソッドの中間範囲に匹敵するが、簡単にカスタマイズでき、柔軟性があり、重要なことに、トレーニングデータがない場合に新しいタスクを実行する能力がある。
本手法は,LLMの言語解釈機能を活用して知識ベースを組み立て,手作業による知識のキュレーションと取得を支援するとともに,LLM以外のデータベースやオントロジーによる検証を支援する一般的な戦略を支援する。
SPIRESはオープンソースのOntoGPTパッケージの一部として利用可能である。 Creating knowledge bases and ontologies is a time consuming task that relies on a manual curation. AI/NLP approaches can assist expert curators in populating these knowledge bases, but current approaches rely on extensive training data, and are not able to populate arbitrary complex nested knowledge schemas. Here we present Structured Prompt Interrogation and Recursive Extraction of Semantics (SPIRES), a Knowledge Extraction approach that relies on the ability of Large Language Models (LLMs) to perform zero-shot learning (ZSL) and general-purpose query answering from flexible prompts and return information conforming to a specified schema. Given a detailed, user-defined knowledge schema and an input text, SPIRES recursively performs prompt interrogation against GPT-3+ to obtain a set of responses matching the provided schema. SPIRES uses existing ontologies and vocabularies to provide identifiers for all matched elements. We present examples of use of SPIRES in different domains, including extraction of food recipes, multi-species cellular signaling pathways, disease treatments, multi-step drug mechanisms, and chemical to disease causation graphs. Current SPIRES accuracy is comparable to the mid-range of existing Relation Extraction (RE) methods, but has the advantage of easy customization, flexibility, and, crucially, the ability to perform new tasks in the absence of any training data. This method supports a general strategy of leveraging the language interpreting capabilities of LLMs to assemble knowledge bases, assisting manual knowledge curation and acquisition while supporting validation with publicly-available databases and ontologies external to the LLM. SPIRES is available as part of the open source OntoGPT package: https://github.com/ monarch-initiative/ontogpt. | 翻訳日:2023-04-07 16:22:11 公開日:2023-04-05 |
# グラフェンシートにおける熱量子相関とテレポーテーション Thermal quantum correlations and Teleportation in a Graphene Sheet ( http://arxiv.org/abs/2304.02710v1 ) ライセンス: Link先を確認 | S. Bhuvaneswari, R. Muthuganesan, R. Radha | (参考訳) 力学系における量子資源の特性は、量子情報理論において対処すべき最も重要な問題の1つである。
本稿では,2次元ハニカム格子内の不規則電子からなるグラフェンシートにおける量子相関とテレポーテーションの挙動について検討する。
我々は、エンタングルメント、測定誘起非局所性、不確実性誘起非局所性といった3つの異なる量子相関尺度を用いる。
グラフェンシートの基底状態特性を量子相関の観点から検討する。
熱平衡において、バンドパラメータは量子相関を強化し、散乱強度は相関を弱めることを示した。
最後に、システムのパラメータがテレポーテーション技術に与える影響についても述べる。 The characterization of quantum resources in dynamical systems is one of the most important problems to be addressed in quantum information theory. In this article, we investigate the behaviors of quantum correlations and teleportation technique in a graphene sheet comprising of disordered electrons in a two-dimensional honeycomb lattice. We use three different measures of quantum correlations such as entanglement, measurement-induced nonlocality and uncertainty-induced nonlocality. We study the ground state properties of the graphene sheet from the perspective of quantum correlations. At thermal equilibrium, we show that the band parameter strengthens the quantum correlations whereas the scattering strength weakens the correlations. Finally, the impact of the system's parameters on the teleportation technique is also expounded. | 翻訳日:2023-04-07 16:21:37 公開日:2023-04-05 |
# 水中環境のリアルタイム3次元マッピング Real-Time Dense 3D Mapping of Underwater Environments ( http://arxiv.org/abs/2304.02704v1 ) ライセンス: Link先を確認 | Weihan Wang, Bharat Joshi, Nathaniel Burgdorfer, Konstantinos Batsos, Alberto Quattrini Li, Philippos Mordohai, Ioannis Rekleitis | (参考訳) 本稿では,資源制約型自律水中車両(AUV)のリアルタイム3次元再構成について述べる。
水中視覚誘導手術は、外力の有無、視界の制限、位置決めの欠如などにおいて3次元運動を組み合わせ、最も困難な作業である。
障害物回避と効果的な経路計画には、オンライン環境の密集した再構築が必要である。
自律的な活動は、環境モニタリング、海洋考古学、資源利用、水中洞窟探査の中心である。
この問題に対処するために,実時間3次元再構成パイプラインとともに,ロバストなVIO手法であるSVIn2を提案する。
4つの挑戦的な水中データセットについて広範囲に評価する。
我々のパイプラインは、1つのCPU上で高いフレームレートで、最先端のオフライン3D再構成手法であるCOLMAPに匹敵する再構成を生成する。 This paper addresses real-time dense 3D reconstruction for a resource-constrained Autonomous Underwater Vehicle (AUV). Underwater vision-guided operations are among the most challenging as they combine 3D motion in the presence of external forces, limited visibility, and absence of global positioning. Obstacle avoidance and effective path planning require online dense reconstructions of the environment. Autonomous operation is central to environmental monitoring, marine archaeology, resource utilization, and underwater cave exploration. To address this problem, we propose to use SVIn2, a robust VIO method, together with a real-time 3D reconstruction pipeline. We provide extensive evaluation on four challenging underwater datasets. Our pipeline produces comparable reconstruction with that of COLMAP, the state-of-the-art offline 3D reconstruction method, at high frame rates on a single CPU. | 翻訳日:2023-04-07 16:21:27 公開日:2023-04-05 |
# 単調関数の固有学習--ブラックボックス補正障壁を越えて Agnostic proper learning of monotone functions: beyond the black-box correction barrier ( http://arxiv.org/abs/2304.02700v1 ) ライセンス: Link先を確認 | Jane Lange and Arsen Vasilyan | (参考訳) 単調ブール関数に対する最初の非依存的,効率的,適切な学習アルゴリズムを提案する。
2^{\tilde{o}(\sqrt{n}/\varepsilon)}$ 未知の関数 $f:\{\pm 1\}^n \rightarrow \{\pm 1\}$ の一様ランダムな例を与えると、アルゴリズムは仮説 $g:\{\pm 1\}^n \rightarrow \{\pm 1\}$ を単調で$(\mathrm{opt} + \varepsilon)$-close to $f$ として出力する。
The running time of the algorithm (and consequently the size and evaluation time of the hypothesis) is also $2^{\tilde{O}(\sqrt{n}/\varepsilon)}$, nearly matching the lower bound of Blais et al (RANDOM '15). We also give an algorithm for estimating up to additive error $\varepsilon$ the distance of an unknown function $f$ to monotone using a run-time of $2^{\tilde{O}(\sqrt{n}/\varepsilon)}$. Previously, for both of these problems, sample-efficient algorithms were known, but these algorithms were not run-time efficient. Our work thus closes this gap in our knowledge between the run-time and sample complexity. This work builds upon the improper learning algorithm of Bshouty and Tamon (JACM '96) and the proper semiagnostic learning algorithm of Lange, Rubinfeld, and Vasilyan (FOCS '22), which obtains a non-monotone Boolean-valued hypothesis, then ``corrects'' it to monotone using query-efficient local computation algorithms on graphs.
このブラックボックス補正アプローチは、2\mathrm{opt} + \varepsilon$ information-theoretically 以上の誤差を達成でき、この障壁をバイパスする。
a)不適切な学習者を凸最適化ステップで増強し、
b) 値がブールに丸まる前に実値関数を学習し、修正すること。
実数値補正アルゴリズムは,非ボアラベルを持つ一般ポセット上の関数 [lrv22] の ``poset sorting''' 問題を解く。 We give the first agnostic, efficient, proper learning algorithm for monotone Boolean functions. Given $2^{\tilde{O}(\sqrt{n}/\varepsilon)}$ uniformly random examples of an unknown function $f:\{\pm 1\}^n \rightarrow \{\pm 1\}$, our algorithm outputs a hypothesis $g:\{\pm 1\}^n \rightarrow \{\pm 1\}$ that is monotone and $(\mathrm{opt} + \varepsilon)$-close to $f$, where $\mathrm{opt}$ is the distance from $f$ to the closest monotone function. The running time of the algorithm (and consequently the size and evaluation time of the hypothesis) is also $2^{\tilde{O}(\sqrt{n}/\varepsilon)}$, nearly matching the lower bound of Blais et al (RANDOM '15). We also give an algorithm for estimating up to additive error $\varepsilon$ the distance of an unknown function $f$ to monotone using a run-time of $2^{\tilde{O}(\sqrt{n}/\varepsilon)}$. Previously, for both of these problems, sample-efficient algorithms were known, but these algorithms were not run-time efficient. Our work thus closes this gap in our knowledge between the run-time and sample complexity. This work builds upon the improper learning algorithm of Bshouty and Tamon (JACM '96) and the proper semiagnostic learning algorithm of Lange, Rubinfeld, and Vasilyan (FOCS '22), which obtains a non-monotone Boolean-valued hypothesis, then ``corrects'' it to monotone using query-efficient local computation algorithms on graphs. This black-box correction approach can achieve no error better than $2\mathrm{opt} + \varepsilon$ information-theoretically; we bypass this barrier by a) augmenting the improper learner with a convex optimization step, and b) learning and correcting a real-valued function before rounding its values to Boolean. Our real-valued correction algorithm solves the ``poset sorting'' problem of [LRV22] for functions over general posets with non-Boolean labels. | 翻訳日:2023-04-07 16:21:15 公開日:2023-04-05 |
# 単一細胞解析の革命:細胞型アノテーションのための大規模言語モデルの力 Revolutionizing Single Cell Analysis: The Power of Large Language Models for Cell Type Annotation ( http://arxiv.org/abs/2304.02697v1 ) ライセンス: Link先を確認 | Zehua Zeng and Hongwu Du | (参考訳) 近年、単細胞RNAシークエンシングは細胞多様性と機能を研究するために広く用いられている技術となっている。
しかし、細胞生物学や遺伝子機能に関する広範な知識を必要とするため、単一細胞データから正確に細胞型をアノテートすることは難しい課題であった。
2023年にchatgptやnew bingといった大規模な言語モデルが出現し、科学文献を統合し、細胞タイプの正確なアノテーションを提供することで、このプロセスに革命をもたらした。
このブレークスルーにより、研究者は文学レビューをより効率的に正確に実行でき、細胞型アノテーションに関する新たな洞察を発見できる可能性がある。
単一細胞のアノテートにChatGPTを用いることで、レア細胞型を機能に関連付け、これまで見落とされた細胞サブタイプの特異的な分化軌跡を明らかにすることができる。
これは、がんの進行、哺乳類の発達、幹細胞の分化を理解する上で重要な応用となり、分化経路を阻害し生命科学の重要な問題を解決する鍵細胞の発見に繋がる可能性がある。
全体として、単一セルデータにおける細胞型アノテーションの将来は期待でき、大規模言語モデルは単一セル解析の歴史において重要なマイルストーンとなるだろう。 In recent years, single cell RNA sequencing has become a widely used technique to study cellular diversity and function. However, accurately annotating cell types from single cell data has been a challenging task, as it requires extensive knowledge of cell biology and gene function. The emergence of large language models such as ChatGPT and New Bing in 2023 has revolutionized this process by integrating the scientific literature and providing accurate annotations of cell types. This breakthrough enables researchers to conduct literature reviews more efficiently and accurately, and can potentially uncover new insights into cell type annotation. By using ChatGPT to annotate single cell data, we can relate rare cell type to their function and reveal specific differentiation trajectories of cell subtypes that were previously overlooked. This can have important applications in understanding cancer progression, mammalian development, and stem cell differentiation, and can potentially lead to the discovery of key cells that interrupt the differentiation pathway and solve key problems in the life sciences. Overall, the future of cell type annotation in single cell data looks promising and the Large Language model will be an important milestone in the history of single cell analysis. | 翻訳日:2023-04-07 16:20:30 公開日:2023-04-05 |
# イベントを伴う単一ぼやけた画像からの連続シーンダイナミクスの復元 Recovering Continuous Scene Dynamics from A Single Blurry Image with Events ( http://arxiv.org/abs/2304.02695v1 ) ライセンス: Link先を確認 | Zhangyi Cheng, Xiang Zhang, Lei Yu, Jianzhuang Liu, Wen Yang, Gui-Song Xia | (参考訳) 本稿では,1つの動きブルイメージをイベントで復調し,時間的に連続的なシーンダイナミクスを動作ぼけの裏で暗号化することを目的とする。
この目的を達成するために、Implicit Video Function (IVF) が学習され、単一の動きぼやけた画像と同時イベントを同時に表現し、画像露光範囲における任意のタイムスタンプの遅延シャープな画像復元を可能にする。
具体的には、イベントノイズを抑制しながら時間的曖昧さを緩和し、イベント特徴の高時間分解能と画像特徴の滑らかさの両方の利点を効果的に活用するために、デュアルアテンショントランスが提案されている。
提案するネットワークは,限られた参照タイムスタンプの地中画像の監督のみで訓練される。
非参照タイムスタンプの復元性を高め、全体的なシャープ性を向上させるために、モーションおよびテクスチャガイドによる監督を同時に行う。
合成, 半合成, 実世界のデータセット実験により, 提案手法はPSNRとSSIMの両方の客観的測定と主観評価において, 最先端の手法よりも高い性能を示した。 This paper aims at demystifying a single motion-blurred image with events and revealing temporally continuous scene dynamics encrypted behind motion blurs. To achieve this end, an Implicit Video Function (IVF) is learned to represent a single motion blurred image with concurrent events, enabling the latent sharp image restoration of arbitrary timestamps in the range of imaging exposures. Specifically, a dual attention transformer is proposed to efficiently leverage merits from both modalities, i.e., the high temporal resolution of event features and the smoothness of image features, alleviating temporal ambiguities while suppressing the event noise. The proposed network is trained only with the supervision of ground-truth images of limited referenced timestamps. Motion- and texture-guided supervisions are employed simultaneously to enhance restorations of the non-referenced timestamps and improve the overall sharpness. Experiments on synthetic, semi-synthetic, and real-world datasets demonstrate that our proposed method outperforms state-of-the-art methods by a large margin in terms of both objective PSNR and SSIM measurements and subjective evaluations. | 翻訳日:2023-04-07 16:20:09 公開日:2023-04-05 |
# 画像セグメンテーションモデルのための認証ラディウス誘導攻撃フレームワーク A Certified Radius-Guided Attack Framework to Image Segmentation Models ( http://arxiv.org/abs/2304.02693v1 ) ライセンス: Link先を確認 | Wenjie Qu, Youqi Li, Binghui Wang | (参考訳) 画像セグメンテーションは多くの安全クリティカルなアプリケーションにおいて重要な問題である。
近年の研究では、現代の画像セグメンテーションモデルは敵の摂動に弱いが、既存の攻撃手法は主に画像分類モデルを攻撃するという考え方に従っている。
画像セグメンテーションと分類には固有の差異があり,特に画像セグメンテーションモデルに対して攻撃フレームワークを設計する。
我々の攻撃フレームワークは、もともとディフェンダーが分類モデルに対する敵の摂動を防御するために用いた認証半径にインスパイアされている。
我々は,認証された半径の特性を活用した最初の攻撃者であり,画像分割モデルに対する認証された半径誘導攻撃フレームワークを提案する。
具体的には、まず、分類モデルの最先端認証手法であるランダム化平滑化を適用し、画素の認証半径を導出する。
次に、比較的小さな半径で画素を破壊することに集中し、既存のホワイトボックス攻撃に差し込んだとき、ピクセル単位の半径誘導損失を設計し、認証された半径誘導されたホワイトボックス攻撃を発生させる。
次に,Banditによる画像分割モデルに対する最初のブラックボックス攻撃を提案する。
我々は,banditフィードバックに基づく新しい勾配推定器を設計した。
我々は、この勾配推定器を用いて、プロジェクテッド・バンディット勾配降下(PBGD)攻撃、および認定半径誘導PBGD(CR-PBGD)攻撃を設計する。
PBGDとCR-PBGDの攻撃が漸近的に最適な攻撃性能を最適な速度で達成できることを示す。
我々は,複数の現代画像セグメントモデルとデータセットに対して,認定ラディウスガイド付きホワイトボックスとブラックボックス攻撃を評価した。
以上の結果から,認定半径誘導攻撃フレームワークの有効性が検証された。 Image segmentation is an important problem in many safety-critical applications. Recent studies show that modern image segmentation models are vulnerable to adversarial perturbations, while existing attack methods mainly follow the idea of attacking image classification models. We argue that image segmentation and classification have inherent differences, and design an attack framework specially for image segmentation models. Our attack framework is inspired by certified radius, which was originally used by defenders to defend against adversarial perturbations to classification models. We are the first, from the attacker perspective, to leverage the properties of certified radius and propose a certified radius guided attack framework against image segmentation models. Specifically, we first adapt randomized smoothing, the state-of-the-art certification method for classification models, to derive the pixel's certified radius. We then focus more on disrupting pixels with relatively smaller certified radii and design a pixel-wise certified radius guided loss, when plugged into any existing white-box attack, yields our certified radius-guided white-box attack. Next, we propose the first black-box attack to image segmentation models via bandit. We design a novel gradient estimator, based on bandit feedback, which is query-efficient and provably unbiased and stable. We use this gradient estimator to design a projected bandit gradient descent (PBGD) attack, as well as a certified radius-guided PBGD (CR-PBGD) attack. We prove our PBGD and CR-PBGD attacks can achieve asymptotically optimal attack performance with an optimal rate. We evaluate our certified-radius guided white-box and black-box attacks on multiple modern image segmentation models and datasets. Our results validate the effectiveness of our certified radius-guided attack framework. | 翻訳日:2023-04-07 16:19:49 公開日:2023-04-05 |
# 黒-白間孔転移の数値解法 A numerical approach to the Black-to-White hole transition ( http://arxiv.org/abs/2304.02691v1 ) ライセンス: Link先を確認 | Pietropaolo Frisoni | (参考訳) ループ量子重力共変定式法とローレンツ型エングル・ペレイラ・ロヴェッリ・リバインモデルを用いて,ブラックホール間遷移振幅を数値的に計算するアルゴリズムを概説する。
このアルゴリズムを用いて, 半古典的極限における同じ物理観測値の過去の解析的推定値と比較し, 深部量子状態における遷移の交差時間を計算する。
さらに,現在文献に残されているものに対する代替手法を用いて,交差時間を解析的に評価する方法を示す。
この方法は非常に簡単な計算を必要とし、横断時間は遷移の外部幾何学に依存しない、と強調する。 We outline an algorithm to compute numerically the black-to-white hole transition amplitude, using the loop quantum gravity covariant formulation and the Lorentzian Engle-Pereira-Rovelli-Livine model. We apply the algorithm to calculate the crossing time of the transition in the deep quantum regime, comparing our result with previous analytical estimates of the same physical observable in the semiclassical limit. Furthermore, we show how to evaluate the crossing time analytically using an alternative approach with respect to the one currently present in the literature. This method requires much easier calculations and emphasizes that the crossing time does not depend on the extrinsic geometry of the transition. | 翻訳日:2023-04-07 16:19:20 公開日:2023-04-05 |
# 2層CANFを用いた階層的Bフレーム映像符号化 Hierarchical B-frame Video Coding Using Two-Layer CANF without Motion Coding ( http://arxiv.org/abs/2304.02690v1 ) ライセンス: Link先を確認 | David Alexandre, Hsueh-Ming Hang, Wen-Hsiao Peng | (参考訳) 典型的なビデオ圧縮システムは、モーションコーディングと残留符号化の2つの主要モジュールから構成される。
この一般的なアーキテクチャは、古典的なコーディングスキーム(国際標準H.265やH.266など)やディープラーニングベースのコーディングスキームに採用されている。
本稿では,2層型条件拡張正規化フロー(CANF)に基づく新しいBフレーム符号化アーキテクチャを提案する。
動きの情報を一切送信しないという驚くべき特徴がある。
提案する動画圧縮方式は,学習した映像符号化に新たな方向性を与える。
我々のベース層は、フルレゾルモーション圧縮機を置き換える低解像度画像圧縮機である。
低解像度符号化画像をワープされた高解像度画像とマージし、フル解像度でエンハンスメント層画像符号化の条件付け信号として高品質な画像を生成する。
このアーキテクチャの利点の1つは、運動情報圧縮機の除去による計算複雑性の大幅な低減である。
また,送信された潜在サンプルを減らすためのスキップモード符号化手法も採用している。
提案方式の速度歪み性能は,最先端のBフレーム符号化方式であるB-CANFよりも若干低いが,他のBフレーム符号化方式よりも優れている。
しかし、B-CANFと比較して、符号化のための乗算累積演算(MAC)の45%、復号のためのMACの27%を節約する。
コードはhttps://nycu-clab.github.ioで入手できる。 Typical video compression systems consist of two main modules: motion coding and residual coding. This general architecture is adopted by classical coding schemes (such as international standards H.265 and H.266) and deep learning-based coding schemes. We propose a novel B-frame coding architecture based on two-layer Conditional Augmented Normalization Flows (CANF). It has the striking feature of not transmitting any motion information. Our proposed idea of video compression without motion coding offers a new direction for learned video coding. Our base layer is a low-resolution image compressor that replaces the full-resolution motion compressor. The low-resolution coded image is merged with the warped high-resolution images to generate a high-quality image as a conditioning signal for the enhancement-layer image coding in full resolution. One advantage of this architecture is significantly reduced computational complexity due to eliminating the motion information compressor. In addition, we adopt a skip-mode coding technique to reduce the transmitted latent samples. The rate-distortion performance of our scheme is slightly lower than that of the state-of-the-art learned B-frame coding scheme, B-CANF, but outperforms other learned B-frame coding schemes. However, compared to B-CANF, our scheme saves 45% of multiply-accumulate operations (MACs) for encoding and 27% of MACs for decoding. The code is available at https://nycu-clab.github.io. | 翻訳日:2023-04-07 16:19:07 公開日:2023-04-05 |
# 分散デジタル履歴構築のためのOCR Efficient OCR for Building a Diverse Digital History ( http://arxiv.org/abs/2304.02737v1 ) ライセンス: Link先を確認 | Jacob Carlson and Tom Bryan and Melissa Dell | (参考訳) 何千人ものユーザーがデジタルアーカイブを毎日閲覧しているが、アクセス可能な情報は、ドキュメンタリーの歴史の多様性に左右されない。
オプティカル文字認識(OCR)で一般的に使用されるシーケンス・ツー・シーケンスアーキテクチャは、視覚と言語モデルを共同で学習するが、言語ビジョンモデルの学習には広範囲のラベル付きシーケンスと計算が必要であるため、低リソースの文書コレクションには拡張性に欠ける。
本研究では,OCRを文字レベルの画像検索問題として,対照的に訓練された視覚エンコーダを用いてモデル化する。
モデルは文字の視覚的特徴のみを学習するため、既存のアーキテクチャよりもサンプル効率が高く拡張性が高く、既存のソリューションが失敗する環境で正確なOCRを可能にする。
重要なことに、このモデルは、デジタル歴史をよりドキュメンタリー歴史を代表するものにするコミュニティエンゲージメントのための新しい道を開く。 Thousands of users consult digital archives daily, but the information they can access is unrepresentative of the diversity of documentary history. The sequence-to-sequence architecture typically used for optical character recognition (OCR) - which jointly learns a vision and language model - is poorly extensible to low-resource document collections, as learning a language-vision model requires extensive labeled sequences and compute. This study models OCR as a character level image retrieval problem, using a contrastively trained vision encoder. Because the model only learns characters' visual features, it is more sample efficient and extensible than existing architectures, enabling accurate OCR in settings where existing solutions fail. Crucially, the model opens new avenues for community engagement in making digital history more representative of documentary history. | 翻訳日:2023-04-07 16:11:58 公開日:2023-04-05 |
# リモートコラボレーションにおけるホロレンズカメラの画像安定化 Image Stabilization for Hololens Camera in Remote Collaboration ( http://arxiv.org/abs/2304.02736v1 ) ライセンス: Link先を確認 | Gowtham Senthil, Siva Vignesh Krishnan, Annamalai Lakshmanan, Florence Kissling | (参考訳) 新しい技術の出現に伴い、拡張現実(AR)はリモートコラボレーションにおいて効果的なツールとなっている。
narrow field-of-view (fov)とmotion blurは、arヘッドセットのリモートビューアに限定された認識を伴う不快な体験を提供する。
本稿では,この問題に取り組み,より大きなfovで安定した視聴体験を実現するための2段階パイプラインを提案する。
このソリューションには、屋内環境のオフライン3D再構築と、ARデバイスのライブポーズのみを使用したレンダリングの強化が含まれる。
我々は,RGB-D幾何アプローチとニューラルレージアンスフィールド(NeRF)という2つの異なる3次元再構成手法を,データ要求,再構成品質,レンダリング,トレーニング時間に基づいて実験・評価した。
これらの手法から生成されたシーケンスは、よりスムーズな遷移を示し、環境のより良い視点を提供した。
幾何ベースの拡張fov法は、他の試みよりもベターな出力がなく、レンダリングが改善された。
構造類似度指数(SSIM)とPak Signal to Noise Ratio(PSNR)の測定値を用いて,幾何に基づく拡張FoV法によるレンダリング品質が良いことを示す。
code repositoryhttps://github.com/MixedRealityETHZ/ImageStabilization.comへのリンク。 With the advent of new technologies, Augmented Reality (AR) has become an effective tool in remote collaboration. Narrow field-of-view (FoV) and motion blur can offer an unpleasant experience with limited cognition for remote viewers of AR headsets. In this article, we propose a two-stage pipeline to tackle this issue and ensure a stable viewing experience with a larger FoV. The solution involves an offline 3D reconstruction of the indoor environment, followed by enhanced rendering using only the live poses of AR device. We experiment with and evaluate the two different 3D reconstruction methods, RGB-D geometric approach and Neural Radiance Fields (NeRF), based on their data requirements, reconstruction quality, rendering, and training times. The generated sequences from these methods had smoother transitions and provided a better perspective of the environment. The geometry-based enhanced FoV method had better renderings as it lacked blurry outputs making it better than the other attempted approaches. Structural Similarity Index (SSIM) and Peak Signal to Noise Ratio (PSNR) metrics were used to quantitatively show that the rendering quality using the geometry-based enhanced FoV method is better. Link to the code repository - https://github.com/MixedRealityETHZ/ImageStabilization. | 翻訳日:2023-04-07 16:11:42 公開日:2023-04-05 |
# 視覚に基づくエンドツーエンド運転ポリシーにおける学習安定性の意識 Learning Stability Attention in Vision-based End-to-end Driving Policies ( http://arxiv.org/abs/2304.02733v1 ) ライセンス: Link先を確認 | Tsun-Hsuan Wang, Wei Xiao, Makram Chahine, Alexander Amini, Ramin Hasani, Daniela Rus | (参考訳) 現代のエンドツーエンド学習システムは、知覚から制御を明示的に推論することを学ぶことができる。
しかし、これらの系は、しばしば非構造的で高次元で複雑な観測空間(例えば、ピクセル入力のストリームからの自律運転)に露出するため、安定性と堅牢性を保証することは困難である。
本稿では, 制御型リアプノフ関数(CLF)を利用して, エンドツーエンドのビジョンベースのポリシに安定性を付与し, 環境変化に対処し, 学習柔軟性を向上させるために, CLF(att-CLF)に安定性の注意を払うことを提案する。
また,att-CLFに密に統合した不確実性伝播手法を提案する。
本研究では,従来のCLFとの比較,モデル予測制御,バニラエンドツーエンド学習を,写真実写シミュレータおよび実物大の自律走行車上で実施することで,att-CLFの有効性を実証する。 Modern end-to-end learning systems can learn to explicitly infer control from perception. However, it is difficult to guarantee stability and robustness for these systems since they are often exposed to unstructured, high-dimensional, and complex observation spaces (e.g., autonomous driving from a stream of pixel inputs). We propose to leverage control Lyapunov functions (CLFs) to equip end-to-end vision-based policies with stability properties and introduce stability attention in CLFs (att-CLFs) to tackle environmental changes and improve learning flexibility. We also present an uncertainty propagation technique that is tightly integrated into att-CLFs. We demonstrate the effectiveness of att-CLFs via comparison with classical CLFs, model predictive control, and vanilla end-to-end learning in a photo-realistic simulator and on a real full-scale autonomous vehicle. | 翻訳日:2023-04-07 16:11:21 公開日:2023-04-05 |
# 超不変テンソルネットワークからのホログラフィック符号 Holographic Codes from Hyperinvariant Tensor Networks ( http://arxiv.org/abs/2304.02732v1 ) ライセンス: Link先を確認 | Matthew Steinberg, Sebastian Feld, Alexander Jahn | (参考訳) ホログラフィック量子エラー訂正符号は、反ド・ジッター/共形場理論(ads/cft)対応のようなバルク/境界双対性のモデルであり、高次元バルク幾何はコードの論理自由度と関連付けられる。
テンソルネットワークに基づく従来の離散ホログラフィック符号は、相補的回復などの連続AdS/CFTから期待される一般的な符号特性を再現している。
しかし、そのようなテンソルネットワークの境界状態は通常、CFT境界状態の期待相関関数を示さない。
本研究では,従来提案されていた超不変テンソルネットワークを量子コードに拡張し,正確な境界相関関数を生成する,新しいホログラフィック符号のクラスを示す。
このアプローチは、バルクの論理状態と境界状態の臨界再正規化群フローの間の辞書を与える。
さらに、これらの符号は、小さな量子重力補正の下でAdS/CFTから期待される相補的回復の状態依存的な分解を示す。 Holographic quantum-error correcting codes are models of bulk/boundary dualities such as the anti-de Sitter/conformal field theory (AdS/CFT) correspondence, where a higher-dimensional bulk geometry is associated with the code's logical degrees of freedom. Previous discrete holographic codes based on tensor networks have reproduced the general code properties expected from continuum AdS/CFT, such as complementary recovery. However, the boundary states of such tensor networks typically do not exhibit the expected correlation functions of CFT boundary states. In this work, we show that a new class of exact holographic codes, extending the previously proposed hyperinvariant tensor networks into quantum codes, produce the correct boundary correlation functions. This approach yields a dictionary between logical states in the bulk and the critical renormalization group flow of boundary states. Furthermore, these codes exhibit a state-dependent breakdown of complementary recovery as expected from AdS/CFT under small quantum gravity corrections. | 翻訳日:2023-04-07 16:11:04 公開日:2023-04-05 |
# FMG-NetとW-Net:医療画像セグメンテーションのためのマルチグリッド型ディープラーニングアーキテクチャ FMG-Net and W-Net: Multigrid Inspired Deep Learning Architectures For Medical Imaging Segmentation ( http://arxiv.org/abs/2304.02725v1 ) ライセンス: Link先を確認 | Adrian Celaya, Beatrice Riviere, David Fuentes | (参考訳) 正確な医療画像分割は、正確かつ効果的な医療介入に不可欠である。
しかしながら、医療画像分割における畳み込みニューラルネットワーク(cnns)の成功にもかかわらず、微細な特徴や画像スケールのバリエーションを扱う上での課題に直面している。
これらの課題は、brats multi-label brain tumor segmentation challengeのような複雑で挑戦的なセグメンテーションタスクにおいて特に顕著である。
この課題では、様々な腫瘍サブコンポーネントを正確に区分けし、サイズや形状が大きく異なるが、最先端の手法でさえ重大な誤りを生じさせる。
そこで本稿では,方程式の線形系をcnnに解くための幾何学的マルチグリッド法の原理を取り入れたfmg-netとw-netの2つのアーキテクチャを提案する。
BraTS 2020データセットに対する実験により,FMG-NetとW-Netはともに,腫瘍のサブコンポーネントセグメンテーション精度とトレーニング効率に関して,広く使用されているU-Netアーキテクチャを上回る性能を示した。
これらの知見は,医療画像セグメンテーションの精度と効率を向上させるために,マルチグリッド法の原理をCNNに取り入れる可能性を示している。 Accurate medical imaging segmentation is critical for precise and effective medical interventions. However, despite the success of convolutional neural networks (CNNs) in medical image segmentation, they still face challenges in handling fine-scale features and variations in image scales. These challenges are particularly evident in complex and challenging segmentation tasks, such as the BraTS multi-label brain tumor segmentation challenge. In this task, accurately segmenting the various tumor sub-components, which vary significantly in size and shape, remains a significant challenge, with even state-of-the-art methods producing substantial errors. Therefore, we propose two architectures, FMG-Net and W-Net, that incorporate the principles of geometric multigrid methods for solving linear systems of equations into CNNs to address these challenges. Our experiments on the BraTS 2020 dataset demonstrate that both FMG-Net and W-Net outperform the widely used U-Net architecture regarding tumor subcomponent segmentation accuracy and training efficiency. These findings highlight the potential of incorporating the principles of multigrid methods into CNNs to improve the accuracy and efficiency of medical imaging segmentation. | 翻訳日:2023-04-07 16:10:47 公開日:2023-04-05 |
# M-Mode Lung UltrasoundにおけるAbsent Lung Sliding検出のための自己監督事前訓練法の有用性の検討 Exploring the Utility of Self-Supervised Pretraining Strategies for the Detection of Absent Lung Sliding in M-Mode Lung Ultrasound ( http://arxiv.org/abs/2304.02724v1 ) ライセンス: Link先を確認 | Blake VanBerlo, Brian Li, Alexander Wong, Jesse Hoey, Robert Arntfield | (参考訳) 医療画像における教師付き学習タスクの性能を向上させるために,自己教師付き事前学習が観察されている。
本研究は,Mモード肺超音波画像における肺スライディング分類の下流タスクに対する教師付き微調整前における自己指導型プレトレーニングの有用性について検討した。
我々は,同じBモード画像から構築したMモード画像をペアリングする新しいペアワイズ関係を提案し,Mモード肺超音波に特有のデータ拡張方法の有用性について検討する。
以上の結果から, 自己指導型事前訓練では, フルインスペクションよりも優れた性能が得られることが示唆された。
さらに,大量の未ラベルデータを含むと,外部の検証データセットの性能が向上し,自動超音波解釈における一般化性向上のための自己監督の価値が強調される。
本研究は,Mモード超音波に対する自己教師付きプレトレーニングの影響を,著者の知る限り初めて評価したものである。 Self-supervised pretraining has been observed to improve performance in supervised learning tasks in medical imaging. This study investigates the utility of self-supervised pretraining prior to conducting supervised fine-tuning for the downstream task of lung sliding classification in M-mode lung ultrasound images. We propose a novel pairwise relationship that couples M-mode images constructed from the same B-mode image and investigate the utility of data augmentation procedure specific to M-mode lung ultrasound. The results indicate that self-supervised pretraining yields better performance than full supervision, most notably for feature extractors not initialized with ImageNet-pretrained weights. Moreover, we observe that including a vast volume of unlabelled data results in improved performance on external validation datasets, underscoring the value of self-supervision for improving generalizability in automatic ultrasound interpretation. To the authors' best knowledge, this study is the first to characterize the influence of self-supervised pretraining for M-mode ultrasound. | 翻訳日:2023-04-07 16:10:27 公開日:2023-04-05 |
# 非対称性と超越:推論効率向上のためのシーケンスモデルに対するシーケンスの構造的プルーニング To Asymmetry and Beyond: Structured Pruning of Sequence to Sequence Models for Improved Inference Efficiency ( http://arxiv.org/abs/2304.02721v1 ) ライセンス: Link先を確認 | Daniel Campos, ChengXiang Zhai | (参考訳) sequence-to-sequence言語モデルは、一貫性があり、関連性があり、簡潔な抽象的な要約を生成するのに使うことができる。
それでも、モデルサイズはレイテンシに敏感な、あるいはWebスケールの実装を難しくする可能性がある。
本稿では,広く使用されている要約データセットにおけるモデルサイズ,構造化プルーニング,推論効率,要約精度の関係について検討する。
モデル精度はエンコーダサイズに結びついており、推論効率はデコーダに接続されていることを示す。
非対称プルーニングを使用することで、ルージュ-2では1ポイントの損失で推論遅延が約3倍改善される可能性がある。
さらに、モデルのサイズやデータセットのバリエーションによって、平均劣化と非対称性の役割が一致していることが分かる。 Sequence-to-sequence language models can be used to produce abstractive summaries which are coherent, relevant, and concise. Still, model sizes can make deployment in latency-sensitive or web-scale implementations difficult. This paper studies the relationship between model size, structured pruning, inference efficiency, and summarization accuracy on widely used summarization datasets. We show that model accuracy is tied to the encoder size while inference efficiency is connected to the decoder. Using asymmetric pruning can lead to nearly 3x improvement in inference latency with ~1 point loss in Rouge-2. Moreover, we find both the average degradation and the role of asymmetry to be consistent across model sizes and variations in datasets. | 翻訳日:2023-04-07 16:10:09 公開日:2023-04-05 |
# 医用画像分割のための逆インテンシティアタックによる領域一般化 Domain Generalization with Adversarial Intensity Attack for Medical Image Segmentation ( http://arxiv.org/abs/2304.02720v1 ) ライセンス: Link先を確認 | Zheyuan Zhang, Bin Wang, Lanhong Yao, Ugur Demir, Debesh Jha, Ismail Baris Turkbey, Boqing Gong, Ulas Bagci | (参考訳) ほとんどの統計学習アルゴリズムは、過剰に単純化された仮定、すなわち、トレーニングデータとテストデータは独立に分散している。
しかし、現実のシナリオでは、トレーニング中に露出しなかった新しいドメインや異なるドメインのデータにモデルが遭遇することが一般的である。
これは、取得装置、イメージングプロトコル、患者特性の違いにより、医療画像の応用においてしばしば発生する。
この問題に対処するために、dg(domain generalization)は、モデルがさまざまなドメインのバリエーションにロバストなドメイン不変特徴を学習することによって、それまで見つからなかったドメインからのデータを扱うことができる、有望な方向である。
そこで本稿では,AdverIN(Adversarial Intensity Attack)と呼ばれる新たなDG手法を提案する。
眼底2D,視床3D,前立腺MRIなどの多領域セグメンテーションデータセットについて広範な評価実験を行った。
その結果,AdverINはセグメンテーションモデルの一般化能力を大幅に向上し,これらの挑戦的なデータセットを大幅に改善した。
コードは出版時に入手できる。 Most statistical learning algorithms rely on an over-simplified assumption, that is, the train and test data are independent and identically distributed. In real-world scenarios, however, it is common for models to encounter data from new and different domains to which they were not exposed to during training. This is often the case in medical imaging applications due to differences in acquisition devices, imaging protocols, and patient characteristics. To address this problem, domain generalization (DG) is a promising direction as it enables models to handle data from previously unseen domains by learning domain-invariant features robust to variations across different domains. To this end, we introduce a novel DG method called Adversarial Intensity Attack (AdverIN), which leverages adversarial training to generate training data with an infinite number of styles and increase data diversity while preserving essential content information. We conduct extensive evaluation experiments on various multi-domain segmentation datasets, including 2D retinal fundus optic disc/cup and 3D prostate MRI. Our results demonstrate that AdverIN significantly improves the generalization ability of the segmentation models, achieving significant improvement on these challenging datasets. Code is available upon publication. | 翻訳日:2023-04-07 16:09:56 公開日:2023-04-05 |
# 航空映像における平面ホログラフィー推定のための知識リッチシーケンスモデル Learning Knowledge-Rich Sequential Model for Planar Homography Estimation in Aerial Video ( http://arxiv.org/abs/2304.02715v1 ) ライセンス: Link先を確認 | Pu Li, Xiaobai Liu | (参考訳) 本稿では,生の空中映像を利用して連続する映像フレーム間の平面ホモグラフィック変換を推定する教師なし手法を提案する。
従来の学習ベースの推定器は、一対のイメージを使って、平面的ホモグラフィック変換を推定するが、特に空中ビデオに代えて、厳しい過度な問題に悩まされる。
この問題に対処するため,ビデオフレームのシーケンスを直接処理し,その一対の平面ホモグラフ変換をバッチで推定する逐次推定器を開発した。
また,このようなシーケンス・ツー・シーケンスモデルの学習を正則化するために,空間-時間的知識の組を組み込んだ。
我々は,難易度の高い空中映像の集合を収集し,提案手法と代替アルゴリズムを比較した。
経験的研究から,我々のシーケンシャルモデルが代替画像ベース手法よりも大幅に改善し,知識豊富な正規化によりシステム性能がさらに向上することが示唆された。
私たちのコードとデータセットはhttps://github.com/Paul-LiPu/DeepVideoHomographyで確認できる。 This paper presents an unsupervised approach that leverages raw aerial videos to learn to estimate planar homographic transformation between consecutive video frames. Previous learning-based estimators work on pairs of images to estimate their planar homographic transformations but suffer from severe over-fitting issues, especially when applying over aerial videos. To address this concern, we develop a sequential estimator that directly processes a sequence of video frames and estimates their pairwise planar homographic transformations in batches. We also incorporate a set of spatial-temporal knowledge to regularize the learning of such a sequence-to-sequence model. We collect a set of challenging aerial videos and compare the proposed method to the alternative algorithms. Empirical studies suggest that our sequential model achieves significant improvement over alternative image-based methods and the knowledge-rich regularization further boosts our system performance. Our codes and dataset could be found at https://github.com/Paul-LiPu/DeepVideoHomography | 翻訳日:2023-04-07 16:09:35 公開日:2023-04-05 |
# 時間周波数スペクトログラムにおけるホイッスル抽出のための段階的gan学習 Learning Stage-wise GANs for Whistle Extraction in Time-Frequency Spectrograms ( http://arxiv.org/abs/2304.02714v1 ) ライセンス: Link先を確認 | Pu Li, Marie Roch, Holger Klinck, Erica Fleishman, Douglas Gillespie, Eva-Marie Nosal, Yu Shiu, Xiaobai Liu | (参考訳) ホイッスル輪郭抽出は、時間周波数スペクトログラムをポリリンとして導出することを目的としている。
歯付きクジラの場合、ホイッスル抽出結果は動物の存在量、種同一性、社会活動の分析の基礎となる。
過去数十年間、長期記録システムが安価になったため、大量の記録データを処理するための自動ホイッスル抽出アルゴリズムが提案された。
近年, 深層学習に基づく手法により, 様々な騒音条件下でのホイッスル抽出性能が向上した。
しかし、そのようなネットワークのトレーニングには大量の労働集約的なアノテーションが必要であり、多くの種で利用できない。
この制限を克服するために,spectrogram における背景雑音の発生,whis パターンの生成,whis 信号の生成の3段階を通じて,深層モデル学習に適した新たなwhis データをコンパイルする段階的生成逆ネットワーク (gans) の枠組みを提案する。
サンプル中の異なるコンポーネントの生成を分離することにより、専門家のアノテートデータが少ない場合でも、視覚的に有望なホイッスルデータとラベルを構成する。
人間の注釈付きデータの量にかかわらず、提案したデータ拡張フレームワークは、ホイッスル抽出平均F1スコアにおいて最大1.69の増加とともに、ホイッスル抽出モデルの性能が一貫した改善をもたらす。
当社のステージワイズganは,拡張データによるホイッスル抽出モデルの改善においても,単一のganを越えている。
データとコードはhttps://github.com/Paul-LiPu/CompositeGAN\_WhistleAugmentで入手できる。 Whistle contour extraction aims to derive animal whistles from time-frequency spectrograms as polylines. For toothed whales, whistle extraction results can serve as the basis for analyzing animal abundance, species identity, and social activities. During the last few decades, as long-term recording systems have become affordable, automated whistle extraction algorithms were proposed to process large volumes of recording data. Recently, a deep learning-based method demonstrated superior performance in extracting whistles under varying noise conditions. However, training such networks requires a large amount of labor-intensive annotation, which is not available for many species. To overcome this limitation, we present a framework of stage-wise generative adversarial networks (GANs), which compile new whistle data suitable for deep model training via three stages: generation of background noise in the spectrogram, generation of whistle contours, and generation of whistle signals. By separating the generation of different components in the samples, our framework composes visually promising whistle data and labels even when few expert annotated data are available. Regardless of the amount of human-annotated data, the proposed data augmentation framework leads to a consistent improvement in performance of the whistle extraction model, with a maximum increase of 1.69 in the whistle extraction mean F1-score. Our stage-wise GAN also surpasses one single GAN in improving whistle extraction models with augmented data. The data and code will be available at https://github.com/Paul-LiPu/CompositeGAN\_WhistleAugment. | 翻訳日:2023-04-07 16:09:19 公開日:2023-04-05 |
# メタンマッパー:メタン検出用分光吸収型ハイパースペクトル変換器 MethaneMapper: Spectral Absorption aware Hyperspectral Transformer for Methane Detection ( http://arxiv.org/abs/2304.02767v1 ) ライセンス: Link先を確認 | Satish Kumar, Ivan Arevalo, ASM Iftekhar, B S Manjunath | (参考訳) メタン(CH$_4$)は、地球温暖化の主要な要因である。
最近の空中可視赤外イメージング分光器(AVIRIS-NG)は、メタン放出の定量的マッピングに非常に有用である。
既存の分析方法は、ローカルな地形条件に敏感であり、しばしばドメインの専門家による手作業による検査が必要であり、重大なエラーが発生しやすいため、スケーラブルではない。
そこで,これらの課題に対処するために,エンド・ツー・エンドのスペクトル吸収波長認識トランスネットワークであるメタンマッパーを提案する。
MethaneMapperは、2つの新しいモジュールを導入し、スペクトル領域の最も関連性の高いメタンプラム領域を特定し、それらを正確にローカライズする。
詳細な評価によると、メタンマッパーは検出時に0.63mAPに達し、現在の技術と比べてモデルサイズ(5倍)を減少させる。
さらに,2015-2022年までの1200AVIRIS-NG飛行ラインに対して,メタンプラムセグメンテーションマスクの大規模データセットを導入する。
4000以上のメタン鉱床がある。
我々のデータセットは研究者に、この挑戦的な温室効果ガス検出問題に社会に多大な影響を及ぼす新しい手法を開発し、発展させる機会を提供する。
データセットとソースコードが公開 Methane (CH$_4$) is the chief contributor to global climate change. Recent Airborne Visible-Infrared Imaging Spectrometer-Next Generation (AVIRIS-NG) has been very useful in quantitative mapping of methane emissions. Existing methods for analyzing this data are sensitive to local terrain conditions, often require manual inspection from domain experts, prone to significant error and hence are not scalable. To address these challenges, we propose a novel end-to-end spectral absorption wavelength aware transformer network, MethaneMapper, to detect and quantify the emissions. MethaneMapper introduces two novel modules that help to locate the most relevant methane plume regions in the spectral domain and uses them to localize these accurately. Thorough evaluation shows that MethaneMapper achieves 0.63 mAP in detection and reduces the model size (by 5x) compared to the current state of the art. In addition, we also introduce a large-scale dataset of methane plume segmentation mask for over 1200 AVIRIS-NG flight lines from 2015-2022. It contains over 4000 methane plume sites. Our dataset will provide researchers the opportunity to develop and advance new methods for tackling this challenging green-house gas detection problem with significant broader social impact. Dataset and source code are public | 翻訳日:2023-04-07 16:03:14 公開日:2023-04-05 |
# VAEを用いた形状複雑性推定 Shape complexity estimation using VAE ( http://arxiv.org/abs/2304.02766v1 ) ライセンス: Link先を確認 | Markus Rothgaenger, Andrew Melnik, Helge Ritter | (参考訳) 本稿では,2次元形状の複雑さを推定する手法を比較し,潜在ベクトルの大きさの異なる変分オートエンコーダの再構成損失を利用した手法を提案する。
形状の複雑さは明確に定義された属性ではないが、その異なる側面を推定することができる。
我々の手法は形状の複雑さのいくつかの側面を捉えている。
コードとトレーニングの詳細は公開されます。 In this paper, we compare methods for estimating the complexity of two-dimensional shapes and introduce a method that exploits reconstruction loss of Variational Autoencoders with different sizes of latent vectors. Although complexity of a shape is not a well defined attribute, different aspects of it can be estimated. We demonstrate that our methods captures some aspects of shape complexity. Code and training details will be publicly available. | 翻訳日:2023-04-07 16:02:56 公開日:2023-04-05 |
# $\mathbf {su(\infty)}$-qgr quantumania: すべて、どこでも、すべて一度に $\mathbf {SU(\infty)}$-QGR Quantumania: Everything, Everywhere, All At Once ( http://arxiv.org/abs/2304.02761v1 ) ライセンス: Link先を確認 | Houri Ziaeepour | (参考訳) SU(\infty)$-QGRは宇宙と重力に対する量子的アプローチである。
その主要な仮定は、宇宙の観測可能空間を無限に交換することであり、ヒルベルト空間とその部分系による$SU(\infty)$の表現につながる。
宇宙全体は静的で、位相的であり、2つの連続パラメータによって特徴づけられる。
それでも、量子ゆらぎはクラスタリングと有限ランク内部対称性を誘導し、宇宙を無限に相互作用するサブシステムにほぼ分割する。
ヒルベルト空間は追加の次元パラメータに依存し、時計としてのサブシステムの選択は相対力学を誘導し、SU(\infty)$セクターは重力である。
3+1次元のパラメータ空間で定義されるラグランジアンは、両方の対称性に対してヤンミルである。
重力の量子性が検出できない場合、有効時空の曲率として認識される。 $SU(\infty)$-QGR is a quantum approach to Universe and gravity. Its main assumption is infinite mutually commuting observables in the Universe, leading to representation of $SU(\infty)$ by its Hilbert spaces and those of its subsystems. The Universe as a whole is static, topological, and characterized by two continuous parameters. Nonetheless, quantum fluctuations induce clustering and finite rank internal symmetries, which approximately divide the Universe to infinite interacting subsystems. Their Hilbert space depends on an additional dimensionful parameter, and selection of a subsystem as clock induces a relative dynamics, with $SU(\infty)$ sector as gravity. The Lagrangian defined on the (3+1)-dimensional parameter space is Yang-Mills for both symmetries. When quantumness of gravity is undetectable, it is perceived as curvature of an effective spacetime. | 翻訳日:2023-04-07 16:02:50 公開日:2023-04-05 |
# サウジアラビアのプライバシー政策データセット The Saudi Privacy Policy Dataset ( http://arxiv.org/abs/2304.02757v1 ) ライセンス: Link先を確認 | Hend Al-Khalifa, Malak Mashaabi, Ghadi Al-Yahya and Raghad Alnashwan | (参考訳) 本稿では、サウジアラビアの様々な分野からアラビアのプライバシーポリシーを多様にまとめたサウジアラビアプライバシポリシデータセットを紹介し、個人データ保護法(PDPL)の10の原則に従って注釈を付け、世界有数の包括的データ規制である一般データ保護規則(GDPR)に適合するようPDPLが制定された。
データはサウジアラビア中央銀行、サウジアラビア国民統一プラットフォーム、健康保険評議会、GoogleとWikipediaを使った一般的なウェブサイトなど、複数の情報源から収集された。
最後のデータセットは7つのセクタに属する1000のウェブサイト、4,638行のテキスト、775,370トークン、コーパスサイズ8,353kbである。
注釈付きデータセットは、プライバシポリシーのコンプライアンスの評価、業界間でのプライバシプラクティスのベンチマーク、データ保護規則遵守を監視する自動化ツールの開発において、重要な再利用可能性を提供します。
本稿では,プライバシポリシーの包括的かつ注釈付きデータセットを提供することにより,プライバシポリシ分析,自然言語処理,およびプライバシとデータ保護に関連する機械学習アプリケーションに関するさらなる研究と開発を促進すると同時に,サウジアラビアにおけるプライバシ規制の遵守の理解と促進に関心を持つ研究者,政策立案者,業界の専門家にとって不可欠なリソースとなることを目的とする。 This paper introduces the Saudi Privacy Policy Dataset, a diverse compilation of Arabic privacy policies from various sectors in Saudi Arabia, annotated according to the 10 principles of the Personal Data Protection Law (PDPL); the PDPL was established to be compatible with General Data Protection Regulation (GDPR); one of the most comprehensive data regulations worldwide. Data were collected from multiple sources, including the Saudi Central Bank, the Saudi Arabia National United Platform, the Council of Health Insurance, and general websites using Google and Wikipedia. The final dataset includes 1,000 websites belonging to 7 sectors, 4,638 lines of text, 775,370 tokens, and a corpus size of 8,353 KB. The annotated dataset offers significant reuse potential for assessing privacy policy compliance, benchmarking privacy practices across industries, and developing automated tools for monitoring adherence to data protection regulations. By providing a comprehensive and annotated dataset of privacy policies, this paper aims to facilitate further research and development in the areas of privacy policy analysis, natural language processing, and machine learning applications related to privacy and data protection, while also serving as an essential resource for researchers, policymakers, and industry professionals interested in understanding and promoting compliance with privacy regulations in Saudi Arabia. | 翻訳日:2023-04-07 16:02:34 公開日:2023-04-05 |
# ReLUニューラルネットワークを正確に表現するハイブリッドゾノトープ Hybrid Zonotopes Exactly Represent ReLU Neural Networks ( http://arxiv.org/abs/2304.02755v1 ) ライセンス: Link先を確認 | Joshua Ortiz, Alyssa Vellucci, Justin Koeln, Justin Ruths | (参考訳) ハイブリッドゾノトープは、ReLUアクティベーション機能を備えたフィードフォワード完全連結ニューラルネットワークの等価表現を提供することを示す。
提案手法では,バイナリ変数の複雑性はネットワーク内のニューロンの総数に等しいため,ネットワークのサイズが線形に増加することを示した。
本稿では, 非線形関数近似, MPC 閉ループ到達性, 検証, MNIST データセットによる分類の堅牢性などの3つのケーススタディを通じて, ハイブリッド型ゾノトープ定式化の有用性を実証する。 We show that hybrid zonotopes offer an equivalent representation of feed-forward fully connected neural networks with ReLU activation functions. Our approach demonstrates that the complexity of binary variables is equal to the total number of neurons in the network and hence grows linearly in the size of the network. We demonstrate the utility of the hybrid zonotope formulation through three case studies including nonlinear function approximation, MPC closed-loop reachability and verification, and robustness of classification on the MNIST dataset. | 翻訳日:2023-04-07 16:02:08 公開日:2023-04-05 |
# 概念構造の行動推定は人間のタスク全体にわたって堅牢であるが、大きな言語モデルではない Behavioral estimates of conceptual structure are robust across tasks in humans but not large language models ( http://arxiv.org/abs/2304.02754v1 ) ライセンス: Link先を確認 | Siddharth Suresh, Lisa Padua, Kushin Mukherjee, Timothy T Rogers | (参考訳) 言語のニューラルネットワークモデルは、心と脳における概念表現に関する仮説を開発するツールとして長い間使われてきた。
長年にわたり、単語のベクトル空間表現を抽出し、それらの間の距離を使って様々な意味的タスクにおける人間の振る舞いを予測または理解してきた。
しかし、現代言語AIでは、概念表現の潜在構造を、人間の参加者がよく使う方法とほぼ同一の手法で問うことが可能である。
現在の研究は、認知心理学から借用された2つの一般的な手法を用いて、人間とよく知られたAIであるダヴィンチのGPT-3の語彙的意味構造を推定し比較している。
ヒトでは、概念構造は文化、言語、推定方法の違いに対して堅牢であることを示す。
aiの行動から推定される構造は、人間の行動から推定されるものと個別にかなり一致するが、行動応答を生成するのに使用される特定のタスクに大きく依存する。
この結果は、現代のAIにおける知識が人間の認知と異なることを示唆している。 Neural network models of language have long been used as a tool for developing hypotheses about conceptual representation in the mind and brain. For many years, such use involved extracting vector-space representations of words and using distances among these to predict or understand human behavior in various semantic tasks. In contemporary language AIs, however, it is possible to interrogate the latent structure of conceptual representations using methods nearly identical to those commonly used with human participants. The current work uses two common techniques borrowed from cognitive psychology to estimate and compare lexical-semantic structure in both humans and a well-known AI, the DaVinci variant of GPT-3. In humans, we show that conceptual structure is robust to differences in culture, language, and method of estimation. Structures estimated from AI behavior, while individually fairly consistent with those estimated from human behavior, depend much more upon the particular task used to generate behavior responses--responses generated by the very same model in the two tasks yield estimates of conceptual structure that cohere less with one another than do human structure estimates. The results suggest one important way that knowledge inhering in contemporary AIs can differ from human cognition. | 翻訳日:2023-04-07 16:01:57 公開日:2023-04-05 |
# StyleGAN Salon: Pose-invariant Hairstyle Transferのための多視点遅延最適化 StyleGAN Salon: Multi-View Latent Optimization for Pose-Invariant Hairstyle Transfer ( http://arxiv.org/abs/2304.02744v1 ) ライセンス: Link先を確認 | Sasikarn Khwanmuang, Pakkapon Phongthawee, Patsorn Sangkloy, Supasorn Suwajanakorn | (参考訳) 本稿は,参照画像のヘアスタイルを,仮想毛髪試着用の入力写真に転送することを目的としている。
例えば、長い髪型をバングでピクシーカットに変えて、既存の髪を取り外し、額の見た目を推測したり、帽子をかぶった人から部分的に見える髪を別のポーズで移すといった、さまざまな課題を想定しています。
過去のソリューションでは、欠落部分の幻覚としてstyleganを利用し、いわゆるgan反転または投影を通じてシームレスな顔毛複合体を生成する。
しかし、髪型を正確に転写し、入力の顔の形やアイデンティティを保持する幻覚の制御には依然として課題がある。
これを解決するために,参照合成の「2つの異なるビュー」を用いて,隠蔽領域や曖昧領域を意味的にガイドする多視点最適化フレームワークを提案する。
最適化は2つのポーズ間で情報を共有するため、不完全な参照から高い忠実度と現実的な結果が得られる。
われわれのフレームワークは, 従来よりはるかに難易度の高いヘアトランスファーシナリオからなるユーザスタディにおいて, 高品質な結果が得られ, 先行研究よりも優れていた。
プロジェクトページ: https://stylegan-salon.github.io/ Our paper seeks to transfer the hairstyle of a reference image to an input photo for virtual hair try-on. We target a variety of challenges scenarios, such as transforming a long hairstyle with bangs to a pixie cut, which requires removing the existing hair and inferring how the forehead would look, or transferring partially visible hair from a hat-wearing person in a different pose. Past solutions leverage StyleGAN for hallucinating any missing parts and producing a seamless face-hair composite through so-called GAN inversion or projection. However, there remains a challenge in controlling the hallucinations to accurately transfer hairstyle and preserve the face shape and identity of the input. To overcome this, we propose a multi-view optimization framework that uses "two different views" of reference composites to semantically guide occluded or ambiguous regions. Our optimization shares information between two poses, which allows us to produce high fidelity and realistic results from incomplete references. Our framework produces high-quality results and outperforms prior work in a user study that consists of significantly more challenging hair transfer scenarios than previously studied. Project page: https://stylegan-salon.github.io/. | 翻訳日:2023-04-07 16:01:37 公開日:2023-04-05 |
# 周波数誘導拡散モデルによるゼロショット医用画像翻訳 Zero-shot Medical Image Translation via Frequency-Guided Diffusion Models ( http://arxiv.org/abs/2304.02742v1 ) ライセンス: Link先を確認 | Yunxiang Li, Hua-Chieh Shao, Xiao Liang, Liyuan Chen, Ruiqi Li, Steve Jiang, Jing Wang, You Zhang | (参考訳) 近年、拡散モデルは、優れたリアリズムを持つ高品質な画像を生成できる優れた生成モデルとして出現している。
画像翻訳タスクに拡散モデルを適用することへの関心が高まっている。
しかし, 医学的画像翻訳では, 原産地画像の構造詳細は前方拡散過程中に失われ, 学習された逆拡散により完全には回復できないため, 既存の拡散モデルでは構造情報の保持が不十分であり, 解剖学的構造の完全性は医療画像において極めて重要である。
ペア化されたソースとターゲット画像を用いたトレーニングと条件付き拡散モデルは、解剖学的に一致する。
しかしながら、このようなペアデータを得るのは非常に困難でコストがかかるため、分散テストデータに対する先進モデルの堅牢性も低下する可能性がある。
構造保存画像変換のための拡散モデルを導出するために周波数領域フィルタを用いた周波数誘導拡散モデル(FGDM)を提案する。
その設計に基づいて、FGDMはゼロショット学習を可能にし、ターゲットドメインのデータのみに基づいてトレーニングすることができ、トレーニング中にソースドメインデータに露出することなく、直接ソースからターゲットドメインへの変換に使用できる。
頭頸部CTデータのみに基づいてFGDMを訓練し, 頭頸部CTと肺円錐部CT(CBCT)-CTの双方で評価した。
FGDMはすべての指標において最先端の手法(GANベース、VAEベース、拡散ベース)より優れており、ゼロショットの医用画像翻訳において大きな優位性を示している。 Recently, the diffusion model has emerged as a superior generative model that can produce high-quality images with excellent realism. There is a growing interest in applying diffusion models to image translation tasks. However, for medical image translation, the existing diffusion models are deficient in accurately retaining structural information since the structure details of source domain images are lost during the forward diffusion process and cannot be fully recovered through learned reverse diffusion, while the integrity of anatomical structures is extremely important in medical images. Training and conditioning diffusion models using paired source and target images with matching anatomy can help. However, such paired data are very difficult and costly to obtain, and may also reduce the robustness of the developed model to out-of-distribution testing data. We propose a frequency-guided diffusion model (FGDM) that employs frequency-domain filters to guide the diffusion model for structure-preserving image translation. Based on its design, FGDM allows zero-shot learning, as it can be trained solely on the data from the target domain, and used directly for source-to-target domain translation without any exposure to the source-domain data during training. We trained FGDM solely on the head-and-neck CT data, and evaluated it on both head-and-neck and lung cone-beam CT (CBCT)-to-CT translation tasks. FGDM outperformed the state-of-the-art methods (GAN-based, VAE-based, and diffusion-based) in all metrics, showing its significant advantages in zero-shot medical image translation. | 翻訳日:2023-04-07 16:01:16 公開日:2023-04-05 |
# 半教師付き生成逆数ネットワークを用いたベンガリフェイクレビュー検出 Bengali Fake Review Detection using Semi-supervised Generative Adversarial Networks ( http://arxiv.org/abs/2304.02739v1 ) ライセンス: Link先を確認 | Md. Tanvir Rouf Shawon, G. M. Shahariar, Faisal Muhammad Shah, Mohammad Shafiul Alam and Md. Shahriar Mahbub | (参考訳) 本稿では,ベンガルの偽レビューを実際のレビューからいくつかの注釈付きデータで分類するために,GANが事前学習言語モデルを微調整する可能性について検討する。
ソーシャルメディアやeコマースの台頭に伴い、消費者が偽情報によって誤解されるのを防ぐために、偽レビューや偽レビューを検知する能力がますます重要になっている。
どんな機械学習モデルでも、特にbengaliのような低リソース言語の場合、偽レビューを特定するのに苦労する。
We have demonstrated that the proposed semi-supervised GAN-LM architecture (generative adversarial network on top of a pretrained language model) is a viable solution in classifying Bengali fake reviews as the experimental results suggest that even with only 1024 annotated samples, BanglaBERT with semi-supervised GAN (SSGAN) achieved an accuracy of 83.59% and a f1-score of 84.89% outperforming other pretrained language modelsBanglaBERT generator, Bangla BERT Base and Bangla-Electra by almost 3%, 4% and 10% respectively in terms of accuracy.
実験は、さまざまなソーシャルメディアグループから収集された6014件のリアルレビューとフェイクレビューからなる、手動でラベル付けされた食品レビューデータセット上で実施された。
偽レビューだけでなく,ラベル付きデータの欠如による分類問題も認識に苦慮している研究者は,提案手法の解決法を見出すことができる。 This paper investigates the potential of semi-supervised Generative Adversarial Networks (GANs) to fine-tune pretrained language models in order to classify Bengali fake reviews from real reviews with a few annotated data. With the rise of social media and e-commerce, the ability to detect fake or deceptive reviews is becoming increasingly important in order to protect consumers from being misled by false information. Any machine learning model will have trouble identifying a fake review, especially for a low resource language like Bengali. We have demonstrated that the proposed semi-supervised GAN-LM architecture (generative adversarial network on top of a pretrained language model) is a viable solution in classifying Bengali fake reviews as the experimental results suggest that even with only 1024 annotated samples, BanglaBERT with semi-supervised GAN (SSGAN) achieved an accuracy of 83.59% and a f1-score of 84.89% outperforming other pretrained language models - BanglaBERT generator, Bangla BERT Base and Bangla-Electra by almost 3%, 4% and 10% respectively in terms of accuracy. The experiments were conducted on a manually labeled food review dataset consisting of total 6014 real and fake reviews collected from various social media groups. Researchers that are experiencing difficulty recognizing not just fake reviews but other classification issues owing to a lack of labeled data may find a solution in our proposed methodology. | 翻訳日:2023-04-07 16:00:47 公開日:2023-04-05 |
# 身体的視覚言語計画における中核的課題 Core Challenges in Embodied Vision-Language Planning ( http://arxiv.org/abs/2304.02738v1 ) ライセンス: Link先を確認 | Jonathan Francis, Nariaki Kitamura, Felix Labelle, Xiaopeng Lu, Ingrid Navarro, Jean Oh | (参考訳) マルチモーダル機械学習と人工知能(AI)の分野での最近の進歩は、コンピュータビジョン、自然言語処理、ロボティクスの交差点における挑戦的なタスクの開発につながっている。
多くのアプローチや過去の調査はこれらの次元の1つまたは2つを特徴付けるが、3つの次元の中央に全体論的解析は存在していない。
さらに、これらのトピックの組み合わせが検討されたとしても、例えば現在のアーキテクチャメソッドの記述に重点が置かれており、この分野における高いレベルの課題や機会を示すのとは対照的である。
本研究は,コンピュータビジョンと自然言語を協調して物理環境における対話に活用する,著名な具体的ナビゲーションと操作の問題群であるembodied vision-language planning(evlp)タスクについて述べる。
我々は,これらのタスクを統合する分類法を提案し,evlpタスクに使用される現在および新しいアルゴリズムアプローチ,メトリクス,シミュレータ,データセットの詳細な分析と比較を行う。
最後に,新しいEVLP開発が課題となる課題について述べるとともに,モデル汎用性の実現と実世界の展開の促進を目的としたタスク構築を提唱する。 Recent advances in the areas of Multimodal Machine Learning and Artificial Intelligence (AI) have led to the development of challenging tasks at the intersection of Computer Vision, Natural Language Processing, and Robotics. Whereas many approaches and previous survey pursuits have characterised one or two of these dimensions, there has not been a holistic analysis at the center of all three. Moreover, even when combinations of these topics are considered, more focus is placed on describing, e.g., current architectural methods, as opposed to also illustrating high-level challenges and opportunities for the field. In this survey paper, we discuss Embodied Vision-Language Planning (EVLP) tasks, a family of prominent embodied navigation and manipulation problems that jointly leverage computer vision and natural language for interaction in physical environments. We propose a taxonomy to unify these tasks and provide an in-depth analysis and comparison of the current and new algorithmic approaches, metrics, simulators, and datasets used for EVLP tasks. Finally, we present the core challenges that we believe new EVLP works should seek to address, and we advocate for task construction that enables model generalisability and furthers real-world deployment. | 翻訳日:2023-04-07 16:00:24 公開日:2023-04-05 |
# 多モードボソニックジョセフソン接合におけるスキーズ振動 Squeezing oscillations in a multimode bosonic Josephson junction ( http://arxiv.org/abs/2304.02790v1 ) ライセンス: Link先を確認 | Tiantian Zhang, Mira Maiw\"oger, Filippo Borselli, Yevhenii Kuriatnikov, J\"org Schmiedmayer, and Maximilian Pr\"ufer | (参考訳) 超低温原子から構築された量子シミュレータは、相互作用する多体系における量子現象の研究を約束する。
しかし、特性が量子ゆらぎに支配されるような強い相関を持つ連続系を実験的に準備することは依然として困難である。
本稿では,マルチモードボソニックジョセフソン接合における量子相関の強化について述べる。
古典位相空間の安定な固定点でボソニック・ジョセフソン接合を作成した後、2つの共役変数のスクイーズ振動を観察する。
振動周波数を1桁以上調整でき、この振動ダイナミクスを利用して10dBに近いスピンスクイーズを実現できることを示す。
分離凝縮物間の空間位相相関の強化を検知することにより、改良スピンスクイージングの影響を直接明らかにする。
我々の研究は、相互作用する多体システムの外部自由度における工学的相関と絡み合いの新しい方法を提供する。 Quantum simulators built from ultracold atoms promise to study quantum phenomena in interacting many-body systems. However, it remains a challenge to experimentally prepare strongly correlated continuous systems such that the properties are dominated by quantum fluctuations. Here, we show how to enhance the quantum correlations in a multimode bosonic Josephson junction; our approach is based on the ability to track the dynamics of quantum properties. After creating a bosonic Josephson junction at the stable fixed point of the classical phase space, we observe squeezing oscillations in the two conjugate variables. We show that the squeezing oscillation frequency can be tuned by more than one order of magnitude and we are able to achieve a spin squeezing close to 10 dB by utilizing this oscillatory dynamics. The impact of improved spin squeezing is directly revealed by detecting enhanced spatial phase correlations between decoupled condensates. Our work provides new ways for engineering correlations and entanglement in the external degree-of-freedom of interacting many-body systems. | 翻訳日:2023-04-07 15:53:08 公開日:2023-04-05 |
# 法律文書ページの文脈対応分類 Context-Aware Classification of Legal Document Pages ( http://arxiv.org/abs/2304.02787v1 ) ライセンス: Link先を確認 | Pavlos Fragkogiannis, Martina Forster, Grace E. Lee, Dell Zhang | (参考訳) 法律文書(PDFフォーマットなど)などの専門文書の処理、索引付け、検索を必要とする多くのビジネスアプリケーションにとって、任意の文書のページを、事前に対応するタイプに分類することが不可欠である。
文書画像分類の分野における既存の研究のほとんどは、単ページ文書にフォーカスするか、文書内の複数のページを独立して扱うかのどちらかである。
近年,文書ページ分類の強化のために隣接するページの文脈情報を活用する手法が提案されているが,入力長の制約により,大規模な事前学習言語モデルでは利用できないことが多い。
本稿では,上記の限界を克服する単純かつ効果的なアプローチを提案する。
具体的には、bertのような事前学習されたトランスフォーマーモデルをコンテキスト認識ページ分類に使用できる、以前のページに関するシーケンシャルな情報を含む追加のトークンで入力を強化する。
英語とポルトガル語の2つの法定データセットを用いた実験により,提案手法は,非帰納的設定と他の文脈対応ベースラインと比較して,文書ページ分類の性能を著しく向上することが示された。 For many business applications that require the processing, indexing, and retrieval of professional documents such as legal briefs (in PDF format etc.), it is often essential to classify the pages of any given document into their corresponding types beforehand. Most existing studies in the field of document image classification either focus on single-page documents or treat multiple pages in a document independently. Although in recent years a few techniques have been proposed to exploit the context information from neighboring pages to enhance document page classification, they typically cannot be utilized with large pre-trained language models due to the constraint on input length. In this paper, we present a simple but effective approach that overcomes the above limitation. Specifically, we enhance the input with extra tokens carrying sequential information about previous pages - introducing recurrence - which enables the usage of pre-trained Transformer models like BERT for context-aware page classification. Our experiments conducted on two legal datasets in English and Portuguese respectively show that the proposed approach can significantly improve the performance of document page classification compared to the non-recurrent setup as well as the other context-aware baselines. | 翻訳日:2023-04-07 15:52:53 公開日:2023-04-05 |
# UNICORN: 統一されたバックドアトリガーインバージョンフレームワーク UNICORN: A Unified Backdoor Trigger Inversion Framework ( http://arxiv.org/abs/2304.02786v1 ) ライセンス: Link先を確認 | Zhenting Wang, Kai Mei, Juan Zhai, Shiqing Ma | (参考訳) バックドア攻撃(バックドア攻撃)は、敵が事前に移植された悪意のある動作を活性化するためにトリガー(例えばパッチ)でスタンプされた入力を使用するもので、ディープニューラルネットワーク(DNN)モデルに対する深刻な脅威である。
トリガーインバージョンは、バックドアモデルを特定し、組込み敵行動を理解する効果的な方法である。
トリガー反転の課題は、トリガーを構築する多くの方法があることである。
既存のメソッドは、特定の仮定や攻撃固有の制約をすることで、様々な種類のトリガーに一般化できない。
根本的な理由は、既存の作業が反転問題の定式化においてトリガーの設計空間を考慮しないからである。
この研究は、異なる空間に注入されたトリガーと逆問題を定義し解析する。
そこで,本研究では,トリガの形式化とバックドアモデルの内部挙動の同定に基づいて,バックドアトリガを逆転させる統一フレームワークを提案する。
我々のプロトタイプであるUNICORNは、DNNのバックドアトリガの反転に有効である。
コードはhttps://github.com/RU-System-Software-and-Security/UNICORNで見ることができる。 The backdoor attack, where the adversary uses inputs stamped with triggers (e.g., a patch) to activate pre-planted malicious behaviors, is a severe threat to Deep Neural Network (DNN) models. Trigger inversion is an effective way of identifying backdoor models and understanding embedded adversarial behaviors. A challenge of trigger inversion is that there are many ways of constructing the trigger. Existing methods cannot generalize to various types of triggers by making certain assumptions or attack-specific constraints. The fundamental reason is that existing work does not consider the trigger's design space in their formulation of the inversion problem. This work formally defines and analyzes the triggers injected in different spaces and the inversion problem. Then, it proposes a unified framework to invert backdoor triggers based on the formalization of triggers and the identified inner behaviors of backdoor models from our analysis. Our prototype UNICORN is general and effective in inverting backdoor triggers in DNNs. The code can be found at https://github.com/RU-System-Software-and-Security/UNICORN. | 翻訳日:2023-04-07 15:52:36 公開日:2023-04-05 |
# ブラジルポルトガル語テキスト分類におけるデータ拡張手法の性能 Performance of Data Augmentation Methods for Brazilian Portuguese Text Classification ( http://arxiv.org/abs/2304.02785v1 ) ライセンス: Link先を確認 | Marcellus Amadeus and Paulo Branco | (参考訳) 機械学習のパフォーマンス向上とモデル一般化の促進は、ai研究者が常に追求している目標である。
データ拡張技術はしばしばこの目標を達成するために使われ、その評価のほとんどは英語コーパスを用いて行われる。
本研究では,ブラジルのポルトガル語コーポラを用いたテキスト分類問題に適用した性能分析に,既存のデータ拡張手法を生かした。
以上の結果から,これらの手法の活用において,言語バイアスや非英語テキストデータ不足のさらなる活用が示唆された。 Improving machine learning performance while increasing model generalization has been a constantly pursued goal by AI researchers. Data augmentation techniques are often used towards achieving this target, and most of its evaluation is made using English corpora. In this work, we took advantage of different existing data augmentation methods to analyze their performances applied to text classification problems using Brazilian Portuguese corpora. As a result, our analysis shows some putative improvements in using some of these techniques; however, it also suggests further exploitation of language bias and non-English text data scarcity. | 翻訳日:2023-04-07 15:52:19 公開日:2023-04-05 |
# FACE-AUDITOR:顔認識システムにおけるデータ監査 FACE-AUDITOR: Data Auditing in Facial Recognition Systems ( http://arxiv.org/abs/2304.02782v1 ) ライセンス: Link先を確認 | Min Chen and Zhikun Zhang and Tianhao Wang and Michael Backes and Yang Zhang | (参考訳) モデル展開フェーズ中に数枚の顔画像で処理できるスケーラビリティと能力のため、ショットベースの顔認識システムが注目されている。
しかし、顔認識システムのパワーは、中程度のリソースを持つエンティティがインターネットをキャンバスし、人々の意識や同意なしに、適切に表現された顔認識モデルを構築することを可能にする。
顔画像が誤用されないようにするためには、共有する前に生の顔画像を修正し、必然的に意味情報を破壊し、レトロアクティビティの難しさを増し、適応的な攻撃をしがちである。
したがって、顔認識モデルの実用性を阻害せず、迅速にバイパスできない監査方法が緊急に必要となる。
本稿では,ユーザレベルのメンバーシップ推論問題として監査処理を定式化し,少数ショットベースの顔認識モデルに照会するための探索セットを慎重に選択し,モデルのトレーニングにユーザの顔画像が使用されているかどうかを判断する,完全なツールキットFACE-AUDITORを提案する。
さらに,従来の顔画像間の類似度スコアを基準情報として,監査性能を向上させることを提案する。
複数の実世界の顔画像データセットに対する大規模な実験は、FACE-AUDITORが最大99\%の監査精度を達成できることを示している。
最後に,訓練画像や対象モデルに対する複数の摂動機構の存在下では,フェース・ディクエターが頑健であることを示す。
実験のソースコードは \url{https://github.com/MinChen00/Face-Auditor} にある。 Few-shot-based facial recognition systems have gained increasing attention due to their scalability and ability to work with a few face images during the model deployment phase. However, the power of facial recognition systems enables entities with moderate resources to canvas the Internet and build well-performed facial recognition models without people's awareness and consent. To prevent the face images from being misused, one straightforward approach is to modify the raw face images before sharing them, which inevitably destroys the semantic information, increases the difficulty of retroactivity, and is still prone to adaptive attacks. Therefore, an auditing method that does not interfere with the facial recognition model's utility and cannot be quickly bypassed is urgently needed. In this paper, we formulate the auditing process as a user-level membership inference problem and propose a complete toolkit FACE-AUDITOR that can carefully choose the probing set to query the few-shot-based facial recognition model and determine whether any of a user's face images is used in training the model. We further propose to use the similarity scores between the original face images as reference information to improve the auditing performance. Extensive experiments on multiple real-world face image datasets show that FACE-AUDITOR can achieve auditing accuracy of up to $99\%$. Finally, we show that FACE-AUDITOR is robust in the presence of several perturbation mechanisms to the training images or the target models. The source code of our experiments can be found at \url{https://github.com/MinChen00/Face-Auditor}. | 翻訳日:2023-04-07 15:52:10 公開日:2023-04-05 |
# 決定木に対する十分な理由の近似性 Inapproximability of sufficient reasons for decision trees ( http://arxiv.org/abs/2304.02781v1 ) ライセンス: Link先を確認 | Alexander Kozachinskiy | (参考訳) 本稿では,決定木に対する$\delta$-sufficient reasonの最小サイズを計算する問題に対する近似の難しさを定式化する。 In this note, we establish the hardness of approximation of the problem of computing the minimal size of a $\delta$-sufficient reason for decision trees. | 翻訳日:2023-04-07 15:51:46 公開日:2023-04-05 |
# トランスフォーマー型深層学習による生後移植リスク因子の予測 A Transformer-Based Deep Learning Approach for Fairly Predicting Post-Liver Transplant Risk Factors ( http://arxiv.org/abs/2304.02780v1 ) ライセンス: Link先を確認 | Can Li, Xiaoqian Jiang, Kai Zhang | (参考訳) 肝移植は、末期肝疾患の患者の救命手順である。
肝移植には2つの大きな課題がある: ドナーに最適な患者を見つけることと、異なるサブポレーション間で移植株式を確保することである。
現在のMELDスコアシステムは、90日以内に臓器を受け取らなければ患者の死亡リスクを評価する。
しかし,移植後の合併症である心血管疾患や慢性拒絶反応など,移植後のリスク因子も考慮すべきである。
これらのリスクスコアの正確な予測は依然として大きな課題である。
本研究では,上記の課題を解決するために予測モデルを用いる。
肝移植後の複数の危険因子を予測するためのディープラーニングフレームワークモデルを提案する。
提案手法をマルチタスク学習問題として定式化することにより,このデータに基づいて深層ニューラルネットワークを訓練し,移植後の5つのリスクを同時に予測し,タスクバランス技術を活用することで等しく優れた性能を実現する。
また,異なるサブ集団間での予測公平性を確保するために,新しいフェアネスアルゴリズムを提案する。
1987年から2018年までの米国の肝移植記録から得られた人口統計,臨床変数,検査値を含む160,360人の肝移植患者の電子健康記録を用いた。
モデルの性能は,AUROC,AURPC,精度などの様々なパフォーマンス指標を用いて評価した。
その結果,提案するマルチタスク予測モデルは,最大2.7%の精度差しか持たず,移植後リスク因子の予測において高い精度と良好なバランスが得られた。
フェアネス達成アルゴリズムはベースラインモデルと比較してフェアネス格差を著しく低減した。 Liver transplantation is a life-saving procedure for patients with end-stage liver disease. There are two main challenges in liver transplant: finding the best matching patient for a donor and ensuring transplant equity among different subpopulations. The current MELD scoring system evaluates a patient's mortality risk if not receiving an organ within 90 days. However, the donor-patient matching should also take into consideration post-transplant risk factors, such as cardiovascular disease, chronic rejection, etc., which are all common complications after transplant. Accurate prediction of these risk scores remains a significant challenge. In this study, we will use predictive models to solve the above challenge. We propose a deep learning framework model to predict multiple risk factors after a liver transplant. By formulating it as a multi-task learning problem, the proposed deep neural network was trained on this data to simultaneously predict the five post-transplant risks and achieve equally good performance by leveraging task balancing techniques. We also propose a novel fairness achieving algorithm and to ensure prediction fairness across different subpopulations. We used electronic health records of 160,360 liver transplant patients, including demographic information, clinical variables, and laboratory values, collected from the liver transplant records of the United States from 1987 to 2018. The performance of the model was evaluated using various performance metrics such as AUROC, AURPC, and accuracy. The results of our experiments demonstrate that the proposed multitask prediction model achieved high accuracy and good balance in predicting all five post-transplant risk factors, with a maximum accuracy discrepancy of only 2.7%. The fairness-achieving algorithm significantly reduced the fairness disparity compared to the baseline model. | 翻訳日:2023-04-07 15:51:42 公開日:2023-04-05 |
# MoStGAN-V:テンポラルモーションスタイルのビデオ生成 MoStGAN-V: Video Generation with Temporal Motion Styles ( http://arxiv.org/abs/2304.02777v1 ) ライセンス: Link先を確認 | Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny | (参考訳) 映像生成は時空間的複雑さと時間的一貫性を伴う多様な動きを合成する必要性から、依然として困難な課題である。
以前の作品では、任意の長さの動画を自己回帰的に、または連続的な信号として時間について生成しようと試みている。
しかし、彼らは時間的コヒーレンスで詳細で多様な動きを合成するのに苦労し、数ステップ後に繰り返しシーンを生成する傾向がある。
本研究では,スタイルベース発電機の1つの時間非依存な潜在ベクトルが,多様かつ時間的一貫性のある動きをモデル化するには不十分であると主張する。
そこで我々は,多様な動きパターンをモデル化するために,時間依存の動作スタイルを導入する。
また,モーストラットと呼ばれるモーションスタイル注意変調機構が提案されており,各モーションスタイルに対する注意スコアを目標合成層内のw.r.tデコンボリューションフィルタ重みに割り当て,ウェイト変調のための異なるモーションスタイルにソフトで順応する,特定のスケール(すなわち層)ごとに自明なダイナミクスを持つフレームを補強する。
実験結果から,256^2$ビデオ合成ベンチマークを1クリップあたり3フレームでトレーニングし,動的動きに対する質的な結果が得られた。
コードとビデオはhttps://github.com/xiaoqian-shen/MoStGAN-Vで公開されている。 Video generation remains a challenging task due to spatiotemporal complexity and the requirement of synthesizing diverse motions with temporal consistency. Previous works attempt to generate videos in arbitrary lengths either in an autoregressive manner or regarding time as a continuous signal. However, they struggle to synthesize detailed and diverse motions with temporal coherence and tend to generate repetitive scenes after a few time steps. In this work, we argue that a single time-agnostic latent vector of style-based generator is insufficient to model various and temporally-consistent motions. Hence, we introduce additional time-dependent motion styles to model diverse motion patterns. In addition, a Motion Style Attention modulation mechanism, dubbed as MoStAtt, is proposed to augment frames with vivid dynamics for each specific scale (i.e., layer), which assigns attention score for each motion style w.r.t deconvolution filter weights in the target synthesis layer and softly attends different motion styles for weight modulation. Experimental results show our model achieves state-of-the-art performance on four unconditional $256^2$ video synthesis benchmarks trained with only 3 frames per clip and produces better qualitative results with respect to dynamic motions. Code and videos have been made available at https://github.com/xiaoqian-shen/MoStGAN-V. | 翻訳日:2023-04-07 15:51:16 公開日:2023-04-05 |
# フィクションクレーム検証のための低ショット学習 Low-Shot Learning for Fictional Claim Verification ( http://arxiv.org/abs/2304.02769v1 ) ライセンス: Link先を確認 | Viswanath Chadalapaka, Derek Nguyen, JoonWon Choi, Shaunak Joshi, Mohammad Rostami | (参考訳) 本稿では,低ショット学習環境における架空の物語のクレームの文脈におけるクレーム検証の問題について検討する。
この目的のために、2つの合成データセットを生成し、両方のベンチマークでテストされるエンドツーエンドパイプラインとモデルを開発する。
パイプラインの有効性とベンチマークの難易度をテストするため、モデルの結果を人間とランダムな割り当て結果と比較した。
私たちのコードはhttps://github.com/derposoft/plot_hole_detectionで利用可能です。 In this paper, we study the problem of claim verification in the context of claims about fictional stories in a low-shot learning setting. To this end, we generate two synthetic datasets and then develop an end-to-end pipeline and model that is tested on both benchmarks. To test the efficacy of our pipeline and the difficulty of benchmarks, we compare our models' results against human and random assignment results. Our code is available at https://github.com/Derposoft/plot_hole_detection. | 翻訳日:2023-04-07 15:50:54 公開日:2023-04-05 |
# 電子カルテにおけるトランスフォーマー法の適用:体系的文献レビュー Application of Transformers based methods in Electronic Medical Records: A Systematic Literature Review ( http://arxiv.org/abs/2304.02768v1 ) ライセンス: Link先を確認 | Vitor Alcantara Batista, Alexandre Gon\c{c}alves Evsukoff | (参考訳) このフォーマットは統計解析には適さないため、利用可能なデータの成長と非構造化の性質が、これらのデータ資産の価値を高める自然言語処理(NLP)技術への関心が高まっている。
本研究は,異なるNLPタスクにおける電子カルテ(EMR)のトランスフォーマーに基づく手法を用いて,最先端技術に関する体系的な文献レビューを行う。
我々の知る限り、この研究は、EMR分野に適用されたNLPのトランスフォーマーベースの手法に関する包括的な研究のレビューを提供するという点において、ユニークなものである。
最初の質問では、3つの公開データベースから99の論文が選択され、詳細な分析のために65の論文にフィルタリングされた。
論文は、ビジネス問題、NLPタスク、モデルとテクニック、データセットの可用性、モデリングの再現性、言語、交換フォーマットに関して分析された。
本稿では,現在の研究の限界と今後の研究への提言について述べる。 The combined growth of available data and their unstructured nature has received increased interest in natural language processing (NLP) techniques to make value of these data assets since this format is not suitable for statistical analysis. This work presents a systematic literature review of state-of-the-art advances using transformer-based methods on electronic medical records (EMRs) in different NLP tasks. To the best of our knowledge, this work is unique in providing a comprehensive review of research on transformer-based methods for NLP applied to the EMR field. In the initial query, 99 articles were selected from three public databases and filtered into 65 articles for detailed analysis. The papers were analyzed with respect to the business problem, NLP task, models and techniques, availability of datasets, reproducibility of modeling, language, and exchange format. The paper presents some limitations of current research and some recommendations for further research. | 翻訳日:2023-04-07 15:50:46 公開日:2023-04-05 |
# 最適性保存による強化学習における制約付き探索 Constrained Exploration in Reinforcement Learning with Optimality Preservation ( http://arxiv.org/abs/2304.03104v1 ) ライセンス: Link先を確認 | Peter C. Y. Chen | (参考訳) 本稿では,エージェントが行動ポリシーに従って個別の状態行動空間を探索し,その行動に一定の制約を課しながら最適な行動方針を求める,強化学習システムについて考察する。
このような制限は、エージェントがいくつかの状態-作用ペアを訪問することを妨げる可能性がある。
この問題に対処するために,制約付き探索と最適性保存の概念を導入し,エージェントの探索動作を仕様を満たすように制約し,(元の)制約なし学習プロセスの最適性を保存する。
まず,制約のない学習プロセスのダイナミクスをモデル化するフィードバック制御構造を確立する。
次に,エージェントの動作が仕様を満たすことを保証するためにスーパーバイザを追加し,最適性を保った必要十分条件(既知の決定論的環境を持つ強化学習問題のクラス)を確立することにより,この構造を拡張した。
本研究は,離散事象システム,オートマトン,形式言語の理論の文脈における強化学習問題の研究の有用性と展望を示す。 We consider a class of reinforcement-learning systems in which the agent follows a behavior policy to explore a discrete state-action space to find an optimal policy while adhering to some restriction on its behavior. Such restriction may prevent the agent from visiting some state-action pairs, possibly leading to the agent finding only a sub-optimal policy. To address this problem we introduce the concept of constrained exploration with optimality preservation, whereby the exploration behavior of the agent is constrained to meet a specification while the optimality of the (original) unconstrained learning process is preserved. We first establish a feedback-control structure that models the dynamics of the unconstrained learning process. We then extend this structure by adding a supervisor to ensure that the behavior of the agent meets the specification, and establish (for a class of reinforcement-learning problems with a known deterministic environment) a necessary and sufficient condition under which optimality is preserved. This work demonstrates the utility and the prospect of studying reinforcement-learning problems in the context of the theories of discrete-event systems, automata and formal languages. | 翻訳日:2023-04-07 14:00:29 公開日:2023-04-05 |
# グラフ用アルゴリズムのスペクトルツールキット:技術報告(1) Spectral Toolkit of Algorithms for Graphs: Technical Report (1) ( http://arxiv.org/abs/2304.03170v1 ) ライセンス: Link先を確認 | Peter Macgregor and He Sun | (参考訳) Spectral Toolkit of Algorithms for Graphs (STAG)は効率的なスペクトルグラフアルゴリズムのためのオープンソースライブラリで、開発は2022年9月に開始される。
これまでのところ、ローカルグラフクラスタリングのコンポーネントは完了しており、このテクニカルレポートでは、STAGへのユーザのガイド、研究の紹介、開発の背後にある技術的考察が紹介されている。 Spectral Toolkit of Algorithms for Graphs (STAG) is an open-source library for efficient spectral graph algorithms, and its development starts in September 2022. We have so far finished the component on local graph clustering, and this technical report presents a user's guide to STAG, showcase studies, and several technical considerations behind our development. | 翻訳日:2023-04-07 13:43:41 公開日:2023-04-05 |
# cot-mae v2:マルチビューモデルを用いたコンテクストマスク型オートエンコーダ CoT-MAE v2: Contextual Masked Auto-Encoder with Multi-view Modeling for Passage Retrieval ( http://arxiv.org/abs/2304.03158v1 ) ライセンス: Link先を確認 | Xing Wu, Guangyuan Ma, Peng Wang, Meng Lin, Zijia Lin, Fuzheng Zhang and Songlin Hu | (参考訳) 通路検索の性能を向上させる技術が発展してきた。
効果的な表現ボトルネック事前学習手法として,コンテキストマスキングオートエンコーダはコンテクスト埋め込みを利用して通路の再構築を支援する。
しかし、シングルオートエンコードプレタスクのみを使用して、密度の高い表現事前トレーニングを行う。
本研究は、コンテキストマスキング自動エンコーダにマルチビューモデリングをもたらす。
まず、多視点表現は、密度ベクトルとスパースベクトルの両方を多視点表現として利用し、異なる側面から文の意味を捉えることを目的としている。
さらに、マルチビューデコーディングパラダイムは、自己エンコーディングと自己回帰デコーダの両方を利用して、表現ボトルネック事前学習を行い、コンテクスト表現事前学習を改善するために、再構成信号と生成信号の両方を提供する。
このマルチビュー事前学習手法をCoT-MAE v2と呼ぶ。
広範な実験により,CoT-MAE v2は大規模通過探索ベンチマークやドメイン外ゼロショットベンチマークにおいて有効で堅牢であることを示す。 Growing techniques have been emerging to improve the performance of passage retrieval. As an effective representation bottleneck pretraining technique, the contextual masked auto-encoder utilizes contextual embedding to assist in the reconstruction of passages. However, it only uses a single auto-encoding pre-task for dense representation pre-training. This study brings multi-view modeling to the contextual masked auto-encoder. Firstly, multi-view representation utilizes both dense and sparse vectors as multi-view representations, aiming to capture sentence semantics from different aspects. Moreover, multiview decoding paradigm utilizes both autoencoding and auto-regressive decoders in representation bottleneck pre-training, aiming to provide both reconstructive and generative signals for better contextual representation pretraining. We refer to this multi-view pretraining method as CoT-MAE v2. Through extensive experiments, we show that CoT-MAE v2 is effective and robust on large-scale passage retrieval benchmarks and out-of-domain zero-shot benchmarks. | 翻訳日:2023-04-07 13:42:07 公開日:2023-04-05 |
# CokeBERT: 事前学習言語モデルの拡張に向けたコンテキスト知識の選択と埋め込み CokeBERT: Contextual Knowledge Selection and Embedding towards Enhanced Pre-Trained Language Models ( http://arxiv.org/abs/2009.13964v5 ) ライセンス: Link先を確認 | Yusheng Su, Xu Han, Zhengyan Zhang, Peng Li, Zhiyuan Liu, Yankai Lin, Jie Zhou and Maosong Sun | (参考訳) 近年,知識グラフ(KG)における余分な異種知識を利用することで,事前学習言語モデル(PLM)の強化や,知識駆動型NLPタスクにおける一貫した改善を実現している。
しかしながら、これらの知識強化 PLM の多くは KG の静的部分グラフ(知識コンテキスト)を埋め込むが、PLM が必要とする知識は特定のテキスト(テキストコンテキスト)に応じて動的に変化する可能性がある。
本稿では,plmにおける文脈知識を動的に選択し,テキスト的文脈に応じた知識コンテキストを埋め込み,入力テキストにマッチしないkgsにおける冗長かつ曖昧な知識の影響を回避できる,cokeという新しい枠組みを提案する。
実験の結果,コークは一般的な知識駆動型NLPタスクにおいて,言語理解における動的知識コンテキストの活用の有効性が示唆された。
性能改善に加えて,cokeの動的選択知識は,従来のplmよりもテキスト関連知識の意味を解釈可能な形で記述することができる。
私たちのソースコードとデータセットは、cokeのさらなる詳細を提供するために利用可能になります。 Several recent efforts have been devoted to enhancing pre-trained language models (PLMs) by utilizing extra heterogeneous knowledge in knowledge graphs (KGs) and achieved consistent improvements on various knowledge-driven NLP tasks. However, most of these knowledge-enhanced PLMs embed static sub-graphs of KGs ("knowledge context"), regardless of that the knowledge required by PLMs may change dynamically according to specific text ("textual context"). In this paper, we propose a novel framework named Coke to dynamically select contextual knowledge and embed knowledge context according to textual context for PLMs, which can avoid the effect of redundant and ambiguous knowledge in KGs that cannot match the input text. Our experimental results show that Coke outperforms various baselines on typical knowledge-driven NLP tasks, indicating the effectiveness of utilizing dynamic knowledge context for language understanding. Besides the performance improvements, the dynamically selected knowledge in Coke can describe the semantics of text-related knowledge in a more interpretable form than the conventional PLMs. Our source code and datasets will be available to provide more details for Coke. | 翻訳日:2023-04-06 17:16:41 公開日:2023-04-05 |
# キタエフハニカム模型におけるチャーン数のパリティと16倍の方法 Parity of Chern numbers in the Kitaev honeycomb model and the sixteenfold way ( http://arxiv.org/abs/2005.03655v3 ) ライセンス: Link先を確認 | J.-N. Fuchs, S. Patil, J. Vidal | (参考訳) 2次元では、$\mathbb{Z}_2$ゲージ場に結合した自由マヨナフェルミオンの位相位相はチャーン数$\nu \in \mathbb{Z}$に従って分類されることが知られている。
その値 mod 16 は、正準励起の種類を指定する。
そこで本研究では,北エフハニカムモデルにおける三角渦配置(およびその双対)について検討し,これら16相のうち14相が時間反転対称性の破れ項を加えることで得られることを示す。
欠落フェーズは$\nu=\pm 7$である。
より一般的には、幾何単位セル当たりの奇数の渦を持つ任意の周期渦構成はチャーン数のみをホストできるが、奇チャーン数は他の場合に見られる。 In two dimensions, topological phases of free Majorana fermions coupled to a $\mathbb{Z}_2$ gauge field are known to be classified according to the Chern number $\nu \in \mathbb{Z}$. Its value mod 16 specifies the type of anyonic excitations. In this paper, we investigate triangular vortex configurations (and their dual) in the Kitaev honeycomb model and show that fourteen of these sixteen phases can be obtained by adding a time-reversal symmetry-breaking term. Missing phases are $\nu=\pm 7$. More generally, we prove that any periodic vortex configuration with an odd number of vortices per geometric unit cell can only host even Chern numbers whereas odd Chern numbers can be found in other cases. | 翻訳日:2023-04-06 17:16:21 公開日:2023-04-05 |
# generative adversarial networks (gansサーベイ) の課題,解決策,今後の方向性 Generative Adversarial Networks (GANs Survey): Challenges, Solutions, and Future Directions ( http://arxiv.org/abs/2005.00065v4 ) ライセンス: Link先を確認 | Divya Saxena, Jiannong Cao | (参考訳) Generative Adversarial Networks (GANs) は、近年注目されている深層生成モデルの新しいクラスである。
GANは、画像、オーディオ、データに対して暗黙的に複雑で高次元の分布を学習する。
しかし、ネットワークアーキテクチャの不適切な設計、目的関数の使用、最適化アルゴリズムの選択などにより、モード崩壊、非収束、不安定といった GAN のトレーニングには大きな課題がある。
近年,これらの課題に対処するために,ネットワークアーキテクチャの再設計技術,新たな目的関数,代替最適化アルゴリズムに基づいて,GANの設計と最適化のためのいくつかのソリューションが検討されている。
私たちの知る限りでは、これらのソリューションの広範かつ体系的な開発に特に注目する既存の調査はありません。
本研究では,GANの課題に対処するために提案したGANの設計および最適化ソリューションの進歩に関する総合的な調査を行う。
まず,各設計・最適化手法における主要な研究課題を特定し,主要な研究課題によるソリューション構築のための新たな分類法を提案する。
分類法に従って,各解において提案される異なるGANの変種とその関係について,詳細な議論を行う。
最後に、得られた知見に基づいて、この急速に成長する分野における有望な研究方向性を示す。 Generative Adversarial Networks (GANs) is a novel class of deep generative models which has recently gained significant attention. GANs learns complex and high-dimensional distributions implicitly over images, audio, and data. However, there exists major challenges in training of GANs, i.e., mode collapse, non-convergence and instability, due to inappropriate design of network architecture, use of objective function and selection of optimization algorithm. Recently, to address these challenges, several solutions for better design and optimization of GANs have been investigated based on techniques of re-engineered network architectures, new objective functions and alternative optimization algorithms. To the best of our knowledge, there is no existing survey that has particularly focused on broad and systematic developments of these solutions. In this study, we perform a comprehensive survey of the advancements in GANs design and optimization solutions proposed to handle GANs challenges. We first identify key research issues within each design and optimization technique and then propose a new taxonomy to structure solutions by key research issues. In accordance with the taxonomy, we provide a detailed discussion on different GANs variants proposed within each solution and their relationships. Finally, based on the insights gained, we present the promising research directions in this rapidly growing field. | 翻訳日:2023-04-06 17:16:08 公開日:2023-04-05 |
# 3次元導波路におけるqed回路構築ブロックとしての低損失マイクロストリップ共振器の特性評価 Characterization of low loss microstrip resonators as a building block for circuit QED in a 3D waveguide ( http://arxiv.org/abs/1706.04169v3 ) ライセンス: Link先を確認 | D. Zoepfl, P. R. Muppalla, C. M. F. Schneider, S. Kasemann, S. Partel, G. Kirchmair | (参考訳) ここでは3次元マイクロ波導波路内のアルミニウムとニオブからなるマイクロストリップ共振器のマイクロ波特性について述べる。
低温では, 最大100万までの低消費電力内部品質因子が到達した。
温度を上昇させるために導電損失と2レベルシステムへの損失を予測するモデルによい一致を見出した。
ワイヤボンドがなく、よく制御されたマイクロ波環境を提供するため、ここで提示されたセットアップは材料や構造物の試験に魅力的である。
トランスモン量子ビットと組み合わせることで、これらの共振器は矩形導波路内の新しい回路QEDアーキテクチャのビルディングブロックとして機能する。 Here we present the microwave characterization of microstrip resonators made from aluminum and niobium inside a 3D microwave waveguide. In the low temperature, low power limit internal quality factors of up to one million were reached. We found a good agreement to models predicting conductive losses and losses to two level systems for increasing temperature. The setup presented here is appealing for testing materials and structures, as it is free of wire bonds and offers a well controlled microwave environment. In combination with transmon qubits, these resonators serve as a building block for a novel circuit QED architecture inside a rectangular waveguide. | 翻訳日:2023-04-06 17:15:49 公開日:2023-04-05 |
# 貨物予約制御問題に対する強化学習 Reinforcement Learning for Freight Booking Control Problems ( http://arxiv.org/abs/2102.00092v3 ) ライセンス: Link先を確認 | Justin Dumouchelle, Emma Frejinger, Andrea Lodi | (参考訳) 予約制御問題は、収益管理の領域で発生したシーケンシャルな意思決定問題である。
より正確には、貨物の予約管理は、予約を受理するか拒否するかを決める問題に焦点を当てている。
この問題は有限水平確率動的プログラムとして定式化することができ、一連の要求を受け入れると、受理された予約のコストに依存する予約期間の終わりに利益が得られる。
多くの貨物アプリケーションでは、要求を満たすコストは運用上の意思決定問題を解決することで得られるが、これはしばしば混合整数線形プログラムの解を必要とする。
強化学習アルゴリズムをデプロイする際の運用上の問題を定期的に解決するには時間がかかりすぎる可能性がある。
予約制御政策の大多数は、問題固有の数学的プログラミング緩和を解くことで得られ、これはしばしば新しい問題に一般化し、場合によっては非常に粗い近似を与える。
本研究では,まず,運用課題の目的を予測するために教師付き学習モデルを訓練し,そのモデルを強化学習アルゴリズム内に展開し,制御ポリシを演算する2段階のアプローチを提案する。
このアプローチは一般に、水平方向の運用問題の目的関数を予測できるたびに使用でき、そのような問題が計算的に困難である場合に特に適している。
さらに、運用問題を解決するルーチンが単一の予測に置き換えられるため、強化学習の最近の進歩を活用できる。
本手法は, 分散ロジスティクスと航空貨物管理という, 文献における2つの予約制御問題に対して評価する。 Booking control problems are sequential decision-making problems that occur in the domain of revenue management. More precisely, freight booking control focuses on the problem of deciding to accept or reject bookings: given a limited capacity, accept a booking request or reject it to reserve capacity for future bookings with potentially higher revenue. This problem can be formulated as a finite-horizon stochastic dynamic program, where accepting a set of requests results in a profit at the end of the booking period that depends on the cost of fulfilling the accepted bookings. For many freight applications, the cost of fulfilling requests is obtained by solving an operational decision-making problem, which often requires the solutions to mixed-integer linear programs. Routinely solving such operational problems when deploying reinforcement learning algorithms may be too time consuming. The majority of booking control policies are obtained by solving problem-specific mathematical programming relaxations that are often non-trivial to generalize to new problems and, in some cases, provide quite crude approximations. In this work, we propose a two-phase approach: we first train a supervised learning model to predict the objective of the operational problem, and then we deploy the model within reinforcement learning algorithms to compute control policies. This approach is general: it can be used every time the objective function of the end-of-horizon operational problem can be predicted, and it is particularly suitable to those cases where such problems are computationally hard. Furthermore, it allows one to leverage the recent advances in reinforcement learning as routinely solving the operational problem is replaced with a single prediction. Our methodology is evaluated on two booking control problems in the literature, namely, distributional logistics and airline cargo management. | 翻訳日:2023-04-06 17:11:16 公開日:2023-04-05 |
# cytran:非コントラストコントラストct変換のための多レベル一貫性を有するサイクル一貫性トランスフォーマ CyTran: A Cycle-Consistent Transformer with Multi-Level Consistency for Non-Contrast to Contrast CT Translation ( http://arxiv.org/abs/2110.06400v3 ) ライセンス: Link先を確認 | Nicolae-Catalin Ristea, Andreea-Iuliana Miron, Olivian Savencu, Mariana-Iuliana Georgescu, Nicolae Verga, Fahad Shahbaz Khan, Radu Tudor Ionescu | (参考訳) コントラストct(unpaired contrast ct)スキャンを非コントラストctスキャンに変換する方法を提案する。
このタスクの解決には2つの重要な応用がある。
(i)造影剤を投与しない患者に対して、造影ctスキャンを自動的に生成すること、及び
(ii)登録前のコントラスト物質による差を低減し、コントラストctと非コントラストctのアライメントを高める。
提案手法は、CyTranを略して、サイクル一貫性のある生成逆転変換器に基づいている。
我々のニューラルモデルは、多レベルサイクル一貫性損失の統合のため、未ペア画像に基づいて訓練することができる。
画像レベルで適用される標準のサイクルコンシスタンス損失とは別に、中間的な特徴表現間で追加のサイクルコンシスタンス損失を適用することを提案し、複数の表現レベルでのサイクル一貫性を強制し、優れた結果をもたらす。
高解像度画像を扱うために,畳み込み層と多面的アテンション層に基づくハイブリッドアーキテクチャを設計する。
また,100名の女性患者から収集した3次元肺CT(計37,290画像)を100例(患者1名)に含む新たなデータセットであるColtea-Lung-CT-100Wを導入する。
各スキャンには3つの位相(非コントラスト、早期門脈、後期動脈)が含まれており、新しいアプローチと最新の画像スタイル転送法を比較する実験を行うことができる。
実験の結果、CyTranは競合するすべての手法より優れています。
また,最新の医用画像アライメント法を改善するための予備的なステップとして,CyTranを使用できることを示す。
私たちは、新しいモデルとデータセットをオープンソースとしてhttps://github.com/ristea/cycle-transformerでリリースします。 We propose a novel approach to translate unpaired contrast computed tomography (CT) scans to non-contrast CT scans and the other way around. Solving this task has two important applications: (i) to automatically generate contrast CT scans for patients for whom injecting contrast substance is not an option, and (ii) to enhance the alignment between contrast and non-contrast CT by reducing the differences induced by the contrast substance before registration. Our approach is based on cycle-consistent generative adversarial convolutional transformers, for short, CyTran. Our neural model can be trained on unpaired images, due to the integration of a multi-level cycle-consistency loss. Aside from the standard cycle-consistency loss applied at the image level, we propose to apply additional cycle-consistency losses between intermediate feature representations, which enforces the model to be cycle-consistent at multiple representations levels, leading to superior results. To deal with high-resolution images, we design a hybrid architecture based on convolutional and multi-head attention layers. In addition, we introduce a novel data set, Coltea-Lung-CT-100W, containing 100 3D triphasic lung CT scans (with a total of 37,290 images) collected from 100 female patients (there is one examination per patient). Each scan contains three phases (non-contrast, early portal venous, and late arterial), allowing us to perform experiments to compare our novel approach with state-of-the-art methods for image style transfer. Our empirical results show that CyTran outperforms all competing methods. Moreover, we show that CyTran can be employed as a preliminary step to improve a state-of-the-art medical image alignment method. We release our novel model and data set as open source at https://github.com/ristea/cycle-transformer. | 翻訳日:2023-04-06 16:55:19 公開日:2023-04-05 |
# 非トレース保存量子演算における誤差メトリック Error metric for non-trace-preserving quantum operations ( http://arxiv.org/abs/2110.02290v4 ) ライセンス: Link先を確認 | Yu Shi, Edo Waks | (参考訳) 非トレース保存量子演算に対する誤差計量を提案し、不完全かつ理想的な演算から正規化された出力状態の間のトレース距離に上限を与える。
また、再正規化によりこの計量を計算する効率的なアルゴリズムを提案する。
その応用の実証として, Knill-Laflamme-Milburn (KLM)プロトコルにおける2つの主要な非トレース保存操作である損失ビームスプリッタと非決定的条件付きサインフリップゲートを解析する。
さらに,中性原子量子コンピュータの漏洩誤差を解析し,当初予測したよりもスケールが著しく悪化していることを示し,より厳格なフォールトトレラントしきい値を示すことを示唆した。
また、一般的なポストセレクトプロトコルにおけるメトリックの適用と、フォールトトレラント量子コンピューティングにおけるエラー伝播と推定しきい値の研究にどのように使用できるかについても論じる。
したがって、実用的な量子情報処理を解析するための幅広い応用を示す。 We propose an error metric for non-trace-preserving quantum operations, which provides an upper bound on the trace distance between the normalized output states from imperfect and ideal operations. We also present an efficient algorithm to compute this metric by renormalization. As a demonstration of its application, we analyze a lossy beam splitter and the non-deterministic conditional sign-flip gate, which are two primary non-trace-preserving operations in the Knill-Laflamme-Milburn (KLM) protocol. In addition, we analyze the leakage errors of neutral-atom quantum computers and show that they scale much worse than originally predicted, suggesting that they exhibit a more stringent fault-tolerant threshold. We also discuss the application of the metric in general post-selected protocols and how it can be used to study error propagation and estimate thresholds in fault-tolerant quantum computing. Therefore, it shows a wide range of applications in analyzing practical quantum information processing. | 翻訳日:2023-04-06 16:54:50 公開日:2023-04-05 |
# SLAMから状況認識へ:課題と調査 From SLAM to Situational Awareness: Challenges and Survey ( http://arxiv.org/abs/2110.00273v4 ) ライセンス: Link先を確認 | Hriday Bavle, Jose Luis Sanchez-Lopez, Claudio Cimarelli, Ali Tourani, Holger Voos | (参考訳) 複雑な任務を効率的に安全に行う移動ロボットの能力は、その環境、すなわち状況に関する知識によって制限される。
高度な推論、意思決定、実行スキルにより、知的エージェントは未知の環境で自律的に行動することができる。
状況意識 (SA) は、心理学、軍事、航空宇宙、教育など様々な分野で深く研究されてきた人間の基本的な能力である。
それでも、センサー、空間知覚、センサー融合、状態推定、同時局所化とマッピング(SLAM)といった単一区画化概念に焦点を当てたロボティクスでは、まだ検討されていない。
そこで本研究では,多分野の既存知識を結びつけて,自律性を最優先するモバイルロボティクスのための完全なSAシステムを構築することを目的とする。
本研究の目的は,ロボットSAとその能力領域を構成する主成分を定義することである。
そこで本研究では,SAの各側面を調査し,それらをカバーする最先端ロボットアルゴリズムを調査し,現状の限界について考察する。
現在のアルゴリズム開発では、パフォーマンスを特定の環境のみに制限するため、saの本質的な側面はまだ未成熟である。
それでも、人工知能(AI)、特にディープラーニング(DL)は、これらのフィールドをデプロイから現実のシナリオへ分離するギャップを埋める新しい方法を導入している。
さらに、よく知られたシーングラフの一般化である状況グラフ(S-Graph)のメカニズムを通じて、ロボット理解アルゴリズムの膨大な断片化空間を相互接続する機会が発見された。
そこで我々は,最近の興味深い研究の方向性を議論し,ロボットの状況認識の将来へのビジョンを形作る。 The capability of a mobile robot to efficiently and safely perform complex missions is limited by its knowledge of the environment, namely the situation. Advanced reasoning, decision-making, and execution skills enable an intelligent agent to act autonomously in unknown environments. Situational Awareness (SA) is a fundamental capability of humans that has been deeply studied in various fields, such as psychology, military, aerospace, and education. Nevertheless, it has yet to be considered in robotics, which has focused on single compartmentalized concepts such as sensing, spatial perception, sensor fusion, state estimation, and Simultaneous Localization and Mapping (SLAM). Hence, the present research aims to connect the broad multidisciplinary existing knowledge to pave the way for a complete SA system for mobile robotics that we deem paramount for autonomy. To this aim, we define the principal components to structure a robotic SA and their area of competence. Accordingly, this paper investigates each aspect of SA, surveying the state-of-the-art robotics algorithms that cover them, and discusses their current limitations. Remarkably, essential aspects of SA are still immature since the current algorithmic development restricts their performance to only specific environments. Nevertheless, Artificial Intelligence (AI), particularly Deep Learning (DL), has brought new methods to bridge the gap that maintains these fields apart from the deployment to real-world scenarios. Furthermore, an opportunity has been discovered to interconnect the vastly fragmented space of robotic comprehension algorithms through the mechanism of Situational Graph (S-Graph), a generalization of the well-known scene graph. Therefore, we finally shape our vision for the future of robotic Situational Awareness by discussing interesting recent research directions. | 翻訳日:2023-04-06 16:54:33 公開日:2023-04-05 |
# 熱・冷間データ機能のためのフェデレーションサブモデル最適化 Federated Submodel Optimization for Hot and Cold Data Features ( http://arxiv.org/abs/2109.07704v4 ) ライセンス: Link先を確認 | Yucheng Ding, Chaoyue Niu, Fan Wu, Shaojie Tang, Chengfei Lv, Yanghe Feng, Guihai Chen | (参考訳) 我々は,クライアントの非d.d.データに疎結合な特徴があり,特定のクライアントのローカルデータは通常,サブモデルと呼ばれるモデル全体のごく一部に限られる,フェデレート学習の基礎となる実践的データ特性について検討する。
データ分散のため、古典的なフェデレーション平均化(FedAvg)アルゴリズムまたはその変種は、グローバルモデルを更新する際に、各クライアントのサブモデルを除くフルモデルのゼロ更新が不正確に集約されるため、大幅に遅くなる。
そこで我々は,フェデレートされたサブモデル平均化(FedSubAvg)を提案し,各モデルパラメータのグローバル更新の期待値が,それに関与するクライアントのローカル更新の平均値に等しいことを保証する。
理論上、feedsubavg の収束速度は、要素ワイズ勾配ノルムと呼ばれる新しい計量の下で上界を導出することで証明した。
特に、この新しい計量はスパースデータに対するフェデレーション最適化の収束を特徴づけることができるが、従来の2乗勾配ノルムの計量はFedAvgとその変種では適用できない。
我々は、パブリックデータセットと産業データセットの両方についてfeedsubavgを広範囲に評価した。
評価の結果,FedSubAvgはFedAvgとその変種よりも有意に優れていた。 We study practical data characteristics underlying federated learning, where non-i.i.d. data from clients have sparse features, and a certain client's local data normally involves only a small part of the full model, called a submodel. Due to data sparsity, the classical federated averaging (FedAvg) algorithm or its variants will be severely slowed down, because when updating the global model, each client's zero update of the full model excluding its submodel is inaccurately aggregated. Therefore, we propose federated submodel averaging (FedSubAvg), ensuring that the expectation of the global update of each model parameter is equal to the average of the local updates of the clients who involve it. We theoretically proved the convergence rate of FedSubAvg by deriving an upper bound under a new metric called the element-wise gradient norm. In particular, this new metric can characterize the convergence of federated optimization over sparse data, while the conventional metric of squared gradient norm used in FedAvg and its variants cannot. We extensively evaluated FedSubAvg over both public and industrial datasets. The evaluation results demonstrate that FedSubAvg significantly outperforms FedAvg and its variants. | 翻訳日:2023-04-06 16:54:04 公開日:2023-04-05 |
# Diffusion Schr\"odinger Bridgeとスコアベース生成モデルへの応用 Diffusion Schr\"odinger Bridge with Applications to Score-Based Generative Modeling ( http://arxiv.org/abs/2106.01357v5 ) ライセンス: Link先を確認 | Valentin De Bortoli, James Thornton, Jeremy Heng, Arnaud Doucet | (参考訳) ガウス雑音の漸進的適用は、複素データ分布をおよそガウスに変換する。
このダイナミックな反転は生成モデルを定義する。
確率微分方程式(sde)によりフォワードノージング過程が与えられると、song et al.(2021)はスコアマッチングを用いて関連する逆時間sdeの時間不均質なドリフトを推定する方法を示す。
このアプローチの制限は、最終分布がほぼガウス的であるためには、前向きの SDE を十分に長い時間実行しなければならないことである。
対照的に、経路空間上のエントロピー規則化された最適輸送問題であるSchr\"odinger Bridge problem (SB) を解くと、有限時間でデータ分布からサンプルを生成する拡散が得られる。
本稿では,SB問題を解くためにIterative Proportional Fitting (IPF) 法のオリジナル近似である Diffusion SB (DSB) を提案し,生成モデル実験とともに理論的解析を行った。
第1のdsb反復は、song et al. (2021) によって提案された手法を、より短い時間間隔を使用する柔軟性をもって回復し、その後のdsb反復は、前(resp. data)分布に対する前方(resp. backward)sdeの最終時間辺とのずれを減少させる。
生成モデリング以外にも、DSBは人気のあるシンクホーンアルゴリズム(Cuturi, 2013)の連続状態空間アナログとして広く応用可能な計算最適輸送ツールを提供している。 Progressively applying Gaussian noise transforms complex data distributions to approximately Gaussian. Reversing this dynamic defines a generative model. When the forward noising process is given by a Stochastic Differential Equation (SDE), Song et al. (2021) demonstrate how the time inhomogeneous drift of the associated reverse-time SDE may be estimated using score-matching. A limitation of this approach is that the forward-time SDE must be run for a sufficiently long time for the final distribution to be approximately Gaussian. In contrast, solving the Schr\"odinger Bridge problem (SB), i.e. an entropy-regularized optimal transport problem on path spaces, yields diffusions which generate samples from the data distribution in finite time. We present Diffusion SB (DSB), an original approximation of the Iterative Proportional Fitting (IPF) procedure to solve the SB problem, and provide theoretical analysis along with generative modeling experiments. The first DSB iteration recovers the methodology proposed by Song et al. (2021), with the flexibility of using shorter time intervals, as subsequent DSB iterations reduce the discrepancy between the final-time marginal of the forward (resp. backward) SDE with respect to the prior (resp. data) distribution. Beyond generative modeling, DSB offers a widely applicable computational optimal transport tool as the continuous state-space analogue of the popular Sinkhorn algorithm (Cuturi, 2013). | 翻訳日:2023-04-06 16:53:43 公開日:2023-04-05 |
# 機械学習による電子設計自動化のための半導体デバイスモデリングの改善 Improving Semiconductor Device Modeling for Electronic Design Automation by Machine Learning Techniques ( http://arxiv.org/abs/2105.11453v2 ) ライセンス: Link先を確認 | Zeheng Wang, Liang Li, Ross C. C. Leon, Jinlin Yang, Junjie Shi, Timothy van der Laan, and Muhammad Usman | (参考訳) 半導体産業は、TCAD(Technology Computer-Aided Design)メソッドにおける機械学習(ML)ベースの技術の統合から大きな恩恵を受けている。
しかし、MLモデルの性能はトレーニングデータセットの品質と量に大きく依存している。
半導体産業において、デバイス製造の複雑さとコストのため、それらを得るのが特に困難である。
本稿では,変分オートエンコーダを用いたMLに基づくデバイスモデリングを改善するための自己拡張手法を提案する。
これらの技術は、少数の実験データポイントを必要とし、TCADツールに依存しない。
提案手法の有効性を実証するために,ガリウム窒化物デバイスにおけるオーミック抵抗値に対するディープニューラルネットワークに基づく予測タスクに適用する。
実験結果を予測する際に平均絶対誤差を70%削減する。
このアプローチの固有の柔軟性により、様々なタスクへの適応が容易になり、半導体産業の多くのアプリケーションと非常に関係がある。 The semiconductors industry benefits greatly from the integration of Machine Learning (ML)-based techniques in Technology Computer-Aided Design (TCAD) methods. The performance of ML models however relies heavily on the quality and quantity of training datasets. They can be particularly difficult to obtain in the semiconductor industry due to the complexity and expense of the device fabrication. In this paper, we propose a self-augmentation strategy for improving ML-based device modeling using variational autoencoder-based techniques. These techniques require a small number of experimental data points and does not rely on TCAD tools. To demonstrate the effectiveness of our approach, we apply it to a deep neural network-based prediction task for the Ohmic resistance value in Gallium Nitride devices. A 70% reduction in mean absolute error when predicting experimental results is achieved. The inherent flexibility of our approach allows easy adaptation to various tasks, thus making it highly relevant to many applications of the semiconductor industry. | 翻訳日:2023-04-06 16:53:13 公開日:2023-04-05 |
# 一次元スピン鎖における希薄不純物の熱化 Thermalization of dilute impurities in one dimensional spin chains ( http://arxiv.org/abs/2105.09348v4 ) ライセンス: Link先を確認 | Dries Sels and Anatoli Polkovnikov | (参考訳) 強い局所場を持つスピンとして定義される不純物の希薄な密度を持つ相互作用スピン鎖におけるエルゴード系と非エルゴード系の交差解析を行う。
希薄な極限は、いくつかの有限サイズ効果を解き放ち、熱力学的極限におけるこれらの不純物非局在化のメカニズムを提案する。
特に、不純物はチェーンの他の部分とエネルギーを交換することで常に緩和することを示す。
緩和速度は不純物密度と指数関数的に崩壊にのみ依存し、対数補正まで、磁場強度は弱くなる。
我々は緩和を高速作用素拡散に結び付け、同じ機構が任意の不純物密度での局所運動積分の再帰的な構成を不安定化することを示す。
高磁場限界では、不純物は局所化され、システムは多種多様なシステムサイズにわたって非エルゴードとなる。
しかし、これは過渡効果であり、最終的に非局在化は流れの局所化長の観点から理解することができる。 We analyze a crossover between ergodic and non-ergodic regimes in an interacting spin chain with a dilute density of impurities, defined as spins with a strong local field. The dilute limit allows us to unravel some finite size effects and propose a mechanism for the delocalization of these impurities in the thermodynamic limit. In particular we show that impurities will always relax by exchanging energy with the rest of the chain. The relaxation rate only weakly depends on the impurity density and decays exponentially, up to logarithmic corrections, with the field strength. We connect the relaxation to fast operator spreading and show that the same mechanism destabilizes the recursive construction of local integrals of motion at any impurity density. In the high field limit, impurities will appear to be localized, and the system will be non-ergodic, over a wide range of system sizes. However, this is a transient effect and the eventual delocalization can be understood in terms of a flowing localization length. | 翻訳日:2023-04-06 16:53:01 公開日:2023-04-05 |
# 近似マルチエージェント適合qイテレーション Approximated Multi-Agent Fitted Q Iteration ( http://arxiv.org/abs/2104.09343v5 ) ライセンス: Link先を確認 | Antoine Lesage-Landry and Duncan S. Callaway | (参考訳) 多エージェントバッチ強化学習(AMAFQI)の効率的な近似式を定式化する。
我々はこのアプローチの詳細な導出を示す。
本稿では,反復的な方針探索を提案し,集中型学習q関数の複数の近似に関して欲望的な方針を与えることを示す。
各イテレーションとポリシーの評価において、amafqiはエージェントの数と線形にスケールする多くの計算を必要とするが、類似した計算数はバッチ強化学習でよく使われるqイテレーション(fqi)に対して指数関数的に増加する。
AMAFQIのこの性質は、トラクタブルなマルチエージェントアプローチの設計に基本的である。
AMAFQIの性能を評価し,数値シミュレーションでFQIと比較した。
シミュレーションでは、FQIの代わりにAMAFQIを使用する場合の計算時間を大幅に削減し、両者の類似性能を相関させる。 We formulate an efficient approximation for multi-agent batch reinforcement learning, the approximated multi-agent fitted Q iteration (AMAFQI). We present a detailed derivation of our approach. We propose an iterative policy search and show that it yields a greedy policy with respect to multiple approximations of the centralized, learned Q-function. In each iteration and policy evaluation, AMAFQI requires a number of computations that scales linearly with the number of agents whereas the analogous number of computations increase exponentially for the fitted Q iteration (FQI), a commonly used approaches in batch reinforcement learning. This property of AMAFQI is fundamental for the design of a tractable multi-agent approach. We evaluate the performance of AMAFQI and compare it to FQI in numerical simulations. The simulations illustrate the significant computation time reduction when using AMAFQI instead of FQI in multi-agent problems and corroborate the similar performance of both approaches. | 翻訳日:2023-04-06 16:52:17 公開日:2023-04-05 |
# GraphTune: 可変構造を持つ学習ベースのグラフ生成モデル GraphTune: A Learning-based Graph Generative Model with Tunable Structural Features ( http://arxiv.org/abs/2201.11494v3 ) ライセンス: Link先を確認 | Kohei Watabe, Shohei Nakazawa, Yoshiki Sato, Sho Tsugawa, Kenji Nakagawa | (参考訳) グラフ生成モデルは数十年にわたって活発に研究されており、幅広い応用例がある。
近年,実世界のグラフを再現する学習に基づくグラフ生成が多くの研究者の注目を集めている。
現代の機械学習技術を利用した数種類の生成モデルが提案されているが、一般グラフの条件付き生成はこの分野では研究されていない。
本稿では,グローバルな構造的特徴の値を条件として調整できる生成モデルを提案する。
当社のモデルであるGraphTuneは,Long Short Term Memory (LSTM) と Conditional Variational AutoEncoder (CVAE) を用いて,生成されたグラフの構造的特徴の値を調整可能にする。
実グラフデータセット上でグラフチューンと従来のモデルの比較評価を行った。
評価の結果、GraphTuneは従来のモデルよりもグローバルレベルの構造的特徴の価値をより明確に調整できることがわかった。 Generative models for graphs have been actively studied for decades, and they have a wide range of applications. Recently, learning-based graph generation that reproduces real-world graphs has been attracting the attention of many researchers. Although several generative models that utilize modern machine learning technologies have been proposed, conditional generation of general graphs has been less explored in the field. In this paper, we propose a generative model that allows us to tune the value of a global-level structural feature as a condition. Our model, called GraphTune, makes it possible to tune the value of any structural feature of generated graphs using Long Short Term Memory (LSTM) and a Conditional Variational AutoEncoder (CVAE). We performed comparative evaluations of GraphTune and conventional models on a real graph dataset. The evaluations show that GraphTune makes it possible to more clearly tune the value of a global-level structural feature better than conventional models. | 翻訳日:2023-04-06 16:46:21 公開日:2023-04-05 |
# CFU Playground:FPGA上でのTiny Machine Learning(tinyML)アクセラレーションのためのフルスタックオープンソースフレームワーク CFU Playground: Full-Stack Open-Source Framework for Tiny Machine Learning (tinyML) Acceleration on FPGAs ( http://arxiv.org/abs/2201.01863v3 ) ライセンス: Link先を確認 | Shvetank Prakash, Tim Callahan, Joseph Bushagour, Colby Banbury, Alan V. Green, Pete Warden, Tim Ansell, Vijay Janapa Reddi | (参考訳) ニューラルネットワークの効率的な処理の必要性は、ハードウェアアクセラレータの開発を引き起こしている。
特別なハードウェアの採用の増加は、ハードウェアとソフトウェアの共同設計とドメイン固有の最適化のために、よりアジャイルな設計フローの必要性を強調している。
本稿では、組み込みMLシステムのための機械学習アクセラレーターの迅速かつ反復的な設計と評価を可能にするフルスタックオープンソースフレームワークであるCFU Playgroundを提案する。
我々のツールはFPGAと将来のシステム研究におけるハードウェアとソフトウェアの共同設計のために、完全にオープンソースでエンドツーエンドのフローを提供する。
このフルスタックフレームワークは、組み込みML用にカスタマイズされ、共最適化された実験的かつ好ましくないアーキテクチャを探索することを可能にする。
私たちの迅速なデプロイ/最適化フィードバックループによって、MLハードウェアとソフトウェア開発者は、カスタマイズに対する比較的小さな投資から大きなリターンを得られるようになります。
CFU Playgroundの設計と評価ループを用いて、55$\times$と75$\times$の間にかなりのスピードアップを示す。
アクセルと組み合わされたソフトCPUは、オープンソースのブラックボックス最適化サービスであるVizierを使って、私たちが探している2つのコンポーネント間の新しいリッチなデザインスペースを開放します。 Need for the efficient processing of neural networks has given rise to the development of hardware accelerators. The increased adoption of specialized hardware has highlighted the need for more agile design flows for hardware-software co-design and domain-specific optimizations. In this paper, we present CFU Playground: a full-stack open-source framework that enables rapid and iterative design and evaluation of machine learning (ML) accelerators for embedded ML systems. Our tool provides a completely open-source end-to-end flow for hardware-software co-design on FPGAs and future systems research. This full-stack framework gives the users access to explore experimental and bespoke architectures that are customized and co-optimized for embedded ML. Our rapid, deploy-profile-optimization feedback loop lets ML hardware and software developers achieve significant returns out of a relatively small investment in customization. Using CFU Playground's design and evaluation loop, we show substantial speedups between 55$\times$ and 75$\times$. The soft CPU coupled with the accelerator opens up a new, rich design space between the two components that we explore in an automated fashion using Vizier, an open-source black-box optimization service. | 翻訳日:2023-04-06 16:46:04 公開日:2023-04-05 |
# deepgantt:バック散乱ネットワークのためのスケーラブルなディープラーニングスケジューラ DeepGANTT: A Scalable Deep Learning Scheduler for Backscatter Networks ( http://arxiv.org/abs/2112.12985v2 ) ライセンス: Link先を確認 | Daniel F. Perez-Ramirez, Carlos P\'erez-Penichet, Nicolas Tsiftes, Thiemo Voigt, Dejan Kostic, Magnus Boman | (参考訳) 新たなバックスキャッター通信技術により、バッテリフリーなセンサタグが、未修正の標準iotデバイスと相互運用可能となり、センサネットワークの機能をスケーラブルに拡張する。
追加のインフラストラクチャを必要とせずに、バッテリフリータグは環境からエネルギーを消費し、iotデバイスは通信に必要な無修正キャリアを提供する。
スケジュールは、IoTノードとバッテリフリーデバイスの通信のためのキャリアの提供を調整する。
最適キャリアスケジューリングは、ネットワーク展開のスケーラビリティを制限するNPハード問題である。
したがって、既存のソリューションはキャリアを最適にスケジューリングすることで、エネルギーやその他の貴重な資源を無駄にする。
本稿では,グラフニューラルネットワークを利用したディープラーニングスケジューラDeepGANTTを提案する。
我々は,制約最適化解法から得られる比較的小さな最適スケジュールでスケジューラを訓練し,最適スケジューラの3%以内のパフォーマンスを達成する。
再トレーニング不要で、deepganttは、トレーニングに使用するノード数で6倍、タグ数で10倍のネットワークに一般化し、最適なスケジューラのスケーラビリティの制限を破り、最先端のヒューリスティックと比較してキャリア利用を最大50%削減する。
我々のスケジューラは,バックスキャッタネットワークのエネルギー利用とスペクトル利用を効率的に削減する。 Novel backscatter communication techniques enable battery-free sensor tags to interoperate with unmodified standard IoT devices, extending a sensor network's capabilities in a scalable manner. Without requiring additional dedicated infrastructure, the battery-free tags harvest energy from the environment, while the IoT devices provide them with the unmodulated carrier they need to communicate. A schedule coordinates the provision of carriers for the communications of battery-free devices with IoT nodes. Optimal carrier scheduling is an NP-hard problem that limits the scalability of network deployments. Thus, existing solutions waste energy and other valuable resources by scheduling the carriers suboptimally. We present DeepGANTT, a deep learning scheduler that leverages graph neural networks to efficiently provide near-optimal carrier scheduling. We train our scheduler with relatively small optimal schedules obtained from a constraint optimization solver, achieving a performance within 3% of the optimal scheduler. Without the need to retrain, DeepGANTT generalizes to networks 6x larger in the number of nodes and 10x larger in the number of tags than those used for training, breaking the scalability limitations of the optimal scheduler and reducing carrier utilization by up to 50% compared to the state-of-the-art heuristic. Our scheduler efficiently reduces energy and spectrum utilization in backscatter networks. | 翻訳日:2023-04-06 16:45:43 公開日:2023-04-05 |
# 並列処理を用いたニュートン法に基づく畳み込みニューラルネットワーク Newton methods based convolution neural networks using parallel processing ( http://arxiv.org/abs/2112.01401v3 ) ライセンス: Link先を確認 | Ujjwal Thakur, Anuj Sharma | (参考訳) 畳み込みニューラルネットワークのトレーニングは、高次元および非凸最適化問題である。
現在、パラメトリック学習率を自信を持って設定できない状況では非効率である。
ディープニューラルネットワークのトレーニングにニュートン法を導入した過去の作品もある。
畳み込みニューラルネットワークのニュートン法は複雑な操作を含む。
2階法におけるヘッセン行列の探索は,主に画像データとの差分法を用いるため,非常に複雑になる。
畳み込みニューラルネットワークのニュートン法は、サブサンプルのヘッセンニュートン法を用いてこれを扱う。
本稿では,部分データのみを処理するサブサンプリング方式ではなく,完全なデータを用いた。
さらに,ミニバッチ計算ではシリアル処理の代わりに並列処理を用いる。
本研究で得られた並列処理の結果は, 従来の手法よりも優れていた。 Training of convolutional neural networks is a high dimensional and a non-convex optimization problem. At present, it is inefficient in situations where parametric learning rates can not be confidently set. Some past works have introduced Newton methods for training deep neural networks. Newton methods for convolutional neural networks involve complicated operations. Finding the Hessian matrix in second-order methods becomes very complex as we mainly use the finite differences method with the image data. Newton methods for convolutional neural networks deals with this by using the sub-sampled Hessian Newton methods. In this paper, we have used the complete data instead of the sub-sampled methods that only handle partial data at a time. Further, we have used parallel processing instead of serial processing in mini-batch computations. The results obtained using parallel processing in this study, outperform the time taken by the previous approach. | 翻訳日:2023-04-06 16:44:45 公開日:2023-04-05 |
# 正則化ネーブベイの判別能力を向上させる半改良適応判別法 A Semi-Supervised Adaptive Discriminative Discretization Method Improving Discrimination Power of Regularized Naive Bayes ( http://arxiv.org/abs/2111.10983v3 ) ライセンス: Link先を確認 | Shihe Wang, Jianfeng Ren and Ruibin Bai | (参考訳) 近年,改良されたナイーブベイズ法が多数開発され,識別能力が向上している。
これらのうち、正規化ベイズ(RNB)は、識別力と一般化能力のバランスをとることで優れた性能を発揮する。
ベイズではデータの識別が重要である。
類似した値を1つの間隔にグループ化することで、データ分布をよりよく推定できる。
しかし、RNBを含む既存の手法は、データをわずかな間隔で区別することが多く、重大な情報損失をもたらす可能性がある。
そこで本研究では,ラベル付きデータとラベルなしデータの両方を擬似ラベル付け手法を用いて,よりよくデータ分布を推定できる半教師付き適応型ベイズ識別フレームワークを提案する。
提案手法は,適応的識別判別スキームを用いて識別時の情報損失を著しく低減し,分類器の識別能力を大幅に向上させる。
提案するrnb+,すなわち離散化フレームワークを用いた正規化ナイーブベイズは,幅広い機械学習データセット上で体系的に評価される。
最先端のNB分類器を著しく、一貫して上回る。 Recently, many improved naive Bayes methods have been developed with enhanced discrimination capabilities. Among them, regularized naive Bayes (RNB) produces excellent performance by balancing the discrimination power and generalization capability. Data discretization is important in naive Bayes. By grouping similar values into one interval, the data distribution could be better estimated. However, existing methods including RNB often discretize the data into too few intervals, which may result in a significant information loss. To address this problem, we propose a semi-supervised adaptive discriminative discretization framework for naive Bayes, which could better estimate the data distribution by utilizing both labeled data and unlabeled data through pseudo-labeling techniques. The proposed method also significantly reduces the information loss during discretization by utilizing an adaptive discriminative discretization scheme, and hence greatly improves the discrimination power of classifiers. The proposed RNB+, i.e., regularized naive Bayes utilizing the proposed discretization framework, is systematically evaluated on a wide range of machine-learning datasets. It significantly and consistently outperforms state-of-the-art NB classifiers. | 翻訳日:2023-04-06 16:44:37 公開日:2023-04-05 |
# PatchCensor: エクササイズテストによるトランスフォーマーのパッチロバストネス認定 PatchCensor: Patch Robustness Certification for Transformers via Exhaustive Testing ( http://arxiv.org/abs/2111.10481v2 ) ライセンス: Link先を確認 | Yuheng Huang, Lei Ma, Yuanchun Li | (参考訳) 視覚トランスフォーマー(vit)は他の古典的ニューラルネットワークと同様に高度に非線形であることが知られており、自然と逆のパッチの摂動によって容易に騙される可能性がある。
この制限は、特に安全クリティカルなシナリオにおいて、実際の産業環境におけるViTの展開に脅威をもたらす可能性がある。
本研究では,徹底的なテストを適用することで,ViTのパッチ堅牢性を証明することを目的としたPatchCensorを提案する。
最悪のパッチ攻撃シナリオを考慮して、証明可能な保証を提供しようとしています。
適応的に違反する可能性のある敵パッチに対する経験的防御とは異なり、認証された堅牢なアプローチは、特定の条件下で任意の攻撃に対して認証された精度を提供することができる。
しかし、既存の堅牢性認定は主に堅牢なトレーニングに基づいているため、かなりのトレーニング努力と通常のサンプルに対するモデルパフォーマンスの犠牲がしばしば必要である。
ギャップを埋めるために、PatchCensorは、頑健なモデルをトレーニングする代わりに異常な入力を検出し、必然的に精度を損なう可能性のある全ての入力に対して信頼性の高い結果を与えるよう要求することで、システム全体の堅牢性を改善することを目指している。
具体的には、各入力は、異なる変更された注目マスクを持つ複数の推論に投票することでテストされる。
これは完全なカバレッジテストと見ることができ、テスト時の推論に関する統計的保証を提供することができる。
我々の総合評価は、PatchCensorが高い認証精度(例えば、2%ピクセルの対向パッチでImageNetで67.1%)を達成できることを示し、同じクリーンな精度(画像Netで81.8%)を達成しつつ、最先端技術を大幅に上回っている。
また,マスキング戦略を単純に変更することで,異なるパッチサイズ(最大25%)を処理するための柔軟な構成もサポートする。 Vision Transformer (ViT) is known to be highly nonlinear like other classical neural networks and could be easily fooled by both natural and adversarial patch perturbations. This limitation could pose a threat to the deployment of ViT in the real industrial environment, especially in safety-critical scenarios. In this work, we propose PatchCensor, aiming to certify the patch robustness of ViT by applying exhaustive testing. We try to provide a provable guarantee by considering the worst patch attack scenarios. Unlike empirical defenses against adversarial patches that may be adaptively breached, certified robust approaches can provide a certified accuracy against arbitrary attacks under certain conditions. However, existing robustness certifications are mostly based on robust training, which often requires substantial training efforts and the sacrifice of model performance on normal samples. To bridge the gap, PatchCensor seeks to improve the robustness of the whole system by detecting abnormal inputs instead of training a robust model and asking it to give reliable results for every input, which may inevitably compromise accuracy. Specifically, each input is tested by voting over multiple inferences with different mutated attention masks, where at least one inference is guaranteed to exclude the abnormal patch. This can be seen as complete-coverage testing, which could provide a statistical guarantee on inference at the test time. Our comprehensive evaluation demonstrates that PatchCensor is able to achieve high certified accuracy (e.g. 67.1% on ImageNet for 2%-pixel adversarial patches), significantly outperforming state-of-the-art techniques while achieving similar clean accuracy (81.8% on ImageNet). Meanwhile, our technique also supports flexible configurations to handle different adversarial patch sizes (up to 25%) by simply changing the masking strategy. | 翻訳日:2023-04-06 16:44:20 公開日:2023-04-05 |
# 中間領域を進化させる半スーパービジョン領域一般化 Semi-Supervised Domain Generalization with Evolving Intermediate Domain ( http://arxiv.org/abs/2111.10221v3 ) ライセンス: Link先を確認 | Luojun Lin, Han Xie, Zhishu Sun, Weijie Chen, Wenxi Liu, Yuanlong Yu, Lei Zhang | (参考訳) ドメイン一般化(DG)は、複数のソースドメインでトレーニングされたモデルを、目に見えないターゲットドメインに一般化することを目的としている。
ソースドメインは、常に正確なアノテーションを必要とするが、大量のデータを必要とするため、実際には入手できない。
しかし、Webデータは、DGを改善するために活用できるリッチなスタイルの情報によって、大量のラベルのないデータにアクセスする機会を提供する。
この観点から、ラベル付きおよびラベルなしのソースドメインがどのように相互作用するかを探求し、クローズセットとオープンセットのSSDGを含む2つの設定を確立するため、Semi-Supervised Domain Generalization (SSDG)と呼ばれる新しいDGパラダイムを導入する。
クローズセットのSSDGは、既存の公開DGデータセットに基づいており、新しくコンパイルされたWebcrawledデータセット上に構築されたオープンソースのSSDGは、現在のテクノロジの限界を推し進める、斬新で現実的な挑戦を示している。
SSDGの自然なアプローチは、ラベル付きデータから擬似ラベル付きデータへ知識を伝達し、ラベル付きデータと擬似ラベル付きデータの両方でモデルを訓練して一般化することである。
ドメイン指向擬似ラベリングとドメイン外一般化には相反する目標があるため、ssdgとは独立に擬似ラベリングフェーズと一般化フェーズを開発する。
残念ながら、大きなドメインギャップのため、擬似ラベリングフェーズで提供される擬似ラベルは必然的にノイズを含み、その後の一般化フェーズに悪影響を及ぼす。
そこで, 擬似ラベルの品質向上と一般化性の向上を目的として, この2つのフェーズ間の肯定的なフィードバックを促す循環学習フレームワークを提案し, ラベル付きドメインとラベルなしドメインをカリキュラム学習方式でブリッジする進化中の中間ドメインを利用する。 Domain Generalization (DG) aims to generalize a model trained on multiple source domains to an unseen target domain. The source domains always require precise annotations, which can be cumbersome or even infeasible to obtain in practice due to the vast amount of data involved. Web data, however, offers an opportunity to access large amounts of unlabeled data with rich style information, which can be leveraged to improve DG. From this perspective, we introduce a novel paradigm of DG, termed as Semi-Supervised Domain Generalization (SSDG), to explore how the labeled and unlabeled source domains can interact, and establish two settings, including the close-set and open-set SSDG. The close-set SSDG is based on existing public DG datasets, while the open-set SSDG, built on the newly-collected web-crawled datasets, presents a novel yet realistic challenge that pushes the limits of current technologies. A natural approach of SSDG is to transfer knowledge from labeled data to unlabeled data via pseudo labeling, and train the model on both labeled and pseudo-labeled data for generalization. Since there are conflicting goals between domain-oriented pseudo labeling and out-of-domain generalization, we develop a pseudo labeling phase and a generalization phase independently for SSDG. Unfortunately, due to the large domain gap, the pseudo labels provided in the pseudo labeling phase inevitably contain noise, which has negative affect on the subsequent generalization phase. Therefore, to improve the quality of pseudo labels and further enhance generalizability, we propose a cyclic learning framework to encourage a positive feedback between these two phases, utilizing an evolving intermediate domain that bridges the labeled and unlabeled domains in a curriculum learning manner... | 翻訳日:2023-04-06 16:43:44 公開日:2023-04-05 |
# 弱映像ラベリングにおける無線位置定位による教師なし人物再同定 Unsupervised Person Re-Identification with Wireless Positioning under Weak Scene Labeling ( http://arxiv.org/abs/2110.15610v2 ) ライセンス: Link先を確認 | Yiheng Liu, Wengang Zhou, Qiaokang Xie, Houqiang Li | (参考訳) 既存の監視されていない人物の身元確認方法は、異なるカメラの下で歩行者にマッチする視覚的手がかりにのみ依存する。
視覚データは基本的に閉塞、ぼけ、衣料変化などに影響を受けやすいため、視覚データの欠陥を補うために異種データを導入することが有望な解決策となる。
フルシーンラベリングに基づくいくつかの作品では、クロスドメインの人物の再識別を支援するために無線位置決めを導入している。
そこで本研究では,映像データと無線測位トラジェクタの両方を用いて,カメラの位置を知るだけでよい,弱いシーンラベリング下での教師なし人物再同定について検討する。
具体的には,視覚データと無線情報の相補性をモデル化する,教師なしマルチモーダルトレーニングフレームワーク (umtf) を提案する。
UMTFにはマルチモーダルデータアソシエーション戦略(MMDA)とマルチモーダルグラフニューラルネットワーク(MMGN)が含まれている。
mmdaはラベルのないマルチモーダルデータにおける潜在的なデータ関連を調査し、mmgnは無線データのヒストグラム統計から得られた隣接行列に基づいてビデオグラフ内のマルチモーダルメッセージを伝搬する。
無線データから視覚ノイズへの堅牢性、および様々なモジュールの協調により、UMTFは人間のラベルのないモデルをデータで学習することができる。
WP-ReIDとDukeMTMC-VideoReIDの2つの挑戦的データセットで行った実験結果から,提案手法の有効性が示された。 Existing unsupervised person re-identification methods only rely on visual clues to match pedestrians under different cameras. Since visual data is essentially susceptible to occlusion, blur, clothing changes, etc., a promising solution is to introduce heterogeneous data to make up for the defect of visual data. Some works based on full-scene labeling introduce wireless positioning to assist cross-domain person re-identification, but their GPS labeling of entire monitoring scenes is laborious. To this end, we propose to explore unsupervised person re-identification with both visual data and wireless positioning trajectories under weak scene labeling, in which we only need to know the locations of the cameras. Specifically, we propose a novel unsupervised multimodal training framework (UMTF), which models the complementarity of visual data and wireless information. Our UMTF contains a multimodal data association strategy (MMDA) and a multimodal graph neural network (MMGN). MMDA explores potential data associations in unlabeled multimodal data, while MMGN propagates multimodal messages in the video graph based on the adjacency matrix learned from histogram statistics of wireless data. Thanks to the robustness of the wireless data to visual noise and the collaboration of various modules, UMTF is capable of learning a model free of the human label on data. Extensive experimental results conducted on two challenging datasets, i.e., WP-ReID and DukeMTMC-VideoReID demonstrate the effectiveness of the proposed method. | 翻訳日:2023-04-06 16:43:12 公開日:2023-04-05 |
# 文法の進化における方向性力の検出--EEBO, COHA, Google Booksを横断する非翻訳詞を用いた英語完全語のケーススタディ Detecting directional forces in the evolution of grammar: A case study of the English perfect with intransitives across EEBO, COHA, and Google Books ( http://arxiv.org/abs/2110.08567v3 ) ライセンス: Link先を確認 | Shimpei Okuda, Michio Hosaka, and Kazutoshi Sasahara | (参考訳) 言語には進化を通じて現れた様々な特徴がある。
現代の英語文法では、完全は \textit{have}+PP (past participle) で形成されるが、初期の英語では \textit{be}+PP 形式も存在した。
副動詞BEは,いくつかの特別な症例を除いて,進化を通じてHAVEに置き換えられたことが広く認識されている。
しかし、この進化が自然選択やランダムドリフトによって引き起こされたのかはいまだ不明である。
本稿では、EEBO(Early English Books Online)、COHA(Corpus of Historical American English)、Google Books(Google Books)の3つの大規模データソースを組み合わせることで、英語完全体の進化における方向性について検討した。
非翻訳動詞の多くは、ディープニューラルネットワークに基づくモデルによって「選択」に分類された \textit{be}+pp から \textit{have}+pp へ明らかな遷移を示した。
これらの結果は、英語の完全性がランダムなドリフトではなく自然選択を通じて進化し、文法の文化的進化に対する洞察を与えることを示唆している。 Languages have diverse characteristics that have emerged through evolution. In modern English grammar, the perfect is formed with \textit{have}+PP (past participle), but in earlier English the \textit{be}+PP form also existed. It is widely recognised that the auxiliary verb BE was replaced by HAVE throughout evolution, except for some special cases. However, whether this evolution was caused by natural selection or random drift is still unclear. Here we examined directional forces in the evolution of the English perfect with intransitives by combining three large-scale data sources: EEBO (Early English Books Online), COHA (Corpus of Historical American English), and Google Books. We found that most intransitive verbs exhibited an apparent transition from \textit{be}+PP to \textit{have}+PP, most of which were classified as `selection' by a deep neural network-based model. These results suggest that the English perfect could have evolved through natural selection rather than random drift, and provide insights into the cultural evolution of grammar. | 翻訳日:2023-04-06 16:42:47 公開日:2023-04-05 |
# deepipc: 実環境における自律走行車の深い統合的知覚と制御 DeepIPC: Deeply Integrated Perception and Control for an Autonomous Vehicle in Real Environments ( http://arxiv.org/abs/2207.09934v4 ) ライセンス: Link先を確認 | Oskar Natan and Jun Miura | (参考訳) 我々は、車両の運転における知覚と制御タスクの両方を処理するエンドツーエンドの自動運転モデルであるdeepipcを提案する。
モデルは2つの主要部分、知覚モジュールとコントローラモジュールから構成される。
知覚モジュールは、RGBDイメージを使用してセマンティックセグメンテーションと鳥の目視(BEV)セマンティックマッピングを行い、そのエンコードされた特徴を提供する。
一方、コントローラモジュールは、これらの特徴をGNSS位置の測定と角速度で処理し、遅延する特徴を持つウェイポイントを推定する。
次に、2つの異なるエージェントを使用して、ウェイポイントと潜伏した特徴を、車両を駆動する一連のナビゲーション制御に翻訳する。
実環境における各種条件下での運転記録の予測と自動走行を行うことにより,モデルの評価を行った。
実験結果から,DeepIPCは,他のモデルと比較してパラメータが少ない場合でも,最良の乾燥性およびマルチタスク性能が得られることが示された。
コードはhttps://github.com/oskarnatan/DeepIPCで入手できる。 We propose DeepIPC, an end-to-end autonomous driving model that handles both perception and control tasks in driving a vehicle. The model consists of two main parts, perception and controller modules. The perception module takes an RGBD image to perform semantic segmentation and bird's eye view (BEV) semantic mapping along with providing their encoded features. Meanwhile, the controller module processes these features with the measurement of GNSS locations and angular speed to estimate waypoints that come with latent features. Then, two different agents are used to translate waypoints and latent features into a set of navigational controls to drive the vehicle. The model is evaluated by predicting driving records and performing automated driving under various conditions in real environments. The experimental results show that DeepIPC achieves the best drivability and multi-task performance even with fewer parameters compared to the other models. Codes are available at https://github.com/oskarnatan/DeepIPC. | 翻訳日:2023-04-06 16:36:56 公開日:2023-04-05 |
# 二元分類における逆代理リスクの存在とミニマックス定理 Existence and Minimax Theorems for Adversarial Surrogate Risks in Binary Classification ( http://arxiv.org/abs/2206.09098v2 ) ライセンス: Link先を確認 | Natalie S. Frank Jonathan Niles-Weed | (参考訳) 敵意訓練は、敵意攻撃に頑健な訓練方法の最も一般的な方法の1つであるが、理論的にはよく理解されていない。
我々は、逆代理リスクに対する証明と存在、正則性、およびミニマックス定理を行う。
本研究は,先行研究による敵のロバスト性に関する経験的観察を説明し,アルゴリズム開発における新たな方向性を示唆する。
さらに, 既知の存在と, 逆分類リスクに対するミニマックス定理を拡張し, リスクを推測した。 Adversarial training is one of the most popular methods for training methods robust to adversarial attacks, however, it is not well-understood from a theoretical perspective. We prove and existence, regularity, and minimax theorems for adversarial surrogate risks. Our results explain some empirical observations on adversarial robustness from prior work and suggest new directions in algorithm development. Furthermore, our results extend previously known existence and minimax theorems for the adversarial classification risk to surrogate risks. | 翻訳日:2023-04-06 16:36:10 公開日:2023-04-05 |
# シンクホーンアルゴリズムの初期化再考 Rethinking Initialization of the Sinkhorn Algorithm ( http://arxiv.org/abs/2206.07630v2 ) ライセンス: Link先を確認 | James Thornton, Marco Cuturi | (参考訳) 最適輸送(ot)問題はもともと線形プログラムとして定式化されたが、エントロピー正則化の付加は多くの応用において計算学的にも統計的にも有益であることが証明されている。
シンクホーン固定点アルゴリズムは、この正規化問題を解くための最も一般的な手法であり、結果として、正規化パラメータ、運動量または加速度をアニールするなどして、ランタイムを減らすために複数の試みがなされている。
この研究の前提は、シンクホーンアルゴリズムの初期化は、おそらく2つの先入観から、比較的ほとんど注目されていないことである: 正規化OT問題は凸であるので、うまく機能することが保証されているため、良い初期化を作成する価値はないかもしれない; 第二に、シンクホーンアルゴリズムの出力がエンドツーエンドのパイプラインでしばしばアンロールされるため、データ依存の初期化はヤコビ計算に偏る。
この従来の知見に挑戦し、データ依存の初期化子は劇的なスピードアップを生じさせ、暗黙的な分化が使われる限り、微分可能性に影響を与えないことを示した。
我々の初期化は、1D, Gaussian あるいは GMM 設定で知られている正確なあるいは近似OT解に対する閉形式に依存している。
これらは最小限のチューニングで使用することができ、様々なot問題に対して一貫したスピードアップをもたらす。 While the optimal transport (OT) problem was originally formulated as a linear program, the addition of entropic regularization has proven beneficial both computationally and statistically, for many applications. The Sinkhorn fixed-point algorithm is the most popular approach to solve this regularized problem, and, as a result, multiple attempts have been made to reduce its runtime using, e.g., annealing in the regularization parameter, momentum or acceleration. The premise of this work is that initialization of the Sinkhorn algorithm has received comparatively little attention, possibly due to two preconceptions: since the regularized OT problem is convex, it may not be worth crafting a good initialization, since any is guaranteed to work; secondly, because the outputs of the Sinkhorn algorithm are often unrolled in end-to-end pipelines, a data-dependent initialization would bias Jacobian computations. We challenge this conventional wisdom, and show that data-dependent initializers result in dramatic speed-ups, with no effect on differentiability as long as implicit differentiation is used. Our initializations rely on closed-forms for exact or approximate OT solutions that are known in the 1D, Gaussian or GMM settings. They can be used with minimal tuning, and result in consistent speed-ups for a wide variety of OT problems. | 翻訳日:2023-04-06 16:36:02 公開日:2023-04-05 |
# パラメータ化量子回路を用いた断熱量子コンピューティング Adiabatic quantum computing with parameterized quantum circuits ( http://arxiv.org/abs/2206.04373v2 ) ライセンス: Link先を確認 | Ioannis Kolotouros, Ioannis Petrongonas, Milo\v{s} Prokop, Petros Wallden | (参考訳) 断熱量子コンピューティングは、量子コンピューティングの普遍的なモデルである。
標準エラー訂正手法は、短期デバイスでアプリケーションを禁止するオーバーヘッドを必要とする。
短期機器の限界を軽減するために、パラメータ化量子回路が量子状態を準備して測定する多くのハイブリッドアプローチが追求され、古典最適化アルゴリズムは関心問題の解を包含する目的関数を最小化する。
本研究では、ハミルトニアンの小さな摂動が、パラメータ化された量子状態の族内のエネルギーを最小化するパラメータにどのように影響するかを分析することから、異なるアプローチを提案する。
我々は、摂動系上の一連の観測可能量を測定することで得られる、制約付き線形方程式系を解くことで、新しい最小値を計算することができる方程式の集合を導出する。
次に,nisqデバイスで実装可能な断熱量子コンピューティングの離散版を提案し,同時にパラメータの初期化や,変分量子アルゴリズムの最適化部分を妨げる他の制限にも影響を受けないことを示した。
また、成功の保証に必要な離散的なステップの数を低くする。
提案手法は,2つの古典的最適化問題(maxcutとnumber partitioning)と,量子スピン構成問題(transverse-field ising chain model)の比較を行い,提案手法が優れた性能を示すことを確認した。 Adiabatic quantum computing is a universal model for quantum computing. Standard error correction methods require overhead that makes their application prohibitive for near-term devices. To mitigate the limitations of near-term devices, a number of hybrid approaches have been pursued in which a parameterized quantum circuit prepares and measures quantum states and a classical optimization algorithm minimizes an objective function that encompasses the solution to the problem of interest. In this work, we propose a different approach starting by analyzing how a small perturbation of a Hamiltonian affects the parameters that minimize the energy within a family of parameterized quantum states. We derive a set of equations that allow us to compute the new minimum by solving a constrained linear system of equations that is obtained from measuring a series of observables on the unperturbed system. We then propose a discrete version of adiabatic quantum computing which can be implemented with NISQ devices while at the same time is insensitive to the initialization of the parameters and to other limitations hindered in the optimization part of variational quantum algorithms. We also derive a lower bound on the number of discrete steps needed to guarantee success. We compare our proposed algorithm with the Variational Quantum Eigensolver on two classical optimization problems, namely MaxCut and Number Partitioning, and on a quantum-spin configuration problem, the Transverse-Field Ising Chain model, and confirm that our approach demonstrates superior performance. | 翻訳日:2023-04-06 16:35:36 公開日:2023-04-05 |
# 動的参照化によるリーブ・ライニガー気体中のフォノンの緩和 Relaxation of phonons in the Lieb-Liniger gas by dynamical refermionization ( http://arxiv.org/abs/2206.00112v2 ) ライセンス: Link先を確認 | Isabelle Bouchoule, J\'er\^ome Dubail, L\'ea Dubois and Dimitri M. Gangardt | (参考訳) まず, ガウス的ガウス状態のフォノンを用いて, リブ・リンガー気体の平衡状態について検討した。
フォノンはハミルトニアンの正確な固有状態ではないため、気体は非常に長い時間で定常状態に緩和される。
可積分性のおかげで、定常状態は熱状態である必要はない。
我々は、緩和後のガスの定常状態を特徴付け、そのフォノン人口分布を計算する。
技術的には、リーブ・リンガー・ハミルトニアンの固有状態と、ベーテ方程式によって与えられる非相互作用フェルミ気体の固有状態の写像、およびヒルベルト空間の低エネルギーセクタで有効であるボゾン化公式の間の写像から従う。
我々は,初期状態が単一フォノンモードの励起コヒーレント状態である場合に適用し,ハードコア限界で得られた正確な結果と比較する。 We investigate the Lieb-Liniger gas initially prepared in an out-of-equilibrium state that is Gaussian in terms of the phonons. Because the phonons are not exact eigenstates of the Hamiltonian, the gas relaxes to a stationary state at very long times. Thanks to integrability, that stationary state needs not be a thermal state. We characterize the stationary state of the gas after relaxation and compute its phonon population distribution. Technically, this follows from the mapping between the exact eigenstates of the Lieb-Liniger Hamiltonian and those of a non-interacting Fermi gas -- a mapping provided by the Bethe equations -- , as well as on bosonization formulas valid in the low-energy sector of the Hilbert space. We apply our results to the case where the initial state is an excited coherent state for a single phonon mode, and we compare them to exact results obtained in the hard-core limit. | 翻訳日:2023-04-06 16:35:14 公開日:2023-04-05 |
# 自然公理からの可換成分をもつ光子位置演算子の構築 Construction of a photon position operator with commuting components from natural axioms ( http://arxiv.org/abs/2205.04791v3 ) ライセンス: Link先を確認 | Michal Dobrski, Maciej Przanowski, Jaromir Tosiek, Francisco J. Turrubiates | (参考訳) ある種の自然公理を満たす可換成分を有する光子位置作用素の一般形態を求める。
この作用素は、光子ヘリシティ作用素と可換であり、bialynicki-birulaスカラー積に関してエルミート的であり、可逆条件を保つユニタリ変換まで定義される。
ディラック磁気単極子の場合、t. t. wu と c. n. yang によって導入された手順に類似した手順を用いて、光子位置演算子は$\mathbb{r}^3 \setminus \{(0,0,0)\}$ 上の自明なベクトルバンドル内の平坦な接続によって定義できる。
この観測により、a~single photon の量子力学を $(\mathbb{r}^{3} \setminus \{(0,0,0)\}) \times \mathbb{c}^2$ で再構成することができる。 A general form of the photon position operator with commuting components fulfilling some natural axioms is obtained. This operator commutes with the photon helicity operator, is Hermitian with respect to the Bialynicki-Birula scalar product and defined up to a unitary transformation preserving the transversality condition. It is shown that, using the procedure analogous to the one introduced by T. T. Wu and C. N. Yang for the case of the Dirac magnetic monopole, the photon position operator can be defined by a flat connection in some trivial vector bundle over $\mathbb{R}^3 \setminus \{(0,0,0)\}$. This observation enables us to reformulate quantum mechanics of a~single photon on $(\mathbb{R}^{3} \setminus \{(0,0,0)\}) \times \mathbb{C}^2$. | 翻訳日:2023-04-06 16:34:48 公開日:2023-04-05 |
# 映画物語の合成:ストーリー理解のためのビデオ言語データセット Synopses of Movie Narratives: a Video-Language Dataset for Story Understanding ( http://arxiv.org/abs/2203.05711v4 ) ライセンス: Link先を確認 | Yidan Sun, Qin Chao, Yangfeng Ji and Boyang Li | (参考訳) 最近のaiの進歩にもかかわらず、ストーリー理解はオープンで未調査の問題だ。
我々は,人気のある映画やテレビシリーズの5,193本の映像要約を収録した映像言語ストーリーデータセットであるsynopses of movie narratives(symon)を収集,前処理し,公開する。
SyMoNは、人間のクリエイターが作った自然主義的なストーリーテリングビデオを撮影する。
原型的で自然主義的なストーリーデータセットとして、SyMoNは多モーダルなストーリーイベントと豊富な精神状態の記述をカバーしている。
ストーリーテリング技術を使うことは、既存のモデルに適切な課題を与えるクロスドメインなセマンティクスギャップを引き起こす。
我々は,映像要約ビデオにおけるビデオテキスト検索とゼロショットアライメントのベンチマークを構築し,ストーリー理解におけるドメイン内データと長期記憶の重要性を示す。
SyMoNでは、マルチモーダルなストーリー理解の進歩の基礎を築きたいと考えています。 Despite recent advances of AI, story understanding remains an open and under-investigated problem. We collect, preprocess, and publicly release a video-language story dataset, Synopses of Movie Narratives (SyMoN), containing 5,193 video summaries of popular movies and TV series with a total length of 869 hours. SyMoN captures naturalistic storytelling videos made by human creators and intended for a human audience. As a prototypical and naturalistic story dataset, SyMoN features high coverage of multimodal story events and abundant mental-state descriptions. Its use of storytelling techniques cause cross-domain semantic gaps that provide appropriate challenges to existing models. We establish benchmarks on video-text retrieval and zero-shot alignment on movie summary videos, which showcase the importance of in-domain data and long-term memory in story understanding. With SyMoN, we hope to lay the groundwork for progress in multimodal story understanding. | 翻訳日:2023-04-06 16:34:29 公開日:2023-04-05 |
# 医用画像分割のためのデータスケーリング可能な変換器:アーキテクチャ,モデル効率,ベンチマーク A Data-scalable Transformer for Medical Image Segmentation: Architecture, Model Efficiency, and Benchmark ( http://arxiv.org/abs/2203.00131v5 ) ライセンス: Link先を確認 | Yunhe Gao, Mu Zhou, Di Liu, Zhennan Yan, Shaoting Zhang, Dimitris N. Metaxas | (参考訳) トランスフォーマーは自然言語処理とコンピュータビジョンにおいて顕著な性能を示した。
しかし、既存の視覚トランスフォーマーは限られた医療データから学ぶのに苦労し、様々な医療画像のタスクを一般化できない。
そこで本稿では,3次元医用画像セグメンテーションのためのデータスカラートランスであるmedformerを提案する。
提案手法には, 望ましい帰納バイアス, 線形複雑度を考慮した階層的モデリング, 空間情報と意味情報をグローバルに統合したマルチスケール機能融合の3要素が組み込まれている。
MedFormerは、事前トレーニングなしで、小さなから大規模なデータを学べる。
総合的な実験は、MedFormerが多彩なセグメンテーションのバックボーンとしての可能性を示し、CNNとビジョンのトランスフォーマーを、複数のモダリティ(例えばCTやMRI)と様々な医学的ターゲット(例えば、健康な臓器、疾患のある組織、腫瘍)をカバーする7つのパブリックデータセットで上回ります。
我々のモデルと評価パイプラインへの公開アクセスを提供し、幅広い下流臨床応用を進めるために、しっかりとしたベースラインとバイアスのない比較を提供する。 Transformers have demonstrated remarkable performance in natural language processing and computer vision. However, existing vision Transformers struggle to learn from limited medical data and are unable to generalize on diverse medical image tasks. To tackle these challenges, we present MedFormer, a data-scalable Transformer designed for generalizable 3D medical image segmentation. Our approach incorporates three key elements: a desirable inductive bias, hierarchical modeling with linear-complexity attention, and multi-scale feature fusion that integrates spatial and semantic information globally. MedFormer can learn across tiny- to large-scale data without pre-training. Comprehensive experiments demonstrate MedFormer's potential as a versatile segmentation backbone, outperforming CNNs and vision Transformers on seven public datasets covering multiple modalities (e.g., CT and MRI) and various medical targets (e.g., healthy organs, diseased tissues, and tumors). We provide public access to our models and evaluation pipeline, offering solid baselines and unbiased comparisons to advance a wide range of downstream clinical applications. | 翻訳日:2023-04-06 16:34:15 公開日:2023-04-05 |
# 署名言語から音声言語への機械翻訳 -最先端技術と課題- Machine Translation from Signed to Spoken Languages: State of the Art and Challenges ( http://arxiv.org/abs/2202.03086v4 ) ライセンス: Link先を確認 | Mathieu De Coster, Dimitar Shterionov, Mieke Van Herreweghe, Joni Dambre | (参考訳) 符号付き言語から音声言語への自動翻訳は、コンピュータビジョン、機械翻訳、言語学の交差点に位置する学際的な研究分野である。
しかし、この領域の研究は主にコンピュータ科学者が単独で行っている。
この領域がますます普及するにつれて、手話翻訳の話題に関する科学論文の大部分は、過去3年間に出版されている。
自動手話翻訳の要件を説明するため,手話言語学と機械翻訳の高レベルな紹介を行う。
本稿では,ドメイン内の技術状況を説明するための体系的な文献レビューを行い,その要件を振り返って,今後の研究の課題をいくつか紹介する。
音声機械翻訳研究の肩に重要な進歩が見られた。
しかし、現在のアプローチは言語的に動機づけられたり、手話の異なる入力モダリティに適応しないことが多い。
我々は,手話データの表現,データセットの収集,学際的な研究の必要性,研究を超えてアプリケーションに移行するための要件などについて検討する。
本研究は,手話の言語分析における学際研究と今後の研究の基盤となるものと考えられる。
さらに,手話翻訳アプリケーションにおける聴覚障害や聴覚障害をユースケース識別,データ収集,評価に含めることは,手話翻訳モデルの作成において最も重要である。
我々は手話翻訳モデルの設計と開発を反復的に行うことを推奨する。 Automatic translation from signed to spoken languages is an interdisciplinary research domain, lying on the intersection of computer vision, machine translation and linguistics. Nevertheless, research in this domain is performed mostly by computer scientists in isolation. As the domain is becoming increasingly popular - the majority of scientific papers on the topic of sign language translation have been published in the past three years - we provide an overview of the state of the art as well as some required background in the different related disciplines. We give a high-level introduction to sign language linguistics and machine translation to illustrate the requirements of automatic sign language translation. We present a systematic literature review to illustrate the state of the art in the domain and then, harking back to the requirements, lay out several challenges for future research. We find that significant advances have been made on the shoulders of spoken language machine translation research. However, current approaches are often not linguistically motivated or are not adapted to the different input modality of sign languages. We explore challenges related to the representation of sign language data, the collection of datasets, the need for interdisciplinary research and requirements for moving beyond research, towards applications. Based on our findings, we advocate for interdisciplinary research and to base future research on linguistic analysis of sign languages. Furthermore, the inclusion of deaf and hearing end users of sign language translation applications in use case identification, data collection and evaluation is of the utmost importance in the creation of useful sign language translation models. We recommend iterative, human-in-the-loop, design and development of sign language translation models. | 翻訳日:2023-04-06 16:33:52 公開日:2023-04-05 |
# 観測エントロピー、粗量子状態、ペッツ回復:情報理論的性質と境界 Observational entropy, coarse quantum states, and Petz recovery: information-theoretic properties and bounds ( http://arxiv.org/abs/2209.03803v2 ) ライセンス: Link先を確認 | Francesco Buscemi, Joseph Schindler, and Dominik \v{S}afr\'anek | (参考訳) 観測エントロピーはボルツマンのエントロピーとギブスのエントロピーを適切に補間する量子エントロピーの一般的な概念を提供しており、最近は平衡外熱力学的エントロピーの有用な指標として議論されている。
本稿では,最近強化された量子相対エントロピーの単調性を利用した情報理論的な観点から,観測エントロピーの数学的性質を考察する。
一般に観測エントロピーに適用される新しい境界と,逐次的および後処理された測定に関する境界および同一性を示す。
この研究における中心的な役割は、測定対象の「真の」状態に関する知識を前提にせず、ベイズ回帰による測定値の統計から生じる、いわゆる「coarse-fine」状態によって演じられる。
このような粗粒状態と真の(しかし一般的には観測できない)状態との区別の程度は、観測とフォン・ノイマンのエントロピーの差の上界と下界に与えられる。 Observational entropy provides a general notion of quantum entropy that appropriately interpolates between Boltzmann's and Gibbs' entropies, and has recently been argued to provide a useful measure of out-of-equilibrium thermodynamic entropy. Here we study the mathematical properties of observational entropy from an information-theoretic viewpoint, making use of recently strengthened forms of the monotonicity property of quantum relative entropy. We present new bounds on observational entropy applying in general, as well as bounds and identities related to sequential and post-processed measurements. A central role in this work is played by what we call the ``coarse-grained'' state, which emerges from the measurement's statistics by Bayesian retrodiction, without presuming any knowledge about the ``true'' underlying state being measured. The degree of distinguishability between such a coarse-grained state and the true (but generally unobservable) one is shown to provide upper and lower bounds on the difference between observational and von Neumann entropies. | 翻訳日:2023-04-06 16:26:41 公開日:2023-04-05 |
# 散逸フェルミ・ハバード模型におけるリウビリアンギャップと単一スピンフリップダイナミクス Liouvillian gap and single spin-flip dynamics in the dissipative Fermi-Hubbard model ( http://arxiv.org/abs/2209.03743v3 ) ライセンス: Link先を確認 | Hironobu Yoshida and Hosho Katsura | (参考訳) 低温原子実験の最近の進展に動機づけられ, 2体損失を持つ2次元超立方格子上のsu($n$) fermi-hubbardモデルを解析した。
強磁性定常状態に近い状態に焦点を合わせることで、任意の$d$と$N$に対して閉形式のリウビリアンギャップを得る。
また, 単一スピンフリップによる強磁性初期状態のダイナミクスを解析的および数値的に検討した。
特に、相互作用と損失の強度を減少させることで、スピンフリップの生存確率は、パワー-ロー崩壊から指数的崩壊への交叉を示す。
光学格子中の超低温アルカリ原子を用いて実験を行うことが期待できる。 Motivated by recent progress in cold-atom experiments, we analyze the SU($N$) Fermi-Hubbard model on a $d$-dimensional hypercubic lattice with two-body loss. By focusing on states near the ferromagnetic steady states, we obtain the Liouvillian gap in closed form for any $d$ and $N$. We also investigate the dynamics of a ferromagnetic initial state with a single spin flip both analytically and numerically. In particular, we show that, by decreasing the strength of the interaction and loss, the survival probability of the spin flip exhibits a crossover from the power-law decay to the exponential decay. We expect that our findings can be tested experimentally with ultracold alkaline-earth-like atoms in an optical lattice. | 翻訳日:2023-04-06 16:26:21 公開日:2023-04-05 |
# マルチモーダル要約のためのパラグラフレベル視覚言語セマンティックアライメントのモデル化 Modeling Paragraph-Level Vision-Language Semantic Alignment for Multi-Modal Summarization ( http://arxiv.org/abs/2208.11303v2 ) ライセンス: Link先を確認 | Chenhao Cui, Xinnian Liang, Shuangzhi Wu, Zhoujun Li | (参考訳) 現行のマルチモーダル要約法では,まず外装オブジェクト検出器を用いて視覚的特徴を抽出し,これらの特徴を言語表現と融合させてエンコーダ・デコーダモデルを用いて要約を生成する。
カスケードされた方法では、正確な要約に不可欠である画像と段落間の意味的アライメントをキャプチャできない。
本稿では, ViL-Sum を用いて, 段落レベル textbf{Vi}sion-\textbf{L}anguage Semantic Alignment と Multi-Modal \textbf{Sum}marization を共同でモデル化する。
ViL-Sumのコアは、よく設計された2つのタスク、画像の並べ替えと画像選択を備えたマルチモーダルエンコーダである。
ジョイントマルチモーダルエンコーダはモダリティ間の相互作用をキャプチャし、再順序付けタスクがモデルに段落レベルの意味的アライメントを学習させ、選択タスクが最終要約で選択された要約関連画像にモデルをガイドする。
実験結果から,提案したViL-Sumは最先端手法よりも優れていた。
さらに,2つのよく設計されたタスクと共同マルチモーダルエンコーダが,合理的な段落関係と要約関係を学習するために効果的にモデルを導出できることを見出した。 Most current multi-modal summarization methods follow a cascaded manner, where an off-the-shelf object detector is first used to extract visual features, then these features are fused with language representations to generate the summary with an encoder-decoder model. The cascaded way cannot capture the semantic alignments between images and paragraphs, which are crucial to a precise summary. In this paper, we propose ViL-Sum to jointly model paragraph-level \textbf{Vi}sion-\textbf{L}anguage Semantic Alignment and Multi-Modal \textbf{Sum}marization. The core of ViL-Sum is a joint multi-modal encoder with two well-designed tasks, image reordering and image selection. The joint multi-modal encoder captures the interactions between modalities, where the reordering task guides the model to learn paragraph-level semantic alignment and the selection task guides the model to selected summary-related images in the final summary. Experimental results show that our proposed ViL-Sum significantly outperforms current state-of-the-art methods. In further analysis, we find that two well-designed tasks and joint multi-modal encoder can effectively guide the model to learn reasonable paragraphs-images and summary-images relations. | 翻訳日:2023-04-06 16:25:45 公開日:2023-04-05 |
# 単語長の最適性。
理論的基礎と実証的研究 The optimality of word lengths. Theoretical foundations and an empirical study ( http://arxiv.org/abs/2208.10384v5 ) ライセンス: Link先を確認 | Sonia Petrini, Antoni Casas-i-Mu\~noz, Jordi Cluet-i-Martinell, Mengxue Wang, Christian Bentz and Ramon Ferrer-i-Cancho | (参考訳) Zipfの省略法則、すなわち、より頻繁な単語が短くなる傾向は、圧縮の顕在化、すなわち、フォームの長さの最小化、すなわち、自然なコミュニケーションの普遍的な原則と見なされている。
言語が最適化されているという主張はトレンドになっているが、言語の最適化の度合いを測定する試みはかなり少ない。
ここでは、双対正規化される2つの最適度スコア、すなわち、最小値とランダムベースラインの両方に関して正規化される。
これらと他のスコアの理論的および統計的な長所と短所を分析した。
最高のスコアを生かして、言語における単語長の最適度を初めて定量化する。
これは、単語の長さを文字で測定すると、言語は平均で62または67%、時間で測定すると平均で65%に最適化されていることを示している。
一般に、単語の長さは文字中の単語の長さよりも最適化されている。
我々の研究は、他の種の発声やジェスチャーの最適度を計測し、書き言葉、話し言葉、署名された人間の言語と比較する方法を定めている。 Zipf's law of abbreviation, namely the tendency of more frequent words to be shorter, has been viewed as a manifestation of compression, i.e. the minimization of the length of forms -- a universal principle of natural communication. Although the claim that languages are optimized has become trendy, attempts to measure the degree of optimization of languages have been rather scarce. Here we present two optimality scores that are dualy normalized, namely, they are normalized with respect to both the minimum and the random baseline. We analyze the theoretical and statistical pros and cons of these and other scores. Harnessing the best score, we quantify for the first time the degree of optimality of word lengths in languages. This indicates that languages are optimized to 62 or 67 percent on average (depending on the source) when word lengths are measured in characters, and to 65 percent on average when word lengths are measured in time. In general, spoken word durations are more optimized than written word lengths in characters. Our work paves the way to measure the degree of optimality of the vocalizations or gestures of other species, and to compare them against written, spoken, or signed human languages. | 翻訳日:2023-04-06 16:25:18 公開日:2023-04-05 |
# 局所幾何学レンズによるVAEの対向ロバスト性 Adversarial robustness of VAEs through the lens of local geometry ( http://arxiv.org/abs/2208.03923v2 ) ライセンス: Link先を確認 | Asif Khan, Amos Storkey | (参考訳) 可変オートエンコーダ(VAE)に対する教師なし攻撃において、敵は、潜伏空間の符号化を著しく変化させる入力サンプルに小さな摂動を発見し、固定デコーダの再構成を妥協する。
このような脆弱性の既知の理由は、近似された潜伏後部とそれ以前の分布とのミスマッチに起因する潜伏空間の歪みである。
これにより、入力サンプルのわずかな変化は、符号化を遅延空間内の低/ゼロ密度領域に移動させ、制約のない生成をもたらす。
本稿では,エンコーダとデコーダのネットワークによって引き起こされる確率的プルバック計量テンソルの方向バイアスを,敵がvaesを攻撃するのに最適な方法を示す。
エンコーダの引き戻し計量テンソルは、入力から潜在空間への無限小潜在体積の変化を測定する。
したがって、潜在空間歪みにつながる入力摂動の影響を分析するレンズと見なすことができる。
引き戻し計量テンソルの固有スペクトルを用いた頑健性評価スコアを提案する。
さらに、このスコアは、$\beta-$VAEのロバスト性パラメータ$\beta$と相関していることを示す。
また,$\beta$の増加は復元品質を低下させるため,潜在空間内の空領域を埋めるために \textit{mixup} トレーニングを用いた簡易な代替方法を示す。 In an unsupervised attack on variational autoencoders (VAEs), an adversary finds a small perturbation in an input sample that significantly changes its latent space encoding, thereby compromising the reconstruction for a fixed decoder. A known reason for such vulnerability is the distortions in the latent space resulting from a mismatch between approximated latent posterior and a prior distribution. Consequently, a slight change in an input sample can move its encoding to a low/zero density region in the latent space resulting in an unconstrained generation. This paper demonstrates that an optimal way for an adversary to attack VAEs is to exploit a directional bias of a stochastic pullback metric tensor induced by the encoder and decoder networks. The pullback metric tensor of an encoder measures the change in infinitesimal latent volume from an input to a latent space. Thus, it can be viewed as a lens to analyse the effect of input perturbations leading to latent space distortions. We propose robustness evaluation scores using the eigenspectrum of a pullback metric tensor. Moreover, we empirically show that the scores correlate with the robustness parameter $\beta$ of the $\beta-$VAE. Since increasing $\beta$ also degrades reconstruction quality, we demonstrate a simple alternative using \textit{mixup} training to fill the empty regions in the latent space, thus improving robustness with improved reconstruction. | 翻訳日:2023-04-06 16:24:58 公開日:2023-04-05 |
# 絡み合いリンクと準粒子画像 Entanglement links and the quasiparticle picture ( http://arxiv.org/abs/2208.03766v2 ) ライセンス: Link先を確認 | Silvia N. Santalla, Giovanni Ram\'irez, Sudipto Singha Roy, Germ\'an Sierra, Javier Rodr\'iguez-Laguna | (参考訳) クエンチから1次元臨界ハミルトニアンへの短距離相関を持つ量子状態の時間進化は、局所的な絡み合いが一定の速度で分離された準粒子によって運ばれたかのように広がるという準粒子像を用いて理解することができる。
最近導入された絡み合いのリンク表現を用いて準粒子像を拡張し、長距離相関を示す初期状態に適用する。
絡み合いリンクは現在の相関子であり、従って適切な構成空間上の波動方程式に従い、絡み合いエントロピーの時間発展を予測することができる。
初期エンタングルメントパターンの異なるフリーフェルミオン鎖について, 数値的に検討した。 The time evolution of a quantum state with short-range correlations after a quench to a one-dimensional critical Hamiltonian can be understood using the quasi-particle picture, which states that local entanglement spreads as if it was carried by quasi-particles which separate at a fixed speed. We extend the quasi-particle picture using the recently introduced link representation of entanglement, allowing us to apply it to initial states presenting long-range correlations. The entanglement links are current correlators, and therefore follow a wave equation on the appropriate configurational space which allows us to predict the time evolution of the entanglement entropies. Our results are checked numerically for free fermionic chains with different initial entanglement patterns. | 翻訳日:2023-04-06 16:24:33 公開日:2023-04-05 |
# ネットワーク偏波, フィルタ気泡, エコーチャンバー : 対策と低減方法についての注釈付きレビュー Network polarization, filter bubbles, and echo chambers: An annotated review of measures and reduction methods ( http://arxiv.org/abs/2207.13799v5 ) ライセンス: Link先を確認 | Ruben Interian, Ruslan G. Marzo, Isela Mendoza, Celso C. Ribeiro | (参考訳) 分極は、コミュニティや社会のメンバーをつなぐ基盤となるネットワークが、グループ間の接続が弱い高度に連結したグループによって特徴づけられるときに生じる。
分極化の増大、エコーチェンバーの強化、ソーシャルネットワークにおける情報フィルタによる孤立化は、コンピュータ科学、経済学、社会科学、政治科学など様々な分野の研究者の注目を集めている。
本稿では,ネットワークの偏光対策と偏光処理モデルについて注釈付きレビューを行う。
グラフやネットワークにおける偏極を測定するためのいくつかのアプローチが同定され、ホモフィリー、モジュラリティ、ランダムウォーク、バランス理論に基づくものが含まれる。
分極化を減らすために使われる戦略には、エッジエディションやノードエディション(挿入や削除、エッジウェイトの変更を含む)を提案する方法、ソーシャルネットワーク設計の変更、あるいはこれらのネットワークに埋め込まれたレコメンデーションシステムの変更が含まれる。 Polarization arises when the underlying network connecting the members of a community or society becomes characterized by highly connected groups with weak inter-group connectivity. The increasing polarization, the strengthening of echo chambers, and the isolation caused by information filters in social networks are increasingly attracting the attention of researchers from different areas of knowledge such as computer science, economics, social and political sciences. This work presents an annotated review of network polarization measures and models used to handle the polarization. Several approaches for measuring polarization in graphs and networks were identified, including those based on homophily, modularity, random walks, and balance theory. The strategies used for reducing polarization include methods that propose edge or node editions (including insertions or deletions, as well as edge weight modifications), changes in social network design, or changes in the recommendation systems embedded in these networks. | 翻訳日:2023-04-06 16:24:21 公開日:2023-04-05 |
# CFLIT: フェデレーションラーニングと情報伝達の共存 CFLIT: Coexisting Federated Learning and Information Transfer ( http://arxiv.org/abs/2207.12884v3 ) ライセンス: Link先を確認 | Zehong Lin, Hang Liu, Ying-Jun Angela Zhang | (参考訳) 将来の無線ネットワークは、人工知能(AI)サービスやユビキタスデータ送信など、多様なモバイルサービスをサポートする予定である。
革命的学習アプローチとしてのフェデレーション学習(FL)は、分散モバイルデバイス間の協調AIモデルトレーニングを可能にする。
マルチアクセスチャネルの重ね合わせ特性を利用することで、over-the-air計算は、同じ無線リソース上の大規模デバイスからの並列モデルアップロードを可能にするため、flの通信コストを大幅に削減する。
本稿では,モバイルエッジネットワークにおけるオンザエアflと従来の情報転送(it)の共存について検討する。
本稿では,ofdmシステムにおいて,flとitデバイスが無線帯域を共有するcflit(federated learning and information transfer)通信フレームワークを提案する。
本フレームワークでは,長期無線リソース割り当てを最適化することにより,ITデータレートを最大化し,所定のFL収束性能を保証することを目的とする。
既存のシステムのスペクトル効率を制限する重要な課題は、FLモデルアグリゲーションのためのサーバとエッジデバイス間の頻繁な通信によって生じる大きなオーバーヘッドにある。
この課題に対処するために,無線フェージングチャネルにおける計算通信比が無線flの収束に与える影響を厳密に解析する。
この分析により,無線リソースの蓄積量を最小限に抑えるための最適計算対通信比の存在が明らかになった。
そこで本研究では,FL機器とIT機器の無線リソース割り当てを協調的に最適化する,低複雑さオンラインアルゴリズムを提案する。
広汎な数値シミュレーションにより,無線セルシステムにおけるFLとITデバイス共存のための設計の優れた性能を検証した。 Future wireless networks are expected to support diverse mobile services, including artificial intelligence (AI) services and ubiquitous data transmissions. Federated learning (FL), as a revolutionary learning approach, enables collaborative AI model training across distributed mobile edge devices. By exploiting the superposition property of multiple-access channels, over-the-air computation allows concurrent model uploading from massive devices over the same radio resources, and thus significantly reduces the communication cost of FL. In this paper, we study the coexistence of over-the-air FL and traditional information transfer (IT) in a mobile edge network. We propose a coexisting federated learning and information transfer (CFLIT) communication framework, where the FL and IT devices share the wireless spectrum in an OFDM system. Under this framework, we aim to maximize the IT data rate and guarantee a given FL convergence performance by optimizing the long-term radio resource allocation. A key challenge that limits the spectrum efficiency of the coexisting system lies in the large overhead incurred by frequent communication between the server and edge devices for FL model aggregation. To address the challenge, we rigorously analyze the impact of the computation-to-communication ratio on the convergence of over-the-air FL in wireless fading channels. The analysis reveals the existence of an optimal computation-to-communication ratio that minimizes the amount of radio resources needed for over-the-air FL to converge to a given error tolerance. Based on the analysis, we propose a low-complexity online algorithm to jointly optimize the radio resource allocation for both the FL devices and IT devices. Extensive numerical simulations verify the superior performance of the proposed design for the coexistence of FL and IT devices in wireless cellular systems. | 翻訳日:2023-04-06 16:24:07 公開日:2023-04-05 |
# NLPを用いた法律協定のスマートな法律契約への転換 Conversion of Legal Agreements into Smart Legal Contracts using NLP ( http://arxiv.org/abs/2210.08954v2 ) ライセンス: Link先を確認 | Eason Chen, Niall Roche, Yuen-Hsien Tseng, Walter Hernandez, Jiangbo Shangguan, and Alastair Moore | (参考訳) Smart Legal Contract (SLC) は、自然言語と計算可能なコンポーネントからなる特殊なデジタル契約である。
Accord Projectは,Cicero, Concerto, Ergoの3つの主要なモジュールを含む,オープンソースのSLCフレームワークを提供する。
現在、アコーディオンプロジェクトを使って利用可能なslcを作成するために、弁護士、プログラマ、クライアントが協力する必要があります。
本稿では、いくつかの自然言語処理(nlp)モデルを用いてslc作成プロセスを自動化し、法律契約をアコーディオンプロジェクトの協奏曲モデルに変換するパイプラインを提案する。
提案したパイプラインを評価すると,NERパイプラインがAccord ProjectテンプレートテキストからCiceroMarkを精度0.8で検出することがわかった。
さらに,質問応答法はテンプレートテキストから3分の1のコンチェルト変数を抽出することができる。
また,提案するパイプラインの限界と今後の研究の可能性についても検討した。
最後に,ユーザがSLCを構築できるWebインターフェースについて述べる。
このインターフェースは提案したパイプラインを利用して,NLPモデルを用いてテキスト文書をSmart Legal Contractsに変換する。 A Smart Legal Contract (SLC) is a specialized digital agreement comprising natural language and computable components. The Accord Project provides an open-source SLC framework containing three main modules: Cicero, Concerto, and Ergo. Currently, we need lawyers, programmers, and clients to work together with great effort to create a usable SLC using the Accord Project. This paper proposes a pipeline to automate the SLC creation process with several Natural Language Processing (NLP) models to convert law contracts to the Accord Project's Concerto model. After evaluating the proposed pipeline, we discovered that our NER pipeline accurately detects CiceroMark from Accord Project template text with an accuracy of 0.8. Additionally, our Question Answering method can extract one-third of the Concerto variables from the template text. We also delve into some limitations and possible future research for the proposed pipeline. Finally, we describe a web interface enabling users to build SLCs. This interface leverages the proposed pipeline to convert text documents to Smart Legal Contracts by using NLP models. | 翻訳日:2023-04-06 16:18:02 公開日:2023-04-05 |
# オフライン強化学習のための政策指導型模倣手法 A Policy-Guided Imitation Approach for Offline Reinforcement Learning ( http://arxiv.org/abs/2210.08323v3 ) ライセンス: Link先を確認 | Haoran Xu, Li Jiang, Jianxiong Li, Xianyuan Zhan | (参考訳) オフライン強化学習(RL)法は一般にRL法とImitation法の二種類に分類される。
rlベースの手法は、原則として分散の一般化を享受できるが、誤ったオフポリシー評価に苦しむ。
模倣ベースの手法は、オフポリシー評価を避けるが、データセットを超えるには保守的すぎる。
本研究では,模倣型手法の学習安定性を継承しつつ,論理分布の一般化を許容する別の手法を提案する。
従来の報酬最大化ポリシーをオフラインrlでガイド・ポリシーと実行・ポリシーに分解する。
トレーニング中は、教師付きかつ分離された方法で、データセットからのデータのみを使用して、ガイドポイティと実行ポリシが学習される。
評価中、ガイドポリシーは実行時ポリティシをガイドし、報酬を最大化できるように、実行時ポリティシを指示し、 \textit{Prophet} として機能する。
そこで本アルゴリズムでは, 先行模倣方式で行うのではなく, データセットから \textit{state-compositionality} を許容する。
この新しいアプローチは、ポリシー誘導オフラインRL(\texttt{POR})を軽視します。
\texttt{POR}は、オフラインRLの標準ベンチマークであるD4RLにおける最先端のパフォーマンスを示す。
また、補足的最適データの改善や、ガイドポイティの変更だけで新しいタスクに容易に適応できるという点で、‘texttt{POR}’の利点も強調する。 Offline reinforcement learning (RL) methods can generally be categorized into two types: RL-based and Imitation-based. RL-based methods could in principle enjoy out-of-distribution generalization but suffer from erroneous off-policy evaluation. Imitation-based methods avoid off-policy evaluation but are too conservative to surpass the dataset. In this study, we propose an alternative approach, inheriting the training stability of imitation-style methods while still allowing logical out-of-distribution generalization. We decompose the conventional reward-maximizing policy in offline RL into a guide-policy and an execute-policy. During training, the guide-poicy and execute-policy are learned using only data from the dataset, in a supervised and decoupled manner. During evaluation, the guide-policy guides the execute-policy by telling where it should go so that the reward can be maximized, serving as the \textit{Prophet}. By doing so, our algorithm allows \textit{state-compositionality} from the dataset, rather than \textit{action-compositionality} conducted in prior imitation-style methods. We dumb this new approach Policy-guided Offline RL (\texttt{POR}). \texttt{POR} demonstrates the state-of-the-art performance on D4RL, a standard benchmark for offline RL. We also highlight the benefits of \texttt{POR} in terms of improving with supplementary suboptimal data and easily adapting to new tasks by only changing the guide-poicy. | 翻訳日:2023-04-06 16:17:47 公開日:2023-04-05 |
# 適応的知識蒸留によるグラフニューラルネットワークの促進 Boosting Graph Neural Networks via Adaptive Knowledge Distillation ( http://arxiv.org/abs/2210.05920v2 ) ライセンス: Link先を確認 | Zhichun Guo, Chunhui Zhang, Yujie Fan, Yijun Tian, Chuxu Zhang, Nitesh Chawla | (参考訳) グラフニューラルネットワーク(GNN)は、多様なグラフマイニングタスクにおいて顕著なパフォーマンスを示している。
異なるGNNは、同じメッセージパッシングフレームワークとして統一することができるが、同じグラフから補完的な知識を学ぶ。
知識蒸留(KD)は、複数のモデルからの多様な知識を組み合わせるために開発された。
能力の高い教師から軽量な生徒に知識を伝達する。
しかし、過剰なスムースを避けるために、GNNはしばしば浅く、KDの設定から逸脱する。
この文脈では、kdの利点をモデル圧縮から分離し、知識の伝達力を強調することで、kdを再検討する。
この目的のために、我々は、コンパクトな教師から同じ能力の学生に知識を伝達する方法と、学習者のGNN自身の力を利用して知識を学ぶ方法の2つの課題に取り組む必要がある。
本稿では,複数のGNNからの知識を学生GNNに順次伝達する,BGNNと呼ばれる新しい適応型KDフレームワークを提案する。
また,適応型温度モジュールと重量加重モジュールについても紹介する。
これらのモジュールは、生徒に効果的な学習のための適切な知識を導く。
大規模な実験はBGNNの有効性を実証した。
特に,ノード分類では最大3.05%,バニラGNNでは6.35%の改善を実現している。 Graph neural networks (GNNs) have shown remarkable performance on diverse graph mining tasks. Although different GNNs can be unified as the same message passing framework, they learn complementary knowledge from the same graph. Knowledge distillation (KD) is developed to combine the diverse knowledge from multiple models. It transfers knowledge from high-capacity teachers to a lightweight student. However, to avoid oversmoothing, GNNs are often shallow, which deviates from the setting of KD. In this context, we revisit KD by separating its benefits from model compression and emphasizing its power of transferring knowledge. To this end, we need to tackle two challenges: how to transfer knowledge from compact teachers to a student with the same capacity; and, how to exploit student GNN's own strength to learn knowledge. In this paper, we propose a novel adaptive KD framework, called BGNN, which sequentially transfers knowledge from multiple GNNs into a student GNN. We also introduce an adaptive temperature module and a weight boosting module. These modules guide the student to the appropriate knowledge for effective learning. Extensive experiments have demonstrated the effectiveness of BGNN. In particular, we achieve up to 3.05% improvement for node classification and 6.35% improvement for graph classification over vanilla GNNs. | 翻訳日:2023-04-06 16:17:26 公開日:2023-04-05 |
# 自律非線形システムのためのLuenbergerオブザーバの学習ベース設計 Learning-based Design of Luenberger Observers for Autonomous Nonlinear Systems ( http://arxiv.org/abs/2210.01476v2 ) ライセンス: Link先を確認 | Muhammad Umar B. Niazi, John Cao, Xudong Sun, Amritam Das, Karl Henrik Johansson | (参考訳) 非線形系に対するルエンベルガーオブザーバの設計には、状態がより高次元の代替座標系に変換される難題があり、そこではシステムは漸近的に安定で出力注入まで線形である。
オブザーバは変換マップを反転させることで、元の座標におけるシステムの状態を推定する。
しかし、逆を導出できる適切な単射変換を見つけることは、一般の非線形システムにとって第一の課題である。
本稿では,物理インフォームドニューラルネットワークを用いて変換と逆変換の両方を近似する新しい手法を提案する。
提案手法は,現代の手法よりも優れた一般化能力を示し,ニューラルネットワークの近似誤差とシステム不確実性の両方に対して堅牢性を示す。 Designing Luenberger observers for nonlinear systems involves the challenging task of transforming the state to an alternate coordinate system, possibly of higher dimensions, where the system is asymptotically stable and linear up to output injection. The observer then estimates the system's state in the original coordinates by inverting the transformation map. However, finding a suitable injective transformation whose inverse can be derived remains a primary challenge for general nonlinear systems. We propose a novel approach that uses supervised physics-informed neural networks to approximate both the transformation and its inverse. Our method exhibits superior generalization capabilities to contemporary methods and demonstrates robustness to both neural network's approximation errors and system uncertainties. | 翻訳日:2023-04-06 16:17:07 公開日:2023-04-05 |
# パルス量子光分光法の基本限界:双極子モーメント推定 Fundamental limits of pulsed quantum light spectroscopy: Dipole moment estimation ( http://arxiv.org/abs/2210.01065v2 ) ライセンス: Link先を確認 | Francesco Albarelli, Evangelia Bisketzi, Aiman Khan and Animesh Datta | (参考訳) 我々は、量子光の進行パルスによって探究されるとき、量子物質系のパラメータ推定の精度の基本的な限界について研究する。
特に,双極子モーメントの推定と等価なパルスと2レベル原子の相互作用強度の推定に注目する。
単一光子パルスの解析は、吸収分光法で測定した原子による光子の吸収から得られる情報と、自発的放出による光子の時間モードへの摂動との相互作用を強調する。
単一光子系以外にも、自発放出を無視できる短パルスの極限におけるより一般的な光状態を研究するための近似モデルを導入する。
また,多くの2光子状態の絡み合いに対して,原子と相互作用する信号モードとアイドラーモードとの量子絡み合いは基本的な利点を示さず,分離可能な状態でも同じ精度が得られることを示した。
最後に, 量子光を用いたナトリウム原子の電気双極子モーメントの推定について検討した。
我々の研究は、量子光分光の理論と実践を開発するための量子情報理論方法論を開始する。 We study the fundamental limits of the precision of estimating parameters of a quantum matter system when it is probed by a travelling pulse of quantum light. In particular, we focus on the estimation of the interaction strength between the pulse and a two-level atom, equivalent to the estimation of the dipole moment. Our analysis of single-photon pulses highlights the interplay between the information gained from the absorption of the photon by the atom as measured in absorption spectroscopy, and the perturbation to the temporal mode of the photon due to spontaneous emission. Beyond the single-photon regime, we introduce an approximate model to study more general states of light in the limit of short pulses, where spontaneous emission can be neglected. We also show that for a vast class of entangled biphoton states, quantum entanglement between the signal mode interacting with the atom and the idler mode provides no fundamental advantage and the same precision can be obtained with a separable state. We conclude by studying the estimation of the electric dipole moment of a sodium atom using quantum light. Our work initiates a quantum information theoretic methodology for developing the theory and practice of quantum light spectroscopy. | 翻訳日:2023-04-06 16:16:55 公開日:2023-04-05 |
# ターゲット外なバックドアwatermark: 有害でステルスなデータセットの著作権保護を目指す Untargeted Backdoor Watermark: Towards Harmless and Stealthy Dataset Copyright Protection ( http://arxiv.org/abs/2210.00875v3 ) ライセンス: Link先を確認 | Yiming Li, Yang Bai, Yong Jiang, Yong Yang, Shu-Tao Xia, Bo Li | (参考訳) ディープニューラルネットワーク(DNN)は、実際にその優位性を実証している。
おそらくdnnsの急速な発展は、研究者や開発者が簡単に学習方法を評価し改善できる高品質な(オープンソース)データセットの恩恵を受けている。
データ収集は通常、時間を要するか、あるいは費用がかかるため、著作権を保護する方法は非常に重要であり、さらなる調査に値する。
本稿では,データセットの所有権検証を再考する。
既存の検証手法では,保護されたデータセット上でトレーニングされたdnnに新たなセキュリティリスクが導入された。
この問題を軽減するため,本研究では,異常モデル行動が決定論的でない,未目標のバックドア透かし方式について検討する。
具体的には、2つの分散性を導入し、それらの相関性を証明し、有害ラベルとクリーンラベルの両方の設定で未ターゲットのバックドア透かしを設計する。
また、提案した未ターゲットのバックドア透かしをデータセットのオーナシップ検証に利用する方法について論じる。
ベンチマークデータセットにおける実験は、提案手法の有効性と既存のバックドア防御に対する耐性を検証する。
我々のコードは \url{https://github.com/THUYimingLi/Untargeted_Backdoor_Watermark} で利用可能です。 Deep neural networks (DNNs) have demonstrated their superiority in practice. Arguably, the rapid development of DNNs is largely benefited from high-quality (open-sourced) datasets, based on which researchers and developers can easily evaluate and improve their learning methods. Since the data collection is usually time-consuming or even expensive, how to protect their copyrights is of great significance and worth further exploration. In this paper, we revisit dataset ownership verification. We find that existing verification methods introduced new security risks in DNNs trained on the protected dataset, due to the targeted nature of poison-only backdoor watermarks. To alleviate this problem, in this work, we explore the untargeted backdoor watermarking scheme, where the abnormal model behaviors are not deterministic. Specifically, we introduce two dispersibilities and prove their correlation, based on which we design the untargeted backdoor watermark under both poisoned-label and clean-label settings. We also discuss how to use the proposed untargeted backdoor watermark for dataset ownership verification. Experiments on benchmark datasets verify the effectiveness of our methods and their resistance to existing backdoor defenses. Our codes are available at \url{https://github.com/THUYimingLi/Untargeted_Backdoor_Watermark}. | 翻訳日:2023-04-06 16:16:36 公開日:2023-04-05 |
# ロボット制御のためのロバスト予測:ゲーム理論的アプローチ Robust Forecasting for Robotic Control: A Game-Theoretic Approach ( http://arxiv.org/abs/2209.10802v3 ) ライセンス: Link先を確認 | Shubhankar Agarwal, David Fridovich-Keil, Sandeep P. Chinchali | (参考訳) 現代のロボットは、現実世界で最適な決定を下すために正確な予測を必要とする。
例えば、自動運転車は安全な軌道を計画するために他のエージェントの将来の行動を正確に予測する必要がある。
現在の手法は、未来を正確に予測するために歴史的時系列に大きく依存している。
しかしながら、観測された歴史に完全に依存することは、ノイズによって破損したり、外れ値を持つか、または全ての可能な結果を完全に表現できないため、問題となる。
この問題を解決するために,ロボット制御のためのロバストな予測を生成する新しいフレームワークを提案する。
今後の予測に影響を与える現実的な要因をモデル化するために,ロボットの究極の制御コストを高めるために,過去の時系列を摂動する敵の概念を導入する。
具体的には、この相互作用をロボットの予測と仮想敵とのゼロサムの2人プレイゲームとしてモデル化する。
提案するゲームは,グラデーションに基づく最適化手法を用いて局所nash平衡に解くことができることを示す。
さらに,本手法で学習した予測者は,実世界のレーン変更データに対して,ベースラインよりも30.14%高い性能を示す。 Modern robots require accurate forecasts to make optimal decisions in the real world. For example, self-driving cars need an accurate forecast of other agents' future actions to plan safe trajectories. Current methods rely heavily on historical time series to accurately predict the future. However, relying entirely on the observed history is problematic since it could be corrupted by noise, have outliers, or not completely represent all possible outcomes. To solve this problem, we propose a novel framework for generating robust forecasts for robotic control. In order to model real-world factors affecting future forecasts, we introduce the notion of an adversary, which perturbs observed historical time series to increase a robot's ultimate control cost. Specifically, we model this interaction as a zero-sum two-player game between a robot's forecaster and this hypothetical adversary. We show that our proposed game may be solved to a local Nash equilibrium using gradient-based optimization techniques. Furthermore, we show that a forecaster trained with our method performs 30.14% better on out-of-distribution real-world lane change data than baselines. | 翻訳日:2023-04-06 16:16:15 公開日:2023-04-05 |
# データの離散化のための最大関連分断基準とナイーブベイへの応用 A Max-relevance-min-divergence Criterion for Data Discretization with Applications on Naive Bayes ( http://arxiv.org/abs/2209.10095v2 ) ライセンス: Link先を確認 | Shihe Wang, Jianfeng Ren, Ruibin Bai, Yuan Yao, Xudong Jiang | (参考訳) 多くの分類モデルでは、データはより正確に分布を推定するために離散化される。
既存の離散化手法では、識別データの識別能力の最大化を目標とし、分類におけるデータ離散化の主目的が一般化性能の向上であるという事実を見越すことが多い。
その結果、識別されていないデータが最大判別情報を保持するため、データは多くの小さなビンにオーバースプライトされる傾向がある。
そこで本研究では,識別データの識別情報と一般化能力の両方を最大化する,MDmD(Max-Dependency-Min-Divergence)基準を提案する。
より具体的には、最大依存性基準は離散化データと分類変数との統計的依存性を最大化し、min-divergence基準はトレーニングデータと所定の離散化スキームの検証データとの間のjs-divergenceを明示的に最小化する。
提案するMDmD基準は技術的に魅力的であるが,属性と分類変数の高次結合分布を確実に推定することは困難である。
そこで我々は,離散化データの識別情報と一般化能力を同時に最大化することにより,各属性を離散化するより実用的な解であるmax-relevance-min-divergence(mrmd)離散化スキームを提案する。
提案したMRmDは,45の機械学習ベンチマークデータセット上のベイズ分類フレームワークに基づく最先端の離散化アルゴリズムと比較される。
ほとんどのデータセットで比較したメソッドよりも大幅に優れています。 In many classification models, data is discretized to better estimate its distribution. Existing discretization methods often target at maximizing the discriminant power of discretized data, while overlooking the fact that the primary target of data discretization in classification is to improve the generalization performance. As a result, the data tend to be over-split into many small bins since the data without discretization retain the maximal discriminant information. Thus, we propose a Max-Dependency-Min-Divergence (MDmD) criterion that maximizes both the discriminant information and generalization ability of the discretized data. More specifically, the Max-Dependency criterion maximizes the statistical dependency between the discretized data and the classification variable while the Min-Divergence criterion explicitly minimizes the JS-divergence between the training data and the validation data for a given discretization scheme. The proposed MDmD criterion is technically appealing, but it is difficult to reliably estimate the high-order joint distributions of attributes and the classification variable. We hence further propose a more practical solution, Max-Relevance-Min-Divergence (MRmD) discretization scheme, where each attribute is discretized separately, by simultaneously maximizing the discriminant information and the generalization ability of the discretized data. The proposed MRmD is compared with the state-of-the-art discretization algorithms under the naive Bayes classification framework on 45 machine-learning benchmark datasets. It significantly outperforms all the compared methods on most of the datasets. | 翻訳日:2023-04-06 16:15:59 公開日:2023-04-05 |
# Imitrob:6次元オブジェクトポインターのトレーニングと評価のための模倣学習データセット Imitrob: Imitation Learning Dataset for Training and Evaluating 6D Object Pose Estimators ( http://arxiv.org/abs/2209.07976v3 ) ライセンス: Link先を確認 | Jiri Sedlar, Karla Stepanova, Radoslav Skoviera, Jan K. Behrens, Matus Tuna, Gabriela Sejnova, Josef Sivic, Robert Babuska | (参考訳) 本稿では,標準RGBカメラで捉えたタスクデモにおける手持ちツールの6次元ポーズ推定のためのトレーニングと評価手法を提案する。
6次元ポーズ推定手法の著しい進歩にもかかわらず、その性能は、通常、非常に遮蔽された物体に制限されており、模倣学習では、通常、物体は操作手によって部分的に遮蔽される。
現在、これらの条件に対する堅牢な6Dポーズ推定手法の開発を可能にするデータセットが不足している。
この問題を解決するために、模倣学習やその他のツールを持ちタスクを行うアプリケーションにおいて、6次元ポーズ推定を目的とした新しいデータセット(Imitrob)を収集する。
データセットには、9つの異なるツールのイメージシーケンスと、2つのカメラ視点、4人の被験者と左右の手による12の操作タスクが含まれている。
各画像には、HTC Viveモーショントラッキング装置によって得られた6Dオブジェクトポーズの正確な地上真実測定が付属している。
データセットの使用は、様々な設定で最近の6Dオブジェクトポーズ推定法(DOPE)を訓練し評価することで実証される。 This paper introduces a dataset for training and evaluating methods for 6D pose estimation of hand-held tools in task demonstrations captured by a standard RGB camera. Despite the significant progress of 6D pose estimation methods, their performance is usually limited for heavily occluded objects, which is a common case in imitation learning, where the object is typically partially occluded by the manipulating hand. Currently, there is a lack of datasets that would enable the development of robust 6D pose estimation methods for these conditions. To overcome this problem, we collect a new dataset (Imitrob) aimed at 6D pose estimation in imitation learning and other applications where a human holds a tool and performs a task. The dataset contains image sequences of nine different tools and twelve manipulation tasks with two camera viewpoints, four human subjects, and left/right hand. Each image is accompanied by an accurate ground truth measurement of the 6D object pose obtained by the HTC Vive motion tracking device. The use of the dataset is demonstrated by training and evaluating a recent 6D object pose estimation method (DOPE) in various setups. | 翻訳日:2023-04-06 16:15:28 公開日:2023-04-05 |
# 事象に基づくポーズ推定のための時間的密結合リカレントネットワーク A Temporal Densely Connected Recurrent Network for Event-based Human Pose Estimation ( http://arxiv.org/abs/2209.07034v2 ) ライセンス: Link先を確認 | Zhanpeng Shao, Wen Zhou, Wuzhen Wang, Jianyu Yang, Youfu Li | (参考訳) イベントカメラは、バイオインスパイアされた視覚センサーで、ピクセルごとの明るさが非同期に変化する。
高いダイナミックレンジ、高速応答、低電力予算の顕著な利点があり、制御されていない環境での局所的な動きを最大限に捉えることができる。
これは、イベントカメラによる人間のポーズ推定がほとんど探求されないため、人間のポーズ推定にイベントカメラの可能性を解き放つ動機となっている。
しかし、従来のフレームベースカメラからの新たなパラダイムシフトにより、イベントカメラは移動体部分のみを捉えて静止体部分を無視し、不完全な部分や時間間隔で消滅する部分もあるため、時間間隔でのイベント信号は非常に限られた情報を含んでいる。
本稿では,不完全情報の問題に対処する,新しい密結合型再帰型アーキテクチャを提案する。
この再帰的アーキテクチャにより、時間ステップにまたがる逐次的かつ非逐次的な幾何的整合性を明示的にモデル化し、過去のフレームから情報を蓄積して人体全体を復元し、イベントデータから安定かつ正確な人間のポーズ推定を実現する。
さらに、モデルをよりよく評価するために、人間のポーズアノテーションが付属する大規模なマルチモーダルイベントベースのデータセットを収集します。
2つの公開データセットと独自のデータセットの実験結果は、我々のアプローチの有効性と強みを示しています。
コードは、将来の研究を促進するためにオンラインで入手できる。 Event camera is an emerging bio-inspired vision sensors that report per-pixel brightness changes asynchronously. It holds noticeable advantage of high dynamic range, high speed response, and low power budget that enable it to best capture local motions in uncontrolled environments. This motivates us to unlock the potential of event cameras for human pose estimation, as the human pose estimation with event cameras is rarely explored. Due to the novel paradigm shift from conventional frame-based cameras, however, event signals in a time interval contain very limited information, as event cameras can only capture the moving body parts and ignores those static body parts, resulting in some parts to be incomplete or even disappeared in the time interval. This paper proposes a novel densely connected recurrent architecture to address the problem of incomplete information. By this recurrent architecture, we can explicitly model not only the sequential but also non-sequential geometric consistency across time steps to accumulate information from previous frames to recover the entire human bodies, achieving a stable and accurate human pose estimation from event data. Moreover, to better evaluate our model, we collect a large scale multimodal event-based dataset that comes with human pose annotations, which is by far the most challenging one to the best of our knowledge. The experimental results on two public datasets and our own dataset demonstrate the effectiveness and strength of our approach. Code can be available online for facilitating the future research. | 翻訳日:2023-04-06 16:15:11 公開日:2023-04-05 |
# 移動ロボットを用いた2次元押圧操作のための集団知能 Collective Intelligence for 2D Push Manipulations with Mobile Robots ( http://arxiv.org/abs/2211.15136v3 ) ライセンス: Link先を確認 | So Kuroki, Tatsuya Matsushima, Jumpei Arima, Hiroki Furuta, Yutaka Matsuo, Shixiang Shane Gu, Yujin Tang | (参考訳) 自然システムは多くの場合、自己組織化と変化への適応を可能にする集団的知性を示すが、ほとんどの人工的なシステムでは同等なものが欠落している。
移動ロボットを用いた協調的な2Dプッシュ操作の文脈におけるそのようなシステムの可能性を検討する。
従来の研究では、制限された設定で問題に対する潜在的な解決策を示すが、計算と学習が困難である。
さらに重要なことに、これらのシステムは環境の変化に直面するときに適応する能力を持たない。
本研究では,異なるソフトボディ物理シミュレータから派生したプランナーをアテンションベースニューラルネットワークに蒸留することにより,マルチロボットプッシュ操作システムがベースラインよりも優れた性能を実現することを示す。
さらに,本システムは,トレーニング中に見えない構成に一般化し,外乱や環境変化を応用した場合にタスク完了に適応することができる。
補足ビデオはプロジェクトのwebサイト(https://sites.google.com/view/ciom/home)で閲覧できます。 While natural systems often present collective intelligence that allows them to self-organize and adapt to changes, the equivalent is missing in most artificial systems. We explore the possibility of such a system in the context of cooperative 2D push manipulations using mobile robots. Although conventional works demonstrate potential solutions for the problem in restricted settings, they have computational and learning difficulties. More importantly, these systems do not possess the ability to adapt when facing environmental changes. In this work, we show that by distilling a planner derived from a differentiable soft-body physics simulator into an attention-based neural network, our multi-robot push manipulation system achieves better performance than baselines. In addition, our system also generalizes to configurations not seen during training and is able to adapt toward task completions when external turbulence and environmental changes are applied. Supplementary videos can be found on our project website: https://sites.google.com/view/ciom/home | 翻訳日:2023-04-06 16:08:28 公開日:2023-04-05 |
# XKD:ビデオ表現学習のためのドメインアライメントを用いたクロスモーダル知識蒸留 XKD: Cross-modal Knowledge Distillation with Domain Alignment for Video Representation Learning ( http://arxiv.org/abs/2211.13929v4 ) ライセンス: Link先を確認 | Pritam Sarkar and Ali Etemad | (参考訳) ビデオクリップから意味のある表現を学習するための,新しい自己教師型フレームワーク XKD を提案する。
XKDは2つの擬似タスクで訓練される。
まず、マスキングデータ再構成を行い、オーディオおよびビジュアルストリームから個々の表現を学習する。
次に,教師/学生が補完的な情報を学ぶためのセットアップを通じて,2つのモダリティ間で自己指導型クロスモーダルな知識蒸留を行う。
伝達する最も効果的な情報を特定し,また,知識伝達を阻害する音声と視覚の領域間ギャップに取り組むため,効果的なクロスモーダル知識蒸留のためのドメインアライメントと特徴改善戦略を提案する。
最後に,音声と視覚の両方のストリームを処理可能な汎用ネットワークを開発するために,提案するフレームワークのモダリティ非依存な変種を導入し,オーディオと視覚の両方に同じバックボーンを使用する。
提案するクロスモーダル知識蒸留は, ucf101では8.6%, hmdb51では8.2%, キネティクス音では13.9%, キネティクス400では15.7%, ビデオアクション分類の線形評価top-1精度を向上させる。
さらに、モダリティ非依存型は、異なるダウンストリームタスクを解決するために両方のデータストリームを学習できる汎用ネットワークを開発するための有望な結果を示しています。 We present XKD, a novel self-supervised framework to learn meaningful representations from unlabelled video clips. XKD is trained with two pseudo tasks. First, masked data reconstruction is performed to learn individual representations from audio and visual streams. Next, self-supervised cross-modal knowledge distillation is performed between the two modalities through teacher-student setups to learn complementary information. To identify the most effective information to transfer and also to tackle the domain gap between audio and visual modalities which could hinder knowledge transfer, we introduce a domain alignment and feature refinement strategy for effective cross-modal knowledge distillation. Lastly, to develop a general-purpose network capable of handling both audio and visual streams, modality-agnostic variants of our proposed framework are introduced, which use the same backbone for both audio and visual modalities. Our proposed cross-modal knowledge distillation improves linear evaluation top-1 accuracy of video action classification by 8.6% on UCF101, 8.2% on HMDB51, 13.9% on Kinetics-Sound, and 15.7% on Kinetics400. Additionally, our modality-agnostic variant shows promising results in developing a general-purpose network capable of learning both data streams for solving different downstream tasks. | 翻訳日:2023-04-06 16:07:44 公開日:2023-04-05 |
# DreamArtist: 正負のプロンプトチューニングによるワンショットテキスト・ツー・イメージ生成の実現に向けて DreamArtist: Towards Controllable One-Shot Text-to-Image Generation via Positive-Negative Prompt-Tuning ( http://arxiv.org/abs/2211.11337v3 ) ライセンス: Link先を確認 | Ziyi Dong, Pengxu Wei, Liang Lin | (参考訳) 大規模テキスト・画像生成モデルは,高解像度の高画質な高画質特徴画像の合成において,顕著な進歩を遂げている。
しかし、これらのモデルは、しばしば新しい概念、例えば、新しいスタイル、オブジェクトエンティティなどに苦しむ。
最近の試みでは、参照画像セットから事前訓練された拡散モデルに新しい概念を教えるために微調整または即調の戦略が用いられてきたが、それらは与えられた参照画像、特にワンショットアプリケーションにおいて過剰に適合する欠点があり、生成制御性を維持しながら多様で高品質な画像を生成するのに有害である。
この課題に取り組むために,我々は,正負のプロンプトチューニング学習戦略を用いるdreamartistという単純かつ効果的な手法を提案する。
具体的には、DreamArtistは正と負の両方の埋め込みを取り入れ、それらを共同で訓練する。
正の埋め込みは、基準画像の突出特性を積極的に捉えて多様化した生成を駆動し、負の埋め込みは正の埋め込みから不備を解消する。
正しいものだけでなく、避けられるものや改善できるものも学習する。
本研究では,画像の類似性と多様性,生成制御性,スタイルクローニングから提案手法を評価した。
そして私たちのDreamArtistは、既存のメソッドよりも優れた世代パフォーマンスを実現しました。
さらに、概念構成やプロンプト誘導画像編集を含む拡張タスクに対する追加評価は、より多くのアプリケーションに有効であることを示す。 Large-scale text-to-image generation models have achieved remarkable progress in synthesizing high-quality, feature-rich images with high resolution guided by texts. However, these models often struggle with novel concepts, eg, new styles, object entities, etc. Although recent attempts have employed fine-tuning or prompt-tuning strategies to teach the pre-trained diffusion model novel concepts from a reference image set,they have the drawback of overfitting to the given reference images, particularly in one-shot applications, which is harmful to generate diverse and high-quality images while maintaining generation controllability. To tackle this challenge, we present a simple yet effective method called DreamArtist, which employs a positive-negative prompt-tuning learning strategy. Specifically, DreamArtist incorporates both positive and negative embeddings and jointly trains them. The positive embedding aggressively captures the salient characteristics of the reference image to drive diversified generation and the negative embedding rectifies inadequacies from the positive embedding. It learns not only what is correct, but also what can be avoided or improved. We have conducted extensive experiments and evaluated the proposed method from image similarity and diversity, generation controllability, and style cloning. And our DreamArtist has achieved a superior generation performance over existing methods. Besides, our additional evaluation on extended tasks, including concept compositions and prompt-guided image editing, demonstrates its effectiveness for more applications. | 翻訳日:2023-04-06 16:07:12 公開日:2023-04-05 |
# ベイズ二次法によるリチウムイオン電池モデルのベイズモデル選択 Bayesian Model Selection of Lithium-Ion Battery Models via Bayesian Quadrature ( http://arxiv.org/abs/2210.17299v4 ) ライセンス: Link先を確認 | Masaki Adachi, Yannick Kuhn, Birger Horstmann, Arnulf Latz, Michael A. Osborne, David A. Howey | (参考訳) さまざまなバッテリモデルが利用可能であり、どのモデル `best' がデータセットを記述するかは必ずしも明確ではない。
本稿では,ベイズ二次数を用いたベイズモデル選択手法を提案する。
モデル証拠は選択指標として採用され、occamのカミソリの精神で、データを記述する最も単純なモデルを選択する。
しかし、この推定にはパラメータ空間上の積分計算が必要であり、通常は高価である。
bayesian quadratureは、バッテリモデル評価の数を最小化するモデルベース推論によるサンプル効率の高い統合を提供する。
モデルパラメータの後方分布は、さらなる計算をせずに副産物として推定することもできる。
ここでは、最も単純なリチウムイオン電池モデル、等価回路モデルを用いて、選択基準の感度を異なるデータセットとモデル構成に分析した。
我々は,ルート平均二乗誤差やベイズ情報基準のような一般的なモデル選択基準が,多重モーダル後部の場合の擬似モデルの選択に失敗することを示した。
モデル証拠は、そのような場合において最適なモデルを見つけることができ、同時に証拠推論自体の分散を信頼の指標として提供する。
また,ベイズ二次数は,一般的なモンテカルロ系解法よりも早く証明を計算できることを示した。 A wide variety of battery models are available, and it is not always obvious which model `best' describes a dataset. This paper presents a Bayesian model selection approach using Bayesian quadrature. The model evidence is adopted as the selection metric, choosing the simplest model that describes the data, in the spirit of Occam's razor. However, estimating this requires integral computations over parameter space, which is usually prohibitively expensive. Bayesian quadrature offers sample-efficient integration via model-based inference that minimises the number of battery model evaluations. The posterior distribution of model parameters can also be inferred as a byproduct without further computation. Here, the simplest lithium-ion battery models, equivalent circuit models, were used to analyse the sensitivity of the selection criterion to given different datasets and model configurations. We show that popular model selection criteria, such as root-mean-square error and Bayesian information criterion, can fail to select a parsimonious model in the case of a multimodal posterior. The model evidence can spot the optimal model in such cases, simultaneously providing the variance of the evidence inference itself as an indication of confidence. We also show that Bayesian quadrature can compute the evidence faster than popular Monte Carlo based solvers. | 翻訳日:2023-04-06 16:06:27 公開日:2023-04-05 |
# 自己回帰型時間構造をもつダイナミックバンド Dynamic Bandits with an Auto-Regressive Temporal Structure ( http://arxiv.org/abs/2210.16386v2 ) ライセンス: Link先を確認 | Qinyi Chen, Negin Golrezaei, Djallel Bouneffouf | (参考訳) マルチアーム・バンディット(MAB)問題は、主に確率と逆数と呼ばれる2つの極端な条件下で研究されている。
しかし、これらの2つの設定は、検索エンジンやマーケティングや広告のような現実的な環境を捉えていない。
そこで我々は,各腕の期待報酬が自己回帰モデル(AR)によって支配される確率的時間構造を持つ動的MAB問題を紹介し,研究する。
報酬の動的な性質のため、単純な「発見とコミット」ポリシーは失敗する。
我々は、このことを、強い(ダイナミックな)ベンチマークに対して後悔を計測する、丸ごとの後悔の低い境界を特徴付けることで、形式化する。
次に、全周的後悔が我々の後悔の低い境界にほぼ一致するアルゴリズムを示す。
アルゴリズムは2つのメカニズムに依存しています
一 最近引き抜かれた腕と潜在的に無力な腕との交互
(ii)再開。
これらのメカニズムにより、アルゴリズムは変化に動的に適応し、不適切な過去の情報を適切な速度で破棄することができる。
数値解析では,非定常条件下でのアルゴリズムの強みをさらに示す。 Multi-armed bandit (MAB) problems are mainly studied under two extreme settings known as stochastic and adversarial. These two settings, however, do not capture realistic environments such as search engines and marketing and advertising, in which rewards stochastically change in time. Motivated by that, we introduce and study a dynamic MAB problem with stochastic temporal structure, where the expected reward of each arm is governed by an auto-regressive (AR) model. Due to the dynamic nature of the rewards, simple "explore and commit" policies fail, as all arms have to be explored continuously over time. We formalize this by characterizing a per-round regret lower bound, where the regret is measured against a strong (dynamic) benchmark. We then present an algorithm whose per-round regret almost matches our regret lower bound. Our algorithm relies on two mechanisms: (i) alternating between recently pulled arms and unpulled arms with potential, and (ii) restarting. These mechanisms enable the algorithm to dynamically adapt to changes and discard irrelevant past information at a suitable rate. In numerical studies, we further demonstrate the strength of our algorithm under non-stationary settings. | 翻訳日:2023-04-06 16:05:41 公開日:2023-04-05 |
# フェルミオンのglauber-sudarshan p表現 Glauber-Sudarshan P-representations for fermions ( http://arxiv.org/abs/2210.11980v2 ) ライセンス: Link先を確認 | Stephen M. Barnett and Bryan J. Dalton | (参考訳) グラウバー・スダルシャンP表現は量子光学においてよく知られており、光子統計に関する問題に広く応用されている。
おそらくあまり知られていないのはフェルミオン剤だろう。
ボソニック分布とフェルミオン分布の双方を導出し, 2つの異なるフェルミオン形式が存在する理由とそれらの関係を示す。
多くのモードを持つ単一モード系と多粒子系の両方を考える。
単純さのため、1種類のボソンまたはフェルミオンのみが考慮される。 The Glauber-Sudarshan P-representation is well-known within quantum optics, and is widely applied to problems involving photon statistics. Less familiar, perhaps, is its fermionic counterpart. We present a derivation of both the bosonic and fermionic distributions and, in doing so, demonstrate the reason for the existence of two distinct fermionic forms and the relationship between these. We consider both single mode systems and also multiparticle systems with many modes. For simplicity only one type of boson or fermion will be considered. | 翻訳日:2023-04-06 16:05:24 公開日:2023-04-05 |
# MMRNet:マルチモーダルオブジェクト検出の信頼性向上とマルチモーダル冗長性によるビンピッキングのセグメンテーション MMRNet: Improving Reliability for Multimodal Object Detection and Segmentation for Bin Picking via Multimodal Redundancy ( http://arxiv.org/abs/2210.10842v2 ) ライセンス: Link先を確認 | Yuhao Chen, Hayden Gunraj, E. Zhixuan Zeng, Robbie Meyer, Maximilian Gilles, Alexander Wong | (参考訳) 近年,グローバルサプライチェーンの労働不足に対処する産業4.0インフラへの関心が高まっている。
人工知能を利用したロボットビンピッキングシステムを現実世界に展開することは、倉庫のスピードと効率を高めながら、労働者のストレスと身体的要求を減らすために特に重要になっている。
この目的のために、人工知能を利用したロボットビンピッキングシステムは、注文ピッキングの自動化に使用されるが、センサー故障などの異常発生時に高価な損傷を引き起こすリスクがある。
そのため、人工知能研究を現実世界のアプリケーションや製品に翻訳する上で、信頼性は重要な要素となる。
本稿では,マルチモーダル冗長性(mmrnet)を用いたロボットビンピッキングにおける物体検出とセグメント化のための信頼性の高い物体検出・セグメント化システムを提案する。
これは、デプロイ中のセンサ障害に対処するためにマルチモーダル冗長性の概念を導入する最初のシステムである。
特に,ゲート融合モジュールと動的アンサンブル学習を用いたマルチモーダル冗長性フレームワークを実現する。
最後に、全てのモダリティからの出力を利用して、システム全体の出力信頼性と不確実性を測定する新しいラベルフリーマルチモーダル整合性(MC)スコアを提案する。
実験により,モダリティが欠如している場合,本システムはベースラインモデルよりもはるかに信頼性の高い性能を提供することを示した。
また、我々のMCスコアは、しばしば自信過剰なモデルが生成した信頼度よりも、推論時間中の出力の信頼性指標であることを示す。 Recently, there has been tremendous interest in industry 4.0 infrastructure to address labor shortages in global supply chains. Deploying artificial intelligence-enabled robotic bin picking systems in real world has become particularly important for reducing stress and physical demands of workers while increasing speed and efficiency of warehouses. To this end, artificial intelligence-enabled robotic bin picking systems may be used to automate order picking, but with the risk of causing expensive damage during an abnormal event such as sensor failure. As such, reliability becomes a critical factor for translating artificial intelligence research to real world applications and products. In this paper, we propose a reliable object detection and segmentation system with MultiModal Redundancy (MMRNet) for tackling object detection and segmentation for robotic bin picking using data from different modalities. This is the first system that introduces the concept of multimodal redundancy to address sensor failure issues during deployment. In particular, we realize the multimodal redundancy framework with a gate fusion module and dynamic ensemble learning. Finally, we present a new label-free multi-modal consistency (MC) score that utilizes the output from all modalities to measure the overall system output reliability and uncertainty. Through experiments, we demonstrate that in an event of missing modality, our system provides a much more reliable performance compared to baseline models. We also demonstrate that our MC score is a more reliability indicator for outputs during inference time compared to the model generated confidence scores that are often over-confident. | 翻訳日:2023-04-06 16:05:16 公開日:2023-04-05 |
# 蛍光望遠鏡データにおけるトラック状事象選択のためのニューラルネットワークアプローチ A Neural Network Approach for Selecting Track-like Events in Fluorescence Telescope Data ( http://arxiv.org/abs/2212.03787v2 ) ライセンス: Link先を確認 | Mikhail Zotov, Denis Sokolinskii (for the JEM-EUSO collaboration) | (参考訳) 2016-2017年、地球大気中の蛍光放射によって超高エネルギー宇宙線(UHECR)を登録する可能性をテストする世界初の実験が行われた。
2019年以降、ロシア・イタリアの蛍光望遠鏡(FT)ミニEUSO(UV Atmosphere)がISSで運用されている。
UHECRの登録にFTを使用する成層圏実験EUSO-SPB2は2023年に予定されている。
本稿では,単純な畳み込みニューラルネットワークを用いて,そのような機器を用いて得られる様々なデータからトラック状事象を効果的に発見する方法を示す。 In 2016-2017, TUS, the world's first experiment for testing the possibility of registering ultra-high energy cosmic rays (UHECRs) by their fluorescent radiation in the night atmosphere of Earth was carried out. Since 2019, the Russian-Italian fluorescence telescope (FT) Mini-EUSO ("UV Atmosphere") has been operating on the ISS. The stratospheric experiment EUSO-SPB2, which will employ an FT for registering UHECRs, is planned for 2023. We show how a simple convolutional neural network can be effectively used to find track-like events in the variety of data obtained with such instruments. | 翻訳日:2023-04-06 15:58:26 公開日:2023-04-05 |
# lipkin-meshkov-glickモデルにおけるfotoc複雑性 FOTOC complexity in an extended Lipkin-Meshkov-Glick model ( http://arxiv.org/abs/2212.03682v2 ) ライセンス: Link先を確認 | Nitesh Jaiswal, Mamta Gautam, Ankit Gill, Tapobrata Sarkar | (参考訳) 拡張Lipkin-Meshkov-Glickモデルを用いて, 時間外相関器(FOTOC)について検討し, 基底状態と励起状態の両方において, 量子相転移における特異な挙動を示すことを示した。
我々は、FOTOCの力学が対称性と破壊対称性の位相において異なる挙動を持つことを示す。
時間とともにfotoc演算子をリスケールすると、少量で、それがloschmidt echoと同一であることが判明する。
また、両相ともFOTOC演算子のニールセン複雑性を計算し、この演算子を地上および励起状態に適用してモデルの準スクランブル状態を得る。
FOTOC演算子は、元の基底と励起状態に小さな摂動を導入する。
この摂動状態に対して、熱力学的極限において摂動において量子情報計量を第一次に計算する。
関連するリッチスカラーは、ゼロ次数の結果とは対照的に、破壊対称性の位相側における相転移において分岐する。
最後に、このモデルにおけるFubini-Studyの複雑さについて述べる。 We study fidelity out-of-time-order correlators (FOTOCs) in an extended Lipkin-Meshkov-Glick model and demonstrate that these exhibit distinctive behaviour at quantum phase transitions in both the ground and the excited states. We show that the dynamics of the FOTOC have different behaviour in the symmetric and broken-symmetry phases, and as one approaches phase transition. If we rescale the FOTOC operator with time, then for small times, we establish that it is identical to the Loschmidt echo. We also compute the Nielsen complexity of the FOTOC operator in both phases, and apply this operator on the ground and excited states to obtain the quasi-scrambled state of the model. The FOTOC operator introduces a small perturbation on the original ground and excited states. For this perturbed state, we compute the quantum information metric to first order in perturbation, in the thermodynamic limit. We find that the associated Ricci scalar diverges at the phase transition on the broken-symmetry phase side, in contrast to the zeroth order result. Finally, we comment upon the Fubini-Study complexity in this model. | 翻訳日:2023-04-06 15:58:18 公開日:2023-04-05 |
# 電気アハロノフ-ボーム効果による量子系のエネルギー準位シフト Energy level shift of quantum systems via the electric Aharonov-Bohm effect ( http://arxiv.org/abs/2212.03437v2 ) ライセンス: Link先を確認 | RY Chiao, H Hart, NA Inan, M Scheibner, J Sharping, DA Singleton, ME Tobar | (参考訳) 電気アハルノフ-ボーム効果の新バージョンでは、アハルノフ-ボーム相を拾う量子系がファラデーケージに閉じ込められ、時間的に変化する空間的に均一なスカラーポテンシャルを持つ。
この領域の電場と磁場は、実験の全期間において事実上ゼロである。
このバージョンの電気アハロノフ-ボームン効果の観測可能な結果は、2スリット干渉パターンの縞をシフトするのではなく、量子系のエネルギー準位をシフトさせることである。
我々はこのスカラー電気AB効果と交流スターク効果との間に強い数学的関係を示す。 A novel version of the electric Aharonov-Bohm effect is proposed where the quantum system which picks up the Aharonov-Bohm phase is confined to a Faraday cage with a time varying, spatially uniform scalar potential. The electric and magnetic fields in this region are effectively zero for the entire period of the experiment. The observable consequence of this version of the electric Aharonov-Bohmn effect is to shift the energy levels of the quantum system rather than shift the fringes of the 2-slit interference pattern. We show a strong mathematical connection between this version of the scalar electric AB effect and the AC Stark effect. | 翻訳日:2023-04-06 15:57:58 公開日:2023-04-05 |
# 点源ローカライズのための近法 Proximal methods for point source localisation ( http://arxiv.org/abs/2212.02991v2 ) ライセンス: Link先を確認 | Tuomo Valkonen | (参考訳) 点源ローカライゼーションは一般に測度上のラッソ型問題としてモデル化される。
しかしながら、ラドン測度の空間のような非ヒルベルト空間における最適化方法は、ヒルベルト空間よりもはるかに少ない。
点源ローカライズのためのほとんどの数値アルゴリズムは、アドホック収束理論を開発するFrank-Wolfe条件勾配法に基づいている。
我々は,測度空間への近型手法の拡張を開発する。
これには前方後方分割、慣性バージョン、原始二重近位分割が含まれる。
それらの収束証明は標準パターンに従う。
数値的有効性を示す。 Point source localisation is generally modelled as a Lasso-type problem on measures. However, optimisation methods in non-Hilbert spaces, such as the space of Radon measures, are much less developed than in Hilbert spaces. Most numerical algorithms for point source localisation are based on the Frank-Wolfe conditional gradient method, for which ad hoc convergence theory is developed. We develop extensions of proximal-type methods to spaces of measures. This includes forward-backward splitting, its inertial version, and primal-dual proximal splitting. Their convergence proofs follow standard patterns. We demonstrate their numerical efficacy. | 翻訳日:2023-04-06 15:57:46 公開日:2023-04-05 |
# トランスベース学習最適化 Transformer-Based Learned Optimization ( http://arxiv.org/abs/2212.01055v2 ) ライセンス: Link先を確認 | Erik G\"artner, Luke Metz, Mykhaylo Andriluka, C. Daniel Freeman, Cristian Sminchisescu | (参考訳) 本稿では,ニューラルネットワークを用いたオプティマイザ更新ステップの計算を行うための新しい学習最適化手法を提案する。
最適化器のパラメータは、最適化タスクのセットのトレーニングによって学習され、効率よく最小化を行う。
私たちのイノベーションは、古典的なbfgsアルゴリズムにインスパイアされた学習オプティマイザのための、新しいニューラルネットワークアーキテクチャであるoptimusです。
BFGSと同様に、プレコンディショニング行列をランク1更新の和として推定するが、Transformerベースのニューラルネットワークを用いてこれらの更新をステップ長と方向とともに予測する。
近年の学習された最適化に基づくアプローチとは対照的に,我々の定式化により,対象問題のパラメータ空間の次元をまたいだ条件付けが可能となった。
提案手法の利点は,これまで最適化アルゴリズムの評価に用いられてきた目標関数と,物理に基づく3次元人体動作の視覚的再構成の現実的実現に有効であることを示す。 We propose a new approach to learned optimization where we represent the computation of an optimizer's update step using a neural network. The parameters of the optimizer are then learned by training on a set of optimization tasks with the objective to perform minimization efficiently. Our innovation is a new neural network architecture, Optimus, for the learned optimizer inspired by the classic BFGS algorithm. As in BFGS, we estimate a preconditioning matrix as a sum of rank-one updates but use a Transformer-based neural network to predict these updates jointly with the step length and direction. In contrast to several recent learned optimization-based approaches, our formulation allows for conditioning across the dimensions of the parameter space of the target problem while remaining applicable to optimization tasks of variable dimensionality without retraining. We demonstrate the advantages of our approach on a benchmark composed of objective functions traditionally used for the evaluation of optimization algorithms, as well as on the real world-task of physics-based visual reconstruction of articulated 3d human motion. | 翻訳日:2023-04-06 15:57:37 公開日:2023-04-05 |
# FJMP:学習直交非周期相互作用グラフ上の因子付き多重エージェント運動予測 FJMP: Factorized Joint Multi-Agent Motion Prediction over Learned Directed Acyclic Interaction Graphs ( http://arxiv.org/abs/2211.16197v2 ) ライセンス: Link先を確認 | Luke Rowe, Martin Ethier, Eli-Henry Dykhne, Krzysztof Czarnecki | (参考訳) 自動運転パイプラインでは,道路エージェントの将来の動きを予測することが重要な課題である。
本研究では,マルチエージェント運転シナリオにおけるシーンレベル,あるいはジョイント,将来の軌道予測を生成する問題に対処する。
そこで我々はFJMP(Factized Joint Motion Prediction framework for multi-agent Interactive driving scenarios)を提案する。
FJMPは将来のシーン相互作用のダイナミクスをスパース指向の相互作用グラフとしてモデル化する。
次に,グラフを有向非巡回グラフ(DAG)に抽出し,有向非巡回グラフニューラルネットワーク(DAGNN)を用いて結合将来の軌跡を復号するDAGの部分順序に従って,連成予測タスクを境界および条件付き予測列に分解する。
インタラクションとargoverse 2データセットの実験を行い、fjmpが非リファクタリングアプローチ、特に最もインタラクティブでキネマティックに興味深いエージェントよりも正確でシーン一貫性のあるジョイント軌道予測を生成することを実証する。
FJMPはInterActionデータセットのマルチエージェントテストリーダーボードで1位である。 Predicting the future motion of road agents is a critical task in an autonomous driving pipeline. In this work, we address the problem of generating a set of scene-level, or joint, future trajectory predictions in multi-agent driving scenarios. To this end, we propose FJMP, a Factorized Joint Motion Prediction framework for multi-agent interactive driving scenarios. FJMP models the future scene interaction dynamics as a sparse directed interaction graph, where edges denote explicit interactions between agents. We then prune the graph into a directed acyclic graph (DAG) and decompose the joint prediction task into a sequence of marginal and conditional predictions according to the partial ordering of the DAG, where joint future trajectories are decoded using a directed acyclic graph neural network (DAGNN). We conduct experiments on the INTERACTION and Argoverse 2 datasets and demonstrate that FJMP produces more accurate and scene-consistent joint trajectory predictions than non-factorized approaches, especially on the most interactive and kinematically interesting agents. FJMP ranks 1st on the multi-agent test leaderboard of the INTERACTION dataset. | 翻訳日:2023-04-06 15:57:09 公開日:2023-04-05 |
# 地理空間探索のためのビジュアルアクティブ検索フレームワーク A Visual Active Search Framework for Geospatial Exploration ( http://arxiv.org/abs/2211.15788v2 ) ライセンス: Link先を確認 | Anindya Sarkar, Michael Lanier, Scott Alfeld, Jiarui Feng, Roman Garnett, Nathan Jacobs, Yevgeniy Vorobeychik | (参考訳) 多くの問題は航空画像による地理空間探索の一種と見なすことができ、例えば、密猟活動の検出から人身売買まで多岐にわたる。
本研究では,視覚的能動探索(VAS)フレームワークを用いて,広い領域のイメージを入力とし,対象対象物のできるだけ多くの例を特定することを目的とする。
これはクエリの限られたシーケンスを通じて行われ、それぞれが与えられた領域にサンプルが存在するかどうかを検証する。
VASの重要な特徴は、それぞれのクエリが、視覚的に捉えられるもの以外の対象物の空間的分布(例えば、空間的相関)について情報を提供することである。
本稿では,完全注釈付き検索タスクの集合を学習データとして活用し,検索方針を学習し,入力画像の特徴と能動検索状態の自然な表現を組み合わせる,vasのための強化学習手法を提案する。
さらに,VASタスクのテスト時間分布を完全に反映していない場合の判定時のポリシー改善のためのドメイン適応手法を提案する。
複数の衛星画像データセットに関する広範囲な実験を通じて,提案手法が複数の強力なベースラインを上回ることを示した。
コードとデータは公開されます。 Many problems can be viewed as forms of geospatial search aided by aerial imagery, with examples ranging from detecting poaching activity to human trafficking. We model this class of problems in a visual active search (VAS) framework, which takes as input an image of a broad area, and aims to identify as many examples of a target object as possible. It does this through a limited sequence of queries, each of which verifies whether an example is present in a given region. A crucial feature of VAS is that each such query is informative about the spatial distribution of target objects beyond what is captured visually (for example, due to spatial correlation). We propose a reinforcement learning approach for VAS that leverages a collection of fully annotated search tasks as training data to learn a search policy, and combines features of the input image with a natural representation of active search state. Additionally, we propose domain adaptation techniques to improve the policy at decision time when training data is not fully reflective of the test-time distribution of VAS tasks. Through extensive experiments on several satellite imagery datasets, we show that the proposed approach significantly outperforms several strong baselines. Code and data will be made public. | 翻訳日:2023-04-06 15:56:46 公開日:2023-04-05 |
# 画像分類における故障検出のための評価実践を振り返って A Call to Reflect on Evaluation Practices for Failure Detection in Image Classification ( http://arxiv.org/abs/2211.15259v2 ) ライセンス: Link先を確認 | Paul F. Jaeger, Carsten T. L\"uth, Lukas Klein and Till J. Bungert | (参考訳) 機械学習に基づく意思決定システムの荒野における信頼性の高い適用は、現在この分野で調査されている大きな課題の1つだ。
確立されたアプローチの大部分は、信頼スコアを割り当てることで誤った予測を検出することを目的としている。
この信頼性は、モデルの予測の不確かさを定量化したり、明示的なスコアリング関数を学習したり、入力がトレーニング分布と一致しているかを評価することによって得られる。
事実、これら全ての状態は実生活のアプリケーション上で分類器の故障を検出するという同じ目標に対処するが、現在では個々の評価プロトコルで大半を分離した研究分野を構成しており、関連する手法のかなりの部分を除外するか、関連する障害源の大部分を無視する。
本研究では,これらの不整合に起因する現在の落とし穴を系統的に明らかにし,障害検出の全体的かつ現実的な評価のための要件を導出する。
この統一的な視点の関連性を示すために,本研究では,信頼度スコアリング関数w.r.tを,関連するすべての方法と障害源として,初めて大規模実証研究を行う。
簡便なソフトマックス応答ベースラインの総合的評価手法としての啓示は、信頼度スコアリングに関する公開研究が豊富にある中で、現在の評価の劇的な欠点を浮き彫りにしている。
コードとトレーニングされたモデルはhttps://github.com/IML-DKFZ/fd-shiftsにある。 Reliable application of machine learning-based decision systems in the wild is one of the major challenges currently investigated by the field. A large portion of established approaches aims to detect erroneous predictions by means of assigning confidence scores. This confidence may be obtained by either quantifying the model's predictive uncertainty, learning explicit scoring functions, or assessing whether the input is in line with the training distribution. Curiously, while these approaches all state to address the same eventual goal of detecting failures of a classifier upon real-life application, they currently constitute largely separated research fields with individual evaluation protocols, which either exclude a substantial part of relevant methods or ignore large parts of relevant failure sources. In this work, we systematically reveal current pitfalls caused by these inconsistencies and derive requirements for a holistic and realistic evaluation of failure detection. To demonstrate the relevance of this unified perspective, we present a large-scale empirical study for the first time enabling benchmarking confidence scoring functions w.r.t all relevant methods and failure sources. The revelation of a simple softmax response baseline as the overall best performing method underlines the drastic shortcomings of current evaluation in the abundance of publicized research on confidence scoring. Code and trained models are at https://github.com/IML-DKFZ/fd-shifts. | 翻訳日:2023-04-06 15:56:28 公開日:2023-04-05 |
# 計算流体力学における機械学習の新興動向 Emerging trends in machine learning for computational fluid dynamics ( http://arxiv.org/abs/2211.15145v2 ) ライセンス: Link先を確認 | Ricardo Vinuesa and Steve Brunton | (参考訳) 機械学習(ml)の科学コミュニティからの新たな関心は、多くの新しい研究分野を開いている。
ここでは、計算流体力学(CFD)の分野を改善する機会を提供するMLの新たなトレンドに焦点を当てる。
特に,すでに利益を示しているMLとCFDの相乗効果について論じるとともに,現在開発中であり,今後数年で重要な利益をもたらす可能性のある領域も評価する。
我々は、これらの新興アプローチに対する慎重な楽観主義のバランスのとれた視点を強調することも重要であると信じている。 The renewed interest from the scientific community in machine learning (ML) is opening many new areas of research. Here we focus on how novel trends in ML are providing opportunities to improve the field of computational fluid dynamics (CFD). In particular, we discuss synergies between ML and CFD that have already shown benefits, and we also assess areas that are under development and may produce important benefits in the coming years. We believe that it is also important to emphasize a balanced perspective of cautious optimism for these emerging approaches | 翻訳日:2023-04-06 15:56:06 公開日:2023-04-05 |
# 量子資産価格に関する基礎定理 Fundamental theorem for quantum asset pricing ( http://arxiv.org/abs/2212.13815v2 ) ライセンス: Link先を確認 | Jinge Bao, Patrick Rebentrost | (参考訳) 量子コンピュータは、量子推定を用いることで、金融価格問題に利点をもたらす可能性がある。
より広い文脈において、市場と市場で取引された資産が量子特性を持つ状況について尋ねるのは合理的である。
本研究では、市場が古典的確率ではなく純粋量子状態またはより一般的には量子密度演算子によって記述される金融環境を考える。
この設定は自然に、私たちが量子資産と呼ぶ新しい資産クラスにつながります。
このような資産には価格があり、取引できるという仮定のもと、我々はリスクを伴わずに利益を定量化するための仲裁の広範な定義を開発する。
我々の主な成果は、資産価格の最初の基本定理の量子バージョンである。
仲裁がなければ、すべての資産がマルティンガレであるようなリスクフリー密度演算子が存在する。
この密度演算子は、量子デリバティブの価格設定に使用される。
この定理を証明するために、Randon-Nikodym測度変化の密度作用素バージョンについて検討する。
その理論を説明する例を挙げる。 Quantum computers have the potential to provide an advantage for financial pricing problems by the use of quantum estimation. In a broader context, it is reasonable to ask about situations where the market and the assets traded on the market themselves have quantum properties. In this work, we consider a financial setting where instead of by classical probabilities the market is described by a pure quantum state or, more generally, a quantum density operator. This setting naturally leads to a new asset class, which we call quantum assets. Under the assumption that such assets have a price and can be traded, we develop an extended definition of arbitrage to quantify gains without the corresponding risk. Our main result is a quantum version of the first fundamental theorem of asset pricing. If and only if there is no arbitrage, there exists a risk-free density operator under which all assets are martingales. This density operator is used for the pricing of quantum derivatives. To prove the theorem, we study the density operator version of the Radon-Nikodym measure change. We provide examples to illustrate the theory. | 翻訳日:2023-04-06 15:49:46 公開日:2023-04-05 |
# 視覚トランスフォーマーはパラメーター効率のよい視聴覚学習者である Vision Transformers are Parameter-Efficient Audio-Visual Learners ( http://arxiv.org/abs/2212.07983v2 ) ライセンス: Link先を確認 | Yan-Bo Lin, Yi-Lin Sung, Jie Lei, Mohit Bansal, Gedas Bertasius | (参考訳) 視覚トランスフォーマー(vits)はここ数年、様々なコンピュータビジョンタスクで印象的な成果を上げてきた。
本研究では,従来のパラメータを微調整することなく,視覚データのみに事前学習した凍結型ViTの音声・視覚データへの一般化能力について検討する。
そこで本研究では,凍結したViTの各層に少数のトレーニング可能なパラメータを注入することにより,事前学習したViTをオーディオ視覚タスクに適用する潜在型オーディオ視覚ハイブリッド(LAVISH)アダプタを提案する。
我々のLAVISHアダプタは、視覚とオーディオを効率的に融合するために、注意ボトルネックとなる小さな潜在トークンセットを使用し、標準的なクロスアテンションの2次コストをなくす。
提案手法は,既存のモータリティ特化型オーディオ・ビジュアル・メソッドと比較して,調整可能なパラメータを少なくし,コストのかかるオーディオプリトレーニングや外部オーディオ・エンコーダに頼ることなく,様々なオーディオ・ビジュアル・タスクの競争力や性能向上を実現している。
私たちのコードはhttps://genjib.github.io/project_page/LAVISH/で利用可能です。 Vision transformers (ViTs) have achieved impressive results on various computer vision tasks in the last several years. In this work, we study the capability of frozen ViTs, pretrained only on visual data, to generalize to audio-visual data without finetuning any of its original parameters. To do so, we propose a latent audio-visual hybrid (LAVISH) adapter that adapts pretrained ViTs to audio-visual tasks by injecting a small number of trainable parameters into every layer of a frozen ViT. To efficiently fuse visual and audio cues, our LAVISH adapter uses a small set of latent tokens, which form an attention bottleneck, thus, eliminating the quadratic cost of standard cross-attention. Compared to the existing modality-specific audio-visual methods, our approach achieves competitive or even better performance on various audio-visual tasks while using fewer tunable parameters and without relying on costly audio pretraining or external audio encoders. Our code is available at https://genjib.github.io/project_page/LAVISH/ | 翻訳日:2023-04-06 15:49:31 公開日:2023-04-05 |
# AdvMIL:全スライド画像の生存分析のための逆多重学習 AdvMIL: Adversarial Multiple Instance Learning for the Survival Analysis on Whole-Slide Images ( http://arxiv.org/abs/2212.06515v2 ) ライセンス: Link先を確認 | Pei Liu, Luping Ji, Feng Ye, and Bo Fu | (参考訳) 組織学的全スライディング画像(WSI)の生存分析は,患者の予後を推定する上で最も重要な手段の1つである。
ギガピクセルWSI向けに多くの弱い教師付きディープラーニングモデルが開発されているが、そのポテンシャルは古典的サバイバル分析規則や完全教師付き学習要件によって制限されている。
結果として、これらのモデルは、患者に完全に確定した時間-イベントのポイント推定のみを提供し、それらは現在小さなスケールでラベル付けされたwsiデータからのみ学べる。
このような問題に対処するために,新しい逆多重学習(AdvMIL)フレームワークを提案する。
このフレームワークは、逆の時間からイベントへのモデリングに基づいており、wsi表現学習に非常に必要となる複数のインスタンス学習(mil)を統合する。
既存のMILベースのエンド・ツー・エンドの手法は、このフレームワークを適用することで容易にアップグレードでき、サバイバル分布推定と半教師付き学習の能力を向上させることができる。
大規模な実験により,AdvMILは比較的低い計算コストで主要なWSIサバイバル分析手法に性能改善をもたらすだけでなく,半教師付き学習によるラベルなしデータの有効活用を可能にした。
また,advmilはパッチ閉塞に対するモデルのロバスト性向上と2つの代表的な画像ノイズの改善に寄与する可能性が示唆された。
提案したAdvMILフレームワークは, 計算病理学における生存分析の研究を, 新たな逆MILパラダイムで促進する。 The survival analysis on histological whole-slide images (WSIs) is one of the most important means to estimate patient prognosis. Although many weakly-supervised deep learning models have been developed for gigapixel WSIs, their potential is generally restricted by classical survival analysis rules and fully-supervised learning requirements. As a result, these models provide patients only with a completely-certain point estimation of time-to-event, and they could only learn from the labeled WSI data currently at a small scale. To tackle these problems, we propose a novel adversarial multiple instance learning (AdvMIL) framework. This framework is based on adversarial time-to-event modeling, and integrates the multiple instance learning (MIL) that is much necessary for WSI representation learning. It is a plug-and-play one, so that most existing MIL-based end-to-end methods can be easily upgraded by applying this framework, gaining the improved abilities of survival distribution estimation and semi-supervised learning. Our extensive experiments show that AdvMIL not only could often bring performance improvement to mainstream WSI survival analysis methods at a relatively low computational cost, but also enables these methods to effectively utilize unlabeled data via semi-supervised learning. Moreover, it is observed that AdvMIL could help improving the robustness of models against patch occlusion and two representative image noises. The proposed AdvMIL framework could promote the research of survival analysis in computational pathology with its novel adversarial MIL paradigm. | 翻訳日:2023-04-06 15:49:10 公開日:2023-04-05 |
# magvit: マスク付き生成ビデオトランスフォーマー MAGVIT: Masked Generative Video Transformer ( http://arxiv.org/abs/2212.05199v2 ) ライセンス: Link先を確認 | Lijun Yu, Yong Cheng, Kihyuk Sohn, Jos\'e Lezama, Han Zhang, Huiwen Chang, Alexander G. Hauptmann, Ming-Hsuan Yang, Yuan Hao, Irfan Essa, Lu Jiang | (参考訳) 我々は,MAsked Generative VIdeo Transformer(MAGVIT)を導入し,単一のモデルで様々なビデオ合成タスクに取り組む。
本稿では,映像を空間的視覚的トークンに定量化する3Dトークン化手法を提案し,マルチタスク学習を容易にするマスク付きビデオトークンモデリングの埋め込み手法を提案する。
MAGVITの品質,効率,柔軟性を実証するための広範な実験を行った。
私たちの実験は
(i)MAGVITは最先端のアプローチに対して好意的に動作し,Kineetics-600を含む3つのビデオ生成ベンチマークで最高のFVDを確立する。
(II)MAGVITは拡散モデルに対して2桁、自己回帰モデルに対して60倍の差で既存の手法よりも優れている。
3)単一のMAGVITモデルは10種類の多様な生成タスクをサポートし、異なる視覚領域からのビデオ間で一般化する。
ソースコードとトレーニングされたモデルはhttps://magvit.cs.cmu.eduで公開される。 We introduce the MAsked Generative VIdeo Transformer, MAGVIT, to tackle various video synthesis tasks with a single model. We introduce a 3D tokenizer to quantize a video into spatial-temporal visual tokens and propose an embedding method for masked video token modeling to facilitate multi-task learning. We conduct extensive experiments to demonstrate the quality, efficiency, and flexibility of MAGVIT. Our experiments show that (i) MAGVIT performs favorably against state-of-the-art approaches and establishes the best-published FVD on three video generation benchmarks, including the challenging Kinetics-600. (ii) MAGVIT outperforms existing methods in inference time by two orders of magnitude against diffusion models and by 60x against autoregressive models. (iii) A single MAGVIT model supports ten diverse generation tasks and generalizes across videos from different visual domains. The source code and trained models will be released to the public at https://magvit.cs.cmu.edu. | 翻訳日:2023-04-06 15:48:07 公開日:2023-04-05 |
# データマイニングのためのニューラルバンド:危険多発薬局の探索 Neural Bandits for Data Mining: Searching for Dangerous Polypharmacy ( http://arxiv.org/abs/2212.05190v3 ) ライセンス: Link先を確認 | Alexandre Larouche, Audrey Durand, Richard Khoury and Caroline Sirois | (参考訳) ポリファーマシー(polypharmacy)は、しばしば5つ以上の薬物を同時に消費することと定義され、高齢者の一般的な現象である。
これらの薬局のいくつかは不適切と見なされ、死亡や入院などの健康上の悪影響に関係している可能性がある。
この問題の組合せの性質とクレームデータベースのサイズ、与えられた薬物の組み合わせに関する正確な関連度を計算するためのコストを考えると、薬物のあらゆる組み合わせを調査することは不可能である。
そこで本研究では,不適切な多剤局(pips)の探索を最適化する。
そこで本研究では,ニューラルトンプソンサンプリングと差動進化に基づくオプティモニューロアルツ戦略を提案し,クレームデータセットを効率的にマイニングし,薬物組み合わせと健康成果との相関の予測モデルを構築した。
我々は500の薬物と100万の異なる組み合わせを内製した多薬品データのシミュレータによって生成された2つのデータセットを用いて,本手法のベンチマークを行った。
実験では, 最大72%のPIPを検出でき, 平均精度は99%であり, 30000タイムステップで検出できる。 Polypharmacy, most often defined as the simultaneous consumption of five or more drugs at once, is a prevalent phenomenon in the older population. Some of these polypharmacies, deemed inappropriate, may be associated with adverse health outcomes such as death or hospitalization. Considering the combinatorial nature of the problem as well as the size of claims database and the cost to compute an exact association measure for a given drug combination, it is impossible to investigate every possible combination of drugs. Therefore, we propose to optimize the search for potentially inappropriate polypharmacies (PIPs). To this end, we propose the OptimNeuralTS strategy, based on Neural Thompson Sampling and differential evolution, to efficiently mine claims datasets and build a predictive model of the association between drug combinations and health outcomes. We benchmark our method using two datasets generated by an internally developed simulator of polypharmacy data containing 500 drugs and 100 000 distinct combinations. Empirically, our method can detect up to 72% of PIPs while maintaining an average precision score of 99% using 30 000 time steps. | 翻訳日:2023-04-06 15:47:50 公開日:2023-04-05 |
# 半教師付き連続学習のためのソフト近接学習フレームワーク A soft nearest-neighbor framework for continual semi-supervised learning ( http://arxiv.org/abs/2212.05102v2 ) ライセンス: Link先を確認 | Zhiqi Kang, Enrico Fini, Moin Nabi, Elisa Ricci, Karteek Alahari | (参考訳) 重要な進歩にもかかわらず、最先端の連続学習アプローチのパフォーマンスは、完全にラベル付けされたデータの非現実的なシナリオにかかっている。
本稿では,この課題に対処し,全てのデータサンプルがラベル付けされていないような連続的半教師付き学習へのアプローチを提案する。
このシナリオにおける主要な問題は、ラベルなしデータの表現を忘れ、ラベル付きサンプルをオーバーフィットするモデルである。
最寄りの分類器のパワーを利用して特徴空間を非線形に分割し、非パラメトリックな性質により基礎となるデータ分布を柔軟にモデル化する。
これにより、モデルは現在のタスクの強い表現を学び、以前のタスクから関連する情報を抽出することができる。
実験結果から,本手法は従来の手法よりも大きなマージンで優れており,連続的な半教師付き学習パラダイムに基づく技術が確立されていることを示す。
例えば、CIFAR-100では、少なくとも30倍の監督(アノテーションの0.8%対25%)を使用する場合でさえ、他の数を上回っています。
最後に,本手法は低解像度と高解像度の両方で有効であり,ImageNet-100のような複雑なデータセットにシームレスにスケールする。
コードはhttps://github.com/kangzhiq/NNCSLで公開されている。 Despite significant advances, the performance of state-of-the-art continual learning approaches hinges on the unrealistic scenario of fully labeled data. In this paper, we tackle this challenge and propose an approach for continual semi-supervised learning--a setting where not all the data samples are labeled. A primary issue in this scenario is the model forgetting representations of unlabeled data and overfitting the labeled samples. We leverage the power of nearest-neighbor classifiers to nonlinearly partition the feature space and flexibly model the underlying data distribution thanks to its non-parametric nature. This enables the model to learn a strong representation for the current task, and distill relevant information from previous tasks. We perform a thorough experimental evaluation and show that our method outperforms all the existing approaches by large margins, setting a solid state of the art on the continual semi-supervised learning paradigm. For example, on CIFAR-100 we surpass several others even when using at least 30 times less supervision (0.8% vs. 25% of annotations). Finally, our method works well on both low and high resolution images and scales seamlessly to more complex datasets such as ImageNet-100. The code is publicly available on https://github.com/kangzhiq/NNCSL | 翻訳日:2023-04-06 15:47:32 公開日:2023-04-05 |
# VindLU: 効果的なビデオとランゲージの事前トレーニング VindLU: A Recipe for Effective Video-and-Language Pretraining ( http://arxiv.org/abs/2212.05051v2 ) ライセンス: Link先を確認 | Feng Cheng, Xizi Wang, Jie Lei, David Crandall, Mohit Bansal, Gedas Bertasius | (参考訳) 近年ではビデオ・アンド・ランゲージ(VidL)の理解が著しく進歩している。
しかし、現代のほとんどのVidLアプローチは複雑で特殊なモデルアーキテクチャと高度な事前訓練プロトコルを使用しており、これらのフレームワークの再現性、分析、比較を困難にしている。
そこで本研究では,新たなVidLモデルを提案する代わりに,VidLモデル設計において最も重要な要素を解明する実験を行った。
私たちが調査する要因は
(i)時空間建築設計
(ii)マルチモーダル融合スキーム
(iii)事前訓練の目的
(iv)事前訓練データの選択
(v)プリトレーニング及び微調整プロトコル、及び
(vi)データセットとモデルスケーリング。
実験の結果, 時間的モデリング, テキスト間融合, マスキングモデリング目標, 画像と映像の合同学習など, 最も重要な設計要素が得られた。
これらの経験的洞察を用いて、有効なVidL事前学習のためのステップバイステップレシピVindLUを開発した。
我々のレシピを用いてトレーニングした最終モデルは、外部のCLIP事前学習に頼ることなく、VidLタスクの最先端結果と同等かそれ以上の精度で達成できる。
特にテキスト・ビデオ検索タスクでは,DiDeMoが61.2%,ActivityNetが55.0%,現在のSOTAが7.8%,そして6.1%を上回っている。
さらに,本モデルでは,ActivityNet-QA,MSRVTT-QA,MSRVTT-MC,TVQAの映像質問結果も取得した。
私たちのコードと事前訓練されたモデルは、https://github.com/klauscc/VindLU.comで公開されています。 The last several years have witnessed remarkable progress in video-and-language (VidL) understanding. However, most modern VidL approaches use complex and specialized model architectures and sophisticated pretraining protocols, making the reproducibility, analysis and comparisons of these frameworks difficult. Hence, instead of proposing yet another new VidL model, this paper conducts a thorough empirical study demystifying the most important factors in the VidL model design. Among the factors that we investigate are (i) the spatiotemporal architecture design, (ii) the multimodal fusion schemes, (iii) the pretraining objectives, (iv) the choice of pretraining data, (v) pretraining and finetuning protocols, and (vi) dataset and model scaling. Our empirical study reveals that the most important design factors include: temporal modeling, video-to-text multimodal fusion, masked modeling objectives, and joint training on images and videos. Using these empirical insights, we then develop a step-by-step recipe, dubbed VindLU, for effective VidL pretraining. Our final model trained using our recipe achieves comparable or better than state-of-the-art results on several VidL tasks without relying on external CLIP pretraining. In particular, on the text-to-video retrieval task, our approach obtains 61.2% on DiDeMo, and 55.0% on ActivityNet, outperforming current SOTA by 7.8% and 6.1% respectively. Furthermore, our model also obtains state-of-the-art video question-answering results on ActivityNet-QA, MSRVTT-QA, MSRVTT-MC and TVQA. Our code and pretrained models are publicly available at: https://github.com/klauscc/VindLU. | 翻訳日:2023-04-06 15:47:15 公開日:2023-04-05 |
# 変分オートエンコーダの3変分 Three Variations on Variational Autoencoders ( http://arxiv.org/abs/2212.04451v2 ) ライセンス: Link先を確認 | R. I. Cukier | (参考訳) 変分オートエンコーダ(VAEs)は、既知のデータに基づく推論のために設計された生成確率潜在変数モデルの一種である。
本稿では,2番目のパラメータ化エンコーダ/デコーダペアと1つの変分に対して固定エンコーダを導入することで,VAEの3つのバリエーションを開発する。
エンコーダ/デコーダのパラメータはニューラルネットワークで学習する必要がある。
固定エンコーダは確率PCAにより得られる。
これらのバリエーションは、元のvaeに対するエビデンス下限(elbo)近似と比較される。
1つのバリエーションはエビデンス・アッパー・バウンド(EUBO)につながり、元のELBOと組み合わせてVAEの収束を疑うことができる。 Variational autoencoders (VAEs) are one class of generative probabilistic latent-variable models designed for inference based on known data. We develop three variations on VAEs by introducing a second parameterized encoder/decoder pair and, for one variation, an additional fixed encoder. The parameters of the encoders/decoders are to be learned with a neural network. The fixed encoder is obtained by probabilistic-PCA. The variations are compared to the Evidence Lower Bound (ELBO) approximation to the original VAE. One variation leads to an Evidence Upper Bound (EUBO) that can be used in conjunction with the original ELBO to interrogate the convergence of the VAE. | 翻訳日:2023-04-06 15:46:32 公開日:2023-04-05 |
# 視覚学習者がWebイメージテキストペアを語る Vision Learners Meet Web Image-Text Pairs ( http://arxiv.org/abs/2301.07088v2 ) ライセンス: Link先を確認 | Bingchen Zhao, Quan Cui, Hao Wu, Osamu Yoshie, Cheng Yang, Oisin Mac Aodha | (参考訳) 最近の自己教師あり学習法は、imagenet-1kデータセットで事前学習されている。
本稿では,web データのスケーラビリティが優れていることを踏まえ,ノイズの多い web ソース画像テキスト対データに対する自己教師あり事前学習について検討する。
まず,大規模Webデータを対象とした自己指導型事前学習手法のベンチマーク研究を行う。
マスクトレーニング対象を用いたシングルモーダル法や,画像テキスト合成訓練を用いたマルチモーダル法など,さまざまな方法を比較した。
既存のマルチモーダル手法は、視覚伝達学習タスクにおいて、単独モーダル手法よりも優れていない。
我々はこれらのベンチマーク結果を説明するために情報理論的な視点を導き、新しい視覚学習者の設計方法に関する洞察を提供する。
この知見に触発されて、スケーラブルなWebソース画像テキストデータから学習する新しい視覚表現事前学習手法MUlti-modal Generator~(MUG)を提案する。
MUGは様々なタスクで最先端の転送性能を達成し、有望なスケーリング特性を示す。
事前訓練されたモデルとコードは受け入れ次第公開される。 Most recent self-supervised learning methods are pre-trained on the well-curated ImageNet-1K dataset. In this work, given the excellent scalability of web data, we consider self-supervised pre-training on noisy web sourced image-text paired data. First, we conduct a benchmark study of representative self-supervised pre-training methods on large-scale web data in a like-for-like setting. We compare a range of methods, including single-modal ones that use masked training objectives and multi-modal ones that use image-text constrastive training. We observe that existing multi-modal methods do not outperform their single-modal counterparts on vision transfer learning tasks. We derive an information-theoretical view to explain these benchmark results, which provides insight into how to design a novel vision learner. Inspired by this insight, we present a new visual representation pre-training method, MUlti-modal Generator~(MUG), that learns from scalable web sourced image-text data. MUG achieves state-of-the-art transfer performance on a variety of tasks and demonstrates promising scaling properties. Pre-trained models and code will be made public upon acceptance. | 翻訳日:2023-04-06 15:39:16 公開日:2023-04-05 |
# Min-Max-Jump 距離とその応用 Min-Max-Jump distance and its applications ( http://arxiv.org/abs/2301.05994v3 ) ライセンス: Link先を確認 | Gangli Liu | (参考訳) 我々は,Min-Max-Jump distance (MMJ distance) の3つの応用について検討する。
MMJに基づくK平均は、MMJ距離でK平均を変更する。
MMJに基づくシルエット係数は、Silhouette係数をMMJ距離で補正する。
また,mmjに基づくシルエット係数を用いたニューラルネットワークとインデックス(cnni)モデルによるクラスタリングも行った。
最後のアプリケーションでは、データのクラスタリング分析の後、Min-Max-Jump距離を用いて新しい点のラベルを予測する。
結果,Min-Max-Jump 距離は提案した3つのアプリケーションすべてにおいて良好な性能を示す。 We explore three applications of Min-Max-Jump distance (MMJ distance). MMJ-based K-means revises K-means with MMJ distance. MMJ-based Silhouette coefficient revises Silhouette coefficient with MMJ distance. We also tested the Clustering with Neural Network and Index (CNNI) model with MMJ-based Silhouette coefficient. In the last application, we tested using Min-Max-Jump distance for predicting labels of new points, after a clustering analysis of data. Result shows Min-Max-Jump distance achieves good performances in all the three proposed applications. | 翻訳日:2023-04-06 15:38:58 公開日:2023-04-05 |
# 偶然の光プローブ Accidental Light Probes ( http://arxiv.org/abs/2301.05211v2 ) ライセンス: Link先を確認 | Hong-Xing Yu, Samir Agarwala, Charles Herrmann, Richard Szeliski, Noah Snavely, Jiajun Wu, Deqing Sun | (参考訳) 単一の画像からシーン内の照明を復元することは、コンピュータビジョンの根本的な問題である。
ミラーボール光プローブは全方位光を捉えることができるが、光プローブは日常の画像では一般的に利用できない。
本研究は、毎日の場面にしばしば現れるコカイン缶のような、一般的な光沢のある物体である偶発的な光プローブ(alps)からの照明の復元について研究する。
そこで本研究では,ALPを物理的にモデル化する手法を提案する。
主な考え方は、フォトグラム的原理によるシェーディングによるALPの出現をモデル化し、この過程を微分レンダリングによって逆転させ、偶発的な照明を回復させることである。
我々は,高忠実度照明推定を可能にするために,alpをシーンに配置できることを実証する。
我々のモデルは、ALPを含む既存の画像の照明を復元することもできる。 Recovering lighting in a scene from a single image is a fundamental problem in computer vision. While a mirror ball light probe can capture omnidirectional lighting, light probes are generally unavailable in everyday images. In this work, we study recovering lighting from accidental light probes (ALPs) -- common, shiny objects like Coke cans, which often accidentally appear in daily scenes. We propose a physically-based approach to model ALPs and estimate lighting from their appearances in single images. The main idea is to model the appearance of ALPs by photogrammetrically principled shading and to invert this process via differentiable rendering to recover incidental illumination. We demonstrate that we can put an ALP into a scene to allow high-fidelity lighting estimation. Our model can also recover lighting for existing images that happen to contain an ALP. | 翻訳日:2023-04-06 15:38:50 公開日:2023-04-05 |
# 異常検出セグメンテーションにおけるマスクレベル認識の利点について On Advantages of Mask-level Recognition for Outlier-aware Segmentation ( http://arxiv.org/abs/2301.03407v2 ) ライセンス: Link先を確認 | Matej Grci\'c, Josip \v{S}ari\'c, Sini\v{s}a \v{S}egvi\'c | (参考訳) ほとんどの密集した認識アプローチは、それぞれのピクセルに別々の決定をもたらす。
これらのアプローチは、通常のクローズドセット設定で競合するパフォーマンスを提供する。
しかし、一般的に重要なアプリケーションは、外れ値の存在下での強いパフォーマンスを必要とする。
この要求設定は,非微細化ベースラインモデルにおいてもマスクレベルの予測の恩恵が大きいことを示す。
さらに,意味境界における偽陽性応答を効果的に低減する高密度認識の不確実性の定式化を提案する。
提案する定式化は,非常に強いベースラインに対してさらなる改善をもたらし,負のデータにトレーニングを伴わずとも,異常認識意味セグメンテーションにおける新たな技術状態を設定する。
私たちのコントリビューションは、最近のpanopticセットアップのパフォーマンス向上にもつながります。
奥行き実験により,マスクレベルの予測に画素レベルの手がかりが暗黙的に集約されることが確認できた。 Most dense recognition approaches bring a separate decision in each particular pixel. These approaches deliver competitive performance in usual closed-set setups. However, important applications in the wild typically require strong performance in presence of outliers. We show that this demanding setup greatly benefit from mask-level predictions, even in the case of non-finetuned baseline models. Moreover, we propose an alternative formulation of dense recognition uncertainty that effectively reduces false positive responses at semantic borders. The proposed formulation produces a further improvement over a very strong baseline and sets the new state of the art in outlier-aware semantic segmentation with and without training on negative data. Our contributions also lead to performance improvement in a recent panoptic setup. In-depth experiments confirm that our approach succeeds due to implicit aggregation of pixel-level cues into mask-level predictions. | 翻訳日:2023-04-06 15:38:36 公開日:2023-04-05 |
# イベントカメラデータの事前トレーニング Event Camera Data Pre-training ( http://arxiv.org/abs/2301.01928v2 ) ライセンス: Link先を確認 | Yan Yang and Liyuan Pan and Liu Liu | (参考訳) 本稿では,イベントカメラデータを扱うためのトレーニング済みニューラルネットワークを提案する。
私たちのモデルは、自己教師付き学習フレームワークであり、ペアのイベントカメラデータと自然なrgbイメージを使用してトレーニングを行います。
提案手法は3つのモジュールを連続して連結する。
一 自己監督訓練のための有意義なイベント画像を生成するイベントデータ増強の家系
二 イベント画像から有意義なイベントパッチをサンプリングし、我々のモデルにシーンの空間配置を捉え、訓練を加速させるための条件付きマスキング戦略
三 一致したイベント画像とペア化されたイベント画像とRGB画像との埋め込みの類似性を強制する対照的な学習方法。
イベント画像の埋め込み類似性を高める際に, モデル崩壊を回避するために, 埋め込み投影損失を提案する。
イベント画像が特徴空間における対のrgb画像と一致するようにするための確率分布アライメント損失を提案する。
ダウンストリームタスクにおける転送学習性能は,最先端手法よりも優れていることを示す。
例えば、N-ImageNetデータセットにおいて、トップ1の精度は64.83%に達する。 This paper proposes a pre-trained neural network for handling event camera data. Our model is a self-supervised learning framework, and uses paired event camera data and natural RGB images for training. Our method contains three modules connected in a sequence: i) a family of event data augmentations, generating meaningful event images for self-supervised training; ii) a conditional masking strategy to sample informative event patches from event images, encouraging our model to capture the spatial layout of a scene and accelerating training; iii) a contrastive learning approach, enforcing the similarity of embeddings between matching event images, and between paired event and RGB images. An embedding projection loss is proposed to avoid the model collapse when enforcing the event image embedding similarities. A probability distribution alignment loss is proposed to encourage the event image to be consistent with its paired RGB image in the feature space. Transfer learning performance on downstream tasks shows the superiority of our method over state-of-the-art methods. For example, we achieve top-1 accuracy at 64.83% on the N-ImageNet dataset. | 翻訳日:2023-04-06 15:38:03 公開日:2023-04-05 |
# 推薦システムにおける増幅パラドックス The Amplification Paradox in Recommender Systems ( http://arxiv.org/abs/2302.11225v2 ) ライセンス: Link先を確認 | Manoel Horta Ribeiro, Veniamin Veselovsky, Robert West | (参考訳) 推薦システムの自動監査では、盲目的に追従することで、ユーザーはますますパルチザン的、陰謀的、偽のコンテンツに繋がることがわかった。
同時に、実際のユーザトレースを用いた研究では、リコメンダシステムは、極端なコンテンツに対する注意の第一の要因ではないことを示唆している。
本稿では,提案アルゴリズムが極端な内容を好む場合,なぜその消費を推し進めないのか,という明らかなパラドックスを説明する。
With a simple agent-based model where users attribute different utilities to items in the recommender system, we show through simulations that the collaborative-filtering nature of recommender systems and the nicheness of extreme content can resolve the apparent paradox: although blindly following recommendations would indeed lead users to niche content, users rarely consume niche content when given the option because it is of low utility to them, which can lead the recommender system to deamplify such content.
その結果,‘algorithmic amplification’のニュアンス的解釈を求め,レコメンダシステム監査におけるコンテンツの有用性のモデル化の重要性を強調した。
コード提供: https://github.com/epfl-dlab/amplification_paradox。 Automated audits of recommender systems found that blindly following recommendations leads users to increasingly partisan, conspiratorial, or false content. At the same time, studies using real user traces suggest that recommender systems are not the primary driver of attention toward extreme content; on the contrary, such content is mostly reached through other means, e.g., other websites. In this paper, we explain the following apparent paradox: if the recommendation algorithm favors extreme content, why is it not driving its consumption? With a simple agent-based model where users attribute different utilities to items in the recommender system, we show through simulations that the collaborative-filtering nature of recommender systems and the nicheness of extreme content can resolve the apparent paradox: although blindly following recommendations would indeed lead users to niche content, users rarely consume niche content when given the option because it is of low utility to them, which can lead the recommender system to deamplify such content. Our results call for a nuanced interpretation of ``algorithmic amplification'' and highlight the importance of modeling the utility of content to users when auditing recommender systems. Code available: https://github.com/epfl-dlab/amplification_paradox. | 翻訳日:2023-04-06 15:30:09 公開日:2023-04-05 |
# トポロジ的特徴選択:グラフに基づくフィルタ特徴選択手法 Topological Feature Selection: A Graph-Based Filter Feature Selection Approach ( http://arxiv.org/abs/2302.09543v2 ) ライセンス: Link先を確認 | Antonio Briola and Tomaso Aste | (参考訳) 本稿では,位相的に制約されたネットワーク表現のパワーを生かした,教師なしグラフベースのフィルタ特徴選択手法を提案する。
我々は,和声グラフ群(重み付き最大フィルタ付きグラフ)を用いて特徴間の依存関係構造をモデル化し,ネットワーク内の相対的位置を調べることにより,特徴の関連性を最大化する。
このようなアプローチは、その代替案と比較して特に満足できる3つの側面を示します。
(i) 高度に調整可能で、入力データの性質に容易に適応することができる。
(ii)完全に説明可能であり、同時に、驚くほどの単純さを維持している。
(iii)代替品に比べて計算上安価である。
提案アルゴリズムは,異種評価条件下での現在の最先端技術よりも優れているか,あるいは一致していることを示す,異なる適用領域の16のベンチマークデータセットで検証する。 In this paper, we introduce a novel unsupervised, graph-based filter feature selection technique which exploits the power of topologically constrained network representations. We model dependency structures among features using a family of chordal graphs (the Triangulated Maximally Filtered Graph), and we maximise the likelihood of features' relevance by studying their relative position inside the network. Such an approach presents three aspects that are particularly satisfactory compared to its alternatives: (i) it is highly tunable and easily adaptable to the nature of input data; (ii) it is fully explainable, maintaining, at the same time, a remarkable level of simplicity; (iii) it is computationally cheaper compared to its alternatives. We test our algorithm on 16 benchmark datasets from different applicative domains showing that it outperforms or matches the current state-of-the-art under heterogeneous evaluation conditions. | 翻訳日:2023-04-06 15:29:49 公開日:2023-04-05 |
# InstructABSA:Aspect Based Sentiment Analysisのための指導学習 InstructABSA: Instruction Learning for Aspect Based Sentiment Analysis ( http://arxiv.org/abs/2302.08624v3 ) ライセンス: Link先を確認 | Kevin Scaria and Himanshu Gupta and Siddharth Goyal and Saurabh Arjun Sawant and Swaroop Mishra and Chitta Baral | (参考訳) 本稿では,Aspect Term extract (ATE), Aspect Term Sentiment Classification (ATSC), Joint Task Modeling という,すべてのABSAサブタスクに対する指導学習パラダイムを用いた InstructABSA, Aspect Based Sentiment Analysis (ABSA) を提案する。
本手法は,各トレーニングサンプルに正,負,中立のサンプルを導入し,各absaサブタスクのモデル(tk-instruct)をチューニングし,大幅なパフォーマンス向上を実現する。
Sem Eval 2014 15 16データセットの実験結果によると、InstructABSAは以前の最先端(SOTA)アプローチよりも、ABSAの3つのサブタスク(ATE、ATSC、ジョイントタスク)において、大きなマージンで7倍の精度でパフォーマンスを向上している。
特に、InstructABSAはRest14 ATEサブタスクのSOTAを7.31%、Rest15 ATSCサブタスクのLapt14ジョイントタスクのSOTAを8.63%上回っている。
また、3つのサブタスクにまたがる新しいドメインに対する強力な一般化能力も示唆した。 In this paper, we present InstructABSA, Aspect Based Sentiment Analysis (ABSA) using the instruction learning paradigm for all ABSA subtasks: Aspect Term Extraction (ATE), Aspect Term Sentiment Classification (ATSC), and Joint Task modeling. Our method introduces positive, negative, and neutral examples to each training sample, and instruction tunes the model (Tk-Instruct) for each ABSA subtask, yielding significant performance improvements. Experimental results on the Sem Eval 2014, 15, and 16 datasets demonstrate that InstructABSA outperforms the previous state-of-the-art (SOTA) approaches on all three ABSA subtasks (ATE, ATSC, and Joint Task) by a significant margin, outperforming 7x larger models. In particular, InstructABSA surpasses the SOTA on the Rest14 ATE subtask by 7.31% points, Rest15 ATSC subtask by and on the Lapt14 Joint Task by 8.63% points. Our results also suggest a strong generalization ability to new domains across all three subtasks | 翻訳日:2023-04-06 15:29:36 公開日:2023-04-05 |
# マルチモーダル融合法を用いた認知症診断のためのニューラルアーキテクチャ探索 Neural Architecture Search with Multimodal Fusion Methods for Diagnosing Dementia ( http://arxiv.org/abs/2302.05894v2 ) ライセンス: Link先を確認 | Michail Chatzianastasis, Loukas Ilias, Dimitris Askounis, Michalis Vazirgiannis | (参考訳) アルツハイマー認知症(ad)は記憶、思考、言語に影響を与え、人の生活を悪化させる。
早期診断は、医療援助を受け、生活の質を確保するために非常に重要である。
そこで,AD患者認識のための機械学習手法と併用した自然発話の活用が注目されている。
以前の研究のほとんどは、入力信号を処理するために畳み込みニューラルネットワーク(cnns)を使用している。
しかし、CNNアーキテクチャを見つけるのは時間を要するプロセスであり、ドメインの専門知識を必要とする。
さらに, 異なるモーダルを融合させたり, 訓練中に異なるモーダルの表現を結合させたりするために, 早期および後期の融合アプローチを導入する。
これらの制限に対処するために、まず、ニューラルネットワークサーチ(NAS)手法を使用して、高性能CNNアーキテクチャを自動的に見つける。
次に,マルチモーダル因子化バイリニアポーリングやタッカー分解などの融合手法を用いて,音声とテキストの両モードを組み合わせる。
我々の知る限り、自然発話による認知症検出作業におけるNASアプローチとこれらの融合手法を利用した先行研究は存在しない。
我々はADReSS Challengeデータセット上で広範な実験を行い、最先端手法に対するアプローチの有効性を示す。 Alzheimer's dementia (AD) affects memory, thinking, and language, deteriorating person's life. An early diagnosis is very important as it enables the person to receive medical help and ensure quality of life. Therefore, leveraging spontaneous speech in conjunction with machine learning methods for recognizing AD patients has emerged into a hot topic. Most of the previous works employ Convolutional Neural Networks (CNNs), to process the input signal. However, finding a CNN architecture is a time-consuming process and requires domain expertise. Moreover, the researchers introduce early and late fusion approaches for fusing different modalities or concatenate the representations of the different modalities during training, thus the inter-modal interactions are not captured. To tackle these limitations, first we exploit a Neural Architecture Search (NAS) method to automatically find a high performing CNN architecture. Next, we exploit several fusion methods, including Multimodal Factorized Bilinear Pooling and Tucker Decomposition, to combine both speech and text modalities. To the best of our knowledge, there is no prior work exploiting a NAS approach and these fusion methods in the task of dementia detection from spontaneous speech. We perform extensive experiments on the ADReSS Challenge dataset and show the effectiveness of our approach over state-of-the-art methods. | 翻訳日:2023-04-06 15:28:59 公開日:2023-04-05 |
# 近位分解器を用いた収束プラグアンドプレイのための緩和された近位勾配降下アルゴリズム A relaxed proximal gradient descent algorithm for convergent plug-and-play with proximal denoiser ( http://arxiv.org/abs/2301.13731v2 ) ライセンス: Link先を確認 | Samuel Hurault, Antonin Chambolle, Arthur Leclaire and Nicolas Papadakis | (参考訳) 本稿では,新しいコンバーゼント・プラグ・アンド・プレイ(PnP)アルゴリズムを提案する。
PnP法は、データ忠実度項と正規化項の和の最小化として定式化された画像逆問題を解決するための効率的な反復アルゴリズムである。
PnP法は、PGD(Pximal Gradient Descent)のような近位アルゴリズムで事前訓練されたデノイザを接続することで正規化を行う。
PnPスキームの収束を保証するため、多くの研究がディープデノイザーの特定のパラメトリゼーションを研究する。
しかし、既存の結果は、デノイザー上の検証不可能な仮説または最適下仮説、あるいは逆問題のパラメータに制限条件を仮定する必要がある。
これらの制限は、使用中の近位アルゴリズムによるものであることを察知し、凸関数と弱凸関数の和を最小化するためのpgdアルゴリズムの緩和版について検討する。
PnP-$\alpha$PGDアルゴリズムは、緩和された近位分解器を接続すると、より広範囲の正規化パラメータに収束し、より正確な画像復元を可能にする。 This paper presents a new convergent Plug-and-Play (PnP) algorithm. PnP methods are efficient iterative algorithms for solving image inverse problems formulated as the minimization of the sum of a data-fidelity term and a regularization term. PnP methods perform regularization by plugging a pre-trained denoiser in a proximal algorithm, such as Proximal Gradient Descent (PGD). To ensure convergence of PnP schemes, many works study specific parametrizations of deep denoisers. However, existing results require either unverifiable or suboptimal hypotheses on the denoiser, or assume restrictive conditions on the parameters of the inverse problem. Observing that these limitations can be due to the proximal algorithm in use, we study a relaxed version of the PGD algorithm for minimizing the sum of a convex function and a weakly convex one. When plugged with a relaxed proximal denoiser, we show that the proposed PnP-$\alpha$PGD algorithm converges for a wider range of regularization parameters, thus allowing more accurate image restoration. | 翻訳日:2023-04-06 15:28:17 公開日:2023-04-05 |
# 合同拡散モデルを用いた学習データ表現 Learning Data Representations with Joint Diffusion Models ( http://arxiv.org/abs/2301.13622v2 ) ライセンス: Link先を確認 | Kamil Deja, Tomasz Trzcinski, Jakub M. Tomczak | (参考訳) データの合成と分類を可能にする統合機械学習モデルは、多くの場合、それらのタスク間の不均一なパフォーマンスを提供する。
本研究では,現代深層拡散モデルにより構築された内部表現の有用性が,生成だけでなく予測にも有用であることを示す経験的観察から逸脱する。
次に,それらの対象間のパラメータ化を共用した安定なエンドツーエンドトレーニングを可能にする分類器を用いて,バニラ拡散モデルを拡張することを提案する。
その結果得られたジョイント拡散モデルは、評価されたベンチマークの分類と生成品質の両方の観点から、最新のハイブリッド手法を上回っている。
共同学習のアプローチに加えて,視覚的な反事実的説明の方法を導入することで,生成表現と識別表現の共有から直接メリットを享受できることを示す。 Joint machine learning models that allow synthesizing and classifying data often offer uneven performance between those tasks or are unstable to train. In this work, we depart from a set of empirical observations that indicate the usefulness of internal representations built by contemporary deep diffusion-based generative models not only for generating but also predicting. We then propose to extend the vanilla diffusion model with a classifier that allows for stable joint end-to-end training with shared parameterization between those objectives. The resulting joint diffusion model outperforms recent state-of-the-art hybrid methods in terms of both classification and generation quality on all evaluated benchmarks. On top of our joint training approach, we present how we can directly benefit from shared generative and discriminative representations by introducing a method for visual counterfactual explanations. | 翻訳日:2023-04-06 15:27:58 公開日:2023-04-05 |
# ロバスト多視点三角測量のための半定値緩和 Semidefinite Relaxations for Robust Multiview Triangulation ( http://arxiv.org/abs/2301.11431v4 ) ライセンス: Link先を確認 | Linus H\"arenstam-Nielsen, Niclas Zeller, Daniel Cremers | (参考訳) 本稿では,凸緩和に基づく最適ロバスト多視点三角測量のアプローチを提案する。
そこで本研究では,非ロバスト多視点三角測量に既存の緩和手法を拡張し,最小二乗関数を組み込む。
本稿では,エピポーラ制約に基づく2つの定式化と,分数再投影制約に基づく2つの定式化を提案する。
1つ目は低次元であり、中程度の騒音と降圧レベルの下ではきつく、もう1つ目は高次元であり、したがって遅いが、極端な騒音と降圧レベルでもきつい。
提案手法は,大きな雑音と大容量の異常の下でも,証明可能な最適再構成を計算できることを実証する。 We propose an approach based on convex relaxations for certifiably optimal robust multiview triangulation. To this end, we extend existing relaxation approaches to non-robust multiview triangulation by incorporating a truncated least squares cost function. We propose two formulations, one based on epipolar constraints and one based on fractional reprojection constraints. The first is lower dimensional and remains tight under moderate noise and outlier levels, while the second is higher dimensional and therefore slower but remains tight even under extreme noise and outlier levels. We demonstrate through extensive experiments that the proposed approaches allow us to compute provably optimal reconstructions even under significant noise and a large percentage of outliers. | 翻訳日:2023-04-06 15:27:46 公開日:2023-04-05 |
# KLD正規化二方向LSTMを用いた構造振動信号復調 Structural Vibration Signal Denoising Using KLD Regularized Bi-Directional LSTM ( http://arxiv.org/abs/2303.11413v2 ) ライセンス: Link先を確認 | Youzhi Liang, Wen Liang | (参考訳) 振動信号は, 構造的健康モニタリング, 故障診断, 損傷検出など, 様々な工学的目的に利用され, 構造物の状態や整合性に関する貴重な情報を提供するようになっている。
近年,生物工学の分野では振動信号の利用が増加している。
活性誘発構造振動、特にフットステップによる信号は、人体や動物などの生体系の運動を分析するのに有用である。
フットステップによって引き起こされる信号は、個人の歩行、体重、姿勢に関する貴重な情報を提供し、健康モニタリング、セキュリティ、人間とコンピュータのインタラクションのための魅力的なツールとなる。
しかし、様々なノイズの存在は、フットステップによる信号解析の精度を損なう可能性がある。
本稿では,KLD正則化とL1正則化を併用した新しいLSTMモデルを提案する。
モデルは、単一の自由振動子によって生成された合成データを用いて訓練され、試験された。
その結果,提案手法は信号のノイズ低減に有効であり,特に振幅の大きいレジームに対して有効であることがわかった。
このアプローチは、医療、セキュリティ、技術など、フットステップによる構造的振動信号の幅広い応用に有望である。 Vibration signals have been increasingly utilized in various engineering fields for analysis and monitoring purposes, including structural health monitoring, fault diagnosis and damage detection, where vibration signals can provide valuable information about the condition and integrity of structures. In recent years, there has been a growing trend towards the use of vibration signals in the field of bioengineering. Activity-induced structural vibrations, particularly footstep-induced signals, are useful for analyzing the movement of biological systems such as the human body and animals. Footstep-induced signals can provide valuable information about an individual's gait, body mass, and posture, making them an attractive tool for health monitoring, security, and human-computer interaction. However, the presence of various types of noise can compromise the accuracy of footstep-induced signal analysis. In this paper, we propose a novel 'many-to-many' LSTM model with a KLD regularizer and L1 regularization, which is effective in denoising structural vibration signals, particularly for regimes with larger amplitudes. The model was trained and tested using synthetic data generated by a single degree of freedom oscillator. Our results demonstrate that the proposed approach is effective in reducing noise in the signals, particularly for regimes with larger amplitudes. The approach is promising for a wide range of applications of footstep-induced structural vibration signals, including healthcare, security, and technology. | 翻訳日:2023-04-06 15:22:33 公開日:2023-04-05 |
# 安定拡散による画像操作のための高個人化テキスト埋め込み Highly Personalized Text Embedding for Image Manipulation by Stable Diffusion ( http://arxiv.org/abs/2303.08767v2 ) ライセンス: Link先を確認 | Inhwa Han, Serin Yang, Taesung Kwon, Jong Chul Ye | (参考訳) 拡散モデルは画像生成と操作において優れた性能を示すが、固有の確率性は画像の内容とアイデンティティの保存と操作の課題を示す。
DreamBoothやTextual Inversionといった以前のアプローチでは、コンテンツを維持するためのモデルや潜在表現のパーソナライゼーションが提案されていたが、複数の参照イメージへの依存と複雑なトレーニングは実用性を制限する。
本稿では、パーソナライズとコンテンツ操作のためのCLIP埋め込み空間を分解し、高度にパーソナライズされた(HiPer)テキスト埋め込みを用いたパーソナライズへのシンプルかつ高効率なアプローチを提案する。
本手法では, モデル微調整や識別子を必要としないが, 背景, テクスチャ, 動きを1つの画像とターゲットテキストで操作できる。
多様な対象テキストを用いた実験により,様々なタスクにまたがって,高度にパーソナライズされ,複雑な意味的画像編集を実現することを実証した。
本研究で提示されるテキスト埋め込み空間の新たな理解は、様々なタスクにまたがるさらなる研究を促す可能性があると考えている。 Diffusion models have shown superior performance in image generation and manipulation, but the inherent stochasticity presents challenges in preserving and manipulating image content and identity. While previous approaches like DreamBooth and Textual Inversion have proposed model or latent representation personalization to maintain the content, their reliance on multiple reference images and complex training limits their practicality. In this paper, we present a simple yet highly effective approach to personalization using highly personalized (HiPer) text embedding by decomposing the CLIP embedding space for personalization and content manipulation. Our method does not require model fine-tuning or identifiers, yet still enables manipulation of background, texture, and motion with just a single image and target text. Through experiments on diverse target texts, we demonstrate that our approach produces highly personalized and complex semantic image edits across a wide range of tasks. We believe that the novel understanding of the text embedding space presented in this work has the potential to inspire further research across various tasks. | 翻訳日:2023-04-06 15:22:10 公開日:2023-04-05 |
# 対人訓練には全トレーニングデータが必要ですか? Do we need entire training data for adversarial training? ( http://arxiv.org/abs/2303.06241v2 ) ライセンス: Link先を確認 | Vipul Gupta, Apurva Narayan | (参考訳) 深層ニューラルネットワーク(dnn)は、自動運転車や医療画像といった安全クリティカルな領域を含む、多くの領域で幅広い問題を解決するために使用されている。
DNNは敵の攻撃に対する脆弱性に悩まされる。
近年,敵対的学習を用いてネットワークをトレーニングすることで,この問題に対処するための多くのアプローチが提案されている。
ほぼすべてのアプローチがトレーニングデータセット全体の逆例を生成するため、トレーニング時間が大幅に増加する。
我々は, 対人訓練のためのトレーニングデータのサブセットのみを用いることで, 任意の対人訓練アルゴリズムのトレーニング時間を短縮できることを示す。
サブセットを選択するために、トレーニングデータから逆方向のサンプルをフィルタリングする。
このサブセットをフィルタするために、すべてのトレーニング例に対して単純な敵攻撃を行います。
この攻撃では,各画素に小さな摂動を付加し,入力画像に少数の格子線を付加する。
我々は,逆行性のある部分集合上で逆行訓練を行い,データセット全体のバニラ訓練と混合する。
その結果,本手法をFGSMにプラグインした場合,MNISTでは3.52倍,CIFAR-10データセットでは1.98倍の高速化を実現することができた。
また,我々は最先端のフリー・コンバーサリートレーニングへのアプローチをテストし,imagenetデータセットにおけるロバスト精度の低下とともに,トレーニング時間の1.2倍のスピードアップを達成している。 Deep Neural Networks (DNNs) are being used to solve a wide range of problems in many domains including safety-critical domains like self-driving cars and medical imagery. DNNs suffer from vulnerability against adversarial attacks. In the past few years, numerous approaches have been proposed to tackle this problem by training networks using adversarial training. Almost all the approaches generate adversarial examples for the entire training dataset, thus increasing the training time drastically. We show that we can decrease the training time for any adversarial training algorithm by using only a subset of training data for adversarial training. To select the subset, we filter the adversarially-prone samples from the training data. We perform a simple adversarial attack on all training examples to filter this subset. In this attack, we add a small perturbation to each pixel and a few grid lines to the input image. We perform adversarial training on the adversarially-prone subset and mix it with vanilla training performed on the entire dataset. Our results show that when our method-agnostic approach is plugged into FGSM, we achieve a speedup of 3.52x on MNIST and 1.98x on the CIFAR-10 dataset with comparable robust accuracy. We also test our approach on state-of-the-art Free adversarial training and achieve a speedup of 1.2x in training time with a marginal drop in robust accuracy on the ImageNet dataset. | 翻訳日:2023-04-06 15:21:50 公開日:2023-04-05 |
# 高表現類似度モデルを用いたマカクとマウスの視覚経路を有するディープスパイキングニューラルネットワーク Deep Spiking Neural Networks with High Representation Similarity Model Visual Pathways of Macaque and Mouse ( http://arxiv.org/abs/2303.06060v3 ) ライセンス: Link先を確認 | Liwei Huang, Zhengyu Ma, Liutao Yu, Huihui Zhou, Yonghong Tian | (参考訳) 深層人工神経ネットワーク(ANN)は霊長類とネズミの視覚経路をモデル化する上で重要な役割を果たしている。
しかし、ニューロンの計算特性を生物学的に比較すると非常に単純化する。
スパイキングニューラルネットワーク(SNN)は、スパイキングニューロンが生物学的ニューロンと同じようにスパイクの時系列で情報をエンコードするので、生物学的にもっとも有効なモデルだ。
しかし、深部snsモデルを用いた視覚経路の研究が不足している。
本研究では,視覚野を初めて深部snsでモデル化し,それに加えて,最先端の深部cnnとvitsの比較を行った。
3つの類似度指標を用いて、2つの種から収集された3つの神経データセットを3種類の刺激で神経表現類似度実験を行う。
広範な類似性分析に基づき,本研究は種間の機能的階層と機構についてさらに検討する。
SNNのほぼ全ての類似度スコアは、平均6.6%のCNNよりも高い。
最も類似度が高い層の深さは、マウスの皮質領域ではほとんど差がないが、マカク領域ではかなり異なるため、マウスの視覚処理構造はマカクより局所的に均質であることが示唆された。
さらに、マウス上層脳のようなニューラルネットワークで観察されるマルチブランチ構造は、マウスにおける並列処理ストリームの計算的証拠を提供し、異なる刺激下でのマカク神経表現の適合性は、マカクにおける情報処理の機能的特殊化を示す。
本研究は,SNNが視覚系の機能的階層と機構をモデル化し,説明するための有望な候補として機能することを示す。 Deep artificial neural networks (ANNs) play a major role in modeling the visual pathways of primate and rodent. However, they highly simplify the computational properties of neurons compared to their biological counterparts. Instead, Spiking Neural Networks (SNNs) are more biologically plausible models since spiking neurons encode information with time sequences of spikes, just like biological neurons do. However, there is a lack of studies on visual pathways with deep SNNs models. In this study, we model the visual cortex with deep SNNs for the first time, and also with a wide range of state-of-the-art deep CNNs and ViTs for comparison. Using three similarity metrics, we conduct neural representation similarity experiments on three neural datasets collected from two species under three types of stimuli. Based on extensive similarity analyses, we further investigate the functional hierarchy and mechanisms across species. Almost all similarity scores of SNNs are higher than their counterparts of CNNs with an average of 6.6%. Depths of the layers with the highest similarity scores exhibit little differences across mouse cortical regions, but vary significantly across macaque regions, suggesting that the visual processing structure of mice is more regionally homogeneous than that of macaques. Besides, the multi-branch structures observed in some top mouse brain-like neural networks provide computational evidence of parallel processing streams in mice, and the different performance in fitting macaque neural representations under different stimuli exhibits the functional specialization of information processing in macaques. Taken together, our study demonstrates that SNNs could serve as promising candidates to better model and explain the functional hierarchy and mechanisms of the visual system. | 翻訳日:2023-04-06 15:21:28 公開日:2023-04-05 |
# テキストと画像の拡散モデルを用いたオープンボキャブラリパノプティックセグメンテーション Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models ( http://arxiv.org/abs/2303.04803v4 ) ライセンス: Link先を確認 | Jiarui Xu, Sifei Liu, Arash Vahdat, Wonmin Byeon, Xiaolong Wang, Shalini De Mello | (参考訳) 本稿では,事前学習されたテキスト画像拡散と識別モデルを統合し,オープンボカブラリのパンオプティカルセグメンテーションを行うオープンボカブラリ拡散ベースのパンオプティカルセグメンテーションを提案する。
テキストから画像への拡散モデルは、多様なオープンボキャブラリー言語記述を持つ高品質な画像を生成する能力を持つ。
このことは、それらの内部表現空間が実世界の開概念と強く相関していることを示している。
一方、CLIPのようなテキスト画像識別モデルは、画像のオープン語彙ラベルへの分類に長けている。
我々は、これらのモデルの凍結した内部表現を利用して、野生の任意のカテゴリーの汎視的セグメンテーションを行う。
オープン・ボキャブラリ・パノプティクスとセマンティック・セグメンテーションの両タスクにおいて,従来の技術状況よりも優れていた。
特に,COCOトレーニングのみの場合,ADE20Kデータセット上で23.4 PQと30.0 mIoUを達成し,従来の技術に比べて8.3 PQと7.9 mIoUを絶対的に改善した。
私たちはコードとモデルをhttps://github.com/NVlabs/ODISEでオープンソース化しています。 We present ODISE: Open-vocabulary DIffusion-based panoptic SEgmentation, which unifies pre-trained text-image diffusion and discriminative models to perform open-vocabulary panoptic segmentation. Text-to-image diffusion models have the remarkable ability to generate high-quality images with diverse open-vocabulary language descriptions. This demonstrates that their internal representation space is highly correlated with open concepts in the real world. Text-image discriminative models like CLIP, on the other hand, are good at classifying images into open-vocabulary labels. We leverage the frozen internal representations of both these models to perform panoptic segmentation of any category in the wild. Our approach outperforms the previous state of the art by significant margins on both open-vocabulary panoptic and semantic segmentation tasks. In particular, with COCO training only, our method achieves 23.4 PQ and 30.0 mIoU on the ADE20K dataset, with 8.3 PQ and 7.9 mIoU absolute improvement over the previous state of the art. We open-source our code and models at https://github.com/NVlabs/ODISE . | 翻訳日:2023-04-06 15:20:59 公開日:2023-04-05 |
# Vuk'uzenzeleとZA-gov-multilingual South African multilingual corporaの調製 Preparing the Vuk'uzenzele and ZA-gov-multilingual South African multilingual corpora ( http://arxiv.org/abs/2303.03750v2 ) ライセンス: Link先を確認 | Richard Lastrucci, Isheanesu Dzingirai, Jenalea Rajab, Andani Madodonga, Matimba Shingange, Daniel Njini, Vukosi Marivate | (参考訳) 本稿では,南アフリカ諸言語における多言語政府のテーマコーパスについて紹介する。
コーポラは南アフリカ政府の新聞(Vuk'uzenzele)と南アフリカ政府の演説(ZA-gov-multilingual)を集めて収集され、南アフリカの公用語の全てに翻訳された。
コーパスは、下流の無数のNLPタスクに使用できる。
コーポラは南アフリカ政府の出版物で使われている言語を研究者が研究できるように作られ、南アフリカ政府の役人が構成員とどのようにコミュニケーションするかを理解することに焦点を当てた。
本稿では,コーパスの収集,清掃,利用可能化のプロセスを強調する。
我々はLanguage-Agnostic Sentence Representation (LASER) を用いたニューラルマシン翻訳(NMT)タスクのための並列文コーパスを作成する。
これらの整列文を用いて、我々は、非常に多言語で事前訓練された言語モデルを微調整することで、9つのネイティブ言語に対するNMTベンチマークを提供する。 This paper introduces two multilingual government themed corpora in various South African languages. The corpora were collected by gathering the South African Government newspaper (Vuk'uzenzele), as well as South African government speeches (ZA-gov-multilingual), that are translated into all 11 South African official languages. The corpora can be used for a myriad of downstream NLP tasks. The corpora were created to allow researchers to study the language used in South African government publications, with a focus on understanding how South African government officials communicate with their constituents. In this paper we highlight the process of gathering, cleaning and making available the corpora. We create parallel sentence corpora for Neural Machine Translation (NMT) tasks using Language-Agnostic Sentence Representations (LASER) embeddings. With these aligned sentences we then provide NMT benchmarks for 9 indigenous languages by fine-tuning a massively multilingual pre-trained language model. | 翻訳日:2023-04-06 15:20:23 公開日:2023-04-05 |
# Human-Art: 自然と人工のシーンを包括する人間中心データセット Human-Art: A Versatile Human-Centric Dataset Bridging Natural and Artificial Scenes ( http://arxiv.org/abs/2303.02760v2 ) ライセンス: Link先を確認 | Xuan Ju, Ailing Zeng, Jianan Wang, Qiang Xu, Lei Zhang | (参考訳) 人間は古くから様々な形で記録されてきた。
例えば、彫刻や絵画は、カメラの発明以前に人間を描いた主要なメディアであった。
しかしながら、人間のポーズ推定や人間の画像生成のような現在の人間中心のコンピュータビジョンタスクは、現実世界の自然画像のみに焦点を当てている。
彫刻、絵画、漫画などの人工人間は一般的に無視され、既存のモデルはこれらのシナリオで失敗する。
人生の抽象として、芸術は人間を自然と人工の両方の場面に取り入れている。
我々はその利点を生かし、自然と人工のシナリオで関連するタスクをブリッジするためにHuman-Artデータセットを導入します。
具体的には、Human-Artには、5つの自然シナリオと15の人工シナリオから123k以上の人体インスタンスを持つ50万以上の高品質の画像が含まれている。
したがって、様々な下流タスクには包括的で汎用性がある。
また,人間の検出,2次元と3次元のポーズ推定,画像生成,移動移動など,関連する課題の詳細な分析とベースライン結果の豊富なセットも提供する。
挑戦的なデータセットとして、Human-Artが関連する研究の洞察を提供し、新たな研究質問を開くことを願っています。 Humans have long been recorded in a variety of forms since antiquity. For example, sculptures and paintings were the primary media for depicting human beings before the invention of cameras. However, most current human-centric computer vision tasks like human pose estimation and human image generation focus exclusively on natural images in the real world. Artificial humans, such as those in sculptures, paintings, and cartoons, are commonly neglected, making existing models fail in these scenarios. As an abstraction of life, art incorporates humans in both natural and artificial scenes. We take advantage of it and introduce the Human-Art dataset to bridge related tasks in natural and artificial scenarios. Specifically, Human-Art contains 50k high-quality images with over 123k person instances from 5 natural and 15 artificial scenarios, which are annotated with bounding boxes, keypoints, self-contact points, and text information for humans represented in both 2D and 3D. It is, therefore, comprehensive and versatile for various downstream tasks. We also provide a rich set of baseline results and detailed analyses for related tasks, including human detection, 2D and 3D human pose estimation, image generation, and motion transfer. As a challenging dataset, we hope Human-Art can provide insights for relevant research and open up new research questions. | 翻訳日:2023-04-06 15:20:06 公開日:2023-04-05 |
# 規則に基づく分布外検出 Rule-based Out-Of-Distribution Detection ( http://arxiv.org/abs/2303.01860v3 ) ライセンス: Link先を確認 | Giacomo De Bernardi, Sara Narteni, Enrico Cambiaso, Maurizio Mongelli | (参考訳) 分散検出は、マシンラーニングのデプロイメントにおいて最も重要な問題のひとつだ。
データアナリストは、運用中のデータがトレーニングフェーズに準拠していることと、自律的な決定がもはや安全でない方法で環境が変わったかどうかを理解することを保証する必要がある。
論文の方法はeXplainable Artificial Intelligence (XAI)に基づいており、XAIモデルに見られるように、分布内と外部との類似性を識別するために異なるメトリクスを考慮に入れている。
このアプローチは非パラメトリックかつ分布的仮定自由である。
複雑なシナリオ(予測的メンテナンス、車両小隊、サイバーセキュリティにおける隠密チャネル)の検証は、検出の精度とトレーニング運用条件の近接性の両方を裏付ける。
結果は、オープンソースとオープンデータを通じて、以下のリンクで入手できる。 Out-of-distribution detection is one of the most critical issue in the deployment of machine learning. The data analyst must assure that data in operation should be compliant with the training phase as well as understand if the environment has changed in a way that autonomous decisions would not be safe anymore. The method of the paper is based on eXplainable Artificial Intelligence (XAI); it takes into account different metrics to identify any resemblance between in-distribution and out of, as seen by the XAI model. The approach is non-parametric and distributional assumption free. The validation over complex scenarios (predictive maintenance, vehicle platooning, covert channels in cybersecurity) corroborates both precision in detection and evaluation of training-operation conditions proximity. Results are available via open source and open data at the following link: https://github.com/giacomo97cnr/Rule-based-ODD. | 翻訳日:2023-04-06 15:19:45 公開日:2023-04-05 |
# mHealth hyperspectral learningによる血行動態の瞬時観察 mHealth hyperspectral learning for instantaneous spatiospectral imaging of hemodynamics ( http://arxiv.org/abs/2303.16205v2 ) ライセンス: Link先を確認 | Yuhyun Ji, Sang Mok Park, Semin Kwon, Jung Woo Leem, Vidhya Vijayakrishnan Nair, Yunjie Tong, and Young L. Kim | (参考訳) ハイパースペクトルイメージングは、空間領域と周波数領域の両方のデータを取得し、豊富な物理情報や生物学的情報を提供する。
しかしながら、従来のハイパースペクトルイメージングはバルク機器、遅いデータ取得率、時空間的トレードオフに固有の制限がある。
本稿では,小領域でサンプリングされたハイパースペクトルデータを,ハイパーキューブを回収するための学習アルゴリズムに組み込む,スナップショットハイパースペクトルイメージングのためのハイパースペクトル学習を提案する。
ハイパースペクトル学習は、写真は単なる写真ではなく、詳細なスペクトル情報を含むという考え方を利用する。
ハイパースペクトルデータの小さなサンプリングにより、スペクトル情報によりRGB画像からハイパーキューブを復元することができる。
ハイパースペクトル学習は、科学分光計の高スペクトル分解能に匹敵するハイパーキューブの完全な分光分解能を回復することができる。
ハイパースペクトラル・ラーニングはまた、ビデオが複数のrgb画像の時系列からなることを考慮し、市販のスマートフォンで超低速のビデオ記録を活用することで、超高速でダイナミックなイメージングを可能にする。
その汎用性を示すために、統計的および深層学習アプローチを通じて血行動態パラメータを抽出する実験モデルが用いられる。
その後、従来のスマートフォンカメラを用いて、超高速時間分解能で末梢微小循環の血行動態を評価する。
このスペクトル情報学習法は, 圧縮センシングと類似しているが, さらに, 透過的学習アルゴリズムを用いて, 信頼性の高いハイパーキューブ回復と重要な特徴抽出を可能にする。
この学習駆動スナップショットハイパースペクトルイメージング手法は、高いスペクトル分解能と時間分解能を生じさせ、時空間的トレードオフをなくし、単純なハードウェア要件と様々な機械学習技術の潜在的な応用を提供する。 Hyperspectral imaging acquires data in both the spatial and frequency domains to offer abundant physical or biological information. However, conventional hyperspectral imaging has intrinsic limitations of bulky instruments, slow data acquisition rate, and spatiospectral tradeoff. Here we introduce hyperspectral learning for snapshot hyperspectral imaging in which sampled hyperspectral data in a small subarea are incorporated into a learning algorithm to recover the hypercube. Hyperspectral learning exploits the idea that a photograph is more than merely a picture and contains detailed spectral information. A small sampling of hyperspectral data enables spectrally informed learning to recover a hypercube from an RGB image. Hyperspectral learning is capable of recovering full spectroscopic resolution in the hypercube, comparable to high spectral resolutions of scientific spectrometers. Hyperspectral learning also enables ultrafast dynamic imaging, leveraging ultraslow video recording in an off-the-shelf smartphone, given that a video comprises a time series of multiple RGB images. To demonstrate its versatility, an experimental model of vascular development is used to extract hemodynamic parameters via statistical and deep-learning approaches. Subsequently, the hemodynamics of peripheral microcirculation is assessed at an ultrafast temporal resolution up to a millisecond, using a conventional smartphone camera. This spectrally informed learning method is analogous to compressed sensing; however, it further allows for reliable hypercube recovery and key feature extractions with a transparent learning algorithm. This learning-powered snapshot hyperspectral imaging method yields high spectral and temporal resolutions and eliminates the spatiospectral tradeoff, offering simple hardware requirements and potential applications of various machine-learning techniques. | 翻訳日:2023-04-06 15:12:54 公開日:2023-04-05 |
# Unify, Align and Refine:マルチレベルセマンティックアライメントによる放射線診断レポート生成 Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology Report Generation ( http://arxiv.org/abs/2303.15932v4 ) ライセンス: Link先を確認 | Yaowei Li and Bang Yang and Xuxin Cheng and Zhihong Zhu and Hongxiang Li and Yuexian Zou | (参考訳) 自動放射線学レポート生成は, 放射線技師の作業負荷軽減の実践的価値から, 膨大な研究関心を集めている。
しかし、画像(例えば、Chest X-ray)とその関連レポートと画像パッチとキーワードの局所的なアライメントのグローバルな対応を同時に確立することは困難である。
この目的のために,多段階のクロスモーダルアライメントを学習し,LSU(Latent Space Unifier),CRA(Cross-modal Representation Aligner),TIR(Text-to-Image Refiner)の3つの新しいモジュールを導入するためのUnify,Align, then Refine (UAR)アプローチを提案する。
特に、LSUはマルチモーダルデータを離散トークンに統一し、共有ネットワークを用いてモダリティ間の共通知識を学習する。
モダリティ非依存 cra は、まず正規直交基底と双対ゲート機構のセットを通して識別的特徴を学習し、次に三重項コントラスト損失の下で視覚的およびテキスト的表現をグローバルに調整する。
TIRは、学習可能なマスクでテキストと画像の注意を校正することでトークンレベルの局所アライメントを高める。
さらに,2段階の学習手順をデザインし,uarが様々なレベルにおけるクロスモーダルアライメントを徐々に把握できるようにし,放射線科医のワークフローを模倣した。
IU-XrayおよびMIMIC-CXRベンチマークデータセットの大規模な実験と解析により、UARの様々な最先端手法に対する優位性を示す。 Automatic radiology report generation has attracted enormous research interest due to its practical value in reducing the workload of radiologists. However, simultaneously establishing global correspondences between the image (e.g., Chest X-ray) and its related report and local alignments between image patches and keywords remains challenging. To this end, we propose an Unify, Align and then Refine (UAR) approach to learn multi-level cross-modal alignments and introduce three novel modules: Latent Space Unifier (LSU), Cross-modal Representation Aligner (CRA) and Text-to-Image Refiner (TIR). Specifically, LSU unifies multimodal data into discrete tokens, making it flexible to learn common knowledge among modalities with a shared network. The modality-agnostic CRA learns discriminative features via a set of orthonormal basis and a dual-gate mechanism first and then globally aligns visual and textual representations under a triplet contrastive loss. TIR boosts token-level local alignment via calibrating text-to-image attention with a learnable mask. Additionally, we design a two-stage training procedure to make UAR gradually grasp cross-modal alignments at different levels, which imitates radiologists' workflow: writing sentence by sentence first and then checking word by word. Extensive experiments and analyses on IU-Xray and MIMIC-CXR benchmark datasets demonstrate the superiority of our UAR against varied state-of-the-art methods. | 翻訳日:2023-04-06 15:12:24 公開日:2023-04-05 |
# tabret: unseen列のためのトランスフォーマティブベースの表モデル TabRet: Pre-training Transformer-based Tabular Models for Unseen Columns ( http://arxiv.org/abs/2303.15747v2 ) ライセンス: Link先を確認 | Soma Onishi, Kenta Oono, and Kohei Hayashi | (参考訳) 表データのためのトレーニング済みトランスフォーマーモデルである \emph{TabRet} を提示する。
TabRetは、事前トレーニングで見えない列を含む下流タスクで動作するように設計されている。
他の方法とは異なり、TabRetは‘emph{retokenizing}’と呼ばれる微調整の前に余分な学習ステップを持ち、マスク付き自動エンコーディング損失に基づいて機能の埋め込みを校正する。
実験では,公衆衛生調査を多数収集したタブレットを事前学習し,医療における分類タスクを微調整し,4つのデータセットで最高のauc性能を得た。
さらに,プレトレーニング中のカラムの再起動およびランダムシャッフル増大が,性能向上に寄与することを示した。 We present \emph{TabRet}, a pre-trainable Transformer-based model for tabular data. TabRet is designed to work on a downstream task that contains columns not seen in pre-training. Unlike other methods, TabRet has an extra learning step before fine-tuning called \emph{retokenizing}, which calibrates feature embeddings based on the masked autoencoding loss. In experiments, we pre-trained TabRet with a large collection of public health surveys and fine-tuned it on classification tasks in healthcare, and TabRet achieved the best AUC performance on four datasets. In addition, an ablation study shows retokenizing and random shuffle augmentation of columns during pre-training contributed to performance gains. | 翻訳日:2023-04-06 15:11:54 公開日:2023-04-05 |
# オーバーパラメトリズドケースにおける深部ReLUニューラルネットワークのベイズ自由エネルギー Bayesian Free Energy of Deep ReLU Neural Network in Overparametrized Cases ( http://arxiv.org/abs/2303.15739v2 ) ライセンス: Link先を確認 | Shuya Nagayasu, Sumio Watanabe | (参考訳) 人工知能の多くの研究分野において、深層ニューラルネットワークは高次元入力空間上で未知の関数を推定するのに有用であることが示されている。
しかし、その一般化性能は、識別不能で特異な学習機械であるため、理論的な観点からはまだ完全には解明されていない。
さらに、ReLU関数は微分不可能であり、特異学習理論における代数的あるいは解析的手法は適用できない。
本稿では,過度にパラメータ化された場合の深部ReLUニューラルネットワークについて検討し,未知のデータ生成関数を推定するために必要な層数より大きい場合においても,ベイズ自由エネルギーがベイズ確率のマイナス対数限界確率に等しいことを証明した。
ベイジアン一般化誤差は標本サイズの関数としての自由エネルギーの増加と等しいため, 深部ReLUニューラルネットワークが十分に大きければ, あるいは超並列化状態であってもベイジアン一般化誤差は増加しないことを示す。 In many research fields in artificial intelligence, it has been shown that deep neural networks are useful to estimate unknown functions on high dimensional input spaces. However, their generalization performance is not yet completely clarified from the theoretical point of view because they are nonidentifiable and singular learning machines. Moreover, a ReLU function is not differentiable, to which algebraic or analytic methods in singular learning theory cannot be applied. In this paper, we study a deep ReLU neural network in overparametrized cases and prove that the Bayesian free energy, which is equal to the minus log marginal likelihoodor the Bayesian stochastic complexity, is bounded even if the number of layers are larger than necessary to estimate an unknown data-generating function. Since the Bayesian generalization error is equal to the increase of the free energy as a function of a sample size, our result also shows that the Bayesian generalization error does not increase even if a deep ReLU neural network is designed to be sufficiently large or in an opeverparametrized state. | 翻訳日:2023-04-06 15:11:40 公開日:2023-04-05 |
# ロバストテキスト3次元生成のための2次元拡散のデバイアススコアとプロンプト Debiasing Scores and Prompts of 2D Diffusion for Robust Text-to-3D Generation ( http://arxiv.org/abs/2303.15413v2 ) ライセンス: Link先を確認 | Susung Hong, Donghoon Ahn, Seungryong Kim | (参考訳) スコア蒸留テキストから3d生成におけるビューの不整合問題は、二次元拡散モデルの固有バイアスから生じており、3dオブジェクトの非現実的な生成に繋がる。
本研究では,スコア蒸留テキストから3次元生成を探索し,ジャヌス問題の主な原因を明らかにする。
そこで本研究では,ロバストなテキスト対3d生成のためのスコア蒸留フレームワークを分離する2つの手法を提案する。
我々の最初のアプローチはスコアデバイアスと呼ばれ、最適化プロセスを通して2次元拡散モデルによって推定されるスコアのトランケーション値を徐々に増加させる。
プロンプトデバイアスと呼ばれる2つ目のアプローチでは,言語モデルを用いたユーザプロンプトとビュープロンプトの相反する単語を特定し,ビュープロンプトとオブジェクト空間カメラのポーズの相違を調整する。
実験の結果,2次元拡散モデルに対する忠実性と3次元一貫性のトレードオフを,少ないオーバーヘッドで達成し,現実主義を改善できることがわかった。 The view inconsistency problem in score-distilling text-to-3D generation, also known as the Janus problem, arises from the intrinsic bias of 2D diffusion models, which leads to the unrealistic generation of 3D objects. In this work, we explore score-distilling text-to-3D generation and identify the main causes of the Janus problem. Based on these findings, we propose two approaches to debias the score-distillation frameworks for robust text-to-3D generation. Our first approach, called score debiasing, involves gradually increasing the truncation value for the score estimated by 2D diffusion models throughout the optimization process. Our second approach, called prompt debiasing, identifies conflicting words between user prompts and view prompts utilizing a language model and adjusts the discrepancy between view prompts and object-space camera poses. Our experimental results show that our methods improve realism by significantly reducing artifacts and achieve a good trade-off between faithfulness to the 2D diffusion models and 3D consistency with little overhead. | 翻訳日:2023-04-06 15:11:23 公開日:2023-04-05 |
# 時間的・非時間的データに対する因果探索法の検討 A Survey on Causal Discovery Methods for Temporal and Non-Temporal Data ( http://arxiv.org/abs/2303.15027v2 ) ライセンス: Link先を確認 | Uzma Hasan, Emam Hossain, Md Osman Gani | (参考訳) Causal Discovery (CD) は、データからシステムの変数間の因果関係を特定するプロセスである。
長年にわたり、基礎となる因果メカニズムを明らかにするために、データの統計的性質に基づいたいくつかの手法が開発されてきた。
本研究では,独立・同一に分散したデータと時系列データの両方から因果発見を行う手法について,広範囲にわたる議論を行う。
この目的のために,まず,因果発見における共通用語を紹介し,その後,異なる設定における因果縁を特定するために設計されたアルゴリズムの包括的議論を行う。
さらに,因果発見法の性能評価に使用可能なベンチマークデータセットや,因果発見を容易に行うための利用可能なツールやソフトウェアパッケージ,それらの評価に使用される一般的なメトリクスについても検討した。
また、異なるベンチマークデータセット上で共通の因果探索アルゴリズムをテストし、それらの性能を比較する。
最後に,因果発見に関わる共通課題を提示するとともに,複数の関心領域における因果発見の応用について論じる。 Causal Discovery (CD) is the process of identifying the cause-effect relationships among the variables of a system from data. Over the years, several methods have been developed primarily based on the statistical properties of data to uncover the underlying causal mechanism. In this study, we present an extensive discussion on the methods designed to perform causal discovery from both independent and identically distributed (i.i.d.) data and time series data. For this purpose, we first introduce the common terminologies in causal discovery, and then provide a comprehensive discussion of the algorithms designed to identify the causal edges in different settings. We further discuss some of the benchmark datasets available for evaluating the performance of the causal discovery methods, available tools or software packages to perform causal discovery readily, and the common metrics used to evaluate these methods. We also test some common causal discovery algorithms on different benchmark datasets, and compare their performances. Finally, we conclude by presenting the common challenges involved in causal discovery, and also, discuss the applications of causal discovery in multiple areas of interest. | 翻訳日:2023-04-06 15:11:03 公開日:2023-04-05 |
# バイオメトリック品質評価アルゴリズムの評価に関する一考察 Considerations on the Evaluation of Biometric Quality Assessment Algorithms ( http://arxiv.org/abs/2303.13294v2 ) ライセンス: Link先を確認 | Torsten Schlett, Christian Rathgeb, Juan Tapia, Christoph Busch | (参考訳) 品質評価アルゴリズムを用いて生体認証のための生体試料の有用性を推定することができる。
曲線の「誤差対ディスク特性」(EDC)プロットと「部分曲線」(pAUC)値は、一般に研究者によってそのような品質評価アルゴリズムの予測性能を評価するために用いられる。
EDC曲線は、"False Non Match Rate"(FNMR)、品質評価アルゴリズム、生体認証システム、生体サンプルペアに対応する比較セット、開始誤差に対応するスコア閾値などのエラータイプに依存する。
EDC曲線を計算するために、関連するサンプルの最低品質スコアに基づいて段階的に比較を破棄し、残りの比較に対して誤差を算出する。
さらに、pAUC値を計算するために、廃棄分数制限または範囲を選択する必要があり、それによって品質評価アルゴリズムを定量的にランク付けすることができる。
本稿では,この品質評価アルゴリズムの評価について,一般edc特性,難解な誤差限度とソフトアッパー誤差限度に基づくpauc値の解釈性の向上,離散ランキングではなく相対値の使用,ステップワイズ対線形曲線補間,[0,100]整数領域における品質スコアの正規化など,様々な詳細を考察し,解析する。
また, pAUC の分数制限と開始誤差にまたがる pAUC の値に基づいて, pAUC の量的品質評価アルゴリズムのランク付けの安定性を解析し, より高い分数制限が望ましいと結論付けた。
顔画像品質評価シナリオにおける合成データと実データの両方を用いて分析を行い,edc評価における一般モダリティ非依存的な結論に注目した。 Quality assessment algorithms can be used to estimate the utility of a biometric sample for the purpose of biometric recognition. "Error versus Discard Characteristic" (EDC) plots, and "partial Area Under Curve" (pAUC) values of curves therein, are generally used by researchers to evaluate the predictive performance of such quality assessment algorithms. An EDC curve depends on an error type such as the "False Non Match Rate" (FNMR), a quality assessment algorithm, a biometric recognition system, a set of comparisons each corresponding to a biometric sample pair, and a comparison score threshold corresponding to a starting error. To compute an EDC curve, comparisons are progressively discarded based on the associated samples' lowest quality scores, and the error is computed for the remaining comparisons. Additionally, a discard fraction limit or range must be selected to compute pAUC values, which can then be used to quantitatively rank quality assessment algorithms. This paper discusses and analyses various details for this kind of quality assessment algorithm evaluation, including general EDC properties, interpretability improvements for pAUC values based on a hard lower error limit and a soft upper error limit, the use of relative instead of discrete rankings, stepwise vs. linear curve interpolation, and normalisation of quality scores to a [0, 100] integer range. We also analyse the stability of quantitative quality assessment algorithm rankings based on pAUC values across varying pAUC discard fraction limits and starting errors, concluding that higher pAUC discard fraction limits should be preferred. The analyses are conducted both with synthetic data and with real data for a face image quality assessment scenario, with a focus on general modality-independent conclusions for EDC evaluations. | 翻訳日:2023-04-06 15:10:44 公開日:2023-04-05 |
# Beyond Universal Transformer: 自動音声認識のためのTransformerのアダプタによるブロック再利用 Beyond Universal Transformer: block reusing with adaptor in Transformer for automatic speech recognition ( http://arxiv.org/abs/2303.13072v2 ) ライセンス: Link先を確認 | Haoyu Tang, Zhaoyi Liu, Chang Zeng, Xinfeng Li | (参考訳) トランスフォーマーベースモデルは最近、エンドツーエンド(E2E)自動音声認識(ASR)の適用において大きな成果を上げている。
Transformerベースのモデルを使用して、E2E ASRシステムをスマートデバイスにデプロイすることができる。
これらのモデルには、多くのモデルパラメータを必要とする欠点がある。
エッジデバイスにおけるasrの適用におけるユニバーサルトランスフォーマーモデルの欠点を克服するため,認識精度を損なうことなく資源制限を満たした小型フットプリントasrシステムにおいて,トランスフォーマーモデルのブロックを再利用する手法を提案する。
具体的には,パラメータの有効性を高めるために,音声トランスフォーマタ(brst)のための新しいブロックリユース戦略を設計し,各リユースブロックに付随する数個の練習可能なパラメータしか持たないコンパクトで適応可能なモデルを生成するアダプタモジュール(adm)を提案する。
提案手法をAISHELL-1コーパス上で実験した結果,提案手法は文字誤り率(CER)が9.3%/6.63%であり,ADMは7.6M/8.3Mのパラメータしか持たないことがわかった。
さらに, 一般ブロック再利用法におけるADMの効果について, より深い解析を行った。 Transformer-based models have recently made significant achievements in the application of end-to-end (E2E) automatic speech recognition (ASR). It is possible to deploy the E2E ASR system on smart devices with the help of Transformer-based models. While these models still have the disadvantage of requiring a large number of model parameters. To overcome the drawback of universal Transformer models for the application of ASR on edge devices, we propose a solution that can reuse the block in Transformer models for the occasion of the small footprint ASR system, which meets the objective of accommodating resource limitations without compromising recognition accuracy. Specifically, we design a novel block-reusing strategy for speech Transformer (BRST) to enhance the effectiveness of parameters and propose an adapter module (ADM) that can produce a compact and adaptable model with only a few additional trainable parameters accompanying each reusing block. We conducted an experiment with the proposed method on the public AISHELL-1 corpus, and the results show that the proposed approach achieves the character error rate (CER) of 9.3%/6.63% with only 7.6M/8.3M parameters without and with the ADM, respectively. In addition, we also make a deeper analysis to show the effect of ADM in the general block-reusing method. | 翻訳日:2023-04-06 15:10:10 公開日:2023-04-05 |
# 焦点の有無:衛星画像を用いた公開空間における異常事象検出のためのベースライン Focus or Not: A Baseline for Anomaly Event Detection On the Open Public Places with Satellite Images ( http://arxiv.org/abs/2303.11668v2 ) ライセンス: Link先を確認 | Yongjin Jeon, Youngtack Oh, Doyoung Jeong, Hyunguk Choi, Junsik Kim | (参考訳) 近年,衛星画像による世界規模の監視が重要な課題となっている。
サイト監視タスクは2つの独立したタスクに分けられる。
1) 変更検出及び変更検出
2)異常事象検出。
変更検出研究とは違い、多数のデータセット(\eg LEVIR-CD、WHU-CD、S2Looking、xView2など)に基づいて活発に実施されている。
産業や政府の期待に応えるため、異常事象を検出するAIモデルの研究は受動的かつ稀に行われている。
本稿では,公開地における異常事象を検出するための新しい衛星画像データセット(AED-RS)を提案する。
AED-RSデータセットには、世界中の8つの公開場所の正常かつ異常な状況の衛星画像が含まれている。
各場所の特徴の違いに基づいて、それぞれの場所を異なる基準でラベル付けする。
このデータセットでは,データセットTB-FLOWのベースラインモデルを導入し,AED-RSデータセットに対して他のNF(Normalizing-Flow)ベースの異常検出モデルと比較して適切な性能を示す。
私たちのデータセットとコードは、 \url{https://github.com/SIAnalytics/RS_AnomalyDetection.git}で公開されます。 In recent years, monitoring the world wide area with satellite images has been emerged as an important issue. Site monitoring task can be divided into two independent tasks; 1) Change Detection and 2) Anomaly Event Detection. Unlike to change detection research is actively conducted based on the numerous datasets(\eg LEVIR-CD, WHU-CD, S2Looking, xView2 and etc...) to meet up the expectations of industries or governments, research on AI models for detecting anomaly events is passively and rarely conducted. In this paper, we introduce a novel satellite imagery dataset(AED-RS) for detecting anomaly events on the open public places. AED-RS Dataset contains satellite images of normal and abnormal situations of 8 open public places from all over the world. Each places are labeled with different criteria based on the difference of characteristics of each places. With this dataset, we introduce a baseline model for our dataset TB-FLOW, which can be trained in weakly-supervised manner and shows reasonable performance on the AED-RS Dataset compared with the other NF(Normalizing-Flow) based anomaly detection models. Our dataset and code will be publicly open in \url{https://github.com/SIAnalytics/RS_AnomalyDetection.git}. | 翻訳日:2023-04-06 15:09:44 公開日:2023-04-05 |
# SMILESを用いた変圧器のキラリティー学習の難しさ Difficulty in learning chirality for Transformer fed with SMILES ( http://arxiv.org/abs/2303.11593v2 ) ライセンス: Link先を確認 | Yasuhiro Yoshikai, Tadahaya Mizuno, Shumpei Nemoto, Hiroyuki Kusuhara | (参考訳) 近年、非常に多様な分子の表現学習、特に自然言語処理(NLP)モデルを分子構造のリテラル表現であるSMILESに適用した記述子生成が開発されている。
しかし、これらのモデルがどのように化学構造を理解するかについてはほとんど研究されていない。
そこで我々は,SMILESの学習過程と化学構造との関係を代表的NLPモデルであるTransformerを用いて検討した。
その結果、トランスフォーマーは分子の部分構造を素早く学習する一方で、全体構造を理解するために拡張トレーニングが必要であることが示唆された。
学習段階の異なるモデルから生成された記述子を用いた分子特性予測の精度は,訓練開始から終了まで類似していた。
さらに, トランスフォーマーはキラリティーを学習するために特に長い訓練を要し, エナンチオマーの誤解により翻訳精度が低下することもある。
これらの知見は化学におけるNLPモデルの理解を深めることが期待される。 Recent years have seen development of descriptor generation based on representation learning of extremely diverse molecules, especially those that apply natural language processing (NLP) models to SMILES, a literal representation of molecular structure. However, little research has been done on how these models understand chemical structure. To address this, we investigated the relationship between the learning progress of SMILES and chemical structure using a representative NLP model, the Transformer. The results suggest that while the Transformer learns partial structures of molecules quickly, it requires extended training to understand overall structures. Consistently, the accuracy of molecular property predictions using descriptors generated from models at different learning steps was similar from the beginning to the end of training. Furthermore, we found that the Transformer requires particularly long training to learn chirality and sometimes stagnates with low translation accuracy due to misunderstanding of enantiomers. These findings are expected to deepen understanding of NLP models in chemistry. | 翻訳日:2023-04-06 15:09:24 公開日:2023-04-05 |
# 信号部分空間間の差分部分空間に基づく時系列異常検出 Time-series Anomaly Detection based on Difference Subspace between Signal Subspaces ( http://arxiv.org/abs/2303.17802v2 ) ライセンス: Link先を確認 | Takumi Kanai, Naoya Sogi, Atsuto Maki, Kazuhiro Fukui | (参考訳) 本稿では,差分部分空間の概念を特異スペクトル解析(SSA)に取り入れた時系列データの異常検出手法を提案する。
鍵となる考え方は、過去と現在の時系列データに対応する2つの信号部分空間間の差分部分空間のわずかな時間変化を異常スコアとして監視することである。
これは、2つの信号部分空間間の最小角度を変化度として測定する従来のSSA法を自然な一般化である。
最小角度を差分部分空間に置き換えることで、SSAベースのフレームワークを用いて、その大きさと方向における2つの部分空間の全体構造的差異を捉えることができる。
公開時系列データセットの性能評価により,提案手法の有効性を実証する。 This paper proposes a new method for anomaly detection in time-series data by incorporating the concept of difference subspace into the singular spectrum analysis (SSA). The key idea is to monitor slight temporal variations of the difference subspace between two signal subspaces corresponding to the past and present time-series data, as anomaly score. It is a natural generalization of the conventional SSA-based method which measures the minimum angle between the two signal subspaces as the degree of changes. By replacing the minimum angle with the difference subspace, our method boosts the performance while using the SSA-based framework as it can capture the whole structural difference between the two subspaces in its magnitude and direction. We demonstrate our method's effectiveness through performance evaluations on public time-series datasets. | 翻訳日:2023-04-06 15:03:43 公開日:2023-04-05 |
# データドリフトレンズによる学習における非侵襲的公正性 Non-Invasive Fairness in Learning through the Lens of Data Drift ( http://arxiv.org/abs/2303.17566v2 ) ライセンス: Link先を確認 | Ke Yang and Alexandra Meliou | (参考訳) 機械学習(ML)モデルは、多くの現代のデータシステムを動かすために広く使われている。
mlモデルは間違いなく強力なツールですが、不均衡なパフォーマンスと不公平な振る舞いをしばしば示します。
学習アルゴリズムがデータの傾向を識別しようとすると、多数派の傾向を自然に好んでおり、少数民族にとって不公平かつ不公平な結果をもたらすモデルとなっている。
我々の目標は、データや学習アルゴリズムを変更することなく、非侵襲的な介入のみを適用することで、MLモデルの公正性と信頼性を向上させることです。
異なる集団間の傾向のばらつきと、学習されたモデルと少数派の集団間の連続的な傾向は、データドリフトと類似しており、データの一部と訓練されたモデルとの整合性が低いことを示している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的とする。
両手法とも、最近提案されたコンフォーマンス制約のプリミティブであるデータプロファイリングを利用する新しい手法を導入している。
7つの実世界のデータセットに対する実験評価から,diffair と confair の両方が ml モデルの公平性を向上させることが示された。
DifFairがエッジを持つシナリオを実演していますが、ConFairは最も実践的な影響があり、他のベースラインよりも優れています。
さらに,モデル非依存の手法として,重み付けが学習されたモデルと異なるモデルに対して使用しても,コンプレアは頑健であり,他の技術ではそうではない。 Machine Learning (ML) models are widely employed to drive many modern data systems. While they are undeniably powerful tools, ML models often demonstrate imbalanced performance and unfair behaviors. The root of this problem often lies in the fact that different subpopulations commonly display divergent trends: as a learning algorithm tries to identify trends in the data, it naturally favors the trends of the majority groups, leading to a model that performs poorly and unfairly for minority populations. Our goal is to improve the fairness and trustworthiness of ML models by applying only non-invasive interventions, i.e., without altering the data or the learning algorithm. We use a simple but key insight: the divergence of trends between different populations, and, consecutively, between a learned model and minority populations, is analogous to data drift, which indicates the poor conformance between parts of the data and the trained model. We explore two strategies (model-splitting and reweighing) to resolve this drift, aiming to improve the overall conformance of models to the underlying data. Both our methods introduce novel ways to employ the recently-proposed data profiling primitive of Conformance Constraints. Our experimental evaluation over 7 real-world datasets shows that both DifFair and ConFair improve the fairness of ML models. We demonstrate scenarios where DifFair has an edge, though ConFair has the greatest practical impact and outperforms other baselines. Moreover, as a model-agnostic technique, ConFair stays robust when used against different models than the ones on which the weights have been learned, which is not the case for other state of the art. | 翻訳日:2023-04-06 15:03:19 公開日:2023-04-05 |
# 異常検出と局所化のための変圧器を用いたインクリメンタル自己監督学習 Incremental Self-Supervised Learning Based on Transformer for Anomaly Detection and Localization ( http://arxiv.org/abs/2303.17354v2 ) ライセンス: Link先を確認 | Wenping Jin, Fei Guo, Li Zhu | (参考訳) 機械学習分野において、画像データ内の異常検出と局所化の研究は、特に工業的欠陥検出のような実践的応用において大きな注目を集めている。
既存の手法は主に畳み込みニューラルネットワーク(cnn)をバックボーンネットワークとしているが、トランスフォーマーバックボーンネットワークに基づく革新的な手法を提案する。
当社のアプローチでは、2段階のインクリメンタル学習戦略を採用しています。
第1段階では、通常の画像のみにMasked Autoencoder(MAE)モデルを訓練する。
その後,第2段階では,劣化した正規画像とその対応する画素ラベルを生成するために,画素レベルのデータ拡張技術を導入する。
このプロセスにより、モデルは破損した領域の修復方法を学び、各ピクセルの状態を分類することができる。
最終的に、モデルは画素再構成誤差行列と画素異常確率行列を生成し、これらを組み合わせて異常領域を効果的に識別する異常スコアリング行列を作成する。
最新のCNN技術と比較すると,MVTec ADデータセットの方が優れた性能を示し,97.6%のAUCを実現している。 In the machine learning domain, research on anomaly detection and localization within image data has garnered significant attention, particularly in practical applications such as industrial defect detection. While existing approaches predominantly rely on Convolutional Neural Networks (CNN) as their backbone network, we propose an innovative method based on the Transformer backbone network. Our approach employs a two-stage incremental learning strategy. In the first stage, we train a Masked Autoencoder (MAE) model exclusively on normal images. Subsequently, in the second stage, we implement pixel-level data augmentation techniques to generate corrupted normal images and their corresponding pixel labels. This process enables the model to learn how to repair corrupted regions and classify the state of each pixel. Ultimately, the model produces a pixel reconstruction error matrix and a pixel anomaly probability matrix, which are combined to create an anomaly scoring matrix that effectively identifies abnormal regions. When compared to several state-of-the-art CNN-based techniques, our method demonstrates superior performance on the MVTec AD dataset, achieving an impressive 97.6% AUC. | 翻訳日:2023-04-06 15:02:52 公開日:2023-04-05 |
# HARFLOW3D:FPGAデバイス上でのHARのためのレイテンシ指向3D-CNN加速器ツールフロー HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on FPGA Devices ( http://arxiv.org/abs/2303.17218v3 ) ライセンス: Link先を確認 | Petros Toupas, Alexander Montgomerie-Corcoran, Christos-Savvas Bouganis, Dimitrios Tzovaras | (参考訳) 人間行動認識タスク(HAR)では、3D畳み込みニューラルネットワークが極めて有効であることが証明され、最先端の結果が得られた。
本研究では,そのモデル固有の特性とターゲットFPGAデバイスの特徴を考慮し,そのようなモデルをFPGAにマッピングするための,新たなストリーミングアーキテクチャベースのツールフローを提案する。
HARFLOW3Dツールフローは、ONNX形式の3D CNNとFPGA特性の記述を入力として、計算のレイテンシを最小化する設計を生成する。
ツールフローは、いくつかの部分で構成されています。
一 三次元CNNパーサー
二 性能及び資源モデル
三 生成されたハードウェア上で3Dモデルを実行するためのスケジューリングアルゴリズム
四 3Dモデルに適した資源対応最適化エンジン
v)FPGAの合成可能なコードへの自動マッピング。
幅広いモデルやデバイスをサポートするツールフローの能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通じて示されている。
さらに、ツールフローはFPGAにマップされていない3D CNNモデルの高性能な結果をもたらし、この分野におけるFPGAベースのシステムの可能性を示している。
全体として、harflow3dは、最先端のハンドチューニングアプローチと比較して、競争力のあるレイテンシを提供する能力を示しており、既存の作業に比べて最大5$\times$のパフォーマンスを実現している。 For Human Action Recognition tasks (HAR), 3D Convolutional Neural Networks have proven to be highly effective, achieving state-of-the-art results. This study introduces a novel streaming architecture based toolflow for mapping such models onto FPGAs considering the model's inherent characteristics and the features of the targeted FPGA device. The HARFLOW3D toolflow takes as input a 3D CNN in ONNX format and a description of the FPGA characteristics, generating a design that minimizes the latency of the computation. The toolflow is comprised of a number of parts, including i) a 3D CNN parser, ii) a performance and resource model, iii) a scheduling algorithm for executing 3D models on the generated hardware, iv) a resource-aware optimization engine tailored for 3D models, v) an automated mapping to synthesizable code for FPGAs. The ability of the toolflow to support a broad range of models and devices is shown through a number of experiments on various 3D CNN and FPGA system pairs. Furthermore, the toolflow has produced high-performing results for 3D CNN models that have not been mapped to FPGAs before, demonstrating the potential of FPGA-based systems in this space. Overall, HARFLOW3D has demonstrated its ability to deliver competitive latency compared to a range of state-of-the-art hand-tuned approaches being able to achieve up to 5$\times$ better performance compared to some of the existing works. | 翻訳日:2023-04-06 15:02:36 公開日:2023-04-05 |
# DAMO-StreamNet: 自動運転におけるストリーミング知覚の最適化 DAMO-StreamNet: Optimizing Streaming Perception in Autonomous Driving ( http://arxiv.org/abs/2303.17144v2 ) ライセンス: Link先を確認 | Jun-Yan He, Zhi-Qi Cheng, Chenyang Li, Wangmeng Xiang, Binghui Chen, Bin Luo, Yifeng Geng, Xuansong Xie | (参考訳) リアルタイムの知覚(またはストリーミングの知覚)は、既存の研究ではまだ十分に研究されていない自動運転の重要な側面である。
このギャップに対処するため,我々は,yoloシリーズの最近の進歩と空間的および時間的知覚機構の包括的解析を組み合わせた最適化フレームワークであるdamo-streamnetを提案する。
damo-streamnetの主な革新は、(1)変形可能な畳み込みを組み込んだロバストなネック構造、受容野の強化、機能アライメント能力である。
2)短経路意味的特徴と長経路時間的特徴を統合し,動作状態予測精度を向上させる二重分岐構造。
3) 効率的な最適化のためのロジットレベル蒸留法, 意味空間における教師・学生ネットワークのロジットの調整
(4) 現在のフレームでフレーム機能を更新し, 推論中にシームレスなストリーミング知覚を確保するリアルタイム予測機構。
実験の結果,DAMO-StreamNetは既存の最先端手法を超え,37.8%(正規サイズ600,960)と43.3%(大規模サイズ1200,1920)のsAPを達成した。
この研究は、リアルタイム認識のための新しいベンチマークを設定するだけでなく、将来の研究に有用な洞察を提供する。
さらに、DAMO-StreamNetは、ドローンやロボットなど、さまざまな自律システムに適用でき、リアルタイム知覚への道を開くことができる。
コードはhttps://github.com/zhiqic/damo-streamnetで入手できる。 Real-time perception, or streaming perception, is a crucial aspect of autonomous driving that has yet to be thoroughly explored in existing research. To address this gap, we present DAMO-StreamNet, an optimized framework that combines recent advances from the YOLO series with a comprehensive analysis of spatial and temporal perception mechanisms, delivering a cutting-edge solution. The key innovations of DAMO-StreamNet are: (1) A robust neck structure incorporating deformable convolution, enhancing the receptive field and feature alignment capabilities. (2) A dual-branch structure that integrates short-path semantic features and long-path temporal features, improving motion state prediction accuracy. (3) Logits-level distillation for efficient optimization, aligning the logits of teacher and student networks in semantic space. (4) A real-time forecasting mechanism that updates support frame features with the current frame, ensuring seamless streaming perception during inference. Our experiments demonstrate that DAMO-StreamNet surpasses existing state-of-the-art methods, achieving 37.8% (normal size (600, 960)) and 43.3% (large size (1200, 1920)) sAP without using extra data. This work not only sets a new benchmark for real-time perception but also provides valuable insights for future research. Additionally, DAMO-StreamNet can be applied to various autonomous systems, such as drones and robots, paving the way for real-time perception. The code is available at https://github.com/zhiqic/DAMO-StreamNet. | 翻訳日:2023-04-06 15:02:15 公開日:2023-04-05 |
# PopSparse: IPU上のアクセラレーションブロックスパース行列乗算 PopSparse: Accelerated block sparse matrix multiplication on IPU ( http://arxiv.org/abs/2303.16999v2 ) ライセンス: Link先を確認 | Zhiyi Li, Douglas Orr, Valeriu Ohan, Godfrey Da costa, Tom Murray, Adam Sanders, Deniz Beker, Dominic Masters | (参考訳) sparsityを使った大規模ニューラルネットワークの実行における計算コストの削減は、ディープラーニングコミュニティに大きな注目を集めている。
FLOPとパラメータ数を削減し、許容されるタスク性能を維持しながら、多くの成功が達成されているが、実際のスピード改善を達成することは、特に低精度の数値フォーマットを使用したNVIDIA GPUのような汎用アクセラレータ(GPA)では、非常に困難である。
本稿では、ipusのユニークなハードウェア特性とデータで定義された任意のブロック構造の両方を活用することで、graphcore ipus上での高速スパース操作を可能にするライブラリpopsparseを紹介する。
静的、コンパイル時にスパーシティパターンが固定される、動的、モデルの実行毎に変更される、という2つの異なるタイプのスパーシリティをターゲットにしています。
本稿では, ブロックサイズ, 行列サイズ, 密度の異なる IPU 上でのこれらのモードの行列乗算のベンチマーク結果を示す。
以上の結果から,PopSparse の実装は IPU 上の行列乗算よりも行列サイズが大きく,ブロックサイズが大きい範囲で高速であることが示唆された。
さらに、一般に静的なスパーシリティは動的スパーシリティより優れる。
GPAに関するこれまでの研究は、非常に高いスパース性(典型的には99\%以上)でのみ高速化されているが、我々の静的スパース実装は、FP16のより低いスパース性(約90%)で等価な密度計算より優れていることを示す。
ipuコードはipu.dev/sparsity-benchmarksで表示および実行でき、gpuコードはまもなく利用可能になる。 Reducing the computational cost of running large scale neural networks using sparsity has attracted great attention in the deep learning community. While much success has been achieved in reducing FLOP and parameter counts while maintaining acceptable task performance, achieving actual speed improvements has typically been much more difficult, particularly on general purpose accelerators (GPAs) such as NVIDIA GPUs using low precision number formats. In this work we introduce PopSparse, a library that enables fast sparse operations on Graphcore IPUs by leveraging both the unique hardware characteristics of IPUs as well as any block structure defined in the data. We target two different types of sparsity: static, where the sparsity pattern is fixed at compile-time; and dynamic, where it can change each time the model is run. We present benchmark results for matrix multiplication for both of these modes on IPU with a range of block sizes, matrix sizes and densities. Results indicate that the PopSparse implementations are faster than dense matrix multiplications on IPU at a range of sparsity levels with large matrix size and block size. Furthermore, static sparsity in general outperforms dynamic sparsity. While previous work on GPAs has shown speedups only for very high sparsity (typically 99\% and above), the present work demonstrates that our static sparse implementation outperforms equivalent dense calculations in FP16 at lower sparsity (around 90%). IPU code is available to view and run at ipu.dev/sparsity-benchmarks, GPU code will be made available shortly. | 翻訳日:2023-04-06 15:01:37 公開日:2023-04-05 |
# 近似モデル参照適応制御のためのランダム初期化ニューラルネットワークによる関数近似 Function Approximation with Randomly Initialized Neural Networks for Approximate Model Reference Adaptive Control ( http://arxiv.org/abs/2303.16251v2 ) ライセンス: Link先を確認 | Tyler Lekang and Andrew Lamperski | (参考訳) ニューラルネットワーク近似理論における古典的な結果は、活性化関数の軽度な仮定の下で、任意の連続関数が単一の隠蔽層を持つネットワークによってどのように近似されるかを示す。
しかし、古典理論は、望ましい精度を達成するネットワークパラメータを生成するための構成的手段を与えていない。
近年の研究では、ReLUや分析関数のクラスのような特殊活性化関数に対して、ランダムに初期化されたアクティベーションの線形結合によって高い精度が得られることが示されている。
最近の研究では、特定のアクティベーション関数に依存するターゲット関数の特別な積分表現を利用している。
本稿では, 直接積分表現が知られていないアクティベーションを用いて, 対象関数の積分表現を形成する手段を提供する。
この新しい構成は、様々な広く使われているアクティベーション関数に対するランダム初期化ネットワークに対する近似保証を可能にする。 Classical results in neural network approximation theory show how arbitrary continuous functions can be approximated by networks with a single hidden layer, under mild assumptions on the activation function. However, the classical theory does not give a constructive means to generate the network parameters that achieve a desired accuracy. Recent results have demonstrated that for specialized activation functions, such as ReLUs and some classes of analytic functions, high accuracy can be achieved via linear combinations of randomly initialized activations. These recent works utilize specialized integral representations of target functions that depend on the specific activation functions used. This paper defines mollified integral representations, which provide a means to form integral representations of target functions using activations for which no direct integral representation is currently known. The new construction enables approximation guarantees for randomly initialized networks for a variety of widely used activation functions. | 翻訳日:2023-04-06 15:00:34 公開日:2023-04-05 |
# POLAR-Express: ニューラルネットワーク制御系の効率的かつ高精度な形式的到達性解析 POLAR-Express: Efficient and Precise Formal Reachability Analysis of Neural-Network Controlled Systems ( http://arxiv.org/abs/2304.01218v2 ) ライセンス: Link先を確認 | Yixuan Wang, Weichao Zhou, Jiameng Fan, Zhilu Wang, Jiajun Li, Xin Chen, Chao Huang, Wenchao Li, Qi Zhu | (参考訳) コントローラの役割を担うニューラルネットワーク(nns)は、制御問題に挑戦する経験的なパフォーマンスを示している。
しかし、実際のアプリケーションでNNコントローラを採用する可能性も、特に安全クリティカルなアプリケーションで使用される場合、これらのNNCS(Neural-network Control System)の安全性に対する懸念が高まっている。
本研究では,NNCSの安全性を検証するための,効率的かつ正確な形式的到達性解析ツールであるPOLAR-Expressを提案する。
POLAR-ExpressはTaylorモデル演算を用いて、ニューラルネットワーク層間でTaylorモデル(TM)を伝搬し、ニューラルネットワーク関数の過剰近似を計算する。
連続的な活性化機能を持つフィードフォワードニューラルネットワークの解析に応用することができる。
また,tmsをより効率的に,正確にreluアクティベーション関数に伝達する新しい手法を提案する。
さらに、POLAR-Expressは、TMの層間伝播に対する並列計算サポートを提供し、初期のプロトタイプであるPOLARよりも効率とスケーラビリティを著しく向上させる。
POLAR-Expressは、様々なベンチマークの6つの最先端ツールと比較して、到達可能なセット分析において最高の検証効率と厳密性を達成する。 Neural networks (NNs) playing the role of controllers have demonstrated impressive empirical performances on challenging control problems. However, the potential adoption of NN controllers in real-life applications also gives rise to a growing concern over the safety of these neural-network controlled systems (NNCSs), especially when used in safety-critical applications. In this work, we present POLAR-Express, an efficient and precise formal reachability analysis tool for verifying the safety of NNCSs. POLAR-Express uses Taylor model arithmetic to propagate Taylor models (TMs) across a neural network layer-by-layer to compute an overapproximation of the neural-network function. It can be applied to analyze any feed-forward neural network with continuous activation functions. We also present a novel approach to propagate TMs more efficiently and precisely across ReLU activation functions. In addition, POLAR-Express provides parallel computation support for the layer-by-layer propagation of TMs, thus significantly improving the efficiency and scalability over its earlier prototype POLAR. Across the comparison with six other state-of-the-art tools on a diverse set of benchmarks, POLAR-Express achieves the best verification efficiency and tightness in the reachable set analysis. | 翻訳日:2023-04-06 14:54:00 公開日:2023-04-05 |
# 準メトリック学習による最適ゴールリーチ強化学習 Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning ( http://arxiv.org/abs/2304.01203v2 ) ライセンス: Link先を確認 | Tongzhou Wang, Antonio Torralba, Phillip Isola, Amy Zhang | (参考訳) 目標到達強化学習(rl)では、最適値関数は準メトリック構造と呼ばれる特定の幾何学を持つ。
本稿では,準メトリックモデルを用いて最適値関数を学習する新しい rl 手法である quasimetric reinforcement learning (qrl) を提案する。
従来のアプローチとは違い、QRLの目標は特に準計量のために設計されており、強力な理論的回復保証を提供する。
実験的に、離散化されたマウンテンカー環境を徹底的に分析し、QRLの特性と代替品に対する優位性を識別する。
オフラインおよびオンラインの目標達成ベンチマークでは、QRLは、状態ベースと画像ベースの両方で、サンプル効率とパフォーマンスが改善されている。 In goal-reaching reinforcement learning (RL), the optimal value function has a particular geometry, called quasimetric structure. This paper introduces Quasimetric Reinforcement Learning (QRL), a new RL method that utilizes quasimetric models to learn optimal value functions. Distinct from prior approaches, the QRL objective is specifically designed for quasimetrics, and provides strong theoretical recovery guarantees. Empirically, we conduct thorough analyses on a discretized MountainCar environment, identifying properties of QRL and its advantages over alternatives. On offline and online goal-reaching benchmarks, QRL also demonstrates improved sample efficiency and performance, across both state-based and image-based observations. | 翻訳日:2023-04-06 14:53:38 公開日:2023-04-05 |
# 都市景観における共同2次元3次元マルチタスク学習:3次元検出,セグメンテーション,深さ推定 Joint 2D-3D Multi-Task Learning on Cityscapes-3D: 3D Detection, Segmentation, and Depth Estimation ( http://arxiv.org/abs/2304.00971v2 ) ライセンス: Link先を確認 | Hanrong Ye | (参考訳) 本報告は、Cityscapes-3Dに基づく新しい2D-3Dマルチタスク学習ベンチマークの実装を詳述したTaskPrompterの補足文書として機能する。
TaskPrompterが学習を統一する革新的なマルチタスクプロンプトフレームワークを発表
(i)タスクジェネリック表現
(ii)タスク固有の表現、及び
(iii)これらの学習目的を異なるネットワークモジュールに分離する従来のアプローチとは対照的に,クロスタスクインタラクション。
この統一されたアプローチは、巧妙な経験的構造設計の必要性を低減させるだけでなく、モデル全体の能力が3つの目的を同時に最適化することに集中するため、マルチタスクネットワークの表現学習能力を大幅に向上させる。
taskprompterはcityscapes-3dデータセットに基づく新しいマルチタスクベンチマークを導入している。これは、モノクロ3d車両検出、セマンティックセグメンテーション、モノクロ深度推定の予測を同時生成するマルチタスクモデルを必要とする。
これらのタスクは、特に自律運転システムの開発において、視覚シーンの2D-3Dの共同理解を達成するために不可欠である。
この難解なベンチマークでは,マルチタスクモデルは,単一タスクのステート・オブ・ザ・アート法と比較して強い性能を示し,挑戦的な3次元検出と深さ推定タスクにおいて新たな最先端結果を確立する。 This report serves as a supplementary document for TaskPrompter, detailing its implementation on a new joint 2D-3D multi-task learning benchmark based on Cityscapes-3D. TaskPrompter presents an innovative multi-task prompting framework that unifies the learning of (i) task-generic representations, (ii) task-specific representations, and (iii) cross-task interactions, as opposed to previous approaches that separate these learning objectives into different network modules. This unified approach not only reduces the need for meticulous empirical structure design but also significantly enhances the multi-task network's representation learning capability, as the entire model capacity is devoted to optimizing the three objectives simultaneously. TaskPrompter introduces a new multi-task benchmark based on Cityscapes-3D dataset, which requires the multi-task model to concurrently generate predictions for monocular 3D vehicle detection, semantic segmentation, and monocular depth estimation. These tasks are essential for achieving a joint 2D-3D understanding of visual scenes, particularly in the development of autonomous driving systems. On this challenging benchmark, our multi-task model demonstrates strong performance compared to single-task state-of-the-art methods and establishes new state-of-the-art results on the challenging 3D detection and depth estimation tasks. | 翻訳日:2023-04-06 14:53:28 公開日:2023-04-05 |
# 人工樹状体計算 : 神経形回路における樹状体の場合 Artificial Dendritic Computation: The case for dendrites in neuromorphic circuits ( http://arxiv.org/abs/2304.00951v2 ) ライセンス: Link先を確認 | Daniel John Mannion, Anthony Joseph Kenyon | (参考訳) バイオインスパイアされたコンピューティングは、ニューロンとシナプスに焦点を当て、大きな成功を収めている。
しかし、これらのデンドライトのつながりも重要な役割を担っている。
本稿では,デンドリティック計算を複製する動機について検討し,その構築における今後の試みを導く枠組みを提案する。
このフレームワークはデンドライトの重要な性質を特定し,音像定位処理におけるデンドライト計算の例を示す。
我々は,BiLSTMニューラルネットワークの性能に及ぼすデンドライトの影響を評価し,デンドライト前処理がしきい値性能に必要なネットワークサイズを減らすことを発見した。 Bio-inspired computing has focused on neuron and synapses with great success. However, the connections between these, the dendrites, also play an important role. In this paper, we investigate the motivation for replicating dendritic computation and present a framework to guide future attempts in their construction. The framework identifies key properties of the dendrites and presents and example of dendritic computation in the task of sound localisation. We evaluate the impact of dendrites on an BiLSTM neural network's performance, finding that dendrite pre-processing reduce the size of network required for a threshold performance. | 翻訳日:2023-04-06 14:53:04 公開日:2023-04-05 |
# 学校における人工知能の活用:教師の関与に影響を及ぼす要因 Adoption of Artificial Intelligence in Schools: Unveiling Factors Influencing Teachers Engagement ( http://arxiv.org/abs/2304.00903v2 ) ライセンス: Link先を確認 | Mutlu Cukurova, Xin Miao, Richard Brooker | (参考訳) AIベースの適応学習プラットフォームの影響に関する証拠は存在するが、彼らの学校における大規模採用は、せいぜい遅い。
さらに、学校で採用されるAIツールは、常に研究コミュニティの熟考された製品であるとは限らない。
そのため、採用に影響を与える要因の特定や、これらの要因が適応型学習プラットフォームへの教師の関与を予測できる程度に研究が進められている。
そこで我々は,教師が学校における適応型学習プラットフォームを採用する上で,より包括的要因を測定するための信頼性の高い尺度を開発した。
さらに,学校教師(n=792)を大国人からサンプリングし,このデータを用いて,学校における適応学習プラットフォームとの現実的な関わりを予測した。
以上の結果から,教師の知識,信頼度,製品品質がすべて重要な要因であるにもかかわらず,教師が学校におけるaiプラットフォームと関わる上で最も重要な要因であるとは限らない。
追加の作業負荷、教師の所有と信頼の増大、支援のメカニズムの生成、倫理的問題が最小化されていることを保証することは、学校でAIを採用する上でも不可欠であり、プラットフォームへの教師の関与をより良く予測する可能性がある。
本論文は, 予測モデルの変動率を増大させ, 実装変動を実際に減少させることにより, 適応学習プラットフォームの現実的普及と有効性を高める要因の価値について考察した。 Albeit existing evidence about the impact of AI-based adaptive learning platforms, their scaled adoption in schools is slow at best. In addition, AI tools adopted in schools may not always be the considered and studied products of the research community. Therefore, there have been increasing concerns about identifying factors influencing adoption, and studying the extent to which these factors can be used to predict teachers engagement with adaptive learning platforms. To address this, we developed a reliable instrument to measure more holistic factors influencing teachers adoption of adaptive learning platforms in schools. In addition, we present the results of its implementation with school teachers (n=792) sampled from a large country-level population and use this data to predict teachers real-world engagement with the adaptive learning platform in schools. Our results show that although teachers knowledge, confidence and product quality are all important factors, they are not necessarily the only, may not even be the most important factors influencing the teachers engagement with AI platforms in schools. Not generating any additional workload, in-creasing teacher ownership and trust, generating support mechanisms for help, and assuring that ethical issues are minimised, are also essential for the adoption of AI in schools and may predict teachers engagement with the platform better. We conclude the paper with a discussion on the value of factors identified to increase the real-world adoption and effectiveness of adaptive learning platforms by increasing the dimensions of variability in prediction models and decreasing the implementation variability in practice. | 翻訳日:2023-04-06 14:52:55 公開日:2023-04-05 |
# AUDIT:潜時拡散モデルによる指示の追従による音声編集 AUDIT: Audio Editing by Following Instructions with Latent Diffusion Models ( http://arxiv.org/abs/2304.00830v2 ) ライセンス: Link先を確認 | Yuancheng Wang, Zeqian Ju, Xu Tan, Lei He, Zhizheng Wu, Jiang Bian, Sheng Zhao | (参考訳) オーディオ編集は、背景の音響効果の追加、楽器の交換、損傷したオーディオの修復など、様々な目的に適用できる。
近年,出力音声のテキスト記述を条件とした拡散雑音処理により,ゼロショット音声編集を実現する手法が提案されている。
しかし、これらの方法にはまだいくつか問題がある。
1) 編集作業の訓練を受けておらず,良好な編集効果を確保できない。
2) 編集を必要としないオーディオセグメントを誤って変更することができる。
3) 出力音声の完全な記述が必要であり、実用シナリオでは必ずしも利用可能あるいは必要ではない。
本研究では,遅延拡散モデルに基づく命令誘導音声編集モデルであるAUDITを提案する。
具体的には、AUDITには3つの主要な設計特徴がある。
1)異なるオーディオ編集タスクのためのトリプルトトレーニングデータ(インストラクション、入力オーディオ、出力オーディオ)を構築し、命令および入力(編集対象)オーディオを条件として、出力(編集済み)オーディオを生成する拡散モデルを訓練する。
2) 入力音声と出力音声の違いを比較することにより,編集が必要なセグメントのみを自動で変更することを学ぶことができる。
3) テキスト入力として完全なターゲットオーディオ記述ではなく,編集命令のみを必要とする。
AUDITは、いくつかのオーディオ編集タスク(例えば、追加、ドロップ、置換、塗り替え、超解像)の客観的および主観的なメトリクスで最先端の結果を達成する。
デモサンプルはhttps://audit-demo.github.io/で入手できる。 Audio editing is applicable for various purposes, such as adding background sound effects, replacing a musical instrument, and repairing damaged audio. Recently, some diffusion-based methods achieved zero-shot audio editing by using a diffusion and denoising process conditioned on the text description of the output audio. However, these methods still have some problems: 1) they have not been trained on editing tasks and cannot ensure good editing effects; 2) they can erroneously modify audio segments that do not require editing; 3) they need a complete description of the output audio, which is not always available or necessary in practical scenarios. In this work, we propose AUDIT, an instruction-guided audio editing model based on latent diffusion models. Specifically, AUDIT has three main design features: 1) we construct triplet training data (instruction, input audio, output audio) for different audio editing tasks and train a diffusion model using instruction and input (to be edited) audio as conditions and generating output (edited) audio; 2) it can automatically learn to only modify segments that need to be edited by comparing the difference between the input and output audio; 3) it only needs edit instructions instead of full target audio descriptions as text input. AUDIT achieves state-of-the-art results in both objective and subjective metrics for several audio editing tasks (e.g., adding, dropping, replacement, inpainting, super-resolution). Demo samples are available at https://audit-demo.github.io/. | 翻訳日:2023-04-06 14:52:30 公開日:2023-04-05 |
# SAR ATRにおけるディープラーニングの非因性発見と説明 Discovering and Explaining the Non-Causality of Deep Learning in SAR ATR ( http://arxiv.org/abs/2304.00668v2 ) ライセンス: Link先を確認 | Weijie Li, Wei Yang, Li Liu, Wenpeng Zhang, Yongxiang Liu | (参考訳) 近年、深層学習はSAR ATRで広く使われており、MSTARデータセット上で優れた性能を発揮している。
しかし、撮像条件が制約されているため、MSTARは背景相関などのデータバイアス、すなわち背景クラッタ特性は対象クラスと急激な相関を持つ。
ディープラーニングは、トレーニングエラーを減らすためにクラッタに過度に適合する。
したがって, SAR ATR における深層学習の非因果関係を反映している。
既存の手法はこの現象を質的にのみ分析する。
本稿では,Shapley値に基づいて,異なる領域の目標認識に対する貢献度を定量化する。
クラッタのShapley値は、オーバーフィッティングの度合いを測る。
さらに,データバイアスとモデルバイアスが非因果性にどのように寄与するかを説明する。
簡潔に言うと、データバイアスはトレーニングとテストセットで同等の信号対クラッタ比とクラッタテクスチャをもたらす。
様々なモデル構造は、これらのバイアスに対して異なるオーバーフィット度を持っています。
MSTARデータセットの標準動作条件下での各種モデル実験の結果は,その結論を支持する。
私たちのコードはhttps://github.com/waterdisappear/Data-Bias-in-MSTARで利用可能です。 In recent years, deep learning has been widely used in SAR ATR and achieved excellent performance on the MSTAR dataset. However, due to constrained imaging conditions, MSTAR has data biases such as background correlation, i.e., background clutter properties have a spurious correlation with target classes. Deep learning can overfit clutter to reduce training errors. Therefore, the degree of overfitting for clutter reflects the non-causality of deep learning in SAR ATR. Existing methods only qualitatively analyze this phenomenon. In this paper, we quantify the contributions of different regions to target recognition based on the Shapley value. The Shapley value of clutter measures the degree of overfitting. Moreover, we explain how data bias and model bias contribute to non-causality. Concisely, data bias leads to comparable signal-to-clutter ratios and clutter textures in training and test sets. And various model structures have different degrees of overfitting for these biases. The experimental results of various models under standard operating conditions on the MSTAR dataset support our conclusions. Our code is available at https://github.com/waterdisappear/Data-Bias-in-MSTAR. | 翻訳日:2023-04-06 14:52:06 公開日:2023-04-05 |
# 医療メタバースにおける連合学習に関する調査研究 : 概念,応用,課題,今後の方向性 A Survey on Federated Learning for the Healthcare Metaverse: Concepts, Applications, Challenges, and Future Directions ( http://arxiv.org/abs/2304.00524v2 ) ライセンス: Link先を確認 | Ali Kashif Bashir, Nancy Victor, Sweta Bhattacharya, Thien Huynh-The, Rajeswari Chengoden, Gokul Yenduri, Praveen Kumar Reddy Maddikunta, Quoc-Viet Pham, Thippa Reddy Gadekallu and Madhusanka Liyanage | (参考訳) 最近の技術進歩は、様々なインテリジェントな医療サービスを提供し、生活の質を向上させるために、医療システムの改善を考慮に入れている。
人工知能(AI)の新しい部門であるフェデレーション・ラーニング(FL)は、医療システムのプライバシー問題に対処し、分散デバイスで利用可能なデータとコンピューティングリソースを活用する機会を開く。
さらにMetaverseは、AI、クラウドエッジコンピューティング、IoT(Internet of Things)、ブロックチェーン、セマンティックコミュニケーションといった新興技術を統合することで、多くの垂直領域、特に医療分野を変革した。
FLは明らかに多くの利点を示し、従来の医療やメタバース医療に新たな機会を与え、メタバース医療システムにおけるFLの使用状況の調査を行う動機となった。
まず、IoTベースの医療システム、従来の医療におけるFL、Metaverseの医療システムについて概説する。
metaverse healthcareにおけるflのメリットは、プライバシとスケーラビリティの向上、相互運用性の向上、データ管理の改善、セキュリティの強化、自動化と低遅延医療サービスなど、議論される。
その後, 医療診断, 患者モニタリング, 医学教育, 感染症, 創薬など, fl対応メタバース医療に関するいくつかの応用について検討する。
最後に,メタバース医療におけるFLの実現に向けた重要な課題と潜在的な解決策を強調した。 Recent technological advancements have considerately improved healthcare systems to provide various intelligent healthcare services and improve the quality of life. Federated learning (FL), a new branch of artificial intelligence (AI), opens opportunities to deal with privacy issues in healthcare systems and exploit data and computing resources available at distributed devices. Additionally, the Metaverse, through integrating emerging technologies, such as AI, cloud edge computing, Internet of Things (IoT), blockchain, and semantic communications, has transformed many vertical domains in general and the healthcare sector in particular. Obviously, FL shows many benefits and provides new opportunities for conventional and Metaverse healthcare, motivating us to provide a survey on the usage of FL for Metaverse healthcare systems. First, we present preliminaries to IoT-based healthcare systems, FL in conventional healthcare, and Metaverse healthcare. The benefits of FL in Metaverse healthcare are then discussed, from improved privacy and scalability, better interoperability, better data management, and extra security to automation and low-latency healthcare services. Subsequently, we discuss several applications pertaining to FL-enabled Metaverse healthcare, including medical diagnosis, patient monitoring, medical education, infectious disease, and drug discovery. Finally, we highlight significant challenges and potential solutions toward the realization of FL in Metaverse healthcare. | 翻訳日:2023-04-06 14:51:50 公開日:2023-04-05 |
# マルチプレーン特徴表現を用いた高能率なビュー合成と3次元マルチフレームデノイジング Efficient View Synthesis and 3D-based Multi-Frame Denoising with Multiplane Feature Representations ( http://arxiv.org/abs/2303.18139v2 ) ライセンス: Link先を確認 | Thomas Tanay and Ale\v{s} Leonardis and Matteo Maggioni | (参考訳) 現在のマルチフレーム復元法は2次元アライメント技術を用いて複数の入力画像からの情報を合成するが、新しいビュー合成の最近の進歩はボリューム的なシーン表現に依存する新しいパラダイムへの道を開く。
そこで本研究では,より少ない計算量で2Dベースの性能を著しく上回る3Dベースのマルチフレームデノベーション手法を提案する。
本手法は,多面表現を特徴空間で操作する学習可能なエンコーダ・レンダラペアを導入することで,新たなビュー合成のための多面画像(mpi)フレームワークを拡張する。
エンコーダは、ビューにまたがって情報を融合し、深度的に操作する一方、レンダラは深度にわたって情報を融合し、視野的に操作する。
2つのモジュールはエンドツーエンドで訓練され、教師なしの方法で深度を分離することを学び、MPF(Multiplane Feature)表現を生み出した。
空間と実際の前方データセット、および生のバーストデータに関する実験は、ノイズ条件下でのビュー合成、マルチフレーム・デノイジング、ビュー合成のアプローチを検証する。 While current multi-frame restoration methods combine information from multiple input images using 2D alignment techniques, recent advances in novel view synthesis are paving the way for a new paradigm relying on volumetric scene representations. In this work, we introduce the first 3D-based multi-frame denoising method that significantly outperforms its 2D-based counterparts with lower computational requirements. Our method extends the multiplane image (MPI) framework for novel view synthesis by introducing a learnable encoder-renderer pair manipulating multiplane representations in feature space. The encoder fuses information across views and operates in a depth-wise manner while the renderer fuses information across depths and operates in a view-wise manner. The two modules are trained end-to-end and learn to separate depths in an unsupervised way, giving rise to Multiplane Feature (MPF) representations. Experiments on the Spaces and Real Forward-Facing datasets as well as on raw burst data validate our approach for view synthesis, multi-frame denoising, and view synthesis under noisy conditions. | 翻訳日:2023-04-06 14:51:27 公開日:2023-04-05 |
# 医療ライセンス試験におけるgpt-4とchatgptの評価 Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations ( http://arxiv.org/abs/2303.18027v2 ) ライセンス: Link先を確認 | Jungo Kasai, Yuhei Kasai, Keisuke Sakaguchi, Yutaro Yamada, Dragomir Radev | (参考訳) 多様な言語の話者の間で大きな言語モデル(LLM)が普及するにつれて、モデル行動や失敗、英語以外の言語の制限をよりよく理解するために、それらをベンチマークすることが重要であると信じています。
本研究は,過去5年間の全国医療ライセンス試験におけるLCM API(ChatGPT, GPT-3, GPT-4)の評価である。
本研究チームは日本語話者のNLP研究者と,日本在住の心臓科医からなる。
実験の結果, GPT-4はChatGPTおよびGPT-3より優れており,6年間の試験を通した。
しかし、我々の評価では、現在のLLM APIの限界も明らかにしている。
第一に、LLMは、日本の医療行為において厳格に避けるべき禁止された選択を選定することがある。
さらに分析の結果,非ラテン語スクリプトがパイプライン内でトークン化されているため,一般的にはAPIコストが高く,最大コンテキストサイズが小さくなっていることがわかった。
ベンチマークをIgaku QAとしてリリースし、すべてのモデル出力と試験メタデータを公開します。
私たちの結果とベンチマークがllmのより多様なアプリケーションの発展を促すことを期待しています。
ベンチマークはhttps://github.com/jungokasai/igakuqaで利用可能です。 As large language models (LLMs) gain popularity among speakers of diverse languages, we believe that it is crucial to benchmark them to better understand model behaviors, failures, and limitations in languages beyond English. In this work, we evaluate LLM APIs (ChatGPT, GPT-3, and GPT-4) on the Japanese national medical licensing examinations from the past five years, including the current year. Our team comprises native Japanese-speaking NLP researchers and a practicing cardiologist based in Japan. Our experiments show that GPT-4 outperforms ChatGPT and GPT-3 and passes all six years of the exams, highlighting LLMs' potential in a language that is typologically distant from English. However, our evaluation also exposes critical limitations of the current LLM APIs. First, LLMs sometimes select prohibited choices that should be strictly avoided in medical practice in Japan, such as suggesting euthanasia. Further, our analysis shows that the API costs are generally higher and the maximum context size is smaller for Japanese because of the way non-Latin scripts are currently tokenized in the pipeline. We release our benchmark as Igaku QA as well as all model outputs and exam metadata. We hope that our results and benchmark will spur progress on more diverse applications of LLMs. Our benchmark is available at https://github.com/jungokasai/IgakuQA. | 翻訳日:2023-04-06 14:51:07 公開日:2023-04-05 |
# 音声認識におけるウェークワードスポッティングのためのデュアルアテンションニューラルトランスデューサ Dual-Attention Neural Transducers for Efficient Wake Word Spotting in Speech Recognition ( http://arxiv.org/abs/2304.01905v2 ) ライセンス: Link先を確認 | Saumya Y. Sahai, Jing Liu, Thejaswi Muniyappa, Kanthashree M. Sathyendra, Anastasios Alexandridis, Grant P. Strimel, Ross McGowan, Ariya Rastrow, Feng-Ju Chang, Athanasios Mouchtaris and Siegfried Kunzmann | (参考訳) 本稿では,wake words (ww) 認識を促進させ,音声認識タスクにおける推論時間遅延を改善するアーキテクチャであるdual-attention neural biasingを提案する。
このアーキテクチャは、wwスポッティングを利用して、入力オーディオフレームに対してどのブランチを実行するかを選択することで、実行時の計算パスの動的スイッチを可能にする。
提案手法では,浮動小数点演算(FLOP)によって定義されたランタイム計算コストを削減しつつ,WWスポッティング精度を効果的に向上する。
そこで本研究では,本提案方式のデュアルアテンションネットワークを用いて,wwオーディオフレームの計算コストを90-%$で削減し,パラメータ数を1-%$で増やすことを実証する。
このアーキテクチャは、ww f1スコアを16\%$相対的に改善し、一般的なレアワードエラーレートをベースラインと比較して3\%$改善する。 We present dual-attention neural biasing, an architecture designed to boost Wake Words (WW) recognition and improve inference time latency on speech recognition tasks. This architecture enables a dynamic switch for its runtime compute paths by exploiting WW spotting to select which branch of its attention networks to execute for an input audio frame. With this approach, we effectively improve WW spotting accuracy while saving runtime compute cost as defined by floating point operations (FLOPs). Using an in-house de-identified dataset, we demonstrate that the proposed dual-attention network can reduce the compute cost by $90\%$ for WW audio frames, with only $1\%$ increase in the number of parameters. This architecture improves WW F1 score by $16\%$ relative and improves generic rare word error rate by $3\%$ relative compared to the baselines. | 翻訳日:2023-04-06 14:45:08 公開日:2023-04-05 |
# ヘイトスピーチ検出課題におけるショット選択のための社会文化的知識 Sociocultural knowledge is needed for selection of shots in hate speech detection tasks ( http://arxiv.org/abs/2304.01890v2 ) ライセンス: Link先を確認 | Antonis Maronikolakis, Abdullatif K\"oksal, Hinrich Sch\"utze | (参考訳) 我々は,ブラジル,ドイツ,インド,ケニアの国々において,モデルの学習と解釈を支援するために,スラリーとヘイトスピーチのターゲットであるヘイトレクシコンを紹介する。
モデル予測の解釈に我々の語彙をどのように利用できるかを示し、極端な音声を分類するために開発されたモデルは予測を行う際にターゲット語に大きく依存することを示した。
さらに,HATELEXICONを用いた低リソース環境下での撮影選択を支援する手法を提案する。
数ショットの学習では、ショットの選択はモデルの性能において最重要となる。
本研究では,HASOCデータをトレーニング用として用い,Multilingual HateCheck (MHC) をベンチマークとして,ドイツ語とヒンディー語のいくつかの設定をシミュレートする。
我々は,我々のレキシコンに基づくショットの選択が,ランダムにサンプリングされたショットで訓練されたモデルよりも,MHCで優れた性能を示すことを示す。
したがって、いくつかのトレーニング例しか与えられていない場合、我々のレキシコンを使用して、より多くの社会文化的情報を含むショットを選択すると、より少ないパフォーマンスが得られます。 We introduce HATELEXICON, a lexicon of slurs and targets of hate speech for the countries of Brazil, Germany, India and Kenya, to aid training and interpretability of models. We demonstrate how our lexicon can be used to interpret model predictions, showing that models developed to classify extreme speech rely heavily on target words when making predictions. Further, we propose a method to aid shot selection for training in low-resource settings via HATELEXICON. In few-shot learning, the selection of shots is of paramount importance to model performance. In our work, we simulate a few-shot setting for German and Hindi, using HASOC data for training and the Multilingual HateCheck (MHC) as a benchmark. We show that selecting shots based on our lexicon leads to models performing better on MHC than models trained on shots sampled randomly. Thus, when given only a few training examples, using our lexicon to select shots containing more sociocultural information leads to better few-shot performance. | 翻訳日:2023-04-06 14:44:51 公開日:2023-04-05 |
# HyperCUT: 教師なし順序付けによる単一ブルーリ画像からの映像シーケンス HyperCUT: Video Sequence from a Single Blurry Image using Unsupervised Ordering ( http://arxiv.org/abs/2304.01686v2 ) ライセンス: Link先を確認 | Bang-Dang Pham, Phong Tran, Anh Tran, Cuong Pham, Rang Nguyen, Minh Hoai | (参考訳) 本研究では,画像入力に対応するシャープな画像列を復元することを目的とした,映像から映像へのデブラリングのためのモデル学習の課題について検討する。
画像から映像へのモデルのトレーニングを妨害する重要な問題は、前後の両方のシーケンスが妥当な解であるため、フレーム順序の曖昧さである。
本稿では,高品質な画像と映像のデブロアリングモデルのトレーニングを可能にする,効果的なセルフ教師付き注文方式を提案する。
順序不変損失に依存する従来の方法とは異なり、各ビデオシーケンスに対して明示的な順序を割り当て、順序曖昧性の問題を回避する。
具体的には、各映像列を潜伏高次元空間内のベクトルに写像し、各映像列に対してそのベクトルとその逆列が超平面の異なる側面にあるような超平面が存在するようにする。
ベクトルの側面は対応する列の順序を定義するのに使用される。
最後に、顔、手、通りなど、さまざまな人気領域をカバーする画像とビデオの劣化問題に対するリアルタイムデータセットを提案する。
広範な実験結果から本手法の有効性を確認した。
コードとデータはhttps://github.com/vinairesearch/hypercut.gitで入手できる。 We consider the challenging task of training models for image-to-video deblurring, which aims to recover a sequence of sharp images corresponding to a given blurry image input. A critical issue disturbing the training of an image-to-video model is the ambiguity of the frame ordering since both the forward and backward sequences are plausible solutions. This paper proposes an effective self-supervised ordering scheme that allows training high-quality image-to-video deblurring models. Unlike previous methods that rely on order-invariant losses, we assign an explicit order for each video sequence, thus avoiding the order-ambiguity issue. Specifically, we map each video sequence to a vector in a latent high-dimensional space so that there exists a hyperplane such that for every video sequence, the vectors extracted from it and its reversed sequence are on different sides of the hyperplane. The side of the vectors will be used to define the order of the corresponding sequence. Last but not least, we propose a real-image dataset for the image-to-video deblurring problem that covers a variety of popular domains, including face, hand, and street. Extensive experimental results confirm the effectiveness of our method. Code and data are available at https://github.com/VinAIResearch/HyperCUT.git | 翻訳日:2023-04-06 14:44:32 公開日:2023-04-05 |
# 低リソース地震探査のための伝搬構造を持つ一貫したコントラスト伝達フレームワーク A Unified Contrastive Transfer Framework with Propagation Structure for Boosting Low-Resource Rumor Detection ( http://arxiv.org/abs/2304.01492v2 ) ライセンス: Link先を確認 | Hongzhan Lin, Jing Ma, Ruichao Yang, Zhiwei Yang, Mingfei Cheng | (参考訳) 事実は、ニュースや人気の話題とともに広まる巨大な噂によって著しく妨げられている。
モデルトレーニングのために同じドメインから集めた十分なコーパスがあるため、既存の噂検出アルゴリズムは昨日のニュースで有望なパフォーマンスを示している。
しかし、訓練データや事前の専門家知識が欠如しているため、予期せぬ出来事、特に異なる言語(低資源体制)で伝播した出来事に関する噂を見つけるのが苦手である。
本稿では,噂データから得られた特徴を低リソースデータに適応させることにより,噂を検出するための一貫したコントラスト転送フレームワークを提案する。
より具体的には、まずソーシャルメディアで流布された噂を無向トポロジーとして表現し、その後、統一的なコントラストパラダイムを介して多スケールグラフ畳み込みネットワークを訓練する。
我々のモデルは、言語アライメントと新しいドメイン適応型コントラスト学習機構を通じて、ドメインおよび/または言語問題の障壁を明示的に破る。
ターゲットイベントの小さな集合からの表現学習を強化するために,これらの事象の分布の均一性と噂表現信号が密接な相関関係があることを明らかにする。
本研究では,対象イベントを識別して表現を統一できる3つのデータ拡張戦略を備えた目標指向のコントラスト学習機構を設計する。
実世界のマイクロブログプラットフォームから収集した4つの低リソースデータセットによる大規模な実験により、我々のフレームワークは最先端の手法よりもはるかに優れた性能を示し、早期に噂を検出する能力を示している。 The truth is significantly hampered by massive rumors that spread along with breaking news or popular topics. Since there is sufficient corpus gathered from the same domain for model training, existing rumor detection algorithms show promising performance on yesterday's news. However, due to a lack of training data and prior expert knowledge, they are poor at spotting rumors concerning unforeseen events, especially those propagated in different languages (i.e., low-resource regimes). In this paper, we propose a unified contrastive transfer framework to detect rumors by adapting the features learned from well-resourced rumor data to that of the low-resourced. More specifically, we first represent rumor circulated on social media as an undirected topology, and then train a Multi-scale Graph Convolutional Network via a unified contrastive paradigm. Our model explicitly breaks the barriers of the domain and/or language issues, via language alignment and a novel domain-adaptive contrastive learning mechanism. To enhance the representation learning from a small set of target events, we reveal that rumor-indicative signal is closely correlated with the uniformity of the distribution of these events. We design a target-wise contrastive training mechanism with three data augmentation strategies, capable of unifying the representations by distinguishing target events. Extensive experiments conducted on four low-resource datasets collected from real-world microblog platforms demonstrate that our framework achieves much better performance than state-of-the-art methods and exhibits a superior capacity for detecting rumors at early stages. | 翻訳日:2023-04-06 14:44:12 公開日:2023-04-05 |
# chatgptにせよchatgptにせよ、あるいはchatgptにせよ、それは問題です! To ChatGPT, or not to ChatGPT: That is the question! ( http://arxiv.org/abs/2304.01487v2 ) ライセンス: Link先を確認 | Alessandro Pegoraro, Kavita Kumari, Hossein Fereidooni, Ahmad-Reza Sadeghi | (参考訳) ChatGPTは世界的なセンセーションになっている。
chatgptや他の大規模言語モデル(llm)が出現するにつれて、偽ニュースの拡散、盗作、世論の操作、不正行為、詐欺など、さまざまな方法でそれらを誤用する懸念が高まる。
したがって、人間の生成したAIを区別することがますます重要になる。
研究者は、基本的なバイナリ分類器からより複雑なディープラーニングモデルまで、さまざまな検出手法を提案している。
いくつかの検出技術は統計特性や構文パターンに依存し、他の検出手法では意味情報や文脈情報を取り入れて精度を向上させる。
本研究の主な目的は、ChatGPT検出における最新の技術に関する包括的かつ現代的な評価を提供することである。
さらに、ChatGPT生成コンテンツの検出を特に主張しないAI生成テキスト検出ツールを評価し、ChatGPT生成コンテンツの検出のパフォーマンスを評価する。
評価のために、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問、人気のあるソーシャルネットワークプラットフォームからのユーザ生成レスポンスを検証した。
このデータセットは、ChatGPT生成コンテンツを検出する様々なテクニックのパフォーマンスを評価するリファレンスとして機能する。
評価の結果,既存の手法ではchatgpt生成コンテンツを効果的に検出できないことがわかった。 ChatGPT has become a global sensation. As ChatGPT and other Large Language Models (LLMs) emerge, concerns of misusing them in various ways increase, such as disseminating fake news, plagiarism, manipulating public opinion, cheating, and fraud. Hence, distinguishing AI-generated from human-generated becomes increasingly essential. Researchers have proposed various detection methodologies, ranging from basic binary classifiers to more complex deep-learning models. Some detection techniques rely on statistical characteristics or syntactic patterns, while others incorporate semantic or contextual information to improve accuracy. The primary objective of this study is to provide a comprehensive and contemporary assessment of the most recent techniques in ChatGPT detection. Additionally, we evaluated other AI-generated text detection tools that do not specifically claim to detect ChatGPT-generated content to assess their performance in detecting ChatGPT-generated content. For our evaluation, we have curated a benchmark dataset consisting of prompts from ChatGPT and humans, including diverse questions from medical, open Q&A, and finance domains and user-generated responses from popular social networking platforms. The dataset serves as a reference to assess the performance of various techniques in detecting ChatGPT-generated content. Our evaluation results demonstrate that none of the existing methods can effectively detect ChatGPT-generated content. | 翻訳日:2023-04-06 14:43:43 公開日:2023-04-05 |
# statcan dialogue dataset: 真の意図による会話によるデータテーブルの検索 The StatCan Dialogue Dataset: Retrieving Data Tables through Conversations with Genuine Intents ( http://arxiv.org/abs/2304.01412v2 ) ライセンス: Link先を確認 | Xing Han Lu, Siva Reddy, Harm de Vries | (参考訳) 我々は、StatCan Dialogue Datasetを導入し、カナダ統計局で働いているエージェントと、公開データテーブルを探しているオンラインユーザとの間で19,379の会話を交わした。
会話は本質的な意図に起因し、英語やフランス語で行われ、5000以上の複雑なデータテーブルの1つを取得するエージェントに繋がる。
このデータセットに基づいて,(1)現在進行中の会話に基づく関連表の自動検索,(2)各ターンにおける適切なエージェント応答の自動生成の2つのタスクを提案する。
我々は,強いベースラインを確立することで各タスクの難しさを調査する。
時間的データ分割の実験では、検証からテストセットに移行するとき、両方のタスク間でパフォーマンスが大幅に低下するのを観察するため、すべてのモデルが将来の会話に一般化するのに苦労していることが明らかになりました。
さらに、応答生成モデルは、いつテーブルを返すかを決定するのに苦労している。
タスクが既存のモデルに重大な課題をもたらすことを考慮し、私たちはコミュニティにタスクのためのモデル開発を奨励します。 We introduce the StatCan Dialogue Dataset consisting of 19,379 conversation turns between agents working at Statistics Canada and online users looking for published data tables. The conversations stem from genuine intents, are held in English or French, and lead to agents retrieving one of over 5000 complex data tables. Based on this dataset, we propose two tasks: (1) automatic retrieval of relevant tables based on a on-going conversation, and (2) automatic generation of appropriate agent responses at each turn. We investigate the difficulty of each task by establishing strong baselines. Our experiments on a temporal data split reveal that all models struggle to generalize to future conversations, as we observe a significant drop in performance across both tasks when we move from the validation to the test set. In addition, we find that response generation models struggle to decide when to return a table. Considering that the tasks pose significant challenges to existing models, we encourage the community to develop models for our task, which can be directly used to help knowledge workers find relevant tables for live chat users. | 翻訳日:2023-04-06 14:43:20 公開日:2023-04-05 |
# 言語横断プラジャリズム検出の簡便かつ効果的な方法 A Simple and Effective Method of Cross-Lingual Plagiarism Detection ( http://arxiv.org/abs/2304.01352v2 ) ライセンス: Link先を確認 | Karen Avetisyan, Arthur Malajyan, Tsolak Ghukasyan, Arutyun Avetisyan | (参考訳) 本稿では,多数の言語に適用可能な単純な言語間プラジャリズム検出手法を提案する。
提案手法は,候補検索タスクにオープンな多言語セサリと,詳細な解析に事前訓練された多言語BERT言語モデルを利用する。
この方法は、使用時に機械翻訳や単語認識の曖昧さに依存しないため、非ソース言語を含む多数の言語に適している。
提案手法の有効性は、いくつかの既存および新しいベンチマークで実証され、フランス語、ロシア語、アルメニア語の最先端の結果が得られた。 We present a simple cross-lingual plagiarism detection method applicable to a large number of languages. The presented approach leverages open multilingual thesauri for candidate retrieval task and pre-trained multilingual BERT-based language models for detailed analysis. The method does not rely on machine translation and word sense disambiguation when in use, and therefore is suitable for a large number of languages, including under-resourced languages. The effectiveness of the proposed approach is demonstrated for several existing and new benchmarks, achieving state-of-the-art results for French, Russian, and Armenian languages. | 翻訳日:2023-04-06 14:43:00 公開日:2023-04-05 |
# x-time:camsによる表データ機械学習を高速化するインメモリエンジン X-TIME: An in-memory engine for accelerating machine learning on tabular data with CAMs ( http://arxiv.org/abs/2304.01285v2 ) ライセンス: Link先を確認 | Giacomo Pedretti, John Moon, Pedro Bruel, Sergey Serebryakov, Ron M. Roth, Luca Buonanno, Tobias Ziegler, Cong Xu, Martin Foltin, Paolo Faraboschi, Jim Ignowski, Catherine E. Graves | (参考訳) データ構造は、データ科学において最も一般的な形式である。
ディープラーニングモデルは、画像や音声などの非構造化データから学習することが証明されているが、表データから学習する場合の単純なアプローチよりも正確ではない。
対照的に、現代的なツリーベース機械学習(ML)モデルでは、構造化データから関連する情報を抽出する。
データサイエンスにおける必須要件は、例えば、科学的な発見を加速するためにシミュレーションを伴うクローズドループでモデルが使用される場合のモデル推論レイテンシを低減することである。
しかしながら、ハードウェアアクセラレーションコミュニティは、主にディープニューラルネットワークに焦点を当てており、他の機械学習形式を無視している。
これまでの研究では、ランダムフォレストを効率的にマッピングするためにアナログコンテンツアドレスメモリ(CAM)コンポーネントが用いられてきた。
本研究では,XGBoostやCatBoostといった最先端のツリーベースMLモデルの推論を可能にする,新たな精度向上型アナログCAMと,チップ上のプログラマブルネットワークを実装した,アナログデジタルアーキテクチャ全般に焦点をあてる。
16nm技術で1チップで評価した結果、最先端のGPUと比較して119倍のレイテンシが9740倍、ピーク電力は19Wであった。 Structured, or tabular, data is the most common format in data science. While deep learning models have proven formidable in learning from unstructured data such as images or speech, they are less accurate than simpler approaches when learning from tabular data. In contrast, modern tree-based Machine Learning (ML) models shine in extracting relevant information from structured data. An essential requirement in data science is to reduce model inference latency in cases where, for example, models are used in a closed loop with simulation to accelerate scientific discovery. However, the hardware acceleration community has mostly focused on deep neural networks and largely ignored other forms of machine learning. Previous work has described the use of an analog content addressable memory (CAM) component for efficiently mapping random forests. In this work, we focus on an overall analog-digital architecture implementing a novel increased precision analog CAM and a programmable network on chip allowing the inference of state-of-the-art tree-based ML models, such as XGBoost and CatBoost. Results evaluated in a single chip at 16nm technology show 119x lower latency at 9740x higher throughput compared with a state-of-the-art GPU, with a 19W peak power consumption. | 翻訳日:2023-04-06 14:42:51 公開日:2023-04-05 |
# メンタルヘルス記録テキストにおける痛みの症状の特定 : 自然言語処理アプローチ Identifying Mentions of Pain in Mental Health Records Text: A Natural Language Processing Approach ( http://arxiv.org/abs/2304.01240v2 ) ライセンス: Link先を確認 | Jaya Chaturvedi, Sumithra Velupillai, Robert Stewart, Angus Roberts | (参考訳) 痛みは医療資源にアクセスする一般的な理由であり、特に精神的な健康と重なる研究領域が増加している。
メンタルヘルスの電子健康記録は、この重複を研究する良いデータ源である。
しかし、痛みに関する多くの情報はこれらの記録の自由なテキストに保持されており、痛みに関する言及はあいまいな性質のため、独特の自然言語処理の問題をもたらす。
このプロジェクトは匿名のメンタルヘルス電子健康記録データベースからのデータを利用する。
データは、機械学習に基づく分類アルゴリズムを訓練し、患者の痛みについて議論するか否かを分類する。
これにより、大きなデータベースから関連する痛み情報を抽出し、痛みとメンタルヘルスのさらなる研究にそのようなアウトプットを使用することが容易になる。
1,985の文書は、3つの一般的な分類アルゴリズムを訓練するために使用されるゴールドスタンダードトレーニングデータを作成するために手動で3重注釈付けされた。
最高のパフォーマンスモデルはF1スコアが0.98(95% CI 0.98-0.99)に達した。 Pain is a common reason for accessing healthcare resources and is a growing area of research, especially in its overlap with mental health. Mental health electronic health records are a good data source to study this overlap. However, much information on pain is held in the free text of these records, where mentions of pain present a unique natural language processing problem due to its ambiguous nature. This project uses data from an anonymised mental health electronic health records database. The data are used to train a machine learning based classification algorithm to classify sentences as discussing patient pain or not. This will facilitate the extraction of relevant pain information from large databases, and the use of such outputs for further studies on pain and mental health. 1,985 documents were manually triple-annotated for creation of gold standard training data, which was used to train three commonly used classification algorithms. The best performing model achieved an F1-score of 0.98 (95% CI 0.98-0.99). | 翻訳日:2023-04-06 14:42:30 公開日:2023-04-05 |
# Spam-T5: メールスパム検出のための大規模言語モデルのベンチマーク Spam-T5: Benchmarking Large Language Models for Few-Shot Email Spam Detection ( http://arxiv.org/abs/2304.01238v2 ) ライセンス: Link先を確認 | Maxime Labonne and Sean Moran | (参考訳) 本稿では,メールスパム検出における大規模言語モデル (LLM) の有効性について,BERT-like, Sentence Transformers, Seq2Seq の3家系の著名なモデルを比較検討した。
さらに,Na\"ive Bayes や LightGBM などのスパム検出のための機械学習手法をベースライン手法として検討した。
4つの公開データセットにまたがってこれらのモデルの性能を評価し、異なる数のトレーニングサンプル(フルトレーニングセットと数ショット設定)を利用する。
その結果,ほとんどのケースでllmが一般的なベースライン技術,特に少数のシナリオのパフォーマンスを上回っていることが明らかとなった。
この適応性は、ラベル付きサンプルの数に制限があり、モデルは頻繁な更新を必要とするスパム検出タスクに特有のLLMをレンダリングする。
さらに,eメールのスパム検出に特化・微調整されたflan-t5モデルについても紹介する。
以上の結果から,Spam-T5 がベースラインモデルや他の LLM をはるかに上回っていることが明らかとなった。
私たちのコードはhttps://github.com/jpmorganchase/emailspamdetectionで公開されています。 This paper investigates the effectiveness of large language models (LLMs) in email spam detection by comparing prominent models from three distinct families: BERT-like, Sentence Transformers, and Seq2Seq. Additionally, we examine well-established machine learning techniques for spam detection, such as Na\"ive Bayes and LightGBM, as baseline methods. We assess the performance of these models across four public datasets, utilizing different numbers of training samples (full training set and few-shot settings). Our findings reveal that, in the majority of cases, LLMs surpass the performance of the popular baseline techniques, particularly in few-shot scenarios. This adaptability renders LLMs uniquely suited to spam detection tasks, where labeled samples are limited in number and models require frequent updates. Additionally, we introduce Spam-T5, a Flan-T5 model that has been specifically adapted and fine-tuned for the purpose of detecting email spam. Our results demonstrate that Spam-T5 surpasses baseline models and other LLMs in the majority of scenarios, particularly when there are a limited number of training samples available. Our code is publicly available at https://github.com/jpmorganchase/emailspamdetection. | 翻訳日:2023-04-06 14:42:13 公開日:2023-04-05 |
# 低解像度にさようなら:画像の超高解像度化のための拡散ウェーブレットアプローチ Waving Goodbye to Low-Res: A Diffusion-Wavelet Approach for Image Super-Resolution ( http://arxiv.org/abs/2304.01994v2 ) ライセンス: Link先を確認 | Brian Moser, Stanislav Frolov, Federico Raue, Sebastian Palacio, Andreas Dengel | (参考訳) 本稿では,単一画像超解法(SISR)のための新しい拡散ウェーブレット(DiWa)手法を提案する。
これは拡散確率モデル(ddpms)と離散ウェーブレット変換(dwt)の強みを利用する。
DDPMをDWT領域で動作させることにより、私たちのDDPMモデルはウェーブレットスペクトル上の超解像の高周波情報を効果的に幻覚させ、高品質で詳細な画像空間再構成を実現する。
本手法は,PSNR,SSIM,LPIPSの両面 (8倍スケーリング) と一般 (4倍スケーリング) のSRベンチマークにおいて,SR3 と SRDiff という最先端拡散に基づく SISR 法より優れている。
一方、DWTを使用することで、比較したモデルよりも少ないパラメータを使用できる。SRDiffと比較して、SR3よりも550M、SRDiffより9.3Mのパラメータが92Mである。
さらに,従来の一般的なsrデータセットでは,推論時間を節約しながら,最先端生成手法よりも優れる手法である。
最後に、我々の研究は様々なアプリケーションの可能性を強調します。 This paper presents a novel Diffusion-Wavelet (DiWa) approach for Single-Image Super-Resolution (SISR). It leverages the strengths of Denoising Diffusion Probabilistic Models (DDPMs) and Discrete Wavelet Transformation (DWT). By enabling DDPMs to operate in the DWT domain, our DDPM models effectively hallucinate high-frequency information for super-resolved images on the wavelet spectrum, resulting in high-quality and detailed reconstructions in image space. Quantitatively, we outperform state-of-the-art diffusion-based SISR methods, namely SR3 and SRDiff, regarding PSNR, SSIM, and LPIPS on both face (8x scaling) and general (4x scaling) SR benchmarks. Meanwhile, using DWT enabled us to use fewer parameters than the compared models: 92M parameters instead of 550M compared to SR3 and 9.3M instead of 12M compared to SRDiff. Additionally, our method outperforms other state-of-the-art generative methods on classical general SR datasets while saving inference time. Finally, our work highlights its potential for various applications. | 翻訳日:2023-04-06 14:32:28 公開日:2023-04-05 |
# 人間と機械を責める:アルゴリズムのハームに対する人々の反応を形作る Blaming Humans and Machines: What Shapes People's Reactions to Algorithmic Harm ( http://arxiv.org/abs/2304.02176v1 ) ライセンス: Link先を確認 | Gabriel Lima, Nina Grgi\'c-Hla\v{c}a, Meeyoung Cha | (参考訳) 人工知能(AI)システムは人を傷つける可能性がある。
本研究は,責任レンズを通して個人がこのような害にどう反応するかを検討する。
AIシステムを非難する研究に基づいて、機械、デザイナー、ユーザに対する人々の反応態度にいくつかの要因がどう影響するかを調査した。
3つの研究(N = 1,153)の結果は、これらのアクターによる非難の仕方の違いを示している。
AIシステムが説明可能なのかは、彼ら、開発者、ユーザに対する非難に影響を与えなかった。
公正性と有害性に関する考察は、デザイナやユーザに対する非難を高めたが、AIシステムの判断にはほとんど影響を与えなかった。
その代わり、機械に対する人々の反応的な態度は、人々が機械を非難することがアルゴリズムの害に対する適切な反応であると考えたかどうかだった。
我々は、社会と道徳の領域にAIシステムを含めることに関する将来の決定が、AIによる害に対する平民の反応をいかに形成するかなど、意味を議論する。 Artificial intelligence (AI) systems can cause harm to people. This research examines how individuals react to such harm through the lens of blame. Building upon research suggesting that people blame AI systems, we investigated how several factors influence people's reactive attitudes towards machines, designers, and users. The results of three studies (N = 1,153) indicate differences in how blame is attributed to these actors. Whether AI systems were explainable did not impact blame directed at them, their developers, and their users. Considerations about fairness and harmfulness increased blame towards designers and users but had little to no effect on judgments of AI systems. Instead, what determined people's reactive attitudes towards machines was whether people thought blaming them would be a suitable response to algorithmic harm. We discuss implications, such as how future decisions about including AI systems in the social and moral spheres will shape laypeople's reactions to AI-caused harm. | 翻訳日:2023-04-06 13:58:22 公開日:2023-04-05 |
# ChartReader: ヒューリスティックなルールのないチャートの推論と理解のための統一フレームワーク ChartReader: A Unified Framework for Chart Derendering and Comprehension without Heuristic Rules ( http://arxiv.org/abs/2304.02173v1 ) ライセンス: Link先を確認 | Zhi-Qi Cheng, Qi Dai, Siyao Li, Jingdong Sun, Teruko Mitamura, Alexander G. Hauptmann | (参考訳) チャートは複雑なデータを視覚的に伝達するための強力なツールだが、チャートの種類や複雑なコンポーネントが多様であることから、その理解は難しい。
既存のチャート理解手法は、ヒューリスティックなルールかOCRシステムへの過度な依存のいずれかに悩まされ、結果として準最適性能をもたらす。
そこで我々はchartreaderを提案する。chartreaderは,chart derendering と comprehension タスクをシームレスに統合する統一フレームワークである。
提案手法は,トランスフォーマーを用いたチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルを含む。
注釈付きデータセットから自動的にチャートのルールを学習することで、手作業によるルール作成の必要性をなくし、労力を削減し、精度を向上させる。
また,データ変数置換手法を導入し,プリトレーニングモデルの入力と位置埋め込みを拡張してクロスタスクトレーニングを行う。
我々はchartreaderをchart-to-table,chartqa,chart-to-textタスクで評価し,既存の方法よりも優れていることを示す。
提案するフレームワークは,グラフ解析に関わる手作業を大幅に削減し,ユニバーサルチャート理解モデルへのステップを提供する。
さらに,本手法は,T5 や TaPas といったメインストリームの LLM とのプラグイン・アンド・プレイ統合を実現し,理解タスクのチャート化を可能にした。
コードはhttps://github.com/zhiqic/ChartReader.comで入手できる。 Charts are a powerful tool for visually conveying complex data, but their comprehension poses a challenge due to the diverse chart types and intricate components. Existing chart comprehension methods suffer from either heuristic rules or an over-reliance on OCR systems, resulting in suboptimal performance. To address these issues, we present ChartReader, a unified framework that seamlessly integrates chart derendering and comprehension tasks. Our approach includes a transformer-based chart component detection module and an extended pre-trained vision-language model for chart-to-X tasks. By learning the rules of charts automatically from annotated datasets, our approach eliminates the need for manual rule-making, reducing effort and enhancing accuracy.~We also introduce a data variable replacement technique and extend the input and position embeddings of the pre-trained model for cross-task training. We evaluate ChartReader on Chart-to-Table, ChartQA, and Chart-to-Text tasks, demonstrating its superiority over existing methods. Our proposed framework can significantly reduce the manual effort involved in chart analysis, providing a step towards a universal chart understanding model. Moreover, our approach offers opportunities for plug-and-play integration with mainstream LLMs such as T5 and TaPas, extending their capability to chart comprehension tasks. The code is available at https://github.com/zhiqic/ChartReader. | 翻訳日:2023-04-06 13:58:07 公開日:2023-04-05 |
# オープンヘルスケアデータを用いた医療費予測モデルの構築 Building predictive models of healthcare costs with open healthcare data ( http://arxiv.org/abs/2304.02191v1 ) ライセンス: Link先を確認 | A. Ravishankar Rao, Subrata Garai, Soumyabrata Dey, Hang Peng | (参考訳) 世界中で医療費が急増しているため、その管理に大きな関心がある。
価格の透明性に関する重要な側面は、患者が低コストで購入し、効率を上げることを実証した予備的な試みである。
これは、データを利用可能にする必要があり、医療費を幅広い患者層や状況に予測できるモデルが必要となる。
本稿では,機械学習技術を用いた予測モデルの開発により,この問題に対するアプローチを提案する。
我々は2016年に230万件の記録からなるニューヨーク州SPARCS(州全体の計画と研究協力システム)の未確認患者データを分析した。
患者の診断や人口統計からコストを予測するモデルを構築しました。
疎回帰と決定木からなる2つのモデルクラスを調査した。
深度10の決定木を用いて最高の性能を得た。
同様の問題に対して文献で報告した値よりもよい0.76のR-平方値を得た。 Due to rapidly rising healthcare costs worldwide, there is significant interest in controlling them. An important aspect concerns price transparency, as preliminary efforts have demonstrated that patients will shop for lower costs, driving efficiency. This requires the data to be made available, and models that can predict healthcare costs for a wide range of patient demographics and conditions. We present an approach to this problem by developing a predictive model using machine-learning techniques. We analyzed de-identified patient data from New York State SPARCS (statewide planning and research cooperative system), consisting of 2.3 million records in 2016. We built models to predict costs from patient diagnoses and demographics. We investigated two model classes consisting of sparse regression and decision trees. We obtained the best performance by using a decision tree with depth 10. We obtained an R-square value of 0.76 which is better than the values reported in the literature for similar problems. | 翻訳日:2023-04-06 13:49:43 公開日:2023-04-05 |
# 機械学習における公正な属性のグローバル化:アフリカにおける健康のケーススタディ Globalizing Fairness Attributes in Machine Learning: A Case Study on Health in Africa ( http://arxiv.org/abs/2304.02190v1 ) ライセンス: Link先を確認 | Mercy Nyamewaa Asiedu, Awa Dieng, Abigail Oppong, Maria Nagawa, Sanmi Koyejo, Katherine Heller | (参考訳) 医療における機械学習(ML)アプリケーションの増加に伴い、これらのシステムがもたらす倫理的懸念を理解し緩和するために、MLの公平性を求める声が上がっている。
フェアネスはアフリカにおける世界的な健康に影響を及ぼすが、これは既にグローバル・ノースとサウスの間に不平等な権力不均衡がある。
本稿では,アフリカを事例として,世界保健の公正性を探究する。
アフリカの文脈で考慮すべき公平性属性を提案し、異なるml対応の医療的モダリティに作用する可能性を示す。
この研究は、世界保健における公正性の研究を促進するための基盤となり、行動を呼び起こす。 With growing machine learning (ML) applications in healthcare, there have been calls for fairness in ML to understand and mitigate ethical concerns these systems may pose. Fairness has implications for global health in Africa, which already has inequitable power imbalances between the Global North and South. This paper seeks to explore fairness for global health, with Africa as a case study. We propose fairness attributes for consideration in the African context and delineate where they may come into play in different ML-enabled medical modalities. This work serves as a basis and call for action for furthering research into fairness in global health. | 翻訳日:2023-04-06 13:49:28 公開日:2023-04-05 |
# ビッグデータ探索システム--オープンヘルスデータにおける外乱検出のための反復k平均探索ライト- A system for exploring big data: an iterative k-means searchlight for outlier detection on open health data ( http://arxiv.org/abs/2304.02189v1 ) ライセンス: Link先を確認 | A. Ravishankar Rao, Daniel Clarke, Subrata Garai, Soumyabrata Dey | (参考訳) 大規模で進化するデータセットの対話的な探索は、基礎となる変数間の関係を完全に理解できないため、難しい。
さらなる探索と分析に値するデータには、隠れたトレンドとパターンがあるかもしれない。
本稿では,サーチライト手法を用いて変数の複数組み合わせを体系的に探索し,外乱を識別するシステムを提案する。
反復的k-meansクラスタリングアルゴリズムは、データベースの文献で使われるスプリット-apply-combineパラダイムによって導かれる特徴に適用される。
外層はシングルトンまたは小さなクラスターとして識別される。
このアルゴリズムは、検索ライト方式でデータセットにまたがる。
外れ値を含む次元は、サスセットスキャン技術を用いて他の次元と組み合わせて、外れ値に関するさらなる洞察を得る。
このシステムは、ニューヨーク州が公開しているオープンヘルスデータを分析して説明する。
繰り返しk-meansサーチライトとサブセットスキャンを適用した。
特定の病院でのコストオーバーランや自殺などの診断の増加など、データの異常な傾向が特定されている。
これらは文学における新たな発見であり、規制機関、政策立案者および関係市民に潜在的に有用である。 The interactive exploration of large and evolving datasets is challenging as relationships between underlying variables may not be fully understood. There may be hidden trends and patterns in the data that are worthy of further exploration and analysis. We present a system that methodically explores multiple combinations of variables using a searchlight technique and identifies outliers. An iterative k-means clustering algorithm is applied to features derived through a split-apply-combine paradigm used in the database literature. Outliers are identified as singleton or small clusters. This algorithm is swept across the dataset in a searchlight manner. The dimensions that contain outliers are combined in pairs with other dimensions using a susbset scan technique to gain further insight into the outliers. We illustrate this system by anaylzing open health care data released by New York State. We apply our iterative k-means searchlight followed by subset scanning. Several anomalous trends in the data are identified, including cost overruns at specific hospitals, and increases in diagnoses such as suicides. These constitute novel findings in the literature, and are of potential use to regulatory agencies, policy makers and concerned citizens. | 翻訳日:2023-04-06 13:49:16 公開日:2023-04-05 |
# ラバン運動分析の統合による身体的感情理解 Bodily expressed emotion understanding through integrating Laban movement analysis ( http://arxiv.org/abs/2304.02187v1 ) ライセンス: Link先を確認 | Chenyan Wu, Dolzodmaa Davaasuren, Tal Shafir, Rachelle Tsachor, James Z. Wang | (参考訳) 身体運動は、人の感情や精神状態に関する重要な情報を持ち、日々のコミュニケーションに不可欠である。
機械が身体言語を通して表現される感情を理解する能力を高めることで、支援ロボットと子供や高齢者とのコミュニケーションを改善し、定量的診断と予後支援を精神科の専門家に提供する。
本研究では,laban運動分析運動符号化システムに基づく高品質な運動要素データセットを開発し,運動要素と感情について共同で学習する。
私たちの長期的な野望は、コンピュータ、心理学、パフォーマンスアーツからの知識を統合し、ボディランゲージを通じて感情や精神状態の自動理解と分析を可能にすることです。
この研究は、人間の動きの分析を通じて感情を認識するためのさらなる研究のための発射台として機能する。 Body movements carry important information about a person's emotions or mental state and are essential in daily communication. Enhancing the ability of machines to understand emotions expressed through body language can improve the communication of assistive robots with children and elderly users, provide psychiatric professionals with quantitative diagnostic and prognostic assistance, and aid law enforcement in identifying deception. This study develops a high-quality human motor element dataset based on the Laban Movement Analysis movement coding system and utilizes that to jointly learn about motor elements and emotions. Our long-term ambition is to integrate knowledge from computing, psychology, and performing arts to enable automated understanding and analysis of emotion and mental state through body language. This work serves as a launchpad for further research into recognizing emotions through analysis of human movement. | 翻訳日:2023-04-06 13:48:46 公開日:2023-04-05 |
# 物体検出のための視覚トランスフォーマの訓練戦略 Training Strategies for Vision Transformers for Object Detection ( http://arxiv.org/abs/2304.02186v1 ) ライセンス: Link先を確認 | Apoorv Singh | (参考訳) 視覚ベースのトランスフォーマーは、視覚特徴間の長距離依存性をモデル化する能力が強かったため、正確な3dバウンディングボックスの予測という観点で、自動運転の知覚モジュールに大きな応用が見られた。
しかし、当初言語モデル向けに設計されたトランスフォーマーは、主に性能の正確性に重点を置いており、推論時間予算にはあまり依存していない。
自動運転のような安全クリティカルなシステムでは、オンボードコンピューティングでのリアルタイムの推論が絶対必要である。
これにより、オブジェクト検出アルゴリズムは、非常に厳しいランタイム予算に保たれます。
本稿では,視覚変換器をベースとした物体検出手法を最適化する様々な手法の評価を行った。
これらの戦略の選択基準は精度-実行時共同最適化である。
さらに,実際の推論時間解析ではfloat32とfloat16の精度をtensorrtモジュールで検証した。
これは、エッジデバイスに機械学習ネットワークをデプロイするために業界が使用する最も一般的なフォーマットである。
提案手法は,評価部で定義された問題記述に対して,性能低下のコストをわずか3%に抑えることで,推論時間を63%改善できることを実証した。
これらの戦略により、ビジョントランスフォーマー検出器はFCOSのような従来の単一画像ベースのCNN検出器よりも推論時間が少ない。
トランスフォーマーをベースとする多視点ネットワークをブッジュに制約されたロボットプラットフォーム上に展開するためには,これらのテクニックを実践者に推奨する。 Vision-based Transformer have shown huge application in the perception module of autonomous driving in terms of predicting accurate 3D bounding boxes, owing to their strong capability in modeling long-range dependencies between the visual features. However Transformers, initially designed for language models, have mostly focused on the performance accuracy, and not so much on the inference-time budget. For a safety critical system like autonomous driving, real-time inference at the on-board compute is an absolute necessity. This keeps our object detection algorithm under a very tight run-time budget. In this paper, we evaluated a variety of strategies to optimize on the inference-time of vision transformers based object detection methods keeping a close-watch on any performance variations. Our chosen metric for these strategies is accuracy-runtime joint optimization. Moreover, for actual inference-time analysis we profile our strategies with float32 and float16 precision with TensorRT module. This is the most common format used by the industry for deployment of their Machine Learning networks on the edge devices. We showed that our strategies are able to improve inference-time by 63% at the cost of performance drop of mere 3% for our problem-statement defined in evaluation section. These strategies brings down Vision Transformers detectors inference-time even less than traditional single-image based CNN detectors like FCOS. We recommend practitioners use these techniques to deploy Transformers based hefty multi-view networks on a budge-constrained robotic platform. | 翻訳日:2023-04-06 13:48:21 公開日:2023-04-05 |
# Prove-It を用いた量子位相推定(QPE)の検証 Verifying Quantum Phase Estimation (QPE) using Prove-It ( http://arxiv.org/abs/2304.02183v1 ) ライセンス: Link先を確認 | Wayne M. Witzel (1), Warren D. Craft (1 and 2), Robert Carr (2), Deepak Kapur (2) ((1) Center for Computing Research, Quantum Computer Science, Sandia National Laboratories, Albuquerque, NM, (2) Department of Computer Science, The University of New Mexico, Albuquerque, NM) | (参考訳) Prove-Itと呼ばれる汎用的な対話型定理証明アシスタントは、量子位相推定(QPE)アルゴリズムの検証に使用された。
Prove-Itは、量子回路に関するステートメントを含む洗練された数学的ステートメントを表現する能力に特有であり、公式な定理証明フレームワークにしっかりと組み込まれている。
我々は、教科書の証明に従って、正式に証明された証明を作成する能力を示し、明らかなステップを埋め、形式的な証明を非公式な定理証明とほぼ同等に簡単にする有用な自動化機能を強調する。
最後に、QPEに関する同様の主張が証明された他のシステムにおける公式な定理証明との比較を行う。 The general-purpose interactive theorem-proving assistant called Prove-It was used to verify the Quantum Phase Estimation (QPE) algorithm, specifically claims about its outcome probabilities. Prove-It is unique in its ability to express sophisticated mathematical statements, including statements about quantum circuits, integrated firmly within its formal theorem-proving framework. We demonstrate our ability to follow a textbook proof to produce a formally certified proof, highlighting useful automation features to fill in obvious steps and make formal proving nearly as straightforward as informal theorem proving. Finally, we make comparisons with formal theorem-proving in other systems where similar claims about QPE have been proven. | 翻訳日:2023-04-06 13:47:50 公開日:2023-04-05 |
# ChatGPTの翻訳力の解放 : 実証的研究 Unleashing the Power of ChatGPT for Translation: An Empirical Study ( http://arxiv.org/abs/2304.02182v1 ) ライセンス: Link先を確認 | Yuan Gao, Ruili Wang, Feng Hou | (参考訳) 最近リリースされたChatGPTは、自然言語理解と自然言語生成において驚くべき能力を示している。
機械翻訳は自然言語処理の分野で重要かつ広範囲に研究されたタスクであり、言語理解と生成の能力に大きく依存している。
そこで本稿では,ChatGPTを用いた機械翻訳支援について述べる。
我々は多岐にわたる翻訳に複数の翻訳プロンプトを適用した。
実験結果から,設計した翻訳プロンプトを用いたChatGPTは,高言語翻訳のプロフェッショナル翻訳システムよりも高い性能を達成できるが,低言語翻訳に遅れが生じた。
さらに,複数の参照を用いた翻訳品質の評価を行い,chatgptはプロのシステムよりも優れた性能を実現する。
また、ドメイン特化翻訳の実験を行い、最終結果は、チャットgptが提供されたドメインキーワードを理解でき、適切な翻訳出力に応じて調整できることを示す。
最終的に、異なるベースプロンプト間で一貫した改善を示す、数発のプロンプトを実行します。
私たちの研究は、ChatGPTが翻訳において大きな可能性を秘めているという実証的な証拠を提供する。 The recently released ChatGPT has demonstrated surprising abilities in natural language understanding and natural language generation. Machine translation is an important and extensively studied task in the field of natural language processing, which heavily relies on the abilities of language understanding and generation. Thus, in this paper, we explore how to assist machine translation with ChatGPT. We adopt several translation prompts on a wide range of translations. Our experimental results show that ChatGPT with designed translation prompts can achieve comparable or better performance over professional translation systems for high-resource language translations but lags behind significantly on low-resource translations. We further evaluate the translation quality using multiple references, and ChatGPT achieves superior performance compared to the professional systems. We also conduct experiments on domain-specific translations, the final results show that ChatGPT is able to comprehend the provided domain keyword and adjust accordingly to output proper translations. At last, we perform few-shot prompts that show consistent improvement across different base prompts. Our work provides empirical evidence that ChatGPT still has great potential in translations. | 翻訳日:2023-04-06 13:47:38 公開日:2023-04-05 |
# 音声匿名化がcovid-19検出に与える影響について On the Impact of Voice Anonymization on Speech-Based COVID-19 Detection ( http://arxiv.org/abs/2304.02181v1 ) ライセンス: Link先を確認 | Yi Zhu, Mohamed Imoussa\"ine-A\"ikous, Carolyn C\^ot\'e-Lussier, and Tiago H. Falk | (参考訳) ディープラーニングの進歩とともに、パーソナルアシスタントから感情コンピューティング、遠隔病診断まで、音声ベースのアプリケーションが急成長している。
音声には言語情報とパラ言語情報(例えば、音声ピッチ、イントネーション、発声率、大声)が含まれているため、話者のプライバシーとアイデンティティを維持するために、音声匿名化への関心が高まっている。
音声プライバシの課題はここ数年で浮上し、言語コンテンツを維持しながら話者のアイデンティティを取り除くことに焦点が当てられている。
しかし、情緒的コンピューティングと病気モニタリングアプリケーションにとって、パラ言語的コンテンツはより重要かもしれない。
残念ながら、匿名化がこれらのシステムに与える影響は、いまだに不明である。
本稿では、このギャップを埋め、特定の健康モニタリングアプリケーション、すなわち音声による新型コロナウイルスの診断に焦点を当てる。
我々は、2つの一般的な匿名化手法と、3つのパブリックデータセットを使用して、5つの異なる最先端のCOVID-19診断システムへの影響をテストする。
匿名化手法の有効性を検証し,計算複雑性を比較し,データセット内およびデータセット内における異なるテストシナリオにおける影響を定量化する。
最後に、匿名化データで見られる新型コロナウイルスの診断精度の損失を回復するためのデータ拡張ツールとしての匿名化の利点を示す。 With advances seen in deep learning, voice-based applications are burgeoning, ranging from personal assistants, affective computing, to remote disease diagnostics. As the voice contains both linguistic and paralinguistic information (e.g., vocal pitch, intonation, speech rate, loudness), there is growing interest in voice anonymization to preserve speaker privacy and identity. Voice privacy challenges have emerged over the last few years and focus has been placed on removing speaker identity while keeping linguistic content intact. For affective computing and disease monitoring applications, however, the paralinguistic content may be more critical. Unfortunately, the effects that anonymization may have on these systems are still largely unknown. In this paper, we fill this gap and focus on one particular health monitoring application: speech-based COVID-19 diagnosis. We test two popular anonymization methods and their impact on five different state-of-the-art COVID-19 diagnostic systems using three public datasets. We validate the effectiveness of the anonymization methods, compare their computational complexity, and quantify the impact across different testing scenarios for both within- and across-dataset conditions. Lastly, we show the benefits of anonymization as a data augmentation tool to help recover some of the COVID-19 diagnostic accuracy loss seen with anonymized data. | 翻訳日:2023-04-06 13:47:21 公開日:2023-04-05 |
# 窒素空孔中心に基づくゼロ磁場磁気共鳴分光 Zero field magnetic resonance spectroscopy based on Nitrogen-vacancy centers ( http://arxiv.org/abs/2304.02179v1 ) ライセンス: Link先を確認 | Linkai Zhao, Q. Chen | (参考訳) 本研究では,窒素空洞中心に基づくゼロ磁場磁気共鳴分光法を考案し,検討中の系に磁場が干渉する可能性のある新しい応用法について検討する。
円偏光マイクロ波場を用いた連続運転は、1つのスピン状態に選択的に対処するために用いられる。
提案手法は,水分子中の2つの水素原子核の距離を検出するために,原子核四極子共鳴分光や,水分子中の2つの水素原子核の距離検出など,単一分子分光に適用できる。
我々の研究は、nvセンターをゼロフィールドレジームにおけるナノスケール分子分光として応用している。 We propose a scheme to have zero field magnetic resonance spectroscopy based on a nitrogen-vacancy center and investigate the new applications in which magnetic bias field might disturb the system under investigation. Continual driving with circularly polarized microwave fields is used to selectively address one spin state. The proposed method is applied for single molecule spectroscopy, such as nuclear quadrupole resonance spectroscopy of a $^{11}$B nuclear spin and the detection of the distance of two hydrogen nuclei in a water molecule. Our work extends applications of NV centers as a nanoscale molecule spectroscopy in the zero field regime. | 翻訳日:2023-04-06 13:47:01 公開日:2023-04-05 |
# 角運動量を持つコヒーレント光子の表現理論とトポロジー Representation Theory and Topology of Coherent Photons with Angular Momentum ( http://arxiv.org/abs/2304.02178v1 ) ライセンス: Link先を確認 | Shinichi Saito | (参考訳) 光子は光の基本粒子であり、スピンと軌道角運動量の両方を内部自由度として持つ。
スピンの性質は偏光と呼ばれ、サングラス、液晶ディスプレイ、デジタルコヒーレント通信に広く用いられているが、軌道角運動量は光学的ツイーザー、レーザーパターン、量子光学に有用である。
しかし、光子のスピンと軌道角運動量は、自由空間における平面波の膨張によって証明された適切なゲージ不変の方法で2つの独立した自由度に分裂することは不可能であると考えられている。
ここで、これらの自由度は導波路内のよく定義された量子観測可能であり、伝播モードがコアに十分に制限されている自由空間であることを示す。
我々はストークスパラメータがコヒーレント光子のスピン期待値であり、トーラス、M\"オビウスストリップ、ボソニックディラックコーンのような非自明な位相的特徴を示すことを示した。
我々は、光子のスピン角運動量と軌道角運動量の両方を記述するために SU(N) 表現理論を適用し、フルポインカー球面上のそれらの制御を実験的に証明し、フラーレン C$_{60}$ および qubits による地球を示す。
また、光軌道角運動量に位相的色電荷を与え、そのsu(3)状態はso(8)で提案されたゲルマン超球面上に示され、そのパラメータはso(5)に埋め込むことができる。
また、一重項状態と三重項状態の光子SU(4)状態も実現し、回転した偏光子によりSU(2)$\times$SU(2)状態に投影された。
この結果から,スピンと軌道角運動量を操作するプラットフォームは,フォトニック量子色力学と高次マクロ量子状態の探索に有用であることが示唆された。 Photons are elementary particles of lights, which have both spin and orbital angular momentum as internal degrees of freedom. Nature of spin is known as polarisation, which is widely used for sunglasses, liquid-crystal displays, digital-coherent communications, while orbital angular momentum is useful for optical tweezers, laser-patterning, and quantum optics. However, spin and orbital angular momentum of photons are considered to be impossible for splitting into two independent degrees of freedom in a proper gauge invariant way, proved by plane wave expansions in a free space. Here, we show these degrees of freedom are well-defined quantum observables in a waveguide and a free space as far as the propagation mode is sufficiently confined in the core. We found Stokes parameters are spin expectation values of coherent photons, which exhibit non-trivial topological features like a torus, a M\"obius strip, and a bosonic Dirac cone. We have applied an SU(N) representation theory to describe both spin and orbital angular momentum of photons, and experimentally demonstrated their controls over a full Poincar\'e sphere to show a fullerene C$_{60}$ and the earth by qubits. We have also ascribed topological colour charge to photonic orbital angular momentum, whose SU(3) states are shown on a proposed Gell-Mann hypersphere in SO(8), whose parameters could be embedded in SO(5). We have also realised photonic SU(4) states of singlet and triplet states, which were successfully projected into SU(2)$\times$SU(2) states by a rotated polariser. Our results indicate that our platform of manipulating spin and orbital angular momentum is useful for exploring a photonic quantum chromodynamics and a higher order macroscopic quantum state. | 翻訳日:2023-04-06 13:46:51 公開日:2023-04-05 |
# マスターキーとしての大規模言語モデル: gptによる材料科学の秘密の解錠 Large Language Models as Master Key: Unlocking the Secrets of Materials Science with GPT ( http://arxiv.org/abs/2304.02213v1 ) ライセンス: Link先を確認 | Tong Xie, Yuwei Wa, Wei Huang, Yufei Zhou, Yixuan Liu, Qingyuan Linghu, Shaozhou Wang, Chunyu Kit, Clara Grazian and Bram Hoex | (参考訳) 本稿では,材料科学におけるデバイスレベルの情報抽出の複雑さに対処するため,構造化情報推論(sis)と呼ばれる新しいnlpタスクを提案する。
我々は、gpt-3を91.8 f1-scoreのペロブスカイト太陽電池フェアデータセットに微調整し、関連するすべての科学論文でデータセットを更新した。
生成されたデータセットはフォーマットされ、正規化され、その後のデータ分析で入力として直接利用できる。
この機能により、材料科学者はドメイン内で高品質のレビュー論文を選択できる。
さらに,PCEおよび逆予測パラメータを予測する実験を設計し,DFTと同等の性能を示した。 This article presents a new NLP task called structured information inference (SIS) to address the complexities of information extraction at the device level in materials science. We accomplished this task by finetuning GPT-3 on a exsiting perovskite solar cell FAIR dataset with 91.8 F1-score and we updated the dataset with all related scientific papers up to now. The produced dataset is formatted and normalized, enabling its direct utilization as input in subsequent data analysis. This feature will enable materials scientists to develop their own models by selecting high-quality review papers within their domain. Furthermore, we designed experiments to predict PCE and reverse-predict parameters and obtained comparable performance with DFT, which demonstrates the potential of large language models to judge materials and design new materials like a materials scientist. | 翻訳日:2023-04-06 13:39:53 公開日:2023-04-05 |
# ME Transformer: 複数の学習可能なエキスパートトークンを用いたトランスフォーマーによる放射線学レポート生成 METransformer: Radiology Report Generation by Transformer with Multiple Learnable Expert Tokens ( http://arxiv.org/abs/2304.02211v1 ) ライセンス: Link先を確認 | Zhanyu Wang, Lingqiao Liu, Lei Wang, Luping Zhou | (参考訳) 臨床シナリオでは、特に複雑な症例では、多種多様なコンサルテーションが有用であった。
これは、現在文献でよく見られる「シングルエキスパート」フレームワークをアップグレードするための「マルチエキスパート共同診断」メカニズムを探求するきっかけとなった。
そこで本稿では,このアイデアをトランスフォーマーベースのバックボーンで実現するMETransformerを提案する。
本手法の鍵となる設計は,複数の学習可能な「エキスパート」トークンをトランスフォーマーエンコーダとデコーダの両方に導入することである。
エンコーダでは、それぞれのエキスパートトークンが視覚トークンと他のエキスパートトークンの両方と相互作用して、画像表現のための異なるイメージ領域に出席することを学ぶ。
これらの専門家トークンは、重複を最小限にする直交損失によって補完的な情報をキャプチャすることが推奨される。
デコーダでは、各専門家トークンが入力語と視覚トークンの相互接続をガイドし、生成されたレポートに影響を及ぼす。
最終レポートを生成するために、メトリクスベースのエキスパート投票戦略がさらに開発されている。
マルチエキスパートの概念により、我々のモデルはアンサンブルベースのアプローチの利点を享受するが、計算的に効率的であり、専門家間のより洗練された相互作用をサポートする。
実験結果は,提案モデルが広く使用されている2つのベンチマークにおいて有望な性能を示す。
最後に、フレームワークレベルのイノベーションによって、既存の"single-expert"モデルの進歩を取り入れて、パフォーマンスをさらに向上させる準備ができています。 In clinical scenarios, multi-specialist consultation could significantly benefit the diagnosis, especially for intricate cases. This inspires us to explore a "multi-expert joint diagnosis" mechanism to upgrade the existing "single expert" framework commonly seen in the current literature. To this end, we propose METransformer, a method to realize this idea with a transformer-based backbone. The key design of our method is the introduction of multiple learnable "expert" tokens into both the transformer encoder and decoder. In the encoder, each expert token interacts with both vision tokens and other expert tokens to learn to attend different image regions for image representation. These expert tokens are encouraged to capture complementary information by an orthogonal loss that minimizes their overlap. In the decoder, each attended expert token guides the cross-attention between input words and visual tokens, thus influencing the generated report. A metrics-based expert voting strategy is further developed to generate the final report. By the multi-experts concept, our model enjoys the merits of an ensemble-based approach but through a manner that is computationally more efficient and supports more sophisticated interactions among experts. Experimental results demonstrate the promising performance of our proposed model on two widely used benchmarks. Last but not least, the framework-level innovation makes our work ready to incorporate advances on existing "single-expert" models to further improve its performance. | 翻訳日:2023-04-06 13:39:38 公開日:2023-04-05 |
# 大規模言語モデルを用いた文書レベル機械翻訳 Document-Level Machine Translation with Large Language Models ( http://arxiv.org/abs/2304.02210v1 ) ライセンス: Link先を確認 | Longyue Wang, Chenyang Lyu, Tianbo Ji, Zhirui Zhang, Dian Yu, Shuming Shi, Zhaopeng Tu | (参考訳) Chat-GPTのような大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、および流動性のある回答を生成することができる。
本稿では,文書レベルの機械翻訳(MT)をテストベッドとして,談話モデルにおけるLLMの能力の詳細な評価を行う。
3つの側面についての研究
1) 異なるプロンプトが文書レベルの翻訳品質および談話現象に与える影響を検討する談話認識プロンプトの効果
2)Chat-GPTの翻訳性能を商用MTシステムと高度文書レベルのMT手法と比較する翻訳モデルの比較
3) llmで符号化された談話知識をさらに探究する談話モデリング能力の分析と, 談話モデリングにおける訓練技術の影響について検討する。
多くのベンチマークを評価することで 驚くべきことに
1)ChatGPTは、その強力な長文モデレーター機能を活用し、人的評価の観点から商業MTシステムより優れている。
2) GPT-4は, コントラスト検査において, 誤り翻訳候補を選択する場合でも, 談話知識を説明する強力な能力を示す。
3) ChatGPT と GPT-4 は優れた性能を示し,文書レベルの翻訳の新たなパラダイムとなる可能性を示している。
本研究は, LLMの将来設計と評価に刺激を与えることができることを期待する, LLMにおける談話モデリングの課題と機会を強調するものである。 Large language models (LLMs) such as Chat-GPT can produce coherent, cohesive, relevant, and fluent answers for various natural language processing (NLP) tasks. Taking document-level machine translation (MT) as a testbed, this paper provides an in-depth evaluation of LLMs' ability on discourse modeling. The study fo-cuses on three aspects: 1) Effects of Discourse-Aware Prompts, where we investigate the impact of different prompts on document-level translation quality and discourse phenomena; 2) Comparison of Translation Models, where we compare the translation performance of Chat-GPT with commercial MT systems and advanced document-level MT methods; 3) Analysis of Discourse Modelling Abilities, where we further probe discourse knowledge encoded in LLMs and examine the impact of training techniques on discourse modeling. By evaluating a number of benchmarks, we surprisingly find that 1) leveraging their powerful long-text mod-eling capabilities, ChatGPT outperforms commercial MT systems in terms of human evaluation. 2) GPT-4 demonstrates a strong ability to explain discourse knowledge, even through it may select incorrect translation candidates in contrastive testing. 3) ChatGPT and GPT-4 have demonstrated superior performance and show potential to become a new and promising paradigm for document-level translation. This work highlights the challenges and opportunities of discourse modeling for LLMs, which we hope can inspire the future design and evaluation of LLMs. | 翻訳日:2023-04-06 13:39:15 公開日:2023-04-05 |
# PIKS:オープンヘルスケアデータによる政策立案者の行動可能なトレンドの特定手法 PIKS: A Technique to Identify Actionable Trends for Policy-Makers Through Open Healthcare Data ( http://arxiv.org/abs/2304.02208v1 ) ライセンス: Link先を確認 | A. Ravishankar Rao, Subrata Garai, Soumyabrata Dey, Hang Peng | (参考訳) 透明性向上を求める声が高まる中、政府は金融、教育、医療など複数の分野に大量のデータを公開している。
医療データの効率的な探索分析は重要な課題である。
公衆衛生における主な関心事は、トレンドの迅速な識別と分析、および外れ値の検出である。
これにより、政策は変化する状況に迅速に適応できる。
本稿では,反復k-meansアルゴリズムとpruned searchlight based scanを組み合わせた,pik(pruned iterative-k means searchlight)と呼ばれる効率的な異常検出手法を提案する。
この手法を応用して、ニューヨーク州全体計画研究協同システムとカリフォルニア州全体医療計画開発局の2つの医療データセットの異常者を特定する。
提案手法は, オートエンコーダ, 孤立林, 特徴袋など, 既存の3つの異常検出手法との比較を行った。
自殺率,免疫障害,社会的入院,心筋症,妊娠3年目には不妊症が認められた。
PIKS技術はオートエンコーダなどの他の手法と一致した結果が得られることを示す。
しかし、オートエンコーダをトレーニングする必要があるため、いくつかのパラメータをチューニングする必要がある。
対照的に、PIKS技術はチューニングするパラメータがはるかに少ない。
これにより、高速で"アウト・オブ・ボックス"なデータ探索にメリットがある。
PIKSテクニックはスケーラブルで、簡単に新しいデータセットを取り込みます。
したがって、市民、患者、政策立案者に価値ある最新の洞察を提供することができる。
私たちはコードをオープンソースにし、オープンデータを利用できるようにすることで、他の研究者も簡単に私たちの仕事を再現し、拡張することができます。
これにより、医療政策や公衆衛生問題に対する深い理解が促進される。 With calls for increasing transparency, governments are releasing greater amounts of data in multiple domains including finance, education and healthcare. The efficient exploratory analysis of healthcare data constitutes a significant challenge. Key concerns in public health include the quick identification and analysis of trends, and the detection of outliers. This allows policies to be rapidly adapted to changing circumstances. We present an efficient outlier detection technique, termed PIKS (Pruned iterative-k means searchlight), which combines an iterative k-means algorithm with a pruned searchlight based scan. We apply this technique to identify outliers in two publicly available healthcare datasets from the New York Statewide Planning and Research Cooperative System, and California's Office of Statewide Health Planning and Development. We provide a comparison of our technique with three other existing outlier detection techniques, consisting of auto-encoders, isolation forests and feature bagging. We identified outliers in conditions including suicide rates, immunity disorders, social admissions, cardiomyopathies, and pregnancy in the third trimester. We demonstrate that the PIKS technique produces results consistent with other techniques such as the auto-encoder. However, the auto-encoder needs to be trained, which requires several parameters to be tuned. In comparison, the PIKS technique has far fewer parameters to tune. This makes it advantageous for fast, "out-of-the-box" data exploration. The PIKS technique is scalable and can readily ingest new datasets. Hence, it can provide valuable, up-to-date insights to citizens, patients and policy-makers. We have made our code open source, and with the availability of open data, other researchers can easily reproduce and extend our work. This will help promote a deeper understanding of healthcare policies and public health issues. | 翻訳日:2023-04-06 13:38:51 公開日:2023-04-05 |
# MoocRadar:MOOCにおける認知的学生モデリングを改善するための細粒度多面的知識リポジトリ MoocRadar: A Fine-grained and Multi-aspect Knowledge Repository for Improving Cognitive Student Modeling in MOOCs ( http://arxiv.org/abs/2304.02205v1 ) ライセンス: Link先を確認 | Jifan Yu, Mengying Lu, Qingyang Zhong, Zijun Yao, Shangqing Tu, Zhengshan Liao, Xiaoya Li, Manli Li, Lei Hou, Hai-Tao Zheng, Juanzi Li, Jie Tang | (参考訳) 学生モデリングは、学生の学習特性を授業との相互作用を通じて推定するタスクであり、知的教育の根本的課題である。
知識追跡と認知診断の最近の試みでは、現在のモデルのユーザビリティと有効性を改善するためのいくつかの有望な方向が提案されているが、既存の公開データセットは、完全なエクササイズコンテキスト、きめ細かい概念、認知ラベルを欠いているため、これらの潜在的なソリューションの必要性を満たすには不十分である。
本稿では,2,513のエクササイズ質問,5,600の知識概念,1200万以上の行動記録からなる多視点知識リポジトリであるMoocRadarを紹介する。
具体的には,詳細な概念や認知ラベルの高品質かつ包括的アノテーションを保証する枠組みを提案する。
統計的および実験的結果は,我々のデータセットが,既存手法の今後の改良の基盤となることを示唆している。
さらに、研究者にとって便利な利用法をサポートするために、我々はデータクエリ、モデル適応、さらにはリポジトリの拡張のための一連のツールをリリースします。 Student modeling, the task of inferring a student's learning characteristics through their interactions with coursework, is a fundamental issue in intelligent education. Although the recent attempts from knowledge tracing and cognitive diagnosis propose several promising directions for improving the usability and effectiveness of current models, the existing public datasets are still insufficient to meet the need for these potential solutions due to their ignorance of complete exercising contexts, fine-grained concepts, and cognitive labels. In this paper, we present MoocRadar, a fine-grained, multi-aspect knowledge repository consisting of 2,513 exercise questions, 5,600 knowledge concepts, and over 12 million behavioral records. Specifically, we propose a framework to guarantee a high-quality and comprehensive annotation of fine-grained concepts and cognitive labels. The statistical and experimental results indicate that our dataset provides the basis for the future improvements of existing methods. Moreover, to support the convenient usage for researchers, we release a set of tools for data querying, model adaption, and even the extension of our repository, which are now available at https://github.com/THU-KEG/MOOC-Radar. | 翻訳日:2023-04-06 13:38:27 公開日:2023-04-05 |
# ヒートマップキャプションと大言語モデルを用いた深層ニューラルネットワークの自己説明可能性について Towards Self-Explainability of Deep Neural Networks with Heatmap Captioning and Large-Language Models ( http://arxiv.org/abs/2304.02202v1 ) ライセンス: Link先を確認 | Osman Tursun, Simon Denman, Sridha Sridharan, and Clinton Fookes | (参考訳) 熱マップはディープニューラルネットワーク、特にコンピュータビジョンタスクの解釈に広く使われており、熱マップに基づく説明可能なAI(XAI)技術はよく研究されているトピックである。
しかし、ほとんどの研究は生成したヒートマップの品質向上や代替ヒートマップ生成技術の発見に重点を置いており、ヒートマップベースのxaiを自動化し、インタラクティブで、スケーラブルで、アクセスしやすいものにする努力はほとんどなされていない。
このギャップに対処するために,(1)コンテキストモデリングと(2)推論という2つのモジュールを含むフレームワークを提案する。
本研究では,コンテキストモデリングのためのテンプレートベースの画像キャプション手法を提案し,ヒートマップと入力データからテキストベースのコンテキスト情報を生成する。
推論モジュールは大きな言語モデルを利用して、専門知識と組み合わせて説明を提供する。
定性的実験は,本フレームワークとヒートマップキャプション手法の有効性を示す。
テンプレートベースのヒートマップキャプションアプローチのコードが公開される予定だ。 Heatmaps are widely used to interpret deep neural networks, particularly for computer vision tasks, and the heatmap-based explainable AI (XAI) techniques are a well-researched topic. However, most studies concentrate on enhancing the quality of the generated heatmap or discovering alternate heatmap generation techniques, and little effort has been devoted to making heatmap-based XAI automatic, interactive, scalable, and accessible. To address this gap, we propose a framework that includes two modules: (1) context modelling and (2) reasoning. We proposed a template-based image captioning approach for context modelling to create text-based contextual information from the heatmap and input data. The reasoning module leverages a large language model to provide explanations in combination with specialised knowledge. Our qualitative experiments demonstrate the effectiveness of our framework and heatmap captioning approach. The code for the proposed template-based heatmap captioning approach will be publicly available. | 翻訳日:2023-04-06 13:38:05 公開日:2023-04-05 |
# 古典的および量子的スカイミオン状態のパターンの推定 Estimating Patterns of Classical and Quantum Skyrmion States ( http://arxiv.org/abs/2304.02201v1 ) ライセンス: Link先を確認 | Vladimir V. Mazurenko, Ilia A. Iakovlev, Oleg M. Sotnikov and Mikhail I. Katsnelson | (参考訳) 本稿では,強磁性体におけるハイゼンベルク等方性交換と競合するジアロシンスキイ・モリヤ相互作用から生じる磁気テクスチャを位相的に保護した磁気スカイミオンを特徴付ける機械学習アルゴリズムの開発に関する最新の結果について述べる。
古典的なスピンシステムには、その正確な位相分類と数個の磁化スナップショットに基づく定量的記述が可能な、マシンアプローチのプールが存在する。
古典的スーパーコンピュータによるそのような波動関数のシミュレーションには、基本的な制限があるため、量子スカイミオンの研究は、あまり検討されていない。
近い将来の量子コンピュータで量子skyrmionを模倣する方法を見つける必要がある。
そこで本研究では, 射影的測定から得られる限られたビット列数に基づいて, 古典的物体の構造的複雑性を推定し, 量子skyrmion状態のキャラクタリゼーションを行う手法の実装について検討する。 In this review we discuss the latest results concerning development of the machine learning algorithms for characterization of the magnetic skyrmions that are topologically-protected magnetic textures originated from the Dzyaloshinskii-Moriya interaction that competes Heisenberg isotropic exchange in ferromagnets. We show that for classical spin systems there is a whole pool of machine approaches allowing their accurate phase classification and quantitative description on the basis of few magnetization snapshots. In turn, investigation of the quantum skyrmions is a less explored issue, since there are fundamental limitations on the simulation of such wave functions with classical supercomputers. One needs to find the ways to imitate quantum skyrmions on near-term quantum computers. In this respect, we discuss implementation of the method for estimating structural complexity of classical objects for characterization of the quantum skyrmion state on the basis of limited number of bitstrings obtained from the projective measurements. | 翻訳日:2023-04-06 13:37:48 公開日:2023-04-05 |
# 回転アノテーションのない回転検出学習のための知識の組み合わせ Knowledge Combination to Learn Rotated Detection Without Rotated Annotation ( http://arxiv.org/abs/2304.02199v1 ) ライセンス: Link先を確認 | Tianyu Zhu, Bryce Ferenczi, Pulak Purkait, Tom Drummond, Hamid Rezatofighi, Anton van den Hengel | (参考訳) 回転バウンディングボックスは、細長いオブジェクトの出力あいまいさを大幅に減らし、軸方向のバウンディングボックスよりも優れている。
この効果にもかかわらず、回転検出器は広く使われていない。
回転するバウンディングボックスのアノテーションは、軸整合アノテーションを使用する多くの検出データセットでは提供されないため、面倒なプロセスである。
本稿では、ターゲットデータセット1のより安価な軸整合アノテーションのみを必要とする精度の高い回転ボックスを予測できるフレームワークを提案する。
これを実現するために、ニューラルネットワークは、タスクで利用されるものよりも、ターゲットドメインのリッチな表現を学習できるという事実を利用する。
未使用の表現は、より詳細なタスクに対処するために利用することができる。
我々のフレームワークは、ドメイン外のソースデータセットのタスク知識と、より強力なアノテーションとより弱いアノテーションでターゲットデータセットのドメイン知識を組み合わせる。
ソースとターゲットデータセットのコトレーニングを可能にするために、新しい割り当てプロセスとプロジェクションロスが使用される。
結果として、モデルは推論中にさらなる計算オーバーヘッドを伴わずに、ターゲットドメインのより詳細なタスクを解決できる。
本手法は, 新たに生成したデータセット, HRSC2016, SSDDなど, 様々なターゲットデータセットに対して広範囲に評価する。
その結果,提案手法は完全教師付き手法と同程度の性能を示した。 Rotated bounding boxes drastically reduce output ambiguity of elongated objects, making it superior to axis-aligned bounding boxes. Despite the effectiveness, rotated detectors are not widely employed. Annotating rotated bounding boxes is such a laborious process that they are not provided in many detection datasets where axis-aligned annotations are used instead. In this paper, we propose a framework that allows the model to predict precise rotated boxes only requiring cheaper axis-aligned annotation of the target dataset 1. To achieve this, we leverage the fact that neural networks are capable of learning richer representation of the target domain than what is utilized by the task. The under-utilized representation can be exploited to address a more detailed task. Our framework combines task knowledge of an out-of-domain source dataset with stronger annotation and domain knowledge of the target dataset with weaker annotation. A novel assignment process and projection loss are used to enable the co-training on the source and target datasets. As a result, the model is able to solve the more detailed task in the target domain, without additional computation overhead during inference. We extensively evaluate the method on various target datasets including fresh-produce dataset, HRSC2016 and SSDD. Results show that the proposed method consistently performs on par with the fully supervised approach. | 翻訳日:2023-04-06 13:37:36 公開日:2023-04-05 |
# EigenFold: 拡散モデルによる生成タンパク質構造予測 EigenFold: Generative Protein Structure Prediction with Diffusion Models ( http://arxiv.org/abs/2304.02198v1 ) ライセンス: Link先を確認 | Bowen Jing, Ezra Erives, Peter Pao-Huang, Gabriele Corso, Bonnie Berger, Tommi Jaakkola | (参考訳) タンパク質構造予測は単一構造上で革命的な精度に達したが、構造的アンサンブルと生物学的機能の基盤となる柔軟性を捉えるためには分布モデリングのパラダイムが必要である。
この目的に向けて,特定のタンパク質配列から構造分布をサンプリングする拡散生成モデリングフレームワークであるeigenfoldを開発した。
我々は、構造を調和振動子の系としてモデル化し、系の固有モードに沿ったカスケード分解生成過程を自然に誘導する拡散過程を定義する。
最近のCAMEOターゲットでは、EigenFoldは0.84の中央値のTMSスコアを達成し、既存の手法と比較してサンプル構造をアンサンブルすることで、より包括的なモデル不確実性を示す。
次に,折りたたみタンパク質のコンフォメーションの不均一性をモデル化し,予測する固有フォールドの能力とリガンドによるコンフォメーション変化を評価する。
コードはhttps://github.com/bjing2016/eigenfoldで入手できる。 Protein structure prediction has reached revolutionary levels of accuracy on single structures, yet distributional modeling paradigms are needed to capture the conformational ensembles and flexibility that underlie biological function. Towards this goal, we develop EigenFold, a diffusion generative modeling framework for sampling a distribution of structures from a given protein sequence. We define a diffusion process that models the structure as a system of harmonic oscillators and which naturally induces a cascading-resolution generative process along the eigenmodes of the system. On recent CAMEO targets, EigenFold achieves a median TMScore of 0.84, while providing a more comprehensive picture of model uncertainty via the ensemble of sampled structures relative to existing methods. We then assess EigenFold's ability to model and predict conformational heterogeneity for fold-switching proteins and ligand-induced conformational change. Code is available at https://github.com/bjing2016/EigenFold. | 翻訳日:2023-04-06 13:37:15 公開日:2023-04-05 |
# 拡散に基づく多ターン合成画像生成法 A Diffusion-based Method for Multi-turn Compositional Image Generation ( http://arxiv.org/abs/2304.02192v1 ) ライセンス: Link先を確認 | Chao Wang, Xiaoyu Yang, Jinmiao Huang, Kevin Ferreira | (参考訳) マルチターン合成画像生成(M-CIG)は、修正テキストが与えられた参照画像を反復的に操作することを目的とした課題である。
M-CIGの既存の手法のほとんどはGAN(Generative Adversarial Network)に基づいているが、画像生成の最近の進歩は、GANよりも拡散モデルの方が優れていることを示している。
本稿では,画像合成マッチング(CDD-ICM)を用いたM-CIGの拡散に基づく条件付き拡散法を提案する。
画像とテキストエンコーダのバックボーンとしてCLIPを活用し,元来質問応答のためのゲート融合機構を導入し,M-CIGの各ターンで参照画像と修正テキストを合成的に融合させる。
融合結果に基づいて目標画像を生成する条件付きスキームを導入する。
生成した対象画像の意味的品質を優先するために、マルチタスク学習フレームワークにおいて、条件付き雑音拡散(cdd)目標と共に、補助画像合成マッチング(icm)目標を学習する。
また、性能向上のため、ICMガイダンスや分類器フリーガイダンスも実施する。
実験の結果,CDD-ICMはM-CIG,すなわちCoDrawとi-CLEVRの2つのベンチマークデータセットに対して,最先端の結果が得られることがわかった。 Multi-turn compositional image generation (M-CIG) is a challenging task that aims to iteratively manipulate a reference image given a modification text. While most of the existing methods for M-CIG are based on generative adversarial networks (GANs), recent advances in image generation have demonstrated the superiority of diffusion models over GANs. In this paper, we propose a diffusion-based method for M-CIG named conditional denoising diffusion with image compositional matching (CDD-ICM). We leverage CLIP as the backbone of image and text encoders, and incorporate a gated fusion mechanism, originally proposed for question answering, to compositionally fuse the reference image and the modification text at each turn of M-CIG. We introduce a conditioning scheme to generate the target image based on the fusion results. To prioritize the semantic quality of the generated target image, we learn an auxiliary image compositional match (ICM) objective, along with the conditional denoising diffusion (CDD) objective in a multi-task learning framework. Additionally, we also perform ICM guidance and classifier-free guidance to improve performance. Experimental results show that CDD-ICM achieves state-of-the-art results on two benchmark datasets for M-CIG, i.e., CoDraw and i-CLEVR. | 翻訳日:2023-04-06 13:36:58 公開日:2023-04-05 |
# JPEG圧縮画像はAI編集に対する保護を回避できる JPEG Compressed Images Can Bypass Protections Against AI Editing ( http://arxiv.org/abs/2304.02234v1 ) ライセンス: Link先を確認 | Pedro Sandoval-Segura, Jonas Geiping, Tom Goldstein | (参考訳) 近年開発されたテキスト画像拡散モデルにより,高品質な画像の編集や作成が容易になった。
彼らの使いやすさは悪質な編集やディープフェイク作成の可能性を懸念している。
拡散モデルが現実的な画像を生成するのを防ぎ、悪意のある編集から画像を保護する手段として、知覚不能な摂動が提案されている。
しかし、上記の摂動はJPEG圧縮に対して堅牢ではないことが判明し、JPEGの一般的な使用法と可用性のために大きな弱点が生じる。
付加的不可視摂動に対するロバスト性の重要性を議論し,画像の編集防止のための代替手法を推奨する。 Recently developed text-to-image diffusion models make it easy to edit or create high-quality images. Their ease of use has raised concerns about the potential for malicious editing or deepfake creation. Imperceptible perturbations have been proposed as a means of protecting images from malicious editing by preventing diffusion models from generating realistic images. However, we find that the aforementioned perturbations are not robust to JPEG compression, which poses a major weakness because of the common usage and availability of JPEG. We discuss the importance of robustness for additive imperceptible perturbations and encourage alternative approaches to protect images against editing. | 翻訳日:2023-04-06 13:30:58 公開日:2023-04-05 |
# Ericson:対話型オープンドメイン会話検索エージェント Ericson: An Interactive Open-Domain Conversational Search Agent ( http://arxiv.org/abs/2304.02233v1 ) ライセンス: Link先を確認 | Zihao Wang, Ali Ahmadvand, Jason Choi, Payam Karisani, Eugene Agichtein | (参考訳) オープンドメイン会話検索(ODCS)は、ユーザが情報ニーズを洗練し、最終的に答えるために自然な会話を維持しながら、価値ある最新情報を提供することを目的としている。
しかし、効果的で堅牢なODCSエージェントの作成は困難である。
本稿では,現在最先端の質問応答と情報検索機能を備えたフル機能型ODCSシステムであるEricsonと,アクティブな質問修正とレコメンデーションのための意図推論と対話管理モデルを提案する。
私たちのシステムは、何千ものAlexaユーザとライブ会話を行うことで、Amazon Alexa Prizeでストレステストを行い、実際の設定でODCSシステムを分析するための実証的な基盤を提供しました。
インタラクションデータ分析の結果,正確な意図分類,ユーザエンゲージメントの促進,注意深いプロアクティブレコメンデーションがユーザの満足度に大きく貢献することがわかった。
本研究は,既存の検索手法の限界を明らかにし,次世代ODCSエージェントのビルディングブロックとして機能する。 Open-domain conversational search (ODCS) aims to provide valuable, up-to-date information, while maintaining natural conversations to help users refine and ultimately answer information needs. However, creating an effective and robust ODCS agent is challenging. In this paper, we present a fully functional ODCS system, Ericson, which includes state-of-the-art question answering and information retrieval components, as well as intent inference and dialogue management models for proactive question refinement and recommendations. Our system was stress-tested in the Amazon Alexa Prize, by engaging in live conversations with thousands of Alexa users, thus providing empirical basis for the analysis of the ODCS system in real settings. Our interaction data analysis revealed that accurate intent classification, encouraging user engagement, and careful proactive recommendations contribute most to the users satisfaction. Our study further identifies limitations of the existing search techniques, and can serve as a building block for the next generation of ODCS agents. | 翻訳日:2023-04-06 13:30:49 公開日:2023-04-05 |
# 近似メッセージパッシングによる混合回帰 Mixed Regression via Approximate Message Passing ( http://arxiv.org/abs/2304.02229v1 ) ライセンス: Link先を確認 | Nelvin Tan, Ramji Venkataramanan | (参考訳) 複数の信号と潜伏変数を持つ一般化線形モデル(GLM)における回帰問題について検討する。
行列 GLM と呼ばれるこのモデルは、線形回帰、最大アフィン回帰、およびエキスパートの混合を含む、統計学習における多くの広く研究されている問題をカバーしている。
混合線形回帰では、各観測は1つの$L$信号ベクトル(回帰器)から来るが、どれかはわからない。
これらの問題すべてにおける目標は、観測から信号や潜在的変数を推定することである。
本稿では,行列 GLM における推定のための新しい近似メッセージパッシング (AMP) アルゴリズムを提案し,その性能を高次元限界で厳密に評価する。
この特性は状態の進化的再帰を考慮し、漸近平均二乗誤差のような性能測定を正確に計算することができる。
状態進化のキャラクタリゼーションは、AMPアルゴリズムを調整して、信号に関する構造情報を利用することができる。
状態の進化を用いて、各イテレーションにおける推定誤差を最小限に抑える AMP `denoising' 関数の最適選択を導出する。
理論的結果は, 混合線形回帰, 最大アフィン回帰, および混合実験の数値シミュレーションにより検証された。
最大アフィン回帰のために、AMPと予測最大化を組み合わせたアルゴリズムを提案し、その信号とともにモデルのインターセプトを推定する。
数値的な結果から,AMPは,多くのパラメータ系において線形回帰と最大偏差の混合に対して,他の推定値よりも有意に優れていた。 We study the problem of regression in a generalized linear model (GLM) with multiple signals and latent variables. This model, which we call a matrix GLM, covers many widely studied problems in statistical learning, including mixed linear regression, max-affine regression, and mixture-of-experts. In mixed linear regression, each observation comes from one of $L$ signal vectors (regressors), but we do not know which one; in max-affine regression, each observation comes from the maximum of $L$ affine functions, each defined via a different signal vector. The goal in all these problems is to estimate the signals, and possibly some of the latent variables, from the observations. We propose a novel approximate message passing (AMP) algorithm for estimation in a matrix GLM and rigorously characterize its performance in the high-dimensional limit. This characterization is in terms of a state evolution recursion, which allows us to precisely compute performance measures such as the asymptotic mean-squared error. The state evolution characterization can be used to tailor the AMP algorithm to take advantage of any structural information known about the signals. Using state evolution, we derive an optimal choice of AMP `denoising' functions that minimizes the estimation error in each iteration. The theoretical results are validated by numerical simulations for mixed linear regression, max-affine regression, and mixture-of-experts. For max-affine regression, we propose an algorithm that combines AMP with expectation-maximization to estimate intercepts of the model along with the signals. The numerical results show that AMP significantly outperforms other estimators for mixed linear regression and max-affine regression in most parameter regimes. | 翻訳日:2023-04-06 13:30:32 公開日:2023-04-05 |
# BiFormer: 4Kビデオフレーム補間のためのバイラテラル変換器によるバイラテラル動作推定学習 BiFormer: Learning Bilateral Motion Estimation via Bilateral Transformer for 4K Video Frame Interpolation ( http://arxiv.org/abs/2304.02225v1 ) ライセンス: Link先を確認 | Junheum Park, Jintae Kim, Chang-Su Kim | (参考訳) 本稿では,2値変換器(BiFormer)をベースとした新しい4Kビデオフレーム補間器を提案し,大域的動き推定,局所的動き補正,フレーム合成の3ステップを実行する。
まず,大域的運動推定において,左右対称運動場を粗大に予測する。
そこで本研究では,最初の変圧器を用いたバイフォーマを提案する。
第2に,blockwise bilateral cost volume (bbcvs) を用いて,全球運動場を効率的に精製する。
第3に、洗練された運動場を用いて入力フレームをワープし、それらをブレンドして中間フレームを合成する。
大規模実験により、4kデータセットの補間性能に優れたbiformerアルゴリズムが得られた。
ソースコードはhttps://github.com/junheum/biformerで入手できる。 A novel 4K video frame interpolator based on bilateral transformer (BiFormer) is proposed in this paper, which performs three steps: global motion estimation, local motion refinement, and frame synthesis. First, in global motion estimation, we predict symmetric bilateral motion fields at a coarse scale. To this end, we propose BiFormer, the first transformer-based bilateral motion estimator. Second, we refine the global motion fields efficiently using blockwise bilateral cost volumes (BBCVs). Third, we warp the input frames using the refined motion fields and blend them to synthesize an intermediate frame. Extensive experiments demonstrate that the proposed BiFormer algorithm achieves excellent interpolation performance on 4K datasets. The source codes are available at https://github.com/JunHeum/BiFormer. | 翻訳日:2023-04-06 13:30:03 公開日:2023-04-05 |
# 局所内在的次元エントロピー Local Intrinsic Dimensional Entropy ( http://arxiv.org/abs/2304.02223v1 ) ライセンス: Link先を確認 | Rohan Ghosh, Mehul Motani | (参考訳) ほとんどのエントロピー測度は、サンプル空間 X 上の確率分布の拡散に依存し、最大エントロピー到達可能なスケールはサンプル空間の濃度 |X| に比例する。
有限 |x| に対して、これは単射への不変性など多くの重要な性質を満たすロバストなエントロピー測度を与えるが、連続空間(|x|=無限性)では同じことが当てはまらない。
さらに、R と R^d (d in Z+) は(カントールの対応論から)同じ濃度を持つので、濃度依存エントロピー測度はデータ次元を符号化することはできない。
本研究では,連続空間におけるエントロピー測度の定義における濃度と分布の広がりの役割について疑問視する。
分布の局所固有次元の平均値は、ID-エントロピー(ID-Entropy)と呼ばれ、連続空間の強エントロピー測度として機能し、データの次元を捉えることができる。
ID-エントロピーは多くの望ましい性質を満足し、条件付きエントロピー、関節エントロピー、相互情報不変量にまで拡張できる。
ID-エントロピーは新たな情報ボトルネックの原則と因果関係ももたらします。
ディープラーニングの文脈では、フィードフォワードアーキテクチャにおいて、ターゲット関数がリプシッツ連続であるとき、隠れ層のIDエントロピーが、分類器とオートエンコーダの両方の一般化ギャップを直接制御していることを示す。
本研究は, 連続空間において, 統計的アプローチではなく構造的手法を用いると, 内在的なデータ次元を保存するエントロピー尺度が得られ, 各種アーキテクチャの研究に関係があることを主に示している。 Most entropy measures depend on the spread of the probability distribution over the sample space X, and the maximum entropy achievable scales proportionately with the sample space cardinality |X|. For a finite |X|, this yields robust entropy measures which satisfy many important properties, such as invariance to bijections, while the same is not true for continuous spaces (where |X|=infinity). Furthermore, since R and R^d (d in Z+) have the same cardinality (from Cantor's correspondence argument), cardinality-dependent entropy measures cannot encode the data dimensionality. In this work, we question the role of cardinality and distribution spread in defining entropy measures for continuous spaces, which can undergo multiple rounds of transformations and distortions, e.g., in neural networks. We find that the average value of the local intrinsic dimension of a distribution, denoted as ID-Entropy, can serve as a robust entropy measure for continuous spaces, while capturing the data dimensionality. We find that ID-Entropy satisfies many desirable properties and can be extended to conditional entropy, joint entropy and mutual-information variants. ID-Entropy also yields new information bottleneck principles and also links to causality. In the context of deep learning, for feedforward architectures, we show, theoretically and empirically, that the ID-Entropy of a hidden layer directly controls the generalization gap for both classifiers and auto-encoders, when the target function is Lipschitz continuous. Our work primarily shows that, for continuous spaces, taking a structural rather than a statistical approach yields entropy measures which preserve intrinsic data dimensionality, while being relevant for studying various architectures. | 翻訳日:2023-04-06 13:29:50 公開日:2023-04-05 |
# DiGA: 一般化とドメイン適応セマンティックセマンティックセグメンテーションへの適応 DiGA: Distil to Generalize and then Adapt for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2304.02222v1 ) ライセンス: Link先を確認 | Fengyi Shen, Akhil Gurram, Ziyuan Liu, He Wang, Alois Knoll | (参考訳) ドメイン適応型セマンティックセグメンテーション法は、ウォームアップと自己学習段階からなるステージワイズトレーニングを一般的に利用する。
しかし、この一般的なアプローチは、各ステージにおいていくつかの課題に直面している: ウォームアップでは、広く採用されている敵のトレーニングは、視覚的特徴のアライメントによって、パフォーマンスが制限されることが多い。
これらの問題を緩和するため、まず、ウォームアップ段階での敵対的トレーニングを、ソースドメインデータのみにアクセスし、モデルドメインを一般化可能な、新しい対称知識蒸留モジュールに置き換えることを提案する。
驚くべきことに、このドメインの一般化可能なウォームアップモデルは、性能を大幅に向上させ、提案したクロスドメイン混合データ拡張技術によりさらに増幅することができる。
そして, 自己学習段階において, 上記のしきい値問題を緩和し, モデルが対象領域に適合するように, しきい値のない動的擬似ラベル選択機構を提案する。
大規模な実験により、我々のフレームワークは、一般的なベンチマークの先行技術と比較して、目覚ましい、一貫した改善を達成している。
コードとモデルはhttps://github.com/fy-vision/digaで入手できる。 Domain adaptive semantic segmentation methods commonly utilize stage-wise training, consisting of a warm-up and a self-training stage. However, this popular approach still faces several challenges in each stage: for warm-up, the widely adopted adversarial training often results in limited performance gain, due to blind feature alignment; for self-training, finding proper categorical thresholds is very tricky. To alleviate these issues, we first propose to replace the adversarial training in the warm-up stage by a novel symmetric knowledge distillation module that only accesses the source domain data and makes the model domain generalizable. Surprisingly, this domain generalizable warm-up model brings substantial performance improvement, which can be further amplified via our proposed cross-domain mixture data augmentation technique. Then, for the self-training stage, we propose a threshold-free dynamic pseudo-label selection mechanism to ease the aforementioned threshold problem and make the model better adapted to the target domain. Extensive experiments demonstrate that our framework achieves remarkable and consistent improvements compared to the prior arts on popular benchmarks. Codes and models are available at https://github.com/fy-vision/DiGA | 翻訳日:2023-04-06 13:29:18 公開日:2023-04-05 |
# 半教師付き異常検出のための異常サンプルのゼロショット領域適応 Zero-shot domain adaptation of anomalous samples for semi-supervised anomaly detection ( http://arxiv.org/abs/2304.02221v1 ) ライセンス: Link先を確認 | Tomoya Nishida and Takashi Endo and Yohei Kawaguchi | (参考訳) semi-supervised anomaly detection~(ssad)は、通常のデータと限られた数の異常データがトレーニングに利用できるタスクである。
実際の状況では、ssadメソッドは、トレーニングフェーズでターゲットドメインに対して異常なデータが利用できないため、ドメインシフトへの適応に苦しむ。
この問題を解決するために,ターゲット領域に異常なデータが存在しないSSADのドメイン適応手法を提案する。
まず,可変オートエンコーダに基づくssadモデルにドメイン逆ネットワークを導入し,ドメイン不変な潜在変数を得る。
デコーダは、ドメイン不変の潜在変数からのみオリジナルのデータを再構成できないため、デコーダをドメインラベルに条件付けした。
対象領域の異常なデータの欠落を補うために,理想的損失関数に近似したサンプリングに基づく重み付き損失関数を導入する。
実験の結果,提案手法は,対象領域に異常データがない場合に,対象領域にSSADモデルを適用するのに役立つことがわかった。 Semi-supervised anomaly detection~(SSAD) is a task where normal data and a limited number of anomalous data are available for training. In practical situations, SSAD methods suffer adapting to domain shifts, since anomalous data are unlikely to be available for the target domain in the training phase. To solve this problem, we propose a domain adaptation method for SSAD where no anomalous data are available for the target domain. First, we introduce a domain-adversarial network to a variational auto-encoder-based SSAD model to obtain domain-invariant latent variables. Since the decoder cannot reconstruct the original data solely from domain-invariant latent variables, we conditioned the decoder on the domain label. To compensate for the missing anomalous data of the target domain, we introduce an importance sampling-based weighted loss function that approximates the ideal loss function. Experimental results indicate that the proposed method helps adapt SSAD models to the target domain when no anomalous data are available for the target domain. | 翻訳日:2023-04-06 13:28:56 公開日:2023-04-05 |
# 放射状基底関数ニューラルネットワークの普遍近似特性について On the universal approximation property of radial basis function neural networks ( http://arxiv.org/abs/2304.02220v1 ) ライセンス: Link先を確認 | Aysu Ismayilova and Muhammad Ismayilov | (参考訳) 本稿では,スムージング因子をシフトに置き換えたRBF(Radial Basis Function)ニューラルネットワークの新たなクラスについて考察する。
活性化関数のある条件下では、これらのネットワークは、d$-次元ユークリッド空間の任意のコンパクト部分集合上の任意の連続多変数関数を近似することができる。
有限個の固定セントロイドを持つRBFネットワークに対して、任意の精度で近似を保証する条件を記述する。 In this paper we consider a new class of RBF (Radial Basis Function) neural networks, in which smoothing factors are replaced with shifts. We prove under certain conditions on the activation function that these networks are capable of approximating any continuous multivariate function on any compact subset of the $d$-dimensional Euclidean space. For RBF networks with finitely many fixed centroids we describe conditions guaranteeing approximation with arbitrary precision. | 翻訳日:2023-04-06 13:28:39 公開日:2023-04-05 |
# 領域シフトによる産業的異常検出:実世界データセットとマスキングマルチスケール再構築 Industrial Anomaly Detection with Domain Shift: A Real-world Dataset and Masked Multi-scale Reconstruction ( http://arxiv.org/abs/2304.02216v1 ) ライセンス: Link先を確認 | Zilong Zhang, Zhibin Zhao, Xingwu Zhang, Chuang Sun, Xuefeng Chen | (参考訳) 産業品質検査の自動化には産業異常検出(iad)が不可欠である。
データセットの多様性は、包括的なiadアルゴリズムを開発する基盤である。
既存のIADデータセットは、同じデータカテゴリ内のドメインの多様性を見越して、データカテゴリの多様性に焦点を当てている。
本稿では,このギャップを埋めるため,単刃データセットとビデオ異常検出データセットの2つのサブデータセットからなるaebad(aero-engine blade anomaly detection)データセットを提案する。
既存のデータセットと比較して、AeBADには以下の2つの特徴がある。
1) 対象のサンプルは、異なるスケールでアライメントされていない。
2) テストセット内の通常のサンプルの分布とトレーニングセットとの間にはドメインシフトがあり、そこでは、主に照明とビューの変化によってドメインシフトが発生する。
このデータセットに基づいて、テストセット内の通常のサンプルのドメインがシフトした場合、現在のSOTA (State-of-the-art) IADメソッドは制限を示す。
そこで本研究では, 標準試料中のパッチ間の因果関係をマスキング・マルチスケール・リコンストラクション(mmr)により推定する手法を提案する。
MMRは、AeBADデータセット上のSOTA法よりも優れた性能を実現する。
さらに、MMRは、MVTec ADデータセット上で異なるタイプの異常を検出するSOTA法との競合性能を達成する。
コードとデータセットはhttps://github.com/zhangzilongc/MMRで入手できる。 Industrial anomaly detection (IAD) is crucial for automating industrial quality inspection. The diversity of the datasets is the foundation for developing comprehensive IAD algorithms. Existing IAD datasets focus on the diversity of data categories, overlooking the diversity of domains within the same data category. In this paper, to bridge this gap, we propose the Aero-engine Blade Anomaly Detection (AeBAD) dataset, consisting of two sub-datasets: the single-blade dataset and the video anomaly detection dataset of blades. Compared to existing datasets, AeBAD has the following two characteristics: 1.) The target samples are not aligned and at different scales. 2.) There is a domain shift between the distribution of normal samples in the test set and the training set, where the domain shifts are mainly caused by the changes in illumination and view. Based on this dataset, we observe that current state-of-the-art (SOTA) IAD methods exhibit limitations when the domain of normal samples in the test set undergoes a shift. To address this issue, we propose a novel method called masked multi-scale reconstruction (MMR), which enhances the model's capacity to deduce causality among patches in normal samples by a masked reconstruction task. MMR achieves superior performance compared to SOTA methods on the AeBAD dataset. Furthermore, MMR achieves competitive performance with SOTA methods to detect the anomalies of different types on the MVTec AD dataset. Code and dataset are available at https://github.com/zhangzilongc/MMR. | 翻訳日:2023-04-06 13:28:30 公開日:2023-04-05 |
# LogoNet: インスタンスレベルのロゴのスケッチ検索のためのきめ細かいネットワーク LogoNet: a fine-grained network for instance-level logo sketch retrieval ( http://arxiv.org/abs/2304.02214v1 ) ライセンス: Link先を確認 | Binbin Feng, Jun Li, Jianhua Xu | (参考訳) スケッチをクエリとして使用して,同じクエリインスタンスを含む画像を取得することを目的とした,スケッチベースの画像検索が近年注目を集めている。
スケッチの検索は劇的な進歩を遂げているが、ロゴのスケッチの検索は、通常、不規則なストロークと行のみを含む視覚的なコンテンツがはるかに少ないため、ロゴのスケッチの検索は典型的なスケッチの検索問題よりも困難である。
第二に、インスタンス固有のスケッチは劇的な外観のばらつきを示し、同じロゴインスタンスを問い合わせるときに識別しにくくする。
第3に、最近のスケッチ検索ベンチマークデータセットはいくつか存在するが、インスタンスレベルのロゴスケッチデータセットはまだ公開されていない。
上記の制限に対処するため,本研究では,事例レベルのロゴスケッチ検索に2つの貢献をしている。
まず、2kのロゴインスタンスと9kのスケッチを含むインスタンスレベルのロゴスケッチデータセットを構築する。
私たちの知る限り、これは初めて公開されたインスタンスレベルのロゴスケッチデータセットです。
次に,ロゴの正確なスケッチ検索のために,LogoNetと呼ばれるハイブリッドアテンション機構に基づく3分岐CNNアーキテクチャを開発する。
より具体的には、トリプルブランチアーキテクチャにハイブリッドアテンション機構を組み込んで、ロゴスケッチの限られた視覚的な手がかりから重要なクエリ特有の情報をキャプチャします。
構築したデータセットと公開ベンチマークデータセットの両方で実験的評価を行い,提案するネットワークの有効性を実証した。 Sketch-based image retrieval, which aims to use sketches as queries to retrieve images containing the same query instance, receives increasing attention in recent years. Although dramatic progress has been made in sketch retrieval, few efforts are devoted to logo sketch retrieval which is still hindered by the following challenges: Firstly, logo sketch retrieval is more difficult than typical sketch retrieval problem, since a logo sketch usually contains much less visual contents with only irregular strokes and lines. Secondly, instance-specific sketches demonstrate dramatic appearance variances, making them less identifiable when querying the same logo instance. Thirdly, there exist several sketch retrieval benchmarking datasets nowadays, whereas an instance-level logo sketch dataset is still publicly unavailable. To address the above-mentioned limitations, we make twofold contributions in this study for instance-level logo sketch retrieval. To begin with, we construct an instance-level logo sketch dataset containing 2k logo instances and exceeding 9k sketches. To our knowledge, this is the first publicly available instance-level logo sketch dataset. Next, we develop a fine-grained triple-branch CNN architecture based on hybrid attention mechanism termed LogoNet for accurate logo sketch retrieval. More specifically, we embed the hybrid attention mechanism into the triple-branch architecture for capturing the key query-specific information from the limited visual cues in the logo sketches. Experimental evaluations both on our assembled dataset and public benchmark datasets demonstrate the effectiveness of our proposed network. | 翻訳日:2023-04-06 13:28:06 公開日:2023-04-05 |
# 基礎モデルを用いた効率的なタスク駆動モデル再プログラミングに向けて Towards Efficient Task-Driven Model Reprogramming with Foundation Models ( http://arxiv.org/abs/2304.02263v1 ) ライセンス: Link先を確認 | Shoukai Xu, Jiangchao Yao, Ran Luo, Shuhai Zhang, Zihao Lian, Mingkui Tan, Yaowei Wang | (参考訳) vision foundationモデルには、非常に大きなモデルキャパシティと幅広いトレーニングデータによるメリットがある。
しかし、実際には、下流のシナリオは限られた計算資源や効率を考慮した小さなモデルしかサポートしない。
さらに、基礎モデルの事前学習に使用されるデータは、通常見えず、下流タスクのターゲットデータと非常に異なる。
基盤モデルの知識を、下流のターゲットデータだけでまったく異なるアーキテクチャを持つ下流のタスクに転送する必要があります。
既存の転写学習や知識蒸留の方法は、同じモデル構造か基礎モデルの微調整に依存する。
したがって、これらの方法を導入することは、実現不可能または非常に非効率である。
そこで我々はタスク駆動モデル再プログラミング(tdmr)フレームワークを提案する。
具体的には、知識をプロキシ空間に投影するために基礎モデルを再構成し、タスクミスマッチとドメインの不整合の悪影響を軽減する。
次に,対象モデルをプログレッシブ蒸留によりプロキシ空間から再プログラムし,再プログラムされた基礎モデルから知識を効率的に学習する。
TDMRは、様々な事前訓練されたモデルタイプ(CNN、トランスフォーマーまたはそれらの混合)と限られたターゲットデータと互換性があり、視覚基盤モデルの幅広い応用を低コストでダウンストリームタスクに促進する。
異なる下流分類タスクとターゲットモデル構造に関する広範囲な実験により,cnnとtransformer foundationモデルの両方を用いた提案手法の有効性が実証された。 Vision foundation models exhibit impressive power, benefiting from the extremely large model capacity and broad training data. However, in practice, downstream scenarios may only support a small model due to the limited computational resources or efficiency considerations. Moreover, the data used for pretraining foundation models are usually invisible and very different from the target data of downstream tasks. This brings a critical challenge for the real-world application of foundation models: one has to transfer the knowledge of a foundation model to the downstream task that has a quite different architecture with only downstream target data. Existing transfer learning or knowledge distillation methods depend on either the same model structure or finetuning of the foundation model. Thus, naively introducing these methods can be either infeasible or very inefficient. To address this, we propose a Task-Driven Model Reprogramming (TDMR) framework. Specifically, we reprogram the foundation model to project the knowledge into a proxy space, which alleviates the adverse effect of task mismatch and domain inconsistency. Then, we reprogram the target model via progressive distillation from the proxy space to efficiently learn the knowledge from the reprogrammed foundation model. TDMR is compatible with different pre-trained model types (CNN, transformer or their mix) and limited target data, and promotes the wide applications of vision foundation models to downstream tasks in a cost-effective manner. Extensive experiments on different downstream classification tasks and target model structures demonstrate the effectiveness of our methods with both CNNs and transformer foundation models. | 翻訳日:2023-04-06 13:21:24 公開日:2023-04-05 |
# 確率勾配オンライン学習によるロバスト最適化のための量子アルゴリズム Quantum algorithm for robust optimization via stochastic-gradient online learning ( http://arxiv.org/abs/2304.02262v1 ) ライセンス: Link先を確認 | Debbie Lim, Jo\~ao F. Doriguello, Patrick Rebentrost | (参考訳) 最適化理論は学界で広く研究されており、産業における様々な応用を見出している。
離散的および/または連続的な設定における異なる最適化モデルは、豊富な研究問題の源泉となっている。
ロバスト凸最適化(Robust convex optimization)は、変数やパラメータがある種の不確実性を持つ最適化理論の分野である。
本研究では,ben-talらによるオンラインロバスト最適化メタアルゴリズムを考察し,多くの確率的下位勾配に対して,このアルゴリズムが元の非確率的バージョンと同じ保証を持つことを示す。
我々は,このアルゴリズムの量子バージョンを開発し,少なくとも次元の2次改善が達成可能であることを示す。
高速化は、量子状態準備、量子ノルム推定、量子マルチサンプリングの使用によるものである。
量子メタアルゴリズムをロバスト線形プログラムやロバスト半定値プログラムなどの例に適用し、これらのロバスト最適化問題を金融や工学に応用する。 Optimization theory has been widely studied in academia and finds a large variety of applications in industry. The different optimization models in their discrete and/or continuous settings has catered to a rich source of research problems. Robust convex optimization is a branch of optimization theory in which the variables or parameters involved have a certain level of uncertainty. In this work, we consider the online robust optimization meta-algorithm by Ben-Tal et al. and show that for a large range of stochastic subgradients, this algorithm has the same guarantee as the original non-stochastic version. We develop a quantum version of this algorithm and show that an at most quadratic improvement in terms of the dimension can be achieved. The speedup is due to the use of quantum state preparation, quantum norm estimation, and quantum multi-sampling. We apply our quantum meta-algorithm to examples such as robust linear programs and robust semidefinite programs and give applications of these robust optimization problems in finance and engineering. | 翻訳日:2023-04-06 13:21:02 公開日:2023-04-05 |
# Sparse Linear Regressionのための最適スケッチ境界 Optimal Sketching Bounds for Sparse Linear Regression ( http://arxiv.org/abs/2304.02261v1 ) ライセンス: Link先を確認 | Tung Mai, Alexander Munteanu, Cameron Musco, Anup B. Rao, Chris Schwiegelshohn, David P. Woodruff | (参考訳) 我々は,$\ell_p$ ノルムや,ロジスティック損失や relu 損失を含むヒンジ様損失関数の幅広いクラスから,様々な損失関数の下での $k$-sparse 線形回帰に対する不明瞭なスケッチについて検討する。
スパース $\ell_2$ のノルム回帰では、_\theta(k\log(d/k)/\varepsilon^2)$行を持つ斜めスケッチの上に分布があり、定数係数に密着している。
これは$\ell_p$ に拡張され、上界に$o(k\log(k/\varepsilon)/\varepsilon^2)$項を追加する。
これは、スパース回帰の重要な特別なケースである関連するスパース回復問題との驚くべき分離を確立する。
この問題に対して、$\ell_2$ のノルムの下では、$o(k \log (d)/\varepsilon + k\log(k/\varepsilon)/\varepsilon^2)$ の上限を観測し、スパースリカバリがスパースレグレッションよりも厳密にスケッチしやすいことを示した。
スパースロジスティックおよびスパースReLU回帰を含むヒンジ様損失関数のスパース回帰に対して、$O(\mu^2 k\log(\mu n d/\varepsilon)/\varepsilon^2)$ rows suffice, $\mu$は損失関数の相対的な誤差境界を得るために必要となる自然な複雑性パラメータであることを示す最初のスケッチ境界を与える。
再び、この次元は厳密で、より低い順序項と$\mu$への依存であることが示される。
最後に、類似のスケッチ境界は、スパース回帰の一般的な凸緩和であるLASSO回帰に対して達成できることを示し、ここでは、$\|Ax-b\|_2^2+\lambda\|x\|_1$ over $x\in\mathbb{R}^d$ を最小化する。
スケッチ次元 $o(\log(d)/(\lambda \varepsilon)^2)$ suffices と $d$ と $\lambda$ への依存が密であることを示す。 We study oblivious sketching for $k$-sparse linear regression under various loss functions such as an $\ell_p$ norm, or from a broad class of hinge-like loss functions, which includes the logistic and ReLU losses. We show that for sparse $\ell_2$ norm regression, there is a distribution over oblivious sketches with $\Theta(k\log(d/k)/\varepsilon^2)$ rows, which is tight up to a constant factor. This extends to $\ell_p$ loss with an additional additive $O(k\log(k/\varepsilon)/\varepsilon^2)$ term in the upper bound. This establishes a surprising separation from the related sparse recovery problem, which is an important special case of sparse regression. For this problem, under the $\ell_2$ norm, we observe an upper bound of $O(k \log (d)/\varepsilon + k\log(k/\varepsilon)/\varepsilon^2)$ rows, showing that sparse recovery is strictly easier to sketch than sparse regression. For sparse regression under hinge-like loss functions including sparse logistic and sparse ReLU regression, we give the first known sketching bounds that achieve $o(d)$ rows showing that $O(\mu^2 k\log(\mu n d/\varepsilon)/\varepsilon^2)$ rows suffice, where $\mu$ is a natural complexity parameter needed to obtain relative error bounds for these loss functions. We again show that this dimension is tight, up to lower order terms and the dependence on $\mu$. Finally, we show that similar sketching bounds can be achieved for LASSO regression, a popular convex relaxation of sparse regression, where one aims to minimize $\|Ax-b\|_2^2+\lambda\|x\|_1$ over $x\in\mathbb{R}^d$. We show that sketching dimension $O(\log(d)/(\lambda \varepsilon)^2)$ suffices and that the dependence on $d$ and $\lambda$ is tight. | 翻訳日:2023-04-06 13:20:45 公開日:2023-04-05 |
# デジタル病理学のためのトポロジー誘導マルチクラスセルコンテキスト生成 Topology-Guided Multi-Class Cell Context Generation for Digital Pathology ( http://arxiv.org/abs/2304.02255v1 ) ライセンス: Link先を確認 | Shahira Abousamra, Rajarsi Gupta, Tahsin Kurc, Dimitris Samaras, Joel Saltz and Chao Chen | (参考訳) デジタル病理学では、細胞の空間的文脈は細胞分類、癌診断、予後において重要である。
しかし、このような複雑な細胞コンテキストをモデル化することは困難である。
細胞は異なる混合物、系統、クラスター、穴を形成する。
このような構造パターンを学習可能な方法でモデル化するために,空間統計学とトポロジカルデータ解析からいくつかの数学的ツールを導入する。
このような構造記述子を条件入力と微分可能な損失の両方として深部生成モデルに組み込む。
これにより、高品質なマルチクラスセルレイアウトを初めて生成することが可能になります。
トポロジに富んだセルレイアウトは,データ拡張やセル分類などの下流タスクの性能向上に有効であることを示す。 In digital pathology, the spatial context of cells is important for cell classification, cancer diagnosis and prognosis. To model such complex cell context, however, is challenging. Cells form different mixtures, lineages, clusters and holes. To model such structural patterns in a learnable fashion, we introduce several mathematical tools from spatial statistics and topological data analysis. We incorporate such structural descriptors into a deep generative model as both conditional inputs and a differentiable loss. This way, we are able to generate high quality multi-class cell layouts for the first time. We show that the topology-rich cell layouts can be used for data augmentation and improve the performance of downstream tasks such as cell classification. | 翻訳日:2023-04-06 13:19:53 公開日:2023-04-05 |
# DPPD:変形可能な極ポリゴン物体検出 DPPD: Deformable Polar Polygon Object Detection ( http://arxiv.org/abs/2304.02250v1 ) ライセンス: Link先を確認 | Yang Zheng, Oles Andrienko, Yonglei Zhao, Minwoo Park, Trung Pham | (参考訳) 正規オブジェクト検出手法は、実際のオブジェクト形状を正確に記述できない矩形境界ボックスを出力する。
インスタンスセグメンテーションメソッドは、リアルタイムアプリケーションに計算コストのかかるピクセルレベルのラベルを出力する。
そのため、計算コストを低く抑えつつ正確な形状アライメントを実現するために多角形表現が必要となる。
ポリゴン形状の物体を検出できる新しい変形可能な極性多角形物体検出法(dppd)を開発した。
特に、我々のネットワークは、各対象に対して、偏座標系において各頂点が一対の角度と距離で表されるような多角形を構築するための柔軟な頂点の集合を予測している。
トレーニングを可能にするために、基底真理と予測多角形の両方は、等間隔線点と同一数の頂点を持つように密に再サンプリングされる。
再サンプリング操作は完全に異なるため、勾配バックプロパゲーションが可能となる。
スパースポリゴン予測は高速な実行時推論を保証し、高密度再サンプリングによりネットワークは高い精度で物体形状を学習できる。
ポリゴン検出ヘッドは、アンカーフリーでNMSフリーなネットワークアーキテクチャの上に設けられる。
DPPDは、交通標識、横断歩道、車両、歩行者などの自律走行のための様々な物体検出タスクで成功している。 Regular object detection methods output rectangle bounding boxes, which are unable to accurately describe the actual object shapes. Instance segmentation methods output pixel-level labels, which are computationally expensive for real-time applications. Therefore, a polygon representation is needed to achieve precise shape alignment, while retaining low computation cost. We develop a novel Deformable Polar Polygon Object Detection method (DPPD) to detect objects in polygon shapes. In particular, our network predicts, for each object, a sparse set of flexible vertices to construct the polygon, where each vertex is represented by a pair of angle and distance in the Polar coordinate system. To enable training, both ground truth and predicted polygons are densely resampled to have the same number of vertices with equal-spaced raypoints. The resampling operation is fully differentable, allowing gradient back-propagation. Sparse polygon predicton ensures high-speed runtime inference while dense resampling allows the network to learn object shapes with high precision. The polygon detection head is established on top of an anchor-free and NMS-free network architecture. DPPD has been demonstrated successfully in various object detection tasks for autonomous driving such as traffic-sign, crosswalk, vehicle and pedestrian objects. | 翻訳日:2023-04-06 13:19:42 公開日:2023-04-05 |
# 分散構造とスタイル--文書階層化によるニュースの政治的バイアス検出 Disentangling Structure and Style: Political Bias Detection in News by Inducing Document Hierarchy ( http://arxiv.org/abs/2304.02247v1 ) ライセンス: Link先を確認 | Jiwoo Hong, Yejin Cho, Jaemin Jung, Jiyoung Han, James Thorne | (参考訳) 我々は、ニュース記事における政治的バイアスの検出における重要なギャップに対処する。
教師付き文書分類を実行する以前の作品は、各ニュースソースの書き込みスタイルに偏りがあり、オーバーフィッティングや一般化可能性の制限につながる。
このアプローチは文レベルの意味論と文書レベルの修辞構造の両方を考慮してこの制限を克服し、ニュース記事の政治的バイアスを検出するためのより堅牢でスタイルに依存しないアプローチを生み出した。
本稿では,多彩なアテンションヘッドを通した長文構造を効果的に符号化するマルチヘッド階層アテンションモデルを提案する。
ジャーナリズムは形式化された修辞構造に従うが、執筆スタイルはニュースメディアによって異なるかもしれない。
本手法は,このドメイン依存性を克服し,従来のロバスト性と正確性に対するアプローチよりも優れていることを示す。
さらに分析することで、ジャーナリズム領域でよく使われる談話構造を捉えることができることを示す。 We address an important gap in detection of political bias in news articles. Previous works that perform supervised document classification can be biased towards the writing style of each news outlet, leading to overfitting and limited generalizability. Our approach overcomes this limitation by considering both the sentence-level semantics and the document-level rhetorical structure, resulting in a more robust and style-agnostic approach to detecting political bias in news articles. We introduce a novel multi-head hierarchical attention model that effectively encodes the structure of long documents through a diverse ensemble of attention heads. While journalism follows a formalized rhetorical structure, the writing style may vary by news outlet. We demonstrate that our method overcomes this domain dependency and outperforms previous approaches for robustness and accuracy. Further analysis demonstrates the ability of our model to capture the discourse structures commonly used in the journalism domain. | 翻訳日:2023-04-06 13:19:23 公開日:2023-04-05 |
# Code Critters: ブロックベースのテストゲーム Code Critters: A Block-Based Testing Game ( http://arxiv.org/abs/2304.02246v1 ) ライセンス: Link先を確認 | Philipp Straubinger, Laura Caspari, Gordon Fraser | (参考訳) プログラムの学習は、学校、高等教育、個人学習で一般的になっている。
テストはプログラミングの重要な側面であるが、時間と知識の欠如や、単にテストが重要でない、あるいは楽しいと考えられているため、教育では無視されることが多い。
テストをより魅力的にするために、テストコンセプトに基づいたタワーディフェンスゲームであるcode crittersを紹介します。 ゲームの目的は、小さな"クリッター"が自宅からタワーに持っていく経路に沿ってマジックマインを配置することであり、マイニングが正しいコードを実行するクリッターと、バグの多いコードを実行するものとを区別するようにします。
コードはブロックベースの言語で表示され、若い学習者にゲームにアクセスできるようにする。
マイニングは、テスト入力とテストオラクルをエンコードするので、テストはゲームの不可欠な、楽しいコンポーネントになります。 Learning to program has become common in schools, higher education and individual learning. Although testing is an important aspect of programming, it is often neglected in education due to a perceived lack of time and knowledge, or simply because testing is considered less important or fun. To make testing more engaging, we therefore introduce Code Critters, a Tower Defense game based on testing concepts: The aim of the game is to place magic mines along the route taken by small "critters" from their home to a tower, such that the mines distinguish between critters executing correct code from those executing buggy code. Code is shown and edited using a block-based language to make the game accessible for younger learners. The mines encode test inputs as well as test oracles, thus making testing an integral and fun component of the game. | 翻訳日:2023-04-06 13:19:08 公開日:2023-04-05 |
# 量子位相推定に関する一考察 A Note on Quantum Phase Estimation ( http://arxiv.org/abs/2304.02241v1 ) ライセンス: Link先を確認 | Yao-Ting Lin | (参考訳) 本研究では,位相推定問題について検討する。
より単純で自己完結したクエリ下限の証明を示す。
技術的には、以前の証明 [NW99, Bes05] と比較して、我々の証明はかなり初等的である。
具体的には,ブール関数解析や逆解析の知識を使わずに,基本的な線形代数からなる。
定性的には、私たちの境界は低い成功確率体制に密着しており、よりきめ細かいトレードオフを提供する。
特に、任意の$\epsilon > 0, p \geq 0$に対して、すべてのアルゴリズムは少なくとも p の確率の位相に対して${\epsilon}$近似を得るために少なくとも $\omega(p/{\epsilon})$クエリを必要とすることを証明する。
しかし、既存の境界は$p > 1/2$ の場合のみ保持する。
定量的には、我々の境界はCleve, Ekert, Macchiavello, Mosca [CEMM98]のよく知られた位相推定アルゴリズムと一致するので、一定の確率で${\epsilon}$-approximationを得るには$O(1/{\epsilon})$クエリが必要である。
我々のフレームワークの下位境界の導出に続いて、我々は[CEMM98]の位相推定アルゴリズムを新しく直感的に解釈する。 In this work, we study the phase estimation problem. We show an alternative, simpler and self-contained proof of query lower bounds. Technically, compared to the previous proofs [NW99, Bes05], our proof is considerably elementary. Specifically, our proof consists of basic linear algebra without using the knowledge of Boolean function analysis and adversary methods. Qualitatively, our bound is tight in the low success probability regime and offers a more fine-grained trade-off. In particular, we prove that for any $\epsilon > 0, p \geq 0$, every algorithm requires at least $\Omega(p/{\epsilon})$ queries to obtain an ${\epsilon}$-approximation for the phase with probability at least p. However, the existing bounds hold only when $p > 1/2$. Quantitatively, our bound is tight since it matches the well-known phase estimation algorithm of Cleve, Ekert, Macchiavello, and Mosca [CEMM98] which requires $O(1/{\epsilon})$ queries to obtain an ${\epsilon}$-approximation with a constant probability. Following the derivation of the lower bound in our framework, we give a new and intuitive interpretation of the phase estimation algorithm of [CEMM98], which might be of independent interest. | 翻訳日:2023-04-06 13:18:52 公開日:2023-04-05 |
# レプリケータブルラーニングにおけるリストと認定複雑さ List and Certificate Complexities in Replicable Learning ( http://arxiv.org/abs/2304.02240v1 ) ライセンス: Link先を確認 | Peter Dixon, A. Pavan, Jason Vander Woude, N. V. Vinodchandran | (参考訳) レプリカブル学習アルゴリズムについて検討する。
理想的には、異なる実行が未知のデータ分布から異なるサンプルセットを観察しても、同じ標準モデルを複数の実行で出力するアルゴリズムを設計したいと考えています。
一般に、そのような複製性という強い概念は達成できない。
したがって、リストの複製性と証明書の複製性という、2つの実現可能な複製性を考える。
直感的には、これらの概念は(非)再現性の程度を捉えている。
リストと証明書の複雑さに最適な学習問題のアルゴリズムを設計する。
我々は一致しない結果を確立する。 We investigate replicable learning algorithms. Ideally, we would like to design algorithms that output the same canonical model over multiple runs, even when different runs observe a different set of samples from the unknown data distribution. In general, such a strong notion of replicability is not achievable. Thus we consider two feasible notions of replicability called list replicability and certificate replicability. Intuitively, these notions capture the degree of (non) replicability. We design algorithms for certain learning problems that are optimal in list and certificate complexity. We establish matching impossibility results. | 翻訳日:2023-04-06 13:18:25 公開日:2023-04-05 |
# 風量削減とエネルギー確保のための最適エネルギー貯蔵スケジューリング:深層強化学習アプローチ Optimal Energy Storage Scheduling for Wind Curtailment Reduction and Energy Arbitrage: A Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2304.02239v1 ) ライセンス: Link先を確認 | Jinhao Li, Changlong Wang, Hao Wang | (参考訳) 風力エネルギーは気候変動に対処する手段として急速に人気を高めている。
しかし、風力発電の変動特性はシステムの信頼性を損なう可能性があり、風力削減につながり、風力発電者にとって経済的にかなりの損失をもたらす。
オンサイトバックアップ源として機能する蓄電池システム(BESS)は、風量削減のソリューションの一つである。
しかし、このBESSの補助的な役割は、その経済的生存性を著しく弱める可能性がある。
本稿では,BESSの風力削減とエネルギー仲裁を提案し,この問題に対処する。
我々は,共同設置型風力発電システムの市場参加を分離し,風力発電とBESSの合弁基盤を開発する。
エネルギー価格と風力発電の確率性のため、共同入札の最適化は困難である。
そこで我々は,深層強化学習を活用してスポットマーケットからの収益を最大化するとともに,風量削減とエネルギー仲裁を同時に行うBESSのポテンシャルを解放する。
提案手法を現実的な風力発電データを用いて検証し,提案手法が風量削減によく対応し,最適化に基づくベンチマークよりも高い収益を得ることを示す。
我々のシミュレーションでは、かつて削減されていた余剰の風力発電が、BESSの充電に有効な電源となり、さらなる財政的利益をもたらすことも示している。 Wind energy has been rapidly gaining popularity as a means for combating climate change. However, the variable nature of wind generation can undermine system reliability and lead to wind curtailment, causing substantial economic losses to wind power producers. Battery energy storage systems (BESS) that serve as onsite backup sources are among the solutions to mitigate wind curtailment. However, such an auxiliary role of the BESS might severely weaken its economic viability. This paper addresses the issue by proposing joint wind curtailment reduction and energy arbitrage for the BESS. We decouple the market participation of the co-located wind-battery system and develop a joint-bidding framework for the wind farm and BESS. It is challenging to optimize the joint-bidding because of the stochasticity of energy prices and wind generation. Therefore, we leverage deep reinforcement learning to maximize the overall revenue from the spot market while unlocking the BESS's potential in concurrently reducing wind curtailment and conducting energy arbitrage. We validate the proposed strategy using realistic wind farm data and demonstrate that our joint-bidding strategy responds better to wind curtailment and generates higher revenues than the optimization-based benchmark. Our simulations also reveal that the extra wind generation used to be curtailed can be an effective power source to charge the BESS, resulting in additional financial returns. | 翻訳日:2023-04-06 13:18:18 公開日:2023-04-05 |
# 観測データを用いた不変因果学習に基づくアルゴリズムの適用可能性に関する研究 A step towards the applicability of algorithms based on invariant causal learning on observational data ( http://arxiv.org/abs/2304.02286v1 ) ライセンス: Link先を確認 | Borja Guerrero Santillan | (参考訳) 機械学習は、解釈のための因果発見と一般化のための因果推論の恩恵を受けることができる。
本研究では,複数の学習環境を用いて不変関係を求めることで,od(out-of-distribution)一般化のためのいくつかの不変学習アルゴリズムが提案されている。
Invariant Causal Prediction (ICP) として因果発見に重点を置いており、興味のある変数の因果親を見つけ、直接的に因果的最適予測器を提供し、不変リスク最小化 (IRM) としてOOD環境でうまく一般化する。
このアルゴリズム群は、因果推論コンテキストにおける異なる介入を表す複数の環境の仮定の下で動作する。
これらの環境は通常、観測データや現実世界のアプリケーションを扱うときに利用できない。
本稿では,効率的な方法で生成する手法を提案する。
シミュレーションデータにicpを実装することにより,教師なし学習問題の性能を評価する。
また,本手法とicpを効率的に統合して因果発見を行う方法を示す。
最後に,ICPや他の因果発見手法が通常性能を低下させるような複数の共変量を持つデータセットに対して,ICPと組み合わせて改良した手法を提案する。 Machine learning can benefit from causal discovery for interpretation and from causal inference for generalization. In this line of research, a few invariant learning algorithms for out-of-distribution (OOD) generalization have been proposed by using multiple training environments to find invariant relationships. Some of them are focused on causal discovery as Invariant Causal Prediction (ICP), which finds causal parents of a variable of interest, and some directly provide a causal optimal predictor that generalizes well in OOD environments as Invariant Risk Minimization (IRM). This group of algorithms works under the assumption of multiple environments that represent different interventions in the causal inference context. Those environments are not normally available when working with observational data and real-world applications. Here we propose a method to generate them in an efficient way. We assess the performance of this unsupervised learning problem by implementing ICP on simulated data. We also show how to apply ICP efficiently integrated with our method for causal discovery. Finally, we proposed an improved version of our method in combination with ICP for datasets with multiple covariates where ICP and other causal discovery methods normally degrade in performance. | 翻訳日:2023-04-06 13:12:18 公開日:2023-04-05 |
# 比較計量方程式による深部量子画像の強調 Deep Quantigraphic Image Enhancement via Comparametric Equations ( http://arxiv.org/abs/2304.02285v1 ) ライセンス: Link先を確認 | Xiaomeng Wu, Yongqing Sun, Akisato Kimura | (参考訳) 最近の深部画像強調法は一般に分解・拡張と照明推定中心の2つのタイプに分類できる。
前者は通常効率が低く、後者は所望の強調結果として画像反射率に関する強い仮定によって制約される。
この制約を緩和し、高効率を維持しつつ、低照度画像と照明マップから拡張画像への変換を多様化する新しい訓練モジュールを提案する。
カメラ応答関数と露光補償比でパラメータ化された比較式として画像強調を定式化する。
このモジュールを照明推定中心のDNNに組み込むことで、深い画像強調の柔軟性を改善し、計算負荷を照明推定に制限し、様々なタスクの多様な要求に適応可能な教師なし学習を可能にする。 Most recent methods of deep image enhancement can be generally classified into two types: decompose-and-enhance and illumination estimation-centric. The former is usually less efficient, and the latter is constrained by a strong assumption regarding image reflectance as the desired enhancement result. To alleviate this constraint while retaining high efficiency, we propose a novel trainable module that diversifies the conversion from the low-light image and illumination map to the enhanced image. It formulates image enhancement as a comparametric equation parameterized by a camera response function and an exposure compensation ratio. By incorporating this module in an illumination estimation-centric DNN, our method improves the flexibility of deep image enhancement, limits the computational burden to illumination estimation, and allows for fully unsupervised learning adaptable to the diverse demands of different tasks. | 翻訳日:2023-04-06 13:11:59 公開日:2023-04-05 |
# グラデーション・アテンション・バランス・ネットワーク:グラデーション・アテンションによる顔認識の人種バイアスの軽減 Gradient Attention Balance Network: Mitigating Face Recognition Racial Bias via Gradient Attention ( http://arxiv.org/abs/2304.02284v1 ) ライセンス: Link先を確認 | Linzhi Huang, Mei Wang, Jiahao Liang, Weihong Deng, Hongzhi Shi, Dongchao Wen, Yingjie Zhang, Jian Zhao | (参考訳) 近年、顔認識は目覚ましい進歩を遂げているが、高いレベルの精度を追求する際、認識システムの人種的偏見を無視する。
以前の研究では、異なる人種の顔認識ネットワークは異なる顔領域に焦点を合わせており、暗い肌の人々の敏感な領域はずっと小さいことが判明した。
この発見に基づき,勾配注意バランスネットワーク (gabn) と呼ばれる,勾配注意に基づく新しいデバイアス法を提案する。
具体的には、顔認識ネットワークの勾配注意マップ(GAM)を用いて、繊細な顔領域を追跡し、異なる人種のGAMを敵対学習を通じて一貫性を持たせる。
この方法は、ネットワークを類似の顔領域に集中させることでバイアスを軽減する。
さらに、マスクを使ってトップnのセンシティブな顔領域を消去し、ネットワークがより広い顔領域に注意を向けるようにしています。
この方法は、暗い肌の人々の敏感な領域を拡大し、暗い肌の人々のギャンと白人のギャンの間のギャップをさらに減少させる。
大規模な実験により、GABNは顔認識における人種的偏見を緩和し、異なる人種の人々のよりバランスのとれたパフォーマンスを学ぶことに成功した。 Although face recognition has made impressive progress in recent years, we ignore the racial bias of the recognition system when we pursue a high level of accuracy. Previous work found that for different races, face recognition networks focus on different facial regions, and the sensitive regions of darker-skinned people are much smaller. Based on this discovery, we propose a new de-bias method based on gradient attention, called Gradient Attention Balance Network (GABN). Specifically, we use the gradient attention map (GAM) of the face recognition network to track the sensitive facial regions and make the GAMs of different races tend to be consistent through adversarial learning. This method mitigates the bias by making the network focus on similar facial regions. In addition, we also use masks to erase the Top-N sensitive facial regions, forcing the network to allocate its attention to a larger facial region. This method expands the sensitive region of darker-skinned people and further reduces the gap between GAM of darker-skinned people and GAM of Caucasians. Extensive experiments show that GABN successfully mitigates racial bias in face recognition and learns more balanced performance for people of different races. | 翻訳日:2023-04-06 13:11:44 公開日:2023-04-05 |
# 因果関係を考慮した物理インフォームドニューラルネットワークの最適損失関数について About optimal loss function for training physics-informed neural networks under respecting causality ( http://arxiv.org/abs/2304.02282v1 ) ライセンス: Link先を確認 | Vasiliy A. Es'kin, Danil V. Davydov, Ekaterina D. Egorova, Alexey O. Malkhanov, Mikhail A. Akhukov, Mikhail E. Smorkalov | (参考訳) 微分方程式にのみ記述される問題に対して初期条件と境界条件を持つ微分方程式によって記述される問題を還元する手法を提案する。
物理インフォームドニューラルネットワーク(PINN)方法論の修正問題を利用する利点は、微分方程式に関連する単一の項の形で損失関数を表現できることであり、したがって境界条件や初期条件に関連する項のスケーリング係数を調整する必要がなくなることである。
因果関係に関する重み付き損失関数を修正し、一般化関数に基づく新たな重み付き損失関数を導出した。
提案手法の精度を実証し,多くの問題に対して数値実験を行った。 A method is presented that allows to reduce a problem described by differential equations with initial and boundary conditions to the problem described only by differential equations. The advantage of using the modified problem for physics-informed neural networks (PINNs) methodology is that it becomes possible to represent the loss function in the form of a single term associated with differential equations, thus eliminating the need to tune the scaling coefficients for the terms related to boundary and initial conditions. The weighted loss functions respecting causality were modified and new weighted loss functions based on generalized functions are derived. Numerical experiments have been carried out for a number of problems, demonstrating the accuracy of the proposed methods. | 翻訳日:2023-04-06 13:11:22 公開日:2023-04-05 |
# バイパルタイト系におけるコヒーレンスと量子相関の研究ツールとしての弱測定 Weak measurement as a tool for studying coherence and quantum correlations in bipartite systems ( http://arxiv.org/abs/2304.02280v1 ) ライセンス: Link先を確認 | Indrajith V. S, R. Muthuganesan and R. Sankaranarayanan | (参考訳) 本稿では,2成分状態の量子コヒーレンスを,測定に対するコヒーレンスの概念を一般化した弱測定の観点から研究する。
これは有名なベル対角線とウェナー状態のコヒーレンス計算によって図示されている。
また、弱測定系における量子相関測度と不確実性関係に関する調査も拡張した。 In this article, we study quantum coherence of bipartite state from the perspective of weak measurement, which generalizes the notion of coherence relative to measurement. The is being illustrated by computing coherence for the well-known Bell diagonal and Wener states. We have also extended our investigation on quantum correlation measure and uncertainty relation in the weak measurement regime. | 翻訳日:2023-04-06 13:11:10 公開日:2023-04-05 |
# テキストに基づく人物検索のためのクロスモーダル特徴の校正 Calibrating Cross-modal Feature for Text-Based Person Searching ( http://arxiv.org/abs/2304.02278v1 ) ライセンス: Link先を確認 | Donglai Wei, Sipeng Zhang, Tong Yang, Jing Liu | (参考訳) 本稿では,テキストに基づく人物探索のためのクロスモーダル特徴の校正手法を提案する。
本手法は費用対効果が高く,テキストキャプションによる特定人物の検索が容易である。
具体的には、dual-encoderとdetachable cross-modal decoderのみである。
バックボーンを追従するネックとして、余分なマルチレベル分岐や複雑な相互作用モジュールがなければ、我々のモデルはデュアルエンコーダのみに基づいて高速な推論を行う。
さらに,本手法は2つの新たな損失から成り,細粒度のクロスモーダル特性を提供する。
Sew Losは、テキストキャプションの品質をガイダンスとして取り、画像とテキストのモダリティを調整します。
マスキングキャプションモデリング(mcm)ロスは、マスキングキャプション予測タスクを使用して、テキスト部品と視覚部品との間の詳細かつ汎用的な関係を確立する。
CUHK-PEDES, ICFG-PEDES, RSTPReID の3つのベンチマークで上位結果を示す。
特に, 73.81% Rank@1, 74.25% Rank@1, 57.35% Rank@1を達成した。
さらに,本手法の各成分を広範囲な実験により検証する。
当社の強力でスケーラブルなパラダイムが、堅固なベースラインとして機能し、テキストベースの人物検索における将来の研究を容易にすることを願っています。 We present a novel and effective method calibrating cross-modal features for text-based person search. Our method is cost-effective and can easily retrieve specific persons with textual captions. Specifically, its architecture is only a dual-encoder and a detachable cross-modal decoder. Without extra multi-level branches or complex interaction modules as the neck following the backbone, our model makes a high-speed inference only based on the dual-encoder. Besides, our method consists of two novel losses to provide fine-grained cross-modal features. A Sew loss takes the quality of textual captions as guidance and aligns features between image and text modalities. A Masking Caption Modeling (MCM) loss uses a masked captions prediction task to establish detailed and generic relationships between textual and visual parts. We show the top results in three popular benchmarks, including CUHK-PEDES, ICFG-PEDES, and RSTPReID. In particular, our method achieves 73.81% Rank@1, 74.25% Rank@1 and 57.35% Rank@1 on them, respectively. In addition, we also validate each component of our method with extensive experiments. We hope our powerful and scalable paradigm will serve as a solid baseline and help ease future research in text-based person search. | 翻訳日:2023-04-06 13:11:04 公開日:2023-04-05 |
# グラフバックドア攻撃におけるトリガー噴射位置の再考 Rethinking the Trigger-injecting Position in Graph Backdoor Attack ( http://arxiv.org/abs/2304.02277v1 ) ライセンス: Link先を確認 | Jing Xu, Gorka Abad, Stjepan Picek | (参考訳) バックドア攻撃は、機械学習モデルのセキュリティ脅威として実証されている。
従来のバックドア攻撃は、バックドアモデルが事前定義されたバックドアトリガーで異常に動作し、クリーンな入力で最先端のパフォーマンスを維持するように、バックドア機能をモデルに注入することを目的としている。
グラフニューラルネットワーク(gnns)のバックドア攻撃には、すでにいくつかの取り組みがあるが、グラフドメインのバックドアトリガーは、主にサンプルのランダムな位置に注入される。
試料中の最も重要な領域や最も重要でない領域にトリガーを注入する際のバックドア攻撃性能を解析・説明する作業はなく、それぞれMIASとLIASをトリガー注入戦略と呼ぶ。
その結果, LIASの性能は向上し, LIASとMIASの差は大きいことがわかった。
さらに、これらの2つの戦略の類似(ベター)攻撃性能を説明手法により説明し、GNNにおけるバックドア攻撃のさらなる理解をもたらす。 Backdoor attacks have been demonstrated as a security threat for machine learning models. Traditional backdoor attacks intend to inject backdoor functionality into the model such that the backdoored model will perform abnormally on inputs with predefined backdoor triggers and still retain state-of-the-art performance on the clean inputs. While there are already some works on backdoor attacks on Graph Neural Networks (GNNs), the backdoor trigger in the graph domain is mostly injected into random positions of the sample. There is no work analyzing and explaining the backdoor attack performance when injecting triggers into the most important or least important area in the sample, which we refer to as trigger-injecting strategies MIAS and LIAS, respectively. Our results show that, generally, LIAS performs better, and the differences between the LIAS and MIAS performance can be significant. Furthermore, we explain these two strategies' similar (better) attack performance through explanation techniques, which results in a further understanding of backdoor attacks in GNNs. | 翻訳日:2023-04-06 13:10:46 公開日:2023-04-05 |
# MMVC:ブロック型予測モード選択と密度適応エントロピー符号化によるマルチモードビデオ圧縮 MMVC: Learned Multi-Mode Video Compression with Block-based Prediction Mode Selection and Density-Adaptive Entropy Coding ( http://arxiv.org/abs/2304.02273v1 ) ライセンス: Link先を確認 | Bowen Liu, Yu Chen, Rakesh Chowdary Machineni, Shiyu Liu, Hun-Seok Kim | (参考訳) 学習に基づくビデオ圧縮はここ数年にわたって広く研究されてきたが、様々な動きパターンやエントロピーモデルに適応するのにはまだ限界がある。
本稿では,異なる動作パターンに適応した特徴領域予測のための最適モードを選択するブロックワイズモードアンサンブルディープビデオ圧縮フレームワークであるMMVCを提案する。
提案するマルチモードには、ConvLSTMベースの特徴領域予測、光学フロー条件付き特徴領域予測、静的シーンから動いたカメラによる動的シーンまで幅広いケースに対応するための特徴伝搬などがある。
空間的ブロックベース表現における時間的予測のために,特徴空間をブロックに分割する。
エントロピー符号化では、高密度かつスパースな後量子化残差ブロックを考慮し、任意のラン長符号化を適用して圧縮率を向上させる。
この意味では、二項密度マップで導かれる二重モードエントロピー符号化方式を用い、二項選択マップを伝送する余剰コストを超越した大幅なレート低下を提供する。
私たちはこのスキームを最も人気のあるベンチマークデータセットで検証します。
現状のビデオ圧縮方式や標準コーデックと比較すると,PSNRとMS-SSIMで測定した結果と競合する結果が得られる。 Learning-based video compression has been extensively studied over the past years, but it still has limitations in adapting to various motion patterns and entropy models. In this paper, we propose multi-mode video compression (MMVC), a block wise mode ensemble deep video compression framework that selects the optimal mode for feature domain prediction adapting to different motion patterns. Proposed multi-modes include ConvLSTM-based feature domain prediction, optical flow conditioned feature domain prediction, and feature propagation to address a wide range of cases from static scenes without apparent motions to dynamic scenes with a moving camera. We partition the feature space into blocks for temporal prediction in spatial block-based representations. For entropy coding, we consider both dense and sparse post-quantization residual blocks, and apply optional run-length coding to sparse residuals to improve the compression rate. In this sense, our method uses a dual-mode entropy coding scheme guided by a binary density map, which offers significant rate reduction surpassing the extra cost of transmitting the binary selection map. We validate our scheme with some of the most popular benchmarking datasets. Compared with state-of-the-art video compression schemes and standard codecs, our method yields better or competitive results measured with PSNR and MS-SSIM. | 翻訳日:2023-04-06 13:10:27 公開日:2023-04-05 |
# 深い知覚の類似性は曖昧な文脈に適応できる Deep Perceptual Similarity is Adaptable to Ambiguous Contexts ( http://arxiv.org/abs/2304.02265v1 ) ライセンス: Link先を確認 | Gustav Grund Pihlgren, Fredrik Sandin, Marcus Liwicki | (参考訳) 画像類似性の概念は曖昧であり、ある文脈で類似と見なされるイメージは別の文脈には存在しないかもしれない。
この曖昧さは、特定のコンテキストに対するメトリクスの作成を動機付ける。
この研究は、所定の文脈に適合するdps(deep perceptual similarity)メトリクスを成功させる能力を探求する。
近年、画像の比較にニューラルネットワークの深い特徴を用いてDPSメトリクスが出現している。
これらの指標は、限られた設定で平均的な人間の知覚を活用するデータセット上で成功している。
しかし問題は、類似性の特定の文脈に適応できるかどうかだ。
類似性のすべての定義に適合する単一のメトリクスはなく、以前のメトリクスはルールベースであり、新しいコンテキストのために書き直すのに重きを置いている。
一方、DPSメトリクスは、各コンテキストで再トレーニングされる可能性のあるニューラルネットワークを使用する。
しかし、再トレーニングネットワークはリソースを消費し、以前のタスクのパフォーマンスを損なう可能性がある。
本研究では、事前学習したCNNの深い特徴に対する正のスカラーをトレーニングし、異なる文脈における類似性を正確に測定することで、DPSメトリクスの適応性を検討する。
評価は6つの画像歪み(例えば回転)をランダムに順序付けした文脈で行われ、画像に適用するとより類似すると考えられる。
これはまた、cnnの機能が再トレーニングせずに異なる歪みを識別するのに十分なかどうかの洞察を与える。
最後に、トレーニングされたメトリクスを知覚的類似性データセットで評価し、注文への適応が確立したシナリオのパフォーマンスに影響を与えるかどうかを評価する。
その結果, dpsメトリクスは高性能に適応できることがわかった。
適応されたメトリクスはベースラインと同じコンテキストで難しいが、パフォーマンスは99%のケースで改善されている。
最後に, 適応が知覚的類似性に対する先行性能に悪影響を及ぼさないことを示す。 The concept of image similarity is ambiguous, meaning that images that are considered similar in one context might not be in another. This ambiguity motivates the creation of metrics for specific contexts. This work explores the ability of the successful deep perceptual similarity (DPS) metrics to adapt to a given context. Recently, DPS metrics have emerged using the deep features of neural networks for comparing images. These metrics have been successful on datasets that leverage the average human perception in limited settings. But the question remains if they could be adapted to specific contexts of similarity. No single metric can suit all definitions of similarity and previous metrics have been rule-based which are labor intensive to rewrite for new contexts. DPS metrics, on the other hand, use neural networks which might be retrained for each context. However, retraining networks takes resources and might ruin performance on previous tasks. This work examines the adaptability of DPS metrics by training positive scalars for the deep features of pretrained CNNs to correctly measure similarity for different contexts. Evaluation is performed on contexts defined by randomly ordering six image distortions (e.g. rotation) by which should be considered more similar when applied to an image. This also gives insight into whether the features in the CNN is enough to discern different distortions without retraining. Finally, the trained metrics are evaluated on a perceptual similarity dataset to evaluate if adapting to an ordering affects their performance on established scenarios. The findings show that DPS metrics can be adapted with high performance. While the adapted metrics have difficulties with the same contexts as baselines, performance is improved in 99% of cases. Finally, it is shown that the adaption is not significantly detrimental to prior performance on perceptual similarity. | 翻訳日:2023-04-06 13:10:03 公開日:2023-04-05 |
# 仮想コーチによる喫煙予防への取り組み-状態とユーザ特性を用いた行動予測 Persuading to Prepare for Quitting Smoking with a Virtual Coach: Using States and User Characteristics to Predict Behavior ( http://arxiv.org/abs/2304.02264v1 ) ライセンス: Link先を確認 | Nele Albers, Mark A. Neerincx, Willem-Paul Brinkman | (参考訳) 行動変化に対するeHealthの応用が普及しているにもかかわらず、説得的メッセージは行動に小さな影響を及ぼす傾向にある。
説得者の条件または状態(例えば、自信、知識、動機)と特徴(例えば、性別、年齢、性格)は、説得的なメッセージを選択するためのより効果的なアルゴリズムのための2つの有望な要素である。
しかし、これらのコンポーネントを十分に考慮すれば、特に長期的には、説得力のある試みの後の振る舞いを予測できるかどうかはまだ明らかではない。
多くのアルゴリズムコンポーネントのデータ収集はコストがかかり、ユーザに負担がかかるため、個々のコンポーネントの影響をよりよく理解することが歓迎される。
これは、どのコンポーネントを使うべきかを判断するのに役立ちます。
そこで本研究では,仮想コーチが671人の喫煙者に対して,喫煙をやめ,身体的に活発になるための準備活動を行うよう説得する縦断的研究を行った。
収集したデータに基づいて,現在の状態と将来の状態を考慮し,活動に費やす労力を最大化するための強化学習(rl)-approachをデザインした。
このRL-approachを用いて、状態を考えることは行動と将来の状態の両方を予測するのに役立ちます。
一方、ユーザ特性、特にアクティビティへの関与は、単独ではなく、状態と組み合わせて使用される場合のみ、振る舞いを予測するのに役立つ。
これらの結果は、状態の利用と説得アルゴリズムへの関与を支持するものと考えています。
私たちのデータセットはオンラインで利用可能です。 Despite their prevalence in eHealth applications for behavior change, persuasive messages tend to have small effects on behavior. Conditions or states (e.g., confidence, knowledge, motivation) and characteristics (e.g., gender, age, personality) of persuadees are two promising components for more effective algorithms for choosing persuasive messages. However, it is not yet sufficiently clear how well considering these components allows one to predict behavior after persuasive attempts, especially in the long run. Since collecting data for many algorithm components is costly and places a burden on users, a better understanding of the impact of individual components in practice is welcome. This can help to make an informed decision on which components to use. We thus conducted a longitudinal study in which a virtual coach persuaded 671 daily smokers to do preparatory activities for quitting smoking and becoming more physically active, such as envisioning one's desired future self. Based on the collected data, we designed a Reinforcement Learning (RL)-approach that considers current and future states to maximize the effort people spend on their activities. Using this RL-approach, we found, based on leave-one-out cross-validation, that considering states helps to predict both behavior and future states. User characteristics and especially involvement in the activities, on the other hand, only help to predict behavior if used in combination with states rather than alone. We see these results as supporting the use of states and involvement in persuasion algorithms. Our dataset is available online. | 翻訳日:2023-04-06 13:09:36 公開日:2023-04-05 |
# クラスアフィニティ転送を用いたマイズショット意味画像合成 Few-shot Semantic Image Synthesis with Class Affinity Transfer ( http://arxiv.org/abs/2304.02321v1 ) ライセンス: Link先を確認 | Marl\`ene Careil, Jakob Verbeek, St\'ephane Lathuili\`ere | (参考訳) セマンティック画像合成はセマンティックセグメンテーションマップを与えられた写真リアル画像を生成することを目的としている。
最近の進歩にもかかわらず、トレーニングには、非常に面倒なピクセル単位のラベルマップで注釈付けされた画像の大規模なデータセットが必要である。
高アノテーションコストを軽減するため,大規模なデータセットでトレーニングされたモデルを利用して,ソースとターゲットクラス間のペアワイズ関係を推定することにより,小さなターゲットデータセットでの学習能力を向上するトランスファー手法を提案する。
クラスアフィニティマトリックスは、対象のラベルマップと互換性を持たせるためにソースモデルに第1層として導入され、その後、ソースモデルはさらにターゲットドメイン向けに微調整される。
クラス親和性を推定するために、ソースドメインのセマンティックセグメンテーション、テキストラベルの埋め込み、自己監督型視覚機能といった、事前知識を活用するための異なるアプローチを検討する。
本手法をganベースおよび拡散ベースアーキテクチャに適用して意味合成を行う。
実験により,クラス親和性を効果的に推定する方法の異なる組み合わせが可能であること,および生成画像モデルに対する既存の最先端トランスファーアプローチを大幅に改善できることが示されている。 Semantic image synthesis aims to generate photo realistic images given a semantic segmentation map. Despite much recent progress, training them still requires large datasets of images annotated with per-pixel label maps that are extremely tedious to obtain. To alleviate the high annotation cost, we propose a transfer method that leverages a model trained on a large source dataset to improve the learning ability on small target datasets via estimated pairwise relations between source and target classes. The class affinity matrix is introduced as a first layer to the source model to make it compatible with the target label maps, and the source model is then further finetuned for the target domain. To estimate the class affinities we consider different approaches to leverage prior knowledge: semantic segmentation on the source domain, textual label embeddings, and self-supervised vision features. We apply our approach to GAN-based and diffusion-based architectures for semantic synthesis. Our experiments show that the different ways to estimate class affinity can be effectively combined, and that our approach significantly improves over existing state-of-the-art transfer approaches for generative image models. | 翻訳日:2023-04-06 13:03:25 公開日:2023-04-05 |
# パッシブフィルタを用いた効率的なCNN Efficient CNNs via Passive Filter Pruning ( http://arxiv.org/abs/2304.02319v1 ) ライセンス: Link先を確認 | Arshdeep Singh and Mark D. Plumbley | (参考訳) 畳み込みニューラルネットワーク(CNN)は、様々なアプリケーションで最先端のパフォーマンスを示している。
しかし、CNNは高い計算複雑性とメモリストレージを必要とするため、リソース不足である。
CNNにおける計算効率向上に向けた最近の取り組みは、フィルタの'enquote{importance'に基づいて、CNNにおけるフィルタの一部を除去するフィルタプルーニング手法を含む。
既存のフィルタプルーニング手法の大半は、データセットを使用してフィルタの重要性を定量化するための特徴マップを生成する"アクティブ"か、あるいはデータを含まないフィルタのエントリワイドノルムを用いてフィルタの重要性を計算する"パッシブ"のいずれかである。
ネットワークから多数のフィルタをプルーニングする高いプルーニング比の下では、エントリワイドノルム法は、ノード出力を生成する際のフィルタの重要性を考慮せずに比較的小さなノルムフィルタを除去し、性能を低下させる。
そこで本研究では,フィルタの演算ノルムを考慮し,その出力に対する寄与に基づいてフィルタをプルーニングするパッシブフィルタプルーニング手法を提案する。
提案手法は, エントリーワイドノルムベースプルーニング法と比較して, 様々なCNNをまたいだ最適化を行う。
従来のアクティブフィルタプルーニング法と比較して,提案法はフィルタ重要度を少なくとも4.5倍高速化し,アクティブフィルタプルーニング法と同等の性能を実現することができる。
提案手法の有効性は,VGGish,DCASE21_Net,VGG-16,ResNet-50などの様々なCNNアーキテクチャを用いて,音声シーンの分類と画像分類に基づいて評価する。 Convolutional neural networks (CNNs) have shown state-of-the-art performance in various applications. However, CNNs are resource-hungry due to their requirement of high computational complexity and memory storage. Recent efforts toward achieving computational efficiency in CNNs involve filter pruning methods that eliminate some of the filters in CNNs based on the \enquote{importance} of the filters. The majority of existing filter pruning methods are either "active", which use a dataset and generate feature maps to quantify filter importance, or "passive", which compute filter importance using entry-wise norm of the filters without involving data. Under a high pruning ratio where large number of filters are to be pruned from the network, the entry-wise norm methods eliminate relatively smaller norm filters without considering the significance of the filters in producing the node output, resulting in degradation in the performance. To address this, we present a passive filter pruning method where the filters are pruned based on their contribution in producing output by considering the operator norm of the filters. The proposed pruning method generalizes better across various CNNs compared to that of the entry-wise norm-based pruning methods. In comparison to the existing active filter pruning methods, the proposed pruning method is at least 4.5 times faster in computing filter importance and is able to achieve similar performance compared to that of the active filter pruning methods. The efficacy of the proposed pruning method is evaluated on audio scene classification and image classification using various CNNs architecture such as VGGish, DCASE21_Net, VGG-16 and ResNet-50. | 翻訳日:2023-04-06 13:03:03 公開日:2023-04-05 |
# 励起状態からの量子クエンチ Quantum quenches from an excited state ( http://arxiv.org/abs/2304.02314v1 ) ライセンス: Link先を確認 | Gesualdo Delfino and Marianna Sorba | (参考訳) 後期進化における初期条件の役割を決定することは、孤立量子系の非平衡ダイナミクスの理論にとって重要な問題である。
ここでは量子クエンチの理論を、クエンチ前に系が励起状態にある場合にまで拡張する。
特に,非平衡状態への1-準粒子の寄与が長時間の緩和の欠如に要求されることを解析的に示し,その原因は,[J. Phys. A 47 (2014) 402001] の基底状態からのクエンチであることを示した。 Determining the role of initial conditions in the late time evolution is a key issue for the theory of nonequilibrium dynamics of isolated quantum systems. Here we extend the theory of quantum quenches to the case in which before the quench the system is in an excited state. In particular, we show analytically that lack of relaxation at large times requires the presence of a one-quasiparticle contribution to the nonequilibrium state, as originally shown in [J. Phys. A 47 (2014) 402001] for the quenches from the ground state. | 翻訳日:2023-04-06 13:02:35 公開日:2023-04-05 |
# パーソナリティを考慮した人間中心型マルチモーダル推論:新しい課題 Personality-aware Human-centric Multimodal Reasoning: A New Task ( http://arxiv.org/abs/2304.02313v1 ) ライセンス: Link先を確認 | Yaochen Zhu, Xiangqing Shen, Rui Xia | (参考訳) マルチモーダル推論(multimodal reasoning)は、視覚、言語、音声といったマルチモーダル信号から推論することを目的とした人工知能の分野であり、近年ますます注目を集めている。
異なる個性を持つ人々は、同じ状況に対して異なる反応をすることができる。
しかし、このような個性は以前の研究では無視された。
本研究では,人間中心型マルチモーダル推論(Personality-aware Human-centric Multimodal Reasoning, Personality-aware HMR)タスクを導入し,その過去と未来についてのマルチモーダル情報から,特定の瞬間における特定の人物の行動を予測するために,The Big Bang Theory TV Showに基づく新しいデータセットを構築した。
Myers-Briggs Type Indicator (MBTI) は、個人の個性を表現するために注釈付きで使用された。
3つのベースラインメソッドを提案,2つは関連するタスクから適応し,1つはタスクに新たに提案された。
実験の結果,人中心型マルチモーダル推論の性能を効果的に向上できることが示された。
実写シーンにおけるパーソナリティアノテーションの欠如を解消するため,Personality-predicted HMRと呼ばれる拡張タスクを導入し,対応する手法を提案し,まずMBTIのパーソナリティを予測するとともに,予測されたパーソナリティを用いてマルチモーダル推論を支援する。
実験の結果,本手法は人格を正確に予測し,人格アノテーションに頼らずに満足なマルチモーダル推論性能が得られることが示された。 Multimodal reasoning, an area of artificial intelligence that aims at make inferences from multimodal signals such as vision, language and speech, has drawn more and more attention in recent years. People with different personalities may respond differently to the same situation. However, such individual personalities were ignored in the previous studies. In this work, we introduce a new Personality-aware Human-centric Multimodal Reasoning (Personality-aware HMR) task, and accordingly construct a new dataset based on The Big Bang Theory television shows, to predict the behavior of a specific person at a specific moment, given the multimodal information of its past and future moments. The Myers-Briggs Type Indicator (MBTI) was annotated and utilized in the task to represent individuals' personalities. We benchmark the task by proposing three baseline methods, two were adapted from the related tasks and one was newly proposed for our task. The experimental results demonstrate that personality can effectively improve the performance of human-centric multimodal reasoning. To further solve the lack of personality annotation in real-life scenes, we introduce an extended task called Personality-predicted HMR, and propose the corresponding methods, to predict the MBTI personality at first, and then use the predicted personality to help multimodal reasoning. The experimental results show that our method can accurately predict personality and achieves satisfactory multimodal reasoning performance without relying on personality annotations. | 翻訳日:2023-04-06 13:02:25 公開日:2023-04-05 |
# 移動可能な攻撃に最適な同盟国を選ぶには? How to choose your best allies for a transferable attack? ( http://arxiv.org/abs/2304.02312v1 ) ライセンス: Link先を確認 | Thibault Maho, Seyed-Mohsen Moosavi-Dezfooli, Teddy Furon | (参考訳) 敵対的な例の転送性は、ディープニューラルネットワークのセキュリティにおいて重要な問題である。
別のターゲットモデルを騙すソースモデルのために作られた敵の例の可能性は、敵の攻撃の脅威をより現実的なものにします。
移動性の測定は重要な問題であるが、攻撃成功率だけでは音質評価はできない。
本稿では,中心位置に歪みを配置することで移動性を評価する新しい手法を提案する。
この新しいツールは、攻撃者がランダムにソースモデルを選択した場合、転送可能な攻撃はブラックボックス攻撃よりもはるかに悪い可能性があることを示している。
この問題に対処するため,我々はfitと呼ばれる新しい選択機構を提案し,ターゲットに対してほんの数回の予備クエリしか持たない最適なソースモデルを選択することを目的としている。
実験の結果,FiTは単一モデルアタックやアンサンブルモデルアタック,複数アタックなど,複数のシナリオに対して最適なソースモデルを選択するのに極めて効果的であることがわかった。 The transferability of adversarial examples is a key issue in the security of deep neural networks. The possibility of an adversarial example crafted for a source model fooling another targeted model makes the threat of adversarial attacks more realistic. Measuring transferability is a crucial problem, but the Attack Success Rate alone does not provide a sound evaluation. This paper proposes a new methodology for evaluating transferability by putting distortion in a central position. This new tool shows that transferable attacks may perform far worse than a black box attack if the attacker randomly picks the source model. To address this issue, we propose a new selection mechanism, called FiT, which aims at choosing the best source model with only a few preliminary queries to the target. Our experimental results show that FiT is highly effective at selecting the best source model for multiple scenarios such as single-model attacks, ensemble-model attacks and multiple attacks (Code available at: https://github.com/t-maho/transferability_measure_fit). | 翻訳日:2023-04-06 13:01:54 公開日:2023-04-05 |
# マルチドメインノルム参照符号化による表情認識のためのデータ伝達学習 Multi-Domain Norm-referenced Encoding Enables Data Efficient Transfer Learning of Facial Expression Recognition ( http://arxiv.org/abs/2304.02309v1 ) ライセンス: Link先を確認 | Michael Stettler, Alexander Lappe, Nick Taubert, Martin Giese | (参考訳) 人は、漫画に描かれた異常な顔に描かれたり、動物の特徴に当てはめたりするなど、不自然な形の人間の表情を自然に認識することができる。
しかし、現在の機械学習アルゴリズムは、表情認識(fer)のドメイン外転送に苦労している。
そこで本研究では, 領域特異的参照ベクトルに対する差分ベクトルを用いてパターンを符号化するノルム参照符号化に基づく, 生物学的にインスパイアされたトランスファー学習機構を提案する。
ドメイン固有の参照フレームを組み込むことで、複数のドメインにわたる転送学習において高いデータ効率を示す。
提案したアーキテクチャは、人間の脳が様々な頭形(人間、サル、漫画のアバター)の表情を、広範囲の訓練なしに自然に認識する方法を説明する。
Norm-referenced encodingは、脳の顔選択的ニューロンと同様に、神経単位の活動から直接発現の強度を読み取ることを可能にする。
本モデルでは, FERGデータセットの分類精度92.15\%を極端なデータ効率で達成する。
提案するメカニズムは,各クラス(表情)の1つの画像とドメイン毎の1つの画像(アバター)を含む,わずか12のイメージで訓練する。
一方、FERGデータセットの著者らは、43,000の画像でトレーニングされたFaceExprモデルと89.02\%の分類精度を達成した。 People can innately recognize human facial expressions in unnatural forms, such as when depicted on the unusual faces drawn in cartoons or when applied to an animal's features. However, current machine learning algorithms struggle with out-of-domain transfer in facial expression recognition (FER). We propose a biologically-inspired mechanism for such transfer learning, which is based on norm-referenced encoding, where patterns are encoded in terms of difference vectors relative to a domain-specific reference vector. By incorporating domain-specific reference frames, we demonstrate high data efficiency in transfer learning across multiple domains. Our proposed architecture provides an explanation for how the human brain might innately recognize facial expressions on varying head shapes (humans, monkeys, and cartoon avatars) without extensive training. Norm-referenced encoding also allows the intensity of the expression to be read out directly from neural unit activity, similar to face-selective neurons in the brain. Our model achieves a classification accuracy of 92.15\% on the FERG dataset with extreme data efficiency. We train our proposed mechanism with only 12 images, including a single image of each class (facial expression) and one image per domain (avatar). In comparison, the authors of the FERG dataset achieved a classification accuracy of 89.02\% with their FaceExpr model, which was trained on 43,000 images. | 翻訳日:2023-04-06 13:01:35 公開日:2023-04-05 |
# クラウドAIマッピングチャレンジデータセットに着目した大規模画像データセットの効率の低下と漏洩検出 Efficient Deduplication and Leakage Detection in Large Scale Image Datasets with a focus on the CrowdAI Mapping Challenge Dataset ( http://arxiv.org/abs/2304.02296v1 ) ライセンス: Link先を確認 | Yeshwanth Kumar Adimoolam, Bodhiswatta Chatterjee, Charalambos Poullis, Melinos Averkiou | (参考訳) ディープラーニングとコンピュータビジョンの最近の進歩は、リモートセンシング画像からビルディングフットプリントを抽出するためにディープニューラルネットワークを広く利用した。
このような手法の成功は、高品質なアノテーションを備えた高解像度リモートセンシング画像の大規模データベースが利用可能であることに依存している。
CrowdAI Mapping Challenge Datasetは、近年、ディープニューラルネットワークのトレーニングに広く使用されているデータセットのひとつだ。
このデータセットは$sim\ $280kのトレーニングイメージと$sim\ $60kのテストイメージで構成され、すべてのイメージに対して多角形のビルディングアノテーションを持つ。
しかしながら、低品質で誤ったアノテーション、画像サンプルの広範な重複、データ漏洩といった問題は、データセットでトレーニングされたディープニューラルネットワークの有用性を大幅に低下させる。
したがって、使用前にデータセットの品質を評価するデータ検証パイプラインを採用することは必須の前提条件である。
そこで本研究では,データセットの効率の低下と,トレーニングとテストのスプリット間のデータ漏洩事例の特定に,知覚的ハッシュ技術を用いたドロップインパイプラインを提案する。
実験では,トレーニングスプリット中の250k($ \sim\$90%)画像が同一であることを実証した。
さらに,バリデーション分割の解析結果から,60k画像の約56kがトレーニング分割に現れ,データ漏洩率は93%であった。
CrowdAI Mapping Challengeデータセットの分析と複製に使用されるソースコードは、https://github.com/yeshwanth95/CrowdAI_Hash_and_searchで公開されている。 Recent advancements in deep learning and computer vision have led to widespread use of deep neural networks to extract building footprints from remote-sensing imagery. The success of such methods relies on the availability of large databases of high-resolution remote sensing images with high-quality annotations. The CrowdAI Mapping Challenge Dataset is one of these datasets that has been used extensively in recent years to train deep neural networks. This dataset consists of $ \sim\ $280k training images and $ \sim\ $60k testing images, with polygonal building annotations for all images. However, issues such as low-quality and incorrect annotations, extensive duplication of image samples, and data leakage significantly reduce the utility of deep neural networks trained on the dataset. Therefore, it is an imperative pre-condition to adopt a data validation pipeline that evaluates the quality of the dataset prior to its use. To this end, we propose a drop-in pipeline that employs perceptual hashing techniques for efficient de-duplication of the dataset and identification of instances of data leakage between training and testing splits. In our experiments, we demonstrate that nearly 250k($ \sim\ $90%) images in the training split were identical. Moreover, our analysis on the validation split demonstrates that roughly 56k of the 60k images also appear in the training split, resulting in a data leakage of 93%. The source code used for the analysis and de-duplication of the CrowdAI Mapping Challenge dataset is publicly available at https://github.com/yeshwanth95/CrowdAI_Hash_and_search . | 翻訳日:2023-04-06 13:01:13 公開日:2023-04-05 |
# 非ガウス演算を用いた低圧縮状態に対するCV-MDI-QKDの適用 Enabling CV-MDI-QKD for low squeezed states using non-Gaussian operations ( http://arxiv.org/abs/2304.02295v1 ) ライセンス: Link先を確認 | Farsad Ahmad, Aeysha Khalique | (参考訳) 連続変数計測装置独立量子鍵分布(CV-MDI-QKD)プロトコルにおいて,光子付加置換(PAS)状態と2つの光子置換(2PR)状態の有用性を示す。
単モードと2モードのPAS状態と2モードのPR状態は、低スチーズおよび高雑音状態において純粋状態プロトコルより優れていることを報告した。
単一モードPAS状態と2モードPAS状態は、余剰ノイズに対する大きな耐性を示し、純粋およびPR状態CV-MDIプロトコルと比較して伝送距離が長い。
また,CV-MDI-QKDでは対数ネガティビティが高い状態が必ずしも最適ではないことを示す。 We show the utility of photon added-then-subtracted (PAS) state and two photon replaced (2PR) state when used in continuous variables measurement device independent quantum key distribution (CV-MDI-QKD) protocol. We report that single and two mode PAS state as well as two mode PR state outperform pure state protocol in the low squeezing and high noise regime. Single mode PAS state and two mode PAS state showed significant resilience to excess noise and offered a longer transmission distance when compared to pure and PR state CV-MDI protocol. Additionally we show that states with higher logarithmic negativity are not necessarily the best choice when used in CV-MDI-QKD. | 翻訳日:2023-04-06 13:00:46 公開日:2023-04-05 |
# 古典的誤り訂正符号のトレリスに基づくビタビ復号のための量子近似最適化アルゴリズム Quantum Approximation Optimization Algorithm for the trellis based Viterbi decoding of classical error correcting codes ( http://arxiv.org/abs/2304.02292v1 ) ライセンス: Link先を確認 | Mainak Bhattacharyya and Ankur Raina | (参考訳) 古典的誤り訂正符号のための量子古典型ビタビデコーダを構築する。
ビタビ復号(viterbi decoding)は、古典的誤り訂正符号の最大精度復号のためのトレリスに基づく手続きである。
本稿では,トレリスに存在する受信ベクトルに対する最小ハミング距離の経路が,量子近似最適化アルゴリズムを用いて検出可能であることを示す。
ビタビ復号問題を任意の古典線形ブロック符号に対するパラメータ化量子回路にマッピングする一般化手法を構築した。
パラメータ化量子回路を最適化するための一様パラメータ最適化戦略を提案する。
提案手法は,低深さのトレーニング可能なパラメータ化量子回路を生成するのに有効である。
これにより、ハイブリッドデコーダは、量子ビタビアルゴリズムを作る以前の試みよりも効率的になる。
均一なパラメータ最適化を用いることで、パラメータのランダムサンプリングや修正による多くの試みよりも、パラメータ化量子回路のパラメータをより効率的に得ることを示す。 We construct a quantum-classical Viterbi decoder for the classical error-correcting codes. Viterbi decoding is a trellis-based procedure for maximum likelihood decoding of classical error-correcting codes. In this article, we show that any number of paths with the minimum Hamming distance with respect to the received erroneous vector present in the trellis can be found using the quantum approximate optimization algorithm. We construct a generalized method to map the Viterbi decoding problem into a parameterized quantum circuit for any classical linear block codes. We propose a uniform parameter optimization strategy to optimize the parameterized quantum circuit. We observe that the proposed method is efficient for generating low-depth trainable parameterized quantum circuits. This renders the hybrid decoder more efficient than previous attempts at making quantum Viterbi algorithm. We show that using uniform parameter optimization, we obtain parameters more efficiently for the parameterized quantum circuit than many previous attempts made through random sampling and fixing the parameters. | 翻訳日:2023-04-06 13:00:32 公開日:2023-04-05 |
# トラップ型害虫計数:内部LRとHR共同特徴学習を統合したマルチスケールかつ変形可能な注意センターネット Trap-Based Pest Counting: Multiscale and Deformable Attention CenterNet Integrating Internal LR and HR Joint Feature Learning ( http://arxiv.org/abs/2304.02291v1 ) ライセンス: Link先を確認 | Jae-Hyeon Lee, Chang-Hwan Son | (参考訳) 早期の害虫数を予測する害虫数計数は、害虫の迅速な制御を可能にし、作物の被害を軽減し、生産性を向上させるため、非常に重要である。
近年では、害虫計数のために害虫の誘引や写真撮影に光トラップが使われている。
しかし, 害虫画像は, 重度の閉塞, 広範囲なポーズ変動, スケール変動などにより, 害虫の出現の多様性が幅広い。
これにより、害虫の計数が難しくなる。
これらの課題に対処するため,本研究では,内部低分解能(LR)と高分解能(HR)機能学習のためのマルチスケール・デフォルマブルアテンションセンターネット(Mada-CenterNet)と呼ばれる新しい害虫カウントモデルを提案する。
従来のCenterNetと比較して、提案したMada-CenterNetは、LRとHRのヒートマップを適応的に学習し、害虫数の変化をスケールするために、2段階の方法でマルチスケールのヒートマップ生成アプローチを採用する。
また, 姿勢・咬合問題を克服するために, 内部lrとhrのジョイント特徴学習と幾何学的変形を保証し, 害虫計数精度を向上させるために, 変形性および多スケールの注意に基づく時計間スキップ接続を新たに設計した。
提案するmada-centernetは,hrヒートマップをより高精度に生成し,マルチスケールヒートマップ生成,ジョイント内部特徴学習,変形可能かつマルチスケール注意による害虫計数精度を向上させる。
また,本モデルが重度の咬合やポーズやスケールの変化を克服する効果があることを確認した。
実験の結果,提案モデルが最先端の群集数と物体検出モデルを上回ることがわかった。 Pest counting, which predicts the number of pests in the early stage, is very important because it enables rapid pest control, reduces damage to crops, and improves productivity. In recent years, light traps have been increasingly used to lure and photograph pests for pest counting. However, pest images have a wide range of variability in pest appearance owing to severe occlusion, wide pose variation, and even scale variation. This makes pest counting more challenging. To address these issues, this study proposes a new pest counting model referred to as multiscale and deformable attention CenterNet (Mada-CenterNet) for internal low-resolution (LR) and high-resolution (HR) joint feature learning. Compared with the conventional CenterNet, the proposed Mada-CenterNet adopts a multiscale heatmap generation approach in a two-step fashion to predict LR and HR heatmaps adaptively learned to scale variations, that is, changes in the number of pests. In addition, to overcome the pose and occlusion problems, a new between-hourglass skip connection based on deformable and multiscale attention is designed to ensure internal LR and HR joint feature learning and incorporate geometric deformation, thereby resulting in an improved pest counting accuracy. Through experiments, the proposed Mada-CenterNet is verified to generate the HR heatmap more accurately and improve pest counting accuracy owing to multiscale heatmap generation, joint internal feature learning, and deformable and multiscale attention. In addition, the proposed model is confirmed to be effective in overcoming severe occlusions and variations in pose and scale. The experimental results show that the proposed model outperforms state-of-the-art crowd counting and object detection models. | 翻訳日:2023-04-06 13:00:19 公開日:2023-04-05 |
# ボソンの第三量子化:シンプレクティック対角化、非エルミートハミルトニアン、対称性 Third quantization for bosons: symplectic diagonalization, non-Hermitian Hamiltonian, and symmetries ( http://arxiv.org/abs/2304.02367v1 ) ライセンス: Link先を確認 | Steven Kim and Fabian Hassler | (参考訳) マルコフ環境と相互作用する開量子系はリンドブラッドマスター方程式によって記述することができる。
時間変換の生成元は、系の密度行列に作用するリウィリア超作用素 $\mathcal{L}$ によって与えられる。
単一のボソニックモードのフォック空間は既に無限次元であるため、リウヴィリアンの対角化は「第三量子化」と呼ばれる過程の創造と消滅のスーパーオペレーター上で行う必要がある。
単一シンプレクティック変換を用いた二次系に対するリウビリアンの解法を提案する。
系の非エルミート実効ハミルトニアンは、系のダイナミクスを組み込むのに隣接して、その対称性を分析するツールであることを示す。
例えば、有効ハミルトニアンを用いて開システムの $\mathcal{pt}$-`symmetry' を定式化する。
本稿では,光子電流などの観測可能領域に対する累積生成関数を,ソース項の包含によってどのように得るかを述べる。 Open quantum systems that interact with a Markovian environment can be described by a Lindblad master equation. The generator of time-translation is given by a Liouvillian superoperator $\mathcal{L}$ acting on the density matrix of the system. As the Fock space for a single bosonic mode is already infinite-dimensional, the diagonalization of the Liouvillian has to be done on the creation- and annihilation-superoperators, a process called `third quantization'. We propose a method to solve the Liouvillian for quadratic systems using a single symplectic transformation. We show that the non-Hermitian effective Hamiltonian of the system, next to incorporating the dynamics of the system, is a tool to analyze its symmetries. As an example, we use the effective Hamiltonian to formulate a $\mathcal{PT}$-`symmetry' of an open system. We describe how the inclusion of source terms allows to obtain the cumulant generating function for observables such as the photon current. | 翻訳日:2023-04-06 12:53:31 公開日:2023-04-05 |
# 名前の由来は?
画像認識のためのクラス指標を超えて What's in a Name? Beyond Class Indices for Image Recognition ( http://arxiv.org/abs/2304.02364v1 ) ライセンス: Link先を確認 | Kai Han and Yandong Li and Sagar Vaze and Jie Li and Xuhui Jia | (参考訳) 既存の機械学習モデルは、完全な監視下で大規模なデータセットをトレーニングした後、画像オブジェクト認識において優れたパフォーマンスを示す。
しかし、これらのモデルは、イメージ内のオブジェクトの実際の意味を明らかにすることなく、事前に定義されたクラスインデックスにイメージをマッピングすることしか学ばない。
対照的に、clipのようなビジョン言語モデルは、テスト時に事前に定義された候補名セットに依存するが、'ゼロショット'な方法で、セマンティクスクラス名をセマンティクスオブジェクトに割り当てることができる。
本稿では,認識問題を再考し,大規模かつ本質的に制約のないカテゴリの語彙のみを先行情報とする画像にクラス名を付与する視覚言語モデルを提案する。
非パラメトリックな手法を用いて画像間の関係を確立することで、モデルが候補名の集合を自動的に絞り込むことができる。
具体的には,データを反復的にクラスタリングし,クラス名に投票することで,imagenet のベースラインに対して約 50 % の改善を実現することを提案する。
さらに, 教師なし, 一部教師なしの設定でこの問題に対処し, 未制約辞書として粗粒度, 細粒度検索空間に対処した。 Existing machine learning models demonstrate excellent performance in image object recognition after training on a large-scale dataset under full supervision. However, these models only learn to map an image to a predefined class index, without revealing the actual semantic meaning of the object in the image. In contrast, vision-language models like CLIP are able to assign semantic class names to unseen objects in a `zero-shot' manner, although they still rely on a predefined set of candidate names at test time. In this paper, we reconsider the recognition problem and task a vision-language model to assign class names to images given only a large and essentially unconstrained vocabulary of categories as prior information. We use non-parametric methods to establish relationships between images which allow the model to automatically narrow down the set of possible candidate names. Specifically, we propose iteratively clustering the data and voting on class names within them, showing that this enables a roughly 50\% improvement over the baseline on ImageNet. Furthermore, we tackle this problem both in unsupervised and partially supervised settings, as well as with a coarse-grained and fine-grained search space as the unconstrained dictionary. | 翻訳日:2023-04-06 12:53:14 公開日:2023-04-05 |
# 量子回路確率の可視化-量子プログラム合成のための計算動作の推定 Visualizing Quantum Circuit Probability -- estimating computational action for quantum program synthesis ( http://arxiv.org/abs/2304.02358v1 ) ライセンス: Link先を確認 | Bao Gia Bach, Akash Kundu, Tamal Acharya, Aritra Sarkar | (参考訳) 本研究は、アルゴリズム確率からブールおよび量子組合せ論理回路への概念を応用する。
状態のチュートリアルスタイルの紹介と状態の複雑さに関する様々な概念を紹介する。
その後、計算の回路モデルにおける状態の確率が定義される。
古典的および量子ゲート集合はいくつかの特徴集合を選択するために比較される。
これらのゲートセットに対する時空間有界設定における到達性と表現性を列挙して視覚化する。
これらの結果は計算資源、普遍性、量子挙動の観点から研究されている。
この記事では、幾何量子機械学習、新しい量子アルゴリズム合成、量子人工知能といった応用が、回路確率を研究することによってどのように役立つかを提案する。 This research applies concepts from algorithmic probability to Boolean and quantum combinatorial logic circuits. A tutorial-style introduction to states and various notions of the complexity of states are presented. Thereafter, the probability of states in the circuit model of computation is defined. Classical and quantum gate sets are compared to select some characteristic sets. The reachability and expressibility in a space-time-bounded setting for these gate sets are enumerated and visualized. These results are studied in terms of computational resources, universality and quantum behavior. The article suggests how applications like geometric quantum machine learning, novel quantum algorithm synthesis and quantum artificial general intelligence can benefit by studying circuit probabilities. | 翻訳日:2023-04-06 12:52:52 公開日:2023-04-05 |
# U-Netを用いたCTシリーズにおける計画目標体積の分割 Segmentation of Planning Target Volume in CT Series for Total Marrow Irradiation Using U-Net ( http://arxiv.org/abs/2304.02353v1 ) ライセンス: Link先を確認 | Ricardo Coimbra Brioso, Damiano Dei, Ciro Franzese, Nicola Lambri, Daniele Loiacono, Pietro Mancosu, Marta Scorsetti | (参考訳) 放射線療法 (RT) は急性リンパ性白血病 (ALL) や急性骨髄性白血病 (AML) など様々ながんの治療において重要な要素である。
リスクのある臓器(oars)と標的領域の正確な区切りは、効果的な治療計画に不可欠である。
TMI(Total Marrow Irradiation)やTMLI(Total Marrow and Lymph node Irradiation)のようなIMRT(Intensity Modulated Radiotherapy)は、Total Body Irradiation(Total Body Irradiation)よりも正確な放射線照射を提供する。
しかし, 放射線腫瘍学者 (ro) によるctスキャンでは, 時間を要する手作業による構造分割が必要となる。
本稿では,U-Netアーキテクチャを用いたTMLI処理のための計画目標ボリューム(PTV)分割のためのディープラーニングに基づく自動構成手法を提案する。
2011年から2021年にかけて,Humanitas Research HospitalでTMLIを治療した100人の患者を対象に,2つのセグメンテーションモデルを訓練・比較した。
リンパ節領域の課題にもかかわらず、最良のモデルは、PTVセグメンテーションにおける平均Diceスコア0.816を達成した。
本研究は放射線腫瘍学者を相当の時間で救うことができるセグメンテーションモデルの開発に向けた予備的だが重要なステップである。
これにより、より多くの患者の治療が可能となり、臨床実践効率が向上し、再現可能な輪郭が向上する。 Radiotherapy (RT) is a key component in the treatment of various cancers, including Acute Lymphocytic Leukemia (ALL) and Acute Myelogenous Leukemia (AML). Precise delineation of organs at risk (OARs) and target areas is essential for effective treatment planning. Intensity Modulated Radiotherapy (IMRT) techniques, such as Total Marrow Irradiation (TMI) and Total Marrow and Lymph node Irradiation (TMLI), provide more precise radiation delivery compared to Total Body Irradiation (TBI). However, these techniques require time-consuming manual segmentation of structures in Computerized Tomography (CT) scans by the Radiation Oncologist (RO). In this paper, we present a deep learning-based auto-contouring method for segmenting Planning Target Volume (PTV) for TMLI treatment using the U-Net architecture. We trained and compared two segmentation models with two different loss functions on a dataset of 100 patients treated with TMLI at the Humanitas Research Hospital between 2011 and 2021. Despite challenges in lymph node areas, the best model achieved an average Dice score of 0.816 for PTV segmentation. Our findings are a preliminary but significant step towards developing a segmentation model that has the potential to save radiation oncologists a considerable amount of time. This could allow for the treatment of more patients, resulting in improved clinical practice efficiency and more reproducible contours. | 翻訳日:2023-04-06 12:52:44 公開日:2023-04-05 |
# 単一画像からの自己教師付き3次元ポーズ推定 Self-supervised 3D Human Pose Estimation from a Single Image ( http://arxiv.org/abs/2304.02349v1 ) ライセンス: Link先を確認 | Jose Sosa and David Hogg | (参考訳) 一つの画像から3次元人体のポーズを予測する新しい自己教師あり手法を提案する。
予測ネットワークは、典型的なポーズの人々を描いたラベルなしの画像のデータセットと、ペアなしの2dポーズのセットから訓練される。
注釈付きデータの必要性を最小化することにより、他の関節構造(例えば動物)の推定を迅速に行うことができる。
自己スーパービジョンは、予測されたポーズ間の整合性を利用した3次元回転による以前のアイデアに由来する。
本手法は,手足関節の制約や3D経験的ポーズを伴わずに,画像から直接マッピングを訓練する最先端の自己教師手法の進歩である。
画像と地上3Dポーズ(Human3.6M, MPI-INF-3DHP)を提供するベンチマークデータセットを用いて,最先端の自己教師手法と比較した。
注釈付きデータの要求が減ったにもかかわらず、この手法はHuman3.6Mよりも優れ、MPI-INF-3DHPの性能と一致している。
人間の手のデータセット上の定性的な結果は、人体以外の関節構造の3Dポーズを素早く学習する可能性を示している。 We propose a new self-supervised method for predicting 3D human body pose from a single image. The prediction network is trained from a dataset of unlabelled images depicting people in typical poses and a set of unpaired 2D poses. By minimising the need for annotated data, the method has the potential for rapid application to pose estimation of other articulated structures (e.g. animals). The self-supervision comes from an earlier idea exploiting consistency between predicted pose under 3D rotation. Our method is a substantial advance on state-of-the-art self-supervised methods in training a mapping directly from images, without limb articulation constraints or any 3D empirical pose prior. We compare performance with state-of-the-art self-supervised methods using benchmark datasets that provide images and ground-truth 3D pose (Human3.6M, MPI-INF-3DHP). Despite the reduced requirement for annotated data, we show that the method outperforms on Human3.6M and matches performance on MPI-INF-3DHP. Qualitative results on a dataset of human hands show the potential for rapidly learning to predict 3D pose for articulated structures other than the human body. | 翻訳日:2023-04-06 12:52:19 公開日:2023-04-05 |
# 共通の絡み合い指標における欠陥の修正 Correcting Flaws in Common Disentanglement Metrics ( http://arxiv.org/abs/2304.02335v1 ) ライセンス: Link先を確認 | Louis Mahon, Lei Shah, Thomas Lukasiewicz | (参考訳) 近年では、大きさや形などの異なる特徴が異なる神経細胞によって表現される非絡み合い表現の学習への関心が高まっている。
与えられた表現が切り離されている範囲の定量化は簡単ではなく、複数のメトリクスが提案されている。
本稿では,既存のメトリクスの2つの失敗を識別する。これは,まだ絡み合っているモデルに高いスコアを割り当てることができることを意味し,これらの問題に対処する2つの新しいメトリクスを提案する。
次に、構成一般化の課題を考える。
従来の作業とは異なり、これを分類問題として扱い、デコーダに依存することなく、エンコーダのアンタングル化能力を測定することができる。
私たちは、このタスクにおけるパフォーマンスは、
(a)概してかなり貧弱である。
(b)ほとんどの絡み合い指標と相関し、
c) 新たに提案した指標と最も強く相関した。 Recent years have seen growing interest in learning disentangled representations, in which distinct features, such as size or shape, are represented by distinct neurons. Quantifying the extent to which a given representation is disentangled is not straightforward; multiple metrics have been proposed. In this paper, we identify two failings of existing metrics, which mean they can assign a high score to a model which is still entangled, and we propose two new metrics, which redress these problems. We then consider the task of compositional generalization. Unlike prior works, we treat this as a classification problem, which allows us to use it to measure the disentanglement ability of the encoder, without depending on the decoder. We show that performance on this task is (a) generally quite poor, (b) correlated with most disentanglement metrics, and (c) most strongly correlated with our newly proposed metrics. | 翻訳日:2023-04-06 12:51:57 公開日:2023-04-05 |
# SMPConv: 継続的畳み込みのための自己移動ポイント表現 SMPConv: Self-moving Point Representations for Continuous Convolution ( http://arxiv.org/abs/2304.02330v1 ) ライセンス: Link先を確認 | Sanghyeon Kim, Eunbyung Park | (参考訳) 継続的畳み込みは、不規則にサンプリングされたデータを処理し、長期的な依存関係をモデル化する能力によって、最近注目されている。
また,大規模な畳み込みカーネルを非常に効率的に構築できるため,大きな畳み込みカーネルを用いた有望な実験結果によって連続畳み込みの開発が触媒化されている。
ニューラルネットワークの活用、特に多層パーセプトロン(MLP)は、継続的畳み込みを実装するための最も一般的なアプローチである。
しかし、計算コストの高さ、複雑なハイパーパラメータチューニング、フィルタの記述力の制限など、いくつかの欠点がある。
本稿では,ニューラルネットワークを使わずに連続的な畳み込みを構築する方法を提案する。
重みパラメータが自由に動く自己移動点表現と補間スキームを用いて連続関数を実装する。
畳み込みカーネルの構築に適用すると、既存のフレームワークのドロップイン置換によるパフォーマンスの向上が実験的に示された。
その軽量な構造から,我々はまず,イメージネットのような大規模環境における連続畳み込みの有効性を実証し,先行技術に対する改善を提示する。
私たちのコードはhttps://github.com/sangnekim/SMPConvで利用可能です。 Continuous convolution has recently gained prominence due to its ability to handle irregularly sampled data and model long-term dependency. Also, the promising experimental results of using large convolutional kernels have catalyzed the development of continuous convolution since they can construct large kernels very efficiently. Leveraging neural networks, more specifically multilayer perceptrons (MLPs), is by far the most prevalent approach to implementing continuous convolution. However, there are a few drawbacks, such as high computational costs, complex hyperparameter tuning, and limited descriptive power of filters. This paper suggests an alternative approach to building a continuous convolution without neural networks, resulting in more computationally efficient and improved performance. We present self-moving point representations where weight parameters freely move, and interpolation schemes are used to implement continuous functions. When applied to construct convolutional kernels, the experimental results have shown improved performance with drop-in replacement in the existing frameworks. Due to its lightweight structure, we are first to demonstrate the effectiveness of continuous convolution in a large-scale setting, e.g., ImageNet, presenting the improvements over the prior arts. Our code is available on https://github.com/sangnekim/SMPConv | 翻訳日:2023-04-06 12:51:44 公開日:2023-04-05 |
# 変動情報を用いたマルチモーダルエンティティの強化と関係抽出 Enhancing Multimodal Entity and Relation Extraction with Variational Information Bottleneck ( http://arxiv.org/abs/2304.02328v1 ) ライセンス: Link先を確認 | Shiyao Cui, Jiangxia Cao, Xin Cong, Jiawei Sheng, Quangang Li, Tingwen Liu, Jinqiao Shi | (参考訳) 本稿では,マルチメディアソーシャルプラットフォーム分析において重要なマルチモーダルなエンティティ認識(MNER)とマルチモーダルな関係抽出(MRE)について検討する。
MNERとMREの中核は、明らかな視覚情報を組み込んでテキスト意味論を強化することである。
最初の問題はモーダリティノイズであり、各モーダリティにおけるタスク非関連情報は、タスク予測を誤解させるノイズである可能性がある。
第2の問題はモダリティギャップ(Modality-gap)であり、異なるモダリティの表現が矛盾し、テキストと画像間のセマンティックアライメントを構築するのを防ぐ。
これらの課題に対処するために,MMIB(Information Bottleneck)を用いたマルチモーダル表現学習によるMNERとMREの新しい手法を提案する。
まず,リファインメント・レギュラライザは,予測証拠と雑音情報とのバランスをとるために情報ボトルネック原理を探索し,予測のための表現表現を与える。
第2の課題として、相互情報に基づく項目が対比的に動作し、一貫したテキスト画像表現を規則化するアライメントレギュラライザを提案する。
最善の知識として、我々はmnerとmreの変分ib推定を初めて調査した。
実験により、MMIBは3つの公開ベンチマークで最先端のパフォーマンスを達成することが示された。 This paper studies the multimodal named entity recognition (MNER) and multimodal relation extraction (MRE), which are important for multimedia social platform analysis. The core of MNER and MRE lies in incorporating evident visual information to enhance textual semantics, where two issues inherently demand investigations. The first issue is modality-noise, where the task-irrelevant information in each modality may be noises misleading the task prediction. The second issue is modality-gap, where representations from different modalities are inconsistent, preventing from building the semantic alignment between the text and image. To address these issues, we propose a novel method for MNER and MRE by Multi-Modal representation learning with Information Bottleneck (MMIB). For the first issue, a refinement-regularizer probes the information-bottleneck principle to balance the predictive evidence and noisy information, yielding expressive representations for prediction. For the second issue, an alignment-regularizer is proposed, where a mutual information-based item works in a contrastive manner to regularize the consistent text-image representations. To our best knowledge, we are the first to explore variational IB estimation for MNER and MRE. Experiments show that MMIB achieves the state-of-the-art performances on three public benchmarks. | 翻訳日:2023-04-06 12:51:26 公開日:2023-04-05 |
# 分布シフト補償のための凸最適化に基づくポリシー適応 Convex Optimization-based Policy Adaptation to Compensate for Distributional Shifts ( http://arxiv.org/abs/2304.02324v1 ) ライセンス: Link先を確認 | Navid Hashemi, Justin Ruths, Jyotirmoy V. Deshmukh | (参考訳) 多くの現実世界のシステムは、しばしば非常に非線形で不確実な力学を持つ物理部品や操作環境を含む。
多くの異なる制御アルゴリズムは、実際のシステムの適度な忠実度モデルを仮定して、そのようなシステムのための最適コントローラを設計するのに使うことができる。
しかし、最適コントローラを設計する際のモデルの確率的ダイナミクスに基づく仮定は、システムが実世界でデプロイされた場合、もはや有効ではないかもしれない。
訓練環境における制御問題を解いて最適軌道を得る場合, 実世界のシステム軌道がこの最適軌道を, 最小限の誤差で追跡することを保証するには, どのようにすればよいか。
言い換えれば、私たちは、環境の分散シフトに最適なトレーニングされたポリシーを適用する方法を学びたいのです。
安全クリティカルなシステムでは、トレーニングされたポリシーがデプロイ中に安全でない結果をもたらす可能性がある。
粒子群最適化(PSO)のようなヒューリスティック手法を用いて解くことができる非線形最適化問題として,この問題を論じることができる。
しかし、この問題の凸緩和を考える代わりに、最適な軌道を追跡するポリシーを学習し、より優れたエラー性能とより高速な計算時間を得ることができる。
本手法は,ドビンの車モデルを用いた最適経路追尾と,適応クルーズ制御のための線形および非線形モデルを用いた衝突回避効果を示す。 Many real-world systems often involve physical components or operating environments with highly nonlinear and uncertain dynamics. A number of different control algorithms can be used to design optimal controllers for such systems, assuming a reasonably high-fidelity model of the actual system. However, the assumptions made on the stochastic dynamics of the model when designing the optimal controller may no longer be valid when the system is deployed in the real-world. The problem addressed by this paper is the following: Suppose we obtain an optimal trajectory by solving a control problem in the training environment, how do we ensure that the real-world system trajectory tracks this optimal trajectory with minimal amount of error in a deployment environment. In other words, we want to learn how we can adapt an optimal trained policy to distribution shifts in the environment. Distribution shifts are problematic in safety-critical systems, where a trained policy may lead to unsafe outcomes during deployment. We show that this problem can be cast as a nonlinear optimization problem that could be solved using heuristic method such as particle swarm optimization (PSO). However, if we instead consider a convex relaxation of this problem, we can learn policies that track the optimal trajectory with much better error performance, and faster computation times. We demonstrate the efficacy of our approach on tracking an optimal path using a Dubin's car model, and collision avoidance using both a linear and nonlinear model for adaptive cruise control. | 翻訳日:2023-04-06 12:51:02 公開日:2023-04-05 |
# 拡張SU(2)格子ゲージ理論における正準モーメント:定義と自由理論 Canonical Momenta in Digitized SU(2) Lattice Gauge Theory: Definition and Free Theory ( http://arxiv.org/abs/2304.02322v1 ) ライセンス: Link先を確認 | Timo Jakobs and Marco Garofalo and Tobias Hartung and Karl Jansen and Johann Ostmeyer and Dominik Rolfes and Simone Romiti and Carsten Urbach | (参考訳) 量子系のハミルトニアンシミュレーションはヒルベルト空間 H に作用する作用素の有限次元表現を必要とする。ここでは、SU(2)ゲージ理論のゲージリンクと正準モータについて、前者の行列表現が H において対角的であるような処方を与える。
我々は, 基本通勤関係が離散化成果物に満たされていることを示す。
さらに、Laplace-Beltrami作用素に対応するカシミール作用素を$S_3$で直接構成し、自由理論のスペクトルが再び離散化効果によって再現されることを示す。
定性的には、これらの結果は SU(2) の特定の離散化に依存しないが、実際の収束率に依存する。 Hamiltonian simulations of quantum systems require a finite-dimensional representation of the operators acting on the Hilbert space H. Here we give a prescription for gauge links and canonical momenta of an SU(2) gauge theory, such that the matrix representation of the former is diagonal in H. This is achieved by discretising the sphere $S_3$ isomorphic to SU(2) and the corresponding directional derivatives. We show that the fundamental commutation relations are fulfilled up to discretisation artefacts. Moreover, we directly construct the Casimir operator corresponding to the Laplace-Beltrami operator on $S_3$ and show that the spectrum of the free theory is reproduced again up to discretisation effects. Qualitatively, these results do not depend on the specific discretisation of SU(2), but the actual convergence rates do. | 翻訳日:2023-04-06 12:50:40 公開日:2023-04-05 |
# 浮遊ナノメカニカル発振器の超高品質化 Ultra-high quality factor of a levitated nanomechanical oscillator ( http://arxiv.org/abs/2304.02408v1 ) ライセンス: Link先を確認 | Lorenzo Dania, Dmitry S. Bykov, Florian Goschin, Markus Teller, Tracy E. Northup | (参考訳) 超高真空(UHV)下での浮遊ナノメカニカル発振器は、その環境から高度に分離されており、この分離により非常に低い機械的消散速度が期待できる。
しかし、予測と実験データの間にはギャップがある。
ここでは,リニアポールトラップ内のシリカナノ粒子を室温で浮揚し,圧力を7〜11〜\text{mbar}$とする。
散逸率は 2\pi\times80(20)~\text{nhz}$ であり、前述したより2桁高い10^{10}$を超える品質係数に対応する。
粒子の減衰と加熱速度の圧力依存性の研究は、関連する散逸機構についての洞察を与える。
以上の結果から, 浮遊ナノ粒子は超感度検出器やマクロスケールでの量子物理学のテストに有望な候補であることを確認した。 A levitated nanomechanical oscillator under ultra-high vacuum (UHV) is highly isolated from its environment, and this isolation is expected to enable very low mechanical dissipation rates. However, a gap persists between predictions and experimental data. Here, we levitate a silica nanoparticle in a linear Paul trap at room temperature, at pressures as low as $7\times 10^{-11}~\text{mbar}$. We measure a dissipation rate of $2\pi\times80(20)~\text{nHz}$, corresponding to a quality factor exceeding $10^{10}$, more than two orders of magnitude higher than previously shown. A study of the pressure dependence of the particle's damping and heating rates provides insight into the relevant dissipation mechanisms. Our results confirm that levitated nanoparticles are indeed promising candidates for ultrasensitive detectors and for tests of quantum physics at macroscopic scales. | 翻訳日:2023-04-06 12:43:34 公開日:2023-04-05 |
# マルチモーダルデータ融合の解説--ワイルドネスマッピングのためのオクルージョン解析 Explaining Multimodal Data Fusion: Occlusion Analysis for Wilderness Mapping ( http://arxiv.org/abs/2304.02407v1 ) ライセンス: Link先を確認 | Burak Ekim and Michael Schmitt | (参考訳) 共通潜在空間におけるマルチモーダル入力データの相補的特徴の併用は、古くから有益であることが判明している。
しかし、モデル決定に対する各モダリティの影響はパズルのままである。
本研究では,マルチモーダル地球観測データのエンドツーエンドでのモーダリティレベル解釈のためのディープラーニングフレームワークを提案する。
提案手法は, 咬合感度と呼ばれる説明可能な機械学習手法を活用しつつ, 学習過程の前にモーダル度が融合する早期融解シナリオにおけるモーダル度の影響について検討する。
荒野マッピングの課題は,土地被覆や夜間光データといった補助データから大きな恩恵を受けている。 Jointly harnessing complementary features of multi-modal input data in a common latent space has been found to be beneficial long ago. However, the influence of each modality on the models decision remains a puzzle. This study proposes a deep learning framework for the modality-level interpretation of multimodal earth observation data in an end-to-end fashion. While leveraging an explainable machine learning method, namely Occlusion Sensitivity, the proposed framework investigates the influence of modalities under an early-fusion scenario in which the modalities are fused before the learning process. We show that the task of wilderness mapping largely benefits from auxiliary data such as land cover and night time light data. | 翻訳日:2023-04-06 12:43:18 公開日:2023-04-05 |
# オートRLハイパーパラメータの景観 AutoRL Hyperparameter Landscapes ( http://arxiv.org/abs/2304.02396v1 ) ライセンス: Link先を確認 | Aditya Mohan, Carolin Benjamins, Konrad Wienecke, Alexander Dockhorn, Marius Lindauer | (参考訳) 強化学習(Reinforcement Learning, RL)は印象的な結果を生み出すことができるが、その性能に対するハイパーパラメータの影響によって制限されている。
これはしばしば、実践において良い結果を得るのを難しくする。
オートRL(Automated RL)はこの問題に対処するが、ハイパーパラメータ最適化(HPO)手法が最適構成を探索する際のハイパーパラメータランドスケープのダイナミクスについてはほとんど知られていない。
ハイパーパラメータの設定を動的に調整する既存のautorlアプローチの観点から,ハイパーパラメータのランドスケープを1つのポイントだけではなく,トレーニングを通じて複数のポイントで構築・解析する手法を提案する。
このようなダイナミックなAutoRLアプローチの正当性に関する重要なオープンな疑問に対処するため、様々な環境(Cartpole と Hopper)におけるRL文学(DQN と SAC)の代表的なアルゴリズムにおいて、ハイパーパラメータのランドスケープが時間とともに強く変化することを示す実験的な証拠を提供する。
これは、ハイパーパラメータをトレーニング中に動的に調整し、ランドスケープ解析によって得られるautorl問題に関するさらなる洞察を得る可能性を示す理論を支持する。 Although Reinforcement Learning (RL) has shown to be capable of producing impressive results, its use is limited by the impact of its hyperparameters on performance. This often makes it difficult to achieve good results in practice. Automated RL (AutoRL) addresses this difficulty, yet little is known about the dynamics of the hyperparameter landscapes that hyperparameter optimization (HPO) methods traverse in search of optimal configurations. In view of existing AutoRL approaches dynamically adjusting hyperparameter configurations, we propose an approach to build and analyze these hyperparameter landscapes not just for one point in time but at multiple points in time throughout training. Addressing an important open question on the legitimacy of such dynamic AutoRL approaches, we provide thorough empirical evidence that the hyperparameter landscapes strongly vary over time across representative algorithms from RL literature (DQN and SAC) in different kinds of environments (Cartpole and Hopper). This supports the theory that hyperparameters should be dynamically adjusted during training and shows the potential for more insights on AutoRL problems that can be gained through landscape analyses. | 翻訳日:2023-04-06 12:43:06 公開日:2023-04-05 |
# コヒーレント量子ダイナミクスによる低損失データバス Low-Dissipation Data Bus via Coherent Quantum Dynamics ( http://arxiv.org/abs/2304.02391v1 ) ライセンス: Link先を確認 | Dylan Lewis, Jo\~ao P. Moutinho, Ant\'onio Costa, Yasser Omar, Sougato Bose | (参考訳) 2つの物理的位置間の情報の転送は、古典的および量子コンピューティングの両方において不可欠な要素である。
量子コンピューティングでは、情報の転送は量子状態を保存するために一貫性を持たなければならない。
量子ドット配列に1電子および2電子エンコードされた論理量子ビットを転送するための簡単なプロトコルを確立する。
このプロトコルの理論的エネルギーコストは計算され、特に量子ドット間のトンネルの凍結と凍結のコストが計算される。
量子ドットアレイ内の量子ビットをシャットリングし,古典情報バスを用いて古典情報を転送するエネルギーコストと比較した。
連鎖長に対して一定の散逸を処理できるのは我々のプロトコルだけです。
このプロトコルは、量子ドット量子コンピュータのスケーラブルなアーキテクチャの冷却要件と制約を減らすことができる。 The transfer of information between two physical locations is an essential component of both classical and quantum computing. In quantum computing the transfer of information must be coherent to preserve quantum states and hence the quantum information. We establish a simple protocol for transferring one- and two-electron encoded logical qubits in quantum dot arrays. The theoretical energetic cost of this protocol is calculated - in particular, the cost of freezing and unfreezing tunnelling between quantum dots. Our results are compared with the energetic cost of shuttling qubits in quantum dot arrays and transferring classical information using classical information buses. Only our protocol can manage constant dissipation for any chain length. This protocol could reduce the cooling requirements and constraints on scalable architectures for quantum dot quantum computers. | 翻訳日:2023-04-06 12:42:43 公開日:2023-04-05 |
# DRAC : Ultra-Wide Optical Coherence Tomography Angiography を用いた糖尿病網膜症解析の試み DRAC: Diabetic Retinopathy Analysis Challenge with Ultra-Wide Optical Coherence Tomography Angiography Images ( http://arxiv.org/abs/2304.02389v1 ) ライセンス: Link先を確認 | Bo Qian, Hao Chen, Xiangning Wang, Haoxuan Che, Gitaek Kwon, Jaeyoung Kim, Sungjin Choi, Seoyoung Shin, Felix Krause, Markus Unterdechler, Junlin Hou, Rui Feng, Yihao Li, Mostafa El Habib Daho, Qiang Wu, Ping Zhang, Xiaokang Yang, Yiyu Cai, Weiping Jia, Huating Li, Bin Sheng | (参考訳) 糖尿病網膜症(dr)のコンピュータ支援自動解析は、視力喪失や視覚障害のリスクを減らす上で非常に重要である。
Ultra-wide optical coherence tomography angiography (UW-OCTA)は、DR診断システムにおいて、非侵襲的で安全な画像モダリティであるが、モデルの開発と評価のためのベンチマークが公開されていない。
UW-OCTA画像を用いた糖尿病網膜症解析のためのさらなる研究と科学的ベンチマークを行うため,第25回医用画像コンピューティング・コンピュータ支援介入会議(MICCAI 2022)と共同で,DRAC-糖尿病網膜症解析チャレンジ(DRAC-diabetic Retinopathy Analysis Challenge)を企画した。
課題は、DR病変の分割、画像品質評価、DRグレーディングの3つのタスクからなる。
科学的コミュニティはこの課題に肯定的な反応を示し、地理的に多様な研究所の11、12、13のチームがそれぞれ3つの課題に異なる解決策を提出した。
本稿では,課題の各課題について,トップパフォーマンスのソリューションと結果の要約と分析を行う。
上位アルゴリズムから得られた結果は,深層学習モデルの性能向上におけるデータ拡張,モデルアーキテクチャ,ネットワークのアンサンブルの重要性を示している。
これらの発見は糖尿病網膜症解析の新しい発展を可能にする可能性がある。
この課題は、今後の方法論開発をベンチマークするための登録と提出の後に解決される。 Computer-assisted automatic analysis of diabetic retinopathy (DR) is of great importance in reducing the risks of vision loss and even blindness. Ultra-wide optical coherence tomography angiography (UW-OCTA) is a non-invasive and safe imaging modality in DR diagnosis system, but there is a lack of publicly available benchmarks for model development and evaluation. To promote further research and scientific benchmarking for diabetic retinopathy analysis using UW-OCTA images, we organized a challenge named "DRAC - Diabetic Retinopathy Analysis Challenge" in conjunction with the 25th International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI 2022). The challenge consists of three tasks: segmentation of DR lesions, image quality assessment and DR grading. The scientific community responded positively to the challenge, with 11, 12, and 13 teams from geographically diverse institutes submitting different solutions in these three tasks, respectively. This paper presents a summary and analysis of the top-performing solutions and results for each task of the challenge. The obtained results from top algorithms indicate the importance of data augmentation, model architecture and ensemble of networks in improving the performance of deep learning models. These findings have the potential to enable new developments in diabetic retinopathy analysis. The challenge remains open for post-challenge registrations and submissions for benchmarking future methodology developments. | 翻訳日:2023-04-06 12:42:32 公開日:2023-04-05 |
# ニューラルネットワークの解釈方法が本当に優れているか?
定量的ベンチマーク How good Neural Networks interpretation methods really are? A quantitative benchmark ( http://arxiv.org/abs/2304.02383v1 ) ライセンス: Link先を確認 | Antoine Passemiers, Pietro Folco, Daniele Raimondi, Giovanni Birolo, Yves Moreau, Piero Fariselli | (参考訳) Saliency Maps (SMs) は、ディープラーニングモデルの決定をモデルが関連すると考えられる特徴を強調することによって解釈するために広く利用されている。
非常に非線形な問題において、線形特徴選択(FS)法は関連する説明変数の強調に失敗する。
しかし、SMのような勾配に基づく特徴帰属手法の信頼性は、主に質的に(視覚的に)評価され、画像データに明確な根拠がないために、現在定量的なベンチマークが欠落している。
本稿では,これらの手法の視覚的評価によってもたらされるアポテニックバイアスについて,ニューラルネットワーク(NN)解釈手法の定量的評価手法を提案する。
この目的のために、非線形分離可能なクラスとデコイ(ランダム)の数が増加する合成データセットを構築し、高次元設定におけるFSの課題を明らかにした。
また,これらの手法をmmrやランダム林など従来の手法と比較した。
その結果,単純な合成データセットは,ベンチマーク手法のほとんどに挑戦するには十分であることが判明した。
TreeShap、mRMR、LassoNetは最高のFSメソッドである。
また,無関係な雑音変数に希釈された数個の非線形絡み合った予測特徴の関連性を定量化する場合,ニューラルネットワークに基づくFSと解釈手法は信頼性に欠けることを示す。 Saliency Maps (SMs) have been extensively used to interpret deep learning models decision by highlighting the features deemed relevant by the model. They are used on highly nonlinear problems, where linear feature selection (FS) methods fail at highlighting relevant explanatory variables. However, the reliability of gradient-based feature attribution methods such as SM has mostly been only qualitatively (visually) assessed, and quantitative benchmarks are currently missing, partially due to the lack of a definite ground truth on image data. Concerned about the apophenic biases introduced by visual assessment of these methods, in this paper we propose a synthetic quantitative benchmark for Neural Networks (NNs) interpretation methods. For this purpose, we built synthetic datasets with nonlinearly separable classes and increasing number of decoy (random) features, illustrating the challenge of FS in high-dimensional settings. We also compare these methods to conventional approaches such as mRMR or Random Forests. Our results show that our simple synthetic datasets are sufficient to challenge most of the benchmarked methods. TreeShap, mRMR and LassoNet are the best performing FS methods. We also show that, when quantifying the relevance of a few non linearly-entangled predictive features diluted in a large number of irrelevant noisy variables, neural network-based FS and interpretation methods are still far from being reliable. | 翻訳日:2023-04-06 12:42:08 公開日:2023-04-05 |
# 双曲平面における強結合モデルの状態密度 Density of states of tight-binding models in the hyperbolic plane ( http://arxiv.org/abs/2304.02382v1 ) ライセンス: Link先を確認 | R. Mosseri, J. Vidal | (参考訳) 正規双曲型タイリングに対する強結合ハミルトニアンのエネルギースペクトルについて検討する。
より具体的には、10^9$ 以上の点と開境界条件を持つ有限サイズの系におけるグリーン関数の継続フラクション展開を用いて状態密度を計算する。
この膨張の係数は、熱力学的極限をかなり正確に推測できるように素早く収束することが分かる。
この状態密度は、最近提案された双曲バンド理論に由来する予測とは対照的である。
したがって、双曲的ブロッホ様波動固有関数によって記述されるエネルギースペクトルの分画は熱力学的極限で消滅する。 We study the energy spectrum of tight-binding Hamiltonian for regular hyperbolic tilings. More specifically, we compute the density of states using the continued-fraction expansion of the Green function on finite-size systems with more than $10^9$ sites and open boundary conditions. The coefficients of this expansion are found to quickly converge so that the thermodynamical limit can be inferred quite accurately. This density of states is in stark contrast with the prediction stemming from the recently proposed hyperbolic band theory. Thus, we conclude that the fraction of the energy spectrum described by the hyperbolic Bloch-like wave eigenfunctions vanishes in the thermodynamical limit. | 翻訳日:2023-04-06 12:41:45 公開日:2023-04-05 |
# 物理にインスパイアされた機械学習モデルの解釈可能性 Physics-Inspired Interpretability Of Machine Learning Models ( http://arxiv.org/abs/2304.02381v1 ) ライセンス: Link先を確認 | Maximilian P Niroomand, David J Wales | (参考訳) 機械学習モデルによってなされた決定を説明する能力は、医療、サイバーセキュリティ、自律運転など、非常に敏感な分野でAIが広く採用されるための、最も重要なハードルのひとつだ。
入力データプロンプトモデル決定のどの特徴を理解することには大きな関心がある。
本研究では,物理科学で開発されたエネルギー景観分野の手法に触発された入力データの関連特徴を同定する新しい手法を提案する。
損失ランドスケープのミニマグループ内の保存重量を同定することにより、モデル決定の要因を特定することができる。
この概念の類似物は分子科学において存在し、座標不変量や順序パラメータを用いて分子の重要な特徴を同定する。
しかし、機械学習の損失状況にはそのようなアプローチは存在しない。
機械学習モデルへのエネルギーランドスケープ手法の適用性を実証し、これらの手法がモデルをより解釈しやすくするための、合成および実世界の例を示す。 The ability to explain decisions made by machine learning models remains one of the most significant hurdles towards widespread adoption of AI in highly sensitive areas such as medicine, cybersecurity or autonomous driving. Great interest exists in understanding which features of the input data prompt model decision making. In this contribution, we propose a novel approach to identify relevant features of the input data, inspired by methods from the energy landscapes field, developed in the physical sciences. By identifying conserved weights within groups of minima of the loss landscapes, we can identify the drivers of model decision making. Analogues to this idea exist in the molecular sciences, where coordinate invariants or order parameters are employed to identify critical features of a molecule. However, no such approach exists for machine learning loss landscapes. We will demonstrate the applicability of energy landscape methods to machine learning models and give examples, both synthetic and from the real world, for how these methods can help to make models more interpretable. | 翻訳日:2023-04-06 12:41:37 公開日:2023-04-05 |
# 2次元レイリー対流の効果的制御:不変多エージェント強化学習は必要なすべてである Effective control of two-dimensional Rayleigh--B\'enard convection: invariant multi-agent reinforcement learning is all you need ( http://arxiv.org/abs/2304.02370v1 ) ライセンス: Link先を確認 | Colin Vignon, Jean Rabault, Joel Vasanth, Francisco Alc\'antara-\'Avila, Mikael Mortensen, Ricardo Vinuesa | (参考訳) レイリー・b・エナード対流(rayleigh-b\'enard convection, rbc)は、いくつかの工業的・地学的な流れにおける再帰現象であり、基本的な流体力学の観点からよく研究されたシステムである。
しかし、例えば、標準RBC構成における底板加熱の空間分布を調節することでRBCを制御することは、古典的な制御理論法では難しいトピックである。
本研究では,RBC制御に深部強化学習(DRL)を適用した。
広チャネル内のRBCフローに固有の局所性と翻訳的不変性を生かした,不変なマルチエージェント強化学習(MARL)を活用することで,有効なRBC制御が得られることを示す。
RBCに適用されたMARLフレームワークは、DRLアクションサイズ寸法の単純な増加に起因する次元性の呪いに遭遇することなく、制御セグメントの数を増やすことができる。
これは、RBCドメインの異なる部分で生成された知識を再利用するMARL機能によって実現されている。
そこで本研究では,mall drlが自発的なrbc二重細胞パターンを不安定化させ,隣接する対流細胞を結合させることでrbcのトポロジーを変化させる高度な制御戦略を見いだし,その結果得られる合体細胞を積極的に制御し,新たな安定した構成へと導くことができることを示す。
この変化した流れは対流熱伝達を減少させ、いくつかの産業プロセスで有用である。
そこで本研究は,大規模RBCシステムを制御するためのMARL DRLの可能性を示すとともに,RBC構成を異なる位相構成間で移動させ,好適な熱伝達特性をもたらす戦略をDRLが発見できる可能性を示す。
これらの結果は、RBCの本質的な性質のさらなる理解と産業応用の開発に有用である。 Rayleigh-B\'enard convection (RBC) is a recurrent phenomenon in several industrial and geoscience flows and a well-studied system from a fundamental fluid-mechanics viewpoint. However, controlling RBC, for example by modulating the spatial distribution of the bottom-plate heating in the canonical RBC configuration, remains a challenging topic for classical control-theory methods. In the present work, we apply deep reinforcement learning (DRL) for controlling RBC. We show that effective RBC control can be obtained by leveraging invariant multi-agent reinforcement learning (MARL), which takes advantage of the locality and translational invariance inherent to RBC flows inside wide channels. The MARL framework applied to RBC allows for an increase in the number of control segments without encountering the curse of dimensionality that would result from a naive increase in the DRL action-size dimension. This is made possible by the MARL ability for re-using the knowledge generated in different parts of the RBC domain. We show in a case study that MARL DRL is able to discover an advanced control strategy that destabilizes the spontaneous RBC double-cell pattern, changes the topology of RBC by coalescing adjacent convection cells, and actively controls the resulting coalesced cell to bring it to a new stable configuration. This modified flow configuration results in reduced convective heat transfer, which is beneficial in several industrial processes. Therefore, our work both shows the potential of MARL DRL for controlling large RBC systems, as well as demonstrates the possibility for DRL to discover strategies that move the RBC configuration between different topological configurations, yielding desirable heat-transfer characteristics. These results are useful for both gaining further understanding of the intrinsic properties of RBC, as well as for developing industrial applications. | 翻訳日:2023-04-06 12:41:21 公開日:2023-04-05 |
# 最大エントロピーランダウウォークからのダーウィン用語 Darwin term from maximal entropy randow walk ( http://arxiv.org/abs/2304.02368v1 ) ライセンス: Link先を確認 | Manfried Faber | (参考訳) 格子上を最大エントロピーランダムウォーク (MERW) という特別な拡散過程から, ポテンシャル中の粒子に対する定常シュリンガー方程式を導出した。
同じ期間の全ての軌道は同じ重さになる。
この拡散過程から導かれる格子間隔の第二階はダーウィン項である。 We derive the stationary Schr\"odinger equation for particles in a potential from a special diffusion process, maximal entropy random walk (MERW) on a lattice. All trajectories of same duration get in MERW the same weight. To second order in the lattice spacing we deduce from this diffusion process the Darwin term. | 翻訳日:2023-04-06 12:40:44 公開日:2023-04-05 |
# 作用素空間におけるシュミット分解による量子絡み合いの解析 Analyzing quantum entanglement with the Schmidt decomposition in operator space ( http://arxiv.org/abs/2304.02447v1 ) ライセンス: Link先を確認 | Chengjie Zhang, Sophia Denker, Ali Asadian, Otfried G\"uhne | (参考訳) 絡み合いを特徴付けることは量子情報科学の中心である。
絡み合いを示す特別な観察用具、いわゆる絡み合い証人は、この作業に広く使用される道具である。
これらの証人の構成は一般に、ある絡み合った標的状態に対する高い忠実度を持つ量子状態も絡み合っているという観測に依存する。
可観測物のシュミット分解に基づいて絡み合う証人を構築するための一般的な方法を提案する。
この方法は2体およびそれ以上に多体システムで動作し、忠実性に基づく構成よりも厳格に強い。
得られた証人は、絡み合いを定量化したり、その次元を特徴づけるためにも使うことができる。
最後に,本手法が絡み込み検出を大幅に改善する実験例を紹介する。 Characterizing entanglement is central for quantum information science. Special observables which indicate entanglement, so-called entanglement witnesses, are a widely used tool for this task. The construction of these witnesses typically relies on the observation that quantum states with a high fidelity to some entangled target state are entangled, too. We introduce a general method to construct entanglement witnesses based on the Schmidt decomposition of observables. The method works for two- and, more importantly, many-body systems and is strictly stronger than fidelity-based constructions. The resulting witnesses can also be used to quantify entanglement as well as to characterize the dimensionality of it. Finally, we present experimentally relevant examples, where our approach improves entanglement detection significantly. | 翻訳日:2023-04-06 12:35:58 公開日:2023-04-05 |
# 複合非凸強凹極小問題に対する分散勾配勾配最大化法 Decentralized gradient descent maximization method for composite nonconvex strongly-concave minimax problems ( http://arxiv.org/abs/2304.02441v1 ) ライセンス: Link先を確認 | Yangyang Xu | (参考訳) ミニマックス問題は最近多くの研究の関心を集めている。
分散化された非凸強対流(NCSC)の最小構成最適化を解く試みがいくつかなされているが、いずれも最大化変数に制約を課すスムーズな問題に焦点を当てている。
本稿では、最小化変数と最大化変数の両方に対して凸非滑らか項を持つ合成NCSCミニマックス問題を解くための最初の試みを行う。
本アルゴリズムは,二元コンセンサス制約を吸収する乗算器を導入する分散ミニマックス問題の新しい再構成法に基づいて設計する。
二重コンセンサス制約の除去は、最も攻撃的な(すなわち、勾配上昇ステップの代わりに局所的な最大化)二重更新を可能にする。
さらに、二変数に対する非平滑性とコンセンサスの分離は、分散化アルゴリズムの解析を容易にするため、我々の改革は、NCSCのミニマックス問題を解決するための新しい(そしておそらくより効率的な)分散化手法を設計する新しい方法を生み出す。
本研究では,提案アルゴリズムによる大域的な収束結果と反復複雑性の結果を示し,再構成の(ほぼ)定常点を生成する。
また、改革の(近辺の)定常性と元の定式化との間に関係が確立される。
この関係により、双対正則化器が滑らかな場合、アルゴリズムは既存のものよりも複雑さの少ない結果(条件数への依存性が小さくなる)を持つことを示し、元の定式化のほぼ定常点を生成する。
提案アルゴリズムの性能を示すために, 分散ロジスティック回帰法を用いて数値実験を行った。 Minimax problems have recently attracted a lot of research interests. A few efforts have been made to solve decentralized nonconvex strongly-concave (NCSC) minimax-structured optimization; however, all of them focus on smooth problems with at most a constraint on the maximization variable. In this paper, we make the first attempt on solving composite NCSC minimax problems that can have convex nonsmooth terms on both minimization and maximization variables. Our algorithm is designed based on a novel reformulation of the decentralized minimax problem that introduces a multiplier to absorb the dual consensus constraint. The removal of dual consensus constraint enables the most aggressive (i.e., local maximization instead of a gradient ascent step) dual update that leads to the benefit of taking a larger primal stepsize and better complexity results. In addition, the decoupling of the nonsmoothness and consensus on the dual variable eases the analysis of a decentralized algorithm; thus our reformulation creates a new way for interested researchers to design new (and possibly more efficient) decentralized methods on solving NCSC minimax problems. We show a global convergence result of the proposed algorithm and an iteration complexity result to produce a (near) stationary point of the reformulation. Moreover, a relation is established between the (near) stationarities of the reformulation and the original formulation. With this relation, we show that when the dual regularizer is smooth, our algorithm can have lower complexity results (with reduced dependence on a condition number) than existing ones to produce a near-stationary point of the original formulation. Numerical experiments are conducted on a distributionally robust logistic regression to demonstrate the performance of the proposed algorithm. | 翻訳日:2023-04-06 12:35:42 公開日:2023-04-05 |
# 多モードキャビティQEDにおける最適ゲージの特性 Properties of optimal gauges in multi-mode cavity QED ( http://arxiv.org/abs/2304.02436v1 ) ライセンス: Link先を確認 | Geva Arwas, Vladimir E. Manucharyan, and Cristiano Ciuti | (参考訳) マルチモードキャビティ量子電磁力学(qed)は、例えば、原子とマルチモード電磁共振器の結合を記述する。
ゲージ選択は、正確なゲージ不変性は全空間でのみ回復されるため、切り離されたヒルベルト空間における実用的な計算にとって重要である。
最適ゲージは、同じ数の原子レベルとモードに対して最も正確な観測可能性を予測するものと定義することができる。
ゲージのパフォーマンスを定量化する異なるメトリクスは、関心の観測可能性に応じて導入できる。
この研究において、最適選択は一般にモード依存であり、すなわち各キャビティモードに対して異なるゲージが必要であることを示す。
光-物質相互作用の増大にはゲージの選択が重要になるが、最適ゲージは光-物質間の絡み合いが最小となる状況に対応していないことも示している。 Multi-mode cavity quantum electrodynamics (QED) describes, for example, the coupling between an atom and a multi-mode electromagnetic resonator. The gauge choice is important for practical calculations in truncated Hilbert spaces, because the exact gauge-invariance is recovered only in the whole space. An optimal gauge can be defined as the one predicting the most accurate observables for the same number of atomic levels and modes. Different metrics quantifying the gauge performance can be introduced depending on the observable of interest. In this work we demonstrate that the optimal choice is generally mode-dependent, i.e., a different gauge is needed for each cavity mode. While the choice of gauge becomes more important for increasing light-matter interaction, we also show that the optimal gauge does not correspond to the situation where the entanglement between light and matter is the smallest. | 翻訳日:2023-04-06 12:34:51 公開日:2023-04-05 |
# MS3D:3次元物体検出における教師なし領域適応のための複数検出器の活用 MS3D: Leveraging Multiple Detectors for Unsupervised Domain Adaptation in 3D Object Detection ( http://arxiv.org/abs/2304.02431v1 ) ライセンス: Link先を確認 | Darren Tsai, Julie Stephany Berrio, Mao Shan, Eduardo Nebot and Stewart Worrall | (参考訳) 3dオブジェクト検出における教師なしドメイン適応のための新しい自己学習パイプラインであるmulti-source 3d (ms3d) を導入する。
3D検出器の顕著な精度にもかかわらず、それらはしばしば特定のドメインバイアスに過度に適合し、様々なセンサーの設定や環境において最適以下の性能をもたらす。
既存の方法は通常、1つの検出器を対象のドメインに適応させることに重点を置いており、異なる検出器が異なる未知のドメインに対して異なる専門知識を持っているという事実を見落としている。
ms3dは、複数のソースドメインからの異なる事前学習された検出器を結合し、時間情報を組み込んで高品質な擬似ラベルを生成し、微調整する。
提案したKernel-Density Estimation (KDE) Box Fusion法は,複数のドメインからのボックス提案を融合し,最高のソース領域検出器の性能を超える擬似ラベルを得る。
ms3dは、領域シフトに対するロバスト性が向上し、より長い距離にわたって正確な擬似ラベルを生成する。
提案手法は,すべての評価データセットに対して最先端の性能を達成し,事前学習したソース検出器の選択が自己学習結果に最小限の影響を与えることを示す。 We introduce Multi-Source 3D (MS3D), a new self-training pipeline for unsupervised domain adaptation in 3D object detection. Despite the remarkable accuracy of 3D detectors, they often overfit to specific domain biases, leading to suboptimal performance in various sensor setups and environments. Existing methods typically focus on adapting a single detector to the target domain, overlooking the fact that different detectors possess distinct expertise on different unseen domains. MS3D leverages this by combining different pre-trained detectors from multiple source domains and incorporating temporal information to produce high-quality pseudo-labels for fine-tuning. Our proposed Kernel-Density Estimation (KDE) Box Fusion method fuses box proposals from multiple domains to obtain pseudo-labels that surpass the performance of the best source domain detectors. MS3D exhibits greater robustness to domain shifts and produces accurate pseudo-labels over greater distances, making it well-suited for high-to-low beam domain adaptation and vice versa. Our method achieved state-of-the-art performance on all evaluated datasets, and we demonstrate that the choice of pre-trained source detectors has minimal impact on the self-training result, making MS3D suitable for real-world applications. | 翻訳日:2023-04-06 12:34:33 公開日:2023-04-05 |
# ParroT: 大規模言語モデルを用いたチャット中の翻訳 ParroT: Translating During Chat Using Large Language Models ( http://arxiv.org/abs/2304.02426v1 ) ライセンス: Link先を確認 | Wenxiang Jiao, Jen-tse Huang, Wenxuan Wang, Xing Wang, Shuming Shi and Zhaopeng Tu | (参考訳) ChatGPTやGPT-4のような大規模言語モデル(LLM)は、チャット中に達成された様々な機械翻訳機能を含む幅広い自然言語処理(NLP)タスクに顕著な能力を発揮している。
しかし、これらのモデルは制限されたapiを通してのみアクセス可能であり、この分野の新しい研究と進歩の障壁となる。
そこで我々は,オープンソースのLLM(LLaMA-7b)と人文翻訳・評価データに基づいて,チャット中の翻訳能力を向上・調整するための$\mathbf{ParroT}$フレームワークを提案する。
具体的には、parrotは命令に従うスタイルに翻訳データを再構成し、翻訳プロセスを規制するための余分な要件を組み込むための"hint"フィールドを導入する。
そこで本研究では,翻訳命令,コントラスト命令,エラーガイド命令など,parrotモデルの微調整を行う3つの命令型を提案する。
2つのフローア部分集合とwmt22テストセットに関する実験は、翻訳命令がバニラllmの翻訳性能を大幅に向上させる一方で、エラー誘導命令は、人間が注釈を付けた低品質翻訳から学ぶことの重要性を示している。
一方、ParroTモデルは、微調整に関わるAlpacaのマルチタスクデータセットで一般的なタスクの能力を維持できる。
コード: https://github.com/wxjiao/parrot Large language models (LLMs) like ChatGPT and GPT-4 have exhibited remarkable abilities on a wide range of natural language processing (NLP) tasks, including various machine translation abilities accomplished during chat. However, these models are only accessible through restricted APIs, which creates barriers to new research and advancements in the field. Therefore, we propose the $\mathbf{ParroT}$ framework to enhance and regulate the translation abilities during chat based on open-sourced LLMs (i.e., LLaMA-7b) and human written translation and evaluation data. Specifically, ParroT reformulates translation data into the instruction-following style, and introduces a "Hint" field for incorporating extra requirements to regulate the translation process. Accordingly, we propose three instruction types for finetuning ParroT models, including translation instruction, contrastive instruction, and error-guided instruction. Experiments on two Flores subsets and WMT22 test sets suggest that translation instruction improves the translation performance of vanilla LLMs significantly while error-guided instruction can lead to a further improvement, which demonstrates the importance of learning from low-quality translations annotated by human. Meanwhile, the ParroT models can also preserve the ability on general tasks with the Alpaca multi-task dataset involved in finetuning. Codes: https://github.com/wxjiao/ParroT | 翻訳日:2023-04-06 12:34:10 公開日:2023-04-05 |
# 動きからの構造における意味的検証 Semantic Validation in Structure from Motion ( http://arxiv.org/abs/2304.02420v1 ) ライセンス: Link先を確認 | Joseph Rowell | (参考訳) コンピュータビジョンにおけるStructure from Motion (SfM)チャレンジは、異なる視点から撮影された2D画像の集合から計算された一連の投影的計測からシーンの3D構造を復元するプロセスである。
SfMは,特徴検出とマッチング,カメラモーション推定,推定内在パラメータと外在パラメータから3次元構造を復元する3つの主要なステップから構成される。
SfMの問題点は、テクスチャを欠いたシーンや反復的な特徴がフレーム間の誤った特徴マッチングを引き起こすことである。
セマンティックセグメンテーションは、深い畳み込みニューラルネットワークを用いて入力画像のピクセルをラベル付けすることで、SfMモデルの検証と修正を行う手段を提供する。
シーン内のクラスに関連する意味的および幾何学的性質を利用して、各オブジェクトのクラスに事前の制約を適用することができる。
SfMパイプラインCOLMAPとセマンティックセグメンテーションパイプラインDeepLabが使用された。
これは、高密度モデルの平面再構成とともに、計算されたカメラ位置から隠蔽される誤点、セマンティックラベル、したがって再構成された平面の事前制約を決定するために使用された。
ここで、セマンティックセグメンテーションはSfMに統合され、2D入力画像のオブジェクト検出を前提として、3Dポイントクラウドに事前適用される。
さらに、マッチしたキーポイントのセマンティックラベルを比較し、一貫性のないセマンティックラベル付きポイントを破棄する。
さらに、入力画像上のセマンティックラベルを用いて、出力SfMモデルにおける動きに関連するオブジェクトを除去する。
提案手法は,繰り返しアーキテクチャシーンの1102画像のデータセットを用いて評価する。
このプロジェクトは3次元SfMモデルの検証を改善するための新しい方法を提供する。 The Structure from Motion (SfM) challenge in computer vision is the process of recovering the 3D structure of a scene from a series of projective measurements that are calculated from a collection of 2D images, taken from different perspectives. SfM consists of three main steps; feature detection and matching, camera motion estimation, and recovery of 3D structure from estimated intrinsic and extrinsic parameters and features. A problem encountered in SfM is that scenes lacking texture or with repetitive features can cause erroneous feature matching between frames. Semantic segmentation offers a route to validate and correct SfM models by labelling pixels in the input images with the use of a deep convolutional neural network. The semantic and geometric properties associated with classes in the scene can be taken advantage of to apply prior constraints to each class of object. The SfM pipeline COLMAP and semantic segmentation pipeline DeepLab were used. This, along with planar reconstruction of the dense model, were used to determine erroneous points that may be occluded from the calculated camera position, given the semantic label, and thus prior constraint of the reconstructed plane. Herein, semantic segmentation is integrated into SfM to apply priors on the 3D point cloud, given the object detection in the 2D input images. Additionally, the semantic labels of matched keypoints are compared and inconsistent semantically labelled points discarded. Furthermore, semantic labels on input images are used for the removal of objects associated with motion in the output SfM models. The proposed approach is evaluated on a data-set of 1102 images of a repetitive architecture scene. This project offers a novel method for improved validation of 3D SfM models. | 翻訳日:2023-04-06 12:33:44 公開日:2023-04-05 |
# TM2D:音楽テキスト統合によるバイモーダリティ駆動型3Dダンス生成 TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration ( http://arxiv.org/abs/2304.02419v1 ) ライセンス: Link先を確認 | Kehong Gong, Dongze Lian, Heng Chang, Chuan Guo, Xinxin Zuo, Zihang Jiang, Xinchao Wang | (参考訳) テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。
音楽などの単一モダリティを用いてダンスの動きを生成する既存の作品とは違って,本文から提供される指導的情報によって導かれるよりリッチなダンスの動きを生み出すことが目的である。
しかし、音楽とテキストのモダリティと組み合わせたモーションデータの欠如は、両方を統合するダンスの動きを生成する能力を制限する。
この課題を解決するために,我々は,2つのデータセットの動作を量子化されたベクトルからなる潜在空間に投影するために,人間の3次元動作VQ-VAEを利用することを提案する。
さらに,音楽条件付きダンス生成の性能を低下させることなく3次元ダンス動作を生成するモーション生成アーキテクチャにテキスト命令を統合するクロスモーダルトランスフォーマティブを提案する。
生成した動きの質をよりよく評価するために、生成した動きのコヒーレンスと凍結率を測定するために、運動予測距離(MPD)と凍結スコアという2つの新しい指標を導入する。
広汎な実験により,本手法は2つの単一モダリティに匹敵する性能を維持しつつ,テキストと音楽の両方に調和したリアルかつコヒーレントなダンスの動きを生成できることが示されている。
コードは、https://garfield-kh.github.io/TM2D/.comで入手できる。 We propose a novel task for generating 3D dance movements that simultaneously incorporate both text and music modalities. Unlike existing works that generate dance movements using a single modality such as music, our goal is to produce richer dance movements guided by the instructive information provided by the text. However, the lack of paired motion data with both music and text modalities limits the ability to generate dance movements that integrate both. To alleviate this challenge, we propose to utilize a 3D human motion VQ-VAE to project the motions of the two datasets into a latent space consisting of quantized vectors, which effectively mix the motion tokens from the two datasets with different distributions for training. Additionally, we propose a cross-modal transformer to integrate text instructions into motion generation architecture for generating 3D dance movements without degrading the performance of music-conditioned dance generation. To better evaluate the quality of the generated motion, we introduce two novel metrics, namely Motion Prediction Distance (MPD) and Freezing Score, to measure the coherence and freezing percentage of the generated motion. Extensive experiments show that our approach can generate realistic and coherent dance movements conditioned on both text and music while maintaining comparable performance with the two single modalities. Code will be available at: https://garfield-kh.github.io/TM2D/. | 翻訳日:2023-04-06 12:33:17 公開日:2023-04-05 |
# 2モードエンタングルメントやスクイーズを伴わない2モード圧縮光実験の記述 Describing two-mode squeezed-light experiments without two-mode entanglement or squeezing ( http://arxiv.org/abs/2304.02417v1 ) ライセンス: Link先を確認 | Tam\'iris R. Calixto and Pablo L. Saldanha | (参考訳) 最近の作品[Phys]で.
rev. rev. a $\mathbf{102}$, 053723 (2020)] シングルモードの光スクイージングを生成および特徴付ける実験は、セットアップでシングルモードのスクイージング状態が生成されない方法で説明できることを示した。
ここでは、2モードの光スクイーズを発生・特徴付ける実験も、2モードの励起光状態を生成することなく説明できることを示した。
特に、信号とアイドラー「ツインビーム」モードの間には絡み合っていないことを示す。
この設定は量子テレポーテーションのような絡み合った量子情報プロトコルを実装するために頻繁に使われるので、この事実は驚くかもしれない。
私たちの仕事は、その現象の別の見方をもたらす。
我々はルイスとサンチェス・ソトの2モード相対位相分布を一般化する。
4つのモードを扱うための$\mathbf{53}$, 495 (1996) は、実験におけるノイズ低減の一般的な物理的説明は、シグナル、アイドラー、および2つの局所発振器を含む4つの光学モード間の位相関係をよりよく定義していることを示している。 In a recent work [Phys. Rev. A $\mathbf{102}$, 053723 (2020)] we have shown that experiments that produce and characterize single-mode light squeezing can be explained in a way where no single-mode squeezed light state is produced in the setup. Here we apply the same ideas to demonstrate that experiments that produce and characterize two-mode light squeezing can also be explained without the production of two-mode squeezed light states. In particular, we show that there is no entanglement between the signal and idler "twin beam" modes. This fact may be surprising, since this setup is frequently used to implement entangled-based quantum information protocols such as quantum teleportation. Our work brings an alternative view of the phenomenon. We generalize the Luis and S\'anchez-Soto's two-mode relative phase distribution [Phys. Rev. A $\mathbf{53}$, 495 (1996)] to treat four modes, showing that a general physical explanation for the noise reduction in the experiments is a better definition of a phase relation among the four involved optical modes: Signal, idler, and two local oscillators. | 翻訳日:2023-04-06 12:32:54 公開日:2023-04-05 |
# quizベースの知識トレース Quiz-based Knowledge Tracing ( http://arxiv.org/abs/2304.02413v1 ) ライセンス: Link先を確認 | Shuanghong Shen, Enhong Chen, Bihan Xu, Qi Liu, Zhenya Huang, Linbo Zhu, Yu Su | (参考訳) 知識追跡(KT)は、オンライン学習システム(OIS)における異なるエクササイズとの学習相互作用に基づいて、個人の進化した知識状態を評価することを目的としている。
既存の研究者はKTを幅広く研究し、多くの効果的な方法を開発した。
しかし、ほとんどの学生は、学生の歴史的な相互作用は連続した順序で一様分布していると考えており、実際の相互作用列は、クイズ内の相互作用が連続して完了するような、明確な境界を持つ一連のクイズに基づいて構成されているという事実を無視している。
本稿では,クイズベースの学習インタラクションに応じて生徒の知識状態を監視するクイズベース知識トレース(qkt)モデルを提案する。
具体的には、クイズ内の学生の相互作用が連続的であり、同一または類似の知識概念を持つため、隣接するゲートを設計し、クイズ内短期知識の影響を捉えるためにグローバル平均プール層を設計する。
そして,様々なクイズが異なる知識概念に焦点をあてる傾向にあるため,各クイズ間知識置換をゲートリカレント単位で測定し,クイズ間知識相補性は,新たな注意機構を持つ自己注意エンコーダで測定する。
最後に、様々なクイズにまたがるクイズ間の長期的知識置換と相補性を統合し、生徒の発達する知識状態を出力する。
3つのパブリックな実世界のデータセットに対する大規模な実験結果は、QKTが既存の手法と比較して最先端のパフォーマンスを達成することを示した。
さらなる分析により、QKTはより効果的なクイズを設計することを約束している。 Knowledge tracing (KT) aims to assess individuals' evolving knowledge states according to their learning interactions with different exercises in online learning systems (OIS), which is critical in supporting decision-making for subsequent intelligent services, such as personalized learning source recommendation. Existing researchers have broadly studied KT and developed many effective methods. However, most of them assume that students' historical interactions are uniformly distributed in a continuous sequence, ignoring the fact that actual interaction sequences are organized based on a series of quizzes with clear boundaries, where interactions within a quiz are consecutively completed, but interactions across different quizzes are discrete and may be spaced over days. In this paper, we present the Quiz-based Knowledge Tracing (QKT) model to monitor students' knowledge states according to their quiz-based learning interactions. Specifically, as students' interactions within a quiz are continuous and have the same or similar knowledge concepts, we design the adjacent gate followed by a global average pooling layer to capture the intra-quiz short-term knowledge influence. Then, as various quizzes tend to focus on different knowledge concepts, we respectively measure the inter-quiz knowledge substitution by the gated recurrent unit and the inter-quiz knowledge complementarity by the self-attentive encoder with a novel recency-aware attention mechanism. Finally, we integrate the inter-quiz long-term knowledge substitution and complementarity across different quizzes to output students' evolving knowledge states. Extensive experimental results on three public real-world datasets demonstrate that QKT achieves state-of-the-art performance compared to existing methods. Further analyses confirm that QKT is promising in designing more effective quizzes. | 翻訳日:2023-04-06 12:32:31 公開日:2023-04-05 |
# 貯水池を有する量子ドットにおける量子mpemba効果 Quantum Mpemba effect in a quantum dot with reservoirs ( http://arxiv.org/abs/2304.02411v1 ) ライセンス: Link先を確認 | Amit Kumar Chatterjee, Satoshi Takada, Hisao Hayakawa | (参考訳) アンダーソンモデルによって記述された2つの貯水池に結合した量子ドットにおける量子Mpemba効果を実証する。
2つの異なる初期値(ホット値とコールド値)から始まり、有限時間に相互に交差し(したがって、そのアイデンティティを逆転させる)、熱量子化mpemba効果を発生させる。
マルコフ系におけるmpemba効果における支配的役割を果たすと考えられる最も遅い緩和モードは、このモデルにおけるそのような異常緩和には寄与しない。
この結果から, 量子ドットの密度行列要素における量子mpemba効果を, 残留緩和モードの組合せ効果として生成するために必要な条件が得られた。 We demonstrate the quantum Mpemba effect in a quantum dot coupled to two reservoirs, described by the Anderson model. We show that the system temperatures starting from two different initial values (hot and cold), cross each other at finite time (and thereby reverse their identities i.e. hot becomes cold and vice versa) to generate thermal quantam Mpemba effect. The slowest relaxation mode believed to play the dominating role in Mpemba effect in Markovian systems, does not contribute to such anomalous relaxation in the present model. In this connection, our analytical result provides necessary condition for producing quantum Mpemba effect in the density matrix elements of the quantum dot, as a combined effect of the remaining relaxation modes. | 翻訳日:2023-04-06 12:31:57 公開日:2023-04-05 |
# キュリオシティ駆動型ループ内自動実験のための動的ベイズ最適化アクティブレコメンダシステム A dynamic Bayesian optimized active recommender system for curiosity-driven Human-in-the-loop automated experiments ( http://arxiv.org/abs/2304.02484v1 ) ライセンス: Link先を確認 | Arpan Biswas, Yongtao Liu, Nicole Creange, Yu-Chen Liu, Stephen Jesse, Jan-Chi Yang, Sergei V. Kalinin, Maxim A. Ziatdinov, Rama K. Vasudevan | (参考訳) 放射光による組合せ合金の回折測定からペロブスカイト自動合成ロボットによる化学空間での探索まで, アクティブラーニングによる実験材料合成とキャラクタリゼーションの最適化は, 過去10年間にわたって増加している。
事実上全てのケースにおいて、最適化のための関心の対象特性は、操作中の人間のフィードバックが限られたアプリオリで定義される。
そこで,本研究では,ベイズ最適化アクティブレコメンデータシステム(boars)を用いたループ実験ワークフローにおける新たなタイプの人間の開発について紹介する。
強誘電体薄膜のピエゾレスポンス力分光法に適用したこの枠組みの例を示し、これを原子間力顕微鏡でリアルタイムに実装し、対称性のピエゾレスポンス振幅ヒステリシスループを最適化する。
これらの特徴は, 局所領域構造よりも地下欠陥の影響を受けやすいことがわかった。
本研究は,実験領域にまたがるシステムの好奇心を駆使した探索のための,人間による機械学習手法の有用性を示す。
ここで報告された分析は、他のデータへのチュートリアルと応用を目的としたColab Notebookで要約されている。 Optimization of experimental materials synthesis and characterization through active learning methods has been growing over the last decade, with examples ranging from measurements of diffraction on combinatorial alloys at synchrotrons, to searches through chemical space with automated synthesis robots for perovskites. In virtually all cases, the target property of interest for optimization is defined apriori with limited human feedback during operation. In contrast, here we present the development of a new type of human in the loop experimental workflow, via a Bayesian optimized active recommender system (BOARS), to shape targets on the fly, employing human feedback. We showcase examples of this framework applied to pre-acquired piezoresponse force spectroscopy of a ferroelectric thin film, and then implement this in real time on an atomic force microscope, where the optimization proceeds to find symmetric piezoresponse amplitude hysteresis loops. It is found that such features appear more affected by subsurface defects than the local domain structure. This work shows the utility of human-augmented machine learning approaches for curiosity-driven exploration of systems across experimental domains. The analysis reported here is summarized in Colab Notebook for the purpose of tutorial and application to other data: https://github.com/arpanbiswas52/varTBO | 翻訳日:2023-04-06 12:24:51 公開日:2023-04-05 |
# 量子ミスマッチ:ニュートリノ振動における「量子性」の強力な尺度 Quantum mismatch: a powerful measure of "quantumness" in neutrino oscillations ( http://arxiv.org/abs/2304.02475v1 ) ライセンス: Link先を確認 | Dibya S. Chattopadhyay, Amol Dighe | (参考訳) ニュートリノ振動の量子的性質は、中間観測の有無に関わらず、ニュートリノ生存確率のミスマッチに反映される。
我々はこの「量子ミスマッチ」をニュートリノ振動における量子性の尺度として提案し、2-フレーバー極限における干渉項を正確に抽出する。
フル3フレーバーのシナリオでは、Leggett-Gargと量子ミスマッチ測度の修正された定義を提供する。
これらは、ニュートリノ生存確率を無視可能な物質効果で測定するロングベースラインおよびリアクターニュートリノ実験に適用できる。 The quantum nature of neutrino oscillations would be reflected in the mismatch between the neutrino survival probabilities with and without an intermediate observation. We propose this ``quantum mismatch'' as a measure of quantumness in neutrino oscillations, which precisely extracts the interference term in the two-flavor limit. In the full three-flavor scenario, we provide modified definitions of the Leggett-Garg and quantum mismatch measures. These are applicable for long-baseline and reactor neutrino experiments that measure neutrino survival probabilities with negligible matter effects. | 翻訳日:2023-04-06 12:24:03 公開日:2023-04-05 |
# 測定欠陥を有する非劣化量子軌道の漸近安定性について On Asymptotic Stability of Non-Demolition Quantum Trajectories with Measurement Imperfections ( http://arxiv.org/abs/2304.02462v1 ) ライセンス: Link先を確認 | Ma\"el Bompais, Nina H. Amini | (参考訳) 量子非破壊不完全な測定を行う量子軌道の漸近安定性の問題は、パラメータと初期状態が必ずしも知られていない真の軌道への推定軌道の収束である。
推定された初期状態と推定パラメータの有効性の領域について条件を与え、この収束を確実にする。
物理例 [1] の数値シミュレーションによってこれらの結果を説明し,デコヒーレンスが系に作用するより現実的な一般の場合の漸近安定性について考察する。
この場合、進化は量子非退化特性を満たさない新しいクラウス作用素によって記述される。 We consider the question of asymptotic stability of quantum trajectories undergoing quantum non-demolition imperfect measurement, that is to say the convergence of the estimated trajectory towards the true trajectory whose parameters and initial state are not necessarily known. We give conditions on the estimated initial state and regions of validity for the estimated parameters so that this convergence is ensured. We illustrate these results through numerical simulations on the physical example [1] and discuss the asymptotic stability for a more realistic general case where decoherence acts on the system. In this case, the evolution is described by new Kraus operators which do not satisfy the quantum non-demolition property. | 翻訳日:2023-04-06 12:23:32 公開日:2023-04-05 |
# 分布アルゴリズム推定のための二重確率行列モデル Doubly Stochastic Matrix Models for Estimation of Distribution Algorithms ( http://arxiv.org/abs/2304.02458v1 ) ライセンス: Link先を確認 | Valentino Santucci, Josu Ceberio | (参考訳) 置換によって表される解の問題は組合せ最適化において非常に顕著である。
このように、近年ではこれらの問題を解決するために多くの進化的アルゴリズムが提案されており、その中でも確率モデルに基づくアルゴリズムが注目されている。
その意味で、ほとんどの取り組みは、自然問題の順序付け/ランク付けに適したアルゴリズムの導入に焦点を当ててきた。
しかし、代入問題に対する確率に基づく進化的アルゴリズムの提案に関しては、単純なモデルやほとんどの場合、単変量モデルの提案には至っていない。
本稿では,DSM(Douubly Stochastic Matrices)を用いたマッチングおよび代入自然置換問題の最適化について検討する。
そこで本研究では,進化的アルゴリズムの図形にDSMを効率的に組み込むための学習・サンプリング手法について検討する。
具体的には,分散アルゴリズム推定の枠組みを採用し,dsmを置換問題に対する既存の提案と比較する。
二次代入問題の事例に関する予備実験を行い、DSMが非常に競争力のある結果が得られることを示したが、計算コストの問題はさらに検討する必要がある。 Problems with solutions represented by permutations are very prominent in combinatorial optimization. Thus, in recent decades, a number of evolutionary algorithms have been proposed to solve them, and among them, those based on probability models have received much attention. In that sense, most efforts have focused on introducing algorithms that are suited for solving ordering/ranking nature problems. However, when it comes to proposing probability-based evolutionary algorithms for assignment problems, the works have not gone beyond proposing simple and in most cases univariate models. In this paper, we explore the use of Doubly Stochastic Matrices (DSM) for optimizing matching and assignment nature permutation problems. To that end, we explore some learning and sampling methods to efficiently incorporate DSMs within the picture of evolutionary algorithms. Specifically, we adopt the framework of estimation of distribution algorithms and compare DSMs to some existing proposals for permutation problems. Conducted preliminary experiments on instances of the quadratic assignment problem validate this line of research and show that DSMs may obtain very competitive results, while computational cost issues still need to be further investigated. | 翻訳日:2023-04-06 12:23:21 公開日:2023-04-05 |
# 次元の呪いに対する回復力による特徴の選択 Selecting Features by their Resilience to the Curse of Dimensionality ( http://arxiv.org/abs/2304.02455v1 ) ライセンス: Link先を確認 | Maximilian Stubbemann, Tobias Hille, Tom Hanika | (参考訳) 現実世界のデータセットは、しばしば高次元であり、次元の呪いによって影響される。
これにより、理解性や解釈性が損なわれる。
複雑さを減らすために、機能選択は、そのデータから学ぶのに不可欠な機能を特定することを目的としている。
関連性の尺度や対関係の類似性は一般的に用いられるが、次元の呪いが特徴の選択プロセスに組み込まれることは稀である。
ここでは,異なるサイズのデータサブセットを識別可能な特徴を識別する新しい手法を提案する。
近年の研究を本質的次元の計算に適応させることで,データを識別できる特徴を選択できるため,次元の呪いを弱めることができる。
実験の結果,提案手法は競争力があり,確立された特徴選択法よりも優れていた。
さらに,本手法を何百万ものデータポイントからなるデータセットに拡張可能な近似法を提案する。
本研究は,データを識別し,低固有次元に関連付ける特徴が学習過程に有意であることを示す。 Real-world datasets are often of high dimension and effected by the curse of dimensionality. This hinders their comprehensibility and interpretability. To reduce the complexity feature selection aims to identify features that are crucial to learn from said data. While measures of relevance and pairwise similarities are commonly used, the curse of dimensionality is rarely incorporated into the process of selecting features. Here we step in with a novel method that identifies the features that allow to discriminate data subsets of different sizes. By adapting recent work on computing intrinsic dimensionalities, our method is able to select the features that can discriminate data and thus weaken the curse of dimensionality. Our experiments show that our method is competitive and commonly outperforms established feature selection methods. Furthermore, we propose an approximation that allows our method to scale to datasets consisting of millions of data points. Our findings suggest that features that discriminate data and are connected to a low intrinsic dimensionality are meaningful for learning procedures. | 翻訳日:2023-04-06 12:23:05 公開日:2023-04-05 |
# コントラスト学習のための適応的データ拡張 Adaptive Data Augmentation for Contrastive Learning ( http://arxiv.org/abs/2304.02451v1 ) ライセンス: Link先を確認 | Yuhan Zhang, He Zhu, Shan Yu | (参考訳) コンピュータビジョンにおいて、コントラスト学習は最も高度な教師なし学習フレームワークである。
しかし、以前のほとんどの方法は、データ効率を改善するためにデータ拡張の固定構成を適用するだけで、トレーニングにおける最適な設定の変更を無視する。
したがって、事前決定された拡張操作のパラメータは、学習期間全体において進化するネットワークに必ずしも適合せず、学習表現の品質が低下する。
本研究では,一般的なコントラスト学習ネットワークに閉ループフィードバック構造を実装するAdDAを提案する。
AdDAは、ネットワークがリアルタイムフィードバックに応じて拡張構成を適応的に調整できるようにする。
このオンライン調整は動的最適構成の維持に役立ち、ネットワークは計算オーバーヘッドを最小限にし、より一般化可能な表現を得ることができる。
AdDAはImageNet-100分類の共通線形プロトコル(MoCo v2では+1.11%)の下で競合する結果を得る。 In computer vision, contrastive learning is the most advanced unsupervised learning framework. Yet most previous methods simply apply fixed composition of data augmentations to improve data efficiency, which ignores the changes in their optimal settings over training. Thus, the pre-determined parameters of augmentation operations cannot always fit well with an evolving network during the whole training period, which degrades the quality of the learned representations. In this work, we propose AdDA, which implements a closed-loop feedback structure to a generic contrastive learning network. AdDA works by allowing the network to adaptively adjust the augmentation compositions according to the real-time feedback. This online adjustment helps maintain the dynamic optimal composition and enables the network to acquire more generalizable representations with minimal computational overhead. AdDA achieves competitive results under the common linear protocol on ImageNet-100 classification (+1.11% on MoCo v2). | 翻訳日:2023-04-06 12:22:49 公開日:2023-04-05 |
# 量子テレポーテーションによる有限温度における量子臨界点の検出 Detecting quantum critical points at finite temperature via quantum teleportation ( http://arxiv.org/abs/2304.02448v1 ) ライセンス: Link先を確認 | G. A. P. Ribeiro and Gustavo Rigolin | (参考訳) 量子テレポーテーションプロトコルは,量子相転移(QPT)を有限温度で研究するための強力なツールであることを示す。
温度Tにおける貯水池との平衡における無限スピン-1/2鎖(XXZモデル)からのスピンの対を、アリスとボブがテレポーテーションプロトコルを実装するために使う資源と考える。
量子臨界点(qcp)を越えた後でも量子ビットをテレポートするスピンの効率は、tの高値であっても大きく影響することを示すとともに、qcpをスポットライトする量子ディスコド(qd)と同じくらい鋭いツールであることが示され、qdは既知の最も有限なt qcp検出器である。
しかし, qdとは対照的に, 本ツールは理論的に計算が容易であり, 直接的に実験的かつ操作的な意味を持つことを示す。 We show that the quantum teleportation protocol is a powerful tool to study quantum phase transitions (QPTs) at finite temperatures. We consider a pair of spins from an infinite spin-1/2 chain (XXZ model) in equilibrium with a reservoir at temperature T as the resource used by Alice and Bob to implement the teleportation protocol. We show that the efficiency of this pair of spins to teleport a qubit is drastically affected after we cross a quantum critical point (QCP), even for high values of T. Also, we show that the present tool is as sharp as quantum discord (QD) to spotlight a QCP, where QD is the best finite T QCP detector known to date. Contrary to QD, however, we show that the present tool is easier to compute theoretically and has a direct experimental and operational meaning. | 翻訳日:2023-04-06 12:22:35 公開日:2023-04-05 |
# Face Transformer: 高精度かつ正確なFace Swappingを目指して Face Transformer: Towards High Fidelity and Accurate Face Swapping ( http://arxiv.org/abs/2304.02530v1 ) ライセンス: Link先を確認 | Kaiwen Cui, Rongliang Wu, Fangneng Zhan, Shijian Lu | (参考訳) Face swappingは、ソース顔とターゲット顔の属性を融合させるスワップ画像を生成することを目的としている。
既存の研究の多くは、生成的敵対ネットワーク(GAN)を用いた3Dモデリングや生成を通じてこの課題に対処しているが、3Dモデリングは限られた再構成精度に悩まされており、GANはソース顔(例えば、肌の色、顔の特徴)とターゲット顔の構造的特性(例えば、顔の形、表情)の微妙で重要な識別情報を保存するのに苦慮している。
本稿では,顔画像のソースidと対象属性を正確に保持できる新しい顔スワップネットワークであるface transformerを提案する。
顔交換タスクのためのトランスフォーマーネットワークを導入し、音源と対象顔の高品質な意味認識対応を学習し、対象顔の対応する領域にソース顔の識別特徴をマップする。
高品質なセマンティック・アウェア対応により、ターゲット形状や表現の修正を最小限に抑えつつ、ソース識別情報のスムーズかつ正確な転送が可能となる。
さらに、当社のFace Transformerには、豊富な顔の詳細を保存するためのマルチスケール変換機構が組み込まれています。
広範な実験により, 顔の交換性能が質的, 定量的に向上したことを示す。 Face swapping aims to generate swapped images that fuse the identity of source faces and the attributes of target faces. Most existing works address this challenging task through 3D modelling or generation using generative adversarial networks (GANs), but 3D modelling suffers from limited reconstruction accuracy and GANs often struggle in preserving subtle yet important identity details of source faces (e.g., skin colors, face features) and structural attributes of target faces (e.g., face shapes, facial expressions). This paper presents Face Transformer, a novel face swapping network that can accurately preserve source identities and target attributes simultaneously in the swapped face images. We introduce a transformer network for the face swapping task, which learns high-quality semantic-aware correspondence between source and target faces and maps identity features of source faces to the corresponding region in target faces. The high-quality semantic-aware correspondence enables smooth and accurate transfer of source identity information with minimal modification of target shapes and expressions. In addition, our Face Transformer incorporates a multi-scale transformation mechanism for preserving the rich fine facial details. Extensive experiments show that our Face Transformer achieves superior face swapping performance qualitatively and quantitatively. | 翻訳日:2023-04-06 12:17:12 公開日:2023-04-05 |
# q$変形したKogut-Susskindゲージ理論に対する量子および古典スピンネットワークアルゴリズム Quantum and classical spin network algorithms for $q$-deformed Kogut-Susskind gauge theories ( http://arxiv.org/abs/2304.02527v1 ) ライセンス: Link先を確認 | Torsten V. Zache, Daniel Gonz\'alez-Cuadra, and Peter Zoller | (参考訳) 非アーベルゲージ理論の無限次元ヒルベルト空間を扱うことは古典的および量子シミュレーションにおいて顕著な挑戦である。
ここでは、定義対称性代数を量子群に変形させて得られる、$q$変形したKogut-Susskind格子ゲージ理論を紹介する。
他の定式化とは対照的に、本提案は無限次元局所ヒルベルト空間の制御された正則化を提供し、本質的対称性に関連した性質を保ちながら同時に提供する。
これにより、量子と量子にインスパイアされた古典的スピンネットワークアルゴリズムの両方を、$q$-deformed gauge theory (snaqs) で開発することができる。
明確にするために、変形パラメータ$k$で制御され、標準SU(2)Kogut-Susskindモデルに$k \rightarrow \infty$として収束するSU(2)$_k$ゲージ理論に焦点を当てる。
特に、この定式化が 2d における変分基底状態シミュレーションによる効率的なテンソルネットワーク表現に適していることを示し、連続体極限が $k = \mathcal{o}(10)$ で到達できることを示す最初の証拠を与える。
最後に,su(2)$_k$プラーペット相互作用を解析的に対角化することにより,リアルタイム発展のためのスケーラブルな量子アルゴリズムを開発した。
我々の研究は、テンソルネットワーク法を高エネルギー物理学に適用するための新たな視点を与え、他の方法が現在利用できない平衡から遠く離れた非アーベルゲージ理論の量子シミュレーションの道を開く。 Treating the infinite-dimensional Hilbert space of non-abelian gauge theories is an outstanding challenge for classical and quantum simulations. Here, we introduce $q$-deformed Kogut-Susskind lattice gauge theories, obtained by deforming the defining symmetry algebra to a quantum group. In contrast to other formulations, our proposal simultaneously provides a controlled regularization of the infinite-dimensional local Hilbert space while preserving essential symmetry-related properties. This enables the development of both quantum as well as quantum-inspired classical Spin Network Algorithms for $q$-deformed gauge theories (SNAQs). To be explicit, we focus on SU(2)$_k$ gauge theories, that are controlled by the deformation parameter $k$ and converge to the standard SU(2) Kogut-Susskind model as $k \rightarrow \infty$. In particular, we demonstrate that this formulation is well suited for efficient tensor network representations by variational ground-state simulations in 2D, providing first evidence that the continuum limit can be reached with $k = \mathcal{O}(10)$. Finally, we develop a scalable quantum algorithm for Trotterized real-time evolution by analytically diagonalizing the SU(2)$_k$ plaquette interactions. Our work gives a new perspective for the application of tensor network methods to high-energy physics and paves the way for quantum simulations of non-abelian gauge theories far from equilibrium where no other methods are currently available. | 翻訳日:2023-04-06 12:16:47 公開日:2023-04-05 |
# ダイヤモンド中の窒素空孔中心の励起状態における温度依存性集団ダイナミクスのモデル化 Modeling temperature-dependent population dynamics in the excited state of the nitrogen-vacancy center in diamond ( http://arxiv.org/abs/2304.02521v1 ) ライセンス: Link先を確認 | Stefan Ernst, Patrick J. Scheidegger, Simon Diesch, Christian L. Degen | (参考訳) ダイヤモンド中の窒素空孔(NV)中心は、その好ましいスピンと光学特性について量子力学や量子情報でよく知られており、その卓越性にもかかわらず、NV中心の光物理は不完全に理解されており、特にフォノンが活性化される10-100Kの中間温度では顕著である。
本研究では,低温状態から高温状態へのクロスオーバーを記述することができる速度モデルを提案する。
モデルにとって鍵となるのは、励起状態(ES)における2つの軌道分岐の間のフォノン駆動ホッピングであり、ESスピンプレセッションとの相互作用を通じてスピン緩和を加速する。
我々は,磁場,電界,結晶ひずみを含むモデルを拡張し,幅広い実験条件下での個体群動態をシミュレートする。
本モデルでは, 低温・高温領域における既存の記述を復元し, 各種文献データの解析に成功している。
さらに、このモデルにより、実験可観測性、特に光ルミネッセンス(pl)放出率、スピンコントラスト、量子応用に関連するスピン初期化忠実度を予測できる。
最後に,nv中心の電子-フォノン相互作用を探究し,現在の理解と最近の実験結果とのギャップを明らかにする。 The nitrogen-vacancy (NV) center in diamond is well known in quantum metrology and quantum information for its favorable spin and optical properties, which span a wide temperature range from near zero to over 600 K. Despite its prominence, the NV center's photo-physics is incompletely understood, especially at intermediate temperatures between 10-100 K where phonons become activated. In this work, we present a rate model able to describe the cross-over from the low-temperature to the high-temperature regime. Key to the model is a phonon-driven hopping between the two orbital branches in the excited state (ES), which accelerates spin relaxation via an interplay with the ES spin precession. We extend our model to include magnetic and electric fields as well as crystal strain, allowing us to simulate the population dynamics over a wide range of experimental conditions. Our model recovers existing descriptions for the low- and high-temperature limits, and successfully explains various sets of literature data. Further, the model allows us to predict experimental observables, in particular the photoluminescence (PL) emission rate, spin contrast, and spin initialization fidelity relevant for quantum applications. Lastly, our model allows probing the electron-phonon interaction of the NV center and reveals a gap between the current understanding and recent experimental findings. | 翻訳日:2023-04-06 12:16:23 公開日:2023-04-05 |
# 通信用cバンドにおける識別不能光子を発するスケーラブル量子フォトニックデバイス Scalable quantum photonic devices emitting indistinguishable photons in the telecom C-band ( http://arxiv.org/abs/2304.02515v1 ) ライセンス: Link先を確認 | Pawe{\l} Holewa and Emilia Zi\k{e}ba-Ost\'oj and Daniel A. Vajner and Maja Wasiluk and Benedek Ga\'al and Aurimas Sakanas and Marek Burakowski and Pawe{\l} Mrowi\'nski and Bartosz Krajnik and Meng Xiong and Alexander Huck and Kresten Yvind and Niels Gregersen and Anna Musia{\l} and Tobias Heindel and Marcin Syperek and Elizaveta Semenova | (参考訳) エピタキシャル半導体量子ドット(qds)は、単一光子レベルで動作する非線形量子フォトニック素子の量子光発生と実現に有望な資源である。
自己組織的な性質から生じるランダムな空間分布は、所望の機能を持つ量子デバイスの製造歩留まりを抑制する。
解決策として、QDを画像化し、ローカライズし、決定論的デバイス製造を可能にする。
テレコミュニケーションCバンドで作動するカメラセンサーの電子ノイズが1530~1560〜\mathrm{nm}$の大きいため、この技術は依然として難しかった。
本研究では,InP上でエピタキシャルに成長したQDを,Cバンドの放射波長で撮像し,その局在精度を80〜\mathrm{nm}$で示す。
これはqdsを平面サンプル幾何とボトムメタルリフレクターとのハイブリッド結合により、面外放射を増大させることによって実現される。
提案手法を実証するため, 単一選択QDの周囲に丸いブラッググレーティングキャビティを作製し, 全体の空洞配置の不確かさを90〜\mathrm{nm}$とした。
QD-キャビティカップリングは、Purcellによる最大$\sim5$まで、推定光子抽出効率は$16.6\pm2.7)\%$から$0.4$までの数値開口で実証される。
我々は、$g^{(2)}(0)=(3.2\pm0.6)\times10^{-3}$と、$V = (19.3\pm2.6)\%$と$V_{\mathrm{PS}} = 99.8^{+0.2}_{-2.6}\%$の2光子干渉振動を伴う記録高光子の不一致性を実証した。
我々の装置の性能は量子情報の実証実験を容易にできるが、収率とコヒーレンスの改善により、単一光子レベルにおける非線形デバイスの実現と、テレコム波長における先進量子ネットワークの実現が可能となる。 Epitaxial semiconductor quantum dots (QDs) are a promising resource for quantum light generation and the realization of non-linear quantum photonic elements operating at the single-photon level. Their random spatial distribution resulting from their self-organized nature, however, restrains the fabrication yield of quantum devices with the desired functionality. As a solution, the QDs can be imaged and localized, enabling deterministic device fabrication. Due to the significant electronic noise of camera sensors operating in the telecommunication C-band, $1530-1560~\mathrm{nm}$, this technique remained challenging. In this work, we report on the imaging of QDs epitaxially grown on InP with emission wavelengths in the telecom C-band demonstrating a localization accuracy of $80~\mathrm{nm}$. This is enabled by the hybrid integration of QDs in a planar sample geometry with a bottom metallic reflector to enhance the out-of-plane emission. To exemplify our approach, we successfully fabricate circular Bragg grating cavities around single pre-selected QDs with an overall cavity placement uncertainty of $90~\mathrm{nm}$. QD-cavity coupling is demonstrated by a Purcell enhancement up to $\sim5$ with an estimated photon extraction efficiency of $(16.6\pm2.7)\%$ into a numerical aperture of $0.4$. We demonstrate triggered single-photon emission with $g^{(2)}(0)=(3.2\pm0.6)\times10^{-3}$ and record-high photon indistinguishability associated with two-photon interference visibilities of $V = (19.3\pm2.6)\%$ and $V_{\mathrm{PS}} = 99.8^{+0.2}_{-2.6}\%$ without and with temporal postselection, respectively. While the performance of our devices readily enables proof-of-principle experiments in quantum information, further improvements in the yield and coherence may enable the realization of non-linear devices at the single photon level and advanced quantum networks at the telecom wavelength. | 翻訳日:2023-04-06 12:15:58 公開日:2023-04-05 |
# 逆ロバストモデルに対するハイパーパラメータチューニング Hyper-parameter Tuning for Adversarially Robust Models ( http://arxiv.org/abs/2304.02497v1 ) ライセンス: Link先を確認 | Pedro Mendes, Paolo Romano, David Garlan | (参考訳) 本研究は、高パラメータチューニング(HPT)によるロバストな(対角的に訓練された)モデルの問題に焦点をあてる。
一 敵意設定の調整に係わる追加のhpを確立すること。
二 頑健なモデルに対するHPTのコストを削減すること。
本研究は, 先行研究で広く採用されている3つのモデルをもとに, 広範な実験により最初の目標を追求する。
以上の結果から,HPT問題の複雑度は,2つの主な理由から,対外環境において悪化していることが明らかとなった。
一 標準及び対向訓練のバランスをとる追加のhpのチューニングの必要性
二 標準及び反対訓練段階のHPの調整を独立して行うこと。
幸いにも、ロバストモデルに対するHPTのコスト削減の新たな機会も見出す。
具体的には,安価な対人訓練手法を活用して,最先端技術(PGD)を用いて達成可能な品質を,安価かつ高い相関で推定することを提案する。
提案手法は,最近の多要素最適化器(taKG)と組み合わせることで,HPTプロセスの効率を大幅に向上できることを示す。 This work focuses on the problem of hyper-parameter tuning (HPT) for robust (i.e., adversarially trained) models, with the twofold goal of i) establishing which additional HPs are relevant to tune in adversarial settings, and ii) reducing the cost of HPT for robust models. We pursue the first goal via an extensive experimental study based on 3 recent models widely adopted in the prior literature on adversarial robustness. Our findings show that the complexity of the HPT problem, already notoriously expensive, is exacerbated in adversarial settings due to two main reasons: i) the need of tuning additional HPs which balance standard and adversarial training; ii) the need of tuning the HPs of the standard and adversarial training phases independently. Fortunately, we also identify new opportunities to reduce the cost of HPT for robust models. Specifically, we propose to leverage cheap adversarial training methods to obtain inexpensive, yet highly correlated, estimations of the quality achievable using state-of-the-art methods (PGD). We show that, by exploiting this novel idea in conjunction with a recent multi-fidelity optimizer (taKG), the efficiency of the HPT process can be significantly enhanced. | 翻訳日:2023-04-06 12:15:16 公開日:2023-04-05 |
# 生物医学的推論と分類のためのモデルのChatGPTファミリーの評価 Evaluation of ChatGPT Family of Models for Biomedical Reasoning and Classification ( http://arxiv.org/abs/2304.02496v1 ) ライセンス: Link先を確認 | Shan Chen, Yingya Li, Sheng Lu, Hoang Van, Hugo JWL Aerts, Guergana K. Savova, Danielle S. Bitterman | (参考訳) 近年の大規模言語モデル (LLM) の進歩は, バイオメディカルな質問応答において顕著な能力を示しているが, より具体的なバイオメディカルな応用には適していない。
本研究では,ChatGPT モデルファミリ (GPT-3.5s, GPT-4) などの LLM の生体医学的課題における質問応答以外の性能について検討した。
患者データはOpenAI APIの公開インターフェースに渡せないため,臨床ドメイン分類と推論における2つの基本的なタスクのプロキシとして,10000以上のサンプルを用いたモデル性能を評価した。
第一の課題は、科学文献における臨床と政策の推奨文が健康アドバイスを構成するかどうかを分類することである。
第2の課題は、生物医学文献からの因果関係の検出である。
我々は,ロジスティック回帰を用いたバガオブワード(bow)や微調整ビオベルトモデルなど,より単純なモデルとllmを比較した。
ウイルス性ChatGPTにまつわる興奮にもかかわらず、2つの基本的なNLPタスクの微調整が最善戦略であることがわかった。
単純なBoWモデルは最も複雑なLCMプロンプトと同等に実行された。
プロンプトエンジニアリングにはかなりの投資が必要だった。 Recent advances in large language models (LLMs) have shown impressive ability in biomedical question-answering, but have not been adequately investigated for more specific biomedical applications. This study investigates the performance of LLMs such as the ChatGPT family of models (GPT-3.5s, GPT-4) in biomedical tasks beyond question-answering. Because no patient data can be passed to the OpenAI API public interface, we evaluated model performance with over 10000 samples as proxies for two fundamental tasks in the clinical domain - classification and reasoning. The first task is classifying whether statements of clinical and policy recommendations in scientific literature constitute health advice. The second task is causal relation detection from the biomedical literature. We compared LLMs with simpler models, such as bag-of-words (BoW) with logistic regression, and fine-tuned BioBERT models. Despite the excitement around viral ChatGPT, we found that fine-tuning for two fundamental NLP tasks remained the best strategy. The simple BoW model performed on par with the most complex LLM prompting. Prompt engineering required significant investment. | 翻訳日:2023-04-06 12:14:58 公開日:2023-04-05 |
# 動詞獲得における視覚・言語・視覚言語複雑さの役割の定量化 Quantifying the Roles of Visual, Linguistic, and Visual-Linguistic Complexity in Verb Acquisition ( http://arxiv.org/abs/2304.02492v1 ) ライセンス: Link先を確認 | Yuchen Zhou, Michael J. Tarr, Daniel Yurovsky | (参考訳) 子供は通常、動詞の意味よりも先に名詞の意味を学ぶ。
しかし、この非対称性が、言語が参照する世界におけるカテゴリの視覚的構造、言語自体の構造、または2つの情報ソース間の相互作用の複雑さの結果なのかは不明である。
大規模事前学習型ニューラルネットワークを用いた単語の視覚的表現と言語的表現を用いて,これら3つの初期の動詞学習に関する仮説を定量的に検証した。
視覚と言語の両方の埋め込み空間の構造を調べると、まず、動詞の表現は名詞の表現よりも一般的に可変であり、領域内で識別できないことが分かる。
第二に、カテゴリーごとの学習インスタンスが1つしかない場合、視覚的および言語的表現は名詞体系よりも動詞体系における整合性が低いことが分かる。
しかし、人間の言語発達の過程と並行して、カテゴリーごとの複数の学習例が利用可能であれば、視覚的および言語的表現は名詞体系と同様に動詞体系においてほぼ整合する。
第3に,個々の単語の学習難度を予測する因子の相対的寄与を比較した。
回帰分析により、視覚変動は言語学習を内部的に駆動する最も強力な要因であり、視覚言語的アライメントと言語変動が続くことが明らかとなった。
これらの結果から,動詞習得は3つの複雑性源すべてに影響されるが,視覚構造の変化は動詞学習にとって最も大きな課題となると結論づけた。 Children typically learn the meanings of nouns earlier than the meanings of verbs. However, it is unclear whether this asymmetry is a result of complexity in the visual structure of categories in the world to which language refers, the structure of language itself, or the interplay between the two sources of information. We quantitatively test these three hypotheses regarding early verb learning by employing visual and linguistic representations of words sourced from large-scale pre-trained artificial neural networks. Examining the structure of both visual and linguistic embedding spaces, we find, first, that the representation of verbs is generally more variable and less discriminable within domain than the representation of nouns. Second, we find that if only one learning instance per category is available, visual and linguistic representations are less well aligned in the verb system than in the noun system. However, in parallel with the course of human language development, if multiple learning instances per category are available, visual and linguistic representations become almost as well aligned in the verb system as in the noun system. Third, we compare the relative contributions of factors that may predict learning difficulty for individual words. A regression analysis reveals that visual variability is the strongest factor that internally drives verb learning, followed by visual-linguistic alignment and linguistic variability. Based on these results, we conclude that verb acquisition is influenced by all three sources of complexity, but that the variability of visual structure poses the most significant challenge for verb learning. | 翻訳日:2023-04-06 12:14:37 公開日:2023-04-05 |
# 「私の欲しいものを知っているのは変です」:初心者プログラマのためのcopilotの使いやすさとインタラクション "It's Weird That it Knows What I Want": Usability and Interactions with Copilot for Novice Programmers ( http://arxiv.org/abs/2304.02491v1 ) ライセンス: Link先を確認 | James Prather, Brent N. Reeves, Paul Denny, Brett A. Becker, Juho Leinonen, Andrew Luxton-Reilly, Garrett Powell, James Finnie-Ansley, Eddie Antonio Santos | (参考訳) 近年のディープラーニングの発展により、自然言語からソースコードを生成するコード生成モデルや、高精度なコードベースプロンプトが生み出されている。
初心者がプログラミングのエクササイズや課題に対するソリューションを自動提案するために無料のツールを利用できるようになったのだ。
しかし、初心者がこれらのツールと実際にどのように相互作用するかは、現時点ではほとんど知られていない。
本稿では,github copilotというコード自動生成ツールを用いて,導入レベルの学生を観察する最初の研究を,典型的な導入プログラミング(cs1)の課題として紹介する。
観察とインタビューを通じて,この技術の学習におけるメリットと落とし穴に対する学生の認識を探求し,新たに観察された相互作用パターンを提示し,学生が直面する認知的・メタ認知的困難を議論する。
具体的には、copilotのようなツールが初心者プログラミング体験をより良くサポートし、足場を作る方法について考えています。 Recent developments in deep learning have resulted in code-generation models that produce source code from natural language and code-based prompts with high accuracy. This is likely to have profound effects in the classroom, where novices learning to code can now use free tools to automatically suggest solutions to programming exercises and assignments. However, little is currently known about how novices interact with these tools in practice. We present the first study that observes students at the introductory level using one such code auto-generating tool, Github Copilot, on a typical introductory programming (CS1) assignment. Through observations and interviews we explore student perceptions of the benefits and pitfalls of this technology for learning, present new observed interaction patterns, and discuss cognitive and metacognitive difficulties faced by students. We consider design implications of these findings, specifically in terms of how tools like Copilot can better support and scaffold the novice programming experience. | 翻訳日:2023-04-06 12:14:11 公開日:2023-04-05 |
# 特徴の相互影響分析による無作為な森林ブラックボックスの開放 Opening the random forest black box by the analysis of the mutual impact of features ( http://arxiv.org/abs/2304.02490v1 ) ライセンス: Link先を確認 | Lucas F. Voges, Lukas C. Jarren, Stephan Seifert | (参考訳) ランダムフォレスト(random forest)は、フレキシブルであり、関連する特徴の選択に可変の重要性尺度を提供するため、高次元データ分析のための一般的な機械学習アプローチである。
しかし, 特徴間の複雑な関係は選択には考慮されず, 分析試料のキャラクタリゼーションも無視される。
本稿では,ランダム林における特徴の相互影響に着目した2つの新しいアプローチを提案する。
相互森林影響 (MFI) は, 成果との相互関係を評価する関係パラメータであり, 相関係数の解析を超越した関係パラメータである。
相互不純物低減(MIR)は、この関係パラメータと個々の特徴の重要性を組み合わせた重要な尺度である。
MIRとMFIは、関連する重要な特徴の選択のためのp値を生成するテスト手順と共に実装される。
様々なシミュレーションデータセットへの応用と、他の特徴選択および関係解析法との比較により、MFIとMIRは特徴と結果の間の複雑な関係に光を当てることを非常に約束している。
さらに、例えば、多くの可能な分割や高いマイナーな対立頻度を持つ特徴が好まれるなど、共通のバイアスには影響されない。 Random forest is a popular machine learning approach for the analysis of high-dimensional data because it is flexible and provides variable importance measures for the selection of relevant features. However, the complex relationships between the features are usually not considered for the selection and thus also neglected for the characterization of the analysed samples. Here we propose two novel approaches that focus on the mutual impact of features in random forests. Mutual forest impact (MFI) is a relation parameter that evaluates the mutual association of the featurs to the outcome and, hence, goes beyond the analysis of correlation coefficients. Mutual impurity reduction (MIR) is an importance measure that combines this relation parameter with the importance of the individual features. MIR and MFI are implemented together with testing procedures that generate p-values for the selection of related and important features. Applications to various simulated data sets and the comparison to other methods for feature selection and relation analysis show that MFI and MIR are very promising to shed light on the complex relationships between features and outcome. In addition, they are not affected by common biases, e.g. that features with many possible splits or high minor allele frequencies are prefered. | 翻訳日:2023-04-06 12:13:56 公開日:2023-04-05 |
# SCBデータセット: 生徒の授業行動を検出するデータセット SCB-dataset: A Dataset for Detecting Student Classroom Behavior ( http://arxiv.org/abs/2304.02488v1 ) ライセンス: Link先を確認 | Yang Fan | (参考訳) 生徒の授業行動を自動的に検出する深層学習手法は,授業成績を分析し,教育効果を高める上で有望なアプローチである。
しかし、学生行動に関する公開データセットの欠如は、この分野の研究者にとって課題となっている。
本研究では,実生活シナリオを反映した授業行動データセット(scb-dataset)を提案する。
データセットには11,248のラベルと4,003のイメージが含まれており、手作り行動に焦点を当てている。
YOLOv7アルゴリズムを用いてデータセットを評価し,平均精度(マップ)を85.3%まで向上させた。
私たちのデータセットは、学生の行動検出の分野における将来の研究の強固な基盤となり、この分野のさらなる進歩を促進することができると信じています。 The use of deep learning methods for automatic detection of students' classroom behavior is a promising approach to analyze their class performance and enhance teaching effectiveness. However, the lack of publicly available datasets on student behavior poses a challenge for researchers in this field. To address this issue, we propose a Student Classroom Behavior dataset (SCB-dataset) that reflects real-life scenarios. Our dataset includes 11,248 labels and 4,003 images, with a focus on hand-raising behavior. We evaluated the dataset using the YOLOv7 algorithm, achieving a mean average precision (map) of up to 85.3%. We believe that our dataset can serve as a robust foundation for future research in the field of student behavior detection and promote further advancements in this area.Our SCB-dataset can be downloaded from: https://github.com/Whiffe/SCB-dataset | 翻訳日:2023-04-06 12:13:35 公開日:2023-04-05 |
# 大規模レコメンダシステムにおける最適化に基づく探索 Optimism Based Exploration in Large-Scale Recommender Systems ( http://arxiv.org/abs/2304.02572v1 ) ライセンス: Link先を確認 | Hongbo Guo, Ruben Naeff, Alex Nikulkov, Zheqing Zhu | (参考訳) バンド学習アルゴリズムは、リコメンデータシステムにとって、ますますポピュラーな設計選択である。
コミュニティからのバンディット学習への強い関心にもかかわらず、多くのバンディット学習アプローチが生産化を妨げている複数のボトルネックが残っている。
最も重要なボトルネックの2つは、マルチタスクとA/Bテストへのスケーリングである。
古典的バンディットアルゴリズム、特に文脈情報を活用するアルゴリズムは、しばしば不確実性推定の報酬を必要とし、マルチタスクレコメンデータシステムにおける彼らの採用を妨げる。
さらに、教師付き学習アルゴリズムとは異なり、バンディット学習アルゴリズムは探索的性質を通じてデータ収集プロセスに重点を置いている。
このような探索的行動は、古典的なa/bテスト設定において、バンディット学習エージェントに対する不公平な評価を引き起こす。
本稿では,レコメンダシステムのための生産バンディット学習ライフサイクルの新しいデザインと,ユーザ探索における効率を測定するための新しいメトリクスセットを提案する。
本研究は,大規模生産レコメンダシステム実験およびバンディットエージェント設計が生産レコメンダシステムのパーソナライズを改善し,実験設計がバンディット学習アルゴリズムの性能をかなり評価することを示す。 Bandit learning algorithms have been an increasingly popular design choice for recommender systems. Despite the strong interest in bandit learning from the community, there remains multiple bottlenecks that prevent many bandit learning approaches from productionalization. Two of the most important bottlenecks are scaling to multi-task and A/B testing. Classic bandit algorithms, especially those leveraging contextual information, often requires reward for uncertainty estimation, which hinders their adoptions in multi-task recommender systems. Moreover, different from supervised learning algorithms, bandit learning algorithms emphasize greatly on the data collection process through their explorative nature. Such explorative behavior induces unfair evaluation for bandit learning agents in a classic A/B test setting. In this work, we present a novel design of production bandit learning life-cycle for recommender systems, along with a novel set of metrics to measure their efficiency in user exploration. We show through large-scale production recommender system experiments and in-depth analysis that our bandit agent design improves personalization for the production recommender system and our experiment design fairly evaluates the performance of bandit learning algorithms. | 翻訳日:2023-04-06 12:06:59 公開日:2023-04-05 |
# DEFLOW:デブリ流の自己監督型3次元運動推定 DEFLOW: Self-supervised 3D Motion Estimation of Debris Flow ( http://arxiv.org/abs/2304.02569v1 ) ライセンス: Link先を確認 | Liyuan Zhu, Yuru Jia, Shengyu Huang, Nicholas Meyer, Andreas Wieser, Konrad Schindler, Jordan Aaron | (参考訳) シーンフロー推定に関する既存の研究は、自律走行と移動ロボットに焦点を当てているが、自動化されたソリューションは、デブリフローが示すような自然の運動に欠けている。
本稿では,新たに取得したデータセットとともに,デブリ流れの3次元運動推定モデルDefLOWを提案する。
我々は,シーンのインダクティブバイアスを取り入れるために,新しいマルチレベルセンサ融合アーキテクチャと自己スーパービジョンを採用する。
さらに,時間とともにフロー速度を推定できるマルチフレーム時間処理モジュールを採用した。
本モデルでは,我々のデータセット上で最先端の光学的流れと深さ推定を行い,デブリ流れの運動推定を完全自動化する。
ソースコードとデータセットは、プロジェクトページで入手できる。 Existing work on scene flow estimation focuses on autonomous driving and mobile robotics, while automated solutions are lacking for motion in nature, such as that exhibited by debris flows. We propose DEFLOW, a model for 3D motion estimation of debris flows, together with a newly captured dataset. We adopt a novel multi-level sensor fusion architecture and self-supervision to incorporate the inductive biases of the scene. We further adopt a multi-frame temporal processing module to enable flow speed estimation over time. Our model achieves state-of-the-art optical flow and depth estimation on our dataset, and fully automates the motion estimation for debris flows. The source code and dataset are available at project page. | 翻訳日:2023-04-06 12:06:42 公開日:2023-04-05 |
# VicTR:活動認識のためのビデオ条件付きテキスト表現 VicTR: Video-conditioned Text Representations for Activity Recognition ( http://arxiv.org/abs/2304.02560v1 ) ライセンス: Link先を確認 | Kumara Kahatapitiya, Anurag Arnab, Arsha Nagrani and Michael S. Ryoo | (参考訳) ビジョンランゲージモデルは、大量の事前学習データ(ペア画像テキストの例)が利用可能であるため、ゼロショット設定でも、画像領域で強いパフォーマンスを示している。
しかしビデオでは、このようなペアデータはあまり豊富ではない。
したがって、ビデオテキストモデルは、スクラッチからトレーニングする代わりに、訓練済みの画像テキストモデルをビデオドメインに適応することで設計される。
これらのレシピはすべて、時間的情報(画像 -> ビデオ)で視覚的な埋め込みを増強することに依存しており、しばしばテキストの埋め込みは変わらないか、破棄されるかさえある。
本稿では、このような適応型ビデオテキストモデルは、視覚情報よりもテキストを増補することで、より有益であると論じる。
本稿では,テキストとビデオトークンを共同で最適化するVicTRを提案する。
本手法は,視覚的な補助テキスト(オブジェクトやシーン情報など)の形式で,自由に利用できる意味情報を利用することができる。
我々は,ビデオテキストモデルに基づく行動認識における競合性能を示す,教師付き(kinetics-400,charades),ゼロショットおよび少数ショット(hmdb-51,utf-101)などのベンチマーク実験を行った。 Vision-Language models have shown strong performance in the image-domain -- even in zero-shot settings, thanks to the availability of large amount of pretraining data (i.e., paired image-text examples). However for videos, such paired data is not as abundant. Thus, video-text models are usually designed by adapting pretrained image-text models to video-domain, instead of training from scratch. All such recipes rely on augmenting visual embeddings with temporal information (i.e., image -> video), often keeping text embeddings unchanged or even being discarded. In this paper, we argue that such adapted video-text models can benefit more by augmenting text rather than visual information. We propose VicTR, which jointly-optimizes text and video tokens, generating 'Video-conditioned Text' embeddings. Our method can further make use of freely-available semantic information, in the form of visually-grounded auxiliary text (e.g., object or scene information). We conduct experiments on multiple benchmarks including supervised (Kinetics-400, Charades), zero-shot and few-shot (HMDB-51, UCF-101) settings, showing competitive performance on activity recognition based on video-text models. | 翻訳日:2023-04-06 12:06:30 公開日:2023-04-05 |
# マルチモーダルメディア操作の検出と接地 Detecting and Grounding Multi-Modal Media Manipulation ( http://arxiv.org/abs/2304.02556v1 ) ライセンス: Link先を確認 | Rui Shao, Tianxing Wu, Ziwei Liu | (参考訳) 誤報は差し迫った問題になっている。
フェイクメディアは、視覚とテキストの両方の形で、ウェブ上で広く普及している。
様々なディープフェイク検出法やテキスト偽ニュース検出法が提案されているが、それらは二項分類に基づく単一のモダリティ偽造のためにのみ設計されている。
本稿では,マルチモーダルメディア操作(dgm^4)の検出と接地という,マルチモーダルメディアに対する新たな研究課題について述べる。
DGM^4は、マルチモーダルメディアの信頼性を検知するだけでなく、マルチモーダルメディア操作の深い推論を必要とする操作されたコンテンツ(画像バウンディングボックスとテキストトークン)を基盤とする。
大規模な調査を支援するため,画像とテキストのペアを様々なアプローチで操作するDGM^4データセットを構築した。
さらに,HerArchical Multi-modal Manipulation rEasoning tRansformer (HAMMER)を提案する。
ハンマー演奏
1)浅い操作推論としての2つのユニモーダルエンコーダ間の操作対応コントラスト学習
2)マルチモーダルアグリゲータによる奥行き操作推論としてのモダリティ認識クロスアテンション
対話型マルチモーダル情報に基づいて、専用操作検出および接地ヘッドを浅層から深層へと統合する。
最後に,この新たな研究課題に対する厳密な評価基準を設定した。
また,マルチモーダルメディア操作における今後の研究を促進するために,いくつかの貴重な観測結果が得られた。 Misinformation has become a pressing issue. Fake media, in both visual and textual forms, is widespread on the web. While various deepfake detection and text fake news detection methods have been proposed, they are only designed for single-modality forgery based on binary classification, let alone analyzing and reasoning subtle forgery traces across different modalities. In this paper, we highlight a new research problem for multi-modal fake media, namely Detecting and Grounding Multi-Modal Media Manipulation (DGM^4). DGM^4 aims to not only detect the authenticity of multi-modal media, but also ground the manipulated content (i.e., image bounding boxes and text tokens), which requires deeper reasoning of multi-modal media manipulation. To support a large-scale investigation, we construct the first DGM^4 dataset, where image-text pairs are manipulated by various approaches, with rich annotation of diverse manipulations. Moreover, we propose a novel HierArchical Multi-modal Manipulation rEasoning tRansformer (HAMMER) to fully capture the fine-grained interaction between different modalities. HAMMER performs 1) manipulation-aware contrastive learning between two uni-modal encoders as shallow manipulation reasoning, and 2) modality-aware cross-attention by multi-modal aggregator as deep manipulation reasoning. Dedicated manipulation detection and grounding heads are integrated from shallow to deep levels based on the interacted multi-modal information. Finally, we build an extensive benchmark and set up rigorous evaluation metrics for this new research problem. Comprehensive experiments demonstrate the superiority of our model; several valuable observations are also revealed to facilitate future research in multi-modal media manipulation. | 翻訳日:2023-04-06 12:06:08 公開日:2023-04-05 |
# chatgptを用いた人間様要約評価 Human-like Summarization Evaluation with ChatGPT ( http://arxiv.org/abs/2304.02554v1 ) ライセンス: Link先を確認 | Mingqi Gao, Jie Ruan, Renliang Sun, Xunjian Yin, Shiping Yang, Xiaojun Wan | (参考訳) テキスト要約の評価は難しい問題であり、既存の評価基準は満足のいくものではない。
本研究では,5つのデータセット上の4つの人的評価手法を用いて,ChatGPTが人間的な要約評価を行う能力について検討した。
その結果、chatgptはlikertスケールスコア、ペアワイズ比較、ピラミッド、バイナリの事実性評価を用いて、比較的スムーズにアノテーションを補完することができた。
さらに、一部のデータセットで一般的に使用される自動評価指標よりも優れていた。
さらに, 異なるプロンプトの影響について検討し, 評価結果と比較し, 生成した説明と無効な反応を分析した。 Evaluating text summarization is a challenging problem, and existing evaluation metrics are far from satisfactory. In this study, we explored ChatGPT's ability to perform human-like summarization evaluation using four human evaluation methods on five datasets. We found that ChatGPT was able to complete annotations relatively smoothly using Likert scale scoring, pairwise comparison, Pyramid, and binary factuality evaluation. Additionally, it outperformed commonly used automatic evaluation metrics on some datasets. Furthermore, we discussed the impact of different prompts, compared its performance with that of human evaluation, and analyzed the generated explanations and invalid responses. | 翻訳日:2023-04-06 12:05:38 公開日:2023-04-05 |
# 自己監督型シームズオートエンコーダ Self-Supervised Siamese Autoencoders ( http://arxiv.org/abs/2304.02549v1 ) ライセンス: Link先を確認 | Friederike Baier, Sebastian Mair, Samuel G. Fadel | (参考訳) 完全な教師付きモデルは、しばしば大量のラベル付きトレーニングデータを必要とする。
対照的に、自己教師付き表現学習は、同一またはそれ以上の下流のパフォーマンスを達成するのに必要なラベル付きデータの量を減らす。
目標は、自己教師されたタスクでディープニューラルネットワークを事前訓練することで、その後、ネットワークは生の入力データから意味のある特徴を抽出できる。
これらの機能は、画像分類などの下流タスクの入力として使用される。
以前は、SimSiamのようなオートエンコーダやシームズネットワークがこれらのタスクにうまく使われてきた。
しかし、与えられたタスクとデータセットに特徴(例えば、詳細レベル)の特徴と一致するような課題は残されている。
本稿では、シャムアーキテクチャの利点と自動エンコーダのデノージングを組み合わせた新しい自己教師あり方式を提案する。
SidAE(Siamese denoising autoencoder)と呼ばれる私たちのモデルは、複数のデータセット、設定、シナリオで2つの自己教師付きベースラインを上回ります。
重要なことに、これは少量のラベル付きデータしか利用できない条件を含む。 Fully supervised models often require large amounts of labeled training data, which tends to be costly and hard to acquire. In contrast, self-supervised representation learning reduces the amount of labeled data needed for achieving the same or even higher downstream performance. The goal is to pre-train deep neural networks on a self-supervised task such that afterwards the networks are able to extract meaningful features from raw input data. These features are then used as inputs in downstream tasks, such as image classification. Previously, autoencoders and Siamese networks such as SimSiam have been successfully employed in those tasks. Yet, challenges remain, such as matching characteristics of the features (e.g., level of detail) to the given task and data set. In this paper, we present a new self-supervised method that combines the benefits of Siamese architectures and denoising autoencoders. We show that our model, called SidAE (Siamese denoising autoencoder), outperforms two self-supervised baselines across multiple data sets, settings, and scenarios. Crucially, this includes conditions in which only a small amount of labeled data is available. | 翻訳日:2023-04-06 12:05:27 公開日:2023-04-05 |
# pwesuite: 音声による単語の埋め込みと支援するタスク PWESuite: Phonetic Word Embeddings and Tasks They Facilitate ( http://arxiv.org/abs/2304.02541v1 ) ライセンス: Link先を確認 | Vil\'em Zouhar, Kalvin Chang, Chenxuan Cui, Nathaniel Carlson, Nathaniel Robinson, Mrinmaya Sachan, David Mortensen | (参考訳) 単語を固定次元ベクトル空間にマッピングする単語埋め込みは、現代のNLPのバックボーンである。
ほとんどの単語埋め込みは意味情報をエンコードする。
しかし,一部のタスクにおいて重要な音声情報は見過ごされがちである。
本研究では,音声情報を用いた単語埋め込みを構築するために,音声機能を活用した新しい手法を開発し,コミュニティの発展,評価,利用を促進するために,音声単語埋め込みのセットを提示する。
音声単語の埋め込みを学習する方法はいくつか存在するが、その効果を評価するには一貫性が欠如している。
そこで本研究では,単語検索や音声類似性との相関,韻律やコグネート検出,音響類似性など,単語埋め込みの内在的な側面を評価するためのいくつかの手法を提案する。
我々の一連のタスクが再現性を促進し、将来の音声単語の埋め込み研究の方向性を提供することを期待している。 Word embeddings that map words into a fixed-dimensional vector space are the backbone of modern NLP. Most word embedding methods encode semantic information. However, phonetic information, which is important for some tasks, is often overlooked. In this work, we develop several novel methods which leverage articulatory features to build phonetically informed word embeddings, and present a set of phonetic word embeddings to encourage their community development, evaluation and use. While several methods for learning phonetic word embeddings already exist, there is a lack of consistency in evaluating their effectiveness. Thus, we also proposes several ways to evaluate both intrinsic aspects of phonetic word embeddings, such as word retrieval and correlation with sound similarity, and extrinsic performances, such as rhyme and cognate detection and sound analogies. We hope that our suite of tasks will promote reproducibility and provide direction for future research on phonetic word embeddings. | 翻訳日:2023-04-06 12:05:09 公開日:2023-04-05 |
# multi-annotator deep learning: 分類の確率的枠組み Multi-annotator Deep Learning: A Probabilistic Framework for Classification ( http://arxiv.org/abs/2304.02539v1 ) ライセンス: Link先を確認 | Marek Herde, Denis Huseljic, Bernhard Sick | (参考訳) ディープニューラルネットワークを使って複雑な分類タスクを解くには、通常大量の注釈付きデータが必要である。
しかし、エラーの多いアノテータ(例えば、群衆労働者)によって提供されると、対応するクラスラベルはうるさい。
標準ディープニューラルネットワークのトレーニングは、このようなマルチアノテーションの学習設定におけるサブパーパフォーマンスをもたらす。
本稿では,マルチアノテーション深層学習(MaDL)という確率的学習フレームワークを提案することでこの問題に対処する。
基礎的真理と注釈子のパフォーマンスモデルは、エンドツーエンドの学習アプローチで共同で訓練される。
ground truthモデルは、インスタンスの真のクラスラベルを予測することを学習し、annotatorパフォーマンスモデルは、アノテータのパフォーマンスの確率論的推定を推論する。
モジュラーネットワークアーキテクチャにより、アノテータのパフォーマンス、例えばオプションのクラスやインスタンスの依存性に関する様々な仮定ができます。
さらに,アノテーションが相互に関連付けられる可能性のプロキシとして,潜在空間内のアノテーションの密度を推定するために,アノテーション組込みを学習する。
重み付き損失関数と共に、相関したアノテーションパターンから学習を改善する。
総合評価では,マルチアノテーションによる教師あり学習に関する3つの研究課題について検討する。
以上の結果から,madlの最先端のパフォーマンスと多数の関連したスパムアノテータに対する堅牢性が示唆された。 Solving complex classification tasks using deep neural networks typically requires large amounts of annotated data. However, corresponding class labels are noisy when provided by error-prone annotators, e.g., crowd workers. Training standard deep neural networks leads to subpar performances in such multi-annotator supervised learning settings. We address this issue by presenting a probabilistic training framework named multi-annotator deep learning (MaDL). A ground truth and an annotator performance model are jointly trained in an end-to-end learning approach. The ground truth model learns to predict instances' true class labels, while the annotator performance model infers probabilistic estimates of annotators' performances. A modular network architecture enables us to make varying assumptions regarding annotators' performances, e.g., an optional class or instance dependency. Further, we learn annotator embeddings to estimate annotators' densities within a latent space as proxies of their potentially correlated annotations. Together with a weighted loss function, we improve the learning from correlated annotation patterns. In a comprehensive evaluation, we examine three research questions about multi-annotator supervised learning. Our findings indicate MaDL's state-of-the-art performance and robustness against many correlated, spamming annotators. | 翻訳日:2023-04-06 12:04:55 公開日:2023-04-05 |
# スコアベース拡散ポリシーを用いた目標条件付き模倣学習 Goal-Conditioned Imitation Learning using Score-based Diffusion Policies ( http://arxiv.org/abs/2304.02532v1 ) ライセンス: Link先を確認 | Moritz Reuss, Maximilian Li, Xiaogang Jia, Rudolf Lioutikov | (参考訳) 本稿では,スコアベース拡散モデル(SDM)に基づく新しいポリシー表現を提案する。
我々は、ゴール・コンディションド・イミテーション・ラーニング(GCIL)の領域に新しいポリシー表現を適用し、報酬のない大規模未計算データセットから汎用目標特定ポリシーを学習する。
我々の新しいゴール条件付きポリシーアーキテクチャ "$\textbf{BE}$havior generation with $\textbf{S}$c$\textbf{O}$re-based Diffusion Policies" (BESO) は、生成的なスコアベースの拡散モデルをポリシーとして活用する。
BESOは、スコアモデルの学習を推論サンプリングプロセスから切り離し、その結果、他の拡散ベースのポリシーの30以上のステップと比較して、わずか3ステップでゴール特定行動を生成する高速サンプリング戦略を可能にする。
また、besoは表現力が高く、プレイデータの解空間に存在するマルチモダリティを効果的に捉えることができる。
latent planやc-betのような従来の方法とは異なり、besoは効果的な目標条件付き行動学習のために複雑な階層ポリシーや追加のクラスタリングに依存しない。
最後に, BESO を用いてプレイデータからゴールに依存しないポリシーを学習する方法を示す。
私たちの知る限りでは これが最初の作品です
a)そのような分離されたsdmに基づく行動方針を表す
b)GCILの領域でSDMに基づく政策を学習し、
c) プレイデータからゴール依存とゴール非依存のポリシーを同時に学習する方法を提供する。
詳細なシミュレーションによりbesoを評価し,課題ベンチマークにおいて,最先端の目標条件付き模倣学習手法を一貫して上回っていることを示す。
また,本手法の有効性を実証するために,広範囲にわたるアブレーション研究と実験を行った。 We propose a new policy representation based on score-based diffusion models (SDMs). We apply our new policy representation in the domain of Goal-Conditioned Imitation Learning (GCIL) to learn general-purpose goal-specified policies from large uncurated datasets without rewards. Our new goal-conditioned policy architecture "$\textbf{BE}$havior generation with $\textbf{S}$c$\textbf{O}$re-based Diffusion Policies" (BESO) leverages a generative, score-based diffusion model as its policy. BESO decouples the learning of the score model from the inference sampling process, and, hence allows for fast sampling strategies to generate goal-specified behavior in just 3 denoising steps, compared to 30+ steps of other diffusion based policies. Furthermore, BESO is highly expressive and can effectively capture multi-modality present in the solution space of the play data. Unlike previous methods such as Latent Plans or C-Bet, BESO does not rely on complex hierarchical policies or additional clustering for effective goal-conditioned behavior learning. Finally, we show how BESO can even be used to learn a goal-independent policy from play-data using classifier-free guidance. To the best of our knowledge this is the first work that a) represents a behavior policy based on such a decoupled SDM b) learns an SDM based policy in the domain of GCIL and c) provides a way to simultaneously learn a goal-dependent and a goal-independent policy from play-data. We evaluate BESO through detailed simulation and show that it consistently outperforms several state-of-the-art goal-conditioned imitation learning methods on challenging benchmarks. We additionally provide extensive ablation studies and experiments to demonstrate the effectiveness of our method for effective goal-conditioned behavior generation. | 翻訳日:2023-04-06 12:04:35 公開日:2023-04-05 |
# 縦断画像の比較学習 Learning to Compare Longitudinal Images ( http://arxiv.org/abs/2304.02531v1 ) ライセンス: Link先を確認 | Heejong Kim and Mert R. Sabuncu | (参考訳) 縦断的研究では、同じ個体群からの一連の画像が異なるタイミングで取得され、生体医学的応用における時間的ダイナミクスの研究と特徴付けのための一般的な技術である。
縦長比較のための古典的なアプローチは、前処理による画像配向やコントラスト差などのニュアンス変動の正規化を含む。
統計分析は、個人または人口レベルで、関心の変化を検出するために行われる。
この古典的なアプローチは、事前処理の問題と統計モデリングの限界に悩まされる。
例えば、慣用的な変更が多い設定では、ニュアンス変動の正規化は難しいかもしれません。
本稿では,これらの問題を緩和するシンプルな機械学習アプローチを提案する。
提案手法では,深層学習モデル(PaIRNet,Pairwise Image Ranking Network)をトレーニングし,一対の長手画像と監督の有無を比較した。
例えば、自己監督的な設定では、モデルは時間的に画像を順序付けするように訓練され、学習は時間的に不可逆な変化を認識する必要がある。
4つのデータセットから得られた結果から,PaIRNetはニュアンス変動を抑えつつ,有意な経時変化の局所化と定量化に極めて有効であることが示された。
私たちのコードは \url{https://github.com/heejong-kim/learning-to-compare-longitudinal-images.git} で入手できる。 Longitudinal studies, where a series of images from the same set of individuals are acquired at different time-points, represent a popular technique for studying and characterizing temporal dynamics in biomedical applications. The classical approach for longitudinal comparison involves normalizing for nuisance variations, such as image orientation or contrast differences, via pre-processing. Statistical analysis is, in turn, conducted to detect changes of interest, either at the individual or population level. This classical approach can suffer from pre-processing issues and limitations of the statistical modeling. For example, normalizing for nuisance variation might be hard in settings where there are a lot of idiosyncratic changes. In this paper, we present a simple machine learning-based approach that can alleviate these issues. In our approach, we train a deep learning model (called PaIRNet, for Pairwise Image Ranking Network) to compare pairs of longitudinal images, with or without supervision. In the self-supervised setup, for instance, the model is trained to temporally order the images, which requires learning to recognize time-irreversible changes. Our results from four datasets demonstrate that PaIRNet can be very effective in localizing and quantifying meaningful longitudinal changes while discounting nuisance variation. Our code is available at \url{https://github.com/heejong-kim/learning-to-compare-longitudinal-images.git} | 翻訳日:2023-04-06 12:04:08 公開日:2023-04-05 |
# 要約を超えて - 実世界の展示書作成タスクのためのAIサポートの設計 Beyond Summarization: Designing AI Support for Real-World Expository Writing Tasks ( http://arxiv.org/abs/2304.02623v1 ) ライセンス: Link先を確認 | Zejiang Shen, Tal August, Pao Siangliulue, Kyle Lo, Jonathan Bragg, Jeff Hammerbacher, Doug Downey, Joseph Chee Chang, David Sontag | (参考訳) 大規模言語モデルは、新しいAI支援書き込み支援ツールの設計と開発において、エキサイティングな新しい機会と課題をもたらした。
最近の研究は、この新技術を活用することで、創造的執筆時の構想、編集支援、要約など、多くのシナリオで文章を変換できることを示している。
しかし、aiが支援する、文献レビューを書く学者や進歩のメモを書く医師といった現実世界の作業は、比較的軽視されている。
本稿では,実証書作成を支援するAIの開発には,独特でエキサイティングな研究課題があり,高い実世界への影響をもたらす可能性があることを論じる。
我々は,実証書をエビデンスに基づく知識生成として特徴付け,外部文書の要約と新たな情報や知識を含む。
一連のソースドキュメントに対する著者のセンスメイキングプロセスの産物と見ることができ、読み書きとリフレクションの相互作用によって、AIサポートを設計する新たな機会が開ける。
我々は,AIサポート設計のための3つのコンポーネントをスケッチし,今後の研究について考察する。 Large language models have introduced exciting new opportunities and challenges in designing and developing new AI-assisted writing support tools. Recent work has shown that leveraging this new technology can transform writing in many scenarios such as ideation during creative writing, editing support, and summarization. However, AI-supported expository writing--including real-world tasks like scholars writing literature reviews or doctors writing progress notes--is relatively understudied. In this position paper, we argue that developing AI supports for expository writing has unique and exciting research challenges and can lead to high real-world impacts. We characterize expository writing as evidence-based and knowledge-generating: it contains summaries of external documents as well as new information or knowledge. It can be seen as the product of authors' sensemaking process over a set of source documents, and the interplay between reading, reflection, and writing opens up new opportunities for designing AI support. We sketch three components for AI support design and discuss considerations for future research. | 翻訳日:2023-04-06 11:58:15 公開日:2023-04-05 |
# 弱改良セグメンテーション強化のための高忠実擬似ラベル High-fidelity Pseudo-labels for Boosting Weakly-Supervised Segmentation ( http://arxiv.org/abs/2304.02621v1 ) ライセンス: Link先を確認 | Arvi Jonnarth, Yushan Zhang, Michael Felsberg | (参考訳) 画像レベルの弱い教師付きセマンティックセグメンテーション(wsss)のタスクは、近年、セグメンテーションモデルのトレーニングのための膨大なデータアノテーションコストを削減し、人気が高まっている。
WSSSの典型的なアプローチは、畳み込み特徴マップのグローバル平均プーリング(GAP)を用いた画像分類ネットワークのトレーニングである。
これにより、画像領域の重要性を識別するクラスアクティベーションマップ(CAM)に基づいて、オブジェクトの位置を推定できる。
CAMは、ピクセルレベルの基底真理が欠如しているセグメンテーションモデルを監督するために、セグメンテーションマスクの形で擬似ラベルを生成するために使用される。
SEAMベースラインの場合,(1)GAPの代替品である輸入サンプリング,(2)画像のカラーエッジにほぼ排他的に整合するヒューリスティックな特徴類似性損失の2つの方法により,CAM学習を改善するための先行研究が提案された。
本研究では,これらの手法に対して,camsの確率的解釈を異にする手法を提案する。
その結果,従来のWSSS手法を本質的に強化し,実装されたすべての技術ベースラインの領域類似性と輪郭品質を向上するアドオン手法を提案する。
これはPASCAL VOCデータセットの様々なベースラインで実証される。
MS COCOデータセットの実験では、大規模な環境でもパフォーマンスの向上が達成できる。
私たちのコードはhttps://github.com/arvijj/hfplで利用可能です。 The task of image-level weakly-supervised semantic segmentation (WSSS) has gained popularity in recent years, as it reduces the vast data annotation cost for training segmentation models. The typical approach for WSSS involves training an image classification network using global average pooling (GAP) on convolutional feature maps. This enables the estimation of object locations based on class activation maps (CAMs), which identify the importance of image regions. The CAMs are then used to generate pseudo-labels, in the form of segmentation masks, to supervise a segmentation model in the absence of pixel-level ground truth. In case of the SEAM baseline, a previous work proposed to improve CAM learning in two ways: (1) Importance sampling, which is a substitute for GAP, and (2) the feature similarity loss, which utilizes a heuristic that object contours almost exclusively align with color edges in images. In this work, we propose a different probabilistic interpretation of CAMs for these techniques, rendering the likelihood more appropriate than the multinomial posterior. As a result, we propose an add-on method that can boost essentially any previous WSSS method, improving both the region similarity and contour quality of all implemented state-of-the-art baselines. This is demonstrated on a wide variety of baselines on the PASCAL VOC dataset. Experiments on the MS COCO dataset show that performance gains can also be achieved in a large-scale setting. Our code is available at https://github.com/arvijj/hfpl. | 翻訳日:2023-04-06 11:57:56 公開日:2023-04-05 |
# 量子最適制御のための効率的な量子アルゴリズム Efficient Quantum Algorithms for Quantum Optimal Control ( http://arxiv.org/abs/2304.02613v1 ) ライセンス: Link先を確認 | Xiantao Li, Chunhao Wang | (参考訳) 本稿では,量子最適制御問題を解くために,古典的アルゴリズムよりも指数関数的に速い効率的な量子アルゴリズムを提案する。
この問題は、時給$T$で物理量を最大化する制御変数を見つけることであり、システムは時間依存のシュリンガー方程式によって支配される。
このタイプの制御問題は、機械学習とも複雑な関係を持つ。
本アルゴリズムは時間依存型ハミルトンシミュレーション法と高速勾配推定アルゴリズムに基づいている。
また,制御関数の有限次元表現,schr\"odinger方程式の離散化,数値二次数,最適化など,様々なステップからの総誤差を定量化する包括的な誤差解析も提供する。
量子アルゴリズムにはフォールトトレラントな量子コンピュータが必要です。 In this paper, we present efficient quantum algorithms that are exponentially faster than classical algorithms for solving the quantum optimal control problem. This problem involves finding the control variable that maximizes a physical quantity at time $T$, where the system is governed by a time-dependent Schr\"odinger equation. This type of control problem also has an intricate relation with machine learning. Our algorithms are based on a time-dependent Hamiltonian simulation method and a fast gradient-estimation algorithm. We also provide a comprehensive error analysis to quantify the total error from various steps, such as the finite-dimensional representation of the control function, the discretization of the Schr\"odinger equation, the numerical quadrature, and optimization. Our quantum algorithms require fault-tolerant quantum computers. | 翻訳日:2023-04-06 11:57:29 公開日:2023-04-05 |
# 3次元拡散モデルによる新しいビュー生成 Generative Novel View Synthesis with 3D-Aware Diffusion Models ( http://arxiv.org/abs/2304.02602v1 ) ライセンス: Link先を確認 | Eric R. Chan, Koki Nagano, Matthew A. Chan, Alexander W. Bergman, Jeong Joon Park, Axel Levy, Miika Aittala, Shalini De Mello, Tero Karras and Gordon Wetzstein | (参考訳) 単一入力画像から3D対応の新規ビュー合成のための拡散モデルを提案する。
我々のモデルでは、入力と一致したレンダリングの可能な分布からサンプルを抽出し、あいまいさがあっても、多様で妥当な斬新なビューを描画することができる。
そこで本手法では,既存の2次元拡散バックボーンを用いるが,重要な点として,幾何学的先行を3次元特徴体積の形で組み込む。
この潜在機能フィールドは、可能なシーン表現上の分布をキャプチャし、ビュー一貫性のある新規レンダリングを生成する方法の能力を改善する。
新たなビュー生成に加えて,本手法は3次元一貫性シーケンスを自己回帰的に合成する機能を備えている。
我々は、合成レンダリングとルームスケールのシーンに関する最先端の結果を示し、また、挑戦的で現実世界のオブジェクトに対して魅力的な結果を示す。 We present a diffusion-based model for 3D-aware generative novel view synthesis from as few as a single input image. Our model samples from the distribution of possible renderings consistent with the input and, even in the presence of ambiguity, is capable of rendering diverse and plausible novel views. To achieve this, our method makes use of existing 2D diffusion backbones but, crucially, incorporates geometry priors in the form of a 3D feature volume. This latent feature field captures the distribution over possible scene representations and improves our method's ability to generate view-consistent novel renderings. In addition to generating novel views, our method has the ability to autoregressively synthesize 3D-consistent sequences. We demonstrate state-of-the-art results on synthetic renderings and room-scale scenes; we also show compelling results for challenging, real-world objects. | 翻訳日:2023-04-06 11:57:15 公開日:2023-04-05 |
# log-concaveサンプリングのためのクエリ下限 Query lower bounds for log-concave sampling ( http://arxiv.org/abs/2304.02599v1 ) ライセンス: Link先を確認 | Sinho Chewi, Jaume de Dios Pont, Jerry Li, Chen Lu, Shyam Narayanan | (参考訳) ログ・コンケーブのサンプリングは近年顕著なアルゴリズムの進歩をみせたが、このタスクの下位境界を証明するための対応する問題は、以前は次元1でしか知られていなかった。
本研究では, 1次元の強いlog-concaveおよびlog-smooth分布からのサンプリングには,任意の定数次元においてシャープな$\omega(\log \kappa)$クエリ, 2次元のガウス分布からのサンプリング$d$(一般のlog-concaveおよびlog-smooth分布からも$d$となる)には$\widetilde \omega(\min(\sqrt\kappa \log d, d)$クエリが必要である。
ここで$\kappa$はターゲット分布の条件番号を表す。
本証明は,(1)調和解析におけるカヤヤ予想の研究に触発された多元的構成と,(2)ブロッククリロフアルゴリズムがこの問題に最適であることを示す新しい還元と,行列・ベクトル問合せ文献で開発されたウィッシュアート行列に基づく下限手法との関係に依存する。 Log-concave sampling has witnessed remarkable algorithmic advances in recent years, but the corresponding problem of proving lower bounds for this task has remained elusive, with lower bounds previously known only in dimension one. In this work, we establish the following query lower bounds: (1) sampling from strongly log-concave and log-smooth distributions in dimension $d\ge 2$ requires $\Omega(\log \kappa)$ queries, which is sharp in any constant dimension, and (2) sampling from Gaussians in dimension $d$ (hence also from general log-concave and log-smooth distributions in dimension $d$) requires $\widetilde \Omega(\min(\sqrt\kappa \log d, d))$ queries, which is nearly sharp for the class of Gaussians. Here $\kappa$ denotes the condition number of the target distribution. Our proofs rely upon (1) a multiscale construction inspired by work on the Kakeya conjecture in harmonic analysis, and (2) a novel reduction that demonstrates that block Krylov algorithms are optimal for this problem, as well as connections to lower bound techniques based on Wishart matrices developed in the matrix-vector query literature. | 翻訳日:2023-04-06 11:57:02 公開日:2023-04-05 |
# ロボットマストイド手術におけるリアルタイム力フィードバックのための力覚訓練 A force-sensing surgical drill for real-time force feedback in robotic mastoidectomy ( http://arxiv.org/abs/2304.02583v1 ) ライセンス: Link先を確認 | Yuxin Chen, Anna Goodridge, Manish Sahu, Aditi Kishore, Seena Vafaee, Harsha Mohan, Katherina Sapozhnikov, Francis Creighton, Russell Taylor and Deepa Galaiya | (参考訳) 目的: 耳科手術におけるロボット支援は, 側頭蓋底の重要構造物周辺の骨除去時の手術医の作業負荷を軽減できる。
しかし、解剖学的通路への安全な配置は、外科用道具と重要な解剖学の間の相互作用力を積極的に制限する高度なセンシング能力の開発を必要とする。
方法: 正確な工具間相互作用力を計測し, 外科医への力制御とフィードバックを可能にする力センサを備えた外科用ドリルを導入する。
本稿では,協調制御型手術ロボットに装着した力感知型手術ドリルの設計,キャリブレーション,検証について述べる。
結果: 手術用ドリルの先端部における力測定は生エッグ掘削実験によって検証され, 卵の下部に装着された力センサが真理となる。
平均根平均二乗誤差(RMSE)は、それぞれ41.7 (pm 12.2) mNと48.3 (pm 13.7) mNである。
結論: 力センシングの原型は, 分級された力センシングドリルは, 測定されたドリル力と比較して, 誤差を最小に抑え, 正確な力測定を生成できることを実証した。
このようなセンシング能力の開発は、臨床におけるロボットシステムの安全な使用に不可欠である。 Purpose: Robotic assistance in otologic surgery can reduce the task load of operating surgeons during the removal of bone around the critical structures in the lateral skull base. However, safe deployment into the anatomical passageways necessitates the development of advanced sensing capabilities to actively limit the interaction forces between the surgical tools and critical anatomy. Methods: We introduce a surgical drill equipped with a force sensor that is capable of measuring accurate tool-tissue interaction forces to enable force control and feedback to surgeons. The design, calibration and validation of the force-sensing surgical drill mounted on a cooperatively controlled surgical robot are described in this work. Results: The force measurements on the tip of the surgical drill are validated with raw-egg drilling experiments, where a force sensor mounted below the egg serves as ground truth. The average root mean square error (RMSE) for points and path drilling experiments are 41.7 (pm 12.2) mN and 48.3 (pm 13.7) mN respectively. Conclusions: The force-sensing prototype measures forces with sub-millinewton resolution and the results demonstrate that the calibrated force-sensing drill generates accurate force measurements with minimal error compared to the measured drill forces. The development of such sensing capabilities is crucial for the safe use of robotic systems in a clinical context. | 翻訳日:2023-04-06 11:55:53 公開日:2023-04-05 |
# ECGの重要度ランキング:心臓科医対アルゴリズム ECG Feature Importance Rankings: Cardiologists vs. Algorithms ( http://arxiv.org/abs/2304.02577v1 ) ライセンス: Link先を確認 | Temesgen Mehari, Ashish Sundar, Alen Bosnjakovic, Peter Harris, Steven E. Williams, Axel Loewe, Olaf Doessel, Claudia Nagel, Nils Strodthoff, Philip J. Aston | (参考訳) 特徴の重要度は、与えられた分類タスクの重要性に応じて特徴のランキングを提供することを約束する。
幅広い手法が存在するが、それらのランキングはしばしば一致せず、合成データセット以外の基礎的な真実が欠如しているため、本質的に評価が難しい。
本研究は,循環器科領域における実世界のデータを用いた検査において,心電図の特徴を基礎的真理として使用する特徴と比較し,健常者から3つの特定の病態を区別することを目的としている。
いくつかの手法は一般的にうまく動作し、他の手法は性能が悪く、いくつかの手法は考慮されたすべての問題に対してうまく機能した。 Feature importance methods promise to provide a ranking of features according to importance for a given classification task. A wide range of methods exist but their rankings often disagree and they are inherently difficult to evaluate due to a lack of ground truth beyond synthetic datasets. In this work, we put feature importance methods to the test on real-world data in the domain of cardiology, where we try to distinguish three specific pathologies from healthy subjects based on ECG features comparing to features used in cardiologists' decision rules as ground truth. Some methods generally performed well and others performed poorly, while some methods did well on some but not all of the problems considered. | 翻訳日:2023-04-06 11:55:29 公開日:2023-04-05 |
# マルコフ決定過程におけるコンフォーマルオフポリシィ評価 Conformal Off-Policy Evaluation in Markov Decision Processes ( http://arxiv.org/abs/2304.02574v1 ) ライセンス: Link先を確認 | Daniele Foffano, Alessio Russo, Alexandre Proutiere | (参考訳) 強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
多くの現実世界のアプリケーションでは、学習者は実験を許されず、オンラインの方法でデータを集めることができない(これは実験が高価で、リスクがあり、非倫理的である場合である)。
このような適用の場合、ある政策(対象政策)の報酬は、異なる政策(行動政策)の下で収集された歴史的データを用いて見積もる必要がある。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確性と確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
OPEの主な課題は、目標と行動方針の相違による分布シフトにある。
この変化に対処するさまざまな方法を提案し,実証的に評価する。
これらの方法のいくつかは、同じ確実性レベルを維持しつつ、既存のアプローチに比べて長さの少ない共形区間を与える。 Reinforcement Learning aims at identifying and evaluating efficient control policies from data. In many real-world applications, the learner is not allowed to experiment and cannot gather data in an online manner (this is the case when experimenting is expensive, risky or unethical). For such applications, the reward of a given policy (the target policy) must be estimated using historical data gathered under a different policy (the behavior policy). Most methods for this learning task, referred to as Off-Policy Evaluation (OPE), do not come with accuracy and certainty guarantees. We present a novel OPE method based on Conformal Prediction that outputs an interval containing the true reward of the target policy with a prescribed level of certainty. The main challenge in OPE stems from the distribution shift due to the discrepancies between the target and the behavior policies. We propose and empirically evaluate different ways to deal with this shift. Some of these methods yield conformalized intervals with reduced length compared to existing approaches, while maintaining the same certainty level. | 翻訳日:2023-04-06 11:55:15 公開日:2023-04-05 |
# あらゆるセグメント Segment Anything ( http://arxiv.org/abs/2304.02643v1 ) ライセンス: Link先を確認 | Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Doll\'ar, Ross Girshick | (参考訳) 画像分割のための新しいタスク、モデル、データセットであるsegment anything(sa)プロジェクトを紹介します。
データ収集ループで効率的なモデルを使用して、これまでで最大のセグメンテーションデータセットを構築しました。
モデルの設計とトレーニングにより、ゼロショットを新しい画像配信やタスクに転送することができる。
私たちは、多くのタスクでその能力を評価し、ゼロショットのパフォーマンスが印象的なものであることを見つけます。
コンピュータビジョンの基礎モデルの研究を促進するため、Segment Anything Model(SAM)およびそれに対応するデータセット(SA-1B)をhttps://segment-anything.comでリリースする。 We introduce the Segment Anything (SA) project: a new task, model, and dataset for image segmentation. Using our efficient model in a data collection loop, we built the largest segmentation dataset to date (by far), with over 1 billion masks on 11M licensed and privacy respecting images. The model is designed and trained to be promptable, so it can transfer zero-shot to new image distributions and tasks. We evaluate its capabilities on numerous tasks and find that its zero-shot performance is impressive -- often competitive with or even superior to prior fully supervised results. We are releasing the Segment Anything Model (SAM) and corresponding dataset (SA-1B) of 1B masks and 11M images at https://segment-anything.com to foster research into foundation models for computer vision. | 翻訳日:2023-04-06 11:48:47 公開日:2023-04-05 |
# テキスト-画像拡散モデルを用いたゼロチューニング画像カスタマイズのための処理エンコーダ Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models ( http://arxiv.org/abs/2304.02642v1 ) ライセンス: Link先を確認 | Xuhui Jia, Yang Zhao, Kelvin C.K. Chan, Yandong Li, Han Zhang, Boqing Gong, Tingbo Hou, Huisheng Wang, Yu-Chuan Su | (参考訳) 本稿では,ユーザが指定したカスタマイズ対象の画像を生成する手法を提案する。
この手法は、オブジェクトごとの最適化パラダイムを使用する従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
我々のフレームワークは、オブジェクトの高レベルな識別可能なセマンティクスをキャプチャするためにエンコーダを採用し、単一のフィードフォワードパスのみでオブジェクト固有の埋め込みを生成する。
取得したオブジェクトの埋め込みはその後、テキストから画像への合成モデルに渡される。
オブジェクト認識埋め込み空間を、同一世代のコンテキスト下で十分に開発されたテキスト対画像モデルに効果的にブレンドし、異なるネットワーク設計とトレーニング戦略を調査し、オブジェクト識別保存損失を伴う簡易かつ効果的な正規化共同トレーニングスキームを提案する。
また,制御や編集能力を維持しつつ,生成プロセスに忠実に反映されたオブジェクト固有埋め込みを育成する上で重要な要素となるキャプション生成方式を提案する。
訓練されたネットワークは、テキストとオブジェクトの両方に条件付きで、多様なコンテンツやスタイルを生成できる。
提案手法は, テスト時間最適化を必要とせず, 説得力のある出力品質, 外観多様性, オブジェクト忠実度で画像を合成できることを実験により実証する。
システム研究は、我々のモデルを分析するためにも行われ、将来の作業に対する洞察を提供する。 This paper proposes a method for generating images of customized objects specified by users. The method is based on a general framework that bypasses the lengthy optimization required by previous approaches, which often employ a per-object optimization paradigm. Our framework adopts an encoder to capture high-level identifiable semantics of objects, producing an object-specific embedding with only a single feed-forward pass. The acquired object embedding is then passed to a text-to-image synthesis model for subsequent generation. To effectively blend a object-aware embedding space into a well developed text-to-image model under the same generation context, we investigate different network designs and training strategies, and propose a simple yet effective regularized joint training scheme with an object identity preservation loss. Additionally, we propose a caption generation scheme that become a critical piece in fostering object specific embedding faithfully reflected into the generation process, while keeping control and editing abilities. Once trained, the network is able to produce diverse content and styles, conditioned on both texts and objects. We demonstrate through experiments that our proposed method is able to synthesize images with compelling output quality, appearance diversity, and object fidelity, without the need of test-time optimization. Systematic studies are also conducted to analyze our models, providing insights for future work. | 翻訳日:2023-04-06 11:48:30 公開日:2023-04-05 |
# ガウス過程回帰と分類のための自己蒸留 Self-Distillation for Gaussian Process Regression and Classification ( http://arxiv.org/abs/2304.02641v1 ) ライセンス: Link先を確認 | Kenneth Borup and Lars N{\o}rvang Andersen | (参考訳) 本稿では,知識蒸留の概念をガウスプロセス回帰(GPR)とガウスプロセス分類(GPC)に拡張する2つの手法を提案する。
データ中心のアプローチは、機械学習の現行の蒸留技術に似ており、教師による決定論的予測のモデルに適合する一方、分散中心のアプローチは、次のイテレーションの完全な確率論的後部を再利用する。
これらの手法の特性を解析することにより、GPRのデータ中心のアプローチは、カーネルリッジ回帰の自己蒸留に関する既知の結果と密接に関連し、GPRの分布中心のアプローチは、非常に特殊なハイパーパラメータの選択を伴う通常のGPRに対応することを示す。
さらに,gpcの分布中心アプローチは,データ重複と特定の共分散のスケーリングとほぼ一致し,データ中心アプローチでは,二項的確率から連続的ベルヌーイ確率へのモデルの再定義が必要となることを示した。
我々の知識を最大限に活用するために,提案手法はガウス過程モデルに特化した知識蒸留を初めて定式化したものである。 We propose two approaches to extend the notion of knowledge distillation to Gaussian Process Regression (GPR) and Gaussian Process Classification (GPC); data-centric and distribution-centric. The data-centric approach resembles most current distillation techniques for machine learning, and refits a model on deterministic predictions from the teacher, while the distribution-centric approach, re-uses the full probabilistic posterior for the next iteration. By analyzing the properties of these approaches, we show that the data-centric approach for GPR closely relates to known results for self-distillation of kernel ridge regression and that the distribution-centric approach for GPR corresponds to ordinary GPR with a very particular choice of hyperparameters. Furthermore, we demonstrate that the distribution-centric approach for GPC approximately corresponds to data duplication and a particular scaling of the covariance and that the data-centric approach for GPC requires redefining the model from a Binomial likelihood to a continuous Bernoulli likelihood to be well-specified. To the best of our knowledge, our proposed approaches are the first to formulate knowledge distillation specifically for Gaussian Process models. | 翻訳日:2023-04-06 11:48:08 公開日:2023-04-05 |
# entl: 具体化ナビゲーションコース学習装置 ENTL: Embodied Navigation Trajectory Learner ( http://arxiv.org/abs/2304.02639v1 ) ライセンス: Link先を確認 | Klemen Kotar, Aaron Walsman, Roozbeh Mottaghi | (参考訳) エンボディナビゲーションのための長いシーケンス表現を抽出する手法であるEmbodied Navigation Trajectory Learner (ENTL)を提案する。
提案手法は,世界モデリング,ローカライゼーション,模倣学習を単一シーケンス予測タスクに統合する。
我々は,現在の状態と動作に基づく将来の状態のベクトル量子化予測を用いてモデルを訓練する。
ENTLの汎用アーキテクチャは、複数の困難なエンボディタスクのための時空間シーケンスエンコーダの共有を可能にする。
ローカライゼーションや将来のフレーム予測(世界モデリングのプロキシ)といった補助タスクを実行しながら,強力なベースラインよりもはるかに少ないデータを用いて,ナビゲーションタスクの競合性能を実現する。
提案手法の重要な特徴は、モデルが明示的な報酬信号なしで事前訓練されることであり、その結果、複数のタスクや環境に一般化できるということである。 We propose Embodied Navigation Trajectory Learner (ENTL), a method for extracting long sequence representations for embodied navigation. Our approach unifies world modeling, localization and imitation learning into a single sequence prediction task. We train our model using vector-quantized predictions of future states conditioned on current states and actions. ENTL's generic architecture enables the sharing of the the spatio-temporal sequence encoder for multiple challenging embodied tasks. We achieve competitive performance on navigation tasks using significantly less data than strong baselines while performing auxiliary tasks such as localization and future frame prediction (a proxy for world modeling). A key property of our approach is that the model is pre-trained without any explicit reward signal, which makes the resulting model generalizable to multiple tasks and environments. | 翻訳日:2023-04-06 11:47:47 公開日:2023-04-05 |
# genphys: 物理的プロセスから生成モデルへ GenPhys: From Physical Processes to Generative Models ( http://arxiv.org/abs/2304.02637v1 ) ライセンス: Link先を確認 | Ziming Liu, Di Luo, Yilun Xu, Tommi Jaakkola, Max Tegmark | (参考訳) 拡散モデル(dm)とより最近のポアソンフロー生成モデル(pfgm)は物理的プロセスにインスパイアされているので、疑問に思うのは理にかなっている。
私たちは答えがイエスであることを示します。
我々は、物理過程を記述した偏微分方程式(PDE)を生成モデルに変換する一般的なファミリーである生成モデル(GenPhys)を紹介する。
生成モデルはs生成PDE(s for smooth)から構築可能であることを示す。
GenPhys は、既存の2つの生成モデル (DM と PFGM) を仮定し、弱い相互作用から着想を得た「湯川生成モデル」のような生成モデルの新たなファミリーを生み出す。
一方、デフォルトではいくつかの物理過程はGenPhys族に属しない(例えば波動方程式やSchr\"{o}dinger方程式など)が、いくつかの修正を加えてGenPhys族にすることができる。
GenPhysの目標は、生成モデルの設計空間を探索し、拡張することです。 Since diffusion models (DM) and the more recent Poisson flow generative models (PFGM) are inspired by physical processes, it is reasonable to ask: Can physical processes offer additional new generative models? We show that the answer is yes. We introduce a general family, Generative Models from Physical Processes (GenPhys), where we translate partial differential equations (PDEs) describing physical processes to generative models. We show that generative models can be constructed from s-generative PDEs (s for smooth). GenPhys subsume the two existing generative models (DM and PFGM) and even give rise to new families of generative models, e.g., "Yukawa Generative Models" inspired from weak interactions. On the other hand, some physical processes by default do not belong to the GenPhys family, e.g., the wave equation and the Schr\"{o}dinger equation, but could be made into the GenPhys family with some modifications. Our goal with GenPhys is to explore and expand the design space of generative models. | 翻訳日:2023-04-06 11:47:35 公開日:2023-04-05 |
# HNeRV:ビデオのためのハイブリッドニューラルネットワーク HNeRV: A Hybrid Neural Representation for Videos ( http://arxiv.org/abs/2304.02633v1 ) ライセンス: Link先を確認 | Hao Chen, Matt Gwilliam, Ser-Nam Lim, Abhinav Shrivastava | (参考訳) 暗黙的なニューラルネットワーク表現は、ビデオをニューラルネットワークとして保存し、ビデオ圧縮やデノイジングといった様々な視覚タスクでうまく機能している。
フレームインデックスや位置インデックスを入力として、暗黙の表現(NeRV, E-NeRV, \etc)は、固定およびコンテンツに依存しない埋め込みからビデオを再構成する。
このような埋め込みは、ビデオ補間における回帰能力と内部一般化を大幅に制限する。
本稿では、学習可能なエンコーダがデコーダ入力として機能するコンテンツ適応型埋め込みを生成するHybrid Neural Representation for Videos (HNeRV)を提案する。
入力埋め込みに加えて、HNeRVブロックを導入し、モデルパラメータがネットワーク全体にわたって均等に分散されることを保証する。
コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVは再生品質(+4.7$ PSNR)と収束速度($16\times$ faster)の両方でビデオ回帰タスクの暗黙の手法より優れ、内部の一般化が向上している。
HNeRVは、シンプルで効率的なビデオ表現として、従来のコーデック~(H.264, H.265)や学習ベースの圧縮手法と比較して、速度、柔軟性、展開のデコーディングの利点を示す。
最後に,映像圧縮や映像インパインティングなどの下流作業におけるHNeRVの有効性について検討する。
プロジェクトページはhttps://haochen-rye.github.io/HNeRV、コードはhttps://github.com/haochen-rye/HNeRVです。 Implicit neural representations store videos as neural networks and have performed well for various vision tasks such as video compression and denoising. With frame index or positional index as input, implicit representations (NeRV, E-NeRV, \etc) reconstruct video from fixed and content-agnostic embeddings. Such embedding largely limits the regression capacity and internal generalization for video interpolation. In this paper, we propose a Hybrid Neural Representation for Videos (HNeRV), where a learnable encoder generates content-adaptive embeddings, which act as the decoder input. Besides the input embedding, we introduce HNeRV blocks, which ensure model parameters are evenly distributed across the entire network, such that higher layers (layers near the output) can have more capacity to store high-resolution content and video details. With content-adaptive embeddings and re-designed architecture, HNeRV outperforms implicit methods in video regression tasks for both reconstruction quality ($+4.7$ PSNR) and convergence speed ($16\times$ faster), and shows better internal generalization. As a simple and efficient video representation, HNeRV also shows decoding advantages for speed, flexibility, and deployment, compared to traditional codecs~(H.264, H.265) and learning-based compression methods. Finally, we explore the effectiveness of HNeRV on downstream tasks such as video compression and video inpainting. We provide project page at https://haochen-rye.github.io/HNeRV, and Code at https://github.com/haochen-rye/HNeRV | 翻訳日:2023-04-06 11:47:15 公開日:2023-04-05 |
# 歴史的森林バイオマスのパセルにおけるストック・チェンジ評価から景観スケールへのマッピング Mapping historical forest biomass for stock-change assessments at parcel to landscape scales ( http://arxiv.org/abs/2304.02632v1 ) ライセンス: Link先を確認 | Lucas K. Johnson, Michael J. Mahoney, Madeleine L. Desrochers, Colin M. Beier | (参考訳) 歴史的森林動態、特に森林バイオマスと炭素ストックの変化を理解することは、現在の森林気候の利点を評価し、様々な政策、規制、管理シナリオの下で将来の利益を予測するために重要になっている。
国家の森林目録にのみ基づく炭素会計の枠組みは、広範囲な推定に制限されているが、これらの在庫とリモートセンシングされたデータを組み合わせたモデルに基づくアプローチは、森林バイオマスと炭素ストックの経年変化の連続した詳細な詳細な地図を生成することができる。
ここでは,1990年から2019年にかけてのニューヨーク全州(米国)における歴史的森林バイオマスの詳細な時間的・空間的解像度(年30m)を,自由に利用可能なデータとオープンソースツールを用いてマッピングする。
ランドサット画像,US Forest Service Forest Inventory and Analysis (FIA)データ,および市販のLiDARコレクションを用いて,歴史的森林の地上バイオマス(AGB)をマッピングするための3つのモデリング手法を開発した。
モデル予測面(maps)はfiaの予測に対して複数のスケールでテストされた。
3つのアプローチはいずれも実行可能な出力を生成するが、モデルの複雑さ、マップの精度、飽和度、パターンの微細化といった点でトレードオフは明らかであった。
その結果得られた地図製品は、人為的および自然的ドライバーの両方の結果、森林の炭素ストックがどこで、いつ、どのように変化しているかを特定するのに役立つ。
これらの製品は、ストックチェンジアセスメント、レポートと検証フレームワークの監視、改善された管理プログラムの保護や登録のためのパーセルの優先順位付けなど、幅広いアプリケーションへのインプットとして機能する。 Understanding historical forest dynamics, specifically changes in forest biomass and carbon stocks, has become critical for assessing current forest climate benefits and projecting future benefits under various policy, regulatory, and stewardship scenarios. Carbon accounting frameworks based exclusively on national forest inventories are limited to broad-scale estimates, but model-based approaches that combine these inventories with remotely sensed data can yield contiguous fine-resolution maps of forest biomass and carbon stocks across landscapes over time. Here we describe a fundamental step in building a map-based stock-change framework: mapping historical forest biomass at fine temporal and spatial resolution (annual, 30m) across all of New York State (USA) from 1990 to 2019, using freely available data and open-source tools. Using Landsat imagery, US Forest Service Forest Inventory and Analysis (FIA) data, and off-the-shelf LiDAR collections we developed three modeling approaches for mapping historical forest aboveground biomass (AGB): training on FIA plot-level AGB estimates (direct), training on LiDAR-derived AGB maps (indirect), and an ensemble averaging predictions from the direct and indirect models. Model prediction surfaces (maps) were tested against FIA estimates at multiple scales. All three approaches produced viable outputs, yet tradeoffs were evident in terms of model complexity, map accuracy, saturation, and fine-scale pattern representation. The resulting map products can help identify where, when, and how forest carbon stocks are changing as a result of both anthropogenic and natural drivers alike. These products can thus serve as inputs to a wide range of applications including stock-change assessments, monitoring reporting and verification frameworks, and prioritizing parcels for protection or enrollment in improved management programs. | 翻訳日:2023-04-06 11:46:40 公開日:2023-04-05 |
# 深部画像認識モデルにおける学習等価性の影響 What Affects Learned Equivariance in Deep Image Recognition Models? ( http://arxiv.org/abs/2304.02628v1 ) ライセンス: Link先を確認 | Robert-Jan Bruintjes, Tomasz Motyka, Jan van Gemert | (参考訳) ニューラルネットワークにおける等分散 w.r.t. 幾何変換は、領域外視点シフトに対するデータ効率、パラメータ効率、堅牢性を改善する。
等価性がニューラルネットワークに設計されていない場合、ネットワークはデータから同変関数を学習することができる。
我々は、この学習された等分散を、改良された等分散尺度を提案することによって定量化する。
ImageNet上で,学習した翻訳の等価性と検証精度の相関関係を示す。
そこで,ニューラルネットワークにおける学習等価性を増加させる要因について検討し,畳み込みの形でのデータ拡張,モデル容量の低減,帰納的バイアスがニューラルネットワークの学習等価性を高めることを見出した。 Equivariance w.r.t. geometric transformations in neural networks improves data efficiency, parameter efficiency and robustness to out-of-domain perspective shifts. When equivariance is not designed into a neural network, the network can still learn equivariant functions from the data. We quantify this learned equivariance, by proposing an improved measure for equivariance. We find evidence for a correlation between learned translation equivariance and validation accuracy on ImageNet. We therefore investigate what can increase the learned equivariance in neural networks, and find that data augmentation, reduced model capacity and inductive bias in the form of convolutions induce higher learned equivariance in neural networks. | 翻訳日:2023-04-06 11:46:05 公開日:2023-04-05 |
# 動的点場 Dynamic Point Fields ( http://arxiv.org/abs/2304.02626v1 ) ライセンス: Link先を確認 | Sergey Prokudin, Qianli Ma, Maxime Raafat, Julien Valentin, Siyu Tang | (参考訳) 近年,神経表面再建の分野において有意な進歩が見られた。
ボリュームと暗黙のアプローチに焦点が当てられたが、ポイントクラウドのような明示的なグラフィクスプリミティブは、再構成された表面品質を犠牲にすることなく、計算の複雑さを著しく低減できることを示した。
しかし、ポイントプリミティブを持つ動的曲面のモデリングにはあまり重点を置いていない。
本研究では,非剛性3次元曲面の効率的なモデリングを可能にするために,明示的ポイントベースグラフィックスと暗黙的変形ネットワークの表現的利点を組み合わせた動的点場モデルを提案する。
明示的なサーフェスプリミティブを使用することで、isometric-as-possible regularizationのような確立された制約を簡単に取り入れることができる。
完全教師なし学習では,この変形モデル学習は局所最適であるが,キーポイントダイナミクスなどの意味情報を付加的に活用して変形学習を指導することを提案する。
我々は,3Dスキャンのコレクションから,表現力のあるアニマタブルな人体アバターを作成する例を用いて,我々のモデルを実証した。
ここでは、従来の手法は主に、長いスカートのような複雑な布の外観を扱う際に、そのようなモデルの表現性を根本的に制限する線形ブレンドスキンのパラダイムの変種に依存する。
本稿では,その表現力,学習効率,分散的新規ポーズに対するロバスト性の観点から,動的ポイントフィールドフレームワークの利点を示す。 Recent years have witnessed significant progress in the field of neural surface reconstruction. While the extensive focus was put on volumetric and implicit approaches, a number of works have shown that explicit graphics primitives such as point clouds can significantly reduce computational complexity, without sacrificing the reconstructed surface quality. However, less emphasis has been put on modeling dynamic surfaces with point primitives. In this work, we present a dynamic point field model that combines the representational benefits of explicit point-based graphics with implicit deformation networks to allow efficient modeling of non-rigid 3D surfaces. Using explicit surface primitives also allows us to easily incorporate well-established constraints such as-isometric-as-possible regularisation. While learning this deformation model is prone to local optima when trained in a fully unsupervised manner, we propose to additionally leverage semantic information such as keypoint dynamics to guide the deformation learning. We demonstrate our model with an example application of creating an expressive animatable human avatar from a collection of 3D scans. Here, previous methods mostly rely on variants of the linear blend skinning paradigm, which fundamentally limits the expressivity of such models when dealing with complex cloth appearances such as long skirts. We show the advantages of our dynamic point field framework in terms of its representational power, learning efficiency, and robustness to out-of-distribution novel poses. | 翻訳日:2023-04-06 11:45:54 公開日:2023-04-05 |
# 非ネイティブ英語話者のための説明可能なAI記述アシスタントを目指して Towards Explainable AI Writing Assistants for Non-native English Speakers ( http://arxiv.org/abs/2304.02625v1 ) ライセンス: Link先を確認 | Yewon Kim, Mina Lee, Donghwi Kim, Sung-Ju Lee | (参考訳) テキストの言い換えにaiライティングアシスタントを使用する場合,非ネイティブ話者が直面する課題を強調する。
英語能力の異なる15人の非ネイティブ英語話者(NNESs)とのインタビュー研究を通じて、提案するパラフレーズに付随する説明が欠如していることから、AI文字アシスタントが生成したパラフレーズテキストを評価するのに困難に直面していることが明らかとなった。
さらに,このような説明がない場合にAI生成テキストを評価するための戦略を検討する。
インタビューで特定されたNNESのニーズに基づき、AI記述アシスタントを用いたNNESの書き込み体験を高めるための4つの潜在的なユーザインタフェースを提案する。
提案した設計は、AI生成のパラフレーズ提案の理解と評価において、NNESをより支援するための説明を取り入れることに焦点を当てている。 We highlight the challenges faced by non-native speakers when using AI writing assistants to paraphrase text. Through an interview study with 15 non-native English speakers (NNESs) with varying levels of English proficiency, we observe that they face difficulties in assessing paraphrased texts generated by AI writing assistants, largely due to the lack of explanations accompanying the suggested paraphrases. Furthermore, we examine their strategies to assess AI-generated texts in the absence of such explanations. Drawing on the needs of NNESs identified in our interview, we propose four potential user interfaces to enhance the writing experience of NNESs using AI writing assistants. The proposed designs focus on incorporating explanations to better support NNESs in understanding and evaluating the AI-generated paraphrasing suggestions. | 翻訳日:2023-04-06 11:45:30 公開日:2023-04-05 |