このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230310となっている論文です。

PDF登録状況(公開日: 20230310)

TitleAuthorsAbstract論文公表日・翻訳日
# 分散化を犠牲にすることなく、ユーザにより知性を持たせる?

Watch the Gap: Making code more intelligible to users without sacrificing decentralization? ( http://arxiv.org/abs/2304.04749v1 )

ライセンス: Link先を確認
Simona Ramos and Morshed Mannan(参考訳) ブロックチェーン技術が中間者を排除し、トップダウンの階層型ガバナンスモデルを分散協調システムに置き換える可能性によって、多くの新たな機会とジレンマが開かれている。 初期のit採用者による受け入れレベルを上回って、スマートコントラクトの市場は、通常の(非技術)ユーザから広く受け入れられるようになった。 しかし、これが起こるためには、スマートコントラクト開発は、コードとユーザを近づけるために、特定の技術的および法的障害を克服する必要があります。 契約法や消費者保護の概念に導かれ、ユーザーと法執行機関とソースコードの間に存在する情報ギャップを強調する。 我々は、このギャップを埋めることを目的として、規制の受け入れを高める可能性を約束するローコードからノーコードへの取り組みのスペクトルを提示する。 それでもこれは、情報ギャップに対する解決策がシステムをより集中的にする傾向があるため、いわゆる「信頼できない夢の落とし穴」を強調している。 本稿では,ユーザとコードをより近づける進化するプラクティスを分析し,スマートコントラクトの広範導入と法的受容に関連性のある実践的な貢献をすることを目的とする。

The potential for blockchain technology to eliminate the middleman and replace the top down hierarchical model of governance with a system of distributed cooperation has opened up many new opportunities, as well as dilemmas. Surpassing the level of acceptance by early tech adopters, the market of smart contracts is now moving towards wider acceptance from regular (non tech) users. For this to happen however, smart contract development will have to overcome certain technical and legal obstacles to bring the code and the user closer. Guided by notions from contract law and consumer protection we highlight the information gap that exists between users, legal bodies and the source code. We present a spectrum of low-code to no-code initiatives that aim at bridging this gap, promising the potential of higher regulatory acceptance. Nevertheless, this highlights the so called "Pitfall of the Trustless Dream", because arguably solutions to the information gap tend to make the system more centralized. In this article, we aim to make a practical contribution of relevance to the wide-spread adoption of smart contracts and their legal acceptance by analyzing the evolving practices that bring the user and the code closer.
翻訳日:2023-04-16 22:24:42 公開日:2023-03-10
# 学生執筆におけるAI生成テキストの探索 - AIはどのように役立つのか?

Exploring AI-Generated Text in Student Writing: How Does AI Help? ( http://arxiv.org/abs/2304.02478v1 )

ライセンス: Link先を確認
David James Woo (1), Hengky Susanto (2), Chi Ho Yeung (2), Kai Guo (3), and (4) April Ka Yeng Fung ((1) Precious Blood Secondary School, Hong Kong, (2) Department of Science and Environmental Studies, The Education University of Hong Kong, Hong Kong, (3) Faculty of Education, The University of Hong Kong, Hong Kong, and (4) Hoi Ping Chamber of Commerce Secondary School, Hong Kong)(参考訳) 外国語_EFL_studentsによる人工知能_AI_natural言語生成_NLG_toolsからのテキストの使用は、文字の品質を向上させる可能性がある。 しかし、これらの学生の執筆におけるAI生成テキストが高品質な執筆につながるかどうかは不明である。 香港の高校生23名を対象に,自語とAI生成テキストからなる物語の執筆を試みた。 人間の専門家は、コンテンツ、言語、組織の大きさでストーリーを決めました。 ストーリーのai生成テキストの基本構造と構造,構文複雑性を分析し,線形回帰とクラスタ分析を行った。 その結果、人間の単語の数とAI生成語数は、スコアに大きく寄与することがわかった。 さらに、学生は、AIが生成するテキストまたはAIが生成するテキストを仲間よりも少ないテキストを使用する、有能で能力の低いライターにグループ化することができる。 クラスタの比較により,高評価の学生と低評価の学生の文章の質を向上させる上で,AI生成テキストの利点が示された。 この発見は、EFL学生の執筆にAI生成テキストを使用し、デジタル分割に対処するための教育戦略を通知することができる。 本研究は,NLGツールの設計や,学校におけるAI生成テキストの実装活動に貢献する。

English as foreign language_EFL_students' use of text generated from artificial intelligence_AI_natural language generation_NLG_tools may improve their writing quality. However, it remains unclear to what extent AI-generated text in these students' writing might lead to higher-quality writing. We explored 23 Hong Kong secondary school students' attempts to write stories comprising their own words and AI-generated text. Human experts scored the stories for dimensions of content, language and organization. We analyzed the basic organization and structure and syntactic complexity of the stories' AI-generated text and performed multiple linear regression and cluster analyses. The results show the number of human words and the number of AI-generated words contribute significantly to scores. Besides, students can be grouped into competent and less competent writers who use more AI-generated text or less AI-generated text compared to their peers. Comparisons of clusters reveal some benefit of AI-generated text in improving the quality of both high-scoring students' and low-scoring students' writing. The findings can inform pedagogical strategies to use AI-generated text for EFL students' writing and to address digital divides. This study contributes designs of NLG tools and writing activities to implement AI-generated text in schools.
翻訳日:2023-04-09 05:24:42 公開日:2023-03-10
# 安全なテスト

Safe Testing ( http://arxiv.org/abs/1906.07801v5 )

ライセンス: Link先を確認
Peter Gr\"unwald, Rianne de Heide, and Wouter Koolen(参考訳) 仮説検定の理論をe値に基づいて展開し,p値と異なり,新たな研究を行う決定が過去の結果に依存するという共通シナリオにおいて,複数の研究から得られた成果を無益に結合できる証拠の概念を考案する。 e値に基づくテストは安全、すなわち、そのような任意の継続の下でType-Iエラーを保証する。 成長速度最適性 (gro) を任意の継続文脈におけるパワーの類似として定義し, 複合ヌルおよび代替テスト問題に対するgro e-変数の構成法を示し, ニュアサンスパラメータを持つモデルを強調する。 GRO e-values は特別な前兆を持つベイズ因子の形式をとる。 一つのサンプルセーフt検定と2 x 2検定表を含む古典的な例を用いてこの理論を説明する。 フィッシャー学派、ネイマン学派、ジェフリーズ・ベイズ学派の解釈を共有することで、e-valuesは3つの流派の支持者に受け入れられる方法論を提供することができる。

We develop the theory of hypothesis testing based on the e-value, a notion of evidence that, unlike the p-value, allows for effortlessly combining results from several studies in the common scenario where the decision to perform a new study may depend on previous outcomes. Tests based on e-values are safe, i.e. they preserve Type-I error guarantees, under such optional continuation. We define growth-rate optimality (GRO) as an analogue of power in an optional continuation context, and we show how to construct GRO e-variables for general testing problems with composite null and alternative, emphasizing models with nuisance parameters. GRO e-values take the form of Bayes factors with special priors. We illustrate the theory using several classic examples including a one-sample safe t-test and the 2 x 2 contingency table. Sharing Fisherian, Neymanian and Jeffreys-Bayesian interpretations, e-values may provide a methodology acceptable to adherents of all three schools.
翻訳日:2023-03-31 18:55:10 公開日:2023-03-10
# 投影進化と量子時空

Projection evolution and quantum spacetime ( http://arxiv.org/abs/1910.11198v3 )

ライセンス: Link先を確認
Andrzej G\'o\'zd\'z, Marek G\'o\'zd\'z, Aleksandra P\k{e}drak(参考訳) 量子力学における時間の問題について議論する。 伝統的な定式化時間では、モデルは可観測性ではなく a~パラメータとして入力される。 我々のモデルでは、時間は他の量子量として観測可能な量子であり、時空位置演算子の成分でもある。 この場合、単位時間発展の代わりに、初期状態の空間を進化の各段階における最終状態の空間にマッピングする他の作用素、通常射影あるいはPOVM演算子を用いることができる。 量子進化そのものは確率過程である。 これは宇宙論におけるいくつかの量子パラドックスと時間問題を解く上で非常に重要な特徴である。 許容状態の特殊集合としての量子時空の構成という考え方が提示される。 構造を持たない量子ミンコフスキーのような時空の例も考えられる。 本稿では, 従来のシュレーディンガー進化と相対論的方程式が, 平坦な非構造時空においてどのように得られるかを示す。 本研究では,空間位置や空間モーメント観測量と同じ不等式に基づいて,エネルギー時間不確実性関係を満たす時間演算子の形式を提案する。 4モーメント作用素の時間成分の符号は時空における時間の基本矢印を定義する。

We discuss the problem of time in quantum mechanics. In the traditional formulation time enters the model as a~parameter, not an observable. In our model time is a quantum observable as any other quantum quantity and it is also a component of the spacetime position operator. In this case, instead of the unitary time evolution, other operators, usually projection or POVM operators which map the space of initial states into the space of final states at each step of the evolution can be used. The quantum evolution itself is a stochastic process. This allows to treat time as a quantum observable in a consistent, observer independent way, which is a very important feature to resolve some quantum paradoxes and the time problem in cosmology. An idea of construction of a quantum spacetime as a special set of the allowed states is presented. An example of a structureless quantum Minkowski-like spacetime is also considered. We present the projection evolution model and show how the traditional Schroedinger evolution and relativistic equations can be obtained from it, in the flat structureless spacetime. We propose the form of the time operator which satisfies the energy-time uncertainty relation based on the same inequality as the space position and spatial momenta observables. The sign of the temporal component of the four-momentum operator defines the basic arrow of time in spacetime.
翻訳日:2023-03-26 04:33:03 公開日:2023-03-10
# 無信号原理による量子削除の限界

Limits on quantum deletion from no signaling principle ( http://arxiv.org/abs/1705.07013v2 )

ライセンス: Link先を確認
Aditya Jain and Indranil Chakrabarty(参考訳) 量子力学が課す基本的な制約の1つは「削除定理なし」であり、2つの同じ未知の量子状態が与えられた場合、そのうちの1つを削除することは不可能である。 しかし、完璧ではないにしても、人々はそれをほぼ削除しようとした。 この近似削除プロセスにおいて、私たちの基本的な目標は、2つの同一のコピーのうちの1つを可能な限り削除し、他のコピーを保存することです。 この短い報告では、no communication theorem (nct) (量子リソースを用いた光より速く信号を送ることの不可能性) を指導原理として用いることにより、削除の忠実性と保存の忠実さの合計を求める。 本結果は,これら2つの忠実度間の相補関係を導出するだけでなく,信号の制約のない保存の忠実度に対して達成可能な削除の忠実度の最適値も予測する。 この研究は最終的に、NCTフレームワーク内での削除の最適値の探索を飽和させる。

One of the fundamental restrictions that quantum mechanics imposes is the "No deletion Theorem" which tells us that given two identical unknown quantum states, it is impossible to delete one of them. But nevertheless if not perfect, people have tried to delete it approximately. In these approximate deleting processes our basic target is to delete one of the two identical copies as much as possible while preserving the other copy. In this brief report, by using the No communication theorem (NCT) (impossibility of sending signal faster than light using a quantum resource) as a guiding principle, we obtain a bound on the sum of the fidelity of deletion and the fidelity of preservation. Our result not only brings out the complementary relation between these two fidelities but also predicts the optimal value of the fidelity of deletion achievable for a given fidelity of preservation under no signaling constraint. This work eventually saturates the quest for finding out the optimal value of deletion within the NCT framework.
翻訳日:2023-03-26 04:32:14 公開日:2023-03-10
# 量子周縁、顔、そしてコ原子

Quantum marginals, faces, and coatoms ( http://arxiv.org/abs/2103.08360v2 )

ライセンス: Link先を確認
Stephan Weis, Jo\~ao Gouveia(参考訳) 量子情報理論の多くの問題は量子境界の集合に依存する。 この凸集合の顔の正確な知識は、例えば、その辺からの状態の再構築や多体系の複雑性測度の評価において必要である。 しかし、わずか3キュービットの2体辺も部分的にしか記述されていない。 本稿では,量子辺縁の凸集合の露出面の格子内のコ原子を探索する実験手法を提案する。 この方法は双対スペクトルの極端点からのサンプリングに基づいている。 局所ハミルトニアンのグラウンドプロジェクタを用いて,正しさの代数的証明を提供する。 この方法を用いて、2つの局所3ビットハミルトニアンの接地プロジェクターの格子にランク5の商族を明示する(ランクは常にビットに対して6である)。 この族は、3つのキュービットの2体辺縁の凸集合の露出面の格子にコノムの族を記述する。 実験手法の導入に加えて、その因子の確率分布の支持集合が可換設定におけるフラストレーションフリーハミルトニアンの基底射影であることを示す。 限界集合の非露出点についても論じる。

Many problems of quantum information theory rely on the set of quantum marginals. A precise knowledge of the faces of this convex set is necessary, for example, in the reconstruction of states from their marginals or in the evaluation of complexity measures of many-body systems. Yet, even the two-body marginals of just three qubits were only described in part. Here, we propose an experimental method to search for the coatoms in the lattice of exposed faces of the convex set of quantum marginals. The method is based on sampling from the extreme points of the dual spectrahedron. We provide an algebraic certificate of correctness, employing ground projectors of local Hamiltonians. Using this method, we present an explicit family of coatoms of rank five in the lattice of ground projectors of two-local three-qubit Hamiltonians (the rank is always six for bits). This family describes a family of coatoms in the lattice of exposed faces of the convex set of two-body marginals of three qubits. Besides introducing the experimental method, we show that the support sets of probability distributions that factor are the ground projectors of frustration-free Hamiltonians in the commutative setting. We also discuss nonexposed points of the set of marginals.
翻訳日:2023-03-26 04:26:52 公開日:2023-03-10
# 軌道の量子重ね合わせにおけるunruh-dewitt検出器

Unruh-deWitt detectors in quantum superpositions of trajectories ( http://arxiv.org/abs/2003.12774v5 )

ライセンス: Link先を確認
Joshua Foo, Sho Onoe and Magdalena Zych(参考訳) unruh-dewitt検出器は、量子粒子、絡み合い、時空曲率のプローブとして広く利用されている。 ここでは、無質量スカラー場と相互作用するUnruh-deWitt検出器の標準処理を拡張し、古典的軌道の量子重ね合わせに検出器の移動を含む。 検出器の最終状態に対する摂動式を導出し、個々の軌道に沿って局所的に評価された場相関関数と、重畳された軌道間の非局所的に依存することを示す。 均一に加速された2つの軌道を重畳して移動する検出器に我々の一般的なアプローチを適用することで、発光スペクトルと吸収スペクトルに新しい干渉効果が発見された。 これらの効果は、重畳された軌道間の因果関係にさかのぼることができる。 最後に、重ね合わせの経路が個別に同じ熱状態を生成する場合でも、一般にそのような検出器は熱化しないことを示す。

Unruh-deWitt detectors have been utilised widely as probes for quantum particles, entanglement and spacetime curvature. Here, we extend the standard treatment of an Unruh-deWitt detector interacting with a massless, scalar field to include the detector travelling in a quantum superposition of classical trajectories. We derive perturbative expressions for the final state of the detector, and show that it depends on field correlation functions evaluated locally along the individual trajectories, as well as non-locally between the superposed trajectories. By applying our general approach to a detector travelling in a superposition of two uniformly accelerated trajectories, including those with equal and differing proper accelerations, we discover novel interference effects in the emission and absorption spectra. These effects can be traced to causal relations between the superposed trajectories. Finally, we show that in general, such a detector does not thermalise even if the superposed paths would individually yield the same thermal state.
翻訳日:2023-03-26 04:26:07 公開日:2023-03-10
# 小児における虹彩認識の経時的パフォーマンス : 最大6年間の経時的変化

Longitudinal Performance of Iris Recognition in Children: Time Intervals up to Six years ( http://arxiv.org/abs/2303.12720v1 )

ライセンス: Link先を確認
Priyanka Das, Naveen G Venkataswamy, Laura Holsopple, Masudul H Imtiaz, Michael Schuckers and Stephanie Schuckers(参考訳) iris認識性能の時間的安定性は、バイオメトリックモダリティとしての成功の中核である。 子どものアイリス認識能力の時間的安定性に関する知識基盤のギャップは,子どもの応用の地平線が拡大するにつれて,世界規模での意思決定に影響を及ぼしている。 本報告は,4歳から17歳までの6.5年間に同一児230名のデータを用いた小児における縦断的虹彩認識能力の最も広範な分析である。 一致スコアの評価,変動因子の統計的モデリング,および偽拒絶の根本原因の詳細な評価は,加齢による虹彩認識性能に影響を与えない。

The temporal stability of iris recognition performance is core to its success as a biometric modality. With the expanding horizon of applications for children, gaps in the knowledge base on the temporal stability of iris recognition performance in children have impacted decision-making during applications at the global scale. This report presents the most extensive analysis of longitudinal iris recognition performance in children with data from the same 230 children over 6.5 years between enrollment and query for ages 4 to 17 years. Assessment of match scores, statistical modelling of variability factors impacting match scores and in-depth assessment of the root causes of the false rejections concludes no impact on iris recognition performance due to aging.
翻訳日:2023-03-26 04:18:11 公開日:2023-03-10
# 機械学習による心電図信号を用いた心血管疾患の検出:パフォーマンスと複雑性

Machine learning-based detection of cardiovascular disease using ECG signals: performance vs. complexity ( http://arxiv.org/abs/2303.11429v1 )

ライセンス: Link先を確認
Huy Pham, Konstantin Egorov, Alexey Kazakov and Semen Budennyy(参考訳) 心血管疾患は現代社会において重要な問題である。 非侵襲的手法の中で、心電図(ECG)は心臓活動の異常を検出する最も信頼性の高い方法の1つである。 しかし、ECGの解釈には専門家の知識が必要であり、時間を要する。 早期に疾患を検出する新しい方法の開発は、死と合併症を防ぐ可能性がある。 心電図記録から心疾患を分類するための新しいアプローチを提案する。 第1のアプローチは、心電図信号と深層学習に基づく画像分類器(ResNet50とDenseNet121)のポインケア表現を、心房細動(心房細動)を予測するのに十分な性能を示した。 勾配ブースティングモデルであるxgboostは、長期データで許容できる性能を示したが、前処理フェーズで高い消費率の計算により推論時間が長かった。 最後に、1d畳み込みモデル、特に1d resnetは、cinc 2017とcinc 2020のデータセットの研究において、それぞれ85%と71%のf1スコアに達し、各チャレンジの1次ソリューションよりも優れた結果を示した。 また,1次元CNNや1次元ResNetなどの1次元モデルが最もエネルギー効率が高いため,消費電力やCO2排出量に相当する効率指標についても検討した。 モデル解析の結果,DenseNetは心拍変動を用いてAFを検出,一方1DResNetは生ECG信号のAFパターンを評価した。

Cardiovascular disease remains a significant problem in modern society. Among non-invasive techniques, the electrocardiogram (ECG) is one of the most reliable methods for detecting abnormalities in cardiac activities. However, ECG interpretation requires expert knowledge and it is time-consuming. Developing a novel method to detect the disease early could prevent death and complication. The paper presents novel various approaches for classifying cardiac diseases from ECG recordings. The first approach suggests the Poincare representation of ECG signal and deep-learning-based image classifiers (ResNet50 and DenseNet121 were learned over Poincare diagrams), which showed decent performance in predicting AF (atrial fibrillation) but not other types of arrhythmia. XGBoost, a gradient-boosting model, showed an acceptable performance in long-term data but had a long inference time due to highly-consuming calculation within the pre-processing phase. Finally, the 1D convolutional model, specifically the 1D ResNet, showed the best results in both studied CinC 2017 and CinC 2020 datasets, reaching the F1 score of 85% and 71%, respectively, and that was superior to the first-ranking solution of each challenge. The paper also investigated efficiency metrics such as power consumption and equivalent CO2 emissions, with one-dimensional models like 1D CNN and 1D ResNet being the most energy efficient. Model interpretation analysis showed that the DenseNet detected AF using heart rate variability while the 1DResNet assessed AF pattern in raw ECG signals.
翻訳日:2023-03-26 04:17:47 公開日:2023-03-10
# CMAの進化戦略 - チュートリアル

The CMA Evolution Strategy: A Tutorial ( http://arxiv.org/abs/1604.00772v2 )

ライセンス: Link先を確認
Nikolaus Hansen (TAO)(参考訳) このチュートリアルではCMA Evolution Strategy (ES)を紹介し、CMAはCovariance Matrix Adaptationの略である。 CMA-ESは、非線形、非凸関数の実パラメータ(連続領域)最適化のための確率的、あるいはランダム化手法である。 我々は,直観的概念と連続領域における非線形,非凸探索の要件からアルゴリズムを動機付け,導出しようとする。

This tutorial introduces the CMA Evolution Strategy (ES), where CMA stands for Covariance Matrix Adaptation. The CMA-ES is a stochastic, or randomized, method for real-parameter (continuous domain) optimization of non-linear, non-convex functions. We try to motivate and derive the algorithm from intuitive concepts and from requirements of non-linear, non-convex search in continuous domain.
翻訳日:2023-03-25 04:58:20 公開日:2023-03-10
# rawnet: エンドツーエンドの高速ニューラルネットワークボコーダ

RawNet: Fast End-to-End Neural Vocoder ( http://arxiv.org/abs/1904.05351v2 )

ライセンス: Link先を確認
Yunchao He, Yujun Wang(参考訳) ニューラルネットワークベースのボコーダは、最近、高品質な音声を合成する強力な能力を示した。 これらのモデルは通常、メルスペクトログラムや基本周波数といった音声合成に不可欠なスペクトル特徴を条件付けしてサンプルを生成する。 しかし、特徴抽出行列は人間の知識に大きく依存する傾向があるため、オリジナル音声の表現力の低い記述となる。 本研究では,話者依存および非依存音声合成のためのオートエンコーダ構造に従う,完全エンドツーエンドのニューラルボコーダであるrawnetを提案する。 入力されたオーディオのより高い表現をキャプチャするコーダネットワークと、サンプルバイサンプル方式でオーディオを復元する自動回帰ボイダネットワークを含む。 コーダーとボーダーは、人間が設計した特徴を伴わずに、生の波形で直接訓練される。 実験の結果, rawnetは簡易化モデルを用いた音声品質の向上を実現し, 推定段階での音声生成速度を高速化した。

Neural network-based vocoders have recently demonstrated the powerful ability to synthesize high-quality speech. These models usually generate samples by conditioning on spectral features, such as Mel-spectrogram and fundamental frequency, which is crucial to speech synthesis. However, the feature extraction procession tends to depend heavily on human knowledge resulting in a less expressive description of the origin audio. In this work, we proposed RawNet, a complete end-to-end neural vocoder following the auto-encoder structure for speaker-dependent and -independent speech synthesis. It automatically learns to extract features and recover audio using neural networks, which include a coder network to capture a higher representation of the input audio and an autoregressive voder network to restore the audio in a sample-by-sample manner. The coder and voder are jointly trained directly on the raw waveform without any human-designed features. The experimental results show that RawNet achieves a better speech quality using a simplified model architecture and obtains a faster speech generation speed at the inference stage.
翻訳日:2023-03-25 04:41:56 公開日:2023-03-10
# DDPNAS:動的分散解析による効率的なニューラルネットワーク探索

DDPNAS: Efficient Neural Architecture Search via Dynamic Distribution Pruning ( http://arxiv.org/abs/1905.13543v3 )

ライセンス: Link先を確認
Xiawu Zheng, Chenyi Yang, Shaokun Zhang, Yan Wang, Baochang Zhang, Yongjian Wu, Yunsheng Wu, Ling Shao, Rongrong Ji(参考訳) neural architecture search (nas) は様々なコンピュータビジョンタスクで最先端のパフォーマンスを示している。 性能が優れているにもかかわらず、既存の手法の効率性と一般化は高い計算複雑性と低い一般性のために高く評価されている。 本稿では,DDPNASと呼ばれる効率よく統一されたNASフレームワークを提案する。 特に、我々はまずジョイント・カテゴリカル分布からアーキテクチャをサンプル化した。 そして、探索空間を動的に刈り取り、その分布を数エポック毎に更新する。 提案する効率的なネットワーク生成手法により、与えられた制約に基づいて最適なニューラルネットワークアーキテクチャを直接獲得し、様々な検索空間と制約をまたいだデバイス上でのモデルに適用する。 提案手法で検索したアーキテクチャは,CIFAR-10では97.56,ImageNet(モバイル設定)で77.2,Tesla V100では1.8GPU時間という最速の検索処理を実現している。 検索とネットワーク生成のコードは、https://openi.pcl.ac.cn/PCL AutoML/XNASで利用可能である。

Neural Architecture Search (NAS) has demonstrated state-of-the-art performance on various computer vision tasks. Despite the superior performance achieved, the efficiency and generality of existing methods are highly valued due to their high computational complexity and low generality. In this paper, we propose an efficient and unified NAS framework termed DDPNAS via dynamic distribution pruning, facilitating a theoretical bound on accuracy and efficiency. In particular, we first sample architectures from a joint categorical distribution. Then the search space is dynamically pruned and its distribution is updated every few epochs. With the proposed efficient network generation method, we directly obtain the optimal neural architectures on given constraints, which is practical for on-device models across diverse search spaces and constraints. The architectures searched by our method achieve remarkable top-1 accuracies, 97.56 and 77.2 on CIFAR-10 and ImageNet (mobile settings), respectively, with the fastest search process, i.e., only 1.8 GPU hours on a Tesla V100. Codes for searching and network generation are available at: https://openi.pcl.ac.cn/PCL AutoML/XNAS.
翻訳日:2023-03-25 04:31:57 公開日:2023-03-10
# 遅延パラメータチューニングと制御: パワーロー分布からすべてのパラメータをランダムに選択する

Lazy Parameter Tuning and Control: Choosing All Parameters Randomly From a Power-Law Distribution ( http://arxiv.org/abs/2104.06714v5 )

ライセンス: Link先を確認
Denis Antipov, Maxim Buzdalov, Benjamin Doerr(参考訳) ほとんどの進化的アルゴリズムは複数のパラメータを持ち、その値は性能に大きく影響する。 パラメータの複雑な相互作用のため、特定の問題(パラメータチューニング)に対してこれらの値を正しく設定することは困難な作業である。 このタスクは、アルゴリズムの実行中に最適なパラメータ値が大幅に変化するとさらに複雑になるため、動的パラメータ選択(パラメータ制御)が必要となる。 本研究では,各イテレーションにおけるすべてのパラメータ値(これは理にかなっている)を,適度にスケールされたパワーロー分布からランダムに選択する,遅延だが効果的な解を提案する。 提案手法の有効性を示すために,1+(\lambda,\lambda)$の遺伝的アルゴリズムを,この方法で選択した3つのパラメータすべてを用いて実行時解析する。 このアルゴリズムは、OneMaxやLeadingOnes、Minimum Spanning Treeといった問題に対して、同じ漸近的ランタイムを提供する、1+1$ EAのような単純なヒルクライマーを模倣できることを示す。 一方、このアルゴリズムはジャンプ関数に対して非常に効率的であり、最もよい静的パラメータは単純な問題を最適化するために必要なパラメータとは大きく異なる。 我々は、静的パラメータで知られている最高のパフォーマンスに匹敵するパフォーマンス保証を証明します。 ジャンプサイズ$k$が一定である最も興味深いケースでは、静的パラメータの選択で得られるものよりも、漸近的にパフォーマンスが良いことを証明します。 我々は,漸近的ランタイムの結果が何を示唆しているかを確認する厳密な経験的研究で理論結果を補完する。

Most evolutionary algorithms have multiple parameters and their values drastically affect the performance. Due to the often complicated interplay of the parameters, setting these values right for a particular problem (parameter tuning) is a challenging task. This task becomes even more complicated when the optimal parameter values change significantly during the run of the algorithm since then a dynamic parameter choice (parameter control) is necessary. In this work, we propose a lazy but effective solution, namely choosing all parameter values (where this makes sense) in each iteration randomly from a suitably scaled power-law distribution. To demonstrate the effectiveness of this approach, we perform runtime analyses of the $(1+(\lambda,\lambda))$ genetic algorithm with all three parameters chosen in this manner. We show that this algorithm on the one hand can imitate simple hill-climbers like the $(1+1)$ EA, giving the same asymptotic runtime on problems like OneMax, LeadingOnes, or Minimum Spanning Tree. On the other hand, this algorithm is also very efficient on jump functions, where the best static parameters are very different from those necessary to optimize simple problems. We prove a performance guarantee that is comparable to the best performance known for static parameters. For the most interesting case that the jump size $k$ is constant, we prove that our performance is asymptotically better than what can be obtained with any static parameter choice. We complement our theoretical results with a rigorous empirical study confirming what the asymptotic runtime results suggest.
翻訳日:2023-03-25 03:55:36 公開日:2023-03-10
# 科学書誌における交通情報源としてのChatGPT

ChatGPT as the Transportation Equity Information Source for Scientific Writing ( http://arxiv.org/abs/2303.11158v1 )

ライセンス: Link先を確認
Boniphace Kutela, Shoujia Li, Subasish Das, and Jinli Liu(参考訳) 輸送の公平性は、輸送と社会的インプットの両方を必要とする学際的な議題である。 伝統的に、輸送株式情報は公共図書館、会議、テレビ、ソーシャルメディアなどの情報源である。 ChatGPTのような高度な言語モデルを含む人工知能(AI)ツールは、お気に入りの情報ソースになりつつある。 しかし、その信頼性は十分に調査されていない。 本研究では,ChatGPTが生成する交通情報の内容と有用性について検討した。 Web of Science (WoS)リポジトリから取得した152の論文を利用した。 このプロンプトは、ChatGPTが論文のタイトルの抽象化を提供するために作られた。 その後、ChatGPTベースの抽象文を統計ツールと教師なしテキストマイニングを用いて人間による抽象文と比較した。 その結果,ChatGPTと人文抽象の類似性が弱いことが示唆された。 平均的に、人書き抽象とChatGPT生成抽象は、それぞれ最大で97%、最低で1.4%、約58%類似していた。 平均的類似度スコア以上の論文の要約から得られるキーワードは類似する傾向が強く,平均値以下は類似しない傾向がみられた。 類似度の高いテーマには、アクセス、公共交通機関、ポリシーなどが含まれる。 さらに,高い類似度スコアと低い類似度スコアを示すクラスタのキーパターンの明瞭な差異が観察された。 比較して, 単語のコロケーションによる発見は決定的ではなかった。 この研究は、chatgptが輸送株式情報の源になる可能性を示唆している。 しかし、ChatGPTの素材を利用するには、現在かなりの注意が必要である。

Transportation equity is an interdisciplinary agenda that requires both transportation and social inputs. Traditionally, transportation equity information are sources from public libraries, conferences, televisions, social media, among other. Artificial intelligence (AI) tools including advanced language models such as ChatGPT are becoming favorite information sources. However, their credibility has not been well explored. This study explored the content and usefulness of ChatGPT-generated information related to transportation equity. It utilized 152 papers retrieved through the Web of Science (WoS) repository. The prompt was crafted for ChatGPT to provide an abstract given the title of the paper. The ChatGPT-based abstracts were then compared to human-written abstracts using statistical tools and unsupervised text mining. The results indicate that a weak similarity between ChatGPT and human-written abstracts. On average, the human-written abstracts and ChatGPT generated abstracts were about 58% similar, with a maximum and minimum of 97% and 1.4%, respectively. The keywords from the abstracts of papers with over the mean similarity score were more likely to be similar whereas those from below the average score were less likely to be similar. Themes with high similarity scores include access, public transit, and policy, among others. Further, clear differences in the key pattern of clusters for high and low similarity score abstracts was observed. Contrarily, the findings from collocated keywords were inconclusive. The study findings suggest that ChatGPT has the potential to be a source of transportation equity information. However, currently, a great amount of attention is needed before a user can utilize materials from ChatGPT
翻訳日:2023-03-25 03:36:45 公開日:2023-03-10
# 数学教育におけるコンピュータ支援証明と自動手法

Computer Assisted Proofs and Automated Methods in Mathematics Education ( http://arxiv.org/abs/2303.10166v1 )

ライセンス: Link先を確認
Thierry Noah Dana-Picard (Jerusalem College of Technology)(参考訳) この調査論文は、2022年8月、ハイファ(イスラエル)で行われたThEdu'22ワークショップで招待された基調講演の拡張版である。 CAS, DGS, その他の有用な技術の開発について簡単な紹介を行った後, 数学教育やSTEAM教育の幅広い枠組みにおいて, 意味を示す。 特に,ブラックボックスとしての利用を避けるため,数学教育の探索・発見・回避スキームへの転換について論じる。 この方式はいわゆる「21世紀教育の4C」によく当てはまる。 コミュニケーションとコラボレーションは人間間だけでなく、機械間、人間と機械間でも強調される。 アウトプットの特定の特性は批判的思考の必要性を高める。 探索と発見のための自動コマンドの使用について論じ、それらが存在する制限について言及する。 このトピックは、パラメトリック積分(数学的概念の「認知近傍」を記述する)、平面幾何学、平面曲線(エンベロープ、等視曲線)の研究例で説明する。 例のいくつかは完全に作成され、他の例も説明され、参照が与えられる。

This survey paper is an expanded version of an invited keynote at the ThEdu'22 workshop, August 2022, in Haifa (Israel). After a short introduction on the developments of CAS, DGS and other useful technologies, we show implications in Mathematics Education, and in the broader frame of STEAM Education. In particular, we discuss the transformation of Mathematics Education into exploration-discovery-conjecture-proof scheme, avoiding usage as a black box . This scheme fits well into the so-called 4 C's of 21st Century Education. Communication and Collaboration are emphasized not only between humans, but also between machines, and between man and machine. Specific characteristics of the outputs enhance the need of Critical Thinking. The usage of automated commands for exploration and discovery is discussed, with mention of limitations where they exist. We illustrate the topic with examples from parametric integrals (describing a "cognitive neighborhood" of a mathematical notion), plane geometry, and the study of plane curves (envelopes, isoptic curves). Some of the examples are fully worked out, others are explained and references are given.
翻訳日:2023-03-25 03:36:07 公開日:2023-03-10
# QBithm:量子アルゴリズムにおけるロバストスピン量子ビットのコヒーレント制御に向けて

QBithm: towards the coherent control of robust spin qubits in quantum algorithms ( http://arxiv.org/abs/2303.12655v1 )

ライセンス: Link先を確認
Luis Escalera-Moreno(参考訳) スピン量子ビットが自由進化の下で量子情報を損失する時間スケールを延長する努力は、過去10年間で成功した。 ユーザ主導の進化を必要とするアプリケーションに関して、キュービットは望ましいアルゴリズム内で評価されるべきである。 これは、緩和が活発である間、外部制御下で量子ビットをテストし、アルゴリズムの忠実性を実際のメリットとして最大化することを意味する。 ここでは、緩和対象の1スピン量子ビットアルゴリズムを実行するために考案されたマスター方程式をポーズし、解析的に解く。 これはQBithmというコードで処理され、ゲートシーケンスと緩和レートを入力し、Ab initio計算に費やされた長年の作業と接続する。 緩和や不完全に対するフィダリティを計算し、実験データと定量的に一致した既知のパルスシーケンスを実装する。 この研究が、量子アルゴリズムの緩和と不完全性によって駆動される多量子系の研究を刺激することを期待したい。

Many efforts have succeeded over the last decade at lengthening the timescale in which spin qubits loss quantum information under free evolution. With these design principles, it is now timely to zoom out and take the whole picture: concerning applications that require user-driven evolutions, qubits should be assessed within the desired algorithm. This means to test qubits under external control while relaxation is active, and to maximize the algorithm fidelity as the actual figure of merit. Herein, we pose and analytically solve a master equation devised to run one-spin-qubit algorithms subject to relaxation. It is handled via a code, QBithm, which inputs gate sequences and relaxation rates thus connecting with the longstanding work devoted to their ab initio computation. We calculate fidelities against relaxation and imperfections, and implement well-known pulse sequences quantitatively agreeing with experimental data. Hopefully, this work will stimulate the study of many-qubit systems driven under relaxation and imperfections in quantum algorithms.
翻訳日:2023-03-25 03:18:30 公開日:2023-03-10
# 物体定位と画像分割のための共同ANN-SNN協調学習

Joint ANN-SNN Co-training for Object Localization and Image Segmentation ( http://arxiv.org/abs/2303.12738v1 )

ライセンス: Link先を確認
Marc Baltes, Nidal Abujahar, Ye Yue, Charles D. Smith, Jundong Liu(参考訳) 機械学習の分野は、深層人工知能ニューラルネットワーク(ANN)の進歩と、注釈付きデータの増加によって大きく変化してきた。 スパイキングニューラルネットワーク(SNN)は、最近、その疎性の性質から、ANNの低消費電力代替品として登場した。 本研究では,変換SNNの性能向上を目的とした,新しいハイブリッドANN-SNN協調学習フレームワークを提案する。 我々のアプローチは微調整スキームであり、交互に前向きのトレーニング手順を施す。 オブジェクト検出と画像分割タスクに我々のフレームワークを適用します。 実験は、設計目標を達成するためのアプローチの有効性を示します。

The field of machine learning has been greatly transformed with the advancement of deep artificial neural networks (ANNs) and the increased availability of annotated data. Spiking neural networks (SNNs) have recently emerged as a low-power alternative to ANNs due to their sparsity nature. In this work, we propose a novel hybrid ANN-SNN co-training framework to improve the performance of converted SNNs. Our approach is a fine-tuning scheme, conducted through an alternating, forward-backward training procedure. We apply our framework to object detection and image segmentation tasks. Experiments demonstrate the effectiveness of our approach in achieving the design goals.
翻訳日:2023-03-25 02:48:52 公開日:2023-03-10
# 制御障壁関数の学習可能性制約

Learning Feasibility Constraints for Control Barrier Functions ( http://arxiv.org/abs/2303.09403v1 )

ライセンス: Link先を確認
Wei Xiao and Christos G. Cassandras and Calin A. Belta(参考訳) 制御バリア関数 (CBFs) と制御リャプノフ関数 (CLFs) を用いて, アフィン制御系を所望の状態(状態と制御制約の集合)に安定化させながら二次コストを最適化することにより, 準プログラム(QPs)のシーケンスに還元できることが示されている。 本稿では,高次CBF(HOCBF)が要求される高次制約に対して,これらのQPの実現性を確保するために,機械学習技術を用いる。 そこで本研究では,CBFの新たな実現可能性制約を学習するためのサンプリングベース学習手法を提案し,その制約をQPに追加した別のHOCBFによって実施する。 学習可能制約の精度は再帰的訓練アルゴリズムにより再帰的に向上する。 本研究では,ロボット制御問題や未知環境における自律運転に特化して,制約付き最適制御問題に対する学習手法の利点を示す。

It has been shown that optimizing quadratic costs while stabilizing affine control systems to desired (sets of) states subject to state and control constraints can be reduced to a sequence of Quadratic Programs (QPs) by using Control Barrier Functions (CBFs) and Control Lyapunov Functions (CLFs). In this paper, we employ machine learning techniques to ensure the feasibility of these QPs, which is a challenging problem, especially for high relative degree constraints where High Order CBFs (HOCBFs) are required. To this end, we propose a sampling-based learning approach to learn a new feasibility constraint for CBFs; this constraint is then enforced by another HOCBF added to the QPs. The accuracy of the learned feasibility constraint is recursively improved by a recurrent training algorithm. We demonstrate the advantages of the proposed learning approach to constrained optimal control problems with specific focus on a robot control problem and on autonomous driving in an unknown environment.
翻訳日:2023-03-19 11:30:28 公開日:2023-03-10
# 機械学習を用いた金融取引記述の不正検出

Detection of Abuse in Financial Transaction Descriptions Using Machine Learning ( http://arxiv.org/abs/2303.08016v1 )

ライセンス: Link先を確認
Anna Leontjeva, Genevieve Richards, Kaavya Sriskandaraja, Jessica Perchman, Luiz Pizzato(参考訳) 新支払いプラットフォーム(NPP)に、より長いメッセージを支払い記述として含めるように変更されて以降、人々がコミュニケーションに使用していることが判明し、場合によっては家庭内および家庭内暴力の標的形態として使用されていた。 このタイプのテック支援虐待は、その行為を正すための識別、行動、アプローチに関して新たな課題をもたらす。 オーストラリアのコモンウェルス・バンク・オブ・オーストラリア(CBA)の人工知能研究所(AI Labs)チームは、自然言語処理のためのディープラーニングモデル(NLP)の進歩を利用して、すべてのトランザクションを定期的にスコア付けし、数百万のレコードでリスクの高い不正行為を識別する強力な不正検出システムを開発した。 本稿では,バンキングサービスにおける技術支援的虐待の問題点を概説し,開発モデルとその性能,および運用フレームワークをより広く概説する。

Since introducing changes to the New Payments Platform (NPP) to include longer messages as payment descriptions, it has been identified that people are now using it for communication, and in some cases, the system was being used as a targeted form of domestic and family violence. This type of tech-assisted abuse poses new challenges in terms of identification, actions and approaches to rectify this behaviour. Commonwealth Bank of Australia's Artificial Intelligence Labs team (CBA AI Labs) has developed a new system using advances in deep learning models for natural language processing (NLP) to create a powerful abuse detector that periodically scores all the transactions, and identifies cases of high-risk abuse in millions of records. In this paper, we describe the problem of tech-assisted abuse in the context of banking services, outline the developed model and its performance, and the operating framework more broadly.
翻訳日:2023-03-15 14:27:25 公開日:2023-03-10
# ChatGPTは言語で人間に似ているか?

Does ChatGPT resemble humans in language use? ( http://arxiv.org/abs/2303.08014v1 )

ライセンス: Link先を確認
Zhenguang G. Cai, David A. Haslett, Xufeng Duan, Shuqi Wang, Martin J. Pickering(参考訳) 大規模言語モデル(llms)やchatgptのようなllm駆動のチャットボットは、理解と生成に著しい能力を示している。 しかし、その内部動作は認知的にもブラックボックスのままであり、llmやチャットボットが言語使用において人間的な特徴を発達させることができるかどうかは不明である。 認知科学者は、多くの実験を考案し、人々が言語をどのように処理するかを説明することに大きく進歩しました。 chatgptを事前登録し、1実験あたり1000ランの12実験に適用した。 そのうち10では、ChatGPTは人間の言語使用パターンを再現した。 It associated unfamiliar words with different meanings depending on their forms, continued to access recently encountered meanings of ambiguous words, reused recent sentence structures, reinterpreted implausible sentences that were likely to have been corrupted by noise, glossed over errors, drew reasonable inferences, associated causality with different discourse entities according to verb semantics, and accessed different meanings and retrieved different words depending on the identity of its interlocutor. しかし、人間とは異なり、より情報的な内容を伝えるために短い言葉を使うことは好ましくなく、統語的曖昧さを曖昧にするために文脈を使用しなかった。 これらの収束と分岐がトランスアーキテクチャでどのように起こるかについて議論する。 全体として、これらの実験は、chatgptのようなllm駆動のチャットボットが、人間の言語処理をかなり模倣することができること、そして、人々が言語を学び、使用する方法に関する洞察を提供する可能性があることを示している。

Large language models (LLMs) and LLM-driven chatbots such as ChatGPT have shown remarkable capacities in comprehending and producing language. However, their internal workings remain a black box in cognitive terms, and it is unclear whether LLMs and chatbots can develop humanlike characteristics in language use. Cognitive scientists have devised many experiments that probe, and have made great progress in explaining, how people process language. We subjected ChatGPT to 12 of these experiments, pre-registered and with 1,000 runs per experiment. In 10 of them, ChatGPT replicated the human pattern of language use. It associated unfamiliar words with different meanings depending on their forms, continued to access recently encountered meanings of ambiguous words, reused recent sentence structures, reinterpreted implausible sentences that were likely to have been corrupted by noise, glossed over errors, drew reasonable inferences, associated causality with different discourse entities according to verb semantics, and accessed different meanings and retrieved different words depending on the identity of its interlocutor. However, unlike humans, it did not prefer using shorter words to convey less informative content and it did not use context to disambiguate syntactic ambiguities. We discuss how these convergences and divergences may occur in the transformer architecture. Overall, these experiments demonstrate that LLM-driven chatbots like ChatGPT are capable of mimicking human language processing to a great extent, and that they have the potential to provide insights into how people learn and use language.
翻訳日:2023-03-15 14:27:08 公開日:2023-03-10
# なぜそれが良いフライパンなのか、それとも良いフライパンなのか? --デザイン理解、改善、生成のためのオブジェクトやツールの機能に関する知識表現、デザイン理解、改善、生成

Why is That a Good or Not a Good Frying Pan? -- Knowledge Representation for Functions of Objects and Tools for Design Understanding, Improvement, and Generation for Design Understanding, Improvement, and Generation ( http://arxiv.org/abs/2303.06152v1 )

ライセンス: Link先を確認
Seng-Beng Ho(参考訳) オブジェクトやツールの機能的な側面を理解することは、環境を歩き回り、さまざまなオブジェクトや構造やシステムと対話して、その目標を達成するためのインテリジェントなシステムをサポートする上で、最も重要なことです。 機能に関する詳細な理解は、一方のAIとロボットシステムの操作を強化する設計の改善や、他方の人間の生活を向上させる新しい設計につながる可能性がある。 This paper demonstrates how a particular object - in this case, a frying pan - and its participation in the processes it is designed to support - in this case, the frying process - can be represented in a general function representational language and framework, that can be used to flesh out the processes and functionalities involved, leading to a deep conceptual understanding with explainability of functionalities that allows the system to answer "why" questions - why is something a good frying pan, say, or why a certain part on the frying pan is designed in a certain way? それとも、なぜフライパンが良くないのか? これは、オブジェクト、アーティファクト、ツールの設計の再設計と改善をサポートし、機能的に正確で使い勝手が良く、満足できる新しいデザインを作成する可能性を秘めている。

The understanding of the functional aspects of objects and tools is of paramount importance in supporting an intelligent system in navigating around in the environment and interacting with various objects, structures, and systems, to help fulfil its goals. A detailed understanding of functionalities can also lead to design improvements and novel designs that would enhance the operations of AI and robotic systems on the one hand, and human lives on the other. This paper demonstrates how a particular object - in this case, a frying pan - and its participation in the processes it is designed to support - in this case, the frying process - can be represented in a general function representational language and framework, that can be used to flesh out the processes and functionalities involved, leading to a deep conceptual understanding with explainability of functionalities that allows the system to answer "why" questions - why is something a good frying pan, say, or why a certain part on the frying pan is designed in a certain way? Or, why is something not a good frying pan? This supports the re-design and improvement on design of objects, artifacts, and tools, as well as the potential for generating novel designs that are functionally accurate, usable, and satisfactory.
翻訳日:2023-03-14 20:52:33 公開日:2023-03-10
# DP-Fast MH:大規模ベイズ推定のためのプライベート,高速,高精度メトロポリスハスティング

DP-Fast MH: Private, Fast, and Accurate Metropolis-Hastings for Large-Scale Bayesian Inference ( http://arxiv.org/abs/2303.06171v1 )

ライセンス: Link先を確認
Wanrong Zhang, Ruqi Zhang(参考訳) ベイズ推論は、複雑なデータから学習し、不確実性の下で推論するための原則付きフレームワークを提供する。 医学的診断、薬物設計、政策立案といった機械学習のタスクに広く応用されている。 これらの一般的なアプリケーションでは、データは極めて敏感である。 differential privacy (dp)は、強力な最悪ケースのプライバシー保証を備えたデータ分析ツールを提供し、プライバシ保存データ解析における主要なアプローチとして開発されている。 本稿では,最も基本的なMCMC手法の一つであるMetropolis-Hastings(MH)について,差分プライバシー下での大規模ベイズ推定について検討する。 既存のプライベートmcmcアルゴリズムの多くは、プライバシを得るために精度と効率を犠牲にしているが、ほとんどのイテレーションでデータのミニバッチのみを使用して、初めて正確かつ高速なdp mhアルゴリズムを提供する。 さらに,プライバシ,スケーラビリティ(バッチサイズ),効率性(収束率)の3方向トレードオフを初めて明らかにし,ベイズ推論におけるプライバシが実用性や計算コストに与える影響を理論的に特徴付ける。 我々は,様々な実験において,アルゴリズムの有効性と効率を実証する。

Bayesian inference provides a principled framework for learning from complex data and reasoning under uncertainty. It has been widely applied in machine learning tasks such as medical diagnosis, drug design, and policymaking. In these common applications, the data can be highly sensitive. Differential privacy (DP) offers data analysis tools with powerful worst-case privacy guarantees and has been developed as the leading approach in privacy-preserving data analysis. In this paper, we study Metropolis-Hastings (MH), one of the most fundamental MCMC methods, for large-scale Bayesian inference under differential privacy. While most existing private MCMC algorithms sacrifice accuracy and efficiency to obtain privacy, we provide the first exact and fast DP MH algorithm, using only a minibatch of data in most iterations. We further reveal, for the first time, a three-way trade-off among privacy, scalability (i.e. the batch size), and efficiency (i.e. the convergence rate), theoretically characterizing how privacy affects the utility and computational cost in Bayesian inference. We empirically demonstrate the effectiveness and efficiency of our algorithm in various experiments.
翻訳日:2023-03-14 20:43:19 公開日:2023-03-10
# moela: 3dヘテロジニアスなマルチコアプラットフォームのための多目的進化/学習デザインスペース探索フレームワーク

MOELA: A Multi-Objective Evolutionary/Learning Design Space Exploration Framework for 3D Heterogeneous Manycore Platforms ( http://arxiv.org/abs/2303.06169v1 )

ライセンス: Link先を確認
Sirui Qi, Yingheng Li, Sudeep Pasricha, Ryan Gary Kim(参考訳) ディープラーニングやグラフ処理などの新興アプリケーションを実現するためには、3D Network-on-chip(NoC)により、多くの処理要素(PE)を統合するヘテロジニアスなマルチコアプラットフォームが必要になります。 しかし,複数の目的を持った複雑なシステムを設計することは,設計空間が巨大で,評価時間が長いため困難である。 このようなシステムを最適化するため,我々は,進化に基づく探索の利点と学習に基づく局所探索を組み合わせたmoelaと呼ばれる新しい多目的設計空間探索フレームワークを提案し,peと通信リンク配置を迅速に決定し,複数の目的(レイテンシ,スループット,エネルギーなど)を最適化する。 最先端のアプローチと比較して、MOELAは解を見つける速度を最大128倍にし、パレート・ハイパーボリューム(PHV)を最大12.14倍に改善し、エネルギー遅延生成物(EDP)を最大7.7%改善する。

To enable emerging applications such as deep machine learning and graph processing, 3D network-on-chip (NoC) enabled heterogeneous manycore platforms that can integrate many processing elements (PEs) are needed. However, designing such complex systems with multiple objectives can be challenging due to the huge associated design space and long evaluation times. To optimize such systems, we propose a new multi-objective design space exploration framework called MOELA that combines the benefits of evolutionary-based search with a learning-based local search to quickly determine PE and communication link placement to optimize multiple objectives (e.g., latency, throughput, and energy) in 3D NoC enabled heterogeneous manycore systems. Compared to state-of-the-art approaches, MOELA increases the speed of finding solutions by up to 128x, leads to a better Pareto Hypervolume (PHV) by up to 12.14x and improves energy-delay-product (EDP) by up to 7.7% in a 5-objective scenario.
翻訳日:2023-03-14 20:42:59 公開日:2023-03-10
# 教師なし画像登録のための条件変換器を用いた空間変化正規化

Spatially-varying Regularization with Conditional Transformer for Unsupervised Image Registration ( http://arxiv.org/abs/2303.06168v1 )

ライセンス: Link先を確認
Junyu Chen, Yihao Liu, Yufan He, Yong Du(参考訳) 過去には,画像領域の変形変動を考慮した空間変化正規化モデルが用いられてきた。 しかし、深層学習に基づく登録モデルは、主に空間不変な正規化に依存している。 本稿では、ニューラルネットワークを用いてデータから直接空間的に変化する変形正規化器を学習するエンドツーエンドフレームワークを提案する。 提案した正規化器のハイパーパラメータをネットワークに条件付けすることで、正規化強度の調整が容易になる。 提案手法はTransformerベースのモデルに基づいて構築されるが,任意のネットワークアーキテクチャに容易に適応できる。 提案手法を, 公開データセットを用いて徹底的に評価し, 滑らかな変形を維持しながら有意な性能改善を観測した。 この作業のソースコードは、公開後に公開される予定である。

In the past, optimization-based registration models have used spatially-varying regularization to account for deformation variations in different image regions. However, deep learning-based registration models have mostly relied on spatially-invariant regularization. Here, we introduce an end-to-end framework that uses neural networks to learn a spatially-varying deformation regularizer directly from data. The hyperparameter of the proposed regularizer is conditioned into the network, enabling easy tuning of the regularization strength. The proposed method is built upon a Transformer-based model, but it can be readily adapted to any network architecture. We thoroughly evaluated the proposed approach using publicly available datasets and observed a significant performance improvement while maintaining smooth deformation. The source code of this work will be made available after publication.
翻訳日:2023-03-14 20:42:36 公開日:2023-03-10
# 微調整データセット操作による事前学習モデルのバイアス克服

Overcoming Bias in Pretrained Models by Manipulating the Finetuning Dataset ( http://arxiv.org/abs/2303.06167v1 )

ライセンス: Link先を確認
Angelina Wang and Olga Russakovsky(参考訳) 転送学習は、大規模データセットで事前訓練されたモデルの表現的特徴を、より小さく、よりドメイン固有のデータセットのターゲットタスクのために微調整することで、有用である。 しかし、これらの事前訓練されたモデルは、微調整されたモデルに伝播する独自のバイアスを持つかもしれないという懸念がある。 本研究は,対象タスクと機密属性とのスパーラス相関とデータセット内の特定のグループの過小表現の両方として概念化されたバイアスについて検討する。 バイアスの両概念の下では、(1)事前訓練されたモデルの上に微調整されたモデルが実際にバイアスを継承できることが分かるが、(2)このバイアスは、微調整データセットへの比較的小さな介入によって修正され、しばしばパフォーマンスに無視できる影響で修正できる。 この結果から,下流タスクのバイアス低減には,データセットの微調整が重要であり,事前学習したモデルのバイアスを補うことさえ可能であることが示唆された。

Transfer learning is beneficial by allowing the expressive features of models pretrained on large-scale datasets to be finetuned for the target task of smaller, more domain-specific datasets. However, there is a concern that these pretrained models may come with their own biases which would propagate into the finetuned model. In this work, we investigate bias when conceptualized as both spurious correlations between the target task and a sensitive attribute as well as underrepresentation of a particular group in the dataset. Under both notions of bias, we find that (1) models finetuned on top of pretrained models can indeed inherit their biases, but (2) this bias can be corrected for through relatively minor interventions to the finetuning dataset, and often with a negligible impact to performance. Our findings imply that careful curation of the finetuning dataset is important for reducing biases on a downstream task, and doing so can even compensate for bias in the pretrained model.
翻訳日:2023-03-14 20:42:25 公開日:2023-03-10
# 品質多様性と深層強化学習の相乗効果を理解する

Understanding the Synergies between Quality-Diversity and Deep Reinforcement Learning ( http://arxiv.org/abs/2303.06164v1 )

ライセンス: Link先を確認
Bryan Lim, Manon Flageat, Antoine Cully(参考訳) QD(Quality-Diversity)と深層強化学習(Deep Reinforcement Learning, RL)の相乗効果により、強力なハイブリッドQD-RLアルゴリズムが実現され、両者の利点が示された。 しかし、他のRLアルゴリズムによる顕著な進歩にもかかわらず、従来のハイブリッド手法では1つのディープRLアルゴリズム(TD3)しか使われていない。 さらに、qdとrlの最適化手順には、より原則化されたアプローチの恩恵を受ける基本的な違いがある。 本稿では,QD-RL設定におけるアクター批判深度RL法のための統一的なモジュラーフレームワークである一般化アクター批判QD-RLを提案する。 このフレームワークは、QD-RLの設定においてDeep RLからの洞察を研究するためのパスを提供する。 PGA-ME (SAC) と PGA-ME (DroQ) という2つの新しいアルゴリズムを導入し, ディープRLの最近の進歩をQD-RL設定に適用し, 既存のQD-RLアルゴリズムでは不可能であったヒューマノイド環境を解決する。 しかし、Deep RLのすべての洞察をQD-RLに効果的に翻訳できるわけではない。 批判的に、この研究はQD-RLのアクター批判モデルが一般に不十分な訓練を受けており、追加の環境評価なしに性能向上が達成できることを示した。

The synergies between Quality-Diversity (QD) and Deep Reinforcement Learning (RL) have led to powerful hybrid QD-RL algorithms that have shown tremendous potential, and brings the best of both fields. However, only a single deep RL algorithm (TD3) has been used in prior hybrid methods despite notable progress made by other RL algorithms. Additionally, there are fundamental differences in the optimization procedures between QD and RL which would benefit from a more principled approach. We propose Generalized Actor-Critic QD-RL, a unified modular framework for actor-critic deep RL methods in the QD-RL setting. This framework provides a path to study insights from Deep RL in the QD-RL setting, which is an important and efficient way to make progress in QD-RL. We introduce two new algorithms, PGA-ME (SAC) and PGA-ME (DroQ) which apply recent advancements in Deep RL to the QD-RL setting, and solves the humanoid environment which was not possible using existing QD-RL algorithms. However, we also find that not all insights from Deep RL can be effectively translated to QD-RL. Critically, this work also demonstrates that the actor-critic models in QD-RL are generally insufficiently trained and performance gains can be achieved without any additional environment evaluations.
翻訳日:2023-03-14 20:42:08 公開日:2023-03-10
# カテゴリーレベルマルチパートマルチジョイント3次元形状アセンブリ

Category-Level Multi-Part Multi-Joint 3D Shape Assembly ( http://arxiv.org/abs/2303.06163v1 )

ライセンス: Link先を確認
Yichen Li, Kaichun Mo, Yueqi Duan, He Wang, Jiequan Zhang, Lin Shao, Wojciech Matusik, Leonidas Guibas(参考訳) shape assemblyは単純なパーツジオメトリを配置することで複雑な形状のジオメトリを構成し、自律的なロボットアセンブリとcadモデリングに広く応用されている。 既存の作品は幾何学的推論に重点を置いており、異なる部品を接続する接触面である関節のマッチングと取付けの実際の物理的な組み立て過程を無視している。 本稿では,多部組立作業における接触関節の検討を行う。 共同最適化を成功させるには、形状構造と関節アライメントの両目的を満たす必要がある。 グラフ表現学習の2段階からなる階層的なグラフ学習手法を提案する。 部分グラフは、所望の形状構造を構築するための入力として部分ジオメトリを取る。 関節レベルグラフは部分関節情報を使用し、関節の整合と整合に焦点を当てる。 両者の目的を達成するために、2種類の情報を組み合わせる。 広範な実験により,従来法よりも優れた形状構造と関節アライメント精度が得られた。

Shape assembly composes complex shapes geometries by arranging simple part geometries and has wide applications in autonomous robotic assembly and CAD modeling. Existing works focus on geometry reasoning and neglect the actual physical assembly process of matching and fitting joints, which are the contact surfaces connecting different parts. In this paper, we consider contacting joints for the task of multi-part assembly. A successful joint-optimized assembly needs to satisfy the bilateral objectives of shape structure and joint alignment. We propose a hierarchical graph learning approach composed of two levels of graph representation learning. The part graph takes part geometries as input to build the desired shape structure. The joint-level graph uses part joints information and focuses on matching and aligning joints. The two kinds of information are combined to achieve the bilateral objectives. Extensive experiments demonstrate that our method outperforms previous methods, achieving better shape structure and higher joint alignment accuracy.
翻訳日:2023-03-14 20:41:40 公開日:2023-03-10
# ユニタリブロック符号化を用いた量子信号処理による非ユニタリダイナミクスのシミュレーション

Simulating non-unitary dynamics using quantum signal processing with unitary block encoding ( http://arxiv.org/abs/2303.06161v1 )

ライセンス: Link先を確認
Hans Hon Sang Chan, David Mu\~noz-Ramo, Nathan Fitzpatrick(参考訳) 我々は、量子回路を正確にエミュレートした初期のフォールトトレラント量子コンピュータ上での非一元的時間進化を探求するために、資源フルーガー量子信号処理の最近の進歩である量子固有値変換(QET-U)を適用した。 所望の仮想時間発展状態の回路深度を最適化する手法と,その実現可能性を試行する。 基底状態準備のタスクでは、初期参照状態における後選択の成功確率は$\gamma$を$o(\gamma^2)$と重なることが確認される。 熱状態生成に代えてQET-Uが指数的コストで分配関数を直接推定できることを示す。 最後に、qet-u とトロッター積公式を組み合わせて、リンドブラジアン開量子系力学の伝播における非正規ハミルトンシミュレーションを行う。 非単体力学のQET-Uは柔軟で直感的で使いやすく、シミュレーションタスクにおける量子優位性を実現する方法を提案する。

We adapt a recent advance in resource-frugal quantum signal processing - the Quantum Eigenvalue Transform with Unitary matrices (QET-U) - to explore non-unitary imaginary time evolution on early fault-tolerant quantum computers using exactly emulated quantum circuits. We test strategies for optimising the circuit depth and the probability of successfully preparing the desired imaginary-time evolved states. For the task of ground state preparation, we confirm that the probability of successful post-selection is quadratic in the initial reference state overlap $\gamma$ as $O(\gamma^2)$. When applied instead to thermal state preparation, we show QET-U can directly estimate partition functions at exponential cost. Finally, we combine QET-U with Trotter product formula to perform non-normal Hamiltonian simulation in the propagation of Lindbladian open quantum system dynamics. We find that QET-U for non-unitary dynamics is flexible, intuitive and straightforward to use, and suggest ways for delivering quantum advantage in simulation tasks.
翻訳日:2023-03-14 20:41:26 公開日:2023-03-10
# 地震量子化

Earthquake Quantization ( http://arxiv.org/abs/2303.06158v1 )

ライセンス: Link先を確認
Benjamin Koch and Enrique Mu\~noz(参考訳) アインシュタインの144歳の誕生日の記念として、経路積分の経路がランダムではなく、ランダムな背景の測地方程式の解となるような新しい量子化処方則を提案する。 この視点の変化は、非相対論的量子力学の通常の定式化と数学的に等価であることを示す。 結論として、物質に結合した量子重力や量子同値原理のような概念的問題について述べる。

In this homage to Einstein's 144th birthday we propose a novel quantization prescription, where the paths of a path-integral are not random, but rather solutions of a geodesic equation in a random background. We show that this change of perspective can be made mathematically equivalent to the usual formulations of non-relativistic quantum mechanics. To conclude, we comment on conceptual issues, such as quantum gravity coupled to matter and the quantum equivalence principle.
翻訳日:2023-03-14 20:41:10 公開日:2023-03-10
# 不均一なフェデレーション学習のためのデジタルツイン支援知識蒸留フレームワーク

Digital Twin-Assisted Knowledge Distillation Framework for Heterogeneous Federated Learning ( http://arxiv.org/abs/2303.06155v1 )

ライセンス: Link先を確認
Xiucheng Wang, Nan Cheng, Longfei Ma, Ruijin Sun, Rong Chai, Ning Lu(参考訳) 本稿では,フェデレーション学習(fl)システムにおける不均一性に対処するために,flのための知識蒸留(kd)駆動学習フレームワークを提案する。 リソース制限されたユーザデバイスにおいて、大きな教師モデルをトレーニングするという課題を克服するために、デジタルツイン(DT)は、十分なコンピューティングリソースを持つサーバ内のDTで教師モデルをトレーニングする方法を利用しています。 そして、モデルの蒸留の間、各ユーザーは物理エンティティまたはデジタルエージェントでモデルのパラメータを更新できる。 混合整数プログラミング(MIP)問題としてモデル選択とトレーニングオフロードとリソース割り当ての連立問題を定式化している。 この問題を解決するために、Qラーニングと最適化を共同で使用し、Qラーニングはユーザのモデルを選択し、ローカルかサーバでトレーニングするかを判断し、Qラーニングの出力に基づいてリソースを割り当てる。 シミュレーションの結果,提案するdt-assisted kdフレームワークとジョイント最適化手法は,総遅延を低減しつつ,ユーザの平均精度を大幅に向上できることがわかった。

In this paper, to deal with the heterogeneity in federated learning (FL) systems, a knowledge distillation (KD) driven training framework for FL is proposed, where each user can select its neural network model on demand and distill knowledge from a big teacher model using its own private dataset. To overcome the challenge of train the big teacher model in resource limited user devices, the digital twin (DT) is exploit in the way that the teacher model can be trained at DT located in the server with enough computing resources. Then, during model distillation, each user can update the parameters of its model at either the physical entity or the digital agent. The joint problem of model selection and training offloading and resource allocation for users is formulated as a mixed integer programming (MIP) problem. To solve the problem, Q-learning and optimization are jointly used, where Q-learning selects models for users and determines whether to train locally or on the server, and optimization is used to allocate resources for users based on the output of Q-learning. Simulation results show the proposed DT-assisted KD framework and joint optimization method can significantly improve the average accuracy of users while reducing the total delay.
翻訳日:2023-03-14 20:41:01 公開日:2023-03-10
# k-mer分布と機械学習による資源保存分類

Resource saving taxonomy classification with k-mer distributions and machine learning ( http://arxiv.org/abs/2303.06154v1 )

ライセンス: Link先を確認
Wolfgang Fuhl, Susanne Zabel, Kay Nieselt(参考訳) メタゲノミクスシークエンシングのような現代の高スループットシークエンシング技術は、その分類階級に基づいて分類されなければならない数百万のシーケンスを生成する。 現代のアプローチでは、ローカルアライメントを適用して、MMseqs2のような既存のデータセットと比較するか、DeepMicrobesやBERTaxのようにディープニューラルネットワークを使用する。 アライメントベースのアプローチは、特にデータベースが大きくなり、実行時にコストがかかる。 ディープラーニングベースのアプローチでは、大量のエネルギーを消費する計算には特別なハードウェアが必要である。 本稿では,DNAから得られた$k$-mer分布を,サブスペース$k$-nearestの隣人アルゴリズム,ニューラルネットワーク,あるいはタグ付き決定木などの機械学習手法を用いて分類する機能として用いることを提案する。 さらに,学習のためのデータセットを削減し,分類器の性能を向上させる機能空間データセットバランス手法を提案する。 複数のデータセットを用いて,我々のアプローチの性能,時間,メモリ消費を最先端アルゴリズム(bertaxとmmseqs2)と比較することにより,本手法は属レベルでの分類を改善し,スーパーキングレベルとフィラムレベルで比較結果を得た。 リンク: https://es-cloud.cs.uni-tuebingen.de/8e2ab8c3fdd444e1a135/? p=%2FTaxonomyClassification&mode=list

Modern high throughput sequencing technologies like metagenomic sequencing generate millions of sequences which have to be classified based on their taxonomic rank. Modern approaches either apply local alignment and comparison to existing data sets like MMseqs2 or use deep neural networks as it is done in DeepMicrobes and BERTax. Alignment-based approaches are costly in terms of runtime, especially since databases get larger and larger. For the deep learning-based approaches, specialized hardware is necessary for a computation, which consumes large amounts of energy. In this paper, we propose to use $k$-mer distributions obtained from DNA as features to classify its taxonomic origin using machine learning approaches like the subspace $k$-nearest neighbors algorithm, neural networks or bagged decision trees. In addition, we propose a feature space data set balancing approach, which allows reducing the data set for training and improves the performance of the classifiers. By comparing performance, time, and memory consumption of our approach to those of state-of-the-art algorithms (BERTax and MMseqs2) using several datasets, we show that our approach improves the classification on the genus level and achieves comparable results for the superkingdom and phylum level. Link: https://es-cloud.cs.uni-tuebingen.de/d/8e2ab8c3fdd444e1a135/?p=%2FTaxonomyClassification&mode=list
翻訳日:2023-03-14 20:40:42 公開日:2023-03-10
# sparse cnnとtransformerを用いたnovaにおけるニュートリノ物理の解釈可能な合同イベント粒子再構成

Interpretable Joint Event-Particle Reconstruction for Neutrino Physics at NOvA with Sparse CNNs and Transformers ( http://arxiv.org/abs/2303.06201v1 )

ライセンス: Link先を確認
Alexander Shmakov, Alejandro Yankelevich, Jianming Bian, Pierre Baldi(参考訳) novaロングベースラインニュートリノ振動実験で観測された複雑な事象は、標準模型における最も不可解な粒子を理解するための重要な情報を含んでいる。 NOvA検出器はフェルミラブのNuMIビームからのニュートリノの相互作用を観測する。 これらの相互作用で生成された粒子を元の粒子に関連付けることは、標準モデルの鍵パラメータを正確に測定するために重要である。 事象はいくつかの粒子を含み、それぞれが疎らな高次元の空間観測を行い、現在の方法は個々の粒子を評価することに限定されている。 多数の高次元の観測を正確にラベル付けするために,畳み込みによる空間学習と注意による文脈学習を組み合わせた新しいニューラルネットワークアーキテクチャを提案する。 この共同アプローチであるTransformerCVNは、各事象を同時に分類し、個々の粒子のアイデンティティを再構築する。 TransformerCVNは、90%の精度でイベントを分類し、TransformerCVNの統合アーキテクチャを欠いたベースライン法で、個々の粒子の再構成を6倍改善する。 さらに,本アーキテクチャは,ネットワークの予測に対する洞察を提供するいくつかの解釈可能性研究を行い,TransformerCVNが標準モデルから派生したいくつかの基本原理を発見することを示す。

The complex events observed at the NOvA long-baseline neutrino oscillation experiment contain vital information for understanding the most elusive particles in the standard model. The NOvA detectors observe interactions of neutrinos from the NuMI beam at Fermilab. Associating the particles produced in these interaction events to their source particles, a process known as reconstruction, is critical for accurately measuring key parameters of the standard model. Events may contain several particles, each producing sparse high-dimensional spatial observations, and current methods are limited to evaluating individual particles. To accurately label these numerous, high-dimensional observations, we present a novel neural network architecture that combines the spatial learning enabled by convolutions with the contextual learning enabled by attention. This joint approach, TransformerCVN, simultaneously classifies each event and reconstructs every individual particle's identity. TransformerCVN classifies events with 90\% accuracy and improves the reconstruction of individual particles by 6\% over baseline methods which lack the integrated architecture of TransformerCVN. In addition, this architecture enables us to perform several interpretability studies which provide insights into the network's predictions and show that TransformerCVN discovers several fundamental principles that stem from the standard model.
翻訳日:2023-03-14 20:34:08 公開日:2023-03-10
# Deflated HeteroPCA:ヘテロスケダスティックPCAにおける不調の呪いの克服

Deflated HeteroPCA: Overcoming the curse of ill-conditioning in heteroskedastic PCA ( http://arxiv.org/abs/2303.06198v1 )

ライセンス: Link先を確認
Yuchen Zhou, Yuxin Chen(参考訳) 本稿では,汚染データから低ランク行列 $\boldsymbol{x}^\star \in \mathbb{r}^{n_1\times n_2}$ の列部分空間を推定する。 最も広い信号-雑音比(SNR)を調節しながら最適な統計的精度を得るには、ヘテロスケダティックノイズと非バランス次元(すなわち$n_2\gg n_1$)の存在が特に難しい。 最先端のアルゴリズムである $\textsf{HeteroPCA}$ は、この問題を解決するための強力なソリューションとして現れるが、その性能は $\boldsymbol{X}^\star$ の条件数として低下する「悪条件の呪い」に悩まされている。 許容 SNR の範囲を妥協することなくこの問題を克服するために,$\ell_2$ と $\ell_{2,\infty}$ の両面から,ほぼ最適かつ条件数のない理論的保証を実現する,$\textsf{Deflated-HeteroPCA}$ という新しいアルゴリズムを提案する。 提案アルゴリズムは、$\boldsymbol{X}^\star$のスペクトルを、よく条件付きおよび相互に分離されたサブブロックに分割し、各サブブロックを順次征服するために$\textsf{HeteroPCA}$を適用する。 さらに、因子モデルとテンソルPCAという2つの標準例に対するアルゴリズムと理論の適用は、各アプリケーションに対して顕著な改善をもたらす。

This paper is concerned with estimating the column subspace of a low-rank matrix $\boldsymbol{X}^\star \in \mathbb{R}^{n_1\times n_2}$ from contaminated data. How to obtain optimal statistical accuracy while accommodating the widest range of signal-to-noise ratios (SNRs) becomes particularly challenging in the presence of heteroskedastic noise and unbalanced dimensionality (i.e., $n_2\gg n_1$). While the state-of-the-art algorithm $\textsf{HeteroPCA}$ emerges as a powerful solution for solving this problem, it suffers from "the curse of ill-conditioning," namely, its performance degrades as the condition number of $\boldsymbol{X}^\star$ grows. In order to overcome this critical issue without compromising the range of allowable SNRs, we propose a novel algorithm, called $\textsf{Deflated-HeteroPCA}$, that achieves near-optimal and condition-number-free theoretical guarantees in terms of both $\ell_2$ and $\ell_{2,\infty}$ statistical accuracy. The proposed algorithm divides the spectrum of $\boldsymbol{X}^\star$ into well-conditioned and mutually well-separated subblocks, and applies $\textsf{HeteroPCA}$ to conquer each subblock successively. Further, an application of our algorithm and theory to two canonical examples -- the factor model and tensor PCA -- leads to remarkable improvement for each application.
翻訳日:2023-03-14 20:33:48 公開日:2023-03-10
# 不整合基底画像ペアを用いたH&E-IHCスタン翻訳学習のための適応的PatchNCE損失

Adaptive Supervised PatchNCE Loss for Learning H&E-to-IHC Stain Translation with Inconsistent Groundtruth Image Pairs ( http://arxiv.org/abs/2303.06193v1 )

ライセンス: Link先を確認
Fangda Li, Zhiqiang Hu, Wen Chen and Avinash Kak(参考訳) 免疫組織化学(IHC)染色は、組織サンプルの診断に不可欠な分子情報を強調する。 しかし、H&E染色と比較して、IHC染色は労働力と実験機器の両方においてはるかに高価である。 このことは、H&Eスライディングスライドに存在する形態情報とIHCスライディングスライドに含まれる分子情報との相関が、H&E-to-IHCスライディング翻訳に利用できることを示す最近の研究を動機付けている。 しかし、ピクセル完全H&E-IHC基底構造対が不足しているため、既存の手法の多くは専門家のアノテーションに頼っている。 この状況を改善するために,提案するH&E-to-IHC画像-画像変換フレームワークにおいて,ターゲット不整合に対する入力を直接処理する新たな損失関数であるAdaptive Supervised PatchNCE(ASP)を提案する。 ASPの損失は、Supervised PatchNCE(SP)と名付けられたパッチベースのコントラスト学習基準に基づいて構築され、重み付けスケジューリングにより、ノイズの多い監視の影響を緩和する。 最後に,乳がん診断に欠かせない4種類のIHC染色のH&E-IHCパッチを含むMulti-IHC Stain Translation (MIST)データセットを紹介する。 本実験では,提案手法が既存の画像から画像への変換手法よりも優れていることを実証する。 コードとデータセットはすべてhttps://github.com/lifangda01/AdaptiveSupervisedPatchNCEで公開されています。

Immunohistochemical (IHC) staining highlights the molecular information critical to diagnostics in tissue samples. However, compared to H&E staining, IHC staining can be much more expensive in terms of both labor and the laboratory equipment required. This motivates recent research that demonstrates that the correlations between the morphological information present in the H&E-stained slides and the molecular information in the IHC-stained slides can be used for H&E-to-IHC stain translation. However, due to a lack of pixel-perfect H&E-IHC groundtruth pairs, most existing methods have resorted to relying on expert annotations. To remedy this situation, we present a new loss function, Adaptive Supervised PatchNCE (ASP), to directly deal with the input to target inconsistencies in a proposed H&E-to-IHC image-to-image translation framework. The ASP loss is built upon a patch-based contrastive learning criterion, named Supervised PatchNCE (SP), and augments it further with weight scheduling to mitigate the negative impact of noisy supervision. Lastly, we introduce the Multi-IHC Stain Translation (MIST) dataset, which contains aligned H&E-IHC patches for 4 different IHC stains critical to breast cancer diagnosis. In our experiment, we demonstrate that our proposed method outperforms existing image-to-image translation methods for stain translation to multiple IHC stains. All of our code and datasets are available at https://github.com/lifangda01/AdaptiveSupervisedPatchNCE.
翻訳日:2023-03-14 20:33:12 公開日:2023-03-10
# パパイヤ:連合学習、しかし完全に分散化

Papaya: Federated Learning, but Fully Decentralized ( http://arxiv.org/abs/2303.06189v1 )

ライセンス: Link先を確認
Ram M Kripa, Andy Zou, Ryan Jia, and Kenny Huang(参考訳) フェデレーション学習システムは、集中型サーバを使用してモデル更新を集約する。 これは帯域幅とリソース重荷の制約であり、システムはプライバシーの懸念に晒される。 代わりに、ノードが自身のデータをトレーニングし、学習した信頼マトリックスに従って各ノードのパラメータの重み付け平均を定期的に実行するピアツーピア学習システムを実装する。 これまでのところ、モデルクライアントフレームワークを作成しており、同じコンピュータ上に実際に存在する複数の仮想ノードを使用して、提案システム上で実験を実行している。 提案のイテレーション1で述べたように,この戦略を用いて,共有パラメータを用いたピアツーピア学習の概念を実証した。 より多くの実験を行い、よりデプロイ可能な現実世界システムを構築したいと考えています。

Federated Learning systems use a centralized server to aggregate model updates. This is a bandwidth and resource-heavy constraint and exposes the system to privacy concerns. We instead implement a peer to peer learning system in which nodes train on their own data and periodically perform a weighted average of their parameters with that of their peers according to a learned trust matrix. So far, we have created a model client framework and have been using this to run experiments on the proposed system using multiple virtual nodes which in reality exist on the same computer. We used this strategy as stated in Iteration 1 of our proposal to prove the concept of peer to peer learning with shared parameters. We now hope to run more experiments and build a more deployable real world system for the same.
翻訳日:2023-03-14 20:32:43 公開日:2023-03-10
# moe展開に向けて:mixing-of-expert(moe)推論の非効率化

Towards MoE Deployment: Mitigating Inefficiencies in Mixture-of-Expert (MoE) Inference ( http://arxiv.org/abs/2303.06182v1 )

ライセンス: Link先を確認
Haiyang Huang, Newsha Ardalani, Anna Sun, Liu Ke, Hsien-Hsin S. Lee, Anjali Sridhar, Shruti Bhosale, Carole-Jean Wu, Benjamin Lee(参考訳) 最近、Mixture-of-Experts (MoE) モデルはコンピュータビジョンや自然言語処理の幅広いタスクにおいて最先端の性能を達成するために急速に進歩している。 トレーニング中の計算コストの最小化を図りながら、モデル容量を効果的に拡大する。 しかし,モデルサイズと複雑な通信パターンのため,推論のためのモデル配置は困難である。 本稿では,2つのmoeワークロード,すなわち言語モデリング(lm)と機械翻訳(mt)のキャラクタリゼーションを行い,デプロイ時の非効率なソースを特定する。 本研究では,(1)動的ゲーティング,(2)エキスパートバッファリング,(3)エキスパートロードバランシングの3つの非効率化手法を提案する。 我々は、動的ゲーティングにより、LMの1.25-4$\times$、MTエンコーダの2-5$\times$、MTデコーダの1.09-1.5$\times$が実行時間を改善することを示した。 また、LMで最大1.36$\times$、MTで最大1.1$\times$までメモリ使用量を削減します。また、CPUメモリで残りをバッファリングしながら、GPUメモリで熱くアクティブな専門家のみを保持する新しいキャッシングメカニズムであるExpert Bufferingを提案します。 これにより、静的メモリ割り当てが 1.47$\times$ になる。 最後に、ワークロードにさらなる堅牢性を提供するロードバランシング手法を提案する。 コードは受け入れ次第オープンソース化される。

Mixture-of-Experts (MoE) models have recently gained steam in achieving the state-of-the-art performance in a wide range of tasks in computer vision and natural language processing. They effectively expand the model capacity while incurring a minimal increase in computation cost during training. However, deploying such models for inference is difficult due to their large model size and complex communication pattern. In this work, we provide a characterization of two MoE workloads, namely Language Modeling (LM) and Machine Translation (MT) and identify their sources of inefficiencies at deployment. We propose three optimization techniques to mitigate sources of inefficiencies, namely (1) Dynamic gating, (2) Expert Buffering, and (3) Expert load balancing. We show that dynamic gating improves execution time by 1.25-4$\times$ for LM, 2-5$\times$ for MT Encoder and 1.09-1.5$\times$ for MT Decoder. It also reduces memory usage by up to 1.36$\times$ for LM and up to 1.1$\times$ for MT. We further propose Expert Buffering, a new caching mechanism that only keeps hot, active experts in GPU memory while buffering the rest in CPU memory. This reduces static memory allocation by 1.47$\times$. We finally propose a load balancing methodology that provides additional robustness to the workload. The code will be open-sourced upon acceptance.
翻訳日:2023-03-14 20:32:31 公開日:2023-03-10
# 部分ラベルを持つ分散非iidデータセットを用いた医用画像分類のためのフェデレーション学習の最適化

Optimizing Federated Learning for Medical Image Classification on Distributed Non-iid Datasets with Partial Labels ( http://arxiv.org/abs/2303.06180v1 )

ライセンス: Link先を確認
Pranav Kulkarni, Adway Kanhere, Paul H. Yi, Vishwa S. Parekh(参考訳) 多数の大規模胸部X線データセットが深層学習を用いて専門家レベルの異常検出を先導している。 しかし、これらのデータセットは、存在する可能性のある疾患ラベルのサブセットを検出することに重点を置いている。 最近の文献では、部分ラベルを持つ非iidデータに関連する領域シフトによる連合学習の収束に及ぼすバッチ正規化層の影響が示されている。 そこで本研究では,プリトレーニングネットワークをモデルバックエンドとして使用し,トレーニングプロセスを通じてバッチ正規化レイヤを凍結することにより,トランスファー学習からインスピレーションを得たフェデレーション学習フレームワークfederated learningを提案する。 本研究では,合成iid玩具データセットと大規模非iidデータセットを用いて,fedfbnを現在のfl戦略で評価する。 その結果,federfbnは,部分ラベルを用いた分散および非iidデータを用いたグローバルモデルの学習において,現在の集約戦略よりも優れていることがわかった。

Numerous large-scale chest x-ray datasets have spearheaded expert-level detection of abnormalities using deep learning. However, these datasets focus on detecting a subset of disease labels that could be present, thus making them distributed and non-iid with partial labels. Recent literature has indicated the impact of batch normalization layers on the convergence of federated learning due to domain shift associated with non-iid data with partial labels. To that end, we propose FedFBN, a federated learning framework that draws inspiration from transfer learning by using pretrained networks as the model backend and freezing the batch normalization layers throughout the training process. We evaluate FedFBN with current FL strategies using synthetic iid toy datasets and large-scale non-iid datasets across scenarios with partial and complete labels. Our results demonstrate that FedFBN outperforms current aggregation strategies for training global models using distributed and non-iid data with partial labels.
翻訳日:2023-03-14 20:32:01 公開日:2023-03-10
# 医用画像登録用変形型クロスアテンショントランス

Deformable Cross-Attention Transformer for Medical Image Registration ( http://arxiv.org/abs/2303.06179v1 )

ライセンス: Link先を確認
Junyu Chen, Yihao Liu, Yufan He, Yong Du(参考訳) 近年、トランスフォーマーは医療画像の応用への期待を示しており、医療画像登録のためのモデル開発への関心が高まっている。 最近の登録トランスの設計の進歩は、移動画像と固定画像の間の空間対応をより正確に理解するために、クロスアテンション(ca)の使用に焦点をあてている。 本稿では, 変形可能な窓を用いて, 窓の注意を計算できる新しいCA機構を提案する。 caをグローバルに計算するか、あるいは固定的で拡張された検索ウィンドウで局所的に計算することにより、既存のcaメカニズムとは対照的に、提案する変形可能なcaは、計算の複雑さを低く保ちながら、大きな検索ウィンドウ上で多様な機能を選択的にサンプリングすることができる。 提案モデルは,マルチモーダル,モノモーダル,アトラスから患者への登録作業において広範囲に評価され,最先端の方法に対する有望な性能を示し,医用画像登録に有効性を示した。 この作業のソースコードは、公開後利用可能になる。

Transformers have recently shown promise for medical image applications, leading to an increasing interest in developing such models for medical image registration. Recent advancements in designing registration Transformers have focused on using cross-attention (CA) to enable a more precise understanding of spatial correspondences between moving and fixed images. Here, we propose a novel CA mechanism that computes windowed attention using deformable windows. In contrast to existing CA mechanisms that require intensive computational complexity by either computing CA globally or locally with a fixed and expanded search window, the proposed deformable CA can selectively sample a diverse set of features over a large search window while maintaining low computational complexity. The proposed model was extensively evaluated on multi-modal, mono-modal, and atlas-to-patient registration tasks, demonstrating promising performance against state-of-the-art methods and indicating its effectiveness for medical image registration. The source code for this work will be available after publication.
翻訳日:2023-03-14 20:31:44 公開日:2023-03-10
# プログラミング言語間のソフトウェア脆弱性予測知識の転送

Software Vulnerability Prediction Knowledge Transferring Between Programming Languages ( http://arxiv.org/abs/2303.06177v1 )

ライセンス: Link先を確認
Khadija Hanifi, Ramin F Fouladi, Basak Gencer Unsalver, Goksu Karadag(参考訳) 自動化およびスマートなソフトウェア脆弱性検出モデルの開発は、研究開発コミュニティからも大きな注目を集めている。 この領域で最大の課題の1つは、あらゆる異なるプログラミング言語のコードサンプルがないことである。 本研究では,利用可能なデータセットを活用し,異なるプログラミング言語の共通脆弱性を検出するモデルを生成するトランスファー学習手法を提案する。 Cのソースコードサンプルを使用して、畳み込みニューラルネットワーク(CNN)モデルをトレーニングし、Javaのソースコードサンプルを使用して学習モデルを採用し、評価する。 NIST Software Assurance Reference Dataset(SARD)とDraper VDISCデータセットの2つのベンチマークデータセットのコードサンプルを使用します。 その結果,提案手法はCコードとJavaコードの両方の脆弱性を検出し,平均リコール率は72\%であった。 さらに,説明可能なaiを用いて,提案モデルにおけるcとjava間の知識伝達機構に各機能がどのように寄与するかを検討する。

Developing automated and smart software vulnerability detection models has been receiving great attention from both research and development communities. One of the biggest challenges in this area is the lack of code samples for all different programming languages. In this study, we address this issue by proposing a transfer learning technique to leverage available datasets and generate a model to detect common vulnerabilities in different programming languages. We use C source code samples to train a Convolutional Neural Network (CNN) model, then, we use Java source code samples to adopt and evaluate the learned model. We use code samples from two benchmark datasets: NIST Software Assurance Reference Dataset (SARD) and Draper VDISC dataset. The results show that proposed model detects vulnerabilities in both C and Java codes with average recall of 72\%. Additionally, we employ explainable AI to investigate how much each feature contributes to the knowledge transfer mechanisms between C and Java in the proposed model.
翻訳日:2023-03-14 20:31:26 公開日:2023-03-10
# 行列ロジスティック写像:フラクタルスペクトル分布とカオスの移動

Matrix logistic map: fractal spectral distributions and transfer of chaos ( http://arxiv.org/abs/2303.06176v1 )

ライセンス: Link先を確認
{\L}ukasz Pawela and Karol \.Zyczkowski(参考訳) 標準ロジスティック写像 $x'=ax(1-x)$ は、一見単純な非線形方程式が複雑でカオス力学にどのようにつながるかを示すパラダイムモデルである。 本研究では、任意の行列に対して定義された行列アナログを与えられた順序の任意の行列$X$に対して導入し、検討する。 連続レベル密度が$[0,1]$で支えられた任意のエルミートランダム行列の初期アンサンブルに対して、漸近レベル密度はロジスティック写像の不変測度に収束することを示す。 パラメータ $a$ に依存すると、構築された測度は単数、フラクタル、または連続密度によって記述される。 スカラーロジスティックパラメータによるより広いクラスでは、$a$は$ax(\mathbb{i}-x)$を$bx(\mathbb{i}-x)b^{\dagger}$に変換して置き換えられる。 このアプローチは、結合ロジスティックマップの既知のモデルを一般化し、複雑なネットワークや多次元システムにおけるカオスへの移行の研究を可能にする。 特に、与えられたグラフと行列 $b$ を関連付けることで、グラフの頂点に対応するサブシステム間のカオスの段階的移行とその辺に従って結合することを示す。

The standard logistic map, $x'=ax(1-x)$, serves as a paradigmatic model to demonstrate how apparently simple non-linear equations lead to complex and chaotic dynamics. In this work we introduce and investigate its matrix analogue defined for an arbitrary matrix $X$ of a given order $N$. We show that for an arbitrary initial ensemble of hermitian random matrices with a continuous level density supported on the interval $[0,1]$, the asymptotic level density converges to the invariant measure of the logistic map. Depending on the parameter $a$ the constructed measure may be either singular, fractal or described by a continuous density. In a broader class of the map multiplication by a scalar logistic parameter $a$ is replaced by transforming $aX(\mathbb{I}-X)$ into $BX(\mathbb{I}-X)B^{\dagger}$, where $A=BB^{\dagger}$ is a fixed positive matrix of order $N$. This approach generalizes the known model of coupled logistic maps, and allows us to study the transition to chaos in complex networks and multidimensional systems. In particular, associating the matrix $B$ with a given graph we demonstrate the gradual transfer of chaos between subsystems corresponding to vertices of a graph and coupled according to its edges.
翻訳日:2023-03-14 20:31:09 公開日:2023-03-10
# 統一グルークキングとダブルディフレッシュ

Unifying Grokking and Double Descent ( http://arxiv.org/abs/2303.06173v1 )

ライセンス: Link先を確認
Xander Davies, Lauro Langosco, David Krueger(参考訳) ディープラーニングにおける一般化の原則的理解は、単一の概念的枠組みの下で異なる観察を統一する必要がある。 これまでの研究では、ほぼ完全に近いトレーニングパフォーマンスとほぼ完全に近いテストパフォーマンスが最終的に一般化されるトレーニングダイナミクスである \emph{grokking} と、表面的に類似する \emph{double descend} を研究している。 これらの話題は、これまで単独で研究されてきた。 パターン学習速度のフレームワーク内で、グロッキングとダブル降下を同じ学習ダイナミクスのインスタンスとして理解することができると仮定する。 また,最適化ステップの代わりにモデルキャパシティを変更する場合にも適用し,モデルワイドグルーキングの最初の実演を行う。

A principled understanding of generalization in deep learning may require unifying disparate observations under a single conceptual framework. Previous work has studied \emph{grokking}, a training dynamic in which a sustained period of near-perfect training performance and near-chance test performance is eventually followed by generalization, as well as the superficially similar \emph{double descent}. These topics have so far been studied in isolation. We hypothesize that grokking and double descent can be understood as instances of the same learning dynamics within a framework of pattern learning speeds. We propose that this framework also applies when varying model capacity instead of optimization steps, and provide the first demonstration of model-wise grokking.
翻訳日:2023-03-14 20:30:40 公開日:2023-03-10
# NeRFlame: FLAMEによる3次元顔レンダリングのためのNeRFの条件付け

NeRFlame: FLAME-based conditioning of NeRF for 3D face rendering ( http://arxiv.org/abs/2303.06226v1 )

ライセンス: Link先を確認
Wojciech Zaj\k{a}c, Jacek Tabor, Maciej Zi\k{e}ba, Przemys{\l}aw Spurek(参考訳) 従来の3D顔モデルはテクスチャ付きメッシュ表現に基づいている。 最も重要なモデルの1つはFLAME (Faces Learned with an Articulated Model and Expressions)であり、完全に制御可能な人間の顔のメッシュを生成する。 残念ながら、このようなモデルは幾何学的および外観的詳細を捉えるのに問題がある。 メッシュ表現とは対照的に、ニューラルレイディアンス場(NeRF)は極めてシャープなレンダリングを生成する。 しかし暗黙のメソッドはアニメーション化が難しく、見当たらない表現にうまく一般化できない。 顔操作を得るために、NeRFモデルを効果的に制御することは簡単ではない。 本稿では,NeRF法とFLAME法の両方の長所を組み合わせた新しい手法NeRFlameを提案する。 本手法は,FLAMEと同様の視覚的外観を完全に制御しながら,高品質なNeRFレンダリング機能を実現する。 ニューラルネットワークを用いてRGB色とボリューム密度をモデル化する従来のNeRFアーキテクチャとは異なり、NeRFlameはFLAMEメッシュを明示的な密度ボリュームとして使用している。 結果として、フレイムメッシュの近傍でのみ、色値はゼロではない。 このFLAMEバックボーンは、RGB色を予測するためにNeRFアーキテクチャに統合され、NeRFlameはボリューム密度を明示的にモデル化し、RGB色を暗黙的にモデル化することができる。

Traditional 3D face models are based on mesh representations with texture. One of the most important models is FLAME (Faces Learned with an Articulated Model and Expressions), which produces meshes of human faces that are fully controllable. Unfortunately, such models have problems with capturing geometric and appearance details. In contrast to mesh representation, the neural radiance field (NeRF) produces extremely sharp renders. But implicit methods are hard to animate and do not generalize well to unseen expressions. It is not trivial to effectively control NeRF models to obtain face manipulation. The present paper proposes a novel approach, named NeRFlame, which combines the strengths of both NeRF and FLAME methods. Our method enables high-quality rendering capabilities of NeRF while also offering complete control over the visual appearance, similar to FLAME. Unlike conventional NeRF-based architectures that utilize neural networks to model RGB colors and volume density, NeRFlame employs FLAME mesh as an explicit density volume. As a result, color values are non-zero only in the proximity of the FLAME mesh. This FLAME backbone is then integrated into the NeRF architecture to predict RGB colors, allowing NeRFlame to explicitly model volume density and implicitly model RGB colors.
翻訳日:2023-03-14 20:25:07 公開日:2023-03-10
# 誰が考えるのか? XAIプレイブックを用いたLLMの人間中心評価の推進

Who's Thinking? A Push for Human-Centered Evaluation of LLMs using the XAI Playbook ( http://arxiv.org/abs/2303.06223v1 )

ライセンス: Link先を確認
Teresa Datta and John P. Dickerson(参考訳) デプロイされた人工知能(AI)は、しばしば人間に影響を与える。 AIに基づくシステムの人間中心評価は、量的および質的な分析と人間の入力を組み合わせる。 説明可能なAI(XAI)とHCI(Human-Computer Interaction)コミュニティで、いくつかの詳細が調査されている。 ギャップは残るが、人間がAIと対話し、それに伴う説明をし、人間の要求 ― 認知バイアスとクォークを完備する ― は、コミュニティによって受け入れられるべきである、という基本的な理解は、コミュニティによって受け入れられるべきである。 本稿では,XAIの比較的成熟した分野と,大規模言語モデル(LLM)を中心に急速に発展する研究ブームの並列性について述べる。 LLMに対する評価指標は人間中心ではない。 我々は、過去10年間にXAIコミュニティが踏襲してきた同じパスの多くが、LSMについて議論する際に再読まれると論じている。 具体的には、デプロイされたllmを評価する際には、人間の傾向 -- 認知バイアスと虚偽性と共に -- が前もって集中すべきである、と論じています。 我々は,xaiの人間中心評価における3つの焦点領域であるメンタルモデル,ユースケースの有用性,認知的関与について概説し,これらの概念をllmで探求することの重要性を強調する。 私たちの目標は、人間中心のllm評価を始めることです。

Deployed artificial intelligence (AI) often impacts humans, and there is no one-size-fits-all metric to evaluate these tools. Human-centered evaluation of AI-based systems combines quantitative and qualitative analysis and human input. It has been explored to some depth in the explainable AI (XAI) and human-computer interaction (HCI) communities. Gaps remain, but the basic understanding that humans interact with AI and accompanying explanations, and that humans' needs -- complete with their cognitive biases and quirks -- should be held front and center, is accepted by the community. In this paper, we draw parallels between the relatively mature field of XAI and the rapidly evolving research boom around large language models (LLMs). Accepted evaluative metrics for LLMs are not human-centered. We argue that many of the same paths tread by the XAI community over the past decade will be retread when discussing LLMs. Specifically, we argue that humans' tendencies -- again, complete with their cognitive biases and quirks -- should rest front and center when evaluating deployed LLMs. We outline three developed focus areas of human-centered evaluation of XAI: mental models, use case utility, and cognitive engagement, and we highlight the importance of exploring each of these concepts for LLMs. Our goal is to jumpstart human-centered LLM evaluation.
翻訳日:2023-03-14 20:24:46 公開日:2023-03-10
# CHGNN: 半スーパービジョンのコントラストハイパーグラフ学習ネットワーク

CHGNN: A Semi-Supervised Contrastive Hypergraph Learning Network ( http://arxiv.org/abs/2303.06213v1 )

ライセンス: Link先を確認
Yumeng Song, Yu Gu, Tianyi Li, Jianzhong Qi, Zhenghao Liu, Christian S. Jensen and Ge Yu(参考訳) ハイパーグラフは、ソーシャルネットワークやバイオインフォマティクスなどのアプリケーションで見られるデータオブジェクト間の高次関係をモデル化することができる。 しかし、グラフ畳み込みネットワークをハイパーグラフに拡張するハイパーグラフ学習に関する最近の研究は、ラベルのないデータの特徴から効果的に学習できない。 そこで本研究では,自己教師付きコントラスト学習手法を用いてラベル付きおよびラベル付きデータから学習する,コントラスト型ハイパーグラフニューラルネットワークchgnnを提案する。 まず、CHGNNは適応的なハイパーグラフビュー生成器を備えており、これは自動拡張戦略を採用し、最小限のビューの摂動確率分布を学習する。 第二に、CHGNNはハイパーエッジの均一性を考慮し情報を効果的に融合する改良されたハイパーグラフエンコーダを含んでいる。 第3に、CHGNNは、ビュージェネレータの類似性損失とノード分類損失と、監督信号を注入するハイパーエッジ均質損失とを組み合わせた共同損失機能を備えている。 また、基本およびクロスバリデーションのコントラスト損失が含まれており、コントラスト損失トレーニングの強化に関係している。 9つの実際のデータセットに関する実験結果は、chgnnの有効性に関する洞察を提供しており、一貫して13の競合を上回っていることを示している。

Hypergraphs can model higher-order relationships among data objects that are found in applications such as social networks and bioinformatics. However, recent studies on hypergraph learning that extend graph convolutional networks to hypergraphs cannot learn effectively from features of unlabeled data. To such learning, we propose a contrastive hypergraph neural network, CHGNN, that exploits self-supervised contrastive learning techniques to learn from labeled and unlabeled data. First, CHGNN includes an adaptive hypergraph view generator that adopts an auto-augmentation strategy and learns a perturbed probability distribution of minimal sufficient views. Second, CHGNN encompasses an improved hypergraph encoder that considers hyperedge homogeneity to fuse information effectively. Third, CHGNN is equipped with a joint loss function that combines a similarity loss for the view generator, a node classification loss, and a hyperedge homogeneity loss to inject supervision signals. It also includes basic and cross-validation contrastive losses, associated with an enhanced contrastive loss training process. Experimental results on nine real datasets offer insight into the effectiveness of CHGNN, showing that it outperforms 13 competitors in terms of classification accuracy consistently.
翻訳日:2023-03-14 20:24:06 公開日:2023-03-10
# 二元超モジュラー振付によるフェアネスの重み付き概念

Weighted Notions of Fairness with Binary Supermodular Chores ( http://arxiv.org/abs/2303.06212v1 )

ライセンス: Link先を確認
Vignesh Viswanathan and Yair Zick(参考訳) 二元超モジュラーコスト関数を持つエージェント間で不可分なコアを割り当てる問題について検討する。 言い換えれば、各コレは0ドルまたは1ドルという限界費用を持ち、コレは限界コストの増加(または限界効用率の減少)を示す。 本稿では,viswanathan と zick (2022) の手法と barman et al. (2023) の手法を組み合わせて,この評価関数のクラスを公平に割り当てるための汎用フレームワークを提案する。 私たちのフレームワークでは、barmanら(2023年)の結果を一般化し、重み付きレキシミンやminの重み付きモルファールのような公平さの重み付き概念を満たす割り当てを効率的に計算できます。

We study the problem of allocating indivisible chores among agents with binary supermodular cost functions. In other words, each chore has a marginal cost of $0$ or $1$ and chores exhibit increasing marginal costs (or decreasing marginal utilities). In this note, we combine the techniques of Viswanathan and Zick (2022) and Barman et al. (2023) to present a general framework for fair allocation with this class of valuation functions. Our framework allows us to generalize the results of Barman et al. (2023) and efficiently compute allocations which satisfy weighted notions of fairness like weighted leximin or min weighted $p$-mean malfare for any $p \ge 1$.
翻訳日:2023-03-14 20:23:46 公開日:2023-03-10
# 近似近傍グラフにおける近接近傍探索の理論解析

A Theoretical Analysis Of Nearest Neighbor Search On Approximate Near Neighbor Graph ( http://arxiv.org/abs/2303.06210v1 )

ライセンス: Link先を確認
Anshumali Shrivastava, Zhao Song, Zhaozhuo Xu(参考訳) グラフベースのアルゴリズムは、近隣探索(NN-Search)問題において最先端の性能を示す。 これらの実証的な成功は、これらのアルゴリズムの探索品質と効率を保証する理論的な結果の必要性を促す。 しかし、グラフベースのNN-Searchアルゴリズムには実践と理論のギャップがある。 現在の理論的文献では、近接グラフの厳密な探索に焦点が当てられている一方、実践者は近接グラフ(ANN-Graph)を用いて前処理時間を短縮している。 この研究は、低次元および高密度ベクトルに対する ANN-Graph 上の欲求探索により NN-Search を解く理論的保証を提示し、このギャップを埋める。 このブリッジを構築するために、計算幾何学から新しいツールをいくつか活用する。 この結果は,近傍グラフを構築しながら近似に関連したトレードオフを定量化する。 結果がより効率的なグラフベースのNN-Searchアルゴリズムの扉を開くことを願っています。

Graph-based algorithms have demonstrated state-of-the-art performance in the nearest neighbor search (NN-Search) problem. These empirical successes urge the need for theoretical results that guarantee the search quality and efficiency of these algorithms. However, there exists a practice-to-theory gap in the graph-based NN-Search algorithms. Current theoretical literature focuses on greedy search on exact near neighbor graph while practitioners use approximate near neighbor graph (ANN-Graph) to reduce the preprocessing time. This work bridges this gap by presenting the theoretical guarantees of solving NN-Search via greedy search on ANN-Graph for low dimensional and dense vectors. To build this bridge, we leverage several novel tools from computational geometry. Our results provide quantification of the trade-offs associated with the approximation while building a near neighbor graph. We hope our results will open the door for more provable efficient graph-based NN-Search algorithms.
翻訳日:2023-03-14 20:23:27 公開日:2023-03-10
# SemARFlow: 自律運転のための教師なし光フロー推定にセマンティックスを注入する

SemARFlow: Injecting Semantics into Unsupervised Optical Flow Estimation for Autonomous Driving ( http://arxiv.org/abs/2303.06209v1 )

ライセンス: Link先を確認
Shuai Yuan, Shuzhi Yu, Hannah Kim and Carlo Tomasi(参考訳) 教師なし光フロー推定は、特に低テクスチャ領域における閉塞や運動境界付近で困難である。 セマンティクスやドメイン知識などの追加情報は、この問題をより制約するのに役立ちます。 本稿では,セマンティックセグメンテーションマスクを付加入力として利用する自律運転データのための教師なし光フローネットワークSemARFlowを紹介する。 この追加情報はエンコーダに注入され、フロー出力を洗練する学習アップサンプラーに注入される。 さらに、単純だが効果的なセマンティック拡張モジュールは、車両、ポール、空のフローとその境界を学習する際の自己スーパービジョンを提供する。 これらの意味情報の注入により、KITTI-2015の光学フローテストの誤差は11.80%から8.38%に改善された。 また、オブジェクト境界に関する目に見える改善や、データセットをまたいで一般化する能力も示しています。 コードは利用可能になる。

Unsupervised optical flow estimation is especially hard near occlusions and motion boundaries and in low-texture regions. We show that additional information such as semantics and domain knowledge can help better constrain this problem. We introduce SemARFlow, an unsupervised optical flow network designed for autonomous driving data that takes estimated semantic segmentation masks as additional inputs. This additional information is injected into the encoder and into a learned upsampler that refines the flow output. In addition, a simple yet effective semantic augmentation module provides self-supervision when learning flow and its boundaries for vehicles, poles, and sky. Together, these injections of semantic information improve the KITTI-2015 optical flow test error rate from 11.80% to 8.38%. We also show visible improvements around object boundaries as well as a greater ability to generalize across datasets. Code will be made available.
翻訳日:2023-03-14 20:23:17 公開日:2023-03-10
# 分割代数を用いた置換同変層の高速計算

Fast computation of permutation equivariant layers with the partition algebra ( http://arxiv.org/abs/2303.06208v1 )

ライセンス: Link先を確認
Charles Godfrey, Michael G. Rawson, Davis Brown, and Henry Kvinge(参考訳) 入力の置換に同変または不変である線形ニューラルネットワーク層は、現代のディープラーニングアーキテクチャの中核となる構成要素を形成する。 例えば、ディープセットの層や、トランスフォーマーやいくつかのグラフニューラルネットワークのアテンションブロックで発生する線形層などである。 置換同変線型層の空間は、ある対称群表現の不変部分空間として特定することができ、最近の研究は、ベクトルが対称群作用に関する標準基底要素の軌道上の和である基底を示すことによって、この空間をパラメータ化した。 パラメータ化は、勾配降下によって置換同変線形層の重みを学習する可能性を開く。 置換同変線型層の空間は分割代数の一般化であり、これは対称群の表現論と深い関係を持つ統計物理学で最初に発見された対象であり、上述の基底は分割代数のいわゆる軌道基底を一般化する。 我々は、分割代数のダイアグラム基底を一般化する別の基礎を示し、基底を構成するテンソルが、自然にクロネッカー積に分解されるという意味では低いランクであるという事実から生じる計算上の利点を示す。 ランク1行列による乗算が任意の行列による乗算よりもはるかに安価であるように、これらの低階テンソルとの乗算は軌道基底の要素との乗算よりもはるかに安価である。 最後に,これらの基本要素を乗算するアルゴリズムについて述べる。

Linear neural network layers that are either equivariant or invariant to permutations of their inputs form core building blocks of modern deep learning architectures. Examples include the layers of DeepSets, as well as linear layers occurring in attention blocks of transformers and some graph neural networks. The space of permutation equivariant linear layers can be identified as the invariant subspace of a certain symmetric group representation, and recent work parameterized this space by exhibiting a basis whose vectors are sums over orbits of standard basis elements with respect to the symmetric group action. A parameterization opens up the possibility of learning the weights of permutation equivariant linear layers via gradient descent. The space of permutation equivariant linear layers is a generalization of the partition algebra, an object first discovered in statistical physics with deep connections to the representation theory of the symmetric group, and the basis described above generalizes the so-called orbit basis of the partition algebra. We exhibit an alternative basis, generalizing the diagram basis of the partition algebra, with computational benefits stemming from the fact that the tensors making up the basis are low rank in the sense that they naturally factorize into Kronecker products. Just as multiplication by a rank one matrix is far less expensive than multiplication by an arbitrary matrix, multiplication with these low rank tensors is far less expensive than multiplication with elements of the orbit basis. Finally, we describe an algorithm implementing multiplication with these basis elements.
翻訳日:2023-03-14 20:23:04 公開日:2023-03-10
# 知覚品質と忠実度の新しい超解像計測

A New Super-Resolution Measurement of Perceptual Quality and Fidelity ( http://arxiv.org/abs/2303.06207v1 )

ライセンス: Link先を確認
Sheng Cheng(参考訳) 超解像結果は通常、フルリファレンス画像品質指標や人間の評価スコアによって測定される。 しかし,これらの評価手法は画像品質の一般的な測定方法であり,超解像問題の性質を考慮しない。 本稿では,超解像の1対多マッピング特性に基づいて評価問題を解析し,超解像のための新しい分布に基づく計量法を提案する。 分布距離から始めると、提案するメトリックを導出して、アクセスしやすく、計算が容易になる。 超解像に関する人間の研究を通して,提案手法は人間の知覚的品質と高い相関性を示し,既存の指標よりも優れていることを示す。 さらに,提案手法は,知覚に基づく指標と比較して忠実度尺度との相関が高い。 提案手法の特性を理解するために,提案手法の設計選択に関して広範な評価を行い,その評価基準が設計選択にロバストであることを示す。 最後に,この測定値を用いて知覚品質を向上させるための超解像ネットワークのトレーニングを行う。

Super-resolution results are usually measured by full-reference image quality metrics or human rating scores. However, these evaluation methods are general image quality measurement, and do not account for the nature of the super-resolution problem. In this work, we analyze the evaluation problem based on the one-to-many mapping nature of super-resolution, and propose a novel distribution-based metric for super-resolution. Starting from the distribution distance, we derive the proposed metric to make it accessible and easy to compute. Through a human subject study on super-resolution, we show that the proposed metric is highly correlated with the human perceptual quality, and better than most existing metrics. Moreover, the proposed metric has a higher correlation with the fidelity measure compared to the perception-based metrics. To understand the properties of the proposed metric, we conduct extensive evaluation in terms of its design choices, and show that the metric is robust to its design choices. Finally, we show that the metric can be used to train super-resolution networks for better perceptual quality.
翻訳日:2023-03-14 20:22:39 公開日:2023-03-10
# POVに基づく自動車軌道データと予測アーキテクチャ

A POV-based Highway Vehicle Trajectory Dataset and Prediction Architecture ( http://arxiv.org/abs/2303.06202v1 )

ライセンス: Link先を確認
Vinit Katariya, Ghazal Alinezhad Noghre, Armin Danesh Pazho, Hamed Tabkhi(参考訳) 複数の視点(POV)を提供する車両軌道データセットは、様々な交通安全および管理アプリケーションに有用である。 軌跡データセットが豊富にあるにも拘わらず、包括的で多様な運転シーンを提供し、様々なハイウェイレイアウト、車線の統合、構成の複数の視点を捉えているものはほとんどない。 これにより、ドライバー、車両、道路インフラ間のニュアンス的な相互作用を捉える能力が制限される。 車両軌道、検出、追跡データセットである \url{https://github.com/TeCSAR-UNCC/Carolinas\_Dataset}} で利用可能な \emph{Carolinas Highway Dataset (CHD\footnote{\emph{CHD} )を紹介した。 \emph{CHD}は、ハイウェイで撮影された1.6万フレームのコレクションで、視線レベルと高角のPOVから撮影されている。 道路のジオメトリや交通パターン、照明条件、運転行動などを把握するため、位置、記録のタイミング、カメラアングルを慎重に選択した。 注意に基づくグラフ同型および畳み込みニューラルネットワークを用いた新しい車両軌道予測アーキテクチャである \url{https://github.com/TeCSAR-UNCC/PishguVe}} で利用可能である。 以上の結果から,'emph{PishguVe} は既存のアルゴリズムを上回り,鳥眼,視線,高角POV軌道データセットにおける新しい最先端(SotA)となることが示された。 具体的には、現在の NGSIM データセットの SotA に対して、ADE と FDE の 12.50 % と 10.20 % の改善をそれぞれ達成している。 CHDの最高性能モデルと比較して、 \emph{PishguVe} は視線レベルのデータの ADE と FDE をそれぞれ 14.58\% と 27.38\% で、高角データの ADE と FDE を 8.3\% と 6.9\% で改善する。

Vehicle Trajectory datasets that provide multiple point-of-views (POVs) can be valuable for various traffic safety and management applications. Despite the abundance of trajectory datasets, few offer a comprehensive and diverse range of driving scenes, capturing multiple viewpoints of various highway layouts, merging lanes, and configurations. This limits their ability to capture the nuanced interactions between drivers, vehicles, and the roadway infrastructure. We introduce the \emph{Carolinas Highway Dataset (CHD\footnote{\emph{CHD} available at: \url{https://github.com/TeCSAR-UNCC/Carolinas\_Dataset}})}, a vehicle trajectory, detection, and tracking dataset. \emph{CHD} is a collection of 1.6 million frames captured in highway-based videos from eye-level and high-angle POVs at eight locations across Carolinas with 338,000 vehicle trajectories. The locations, timing of recordings, and camera angles were carefully selected to capture various road geometries, traffic patterns, lighting conditions, and driving behaviors. We also present \emph{PishguVe}\footnote{\emph{PishguVe} code available at: \url{https://github.com/TeCSAR-UNCC/PishguVe}}, a novel vehicle trajectory prediction architecture that uses attention-based graph isomorphism and convolutional neural networks. The results demonstrate that \emph{PishguVe} outperforms existing algorithms to become the new state-of-the-art (SotA) in bird's-eye, eye-level, and high-angle POV trajectory datasets. Specifically, it achieves a 12.50\% and 10.20\% improvement in ADE and FDE, respectively, over the current SotA on NGSIM dataset. Compared to best-performing models on CHD, \emph{PishguVe} achieves lower ADE and FDE on eye-level data by 14.58\% and 27.38\%, respectively, and improves ADE and FDE on high-angle data by 8.3\% and 6.9\%, respectively.
翻訳日:2023-03-14 20:22:23 公開日:2023-03-10
# モバイルセンシングデータのためのゾーンベースフェデレーション学習

Zone-based Federated Learning for Mobile Sensing Data ( http://arxiv.org/abs/2303.06246v1 )

ライセンス: Link先を確認
Xiaopeng Jiang, Thinh On, NhatHai Phan, Hessamaldin Mohammadi, Vijaya Datta Mayyuri, An Chen, Ruoming Jin, Cristian Borcea(参考訳) mhealthやwellness applicationsといったモバイルアプリは、スマートフォンやウェアラブルデバイスから収集されたモバイルセンシングデータでトレーニングされたディープラーニング(dl)モデルを活用することができる。 しかし、現在のモバイルセンシングdlシステムは、ユーザのモビリティ行動に適応しながら、適切なモデル精度を同時に達成し、ユーザ数の増加に応じてスケールし、ユーザデータのプライバシを保護する。 これらの要件に対処するため、ゾーンベースフェデレートラーニング(ZoneFL)を提案する。 ZoneFLは、物理空間を、適切なモデル精度とスケーラビリティのために、モバイルエッジクラウドシステムアーキテクチャにマッピングされた地理的ゾーンに分割する。 各ゾーンには、ゾーンモデルと呼ばれる連合トレーニングモデルがあり、ゾーン内のユーザのデータや行動にうまく適応する。 FL設計から恩恵を受けるため、ユーザデータのプライバシは、ZoneFLトレーニング中に保護される。 本研究では,ゾーンマージ・アンド・スプリット (zms) とゾーン勾配拡散 (zgd) の2つのゾーンモデルを最適化するゾーンベースフェデレーショントレーニングアルゴリズムを提案する。 ZMSは、隣接するゾーンをマージしたり、大きなゾーンを小さなゾーンに分割することで、ゾーン分割を適応することでゾーンモデルを最適化する。 ZMSとは異なり、ZGDは固定ゾーンを維持し、隣り合うゾーンのデータから得られる勾配を組み込むことでゾーンモデルを最適化する。 ZGDは自己保持機構を使用して、隣地への1つのゾーンの影響を動的に制御する。 広範な解析と実験の結果, zoneflは心拍数予測と人的活動認識の2モデルにおいて,従来のflを有意に上回っていることがわかった。 さらに,Android 携帯電話と AWS クラウドを用いた ZoneFL システムを開発した。 本システムは,63名を対象に4ヶ月間の心拍予測フィールド調査で使用し,実生活における ZoneFL の有効性を実証した。

Mobile apps, such as mHealth and wellness applications, can benefit from deep learning (DL) models trained with mobile sensing data collected by smart phones or wearable devices. However, currently there is no mobile sensing DL system that simultaneously achieves good model accuracy while adapting to user mobility behavior, scales well as the number of users increases, and protects user data privacy. We propose Zone-based Federated Learning (ZoneFL) to address these requirements. ZoneFL divides the physical space into geographical zones mapped to a mobile-edge-cloud system architecture for good model accuracy and scalability. Each zone has a federated training model, called a zone model, which adapts well to data and behaviors of users in that zone. Benefiting from the FL design, the user data privacy is protected during the ZoneFL training. We propose two novel zone-based federated training algorithms to optimize zone models to user mobility behavior: Zone Merge and Split (ZMS) and Zone Gradient Diffusion (ZGD). ZMS optimizes zone models by adapting the zone geographical partitions through merging of neighboring zones or splitting of large zones into smaller ones. Different from ZMS, ZGD maintains fixed zones and optimizes a zone model by incorporating the gradients derived from neighboring zones' data. ZGD uses a self-attention mechanism to dynamically control the impact of one zone on its neighbors. Extensive analysis and experimental results demonstrate that ZoneFL significantly outperforms traditional FL in two models for heart rate prediction and human activity recognition. In addition, we developed a ZoneFL system using Android phones and AWS cloud. The system was used in a heart rate prediction field study with 63 users for 4 months, and we demonstrated the feasibility of ZoneFL in real-life.
翻訳日:2023-03-14 20:15:45 公開日:2023-03-10
# AUTODIAL:効率的な非同期タスク指向対話モデル

AUTODIAL: Efficient Asynchronous Task-Oriented Dialogue Model ( http://arxiv.org/abs/2303.06245v1 )

ライセンス: Link先を確認
Prajjwal Bhargava, Pooyan Amini, Shahin Shayandeh, Chinnadhurai Sankar(参考訳) 大規模な対話モデルが実際に一般的になるにつれて、トレーニング、推論、より大きなメモリフットプリントに対する高い計算要求を取り巻く問題が続いている。 本稿では,対話モデルの展開における課題を解決するマルチタスク対話モデルであるautodialを提案する。 AUTODIALは並列デコーダを使用して対話行動予測、ドメイン予測、意図予測、対話状態追跡などのタスクを実行する。 生成デコーダ上の分類デコーダを使用することで、AUTODIALは既存の生成的アプローチであるSimpleTODと比較してメモリフットプリントを大幅に削減し、推論時間を短縮できる。 AUTODIALは3つの対話タスクに対して,SimpleTODに比べて11倍少ないパラメータで,推論中に3~6倍の高速化を実現する。 以上の結果から,並列デコーダを持つ現在の対話モデルを拡張することは,リソース制約のある環境にデプロイする上で有効な代替手段となる可能性が示唆された。

As large dialogue models become commonplace in practice, the problems surrounding high compute requirements for training, inference and larger memory footprint still persists. In this work, we present AUTODIAL, a multi-task dialogue model that addresses the challenges of deploying dialogue model. AUTODIAL utilizes parallel decoders to perform tasks such as dialogue act prediction, domain prediction, intent prediction, and dialogue state tracking. Using classification decoders over generative decoders allows AUTODIAL to significantly reduce memory footprint and achieve faster inference times compared to existing generative approach namely SimpleTOD. We demonstrate that AUTODIAL provides 3-6x speedups during inference while having 11x fewer parameters on three dialogue tasks compared to SimpleTOD. Our results show that extending current dialogue models to have parallel decoders can be a viable alternative for deploying them in resource-constrained environments.
翻訳日:2023-03-14 20:15:15 公開日:2023-03-10
# 自己教師付き骨格に基づく行動表現のための双曲的自己ペース学習

HYperbolic Self-Paced Learning for Self-Supervised Skeleton-based Action Representations ( http://arxiv.org/abs/2303.06242v1 )

ライセンス: Link先を確認
Luca Franco, Paolo Mandica, Bharti Munjal, Fabio Galasso(参考訳) 自己ペースト学習は、訓練サンプルシーケンスを簡単から複雑に選択・順序づけするために、弱い教師付き学習やドメイン適応など、いくつかの初期知識が利用できるタスクに有用である。 しかし、その適用性は教師なし学習では未解明のままであり、訓練中にタスクの知識が成熟する。 骨格に基づく行動表現を学習するためのハイペルボリック・セルフパスモデル(HYSP)を提案する。 HYSPはデータ拡張を使用して同じサンプルの2つのビューを生成し、一方(オンラインと命名された)をもう一方(ターゲット)にマッチさせることで学習する。 本稿では,アルゴリズム学習の速度を決定するために双曲的不確実性を用いることを提案する。 双曲的不確実性は、採用された双曲型ニューラルネットワークの副産物であり、トレーニング中に成熟し、確立されたユークリッドSSLフレームワークと比較して余分なコストがかからない。 3つの確立された骨格に基づく行動認識データセットでテストすると、HYSPはPKU-MMD Iの最先端、NTU-60とNTU-120の3つの下流タスクのうち2つで性能が向上する。 加えて、HYSPは正のペアとバイパスのみを使用するため、対照的な手法における負の処理に必要な複雑で計算的に要求されるマイニング手順を使用する。 コードはhttps://github.com/paolomandica/HYSPで入手できる。

Self-paced learning has been beneficial for tasks where some initial knowledge is available, such as weakly supervised learning and domain adaptation, to select and order the training sample sequence, from easy to complex. However its applicability remains unexplored in unsupervised learning, whereby the knowledge of the task matures during training. We propose a novel HYperbolic Self-Paced model (HYSP) for learning skeleton-based action representations. HYSP adopts self-supervision: it uses data augmentations to generate two views of the same sample, and it learns by matching one (named online) to the other (the target). We propose to use hyperbolic uncertainty to determine the algorithmic learning pace, under the assumption that less uncertain samples should be more strongly driving the training, with a larger weight and pace. Hyperbolic uncertainty is a by-product of the adopted hyperbolic neural networks, it matures during training and it comes with no extra cost, compared to the established Euclidean SSL framework counterparts. When tested on three established skeleton-based action recognition datasets, HYSP outperforms the state-of-the-art on PKU-MMD I, as well as on 2 out of 3 downstream tasks on NTU-60 and NTU-120. Additionally, HYSP only uses positive pairs and bypasses therefore the complex and computationally-demanding mining procedures required for the negatives in contrastive techniques. Code is available at https://github.com/paolomandica/HYSP.
翻訳日:2023-03-14 20:14:59 公開日:2023-03-10
# 対人訓練には全トレーニングデータが必要ですか?

Do we need entire training data for adversarial training? ( http://arxiv.org/abs/2303.06241v1 )

ライセンス: Link先を確認
Vipul Gupta, Apurva Narayan(参考訳) 深層ニューラルネットワーク(dnn)は、自動運転車や医療画像といった安全クリティカルな領域を含む、多くの領域で幅広い問題を解決するために使用されている。 DNNは敵の攻撃に対する脆弱性に悩まされる。 近年,敵対的学習を用いてネットワークをトレーニングすることで,この問題に対処するための多くのアプローチが提案されている。 ほぼすべてのアプローチがトレーニングデータセット全体の逆例を生成するため、トレーニング時間が大幅に増加する。 我々は, 対人訓練のためのトレーニングデータのサブセットのみを用いることで, 任意の対人訓練アルゴリズムのトレーニング時間を短縮できることを示す。 サブセットを選択するために、トレーニングデータから逆方向のサンプルをフィルタリングする。 このサブセットをフィルタするために、すべてのトレーニング例に対して単純な敵攻撃を行います。 この攻撃では,各画素に小さな摂動を付加し,入力画像に少数の格子線を付加する。 我々は,逆行性のある部分集合上で逆行訓練を行い,データセット全体のバニラ訓練と混合する。 その結果,本手法をFGSMにプラグインした場合,MNISTでは3.52倍,CIFAR-10データセットでは1.98倍の高速化を実現することができた。 また,我々は最先端のフリー・コンバーサリートレーニングへのアプローチをテストし,imagenetデータセットにおけるロバスト精度の低下とともに,トレーニング時間の1.2倍のスピードアップを達成している。

Deep Neural Networks (DNNs) are being used to solve a wide range of problems in many domains including safety-critical domains like self-driving cars and medical imagery. DNNs suffer from vulnerability against adversarial attacks. In the past few years, numerous approaches have been proposed to tackle this problem by training networks using adversarial training. Almost all the approaches generate adversarial examples for the entire training dataset, thus increasing the training time drastically. We show that we can decrease the training time for any adversarial training algorithm by using only a subset of training data for adversarial training. To select the subset, we filter the adversarially-prone samples from the training data. We perform a simple adversarial attack on all training examples to filter this subset. In this attack, we add a small perturbation to each pixel and a few grid lines to the input image. We perform adversarial training on the adversarially-prone subset and mix it with vanilla training performed on the entire dataset. Our results show that when our method-agnostic approach is plugged into FGSM, we achieve a speedup of 3.52x on MNIST and 1.98x on the CIFAR-10 dataset with comparable robust accuracy. We also test our approach on state-of-the-art Free adversarial training and achieve a speedup of 1.2x in training time with a marginal drop in robust accuracy on the ImageNet dataset.
翻訳日:2023-03-14 20:14:32 公開日:2023-03-10
# complement sparsification: フェデレーション学習のための低オーバヘッドモデルpruning

Complement Sparsification: Low-Overhead Model Pruning for Federated Learning ( http://arxiv.org/abs/2303.06237v1 )

ライセンス: Link先を確認
Xiaopeng Jiang, Cristian Borcea(参考訳) フェデレーション・ラーニング(federated learning, fl)は、プライバシーを保った分散ディープラーニングのパラダイムであり、実質的なコミュニケーションと計算の労力が伴う。 モデルプラニング/スパーシフィケーションは、この問題を解決できるスパースモデルを開発するが、既存のスパーシフィケーションソリューションは、サーバとクライアント間の双方向通信オーバーヘッドの低さ、クライアントでの計算オーバーヘッドの低さ、およびモデル精度の要求を同時に満たすことができない。 我々は,サーバとクライアントで行う補完的かつ協調的なプルーニングを通じて,これらの要求を満たすプルーニング機構であるComplement Sparsification (CS)を提案する。 各ラウンドにおいて、CSは全クライアントの一般的なデータ分布をキャプチャする重みを含むグローバルスパースモデルを作成し、一方、クライアントはグローバルモデルから重みを抽出してローカルトレンドをキャプチャするローカルスパースモデルを作成する。 モデル性能を向上させるために、これらの2種類の相補的なスパースモデルを各ラウンドで密集モデルに集約し、その後反復的プロセスで打ち出す。 CSはサーバとクライアントの両方でバニラFLの上部に計算オーバーヘッドをほとんど必要としない。 CSはバニラFLの近似であり,そのモデルが良好に動作することを示す。 2つの人気のあるFLベンチマークデータセットを用いてCSを実験的に評価した。 CSは、バニラFLに匹敵する性能を保ちながら、双方向通信の大幅な削減を実現している。 さらに、CSはFLのベースラインプルーニング機構より優れている。

Federated Learning (FL) is a privacy-preserving distributed deep learning paradigm that involves substantial communication and computation effort, which is a problem for resource-constrained mobile and IoT devices. Model pruning/sparsification develops sparse models that could solve this problem, but existing sparsification solutions cannot satisfy at the same time the requirements for low bidirectional communication overhead between the server and the clients, low computation overhead at the clients, and good model accuracy, under the FL assumption that the server does not have access to raw data to fine-tune the pruned models. We propose Complement Sparsification (CS), a pruning mechanism that satisfies all these requirements through a complementary and collaborative pruning done at the server and the clients. At each round, CS creates a global sparse model that contains the weights that capture the general data distribution of all clients, while the clients create local sparse models with the weights pruned from the global model to capture the local trends. For improved model performance, these two types of complementary sparse models are aggregated into a dense model in each round, which is subsequently pruned in an iterative process. CS requires little computation overhead on the top of vanilla FL for both the server and the clients. We demonstrate that CS is an approximation of vanilla FL and, thus, its models perform well. We evaluate CS experimentally with two popular FL benchmark datasets. CS achieves substantial reduction in bidirectional communication, while achieving performance comparable with vanilla FL. In addition, CS outperforms baseline pruning mechanisms for FL.
翻訳日:2023-03-14 20:14:10 公開日:2023-03-10
# テンソル化オートエンコーダによる圧縮センシング

Compressive Sensing with Tensorized Autoencoder ( http://arxiv.org/abs/2303.06235v1 )

ライセンス: Link先を確認
Rakib Hyder and M. Salman Asif(参考訳) ディープネットワークは、イメージを低次元の潜在空間にマッピングするように訓練することができる。 多くの場合、コレクション内の異なる画像は互いに明瞭なバージョンであり、例えば、異なる照明、背景、ポーズを持つ同じオブジェクトである。 さらに、多くの場合、画像の一部がノイズや欠落によって破損することがある。 本研究の目的は,データに先行する構造として,接地構造(クリーン)画像にアクセスすることなく画像の復元を行うことである。 このような回復問題は圧縮センシングの領域に該当する。 埋め込み空間上でテンソルリング因子化を伴う自動エンコーダを学習し,データに構造的制約を課す。 特に、構造化データセットのソフトラベルを利用するオートエンコーダのボトルネック層にテンソルリング構造を用いる。 提案手法の有効性を実証的に実証した。 本手法は, 圧縮センシングのための自己教師付き自己修復手法に比べて, 再現性の向上を実現する。

Deep networks can be trained to map images into a low-dimensional latent space. In many cases, different images in a collection are articulated versions of one another; for example, same object with different lighting, background, or pose. Furthermore, in many cases, parts of images can be corrupted by noise or missing entries. In this paper, our goal is to recover images without access to the ground-truth (clean) images using the articulations as structural prior of the data. Such recovery problems fall under the domain of compressive sensing. We propose to learn autoencoder with tensor ring factorization on the the embedding space to impose structural constraints on the data. In particular, we use a tensor ring structure in the bottleneck layer of the autoencoder that utilizes the soft labels of the structured dataset. We empirically demonstrate the effectiveness of the proposed approach for inpainting and denoising applications. The resulting method achieves better reconstruction quality compared to other generative prior-based self-supervised recovery approaches for compressive sensing.
翻訳日:2023-03-14 20:13:42 公開日:2023-03-10
# 人間反応データからの最適・プライベート学習

Optimal and Private Learning from Human Response Data ( http://arxiv.org/abs/2303.06234v1 )

ライセンス: Link先を確認
Duc Nguyen and Anderson Y. Zhang(参考訳) 項目応答理論 (IRT) は、人々が確率的意思決定を行う方法の研究であり、教育試験やレコメンデーションシステムなどに様々な応用がある。 IRTにおける最も基本的なモデルの1つであるバイナリ応答データのラッシュモデルは、重要な実践的重要性を持つ研究の活発な領域である。 最近、Nguyen と Zhang (2022) は、効率的かつ正確な新しいスペクトル推定アルゴリズムを提案した。 本研究では2つの重要な方法で結果を拡張する。 まず,スペクトルアルゴリズムにおいて,「平均誤差」$\ell_2$バウンド」を補足する改良されたエントリワイド誤差を求める。 特に、軽度のサンプリング条件下では、スペクトルアルゴリズムは最小誤差境界(ログ係数の変調)を達成する。 改良された分析に基づいて、スペクトルアルゴリズムは、上位$K$回復のための最適なサンプル複雑さ(例えば、承認/不承認応答データから最高の$K$アイテムを識別する)を享受し、前回の研究の実証的な結果を説明する。 第2のコントリビューションでは、IRTで重要だが未検討のトピックであるプライバシーについて取り上げています。 IRTの人間中心の応用にもかかわらず、文献にはプライバシー保護機構が提案されていない。 我々は、独自のマルコフ連鎖定式化と離散ガウス機構を利用したスペクトルアルゴリズムのプライベート拡張を開発する(Canonne et al., 2020)。 実験により、我々のアプローチは低レベルのプライバシー体制のベースラインよりもはるかに正確であることが示されている。

Item response theory (IRT) is the study of how people make probabilistic decisions, with diverse applications in education testing, recommendation systems, among others. The Rasch model of binary response data, one of the most fundamental models in IRT, remains an active area of research with important practical significance. Recently, Nguyen and Zhang (2022) proposed a new spectral estimation algorithm that is efficient and accurate. In this work, we extend their results in two important ways. Firstly, we obtain a refined entrywise error bound for the spectral algorithm, complementing the `average error' $\ell_2$ bound in their work. Notably, under mild sampling conditions, the spectral algorithm achieves the minimax optimal error bound (modulo a log factor). Building on the refined analysis, we also show that the spectral algorithm enjoys optimal sample complexity for top-$K$ recovery (e.g., identifying the best $K$ items from approval/disapproval response data), explaining the empirical findings in the previous work. Our second contribution addresses an important but understudied topic in IRT: privacy. Despite the human-centric applications of IRT, there has not been any proposed privacy-preserving mechanism in the literature. We develop a private extension of the spectral algorithm, leveraging its unique Markov chain formulation and the discrete Gaussian mechanism (Canonne et al., 2020). Experiments show that our approach is significantly more accurate than the baselines in the low-to-moderate privacy regime.
翻訳日:2023-03-14 20:13:31 公開日:2023-03-10
# MCROOD:マルチクラスレーダー出力検出

MCROOD: Multi-Class Radar Out-Of-Distribution Detection ( http://arxiv.org/abs/2303.06232v1 )

ライセンス: Link先を確認
Sabri Mustafa Kahya, Muhammet Sami Yavuz, Eckehard Steinbach(参考訳) 最新のディープラーニング(DL)アーキテクチャを安全に展開する上で重要な役割を担っているため、OOD(Out-of-distriion)検出が最近注目されている。 本研究は,レーダレンジドップラー画像(RDI)を利用する再構成型マルチクラスOOD検出器を提案する。 この検出器は、OODとして座っている人、立っている人、歩いている人以外の移動物体を分類することを目的としている。 また,呼吸などの人体運動を簡易かつ効果的に検出する前処理技術も提供する。 単純なアイデアは呼吸検知(respiration detector, respd)と呼ばれ、特に座ったり立ったりするクラスでood検出が容易になる。 60GHz短距離FMCWレーダで収集したデータセットでは、AUROCが97.45%、92.13%、96.58%、歩行クラスが96.58%である。 我々は広範囲な実験を行い,その方法がSOTA(State-of-the-art)OOD検出法より優れていることを示す。 また、パイプラインは第2のメソッドよりも24倍高速で、リアルタイム処理に非常に適しています。

Out-of-distribution (OOD) detection has recently received special attention due to its critical role in safely deploying modern deep learning (DL) architectures. This work proposes a reconstruction-based multi-class OOD detector that operates on radar range doppler images (RDIs). The detector aims to classify any moving object other than a person sitting, standing, or walking as OOD. We also provide a simple yet effective pre-processing technique to detect minor human body movements like breathing. The simple idea is called respiration detector (RESPD) and eases the OOD detection, especially for human sitting and standing classes. On our dataset collected by 60GHz short-range FMCW Radar, we achieve AUROCs of 97.45%, 92.13%, and 96.58% for sitting, standing, and walking classes, respectively. We perform extensive experiments and show that our method outperforms state-of-the-art (SOTA) OOD detection methods. Also, our pipeline performs 24 times faster than the second-best method and is very suitable for real-time processing.
翻訳日:2023-03-14 20:13:05 公開日:2023-03-10
# 変圧器をベースとした事前学習モデルの微調整を伴わない問合せ型要約の生成

Generating Query Focused Summaries without Fine-tuning the Transformer-based Pre-trained Models ( http://arxiv.org/abs/2303.06230v1 )

ライセンス: Link先を確認
Deen Abdullah, Shamanth Nayak, Gandharv Suri, Yllias Chali(参考訳) 新しいデータセットごとに自然言語処理(NLP)モデルを微調整するには、炭素フットプリントの増加とコストの増大に伴う高い計算時間が必要である。 しかし、微調整は、事前学習されたモデルが最新のデータセットに適応するのに役立ち、微調整のステップを回避し、事前学習されたモデルのみを使用して要約を生成して計算時間とコストを削減しようとする場合はどうだろう。 本稿では,微調整ステップを省略し,境界最大妥当性(mmr)に基づくアプローチが,事前学習されたモデルが,事前学習に使用されていない新しいデータセットから直接クエリ中心の要約を得るのに役立つかどうかを検証した。 まず,wikipedia current events portal (wcep) と debatepedia データセット上でトピックモデリングを行い,要約タスクのクエリ生成を行った。 そして、MMRを用いて、クエリに基づいて文書の文をランク付けした。 次に,分類文を7つのトランスフォーマティブ型事前学習モデルに渡し,要約処理を行った。 最後に、MMR手法を用いて、個々の事前学習モデルの生成された要約からクエリ関連文を選択し、最終的な要約を構築した。 実験結果から示すように,MMRに基づく手法では,最も関連性の高い文を要約としてランク付けし,個々の事前学習モデルよりも優れた性能を示した。

Fine-tuning the Natural Language Processing (NLP) models for each new data set requires higher computational time associated with increased carbon footprint and cost. However, fine-tuning helps the pre-trained models adapt to the latest data sets; what if we avoid the fine-tuning steps and attempt to generate summaries using just the pre-trained models to reduce computational time and cost. In this paper, we tried to omit the fine-tuning steps and investigate whether the Marginal Maximum Relevance (MMR)-based approach can help the pre-trained models to obtain query-focused summaries directly from a new data set that was not used to pre-train the models. First, we used topic modelling on Wikipedia Current Events Portal (WCEP) and Debatepedia datasets to generate queries for summarization tasks. Then, using MMR, we ranked the sentences of the documents according to the queries. Next, we passed the ranked sentences to seven transformer-based pre-trained models to perform the summarization tasks. Finally, we used the MMR approach again to select the query relevant sentences from the generated summaries of individual pre-trained models and constructed the final summary. As indicated by the experimental results, our MMR-based approach successfully ranked and selected the most relevant sentences as summaries and showed better performance than the individual pre-trained models.
翻訳日:2023-03-14 20:12:45 公開日:2023-03-10
# 事前定義された動きパターンの自動分類:GNSSとUWB技術の比較

Automated classification of pre-defined movement patterns: A comparison between GNSS and UWB technology ( http://arxiv.org/abs/2303.07107v1 )

ライセンス: Link先を確認
Rodi Laanen, Maedeh Nasri, Richard van Dijk, Mitra Baratchi, Alexander Koutamanis and Carolien Rieffe(参考訳) 高度リアルタイム位置情報システム(rtls)は、人間の運動行動から時空間データの収集を可能にする。 校庭や介護施設などの小さな地域で個人を追跡することは、位置決め精度においてrtlに困難をもたらす可能性がある。 しかし,これまで,小地域におけるヒトの運動パターンの分類に関する異なる局所化システムの性能に関する研究は少ない。 本研究の目的は,GNSS(Global Navigation Satellite System)とUWB(Ultra-wideband)の2つの異なるRTLSから得られる人体運動軌跡を約100平方メートルの領域で分類する枠組みを設計・評価することである。 具体的には、GNSSまたはUWBデータを入力とし、これらのデータから特徴を抽出し、注釈付き空間パターンに従って分類する汎用フレームワークを設計した。 自動フレームワークには、ノイズ除去の3つの選択肢がある。 (i)ノイズ除去なし。 (ii)生の位置データ上のサヴィッツキーゴレーフィルタ、又は (iii) 抽出された特徴に対するサヴィッツキー・ゴレイフィルタ、および分類アルゴリズムに関する3つの選択:決定木(dt)、ランダムフォレスト(rf)、サポートベクターマシン(svm)。 SMAC(Sequential Model-Based Algorithm Configuration)とフレームワーク内の異なるステージを統合し、自動ハイパーパラメータ最適化を行った。 GNSSのRFモデルとUWBのSVMモデルでノイズ除去を行わず、生の位置情報に適用したノイズ除去からなるパイプラインで最高の性能が得られる。 さらに,UWBは運動パターンの分類において,GNSSよりも有意に高い結果が得られることを示す。

Advanced real-time location systems (RTLS) allow for collecting spatio-temporal data from human movement behaviours. Tracking individuals in small areas such as schoolyards or nursing homes might impose difficulties for RTLS in terms of positioning accuracy. However, to date, few studies have investigated the performance of different localisation systems regarding the classification of human movement patterns in small areas. The current study aims to design and evaluate an automated framework to classify human movement trajectories obtained from two different RTLS: Global Navigation Satellite System (GNSS) and Ultra-wideband (UWB), in areas of approximately 100 square meters. Specifically, we designed a versatile framework which takes GNSS or UWB data as input, extracts features from these data and classifies them according to the annotated spatial patterns. The automated framework contains three choices for applying noise removal: (i) no noise removal, (ii) Savitzky Golay filter on the raw location data or (iii) Savitzky Golay filter on the extracted features, as well as three choices regarding the classification algorithm: Decision Tree (DT), Random Forest (RF) or Support Vector Machine (SVM). We integrated different stages within the framework with the Sequential Model-Based Algorithm Configuration (SMAC) to perform automated hyperparameter optimisation. The best performance is achieved with a pipeline consisting of noise removal applied to the raw location data with an RF model for the GNSS and no noise removal with an SVM model for the UWB. We further demonstrate through statistical analysis that the UWB achieves significantly higher results than the GNSS in classifying movement patterns.
翻訳日:2023-03-14 15:01:33 公開日:2023-03-10
# ニューラルネットワーク分類器の不確かさ定量化 - 局所線形アプローチ

Uncertainty quantification in neural network classifiers -- a local linear approach ( http://arxiv.org/abs/2303.07114v1 )

ライセンス: Link先を確認
Magnus Malmstr\"om, Isaac Skog, Daniel Axehill, Fredrik Gustafsson(参考訳) ニューラルネットワーク(nn)に基づく分類器は、予測されたクラスにおける不確実性の尺度を欠くことが多い。 本稿では,異なるクラスの確率質量関数(PMF)と推定されたPMFの共分散を推定する手法を提案する。 まず、NNにおけるパラメータの共分散を再帰的に計算するために、トレーニングフェーズ中に局所線形アプローチが使用される。 第二に、分類段階では、学習したNNパラメータの共分散をNNの最終層の出力の不確実性に伝播するために、別の局所線形アプローチが用いられる。 これにより、効率的なモンテカルロ(MC)アプローチが可能になる。 (i)PMFの推定 (ii)推定pmfの共分散を計算すること、 (iii)複数の分類器の適切なリスク評価と融合。 MNISTとCFAR10という2つの古典的画像分類タスクを用いて,提案手法の有効性を実証する。

Classifiers based on neural networks (NN) often lack a measure of uncertainty in the predicted class. We propose a method to estimate the probability mass function (PMF) of the different classes, as well as the covariance of the estimated PMF. First, a local linear approach is used during the training phase to recursively compute the covariance of the parameters in the NN. Secondly, in the classification phase another local linear approach is used to propagate the covariance of the learned NN parameters to the uncertainty in the output of the last layer of the NN. This allows for an efficient Monte Carlo (MC) approach for: (i) estimating the PMF; (ii) calculating the covariance of the estimated PMF; and (iii) proper risk assessment and fusion of multiple classifiers. Two classical image classification tasks, i.e., MNIST, and CFAR10, are used to demonstrate the efficiency the proposed method.
翻訳日:2023-03-14 14:51:07 公開日:2023-03-10
# FedACK: 言語横断型およびモデル横断型ソーシャルボット検出のための相互比較知識蒸留

FedACK: Federated Adversarial Contrastive Knowledge Distillation for Cross-Lingual and Cross-Model Social Bot Detection ( http://arxiv.org/abs/2303.07113v1 )

ライセンス: Link先を確認
Yingguang Yang, Renyu Yang, Hao Peng, Yangyang Li, Tong Li, Yong Liao, Pengyuan Zhou(参考訳) ソーシャルボット検出は、オンラインソーシャルプラットフォームのレジリエンスとセキュリティにとって最も重要なものだ。 最先端検出モデルはサイロ化されており、多言語プラットフォームからさまざまなデータ特性を見落としている。 一方、データ分散とモデルアーキテクチャの不均一性により、効率的なクロスプラットフォームおよびクロスモデル検出フレームワークの開発が複雑になる。 本稿では,ソーシャルボット検出のための新たな対向的対向的知識蒸留フレームワークであるFedACKを提案する。 クライアント間でのデータ流通に関する知識を効率的に伝達するためのgan型連系知識蒸留機構を考案する。 特に、グローバル・ジェネレータは、グローバル・データ分散の知識を抽出し、各クライアントのローカル・モデルに蒸留するために使用される。 局所判別器を用いてモデル設計をカスタマイズし,データエンハンスメントに局所生成器を用いる。 ローカルトレーニングは、クライアント間の一貫した特徴空間を可能にし、ローカルモデルの最適化方向を制約し、ローカルモデルとグローバルモデルの相違を減らすために、多段階の相反学習およびコントラスト学習として行われる。 実験により、フェダックは精度、通信効率、特徴空間の一貫性の観点から最先端のアプローチよりも優れていることが示されている。

Social bot detection is of paramount importance to the resilience and security of online social platforms. The state-of-the-art detection models are siloed and have largely overlooked a variety of data characteristics from multiple cross-lingual platforms. Meanwhile, the heterogeneity of data distribution and model architecture makes it intricate to devise an efficient cross-platform and cross-model detection framework. In this paper, we propose FedACK, a new federated adversarial contrastive knowledge distillation framework for social bot detection. We devise a GAN-based federated knowledge distillation mechanism for efficiently transferring knowledge of data distribution among clients. In particular, a global generator is used to extract the knowledge of global data distribution and distill it into each client's local model. We leverage local discriminator to enable customized model design and use local generator for data enhancement with hard-to-decide samples. Local training is conducted as multi-stage adversarial and contrastive learning to enable consistent feature spaces among clients and to constrain the optimization direction of local models, reducing the divergences between local and global models. Experiments demonstrate that FedACK outperforms the state-of-the-art approaches in terms of accuracy, communication efficiency, and feature space consistency.
翻訳日:2023-03-14 14:50:55 公開日:2023-03-10
# グリッド・インタラクティブな建物におけるヒューマン・ビルディングインタラクションの動的快適性モデルに向けて-フィールドデータによる支援-

Toward A Dynamic Comfort Model for Human-Building Interaction in Grid-Interactive Efficient Buildings: Supported by Field Data ( http://arxiv.org/abs/2303.07206v1 )

ライセンス: Link先を確認
SungKu Kang, Kunind Sharma, Maharshi Pathak, Emily Casavant, Katherine Bassett, Misha Pavel, David Fannon, Michael Kane(参考訳) 電気負荷の制御は、再生可能エネルギーの導入と電化によるグリッドひずみの増加を緩和する可能性がある。 しかしながら、最も暑い日に自動的にサーモスタットをセットする現在のアプローチは、ヒューマンビルディング相互作用(HBI)を無視して効果を損なう。 本研究の目的は,グリッド・インタラクティブ・エフェクト・ビルディング(GEB)の制御設計に使用されるHBIの工学モデルを開発する上での課題と機会を定義することである。 4月から9月にかけて,20世帯の41人を対象に,建築システムと心理生理学的調査を行った。 これらのデータを用いて建築設計のためのASHRAE標準55熱快適モデルの評価を行った。 時空間温度変化の増加とともに誤差バイアスが増大した。 これらのモデルを考えると、こうしたばらつきは無視されるが、サーモスタットのセグポイントを制御するGEBの適合性を疑問視し、観測された4{\deg}Fの家庭内空間温度変化を与えられた。 その結果,GEBにおけるこれらのバイアスを緩和し,快適さの代わりに不快感をモデル化するパラダイムシフト,低コストセンサの使用量の増加,観察された動的占有行動を考慮したモデルにより,従来の設定点変化から140分間のサーモスタット設定点オーバーライド,120分間の小さな変更(2{\deg}F)の95%,70分間の大規模な変更(10{\deg}F)の95%がわずかであった。

Controlling building electric loads could alleviate the increasing grid strain caused by the adoption of renewables and electrification. However, current approaches that automatically setback thermostats on the hottest day compromise their efficacy by neglecting human-building interaction (HBI). This study aims to define challenges and opportunities for developing engineering models of HBI to be used in the design of controls for grid-interactive efficient buildings (GEBs). Building system and measured and just-in-time surveyed psychophysiological data were collected from 41 participants in 20 homes from April-September. ASHRAE Standard 55 thermal comfort models for building design were evaluated with these data. Increased error bias was observed with increasing spatiotemporal temperature variations. Unsurprising, considering these models neglect such variance, but questioning their suitability for GEBs controlling thermostat setpoints, and given the observed 4{\deg}F intra-home spatial temperature variation. The results highlight opportunities for reducing these biases in GEBs through a paradigm shift to modeling discomfort instead of comfort, increasing use of low-cost sensors, and models that account for the observed dynamic occupant behavior: of the thermostat setpoint overrides made with 140-minutes of a previous setpoint change, 95% of small changes ( 2{\deg}F) were made with 120-minutes, while 95% of larger changes ( 10{\deg}F) were made within only 70-minutes.
翻訳日:2023-03-14 14:15:52 公開日:2023-03-10
# スパースニューラルネットワークにおけるニューロン進化による特徴選択の監督

Supervised Feature Selection with Neuron Evolution in Sparse Neural Networks ( http://arxiv.org/abs/2303.07200v1 )

ライセンス: Link先を確認
Zahra Atashgahi, Xuhao Zhang, Neil Kichler, Shiwei Liu, Lu Yin, Mykola Pechenizkiy, Raymond Veldhuis, Decebal Constantin Mocanu(参考訳) 本稿ではニューロFSと呼ばれる新しい教師付き特徴選択法を提案する。 NeuroFSはスパースニューラルネットワークのトレーニングプロセスにおいて動的ニューロン進化を導入し、情報的特徴セットを見つける。 実世界のベンチマークデータセットでneurofsを評価することで、最先端の教師付き特徴選択モデルの中で最高のランキングスコアを達成できることを実証した。 しかし、トレーニング中にスパースニューラルネットワークを最適に実装する知識が不足しているため、NeuroFSはその理論的に高い計算とメモリの利点を十分に活用していない。 我々は、この挑戦的な研究の方向性の開発を、願わくば、コミュニティのより大きな共同作業に委ねる。

This paper proposes a novel supervised feature selection method named NeuroFS. NeuroFS introduces dynamic neuron evolution in the training process of a sparse neural network to find an informative set of features. By evaluating NeuroFS on real-world benchmark datasets, we demonstrated that it achieves the highest ranking-based score among the considered state-of-the-art supervised feature selection models. However, due to the general lack of knowledge on optimally implementing sparse neural networks during training, NeuroFS does not take full advantage of its theoretical high computational and memory advantages. We let the development of this challenging research direction for future work, hopefully, in a greater joint effort of the community.
翻訳日:2023-03-14 14:14:53 公開日:2023-03-10
# 動的モデル学習のためのベンチマークとしての特定水族館の運用データ:8時間地平線上での有効予測モデル探索

Operating data of a specific Aquatic Center as a Benchmark for dynamic model learning: search for a valid prediction model over an 8-hour horizon ( http://arxiv.org/abs/2303.07195v1 )

ライセンス: Link先を確認
Fran\c{c}ois Gauthier-Clerc, Hoel Le Capitaine, Fabien Claveau, Philippe Chevrel(参考訳) 本稿では,運用中の公営スイミングプールのデータに基づく識別リポジトリを提案する。 このようなシステムは複雑なプロセスであり、問題に関しても容易に理解できます。 究極の目標は、サービス品質のレベルを維持しながら、エネルギー法案を減らすことだ。 この目的は一般にスコープであり、公共のプールに限ったものではない。 経済予測制御と呼ばれる方法で効率的に行うことができる。 この種の高度な制御はプロセスモデルに基づいている。 本稿の問題点であり,このような動的モデルが運用データから得られることを示すためのベンチマークも検討されている。 そのため、運用データは形式化され、共有され、モデル品質指標が提案される。 この結果に基づき、第1の同定結果は、線形多変数モデルと、他方のニューラルネットワークモデルによって得られた結果を示す。 彼らは他の提案や、コントロールとデータサイエンティストによる比較結果を求めている。

This paper presents an identification repository based on data from a public swimming pool in operation. Such a system is both a complex process and easily understandable by all with regard to the issues. Ultimately, the aim is to reduce the energy bill while maintaining the level of quality of service. This objective is general in scope and not just limited to public swimming pools. It can be done efficiently through what is known as economic predictive control. This type of advanced control is based on a process model. It is the problem of this article and the benchmark considered to show that such a dynamic model can be obtained from operating data. For this, operational data is formatted and shared, and model quality indicators are proposed. On this basis, the first identification results illustrate the results obtained by a linear multivariable model on the one hand, and by a neural model on the other hand. They call for other proposals and results from control and data scientists for comparison.
翻訳日:2023-03-14 14:14:12 公開日:2023-03-10
# 関数畳み込みを伴う神経偏微分方程式

Neural Partial Differential Equations with Functional Convolution ( http://arxiv.org/abs/2303.07194v1 )

ライセンス: Link先を確認
Ziqian Wu, Xingzhe He, Yijun Li, Cheng Yang, Rui Liu, Shiying Xiong, Bo Zhu(参考訳) 本稿では、隠れた構造を発見し、異なる非線形PDEの解を予測するために、軽量なニューラルPDE表現を提案する。 我々のキーとなる考え方は、数値PDE微分演算子の「翻訳類似性」の先行を利用して、学習モデルと学習データのスケールを大幅に削減することである。 我々は,神経機能畳み込み演算子,ピカード前方反復手続き,随伴逆勾配電卓の3つの中央ネットワークコンポーネントを実装した。 提案手法は, 物理的pde解多様体の疎弱かつ滑らかな性質と, 随伴解法, 線形化法, 反復手続きなどの様々な成熟した数値的手法を十分に活用し, 計算を高速化する。 提案手法の有効性は,モデルを発見し,小規模ネットワークとトレーニングセットを用いた各種PDEの解を精度良く予測することによって実証する。 私たちが示したすべてのPDEサンプルは、最大8つのデータサンプルと325のネットワークパラメータでトレーニングされています。

We present a lightweighted neural PDE representation to discover the hidden structure and predict the solution of different nonlinear PDEs. Our key idea is to leverage the prior of ``translational similarity'' of numerical PDE differential operators to drastically reduce the scale of learning model and training data. We implemented three central network components, including a neural functional convolution operator, a Picard forward iterative procedure, and an adjoint backward gradient calculator. Our novel paradigm fully leverages the multifaceted priors that stem from the sparse and smooth nature of the physical PDE solution manifold and the various mature numerical techniques such as adjoint solver, linearization, and iterative procedure to accelerate the computation. We demonstrate the efficacy of our method by robustly discovering the model and accurately predicting the solutions of various types of PDEs with small-scale networks and training sets. We highlight that all the PDE examples we showed were trained with up to 8 data samples and within 325 network parameters.
翻訳日:2023-03-14 14:14:00 公開日:2023-03-10
# マルチタスク学習のための適応重み付け方式

Adaptive Weight Assignment Scheme For Multi-task Learning ( http://arxiv.org/abs/2303.07278v1 )

ライセンス: Link先を確認
Aminul Huq, Mst Tasnim Pervin(参考訳) ディープラーニングベースのモデルは現在、すべてのアプリケーションで定期的に使用されています。 一般的に、1つのタスクで1つのモデルをトレーニングします。 しかし、マルチタスク学習設定では、1つのモデルで複数のタスクをトレーニングできる。 これにより、トレーニング時間の短縮、複数のタスクに対する単一モデルのトレーニング、過剰フィッティングの削減、パフォーマンスの向上など、多くのメリットが得られます。 マルチタスク学習環境でモデルをトレーニングするには、異なるタスクの損失値を統合する必要があります。 バニラマルチタスク学習設定では、同じ重みを割り当てるが、すべてのタスクが同様の困難であるとは限らないため、より難しいタスクにより多くの重みを割り当てる必要がある。 また、不適切な重み付けはモデルの性能を低下させる。 本稿では,モデルの性能を向上し,より難しいタスクに重点を置く,簡単な重み付け方式を提案する。 提案手法を画像データとテキストデータの両方でテストし,2つの一般的な重み付け手法との比較を行った。 実験結果から,提案手法は他の一般的な手法と比較して優れた結果が得られることが示唆された。

Deep learning based models are used regularly in every applications nowadays. Generally we train a single model on a single task. However, we can train multiple tasks on a single model under multi-task learning settings. This provides us many benefits like lesser training time, training a single model for multiple tasks, reducing overfitting, improving performances etc. To train a model in multi-task learning settings we need to sum the loss values from different tasks. In vanilla multi-task learning settings we assign equal weights but since not all tasks are of similar difficulty we need to allocate more weight to tasks which are more difficult. Also improper weight assignment reduces the performance of the model. We propose a simple weight assignment scheme in this paper which improves the performance of the model and puts more emphasis on difficult tasks. We tested our methods performance on both image and textual data and also compared performance against two popular weight assignment methods. Empirical results suggest that our proposed method achieves better results compared to other popular methods.
翻訳日:2023-03-14 13:58:12 公開日:2023-03-10
# ニューラルネットワークにおけるシナプス可塑性制御

Control of synaptic plasticity in neural networks ( http://arxiv.org/abs/2303.07273v1 )

ライセンス: Link先を確認
Mohammad Modiri(参考訳) 脳は非線形で高頻度のリカレントニューラルネットワーク(RNN)である。 このRNNは驚くほどプラスチックで、複雑なタスクを学習し実行するための驚くべき能力をサポートしています。 しかし、学習は脳の非線形性と、各シナプスの出力エラーへの寄与を決定するメカニズムの欠如のため、信じられないほど複雑である。 この問題はCredit Assignment Problem(CAP)と呼ばれ、神経科学と人工知能(AI)における根本的な課題である。 しかしながら、認知神経科学の現在の理解においては、フィードバックループシステムがシナプス可塑性において重要な役割を果たすことが広く受け入れられている。 これをインスピレーションとして、ニューラルネットワーク(NN)と非線形最適制御理論を組み合わせた計算モデルを提案する。 提案フレームワークは,NNのシナプス可塑性に対する誤差フィードバックループシステムと投影をシミュレートし,出力誤差を最小限に抑えるため,新しいNNベースのアクタ批判手法を含む。

The brain is a nonlinear and highly Recurrent Neural Network (RNN). This RNN is surprisingly plastic and supports our astonishing ability to learn and execute complex tasks. However, learning is incredibly complicated due to the brain's nonlinear nature and the obscurity of mechanisms for determining the contribution of each synapse to the output error. This issue is known as the Credit Assignment Problem (CAP) and is a fundamental challenge in neuroscience and Artificial Intelligence (AI). Nevertheless, in the current understanding of cognitive neuroscience, it is widely accepted that a feedback loop systems play an essential role in synaptic plasticity. With this as inspiration, we propose a computational model by combining Neural Networks (NN) and nonlinear optimal control theory. The proposed framework involves a new NN-based actor-critic method which is used to simulate the error feedback loop systems and projections on the NN's synaptic plasticity so as to ensure that the output error is minimized.
翻訳日:2023-03-14 13:57:17 公開日:2023-03-10
# 芸術の状況はどうなっていますか。 機械学習ベンチマーク性能における多重性会計

What is the state of the art? Accounting for multiplicity in machine learning benchmark performance ( http://arxiv.org/abs/2303.07272v1 )

ライセンス: Link先を確認
Kajsa M{\o}llersen and Einar Holsb{\o}(参考訳) 機械学習手法は一般に評価され、公開リポジトリのデータセットのパフォーマンスによって比較される。 これにより、しばしば数千のメソッドが同じ条件下で、時間にわたって評価される。 問題における最上位の成績は「最先端(SOTA)パフォーマンス」と呼ばれ、新しい手法を公表するための基準点として用いられる。 SOTAの最大性能を推定として用いることは偏りのある推定器であり、過度に楽観的な結果を与える。 マルチプリシティ(multiplicity)は、複数の比較と複数のテストの文脈でよく研究されているトピックであるが、著者たちが認識している限り、SOTAの推定に関する議論からほとんど欠落している。 新しい手法を評価するための基準として,楽観的な最先端推定法が用いられ,その結果が著しく劣る手法が容易に見過ごされる。 本稿では、複数の分類器の場合の確率分布について、既知の解析手法を適用できるようにし、より優れたSOTA推定値を提供する。 独立分類器を用いた模擬例による乗法の影響を実証する。 分類子依存性が分散にどのように影響するかを示すとともに,精度が高い場合には影響が限定されることを示した。 最後に,2020年のkaggleコンペティションという実例について論じる。

Machine learning methods are commonly evaluated and compared by their performance on data sets from public repositories. This allows for multiple methods, oftentimes several thousands, to be evaluated under identical conditions and across time. The highest ranked performance on a problem is referred to as state-of-the-art (SOTA) performance, and is used, among other things, as a reference point for publication of new methods. Using the highest-ranked performance as an estimate for SOTA is a biased estimator, giving overly optimistic results. The mechanisms at play are those of multiplicity, a topic that is well-studied in the context of multiple comparisons and multiple testing, but has, as far as the authors are aware of, been nearly absent from the discussion regarding SOTA estimates. The optimistic state-of-the-art estimate is used as a standard for evaluating new methods, and methods with substantial inferior results are easily overlooked. In this article, we provide a probability distribution for the case of multiple classifiers so that known analyses methods can be engaged and a better SOTA estimate can be provided. We demonstrate the impact of multiplicity through a simulated example with independent classifiers. We show how classifier dependency impacts the variance, but also that the impact is limited when the accuracy is high. Finally, we discuss a real-world example; a Kaggle competition from 2020.
翻訳日:2023-03-14 13:57:00 公開日:2023-03-10
# 研究シェルにおけるアルゴリズムゴースト:大規模言語モデルとマネジメント研究における学術知識創造

Algorithmic Ghost in the Research Shell: Large Language Models and Academic Knowledge Creation in Management Research ( http://arxiv.org/abs/2303.07304v1 )

ライセンス: Link先を確認
Nigel Williams, Stanislav Ivanov, Dimitrios Buhalis(参考訳) 本稿は,学術知識創造における大規模言語モデルの役割を,研究者が以前GPTを使用して,データ解析以上の学術知識創造タスクの実行を支援してきた経緯を,スクーピングレビュー(2018年-2023年1月)に基づいて考察する。 これらのタスクには、書き込み、編集、レビュー、データセットの生成、キュレーションが含まれる。 本研究は,これらの論文の合成に基づいて,共著者・研究アシスタント・レスポンデントとして出版されている論文において,現在の採用形態に基づく大規模言語モデルの広範な利用を取り入れた,将来の学術研究展望の道筋を明らかにする。

The paper looks at the role of large language models in academic knowledge creation based on a scoping review (2018 to January 2023) of how researchers have previously used the language model GPT to assist in the performance of academic knowledge creation tasks beyond data analysis. These tasks include writing, editing, reviewing, dataset creation and curation, which have been difficult to perform using earlier ML tools. Based on a synthesis of these papers, this study identifies pathways for a future academic research landscape that incorporates wider usage of large language models based on the current modes of adoption in published articles as a Co-Writer, Research Assistant and Respondent.
翻訳日:2023-03-14 13:36:01 公開日:2023-03-10
# 視覚テキストの摂動の正当性を学ぶ

Learning the Legibility of Visual Text Perturbations ( http://arxiv.org/abs/2303.05077v2 )

ライセンス: Link先を確認
Dev Seth, Rickard Stureborg, Danish Pruthi and Bhuwan Dhingra(参考訳) NLPパーターブの多くの敵攻撃は、視覚的に類似した文字列('ergo' $\rightarrow$ '$\epsilon$rgo')を生成するために入力される。 正当性を維持することはテキストの摂動に必要条件であるが、体系的な特徴付けのためにはほとんど行われておらず、代わりに摂動の性質と範囲に関する直観によって適性は緩やかに強制される。 特に、可視性を保ちながらどの程度入力が摂動できるのか、あるいは摂動弦の可視性を定量化する方法は不明確である。 本研究では,摂動文字列の正当性を予測する学習モデルと,その正当性に基づいたランク候補摂動により,このギャップに対処する。 そこで我々は、視覚的摂動テキストの可視性を含む人手による注釈付きデータセットLEGITを収集、リリースする。 このデータセットを使用して、入力が正しいかどうかを予測する際に最大$0.91$ f1スコアを達成するテキストベースと視覚ベースのモデルの両方を構築し、与えられた2つの摂動のうちどれがより妥当であるかを予測するのに$0.86$の精度を持つ。 さらに,LEGITデータセットからの正当摂動は,既知の攻撃戦略よりもNLPモデルの性能低下に有効であることが判明し,現在のモデルが既存の視覚的攻撃によって捉えられる範囲を超えて幅広い摂動に対して脆弱である可能性が示唆された。 データ、コード、モデルはhttps://github.com/dvsth/learning-legibility-2023で入手できる。

Many adversarial attacks in NLP perturb inputs to produce visually similar strings ('ergo' $\rightarrow$ '$\epsilon$rgo') which are legible to humans but degrade model performance. Although preserving legibility is a necessary condition for text perturbation, little work has been done to systematically characterize it; instead, legibility is typically loosely enforced via intuitions around the nature and extent of perturbations. Particularly, it is unclear to what extent can inputs be perturbed while preserving legibility, or how to quantify the legibility of a perturbed string. In this work, we address this gap by learning models that predict the legibility of a perturbed string, and rank candidate perturbations based on their legibility. To do so, we collect and release LEGIT, a human-annotated dataset comprising the legibility of visually perturbed text. Using this dataset, we build both text- and vision-based models which achieve up to $0.91$ F1 score in predicting whether an input is legible, and an accuracy of $0.86$ in predicting which of two given perturbations is more legible. Additionally, we discover that legible perturbations from the LEGIT dataset are more effective at lowering the performance of NLP models than best-known attack strategies, suggesting that current models may be vulnerable to a broad range of perturbations beyond what is captured by existing visual attacks. Data, code, and models are available at https://github.com/dvsth/learning-legibility-2023.
翻訳日:2023-03-14 09:14:58 公開日:2023-03-10
# 画像ラベルテキストからの反復的少数ショット意味セグメンテーション

Iterative Few-shot Semantic Segmentation from Image Label Text ( http://arxiv.org/abs/2303.05646v1 )

ライセンス: Link先を確認
Haohan Wang, Liang Liu, Wuhao Zhang, Jiangning Zhang, Zhenye Gan, Yabiao Wang, Chengjie Wang, Haoqian Wang(参考訳) 少数ショットのセマンティクスセグメンテーションは、わずか数枚のサポートイメージのガイダンスで、目に見えないクラスオブジェクトのセグメンテーションを学ぶことを目的としている。 以前の方法のほとんどは、サポートイメージのピクセルレベルラベルに依存している。 本稿では,画像レベルのラベルのみを利用できる,より困難な設定に焦点をあてる。 本稿では、まず、強力な視覚言語モデルCLIPの助けを借りて粗いマスクを生成するための一般的なフレームワークを提案し、次に、サポートおよびクエリ画像のマスク予測を反復的かつ相互に洗練する。 PASCAL-5iとCOCO-20iデータセットの大規模な実験により、我々の手法は最先端の弱い教師付きアプローチをかなりのマージンで上回るだけでなく、最近の教師付き手法に匹敵する、あるいはより良い結果をもたらすことを示した。 さらに,本手法は,野生・珍しいクラスの画像に対して優れた一般化能力を有する。 コードはhttps://github.com/whileherham/imr-hsnetで入手できる。

Few-shot semantic segmentation aims to learn to segment unseen class objects with the guidance of only a few support images. Most previous methods rely on the pixel-level label of support images. In this paper, we focus on a more challenging setting, in which only the image-level labels are available. We propose a general framework to firstly generate coarse masks with the help of the powerful vision-language model CLIP, and then iteratively and mutually refine the mask predictions of support and query images. Extensive experiments on PASCAL-5i and COCO-20i datasets demonstrate that our method not only outperforms the state-of-the-art weakly supervised approaches by a significant margin, but also achieves comparable or better results to recent supervised methods. Moreover, our method owns an excellent generalization ability for the images in the wild and uncommon classes. Code will be available at https://github.com/Whileherham/IMR-HSNet.
翻訳日:2023-03-13 16:37:57 公開日:2023-03-10
# Heterogenely Integrated Memresonator を用いた高速・高効率非揮発性シリコンフォトニックメモリ

High-Speed and Energy-Efficient Non-Volatile Silicon Photonic Memory Based on Heterogeneously Integrated Memresonator ( http://arxiv.org/abs/2303.05644v1 )

ライセンス: Link先を確認
Bassem Tossoun, Di Liang, Stanley Cheung, Zhuoran Fang, Xia Sheng, John Paul Strachan and Raymond G. Beausoleil(参考訳) 近年、深層ニューラルネットワーク、量子コンピューティング、フィールドプログラマブルアレイ(fpga)の潜在的なハードウェアフレームワークとしてプログラマブルフォトニクス集積回路への関心が高まっている。 しかし、これらの回路は、使用した位相シフト器の調整速度と消費電力の制限により制約される。 本稿では,不揮発性メモリを用いた位相シフト器として,シリコンフォトニックマイクロリング共振器と不均一に統合されたメムレータを初めて導入する。 これらのデバイスは12時間の保持が可能で、電圧が5v未満でスイッチングサイクルが1,000回持続する。 また、これらのメムレンソネータは電圧パルスを300psまで短くし、記録的な低いスイッチングエネルギーは0.15pJである。 さらに、これらのメムレータは、レーザーや検出器などのリッチなアクティブ、パッシブ、非線形の光電子デバイスをオンチップで直接統合し、インメモリフォトニックコンピューティングを可能にし、さらに集積フォトニックプロセッサ回路のスケーラビリティを向上させることができる不均一なIII-V/Siプラットフォーム上に製造されている。

Recently, interest in programmable photonics integrated circuits has grown as a potential hardware framework for deep neural networks, quantum computing, and field programmable arrays (FPGAs). However, these circuits are constrained by the limited tuning speed and large power consumption of the phase shifters used. In this paper, introduced for the first time are memresonators, or memristors heterogeneously integrated with silicon photonic microring resonators, as phase shifters with non-volatile memory. These devices are capable of retention times of 12 hours, switching voltages lower than 5 V, an endurance of 1,000 switching cycles. Also, these memresonators have been switched using voltage pulses as short as 300 ps with a record low switching energy of 0.15 pJ. Furthermore, these memresonators are fabricated on a heterogeneous III-V/Si platform capable of integrating a rich family of active, passive, and non-linear optoelectronic devices, such as lasers and detectors, directly on-chip to enable in-memory photonic computing and further advance the scalability of integrated photonic processor circuits.
翻訳日:2023-03-13 16:37:27 公開日:2023-03-10
# 空間的および分極的絡み合いによる生物の量子イメージング

Quantum imaging of biological organisms through spatial and polarization entanglement ( http://arxiv.org/abs/2303.05643v1 )

ライセンス: Link先を確認
Yide Zhang, Zhe He, Xin Tong, David C. Garrett, Rui Cao, and Lihong V. Wang(参考訳) 量子イメージングは、古典的なイメージングに対してある種の利点をもたらす可能性がある。 しかし、今のところ信号対雑音比(snrs)は乏しく、分解可能な画素数は低く、生物は撮影されておらず、複屈折は定量化されていない。 ここでは、エンタングルメント(ice)による量子イメージングを紹介する。 空間的および偏光に絡み合った光子対を利用することで、ICEはより高いSNR、より解像度の高い解像度のピクセル数、生物のイメージング、ゴースト複屈折の定量化を行う。 ICEは、生命科学とリモートセンシングの新しい応用に量子イメージングを応用できる可能性がある。

Quantum imaging can potentially provide certain advantages over classical imaging. Thus far, however, the signal-to-noise ratios (SNRs) are poor; the resolvable pixel counts are low; biological organisms have not been imaged; birefringence has not been quantified. Here, we introduce quantum imaging by coincidence from entanglement (ICE). Utilizing spatially and polarization entangled photon pairs, ICE exhibits higher SNRs, greater resolvable pixel counts, imaging of biological organisms, and ghost birefringence quantification; it also enables 25 times greater suppression of stray light than classical imaging. ICE can potentially empower quantum imaging towards new applications in life sciences and remote sensing.
翻訳日:2023-03-13 16:37:05 公開日:2023-03-10
# 活動とパラメータ空間の併用による実時間繰り返し学習の効率化

Efficient Real Time Recurrent Learning through combined activity and parameter sparsity ( http://arxiv.org/abs/2303.05641v1 )

ライセンス: Link先を確認
Anand Subramoney(参考訳) 時間によるバックプロパゲーション(BPTT)は、リカレントニューラルネットワーク(RNN)をトレーニングするための標準アルゴリズムであり、それぞれ推論と学習のために前方と後方のパスに別々のシミュレーションフェーズを必要とする。 さらにBPTTは、入力シーケンス長に比例してメモリ消費が増加するため、位相間のネットワーク状態の完全な履歴を保存する必要がある。 これによりBPTTはオンライン学習に適せず、低リソースのリアルタイムシステムの実装に挑戦する。 リアルタイムリカレント学習(rtrl)はオンライン学習を可能にし、必要なメモリの成長はシーケンス長に依存しない。 しかし、RTRLは、状態サイズの第4のパワーに比例して増大する非常に高い計算コストに悩まされ、最小のネットワークを除く全てのネットワークに対して計算的に難航する。 本研究では,高い活動空間を示すリカレントネットワークがRTRLの計算コストを低減できることを示す。 さらに、アクティビティとパラメータの間隔を組み合わせることで、RTRLを実用的なものにするために計算とメモリのコストを大幅に削減することができる。 従来の研究とは異なり、このRTRLの効率の改善は、学習プロセスの近似を使わずに達成できる。

Backpropagation through time (BPTT) is the standard algorithm for training recurrent neural networks (RNNs), which requires separate simulation phases for the forward and backward passes for inference and learning, respectively. Moreover, BPTT requires storing the complete history of network states between phases, with memory consumption growing proportional to the input sequence length. This makes BPTT unsuited for online learning and presents a challenge for implementation on low-resource real-time systems. Real-Time Recurrent Learning (RTRL) allows online learning, and the growth of required memory is independent of sequence length. However, RTRL suffers from exceptionally high computational costs that grow proportional to the fourth power of the state size, making RTRL computationally intractable for all but the smallest of networks. In this work, we show that recurrent networks exhibiting high activity sparsity can reduce the computational cost of RTRL. Moreover, combining activity and parameter sparsity can lead to significant enough savings in computational and memory costs to make RTRL practical. Unlike previous work, this improvement in the efficiency of RTRL can be achieved without using any approximations for the learning process.
翻訳日:2023-03-13 16:36:50 公開日:2023-03-10
# 量子モンテカルロ積分によるターゲット分布を用いた量子メトロポリス・ヘイスティングスアルゴリズム

Quantum Metropolis-Hastings algorithm with the target distribution calculated by quantum Monte Carlo integration ( http://arxiv.org/abs/2303.05640v1 )

ライセンス: Link先を確認
Koichi Miyamoto(参考訳) マルコフ連鎖モンテカルロ法(MCMC)、特にメトロポリス・ハスティングス(MH)アルゴリズムは、目標確率分布から$P$を状態空間$\Omega$でサンプリングし、ベイズ的アプローチの統計モデルにおけるパラメータ推定などの様々な問題に適用するための広く用いられている手法である。 MCMCの量子アルゴリズムが提案され、古典的なスペクトルギャップの$\Delta$に対して2次スピードアップが得られる。 本稿では,MHアルゴリズムの量子バージョンについて,数式$1}{M}\sum_{i=0}^{M-1} \ell(i,x)$の和を演算することで,対数的な$L$の状態を$x\in\Omega$とするので,$P$の計算に費用がかかると考える。 我々は,量子モンテカルロ積分による$l$の計算を提案し,それを量子シミュレートアニーリング(qsa)と呼ばれる既存の手法と組み合わせて,$p$イン振幅を符号化する量子状態を生成する。 我々は状態生成だけでなく、ベイズ推定における共通課題であるパラメータの信頼区間も見いだすと考えている。 提案した信頼区間計算法では、$\delta$で$\ell$スケールを計算する量子回路へのクエリの数は、$l$のqsaに対して$\tilde{o}(\sigma/\epsilon^2\delta^{3/2})$とは対照的に、$l$のqsaに対して、必要な精度である$\epsilon$と標準偏差$\sigma$ as $\tilde{o}(\sigma/\epsilon^2\delta^{3/2})$である。 したがって、$\sigma$が$M$サブラインでスケールすると、提案手法は有利である。 そのような例として、パラメータ推定を重力波実験で考慮し、$\sigma=O(M^{1/2})$とする。

The Markov chain Monte Carlo method (MCMC), especially the Metropolis-Hastings (MH) algorithm, is a widely used technique for sampling from a target probability distribution $P$ on a state space $\Omega$ and applied to various problems such as estimation of parameters in statistical models in the Bayesian approach. Quantum algorithms for MCMC have been proposed, yielding the quadratic speedup with respect to the spectral gap $\Delta$ compered to classical counterparts. In this paper, we consider the quantum version of the MH algorithm in the case that calculating $P$ is costly because the log-likelihood $L$ for a state $x\in\Omega$ is obtained via computing the sum of many terms $\frac{1}{M}\sum_{i=0}^{M-1} \ell(i,x)$. We propose calculating $L$ by quantum Monte Carlo integration and combine it with the existing method called quantum simulated annealing (QSA) to generate the quantum state that encodes $P$ in amplitudes. We consider not only state generation but also finding a credible interval for a parameter, a common task in Bayesian inference. In the proposed method for credible interval calculation, the number of queries to the quantum circuit to compute $\ell$ scales on $\Delta$, the required accuracy $\epsilon$ and the standard deviation $\sigma$ of $\ell$ as $\tilde{O}(\sigma/\epsilon^2\Delta^{3/2})$, in contrast to $\tilde{O}(M/\epsilon\Delta^{1/2})$ for QSA with $L$ calculated exactly. Therefore, the proposed method is advantageous if $\sigma$ scales on $M$ sublinearly. As one such example, we consider parameter estimation in a gravitational wave experiment, where $\sigma=O(M^{1/2})$.
翻訳日:2023-03-13 16:36:29 公開日:2023-03-10
# スタイルGAN画像の自動分割のための教師付きワンショット学習

Self-Supervised One-Shot Learning for Automatic Segmentation of StyleGAN Images ( http://arxiv.org/abs/2303.05639v1 )

ライセンス: Link先を確認
Ankit Manerikar and Avinash C. Kak(参考訳) 本稿では,スタイルガンを用いた合成画像の自動ワンショットセグメンテーションの枠組みを提案する。 ワンショットセグメンテーション(one-shot segmentation)”の必要性については、ネットワークに、画像のセマンティックセグメンテーション(セマンティックセグメンテーション)をオンザフライで実行してほしいと考えています。 本フレームワークの実装は,画像合成中にganが生成するマルチスケール隠れ特徴が,自動セグメンテーションに使用できる有用な意味情報を保持しているという観測に基づく。 これらの特徴を活かして,提案手法は,ジェネレータ内の隠れた特徴をコンパクトな特徴空間に投影して画素単位の分類を行う,自己教師付きコントラストクラスタリングアルゴリズムを用いて合成画像のセグメント化を学習する。 このコントラスト学習者は、画像とその変換変種に対する画素単位のクラスタ割り当てを用いて計算される画像分割に置換された予測損失を用いる。 クラスタ化のためにすでにトレーニング済みのganの隠れた機能を使用すると、ワンショットセグメンテーションのためのピクセル単位の機能ベクトルの学習がはるかに高速になる。 我々は,多数の標準ベンチマーク(CelebA,LSUN,PASCAL-Part)でオブジェクトと部分のセグメンテーションを実装した。 実験の結果, 半教師付きベースライン法を平均wIoUマージン1.02%で上回るだけでなく, ピーク係数4.5で推論速度を向上するセグメンテーション性能が得られた。 最後に,脅威検出のためのアノテート合成手荷物x線スキャンを作成するためのganベースのフレームワークであるbagganの実装において,提案フレームワークを用いた結果を示す。 このワンショット学習フレームワークは、ベースラインセグメンタに近いセグメンテーション性能を得るために、5つの異なる脅威カテゴリに対して、PIDRayパッケージスクリーニングベンチマークでトレーニングされ、テストされた。

We propose in this paper a framework for automatic one-shot segmentation of synthetic images generated using StyleGANs. As to the need for `one-shot segmentation', we want the network to carry out a semantic segmentation of the images on the fly, that is, as they are being produced at inference time. The implementation of our framework is based on the observation that the multi-scale hidden features produced by a GAN during image synthesis hold useful semantic information that can be utilized for automatic segmentation. Using these features, our proposed framework learns to segment synthetic images using a novel self-supervised, contrastive clustering algorithm that projects the hidden features in the generator onto a compact feature space for per-pixel classification. This contrastive learner uses a swapped prediction loss for image segmentation that is computed using pixel-wise cluster assignments for the image and its transformed variants. Using the hidden features from an already pre-trained GAN for clustering, this leads to a much faster learning of the pixel-wise feature vectors for one-shot segmentation. We have tested our implementation on a number of standard benchmarks (CelebA, LSUN, PASCAL-Part) for object and part segmentation. The results of our experiments yield a segmentation performance that not only outperforms the semi-supervised baseline methods with an average wIoU margin of 1.02 % but also improves the inference speeds by a peak factor of 4.5. Finally, we also show the results of using the proposed framework in the implementation of BagGAN, a GAN-based framework for the production of annotated synthetic baggage X-ray scans for threat detection. This one-shot learning framework was trained and tested on the PIDRay baggage screening benchmark for 5 different threat categories to yield a segmentation performance which stands close to its baseline segmenter.
翻訳日:2023-03-13 16:35:41 公開日:2023-03-10
# 量子絡みによる円形ウンルー効果の検出

Detecting circular Unruh effect with quantum entanglement ( http://arxiv.org/abs/2303.05638v1 )

ライセンス: Link先を確認
Yuebing Zhou, Jiawei Hu, Hongwei Yu(参考訳) 真空中における円形運動における2つの原子からなる量子系の漸近状態は、角速度と軌道半径が適切であるときに絡み合うことができることを示す。 遠心加速度の結果として生じる漸近的絡み合いは初期状態独立であり、unruh効果の円版を示すものと見なすことができる。 この現象に基づき,最先端技術を用いて円形unruh効果を検出するための光学力学的セットアップを提案する。

We show that the asymptotic state of a quantum system composed of two atoms in circular motion in vacuum can be entangled when the angular velocity and the radius of the orbit are appropriate. The asymptotic entanglement as a result of centripetal acceleration is initial-state independent and can be viewed as a manifestation of the circular version of the Unruh effect. Based on this phenomenon, we propose an optomechanical setup to detect the circular Unruh effect with the state-of-the-art technologies.
翻訳日:2023-03-13 16:35:10 公開日:2023-03-10
# 3次元畳み込みニューラルネットワークを用いたコムギのフサリウム頭部明度検出、スパイクレット推定および重度評価

Fusarium head blight detection, spikelet estimation, and severity assessment in wheat using 3D convolutional neural networks ( http://arxiv.org/abs/2303.05634v1 )

ライセンス: Link先を確認
Oumaima Hamila, Christopher J. Henry, Oscar I. Molina, Christopher P. Bidinosti, and Maria Antonia Henriquez(参考訳) フサリウム・ヘッド・ブライト(FHB)は、小麦やその他の穀物の穀物に影響を及ぼす最も重要な疾患の1つである。 耐性品種の開発には、フィールドと温室表現の面倒な作業が必要である。 本研究で検討されている応用は、コムギ植物に発現するfhb病症状の自動検出、コムギ頭のスパイクレットの総数と感染したスパイクレットの総数の自動推定、および感染したコムギのfhb重症度の自動評価である。 結果を生成するのに使用されるデータは3次元(3d)多スペクトル点雲(pc)で、それぞれが赤、緑、青(rgb)、近赤外(nir)の測定に関連付けられた3次元の点群である。 マルチスペクトル3Dスキャナーを用いて300以上の小麦の植物画像を収集し,ラベル付きUW-MRDC3D小麦データセットを作成した。 このデータはFHB検出のための新規で効率的な3D畳み込みニューラルネットワーク(CNN)モデルの開発に使われ、100%精度が向上した。 マルチスペクトル情報が性能に与える影響を評価し,nirチャネルとnir+rgbチャネルの両方においてrgbチャネルが支配的であることを示した。 さらに,コムギ頭におけるスパイクレットの総数と感染スパイクレットの総数を推定するために,新規で効率的な3次元CNNを作成し,各モデルの平均絶対誤差(MAE)は1.13と1.56であった。 さらに、FHB重度推定のための3次元CNNモデルを作成し、8.6 MAEを達成した。 3d cnnで予測した視的fhb重症度評価とfhb重症度との線形回帰分析を行い,0.0001p値と0.94r2乗の2変数間に有意な相関が認められた。

Fusarium head blight (FHB) is one of the most significant diseases affecting wheat and other small grain cereals worldwide. The development of resistant varieties requires the laborious task of field and greenhouse phenotyping. The applications considered in this work are the automated detection of FHB disease symptoms expressed on a wheat plant, the automated estimation of the total number of spikelets and the total number of infected spikelets on a wheat head, and the automated assessment of the FHB severity in infected wheat. The data used to generate the results are 3-dimensional (3D) multispectral point clouds (PC), which are 3D collections of points - each associated with a red, green, blue (RGB), and near-infrared (NIR) measurement. Over 300 wheat plant images were collected using a multispectral 3D scanner, and the labelled UW-MRDC 3D wheat dataset was created. The data was used to develop novel and efficient 3D convolutional neural network (CNN) models for FHB detection, which achieved 100% accuracy. The influence of the multispectral information on performance was evaluated, and our results showed the dominance of the RGB channels over both the NIR and the NIR plus RGB channels combined. Furthermore, novel and efficient 3D CNNs were created to estimate the total number of spikelets and the total number of infected spikelets on a wheat head, and our best models achieved mean absolute errors (MAE) of 1.13 and 1.56, respectively. Moreover, 3D CNN models for FHB severity estimation were created, and our best model achieved 8.6 MAE. A linear regression analysis between the visual FHB severity assessment and the FHB severity predicted by our 3D CNN was performed, and the results showed a significant correlation between the two variables with a 0.0001 P-value and 0.94 R-squared.
翻訳日:2023-03-13 16:35:01 公開日:2023-03-10
# IoTワイヤレス充電のモニタリング効率

Monitoring Efficiency of IoT Wireless Charging ( http://arxiv.org/abs/2303.05629v1 )

ライセンス: Link先を確認
Pengwei Yang, Amani Abusafia, Abdallah Lakhdari, and Athman Bouguettaya(参考訳) ワイヤレスエネルギーのクラウドソーシングは、近くのIoTデバイスを充電するための、新しくて便利なソリューションだ。 ピアツーピア無線エネルギー充電を可能にするいくつかの応用が提案されている。 しかし、いずれもエネルギーのワイヤレス転送のエネルギー効率を考慮しなかった。 本稿では,実際の受信エネルギーを予測するためのエネルギー推定フレームワークを提案する。 このフレームワークは2つの機械学習アルゴリズム、すなわちxgboostとニューラルネットワークを用いて受信エネルギーを推定する。 その結果、ニューラルネットワークモデルは、受信したエネルギーを予測するのにXGBoostより優れていることがわかった。 我々は、実際の無線エネルギーデータセットを収集してモデルを訓練し、評価する。

Crowdsourcing wireless energy is a novel and convenient solution to charge nearby IoT devices. Several applications have been proposed to enable peer-to-peer wireless energy charging. However, none of them considered the energy efficiency of the wireless transfer of energy. In this paper, we propose an energy estimation framework that predicts the actual received energy. Our framework uses two machine learning algorithms, namely XGBoost and Neural Network, to estimate the received energy. The result shows that the Neural Network model is better than XGBoost at predicting the received energy. We train and evaluate our models by collecting a real wireless energy dataset.
翻訳日:2023-03-13 16:34:26 公開日:2023-03-10
# D-分離の相違について

On the Unlikelihood of D-Separation ( http://arxiv.org/abs/2303.05628v1 )

ライセンス: Link先を確認
Itai Feigenbaum, Huan Wang, Shelby Heinecke, Juan Carlos Niebles, Weiran Yao, Caiming Xiong, Devansh Arpit(参考訳) 制約ベースのメソッドは、oracleを介してグラフ内のノードのd分離条件付きコンディショニングセットを検索することによって、それを行う。 本稿では,大きなグラフ上では,グラフが極めてスパースでない限り,d-セパレーションの存在が保証されたとしても,d-セパレーションは稀な現象であることを示す。 次に、因果発見のためのPCアルゴリズムの分析平均ケース分析と、UniformSGSと呼ぶSGSアルゴリズムの変種について述べる。 ノードのセット $v=\{v_1,\ldots,v_n\}$ を考え、ランダムな dag $g=(v,e)$ where $(v_a, v_b) \in e$ with i.i.d. probability $p_1$ if $a<b$ and $0$ if $a > b$。 我々は、$v-\{x,y\}$ d-の部分集合が$x$と$y$を分離し、$x$と$y$がd-分離可能である確率の上限を与える。 PCアルゴリズムでは、その最悪ケース保証が非スパースグラフで失敗することが知られているが、平均ケースでも同じことが正しいことを示し、スパーシティ要件がかなり要求されている: 優れた性能では、密度は平均ケースでも$0$ as $|V| \rightarrow \infty$にされなければならない。 UniformSGSでは、既存のエッジに対してランニング時間が指数的であることが知られているが、平均的な場合、それは既存のほとんどのエッジにおいても期待されるランニング時間であることを示す。

Causal discovery aims to recover a causal graph from data generated by it; constraint based methods do so by searching for a d-separating conditioning set of nodes in the graph via an oracle. In this paper, we provide analytic evidence that on large graphs, d-separation is a rare phenomenon, even when guaranteed to exist, unless the graph is extremely sparse. We then provide an analytic average case analysis of the PC Algorithm for causal discovery, as well as a variant of the SGS Algorithm we call UniformSGS. We consider a set $V=\{v_1,\ldots,v_n\}$ of nodes, and generate a random DAG $G=(V,E)$ where $(v_a, v_b) \in E$ with i.i.d. probability $p_1$ if $a<b$ and $0$ if $a > b$. We provide upper bounds on the probability that a subset of $V-\{x,y\}$ d-separates $x$ and $y$, conditional on $x$ and $y$ being d-separable; our upper bounds decay exponentially fast to $0$ as $|V| \rightarrow \infty$. For the PC Algorithm, while it is known that its worst-case guarantees fail on non-sparse graphs, we show that the same is true for the average case, and that the sparsity requirement is quite demanding: for good performance, the density must go to $0$ as $|V| \rightarrow \infty$ even in the average case. For UniformSGS, while it is known that the running time is exponential for existing edges, we show that in the average case, that is the expected running time for most non-existing edges as well.
翻訳日:2023-03-13 16:34:19 公開日:2023-03-10
# バイアスに対する論理:テクストエンターメントはステレオタイプ文推論を緩和する

Logic Against Bias: Textual Entailment Mitigates Stereotypical Sentence Reasoning ( http://arxiv.org/abs/2303.05670v1 )

ライセンス: Link先を確認
Hongyin Luo, James Glass(参考訳) 類似性に基づく学習目的のため、事前訓練された文エンコーダは、トレーニングコーパスに存在する社会的バイアスを反映する典型的な仮定を内部化することが多い。 本稿では,前訓練された次文予測やコントラスト文表現モデルなど,一般的な文表現モデルに存在する異なるコミュニティに関するいくつかのステレオタイプについて述べる。 このようなモデルと、様々な下流言語理解タスクのための言語論理を学習するテキストエンテーメントモデルを比較する。 テキストの類似性に基づく強い事前学習モデルとテキストの重み付け学習を比較することにより,文章の重み付けによる明示的な論理学習は,偏りを著しく低減し,社会コミュニティの認識を改善することができると結論づける。

Due to their similarity-based learning objectives, pretrained sentence encoders often internalize stereotypical assumptions that reflect the social biases that exist within their training corpora. In this paper, we describe several kinds of stereotypes concerning different communities that are present in popular sentence representation models, including pretrained next sentence prediction and contrastive sentence representation models. We compare such models to textual entailment models that learn language logic for a variety of downstream language understanding tasks. By comparing strong pretrained models based on text similarity with textual entailment learning, we conclude that the explicit logic learning with textual entailment can significantly reduce bias and improve the recognition of social communities, without an explicit de-biasing process
翻訳日:2023-03-13 16:27:50 公開日:2023-03-10
# UNFUSED: 自己監督蒸留を用いた教師なしファインタニング

UNFUSED: UNsupervised Finetuning Using SElf supervised Distillation ( http://arxiv.org/abs/2303.05668v1 )

ライセンス: Link先を確認
Ashish Seth and Sreyan Ghosh and S. Umesh and Dinesh Manocha(参考訳) 本稿では,自己教師付き学習を活用し,音声分類のための大量のラベル付きデータの必要性を減らすための新しいアプローチであるunfusedを提案する。 対象データセット上で自己教師付き事前学習エンコーダを直接微調整する以前の作業とは異なり、実際の微調整ステップの前に、エンコーダを使用して教師なし微調整のための擬似ラベルを生成する。 まず,ラベルなしオーディオデータセット上で,新しい自己教師付き学習アルゴリズム(ssl)を用いてエンコーダを訓練する。 そして、そのエンコーダを使用して、抽出した表現をクラスタリングすることで、ターゲットタスクデータセット上で擬似ラベルを生成する。 これらの擬似ラベルはランダムに初期化モデル上で自己蒸留を誘導するために用いられる。 最後に、結果エンコーダがターゲットタスクデータセット上で微調整されます。 UnFuSeD を通じて,文献における一般的なSSLパラダイムから脱却し,同じエンコーダを事前学習・微調整するシステムを提案し,低リソース音声分類にSSL事前学習を利用する新たな自己蒸留システムを提案する。 実際に、UnFuSeDはLAPEベンチマークで最先端の結果を達成し、すべてのベースラインを大幅に上回っている。 さらに、unfusedにより、以前のstate-of-the-artシステムよりもパラメータ数を40%削減できる。 すべてのコードを公開しています。

In this paper, we introduce UnFuSeD, a novel approach to leverage self-supervised learning and reduce the need for large amounts of labeled data for audio classification. Unlike prior works, which directly fine-tune a self-supervised pre-trained encoder on a target dataset, we use the encoder to generate pseudo-labels for unsupervised fine-tuning before the actual fine-tuning step. We first train an encoder using a novel self-supervised learning algorithm (SSL) on an unlabeled audio dataset. Then, we use that encoder to generate pseudo-labels on our target task dataset via clustering the extracted representations. These pseudo-labels are then used to guide self-distillation on a randomly initialized model, which we call unsupervised fine-tuning. Finally, the resultant encoder is then fine-tuned on our target task dataset. Through UnFuSeD, we propose the first system that moves away from generic SSL paradigms in literature, which pre-train and fine-tune the same encoder, and present a novel self-distillation-based system to leverage SSL pre-training for low-resource audio classification. In practice, UnFuSeD achieves state-of-the-art results on the LAPE Benchmark, significantly outperforming all our baselines. Additionally, UnFuSeD allows us to achieve this at a 40% reduction in the number of parameters over the previous state-of-the-art system. We make all our codes publicly available.
翻訳日:2023-03-13 16:27:35 公開日:2023-03-10
# より良い交通量推定に向けて:相関適応グラフ畳み込みネットワークによる過小決定問題と非平衡問題の両方に取り組む

Towards better traffic volume estimation: Tackling both underdetermined and non-equilibrium problems via a correlation adaptive graph convolution network ( http://arxiv.org/abs/2303.05660v1 )

ライセンス: Link先を確認
Tong Nie, Guoyang Qin, Yunpeng Wang, Jian Sun(参考訳) 交通量は交通管理と制御のためにきめ細かい情報を提供するのに欠かせない要素である。 しかし、交通センサの配備が限られているため、本格的なボリューム情報を得ることは容易ではない。 このトピックに関する既存の研究は、主に特定のメソッドの全体的な推定精度の改善に焦点をあて、ボリューム推定の根本的な課題を無視し、いくつかの重要なタスクにおいて性能が劣る。 本稿では, 交通量推定に関する2つの重要な問題について考察する。(1) 未検出運動による交通流の過小評価, (2) 渋滞伝播による非平衡交通流。 本稿では,上記の問題に対処し,ネットワーク全体のトラフィック量推定を高精度に行うために,データ駆動型,モデルフリー,相関適応アプローチを提供するグラフベースのディープラーニング手法を提案する。 特に、未決定フローの推定における交通速度とボリュームの動的および非線形な関係を定量化するために、グラフアテンションに基づく速度パターン適応隣接行列を開発し、グラフ畳み込みプロセスに統合し、センサ間の非局所的相関を捉える。 非平衡流の影響を測定するため、上流と下流のセンサ間の時間-非同期相関を捉えるために、仮面とクリップされた注意をゲート時間畳み込み層と組み合わせてカスタマイズする。 次に、実世界の高速道路交通量データセットでモデルを評価し、いくつかのベンチマークモデルと比較する。 提案モデルでは,センサのカバレッジ率20%以下でも高い推定精度を達成し,他のベースライン,特に過度に決定された非平衡フロー位置において有意に性能を向上することを示した。 さらに,モデル設計を正当化するために,包括的定量的モデル解析を行った。

Traffic volume is an indispensable ingredient to provide fine-grained information for traffic management and control. However, due to limited deployment of traffic sensors, obtaining full-scale volume information is far from easy. Existing works on this topic primarily focus on improving the overall estimation accuracy of a particular method and ignore the underlying challenges of volume estimation, thereby having inferior performances on some critical tasks. This paper studies two key problems with regard to traffic volume estimation: (1) underdetermined traffic flows caused by undetected movements, and (2) non-equilibrium traffic flows arise from congestion propagation. Here we demonstrate a graph-based deep learning method that can offer a data-driven, model-free and correlation adaptive approach to tackle the above issues and perform accurate network-wide traffic volume estimation. Particularly, in order to quantify the dynamic and nonlinear relationships between traffic speed and volume for the estimation of underdetermined flows, a speed patternadaptive adjacent matrix based on graph attention is developed and integrated into the graph convolution process, to capture non-local correlations between sensors. To measure the impacts of non-equilibrium flows, a temporal masked and clipped attention combined with a gated temporal convolution layer is customized to capture time-asynchronous correlations between upstream and downstream sensors. We then evaluate our model on a real-world highway traffic volume dataset and compare it with several benchmark models. It is demonstrated that the proposed model achieves high estimation accuracy even under 20% sensor coverage rate and outperforms other baselines significantly, especially on underdetermined and non-equilibrium flow locations. Furthermore, comprehensive quantitative model analysis are also carried out to justify the model designs.
翻訳日:2023-03-13 16:27:10 公開日:2023-03-10
# Tag2Text:イメージタグによる視覚言語モデルの誘導

Tag2Text: Guiding Vision-Language Model via Image Tagging ( http://arxiv.org/abs/2303.05657v1 )

ライセンス: Link先を確認
Xinyu Huang, Youcai Zhang, Jinyu Ma, Weiwei Tian, Rui Feng, Yuejie Zhang, Yaqian Li, Yandong Guo, Lei Zhang(参考訳) 本稿では,視覚言語事前学習(VLP)フレームワークであるTag2Textについて述べる。 対象タグを手動でラベル付けしたり、限定された検出器で自動的に検出する従来の手法とは対照的に、本手法では、ペアテキストから解析したタグを用いて画像タグを学習し、視覚言語モデルへのガイダンスを提供する。 そのため、Tag2Textは、画像とテキストのペアに応じて、大規模なアノテーションのない画像タグを利用でき、オブジェクトを超えてより多様なタグカテゴリを提供する。 その結果、tag2textはきめ細かいテキスト情報を活用し、優れた画像タグ認識能力を達成する。 さらに、タグ付け指導を活用することで、Tag2Textは世代ベースとアライメントベースの両方のタスクにおける視覚言語モデルの性能を効果的に向上させる。 幅広いダウンストリームベンチマークを通じて、tag2textは、同様のモデルサイズとデータスケールで最先端または競争力のある結果を達成し、提案するタグ付けガイダンスの有効性を実証する。

This paper presents Tag2Text, a vision language pre-training (VLP) framework, which introduces image tagging into vision-language models to guide the learning of visual-linguistic features. In contrast to prior works which utilize object tags either manually labeled or automatically detected with a limited detector, our approach utilizes tags parsed from its paired text to learn an image tagger and meanwhile provides guidance to vision-language models. Given that, Tag2Text can utilize large-scale annotation-free image tags in accordance with image-text pairs, and provides more diverse tag categories beyond objects. As a result, Tag2Text achieves a superior image tag recognition ability by exploiting fine-grained text information. Moreover, by leveraging tagging guidance, Tag2Text effectively enhances the performance of vision-language models on both generation-based and alignment-based tasks. Across a wide range of downstream benchmarks, Tag2Text achieves state-of-the-art or competitive results with similar model sizes and data scales, demonstrating the efficacy of the proposed tagging guidance.
翻訳日:2023-03-13 16:26:37 公開日:2023-03-10
# EHRDiff:拡散モデルによるリアルなEHR合成の探索

EHRDiff: Exploring Realistic EHR Synthesis with Diffusion Models ( http://arxiv.org/abs/2303.05656v1 )

ライセンス: Link先を確認
Hongyi Yuan, Songchi Zhou, Sheng Yu(参考訳) 電子健康記録(EHR)は、膨大な生物医学知識を含み、正確な医療システムを開発するための豊富な資源である。 しかし、プライバシー上の懸念から、研究者がアクセス可能な高品質なEHRデータに制限があるため、方法論の進歩を妨げている。 近年, 生成モデルを用いて現実的なEHRデータを合成する方法が研究されており, 提案手法はGAN(Generative Adversarial Network)とその変種に基づく。 GANスタイルの手法は高品質なEHRデータを生成する際に最先端の性能を達成したが、訓練は困難であり、モード崩壊の傾向にある。 拡散モデルは最近,画像生成における生成的モデリング手法と最先端性能の設定を提案している。 現実的なEHR合成における拡散モデルの性能はまれである。 本研究では, 拡散モデルの優れた性能が EHR 合成の領域に変換できるかどうかを考察し, EHRDiff という新しい EHR 合成法を提案する。 総合的な実験を通じて、EHRDiffは、合成EHRデータの品質のための新しい最先端のパフォーマンスを実現し、一方で実際の訓練EHRにおけるプライベート情報をよりよく保護することができる。

Electronic health records (EHR) contain vast biomedical knowledge and are rich resources for developing precise medicine systems. However, due to privacy concerns, there are limited high-quality EHR data accessible to researchers hence hindering the advancement of methodologies. Recent research has explored using generative modelling methods to synthesize realistic EHR data, and most proposed methods are based on the generative adversarial network (GAN) and its variants for EHR synthesis. Although GAN-style methods achieved state-of-the-art performance in generating high-quality EHR data, such methods are hard to train and prone to mode collapse. Diffusion models are recently proposed generative modelling methods and set cutting-edge performance in image generation. The performance of diffusion models in realistic EHR synthesis is rarely explored. In this work, we explore whether the superior performance of diffusion models can translate to the domain of EHR synthesis and propose a novel EHR synthesis method named EHRDiff. Through comprehensive experiments, EHRDiff achieves new state-of-the-art performance for the quality of synthetic EHR data and can better protect private information in real training EHRs in the meanwhile.
翻訳日:2023-03-13 16:26:18 公開日:2023-03-10
# 畳み込みエンコーダデコーダを用いた直接ロボット構成空間の構築

Direct Robot Configuration Space Construction using Convolutional Encoder-Decoders ( http://arxiv.org/abs/2303.05653v1 )

ライセンス: Link先を確認
Christopher Benka, Carl Gross, Riya Gupta, Hod Lipson(参考訳) インテリジェントなロボットは、自分の環境で安全で効率的な動き計画を実行できなければならない。 現代の動き計画の中心は構成空間である。 コンフィグレーションスペースは、ワークスペース内の障害物と衝突するロボットの構成セット、c-clsn、そうでないコンフィグレーションセット、c-freeを定義する。 動き計画への現代的なアプローチはまず構成空間を計算し、次に計算された構成空間を用いて動き計画を実行する。 リアルタイムのモーションプランニングには、正確な構成空間の構築が必要である。 構成空間に対する高精度近似を計算するための畳み込みエンコーダ・デコーダフレームワークを初めて適用した。 双腕ロボットを用いた2次元ロボットワークスペースのcフリーおよびc-clsn予測のための平均97.5%のf1-scoreを実現する。 本手法は, 障害物の翻訳, 回転, 除去を含むロボット作業空間において, 未検出衝突を2.5%未満に制限する。 我々のモデルは、ロボットワークスペース間で高度に伝達可能な特徴を学習し、ワークスペース内の障害物の新しい変換に適応するために、微調整をほとんど必要としない。

Intelligent robots must be able to perform safe and efficient motion planning in their environments. Central to modern motion planning is the configuration space. Configuration spaces define the set of configurations of a robot that result in collisions with obstacles in the workspace, C-clsn, and the set of configurations that do not, C-free. Modern approaches to motion planning first compute the configuration space and then perform motion planning using the calculated configuration space. Real-time motion planning requires accurate and efficient construction of configuration spaces. We are the first to apply a convolutional encoder-decoder framework for calculating highly accurate approximations to configuration spaces. Our model achieves an average 97.5% F1-score for predicting C-free and C-clsn for 2-D robotic workspaces with a dual-arm robot. Our method limits undetected collisions to less than 2.5% on robotic workspaces that involve translation, rotation, and removal of obstacles. Our model learns highly transferable features between robotic workspaces, requiring little to no fine-tuning to adapt to new transformations of obstacles in the workspace.
翻訳日:2023-03-13 16:25:57 公開日:2023-03-10
# GATOR:2次元空間からの人間のメッシュ回復のための動き分散回帰付きグラフ認識変換器

GATOR: Graph-Aware Transformer with Motion-Disentangled Regression for Human Mesh Recovery from a 2D Pose ( http://arxiv.org/abs/2303.05652v1 )

ライセンス: Link先を確認
Yingxuan You, Hong Liu, Xia Li, Wenhao Li, Ti Wang, Runwei Ding(参考訳) 2次元ポーズからの3次元メッシュリカバリは,様々な応用において重要な役割を果たす。 しかし、既存の方法では、結合結合、結合頂点、頂点頂点関係を含む骨格からメッシュへの進化の間に複数の関係を同時に捉えることは困難であり、しばしば不可解な結果をもたらす。 この問題に対処するために,グラフ認識変換器(GAT)のエンコーダと,これら複数の関係を探索するためにMDR(Motion-Disentangled Regression)を用いたデコーダを含むGATORと呼ばれる新しいソリューションを提案する。 具体的には、GCNとグラフ対応の自己アテンションを並列に組み合わせ、物理的および隠れ結合関係をキャプチャする。 さらに、MDRは結合頂点と頂点-頂点相互作用をモデル化し、結合関係と頂点関係を探索する。 頂点オフセットフィールドのクラスタリング特性に基づき、mdrは予測された基底運動を合成して頂点を回帰させる。 大規模な実験により、GATORは2つの挑戦的なベンチマークで最先端のパフォーマンスを達成した。

3D human mesh recovery from a 2D pose plays an important role in various applications. However, it is hard for existing methods to simultaneously capture the multiple relations during the evolution from skeleton to mesh, including joint-joint, joint-vertex and vertex-vertex relations, which often leads to implausible results. To address this issue, we propose a novel solution, called GATOR, that contains an encoder of Graph-Aware Transformer (GAT) and a decoder with Motion-Disentangled Regression (MDR) to explore these multiple relations. Specifically, GAT combines a GCN and a graph-aware self-attention in parallel to capture physical and hidden joint-joint relations. Furthermore, MDR models joint-vertex and vertex-vertex interactions to explore joint and vertex relations. Based on the clustering characteristics of vertex offset fields, MDR regresses the vertices by composing the predicted base motions. Extensive experiments show that GATOR achieves state-of-the-art performance on two challenging benchmarks.
翻訳日:2023-03-13 16:25:37 公開日:2023-03-10
# エネルギーランドスケープ制御のロバスト性とデファッシング

Robustness of Energy Landscape Control to Dephasing ( http://arxiv.org/abs/2303.05649v1 )

ライセンス: Link先を確認
Sean Patrick O'Neil, Frank C. Langbein, Edmond Jonckheere, and Sophie Shermer(参考訳) 以前の研究で示されているように、クローズド量子系は、高い忠実度を持つコントローラがパラメータの不確実性に対して最適なロバスト性を提供できるという意味で、非慣習的な性能と頑健さのトレードオフを示すことがある。 システムと環境の相互作用によって引き起こされる強調は、より古典的な混合状態へと進化を導くので、強調の導入がパフォーマンスとロバスト性の関係にどのような影響を及ぼすか検討する価値がある。 本稿では,対数感度関数によって測定された忠実度誤差のロバスト性を,復調過程へ解析する。 本研究は,不確実なパラメータに関するロバスト性を測定するために用いられる対数感度の定式化を,従来研究で用いられてきたゼロではない名目値で修正する必要があることを示す。 制御器は,コヒーレントな進化の下での忠実性から,より強調されたダイナミクスの下での忠実性まで,多くの目標に最適化された制御器を検討し,特定のレジームに対する最適化が堅牢性の観点から望ましい効果を持つ程度を決定する。 我々の分析は、統計モンテカルロ法と解析計算の2つの独立した対数感度計算に基づいている。 本研究は, ログ感度の計算方法が異なるにもかかわらず, 性能とロバスト性とのトレードオフにより, 忠実性誤差の対数感度が低下することを示した。

As shown in previous work, in some cases closed quantum systems exhibit a non-conventional trade-off in performance and robustness in the sense that controllers with the highest fidelity can also provide the best robustness to parameter uncertainty. As the dephasing induced by the interaction of the system with the environment guides the evolution to a more classically mixed state, it is worth investigating what effect the introduction of dephasing has on the relationship between performance and robustness. In this paper we analyze the robustness of the fidelity error, as measured by the logarithmic sensitivity function, to dephasing processes. We show that introduction of dephasing as a perturbation to the nominal unitary dynamics requires a modification of the log-sensitivity formulation used to measure robustness about an uncertain parameter with non-zero nominal value used in previous work. We consider controllers optimized for a number of target objectives ranging from fidelity under coherent evolution to fidelity under dephasing dynamics to determine the extent to which optimizing for a specific regime has desirable effects in terms of robustness. Our analysis is based on two independent computations of the log-sensitivity: a statistical Monte Carlo approach and an analytic calculation. We show that despite the different log sensitivity calculations employed in this study, both demonstrate that the log-sensitivity of the fidelity error to dephasing results in a conventional trade-off between performance and robustness.
翻訳日:2023-03-13 16:25:20 公開日:2023-03-10
# Pacos: 推奨反転におけるユーザの解釈とコンテキスト依存の選択をモデル化する

Pacos: Modeling Users' Interpretable and Context-Dependent Choices in Preference Reversals ( http://arxiv.org/abs/2303.05648v1 )

ライセンス: Link先を確認
Qingming Li and H. Vicky Zhao(参考訳) 選択問題とは、いくつかの項目から最適な選択を選択することを指し、選択問題におけるユーザの好みを学ぶことは、意思決定メカニズムを理解し、パーソナライズされたサービスを提供する上で非常に重要である。 現存する作品は通常、人々が個別にアイテムを評価すると仮定する。 しかし、実際には、ユーザの嗜好は、コンテキスト効果と呼ばれるアイテムが配置されている市場に依存しており、2つの項目に対するユーザの嗜好の順序は逆転し、嗜好逆転と呼ばれることもある。 本研究では,ユーザの適応的な重み付け,項目間比較,表示位置の3つの要因を明らかにする。 本稿では,3つの要素を同時に扱うための統一フレームワークとしてpacosと呼ばれる文脈依存選好モデルを提案し,高い解釈性を持つ付加法と高精度な ann 法を含む2つの設計法を検討する。 プライオリティ・リバーサルの発生条件について検討し,プライオリティ・リバーサルの対処におけるpacosの有効性を理論的に証明する。 実験結果から,提案手法は,ユーザの選択を予測するための先行作業よりも優れた性能を示し,好みの逆転の原因を理解するのに大いに役立つことがわかった。

Choice problems refer to selecting the best choices from several items, and learning users' preferences in choice problems is of great significance in understanding the decision making mechanisms and providing personalized services. Existing works typically assume that people evaluate items independently. In practice, however, users' preferences depend on the market in which items are placed, which is known as context effects; and the order of users' preferences for two items may even be reversed, which is referred to preference reversals. In this work, we identify three factors contributing to context effects: users' adaptive weights, the inter-item comparison, and display positions. We propose a context-dependent preference model named Pacos as a unified framework for addressing three factors simultaneously, and consider two design methods including an additive method with high interpretability and an ANN-based method with high accuracy. We study the conditions for preference reversals to occur and provide an theoretical proof of the effectiveness of Pacos in addressing preference reversals. Experimental results show that the proposed method has better performance than prior works in predicting users' choices, and has great interpretability to help understand the cause of preference reversals.
翻訳日:2023-03-13 16:24:56 公開日:2023-03-10
# M\"{o}bius 帯上の量子線中の電子状態

Electronic states in quantum wires on the M\"{o}bius strip ( http://arxiv.org/abs/2303.05647v1 )

ライセンス: Link先を確認
J. J. L. R. Pinto, J. E. G. Silva, and C. A. S. Almeida(参考訳) 本研究では、M\"{o}bius 帯に沿ったワイヤに拘束された電子の性質について検討する。 我々は、ストリップの幅を越えて、ストリップの周りのワイヤと横方向に沿って検討した。 各方向について、曲率が電子状態とその対応するエネルギースペクトルをどのように修飾するかを調べる。 帯の中心では、表面の周りのワイヤは、スペクトルが帯半径$a$に依存する量子環を形成する。 ストリップの端のワイヤは、内側のエッジが外側のエッジになる。 したがって、曲率はワイヤの中央に局在した状態を与える。 ストリップ幅に沿って、有効電位は、ストリップの片側における境界状態の局在につながるパリティ対称性の破れを示す。

In this work, we study the properties of an electron constrained on wires along the M\"{o}bius strip. We considered wires around the strip and along the transverse direction, across the width of the strip. For each direction, we investigate how the curvature modifies the electronic states and their corresponding energy spectrum. At the center of the strip, the wires around the surface form quantum rings whose spectrum depends on the strip radius $a$. For wires at the edge of the strip, the inner edge turns into the outer edge. Accordingly, the curvature yields localized states in the middle of the wire. Along the strip width, the effective potential exhibits a parity symmetry breaking leading to the localization of the bound state on one side of the strip.
翻訳日:2023-03-13 16:24:35 公開日:2023-03-10
# 時空間マスク変圧器を用いたあいまいな圧力記録による人間のポーズ推定

Human Pose Estimation from Ambiguous Pressure Recordings with Spatio-temporal Masked Transformers ( http://arxiv.org/abs/2303.05691v1 )

ライセンス: Link先を確認
Vandad Davoodnia, Ali Etemad(参考訳) 視覚ベースのポーズ推定装置の素晴らしいパフォーマンスにもかかわらず、一般的に悪い視覚条件下ではうまく機能せず、しばしば顧客のプライバシー要求を満たさない。 その結果、研究者らは触覚センシングシステムを代替として研究し始めた。 しかし、これらのシステムはノイズとあいまいな記録に苦しむ。 この問題を解決するために,不明瞭な圧力データからポーズ推定を行う新しい手法を提案する。 本手法は,エンコーダ・デコーダアーキテクチャを備えた時空間視覚変換器からなる。 2つの人気のある公開データセットに関する詳細な実験により、我々のモデルはこの分野の既存のソリューションより優れていることが判明した。 さらに,マスキングオートエンコーダアプローチによる自己教師付き設定でネットワークを事前トレーニングしながら,ネットワークの初期段階における時間的作物数の増加がパフォーマンスに正の影響を与えることも観察した。

Despite the impressive performance of vision-based pose estimators, they generally fail to perform well under adverse vision conditions and often don't satisfy the privacy demands of customers. As a result, researchers have begun to study tactile sensing systems as an alternative. However, these systems suffer from noisy and ambiguous recordings. To tackle this problem, we propose a novel solution for pose estimation from ambiguous pressure data. Our method comprises a spatio-temporal vision transformer with an encoder-decoder architecture. Detailed experiments on two popular public datasets reveal that our model outperforms existing solutions in the area. Moreover, we observe that increasing the number of temporal crops in the early stages of the network positively impacts the performance while pre-training the network in a self-supervised setting using a masked auto-encoder approach also further improves the results.
翻訳日:2023-03-13 16:18:19 公開日:2023-03-10
# 誤り度低減のための固定階層型フレームへのニューラル崩壊の誘導

Inducing Neural Collapse to a Fixed Hierarchy-Aware Frame for Reducing Mistake Severity ( http://arxiv.org/abs/2303.05689v1 )

ライセンス: Link先を確認
Tong Liang and Jim Davis(参考訳) 最近、神経崩壊と呼ばれる興味深い現象が発見されており、分類のためのディープニューラルネットワークの訓練の終盤において、クラス内のペナルティメイト特徴手段と関連するフラットクラスの分類器ベクトルは、単純等角タイトフレーム(etf)の頂点に崩壊する。 近年の研究では、関連する分類器重みを予め計算されたetfに固定し、神経崩壊を誘発し、不均衡なデータでトレーニングする際に学習した特徴の分離を最大化することで、この現象を生かそうと試みている。 本研究では,深層ニューラルネットワークの線形分類器をETFの代わりに階層認識フレーム(Hierarchy-Aware Frame, HAFrame)に固定し,コサイン類似性に基づく補助的損失を用いて階層認識特徴を学習することを提案する。 提案手法は,3~12の階層構造を持つ様々なスケールのデータセットにおいて,トップ1の精度を維持しつつ,モデル予測の誤り重大度を低減する。 近い将来、githubにコードをリリースします。

There is a recently discovered and intriguing phenomenon called Neural Collapse: at the terminal phase of training a deep neural network for classification, the within-class penultimate feature means and the associated classifier vectors of all flat classes collapse to the vertices of a simplex Equiangular Tight Frame (ETF). Recent work has tried to exploit this phenomenon by fixing the related classifier weights to a pre-computed ETF to induce neural collapse and maximize the separation of the learned features when training with imbalanced data. In this work, we propose to fix the linear classifier of a deep neural network to a Hierarchy-Aware Frame (HAFrame), instead of an ETF, and use a cosine similarity-based auxiliary loss to learn hierarchy-aware penultimate features that collapse to the HAFrame. We demonstrate that our approach reduces the mistake severity of the model's predictions while maintaining its top-1 accuracy on several datasets of varying scales with hierarchies of heights ranging from 3 to 12. We will release our code on GitHub in the near future.
翻訳日:2023-03-13 16:18:05 公開日:2023-03-10
# スイニングトランスを用いた一般拡散MRIと超解像

Generalized Diffusion MRI Denoising and Super-Resolution using Swin Transformers ( http://arxiv.org/abs/2303.05686v1 )

ライセンス: Link先を確認
Amir Sadikov, Jamie Wren-Jarvis, Xinlei Pan, Lanya T. Cai, Pratik Mukherjee(参考訳) 拡散MRI(Diffusion MRI)は、ヒト脳の微細構造と構造的接続をマッピングし、他の臨床神経画像技術では見えない脳の発達や損傷などの変化を検出することができる非侵襲的な生体内医療イメージング法である。 しかし,高信号-雑音比 (SNR) データセットを高角, 空間的サンプリングで取得するには, 意識的な鎮静や全身麻酔を伴わずにMRIスキャンに協力できない小児, 高齢者, 急性神経疾患患者など多くの重要な臨床領域での使用を制限するため, 極めて長いスキャン時間を要する。 本稿では,Human Connectome Project(HCP)データに基づいてトレーニングし,登録されたT1スキャンで条件付けしたSwin UNEt TRansformers(Swin UNETR)モデルを用いて,取得パラメータ,患者集団,スキャナ,サイトなどの拡散MRI不変量の一般化と超解像を行う。 健常成人のhcpデータを用いて,超解像を定性的に示す。 神経発達障害児1名と外傷性脳損傷患者の2名の非関連データセットを用いた実験により,広範なデータ分布の変化にもかかわらず,良好な発声を示すことが示された。 さらなる改善は、たった1つの主題で微調整によって達成できる。 拡散テンソル(2次球面高調波)および高次球面高調波係数推定に本モデルを適用し,現在の手法よりも優れた結果を示す。 提案手法は,広範囲な拡散MRIデータセットを識別・超解法するために,アウト・オブ・ザ・ボックスや最小限の微細化が可能である。 コードとモデルはhttps://github.com/ucsfncl/dmri-swinで公開されている。

Diffusion MRI is a non-invasive, in-vivo medical imaging method able to map tissue microstructure and structural connectivity of the human brain, as well as detect changes, such as brain development and injury, not visible by other clinical neuroimaging techniques. However, acquiring high signal-to-noise ratio (SNR) datasets with high angular and spatial sampling requires prohibitively long scan times, limiting usage in many important clinical settings, especially children, the elderly, and emergency patients with acute neurological disorders who might not be able to cooperate with the MRI scan without conscious sedation or general anesthesia. Here, we propose to use a Swin UNEt TRansformers (Swin UNETR) model, trained on augmented Human Connectome Project (HCP) data and conditioned on registered T1 scans, to perform generalized denoising and super-resolution of diffusion MRI invariant to acquisition parameters, patient populations, scanners, and sites. We qualitatively demonstrate super-resolution with artificially downsampled HCP data in normal adult volunteers. Our experiments on two other unrelated datasets, one of children with neurodevelopmental disorders and one of traumatic brain injury patients, show that our method demonstrates superior denoising despite wide data distribution shifts. Further improvement can be achieved via finetuning with just one additional subject. We apply our model to diffusion tensor (2nd order spherical harmonic) and higher-order spherical harmonic coefficient estimation and show results superior to current state-of-the-art methods. Our method can be used out-of-the-box or minimally finetuned to denoise and super-resolve a wide variety of diffusion MRI datasets. The code and model are publicly available at https://github.com/ucsfncl/dmri-swin.
翻訳日:2023-03-13 16:17:44 公開日:2023-03-10
# ガス混合物の同定と濃度推定のための適応gvit

An Adaptive GViT for Gas Mixture Identification and Concentration Estimation ( http://arxiv.org/abs/2303.05685v1 )

ライセンス: Link先を確認
Ding Wang, Wenwen Zhang(参考訳) 環境ガスの組成と濃度を推定することは産業用ガスの安全性に不可欠である。 他の研究者はガスの同定とコンセントレーション推定アルゴリズムを提案したが、これらのアルゴリズムは深刻な欠陥に悩まされ、特に業界の要求を満たす。 例えば、産業環境で収集されるデータの長さは異なる傾向にある。 従来のアルゴリズムでは、変長データを効率的に分析することはできない。 データのトリミングは定常的な値のみを保持し、必然的に重要な情報が失われる。 本稿では,GCN-ViT(GViT)と呼ばれるガス識別および濃度推定モデルを提案する。 GViTモデルは、センサアレイの可変長リアルタイム信号データを入力として直接利用することができる。 ランダムに変化するCO-エチレンとメタン-エチレンの混合ガスを12時間無断で観測した。 ガス識別の精度は97.61%に達し、純粋なガス濃度推定のR2は平均で99.5%以上、混合ガス濃度推定のR2は平均で95%以上である。

Estimating the composition and concentration of ambient gases is crucial for industrial gas safety. Even though other researchers have proposed some gas identification and con-centration estimation algorithms, these algorithms still suffer from severe flaws, particularly in fulfilling industry demands. One example is that the lengths of data collected in an industrial setting tend to vary. The conventional algorithm, yet, cannot be used to analyze the variant-length data effectively. Trimming the data will preserve only steady-state values, inevitably leading to the loss of vital information. The gas identification and concentration estimation model called GCN-ViT(GViT) is proposed in this paper; we view the sensor data to be a one-way chain that has only been downscaled to retain the majority of the original in-formation. The GViT model can directly utilize sensor ar-rays' variable-length real-time signal data as input. We validated the above model on a dataset of 12-hour uninterrupted monitoring of two randomly varying gas mixtures, CO-ethylene and methane-ethylene. The accuracy of gas identification can reach 97.61%, R2 of the pure gas concentration estimation is above 99.5% on average, and R2 of the mixed gas concentration estimation is above 95% on average.
翻訳日:2023-03-13 16:17:12 公開日:2023-03-10
# OWAベースリンクを用いた階層クラスタリング,ランス・ウィリアムズ公式,デンドログラムインバージョン

Hierarchical Clustering with OWA-based Linkages, the Lance-Williams Formula, and Dendrogram Inversions ( http://arxiv.org/abs/2303.05683v1 )

ライセンス: Link先を確認
Marek Gagolewski, Anna Cena, Simon James, Gleb Beliakov(参考訳) Ordered Weighted Averaging (OWA) 演算子に基づく集約的階層的クラスタリングは、単一、完全、および平均的なリンクを一般化するだけでなく、いくつかの最も近いまたは最も近い隣人に基づくクラスタ間距離も含む。 本稿では,Lance-Williams更新公式と,無限係数列による重み付き拡張OWAリンクの関係について検討する。 さらに, 重み発生器に対して, 結果のデンドログラムが不審なインバージョンから解放されることを保証する条件を提示する。

Agglomerative hierarchical clustering based on Ordered Weighted Averaging (OWA) operators not only generalises the single, complete, and average linkages, but also includes intercluster distances based on a few nearest or farthest neighbours, trimmed and winsorised means of pairwise point similarities, amongst many others. We explore the relationships between the famous Lance-Williams update formula and the extended OWA-based linkages with weights generated via infinite coefficient sequences. Furthermore, we provide some conditions for the weight generators to guarantee the resulting dendrograms to be free from unaesthetic inversions.
翻訳日:2023-03-13 16:16:52 公開日:2023-03-10
# 多次元スケーリングへの二元的アプローチ:スペクトル解析とグラフ正則性

A dual basis approach to multidimensional scaling: spectral analysis and graph regularity ( http://arxiv.org/abs/2303.05682v1 )

ライセンス: Link先を確認
Samuel Lichtenberg, Abiy Tasissa(参考訳) 古典的多次元スケーリング(英語版)(CMDS)は、ユークリッド距離行列からユークリッド空間に対象の集合を埋め込むことを目的とした技法である。 CMDSの主部は、平方距離行列を二重中心とし、点座標を復元するために切り刻まれた固有分解を用いる。 CMDSの中心的な結果は、平方ユークリッド行列を点の集合から導かれるグラム行列に接続する。 本稿では,古典的多次元スケーリングに対する双対基底アプローチについて検討する。 双対基底の明示的な公式を与え、双対基底の枠組みにおける本質行列のスペクトルを完全に特徴づける。 距離近接性における関連する問題に接続する。

Classical multidimensional scaling (CMDS) is a technique that aims to embed a set of objects in a Euclidean space given their pairwise Euclidean distance matrix. The main part of CMDS is based on double centering a squared distance matrix and employing a truncated eigendecomposition to recover the point coordinates. A central result in CMDS connects the squared Euclidean matrix to a Gram matrix derived from the set of points. In this paper, we study a dual basis approach to classical multidimensional scaling. We give an explicit formula for the dual basis and fully characterize the spectrum of an essential matrix in the dual basis framework. We make connections to a related problem in metric nearness.
翻訳日:2023-03-13 16:16:37 公開日:2023-03-10
# 最小分散木によるクラスタリング: どれくらいよいのか?

Clustering with minimum spanning trees: How good can it be? ( http://arxiv.org/abs/2303.05679v1 )

ライセンス: Link先を確認
Marek Gagolewski, Anna Cena, Maciej Bartoszuk, {\L}ukasz Brzozowski(参考訳) 最小スパンディングツリー(msts)は、多数のパターン認識アクティビティにおけるデータセットの便利な表現を提供する。 さらに、計算は比較的高速である。 本稿では,データクラスタリングタスクにおいて有意な意味を持つ程度を定量化する。 最高の(oracle)アルゴリズムと専門家ラベルの間の合意の上限を、大量のベンチマークデータから特定することで、mstメソッドが全体として非常に競争力があることが分かりました。 次に、限られた例でうまく機能する別のアルゴリズムを提案する代わりに、最先端のMSTベースのパーティショニングスキームである既存のものをレビュー、研究、拡張、一般化し、いくつかの新しい興味深いアプローチをもたらす。 ジェニー法と情報理論のアプローチは、k平均、ガウス混合、スペクトルクラスタリング、BIRCH、古典的階層的集計手順などの非MSTアルゴリズムよりも優れていることが判明した。

Minimum spanning trees (MSTs) provide a convenient representation of datasets in numerous pattern recognition activities. Moreover, they are relatively fast to compute. In this paper, we quantify the extent to which they can be meaningful in data clustering tasks. By identifying the upper bounds for the agreement between the best (oracle) algorithm and the expert labels from a large battery of benchmark data, we discover that MST methods can overall be very competitive. Next, instead of proposing yet another algorithm that performs well on a limited set of examples, we review, study, extend, and generalise existing, the state-of-the-art MST-based partitioning schemes, which leads to a few new and interesting approaches. It turns out that the Genie method and the information-theoretic approaches often outperform the non-MST algorithms such as k-means, Gaussian mixtures, spectral clustering, BIRCH, and classical hierarchical agglomerative procedures.
翻訳日:2023-03-13 16:16:26 公開日:2023-03-10
# 因果干渉による弱修正音事象検出の改善

Improving Weakly Supervised Sound Event Detection with Causal Intervention ( http://arxiv.org/abs/2303.05678v1 )

ライセンス: Link先を確認
Yifei Xin, Dongchao Yang, Fan Cui, Yujun Wang, Yuexian Zou(参考訳) 既存のweakly supervised sound event detection (wssed)の作業は、両方のタイプの共起を同時に探索していない。例えば、いくつかの音イベントは共起しており、その発生は通常特定の背景音が伴っているため、必然的に絡み合っており、クリップレベルの監督だけで誤分類と偏りのある局所化結果を引き起こす。 この問題に取り組むために,まず,フレームとクリップレベルラベルの相関関係を学ぶために,共起共起者の主な原因がコンテキストであることを示す構造的因果モデル(scm)を確立した。 因果解析に基づいて,WSSEDの因果的介入(CI)手法を提案し,各クラスの全コンテキストを反復的に蓄積し,そのコンテキストをフレームレベルの特徴に再投影することで,イベント境界をより明確化する。 実験により,複数のデータセットの性能を効果的に改善し,様々なベースラインモデルに一般化できることを示した。

Existing weakly supervised sound event detection (WSSED) work has not explored both types of co-occurrences simultaneously, i.e., some sound events often co-occur, and their occurrences are usually accompanied by specific background sounds, so they would be inevitably entangled, causing misclassification and biased localization results with only clip-level supervision. To tackle this issue, we first establish a structural causal model (SCM) to reveal that the context is the main cause of co-occurrence confounders that mislead the model to learn spurious correlations between frames and clip-level labels. Based on the causal analysis, we propose a causal intervention (CI) method for WSSED to remove the negative impact of co-occurrence confounders by iteratively accumulating every possible context of each class and then re-projecting the contexts to the frame-level features for making the event boundary clearer. Experiments show that our method effectively improves the performance on multiple datasets and can generalize to various baseline models.
翻訳日:2023-03-13 16:16:10 公開日:2023-03-10
# 人間とロボットのコアクティビティのための屋内シーン

Rearrange Indoor Scenes for Human-Robot Co-Activity ( http://arxiv.org/abs/2303.05676v1 )

ライセンス: Link先を確認
Weiqi Wang, Zihang Zhao, Ziyuan Jiao, Yixin Zhu, Song-Chun Zhu, Hangxin Liu(参考訳) 本稿では,室内家具を人間ロボットのコアクティビティに適合させるための最適化フレームワークを提案する。 この再配置は、日常の人間活動に支障を来すことなく、ロボット活動に十分なアクセス可能なスペースを確保することを目的としている。 人的活動を維持するため,SUNCGとConceptNetから抽出した空間的共起と意味的共起を統合し,家具間の機能的関係を保存する。 移動可能なオープンスペースの量と到達可能なオブジェクト数によってロボットのアクセス可能な空間を定義することにより、適応的擬似アニール(ASA)と共分散行列適応進化戦略(CMA-ES)によって解決される最適化問題として、人間ロボットのコアクティビティの再配置を定式化する。 SUNCGデータセットを用いた実験により、再配置されたシーンは平均して14%のスペースと30%のオブジェクトを扱えることを示した。 再構成されたシーンの品質は、人間の研究によって質的に検証され、提案した戦略の有効性を示す。

We present an optimization-based framework for rearranging indoor furniture to accommodate human-robot co-activities better. The rearrangement aims to afford sufficient accessible space for robot activities without compromising everyday human activities. To retain human activities, our algorithm preserves the functional relations among furniture by integrating spatial and semantic co-occurrence extracted from SUNCG and ConceptNet, respectively. By defining the robot's accessible space by the amount of open space it can traverse and the number of objects it can reach, we formulate the rearrangement for human-robot co-activity as an optimization problem, solved by adaptive simulated annealing (ASA) and covariance matrix adaptation evolution strategy (CMA-ES). Our experiments on the SUNCG dataset quantitatively show that rearranged scenes provide an average of 14% more accessible space and 30% more objects to interact with. The quality of the rearranged scenes is qualitatively validated by a human study, indicating the efficacy of the proposed strategy.
翻訳日:2023-03-13 16:15:48 公開日:2023-03-10
# HumanBench:プロジェクターを用いた一般人中心の知覚に向けて

HumanBench: Towards General Human-centric Perception with Projector Assisted Pretraining ( http://arxiv.org/abs/2303.05675v1 )

ライセンス: Link先を確認
Shixiang Tang, Cheng Chen, Qingsong Xie, Meilin Chen, Yizhou Wang, Yuanzheng Ci, Lei Bai, Feng Zhu, Haiyang Yang, Li Yi, Rui Zhao, Wanli Ouyang(参考訳) 人間中心の認識には様々な視覚タスクが含まれており、監視、自律運転、メタバースなど幅広い産業用途がある。 汎用的な人中心下流作業のための一般的な事前訓練モデルを持つことが望ましい。 本稿では,ベンチマーク法と事前学習法の両面から,この経路を推し進める。 具体的には,既設のデータセットに基づく \textbf{humanbench} を提案し,パーソナライズ,ポーズ推定,ヒューマン解析,歩行者属性認識,歩行者検出,群衆数計数など6つのダウンストリームタスクから19のデータセットに対して,異なる事前学習法の一般化能力を総合的に評価する。 人体における粗粒度と細粒度の両方の知識を学習するために、異なる粒度レベルで多様な知識を学習するために、 \textbf{P}rojector \textbf{A}ssis\textbf{T}ed \textbf{H}ierarchical pretraining method (\textbf{PATH})を提案する。 HumanBenchの総合的な評価は、我々のPATHが17の下流データセットと他の2つのデータセットの中間結果に対して、新しい最先端結果を達成することを示している。 コードは href{https://github.com/OpenGVLab/HumanBench}{https://github.com/OpenGVLab/HumanBench} で公開される。

Human-centric perceptions include a variety of vision tasks, which have widespread industrial applications, including surveillance, autonomous driving, and the metaverse. It is desirable to have a general pretrain model for versatile human-centric downstream tasks. This paper forges ahead along this path from the aspects of both benchmark and pretraining methods. Specifically, we propose a \textbf{HumanBench} based on existing datasets to comprehensively evaluate on the common ground the generalization abilities of different pretraining methods on 19 datasets from 6 diverse downstream tasks, including person ReID, pose estimation, human parsing, pedestrian attribute recognition, pedestrian detection, and crowd counting. To learn both coarse-grained and fine-grained knowledge in human bodies, we further propose a \textbf{P}rojector \textbf{A}ssis\textbf{T}ed \textbf{H}ierarchical pretraining method (\textbf{PATH}) to learn diverse knowledge at different granularity levels. Comprehensive evaluations on HumanBench show that our PATH achieves new state-of-the-art results on 17 downstream datasets and on-par results on the other 2 datasets. The code will be publicly at \href{https://github.com/OpenGVLab/HumanBench}{https://github.com/OpenGVLab/HumanBench}.
翻訳日:2023-03-13 16:15:28 公開日:2023-03-10
# 自律DBMSチューニングのための統一的で効率的なコーディネートフレームワーク

A Unified and Efficient Coordinating Framework for Autonomous DBMS Tuning ( http://arxiv.org/abs/2303.05710v1 )

ライセンス: Link先を確認
Xinyi Zhang, Zhuo Chang, Hong Wu, Yang Li, Jia Chen, Jian Tan, Feifei Li, Bin Cui(参考訳) 近年、機械学習(ML)に基づく最新のデータベース管理システムの最適化技術は、産業と学術の両方から大きな関心を集めている。 DBMSの特定のコンポーネント(インデックスの選択、ノブのチューニングなど)をチューニングする目的で、MLベースのチューニングエージェントは、経験豊富なデータベース管理者よりも優れた設定を見つけることができることを示した。 しかしながら、重要な問題のひとつとして、MLベースのチューニングエージェントを協調的に動作させる方法について、未検討のままである。 既存のメソッドは、複数のエージェント間の依存関係を考慮せず、各エージェントが使用するモデルは、単一のコンポーネントで構成を変更する効果のみを研究する。 DBMSの異なるコンポーネントをチューニングするためには、複数のエージェントを互いに認識させる調整機構が必要である。 また、パフォーマンスを最大化するために、エージェント間で限られたチューニング予算を割り当てる方法を決定する必要がある。 この決定は、各エージェントに対する報酬の分配が未知であり、非定常であるため、難しい。 本稿では,既存のMLエージェントを効率的に活用するための統合コーディネートフレームワークを提案する。 まず,エージェントの協調動作を特定し,各エージェントモデルにおけるグローバルなチューニングメッセージをカプセル化するメッセージ伝達プロトコルを提案する。 第2に,よく研究された強化学習アルゴリズムであるトンプソンサンプリングとメモリバッファを組み合わせることで,非定常環境において予算を公平に割り当てることができる。 我々のフレームワークは、MLベースのチューニングエージェントの幅広いクラスに適合するインターフェースを定義していますが、既存の実装と将来の拡張との統合には十分簡単です。 MLベースのエージェントを効果的に利用し、ワークロードの実行時間に対して1.4~14.1Xの高速化で、ベースラインよりも優れた構成を実現できることを示す。

Recently using machine learning (ML) based techniques to optimize modern database management systems has attracted intensive interest from both industry and academia. With an objective to tune a specific component of a DBMS (e.g., index selection, knobs tuning), the ML-based tuning agents have shown to be able to find better configurations than experienced database administrators. However, one critical yet challenging question remains unexplored -- how to make those ML-based tuning agents work collaboratively. Existing methods do not consider the dependencies among the multiple agents, and the model used by each agent only studies the effect of changing the configurations in a single component. To tune different components for DBMS, a coordinating mechanism is needed to make the multiple agents cognizant of each other. Also, we need to decide how to allocate the limited tuning budget among the agents to maximize the performance. Such a decision is difficult to make since the distribution of the reward for each agent is unknown and non-stationary. In this paper, we study the above question and present a unified coordinating framework to efficiently utilize existing ML-based agents. First, we propose a message propagation protocol that specifies the collaboration behaviors for agents and encapsulates the global tuning messages in each agent's model. Second, we combine Thompson Sampling, a well-studied reinforcement learning algorithm with a memory buffer so that our framework can allocate budget judiciously in a non-stationary environment. Our framework defines the interfaces adapted to a broad class of ML-based tuning agents, yet simple enough for integration with existing implementations and future extensions. We show that it can effectively utilize different ML-based agents and find better configurations with 1.4~14.1X speedups on the workload execution time compared with baselines.
翻訳日:2023-03-13 16:10:09 公開日:2023-03-10
# 地域と関係学習を用いた自己監督型顔行動単位検出

Self-supervised Facial Action Unit Detection with Region and Relation Learning ( http://arxiv.org/abs/2303.05708v1 )

ライセンス: Link先を確認
Juan Song and Zhilei Liu(参考訳) 顔アクションユニット(AU)検出は手動アノテーションが不足しているため難しい作業である。 自己教師付き学習によるAU検出に関する最近の研究は、多くの未ラベルデータから有意義なAU表現を学習することを目的として、この問題に取り組んでいる。 しかし、既存のAU検出機能の多くは、自己教師付き学習で、グローバルな顔の特徴のみを利用するが、局所性や関連性といったAU関連特性は十分に調べられていない。 本稿では,地域と関係学習を用いたAU検出のための新しい自己教師型フレームワークを提案する。 特に、AU関連アテンションマップを用いて、AU固有の地域に焦点を当て、AUローカルな特徴の整合性を高める。 一方, aus間の相関特性を活用するために, 改良された最適輸送(ot)アルゴリズムが導入された。 さらに、Swin Transformerを使用して、機能学習中に各AU領域内の長距離依存関係をモデル化する。 BP4DとDisFAの評価結果から,提案手法は最先端の自己教師付き学習法や教師付きAU検出法と同等かそれ以上に優れていることが示された。

Facial action unit (AU) detection is a challenging task due to the scarcity of manual annotations. Recent works on AU detection with self-supervised learning have emerged to address this problem, aiming to learn meaningful AU representations from numerous unlabeled data. However, most existing AU detection works with self-supervised learning utilize global facial features only, while AU-related properties such as locality and relevance are not fully explored. In this paper, we propose a novel self-supervised framework for AU detection with the region and relation learning. In particular, AU related attention map is utilized to guide the model to focus more on AU-specific regions to enhance the integrity of AU local features. Meanwhile, an improved Optimal Transport (OT) algorithm is introduced to exploit the correlation characteristics among AUs. In addition, Swin Transformer is exploited to model the long-distance dependencies within each AU region during feature learning. The evaluation results on BP4D and DISFA demonstrate that our proposed method is comparable or even superior to the state-of-the-art self-supervised learning methods and supervised AU detection methods.
翻訳日:2023-03-13 16:09:33 公開日:2023-03-10
# MuLTI: MultiWay-Sampler と Multi Choice Modeling による効率的なビデオ・ランゲージ理解

MuLTI: Efficient Video-and-Language Understanding with MultiWay-Sampler and Multiple Choice Modeling ( http://arxiv.org/abs/2303.05707v1 )

ライセンス: Link先を確認
Jiaqi Xu, Bo Liu, Yunkuo Chen, Mengli Cheng, Xing Shi(参考訳) ビデオ・アンド・ランゲージ理解は、ビデオ質問応答、テキスト・ビデオ検索、マルチラベル分類など、様々な応用がある。 既存のビデオ・言語理解手法では、一般的に重いマルチモーダルエンコーダと大量のGPUメモリを消費する機能融合モジュールが採用されている。 特に、産業用途で広く使われている高密度ビデオフレームや長いテキストを扱うのが困難である。 本稿では,特徴抽出とアテンションモジュールによる効率的な特徴融合を実現する,高精度かつメモリ効率の高い映像・言語理解モデル MuLTI を提案する。 したがって、MuLTIはGPUメモリに制限のある長いシーケンスを処理できる。 次に,メモリ消費の少ないモデルの性能向上のために,浅い特徴の微調整を行うエンコーダに注意に基づくアダプタを導入する。 最後に,モデルの性能をさらに向上させるために,事前学習と下流タスク間のタスクギャップを橋渡しし,映像とテキストを整合させるモデルの能力を高めるために,multiple choice modelingという新しい事前学習タスクを導入する。 効率的な機能融合モジュール、注意に基づくアダプタ、新しい事前トレーニングタスクの恩恵を受け、multiは複数のデータセットで最先端のパフォーマンスを達成します。 実装と事前訓練されたモデルがリリースされる。

Video-and-language understanding has a variety of applications in the industry, such as video question answering, text-video retrieval and multi-label classification. Existing video-and-language understanding methods generally adopt heavy multi-modal encoders and feature fusion modules, which consume large amounts of GPU memory. Especially, they have difficulty dealing with dense video frames or long text that are prevalent in industrial applications. In this paper, we propose MuLTI, a highly accurate and memory-efficient video-and-language understanding model that achieves efficient and effective feature fusion through feature sampling and attention modules. Therefore, MuLTI can handle longer sequences with limited GPU memory. Then, we introduce an attention-based adapter to the encoders, which finetunes the shallow features to improve the model's performance with low GPU memory consumption. Finally, to further improve the model's performance, we introduce a new pretraining task named Multiple Choice Modeling to bridge the task gap between pretraining and downstream tasks and enhance the model's ability to align the video and the text. Benefiting from the efficient feature fusion module, the attention-based adapter and the new pretraining task, MuLTI achieves state-of-the-art performance on multiple datasets. Implementation and pretrained models will be released.
翻訳日:2023-03-13 16:09:03 公開日:2023-03-10
# 移動部品:動的放射場における運動に基づく3次元部分発見

MovingParts: Motion-based 3D Part Discovery in Dynamic Radiance Field ( http://arxiv.org/abs/2303.05703v1 )

ライセンス: Link先を確認
Kaizhi Yang, Xiaoshuai Zhang, Zhiao Huang, Xuejin Chen, Zexiang Xu, Hao Su(参考訳) 動的シーン再構成と部分発見のためのNeRF法である移動部を提案する。 動きは、同じ部分の全ての粒子が共通の動きパターンを共有する部分を特定するための重要な手がかりであると考えている。 流体シミュレーションの観点からは、既存の変形に基づく動的NeRF法は、ユーレアンビューの下でのシーン運動のパラメータ化、すなわち時が経つにつれて流体が流れる空間内の特定の位置に焦点を当てていると見なすことができる。 しかし、ユーレアンビュー表現を用いて、オブジェクトや部品を構成する動きを抽出することは困難である。 本研究では、双対ラグランジアンビューを導入し、ユーレアン/ラグランジアンビューの下で表現を強制的にサイクル整合性にする。 ラグランジアンビューでは、物体上の粒子の軌跡を追跡することにより、シーンの動きをパラメータ化する。 ラグランジアンビューは、部分レベルの剛体運動の合成としてシーンの動きを分解することで、部品を発見するのに便利である。 提案手法は,単一移動カメラでも高速かつ高品質な動的シーン再構成を実現し,パートトラッキングやアニメーション,3Dシーン編集などの直接的応用を可能にする。

We present MovingParts, a NeRF-based method for dynamic scene reconstruction and part discovery. We consider motion as an important cue for identifying parts, that all particles on the same part share the common motion pattern. From the perspective of fluid simulation, existing deformation-based methods for dynamic NeRF can be seen as parameterizing the scene motion under the Eulerian view, i.e., focusing on specific locations in space through which the fluid flows as time passes. However, it is intractable to extract the motion of constituting objects or parts using the Eulerian view representation. In this work, we introduce the dual Lagrangian view and enforce representations under the Eulerian/Lagrangian views to be cycle-consistent. Under the Lagrangian view, we parameterize the scene motion by tracking the trajectory of particles on objects. The Lagrangian view makes it convenient to discover parts by factorizing the scene motion as a composition of part-level rigid motions. Experimentally, our method can achieve fast and high-quality dynamic scene reconstruction from even a single moving camera, and the induced part-based representation allows direct applications of part tracking, animation, 3D scene editing, etc.
翻訳日:2023-03-13 16:08:31 公開日:2023-03-10
# 入射フィードバックによる生成モデルの特徴学習

Feature Unlearning for Generative Models via Implicit Feedback ( http://arxiv.org/abs/2303.05699v1 )

ライセンス: Link先を確認
Saemi Moon, Seunghyuk Cho, Dongwoo Kim(参考訳) 我々は,事前学習した画像生成モデルから特徴アンラーニングの問題に取り組む。 学習対象がトレーニングセットのサブセットである一般的な未学習タスクとは異なり、事前訓練された生成モデルから、顔画像のヘアスタイルのような特定の特徴を解き放つことを目指している。 対象特徴が画像の局所領域にのみ表示されるため、事前訓練されたモデルから全体像を学習することは、画像の残りの領域で他の詳細を失うことになる。 学習すべき特徴を特定するために,ユーザが対象特徴を含む画像を選択可能な暗黙のフィードバック機構を開発する。 暗黙のフィードバックから,対象特徴に対応する潜在表現を特定し,その表現を用いて生成モデルを学習する。 我々のフレームワークは、GANとVAEの2つのよく知られた生成モデルのファミリーに対して一般化可能である。 MNISTとCelebAデータセットの実験により,元のモデルの忠実さを維持しながら,ターゲット特徴の除去に成功した。

We tackle the problem of feature unlearning from a pretrained image generative model. Unlike a common unlearning task where an unlearning target is a subset of the training set, we aim to unlearn a specific feature, such as hairstyle from facial images, from the pretrained generative models. As the target feature is only presented in a local region of an image, unlearning the entire image from the pretrained model may result in losing other details in the remaining region of the image. To specify which features to unlearn, we develop an implicit feedback mechanism where a user can select images containing the target feature. From the implicit feedback, we identify a latent representation corresponding to the target feature and then use the representation to unlearn the generative model. Our framework is generalizable for the two well-known families of generative models: GANs and VAEs. Through experiments on MNIST and CelebA datasets, we show that target features are successfully removed while keeping the fidelity of the original models.
翻訳日:2023-03-13 16:08:09 公開日:2023-03-10
# 配車需要予測のためのフェアネス向上型ディープラーニング

Fairness-enhancing deep learning for ride-hailing demand prediction ( http://arxiv.org/abs/2303.05698v1 )

ライセンス: Link先を確認
Yunhan Zheng, Qingyi Wang, Dingyi Zhuang, Shenhao Wang, Jinhua Zhao(参考訳) オンデマンド配車サービスの短期需要予測は、インテリジェント交通システムにおける基本的な問題の一つである。 しかし、従来の旅行需要予測研究は主に予測精度の向上に重点を置いており、不利地区における旅行需要の体系的過小評価などの公正性の問題を無視している。 本研究では,配車サービスの時空間需要予測において,不利コミュニティと特権コミュニティの間の予測公正性を計測,評価,向上する方法を検討する。 需要予測バイアスを低減するために2段階のアプローチを採用する。 まず,新しい深層学習モデルアーキテクチャであるsocially aware neural network (sa-net) を開発し,社会的に認識された畳み込み操作を通じて,公平な需要予測のための社会デモグラフィ情報とライダーシップ情報を統合した。 第2に,異なるグループ間の平均パーセンテージ予測誤差ギャップを軽減するため,バイアス緩和正規化手法を提案する。 実世界のシカゴ交通ネットワーク(TNC)データで実証された実験結果から,非バイアスSA-Netは予測精度と公正性の両方において予測性能が向上することが示された。 特に、sa-netは最先端モデルと比較して不利群と特権群の両方の予測精度を向上させる。 バイアス緩和正則化法と組み合わせると、非バイアスSA-Netは、不利益群と特権群の間の平均パーセンテージ予測誤差ギャップを効果的に橋渡しし、不利益領域をTNC需要の体系的過小評価から保護する。 提案手法は,多くの既存短期旅行需要推定モデルに適用可能であり,犯罪事故予測などの時空間予測タスクにも有効である。

Short-term demand forecasting for on-demand ride-hailing services is one of the fundamental issues in intelligent transportation systems. However, previous travel demand forecasting research predominantly focused on improving prediction accuracy, ignoring fairness issues such as systematic underestimations of travel demand in disadvantaged neighborhoods. This study investigates how to measure, evaluate, and enhance prediction fairness between disadvantaged and privileged communities in spatial-temporal demand forecasting of ride-hailing services. A two-pronged approach is taken to reduce the demand prediction bias. First, we develop a novel deep learning model architecture, named socially aware neural network (SA-Net), to integrate the socio-demographics and ridership information for fair demand prediction through an innovative socially-aware convolution operation. Second, we propose a bias-mitigation regularization method to mitigate the mean percentage prediction error gap between different groups. The experimental results, validated on the real-world Chicago Transportation Network Company (TNC) data, show that the de-biasing SA-Net can achieve better predictive performance in both prediction accuracy and fairness. Specifically, the SA-Net improves prediction accuracy for both the disadvantaged and privileged groups compared with the state-of-the-art models. When coupled with the bias mitigation regularization method, the de-biasing SA-Net effectively bridges the mean percentage prediction error gap between the disadvantaged and privileged groups, and also protects the disadvantaged regions against systematic underestimation of TNC demand. Our proposed de-biasing method can be adopted in many existing short-term travel demand estimation models, and can be utilized for various other spatial-temporal prediction tasks such as crime incidents predictions.
翻訳日:2023-03-13 16:07:52 公開日:2023-03-10
# スタイルによる説明可能な意味的医用画像セグメンテーション

Explainable Semantic Medical Image Segmentation with Style ( http://arxiv.org/abs/2303.05696v1 )

ライセンス: Link先を確認
Wei Dai, Siyu Liu, Craig B. Engstrom, Shekhar S. Chandra(参考訳) 近年,深層学習を用いたセマンティック医用画像のセグメンテーションの精度が向上し,放射線治療などの臨床問題にアピールしている。 しかし、高品質なセマンティックラベル付きデータの欠如は、入力データへの小さなシフトへの脆さのモデル化に繋がる課題である。 ほとんどの研究は、半教師付き学習のために余分なデータを必要とし、臨床実践においてモデル展開に不可欠である訓練中のトレーニングデータ分布の境界の解釈性に欠ける。 本稿では,学習中に探索可能な多様体を同時に構築することにより,ラベル付きデータのみを限定した一般化可能なセグメンテーションを実現するための完全教師付き生成フレームワークを提案する。 提案手法は,エンド・ツー・エンドの対向訓練を組み込んだセグメンテーションタスク駆動型判別器と組み合わせた医用画像スタイルを作成する。 判別器は、トレーニングデータで許容できる限り小さなドメインシフトに一般化され、セグメンテーション中に学習した入力特徴の多様体を用いて、自動的にトレーニングサンプルを分散する。 その間、判別器は、画像の多様化の間、意味的内容と細かな特徴を別々に監督することにより、多様体学習をガイドする。 トレーニング後、ジェネレータから学習多様体を可視化することで、モデルの限界を解釈することができる。 完全セマンティックで公開可能なペルビウスデータセットの実験では、探索可能な多様体を用いてより説明可能でありながら、我々の手法が他の最先端手法よりも一般化可能であることを示した。

Semantic medical image segmentation using deep learning has recently achieved high accuracy, making it appealing to clinical problems such as radiation therapy. However, the lack of high-quality semantically labelled data remains a challenge leading to model brittleness to small shifts to input data. Most works require extra data for semi-supervised learning and lack the interpretability of the boundaries of the training data distribution during training, which is essential for model deployment in clinical practice. We propose a fully supervised generative framework that can achieve generalisable segmentation with only limited labelled data by simultaneously constructing an explorable manifold during training. The proposed approach creates medical image style paired with a segmentation task driven discriminator incorporating end-to-end adversarial training. The discriminator is generalised to small domain shifts as much as permissible by the training data, and the generator automatically diversifies the training samples using a manifold of input features learnt during segmentation. All the while, the discriminator guides the manifold learning by supervising the semantic content and fine-grained features separately during the image diversification. After training, visualisation of the learnt manifold from the generator is available to interpret the model limits. Experiments on a fully semantic, publicly available pelvis dataset demonstrated that our method is more generalisable to shifts than other state-of-the-art methods while being more explainable using an explorable manifold.
翻訳日:2023-03-13 16:07:23 公開日:2023-03-10
# ニューラルネットワークにおける長距離相互作用のモードロック理論

Mode-locking Theory for Long-Range Interaction in Artificial Neural Networks ( http://arxiv.org/abs/2303.05695v1 )

ライセンス: Link先を確認
Xiuxiu Bai, Shuaishuai Zhao, Yao Gao, Zhe Liu(参考訳) 視覚的な長距離インタラクションとは、画像内の離れた特徴点やブロック間の依存関係をモデリングすることであり、モデルの堅牢性を大幅に向上させる。 CNNとTransformerはどちらも階層化とパッチ計算によって長距離インタラクションを確立することができる。 しかし、視覚空間における長距離相互作用のメカニズムはいまだ不明である。 モード同期干渉波形を実現するために,波間の位相・波長関係を拘束するメカニズムとしてモード同期理論を提案する。 本理論をシミュレーション実験により検証し,実世界シーンモデルにおけるモードロックパターンを実証する。 提案する長距離相互作用理論は,ニューラルネットワークにおけるこの現象のメカニズムを包括的に理解する。 この理論は、モードロックパターンをモデルに統合し、ロバスト性を高める。

Visual long-range interaction refers to modeling dependencies between distant feature points or blocks within an image, which can significantly enhance the model's robustness. Both CNN and Transformer can establish long-range interactions through layering and patch calculations. However, the underlying mechanism of long-range interaction in visual space remains unclear. We propose the mode-locking theory as the underlying mechanism, which constrains the phase and wavelength relationship between waves to achieve mode-locked interference waveform. We verify this theory through simulation experiments and demonstrate the mode-locking pattern in real-world scene models. Our proposed theory of long-range interaction provides a comprehensive understanding of the mechanism behind this phenomenon in artificial neural networks. This theory can inspire the integration of the mode-locking pattern into models to enhance their robustness.
翻訳日:2023-03-13 16:07:00 公開日:2023-03-10
# マルチエージェントベイズ最適化のためのガウス値エントロピー探索

Gaussian Max-Value Entropy Search for Multi-Agent Bayesian Optimization ( http://arxiv.org/abs/2303.05694v1 )

ライセンス: Link先を確認
Haitong Ma, Tianpeng Zhang, Yixuan Wu, Flavio P. Calmon, Na Li(参考訳) 本研究では,複数のエージェントが反復クエリによってブラックボックス関数を最大化するマルチエージェントベイズ最適化(bo)問題を検討する。 我々は,ブラックボックス関数の最大値に関する相互情報を最大化するためにクエリを選択するサンプル効率のよいboアルゴリズムであるエントロピー探索(es)に注目した。 ESの主な課題の1つは、相互情報の計算には計算コストのかかる近似技術が必要であることである。 マルチエージェントBO問題の場合、ESの計算コストはエージェント数で指数関数的である。 そこで,本研究では,サンプルと計算効率に優れたマルチエージェントboアルゴリズムであるgaussian max-value entropy searchを提案する。 この考え方の鍵は、正規分布を用いて最大関数を近似し、その相互情報を計算することである。 その結果得られた近似により、クローズドフォーム最適化問題の解としてクエリをキャストすることができ、修正された勾配上昇アルゴリズムによって解き、多数のエージェントにスケールすることができる。 標準試験関数の数値実験と実ロボット実験を通じ,gaussian max-value entropy searchの有効性を示す。 その結果,提案アルゴリズムは数値実験においてマルチエージェントBOベースラインよりも優れており,実際のロボットに対するノイズの少ない観測を安定して行うことができることがわかった。

We study the multi-agent Bayesian optimization (BO) problem, where multiple agents maximize a black-box function via iterative queries. We focus on Entropy Search (ES), a sample-efficient BO algorithm that selects queries to maximize the mutual information about the maximum of the black-box function. One of the main challenges of ES is that calculating the mutual information requires computationally-costly approximation techniques. For multi-agent BO problems, the computational cost of ES is exponential in the number of agents. To address this challenge, we propose the Gaussian Max-value Entropy Search, a multi-agent BO algorithm with favorable sample and computational efficiency. The key to our idea is to use a normal distribution to approximate the function maximum and calculate its mutual information accordingly. The resulting approximation allows queries to be cast as the solution of a closed-form optimization problem which, in turn, can be solved via a modified gradient ascent algorithm and scaled to a large number of agents. We demonstrate the effectiveness of Gaussian max-value Entropy Search through numerical experiments on standard test functions and real-robot experiments on the source-seeking problem. Results show that the proposed algorithm outperforms the multi-agent BO baselines in the numerical experiments and can stably seek the source with a limited number of noisy observations on real robots.
翻訳日:2023-03-13 16:06:49 公開日:2023-03-10
# ロバスト画像検索のための意味保存強化

Semantic-Preserving Augmentation for Robust Image-Text Retrieval ( http://arxiv.org/abs/2303.05692v1 )

ライセンス: Link先を確認
Sunwoo Kim, Kyuhong Shim, Luong Trung Nguyen, and Byonghyo Shim(参考訳) 画像テキスト検索は、視覚世界の適切なテキスト記述を検索するタスクであり、その逆である。 このタスクの1つの課題は、画像とテキストの破損を入力する脆弱性である。 このような汚職はしばしば訓練中に観測されず、検索モデル決定品質を著しく低下させる。 本稿では,画像のセマンティック保存強化(SPAugI)とテキスト(SPAugT)という,新しい画像ベースおよびテキストベースの拡張技術からなる,堅牢な視覚的セマンティック埋め込み(RVSE)と呼ばれる新しい画像テキスト検索手法を提案する。 SPAugIとSPAugTは、その意味情報が保存されるように元のデータを変更するため、我々は特徴抽出器を強制して、腐敗に関係なく意味を意識した埋め込みベクトルを生成し、モデルの堅牢性を大幅に向上させる。 ベンチマークデータセットを用いた広範囲な実験から,rvseは従来の検索方式よりも画像テキスト検索性能が優れていることを示す。

Image text retrieval is a task to search for the proper textual descriptions of the visual world and vice versa. One challenge of this task is the vulnerability to input image and text corruptions. Such corruptions are often unobserved during the training, and degrade the retrieval model decision quality substantially. In this paper, we propose a novel image text retrieval technique, referred to as robust visual semantic embedding (RVSE), which consists of novel image-based and text-based augmentation techniques called semantic preserving augmentation for image (SPAugI) and text (SPAugT). Since SPAugI and SPAugT change the original data in a way that its semantic information is preserved, we enforce the feature extractors to generate semantic aware embedding vectors regardless of the corruption, improving the model robustness significantly. From extensive experiments using benchmark datasets, we show that RVSE outperforms conventional retrieval schemes in terms of image-text retrieval performance.
翻訳日:2023-03-13 16:06:26 公開日:2023-03-10
# テンソル分解における実対数正準閾値の上界とベイズ推定への応用

Upper Bound of Real Log Canonical Threshold of Tensor Decomposition and its Application to Bayesian Inference ( http://arxiv.org/abs/2303.05731v1 )

ライセンス: Link先を確認
Naoki Yoshida and Sumio Watanabe(参考訳) テンソル分解は現在、データ分析、情報圧縮、知識回復に使われている。 しかし、テンソル分解の数学的性質は特異学習機の1つであるため、まだ完全には解明されていない。 本稿では,代数幾何学的手法を用いてテンソル分解の実対正準しきい値(rlct)の上界を与え,ベイズ一般化誤差を理論的に導出する。 また,その数学的性質を数値実験によって考察する。

Tensor decomposition is now being used for data analysis, information compression, and knowledge recovery. However, the mathematical property of tensor decomposition is not yet fully clarified because it is one of singular learning machines. In this paper, we give the upper bound of its real log canonical threshold (RLCT) of the tensor decomposition by using an algebraic geometrical method and derive its Bayesian generalization error theoretically. We also give considerations about its mathematical property through numerical experiments.
翻訳日:2023-03-13 15:59:29 公開日:2023-03-10
# IC分類器:GNNを用いた幾何学的先行に基づく3次元産業部品の分類器

IC classifier: a classifier for 3D industrial components based on geometric prior using GNN ( http://arxiv.org/abs/2303.05730v1 )

ライセンス: Link先を確認
Zipeng Lin, Zhenguo Nie(参考訳) 本稿では,IC-classifier(Industrial Component Classifier)という新しいフレームワークを導入することで,3次元産業部品の分類問題に対処する手法を提案する。 我々のフレームワークは、オブジェクトの局所的およびグローバル的構造に焦点を合わせ、モデルを埋め込むための特定の局所的特徴を組み込むことにより、前者を強調するように設計されている。 グラフィカルニューラルネットワークの利用と幾何学的性質からの埋め込みにより、IC分類器は、大域構造の解析に幾何学的注意を用いたオブジェクトの局所構造の探索を容易にする。 さらに、フレームワークはポイントクラウドを使用して、重い計算ワークロードを回避します。 提案したフレームワークのパフォーマンスは最先端のモデルに対してベンチマークされ、この分野での競争の可能性を示している。

In this paper, we propose an approach to address the problem of classifying 3D industrial components by introducing a novel framework named IC-classifier (Industrial Component classifier). Our framework is designed to focus on the object's local and global structures, emphasizing the former by incorporating specific local features for embedding the model. By utilizing graphical neural networks and embedding derived from geometric properties, IC-classifier facilitates the exploration of the local structures of the object while using geometric attention for the analysis of global structures. Furthermore, the framework uses point clouds to circumvent the heavy computation workload. The proposed framework's performance is benchmarked against state-of-the-art models, demonstrating its potential to compete in the field.
翻訳日:2023-03-13 15:59:21 公開日:2023-03-10
# 反事実を用いたモデル信頼度の説明

Explaining Model Confidence Using Counterfactuals ( http://arxiv.org/abs/2303.05729v1 )

ライセンス: Link先を確認
Thao Le, Tim Miller, Ronal Singh and Liz Sonenberg(参考訳) 人間とAIのインタラクションにおける信頼スコアの表示は、人間とAIシステムの信頼構築に役立つことが示されている。 しかし、既存の研究のほとんどは信頼スコアのみをコミュニケーションの形式として用いている。 信頼スコアは単なるモデル出力であるので、なぜアルゴリズムが信頼スコアを受け入れるかどうかを判断する自信があるのかを理解したいかもしれない。 本稿では,信頼性スコアの反実的説明が,機械学習モデルの予測をよりよく理解し,より信頼する上で有効であることを示す。 本研究は,(1) 対実例に基づくモデル信頼度,(2) 対実空間の可視化に基づくモデル信頼度を理解するための2つの手法を提案する。 無説明のベースラインよりも参加者の理解と信頼を増すが、質的な結果から、それぞれが全く異なる使われ方をしていることが示され、いつ使うか、より良い説明を設計する方向が推奨される。

Displaying confidence scores in human-AI interaction has been shown to help build trust between humans and AI systems. However, most existing research uses only the confidence score as a form of communication. As confidence scores are just another model output, users may want to understand why the algorithm is confident to determine whether to accept the confidence score. In this paper, we show that counterfactual explanations of confidence scores help study participants to better understand and better trust a machine learning model's prediction. We present two methods for understanding model confidence using counterfactual explanation: (1) based on counterfactual examples; and (2) based on visualisation of the counterfactual space. Both increase understanding and trust for study participants over a baseline of no explanation, but qualitative results show that they are used quite differently, leading to recommendations of when to use each one and directions of designing better explanations.
翻訳日:2023-03-13 15:59:08 公開日:2023-03-10
# 力学系のモデリングにおける神経前兆の効果について

On the effectiveness of neural priors in modeling dynamical systems ( http://arxiv.org/abs/2303.05728v1 )

ライセンス: Link先を確認
Sameera Ramasinghe, Hemanth Saratchandran, Violetta Shevchenko, Simon Lucey(参考訳) 力学系のモデリングは自然界を理解するための不可欠な要素である。 この目的のために、大量のデータから複雑な関数を学習する能力のために、ニューラルネットワークはますます人気のある候補になりつつある。 最近の進歩にもかかわらず、ニューラルネットワークがそのようなシステムを学ぶ際に提供するアーキテクチャの規則化について十分な議論は行われていない。 本稿では,この方向への議論を,テストベッドとして座標ネットワークを用いて開始する。 我々は、信号処理レンズから力学系と座標ネットワークを解釈し、明示的な正規化子を使わずに、少数の層を持つ単純な座標ネットワークを用いて、モデリング力学系における複数の問題を解決することができることを示した。

Modelling dynamical systems is an integral component for understanding the natural world. To this end, neural networks are becoming an increasingly popular candidate owing to their ability to learn complex functions from large amounts of data. Despite this recent progress, there has not been an adequate discussion on the architectural regularization that neural networks offer when learning such systems, hindering their efficient usage. In this paper, we initiate a discussion in this direction using coordinate networks as a test bed. We interpret dynamical systems and coordinate networks from a signal processing lens, and show that simple coordinate networks with few layers can be used to solve multiple problems in modelling dynamical systems, without any explicit regularizers.
翻訳日:2023-03-13 15:58:54 公開日:2023-03-10
# cvt-slr:可変アライメントを用いた手話認識のためのコントラスト的視覚テキスト変換

CVT-SLR: Contrastive Visual-Textual Transformation for Sign Language Recognition with Variational Alignment ( http://arxiv.org/abs/2303.05725v1 )

ライセンス: Link先を確認
Jiangbin Zheng, Yile Wang, Cheng Tan, Siyuan Li, Ge Wang, Jun Xia, Yidong Chen, Stan Z. Li(参考訳) 手話認識(SLR)は、手話ビデオにテキストグルースとして注釈をつける弱い教師付きタスクである。 近年の研究では、大規模手話データセットの欠如による訓練不足がSLRの主なボトルネックとなっている。 SLRの作業の大部分は、事前訓練された視覚モジュールを採用し、2つの主要なソリューションを開発する。 マルチストリームアーキテクチャはマルチキューの視覚的特徴を拡張し、現在のSOTA性能を得るが、複雑な設計を必要とし、潜在的なノイズをもたらす可能性がある。 あるいは、視覚とテキスト間の明示的なクロスモーダルアライメントを用いた先進的なシングルキューslrフレームワークはシンプルで効果的であり、マルチキューフレームワークと競合する可能性がある。 本研究では,SLR(CVT-SLR)に対して,視覚的・言語的モダリティの事前知識を十分に探求するための,新しいコントラッシブ・テキスト変換を提案する。 単一キューのクロスモーダルアライメントフレームワークをベースとして,事前学習した文脈知識に対して,完全な事前学習言語モジュールを導入しながら可変オートエンコーダ(VAE)を提案する。 VAEは、従来のコンテキストモジュールとしての事前訓練されたコンテキスト知識の恩恵を受けながら、視覚的およびテキスト的モダリティを暗黙的に調整する。 一方, 明示的な一貫性制約をさらに高めるために, 対照的なクロスモーダルアライメントアルゴリズムが提案されている。 PHOENIX-2014とPHOENIX-2014Tという2つの一般的な公開データセットで実施された大規模な実験により、提案するSLRフレームワークが既存の単一キュー法よりも一貫して優れているだけでなく、SOTAマルチキュー法よりも優れていることが実証された。

Sign language recognition (SLR) is a weakly supervised task that annotates sign videos as textual glosses. Recent studies show that insufficient training caused by the lack of large-scale available sign language datasets becomes the main bottleneck for SLR. The majority of SLR works thereby adopt pretrained visual modules and develop two mainstream solutions. The multi-stream architectures extend multi-cue visual features, yielding the current SOTA performances but requiring complex designs and might introduce potential noise. Alternatively, the advanced single-cue SLR frameworks using explicit cross-modal alignment between visual and textual modalities are simple and effective, potentially competitive with the multi-cue framework. In this work, we propose a novel contrastive visual-textual transformation for SLR, CVT-SLR, to fully explore the pretrained knowledge of both the visual and language modalities. Based on the single-cue cross-modal alignment framework, we propose a variational autoencoder (VAE) for pretrained contextual knowledge while introducing the complete pretrained language module. The VAE implicitly aligns visual and textual modalities while benefiting from pretrained contextual knowledge as the traditional contextual module. Meanwhile, a contrastive cross-modal alignment algorithm is proposed to further enhance the explicit consistency constraints. Extensive experiments conducted on the two most popular public datasets, PHOENIX-2014 and PHOENIX-2014T, demonstrate that our proposed SLR framework not only consistently outperforms existing single-cue methods but even outperforms SOTA multi-cue methods.
翻訳日:2023-03-13 15:58:42 公開日:2023-03-10
# 単一画像からの3次元撮影

3D Cinemagraphy from a Single Image ( http://arxiv.org/abs/2303.05724v1 )

ライセンス: Link先を確認
Xingyi Li, Zhiguo Cao, Huiqiang Sun, Jianming Zhang, Ke Xian, Guosheng Lin(参考訳) 3Dシネマグラフィー(3D Cinemagraphy)は,2Dアニメーションと3D写真を組み合わせる新しい技術である。 静止画1枚を入力として、視覚コンテンツアニメーションとカメラモーションの両方を含むビデオを生成することが目的です。 既存の2D画像アニメーションと3D写真手法を組み合わせることで、明らかなアーティファクトや一貫性のないアニメーションにつながることを実証的に見出した。 私たちの重要な洞察は、3D空間におけるシーンの表現とアニメーションが、このタスクに自然な解決策をもたらすということです。 この目的のために,まず入力画像を予測深度値を用いて特徴ベースの層状深度画像に変換し,続いて特徴点雲に投影する。 シーンをアニメーションするために、動作推定を行い、3次元シーンフローに2次元の動きを持ち上げる。 最後に, 点の進行に伴う穴の開きの問題を解決するため, シーンの流れに従って点雲を双方向に切り離し, 対象画像平面に別々に投影し, 結果をブレンドすることによって, 新たなビューを合成することを提案する。 広範な実験により本手法の有効性が実証された。 また,本手法の説得力のあるレンダリング結果を検証するため,ユーザ調査を行った。

We present 3D Cinemagraphy, a new technique that marries 2D image animation with 3D photography. Given a single still image as input, our goal is to generate a video that contains both visual content animation and camera motion. We empirically find that naively combining existing 2D image animation and 3D photography methods leads to obvious artifacts or inconsistent animation. Our key insight is that representing and animating the scene in 3D space offers a natural solution to this task. To this end, we first convert the input image into feature-based layered depth images using predicted depth values, followed by unprojecting them to a feature point cloud. To animate the scene, we perform motion estimation and lift the 2D motion into the 3D scene flow. Finally, to resolve the problem of hole emergence as points move forward, we propose to bidirectionally displace the point cloud as per the scene flow and synthesize novel views by separately projecting them into target image planes and blending the results. Extensive experiments demonstrate the effectiveness of our method. A user study is also conducted to validate the compelling rendering results of our method.
翻訳日:2023-03-13 15:58:13 公開日:2023-03-10
# 決定境界情報の活用による敵攻撃の促進

Boosting Adversarial Attacks by Leveraging Decision Boundary Information ( http://arxiv.org/abs/2303.05719v1 )

ライセンス: Link先を確認
Boheng Zeng, LianLi Gao, QiLong Zhang, ChaoQun Li, JingKuan Song and ShuaiQi Jing(参考訳) 代替モデルと被害者モデルとのギャップのため、代替モデルから発生する勾配に基づくノイズは、その勾配が異なるため、被害者モデルへの移動性が低い可能性がある。 異なるモデルの決定境界はそれほど異なるものではないという事実に着想を得て実験を行い、異なるモデルの勾配が元の位置よりも決定境界に類似していることを発見した。 さらに,入力画像近傍における決定境界は,ほとんどの方向に沿って平坦であるため,この境界勾配は,被害者モデルの決定境界を横断する有効な方向を見つけるのに役立つと推測する。 そこで本研究では,転送性向上のための境界フィッティング攻撃を提案する。 具体的には、境界点の集合を取得し、これらの点の勾配情報を利用して逆の例を更新する手法を提案する。 特に,本手法は既存の勾配法と組み合わせることができる。 広範な実験により、通常訓練されたcnnに対して5.6%、防御用cnnに対して14.9%の成功率の向上が、最先端のトランスファーベース攻撃と比較して証明された。 さらに,変換器とCNNを比較することで,変換器はCNNよりも堅牢であることを示す。 しかし,本手法は変圧器攻撃時の既存手法よりも優れている。 具体的には、CNNを代替モデルとして使用する場合、58.2%の平均攻撃成功率は、他の最先端の転送ベース攻撃よりも10.8%高い。

Due to the gap between a substitute model and a victim model, the gradient-based noise generated from a substitute model may have low transferability for a victim model since their gradients are different. Inspired by the fact that the decision boundaries of different models do not differ much, we conduct experiments and discover that the gradients of different models are more similar on the decision boundary than in the original position. Moreover, since the decision boundary in the vicinity of an input image is flat along most directions, we conjecture that the boundary gradients can help find an effective direction to cross the decision boundary of the victim models. Based on it, we propose a Boundary Fitting Attack to improve transferability. Specifically, we introduce a method to obtain a set of boundary points and leverage the gradient information of these points to update the adversarial examples. Notably, our method can be combined with existing gradient-based methods. Extensive experiments prove the effectiveness of our method, i.e., improving the success rate by 5.6% against normally trained CNNs and 14.9% against defense CNNs on average compared to state-of-the-art transfer-based attacks. Further we compare transformers with CNNs, the results indicate that transformers are more robust than CNNs. However, our method still outperforms existing methods when attacking transformers. Specifically, when using CNNs as substitute models, our method obtains an average attack success rate of 58.2%, which is 10.8% higher than other state-of-the-art transfer-based attacks.
翻訳日:2023-03-13 15:57:51 公開日:2023-03-10
# 教師なし学習における一般化誤差のトレードオフ

Tradeoff of generalization error in unsupervised learning ( http://arxiv.org/abs/2303.05718v1 )

ライセンス: Link先を確認
Gilhan Kim, Hojun Lee, Junghyo Jo, Yongjoo Baek(参考訳) 一般化誤差(GE)を最小限に抑える最適なモデル複雑性を見つけることは、機械学習の重要な問題である。 従来の教師付き学習では、このタスクは一般的にバイアス-ばらつきのトレードオフを伴い、モデルをより複雑にすることでバイアスを下げる。 一方で、教師なし学習に同じトレードオフが存在するかどうかについてはほとんど研究されていない。 本研究では,教師なし学習は一般に,モデルエラーとデータエラーという,geの2成分のトレードオフを示す。より複雑なモデルを用いることで,データエラーのコストでモデルエラーを低減し,データエラーがより小さなトレーニングデータセットにおいてより重要な役割を果たすことを提案する。 これは、制限ボルツマン機械を訓練し、与えられた温度で2次元イジングモデルの構成と、与えられた入出率で完全に非対称な単純な排他過程を生成することによって裏付けられる。 また, 学習対象のデータがより複雑である場合には, 最適モデルはより複雑になる傾向が示唆された。

Finding the optimal model complexity that minimizes the generalization error (GE) is a key issue of machine learning. For the conventional supervised learning, this task typically involves the bias-variance tradeoff: lowering the bias by making the model more complex entails an increase in the variance. Meanwhile, little has been studied about whether the same tradeoff exists for unsupervised learning. In this study, we propose that unsupervised learning generally exhibits a two-component tradeoff of the GE, namely the model error and the data error -- using a more complex model reduces the model error at the cost of the data error, with the data error playing a more significant role for a smaller training dataset. This is corroborated by training the restricted Boltzmann machine to generate the configurations of the two-dimensional Ising model at a given temperature and the totally asymmetric simple exclusion process with given entry and exit rates. Our results also indicate that the optimal model tends to be more complex when the data to be learned are more complex.
翻訳日:2023-03-13 15:57:26 公開日:2023-03-10
# プログレッシブ画像圧縮のためのコンテキストベーストライトプレーン符号化

Context-Based Trit-Plane Coding for Progressive Image Compression ( http://arxiv.org/abs/2303.05715v1 )

ライセンス: Link先を確認
Seungmin Jeon, Kwang Pyo Choi, Youngo Park and Chang-Su Kim(参考訳) trit-planeコーディングは、深いプログレッシブな画像圧縮を可能にするが、自己回帰的なコンテキストモデルを使用しない。 本稿では,よりコンパクトにプログレッシブ圧縮を実現するためのコンテキストベーストライトプレーン符号化(ctc)アルゴリズムを提案する。 まず, 潜在要素のトリット確率を正確に推定し, トリット平面をコンパクトに符号化する, コンテキストベースレート低減モジュールを開発した。 第2に,三面体から部分潜在テンソルを精製し,再構成した画像品質を改善するために,文脈に基づく歪み低減モジュールを開発した。 第3に,レートゆがみトレードオフを達成するために,デコーダの再トレーニング方式を提案する。 大規模な実験により、CTCはコダックロスレスデータセット上のBDレートにおいて、ベースライントリトプレーンコーデックを著しく上回るが、時間複雑性はわずかに増大する。 私たちのコードはhttps://github.com/seungminjeon-github/ctcで利用可能です。

Trit-plane coding enables deep progressive image compression, but it cannot use autoregressive context models. In this paper, we propose the context-based trit-plane coding (CTC) algorithm to achieve progressive compression more compactly. First, we develop the context-based rate reduction module to estimate trit probabilities of latent elements accurately and thus encode the trit-planes compactly. Second, we develop the context-based distortion reduction module to refine partial latent tensors from the trit-planes and improve the reconstructed image quality. Third, we propose a retraining scheme for the decoder to attain better rate-distortion tradeoffs. Extensive experiments show that CTC outperforms the baseline trit-plane codec significantly in BD-rate on the Kodak lossless dataset, while increasing the time complexity only marginally. Our codes are available at https://github.com/seungminjeon-github/CTC.
翻訳日:2023-03-13 15:57:08 公開日:2023-03-10
# フォールトトレラント量子コンピュータにおける短深さ量子回路を用いた多重固有値の同時推定

Simultaneous estimation of multiple eigenvalues with short-depth quantum circuit on early fault-tolerant quantum computers ( http://arxiv.org/abs/2303.05714v1 )

ライセンス: Link先を確認
Zhiyan Ding and Lin Lin(参考訳) 量子ハミルトニアンの複数の固有値を同時に推定する多段量子複素指数最小二乗法(MM-QCELS)を提案する。 回路深さと総コストはハイゼンベルク制限スケーリングを示す。 量子回路は1つのアンシラ量子ビットを使用し、適切な初期状態条件下では、回路深さは量子位相推定(QPE)型回路よりもはるかに短い。 その結果、この手法は早期のフォールトトレラント量子コンピュータに適している。 提案手法は,[ding and lin, arxiv:2211.11973] を推定するために最近開発された量子複素指数最小二乗法(qcels)を拡張し,改良するものである。 複数の固有値を推定するための理論的解析は、単一支配固有値推定のバウンダリを締め付ける。 数値結果は、qpeと比較して、ある量子系の基底状態と励起状態エネルギーを推定するためのいくつかの設定の下で、回路の深さを約2桁小さくできることを示唆している。

We introduce a multi-modal, multi-level quantum complex exponential least squares (MM-QCELS) method to simultaneously estimate multiple eigenvalues of a quantum Hamiltonian. The circuit depth and the total cost exhibit Heisenberg-limited scaling. The quantum circuit uses one ancilla qubit, and under suitable initial state conditions, the circuit depth can be much shorter than that of quantum phase estimation (QPE) type circuits. As a result, this method is well-suited for early fault-tolerant quantum computers. Our approach extends and refines the quantum complex exponential least squares (QCELS) method, recently developed for estimating a single dominant eigenvalue [Ding and Lin, arXiv:2211.11973]. Our theoretical analysis for estimating multiple eigenvalues also tightens the bound for single dominant eigenvalue estimation. Numerical results suggest that compared to QPE, the circuit depth can be reduced by around two orders of magnitude under several settings for estimating ground-state and excited-state energies of certain quantum systems.
翻訳日:2023-03-13 15:56:52 公開日:2023-03-10
# メラノーマWSIの転移予測のための深層学習

Deep Learning for Predicting Metastasis on Melanoma WSIs ( http://arxiv.org/abs/2303.05752v1 )

ライセンス: Link先を確認
Christopher Andreassen, Saul Fuster, Helga Hardardottir, Emiel A.M. Janssen, Kjersti Engan(参考訳) 北ヨーロッパのメラノーマの死亡率は世界第2位である。 2020年、メラノーマの死亡率は100万人当たり1.9に増加した。 悪性黒色腫の予後は、病理学者による患者の腫瘍の主観的視覚的解析に基づいている。 この手法は非常に時間がかかり、専門家の予後の変動が顕著であり、再現性を大幅に損なう。 したがって、より高速で再現可能な方法の必要性が生じる。 機械学習はデジタル病理学に足を踏み入れてきたが、これまでのところ、ほとんどの貢献はローカライゼーション、セグメンテーション、診断であり、予後をあまり重視していない。 本稿では,VGG16をベースとした畳み込みニューラルネットワーク(CNN)を用いて,転移の有無を5年以内に予測する。 パッチはモデルトレーニングや検証で使用される拡大レベルによって、全体スライド画像(wsis)から関心領域から抽出される。 その結果、WSIパッチを20倍の倍率で利用する場合、F1スコアが0.7667、AUCが0.81である。

Northern Europe has the second highest mortality rate of melanoma globally. In 2020, the mortality rate of melanoma rose to 1.9 per 100 000 habitants. Melanoma prognosis is based on a pathologist's subjective visual analysis of the patient's tumor. This methodology is heavily time-consuming, and the prognosis variability among experts is notable, drastically jeopardizing its reproducibility. Thus, the need for faster and more reproducible methods arises. Machine learning has paved its way into digital pathology, but so far, most contributions are on localization, segmentation, and diagnostics, with little emphasis on prognostics. This paper presents a convolutional neural network (CNN) method based on VGG16 to predict melanoma prognosis as the presence of metastasis within five years. Patches are extracted from regions of interest from Whole Slide Images (WSIs) at different magnification levels used in model training and validation. Results infer that utilizing WSI patches at 20x magnification level has the best performance, with an F1 score of 0.7667 and an AUC of 0.81.
翻訳日:2023-03-13 15:51:19 公開日:2023-03-10
# 量子電子状態と物質相の位相特性解析のための数学的基礎の簡単なレビュー

A brief review of mathematical foundation for analyzing topological characteristics of quantum electronic states and matter phases ( http://arxiv.org/abs/2303.05750v1 )

ライセンス: Link先を確認
V. Nam Do(参考訳) 本稿では,ファイバー束構造の高度な数学的言語と,それらの状態ベクトル集合の位相的性質の解析に基づく2レベル量子システムの分類法について概説する。 量子電子状態と物質相の位相クラスは、ファイバー束構造の基底多様体上の微分形式の積分として幾何学的に定義される位相不変量によって特徴づけられる。 具体的には、Su-Schrieffer-Heeger (SSH) モデルで記述された一次元系に対して、状態ベクトルの集合がブリルアンゾーンに直接ファイバー束構造を持つとは限らないことを示す。 SSHシステムを分類するために、コンポジットマップの概念に基づいて電子状態ベクトルの集合を分解する手法を用いる。 その結果、SSH系は、異なる基底多様体を持つ主繊維束の幾何学的性質に基づいて分類される。

We briefly review the advanced mathematical language of fiber bundle structures and how they can be used to classify two-level quantum systems based on the analysis of the topological properties of their sets of state vectors. The topological classes of quantum electronic states and matter phases are characterized by topological invariants, which can be defined geometrically as the integral of differential forms on the base manifold of the fiber bundle structure. Specifically, we demonstrate that for one-dimensional systems described by the Su-Schrieffer-Heeger (SSH) model, the set of state vectors does not always have a fiber bundle structure directly on the Brillouin zone. To classify the SSH systems, we use a technique based on the concept of composite maps to decompose the set of electronic state vectors. As a result, the SSH systems are classified based on the geometrical properties of principal fiber bundles with different base manifolds.
翻訳日:2023-03-13 15:51:03 公開日:2023-03-10
# 参照データのない位相収差補正:適応型混合損失深層学習アプローチ

Phase Aberration Correction without Reference Data: An Adaptive Mixed Loss Deep Learning Approach ( http://arxiv.org/abs/2303.05747v1 )

ライセンス: Link先を確認
Mostafa Sharifzadeh, Habib Benali, Hassan Rivaz(参考訳) 位相収差は超音波における画質劣化の主な原因の1つであり、異種媒質中の音速の空間的変化によって引き起こされる。 この効果は送信波を妨害し、エコー信号のコヒーレントな総和を防ぎ、最適下画像の品質をもたらす。 実際の実験では、非収差の基底真理を得るのは難しいが、実現不可能である。 シミュレーションデータにのみ依存することによる深層学習に基づく位相収差補正技術の性能低下と,シミュレーションデータと実験データ間の領域シフトの存在を阻害する。 そこで本研究では,位相収差効果を補償するために参照データを必要としない深層学習方式を提案する。 我々は、入力とターゲットの出力がランダムに収差された無線周波数(RF)データであるネットワークを訓練する。 さらに,ネットワークの最適性能をトレーニングするには,平均二乗誤差などの従来の損失関数が不十分であることを示す。 代わりに、BモードとRFデータの両方を利用する適応混合損失関数を提案し、より効率的な収束と性能の向上を実現した。 ソースコードは \url{http://code.sonography.ai} で入手できる。

Phase aberration is one of the primary sources of image quality degradation in ultrasound, which is induced by spatial variations in sound speed across the heterogeneous medium. This effect disrupts transmitted waves and prevents coherent summation of echo signals, resulting in suboptimal image quality. In real experiments, obtaining non-aberrated ground truths can be extremely challenging, if not infeasible. It hinders the performance of deep learning-based phase aberration correction techniques due to sole reliance on simulated data and the presence of domain shift between simulated and experimental data. Here, for the first time, we propose a deep learning-based method that does not require reference data to compensate for the phase aberration effect. We train a network wherein both input and target output are randomly aberrated radio frequency (RF) data. Moreover, we demonstrate that a conventional loss function such as mean square error is inadequate for training the network to achieve optimal performance. Instead, we propose an adaptive mixed loss function that employs both B-mode and RF data, resulting in more efficient convergence and enhanced performance. Source code is available at \url{http://code.sonography.ai}.
翻訳日:2023-03-13 15:50:48 公開日:2023-03-10
# 多地点多領域気道木モデリング(ATM'22):肺気道セグメンテーションのための公開ベンチマーク

Multi-site, Multi-domain Airway Tree Modeling (ATM'22): A Public Benchmark for Pulmonary Airway Segmentation ( http://arxiv.org/abs/2303.05745v1 )

ライセンス: Link先を確認
Minghui Zhang, Yangqian Wu, Hanxiao Zhang, Yulei Qin, Hao Zheng, Wen Tang, Corey Arnold, Chenhao Pei, Pengxin Yu, Yang Nan, Guang Yang, Simon Walsh, Dominic C. Marshall, Matthieu Komorowski, Puyang Wang, Dazhou Guo, Dakai Jin, Ya'nan Wu, Shuiqing Zhao, Runsheng Chang, Boyu Zhang, Xing Lv, Abdul Qayyum, Moona Mazher, Qi Su, Yonghuang Wu, Ying'ao Liu, Yufei Zhu, Jiancheng Yang, Ashkan Pakzad, Bojidar Rangelov, Raul San Jose Estepar, Carlos Cano Espinosa, Jiayuan Sun, Guang-Zhong Yang, Yun Gu(参考訳) オープンな国際課題は、コンピュータビジョンと画像分析アルゴリズムを評価するデファクトスタンダードになりつつある。 近年,画像解像度の限界に近い肺気道セグメンテーションの到達範囲を拡大する手法が提案されている。 EXACT'09の肺気道セグメンテーション以来、深層学習に基づくアプローチの成熟と、肺疾患の早期介入のための遠位気道の細部細部を解明するための臨床ドライブにより、新たに出現したアルゴリズムの定量的比較に限られた努力が向けられている。 今のところ、パブリックアノテートデータセットは非常に制限されており、データ駆動手法の開発や新しいアルゴリズムの詳細な性能評価を妨げている。 医療画像コミュニティのためのベンチマークとして,MICCAI 2022カンファレンスで公式のチャレンジイベントとして開催されたマルチサイト多領域気道木モデリング(ATM'22)を組織した。 atm'22は、500のctスキャン(トレーニング300、検証50、テスト150)を含む、詳細な肺気道アノテーションを備えた大規模なctスキャンを提供する。 データセットはさまざまな場所から収集され、さらにノイズの多い新型コロナウイルス(COVID-19)CTの一部が含まれていた。 課題の全フェーズに23チームが参加し,上位10チームのアルゴリズムをレビューした。 定量的および定性的な結果から, 位相連続性強化を組み込んだ深層学習モデルは, 一般に優れた性能を示した。 ATM'22チャレンジはオープンコール設計であり、トレーニングデータとゴールドスタンダード評価は、そのホームページを通じて登録が成功すると利用できる。

Open international challenges are becoming the de facto standard for assessing computer vision and image analysis algorithms. In recent years, new methods have extended the reach of pulmonary airway segmentation that is closer to the limit of image resolution. Since EXACT'09 pulmonary airway segmentation, limited effort has been directed to quantitative comparison of newly emerged algorithms driven by the maturity of deep learning based approaches and clinical drive for resolving finer details of distal airways for early intervention of pulmonary diseases. Thus far, public annotated datasets are extremely limited, hindering the development of data-driven methods and detailed performance evaluation of new algorithms. To provide a benchmark for the medical imaging community, we organized the Multi-site, Multi-domain Airway Tree Modeling (ATM'22), which was held as an official challenge event during the MICCAI 2022 conference. ATM'22 provides large-scale CT scans with detailed pulmonary airway annotation, including 500 CT scans (300 for training, 50 for validation, and 150 for testing). The dataset was collected from different sites and it further included a portion of noisy COVID-19 CTs with ground-glass opacity and consolidation. Twenty-three teams participated in the entire phase of the challenge and the algorithms for the top ten teams are reviewed in this paper. Quantitative and qualitative results revealed that deep learning models embedded with the topological continuity enhancement achieved superior performance in general. ATM'22 challenge holds as an open-call design, the training data and the gold standard evaluation are available upon successful registration via its homepage.
翻訳日:2023-03-13 15:50:29 公開日:2023-03-10
# QVRF:学習画像圧縮のための量子化エラー対応可変レートフレームワーク

QVRF: A Quantization-error-aware Variable Rate Framework for Learned Image Compression ( http://arxiv.org/abs/2303.05744v1 )

ライセンス: Link先を確認
Kedeng Tong, Yaojun Wu, Yue Li, Kai Zhang, Li Zhang, Xin Jin(参考訳) 学習された画像圧縮は有望な圧縮性能を示したが、広い範囲にわたる可変ビットレートは依然として課題である。 State-of-the-art variable rateメソッドは、モデル性能の損失を妥協し、多くの追加パラメータを必要とする。 本稿では、単変量化レギュレータaを用いて、単一モデル内で広帯域変動率を達成する量子化エラー対応可変レートフレームワーク(QVRF)を提案する。 具体的には、QVRFは、離散変数レートに対するすべての潜在表現の量子化誤差を制御するために、予め定義されたラグランジュ乗算器と結合した量子化レギュレータベクトルを定義する。 さらに、再パラメータ化法は、QVRFをラウンド量子化器と互換性を持たせる。 実測実験により,QVRFを用いた既存の固定レートVAE法は,性能劣化を伴わずに単一モデル内で広範囲の連続的な変動率が得られることが示された。 さらに、QVRFは、最小限の追加パラメータで、レート歪み性能において、同時代の可変レート法より優れる。

Learned image compression has exhibited promising compression performance, but variable bitrates over a wide range remain a challenge. State-of-the-art variable rate methods compromise the loss of model performance and require numerous additional parameters. In this paper, we present a Quantization-error-aware Variable Rate Framework (QVRF) that utilizes a univariate quantization regulator a to achieve wide-range variable rates within a single model. Specifically, QVRF defines a quantization regulator vector coupled with predefined Lagrange multipliers to control quantization error of all latent representation for discrete variable rates. Additionally, the reparameterization method makes QVRF compatible with a round quantizer. Exhaustive experiments demonstrate that existing fixed-rate VAE-based methods equipped with QVRF can achieve wide-range continuous variable rates within a single model without significant performance degradation. Furthermore, QVRF outperforms contemporary variable-rate methods in rate-distortion performance with minimal additional parameters.
翻訳日:2023-03-13 15:50:00 公開日:2023-03-10
# ソフト教師による半スーパービジョンFew-Shot物体検出

Boosting Semi-Supervised Few-Shot Object Detection with SoftER Teacher ( http://arxiv.org/abs/2303.05739v1 )

ライセンス: Link先を確認
Phi Vu Tran(参考訳) 少数ショットのオブジェクト検出は、少数の例から新しい概念を検出することを目的とした、新たな問題である。 数発検出への既存のアプローチは、新しいオブジェクトに適応するために豊富なベースラベルを仮定する。 本稿では,ベースオブジェクトと新規オブジェクトの両方に豊富なラベルを持たない現実的なシナリオを考慮し,半教師付き小ショット検出の課題を考察する。 この独特な問題に触発されたSoftER Teacherは、疑似ラベルの利点と地域提案における表現学習を組み合わせた堅牢な検出器である。 SoftER Teacherは、ラベルのないデータを利用して、豊富なベースラベルを明示的に依存することなく、半教師付き数ショット検出を共同で最適化する。 広範な実験により,教師の軟弱さは,10%のベースラベルのみを用いて,強力な教師間通信検出器の新たなクラス性能に合致することが示された。 また,従来の半教師検出と少数ショット検出の関係を考察し,より強い半教師検出がよりラベル効率の良い少数ショット検出につながることを示唆した。 コードとモデルはhttps://github.com/lexisnexis-risk-open-source/ledetectionで利用可能である。

Few-shot object detection is an emerging problem aimed at detecting novel concepts from few exemplars. Existing approaches to few-shot detection assume abundant base labels to adapt to novel objects. This paper explores the task of semi-supervised few-shot detection by considering a realistic scenario which lacks abundant labels for both base and novel objects. Motivated by this unique problem, we introduce SoftER Teacher, a robust detector combining the advantages of pseudo-labeling with representation learning on region proposals. SoftER Teacher harnesses unlabeled data to jointly optimize for semi-supervised few-shot detection without explicitly relying on abundant base labels. Extensive experiments show that SoftER Teacher matches the novel class performance of a strong supervised detector using only 10% of base labels. Our work also sheds insight into a previously unknown relationship between semi-supervised and few-shot detection to suggest that a stronger semi-supervised detector leads to a more label-efficient few-shot detector. Code and models are available at https://github.com/lexisnexis-risk-open-source/ledetection
翻訳日:2023-03-13 15:49:44 公開日:2023-03-10
# clinical bertscore:臨床における自動音声認識性能の向上

Clinical BERTScore: An Improved Measure of Automatic Speech Recognition Performance in Clinical Settings ( http://arxiv.org/abs/2303.05737v1 )

ライセンス: Link先を確認
Joel Shor, Ruyue Agnes Bi, Subhashini Venugopalan, Steven Ibara, Roman Goldenberg, Ehud Rivlen(参考訳) 医学的文脈における自動音声認識(ASR)は、時間を節約し、コストを削減し、報告精度を高め、医師のバーンアウトを減らす可能性がある。 しかし、医療業界は医療関連転写ミスを避けることの重要性から、この技術の採用が遅れている。 本研究は,臨床関連ミスを他者よりもペナルティ化するASR尺度であるクリニカルBERTScore(CBERTScore)を提示する。 この尺度は、他の指標(WER, BLUE, METEORなど)と比較して、医学的文章に対する臨床的嗜好とより密接に一致していることが示される。 CTP(Crisian Transcript Preference benchmark)と呼ばれる149のリアルな医療文章に対する13の臨床好みのベンチマークを収集し、CBERTScoreが臨床医の好むものとより密に一致していることを示し、臨床を意識したASR指標をさらに発展させるために、コミュニティのためにベンチマークをリリースする。

Automatic Speech Recognition (ASR) in medical contexts has the potential to save time, cut costs, increase report accuracy, and reduce physician burnout. However, the healthcare industry has been slower to adopt this technology, in part due to the importance of avoiding medically-relevant transcription mistakes. In this work, we present the Clinical BERTScore (CBERTScore), an ASR metric that penalizes clinically-relevant mistakes more than others. We demonstrate that this metric more closely aligns with clinician preferences on medical sentences as compared to other metrics (WER, BLUE, METEOR, etc), sometimes by wide margins. We collect a benchmark of 13 clinician preferences on 149 realistic medical sentences called the Clinician Transcript Preference benchmark (CTP), demonstrate that CBERTScore more closely matches what clinicians prefer, and release the benchmark for the community to further develop clinically-aware ASR metrics.
翻訳日:2023-03-13 15:49:25 公開日:2023-03-10
# ニューラルネットワークのハードウェア高速化

Hardware Acceleration of Neural Graphics ( http://arxiv.org/abs/2303.05735v1 )

ライセンス: Link先を確認
Muhammad Husnain Mubarik, Ramakrishna Kanungo, Tobias Zirr and Rakesh Kumar(参考訳) 従来のコンピュータグラフィックスを駆動するレンダリングと逆レンダリングアルゴリズムは、最近neural representations (nr)に取って代わられた。 NRは、最近、シーンの幾何学的および物質的特性を学び、その情報を使ってフォトリアリスティックな画像を合成し、スケーラブルで予測可能なパフォーマンスで従来のレンダリングアルゴリズムを置き換えることを約束している。 neural graphics (ng) はハードウェアサポートが必要か? 60FPSで4kの解像度をレンダリングしたい場合、現在のGPUで所望のパフォーマンスで1.5X-55Xの差があることを示す代表NGアプリケーションについて検討した。 AR/VRアプリケーションでは、所望のパフォーマンスと必要なシステムパワーの間に2-4 OOMのギャップがさらに大きい。 入力エンコーディングとmlpカーネルは性能ボトルネックであり,マルチres.hashgrid,multi res. densegrid,low res. densegridエンコーディングのアプリケーション時間の72%,60%,59%を消費する。 我々は,専用エンジンによる入力エンコーディングとmlpカーネルを直接高速化し,幅広いngアプリケーションをサポートするスケーラブルでフレキシブルなハードウェアアーキテクチャであるng処理クラスタを提案する。 Vulkanでは、前処理や後処理のカーネルの未使用実装と比較して、9.94倍のカーネルレベルのパフォーマンス向上を実現しています。 以上の結果から,NGPCは最大58倍のエンド・ツー・エンドの性能向上を実現し,Hashgridエンコーディングは4つのNGアプリケーションで平均12X,20X,33X,39Xのスケーリング係数でそれぞれ8,16,32,64。 以上の結果から,NGPCでは,NeRFで30FPSで4k,他のNGアプリケーションで120FPSで8kのレンダリングが可能であることが示唆された。

Rendering and inverse-rendering algorithms that drive conventional computer graphics have recently been superseded by neural representations (NR). NRs have recently been used to learn the geometric and the material properties of the scenes and use the information to synthesize photorealistic imagery, thereby promising a replacement for traditional rendering algorithms with scalable quality and predictable performance. In this work we ask the question: Does neural graphics (NG) need hardware support? We studied representative NG applications showing that, if we want to render 4k res. at 60FPS there is a gap of 1.5X-55X in the desired performance on current GPUs. For AR/VR applications, there is an even larger gap of 2-4 OOM between the desired performance and the required system power. We identify that the input encoding and the MLP kernels are the performance bottlenecks, consuming 72%,60% and 59% of application time for multi res. hashgrid, multi res. densegrid and low res. densegrid encodings, respectively. We propose a NG processing cluster, a scalable and flexible hardware architecture that directly accelerates the input encoding and MLP kernels through dedicated engines and supports a wide range of NG applications. We also accelerate the rest of the kernels by fusing them together in Vulkan, which leads to 9.94X kernel-level performance improvement compared to un-fused implementation of the pre-processing and the post-processing kernels. Our results show that, NGPC gives up to 58X end-to-end application-level performance improvement, for multi res. hashgrid encoding on average across the four NG applications, the performance benefits are 12X,20X,33X and 39X for the scaling factor of 8,16,32 and 64, respectively. Our results show that with multi res. hashgrid encoding, NGPC enables the rendering of 4k res. at 30FPS for NeRF and 8k res. at 120FPS for all our other NG applications.
翻訳日:2023-03-13 15:49:02 公開日:2023-03-10
# 教師なし領域適応のための生成モデルに基づくノイズロバスト学習

Generative Model Based Noise Robust Training for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2303.05734v1 )

ライセンス: Link先を確認
Zhongying Deng, Da Li, Junjun He, Yi-Zhe Song, Tao Xiang(参考訳) ターゲットドメインの擬似ラベリングは、教師なしドメイン適応(UDA)において有効である。 しかし、ソースとターゲットドメイン間の分散シフトのため、ラベルなしのターゲットドメインデータの擬似ラベルは必然的にノイズとなる。 本稿では、ラベルノイズを緩和しながらドメインシフトを除去する生成モデルに基づくノイズ-ロバスト訓練法(GeNRT)を提案する。 genrtには、分散ベースのクラスワイズ機能拡張(d-cfa)と、生成モデルによってモデル化されたクラスワイズターゲット分布に基づくジェネレーティブ判別分類子一貫性(gdc)が組み込まれている。 D-CFAは、ソースデータを分布サンプリングされたターゲット特徴で拡張することにより、ドメインギャップを最小化し、生成モデルからターゲットドメイン知識を用いてノイズロスト識別分類器を訓練する。 GDCは、すべてのクラスワイド生成モデルを生成的分類器とみなし、生成的分類器と識別的分類器の整合正則化を強制する。 これは、全ての生成モデルから対象知識のアンサンブルを利用してノイズロスト判別分類器を訓練し、最終的にドメインギャップを減らすためのBen-Davidドメイン適応定理に理論的に関連付けられる。 Office-Home、PACS、Digit-Fiveの大規模な実験により、GeNRTは、単一ソースおよび複数ソースのUDA設定下での最先端のメソッドに匹敵するパフォーマンスを実現しています。

Target domain pseudo-labelling has shown effectiveness in unsupervised domain adaptation (UDA). However, pseudo-labels of unlabeled target domain data are inevitably noisy due to the distribution shift between source and target domains. This paper proposes a Generative model-based Noise-Robust Training method (GeNRT), which eliminates domain shift while mitigating label noise. GeNRT incorporates a Distribution-based Class-wise Feature Augmentation (D-CFA) and a Generative-Discriminative classifier Consistency (GDC), both based on the class-wise target distributions modelled by generative models. D-CFA minimizes the domain gap by augmenting the source data with distribution-sampled target features, and trains a noise-robust discriminative classifier by using target domain knowledge from the generative models. GDC regards all the class-wise generative models as generative classifiers and enforces a consistency regularization between the generative and discriminative classifiers. It exploits an ensemble of target knowledge from all the generative models to train a noise-robust discriminative classifier and eventually gets theoretically linked to the Ben-David domain adaptation theorem for reducing the domain gap. Extensive experiments on Office-Home, PACS, and Digit-Five show that our GeNRT achieves comparable performance to state-of-the-art methods under single-source and multi-source UDA settings.
翻訳日:2023-03-13 15:48:26 公開日:2023-03-10
# 非定常cmdpに対する効率的モデルフリーアルゴリズム

Provably Efficient Model-Free Algorithms for Non-stationary CMDPs ( http://arxiv.org/abs/2303.05733v1 )

ライセンス: Link先を確認
Honghao Wei, Arnob Ghosh, Ness Shroff, Lei Ying, Xingyu Zhou(参考訳) 非定常制約マルコフ決定過程(CMDP)におけるモデルフリー強化学習(RL)アルゴリズムについて検討した。 非定常環境では、累積変動が一定の変動予算を超えない限り、報酬、ユーティリティ関数、遷移カーネルは時間とともに任意に変化する。 表型および線形関数近似設定における非定常cmdpに対して,サブリニアな後悔と制約違反をゼロとしたモデルフリーでシミュレータフリーなrlアルゴリズムを提案する。 本報告では, 表ケースに対する後悔拘束と制約違反に関する結果は, 予算の合計が分かっている場合, 静止cmdpの最良の結果と一致する。 また, 変動予算の事前知識を必要とせず, 非定常CMDPの分析に係わる課題に対処するための一般的な枠組みを提案する。 本手法は線形近似と表表近似の両方に適用する。

We study model-free reinforcement learning (RL) algorithms in episodic non-stationary constrained Markov Decision Processes (CMDPs), in which an agent aims to maximize the expected cumulative reward subject to a cumulative constraint on the expected utility (cost). In the non-stationary environment, reward, utility functions, and transition kernels can vary arbitrarily over time as long as the cumulative variations do not exceed certain variation budgets. We propose the first model-free, simulator-free RL algorithms with sublinear regret and zero constraint violation for non-stationary CMDPs in both tabular and linear function approximation settings with provable performance guarantees. Our results on regret bound and constraint violation for the tabular case match the corresponding best results for stationary CMDPs when the total budget is known. Additionally, we present a general framework for addressing the well-known challenges associated with analyzing non-stationary CMDPs, without requiring prior knowledge of the variation budget. We apply the approach for both tabular and linear approximation settings.
翻訳日:2023-03-13 15:48:02 公開日:2023-03-10
# フルスライド画像分類のためのマルチヘッド特徴適応による知識伝達

Knowledge Transfer via Multi-Head Feature Adaptation for Whole Slide Image Classification ( http://arxiv.org/abs/2303.05780v1 )

ライセンス: Link先を確認
Conghao Xiong, Yi Lin, Hao Chen, Joseph Sung, Irwin King(参考訳) ソースドメインから同一または類似のターゲットドメインへの事前知識の転送は、ターゲットドメイン上のモデルの性能を大幅に向上させる。 しかし、タスクの不一致とドメインシフトのため、ソースドメインからの知識を直接活用することは困難である。 異なるタスクとドメイン間のギャップを埋めるために、ソース機能空間の機能をターゲット空間とより類似した新しい空間に投影するマルチヘッド特徴適応モジュールを提案する。 知識伝達は、データセットのWSIの数が小さすぎるため、WSI(Whole Slide Image)分類において特に重要である。 したがって、wsi分類は、本手法の理想的なテストベッドであり、複数の知識伝達法をwsi分類に適用する。 実験結果から, データセットのWSI数によらず, ゼロから学習した知識伝達モデルの方が優れたモデルであることが示され, 提案手法は, TCGA-RCC, TCGA-NSCLC, Camelyon16データセットを含む複数のデータセット上での知識伝達手法の最先端性能を実現する。

Transferring prior knowledge from a source domain to the same or similar target domain can greatly enhance the performance of models on the target domain. However, it is challenging to directly leverage the knowledge from the source domain due to task discrepancy and domain shift. To bridge the gaps between different tasks and domains, we propose a Multi-Head Feature Adaptation module, which projects features in the source feature space to a new space that is more similar to the target space. Knowledge transfer is particularly important in Whole Slide Image (WSI) classification since the number of WSIs in one dataset might be too small to achieve satisfactory performance. Therefore, WSI classification is an ideal testbed for our method, and we adapt multiple knowledge transfer methods for WSI classification. The experimental results show that models with knowledge transfer outperform models that are trained from scratch by a large margin regardless of the number of WSIs in the datasets, and our method achieves state-of-the-art performances among other knowledge transfer methods on multiple datasets, including TCGA-RCC, TCGA-NSCLC, and Camelyon16 datasets.
翻訳日:2023-03-13 15:41:36 公開日:2023-03-10
# 皮質表面分析の精度向上のための合成萎縮を伴う自己監督型CSF塗布

Self-Supervised CSF Inpainting with Synthetic Atrophy for Improved Accuracy Validation of Cortical Surface Analyses ( http://arxiv.org/abs/2303.05777v1 )

ライセンス: Link先を確認
Jiacheng Wang, Kathleen E. Larson, and Ipek Oguz(参考訳) 皮質の厚さ測定の精度の検証は、根拠の真理データがないため難しい問題である。 このニーズに対処するために、変形可能な登録によってMRIのグレーマター萎縮を合成的に誘発する多くの方法が開発され、皮質の厚みが既知の一連の画像を生成する。 しかし、これらの方法はしばしば萎縮した領域でぼやけを生じさせ、脳脊髄液(csf)が不明瞭あるいは欠如している深硫酸中の現実的な萎縮をシミュレートすることはできない。 本稿では,これらの領域におけるCSFの生成と,GM/CSF境界がより高精細な画像を生成するために,自己教師付き塗装モデルを用いたソリューションを提案する。 具体的には,パッチベースのドロップアウトトレーニング,エッジマップ先行,正弦波位置符号化を取り入れた新しい3次元GANモデルを提案する。 提案手法は,合成画像の品質を著しく向上させ,微調整による未確認データに適用可能であることを示す。 また,得られたデータセットを,皮質セグメンテーションと厚さ測定の精度検証に活用できることを実証した。

Accuracy validation of cortical thickness measurement is a difficult problem due to the lack of ground truth data. To address this need, many methods have been developed to synthetically induce gray matter (GM) atrophy in an MRI via deformable registration, creating a set of images with known changes in cortical thickness. However, these methods often cause blurring in atrophied regions, and cannot simulate realistic atrophy within deep sulci where cerebrospinal fluid (CSF) is obscured or absent. In this paper, we present a solution using a self-supervised inpainting model to generate CSF in these regions and create images with more plausible GM/CSF boundaries. Specifically, we introduce a novel, 3D GAN model that incorporates patch-based dropout training, edge map priors, and sinusoidal positional encoding, all of which are established methods previously limited to 2D domains. We show that our framework significantly improves the quality of the resulting synthetic images and is adaptable to unseen data with fine-tuning. We also demonstrate that our resulting dataset can be employed for accuracy validation of cortical segmentation and thickness measurement.
翻訳日:2023-03-13 15:41:16 公開日:2023-03-10
# Self-NeRF:Few-Shot Neural Radiance Fieldのための自己学習パイプライン

Self-NeRF: A Self-Training Pipeline for Few-Shot Neural Radiance Fields ( http://arxiv.org/abs/2303.05775v1 )

ライセンス: Link先を確認
Jiayang Bai, Letian Huang, Wen Gong, Jie Guo and Yanwen Guo(参考訳) 近年,高密度画像から新たなビューを合成するための強力な手法として,ニューラルレージアンス場(NeRF)が出現している。 優れた性能にもかかわらず、NeRFは多くのキャリブレーションされたビューの必要性に悩まされ、その精度は数ショットで大幅に低下する。 この課題に対処すべく,我々は,ごくわずかな入力ビューでラミアンスフィールドを反復的に洗練する自己進化型nerfであるself-nerfを提案する。 基本的に、反復的な手順で参照ビューと見えないビューを同時に監督してモデルをトレーニングします。 各イテレーションにおいて、予測色や前回のイテレーションからモデルが生成した歪んだピクセルで、目に見えないビューをラベル付けします。 しかし、これらの拡張された擬似ビューは、NeRFの性能を低下させる色やワープアーティファクトのインプレクションによって悩まされる。 この問題を軽減するため,特殊埋め込みを用いた不確実性認識型NeRFを構築した。 コーンエントロピー正則化のようないくつかの手法は、最も効率的な方法で擬似ビューを利用するためにさらに活用される。 各種条件下での実験により,我々のSelf-NeRFは不確実性のある入力に頑健であり,限られたトレーニングデータでトレーニングした場合に既存の手法を超えることが確認された。

Recently, Neural Radiance Fields (NeRF) have emerged as a potent method for synthesizing novel views from a dense set of images. Despite its impressive performance, NeRF is plagued by its necessity for numerous calibrated views and its accuracy diminishes significantly in a few-shot setting. To address this challenge, we propose Self-NeRF, a self-evolved NeRF that iteratively refines the radiance fields with very few number of input views, without incorporating additional priors. Basically, we train our model under the supervision of reference and unseen views simultaneously in an iterative procedure. In each iteration, we label unseen views with the predicted colors or warped pixels generated by the model from the preceding iteration. However, these expanded pseudo-views are afflicted by imprecision in color and warping artifacts, which degrades the performance of NeRF. To alleviate this issue, we construct an uncertainty-aware NeRF with specialized embeddings. Some techniques such as cone entropy regularization are further utilized to leverage the pseudo-views in the most efficient manner. Through experiments under various settings, we verified that our Self-NeRF is robust to input with uncertainty and surpasses existing methods when trained on limited training data.
翻訳日:2023-03-13 15:40:55 公開日:2023-03-10
# NFLのキャリア成功、NFLのスカウトが予想

NFL Career Success as Predicted by NFL Scouting Combine ( http://arxiv.org/abs/2303.05774v1 )

ライセンス: Link先を確認
Brian Szekely, Christian Sinnott, Savannah Halow, Gregory Ryan(参考訳) ナショナル・フットボール・リーグ(nfl)のスカウティング・コンバインドは、プロの選手のスキルを評価し、nflでプレーする準備を評価するためのツールである。 機械学習の開発は、スカウトの組み合わせの有用性を評価する新しい機会をもたらす。 機械学習と統計的学習を用いることで、将来のスポーツ選手の成功を予測でき、どのスカウティングコンバインドテストが最も重要であるかを予測できるかもしれない。 統計的学習研究の結果は、スカウティングの組み合わせがプレイヤーの成功に有用な指標であるかどうかに矛盾している。 本研究では,nflにおける熟成と今後の成功を機械学習で判断できるかどうかについて検討する。 Scouting Combineデータを用いて、潜在的なドラフトピックが1つのNFLスナップ(行列)を再生するかどうかを予測する6つの異なるアルゴリズムの能力を評価する。 プレイヤーがドラフトされた場合、何枚のスナップがプレイされるかを予測する(成功)。 我々は83%の精度で妊娠を予測することができるが、その後の成功は予測できない。 最良のアルゴリズムは大きな誤差と説明の少ない分散を返す(rmse=1,210 snaps; ${r}^2$=0.17)。 これらの結果は、スカウティング・コンバイン(Scouting Combine)はNFLの成熟を予測できるが、長期の選手の成功の確実な予測にはならないことを示している。

The National Football League (NFL) Scouting Combine serves as a tool to evaluate the skills of prospective players and assess their readiness to play in the NFL. The development of machine learning brings new opportunities in assessing the utility of the Scouting Combine. Using machine and statistical learning, it may be possible to predict future success of prospective athletes, as well as predict which Scouting Combine tests are the most important. Results from statistical learning research have been contradicting whether the Scouting combine is a useful metric for player success. In this study, we investigate if machine learning can be used to determine matriculation and future success in the NFL. Using Scouting Combine data, we evaluate six different algorithms' ability to predict whether a potential draft pick will play a single NFL snap (matriculation). If a player is drafted, we predict how many snaps they go on to play (success). We are able to predict matriculation with 83% accuracy; however, we are unable to predict later success. Our best performing algorithm returns large error and low explained variance (RMSE=1,210 snaps; ${R}^2$=0.17). These findings indicate that while the Scouting Combine can predict NFL matriculation, it may not be a reliable predictor of long-term player success.
翻訳日:2023-03-13 15:40:33 公開日:2023-03-10
# 論理的異常検出のための意味的ボトルネックとグローバルローカル対応の学習

Learning Global-Local Correspondence with Semantic Bottleneck for Logical Anomaly Detection ( http://arxiv.org/abs/2303.05768v1 )

ライセンス: Link先を確認
Haiming Yao, Wenyong Yu, Wei Luo, Zhenfeng Qiang, Donghao Luo, Xiaotian Zhang(参考訳) 本稿では,論理的制約を伴う視覚異常検出のためのGlobal-Local Cor correspondingence Framework (GLCF) という新しいフレームワークを提案する。 視覚異常検出は、産業的異常検出や医療疾患の診断など、様々な実世界の応用において活発な研究領域となっている。 しかし、既存のほとんどの手法は局所的な構造的変性異常の同定に重点を置いており、しばしば論理的制約を含む高レベルの機能異常の検出に失敗する。 この問題に対処するために,構造異常を検出するローカルブランチと,論理異常を検出するグローバルブランチからなる2分岐方式を提案する。 局所的グローバル特徴対応を容易にするために,視覚トランスフォーマによって実現される新しい意味的ボトルネックを提案する。 さらに,各ブランチの特徴推定ネットワークを別途開発し,異常を検出する。 提案フレームワークは,産業用データセット,mvtec ad,mvtec loco ad,retinal-oct medical datasetなどのベンチマークを用いて検証を行う。 実験の結果,本手法は既存の手法,特に論理異常の検出において優れていた。

This paper presents a novel framework, named Global-Local Correspondence Framework (GLCF), for visual anomaly detection with logical constraints. Visual anomaly detection has become an active research area in various real-world applications, such as industrial anomaly detection and medical disease diagnosis. However, most existing methods focus on identifying local structural degeneration anomalies and often fail to detect high-level functional anomalies that involve logical constraints. To address this issue, we propose a two-branch approach that consists of a local branch for detecting structural anomalies and a global branch for detecting logical anomalies. To facilitate local-global feature correspondence, we introduce a novel semantic bottleneck enabled by the visual Transformer. Moreover, we develop feature estimation networks for each branch separately to detect anomalies. Our proposed framework is validated using various benchmarks, including industrial datasets, Mvtec AD, Mvtec Loco AD, and the Retinal-OCT medical dataset. Experimental results show that our method outperforms existing methods, particularly in detecting logical anomalies.
翻訳日:2023-03-13 15:40:10 公開日:2023-03-10
# スマートフォン用紙レシートの自動検出と修正

Automatic Detection and Rectification of Paper Receipts on Smartphones ( http://arxiv.org/abs/2303.05763v1 )

ライセンス: Link先を確認
Edward Whittaker, Masashi Tanaka and Ikuo Kitagishi(参考訳) リアルタイムスマートフォンアプリの開発において,レシート上で携帯電話を「操作」し,その後のテキスト認識のためのレシートを自動的に検出・修正することにより,ユーザが新たな方法でレシートをデジタル化する方法について述べる。 従来のエッジとコーナー検出のためのコンピュータビジョンアルゴリズムでは,実世界において,従来の紙レシートの非線形かつ不連続なエッジとコーナーを頑健に検出できないことを示す。 これは特にレシートと背景の色が似ている場合や、他の干渉する長方形オブジェクトが存在する場合である。 そして、アフィン射影変換を用いて視点を補正する際に、レシートのコーナー位置の不正確な検出結果が歪み画像となる。 4つのコーナーをそれぞれユニークな"オブジェクト"として扱い,単一ショット検出モバイルネットオブジェクト検出モデルをトレーニングすることにより,受信コーナー検出の革新的なソリューションを提案する。 我々は少量の実データと、実世界の画像シナリオに類似したように設計された大量の自動合成データを使用する。 従来のエッジ検出方式では36.9%であったのに対し,本手法ではレシートの4隅を頑健に検出し,実世界データでは85.3%のレシート検出精度を示した。 本手法は,レシートの色が背景と実質的に区別できない場合でも動作する。 さらに,本手法では,中心対象レシートのコーナーのみを検出し,暗黙的に他のレシートや矩形物体を無視することを学習する。 合成データを含めれば、さらに優れたモデルをトレーニングすることができます。 これらの要因は、従来のエッジ検出ベースのアプローチに対する大きなアドバンテージであり、ユーザに対してはるかに優れたエクスペリエンスを提供することができます。

We describe the development of a real-time smartphone app that allows the user to digitize paper receipts in a novel way by "waving" their phone over the receipts and letting the app automatically detect and rectify the receipts for subsequent text recognition. We show that traditional computer vision algorithms for edge and corner detection do not robustly detect the non-linear and discontinuous edges and corners of a typical paper receipt in real-world settings. This is particularly the case when the colors of the receipt and background are similar, or where other interfering rectangular objects are present. Inaccurate detection of a receipt's corner positions then results in distorted images when using an affine projective transformation to rectify the perspective. We propose an innovative solution to receipt corner detection by treating each of the four corners as a unique "object", and training a Single Shot Detection MobileNet object detection model. We use a small amount of real data and a large amount of automatically generated synthetic data that is designed to be similar to real-world imaging scenarios. We show that our proposed method robustly detects the four corners of a receipt, giving a receipt detection accuracy of 85.3% on real-world data, compared to only 36.9% with a traditional edge detection-based approach. Our method works even when the color of the receipt is virtually indistinguishable from the background. Moreover, our method is trained to detect only the corners of the central target receipt and implicitly learns to ignore other receipts, and other rectangular objects. Including synthetic data allows us to train an even better model. These factors are a major advantage over traditional edge detection-based approaches, allowing us to deliver a much better experience to the user.
翻訳日:2023-03-13 15:39:51 公開日:2023-03-10
# トロイディフ氏:多目的拡散モデルでトロイの木馬攻撃

TrojDiff: Trojan Attacks on Diffusion Models with Diverse Targets ( http://arxiv.org/abs/2303.05762v1 )

ライセンス: Link先を確認
Weixin Chen, Dawn Song, Bo Li(参考訳) 拡散モデルは画像合成や分子設計といった様々なタスクで大きな成功を収めている。 このような成功は、さまざまなソースから収集された大規模トレーニングデータにかかっているため、収集されたデータの信頼性は制御や監査が難しい。 本研究では,データ操作の可能性を秘めている拡散モデルの脆弱性を探究し,次のように答える: よく訓練された拡散モデルに対してトロイの木馬攻撃を行うのは,どの程度難しいのか? このようなトロイの木馬攻撃が達成できる敵標的は何でしょう? これらの質問に答えるために,トロイの木馬の拡散と生成過程を最適化する拡散モデルであるトロイディフに対する効果的なトロイの木馬攻撃を提案する。 特に, トロイの木馬拡散過程において, 対向対象をバイアス付きガウス分布に拡散させる新たな遷移を設計し, 攻撃の効果的な訓練目標となるトロイの木馬生成過程のパラメータ化を提案する。 さらに、Trojaned拡散モデルでは、ドメイン内分布(In-D2D攻撃)、ドメイン外分布(Out-D2D攻撃)、特定のインスタンス(D2I攻撃)から、常に特定のクラスに属するインスタンスを出力する。 CIFAR-10およびCelebAデータセット上のTrojDiffをDDPMおよびDDIM拡散モデルに対して評価した。 そこで,TrojDiffは,異なる種類のトリガを用いて,異なる攻撃対象下で常に高い攻撃性能を達成し,良質な環境での性能は維持されていることを示す。 コードはhttps://github.com/chenweixin107/trojdiffで入手できる。

Diffusion models have achieved great success in a range of tasks, such as image synthesis and molecule design. As such successes hinge on large-scale training data collected from diverse sources, the trustworthiness of these collected data is hard to control or audit. In this work, we aim to explore the vulnerabilities of diffusion models under potential training data manipulations and try to answer: How hard is it to perform Trojan attacks on well-trained diffusion models? What are the adversarial targets that such Trojan attacks can achieve? To answer these questions, we propose an effective Trojan attack against diffusion models, TrojDiff, which optimizes the Trojan diffusion and generative processes during training. In particular, we design novel transitions during the Trojan diffusion process to diffuse adversarial targets into a biased Gaussian distribution and propose a new parameterization of the Trojan generative process that leads to an effective training objective for the attack. In addition, we consider three types of adversarial targets: the Trojaned diffusion models will always output instances belonging to a certain class from the in-domain distribution (In-D2D attack), out-of-domain distribution (Out-D2D-attack), and one specific instance (D2I attack). We evaluate TrojDiff on CIFAR-10 and CelebA datasets against both DDPM and DDIM diffusion models. We show that TrojDiff always achieves high attack performance under different adversarial targets using different types of triggers, while the performance in benign environments is preserved. The code is available at https://github.com/chenweixin107/TrojDiff.
翻訳日:2023-03-13 15:39:24 公開日:2023-03-10
# 言語モデルの概要:最近の発展と展望

An Overview on Language Models: Recent Developments and Outlook ( http://arxiv.org/abs/2303.05759v1 )

ライセンス: Link先を確認
Chengwei Wei, Yun-Cheng Wang, Bin Wang, C.-C. Jay Kuo(参考訳) 言語モデリングはテキストの文字列上の確率分布を研究する。 これは自然言語処理(NLP)における最も基本的なタスクの1つである。 テキスト生成、音声認識、機械翻訳などに広く使われている。 従来の言語モデル(CLM)は、因果的に言語シーケンスの確率を予測することを目的としている。 対照的に、事前訓練された言語モデル(PLM)はより広範な概念をカバーし、下流アプリケーションのための因果逐次モデリングと微調整の両方に使用できる。 PLMは独自の訓練パラダイム(通常は自己管理)を持ち、現代のNLPシステムの基盤モデルとして機能する。 本稿では,言語単位,構造,訓練方法,評価方法,応用という5つの側面から,clmとplmについて概説する。 さらに, CLM と PLM の関係について考察し, 事前学習時代の言語モデリングの今後の方向性について考察する。

Language modeling studies the probability distributions over strings of texts. It is one of the most fundamental tasks in natural language processing (NLP). It has been widely used in text generation, speech recognition, machine translation, etc. Conventional language models (CLMs) aim to predict the probability of linguistic sequences in a causal manner. In contrast, pre-trained language models (PLMs) cover broader concepts and can be used in both causal sequential modeling and fine-tuning for downstream applications. PLMs have their own training paradigms (usually self-supervised) and serve as foundation models in modern NLP systems. This overview paper provides an introduction to both CLMs and PLMs from five aspects, i.e., linguistic units, structures, training methods, evaluation methods, and applications. Furthermore, we discuss the relationship between CLMs and PLMs and shed light on the future directions of language modeling in the pre-trained era.
翻訳日:2023-03-13 15:38:55 公開日:2023-03-10
# mixpgd:音声認識システムのためのハイブリッドadversarial training

MIXPGD: Hybrid Adversarial Training for Speech Recognition Systems ( http://arxiv.org/abs/2303.05758v1 )

ライセンス: Link先を確認
Aminul Huq, Weiyi Zhang, Xiaolin Hu(参考訳) ディープニューラルネットワークに基づく自動音声認識(ASR)システムは、敵の摂動に対して弱い。 ASRシステムのモデルの堅牢性を向上させるために,混合PGD逆行訓練法を提案する。 標準的な対人訓練では、教師なしまたは教師なしの手法を利用して、敵のサンプルを生成する。 我々は,モデルロバスト性向上に役立つ新しい対向サンプルを生成するために,教師付きアプローチと教師なしアプローチを融合する。 様々な最先端の防御方法と敵攻撃に対する広範囲な実験と比較を行い、混合PGDは、ホワイトボックスの敵攻撃設定下での過去の最高の性能モデルよりも4.1%WER向上していることを示した。 提案手法をホワイトボックスおよび転送ベースのブラックボックス攻撃設定に対して適用し, 各種攻撃に対する防御戦略の堅牢性を確認した。 いくつかの敵攻撃に対する実証実験の結果,提案手法の有効性が検証された。

Automatic speech recognition (ASR) systems based on deep neural networks are weak against adversarial perturbations. We propose mixPGD adversarial training method to improve the robustness of the model for ASR systems. In standard adversarial training, adversarial samples are generated by leveraging supervised or unsupervised methods. We merge the capabilities of both supervised and unsupervised approaches in our method to generate new adversarial samples which aid in improving model robustness. Extensive experiments and comparison across various state-of-the-art defense methods and adversarial attacks have been performed to show that mixPGD gains 4.1% WER of better performance than previous best performing models under white-box adversarial attack setting. We tested our proposed defense method against both white-box and transfer based black-box attack settings to ensure that our defense strategy is robust against various types of attacks. Empirical results on several adversarial attacks validate the effectiveness of our proposed approach.
翻訳日:2023-03-13 15:38:42 公開日:2023-03-10
# 幾何分解による逆問題に対する高速拡散サンプリング

Fast Diffusion Sampler for Inverse Problems by Geometric Decomposition ( http://arxiv.org/abs/2303.05754v1 )

ライセンス: Link先を確認
Hyungjin Chung, Suhyeon Lee, Jong Chul Ye(参考訳) 拡散モデルは逆問題を解く際、例外的な性能を示す。 しかし、1つの大きな制限は推論時間が遅いことである。 非条件サンプリングのための高速拡散サンプラーが開発されているが、逆問題における条件サンプリングの研究は限られている。 本研究では,拡散サンプリングの幾何学的分解を利用した新しい効率的な拡散サンプリング戦略を提案する。 具体的には,拡散モデルから生成されたサンプルを,サンプルをクリーンデータ多様体に射影した ` `denoized" 成分と,確率雑音を付加した次の下層雑音多様体への遷移を誘導する ``noise" 成分の2つの直交成分に分解することができる。 さらに, クリーンデータ多様体上の条件下では, 消音信号から条件付けを行う共役勾配更新がクリーン多様体に属することを証明し, より高速かつ正確な拡散サンプリングを実現する。 パラメータ化と設定(VE, VP)にかかわらず,本手法は適用可能である。 特に,マルチコイルMRI再構成や3次元CT再構成など,現実の医用逆画像の課題に対して,最先端の再現性を実現する。 さらに,提案手法は従来の最先端手法よりも80倍以上高速な推論時間を実現する。

Diffusion models have shown exceptional performance in solving inverse problems. However, one major limitation is the slow inference time. While faster diffusion samplers have been developed for unconditional sampling, there has been limited research on conditional sampling in the context of inverse problems. In this study, we propose a novel and efficient diffusion sampling strategy that employs the geometric decomposition of diffusion sampling. Specifically, we discover that the samples generated from diffusion models can be decomposed into two orthogonal components: a ``denoised" component obtained by projecting the sample onto the clean data manifold, and a ``noise" component that induces a transition to the next lower-level noisy manifold with the addition of stochastic noise. Furthermore, we prove that, under some conditions on the clean data manifold, the conjugate gradient update for imposing conditioning from the denoised signal belongs to the clean manifold, resulting in a much faster and more accurate diffusion sampling. Our method is applicable regardless of the parameterization and setting (i.e., VE, VP). Notably, we achieve state-of-the-art reconstruction quality on challenging real-world medical inverse imaging problems, including multi-coil MRI reconstruction and 3D CT reconstruction. Moreover, our proposed method achieves more than 80 times faster inference time than the previous state-of-the-art method.
翻訳日:2023-03-13 15:38:25 公開日:2023-03-10
# 最小位相感応環境の影響下での2つの結合量子ビット

Two coupled qubits under the influence of a minimal, phase-sensitive environment ( http://arxiv.org/abs/2303.05821v1 )

ライセンス: Link先を確認
G. L. De\c{c}ordi and A. Vidiella-Barranco(参考訳) 本研究では,2つの結合量子ビットの系に対する最小位相感応環境の影響について検討する。 この環境は、2つの圧縮コヒーレント状態の量子重ね合わせであるschr\"odinger cat状態の1つのモード場によって構成される。 本稿では,このモデルに対する解析的解法を示し,環境の作用によるシステムの量子特性の劣化について検討する。 特に、時間平均線形エントロピーである$\bar{S}_T$は、マンデルの$Q$パラメータと、環境の初期状態の$\hat{X}$次数の分散にほぼ線形依存していることが分かる。

In this work, we investigate the influence of a minimal, phase-sensitive environment on a system of two coupled qubits. The environment is constituted by a single-mode field initially prepared in a type of Schr\"odinger cat state, a quantum superposition of two squeezed coherent states. We present an analytical solution to the model and investigate the degradation of the quantum features of the system due to the action of the environment. In particular, we find that the time-averaged linear entropy for long times, $\bar{S}_T$, has approximately a linear dependence on Mandel's $Q$ parameter as well as on the variance of the $\hat{X}$ quadrature of the initial state of the environment.
翻訳日:2023-03-13 15:32:39 公開日:2023-03-10
# 補足項目推薦のための半教師付き学習

Semi-supervised Adversarial Learning for Complementary Item Recommendation ( http://arxiv.org/abs/2303.05812v1 )

ライセンス: Link先を確認
Koby Bibas, Oren Sar Shalom, Dietmar Jannach(参考訳) 補完的なアイテムレコメンデーションは、現代のeコマースサイトのユビキタスな機能である。 このようなリコメンデーションは、共同購入統計のような協調的なシグナルに基づく場合、非常に効果的である。 しかし、特定のオンラインマーケットプレイス、例えばオンラインオークションサイトでは、カタログに常に新しいアイテムが追加されている。 このような場合、補完的な項目レコメンデーションは、インタラクションデータの欠如により、アイテム側の情報に基づいて行われることが多い。 本研究では,商品の副情報とラベル付き相補的項目ペアを併用し,コールドアイテム,すなわち共購入統計が存在しない項目に対して効果的な相補的レコメンデーションを生成する新しい手法を提案する。 通常、相補的なアイテムはシードアイテムとは異なるカテゴリでなければならないので、技術的には各カテゴリの潜在空間を維持します。 同時に、これらのカテゴリ空間に分散アイテム表現を投影し、適切な推奨を決定することを学ぶ。 アーキテクチャにおける主要な学習プロセスは、ラベル付き補完項目のペアを利用する。 また,CycleGAN(Cycle Generative Adversarial Networks)のアイデアを取り入れ,特定の項目やカテゴリにラベル付きデータが存在しない場合でも利用可能な項目情報を活用する。 3つのeコマースデータセットの実験から,本手法が有効であることが示された。

Complementary item recommendations are a ubiquitous feature of modern e-commerce sites. Such recommendations are highly effective when they are based on collaborative signals like co-purchase statistics. In certain online marketplaces, however, e.g., on online auction sites, constantly new items are added to the catalog. In such cases, complementary item recommendations are often based on item side-information due to a lack of interaction data. In this work, we propose a novel approach that can leverage both item side-information and labeled complementary item pairs to generate effective complementary recommendations for cold items, i.e., for items for which no co-purchase statistics yet exist. Given that complementary items typically have to be of a different category than the seed item, we technically maintain a latent space for each item category. Simultaneously, we learn to project distributed item representations into these category spaces to determine suitable recommendations. The main learning process in our architecture utilizes labeled pairs of complementary items. In addition, we adopt ideas from Cycle Generative Adversarial Networks (CycleGAN) to leverage available item information even in case no labeled data exists for a given item and category. Experiments on three e-commerce datasets show that our method is highly effective.
翻訳日:2023-03-13 15:32:25 公開日:2023-03-10
# 確率群を用いた分布ロバスト最適化

Distributionally Robust Optimization with Probabilistic Group ( http://arxiv.org/abs/2303.05809v1 )

ライセンス: Link先を確認
Soumya Suvra Ghosal and Yixuan Li(参考訳) 現代の機械学習モデルは、平均で保持されるが非典型的なサンプル群には適用されない刺激的な相関を学習する可能性がある。 この問題に対処するため、過去のアプローチは経験的最悪のグループリスクを最小限に抑えた。 約束にもかかわらず、各サンプルは1つのグループと1つのグループに属し、グループラベリングの不確実性を表現することができないとしばしば仮定する。 本稿では,分散ロバストな最適化のための確率的グループメンバシップの考え方を探求する新しいフレームワークPG-DROを提案する。 フレームワークのキーとなるのは,ハードグループアノテーションではなく,ソフトグループメンバシップを検討することです。 群確率は教師付き学習またはゼロショットアプローチを用いて柔軟に生成できる。 本フレームワークは,グループメンバシップの曖昧さに対処し,従来の技術よりも柔軟性と汎用性を提供する。 我々は、画像分類と自然言語処理のベンチマークでPG-DROを総合的に評価し、優れた性能を確立した。

Modern machine learning models may be susceptible to learning spurious correlations that hold on average but not for the atypical group of samples. To address the problem, previous approaches minimize the empirical worst-group risk. Despite the promise, they often assume that each sample belongs to one and only one group, which does not allow expressing the uncertainty in group labeling. In this paper, we propose a novel framework PG-DRO, which explores the idea of probabilistic group membership for distributionally robust optimization. Key to our framework, we consider soft group membership instead of hard group annotations. The group probabilities can be flexibly generated using either supervised learning or zero-shot approaches. Our framework accommodates samples with group membership ambiguity, offering stronger flexibility and generality than the prior art. We comprehensively evaluate PG-DRO on both image classification and natural language processing benchmarks, establishing superior performance
翻訳日:2023-03-13 15:32:03 公開日:2023-03-10
# Aleth-NeRF:コンセプトフィールドを用いた低照度視野合成

Aleth-NeRF: Low-light Condition View Synthesis with Concealing Fields ( http://arxiv.org/abs/2303.05807v1 )

ライセンス: Link先を確認
Ziteng Cui, Lin Gu, Xiao Sun, Yu Qiao, Tatsuya Harada(参考訳) 一般的な低照度シーンは、Neural Radiance Fields (NeRF)など、ほとんどのコンピュータビジョン技術では難しい。 バニラ・ネフリン(Vanilla NeRF)は、観測方向の3D位置からの発光のみを簡略化し、低照度誘起暗黒をモデル化できないビューアー中心である。 古代ギリシアの発光理論に触発され、視覚知覚は目から放射される光によって達成され、バニラのNeRFにわずかな修正を加えて、低照度シーンの複数のビューを訓練することで、よく照らされたシーンを教師なしの方法で表現することができる。 ボリュームレンダリングの段階で光の輸送を減少させるサロゲートの概念であるConcealing Fieldsを導入する。 具体的には,提案手法であるAleth-NeRFを暗黒画像から直接学習して,前処理によるボリュームオブジェクトの表現と隠れフィールドの理解を行う。 Concealing Fieldsを単純に排除することで、単一または複数ビューの well-lit 画像を描画し、他の2次元低光強調法よりも優れた性能を得ることができる。 さらに,今後の研究のために,最初のLOw-light and normal-light Multi-view (LOM)データセットを収集する。

Common capture low-light scenes are challenging for most computer vision techniques, including Neural Radiance Fields (NeRF). Vanilla NeRF is viewer-centred that simplifies the rendering process only as light emission from 3D locations in the viewing direction, thus failing to model the low-illumination induced darkness. Inspired by emission theory of ancient Greek that visual perception is accomplished by rays casting from eyes, we make slight modifications on vanilla NeRF to train on multiple views of low-light scene, we can thus render out the well-lit scene in an unsupervised manner. We introduce a surrogate concept, Concealing Fields, that reduce the transport of light during the volume rendering stage. Specifically, our proposed method, Aleth-NeRF, directly learns from the dark image to understand volumetric object representation and concealing field under priors. By simply eliminating Concealing Fields, we can render a single or multi-view well-lit image(s) and gain superior performance over other 2D low light enhancement methods. Additionally, we collect the first paired LOw-light and normal-light Multi-view (LOM) datasets for future research.
翻訳日:2023-03-13 15:31:49 公開日:2023-03-10
# 出力層に隣接するプール決定を行うことで成功率を高める

Enhancing the success rates by performing pooling decisions adjacent to the output layer ( http://arxiv.org/abs/2303.05800v1 )

ライセンス: Link先を確認
Yuval Meir, Yarden Tzach, Ronit D. Gross, Ofek Tevet, Roni Vardi and Ido Kanter(参考訳) 2^nx2^n)入力の学習タスクは、典型的には、フィードフォワードの深いアーキテクチャ全体に沿って最大値 (MP) 演算子からなる。 ここでは、CIFAR-10データベースを用いて、最終畳み込み層に隣接するプール決定が精度の高い成功率(SR)を大幅に向上させることを示す。 特に、m層(A-VGGm)のアーキテクチャを持つ進行VGGの平均SRは、それぞれm=6, 8, 14, 13, 16に対して0.936, 0.940, 0.954, 0.955, 0.955である。 その結果、A-VGG8sのSRはVGG16sより優れており、A-VGG13とA-VGG16のSRはWide-ResNet16と同等であることがわかった。 さらに、3つの完全連結(FC)層を1つのFC層、A-VGG6とA-VGG14、または複数のリニアアクティベーションFC層に置き換えた。 これらの大幅に強化されたSRは、深いアーキテクチャに沿った複数のMP決定に従って選択された劣ったルートと比較して、最も影響力のある入出力ルートを訓練することに由来する。 さらに、SRは出力層に隣接する非可換MPと平均プール演算子の順序に敏感であり、トレーニング経路の数と位置を変える。 その結果、出力層に隣接するプーリング戦略を用いて、以前に提案された深層アーキテクチャとそのSRの再検討が求められた。

Learning classification tasks of (2^nx2^n) inputs typically consist of \le n (2x2) max-pooling (MP) operators along the entire feedforward deep architecture. Here we show, using the CIFAR-10 database, that pooling decisions adjacent to the last convolutional layer significantly enhance accuracy success rates (SRs). In particular, average SRs of the advanced VGG with m layers (A-VGGm) architectures are 0.936, 0.940, 0.954, 0.955, and 0.955 for m=6, 8, 14, 13, and 16, respectively. The results indicate A-VGG8s' SR is superior to VGG16s', and that the SRs of A-VGG13 and A-VGG16 are equal, and comparable to that of Wide-ResNet16. In addition, replacing the three fully connected (FC) layers with one FC layer, A-VGG6 and A-VGG14, or with several linear activation FC layers, yielded similar SRs. These significantly enhanced SRs stem from training the most influential input-output routes, in comparison to the inferior routes selected following multiple MP decisions along the deep architecture. In addition, SRs are sensitive to the order of the non-commutative MP and average pooling operators adjacent to the output layer, varying the number and location of training routes. The results call for the reexamination of previously proposed deep architectures and their SRs by utilizing the proposed pooling strategy adjacent to the output layer.
翻訳日:2023-03-13 15:31:26 公開日:2023-03-10
# M/EEG信号に対する対称正定値行列上のスライス・ワッサーシュタイン

Sliced-Wasserstein on Symmetric Positive Definite Matrices for M/EEG Signals ( http://arxiv.org/abs/2303.05798v1 )

ライセンス: Link先を確認
Cl\'ement Bonet, Beno\^it Mal\'ezieux, Alain Rakotomamonjy, Lucas Drumetz, Thomas Moreau, Matthieu Kowalski, Nicolas Courty(参考訳) 電気的・磁気的脳波記録を扱う場合、信号の要約のために共分散行列を用いて多くの教師付き予測タスクを解く。 これらの行列で学ぶには、その構造を説明するためにリーマン幾何学を使う必要がある。 本稿では,共分散行列の分布を扱う新しい手法を提案し,M/EEG多変量時系列上での計算効率を示す。 より具体的には、強い理論的保証を持つ対称正定値行列の測度の間のスライス・ワッサーシュタイン距離を定義する。 そして、その特性とカーネル手法を利用して、MEGデータから脳年齢予測にこの距離を適用し、リーマン幾何学に基づく最先端アルゴリズムと比較する。 最後に,脳コンピュータインタフェースアプリケーションにおけるドメイン適応におけるwasserstein距離への効率的なサロゲートであることを示す。

When dealing with electro or magnetoencephalography records, many supervised prediction tasks are solved by working with covariance matrices to summarize the signals. Learning with these matrices requires using Riemanian geometry to account for their structure. In this paper, we propose a new method to deal with distributions of covariance matrices and demonstrate its computational efficiency on M/EEG multivariate time series. More specifically, we define a Sliced-Wasserstein distance between measures of symmetric positive definite matrices that comes with strong theoretical guarantees. Then, we take advantage of its properties and kernel methods to apply this distance to brain-age prediction from MEG data and compare it to state-of-the-art algorithms based on Riemannian geometry. Finally, we show that it is an efficient surrogate to the Wasserstein distance in domain adaptation for Brain Computer Interface applications.
翻訳日:2023-03-13 15:30:56 公開日:2023-03-10
# 決定論的不確実性手法の訓練, アーキテクチャ, 事前

Training, Architecture, and Prior for Deterministic Uncertainty Methods ( http://arxiv.org/abs/2303.05796v1 )

ライセンス: Link先を確認
Bertrand Charpentier, Chenxiang Zhang, Stephan G\"unnemann(参考訳) 信頼性の高い機械学習(ml)モデルを構築するには、正確で効率的な不確実性推定が不可欠であり、不確実性を校正し、分散(ood)データセットを一般化し、検出することができる。 この目的のために、決定論的不確実性法(dums)は、1回のフォワードパスで不確実性推定を行う有望なモデルファミリである。 本研究は,DUMにおける重要な設計選択について考察する。(1)コアアーキテクチャと不確実性ヘッドを分離したトレーニングスキームは,不確実性性能を大幅に改善できることを示す。 2) コアアーキテクチャ表現性は不確実性向上に不可欠であり, 機能崩壊を避けるためのアーキテクチャ制約がOODの一般化と検出のトレードオフを悪化させる可能性があることを示す。 (3) 他のベイズモデルとは対照的に, DUM が定義した事前定義が最終性能に強い影響を及ぼさないことを示す。

Accurate and efficient uncertainty estimation is crucial to build reliable Machine Learning (ML) models capable to provide calibrated uncertainty estimates, generalize and detect Out-Of-Distribution (OOD) datasets. To this end, Deterministic Uncertainty Methods (DUMs) is a promising model family capable to perform uncertainty estimation in a single forward pass. This work investigates important design choices in DUMs: (1) we show that training schemes decoupling the core architecture and the uncertainty head schemes can significantly improve uncertainty performances. (2) we demonstrate that the core architecture expressiveness is crucial for uncertainty performance and that additional architecture constraints to avoid feature collapse can deteriorate the trade-off between OOD generalization and detection. (3) Contrary to other Bayesian models, we show that the prior defined by DUMs do not have a strong effect on the final performances.
翻訳日:2023-03-13 15:30:44 公開日:2023-03-10
# AnoMalNet:ディープオートエンコーダを利用したマラリア細胞画像分類法

AnoMalNet: Outlier Detection based Malaria Cell Image Classification Method Leveraging Deep Autoencoder ( http://arxiv.org/abs/2303.05789v1 )

ライセンス: Link先を確認
Aminul Huq, Md Tanzim Reza, Shahriar Hossain, Shakib Mahmud Dipto(参考訳) クラス不均衡は、医学画像から疾患分類の分野において広範囲にわたる問題である。 適切な結果を得るためにモデルをトレーニングしながら、クラス分布のバランスを取る必要があります。 しかし, 稀な医学疾患では, 非感染患者の画像に比べ, 患者からの画像の入手が困難であり, 不均衡が生じる。 クラス不均衡問題に対処する様々なプロセスがこれまでに検討されており、それぞれに大きな欠点がある。 本研究では, クラス不均衡の最も極端な事例にも対処可能な, 異常検出に基づくバイナリ医用画像分類手法を提案する。 我々はマラリア寄生細胞と無感染細胞のデータセットを利用した。 AnoMalNetと題されたオートエンコーダモデルは、最初は感染していない細胞画像のみを用いて訓練され、損失値を閾値付けすることで、影響を受ける細胞画像と影響のない細胞画像の両方を分類するために使用される。 精度,精度,リコール,f1スコアはそれぞれ98.49%,97.07%,100%,98.52%で,大規模なディープラーニングモデルや他の出版作品よりも優れています。 提案手法は, トレーニング中に病陽性のサンプルを必要とせず, 競争的な結果を提供できるため, 不均衡データセット上でのバイナリ病分類に有用であることが証明される。

Class imbalance is a pervasive issue in the field of disease classification from medical images. It is necessary to balance out the class distribution while training a model for decent results. However, in the case of rare medical diseases, images from affected patients are much harder to come by compared to images from non-affected patients, resulting in unwanted class imbalance. Various processes of tackling class imbalance issues have been explored so far, each having its fair share of drawbacks. In this research, we propose an outlier detection based binary medical image classification technique which can handle even the most extreme case of class imbalance. We have utilized a dataset of malaria parasitized and uninfected cells. An autoencoder model titled AnoMalNet is trained with only the uninfected cell images at the beginning and then used to classify both the affected and non-affected cell images by thresholding a loss value. We have achieved an accuracy, precision, recall, and F1 score of 98.49%, 97.07%, 100%, and 98.52% respectively, performing better than large deep learning models and other published works. As our proposed approach can provide competitive results without needing the disease-positive samples during training, it should prove to be useful in binary disease classification on imbalanced datasets.
翻訳日:2023-03-13 15:30:25 公開日:2023-03-10
# 深部生成型固定フィルタアクティブノイズ制御

Deep Generative Fixed-filter Active Noise Control ( http://arxiv.org/abs/2303.05788v1 )

ライセンス: Link先を確認
Zhengding Luo, Dongyuan Shi, Xiaoyi Shen, Junwei Ji, Woon-Seng Gan(参考訳) 緩やかに収束し追跡能力が低下するため、従来のlmsに基づく適応アルゴリズムでは動的ノイズを処理できない。 Selective fixed-filter active noise control (SFANC) は、異なる雑音に対する適切な事前学習制御フィルタを選択することで、応答時間を著しく短縮することができる。 それにもかかわらず、事前訓練された制御フィルタの限られた数がノイズ低減性能に影響を及ぼす可能性がある。 そこで本研究では,その限界を克服するために,生成型固定フィルタアクティブノイズ制御(GFANC)手法を提案する。 ディープラーニングと完全再構成フィルタバンクに基づいて、GFANC法は、様々なノイズに対する適切な制御フィルタを自動的に生成するために、いくつかの事前データ(事前訓練されたブロードバンド制御フィルタ)を必要とする。 GFANC法の有効性は実記録雑音に対する数値シミュレーションにより実証された。

Due to the slow convergence and poor tracking ability, conventional LMS-based adaptive algorithms are less capable of handling dynamic noises. Selective fixed-filter active noise control (SFANC) can significantly reduce response time by selecting appropriate pre-trained control filters for different noises. Nonetheless, the limited number of pre-trained control filters may affect noise reduction performance, especially when the incoming noise differs much from the initial noises during pre-training. Therefore, a generative fixed-filter active noise control (GFANC) method is proposed in this paper to overcome the limitation. Based on deep learning and a perfect-reconstruction filter bank, the GFANC method only requires a few prior data (one pre-trained broadband control filter) to automatically generate suitable control filters for various noises. The efficacy of the GFANC method is demonstrated by numerical simulations on real-recorded noises.
翻訳日:2023-03-13 15:30:03 公開日:2023-03-10
# 医用画像分割のためのベイズ周波数再パラメータ化による3次元カーネルのスケールアップ

Scaling Up 3D Kernels with Bayesian Frequency Re-parameterization for Medical Image Segmentation ( http://arxiv.org/abs/2303.05785v1 )

ライセンス: Link先を確認
Ho Hin Lee, Quan Liu, Shunxing Bao, Qi Yang, Xin Yu, Leon Y. Cai, Thomas Li, Yuankai Huo, Xenofon Koutsoukos, Bennett A. Landman(参考訳) 視覚変換器のインスピレーションにより、奥行きの畳み込みの概念は、医療画像のセグメンテーションにLK(Large Kernel)サイズを使用する大きな有効受容場(ERF)を提供するために再考される。 しかし、セグメンテーション性能は、カーネルサイズが拡大するにつれて飽和し、さらに劣化する可能性がある(例えば、CNN(Convolutional Neural Network)において、21\times 21\times 21$)。 我々はLKサイズとの畳み込みが局所学習の最適収束を維持するために限られていると仮定する。 構造的再パラメータ化(SR)は小さなカーネルを並列に局所収束させるが、最適な小さなカーネル分岐はトレーニングの計算効率を損なう可能性がある。 本研究では,単純なカーネルブロック設計の純粋なcnnアーキテクチャであるrepux-netを提案する。これは6つの公的なデータセットを用いて,現在のネットワーク状態のsota(3d ux-net, swinunetr)と競合する。 カーネル再パラメータ化とカーネル収束の分岐ワイド変動の同値性を導出する。 ヒトの視覚系における空間周波数に触発されて、カーネル収束を要素的に設定し、トレーニング中に畳み込み重みを再パラメータ化する前にベイジアンとして空間周波数をモデル化するように拡張する。 具体的には、相互関数を利用して周波数重み付け値を推定し、対応するカーネル要素を確率勾配降下のために再スケールする。 実験結果から、RepUX-Netは内部検証(FLARE:0.929 to 0.944)、外部検証(MSD:0.901 to 0.932, KiTS:0.815 to 0.847, LiTS:0.933 to 0.949, TCIA: 0.736 to 0.779)、転送学習(AMOS: 0.880 to 0.911)の3D SOTAベンチマークを一貫して上回っている。

With the inspiration of vision transformers, the concept of depth-wise convolution revisits to provide a large Effective Receptive Field (ERF) using Large Kernel (LK) sizes for medical image segmentation. However, the segmentation performance might be saturated and even degraded as the kernel sizes scaled up (e.g., $21\times 21\times 21$) in a Convolutional Neural Network (CNN). We hypothesize that convolution with LK sizes is limited to maintain an optimal convergence for locality learning. While Structural Re-parameterization (SR) enhances the local convergence with small kernels in parallel, optimal small kernel branches may hinder the computational efficiency for training. In this work, we propose RepUX-Net, a pure CNN architecture with a simple large kernel block design, which competes favorably with current network state-of-the-art (SOTA) (e.g., 3D UX-Net, SwinUNETR) using 6 challenging public datasets. We derive an equivalency between kernel re-parameterization and the branch-wise variation in kernel convergence. Inspired by the spatial frequency in the human visual system, we extend to vary the kernel convergence into element-wise setting and model the spatial frequency as a Bayesian prior to re-parameterize convolutional weights during training. Specifically, a reciprocal function is leveraged to estimate a frequency-weighted value, which rescales the corresponding kernel element for stochastic gradient descent. From the experimental results, RepUX-Net consistently outperforms 3D SOTA benchmarks with internal validation (FLARE: 0.929 to 0.944), external validation (MSD: 0.901 to 0.932, KiTS: 0.815 to 0.847, LiTS: 0.933 to 0.949, TCIA: 0.736 to 0.779) and transfer learning (AMOS: 0.880 to 0.911) scenarios in Dice Score.
翻訳日:2023-03-13 15:29:49 公開日:2023-03-10
# 量子計算のための遺伝的アルゴリズムを用いたHeralded Gate Search

Heralded gate search with genetic algorithms for quantum computation ( http://arxiv.org/abs/2303.05855v1 )

ライセンス: Link先を確認
A. Chernikov, S.S. Sysoev, E.A. Vashukevich, T.Yu. Golubeva(参考訳) 本稿では,線形光学スキームに対する遺伝的アルゴリズムに基づく探索手法を提案する。 提案手法を2量子ゲートの階層化に応用し,現在知られている最良値に等しい性能パラメータを持つ新しいスキームを得た。 新しい単純なメトリクスを導入し、異なる階層化メカニズムとのスキームの比較を可能にした。 提案手法のシーディング部分の検出器が光子数分解しない場合のスキーム性能劣化について論じる。 この欠点を克服する手法を提案し,非光子数分解検出器でも信頼性の高いヘラルディング信号の復元を可能にする。

In this paper we present genetic algorithms based search technique for the linear optics schemes, performing two-qubit quantum gates. We successfully applied this technique for finding heralded two-qubit gates and obtained the new schemes with performance parameters equal to the best currently known. The new simple metrics is introduced which enables comparison of schemes with different heralding mechanisms. The scheme performance degradation is discussed for the cases when detectors in the heralding part of the scheme are not photon-number-resolving. We propose a procedure for overcoming this drawback which allows us to restore the reliable heralding signal even with not-photon-number-resolving detectors.
翻訳日:2023-03-13 15:22:33 公開日:2023-03-10
# Lemmas: 生成、選択、適用

Lemmas: Generation, Selection, Application ( http://arxiv.org/abs/2303.05854v1 )

ライセンス: Link先を確認
Michael Rawson and Christoph Wernhard and Zsolt Zombori and Wolfgang Bibel(参考訳) 補題が数学の重要な特徴であることに留意し、自動定理証明における補題の役割について調査を行う。 本稿では,自動定理証明器に有用な補題を生成する学習技術と,いくつかの代表的なシステムの改善を実証し,20年間,どのシステムでも解決できない難題を解くことを目的とした実験を行った。 凝縮した分断問題に焦点を当てることで、設定をかなり単純化し、補題の本質と証明探索におけるそれらの役割を把握できる。

Noting that lemmas are a key feature of mathematics, we engage in an investigation of the role of lemmas in automated theorem proving. The paper describes experiments with a combined system involving learning technology that generates useful lemmas for automated theorem provers, demonstrating improvement for several representative systems and solving a hard problem not solved by any system for twenty years. By focusing on condensed detachment problems we simplify the setting considerably, allowing us to get at the essence of lemmas and their role in proof search.
翻訳日:2023-03-13 15:22:21 公開日:2023-03-10
# 不確実性下における意思決定--確率を超えて

Decision-Making Under Uncertainty: Beyond Probabilities ( http://arxiv.org/abs/2303.05848v1 )

ライセンス: Link先を確認
Thom Badings and Thiago D. Sim\~ao and Marnix Suilen and Nils Jansen(参考訳) 本研究は,不確実性下での意思決定の現状を反映したものである。 古典的な仮定は、確率はシステムの不確実性をすべて十分に捉えることができるというものである。 本稿では,この古典的解釈を超越した不確実性に焦点をあて,特にアレエータ的不確実性と認識的不確実性を明確に区別することで,その不確実性に着目する。 本稿は,マルコフ決定過程(MDP)の概要と,部分観測可能性と対向行動を考慮した拡張について述べる。 これらのモデルはアレタリック不確実性を十分にとらえるが、てんかんの不確実性をしっかりと説明できない。 そこで本研究では,より強固な解釈で不確実性を示すいわゆる不確実性モデルの概要を示す。 形式的検証からコントロールベースの抽象化、強化学習まで、離散モデルと連続モデルの両方に対するいくつかの解法を示す。 本稿では、モデルベース方式で、リッチなタイプの不確実性を扱う際に生じるいくつかの重要な課題をリストアップし、議論する。

This position paper reflects on the state-of-the-art in decision-making under uncertainty. A classical assumption is that probabilities can sufficiently capture all uncertainty in a system. In this paper, the focus is on the uncertainty that goes beyond this classical interpretation, particularly by employing a clear distinction between aleatoric and epistemic uncertainty. The paper features an overview of Markov decision processes (MDPs) and extensions to account for partial observability and adversarial behavior. These models sufficiently capture aleatoric uncertainty but fail to account for epistemic uncertainty robustly. Consequently, we present a thorough overview of so-called uncertainty models that exhibit uncertainty in a more robust interpretation. We show several solution techniques for both discrete and continuous models, ranging from formal verification, over control-based abstractions, to reinforcement learning. As an integral part of this paper, we list and discuss several key challenges that arise when dealing with rich types of uncertainty in a model-based fashion.
翻訳日:2023-03-13 15:22:12 公開日:2023-03-10
# マルチタスク学習における知識伝達の定量化と最大化のための勾配座標

Gradient Coordination for Quantifying and Maximizing Knowledge Transference in Multi-Task Learning ( http://arxiv.org/abs/2303.05847v1 )

ライセンス: Link先を確認
Xuanhua Yang, Jianxin Zhao, Shaoguo Liu, Liang Wang and Bo Zheng(参考訳) マルチタスク学習(MTL)はオンライン広告やレコメンデーションシステムに広く応用されている。 負の伝達問題に対処するために、近年、方向や大きさの勾配アライメントを徹底的に重視する最適化手法が提案されている。 しかし、従来の研究では、共通知識と特定の知識の両方が共有能力に限られていることが証明されているため、勾配アライメントの過度な強調はタスク固有の知識を引き出す可能性があり、その逆もある。 本稿では,coordinated Gradient修飾による知識伝達を適応的に最大化する,伝達駆動型アプローチCoGradを提案する。 我々は、あるタスクから別のタスクへの損失減少として転送を明示的に定量化し、最適化から補助勾配を導出する。 この勾配を元のタスク勾配に組み込むことで最適化を行い、モデルが自動的にタスク間転送を最大化し、個々の損失を最小化する。 このように、CoGradは一般的な知識と特定の知識を調和させて全体的なパフォーマンスを高めることができる。 さらに,Hessian行列の効率的な近似を導入し,計算効率が高く,実装も簡単である。 オフラインとオンラインの両方の実験では、CoGradが従来の方法よりも大幅に優れていることが確認されている。

Multi-task learning (MTL) has been widely applied in online advertising and recommender systems. To address the negative transfer issue, recent studies have proposed optimization methods that thoroughly focus on the gradient alignment of directions or magnitudes. However, since prior study has proven that both general and specific knowledge exist in the limited shared capacity, overemphasizing on gradient alignment may crowd out task-specific knowledge, and vice versa. In this paper, we propose a transference-driven approach CoGrad that adaptively maximizes knowledge transference via Coordinated Gradient modification. We explicitly quantify the transference as loss reduction from one task to another, and then derive an auxiliary gradient from optimizing it. We perform the optimization by incorporating this gradient into original task gradients, making the model automatically maximize inter-task transfer and minimize individual losses. Thus, CoGrad can harmonize between general and specific knowledge to boost overall performance. Besides, we introduce an efficient approximation of the Hessian matrix, making CoGrad computationally efficient and simple to implement. Both offline and online experiments verify that CoGrad significantly outperforms previous methods.
翻訳日:2023-03-13 15:21:56 公開日:2023-03-10
# マルコフ連鎖の線形統計に対するローゼンタール型不等式

Rosenthal-type inequalities for linear statistics of Markov chains ( http://arxiv.org/abs/2303.05838v1 )

ライセンス: Link先を確認
Alain Durmus, Eric Moulines, Alexey Naumov, Sergey Samsonov, Marina Sheshukova(参考訳) 本稿では,独立確率変数の和に対するローゼンタールやベルンシュタイン型不等式に類似した幾何学的エルゴード的マルコフ鎖の加法関数に対する新たな偏差境界を確立する。 我々は、対応する鎖の混合時間に対する境界の依存性に特に注意を払う。 我々の証明技術は、我々が知る限り、新しいものであり、ポアソン分解の繰り返し適用に基づいている。 我々は、モーメントに現れる定数と、ローゼンタール不等式(英語版)のマルティンゲール版からの定数を関連付け、基礎となるマルコフ核のパラメータへの明示的な依存を示す。

In this paper, we establish novel deviation bounds for additive functionals of geometrically ergodic Markov chains similar to Rosenthal and Bernstein-type inequalities for sums of independent random variables. We pay special attention to the dependence of our bounds on the mixing time of the corresponding chain. Our proof technique is, as far as we know, new and based on the recurrent application of the Poisson decomposition. We relate the constants appearing in our moment bounds to the constants from the martingale version of the Rosenthal inequality and show an explicit dependence on the parameters of the underlying Markov kernel.
翻訳日:2023-03-13 15:21:38 公開日:2023-03-10
# 1回だけトレーニングする:単眼ビデオからの多元的自由視点ニューラルヒューマンレンダリング

You Only Train Once: Multi-Identity Free-Viewpoint Neural Human Rendering from Monocular Videos ( http://arxiv.org/abs/2303.05835v1 )

ライセンス: Link先を確認
Jaehyeok Kim, Dongyoon Wee, Dan Xu(参考訳) モノクロビデオからの1回のみのトレーニングを通じて、異なる動作で異なる人間のアイデンティティを自由視点でレンダリングするダイナミックな人間生成フレームワークであるyoto(train once)を紹介します。 タスクの以前の作業のほとんどは、異なる人間のアイデンティティを含む各入力ビデオに対して個別化された最適化を必要としており、デプロイメントのかなりの時間とリソースをもたらし、それによってシステムのスケーラビリティと全体的なアプリケーションの可能性を妨げる。 本稿では,多元的自由視点レンダリングのためのフレームワークの能力を拡張するための学習可能なアイデンティティコードと,ポーズに依存しない非剛性動作を微妙にモデル化する効果的なポーズ条件付きコードクエリ機構を提案する。 YOTOは、設計されたアイデンティティコードを利用して、単一共有ボリューム表現における様々な標準的T位置の出現を学習するためのモデルを記述することにより、ニューラルラディアンスフィールド(NeRF)を最適化する。 さらに、統合モデル内の複数のアイデンティティを共同学習することで、高画質な写真リアルレンダリングにおけるフレキシブルな動き伝達が可能となる。 この機能は、Virtual Realityを含む重要なアプリケーションでの可能性を広げる。 zju-mocapとpeoplesnapshotの広範な実験結果を示し,提案モデルの有効性を明らかにした。 YOTOは、すべての評価指標で最先端のパフォーマンスを示しながら、トレーニングや推論効率、レンダリング品質に大きなメリットを示している。 コードとモデルはまもなく公開される予定だ。

We introduce You Only Train Once (YOTO), a dynamic human generation framework, which performs free-viewpoint rendering of different human identities with distinct motions, via only one-time training from monocular videos. Most prior works for the task require individualized optimization for each input video that contains a distinct human identity, leading to a significant amount of time and resources for the deployment, thereby impeding the scalability and the overall application potential of the system. In this paper, we tackle this problem by proposing a set of learnable identity codes to expand the capability of the framework for multi-identity free-viewpoint rendering, and an effective pose-conditioned code query mechanism to finely model the pose-dependent non-rigid motions. YOTO optimizes neural radiance fields (NeRF) by utilizing designed identity codes to condition the model for learning various canonical T-pose appearances in a single shared volumetric representation. Besides, our joint learning of multiple identities within a unified model incidentally enables flexible motion transfer in high-quality photo-realistic renderings for all learned appearances. This capability expands its potential use in important applications, including Virtual Reality. We present extensive experimental results on ZJU-MoCap and PeopleSnapshot to clearly demonstrate the effectiveness of our proposed model. YOTO shows state-of-the-art performance on all evaluation metrics while showing significant benefits in training and inference efficiency as well as rendering quality. The code and model will be made publicly available soon.
翻訳日:2023-03-13 15:21:27 公開日:2023-03-10
# 日本語翻訳への代数的アプローチ

An algebraic approach to translating Japanese ( http://arxiv.org/abs/2303.05834v1 )

ライセンス: Link先を確認
Valentin Boboc(参考訳) 我々はランベックの事前グループと、言語構成分布モデル(DisCoCat)の枠組みを用いて、日本語から英語への翻訳を関手として研究する。 前グループに装飾を加えることで、言語間の語順変化を処理する方法が示されます。

We use Lambek's pregroups and the framework of compositional distributional models of language ("DisCoCat") to study translations from Japanese to English as pairs of functors. Adding decorations to pregroups we show how to handle word order changes between languages.
翻訳日:2023-03-13 15:21:03 公開日:2023-03-10
# 捕捉イオンによる2モードスクイズド状態の生成とビームスプリッター変換のレーザーフリー化

Laser-free method for creation of two-mode squeezed state and beam-splitter transformation with trapped ions ( http://arxiv.org/abs/2303.05831v1 )

ライセンス: Link先を確認
Bogomila S. Nikolova and Peter A. Ivanov(参考訳) 線形イオン結晶中の標準モード間の時間変化電場と非線形結合を利用して、フォノン2モード圧縮状態とビームスプリッタ変換を生成するレーザーフリーな方法を提案する。 このような非線形クーロンによる集団振動モード間の相互作用は、イオントラップ内の特定のトラップ周波数条件下で生じる。 本研究では,2つの量子状態のパラメータ推定能力について検討し,ビームスプリッター変換の作用により,$n$フォノンの初期状態が進化すると,ハイゼンベルクの精度限界が達成できることを示した。 さらに、フォノン非線型性とスピン依存力は、3量子フレドキンゲートの生成に利用できることを示す。

We propose a laser-free method for creation of a phonon two-mode squeezed state and a beam-splitter transformation, using time-varying electric fields and non-linear couplings between the normal modes in a linear ion crystal. Such non-linear Coulomb-mediated interactions between the collective vibrational modes arise under specific trap-frequency conditions in an ion trap. We study the quantum metrological capability for parameter estimation of the two quantum states and show that a Heisenberg limit of precision can be achieved when the initial state with $n$ phonons evolves under the action of the beam-splitter transformation. Furthermore, we show that the phonon non-linearity and the spin-dependent force can be used for creation of a three-qubit Fredkin gate.
翻訳日:2023-03-13 15:20:57 公開日:2023-03-10
# コントラスト型言語画像事前学習モデル(clip)は強力な分布外検出器である

Contrastive Language-Image Pretrained (CLIP) Models are Powerful Out-of-Distribution Detectors ( http://arxiv.org/abs/2303.05828v1 )

ライセンス: Link先を確認
Felix Michels and Nikolas Adaloglou and Tim Kaiser and Markus Kollmann(参考訳) 本稿では,視覚分布検出のための事前学習特徴抽出器に関する包括的実験を行った。 ラベルや画像キャプションの可利用性や,内分布と外分布の組み合わせの違いから,いくつかの設定について検討した。 興味深いことに (i)ood検出スコアと類似した類似性を用いたコントラスト型言語イメージ事前学習モデルによる非教師なし分散性能の実現 (II)OOD検出性能の制御は、微調整なしで行うことができる。 (iii)自然言語で訓練された10億規模の視覚トランスフォーマーでさえ、逆操作されたood画像の検出に失敗している。 最後に,視覚異常検出のための新しいベンチマークが実験に基づいて必要かどうかを議論する。 CIFAR100$\rightarrow$ CIFAR10 OOD検出の課題に対して、AUROCの87.6\%(9.2\%ゲイン、非教師なし)と97.4\%(1.2\%ゲイン、監督なし)を含む18ドルのOODベンチマークで最先端のパフォーマンスを達成する。 コードはオープンソース化される。

We present a comprehensive experimental study on pretrained feature extractors for visual out-of-distribution (OOD) detection. We examine several setups, based on the availability of labels or image captions and using different combinations of in- and out-distributions. Intriguingly, we find that (i) contrastive language-image pretrained models achieve state-of-the-art unsupervised out-of-distribution performance using nearest neighbors feature similarity as the OOD detection score, (ii) supervised state-of-the-art OOD detection performance can be obtained without in-distribution fine-tuning, (iii) even top-performing billion-scale vision transformers trained with natural language supervision fail at detecting adversarially manipulated OOD images. Finally, we argue whether new benchmarks for visual anomaly detection are needed based on our experiments. Using the largest publicly available vision transformer, we achieve state-of-the-art performance across all $18$ reported OOD benchmarks, including an AUROC of 87.6\% (9.2\% gain, unsupervised) and 97.4\% (1.2\% gain, supervised) for the challenging task of CIFAR100 $\rightarrow$ CIFAR10 OOD detection. The code will be open-sourced.
翻訳日:2023-03-13 15:20:35 公開日:2023-03-10
# 純粋または混合状態における量子系の分散の利用と誤用

Use and misuse of variances for quantum systems in pure or mixed states ( http://arxiv.org/abs/2303.05827v1 )

ライセンス: Link先を確認
Alain Deville, Yannick Deville(参考訳) 量子力学の仮定で測定された結果として、2つの異なる準備された系が同じ密度作用素 \r{ho} で記述された場合、それらは同じ量子状態であると言われている。 50年以上にわたり、この仮定について合意が得られていない。 2011年の論文で、フレイティーニとハイラペティヤンはスピン成分のばらつきを考慮して、この仮定は不当であることを示した。 本論文の目的は,2011年の論文の要点を議論することであり,2012年のbodor と diosi による論文への回答の中で,それらの分析は無関係であると主張する。 2011年の論文で曖昧さや矛盾に直面すると、まずその目的を推測し、この文脈で有用な結果を確立し、最終的にこの議論で示唆されたいくつかの概念の使用や誤用について議論する。

As a consequence of the place ascribed to measurements in the postulates of quantum mechanics, if two differently prepared systems are described with the same density operator \r{ho}, they are said to be in the same quantum state. For more than fifty years, there has been a lack of consensus about this postulate. In a 2011 paper, considering variances of spin components, Fratini and Hayrapetyan tried to show that this postulate is unjustified. The aim of the present paper is to discuss major points in this 2011 article, and in their reply to a 2012 paper by Bodor and Diosi claiming that their analysis was irrelevant. Facing some ambiguities or inconsistencies in the 2011 paper and in the reply, we first try to guess their aim, then establish results useful in this context, and finally discuss the use or misuse of several concepts implied in this debate.
翻訳日:2023-03-13 15:19:45 公開日:2023-03-10
# 開ボキャブラリー物体検出のためのオブジェクトアウェア蒸留ピラミッド

Object-Aware Distillation Pyramid for Open-Vocabulary Object Detection ( http://arxiv.org/abs/2303.05892v1 )

ライセンス: Link先を確認
Luting Wang, Yi Liu, Penghui Du, Zihan Ding, Yue Liao, Qiaosong Qi, Biaolong Chen, Si Liu(参考訳) open-vocabulary object detectionは、任意のテキストクエリで記述されたオブジェクトを検出する汎用性を備えた、固定されたオブジェクトカテゴリでトレーニングされたオブジェクト検出を提供することを目的としている。 以前の方法は知識蒸留を採用し、事前訓練された視覚言語モデル(pvlms)から知識を抽出し、それを検出器に転送する。 しかし,非適応的提案作法と単一レベルの特徴模倣法により,知識抽出時の情報破壊や非効率な知識伝達に悩まされる。 これらの制限を緩和するために,オブジェクト指向知識抽出(OAKE)モジュールと蒸留ピラミッド(DP)機構を含むOADP(Object-Aware Distillation Pyramid)フレームワークを提案する。 PVLMからオブジェクト知識を抽出する場合、前者はオブジェクトの提案を適応的に変換し、オブジェクトの正確な完全な知識を得るためにオブジェクト認識マスクの注意を取り入れる。 後者は、オブジェクト蒸留における欠落関係情報を補うために、より包括的な知識伝達のためのグローバルおよびブロック蒸留を導入する。 広範な実験により,本手法は現在の手法に比べて大幅に改善できることがわかった。 特にMS-COCOデータセットでは、OADPフレームワークは35.6$ mAP$^{\text{N}}_{50}$に達し、現在の最先端メソッドを3.3$ mAP$^{\text{N}}_{50}$で上回る。 コードはhttps://github.com/lutingwang/oadpでリリースされる。

Open-vocabulary object detection aims to provide object detectors trained on a fixed set of object categories with the generalizability to detect objects described by arbitrary text queries. Previous methods adopt knowledge distillation to extract knowledge from Pretrained Vision-and-Language Models (PVLMs) and transfer it to detectors. However, due to the non-adaptive proposal cropping and single-level feature mimicking processes, they suffer from information destruction during knowledge extraction and inefficient knowledge transfer. To remedy these limitations, we propose an Object-Aware Distillation Pyramid (OADP) framework, including an Object-Aware Knowledge Extraction (OAKE) module and a Distillation Pyramid (DP) mechanism. When extracting object knowledge from PVLMs, the former adaptively transforms object proposals and adopts object-aware mask attention to obtain precise and complete knowledge of objects. The latter introduces global and block distillation for more comprehensive knowledge transfer to compensate for the missing relation information in object distillation. Extensive experiments show that our method achieves significant improvement compared to current methods. Especially on the MS-COCO dataset, our OADP framework reaches $35.6$ mAP$^{\text{N}}_{50}$, surpassing the current state-of-the-art method by $3.3$ mAP$^{\text{N}}_{50}$. Code is released at https://github.com/LutingWang/OADP.
翻訳日:2023-03-13 15:13:27 公開日:2023-03-10
# 縦長ユーザ投稿のタイムライン作成と評価

Creation and evaluation of timelines for longitudinal user posts ( http://arxiv.org/abs/2303.05891v1 )

ライセンス: Link先を確認
Anthony Hills, Adam Tsakalidis, Federico Nanni, Ioannis Zachos, Maria Liakata(参考訳) ソーシャルメディア、特にテキストによる投稿でユーザー生成コンテンツを扱うことへの関心が高まっている。 現在、手動アノテーションの品質とコストを改善する意味のある方法でユーザー投稿をタイムラインに分割する一貫した方法がない。 本稿では,オンライン投稿活動に基づいて,ユーザの行動に興味深い変化が生じる可能性のあるタイムラインに,縦長のユーザ投稿を分割する手法を提案する。 また、2つの異なるソーシャルメディアデータセットの文脈において、タイムラインの評価と適用性を示す新しいフレームワークを提案する。 最後に,高度にランク付けされた時系列の言語内容について論じる。

There is increasing interest to work with user generated content in social media, especially textual posts over time. Currently there is no consistent way of segmenting user posts into timelines in a meaningful way that improves the quality and cost of manual annotation. Here we propose a set of methods for segmenting longitudinal user posts into timelines likely to contain interesting moments of change in a user's behaviour, based on their online posting activity. We also propose a novel framework for evaluating timelines and show its applicability in the context of two different social media datasets. Finally, we present a discussion of the linguistic content of highly ranked timelines.
翻訳日:2023-03-13 15:13:00 公開日:2023-03-10
# Bi3D: クロスドメイン3Dオブジェクト検出のためのバイドメインアクティブラーニング

Bi3D: Bi-domain Active Learning for Cross-domain 3D Object Detection ( http://arxiv.org/abs/2303.05886v1 )

ライセンス: Link先を確認
Jiakang Yuan, Bo Zhang, Xiangchao Yan, Tao Chen, Botian Shi, Yikang Li, Yu Qiao(参考訳) 教師なしドメイン適応(UDA)技術は、最近3次元クロスドメインタスクで研究されている。 予備的な進展はあったが、UDAベースの3Dモデルと完全に注釈付けされたターゲットドメインで訓練された教師付きモデルのパフォーマンスギャップは依然として大きい。 これにより、部分的に重要なターゲットデータを選択し、最小限のコストでラベル付けすることで、高いパフォーマンスと低いアノテーションコストの間の良好なトレードオフを実現することを動機付けます。 そこで本研究では,クロスドメインな3Dオブジェクト検出タスクを解決するために,Biドメインのアクティブな学習手法であるBi3Dを提案する。 bi3dはまず、ソースドメインからターゲットドメインライクなサンプルを識別し、無関係なソースデータに干渉されるモデルを避けるドメインネス対応のソースサンプリング戦略を開発する。 次に、ターゲットドメインの最も有益なサブセットを選択し、できるだけ少ないアノテーション予算でターゲットドメインへのモデル適応性を改善する、多様性に基づくターゲットサンプリング戦略を開発する。 クロスライダービーム、クロスカントリー、クロスセンサーを含む典型的なクロスドメイン適応シナリオにおいて、bi3dは、udaベースの作業(84.29%)と比較して有望なターゲットドメイン検出精度(89.63%)を達成し、ラベル付きターゲットドメインの完全なセット(88.98%)で訓練された検出器を上回っている。 私たちのコードは、https://github.com/PJLabADG/3DTransで利用可能です。

Unsupervised Domain Adaptation (UDA) technique has been explored in 3D cross-domain tasks recently. Though preliminary progress has been made, the performance gap between the UDA-based 3D model and the supervised one trained with fully annotated target domain is still large. This motivates us to consider selecting partial-yet-important target data and labeling them at a minimum cost, to achieve a good trade-off between high performance and low annotation cost. To this end, we propose a Bi-domain active learning approach, namely Bi3D, to solve the cross-domain 3D object detection task. The Bi3D first develops a domainness-aware source sampling strategy, which identifies target-domain-like samples from the source domain to avoid the model being interfered by irrelevant source data. Then a diversity-based target sampling strategy is developed, which selects the most informative subset of target domain to improve the model adaptability to the target domain using as little annotation budget as possible. Experiments are conducted on typical cross-domain adaptation scenarios including cross-LiDAR-beam, cross-country, and cross-sensor, where Bi3D achieves a promising target-domain detection accuracy (89.63% on KITTI) compared with UDAbased work (84.29%), even surpassing the detector trained on the full set of the labeled target domain (88.98%). Our code is available at: https://github.com/PJLabADG/3DTrans.
翻訳日:2023-03-13 15:12:51 公開日:2023-03-10
# マルチ露光衛星画像のハンドヘルドバースト超解像

Handheld Burst Super-Resolution Meets Multi-Exposure Satellite Imagery ( http://arxiv.org/abs/2303.05879v1 )

ライセンス: Link先を確認
Jamy Lafenetre, Ngoc Long Nguyen, Gabriele Facciolo, Thomas Eboli(参考訳) 画像解像度は、衛星画像に基づく多くのアプリケーションにとって重要な基準である。 本研究では,スマートフォンカメラのバースト・スーパーレゾリューションに最先端のカーネルレグレッション技術を適用する。 この手法は画像の局所構造を利用して核融合を最適に操り、最終高分解能予測のぼかしを制限し、画像をデノイングし、詳細を2のズーム係数まで回復する。 このアプローチをマルチ露光ケースに拡張して,高分解能かつノイズフリーな多露光低解像度フレーム列から予測する。 単一およびマルチ露光シナリオの実験は、このアプローチのメリットを示している。 融合は学習不要であるため,多くのリモートセンシングアプリケーションにおいて重要である詳細を幻覚させないことが保証されている。

Image resolution is an important criterion for many applications based on satellite imagery. In this work, we adapt a state-of-the-art kernel regression technique for smartphone camera burst super-resolution to satellites. This technique leverages the local structure of the image to optimally steer the fusion kernels, limiting blur in the final high-resolution prediction, denoising the image, and recovering details up to a zoom factor of 2. We extend this approach to the multi-exposure case to predict from a sequence of multi-exposure low-resolution frames a high-resolution and noise-free one. Experiments on both single and multi-exposure scenarios show the merits of the approach. Since the fusion is learning-free, the proposed method is ensured to not hallucinate details, which is crucial for many remote sensing applications.
翻訳日:2023-03-13 15:12:22 公開日:2023-03-10
# ロボットグルーピングのためのシミュレーションに基づくベイズ推定

Simulation-based Bayesian inference for robotic grasping ( http://arxiv.org/abs/2303.05873v1 )

ライセンス: Link先を確認
Norman Marlier, Olivier Br\"uls and Gilles Louppe(参考訳) 一般的なロボットグリッパーは、その豊富な非スムースな接触ダイナミクスと環境やセンサノイズによる不確実性の多くの原因のため、制御が困難である。 本研究では,シミュレーションに基づくベイズ推定を用いた6自由度把握手法を実環境におけるロボットの確率的フォワードシミュレーションを通じて実証し,システムの不確実性の多くをロバストに計算する。 回転空間の非線形性を保つリーマン多様体最適化手順は、最大後方把持姿勢を計算するために用いられる。 シミュレーションと物理的ベンチマークは、アプローチの有望な成功率を示している。

General robotic grippers are challenging to control because of their rich nonsmooth contact dynamics and the many sources of uncertainties due to the environment or sensor noise. In this work, we demonstrate how to compute 6-DoF grasp poses using simulation-based Bayesian inference through the full stochastic forward simulation of the robot in its environment while robustly accounting for many of the uncertainties in the system. A Riemannian manifold optimization procedure preserving the nonlinearity of the rotation space is used to compute the maximum a posteriori grasp pose. Simulation and physical benchmarks show the promising high success rate of the approach.
翻訳日:2023-03-13 15:12:10 公開日:2023-03-10
# 連続フレームから抽出した潜在特徴の連結によるビデオのリアルタイムポリープ検出

Accurate Real-time Polyp Detection in Videos from Concatenation of Latent Features Extracted from Consecutive Frames ( http://arxiv.org/abs/2303.05871v1 )

ライセンス: Link先を確認
Hemin Ali Qadir, Younghak Shin, Jacob Bergsland, Ilangko Balasingham(参考訳) ポリプ検出のためにリアルタイムに実装可能な効率的なディープラーニングモデルは,スクリーニング手順におけるポリプミス率の低減に不可欠である。 畳み込みニューラルネットワーク(CNN)は入力画像の小さな変化に対して脆弱である。 cnnベースのモデルは、連続するフレームに現れる同じポリプを見逃し、カメラのポーズ、照明条件、光反射などの変化により、副次的な検出結果を生成する。 本研究では,隣接するフレーム間で時間情報を統合することでこの問題に対処する。 本稿では,CNNベースのエンコーダデコーダモデルに対して,複雑さを伴わずに効率的な特徴結合手法を提案する。 提案手法では,前のフレームの特徴マップを抽出して,現在のフレームのポリープを検出する。 実験の結果,提案手法により,ビデオ中のポリプの自動検出性能が向上することがわかった。 以下の結果は、公開ビデオデータセット上で得られる:感度90.94\%、精度90.53\%、特異度92.46%。

An efficient deep learning model that can be implemented in real-time for polyp detection is crucial to reducing polyp miss-rate during screening procedures. Convolutional neural networks (CNNs) are vulnerable to small changes in the input image. A CNN-based model may miss the same polyp appearing in a series of consecutive frames and produce unsubtle detection output due to changes in camera pose, lighting condition, light reflection, etc. In this study, we attempt to tackle this problem by integrating temporal information among neighboring frames. We propose an efficient feature concatenation method for a CNN-based encoder-decoder model without adding complexity to the model. The proposed method incorporates extracted feature maps of previous frames to detect polyps in the current frame. The experimental results demonstrate that the proposed method of feature concatenation improves the overall performance of automatic polyp detection in videos. The following results are obtained on a public video dataset: sensitivity 90.94\%, precision 90.53\%, and specificity 92.46%
翻訳日:2023-03-13 15:12:00 公開日:2023-03-10
# Isabelle Proof Assistantを用いた実験

On Exams with the Isabelle Proof Assistant ( http://arxiv.org/abs/2303.05866v1 )

ライセンス: Link先を確認
Frederik Krogsdal Jacobsen (Technical University of Denmark), J{\o}rgen Villadsen (Technical University of Denmark)(参考訳) 本稿では,Isabelle証明アシスタントを用いた自動推論のコースにおいて,学生の学習結果をテストするためのアプローチを提案する。 このアプローチにより、様々な論理証明システムにおける形式的証明の一般的な理解と、特にイザベル/ホルの高階論理における証明の理解の両方をテストすることができる。 イザベルの使用により、試験の大部分をほぼ自動的に段階付けすることができる。 我々は,このアプローチをいくつかの事例問題を通じて説明し,選択した問題のそれぞれが意図した学習結果の適切な尺度であると考える理由を説明する。 最後に, 自動推論試験におけるアプローチを用いた経験を考察し, 今後の課題を示唆する。

We present an approach for testing student learning outcomes in a course on automated reasoning using the Isabelle proof assistant. The approach allows us to test both general understanding of formal proofs in various logical proof systems and understanding of proofs in the higher-order logic of Isabelle/HOL in particular. The use of Isabelle enables almost automatic grading of large parts of the exam. We explain our approach through a number of example problems, and explain why we believe that each of the kinds of problems we have selected are adequate measures of our intended learning outcomes. Finally, we discuss our experiences using the approach for the exam of a course on automated reasoning and suggest potential future work.
翻訳日:2023-03-13 15:11:43 公開日:2023-03-10
# ルールに基づく理論証明:中等教育における証明の紹介

A Rule Based Theorem Prover: an Introduction to Proofs in Secondary Schools ( http://arxiv.org/abs/2303.05863v1 )

ライセンス: Link先を確認
Joana Teles (CMUC / Department of Mathematics, University of Coimbra), Vanda Santos (CIDTFF, University of Aveiro and CISUC), Pedro Quaresma (CISUC / Department of Mathematics, University of Coimbra)(参考訳) 中学校における自動推論システムの導入はいくつかのボトルネックに直面している。 カリキュラムと教師に関する問題以外にも、幾何学的自動定理プローバーの結果と学校での推論と証明の通常の実践との間の不一致は、教育環境においてそのようなツールを広く使用する上で大きな障壁となる。 幾何自動定理プローバーの初期実装以降、人工知能の応用、推論規則に基づく合成プローバー、前方連鎖推論の利用は、より教育的提案に適していると考えられる。 適切なルールセットの選択と、それらのルールを使用できる自動化メソッドは、大きな課題です。 本稿では,幾何帰納的データベース法(GDDM)を用いて,そのようなルールセットとその実装について論じる。 このアプローチは、7年生(約12歳の学生)の目標となる幾何予想を使ってテストされる。 授業計画が提示され、その目標は、学生をその目標に動機付けようとする幾何学的定理を証明する公式なデモンストレーションの導入である。

The introduction of automated deduction systems in secondary schools face several bottlenecks. Beyond the problems related with the curricula and the teachers, the dissonance between the outcomes of the geometry automated theorem provers and the normal practice of conjecturing and proving in schools is a major barrier to a wider use of such tools in an educational environment. Since the early implementations of geometry automated theorem provers, applications of artificial intelligence methods, synthetic provers based on inference rules and using forward chaining reasoning are considered to be more suited for education proposes. Choosing an appropriate set of rules and an automated method that can use those rules is a major challenge. We discuss one such rule set and its implementation using the geometry deductive databases method (GDDM). The approach is tested using some chosen geometric conjectures that could be the goal of a 7th year class (approx. 12-year-old students). A lesson plan is presented, its goal is the introduction of formal demonstration of proving geometric theorems, trying to motivate students to that goal
翻訳日:2023-03-13 15:11:31 公開日:2023-03-10
# LinkedIn Advertising Estimatesによるジェンダーギャップのモニタリング:イタリアのケーススタディ

Monitoring Gender Gaps via LinkedIn Advertising Estimates: the case study of Italy ( http://arxiv.org/abs/2303.05862v1 )

ライセンス: Link先を確認
Margherita Bert\`e, Kyriaki Kalimeri, Daniela Paolotti(参考訳) 女性は労働市場において過小評価されている。 労働力への女性の参加を増やすために大きな進歩がされているが、男女格差は依然として橋渡しには程遠い。 我々は,労働市場の男女不平等に関する文献の成長に寄与し,linkedinの推定値が男女格差の持続的発展をモニターする可能性を評価し,公式データソースを補完する。 特に、イタリアにおける労働市場のパターンを準国家レベルで評価する。 以上の結果から,LinkedInの推定値は,性別,年齢,地理的位置,高齢者,産業カテゴリーなど,イタリアにおける男女格差を正確に把握していることがわかった。 同時に、女性が南イタリアで過小評価されていることを確認し、不均衡な方法で労働者の表現力に影響を与えるデジタル化ギャップなどのデータバイアスを評価する。 公式国勢調査に対する男女格差の確認に加えて、LinkedInの推定値は、ダイナミックな洞察を提供する貴重なツールである。 詳細なデータとタイムリーなデータによる男女不平等のデジタル監視は、政策立案者が影響力のあるキャンペーンを調整できるようにするために特に重要である。

Women remain underrepresented in the labour market. Although significant advancements are being made to increase female participation in the workforce, the gender gap is still far from being bridged. We contribute to the growing literature on gender inequalities in the labour market, evaluating the potential of the LinkedIn estimates to monitor the evolution of the gender gaps sustainably, complementing the official data sources. In particular, assessing the labour market patterns at a subnational level in Italy. Our findings show that the LinkedIn estimates accurately capture the gender disparities in Italy regarding sociodemographic attributes such as gender, age, geographic location, seniority, and industry category. At the same time, we assess data biases such as the digitalisation gap, which impacts the representativity of the workforce in an imbalanced manner, confirming that women are under-represented in Southern Italy. Additionally to confirming the gender disparities to the official census, LinkedIn estimates are a valuable tool to provide dynamic insights; we showed an immigration flow of highly skilled women, predominantly from the South. Digital surveillance of gender inequalities with detailed and timely data is particularly significant to enable policymakers to tailor impactful campaigns.
翻訳日:2023-03-13 15:11:13 公開日:2023-03-10
# 画像分類における変分量子ニューラルネットワーク(VQNNS)

Variational Quantum Neural Networks (VQNNS) in Image Classification ( http://arxiv.org/abs/2303.05860v1 )

ライセンス: Link先を確認
Meghashrita Das and Tirupati Bolisetti(参考訳) 量子機械学習は、古典的機械学習とニューラルネットワークの限界を克服するための学際的な分野として確立された。 これは量子コンピュータが古典的コンピュータでは難しい入力間の複雑な相関を持つ問題を解くことができることを証明できる研究分野である。 これは、量子コンピュータで作成された学習モデルは、アプリケーションにとってより強力であり、より高速な計算とより少ないデータでの一般化をもたらす可能性があることを示唆している。 本稿では,QNNの性能と時間的複雑さを改善するために,量子最適化アルゴリズムを用いて量子ニューラルネットワーク(QNN)のトレーニングを行う方法について検討する。 古典的ニューラルネットワークを部分的に量子化することで、主に分類と画像認識に使われるハイブリッド量子古典的ニューラルネットワークを作成することができる。 本稿では,変分量子ニューラルネットワーク(VQNN)と呼ばれる入力層として,変分パラメータ化回路を組み込んだQNN構造について述べる。 ネットワークパラメータのヒルベルト空間における重ね合わせ状態の相対位相にQNNのコスト関数をエンコードする。 パラメータは、反復量子近似最適化(QAOA)ミキサーと問題ハミルトニアンで調整される。 vqnns は mnist digit recognition (less complex) と crack image classification dataset (more complex) を用いて実験され、適切なトレーニング精度で qnn よりも少ない時間で計算を収束させる。

Quantum machine learning has established as an interdisciplinary field to overcome limitations of classical machine learning and neural networks. This is a field of research which can prove that quantum computers are able to solve problems with complex correlations between inputs that can be hard for classical computers. This suggests that learning models made on quantum computers may be more powerful for applications, potentially faster computation and better generalization on less data. The objective of this paper is to investigate how training of quantum neural network (QNNs) can be done using quantum optimization algorithms for improving the performance and time complexity of QNNs. A classical neural network can be partially quantized to create a hybrid quantum-classical neural network which is used mainly in classification and image recognition. In this paper, a QNN structure is made where a variational parameterized circuit is incorporated as an input layer named as Variational Quantum Neural Network (VQNNs). We encode the cost function of QNNs onto relative phases of a superposition state in the Hilbert space of the network parameters. The parameters are tuned with an iterative quantum approximate optimisation (QAOA) mixer and problem hamiltonians. VQNNs is experimented with MNIST digit recognition (less complex) and crack image classification datasets (more complex) which converges the computation in lesser time than QNN with decent training accuracy.
翻訳日:2023-03-13 15:10:54 公開日:2023-03-10
# DACov:CTセグメンテーション問題におけるデータ拡張のより深い分析

DACov: A Deeper Analysis of Data Augmentation on the Computed Tomography Segmentation Problem ( http://arxiv.org/abs/2303.05912v1 )

ライセンス: Link先を確認
Bruno A. Krinski, Daniel V. Ruiz, Rayson Laroca, Eduardo Todt(参考訳) 新型コロナウイルスの世界的なパンデミックにより、医療画像のコンピュータ支援診断が注目され、CT画像のセマンティックセグメンテーションの堅牢な手法が好まれている。 本稿では,データ拡張手法がこの問題に対するセグメンテーション性能を改善する方法について,より深い分析を行う。 5つの公開データセットに対して従来の20の拡張手法を評価する。 画像に各拡張技術を適用する6つの異なる確率を評価した。 また、トレーニングサブセットをひとつの大きなセットにまとめる異なるトレーニング方法論を評価します。 全てのネットワークは5倍のクロスバリデーション戦略によって評価され、4600以上の実験が行われた。 また,gans(generative adversarial network)に基づく新しい画像拡張法を提案し,従来の方法と同じ6つの確率で,従来のアプローチの4つのバリエーションを評価した。 以上の結果から,ganベースの手法と空間レベルの変換は,統合トレーニング戦略において,ricord1aデータセットにおいて0.3倍のf-score値を達成する確率を持つstarganv2 + fにおいて,深層モデルの学習を改善する上で最も有望であることが示された。 私たちのコードはhttps://github.com/VRI-UFPR/DACov2022で公開されています。

Due to the COVID-19 global pandemic, computer-assisted diagnoses of medical images have gained much attention, and robust methods of semantic segmentation of Computed Tomography (CT) images have become highly desirable. In this work, we present a deeper analysis of how data augmentation techniques improve segmentation performance on this problem. We evaluate 20 traditional augmentation techniques on five public datasets. Six different probabilities of applying each augmentation technique on an image were evaluated. We also assess a different training methodology where the training subsets are combined into a single larger set. All networks were evaluated through a 5-fold cross-validation strategy, resulting in over 4,600 experiments. We also propose a novel data augmentation technique based on Generative Adversarial Networks (GANs) to create new healthy and unhealthy lung CT images, evaluating four variations of our approach with the same six probabilities of the traditional methods. Our findings show that GAN-based techniques and spatial-level transformations are the most promising for improving the learning of deep models on this problem, with the StarGANv2 + F with a probability of 0.3 achieving the highest F-score value on the Ricord1a dataset in the unified training strategy. Our code is publicly available at https://github.com/VRI-UFPR/DACov2022
翻訳日:2023-03-13 15:02:37 公開日:2023-03-10
# 生涯機械学習の可能性

Lifelong Machine Learning Potentials ( http://arxiv.org/abs/2303.05911v1 )

ライセンス: Link先を確認
Marco Eckhoff and Markus Reiher(参考訳) 正確な量子化学データに基づいてトレーニングされた機械学習ポテンシャル(MLP)は、計算要求にほとんど影響せず、高い精度を維持することができる。 マイナス面は、個々のシステムのためにトレーニングする必要があります。 近年、多くのMLPがゼロから訓練されている。なぜなら、追加のデータを学習するには、通常、以前取得した知識を忘れないように、すべてのデータで再びトレーニングする必要があるからだ。 さらに、MLPの構造記述子は、多くの異なる化学元素を効率的に表現することはできない。 本研究では,原子中心対称性関数 (eeacsfs) を周期表から構造的性質と元素情報を組み合わせて導入することにより,これらの問題に対処する。 これらのeeACSFは、生涯にわたる機械学習の可能性(lMLP)の発展の鍵です。 不確かさの定量化は、予め定義された精度のレベルを確保できるため、固定された事前訓練されたMLPを継続的に適応するlMLPに到達させるために利用することができる。 lmlpの新たなシステムへの適用性を高めるために,連続学習戦略を適用し,新たなデータの連続ストリーム上での自律的およびオンザフライトレーニングを実現する。 深層ニューラルネットワークの学習のために,データのリハーサル,パラメータの正規化,モデルのアーキテクチャに依存する連続的回復性(コア)オプティマイザとインクリメンタル学習戦略を提案する。

Machine learning potentials (MLPs) trained on accurate quantum chemical data can retain the high accuracy, while inflicting little computational demands. On the downside, they need to be trained for each individual system. In recent years, a vast number of MLPs has been trained from scratch because learning additional data typically requires to train again on all data to not forget previously acquired knowledge. Additionally, most common structural descriptors of MLPs cannot represent efficiently a large number of different chemical elements. In this work, we tackle these problems by introducing element-embracing atom-centered symmetry functions (eeACSFs) which combine structural properties and element information from the periodic table. These eeACSFs are a key for our development of a lifelong machine learning potential (lMLP). Uncertainty quantification can be exploited to transgress a fixed, pre-trained MLP to arrive at a continuously adapting lMLP, because a predefined level of accuracy can be ensured. To extend the applicability of an lMLP to new systems, we apply continual learning strategies to enable autonomous and on-the-fly training on a continuous stream of new data. For the training of deep neural networks, we propose the continual resilient (CoRe) optimizer and incremental learning strategies relying on rehearsal of data, regularization of parameters, and the architecture of the model.
翻訳日:2023-03-13 15:02:15 公開日:2023-03-10
# スコアマッチング機能を有する製品jacobi-theta boltzmann

Product Jacobi-Theta Boltzmann machines with score matching ( http://arxiv.org/abs/2303.05910v1 )

ライセンス: Link先を確認
Andrea Pasquale, Daniel Krefl, Stefano Carrazza and Frank Nielsen(参考訳) 確率密度関数の推定は、ここ数年機械学習技術で取り組まれてきた非自明なタスクである。 成功したアプリケーションはボルツマンマシン(BM)アーキテクチャにインスパイアされたモデルで得ることができる。 この写本では、製品Jacobi-Theta Boltzmann Machine (pJTBM) が、対角的な隠れセクター接続行列を持つリーマン-Theta Boltzmann Machine (RTBM) の限定版として導入された。 Fisher の発散に基づくスコアマッチングにより,pJTBM の確率密度を元の RTBM よりも効率的に適合させることができることを示す。

The estimation of probability density functions is a non trivial task that over the last years has been tackled with machine learning techniques. Successful applications can be obtained using models inspired by the Boltzmann machine (BM) architecture. In this manuscript, the product Jacobi-Theta Boltzmann machine (pJTBM) is introduced as a restricted version of the Riemann-Theta Boltzmann machine (RTBM) with diagonal hidden sector connection matrix. We show that score matching, based on the Fisher divergence, can be used to fit probability densities with the pJTBM more efficiently than with the original RTBM.
翻訳日:2023-03-13 15:01:54 公開日:2023-03-10
# 重み付きネットワークにおけるコミュニティ検出への擬似類似アプローチ

A pseudo-likelihood approach to community detection in weighted networks ( http://arxiv.org/abs/2303.05909v1 )

ライセンス: Link先を確認
Andressa Cerqueira, Elizaveta Levina(参考訳) コミュニティ構造は多くの実ネットワークで一般的であり、ノードは同じコネクションパターンを共有するグループにクラスタ化されている。 二つのエッジを持つネットワークに対して,多くのコミュニティ検出手法が開発されているが,実際は重み付きエッジを持つネットワークに適用できるものは少ない。 本稿では,通常分布するエッジ重みを持つネットワークに対して,重み付き確率ブロックモデルに基づく擬似様コミュニティ推定アルゴリズムを提案し,精度と計算効率の最良の組み合わせを提供するバイナリネットワークに対する擬似様コミュニティ推定アルゴリズムを拡張した。 提案手法により得られた推定値が,植込み分割モデルの重み付き類似物である均質ネットワークの仮定の下で一貫性があることを証明し,均質ネットワークと異質ネットワークの両方において実効性を示す。 本稿では, シミュレーションネットワークとfMRIデータセットを用いて, エッジウェイトは脳領域間の接続を表現し, 構成によって分布が正常に近いことが期待されている。

Community structure is common in many real networks, with nodes clustered in groups sharing the same connections patterns. While many community detection methods have been developed for networks with binary edges, few of them are applicable to networks with weighted edges, which are common in practice. We propose a pseudo-likelihood community estimation algorithm derived under the weighted stochastic block model for networks with normally distributed edge weights, extending the pseudo-likelihood algorithm for binary networks, which offers some of the best combinations of accuracy and computational efficiency. We prove that the estimates obtained by the proposed method are consistent under the assumption of homogeneous networks, a weighted analogue of the planted partition model, and show that they work well in practice for both homogeneous and heterogeneous networks. We illustrate the method on simulated networks and on a fMRI dataset, where edge weights represent connectivity between brain regions and are expected to be close to normal in distribution by construction.
翻訳日:2023-03-13 15:01:42 公開日:2023-03-10
# 初期における乱流発達:渦崩壊に基づくシナリオ

The turbulence development at initial stage: scenario based on the vortexes decay ( http://arxiv.org/abs/2303.05908v1 )

ライセンス: Link先を確認
S.V. Talalov(参考訳) 本稿では,初期段階における量子乱流の発展モデルを提案する。 提案されたモデルにおける乱流の起源は、内部構造を持つ渦ループの崩壊である。 我々は、平衡状態の確立の前に、このプロセスの初期段階を考慮する。 その結果, 発達する乱流の密度行列が算出された。 古典渦環の系の量子化スキームは、著者が以前に提案したアプローチに基づいている。

In this article, a model of the development of a quantum turbulence at initial stage is proposed. The origin of turbulence in the suggested model is the decay of vortex loops with an internal structure. We consider the initial stage of this process, before the establishment of an equilibrium state. As result, the density matrix of developing turbulent flow is calculated. The quantization scheme of the system of the classical vortex rings is based on the approach proposed by the author earlier.
翻訳日:2023-03-13 15:01:25 公開日:2023-03-10
# テネシー・イーストマンプロセスデータの深部異常検出

Deep Anomaly Detection on Tennessee Eastman Process Data ( http://arxiv.org/abs/2303.05904v1 )

ライセンス: Link先を確認
Fabian Hartung, Billy Joe Franks, Tobias Michels, Dennis Wagner, Philipp Liznerski, Steffen Reithermann, Sophie Fellenz, Fabian Jirasek, Maja Rudolph, Daniel Neider, Heike Leitte, Chen Song, Benjamin Kloepper, Stephan Mandt, Michael Bortz, Jakob Burger, Hans Hasse, Marius Kloft(参考訳) 本稿では,化学プロセスデータに対する最新の(深層学習)教師なし異常検出手法の総合的評価と解析を行う。 我々は、30年近くにわたって異常検出手法をベンチマークする標準的なリトマステストであるテネシー・イーストマンプロセスデータセットに焦点を当てた。 本研究は,産業応用における適切な異常検出手法の選定を容易にする。

This paper provides the first comprehensive evaluation and analysis of modern (deep-learning) unsupervised anomaly detection methods for chemical process data. We focus on the Tennessee Eastman process dataset, which has been a standard litmus test to benchmark anomaly detection methods for nearly three decades. Our extensive study will facilitate choosing appropriate anomaly detection methods in industrial applications.
翻訳日:2023-03-13 15:01:20 公開日:2023-03-10
# 時間周波数予測モデルを用いた分布保存源分離

Distribution Preserving Source Separation With Time Frequency Predictive Models ( http://arxiv.org/abs/2303.05896v1 )

ライセンス: Link先を確認
Pedro J. Villasana T., Janusz Klejsa, Lars Villemoes and Per Hedelin(参考訳) 本稿では,最先端手法の知覚的欠点に対処することを目的とした分布保存源分離手法の例を示す。 提案手法は信号源の無条件生成モデルを用いる。 混合を実現する上で条件付き分布からの混合一貫性サンプリングにより再構成を行う。 分離した信号はそれぞれの音源分布に従い、分離結果を聴取テストで評価した場合に有利となる。

We provide an example of a distribution preserving source separation method, which aims at addressing perceptual shortcomings of state-of-the-art methods. Our approach uses unconditioned generative models of signal sources. Reconstruction is achieved by means of mix-consistent sampling from a distribution conditioned on a realization of a mix. The separated signals follow their respective source distributions, which provides an advantage when separation results are evaluated in a listening test.
翻訳日:2023-03-13 15:01:15 公開日:2023-03-10
# 射影型テンソル分解を用いた量子位相推定の代替的定式化

An Alternative Formulation of the Quantum Phase Estimation Using Projection-Based Tensor Decompositions ( http://arxiv.org/abs/2303.05894v1 )

ライセンス: Link先を確認
Marian Stengl(参考訳) 本稿では,はじめのハダマールゲートを量子フーリエ変換に置き換えた量子位相推定の代替案を提案する。 この新しい回路は、アンシラが$|0\rangle$で初期化されると元の回路と一致する。 射影に基づくテンソル分解と指数関数の閉形式表現の助けを借りて、この新しい手法は対応する対象ユニタリ作用素のハミルトニアンに結合した乗数として解釈できる。 この観測に基づいて再帰分解が導出される。

In this paper an alternative version of the quantum phase estimation is proposed, in which the Hadamard gates at the beginning are substituted by a quantum Fourier transform. This new circuit coincides with the original one, when the ancilla is initialized with $|0\rangle$. With the help of a projection-based tensor decomposition and closed-form expressions of its exponential, this new method can be interpreted as a multiplier coupled to the Hamiltonian of the corresponding target unitary operator. Based on this observation a recursive decomposition is derived.
翻訳日:2023-03-13 15:01:09 公開日:2023-03-10
# 自動車知覚ソフトウェア開発: データ、アノテーション、生態系の課題に関する実証的研究

Automotive Perception Software Development: An Empirical Investigation into Data, Annotation, and Ecosystem Challenges ( http://arxiv.org/abs/2303.05947v1 )

ライセンス: Link先を確認
Hans-Martin Heyn, Khan Mohammad Habibullah, Eric Knauss, Jennifer Horkoff, Markus Borg, Alessia Knauss, Polly Jing Li(参考訳) 機械学習アルゴリズムを含むソフトウェアは、例えば運転自動化システムにおいて、自動車の知覚に不可欠な部分である。 このようなソフトウェアの開発、特に機械学習コンポーネントのトレーニングと検証には、大きな注釈付きデータセットが必要である。 このようなデータ集約型自動車用ソフトウェアコンポーネントの開発のために、データとアノテーションサービスの業界が出現した。 データやアノテーションの特定には、OEM(Original Equipment Manufacturers)とそのソフトウェアコンポーネント、データ、アノテーションのサプライヤーとのコラボレーションに挑戦する必要がある。 本稿では,スウェーデンの自動車産業において,データとアノテーションの明確な仕様に到達できない理由について考察する。 インタビュー研究の結果、データ品質の面における効果的な指標の欠如、作業方法の曖昧さ、アノテーションの品質の定義の曖昧さ、ビジネスエコシステムの欠如が仕様の導出の難しさの原因であることが示された。 我々は、仕様策定時の課題を軽減するためのレコメンデーションのリストを提供し、これらの課題を克服する将来の研究機会を提案する。 我々の研究は、複雑なソフトウェアシステム、特に自動運転のような高度なアプリケーションに適用される機械学習のアカウンタビリティに関する現在進行中の研究に貢献する。

Software that contains machine learning algorithms is an integral part of automotive perception, for example, in driving automation systems. The development of such software, specifically the training and validation of the machine learning components, require large annotated datasets. An industry of data and annotation services has emerged to serve the development of such data-intensive automotive software components. Wide-spread difficulties to specify data and annotation needs challenge collaborations between OEMs (Original Equipment Manufacturers) and their suppliers of software components, data, and annotations. This paper investigates the reasons for these difficulties for practitioners in the Swedish automotive industry to arrive at clear specifications for data and annotations. The results from an interview study show that a lack of effective metrics for data quality aspects, ambiguities in the way of working, unclear definitions of annotation quality, and deficits in the business ecosystems are causes for the difficulty in deriving the specifications. We provide a list of recommendations that can mitigate challenges when deriving specifications and we propose future research opportunities to overcome these challenges. Our work contributes towards the on-going research on accountability of machine learning as applied to complex software systems, especially for high-stake applications such as automated driving.
翻訳日:2023-03-13 14:55:05 公開日:2023-03-10
# acr:任意の両手再建のための注意協調型レグレッサ

ACR: Attention Collaboration-based Regressor for Arbitrary Two-Hand Reconstruction ( http://arxiv.org/abs/2303.05938v1 )

ライセンス: Link先を確認
Zhengdi Yu, Shaoli Huang, Chen Fang, Toby P. Breckon, Jue Wang(参考訳) 単眼のRGB画像から両手を再構成することは、頻繁に閉塞し、相互に混乱するため困難である。 既存の手法では、主に2つの相互作用する手をエンコードするために絡み合った表現を学習する。 本稿では,ACR(Attention Collaboration-based Regressor)を提案する。 これを実現するために、acrは特徴抽出のために中心と部分に基づく注意を活用し、手と部品間の相互依存性を明示的に緩和する。 しかし、相互依存の低減は、相互作用する手の再構築に関する相互推論を弱めつつ、入力制約を解放するのに役立つ。 したがって、中心的注意に基づいて、acrは、相互作用する手をよりよく扱うクロスハンド事前学習も行う。 本手法は,種々の手指再建データセットを用いて評価する。 本手法は、interhand2.6mデータセットにおける最も優れたインタラクションハンドアプローチを著しく上回り、freihandデータセット上の最先端のシングルハンドメソッドと同等の性能が得られる。 in-the-wild および hand-object interaction dataset および web images/videos のより定性的な結果が,任意の手によるリコンストラクションに対するアプローチの有効性をさらに示している。 私たちのコードはhttps://github.com/zhengdiyu/arbitrary-hands-3d-restructionで利用可能です。

Reconstructing two hands from monocular RGB images is challenging due to frequent occlusion and mutual confusion. Existing methods mainly learn an entangled representation to encode two interacting hands, which are incredibly fragile to impaired interaction, such as truncated hands, separate hands, or external occlusion. This paper presents ACR (Attention Collaboration-based Regressor), which makes the first attempt to reconstruct hands in arbitrary scenarios. To achieve this, ACR explicitly mitigates interdependencies between hands and between parts by leveraging center and part-based attention for feature extraction. However, reducing interdependence helps release the input constraint while weakening the mutual reasoning about reconstructing the interacting hands. Thus, based on center attention, ACR also learns cross-hand prior that handle the interacting hands better. We evaluate our method on various types of hand reconstruction datasets. Our method significantly outperforms the best interacting-hand approaches on the InterHand2.6M dataset while yielding comparable performance with the state-of-the-art single-hand methods on the FreiHand dataset. More qualitative results on in-the-wild and hand-object interaction datasets and web images/videos further demonstrate the effectiveness of our approach for arbitrary hand reconstruction. Our code is available at https://github.com/ZhengdiYu/Arbitrary-Hands-3D-Reconstruction.
翻訳日:2023-03-13 14:54:43 公開日:2023-03-10
# 構造多面体画像:架橋ニューラルビュー合成と3次元再構成

Structural Multiplane Image: Bridging Neural View Synthesis and 3D Reconstruction ( http://arxiv.org/abs/2303.05937v1 )

ライセンス: Link先を確認
Mingfang Zhang, Jinglu Wang, Xiao Li, Yifei Huang, Yoichi Sato, Yan Lu(参考訳) 前面並列RGBA層を含む多面体画像(MPI)は、スパース入力からのビュー合成に効率的かつ効率的な表現である。 しかし、その固定構造は特に斜めの角度で撮影された表面において性能を制限している。 平面構造が3次元シーンを簡潔に近似する構造的MPI(S-MPI)を導入する。 RGBAコンテキストを幾何学的に忠実な構造とすることで、S-MPIは直接、合成と3D再構成を橋渡しする。 MPIの重要な限界、すなわち傾斜した表面からの離散化アーティファクトや冗長な層の乱用を克服するだけでなく、平面的な3D再構成も得る。 S-MPIを適用するという直感と要求にもかかわらず、RGBA層と平面ポーズの両方の高忠実度近似、多視点整合性、非平面領域モデリング、交差平面による効率的なレンダリングといった大きな課題が導入されている。 そこで本研究では,分割モデルに基づくトランスフォーマーベースネットワークを提案する。 コンパクトで表現力のあるS-MPI層を、対応するマスク、ポーズ、RGBAコンテキストで予測する。 非平面領域は、我々の統一フレームワークの特別なケースとして包括的に扱われる。 マルチビュー一貫性は、完全な3dシーンをカバーするプレーンレベルの機能をアラインされた座標でエンコードするグローバルプロキシ埋め込みを共有することで保証される。 集中的な実験により,従来のmpiベースのビュー合成法と平面再構成法を上回った。

The Multiplane Image (MPI), containing a set of fronto-parallel RGBA layers, is an effective and efficient representation for view synthesis from sparse inputs. Yet, its fixed structure limits the performance, especially for surfaces imaged at oblique angles. We introduce the Structural MPI (S-MPI), where the plane structure approximates 3D scenes concisely. Conveying RGBA contexts with geometrically-faithful structures, the S-MPI directly bridges view synthesis and 3D reconstruction. It can not only overcome the critical limitations of MPI, i.e., discretization artifacts from sloped surfaces and abuse of redundant layers, and can also acquire planar 3D reconstruction. Despite the intuition and demand of applying S-MPI, great challenges are introduced, e.g., high-fidelity approximation for both RGBA layers and plane poses, multi-view consistency, non-planar regions modeling, and efficient rendering with intersected planes. Accordingly, we propose a transformer-based network based on a segmentation model. It predicts compact and expressive S-MPI layers with their corresponding masks, poses, and RGBA contexts. Non-planar regions are inclusively handled as a special case in our unified framework. Multi-view consistency is ensured by sharing global proxy embeddings, which encode plane-level features covering the complete 3D scenes with aligned coordinates. Intensive experiments show that our method outperforms both previous state-of-the-art MPI-based view synthesis methods and planar reconstruction methods.
翻訳日:2023-03-13 14:54:19 公開日:2023-03-10
# 量子確率熱力学:位相空間における半古典理論

Quantum Stochastic Thermodynamics: a Semiclassical Theory in Phase Space ( http://arxiv.org/abs/2303.05935v1 )

ライセンス: Link先を確認
Zhaoyu Fei(参考訳) 量子多体系の形式論は位相空間における半古典的処理を通じて提案され、量子統計学を組み込んだ確率的熱力学が確立される。 具体的には、メソスコピックレベルの力学として確率的フォッカー・プランク方程式を用い、ノイズ項は系の有限N効果を考慮し、正準系の準平衡分布をもたらす。 位相空間分布の軌跡に基づいて確率的熱力学量を定義する。 エネルギーの保存則、H理論、揺らぎ定理も得られる。 我々の研究は、2点測定スキームに依存しない量子確率熱力学の代替形式を定めている。 また, 位相空間分布の実際的なサンプリングにより, フォーマリズムを実験的に検証できることを期待する。

A formalism for quantum many-body systems is proposed through semiclassical treatment in phase space, establishing a stochastic thermodynamics incorporating quantum statistics. Specifically, we utilize a stochastic Fokker-Planck equation as the dynamics at the mesoscopic level, where a noise term accounts for the finite-N effects of the system and leads to a quasi-equilibrium distribution in a canonical system. We define the stochastic thermodynamic quantities based on a trajectory of phase-space distribution. The conservation law of energy, H-theorem and fluctuation theorems are also obtained. Our work set an alternative formalism of quantum stochastic thermodynamics that is independent of the two-point measurement scheme. Also, we expect that our formalism can be experimentally verified through practical sampling of the phase-space distribution.
翻訳日:2023-03-13 14:53:56 公開日:2023-03-10
# Threshold Self-Tuning and Cross-Domain Mixupによるオープンセットドメイン適応の強化

Boosting Open-Set Domain Adaptation with Threshold Self-Tuning and Cross-Domain Mixup ( http://arxiv.org/abs/2303.05933v1 )

ライセンス: Link先を確認
Xinghong Liu, Yi Zhou, Tao Zhou, Jie Qin, Shengcai Liao(参考訳) オープンセットドメイン適応(OSDA)は、ソースとターゲットドメインが共有する共通クラスに属するターゲットサンプルを認識するだけでなく、未知のクラスサンプルを認識することを目的としている。 既存のOSDAメソッドは2つの障害に悩まされている。 まず、一般的なクラスと未知のクラスを分離するほとんどのosdaアプローチには、ハイパーパラメータ$threshold$を手動でチューニングする退屈なプロセスが必要である。 対象領域データがラベルされていない場合、適切なしきい値を決定するのは難しい。 第二に、ほとんどのOSDAメソッドは、共通/未知のクラスを区別するためにモデルによって予測される信頼値のみに依存する。 特に対象ドメインの大部分が未知のクラスで構成されている場合、パフォーマンスは満足しない。 我々の実験は、エントロピー、一貫性、信頼性を組み合わせることが、一般的なサンプルと未知のサンプルを区別するより信頼性の高い方法であることを示した。 本稿では,2つの欠点を克服するために,新しいしきい値の自己チューニングとクロスドメイン・ミックスアップ(TSCM)手法を設計する。 TSCMは、経験的ハイパーパラメータを手動で設定するのではなく、ラベルのないターゲットサンプルを使用して、適切なしきい値を自動的に調整することができる。 提案手法は,信頼度のみではなく,複数の基準を考慮し,対象ドメイン内の共通クラスと未知クラスを分離するために,それ自体が生成するしきい値を使用する。 さらに,osdaシナリオ用に設計されたクロスドメインミックスアップ手法を導入し,より連続的な潜在空間でドメイン不変な特徴を学習する。 総合的な実験により,本手法は様々なベンチマークにおいて,様々な最先端技術と比較して,一貫して優れた性能を達成できることを示した。

Open-set domain adaptation (OSDA) aims to not only recognize target samples belonging to common classes shared by source and target domains but also perceive unknown class samples. Existing OSDA methods suffer from two obstacles. First, a tedious process of manually tuning a hyperparameter $threshold$ is required for most OSDA approaches to separate common and unknown classes. It is difficult to determine a proper threshold when the target domain data is unlabeled. Second, most OSDA methods only rely on confidence values predicted by models to distinguish common/unknown classes. The performance is not satisfied, especially when the majority of the target domain consists of unknown classes. Our experiments demonstrate that combining entropy, consistency, and confidence is a more reliable way of distinguishing common and unknown samples. In this paper, we design a novel threshold self-tuning and cross-domain mixup (TSCM) method to overcome the two drawbacks. TSCM can automatically tune a proper threshold utilizing unlabeled target samples rather than manually setting an empirical hyperparameter. Our method considers multiple criteria instead of only the confidence and uses the threshold generated by itself to separate common and unknown classes in the target domain. Furthermore, we introduce a cross-domain mixup method designed for OSDA scenarios to learn domain-invariant features in a more continuous latent space. Comprehensive experiments illustrate that our method consistently achieves superior performance on different benchmarks compared with various state-of-the-arts.
翻訳日:2023-03-13 14:53:44 公開日:2023-03-10
# Marginaliaと機械学習: Marginalia Collectionsのための手書きテキスト認識

Marginalia and machine learning: Handwritten text recognition for Marginalia Collections ( http://arxiv.org/abs/2303.05929v1 )

ライセンス: Link先を確認
Adam Axelsson, Liang Cheng, Jonas Frankem\"olle and Ekta Vats(参考訳) 歴史的文書コレクションのデジタル化の必要性が高まり、自動手書きテキスト認識(htr)のためのコンピュータ化された画像処理方法の設計に強い関心が寄せられた。 手書きテキストは、異なる書体スタイル、言語、スクリプトのために高い可変性を持っている。 高精度で堅牢なHTRシステムのトレーニングでは、十分な量の注釈付きマルチライターテキストが利用できないため、データ効率のよいアプローチが求められている。 進行中のプロジェクトである‘marginalia and machine learning’のケーススタディでは,手書き辺縁文の自動検出と認識,すなわちマージンで書かれたテキストや手書きメモの認識に焦点を当てている。 より高速なr-cnnネットワークは辺縁検出に、 attentionhtrは単語認識に使用される。 データは、ウプサラ大学図書館で発見された初期の書籍コレクション(印刷)から来ている。 ソースコードと事前訓練されたモデルはhttps://github.com/ektavats/Project-Marginalia.comで入手できる。

The pressing need for digitization of historical document collections has led to a strong interest in designing computerised image processing methods for automatic handwritten text recognition (HTR). Handwritten text possesses high variability due to different writing styles, languages and scripts. Training an accurate and robust HTR system calls for data-efficient approaches due to the unavailability of sufficient amounts of annotated multi-writer text. A case study on an ongoing project ``Marginalia and Machine Learning" is presented here that focuses on automatic detection and recognition of handwritten marginalia texts i.e., text written in margins or handwritten notes. Faster R-CNN network is used for detection of marginalia and AttentionHTR is used for word recognition. The data comes from early book collections (printed) found in the Uppsala University Library, with handwritten marginalia texts. Source code and pretrained models are available at https://github.com/ektavats/Project-Marginalia.
翻訳日:2023-03-13 14:53:18 公開日:2023-03-10
# 生成モデルを用いた摩擦係数の推定

Estimating friction coefficient using generative modelling ( http://arxiv.org/abs/2303.05927v1 )

ライセンス: Link先を確認
Mohammad Otoofi, William J.B. Midgley, Leo Laine, Henderson Leon, Laura Justham, James Fleming(参考訳) 動的モデルを用いてリアルタイムにタイヤ・ロード摩擦を測定することは一般的である。 あるいは、予測的アプローチは、その影響する環境要因を特定することによって、タイヤ・ロード摩擦を推定する。 本研究は,視覚知覚学習タスクとしての摩擦推定の問題を定式化することを目的としている。 また, 抽出した特徴を用いて摩擦力を予測することにより, 表面特性の検出に分割した。 本研究は, 意味的セグメンテーションモデルの潜在空間からの回帰として, 摩擦推定問題を初めて定式化したものである。 予備的な結果は、このアプローチが摩擦力を推定できることを示している。

It is common to utilise dynamic models to measure the tyre-road friction in real-time. Alternatively, predictive approaches estimate the tyre-road friction by identifying the environmental factors affecting it. This work aims to formulate the problem of friction estimation as a visual perceptual learning task. The problem is broken down into detecting surface characteristics by applying semantic segmentation and using the extracted features to predict the frictional force. This work for the first time formulates the friction estimation problem as a regression from the latent space of a semantic segmentation model. The preliminary results indicate that this approach can estimate frictional force.
翻訳日:2023-03-13 14:53:00 公開日:2023-03-10
# gecco:幾何条件点拡散モデル

GECCO: Geometrically-Conditioned Point Diffusion Models ( http://arxiv.org/abs/2303.05916v1 )

ライセンス: Link先を確認
Micha{\l} J. Tyszkiewicz, Pascal Fua, Eduard Trulls(参考訳) Dall-E 2やStable Diffusionのようなテキストで条件付き画像を生成する拡散モデルは、最近コンピュータビジョンのコミュニティをはるかに超えている。 ここでは,無条件および条件条件にともなう点雲生成に関する関連する問題に取り組む。 後者については,点雲にスパース画像特徴を投影し,各点に個別に付加し,その分割過程の各ステップにおいて,新たな幾何学的動機づけ条件付けスキームを導入する。 このアプローチは幾何学的整合性を改善し、非構造的でグローバルな潜在符号に依存する現在の方法よりも忠実性が高い。 さらに,最近の連続時間拡散スキームの適用方法を示す。 本手法は, より高速で, 軽量で, 抽出可能な可能性を提供しつつ, 合成データに対する条件付きおよび無条件の実験を行う。 また、屋内の多様なシーンにも拡大可能である。

Diffusion models generating images conditionally on text, such as Dall-E 2 and Stable Diffusion, have recently made a splash far beyond the computer vision community. Here, we tackle the related problem of generating point clouds, both unconditionally, and conditionally with images. For the latter, we introduce a novel geometrically-motivated conditioning scheme based on projecting sparse image features into the point cloud and attaching them to each individual point, at every step in the denoising process. This approach improves geometric consistency and yields greater fidelity than current methods relying on unstructured, global latent codes. Additionally, we show how to apply recent continuous-time diffusion schemes. Our method performs on par or above the state of art on conditional and unconditional experiments on synthetic data, while being faster, lighter, and delivering tractable likelihoods. We show it can also scale to diverse indoors scenes.
翻訳日:2023-03-13 14:52:19 公開日:2023-03-10
# 言語モデルのプレフィックスチューニングによるオープンエンド医療視覚質問応答

Open-Ended Medical Visual Question Answering Through Prefix Tuning of Language Models ( http://arxiv.org/abs/2303.05977v1 )

ライセンス: Link先を確認
Tom van Sonsbeek, Mohammad Mahdi Derakhshani, Ivona Najdenkoska, Cees G. M. Snoek and Marcel Worring(参考訳) VQA(Medicical Visual Question Answering)は、より迅速かつ正確な診断と治療の決定につながるため、重要な課題である。 既存のほとんどの手法では、結果を事前に定義されたクローズドな回答に制限するマルチクラス分類問題としてアプローチしている。 我々は,VQAのオープン化に重点を置いており,近年の言語モデルの発展に動機付けられている。 事前学習された言語モデルを活用して,小型でドメイン固有な医療データセットに適した新しい手法を提案する。 医療画像を言語モデルに適切に伝達するために,抽出した視覚的特徴を学習可能なトークンの集合にマッピングするネットワークを開発する。 そして、これらの学習可能なトークンが言語モデルを直接刺激する。 本稿では,近年のパラメータ効率の高い言語モデルの微調整戦略について考察する。 我々は、Slake、OVQA、PathVQAといった主要な医療用VQAベンチマークに対するアプローチを評価した。 その結果,本手法は様々な学習環境における既存手法よりも優れ,計算効率も優れていた。

Medical Visual Question Answering (VQA) is an important challenge, as it would lead to faster and more accurate diagnoses and treatment decisions. Most existing methods approach it as a multi-class classification problem, which restricts the outcome to a predefined closed-set of curated answers. We focus on open-ended VQA and motivated by the recent advances in language models consider it as a generative task. Leveraging pre-trained language models, we introduce a novel method particularly suited for small, domain-specific, medical datasets. To properly communicate the medical images to the language model, we develop a network that maps the extracted visual features to a set of learnable tokens. Then, alongside the question, these learnable tokens directly prompt the language model. We explore recent parameter-efficient fine-tuning strategies for language models, which allow for resource- and data-efficient fine-tuning. We evaluate our approach on the prime medical VQA benchmarks, namely, Slake, OVQA and PathVQA. The results demonstrate that our approach outperforms existing methods across various training settings while also being computationally efficient.
翻訳日:2023-03-13 14:45:25 公開日:2023-03-10
# 動的ベイズネットワークとニューラルネットワークを組み合わせた患者に対するcovid-19重症度の進化の分類

Classifying the evolution of COVID-19 severity on patients with combined dynamic Bayesian networks and neural networks ( http://arxiv.org/abs/2303.05972v1 )

ライセンス: Link先を確認
David Quesada, Pedro Larra\~naga, Concha Bielza(参考訳) 何らかの病気に苦しむ病院に来院する患者に直面すると、私たちが直面する主な問題は、その患者が近い将来集中治療を必要としているかどうかを評価することです。 この集中治療は、貴重な資源と不足資源の割り当てを必要とし、患者の病気の重症度を事前に知ることは、その治療と資源の組織化の両方を改善することができる。 この問題は、集中治療室に入ったり、亡くなったりした場合に、患者を重要と認定する第6の流行波からスペインで感染した患者のデータセットで説明します。 次に,動的なベイズネットワークの利用と,今後40時間にわたって患者の生命徴候と血液分析結果の予測,ニューラルネットを用いて,その期間における患者の重症度を評価する。 以上の結果から,DBNによる患者の現在の状態から将来の値への変換は,分類器による直接適用よりも精度とg平均スコアが向上することが示唆された。

When we face patients arriving to a hospital suffering from the effects of some illness, one of the main problems we can encounter is evaluating whether or not said patients are going to require intensive care in the near future. This intensive care requires allotting valuable and scarce resources, and knowing beforehand the severity of a patients illness can improve both its treatment and the organization of resources. We illustrate this issue in a dataset consistent of Spanish COVID-19 patients from the sixth epidemic wave where we label patients as critical when they either had to enter the intensive care unit or passed away. We then combine the use of dynamic Bayesian networks, to forecast the vital signs and the blood analysis results of patients over the next 40 hours, and neural networks, to evaluate the severity of a patients disease in that interval of time. Our empirical results show that the transposition of the current state of a patient to future values with the DBN for its subsequent use in classification obtains better the accuracy and g-mean score than a direct application with a classifier.
翻訳日:2023-03-13 14:45:07 公開日:2023-03-10
# 多視点3次元知覚のための長期長期核融合の探索

Exploring Recurrent Long-term Temporal Fusion for Multi-view 3D Perception ( http://arxiv.org/abs/2303.05970v1 )

ライセンス: Link先を確認
Chunrui Han, Jianjian Sun, Zheng Ge, Jinrong Yang, Runpei Dong, Hongyu Zhou, Weixin Mao, Yuang Peng, Xiangyu Zhang(参考訳) 長期間の時間的融合は、カメラベースのバードズ・ズ・アイ・ビュー(bev)3d知覚において重要な技術であるがしばしば見過ごされている。 既存の方法はほとんどが並列である。 並列融合は長期的な情報から恩恵を受けるが、融合ウィンドウのサイズが大きくなるにつれて計算とメモリのオーバーヘッドが増大する。 あるいは、BEVFormerはリカレントフュージョンパイプラインを採用して、履歴情報を効率的に統合できるが、より長い時間枠の恩恵を受けられないようにする。 本稿では,LSS法に基づいて構築された,恥ずかしいほど単純な長期再帰型核融合戦略について検討し,両者のメリット,すなわち豊かな長期情報と効率的な核融合パイプラインを享受できることを見出した。 実用的なシナリオにおいて、時々欠落するフレームに対するモデルの堅牢性を改善するために、時間的埋め込みモジュールがさらに提案されている。 このシンプルだが効果的に融合するパイプラインを VideoBEV と呼ぶ。 nuScenesベンチマークの実験結果によると、VideoBEVは、オブジェクト検出(55.4% mAPと62.9% NDS)、セグメンテーション(48.6%の車両mIoU)、トラッキング(54.8% AMOTA)、モーション予測(0.80m minADEと0.463 EPA)など、様々なカメラベースの3D知覚タスクにおいて、主要なパフォーマンスを得る。 コードは利用可能だ。

Long-term temporal fusion is a crucial but often overlooked technique in camera-based Bird's-Eye-View (BEV) 3D perception. Existing methods are mostly in a parallel manner. While parallel fusion can benefit from long-term information, it suffers from increasing computational and memory overheads as the fusion window size grows. Alternatively, BEVFormer adopts a recurrent fusion pipeline so that history information can be efficiently integrated, yet it fails to benefit from longer temporal frames. In this paper, we explore an embarrassingly simple long-term recurrent fusion strategy built upon the LSS-based methods and find it already able to enjoy the merits from both sides, i.e., rich long-term information and efficient fusion pipeline. A temporal embedding module is further proposed to improve the model's robustness against occasionally missed frames in practical scenarios. We name this simple but effective fusing pipeline VideoBEV. Experimental results on the nuScenes benchmark show that VideoBEV obtains leading performance on various camera-based 3D perception tasks, including object detection (55.4% mAP and 62.9% NDS), segmentation (48.6% vehicle mIoU), tracking (54.8% AMOTA), and motion prediction (0.80m minADE and 0.463 EPA). Code will be available.
翻訳日:2023-03-13 14:44:51 公開日:2023-03-10
# 符号付き距離関数を用いた医用画像分割のためのスコアベース生成モデル

Score-Based Generative Models for Medical Image Segmentation using Signed Distance Functions ( http://arxiv.org/abs/2303.05966v1 )

ライセンス: Link先を確認
Lea Bogensperger, Dominik Narnhofer, Filip Ilic, Thomas Pock(参考訳) 医用画像のセグメンテーションは、画像の関心領域を正確に識別し、分離する能力に依存する重要なタスクである。 これにより、生成的アプローチは、それぞれの医療画像に依存するセグメンテーションマスクの統計特性を捉えることができる。 本研究では,符号付き距離関数を利用してセグメント化マスクの暗黙的かつ滑らかな分布を表現する条件付きスコアに基づく生成モデリングフレームワークを提案する。 セグメンテーションマスクの条件分布のスコア関数は、正確なセグメンテーションマスクを生成するのに効果的に使用できる条件記述過程において学習される。 さらに不確実性マップを生成でき、さらなる解析を助け、予測ロバスト性を高めることができる。 提案手法の核・腺分節データセットにおける競合性能を質的,定量的に検証し,医用画像の分節への応用の可能性を明らかにする。

Medical image segmentation is a crucial task that relies on the ability to accurately identify and isolate regions of interest in images. Thereby, generative approaches allow to capture the statistical properties of segmentation masks that are dependent on the respective medical images. In this work we propose a conditional score-based generative modeling framework that leverages the signed distance function to represent an implicit and smoother distribution of segmentation masks. The score function of the conditional distribution of segmentation masks is learned in a conditional denoising process, which can be effectively used to generate accurate segmentation masks. Moreover, uncertainty maps can be generated, which can aid in further analysis and thus enhance the predictive robustness. We qualitatively and quantitatively illustrate competitive performance of the proposed method on a public nuclei and gland segmentation data set, highlighting its potential utility in medical image segmentation applications.
翻訳日:2023-03-13 14:44:23 公開日:2023-03-10
# 完全損失を用いた雑音学習ラベル付きRNN-Tモデルのロバスト知識蒸留

Robust Knowledge Distillation from RNN-T Models With Noisy Training Labels Using Full-Sum Loss ( http://arxiv.org/abs/2303.05958v1 )

ライセンス: Link先を確認
Mohammad Zeineldeen, Kartik Audhkhasi, Murali Karthick Baskar, Bhuvana Ramabhadran(参考訳) 本研究は、知識蒸留(KD)を研究し、リカレントニューラルネットワークトランスデューサ(RNN-T)モデルに対する制約に対処する。 ハード蒸留では、教師モデルは大量の未学習音声を転写して学生モデルを訓練する。 ソフト蒸留は、教師モデルの出力ロジットを蒸留する別の一般的なKD法である。 RNN-Tアライメントの性質から, 後部分布が異なるRNN-Tアーキテクチャ間のソフト蒸留は困難である。 さらに,単語誤り率(WER)が高い教師は,KDの有効性を低下させる。 本研究は,これまで研究されていない質の異なるasr教師の知識を効果的に蒸留する方法である。 本稿では,RNN-Tモデル,特に悪い教師に対して,系列レベルのKD,フルサム蒸留が他の蒸留方法よりも優れていることを示す。 また,教師の系列識別知識を蒸留し,WERのさらなる改善につながるフルサム蒸留の変種を提案する。 我々は、公開データセットであるSpeechStewとLibriSpeech、および社内生産データについて実験を行う。

This work studies knowledge distillation (KD) and addresses its constraints for recurrent neural network transducer (RNN-T) models. In hard distillation, a teacher model transcribes large amounts of unlabelled speech to train a student model. Soft distillation is another popular KD method that distills the output logits of the teacher model. Due to the nature of RNN-T alignments, applying soft distillation between RNN-T architectures having different posterior distributions is challenging. In addition, bad teachers having high word-error-rate (WER) reduce the efficacy of KD. We investigate how to effectively distill knowledge from variable quality ASR teachers, which has not been studied before to the best of our knowledge. We show that a sequence-level KD, full-sum distillation, outperforms other distillation methods for RNN-T models, especially for bad teachers. We also propose a variant of full-sum distillation that distills the sequence discriminative knowledge of the teacher leading to further improvement in WER. We conduct experiments on public datasets namely SpeechStew and LibriSpeech, and on in-house production data.
翻訳日:2023-03-13 14:44:06 公開日:2023-03-10
# 光フロー型深層ニューラルネットワークを用いたアスファルトコンクリート試料のき裂進展自動測定

Automated crack propagation measurement on asphalt concrete specimens using an optical flow-based deep neural network ( http://arxiv.org/abs/2303.05957v1 )

ライセンス: Link先を確認
Zehui Zhu and Imad L. Al-Qadi(参考訳) 本稿では, アスファルトコンクリート(ac)試料のひび割れ伝播を計測する深層ニューラルネットワーク, crackpropnetを提案する。 クラック試験中に収集した画像を用いてき裂伝播を測定するための正確で柔軟、効率的、低コストのソリューションを提供する。 crackpropnetは従来のディープラーニングネットワークとは大きく異なり、参照画像と変形画像のさまざまな場所の特徴をマッチングすることで、変位フィールドの不連続性を学習する。 教師あり訓練のために交流の多様なき裂挙動を表す画像ライブラリを開発した。 CrackPropNetは、テストデータセット上で、最適なデータセットスケールF-1の0.755と最適な画像スケールF-1の0.781を毎秒26フレームで達成した。 実験により、低レベルから中レベルのガウスノイズはクラックプロップネットの測定精度に限られた影響を示した。 さらに,本モデルは,基本的に異なる画像に対する有望な一般化を示した。 き裂測定技術として、ACき裂試験において複雑なき裂パターンを高精度かつ効率的に検出できる。 ひび割れ現象の特徴付け、交流き裂ポテンシャルの評価、試験プロトコルの検証、理論モデルの検証に応用できる。

This article proposes a deep neural network, namely CrackPropNet, to measure crack propagation on asphalt concrete (AC) specimens. It offers an accurate, flexible, efficient, and low-cost solution for crack propagation measurement using images collected during cracking tests. CrackPropNet significantly differs from traditional deep learning networks, as it involves learning to locate displacement field discontinuities by matching features at various locations in the reference and deformed images. An image library representing the diversified cracking behavior of AC was developed for supervised training. CrackPropNet achieved an optimal dataset scale F-1 of 0.755 and optimal image scale F-1 of 0.781 on the testing dataset at a running speed of 26 frame-per-second. Experiments demonstrated that low to medium-level Gaussian noises had a limited impact on the measurement accuracy of CrackPropNet. Moreover, the model showed promising generalization on fundamentally different images. As a crack measurement technique, the CrackPropNet can detect complex crack patterns accurately and efficiently in AC cracking tests. It can be applied to characterize the cracking phenomenon, evaluate AC cracking potential, validate test protocols, and verify theoretical models.
翻訳日:2023-03-13 14:43:47 公開日:2023-03-10
# $\mathcal{pt}$-symmetric, non-hermitian quantum many-body physics --a methodological perspective

$\mathcal{PT}$-symmetric, non-Hermitian quantum many-body physics -- a methodological perspective ( http://arxiv.org/abs/2303.05956v1 )

ライセンス: Link先を確認
Volker Meden, Lukas Grunwald, Dante M. Kennes(参考訳) 我々は、パリティタイム($\mathcal{pt}$-)対称、非エルミート量子多体系を理論的に扱う方法について検討する。

We review the methodology to theoretically treat parity-time- ($\mathcal{PT}$-) symmetric, non-Hermitian quantum many-body systems... (For the full abstract see paper)
翻訳日:2023-03-13 14:43:30 公開日:2023-03-10
# 遠隔生理計測のためのニューロン構造モデリング

Neuron Structure Modeling for Generalizable Remote Physiological Measurement ( http://arxiv.org/abs/2303.05955v1 )

ライセンス: Link先を確認
Hao Lu, Zitong Yu, Xuesong Niu, Yingcong Chen(参考訳) リモート光胸腺撮影(rPPG)技術は近年注目されている。 顔ビデオから血液量パルス(BVP)を抽出し、健康モニタリングや感情分析などの多くのアプリケーションにアクセスできるようにする。 しかし,bvp信号は環境変化の影響を受けやすいため,既存の手法では未認識領域の一般化に苦慮している。 本稿では,rPPG測定タスクにおける領域シフト問題に系統的に対処する。 ドメインラベルは複雑な環境変化においてあいまいであるため,ほとんどの領域一般化手法はこの問題ではうまく機能しない。 そこで我々はNEuron STructure Modeling (NEST) と呼ばれるドメインラベルのない手法を提案する。 nestはトレーニング中に機能空間の範囲を最大化することで一般化能力を向上させ、推論中に最適化されていない機能アクティベーションの機会を減少させる。 さらに、NESTは複数のドメインにまたがるドメイン不変機能の強化と強化も可能である。 我々は,rppg計測タスクのための大規模ドメイン一般化プロトコルを作成し,ベンチマークを行う。 本手法は, クロスデータセットおよびイントラデータセット設定において, 最先端の手法よりも優れていることを示す。

Remote photoplethysmography (rPPG) technology has drawn increasing attention in recent years. It can extract Blood Volume Pulse (BVP) from facial videos, making many applications like health monitoring and emotional analysis more accessible. However, as the BVP signal is easily affected by environmental changes, existing methods struggle to generalize well for unseen domains. In this paper, we systematically address the domain shift problem in the rPPG measurement task. We show that most domain generalization methods do not work well in this problem, as domain labels are ambiguous in complicated environmental changes. In light of this, we propose a domain-label-free approach called NEuron STructure modeling (NEST). NEST improves the generalization capacity by maximizing the coverage of feature space during training, which reduces the chance for under-optimized feature activation during inference. Besides, NEST can also enrich and enhance domain invariant features across multi-domain. We create and benchmark a large-scale domain generalization protocol for the rPPG measurement task. Extensive experiments show that our approach outperforms the state-of-the-art methods on both cross-dataset and intra-dataset settings.
翻訳日:2023-03-13 14:43:24 公開日:2023-03-10
# 非局所的アンシャープ測定による量子ステアリングの活性化

Activating quantum steering with nonlocal unsharp measurements ( http://arxiv.org/abs/2303.05954v1 )

ライセンス: Link先を確認
Xin-Hong Han, Tian Qian, Shuo Wang, Ya Xiao and Yong-Jian Gu(参考訳) unsharp測定は、量子ステアリングの単元限界を破り、複数のオブザーバー間で量子ステアリング共有を可能にするための重要な科学的開発である。 しかし、現在は局所的な測定に限られている。 本稿では,非局所的アンシャープ測定を最適に構築し,線形ステアリングの不等式を最適に破る手法を提案する。 また,量子ステアリング共有における非局所的非シャープ測定の初使用について紹介する。 本研究は, 同一状態の複数コピーの同時測定を可能にする, 活発なアクティベーション戦略とは対照的に, 3ビットWerner状態のグローバルステアリング共有は非局所的アンシャープ測定によって柔軟に活性化されることを実証する。 また、測定強度が等強度で作られたときと異なる強度に変更された場合、活性化される操舵範囲を広くすることができる。 この範囲拡大現象をよりよく理解するために,次元減少による楕円体操舵の概念も導入する。 さらに、状態が混合しても、同様のアクティベーションイベントが持続することを確認した。 われわれのアクティベーションスキームの柔軟性、資源保存、実験の親和性は、将来量子情報処理に潜在的な応用をもたらす。

Unsharp measurement is a key scientific development for breaking the monogamy limit of quantum steering and enabling quantum steering sharing across multiple observers. However, it is currently restricted to local measurements. In this paper, we propose a method for constructing nonlocal unsharp measurements that are optimal and produce the best violation of the linear steering inequality. We also introduce the first use of nonlocal unsharp measurements in quantum steering sharing. We demonstrate that, in contrast to the laborious activation strategy of allowing joint measurements on multiple copies of the same state, the global steering sharing for the three-qubit Werner state may be flexibly activated via nonlocal unsharp measurements. And the steering range that is activated can be wider if the measurement strength is altered to a different strength than when it is made with equal strength. In order to better understand this range-widening phenomenon, we also introduce the notion of steering an ellipsoid through dimension reduction. Additionally, we confirm that even when the states are mixed, similar activation events persist. The flexibility, resource conservation, and experiment friendliness of our activation scheme have potential applications in quantum information processing in the future.
翻訳日:2023-03-13 14:43:09 公開日:2023-03-10
# マルチモーダル表現学習における潜在モダリティ構造理解と構成

Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning ( http://arxiv.org/abs/2303.05952v1 )

ライセンス: Link先を確認
Qian Jiang, Changyou Chen, Han Zhao, Liqun Chen, Qing Ping, Son Dinh Tran, Yi Xu, Belinda Zeng, Trishul Chilimbi(参考訳) コントラスト的損失は、複数のモダリティからの学習表現にますます利用されている。 極限において、対照的な損失の性質は、潜在空間において互いに正確に一致するモダリティを奨励する。 しかし、モダリティアライメントがダウンストリームタスクのパフォーマンスにどのように影響するかは未解決のままである。 本稿では,情報理論的な議論に基づいて,下流予測タスクにおいて,厳密なモダリティアライメントが一般に最適でないことを最初に証明する。 したがって、パフォーマンス向上の鍵は完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にあると我々は主張する。 この目的のために,潜在モダリティ構造を構築するための3つの一般的なアプローチを提案する。 特に私たちは 1) モダリティ内正規化のための深い特徴分離損失 2) モダリティ間正規化のためのブラウン橋の損失,及び 3) モダリティ内およびモダリティ間正規化における幾何的整合性損失。 クリップベースの2towerモデルとalbefベースのfusionモデルという2つの一般的なマルチモーダル表現学習フレームワークに関する広範な実験が行われている。 我々は,ゼロ/フェーショット画像分類,画像テキスト検索,視覚的質問応答,視覚的推論,視覚関連など,さまざまなタスクでモデルをテストする。 提案手法は既存の手法よりも一貫した改善を実現し,提案手法の有効性と一般化性を示した。

Contrastive loss has been increasingly used in learning representations from multiple modalities. In the limit, the nature of the contrastive loss encourages modalities to exactly match each other in the latent space. Yet it remains an open question how the modality alignment affects the downstream task performance. In this paper, based on an information-theoretic argument, we first prove that exact modality alignment is sub-optimal in general for downstream prediction tasks. Hence we advocate that the key of better performance lies in meaningful latent modality structures instead of perfect modality alignment. To this end, we propose three general approaches to construct latent modality structures. Specifically, we design 1) a deep feature separation loss for intra-modality regularization; 2) a Brownian-bridge loss for inter-modality regularization; and 3) a geometric consistency loss for both intra- and inter-modality regularization. Extensive experiments are conducted on two popular multi-modal representation learning frameworks: the CLIP-based two-tower model and the ALBEF-based fusion model. We test our model on a variety of tasks including zero/few-shot image classification, image-text retrieval, visual question answering, visual reasoning, and visual entailment. Our method achieves consistent improvements over existing methods, demonstrating the effectiveness and generalizability of our proposed approach on latent modality structure regularization.
翻訳日:2023-03-13 14:42:48 公開日:2023-03-10
# 動的Y-KD:連続インスタンスセグメンテーションへのハイブリッドアプローチ

Dynamic Y-KD: A Hybrid Approach to Continual Instance Segmentation ( http://arxiv.org/abs/2303.06015v1 )

ライセンス: Link先を確認
Mathieu Pag\'e-Fortin, Brahim Chaib-draa(参考訳) インスタンスセグメンテーションにおけるディープラーニング手法の成功にもかかわらず、これらのモデルは継続的な学習シナリオにおける破滅的な忘れに苦しむ。 本稿では,連続インスタンスセグメンテーションに対する我々の貢献が3倍になる。 まず,教師と学生のネットワーク間で共通の特徴抽出器を共有する知識蒸留戦略であるY-knowledge distillation(Y-KD)を提案する。 教師がY-KDの新しいデータで更新されるにつれて、新しいクラスに特化している新しいモジュールの可塑性が増大する。 第二に、我々のY-KDアプローチは動的アーキテクチャ手法でサポートされており、タスクごとに新しいモジュールを成長させ、それら全てをユニークなインスタンスセグメンテーションヘッドで推論するために使用します。 第三に、チェックポイント平均化を単純な方法として活用して、様々なクラスのパフォーマンス間のトレードオフを手動でバランスさせ、追加コストなしでモデルの振る舞いを制御することで、アプローチを完了します。 これらのコントリビューションは、動的Y-KDネットワークと呼ばれるモデルで統合されています。 本研究では,Pascal-VOCにおける複数ステップおよび複数ステップのシナリオについて広範な実験を行った。 例えば、最近の研究と比較すると、15-1では古いクラスで2.1% mAP、19-1では新しいクラスで7.6% mAP、そして15-5では全てのクラスで共同トレーニングによって得られたmAPの91.5%に達する。

Despite the success of deep learning methods on instance segmentation, these models still suffer from catastrophic forgetting in continual learning scenarios. In this paper, our contributions for continual instance segmentation are threefold. First, we propose the Y-knowledge distillation (Y-KD), a knowledge distillation strategy that shares a common feature extractor between the teacher and student networks. As the teacher is also updated with new data in Y-KD, the increased plasticity results in new modules that are specialized on new classes. Second, our Y-KD approach is supported by a dynamic architecture method that grows new modules for each task and uses all of them for inference with a unique instance segmentation head, which significantly reduces forgetting. Third, we complete our approach by leveraging checkpoint averaging as a simple method to manually balance the trade-off between the performance on the various sets of classes, thus increasing the control over the model's behavior without any additional cost. These contributions are united in our model that we name the Dynamic Y-KD network. We perform extensive experiments on several single-step and multi-steps scenarios on Pascal-VOC, and we show that our approach outperforms previous methods both on past and new classes. For instance, compared to recent work, our method obtains +2.1% mAP on old classes in 15-1, +7.6% mAP on new classes in 19-1 and reaches 91.5% of the mAP obtained by joint-training on all classes in 15-5.
翻訳日:2023-03-13 14:36:14 公開日:2023-03-10
# 直接観測しない太陽光の予測:実証分析

Forecasting Solar Irradiance without Direct Observation: An Empirical Analysis ( http://arxiv.org/abs/2303.06010v1 )

ライセンス: Link先を確認
Timothy Cargan, Dario Landa-Silva, Isaac Triguero(参考訳) 太陽光発電の利用が増加するにつれ、スムースなグリッドオペレーターには正確でタイムリーな予測器が不可欠となる。 太陽光/太陽光発電の予測には多くの方法が提案されている。 しかし、これらの手法の多くは時系列として問題を定式化し、興味のある場所の観測にほぼリアルタイムでアクセスして予測を生成する。 これには、リアルタイムデータストリームへのアクセスと、これらのメソッドをデプロイするための十分な履歴観察が必要である。 本稿では,従来の機械学習手法と最先端のディープラーニングを比較し,予測問題の定式化に有効な手法を網羅的に分析する。 英国全土に分布する20カ所のデータと市販の気象データを用いて,このデータにアクセスする必要のないシステムを構築することができることを示す。 気象観測と他の場所からの観測を活用すれば、新しい場所での太陽放射を正確に予測できるモデルを作成することができる。 我々は、気象データの衛星観測と地上観測(温度、圧力など)を比較する。 これにより、新たに設置された太陽光発電所と国内施設の両方の計画と最適化が、オンライン化の瞬間から容易になる。 さらに,複数のロケーションに対して単一のグローバルモデルをトレーニングすることで,より一貫性があり正確な結果が得られることを示す。

As the use of solar power increases, having accurate and timely forecasters will be essential for smooth grid operators. There are many proposed methods for forecasting solar irradiance / solar power production. However, many of these methods formulate the problem as a time-series, relying on near real-time access to observations at the location of interest to generate forecasts. This requires both access to a real-time stream of data and enough historical observations for these methods to be deployed. In this paper, we conduct a thorough analysis of effective ways to formulate the forecasting problem comparing classical machine learning approaches to state-of-the-art deep learning. Using data from 20 locations distributed throughout the UK and commercially available weather data, we show that it is possible to build systems that do not require access to this data. Leveraging weather observations and measurements from other locations we show it is possible to create models capable of accurately forecasting solar irradiance at new locations. We utilise compare both satellite and ground observations (e.g. temperature, pressure) of weather data. This could facilitate use planning and optimisation for both newly deployed solar farms and domestic installations from the moment they come online. Additionally, we show that training a single global model for multiple locations can produce a more robust model with more consistent and accurate results across locations.
翻訳日:2023-03-13 14:35:47 公開日:2023-03-10
# オンデマンド公共交通システムの持続可能性分析フレームワーク

Sustainability Analysis Framework for On-Demand Public Transit Systems ( http://arxiv.org/abs/2303.06007v1 )

ライセンス: Link先を確認
Nael Alsaleh and Bilal Farooq(参考訳) 固定ルートの公共交通をオンデマンド公共交通(ODT)に置き換える交通機関への関心が高まっている。 しかし、そのサービスがいつ、どこで効率的で持続可能かはまだ不明である。 この目的のために, 総合効率, 環境フットプリント, ソーシャルエクイティ・インクルージョンの観点から, ODTシステムの持続可能性を評価するための包括的枠組みを提供する。 提案されたフレームワークは、2017年からODTシステムが実装されているオンタリオ州イニスフィア町に適用することで説明されている。 需要が3.37人/km2/日以下である場合、クラウドソーシングのODTが最もコスト効率の良い交通システムであると結論付けることができる。 クラウドソースのODTにサージ価格を適用することで、ハイブリッドシステムは1.18から3.37人の乗客/km2/日の間で最もコスト効率の良いトランジットソリューションとなる。 民間車両の使用は3.37人/km2/日以下の全ての需要水準で公共交通機関を提供するよりも環境に優しい。 しかし、公共交通機関の電化と最適化された充電戦略により、年間GHG排出量を98%以上削減することができる。 さらに、交通システムは待ち時間と車内旅行時間に類似した株式分布を持っている。

There is an increased interest from transit agencies to replace fixed-route transit services with on-demand public transits (ODT). However, it is still unclear when and where such a service is efficient and sustainable. To this end, we provide a comprehensive framework for assessing the sustainability of ODT systems from the perspective of overall efficiency, environmental footprint, and social equity and inclusion. The proposed framework is illustrated by applying it to the Town of Innisfil, Ontario, where an ODT system has been implemented since 2017. It can be concluded that when there is adequate supply and no surge pricing, crowdsourced ODTs are the most cost-effective transit system when the demand is below 3.37 riders/km2/day. With surge pricing applied to crowdsourced ODTs, hybrid systems become the most cost-effective transit solution when demand ranges between 1.18 and 3.37 riders/km2/day. The use of private vehicles is more environmentally sustainable than providing public transit service at all demand levels below 3.37 riders/km2/day. However, the electrification of the public transit fleet along with optimized charging strategies can reduce total yearly GHG emissions by more than 98%. Furthermore, transit systems have similar equity distributions for waiting and in-vehicle travel times.
翻訳日:2023-03-13 14:35:28 公開日:2023-03-10
# 院内メタ情報は抽象放電生成に有用か?

Is In-hospital Meta-information Useful for Abstractive Discharge Summary Generation? ( http://arxiv.org/abs/2303.06002v1 )

ライセンス: Link先を確認
Kenichiro Ando, Mamoru Komachi, Takashi Okumura, Hiromasa Horiguchi, Yuji Matsumoto(参考訳) 患者の入院中、医師は患者の日々の観察を記録し、患者の退院時に「退院要領」と呼ばれる簡単な文書にまとめなければならない。 退院サマリーの自動生成は医師の負担を大幅に軽減し,近年,研究コミュニティで取り組まれている。 シーケンス・ツー・シーケンス・アーキテクチャを用いた放電サマリー生成のこれまでの研究は、入力のための患者ノートのみに重点を置いていた。 しかし、電気健康記録(EHR)は、有用なような豊富な構造化されたメタデータ(例えば、病院、医師、病気、滞在時間など)も持っている。 本稿では,要約作業における医療メタ情報の有効性について検討する。 EHRシステムから4種類のメタ情報を取得し,各メタ情報をシーケンス・ツー・シーケンス・モデルにエンコードする。 日本のEHRを用いて、メタ情報符号化モデルはROUGE-1を4.45ポイント、BERTScoreを3.77ポイント増加させた。 また,エンコードされたメタ情報は,出力の関連項の精度を向上させることを見出した。 その結果,医療メタ情報の利用のメリットが示された。

During the patient's hospitalization, the physician must record daily observations of the patient and summarize them into a brief document called "discharge summary" when the patient is discharged. Automated generation of discharge summary can greatly relieve the physicians' burden, and has been addressed recently in the research community. Most previous studies of discharge summary generation using the sequence-to-sequence architecture focus on only inpatient notes for input. However, electric health records (EHR) also have rich structured metadata (e.g., hospital, physician, disease, length of stay, etc.) that might be useful. This paper investigates the effectiveness of medical meta-information for summarization tasks. We obtain four types of meta-information from the EHR systems and encode each meta-information into a sequence-to-sequence model. Using Japanese EHRs, meta-information encoded models increased ROUGE-1 by up to 4.45 points and BERTScore by 3.77 points over the vanilla Longformer. Also, we found that the encoded meta-information improves the precisions of its related terms in the outputs. Our results showed the benefit of the use of medical meta-information.
翻訳日:2023-03-13 14:35:06 公開日:2023-03-10
# コンフリクト分類による意味的3次元ビルディングモデルの洗練のための可視化分析と深層学習の併用

Combining visibility analysis and deep learning for refinement of semantic 3D building models by conflict classification ( http://arxiv.org/abs/2303.05998v1 )

ライセンス: Link先を確認
Olaf Wysocki, Eleonora Grilli, Ludwig Hoegner, Uwe Stilla(参考訳) セマンティック3Dビルディングモデルは広く利用でき、多くのアプリケーションで利用されている。 このような3Dビルディングモデルは、リッチなセマンティクスを示すが、fa\c{c}adeの開口部はない。 したがって、密集したストリートレベル、地上の点雲を用いた精錬モデルのfa\c{c}adeは有望な戦略である。 本稿では,3次元モデルと窓とドアの特徴を融合した可視化分析とニューラルネットワークを組み合わせる手法を提案する。 この方法では、占有するボクセルは分類された点雲で融合され、ボクセルに意味を与える。 ボクセルはレーザー観測と3Dモデルの間の衝突を識別するためにも用いられる。 セマンティックボクセルとコンフリクトはベイズネットワークに組み合わされ、3Dモデルライブラリを用いて再構成されたfa\c{c}adeオープニングの分類とデライン化を行う。 影響のないビルディングセマンティクスは更新された建物を追加している間に保存され、それによってビルディングモデルをLoD3にアップグレードする。 さらに、ベイジアンネットワークの結果は点の分類精度を改善するために点雲に逆投影される。 我々は,自治体のLoD2リポジトリとオープンポイントクラウドデータセットであるTUM-MLS-2016とTUM-FA\c{C}ADEでテストを行った。 検証結果から,本手法はポイントクラウドセマンティックセグメンテーションの精度を向上し,fa\c{c}ade要素を持つ建物をアップグレードすることがわかった。 本手法は,都市シミュレーションの精度を高め,セマンティックセグメンテーションアルゴリズムの開発を容易にする。

Semantic 3D building models are widely available and used in numerous applications. Such 3D building models display rich semantics but no fa\c{c}ade openings, chiefly owing to their aerial acquisition techniques. Hence, refining models' fa\c{c}ades using dense, street-level, terrestrial point clouds seems a promising strategy. In this paper, we propose a method of combining visibility analysis and neural networks for enriching 3D models with window and door features. In the method, occupancy voxels are fused with classified point clouds, which provides semantics to voxels. Voxels are also used to identify conflicts between laser observations and 3D models. The semantic voxels and conflicts are combined in a Bayesian network to classify and delineate fa\c{c}ade openings, which are reconstructed using a 3D model library. Unaffected building semantics is preserved while the updated one is added, thereby upgrading the building model to LoD3. Moreover, Bayesian network results are back-projected onto point clouds to improve points' classification accuracy. We tested our method on a municipal CityGML LoD2 repository and the open point cloud datasets: TUM-MLS-2016 and TUM-FA\c{C}ADE. Validation results revealed that the method improves the accuracy of point cloud semantic segmentation and upgrades buildings with fa\c{c}ade elements. The method can be applied to enhance the accuracy of urban simulations and facilitate the development of semantic segmentation algorithms.
翻訳日:2023-03-13 14:34:46 公開日:2023-03-10
# アカウンタブルテキストベースのビジュアルリクリエーションのための新しいベンチマーク

New Benchmarks for Accountable Text-based Visual Re-creation ( http://arxiv.org/abs/2303.05983v1 )

ライセンス: Link先を確認
Zhiwei Zhang, Yuliang Liu(参考訳) コマンドが与えられると、人間は思考後に行動を直接実行するか、あるいは拒否するかを選択し、合理的なフィードバックを同時に行うことができる。 しかし,既存のテキスト・画像生成手法の動作は制御不能であり,無責任である。 本稿では,禁止された指示に対して責任を負うことができるかどうかを検証するために,広範囲にわたる実験を行う。 そこで本研究では,新たなテキストベースの視覚再生タスクを定義し,新たな合成CLEVR-NOTデータセット (620K) と手作業によるFruit-NOTデータセット (50K) を構築した。 本手法では,クエリとして1つのテキストイメージペアをマシンに入力し,視覚的およびテキスト的推論の後にイエスかノーの回答を与える。 もし答えがYesなら、画像自動エンコーダと自動回帰変換器は、画像品質を保証する前提で視覚的再現を完了しなければなりません。 本研究では,不確実性と不完全なユーザクエリに直面した画像品質,回答精度,モデル動作に関する実験結果を詳細に分析する。 本研究は,テキスト推論とビジュアル推論の両方において,単一モデルの難易度を示す。 私たちはまた、テキストベースの画像生成モデルの説明可能性に関する貴重な洞察を、調査と発見がもたらすことを期待しています。 コードとデータセットはhttps://matrix-alpha.github.io.orgにある。

Given a command, humans can directly execute the action after thinking or choose to reject it, with reasonable feedback at the same time. However, the behavior of existing text-to-image generation methods are uncontrollable and irresponsible. In this paper, we construct extensive experiments to verify whether they can be accountable (say no and explain why) for those prohibited instructions. To this end, we define a novel text-based visual re-creation task and construct new synthetic CLEVR-NOT dataset (620K) and manually pictured Fruit-NOT dataset (50K). In our method, one text-image pair as the query is fed into the machine, and the model gives a yes or no answer after visual and textual reasoning. If the answer is yes, the image auto-encoder and auto-regressive transformer must complete the visual re-creation under the premise of ensuring image quality, otherwise the system needs to explain why the commands cannot be completed or prohibited. We provide a detailed analysis of experimental results in image quality, answer accuracy, and model behavior in the face of uncertainty and imperfect user queries. Our results demonstrate the difficulty of a single model for both textual and visual reasoning. We also hope our explorations and findings can bring valuable insights about the accountability of text-based image generation models. Code and datasets can be found at https://matrix-alpha.github.io.
翻訳日:2023-03-13 14:34:19 公開日:2023-03-10
# 機能の重要性:shapleyの値とlocoをよく見る

Feature Importance: A Closer Look at Shapley Values and LOCO ( http://arxiv.org/abs/2303.05981v1 )

ライセンス: Link先を確認
Isabella Verdinelli and Larry Wasserman(参考訳) 近年、統計学や機械学習の解説に多くの関心が寄せられている。 説明可能性の1つの側面は、様々な特徴(または共変量)の重要性を定量化することである。 変数の重要性を定義する2つの一般的な方法は、LOCO(Leave Out Covariates)とShapley Valuesである。 これらの手法の特性と,その利点と欠点について考察する。 特に、解釈可能性の曖昧な特徴間の相関の影響に関心があります。 一部の主張とは対照的に、Shapley値は特徴相関を排除しない。 我々は、Shapley値に対するゲーム理論公理を批判し、いくつかの新しい公理を提案する。 我々は,これらの公理を満足する新しい統計的指向公理といくつかの指標を提案する。 しかし、相関の補正はファウスティアン・バルゲイン(英語版)であり、相関の効果を取り除くことは別の形のバイアスを生み出す。 最終的に、LOCOの少し修正したバージョンを推奨します。 特徴相関に対処するために、Shapley値の修正方法を簡潔に検討する。

There is much interest lately in explainability in statistics and machine learning. One aspect of explainability is to quantify the importance of various features (or covariates). Two popular methods for defining variable importance are LOCO (Leave Out COvariates) and Shapley Values. We take a look at the properties of these methods and their advantages and disadvantages. We are particularly interested in the effect of correlation between features which can obscure interpretability. Contrary to some claims, Shapley values do not eliminate feature correlation. We critique the game theoretic axioms for Shapley values and suggest some new axioms. We propose new, more statistically oriented axioms for feature importance and some measures that satisfy these axioms. However, correcting for correlation is a Faustian bargain: removing the effect of correlation creates other forms of bias. Ultimately, we recommend a slightly modified version of LOCO. We briefly consider how to modify Shapley values to better address feature correlation.
翻訳日:2023-03-13 14:33:58 公開日:2023-03-10
# 神経グロモフ-wasserstein最適輸送

Neural Gromov-Wasserstein Optimal Transport ( http://arxiv.org/abs/2303.05978v1 )

ライセンス: Link先を確認
Maksim Nekrashevich, Alexander Korotin, Evgeny Burnaev(参考訳) 本稿では,Gromov-Wasserstein (GW) Optimal Transport (OT) 問題を内部積コストで解くためのスケーラブルなニューラルネットワーク手法を提案する。 この問題において、2つの分布が(おそらく異なる)空間で支持されているとき、それらの間の最も等距離写像を見つける必要がある。 提案手法では,ニューラルネットワークと確率的ミニバッチ最適化を用いて,サンプル数によるスケーラビリティの低下やサンプル外推定の欠如など,既存のGW手法の限界を克服する。 提案手法の有効性を実証するため, 合成データを用いて実験を行い, 単語埋め込みの教師なしアライメントの一般的な課題に対する本手法の適用性について検討する。

We present a scalable neural method to solve the Gromov-Wasserstein (GW) Optimal Transport (OT) problem with the inner product cost. In this problem, given two distributions supported on (possibly different) spaces, one has to find the most isometric map between them. Our proposed approach uses neural networks and stochastic mini-batch optimization which allows to overcome the limitations of existing GW methods such as their poor scalability with the number of samples and the lack of out-of-sample estimation. To demonstrate the effectiveness of our proposed method, we conduct experiments on the synthetic data and explore the practical applicability of our method to the popular task of the unsupervised alignment of word embeddings.
翻訳日:2023-03-13 14:33:47 公開日:2023-03-10
# 最適な採餌戦略を学習し、L''evy ウォークを上回る

Optimal foraging strategies can be learned and outperform L\'evy walks ( http://arxiv.org/abs/2303.06050v1 )

ライセンス: Link先を確認
Gorka Mu\~noz-Gil, Andrea L\'opez-Incera, Lukas J. Fiderer and Hans J. Briegel(参考訳) L'evy walkとその他の理論モデルが実世界のシナリオを記述するのに成功し、経済、物理学、生態学、進化生物学などいくつかの分野に注目が集まっている。 しかし、どの戦略が効率を最大化するのか、またそのような戦略が生物によって学べるのかは、ほとんどの場合不明である。 これらの問題に対処するため、私たちはフォアジャーを強化学習エージェントとしてモデル化する。 まず, 強化学習モデルにおける報酬の最大化が, 捕食効率の最適化と等価であることを理論的に証明する。 次に, エージェントがL''evy walkのような既知の戦略の効率を上回り, 捕食戦略を学習する数値実験を行った。

L\'evy walks and other theoretical models of optimal foraging have been successfully used to describe real-world scenarios, attracting attention in several fields such as economy, physics, ecology, and evolutionary biology. However, it remains unclear in most cases which strategies maximize foraging efficiency and whether such strategies can be learned by living organisms. To address these questions, we model foragers as reinforcement learning agents. We first prove theoretically that maximizing rewards in our reinforcement learning model is equivalent to optimizing foraging efficiency. We then show with numerical experiments that our agents learn foraging strategies which outperform the efficiency of known strategies such as L\'evy walks.
翻訳日:2023-03-13 14:27:08 公開日:2023-03-10
# MVImgNet:マルチビュー画像の大規模データセット

MVImgNet: A Large-scale Dataset of Multi-view Images ( http://arxiv.org/abs/2303.06042v1 )

ライセンス: Link先を確認
Xianggang Yu, Mutian Xu, Yidan Zhang, Haolin Liu, Chongjie Ye, Yushuang Wu, Zizheng Yan, Chenming Zhu, Zhangyang Xiong, Tianyou Liang, Guanying Chen, Shuguang Cui, Xiaoguang Han(参考訳) データ駆動であることは、ディープラーニングアルゴリズムの最も象徴的な特性の1つです。 imagenetの誕生は、コンピュータビジョンにおける"大規模データからの学習"の顕著なトレンドを駆動している。 リッチな普遍表現を得るためにImageNetで事前トレーニングを行うことで、様々な2次元視覚タスクの恩恵が得られ、2次元視覚の標準となる。 しかし、実世界の3dデータの収集に手間がかかるため、3dビジョンにおけるimagenetの対応する汎用データセットは存在せず、そのようなデータセットが3dコミュニティにどのように影響するかは不明だ。 この欠陥を補うために,マルチビュー画像の大規模データセットであるMVImgNetを導入する。 238クラスのオブジェクトを横断する219,188ビデオから650万フレーム、オブジェクトマスク、カメラパラメータ、ポイントクラウドの豊富なアノテーションを含んでいる。 マルチビュー属性は、私たちのデータセットに3D対応の信号を与え、2Dと3Dのビジョンの間に柔らかい橋となる。 我々は,MVImgNetの様々な3次元および2次元視覚タスクにおける可能性を探るため,レーダランスフィールド再構成,マルチビューステレオ,ビュー一貫性画像理解などのパイロット研究を行い,MVImgNetが有望な性能を示し,今後の探索の可能性の多くを継続する。 さらに、MVImgNetで密に再構築された3DオブジェクトポイントクラウドデータセットはMVPNetと呼ばれ、150のカテゴリから87,200のサンプルをカバーし、各ポイントクラウドにクラスラベルがある。 実験によれば、mvpnetはクラウド理解のための新たな課題を提起しながら、現実世界の3dオブジェクトの分類に役立つ。 MVImgNetとMVPNetは一般公開され、幅広いビジョンコミュニティに刺激を与えたいと考えている。

Being data-driven is one of the most iconic properties of deep learning algorithms. The birth of ImageNet drives a remarkable trend of "learning from large-scale data" in computer vision. Pretraining on ImageNet to obtain rich universal representations has been manifested to benefit various 2D visual tasks, and becomes a standard in 2D vision. However, due to the laborious collection of real-world 3D data, there is yet no generic dataset serving as a counterpart of ImageNet in 3D vision, thus how such a dataset can impact the 3D community is unraveled. To remedy this defect, we introduce MVImgNet, a large-scale dataset of multi-view images, which is highly convenient to gain by shooting videos of real-world objects in human daily life. It contains 6.5 million frames from 219,188 videos crossing objects from 238 classes, with rich annotations of object masks, camera parameters, and point clouds. The multi-view attribute endows our dataset with 3D-aware signals, making it a soft bridge between 2D and 3D vision. We conduct pilot studies for probing the potential of MVImgNet on a variety of 3D and 2D visual tasks, including radiance field reconstruction, multi-view stereo, and view-consistent image understanding, where MVImgNet demonstrates promising performance, remaining lots of possibilities for future explorations. Besides, via dense reconstruction on MVImgNet, a 3D object point cloud dataset is derived, called MVPNet, covering 87,200 samples from 150 categories, with the class label on each point cloud. Experiments show that MVPNet can benefit the real-world 3D object classification while posing new challenges to point cloud understanding. MVImgNet and MVPNet will be publicly available, hoping to inspire the broader vision community.
翻訳日:2023-03-13 14:26:55 公開日:2023-03-10
# 3次元マルチクラスセグメンテーションにおける拡散モデル評価のための調整訓練戦略の重要性

Importance of Aligning Training Strategy with Evaluation for Diffusion Models in 3D Multiclass Segmentation ( http://arxiv.org/abs/2303.06040v1 )

ライセンス: Link先を確認
Yunguan Fu and Yiwen Li and Shaheer U. Saeed and Matthew J. Clarkson and Yipeng Hu(参考訳) 近年,画像に条件づけられたセグメンテーションマスクを生成させることにより,画像セグメンテーションに分散拡散確率モデル(ddpm)が適用されている。 本研究では,ddpmを3次元マルチクラス画像セグメンテーションに初めて使用する。 トレーニング戦略と評価方法論の整合と効率向上に重点を置いた3つの重要な貢献を行いました。 まず、サンプルノイズの代わりにセグメンテーションマスクを予測し、Dice損失を直接最適化する。 第2に、前段の予測マスクをリサイクルしてノイズ崩壊マスクを生成し、情報漏洩を低減する。 最後に, トレーニング中の拡散過程を5段階に短縮し, 評価を行った。 2つの大規模マルチクラスデータセット(前立腺MRIと腹部CT)の研究を通じて,既存のDDPMと比較して性能が有意に向上し,U-netに基づく非拡散セグメンテーションモデルとの競合性能を同じ計算予算で達成した。 JAXベースの拡散フレームワークがhttps://github.com/mathpluscode/ImgX-DiffSegでリリースされた。

Recently, denoising diffusion probabilistic models (DDPM) have been applied to image segmentation by generating segmentation masks conditioned on images, while the applications were mainly limited to 2D networks without exploiting potential benefits from the 3D formulation. In this work, for the first time, DDPMs are used for 3D multiclass image segmentation. We make three key contributions that all focus on aligning the training strategy with the evaluation methodology, and improving efficiency. Firstly, the model predicts segmentation masks instead of sampled noise and is optimised directly via Dice loss. Secondly, the predicted mask in the previous time step is recycled to generate noise-corrupted masks to reduce information leakage. Finally, the diffusion process during training was reduced to five steps, the same as the evaluation. Through studies on two large multiclass data sets (prostate MR and abdominal CT), we demonstrated significantly improved performance compared to existing DDPMs, and reached competitive performance with non-diffusion segmentation models, based on U-net, within the same compute budget. The JAX-based diffusion framework has been released on https://github.com/mathpluscode/ImgX-DiffSeg.
翻訳日:2023-03-13 14:26:24 公開日:2023-03-10
# 触覚フィルター:部分交配のための対話的触覚

Tactile-Filter: Interactive Tactile Perception for Part Mating ( http://arxiv.org/abs/2303.06034v1 )

ライセンス: Link先を確認
Kei Ota, Devesh K. Jha, Hsiao-Yu Tung, Joshua B. Tenenbaum(参考訳) 人間はタッチと触覚のセンシングを、巧妙な操作に頼りにしている。 私たちの触覚センシングは、接触形成に関する多くの情報と、対話中の物体に関する幾何学的情報を提供します。 このモチベーションにより、視覚ベースの触覚センサーは様々なロボット認識や制御タスクに広く利用されている。 本稿では,視覚に基づく触覚センサを用いた多目的集合のための対話型知覚法を提案する。 特に,ロボットが触覚センサと粒子フィルタを用いたフィードバック機構を使用して,組み立てに適合する物体の推定を漸進的に改善できる部分交配時の触覚知覚に関心を持っている。 これを実現するために,我々はまず触覚画像を用いて任意の形状の物体間の確率的対応を予測するディープニューラルネットワークを訓練する。 トレーニングされたモデルは、2倍の粒子フィルタの設計に使用される。 まず、ホールの1つの部分的な(または非特異な)観測が与えられた場合、より触覚的な観察をサンプリングすることで、正しいペグの推定を徐々に改善する。 第2に、ロボットが次のタッチ(つまり画像)をサンプリングする次のアクションを選択し、その結果、最大不確実性が減少し、知覚タスク中の相互作用の数を最小限に抑える。 視覚型触覚センサを備えたロボットを用いて, 部品の組み立て作業について評価を行った。 また,本提案手法の有効性を示す。 補足ビデオはhttps://www.youtube.com/watch? v=jMVBg_e3gLw。

Humans rely on touch and tactile sensing for a lot of dexterous manipulation tasks. Our tactile sensing provides us with a lot of information regarding contact formations as well as geometric information about objects during any interaction. With this motivation, vision-based tactile sensors are being widely used for various robotic perception and control tasks. In this paper, we present a method for interactive perception using vision-based tactile sensors for multi-object assembly. In particular, we are interested in tactile perception during part mating, where a robot can use tactile sensors and a feedback mechanism using particle filter to incrementally improve its estimate of objects that fit together for assembly. To do this, we first train a deep neural network that makes use of tactile images to predict the probabilistic correspondence between arbitrarily shaped objects that fit together. The trained model is used to design a particle filter which is used twofold. First, given one partial (or non-unique) observation of the hole, it incrementally improves the estimate of the correct peg by sampling more tactile observations. Second, it selects the next action for the robot to sample the next touch (and thus image) which results in maximum uncertainty reduction to minimize the number of interactions during the perception task. We evaluate our method on several part-mating tasks for assembly using a robot equipped with a vision-based tactile sensor. We also show the efficiency of the proposed action selection method against a naive method. See supplementary video at https://www.youtube.com/watch?v=jMVBg_e3gLw .
翻訳日:2023-03-13 14:26:04 公開日:2023-03-10
# 離散的道路網設計問題に近似するハイブリッドディープラーニング・メタヒューリスティックフレームワーク

A hybrid deep-learning-metaheuristic framework to approximate discrete road network design problems ( http://arxiv.org/abs/2303.06024v1 )

ライセンス: Link先を確認
Bahman Madadi and Goncalo Homem de Almeida Correia(参考訳) 本研究では,道路ネットワーク設計問題(NDP)を解決するために,双方向アーキテクチャを用いたハイブリッドディープラーニング・メタヒューリスティックフレームワークを提案する。 我々は、ユーザ均衡(UE)トラフィック割り当て問題の解を近似するためにグラフニューラルネットワーク(GNN)を訓練し、トレーニングされたモデルによる推論を用いて、遺伝的アルゴリズム(GA)の適合関数評価を計算し、NDPの解を近似する。 2つのNDP変種と正確な解法をベンチマークとして用いた結果,提案手法は,最適結果の発見に要する時間のうち1%未満の時間で,グローバルな最適結果の5%のギャップ内で解を提供できることを示した。 さらに,多くの今後の方向性を考察し,本トピックに関する簡単な研究課題を提案する。 影響力のある将来の研究を刺激する重要な観察は、GNNモデルによる遺伝的アルゴリズムの推論を用いたフィットネス機能評価時間がミリ秒のオーダーであり、これは新しいヒューリスティックスの必要性と機会を示している。 1)ニューラルネットワークが提供するノイズの多いフィットネス機能値にうまく対応でき、 2) 探索空間を効率的に(効率的にではなく)探索するために,提案した計算時間をはるかに高めることができる。 これにより、AI駆動の予測器で使用するために作られた、現代的なメタヒューリスティックなクラスの新たな道が開かれる。

This study proposes a hybrid deep-learning-metaheuristic framework with a bi-level architecture to solve road network design problems (NDPs). We train a graph neural network (GNN) to approximate the solution of the user equilibrium (UE) traffic assignment problem, and use inferences made by the trained model to calculate fitness function evaluations of a genetic algorithm (GA) to approximate solutions for NDPs. Using two NDP variants and an exact solver as benchmark, we show that our proposed framework can provide solutions within 5% gap of the global optimum results given less than 1% of the time required for finding the optimal results. Moreover, we observe many interesting future directions, thus we propose a brief research agenda for this topic. The key observation inspiring influential future research was that fitness function evaluation time using the inferences made by the GNN model for the genetic algorithm was in the order of milliseconds, which points to an opportunity and a need for novel heuristics that 1) can cope well with noisy fitness function values provided by neural networks, and 2) can use the significantly higher computation time provided to them to explore the search space effectively (rather than efficiently). This opens a new avenue for a modern class of metaheuristics that are crafted for use with AI-powered predictors.
翻訳日:2023-03-13 14:24:36 公開日:2023-03-10
# スポーツ賭けのための機械学習: 予測モデルは精度やキャリブレーションのために最適化されるべきか?

Machine learning for sports betting: should forecasting models be optimised for accuracy or calibration? ( http://arxiv.org/abs/2303.06021v1 )

ライセンス: Link先を確認
Conor Walsh, Alok Joshi(参考訳) 米国におけるスポーツ・ベッティングの連邦合法化は、機械学習の黄金時代と一致する。 ベクターがデータを利用して結果の確率を正確に予測できれば、ブックメーカーのオッズが好まれるときに認識することができる。 スポーツの賭けは米国だけでも数十億ドルの産業であり、そのような機会を特定することは極めて有益である。 多くの研究者が機械学習をスポーツ結果予測問題に適用し、概して精度を用いて予測モデルの性能を評価する。 スポーツベッティング問題に対して,モデルの校正は精度よりも重要であると仮定する。 この仮説をテストするために、NBAデータ上のモデルを数シーズンにわたってトレーニングし、1シーズンの賭け実験を公開オッズを用いて実施する。 様々な賭けシステムを評価することにより、キャリブレーションの予測モデルの最適化は、精度の最適化よりも高いリターンをもたらすことが示され(投資額が$10.42\%$対$.98\%$)、最良の場合が$902.01\$$対$22.84\%$)。 これらの結果は,スポーツベッティング(または各結果の予測確率に基づいて意思決定を行う予測問題)において,キャリブレーションは精度よりも重要な指標であることが示唆された。 利益を上げようとするスポーツベクターは、キャリブレーションの予測モデルを最適化すべきである。

Sports betting's recent federal legalisation in the USA coincides with the golden age of machine learning. If bettors can leverage data to accurately predict the probability of an outcome, they can recognise when the bookmaker's odds are in their favour. As sports betting is a multi-billion dollar industry in the USA alone, identifying such opportunities could be extremely lucrative. Many researchers have applied machine learning to the sports outcome prediction problem, generally using accuracy to evaluate the performance of forecasting models. We hypothesise that for the sports betting problem, model calibration is more important than accuracy. To test this hypothesis, we train models on NBA data over several seasons and run betting experiments on a single season, using published odds. Evaluating various betting systems, we show that optimising the forecasting model for calibration leads to greater returns than optimising for accuracy, on average (return on investment of $110.42\%$ versus $2.98\%$) and in the best case ($902.01\%$ versus $222.84\%$). These findings suggest that for sports betting (or any forecasting problem where decisions are made based on the predicted probability of each outcome), calibration is a more important metric than accuracy. Sports bettors who wish to increase profits should therefore optimise their forecasting model for calibration.
翻訳日:2023-03-13 14:24:11 公開日:2023-03-10
# 画像-音声変換のためのエンドツーエンドニューラルネットワーク

An End-to-End Neural Network for Image-to-Audio Transformation ( http://arxiv.org/abs/2303.06078v1 )

ライセンス: Link先を確認
Liu Chen, Michael Deisher, Munir Georges(参考訳) 本稿では、低リソースのパーソナルコンピューティングデバイス上での表示コンテンツの小さな部分のオーディオレンダリングのためのエンドツーエンド(E2E)ニューラルアーキテクチャについて述べる。 ハードウェアレベルで視覚障害者または視覚障害者のアクセシビリティの問題に対処することを目的としている。 ニューラルネットワーク(itt)とtext-to-speech(tts)のアプローチをレビューし、効率的かつバックプロパゲータブルな方法でそれらを効率的に統合する新しい手法を導入し、効率的かつ訓練可能な非自己回帰型e2e image-to-speech(its)ニューラルネットワークへと導く。 実験の結果,非E2E方式と比較して,提案方式は29%高速化され,パラメータが19%減少し,通話精度が2%低下した。 正確性に対処するための今後の方向を示す。

This paper describes an end-to-end (E2E) neural architecture for the audio rendering of small portions of display content on low resource personal computing devices. It is intended to address the problem of accessibility for vision-impaired or vision-distracted users at the hardware level. Neural image-to-text (ITT) and text-to-speech (TTS) approaches are reviewed and a new technique is introduced to efficiently integrate them in a way that is both efficient and back-propagate-able, leading to a non-autoregressive E2E image-to-speech (ITS) neural network that is efficient and trainable. Experimental results are presented showing that, compared with the non-E2E approach, the proposed E2E system is 29% faster and uses 19% fewer parameters with a 2% reduction in phone accuracy. A future direction to address accuracy is presented.
翻訳日:2023-03-13 14:18:34 公開日:2023-03-10
# ベイズ決定理論から見た長い尾の分類

Long-tailed Classification from a Bayesian-decision-theory Perspective ( http://arxiv.org/abs/2303.06075v1 )

ライセンス: Link先を確認
Bolian Li, Ruqi Zhang(参考訳) 長い尾の分類は、クラス確率の過度な不均衡と非対称な予測コストを伴う尾の感度リスクのために課題となる。 最近の試みでは、損失とアンサンブルの方法の再バランスを用いたが、それらはほとんどヒューリスティックであり、理論的な説明が欠けている経験的結果に大きく依存している。 さらに、既存の手法は、末尾クラスに関連する異なるコストを特徴付ける決定損失を見落としている。 本稿では,バイーシアン・決定理論の観点から,再バランス法やアンサンブル法を含む既存の手法を統一し,その有効性を理論的に正当化する枠組みを提案する。 この観点から,統合リスクに基づく新たな目標と,すべてのクラス,特に ``tail" の精度を向上させるベイズ的深層センサムブルアプローチを導出する。 さらに,我々のフレームワークでは,さまざまなタスクシナリオにおける最適決定と不確実性を定量化する能力を備えた,タスク適応的意思決定の損失を許容する。 最後に, 標準分類, テールセンシティブ分類, 新しいFalse Head Rate測定, キャリブレーション, アブレーション研究を含む包括的実験を行った。 我々のフレームワークは、ImageNetのような大規模な実世界のデータセットでさえ、現在のSOTAを大幅に改善します。

Long-tailed classification poses a challenge due to its heavy imbalance in class probabilities and tail-sensitivity risks with asymmetric misprediction costs. Recent attempts have used re-balancing loss and ensemble methods, but they are largely heuristic and depend heavily on empirical results, lacking theoretical explanation. Furthermore, existing methods overlook the decision loss, which characterizes different costs associated with tailed classes. This paper presents a general and principled framework from a Bayesian-decision-theory perspective, which unifies existing techniques including re-balancing and ensemble methods, and provides theoretical justifications for their effectiveness. From this perspective, we derive a novel objective based on the integrated risk and a Bayesian deep-ensemble approach to improve the accuracy of all classes, especially the ``tail". Besides, our framework allows for task-adaptive decision loss which provides provably optimal decisions in varying task scenarios, along with the capability to quantify uncertainty. Finally, We conduct comprehensive experiments, including standard classification, tail-sensitive classification with a new False Head Rate metric, calibration, and ablation studies. Our framework significantly improves the current SOTA even on large-scale real-world datasets like ImageNet.
翻訳日:2023-03-13 14:18:17 公開日:2023-03-10
# 大規模言語モデルの影響に対する感受性

Susceptibility to Influence of Large Language Models ( http://arxiv.org/abs/2303.06074v1 )

ライセンス: Link先を確認
Lewis D Griffin, Bennett Kleinberg, Maximilian Mozes, Kimberly T Mai, Maria Vau, Matthew Caldwell and Augustine Marvor-Parker(参考訳) 2つの研究は、大きな言語モデル(LLM)が、影響力のある入力への暴露後の心理的変化をモデル化できるという仮説を検証した。 最初の研究では、説明的真理効果(英: illusory truth effect、ite)という、(例えば、その関心を評価などを通じて)初期の発言への露出が後の真理性テスト評価を増加させる一般的な影響のモードを検証した。 オンライン実験で1000人の被験者からデータを集め,工学的プロンプトとllm補完を用いてシミュレーションを行った。 被験者1人当たり64のレーティングが収集され, 真理, 関心, 感情, 重要度など, 属性の露出-テストの組み合わせを全て利用した。 ヒトの被験者は、ITEを再確認し、真理以外の属性に対する効果がないこと、そして、同じ属性が露呈と検査に使用されることを示しました。 LLMを模擬した被験者にも同様の効果が認められた。 第2の研究では、その説得力と政治的動員力を高めるために、ニュースのポピュリストのフレーミングという、特定の影響方法に関するものだ。 LLMシミュレーション参加者のデータを収集し、7286人の被験者を対象とした15か国の実験結果と比較した。 これまでヒト研究で実証されたいくつかの効果は、理論的な期待に反してヒト研究の著者を驚かせる効果(ニュースの反移民フレーミングは説得力と動員力を低下させる)を含むシミュレーション研究によって再現されたが、人間のデータ(参加者の相対的剥奪によるポピュリストフレーミングの有効性の変調)に見出されたいくつかの重要な関係はLLMデータには存在しなかった。 2つの研究は、LSMが影響のモデルとして機能する可能性があるという見解を支持している。

Two studies tested the hypothesis that a Large Language Model (LLM) can be used to model psychological change following exposure to influential input. The first study tested a generic mode of influence - the Illusory Truth Effect (ITE) - where earlier exposure to a statement (through, for example, rating its interest) boosts a later truthfulness test rating. Data was collected from 1000 human participants using an online experiment, and 1000 simulated participants using engineered prompts and LLM completion. 64 ratings per participant were collected, using all exposure-test combinations of the attributes: truth, interest, sentiment and importance. The results for human participants reconfirmed the ITE, and demonstrated an absence of effect for attributes other than truth, and when the same attribute is used for exposure and test. The same pattern of effects was found for LLM-simulated participants. The second study concerns a specific mode of influence - populist framing of news to increase its persuasion and political mobilization. Data from LLM-simulated participants was collected and compared to previously published data from a 15-country experiment on 7286 human participants. Several effects previously demonstrated from the human study were replicated by the simulated study, including effects that surprised the authors of the human study by contradicting their theoretical expectations (anti-immigrant framing of news decreases its persuasion and mobilization); but some significant relationships found in human data (modulation of the effectiveness of populist framing according to relative deprivation of the participant) were not present in the LLM data. Together the two studies support the view that LLMs have potential to act as models of the effect of influence.
翻訳日:2023-03-13 14:17:57 公開日:2023-03-10
# 時間的プロセスによるイベントとインタラクションのモデリング -- 調査

Modeling Events and Interactions through Temporal Processes -- A Survey ( http://arxiv.org/abs/2303.06067v1 )

ライセンス: Link先を確認
Angelica Liguori, Luciano Caroprese, Marco Minici, Bruno Veloso, Francesco Spinnato, Mirco Nanni, Giuseppe Manco, Joao Gama(参考訳) 現実のシナリオでは、多くの現象が連続して起こる事象の集合を生み出す。 ポイントプロセスは、これらのイベントのシーケンスをモデル化するための自然な数学的フレームワークを提供する。 本研究では,時間過程を通じて事象列をモデル化する確率モデルについて検討する。 我々は、イベントモデリングの概念を改訂し、そのトピックに関する文献を特徴づける数学的基礎を提供する。 既存のアプローチを3つのファミリー(simple, marked, and spatio-temporal point process)で分類するためにオントロジーを定義する。 各家族に対して,ディープラーニングに基づく既存アプローチを体系的にレビューする。 最後に,提案手法が予測やモデリングの側面に応用できるシナリオを分析した。

In real-world scenario, many phenomena produce a collection of events that occur in continuous time. Point Processes provide a natural mathematical framework for modeling these sequences of events. In this survey, we investigate probabilistic models for modeling event sequences through temporal processes. We revise the notion of event modeling and provide the mathematical foundations that characterize the literature on the topic. We define an ontology to categorize the existing approaches in terms of three families: simple, marked, and spatio-temporal point processes. For each family, we systematically review the existing approaches based based on deep learning. Finally, we analyze the scenarios where the proposed techniques can be used for addressing prediction and modeling aspects.
翻訳日:2023-03-13 14:16:25 公開日:2023-03-10
# ランダム化されたマルチArmed Banditアルゴリズムの解析のための一般レシピ

A General Recipe for the Analysis of Randomized Multi-Armed Bandit Algorithms ( http://arxiv.org/abs/2303.06058v1 )

ライセンス: Link先を確認
Dorian Baudry and Kazuya Suzuki and Junya Honda(参考訳) 本稿では,ランダム化マルチアームドバンディットアルゴリズムの後悔境界を導出する一般的な手法を提案する。 それは、各アームのサンプリング確率と分布の族について十分な条件のセットをチェックすることで、対数的後悔を証明する。 直接的応用として、単一パラメータ指数族、ガウス分布、有界分布、モーメント上の条件を満たす分布を含む分布の様々なモデルの下で、MED(Minimum Empirical Divergence)とTS(Thompson Sampling)の2つの有名なバンディットアルゴリズムを再検討する。 特に,MEDがこれらのモデルすべてに対して漸近的に最適であることを示すとともに,その最適性がすでに知られているTSアルゴリズムの簡単な後悔解析も提供する。 さらに,H-モーメントを持つ非有界報酬分布の族に適応した新しい非パラメトリックTSアルゴリズム (h-NPTS) を解析することによって,本手法の関心をさらに深める。 このモデルは例えば、分散が既知の定数によって上界を持つ分布の非パラメトリックな族をキャプチャすることができる。

In this paper we propose a general methodology to derive regret bounds for randomized multi-armed bandit algorithms. It consists in checking a set of sufficient conditions on the sampling probability of each arm and on the family of distributions to prove a logarithmic regret. As a direct application we revisit two famous bandit algorithms, Minimum Empirical Divergence (MED) and Thompson Sampling (TS), under various models for the distributions including single parameter exponential families, Gaussian distributions, bounded distributions, or distributions satisfying some conditions on their moments. In particular, we prove that MED is asymptotically optimal for all these models, but also provide a simple regret analysis of some TS algorithms for which the optimality is already known. We then further illustrate the interest of our approach, by analyzing a new Non-Parametric TS algorithm (h-NPTS), adapted to some families of unbounded reward distributions with a bounded h-moment. This model can for instance capture some non-parametric families of distributions whose variance is upper bounded by a known constant.
翻訳日:2023-03-13 14:15:49 公開日:2023-03-10
# TSMixer: 時系列予測のためのオールMLPアーキテクチャ

TSMixer: An all-MLP Architecture for Time Series Forecasting ( http://arxiv.org/abs/2303.06053v1 )

ライセンス: Link先を確認
Si-An Chen, Chun-Liang Li, Nate Yoder, Sercan O. Arik, Tomas Pfister(参考訳) 現実世界の時系列データセットはしばしば複雑なダイナミクスを持つ多変量である。 リカレントやアテンションベースのシーケンシャルモデルのような一般的な高容量アーキテクチャが普及している。 しかし、最近の研究は、単純な単変量線型モデルがこれらの深い代替よりも優れていることを示した。 本稿では,時系列予測のための線形モデルと,マルチ層パーセプトロン(MLP)を積み重ねたアーキテクチャである時系列ミキサ(TSMixer)について検討する。 TSMixerは時間と特徴次元の混合操作に基づいて情報を効率的に抽出する。 一般的な学術ベンチマークでは、TSMixerは特定のベンチマークの帰納バイアスを利用する専門的な最先端モデルに匹敵する。 現実の小売データセットである挑戦的で大規模なM5ベンチマークでは、TSMixerは最先端の代替モデルよりも優れたパフォーマンスを示している。 その結果,時系列予測の性能向上にクロスバリアイトと補助情報を効果的に活用することの重要性が示唆された。 TSMixerで使用される設計パラダイムは、ディープラーニングに基づく時系列予測のための新たな地平を開くことが期待されている。

Real-world time-series datasets are often multivariate with complex dynamics. Commonly-used high capacity architectures like recurrent- or attention-based sequential models have become popular. However, recent work demonstrates that simple univariate linear models can outperform those deep alternatives. In this paper, we investigate the capabilities of linear models for time-series forecasting and present Time-Series Mixer (TSMixer), an architecture designed by stacking multi-layer perceptrons (MLPs). TSMixer is based on mixing operations along time and feature dimensions to extract information efficiently. On popular academic benchmarks, the simple-to-implement TSMixer is comparable to specialized state-of-the-art models that leverage the inductive biases of specific benchmarks. On the challenging and large scale M5 benchmark, a real-world retail dataset, TSMixer demonstrates superior performance compared to the state-of-the-art alternatives. Our results underline the importance of efficiently utilizing cross-variate and auxiliary information for improving the performance of time series forecasting. The design paradigms utilized in TSMixer are expected to open new horizons for deep learning-based time series forecasting.
翻訳日:2023-03-13 14:15:17 公開日:2023-03-10
# 曖昧さ - 情報ゲーティングによるロバスト制御

Ignorance is Bliss: Robust Control via Information Gating ( http://arxiv.org/abs/2303.06121v1 )

ライセンス: Link先を確認
Manan Tomar, Riashat Islam, Sergey Levine, Philip Bachman(参考訳) 情報的パーシモニー(すなわち、タスクに必要な最小限の情報を使用する)は、雑音やスプリアス相関に頑健であり、より良い一般化を達成する学習表現のための有用な帰納的バイアスを提供する。 より類似した表現を学習する手段として,画素空間における情報ゲーティングを提案する。 情報ゲーティングは、与えられたタスクを解決するのに必要な最小限の情報のみをキャプチャする学習マスクによって機能する。 直感的には、我々のモデルは与えられたタスクに対して実際にどの視覚的手がかりが重要であるかを識別する。 信号対雑音比の微分可能なパラメータ化を用いて情報をゲートし,入力層で画素をマスキングするなど,ネットワーク内の任意の値に適用することができる。 我々は、InfoGatingと呼ばれるアプローチを、多段階の前進と逆ダイナミクス、Q-ラーニング、行動クローニング、標準自己監督タスクなど、様々な目的に応用する。 私たちの実験では、最小限の情報を識別し使用する学習は、下流タスクの一般化を改善できることが示されています。

Informational parsimony -- i.e., using the minimal information required for a task, -- provides a useful inductive bias for learning representations that achieve better generalization by being robust to noise and spurious correlations. We propose information gating in the pixel space as a way to learn more parsimonious representations. Information gating works by learning masks that capture only the minimal information required to solve a given task. Intuitively, our models learn to identify which visual cues actually matter for a given task. We gate information using a differentiable parameterization of the signal-to-noise ratio, which can be applied to arbitrary values in a network, e.g.~masking out pixels at the input layer. We apply our approach, which we call InfoGating, to various objectives such as: multi-step forward and inverse dynamics, Q-learning, behavior cloning, and standard self-supervised tasks. Our experiments show that learning to identify and use minimal information can improve generalization in downstream tasks -- e.g., policies based on info-gated images are considerably more robust to distracting/irrelevant visual features.
翻訳日:2023-03-13 14:08:23 公開日:2023-03-10
# ソーシャルメディア上でのバイラル性の測定と検出:twitterのバイラルツイートを事例として

Measuring and Detecting Virality on Social Media: The Case of Twitter's Viral Tweets Topic ( http://arxiv.org/abs/2303.06120v1 )

ライセンス: Link先を確認
Tu\u{g}rulcan Elmas, Stephane Selim, C\'elia Houssiaux(参考訳) ソーシャルメディアの投稿がバイラルになり、短期間で大勢の人に届く可能性がある。 このような投稿は、フェイクニュースなどの誤解を招くコンテンツを含む場合、大衆の対話を脅かす可能性がある。 そのため、ファクトチェックのようなタスクには、ウイルスポストの早期発見が不可欠である。 以前の研究は、バイラル性を測定するために独自の指標を提案した。 しかし、そのような指標はウイルスのツイートを正確に表現するものではないし、偽陽性が多すぎる場合もある。 この作業では、Twitterの"Viral Tweets"トピックが提供する真実のデータを使用します。 我々は、twitterがバイラルとラベル付けしたツイートのデータセットと、バイラルツイートを書いたユーザーからのすべてのツイートのデータセットを提案する。 提案するメトリクスを,バイラルツイートを表すためにレビューし,独自のメトリクスを提案する。 また,バイラルツイートを予測するトランスフォーマーモデルを提案する。 コードとツイートidは、https://github.com/tugrulz/viraltweetsで公開されている。

Social media posts may go viral and reach large numbers of people within a short period of time. Such posts may threaten the public dialogue if they contain misleading content such as fake news. As such, early detection of viral posts may be crucial for tasks such as fact-checking. Previous works proposed their own metrics to measure virality. However, such metrics may not accurately represent viral tweets or may introduce too many false positives. In this work, we use the ground truth data provided by Twitter's "Viral Tweets" topic. We propose a dataset of tweets that are labeled by Twitter as viral and a dataset of all tweets from users who authored a viral tweet. We review the proposed metrics to represent the viral tweets and propose our own metric. We also propose a transformers-based model to predict viral tweets. The code and the tweet ids are publicly available at: https://github.com/tugrulz/ViralTweets
翻訳日:2023-03-13 14:08:02 公開日:2023-03-10
# フェデレーション決定のための融合戦略について

On the Fusion Strategies for Federated Decision Making ( http://arxiv.org/abs/2303.06109v1 )

ライセンス: Link先を確認
Mert Kayaalp, Yunus Inan, Visa Koivunen, Emre Telatar, Ali H. Sayed(参考訳) 我々は,エージェント群が協力して,そのプライベートデータを中央プロセッサ等と共有することなく自然状態の推測を行うフェデレーション意思決定における情報集約の問題を考える。 エージェントが個々の観察をベイズ規則による意見(すなわちソフト判断)に取り入れる非ベイズ的社会学習戦略を分析し、中央処理装置はこれらの意見を算術的または幾何学的平均化によって集約する。 先行研究を基礎として,2つのプーリング戦略が漸近的正規性特徴付け(例えば,誤差確率の近似式を与えるために利用できる)をもたらすことを確かめた。 理論的な結果とシミュレーションを検証し,両戦略を比較した。

We consider the problem of information aggregation in federated decision making, where a group of agents collaborate to infer the underlying state of nature without sharing their private data with the central processor or each other. We analyze the non-Bayesian social learning strategy in which agents incorporate their individual observations into their opinions (i.e., soft-decisions) with Bayes rule, and the central processor aggregates these opinions by arithmetic or geometric averaging. Building on our previous work, we establish that both pooling strategies result in asymptotic normality characterization of the system, which, for instance, can be utilized in order to give approximate expressions for the error probability. We verify the theoretical findings with simulations and compare both strategies.
翻訳日:2023-03-13 14:07:49 公開日:2023-03-10
# 量子メトロロジーのための周波数境界の階層:Cram\er-RaoからBarankin

Hierarchies of Frequentist Bounds for Quantum Metrology: From Cram\'er-Rao to Barankin ( http://arxiv.org/abs/2303.06108v1 )

ライセンス: Link先を確認
M. Gessner and A. Smerzi(参考訳) 量子距離論における推定器の分散に関する下界は、推定器の不偏性に関する制約を定義する可観測性を選択することによって導かれる。 量子境界は、与えられた制約を満たすすべての可能な量子測定値と推定値に対する解析的最適化によって得られる。 我々は、最低次数で束縛された量子クレーア・ラオを含む、ますます厳密な境界の階層を得る。 反対の極限において、量子バランキン境界 (quantum barankin bound) は、量子メトロロジーにおける局所最良不偏推定子の分散である。 本結果は, 有限データによる混合状態の量子計測において, 規則性条件を回避し, しきい値の挙動を識別できる量子フィッシャー情報の一般化を明らかにするものである。

We derive lower bounds on the variance of estimators in quantum metrology by choosing test observables that define constraints on the unbiasedness of the estimator. The quantum bounds are obtained by analytical optimization over all possible quantum measurements and estimators that satisfy the given constraints. We obtain hierarchies of increasingly tight bounds that include the quantum Cram\'er-Rao bound at the lowest order. In the opposite limit, the quantum Barankin bound is the variance of the locally best unbiased estimator in quantum metrology. Our results reveal generalizations of the quantum Fisher information that are able to avoid regularity conditions and identify threshold behavior in quantum measurements with mixed states, caused by finite data.
翻訳日:2023-03-13 14:07:29 公開日:2023-03-10
# 非単位多重ビット演算の実験的実現

Experimental realization of nonunitary multi-qubit operations ( http://arxiv.org/abs/2303.06098v1 )

ライセンス: Link先を確認
Martin W. van Mourik, Elias Zapusek, Pavel Hrmo, Lukas Gerster, Rainer Blatt, Thomas Monz, Philipp Schindler, Florentin Reiter(参考訳) 量子プラットフォーム上での可逆的マルチ量子ビット演算を可能にする新しい実験ツールセットを示す。 アプローチを実証するために,ORゲートとNORゲートという2つの基本的非単位演算を実現する。 2つの閉じ込められた$^{40}$ca$^{+}$ イオンの電子状態は、論理情報をエンコードし、共トラップされた$^{88}$sr$^{+}$イオンは、サイドバンド冷却による散逸チャネルによってゲートの非可逆性を提供する。 OR ゲートと NOR ゲートのそれぞれ 87\% と 81\% の成功率を測定します。 提案手法は、量子エラー補正や量子機械学習など、他の非単位演算へのステップストーンである。

We demonstrate a novel experimental toolset that enables irreversible multi-qubit operations on a quantum platform. To exemplify our approach, we realize two elementary nonunitary operations: the OR and NOR gates. The electronic states of two trapped $^{40}$Ca$^{+}$ ions encode the logical information, and a co-trapped $^{88}$Sr$^{+}$ ion provides the irreversibility of the gate by a dissipation channel through sideband cooling. We measure $87\%$ and $81\%$ success rates for the OR and NOR gates, respectively. The presented methods are a stepping stone towards other nonunitary operations such as in quantum error correction and quantum machine learning.
翻訳日:2023-03-13 14:07:07 公開日:2023-03-10
# HiNet:階層型情報抽出を用いた新しいマルチシナリオ・マルチタスク学習手法

HiNet: A Novel Multi-Scenario & Multi-Task Learning Approach with Hierarchical Information Extraction ( http://arxiv.org/abs/2303.06095v1 )

ライセンス: Link先を確認
Jie Zhou, Xianshuai Cao, Wenhao Li, Kun Zhang, Chuan Luo and Qian Yu(参考訳) マルチシナリオ・マルチタスク学習は,Mixture-of-Expert(MoE)アーキテクチャに基づいて,マルチシナリオ・トランスファー学習を効果的かつ実践的に実施するための産業用レコメンデーションシステムに広く応用されている。 しかし,同じ特徴空間に全ての情報を投影することを目的としたMoEベースの手法では,様々なシナリオやタスクに固有の複雑な関係を効果的に扱うことはできない。 そこで本研究では,マルチタスクレコメンデーションとマルチタスクレコメンデーションのための階層的情報抽出ネットワーク(hinet)を提案する。 階層型ネットワークの複数の抽出層により、シナリオやタスクの特定の機能を保持しながら、シナリオ間で貴重な情報を転送する能力を高めることができる。 さらに,シナリオ間の相関を明示的にモデル化するために,シナリオ認識型注意ネットワークモジュールを提案する。 meituan meishi platformによる実世界の産業データセットに関する包括的な実験は、hinetが新たな最先端のパフォーマンスを達成し、既存のソリューションを大きく上回っていることを示している。 HiNetは現在、2つのシナリオで完全にデプロイされており、それぞれ2.87%と1.75%の注文量を獲得した。

Multi-scenario & multi-task learning has been widely applied to many recommendation systems in industrial applications, wherein an effective and practical approach is to carry out multi-scenario transfer learning on the basis of the Mixture-of-Expert (MoE) architecture. However, the MoE-based method, which aims to project all information in the same feature space, cannot effectively deal with the complex relationships inherent among various scenarios and tasks, resulting in unsatisfactory performance. To tackle the problem, we propose a Hierarchical information extraction Network (HiNet) for multi-scenario and multi-task recommendation, which achieves hierarchical extraction based on coarse-to-fine knowledge transfer scheme. The multiple extraction layers of the hierarchical network enable the model to enhance the capability of transferring valuable information across scenarios while preserving specific features of scenarios and tasks. Furthermore, a novel scenario-aware attentive network module is proposed to model correlations between scenarios explicitly. Comprehensive experiments conducted on real-world industrial datasets from Meituan Meishi platform demonstrate that HiNet achieves a new state-of-the-art performance and significantly outperforms existing solutions. HiNet is currently fully deployed in two scenarios and has achieved 2.87% and 1.75% order quantity gain respectively.
翻訳日:2023-03-13 14:06:49 公開日:2023-03-10
# フロッケ駆動光格子における相互作用物質波の不安定性

Instabilities of interacting matter waves in optical lattices with Floquet driving ( http://arxiv.org/abs/2303.06092v1 )

ライセンス: Link先を確認
Andrea Di Carli, Robbie Cruickshank, Matthew Mitchell, Arthur La Rooij, Stefan Kuhr, Charles E. Creffield, Elmar Haller(参考訳) 周期駆動を受ける光1次元格子内の反発相互作用を伴う量子気体の安定性を実験的に検討した。 最も低い格子帯におけるガスの励起は、完全な安定性図、遅いから速い駆動周波数、弱いから強い駆動強度までにわたって分析される。 その結果を解釈するために、パラメトリック不安定性に基づく確立された解析を変調不安定性を含むように拡張する。 静的システムから周期的に駆動されるシステムへの変調不安定性の概念の拡張は、静的システムの安定性を遅くて高速な運転の場合に便利にマッピングする。 中間駆動周波数では、変調不安定性とパラメトリック不安定性の興味深い競合が観察される。 駆動システムにおける両種類の不安定性の存在を実験的に確認し,その特性を調査する。 Floquet 運転の将来の応用において, 加熱の最小化のために, 安定かつ不安定なパラメータ領域を予測できる。

We experimentally investigate the stability of a quantum gas with repulsive interactions in an optical 1D lattice subjected to periodic driving. Excitations of the gas in the lowest lattice band are analyzed across the complete stability diagram, from slow to fast driving frequencies and from weak to strong driving strengths. To interpret our results, we expand the established analysis based on parametric instabilities to include modulational instabilities. Extending the concept of modulational instabilities from static to periodically driven systems provides a convenient mapping of the stability in a static system to the cases of slow and fast driving. At intermediate driving frequencies, we observe an interesting competition between modulational and parametric instabilities. We experimentally confirm the existence of both types of instabilities in driven systems and probe their properties. Our results allow us to predict stable and unstable parameter regions for the minimization of heating in future applications of Floquet driving.
翻訳日:2023-03-13 14:06:29 公開日:2023-03-10
# 量子コンピュータを用いたリアルオプション価格

Real Option Pricing using Quantum Computers ( http://arxiv.org/abs/2303.06089v1 )

ライセンス: Link先を確認
Alberto Manzano, Gonzalo Ferro, \'Alvaro Leitao, Carlos V\'azquez, Andr\'es G\'omez(参考訳) 本稿では,量子加速モンテカルロを用いた量子コンピュータを用いた価格デリバティブ契約の新しい手法を提案する。 我々の貢献は、負の支払いを伴うデリバティブ契約の価格設定を許可するアルゴリズムです。 負のペイオフの存在は負の価格を引き起こす可能性があることに注意。 この振る舞いは既存の量子アルゴリズムでは捉えられない。 私たちが記述する手順は標準のものと異なるが、主要なビルディングブロックは同じである。 したがって、現在行われている広範な研究はすべて適用可能である。 さらに,提案手法の性能を量子エミュレータを用いた他の提案と比較し,高速化を維持していることを示す。

We present a novel methodology to price derivative contracts using quantum computers by means of Quantum Accelerated Monte Carlo. Our contribution is an algorithm that permits pricing derivative contracts with negative payoffs. Note that the presence of negative payoffs can give rise to negative prices. This behaviour cannot be captured by existing quantum algorithms. Although the procedure we describe is different from the standard one, the main building blocks are the same. Thus, all the extensive research that has been performed is still applicable. Moreover, we experimentally compare the performance of the proposed methodology against other proposals employing a quantum emulator and show that we retain the speedups.
翻訳日:2023-03-13 14:06:15 公開日:2023-03-10
# バッチスタイル標準化による自己指導型学習におけるドメイン不変性の改善

Improving Domain-Invariance in Self-Supervised Learning via Batch Styles Standardization ( http://arxiv.org/abs/2303.06088v1 )

ライセンス: Link先を確認
Marin Scalbert and Maria Vakalopoulou and Florent Couzini\'e-Devy(参考訳) 近年の自己教師付き学習(ssl)の台頭は、限定されたラベル付きデータで学習するための推奨戦略の1つであり、豊富なラベル付きデータによってこれらのモデルが広く使われるようになった。 それらは通常、事前訓練され、微調整され、同じデータ分布、すなわち、分配内設定で評価される。 しかし、Unsupervised Domain Generalization (UDG)が解決しようとしている課題である、アウト・オブ・ディストリビューション評価のシナリオでは、うまく機能しない傾向にある。 本稿では,画像のスタイルをバッチで標準化する新しい手法を提案する。 バッチスタイルの標準化は、フーリエベースの拡張に依存しており、スプリアスな相関が機能に漏れることを防ぐためにsslのドメイン不変性を促進する。 バッチスタイルの標準化とよく知られたコントラストベースのメソッドSimCLRの組み合わせは、CLaSSy$\textbf{C}$ontrastive $\textbf{L}$e$\textbf{a}$rning with $\textbf{S}$tandardized $\textbf{S}$t$\textbf{y}$lesという新しいUDGメソッドにつながる。 CLaSSyは、ドメインラベルに依存しておらず、多数のドメインを扱うためにスケーラブルであるため、以前のメソッドよりも大きなアドバンテージを提供する。 様々なUDGデータセットの実験結果から,既存のUDG法と比較してCLaSSyの優れた性能を示した。 最後に、異なるバックボーンアーキテクチャ(畳み込みベース、トランスフォーマーベース)を考慮して、コントラストベースと非コントラストベースのSSLメソッドであるSWaVとMSNをそれぞれ拡張することで、バッチスタイルの標準化の汎用性を実証する。

The recent rise of Self-Supervised Learning (SSL) as one of the preferred strategies for learning with limited labeled data, and abundant unlabeled data has led to the widespread use of these models. They are usually pretrained, finetuned, and evaluated on the same data distribution, i.e., within an in-distribution setting. However, they tend to perform poorly in out-of-distribution evaluation scenarios, a challenge that Unsupervised Domain Generalization (UDG) seeks to address. This paper introduces a novel method to standardize the styles of images in a batch. Batch styles standardization, relying on Fourier-based augmentations, promotes domain invariance in SSL by preventing spurious correlations from leaking into the features. The combination of batch styles standardization with the well-known contrastive-based method SimCLR leads to a novel UDG method named CLaSSy ($\textbf{C}$ontrastive $\textbf{L}$e$\textbf{a}$rning with $\textbf{S}$tandardized $\textbf{S}$t$\textbf{y}$les). CLaSSy offers serious advantages over prior methods, as it does not rely on domain labels and is scalable to handle a large number of domains. Experimental results on various UDG datasets demonstrate the superior performance of CLaSSy compared to existing UDG methods. Finally, the versatility of the proposed batch styles standardization is demonstrated by extending respectively the contrastive-based and non-contrastive-based SSL methods, SWaV and MSN, while considering different backbone architectures (convolutional-based, transformers-based).
翻訳日:2023-03-13 14:06:06 公開日:2023-03-10
# マルチエージェント軌道交換による通信クリティカルプランニング

Communication-Critical Planning via Multi-Agent Trajectory Exchange ( http://arxiv.org/abs/2303.06080v1 )

ライセンス: Link先を確認
Nathaniel Moore Glaser, Zsolt Kira(参考訳) 本稿では,複数エージェントの協調的知覚と計画の課題について,特に自律走行車における衝突なしナビゲーションの現実的課題との関連について述べる。 この作業のために、複数の通信可能な車両は、互いに衝突したり障害物を伴ったりしながら、忙しい交差点を移動しなければなりません。 そこで本稿では,(1)分散,(2)不確実性認識,(3)帯域効率のよい生の知覚データから,学習可能なコストマップに基づく計画機構を提案する。 提案手法は,マルチエイジェント間で評価される候補軌跡を分類・融合するために,コストマップと不確実性対応エントロピーマップを生成する。 提案手法は,オープンソースのオーバヘッドデータセット群と,新たな通信クリティカルシミュレータ内での性能傾向を示す。 正確なセマンティック占有予測を中間認識出力として生成し、72.5%の平均ピクセル単位の分類精度が得られる。 トップの軌道を選択することで、マルチエージェント法はエージェント数とうまくスケールし、シングルエージェント版と比較して8エージェントのハード衝突率を最大57%削減する。

This paper addresses the task of joint multi-agent perception and planning, especially as it relates to the real-world challenge of collision-free navigation for connected self-driving vehicles. For this task, several communication-enabled vehicles must navigate through a busy intersection while avoiding collisions with each other and with obstacles. To this end, this paper proposes a learnable costmap-based planning mechanism, given raw perceptual data, that is (1) distributed, (2) uncertainty-aware, and (3) bandwidth-efficient. Our method produces a costmap and uncertainty-aware entropy map to sort and fuse candidate trajectories as evaluated across multiple-agents. The proposed method demonstrates several favorable performance trends on a suite of open-source overhead datasets as well as within a novel communication-critical simulator. It produces accurate semantic occupancy forecasts as an intermediate perception output, attaining a 72.5% average pixel-wise classification accuracy. By selecting the top trajectory, the multi-agent method scales well with the number of agents, reducing the hard collision rate by up to 57% with eight agents compared to the single-agent version.
翻訳日:2023-03-13 14:05:35 公開日:2023-03-10
# Exphormer:グラフ用のスパーストランスフォーマー

Exphormer: Sparse Transformers for Graphs ( http://arxiv.org/abs/2303.06147v1 )

ライセンス: Link先を確認
Hamed Shirzad, Ameya Velingker, Balaji Venkatachalam, Danica J. Sutherland, Ali Kemal Sinop(参考訳) グラフトランスフォーマーは、様々なグラフ学習と表現タスクのための有望なアーキテクチャとして登場した。 しかし、その成功にもかかわらず、メッセージパッシングネットワークと競合する精度を維持しながら、グラフトランスフォーマーを大きなグラフにスケールすることは依然として困難である。 本稿では,パワフルでスケーラブルなグラフ変換器を構築するためのフレームワークであるExphormerを紹介する。 Exphormer は2つのメカニズムに基づくスパースアテンション機構で構成されている。仮想グローバルノードと拡張グラフは、スペクトル展開、pseduorandomness、sparsity などの数学的特徴を持ち、グラフのサイズが線形な複雑なグラフ変換器を出力し、結果の変換器モデルの理論的特性を合理的に証明する。 最近提案されたGraphGPSフレームワークに \textsc{Exphormer} を組み込むことで,3つのデータセットの最先端結果を含む多種多様なグラフデータセット上で,競合的な実験結果を持つモデルが生成されることを示す。 また,従来のグラフトランスフォーマーアーキテクチャよりも大きなグラフ上のデータセットにスケールできることを示す。 コードはhttps://github.com/hamed1375/Exphormerにある。

Graph transformers have emerged as a promising architecture for a variety of graph learning and representation tasks. Despite their successes, though, it remains challenging to scale graph transformers to large graphs while maintaining accuracy competitive with message-passing networks. In this paper, we introduce Exphormer, a framework for building powerful and scalable graph transformers. Exphormer consists of a sparse attention mechanism based on two mechanisms: virtual global nodes and expander graphs, whose mathematical characteristics, such as spectral expansion, pseduorandomness, and sparsity, yield graph transformers with complexity only linear in the size of the graph, while allowing us to prove desirable theoretical properties of the resulting transformer models. We show that incorporating \textsc{Exphormer} into the recently-proposed GraphGPS framework produces models with competitive empirical results on a wide variety of graph datasets, including state-of-the-art results on three datasets. We also show that \textsc{Exphormer} can scale to datasets on larger graphs than shown in previous graph transformer architectures. Code can be found at https://github.com/hamed1375/Exphormer.
翻訳日:2023-03-13 13:59:44 公開日:2023-03-10
# StyleGANEX:StyleGANベースの顔操作

StyleGANEX: StyleGAN-Based Manipulation Beyond Cropped Aligned Faces ( http://arxiv.org/abs/2303.06146v1 )

ライセンス: Link先を確認
Shuai Yang, Liming Jiang, Ziwei Liu, Chen Change Loy(参考訳) StyleGANを用いた顔操作の最近の進歩は印象的な結果をもたらした。 しかし、StyleGANは本質的には、事前にトレーニングされている固定画像解像度で整列された顔に限られている。 本稿では,StyleGANの浅い層の受容場をモデルパラメータを変更することなく拡張畳み込みを用いて再スケールすることで,この制限に対する簡便かつ効果的な解を提案する。 これにより、浅い層に固定サイズの小さな特徴を拡張して、可変解像度を許容できる大きな特徴にすることができる。 実際の顔の反転と操作を可能にするために,拡張されたStyleGANの第一層機能と潜在スタイルコードを提供する対応するエンコーダを導入する。 本手法は,顔属性編集,超解像,スケッチ・マスク・ツー・フェイス翻訳,顔トーン化など,多様な顔操作タスクにおいて,様々な解像度の非整合入力を用いて有効性を検証する。

Recent advances in face manipulation using StyleGAN have produced impressive results. However, StyleGAN is inherently limited to cropped aligned faces at a fixed image resolution it is pre-trained on. In this paper, we propose a simple and effective solution to this limitation by using dilated convolutions to rescale the receptive fields of shallow layers in StyleGAN, without altering any model parameters. This allows fixed-size small features at shallow layers to be extended into larger ones that can accommodate variable resolutions, making them more robust in characterizing unaligned faces. To enable real face inversion and manipulation, we introduce a corresponding encoder that provides the first-layer feature of the extended StyleGAN in addition to the latent style code. We validate the effectiveness of our method using unaligned face inputs of various resolutions in a diverse set of face manipulation tasks, including facial attribute editing, super-resolution, sketch/mask-to-face translation, and face toonification.
翻訳日:2023-03-13 13:59:22 公開日:2023-03-10
# カメラビューの選択を学ぶ - 複数視点の効率的な理解

Learning to Select Camera Views: Efficient Multiview Understanding at Few Glances ( http://arxiv.org/abs/2303.06145v1 )

ライセンス: Link先を確認
Yunzhong Hou, Stephen Gould, Liang Zheng(参考訳) マルチビューカメラのセットアップは多くのコンピュータビジョンアプリケーションにおいて、曖昧さの低減、オクルージョンの緩和、視野のカバレッジの向上に有用であることが証明されている。 しかし、複数のビューに関連する高い計算コストは、計算資源が限られているエンドデバイスにとって大きな課題となる。 この問題に対処するために,与えられたビューから対象オブジェクトやシナリオを分析し,次に最適なビューを選択するビュー選択手法を提案する。 本手法は,強化学習によるカメラ選択モジュールmvselectを特徴とし,ビューの選択だけでなく,タスクネットワークとの協調学習も行う。 マルチビュー分類および検出タスクの実験結果から,提案手法はNのうち2~3つしか使用せず,計算コストを大幅に削減することを示す。 さらに、選択したビューを分析した結果、特定のカメラを性能への影響を最小限に抑え、将来のマルチビューシステムにおけるカメラレイアウト最適化に光を当てることが判明した。 コードはhttps://github.com/hou-yz/mvselectで入手できる。

Multiview camera setups have proven useful in many computer vision applications for reducing ambiguities, mitigating occlusions, and increasing field-of-view coverage. However, the high computational cost associated with multiple views poses a significant challenge for end devices with limited computational resources. To address this issue, we propose a view selection approach that analyzes the target object or scenario from given views and selects the next best view for processing. Our approach features a reinforcement learning based camera selection module, MVSelect, that not only selects views but also facilitates joint training with the task network. Experimental results on multiview classification and detection tasks show that our approach achieves promising performance while using only 2 or 3 out of N available views, significantly reducing computational costs. Furthermore, analysis on the selected views reveals that certain cameras can be shut off with minimal performance impact, shedding light on future camera layout optimization for multiview systems. Code is available at https://github.com/hou-yz/MVSelect.
翻訳日:2023-03-13 13:59:06 公開日:2023-03-10
# 自由視点照明とシーン構成のための物体中心神経散乱関数の学習

Learning Object-Centric Neural Scattering Functions for Free-viewpoint Relighting and Scene Composition ( http://arxiv.org/abs/2303.06138v1 )

ライセンス: Link先を確認
Hong-Xing Yu, Michelle Guo, Alireza Fathi, Yen-Yu Chang, Eric Ryan Chan, Ruohan Gao, Thomas Funkhouser, Jiajun Wu(参考訳) 2次元画像からのフォトリアリスティックオブジェクトの外観モデリングは、視覚とグラフィックスにおいて一定のトピックである。 ニューラルネットワークの暗黙的手法(ニューラルネットワークの放射場など)は高忠実度なビュー合成結果を示しているが、捕獲されたオブジェクトをリフレッシュすることはできない。 より最近のニューラルネットワークの逆レンダリング手法は、物体の照準を可能にするが、表面特性を単純なBRDFとして表すため、半透明物体を扱えない。 画像のみからオブジェクトの外観を再構築する学習のためのオブジェクト指向ニューラル散乱関数(OSF)を提案する。 OSFは、自由視点オブジェクトのリライトだけでなく、不透明なオブジェクトと半透明なオブジェクトの両方をモデル化できる。 半透明物体の地下光輸送を正確にモデル化することは、非常に複雑で、神経学的手法でも難解であるが、OSFは、遠方の光から任意の空間的位置における出射方向への放射移動を近似することを学ぶ。 この近似は、複雑な地下散乱を明示的にモデル化することを避け、ニューラルネットワークの暗黙モデルを学ぶことができる。 実データと合成データの実験により、OSFは不透明な物体と半透明な物体の両方の外観を正確に再構成し、忠実な自由視点のリライティングとシーン構成を可能にした。

Photorealistic object appearance modeling from 2D images is a constant topic in vision and graphics. While neural implicit methods (such as Neural Radiance Fields) have shown high-fidelity view synthesis results, they cannot relight the captured objects. More recent neural inverse rendering approaches have enabled object relighting, but they represent surface properties as simple BRDFs, and therefore cannot handle translucent objects. We propose Object-Centric Neural Scattering Functions (OSFs) for learning to reconstruct object appearance from only images. OSFs not only support free-viewpoint object relighting, but also can model both opaque and translucent objects. While accurately modeling subsurface light transport for translucent objects can be highly complex and even intractable for neural methods, OSFs learn to approximate the radiance transfer from a distant light to an outgoing direction at any spatial location. This approximation avoids explicitly modeling complex subsurface scattering, making learning a neural implicit model tractable. Experiments on real and synthetic data show that OSFs accurately reconstruct appearances for both opaque and translucent objects, allowing faithful free-viewpoint relighting as well as scene composition.
翻訳日:2023-03-13 13:58:48 公開日:2023-03-10
# マルチハンドライトワーク:複数並列進化戦略を用いたMAPエリートによる品質と多様性の向上

Multiple Hands Make Light Work: Enhancing Quality and Diversity using MAP-Elites with Multiple Parallel Evolution Strategies ( http://arxiv.org/abs/2303.06137v1 )

ライセンス: Link先を確認
Manon Flageat, Bryan Lim, Antoine Cully(参考訳) ハードウェアアクセラレータとその対応するツールの開発により、いくつかのアプリケーションで高速かつ大規模に並列な評価を行うことで、評価はより安価になる。 この進歩は、品質-多様性の最適化のような進化に触発されたアルゴリズムのランタイムを飛躍的に加速させ、スケールによるアルゴリズム的イノベーションの巨大な可能性を生み出した。 本研究では,高速並列評価のための進化戦略(ES)に基づく新しいQDアルゴリズムであるMAP-Elites-Multi-ES(MEMES)を提案する。 ME-Multi-ESは、既存のMAP-Elites-ESアルゴリズムの上に構築され、大規模な並列化を伴う複数の独立したESスレッドを維持することでスケールする。 また,独立系esの寿命を動的にリセットし,qd個体群の改善を自律的に最大化する手法を提案する。 我々は,MEMESが,世代別に比較した場合,既存の勾配ベースおよび客観的なQDアルゴリズムよりも優れていることを示す。 我々は、ブラックボックス最適化とqd強化学習タスクの両方でこの比較を行い、様々な問題やドメインにまたがるアプローチの利点を示す。 最後に,本手法は,他のQDアルゴリズムでは観測できない現象であるニッチ周辺でのフィットネスの最適化を可能にする。

With the development of hardware accelerators and their corresponding tools, evaluations have become more affordable through fast and massively parallel evaluations in some applications. This advancement has drastically sped up the runtime of evolution-inspired algorithms such as Quality-Diversity optimization, creating tremendous potential for algorithmic innovation through scale. In this work, we propose MAP-Elites-Multi-ES (MEMES), a novel QD algorithm based on Evolution Strategies (ES) designed for fast parallel evaluations. ME-Multi-ES builds on top of the existing MAP-Elites-ES algorithm, scaling it by maintaining multiple independent ES threads with massive parallelization. We also introduce a new dynamic reset procedure for the lifespan of the independent ES to autonomously maximize the improvement of the QD population. We show experimentally that MEMES outperforms existing gradient-based and objective-agnostic QD algorithms when compared in terms of generations. We perform this comparison on both black-box optimization and QD-Reinforcement Learning tasks, demonstrating the benefit of our approach across different problems and domains. Finally, we also find that our approach intrinsically enables optimization of fitness locally around a niche, a phenomenon not observed in other QD algorithms.
翻訳日:2023-03-13 13:58:27 公開日:2023-03-10
# 数百万人のユーザによるリアルタイムエンゲージメントのためのチャットボットのリワード

Rewarding Chatbots for Real-World Engagement with Millions of Users ( http://arxiv.org/abs/2303.06135v1 )

ライセンス: Link先を確認
Robert Irvine, Douglas Boubert, Vyas Raina, Adian Liusie, Vineet Mudupalli, Aliaksei Korshuk, Zongyi Liu, Fritz Cremer, Valentin Assassi, Christie-Carol Beauchamp, Xiaoding Lu, Thomas Rialan, William Beauchamp(参考訳) 事前訓練された大きな言語モデルの出現は、chitchatのための様々なソーシャルチャットボットの展開につながった。 これらのチャットボットは、言語能力と流用度を示すが、ユーザをエンゲージすることが保証されておらず、ユーザを維持するのに苦労する。 本研究では、ユーザエンゲージメントを優先して保持性を高めるソーシャルチャットボットの開発について検討し、特に高機能チャットボットを効率的に開発するためのヒューマンフィードバックの利用について検討する。 提案手法では,ユーザのインタラクションから収集した擬似ラベルを自動生成し,チャットボットモデルが生成したサンプル応答を推論時に拒否する報酬モデルをトレーニングする。 平均会話長(MCL)などの直感的評価指標がプロキシとして導入され、デプロイされたチャットボットのエンゲージメントのレベルを測定する。 Chai Researchプラットフォーム上の1万人の毎日のチャットボットユーザを対象にしたA/Bテストでは、このアプローチがMCLを最大70%増加させ、GPT-J 6Bモデルのユーザ保持率を30%以上向上させた。 今後の作業は、報酬モデルを使用してデータフライホイールを実現し、最新のユーザ会話を使用して、言語モデルと報酬モデルを交互に微調整することを目的としている。

The emergence of pretrained large language models has led to the deployment of a range of social chatbots for chitchat. Although these chatbots demonstrate language ability and fluency, they are not guaranteed to be engaging and can struggle to retain users. This work investigates the development of social chatbots that prioritize user engagement to enhance retention, specifically examining the use of human feedback to efficiently develop highly engaging chatbots. The proposed approach uses automatic pseudo-labels collected from user interactions to train a reward model that can be used to reject low-scoring sample responses generated by the chatbot model at inference time. Intuitive evaluation metrics, such as mean conversation length (MCL), are introduced as proxies to measure the level of engagement of deployed chatbots. A/B testing on groups of 10,000 new daily chatbot users on the Chai Research platform shows that this approach increases the MCL by up to 70%, which translates to a more than 30% increase in user retention for a GPT-J 6B model. Future work aims to use the reward model to realise a data fly-wheel, where the latest user conversations can be used to alternately fine-tune the language model and the reward model.
翻訳日:2023-03-13 13:58:06 公開日:2023-03-10
# ウォームスタートと量子コンピューティング:体系的マッピング研究

Warm-Starting and Quantum Computing: A Systematic Mapping Study ( http://arxiv.org/abs/2303.06133v1 )

ライセンス: Link先を確認
Felix Truger, Johanna Barzen, Marvin Bechtold, Martin Beisel, Frank Leymann, Alexander Mandl, Vladimir Yussupov(参考訳) 量子ビット数の少なさとエラーが発生しやすいため、ノイズの多い中間スケール量子(nisq)コンピュータは、実行可能な量子アルゴリズムのサイズに制約を課している。 最先端の研究は、スクラッチから始めるのではなく、タスクにアプローチするための出発点として、既知のあるいは安価な近似、解、あるいはモデルを使用することで、これらの制限に対処する様々な技術を導入している。 いわゆるウォームスタート技術は、量子リソース消費を減らすことを目的としており、NISQコンピュータの能力に合ったアルゴリズムの設計を容易にする。 本研究では,量子コンピューティング領域におけるウォームスタート技術に関する科学文献を収集・分析する。 特に私たちは 一 系統地図研究の確立されたガイドラインを用いて、ウォームスタート技術に関する最先端研究の体系地図を作成すること。 (ii)当該技法の関連性を特定すること。 (iii)これらの性質に基づき、文献で識別される技法を拡張性分類法で分類する。 この結果は,研究分野の知見を提供し,量子ソフトウェア技術者がウォームスタートテクニックを分類し,実際に適用することを支援することを目的としている。 さらに,既存の作業の概要を提供し,研究ギャップの特定を容易にするため,ウォームスタートに関するさらなる研究の出発点となるかもしれない。

Due to low numbers of qubits and their error-proneness, Noisy Intermediate-Scale Quantum (NISQ) computers impose constraints on the size of quantum algorithms they can successfully execute. State-of-the-art research introduces various techniques addressing these limitations by utilizing known or inexpensively generated approximations, solutions, or models as a starting point to approach a task instead of starting from scratch. These so-called warm-starting techniques aim to reduce quantum resource consumption, thus facilitating the design of algorithms suiting the capabilities of NISQ computers. In this work, we collect and analyze scientific literature on warm-starting techniques in the quantum computing domain. In particular, we (i) create a systematic map of state-of-the-art research on warm-starting techniques using established guidelines for systematic mapping studies, (ii) identify relevant properties of such techniques, and (iii) based on these properties classify the techniques identified in the literature in an extensible classification scheme. Our results provide insights into the research field and aim to help quantum software engineers to categorize warm-starting techniques and apply them in practice. Moreover, our contributions may serve as a starting point for further research on the warm-starting topic since they provide an overview of existing work and facilitate the identification of research gaps.
翻訳日:2023-03-13 13:57:44 公開日:2023-03-10
# マルチモーダルトレーニングのためのシングルブランチネットワーク

Single-branch Network for Multimodal Training ( http://arxiv.org/abs/2303.06129v1 )

ライセンス: Link先を確認
Muhammad Saad Saeed, Shah Nawaz, Muhammad Haris Khan, Muhammad Zaigham Zaheer, Karthik Nandakumar, Muhammad Haroon Yousaf, Arif Mahmood(参考訳) ソーシャルメディアプラットフォームの急速な成長に伴い、ユーザーはオーディオ、画像、テキストを含む何十億ものマルチメディア投稿を共有している。 研究者は、マルチメディアデータを処理して、クロスモーダル検索、マッチング、検証といった課題を解決できる自律システムの構築に注力してきた。 既存の作業では、それぞれのモダリティの埋め込みを抽出するために別々のネットワークを使用している。 分岐ネットワークのモジュラー構造は、多数のマルチモーダルアプリケーションを作成する上で基本であり、複数のモダリティを扱うデファクトスタンダードとなっている。 対照的に,ユニモーダルの識別表現とマルチモーダルタスクをネットワークを変更することなく学習できる,新しいシングルブランチネットワークを提案する。 シングルブランチネットワークの重要な特徴は、パフォーマンスを犠牲にすることなく、シングルまたは複数モードでトレーニングできることです。 提案したシングルブランチネットワークを,多モーダルな複数モーダル問題(対面音声アソシエーション)の相互検証と各種損失定式化によるタスクの整合性評価を行った。 実験結果から,提案したシングルブランチネットワークが既存手法よりも幅広い実験で優れていることが示された。 コード:https://github.com/msaadsaeed/SBNet

With the rapid growth of social media platforms, users are sharing billions of multimedia posts containing audio, images, and text. Researchers have focused on building autonomous systems capable of processing such multimedia data to solve challenging multimodal tasks including cross-modal retrieval, matching, and verification. Existing works use separate networks to extract embeddings of each modality to bridge the gap between them. The modular structure of their branched networks is fundamental in creating numerous multimodal applications and has become a defacto standard to handle multiple modalities. In contrast, we propose a novel single-branch network capable of learning discriminative representation of unimodal as well as multimodal tasks without changing the network. An important feature of our single-branch network is that it can be trained either using single or multiple modalities without sacrificing performance. We evaluated our proposed single-branch network on the challenging multimodal problem (face-voice association) for cross-modal verification and matching tasks with various loss formulations. Experimental results demonstrate the superiority of our proposed single-branch network over the existing methods in a wide range of experiments. Code: https://github.com/msaadsaeed/SBNet
翻訳日:2023-03-13 13:57:24 公開日:2023-03-10
# 原子と極性分子間の電荷-双極子相互作用によるライドバーグ封鎖の観測

Observation of Rydberg blockade due to the charge-dipole interaction between an atom and a polar molecule ( http://arxiv.org/abs/2303.06126v1 )

ライセンス: Link先を確認
Alexander Guttridge, Daniel K. Ruttley, Rosario Gonz\'alez-F\'erez, H. R. Sadeghpour, C. S. Adams and Simon L. Cornish(参考訳) 我々は、単一rb原子と単一rbcs分子との電荷-双極子相互作用により、ライドバーグの閉じ込めを示す。 この分子は、Rb+Cs原子対の磁気解離によって形成され、その後91(1)\%の効率で可解性基底状態に移される。 種特異的トワイザーは、原子と分子の分離を制御するために用いられる。 電荷-双極子相互作用は、原子-分子分離が310(40)$~nmに設定されると、rb(52s) rydberg状態への遷移を遮断する。 観測された励起ダイナミクスは、計算された相互作用ポテンシャルを用いたシミュレーションとよく一致している。 以上の結果から,rydberg原子を用いて個別に捕捉された分子間で量子情報が伝達されるハイブリッドプラットフォームが期待できる。

We demonstrate Rydberg blockade due to the charge-dipole interaction between a single Rb atom and a single RbCs molecule confined in optical tweezers. The molecule is formed by magnetoassociation of a Rb+Cs atom pair and subsequently transferred to the rovibrational ground state with an efficiency of 91(1)\%. Species-specific tweezers are used to control the separation between the atom and molecule. The charge-dipole interaction causes blockade of the transition to the Rb(52s) Rydberg state, when the atom-molecule separation is set to $310(40)$~nm. The observed excitation dynamics are in good agreement with simulations using calculated interaction potentials. Our results open up the prospect of a hybrid platform where quantum information is transferred between individually trapped molecules using Rydberg atoms.
翻訳日:2023-03-13 13:57:05 公開日:2023-03-10
# ローカルディスクリプタ学習のための自己指導型サンプルバランス

Self-supervised Training Sample Difficulty Balancing for Local Descriptor Learning ( http://arxiv.org/abs/2303.06124v1 )

ライセンス: Link先を確認
Jiahan Zhang and Dayong Tian(参考訳) 正と負のサンプルの不均衡の場合、ハード負のマイニング戦略は、モデルが正と負のサンプルの微妙な違いを学習し、認識性能を向上させるのに役立つことが示されている。 しかし、データセット内で厳密なマイニング戦略が推進されると、偽陰性サンプルを導入するリスクがある可能性がある。 一方、マイニング戦略の実装は、実際のデータセットにおけるサンプルの分散の困難さを損なうため、モデルがこれらの難しいサンプルを過剰に適合させる可能性がある。 そこで本研究では,高品質な負のサンプルを入手し,活用するために,採掘したサンプルの難易度をトレードオフする方法について検討し,損失関数とトレーニング戦略の両方の観点から問題を解こうと試みる。 提案手法は, 損失関数に対する自己監督的アプローチを組み合わせることで, 負のサンプルの品質を効果的に判別し, 動的勾配変調戦略を用いて, 異なる困難なサンプルに対してより微細な勾配調整を行う。 提案したアニーリングトレーニング戦略は, 負のサンプルマイニングから抽出したサンプルの難易度を制約し, 損失関数の難易度分布が異なるデータソースを提供し, モデルの訓練に難易度を低下させるサンプルを用いる。 広範な実験により、新しいディスクリプタは、パッチ検証、マッチング、検索タスクにおいて、以前の最先端ディスクリプタよりも優れています。

In the case of an imbalance between positive and negative samples, hard negative mining strategies have been shown to help models learn more subtle differences between positive and negative samples, thus improving recognition performance. However, if too strict mining strategies are promoted in the dataset, there may be a risk of introducing false negative samples. Meanwhile, the implementation of the mining strategy disrupts the difficulty distribution of samples in the real dataset, which may cause the model to over-fit these difficult samples. Therefore, in this paper, we investigate how to trade off the difficulty of the mined samples in order to obtain and exploit high-quality negative samples, and try to solve the problem in terms of both the loss function and the training strategy. The proposed balance loss provides an effective discriminant for the quality of negative samples by combining a self-supervised approach to the loss function, and uses a dynamic gradient modulation strategy to achieve finer gradient adjustment for samples of different difficulties. The proposed annealing training strategy then constrains the difficulty of the samples drawn from negative sample mining to provide data sources with different difficulty distributions for the loss function, and uses samples of decreasing difficulty to train the model. Extensive experiments show that our new descriptors outperform previous state-of-the-art descriptors for patch validation, matching, and retrieval tasks.
翻訳日:2023-03-13 13:56:49 公開日:2023-03-10
# grounding dino: オープンセット物体検出のための grounded pre-training と dino の結婚

Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection ( http://arxiv.org/abs/2303.05499v2 )

ライセンス: Link先を確認
Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang(参考訳) そこで本稿では,TransformerをベースとしたDINOと事前学習を併用し,カテゴリ名や参照表現などの入力によって任意の物体を検出可能な,Grounding DINOと呼ばれるオープンセットオブジェクト検出器を提案する。 オープンセットオブジェクト検出の重要な解決策は、オープンセット概念一般化のためのクローズドセット検出器に言語を導入することである。 言語と視覚のモダリティを効果的に融合するために,概念的にクローズドセット検出器を3つのフェーズに分け,特徴エンハンサー,言語案内クエリ選択,クロスモダリティ融合のためのクロスモダリティデコーダを含む密接な融合ソリューションを提案する。 先行研究は,新しいカテゴリのオープンセット物体検出を主に評価する一方で,属性で指定された対象に対する参照表現理解の評価も行う。 DINOはCOCO、LVIS、ODinW、RefCOCO/+/gのベンチマークを含む3つの設定で非常によく機能する。 グラウンディングDINOはCOCO検出ゼロショット転送ベンチマーク(つまりCOCOからのトレーニングデータなしで)で52.5ドルのAPを達成している。 odinw zero-shotベンチマークに26.1$ apという新記録を樹立した。 コードは \url{https://github.com/IDEA-Research/GroundingDINO} で入手できる。

In this paper, we present an open-set object detector, called Grounding DINO, by marrying Transformer-based detector DINO with grounded pre-training, which can detect arbitrary objects with human inputs such as category names or referring expressions. The key solution of open-set object detection is introducing language to a closed-set detector for open-set concept generalization. To effectively fuse language and vision modalities, we conceptually divide a closed-set detector into three phases and propose a tight fusion solution, which includes a feature enhancer, a language-guided query selection, and a cross-modality decoder for cross-modality fusion. While previous works mainly evaluate open-set object detection on novel categories, we propose to also perform evaluations on referring expression comprehension for objects specified with attributes. Grounding DINO performs remarkably well on all three settings, including benchmarks on COCO, LVIS, ODinW, and RefCOCO/+/g. Grounding DINO achieves a $52.5$ AP on the COCO detection zero-shot transfer benchmark, i.e., without any training data from COCO. It sets a new record on the ODinW zero-shot benchmark with a mean $26.1$ AP. Code will be available at \url{https://github.com/IDEA-Research/GroundingDINO}.
翻訳日:2023-03-13 11:25:10 公開日:2023-03-10
# 深層ロボットアプライアンス学習の最近の進歩:強化学習の視点から

Recent Advances of Deep Robotic Affordance Learning: A Reinforcement Learning Perspective ( http://arxiv.org/abs/2303.05344v2 )

ライセンス: Link先を確認
Xintong Yang, Ze Ji, Jing Wu, Yu-kun Lai(参考訳) 心理学の分野で提案された一般的な概念として、余裕は人間が環境を理解し、交流できる重要な能力の1つとみなされてきた。 簡単に言えば、特定の対象またはより一般的には環境の一部に適用されるエージェントの作用の可能性と効果をキャプチャする。 本稿では,ロボット作業を支援するために,手頃な価格の概念を用いたデータ駆動型手法を開発することを目的とした,近年の深層ロボットアベイランス学習(DRAL)の成果を概観する。 まず、これらの論文を強化学習(RL)の観点から分類し、RLと余裕の関連性を引き出す。 各カテゴリの技術的な詳細を議論し、その限界を特定する。 さらにそれらを要約し、観察、行動、余裕表現、データ収集、実世界の展開といった側面から将来の課題を特定します。 最後に最終意見が述べられ、任意の行動の結果の予測を含むためにrlベースのアフォーアンス定義の将来的な方向性を提案する。

As a popular concept proposed in the field of psychology, affordance has been regarded as one of the important abilities that enable humans to understand and interact with the environment. Briefly, it captures the possibilities and effects of the actions of an agent applied to a specific object or, more generally, a part of the environment. This paper provides a short review of the recent developments of deep robotic affordance learning (DRAL), which aims to develop data-driven methods that use the concept of affordance to aid in robotic tasks. We first classify these papers from a reinforcement learning (RL) perspective, and draw connections between RL and affordances. The technical details of each category are discussed and their limitations identified. We further summarise them and identify future challenges from the aspects of observations, actions, affordance representation, data-collection and real-world deployment. A final remark is given at the end to propose a promising future direction of the RL-based affordance definition to include the predictions of arbitrary action consequences.
翻訳日:2023-03-13 11:24:45 公開日:2023-03-10
# BaDLAD: 大規模マルチドメインのBengaliドキュメントレイアウト分析データセット

BaDLAD: A Large Multi-Domain Bengali Document Layout Analysis Dataset ( http://arxiv.org/abs/2303.05325v2 )

ライセンス: Link先を確認
Md. Istiak Hossain Shihab, Md. Rakibul Hasan, Mahfuzur Rahman Emon, Syed Mobassir Hossen, Md. Nazmuddoha Ansary, Intesur Ahmed, Fazle Rabbi Rakib, Shahriar Elahi Dhruvo, Souhardya Saha Dip, Akib Hasan Pavel, Marsia Haque Meghla, Md. Rezwanul Haque, Sayma Sultana Chowdhury, Farig Sadeque, Tahsin Reasat, Ahmed Imtiaz Humayun, Asif Shahriyar Sushmit(参考訳) 過去10年間、深層学習に基づくベンガル光文字認識(OCR)の努力が続けられてきたが、大規模な文書レイアウト分析(DLA)データセットが欠如しているため、OCRの文書の書き起こし、例えば、歴史文書や新聞の書き起こしが妨げられている。 さらに、現在実際に使用されているルールベースのDLAシステムは、ドメインのバリエーションや配布外レイアウトに対して堅牢ではない。 この目的のために、最初のマルチドメイン大規模Bengali Document Layout Analysis Dataset: BaDLADを提案する。 このデータセットには、6つのドメインから33,695人の注釈付きドキュメントサンプルが含まれている。 i)本及び雑誌 二 パブリックドメインのgovt。 書類や 三 解放戦争文書 iv) 新聞 v) 歴史新聞,及び vi) プロパティの処理, テキストボックス, 段落, 画像, テーブルの4つの単位タイプに対する710Kポリゴンアノテーション 英語DLAのための既存の最先端ディープラーニングアーキテクチャのパフォーマンスをベンチマークする予備実験を通じて、深層学習に基づくベンガル文書デジタル化モデルのトレーニングにおけるデータセットの有効性を実証する。

While strides have been made in deep learning based Bengali Optical Character Recognition (OCR) in the past decade, the absence of large Document Layout Analysis (DLA) datasets has hindered the application of OCR in document transcription, e.g., transcribing historical documents and newspapers. Moreover, rule-based DLA systems that are currently being employed in practice are not robust to domain variations and out-of-distribution layouts. To this end, we present the first multidomain large Bengali Document Layout Analysis Dataset: BaDLAD. This dataset contains 33,695 human annotated document samples from six domains - i) books and magazines, ii) public domain govt. documents, iii) liberation war documents, iv) newspapers, v) historical newspapers, and vi) property deeds, with 710K polygon annotations for four unit types: text-box, paragraph, image, and table. Through preliminary experiments benchmarking the performance of existing state-of-the-art deep learning architectures for English DLA, we demonstrate the efficacy of our dataset in training deep learning based Bengali document digitization models.
翻訳日:2023-03-13 11:24:27 公開日:2023-03-10
# RMMDet:自動運転のための道路側マルチタイプ・マルチグループセンサ検出システム

RMMDet: Road-Side Multitype and Multigroup Sensor Detection System for Autonomous Driving ( http://arxiv.org/abs/2303.05203v2 )

ライセンス: Link先を確認
Xiuyu Yang, Zhuangyan Zhang, Haikuo Du, Sui Yang, Fengping Sun, Yanbo Liu, Ling Pei, Wenchao Xu, Weiqi Sun, Zhengyu Li(参考訳) 人工知能のおかげで、自律運転は大きな進歩を遂げ、単一のセンサーやマルチセンサー検出方法を含む、車両のエンドターゲット検出のための多くの高度な手法が提案されている。 しかし、実際の交通状況の複雑さと多様性は、これらの手法を実際の道路状況でどのように利用するかを検討する必要がある。 本稿では、自動運転のための道路側マルチタイプ・マルチグループセンサ検出システムであるrmmdetを提案する。 実環境,特にセンサの物理的および機能的構成をシミュレーションするために,ROSベースの仮想環境を用いる。 そして、この環境でミューティ型センサ検出とマルチグループセンサー融合を実装し、結果レベル融合に基づくカメラレーダーとカメラライダー検出を行う。 ローカルデータセットと実際のサンドテーブルフィールドを作成し、様々な実験を行います。 さらに,マルチエージェント協調スケジューリングシステムと融合検出システムとをリンクする。 これにより、路側知覚、融合検出、スケジューリング計画により路側検出システム全体が形成される。 実験の結果, RMMDetシステムは自動車と道路の協調と最適化において重要な役割を担っていることがわかった。 コードと補足資料は、https://github.com/orangesodahub/rmmdetにある。

Autonomous driving has now made great strides thanks to artificial intelligence, and numerous advanced methods have been proposed for vehicle end target detection, including single sensor or multi sensor detection methods. However, the complexity and diversity of real traffic situations necessitate an examination of how to use these methods in real road conditions. In this paper, we propose RMMDet, a road-side multitype and multigroup sensor detection system for autonomous driving. We use a ROS-based virtual environment to simulate real-world conditions, in particular the physical and functional construction of the sensors. Then we implement muti-type sensor detection and multi-group sensors fusion in this environment, including camera-radar and camera-lidar detection based on result-level fusion. We produce local datasets and real sand table field, and conduct various experiments. Furthermore, we link a multi-agent collaborative scheduling system to the fusion detection system. Hence, the whole roadside detection system is formed by roadside perception, fusion detection, and scheduling planning. Through the experiments, it can be seen that RMMDet system we built plays an important role in vehicle-road collaboration and its optimization. The code and supplementary materials can be found at: https://github.com/OrangeSodahub/RMMDet
翻訳日:2023-03-13 11:24:07 公開日:2023-03-10
# DDS3D: 半スーパービジョン3次元物体検出のための動的閾値付き高密度擬似ラベル

DDS3D: Dense Pseudo-Labels with Dynamic Threshold for Semi-Supervised 3D Object Detection ( http://arxiv.org/abs/2303.05079v2 )

ライセンス: Link先を確認
Jingyu Li, Zhe Liu, Jinghua Hou, Dingkang Liang(参考訳) 本稿では,DDS3Dという簡易かつ効果的な半教師付き3次元物体検出器を提案する。 私たちの主な貢献は2倍です。 一方,非最大抑制 (nms) やその変種を用いたスパース擬似ラベルを得るための従来の作品と異なり,学生ネットワークの監視情報を多く保持できる密集した擬似ラベル生成戦略を提案する。 一方,従来の固定しきい値の代わりに擬似ラベルを生成する動的しきい値法を提案し,学習過程全体における擬似ラベルの品質と量を保証する。 この2つのコンポーネントの利点により、dds3dは、歩行者の3.1%、サイクリストの2.1%という、最先端の半教師付き3dオブジェクト検出よりも優れています。 KITTIデータセットの大規模なアブレーション研究は、我々のDDS3Dの有効性を実証している。 コードとモデルはhttps://github.com/hust-jy/DDS3Dで公開される。

In this paper, we present a simple yet effective semi-supervised 3D object detector named DDS3D. Our main contributions have two-fold. On the one hand, different from previous works using Non-Maximal Suppression (NMS) or its variants for obtaining the sparse pseudo labels, we propose a dense pseudo-label generation strategy to get dense pseudo-labels, which can retain more potential supervision information for the student network. On the other hand, instead of traditional fixed thresholds, we propose a dynamic threshold manner to generate pseudo-labels, which can guarantee the quality and quantity of pseudo-labels during the whole training process. Benefiting from these two components, our DDS3D outperforms the state-of-the-art semi-supervised 3d object detection with mAP of 3.1% on the pedestrian and 2.1% on the cyclist under the same configuration of 1% samples. Extensive ablation studies on the KITTI dataset demonstrate the effectiveness of our DDS3D. The code and models will be made publicly available at https://github.com/hust-jy/DDS3D
翻訳日:2023-03-13 11:23:48 公開日:2023-03-10
# ハイゼンベルク限界における癌細胞の量子顕微鏡

Quantum Microscopy of Cancer Cells at the Heisenberg Limit ( http://arxiv.org/abs/2303.04948v2 )

ライセンス: Link先を確認
Zhe He, Yide Zhang, Xin Tong, Lei Li, Lihong V. Wang(参考訳) 絡み合った双光子源は非古典的特性を示し、ゴーストイメージング、量子ホログラフィー、量子光コヒーレンストモグラフィーなどの新しいイメージング技術に応用されている。 現在までの広視野量子イメージングの開発は、低空間分解能、速度、コントラスト-ノイズ比(CNR)によって妨げられている。 本稿では,既存の広視野量子イメージング法に比べて,ハイゼンベルク限界での超解像をかなり高速かつcnrで行えるように,バランスのとれた経路長の一致による量子顕微鏡(qmc)を提案する。 QMCは2本の交叉光子が2本の腕で対称な経路を横断し、半分の波長を持つ1本の光子のように振る舞うことで2倍の分解能が向上する。 同時に、QMCは古典的な信号の最大155倍の強度の光に抵抗する。 QMCにおける二光子の低強度および絡み合い特性は非破壊的生体イメージングを約束する。 QMCは、がん細胞のバイオイメージングに向けた速度とCNRを大幅に改善し、量子イメージングを顕微鏡レベルまで進める。 平衡長の配置がハイゼンベルク限界における量子エンハンス同時撮像の道筋を照らすことを実験的に理論的に証明した。

Entangled biphoton sources exhibit nonclassical characteristics and have been applied to novel imaging techniques such as ghost imaging, quantum holography, and quantum optical coherence tomography. The development of wide-field quantum imaging to date has been hindered by low spatial resolutions, speeds, and contrast-to-noise ratios (CNRs). Here, we present quantum microscopy by coincidence (QMC) with balanced pathlengths, which enables super-resolution imaging at the Heisenberg limit with substantially higher speeds and CNRs than existing wide-field quantum imaging methods. QMC benefits from a configuration with balanced pathlengths, where a pair of entangled photons traversing symmetric paths with balanced optical pathlengths in two arms behave like a single photon with half the wavelength, leading to 2-fold resolution improvement. Concurrently, QMC resists stray light up to 155 times stronger than classical signals. The low intensity and entanglement features of biphotons in QMC promise nondestructive bioimaging. QMC advances quantum imaging to the microscopic level with significant improvements in speed and CNR toward bioimaging of cancer cells. We experimentally and theoretically prove that the configuration with balanced pathlengths illuminates an avenue for quantum-enhanced coincidence imaging at the Heisenberg limit.
翻訳日:2023-03-13 11:23:29 公開日:2023-03-10
# しわ方向検出によるロボット布の平滑化

Robotic Fabric Flattening with Wrinkle Direction Detection ( http://arxiv.org/abs/2303.04909v2 )

ライセンス: Link先を確認
Yulei Qiu, Jihong Zhu, Cosimo Della Santina, Michael Gienger, Jens Kober(参考訳) Deformable Object Manipulation (DOM) は, 自動布地処理, ケーブルルーティング, 外科手術などの実用化に寄与する重要な研究分野である。 知覚は複雑なダイナミクスと変形可能な物体の自由度によってdomの主要な課題の1つと考えられている。 本稿では,Gaborフィルタを用いた新しい画像処理アルゴリズムを開発し,布から有用な特徴を抽出し,これに基づいて布地平滑化作業の戦略を考案する。 全体フレームワークを実験的に評価し、3人の人間オペレータと比較した。 その結果,本アルゴリズムは実際のロボット実験とシミュレーションにおいて,布上のしわの方向を正確に決定できることがわかった。 さらに,提案アルゴリズムが提案するdewrinking戦略を用いてフラット化タスクを実行するロボットは,他のベースライン手法と比較して性能を満足させる。 実験ビデオはhttps://sites.google.com/view/robotic-fabric-flattening/homeで閲覧できる。

Deformable Object Manipulation (DOM) is an important field of research as it contributes to practical tasks such as automatic cloth handling, cable routing, surgical operation, etc. Perception is considered one of the major challenges in DOM due to the complex dynamics and high degree of freedom of deformable objects. In this paper, we develop a novel image-processing algorithm based on Gabor filters to extract useful features from cloth, and based on this, devise a strategy for cloth flattening tasks. We evaluate the overall framework experimentally, and compare it with three human operators. The results show that our algorithm can determine the direction of wrinkles on the cloth accurately in the simulation as well as the real robot experiments. Besides, the robot executing the flattening tasks using the dewrinkling strategy given by our algorithm achieves satisfying performance compared to other baseline methods. The experiment video is available on https://sites.google.com/view/robotic-fabric-flattening/home
翻訳日:2023-03-13 11:23:03 公開日:2023-03-10
# 超伝導量子プロセッサにおける周波数衝突の緩和

Mitigation of frequency collisions in superconducting quantum processors ( http://arxiv.org/abs/2303.04663v2 )

ライセンス: Link先を確認
Amr Osman, Jorge Fern\`andez-Pend\`as, Christopher Warren, Sandoko Kosen, Marco Scigliuzzo, Anton Frisk Kockum, Giovanna Tancredi, Anita Fadavi Roudsari, and Jonas Bylander(参考訳) 量子ビットパラメータの再現性は超伝導量子プロセッサのスケールアップの課題である。 信号クロストークは隣接するキュービット間の周波数分離に制約を課す。 製造過程から発生するトランスモン量子ビットの周波数不確かさは、ジョセフソン接合部の偏差、トンネル障壁厚およびキュービットコンデンサに起因する。 より大きなジョセフソン接合を作製し, 耐候性の標準偏差を2%まで低減することにより, これらの変動に対する感度を低下させる。 我々は、32個の同一のトランスモン量子ビットを特徴付け、40mhzの標準偏差(すなわち1%)と200万以上のクビット品質因子を持つクビット周波数の再現性を示す。 我々は2レベル系(TLS)分光を行い、キュービット緩和を引き起こすTLSの数が顕著に増加しない。 さらに、パラメトリックゲートアーキテクチャーと、量子ビット周波数の不確実性に起因する誤差のみを考慮し、平均3回の量子ゲート遷移周波数の衝突で最大100量子ビットまでスケールできることをシミュレーションにより示し、2%のクロストークと99.9%のターゲットゲート忠実性を仮定した。

The reproducibility of qubit parameters is a challenge for scaling up superconducting quantum processors. Signal crosstalk imposes constraints on the frequency separation between neighboring qubits. The frequency uncertainty of transmon qubits arising from the fabrication process is attributed to deviations in the Josephson junction area, tunnel barrier thickness, and the qubit capacitor. We decrease the sensitivity to these variations by fabricating larger Josephson junctions and reduce the wafer-level standard deviation in resistance down to 2%. We characterize 32 identical transmon qubits and demonstrate the reproducibility of the qubit frequencies with a 40 MHz standard deviation (i.e. 1%) with qubit quality factors exceeding 2 million. We perform two-level-system (TLS) spectroscopy and observe no significant increase in the number of TLSs causing qubit relaxation. We further show by simulation that for our parametric-gate architecture, and accounting only for errors caused by the uncertainty of the qubit frequency, we can scale up to 100 qubits with an average of only 3 collisions between quantum-gate transition frequencies, assuming 2% crosstalk and 99.9% target gate fidelity.
翻訳日:2023-03-13 11:22:49 公開日:2023-03-10
# dulda:pet画像再構成のための教師なし学習降下アルゴリズム

DULDA: Dual-domain Unsupervised Learned Descent Algorithm for PET image reconstruction ( http://arxiv.org/abs/2303.04661v2 )

ライセンス: Link先を確認
Rui Hu, Yunmei Chen, Kyungsang Kim, Marcio Aloisio Bezerra Cavalcanti Rockenbach, Quanzheng Li, Huafeng Liu(参考訳) 近年,ディープラーニングに基づくPET画像再構成手法が有望な成果を上げている。 しかし、これらの手法の多くは、高品質なトレーニングラベルの可用性に大きく依存する教師あり学習パラダイムに従っている。 特に、PETスキャンに伴う長時間の走査時間と高い放射線曝露は、このラベルを得るのを非現実的にする。 本稿では, 画像ラベルを必要とせず, 高品質なPET画像から高画質なPET画像を再構成する, 学習精度の高いアルゴリズムに基づく2領域非教師付きPET画像再構成手法を提案する。 具体的には、PET画像再構成問題に対して、学習可能なl2,1ノルムを用いて近位勾配法をアンロールする。 トレーニングは、深部画像に基づく測定領域の損失と回転同値性に基づく画像領域の損失を用いて教師なしである。 実験により,提案手法の性能は,最大推定予測最大化(MLEM),全変量正規化EM(EM-TV),深部画像優先法(DIP)と比較して向上した。

Deep learning based PET image reconstruction methods have achieved promising results recently. However, most of these methods follow a supervised learning paradigm, which rely heavily on the availability of high-quality training labels. In particular, the long scanning time required and high radiation exposure associated with PET scans make obtaining this labels impractical. In this paper, we propose a dual-domain unsupervised PET image reconstruction method based on learned decent algorithm, which reconstructs high-quality PET images from sinograms without the need for image labels. Specifically, we unroll the proximal gradient method with a learnable l2,1 norm for PET image reconstruction problem. The training is unsupervised, using measurement domain loss based on deep image prior as well as image domain loss based on rotation equivariance property. The experimental results domonstrate the superior performance of proposed method compared with maximum likelihood expectation maximazation (MLEM), total-variation regularized EM (EM-TV) and deep image prior based method (DIP).
翻訳日:2023-03-13 11:22:28 公開日:2023-03-10