このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230316となっている論文です。

PDF登録状況(公開日: 20230316)

TitleAuthorsAbstract論文公表日・翻訳日
# 児童ストーリーブックにおけるアートワークの自動配置

Automatic Geo-alignment of Artwork in Children's Story Books ( http://arxiv.org/abs/2304.01204v1 )

ライセンス: Link先を確認
Jakub J. Dylag, Victor Suarez, James Wald, Aneesha Amodini Uvara(参考訳) AIソフトウェアが人間の介入なしにイラストの翻訳と生成に使えることを証明するための研究が実施された。 これは、外部の顧客であるPratham Booksに見せ、配布することを目的として行われた。 このプロジェクトは、機械学習アルゴリズムの一般化とスケーラビリティを活用することで同社のビジョンと整合し、様々な地理的な場所で幅広い文学読者に大幅なコスト効率の向上を提供する。 比較研究手法を用いて, キーワード, クリップ埋め込みマスク, クロスアテンション制御, 編集プロンプトを用いて, 提案する3つの手法のうち, 最良性能評価手法について検討した。 定量と定性の両方を用いて徹底的な評価プロセスが完了した。 それぞれの手法には強みと弱みがあったが, 評価の結果, 1法が最も収率のよい結果が得られた。 今後,大規模言語モデルとパーソナライズされたスタイリスティックモデルを組み込むことで,画像の質の向上が期待できる。 提案手法は,デジタルウェブブックにおける新しいイラストレーションのためのビデオおよび3D彫刻生成にも適用可能である。

A study was conducted to prove AI software could be used to translate and generate illustrations without any human intervention. This was done with the purpose of showing and distributing it to the external customer, Pratham Books. The project aligns with the company's vision by leveraging the generalisation and scalability of Machine Learning algorithms, offering significant cost efficiency increases to a wide range of literary audiences in varied geographical locations. A comparative study methodology was utilised to determine the best performant method out of the 3 devised, Prompt Augmentation using Keywords, CLIP Embedding Mask, and Cross Attention Control with Editorial Prompts. A thorough evaluation process was completed using both quantitative and qualitative measures. Each method had its own strengths and weaknesses, but through the evaluation, method 1 was found to have the best yielding results. Promising future advancements may be made to further increase image quality by incorporating Large Language Models and personalised stylistic models. The presented approach can also be adapted to Video and 3D sculpture generation for novel illustrations in digital webbooks.
翻訳日:2023-04-09 05:45:22 公開日:2023-03-16
# 大規模言語モデルは算術タスクでどれくらいうまく機能するのか?

How well do Large Language Models perform in Arithmetic tasks? ( http://arxiv.org/abs/2304.02015v1 )

ライセンス: Link先を確認
Zheng Yuan, Hongyi Yuan, Chuanqi Tan, Wei Wang, Songfang Huang(参考訳) 数学の単語問題に段階的に答えるチェーンオブ思考を含む、大きな言語モデルが出現した。 数学用語の問題を解くには、チェーン・オブ・シントを介して問題を分解する能力だけでなく、各ステップの算術式を正しく計算する必要がある。 私たちの知る限りでは、大きな言語モデルの算術能力を評価することに注力する作業はありません。 本稿では,gpt-4, chatgpt, instrctgpt, galactica, llamaを含む最新の大規模言語モデルに対して,様々な算術式を用いた算術データセット math 401 を提案し,大規模言語モデルの能力の詳細な解析を行う。 MATH 401と評価コードは \url{https://github.com/GanjinZero/math401-llm} でリリースされている。

Large language models have emerged abilities including chain-of-thought to answer math word problems step by step. Solving math word problems not only requires abilities to disassemble problems via chain-of-thought but also needs to calculate arithmetic expressions correctly for each step. To the best of our knowledge, there is no work to focus on evaluating the arithmetic ability of large language models. In this work, we propose an arithmetic dataset MATH 401 to test the latest large language models including GPT-4, ChatGPT, InstrctGPT, Galactica, and LLaMA with various arithmetic expressions and provide a detailed analysis of the ability of large language models. MATH 401 and evaluation codes are released at \url{https://github.com/GanjinZero/math401-llm}.
翻訳日:2023-04-09 05:37:05 公開日:2023-03-16
# 支配のマトリックスを決定づける:AIフェアネスにおける間欠性の批判的レビューと再想像

Factoring the Matrix of Domination: A Critical Review and Reimagination of Intersectionality in AI Fairness ( http://arxiv.org/abs/2303.17555v1 )

ライセンス: Link先を確認
Anaelia Ovalle, Arjun Subramonian, Vagrant Gautam, Gilbert Gee, Kai-Wei Chang(参考訳) 交叉性(intersectionality)は、調査とpraxisを通じて、構造と規律のドメインを通じて社会的不平等がいかに持続するかを検証できる重要なフレームワークである。 AIフェアネスのレイゾンd'\^etre of ``fairness''を考えると、フェアネスを効果的に運用するためには、交差性を分析的枠組みとして採用することが重要であると論じる。 AIフェアネス文学の30の論文において、交叉性がどのように議論されるかという批判的なレビューを通じて、私たちは誘惑的に、帰納的に。 1)AIフェアネスパラダイム内での交差性テレットの運用方法のマップ化 2)交差性の概念化と運用化のギャップを明らかにする。 研究者らは、集団的サブグループよりも公平な指標を最適化するために、圧倒的に交差性を減らしている。 また、彼らの社会的状況についても議論せず、権力について言及する場合、主にAIパイプライン内でのみ議論する。 私たち 3)批判的調査・実施におけるこれらのギャップの影響の概要と評価 4)AIフェアネス研究者に対して,AI認識学に基礎を置くことで,作業の交差性に関わるための行動可能なレコメンデーションを提供する。

Intersectionality is a critical framework that, through inquiry and praxis, allows us to examine how social inequalities persist through domains of structure and discipline. Given AI fairness' raison d'\^etre of ``fairness,'' we argue that adopting intersectionality as an analytical framework is pivotal to effectively operationalizing fairness. Through a critical review of how intersectionality is discussed in 30 papers from the AI fairness literature, we deductively and inductively: 1) map how intersectionality tenets operate within the AI fairness paradigm and 2) uncover gaps between the conceptualization and operationalization of intersectionality. We find that researchers overwhelmingly reduce intersectionality to optimizing for fairness metrics over demographic subgroups. They also fail to discuss their social context and when mentioning power, they mostly situate it only within the AI pipeline. We: 3) outline and assess the implications of these gaps for critical inquiry and praxis, and 4) provide actionable recommendations for AI fairness researchers to engage with intersectionality in their work by grounding it in AI epistemology.
翻訳日:2023-04-02 18:11:40 公開日:2023-03-16
# Uni-Mol+を用いた高精度量子化学特性予測

Highly Accurate Quantum Chemical Property Prediction with Uni-Mol+ ( http://arxiv.org/abs/2303.16982v1 )

ライセンス: Link先を確認
Shuqi Lu, Zhifeng Gao, Di He, Linfeng Zhang, Guolin Ke(参考訳) 近年の深層学習の進歩は、密度汎関数理論のような高価な電子構造計算の必要性をなくし、量子化学(qc)特性の予測を高速化する上で大きな進歩を遂げている。 しかし,1次元スマイル配列や2次元分子グラフに依存する従来の手法では,qc特性は主に電子構造法で最適化された3次元平衡配座に依存するため,高精度化には至らなかった。 本稿では,Uni-Mol+と呼ばれる新しいアプローチを提案する。 まず、2dの分子グラフが与えられると、uni-mol+はrdkitのような安価な方法から最初の3dコンフォメーションを生成する。 次に、初期コンフォーメーションを平衡コンフォーメーションに反復的に最適化し、最適化コンフォーメーションをqc特性の予測にも用いる。 これらのステップはすべて、Transformerモデルを使用して自動的に学習される。 最適化されたコンフォーメーションの品質はQC特性予測性能に不可欠である。 コンフォーメーションを効果的に最適化するため、2トラックトランスフォーメーションモデルのバックボーンをuni-mol+に導入し、qc特性予測タスクと共にトレーニングする。 また,uni-mol+学習プロセスの適切な監督を確保するために,線形軌道インジェクションと呼ばれる新しいトレーニング手法を設計した。 提案したUni-Mol+がQC特性予測の精度を大幅に向上することを示す。 コードとモデルは、 \url{https://github.com/dptech-corp/Uni-Mol}で公開しました。

Recent developments in deep learning have made remarkable progress in speeding up the prediction of quantum chemical (QC) properties by removing the need for expensive electronic structure calculations like density functional theory. However, previous methods that relied on 1D SMILES sequences or 2D molecular graphs failed to achieve high accuracy as QC properties are primarily dependent on the 3D equilibrium conformations optimized by electronic structure methods. In this paper, we propose a novel approach called Uni-Mol+ to tackle this challenge. Firstly, given a 2D molecular graph, Uni-Mol+ generates an initial 3D conformation from inexpensive methods such as RDKit. Then, the initial conformation is iteratively optimized to its equilibrium conformation, and the optimized conformation is further used to predict the QC properties. All these steps are automatically learned using Transformer models. We observed the quality of the optimized conformation is crucial for QC property prediction performance. To effectively optimize conformation, we introduce a two-track Transformer model backbone in Uni-Mol+ and train it together with the QC property prediction task. We also design a novel training approach called linear trajectory injection to ensure proper supervision for the Uni-Mol+ learning process. Our extensive benchmarking results demonstrate that the proposed Uni-Mol+ significantly improves the accuracy of QC property prediction. We have made the code and model publicly available at \url{https://github.com/dptech-corp/Uni-Mol}.
翻訳日:2023-04-02 18:10:05 公開日:2023-03-16
# 連続空間確率ゲームのための分散マルチエージェント強化学習

Decentralized Multi-Agent Reinforcement Learning for Continuous-Space Stochastic Games ( http://arxiv.org/abs/2303.13539v1 )

ライセンス: Link先を確認
Awni Altabaa, Bora Yongacoglu, Serdar Y\"uksel(参考訳) 確率ゲームはマルチエージェント強化学習(MARL)を研究するための一般的なフレームワークである。 MARLの最近の進歩は、主に有限状態のゲームに焦点を当てている。 本研究では,一般状態空間を持つ確率ゲームにおけるマルチエージェント学習と,エージェント同士の行動を観察しない情報構造について検討する。 この文脈では,分散marlアルゴリズムを提案し,ポリシー更新のほぼ最適性を証明する。 さらに,ベストリプライベースアルゴリズムの一般クラスにおける大域的政策上昇ダイナミクスを研究し,合同政策空間上の収束確率の閉形式的特徴付けを導出する。

Stochastic games are a popular framework for studying multi-agent reinforcement learning (MARL). Recent advances in MARL have focused primarily on games with finitely many states. In this work, we study multi-agent learning in stochastic games with general state spaces and an information structure in which agents do not observe each other's actions. In this context, we propose a decentralized MARL algorithm and we prove the near-optimality of its policy updates. Furthermore, we study the global policy-updating dynamics for a general class of best-reply based algorithms and derive a closed-form characterization of convergence probabilities over the joint policy space.
翻訳日:2023-03-31 16:25:49 公開日:2023-03-16
# ロボットの誤動作とレトリックトロープの感覚形成。 人間が言いたいことのオントロジーを作る

A robot's sense-making of fallacies and rhetorical tropes. Creating ontologies of what humans try to say ( http://arxiv.org/abs/1906.09689v2 )

ライセンス: Link先を確認
Johan F. Hoorn and Denice J. Tuinhof(参考訳) ユーザフレンドリーなロボットの設計においては、人間のコミュニケーションは単なる論理と文字通りの意味を超えたシステムで理解されるべきである。 ロボットのコミュニケーション設計は、コミュニケーションと丁寧な規則の重要性を長い間無視してきた。 非文学的・非文学的文の心理的原因の分析,信号検出,基本帰属誤り,人為的類型の分析を通じて,フレーゲの参照と感覚の区別,ベスのテーブルー分析,Griceの質の最大性,そしてロボットが時々理解できない要求を丁寧に理解するための認識論的考察を生かした,誤認とトロープのためのフェールセーフプロトコルを開発した。 キーワード:社会ロボット、論理的誤認、比喩、参照、感覚、品質の最大性、テーブルー推論、仮想の疫学

In the design of user-friendly robots, human communication should be understood by the system beyond mere logics and literal meaning. Robot communication-design has long ignored the importance of communication and politeness rules that are 'forgiving' and 'suspending disbelief' and cannot handle the basically metaphorical way humans design their utterances. Through analysis of the psychological causes of illogical and non-literal statements, signal detection, fundamental attribution errors, and anthropomorphism, we developed a fail-safe protocol for fallacies and tropes that makes use of Frege's distinction between reference and sense, Beth's tableau analytics, Grice's maxim of quality, and epistemic considerations to have the robot politely make sense of a user's sometimes unintelligible demands. Keywords: social robots, logical fallacies, metaphors, reference, sense, maxim of quality, tableau reasoning, epistemics of the virtual
翻訳日:2023-03-25 04:32:49 公開日:2023-03-16
# 非定常関数のオンライン学習のための連続ガウス過程

Sequential Gaussian Processes for Online Learning of Nonstationary Functions ( http://arxiv.org/abs/1905.10003v4 )

ライセンス: Link先を確認
Michael Minyi Zhang, Bianca Dumitrascu, Sinead A. Williamson, Barbara E. Engelhardt(参考訳) 多くの機械学習問題は、推定関数の文脈でフレーム化することができ、観測が到着するとリアルタイムで推定される時間依存関数であることが多い。 ガウス過程(GP)は、その柔軟性と不確かさの定量化のため、実数値非線形関数をモデル化するための魅力的な選択である。 しかし、典型的なgp回帰モデルにはいくつかの欠点がある。 1) 従来のGP推論は,観測数に関して$O(N^{3})$をスケールする。 2)GPモデルを逐次更新することは自明ではない。 3) 共分散核は通常、機能に定常性制約を課すが、非定常共分散核を持つgpsは実際には使用できないことが多い。 これらの問題を克服するために、オンラインの分散推論を可能としながら、非定常挙動を捉えるGPの無限混合に適合するシーケンシャルモンテカルロアルゴリズムを提案する。 本手法は,時系列データに非定常性が存在する場合,オンラインgp推定における最先端手法の性能を実証的に改善する。 提案手法を応用したオンラインガウシアンプロセスミックス・オブ・エキスパート・アプローチの有用性を実証するために,オンラインガウシアンプロセスバンドレットを用いた最適化アルゴリズムを必要十分実装できることを示す。

Many machine learning problems can be framed in the context of estimating functions, and often these are time-dependent functions that are estimated in real-time as observations arrive. Gaussian processes (GPs) are an attractive choice for modeling real-valued nonlinear functions due to their flexibility and uncertainty quantification. However, the typical GP regression model suffers from several drawbacks: 1) Conventional GP inference scales $O(N^{3})$ with respect to the number of observations; 2) Updating a GP model sequentially is not trivial; and 3) Covariance kernels typically enforce stationarity constraints on the function, while GPs with non-stationary covariance kernels are often intractable to use in practice. To overcome these issues, we propose a sequential Monte Carlo algorithm to fit infinite mixtures of GPs that capture non-stationary behavior while allowing for online, distributed inference. Our approach empirically improves performance over state-of-the-art methods for online GP estimation in the presence of non-stationarity in time-series data. To demonstrate the utility of our proposed online Gaussian process mixture-of-experts approach in applied settings, we show that we can sucessfully implement an optimization algorithm using online Gaussian process bandits.
翻訳日:2023-03-25 04:31:18 公開日:2023-03-16
# オンラインネットワーク構造変化検出のためのスペクトルCUSUM

Spectral CUSUM for Online Network Structure Change Detection ( http://arxiv.org/abs/1910.09083v8 )

ライセンス: Link先を確認
Minghe Zhang, Liyan Xie, Yao Xie(参考訳) 騒々しい観測からネットワークのコミュニティ構造の急激な変化を検出することは、統計学と機械学習の基本的な問題である。 本稿では,一般確率比統計を用いて未知のネットワーク構造変化を検出するために,spectrum-cusumと呼ばれるオンライン変化検出アルゴリズムを提案する。 スペクトルCUSUM法における平均ラン長(ARL)と予測検出遅延(EDD)を特徴付け,その漸近的最適性を証明する。 最後に, センサネットワークデータを用いた地震イベント検出におけるシミュレーションと実データ例を用いて, スペクトル・キュースム法の性能を複数のベースライン法と比較する。

Detecting abrupt changes in the community structure of a network from noisy observations is a fundamental problem in statistics and machine learning. This paper presents an online change detection algorithm called Spectral-CUSUM to detect unknown network structure changes through a generalized likelihood ratio statistic. We characterize the average run length (ARL) and the expected detection delay (EDD) of the Spectral-CUSUM procedure and prove its asymptotic optimality. Finally, we demonstrate the good performance of the Spectral-CUSUM procedure and compare it with several baseline methods using simulations and real data examples on seismic event detection using sensor network data.
翻訳日:2023-03-25 04:24:14 公開日:2023-03-16
# 物理理論の自己検証、あるいは、量子理論は情報処理タスクに関して最適か?

Self-testing of physical theories, or, is quantum theory optimal with respect to some information-processing task? ( http://arxiv.org/abs/2003.00349v4 )

ライセンス: Link先を確認
Mirjam Weilenmann and Roger Colbeck(参考訳) 自己テスト(英: self-testing)は、通常、量子論によって正確に記述された過程を通じて生じると仮定される観測された相関のセットを、量子状態と測定値の推測を試みるタスクを指す。 言い換えれば、量子ブラックボックスデバイスは入力出力の振る舞いだけを見て何をしているのかを判断できるかどうかという問題であり、いくつかのケースで可能であることが知られている。 ここでは、より一般的な質問を紹介する: 理論、特に量子論を自己テストすることは可能か? より正確には、特定の因果構造の中に、任意のシナリオにおいて量子力学と同じ相関を持つ理論でしか実行できないタスクがあるかどうかを問う。 このような相関自己テストの候補課題を提示し、これを一般化確率論(GPT)の範囲で分析し、いずれも量子理論より優れているものではないことを示す。 我々の結果の一般化により、全ての非量子 GPT は量子力学より厳密に劣っていることが示され、量子論の公理化の新しい方法が示され、同時にそのような GPT を規制する実験を可能にする。

Self-testing usually refers to the task of taking a given set of observed correlations that are assumed to arise via a process that is accurately described by quantum theory, and trying to infer the quantum state and measurements. In other words it is concerned with the question of whether we can tell what quantum black-box devices are doing by looking only at their input-output behaviour and is known to be possible in several cases. Here we introduce a more general question: is it possible to self-test a theory, and, in particular, quantum theory? More precisely, we ask whether within a particular causal structure there are tasks that can only be performed in theories that have the same correlations as quantum mechanics in any scenario. We present a candidate task for such a correlation self-test and analyse it in a range of generalised probabilistic theories (GPTs), showing that none of these perform better than quantum theory. A generalisation of our results showing that all non-quantum GPTs are strictly inferior to quantum mechanics for this task would point to a new way to axiomatise quantum theory, and enable an experimental test that simultaneously rules out such GPTs.
翻訳日:2023-03-25 04:15:32 公開日:2023-03-16
# 複数の衝突対を見つけるための量子時間空間トレードオフ

Quantum Time-Space Tradeoff for Finding Multiple Collision Pairs ( http://arxiv.org/abs/2002.08944v5 )

ライセンス: Link先を確認
Yassine Hamoudi and Fr\'ed\'eric Magniez(参考訳) 量子コンピュータを用いてランダム関数 $f : [n] \rightarrow [n]$ において、k$衝突対を見つける問題を調べる。 我々は、利用可能なメモリのサイズが限られている場合、量子ランダムオラクルモデルの関数へのクエリ数が著しく増加することを証明します。 すなわち、$s$ qubitsのメモリを使用するアルゴリズムは、$t^3 s \geq \omega(k^3 n)$を満たす数$t$のクエリを実行しなければならない。 古典的には、Dinur [Eurocrypt'20] は、ファン・オースコートとウィーナーの並列衝突探索アルゴリズムが、T^2 S = \Theta(K^2 N)$の最適時間空間トレードオフを達成することを示した。 我々の結果は、量子コンピューティングがこのトレードオフを減らしうる範囲を制限する。 本手法は,Zhandry's recording query technique [Crypto'19] を用いて,指数的に小さな成功確率系における下界の証明を行う。 第2の応用として、Klauck, \v{S}palek と de Wolf [K\v{S}W07] によって最初に得られた量子コンピュータ上の$N$数値をソートするための時間空間トレードオフ $T^2 S \geq \Omega(N^3)$ のより単純な証明を与える。

We study the problem of finding $K$ collision pairs in a random function $f : [N] \rightarrow [N]$ by using a quantum computer. We prove that the number of queries to the function in the quantum random oracle model must increase significantly when the size of the available memory is limited. Namely, we demonstrate that any algorithm using $S$ qubits of memory must perform a number $T$ of queries that satisfies the tradeoff $T^3 S \geq \Omega(K^3 N)$. Classically, the same question has only been settled recently by Dinur [Eurocrypt'20], who showed that the Parallel Collision Search algorithm of van Oorschot and Wiener achieves the optimal time-space tradeoff of $T^2 S = \Theta(K^2 N)$. Our result limits the extent to which quantum computing may decrease this tradeoff. Our method is based on a novel application of Zhandry's recording query technique [Crypto'19] for proving lower bounds in the exponentially small success probability regime. As a second application, we give a simpler proof of the time-space tradeoff $T^2 S \geq \Omega(N^3)$ for sorting $N$ numbers on a quantum computer, which was first obtained by Klauck, \v{S}palek and de Wolf [K\v{S}W07].
翻訳日:2023-03-25 04:15:11 公開日:2023-03-16
# 適応クレーター・ホルン・シモニー・ホルトゲームにおける量子理論の相関自己検定に向けて

Towards correlation self-testing of quantum theory in the adaptive Clauser-Horne-Shimony-Holt game ( http://arxiv.org/abs/2009.05069v3 )

ライセンス: Link先を確認
Mirjam Weilenmann and Roger Colbeck(参考訳) 理論の相関自己テストは、特定の情報処理タスクのパフォーマンスから理論で実現可能な相関の集合を特定できるかどうかという問題に対処する。 量子論に適用すると、任意の因果構造における量子理論と同じ相関性を実現する理論によってのみ最適性能が達成される情報処理タスクを特定することが目的である。 125 060406 (2020) [Phys. Rev. Lett. 125 060406 (2020)] では、適応型CHSHゲームとして候補タスクを導入した。 ここでは,このゲームに勝つ最大確率を一般化確率理論で解析する。 基本系が様々な2次元状態空間を持つ理論における他のテンソル積を考える前に、極小あるいは極大テンソル積によって与えられる合同状態空間を持つ理論は量子論より劣っていることを示す。 これらのことから、適応型CHSHゲームにおいて量子理論より優れているという理論は見つからず、様々なケースで量子性能を回復することは不可能である。 これは、成功すれば幅広い結果が得られるという一般的な解への第一歩であり、特に、実現可能な相関の集合が量子集合と一致しないすべての理論を除外できる実験を可能にする。

Correlation self-testing of a theory addresses the question of whether we can identify the set of correlations realisable in a theory from its performance in a particular information processing task. Applied to quantum theory it aims to identify an information processing task whose optimal performance is achieved only by theories realising the same correlations as quantum theory in any causal structure. In [Phys. Rev. Lett. 125 060406 (2020)] we introduced a candidate task for this, the adaptive CHSH game. Here, we analyse the maximum probability of winning this game in different generalised probabilistic theories. We show that theories with a joint state space given by the minimal or the maximal tensor product are inferior to quantum theory, before considering other tensor products in theories whose elementary systems have various two-dimensional state spaces. For these, we find no theories that outperform quantum theory in the adaptive CHSH game and prove that it is impossible to recover the quantum performance in various cases. This is the first step towards a general solution that, if successful, will have wide-ranging consequences, in particular, enabling an experiment that could rule out all theories in which the set of realisable correlations does not coincide with the quantum set.
翻訳日:2023-03-25 04:04:51 公開日:2023-03-16
# 位相相に対するガッピングハミルトニアンのモジュライ空間の位相について

On Topology of the Moduli Space of Gapped Hamiltonians for Topological Phases ( http://arxiv.org/abs/2211.16535v2 )

ライセンス: Link先を確認
Po-Shen Hsin, Zhenghan Wang(参考訳) 同じ位相位相にあるギャップ付きハミルトニアンのモジュライ空間は、トポロジカル順序に関連付けられた固有の対象である。 これらのモジュライ空間の位相は、最近フロケ符号の構成に使われている。 これらのモジュライ空間の位相を研究するための体系的プログラムを提案する。 特に、有効場理論を用いてこれらの空間のコホモロジークラスを研究し、ベリー位相を包含し一般化する。 相転移の研究へのいくつかの応用について論じる。 同じ位相次数のガッピング系の非自明な族は位相図において孤立相転移を保護できることを示し、位相的欠陥のスクリーニングによって位相遷移が特徴づけられると主張する。 ギャップ付きシステムの族は、バルク境界対応のバージョンに従うと主張する。 同一位相次数のバルクにおけるガッピング系の族は、同じ位相境界条件を持つ境界上のガッピング系の族を排除でき、境界上の相転移を制限できることを示した。

The moduli space of gapped Hamiltonians that are in the same topological phase is an intrinsic object that is associated to the topological order. The topology of these moduli spaces is used recently in the construction of Floquet codes. We propose a systematical program to study the topology of these moduli spaces. In particular, we use effective field theory to study the cohomology classes of these spaces, which includes and generalizes the Berry phase. We discuss several applications to studying phase transitions. We show that nontrivial family of gapped systems with the same topological order can protect isolated phase transitions in the phase diagram, and we argue that the phase transitions are characterized by screening of topological defects. We argue that family of gapped systems obey a version of bulk-boundary correspondence. We show that family of gapped systems in the bulk with the same topological order can rule out family of gapped systems on the boundary with the same topological boundary condition, constraining phase transitions on the boundary.
翻訳日:2023-03-25 03:46:43 公開日:2023-03-16
# 相互情報制約付きコントラスト条件付き変分オートエンコーダを用いたスタイル特徴抽出

Style Feature Extraction Using Contrastive Conditioned Variational Autoencoders with Mutual Information Constraints ( http://arxiv.org/abs/2303.08068v2 )

ライセンス: Link先を確認
Suguru Yasutomi, Toshihisa Tanaka(参考訳) ラベルのないデータからスタイルなどのきめ細かい特徴を抽出することは、データ分析に不可欠である。 変分オートエンコーダ(VAE)のような教師なしの手法は、通常他の特徴と混在するスタイルを抽出することができる。 条件付きVAE(CVAE)は、クラスラベルを用いてスタイルを分離することができるが、ラベルなしデータを用いてスタイルのみを抽出する確立した方法はない。 本稿では,未ラベルデータのみを用いてスタイル特徴を抽出するCVAE方式を提案する。 提案モデルは,スタイル非依存の特徴を抽出したコントラスト学習(cl)部分と,スタイル特徴を抽出するcvae部分からなる。 clモデルは、データ拡張とは独立に表現を学習するが、これはスタイルにおける摂動と見なすことができる。 事前訓練されたCLモデルのスタイルに依存しない特徴を条件として、CVAEはスタイルのみを抽出することを学ぶ。 さらに,CVAEが条件を無視しないように,CL特徴とVAE特徴の相互情報に基づく制約を導入する。 Google Fontsに基づく2つの単純なデータセットMNISTと元のデータセットを用いて実験を行い、提案手法が効率的にスタイル特徴を抽出できることを実証した。 実世界の自然画像データセットを用いたさらなる実験も行われた。

Extracting fine-grained features such as styles from unlabeled data is crucial for data analysis. Unsupervised methods such as variational autoencoders (VAEs) can extract styles that are usually mixed with other features. Conditional VAEs (CVAEs) can isolate styles using class labels; however, there are no established methods to extract only styles using unlabeled data. In this paper, we propose a CVAE-based method that extracts style features using only unlabeled data. The proposed model consists of a contrastive learning (CL) part that extracts style-independent features and a CVAE part that extracts style features. The CL model learns representations independent of data augmentation, which can be viewed as a perturbation in styles, in a self-supervised manner. Considering the style-independent features from the pretrained CL model as a condition, the CVAE learns to extract only styles. Additionally, we introduce a constraint based on mutual information between the CL and VAE features to prevent the CVAE from ignoring the condition. Experiments conducted using two simple datasets, MNIST and an original dataset based on Google Fonts, demonstrate that the proposed method can efficiently extract style features. Further experiments using real-world natural image datasets were also conducted to illustrate the method's extendability.
翻訳日:2023-03-25 03:35:20 公開日:2023-03-16
# 注意のない権威: マスク義務反応の背後にある道徳的価値

Authority without Care: Moral Values behind the Mask Mandate Response ( http://arxiv.org/abs/2303.12014v1 )

ライセンス: Link先を確認
Yelena Mejova, Kyrieki Kalimeri, Gianmarco De Francisci Morales(参考訳) マスクは、新型コロナウイルス(COVID-19)などの航空病に対して、最も安価で効果的な非医薬品介入の1つである。 残念なことに、特にアメリカ合衆国では人口のかなりの一部が抵抗に遭っている。 本研究では,マスク委任統治に対する反応の根底にある潜在的道徳的価値観を明らかにするとともに,国家の政治的背景に対処する。 マスクに関する議論はtwitterで7ヶ月で約6万人のユーザーが参加している。 グラフマイニング,自然言語処理,トピックモデリング,コンテンツ分析,時系列分析を組み合わせることで,好意者と反対者の両方のマスク命令に対する応答を特徴付ける。 我々は,モラル基礎理論とホフステデの文化的側面の理論的枠組みに基づく分析を行った。 以上の結果から,反マスクの姿勢は保守的な政治的傾倒と結びついているが,その支持者による道徳的価値観は,保守派が通常使うものとは異なっていた。 特に、権威と純粋性の価値に期待される強調は、グループ内の忠誠心の非定型的な欠如を伴う。 委任後、親マスク側と反マスク側は、他者に対する注意を減らし、権威と公平性への注意を増し、この問題をさらに政治的にすることを発見した。 さらに、マスク義務は、反マスク物語における個人主義の増加と、親マスク主義の低下とともに、両者間の個人主義・集団主義の表現を逆転させる。 対象者の根底にある価値観に敏感な効果的な公衆衛生キャンペーンを設計するには,道徳的位置決めのダイナミクスのモニタリングが不可欠である。

Face masks are one of the cheapest and most effective non-pharmaceutical interventions available against airborne diseases such as COVID-19. Unfortunately, they have been met with resistance by a substantial fraction of the populace, especially in the U.S. In this study, we uncover the latent moral values that underpin the response to the mask mandate, and paint them against the country's political backdrop. We monitor the discussion about masks on Twitter, which involves almost 600K users in a time span of 7 months. By using a combination of graph mining, natural language processing, topic modelling, content analysis, and time series analysis, we characterize the responses to the mask mandate of both those in favor and against them. We base our analysis on the theoretical frameworks of Moral Foundation Theory and Hofstede's cultural dimensions. Our results show that, while the anti-mask stance is associated with a conservative political leaning, the moral values expressed by its adherents diverge from the ones typically used by conservatives. In particular, the expected emphasis on the values of authority and purity is accompanied by an atypical dearth of in-group loyalty. We find that after the mandate, both pro- and anti-mask sides decrease their emphasis on care about others, and increase their attention on authority and fairness, further politicizing the issue. In addition, the mask mandate reverses the expression of Individualism-Collectivism between the two sides, with an increase of individualism in the anti-mask narrative, and a decrease in the pro-mask one. We argue that monitoring the dynamics of moral positioning is crucial for designing effective public health campaigns that are sensitive to the underlying values of the target audience.
翻訳日:2023-03-25 03:16:28 公開日:2023-03-16
# マルチモーダル変分オートエンコーダによる複数画像モダリティの規範的モデリング

Multi-modal Variational Autoencoders for normative modelling across multiple imaging modalities ( http://arxiv.org/abs/2303.12706v1 )

ライセンス: Link先を確認
Ana Lawry Aguila, James Chapman, Andre Altmann(参考訳) 一般的な神経疾患の研究の課題の1つは、疾患の多様性であり、原因の違い、神経画像の特徴、共生性、遺伝的変異などが含まれる。 規範的モデリングは、生理システムの「正常」な振る舞いがモデル化されるようなコホートを研究する一般的な方法となり、疾患の病理に関する偏差を検出するために被験者レベルで使用できる。 多くの異種疾患では、様々な神経画像および生物学的変数にまたがる異常を観察することを期待する。 しかし、これまでは単一のイメージングモダリティを研究するための規範モデルが主に開発されてきた。 我々は,複数モーダル変数間で異常を集約し,ユニモーダルベースラインよりも偏差を検出するマルチモーダル規範モデリングフレームワークを開発することを目的とする。 本稿では,T1およびDTIデータ間の主観レベルずれを検出するための2つのマルチモーダルVAE規範モデルを提案する。 提案モデルは, 基礎的アプローチよりも, 病人検出, 疾病重症度把握, 患者認知との関連性が良好であった。 また,多変量潜在空間の偏差を測定する多変量潜在空間偏差測定法を提案し,特徴量よりも優れていた。

One of the challenges of studying common neurological disorders is disease heterogeneity including differences in causes, neuroimaging characteristics, comorbidities, or genetic variation. Normative modelling has become a popular method for studying such cohorts where the 'normal' behaviour of a physiological system is modelled and can be used at subject level to detect deviations relating to disease pathology. For many heterogeneous diseases, we expect to observe abnormalities across a range of neuroimaging and biological variables. However, thus far, normative models have largely been developed for studying a single imaging modality. We aim to develop a multi-modal normative modelling framework where abnormality is aggregated across variables of multiple modalities and is better able to detect deviations than uni-modal baselines. We propose two multi-modal VAE normative models to detect subject level deviations across T1 and DTI data. Our proposed models were better able to detect diseased individuals, capture disease severity, and correlate with patient cognition than baseline approaches. We also propose a multivariate latent deviation metric, measuring deviations from the joint latent space, which outperformed feature-based metrics.
翻訳日:2023-03-25 03:07:28 公開日:2023-03-16
# マルチモーダルバイアス:視覚言語モデルにおけるジェンダーとレースを超えたステレオタイプバイアス評価フレームワークの導入

MultiModal Bias: Introducing a Framework for Stereotypical Bias Assessment beyond Gender and Race in Vision Language Models ( http://arxiv.org/abs/2303.12734v1 )

ライセンス: Link先を確認
Sepehr Janghorbani and Gerard de Melo(参考訳) 近年の自己教師型訓練の進歩は、事前訓練された視覚言語モデルの新しいクラスに繋がった。 マルチモーダルモデルのバイアスに関する調査は行われてきたが、それらは主に性別や人種のバイアスに焦点を当てており、宗教、国籍、性的指向、障害に関するマイノリティなどの他の関連グループへの注意を少なくしている。 これは主に、そのようなグループに適したベンチマークがないためである。 私たちは、約3,800の画像と14のサブグループをカバーするフレーズからなるmmbiasと呼ばれるビジュアルおよびテキストバイアスベンチマークを提供することで、このギャップに対処しようとしています。 このデータセットを用いて,クリップ,albef,vultなどの自己教師付きマルチモーダルモデルにおいてバイアスを評価する。 その結果,これらのモデルが特定のグループに有利な有意義なバイアスを示すことがわかった。 最後に,このような大規模事前学習モデルに特化して設計されたデバイアス法を導入し,残余の精度を保ちながら,バイアスを軽減するための後処理ステップとして適用することができる。

Recent breakthroughs in self supervised training have led to a new class of pretrained vision language models. While there have been investigations of bias in multimodal models, they have mostly focused on gender and racial bias, giving much less attention to other relevant groups, such as minorities with regard to religion, nationality, sexual orientation, or disabilities. This is mainly due to lack of suitable benchmarks for such groups. We seek to address this gap by providing a visual and textual bias benchmark called MMBias, consisting of around 3,800 images and phrases covering 14 population subgroups. We utilize this dataset to assess bias in several prominent self supervised multimodal models, including CLIP, ALBEF, and ViLT. Our results show that these models demonstrate meaningful bias favoring certain groups. Finally, we introduce a debiasing method designed specifically for such large pre-trained models that can be applied as a post-processing step to mitigate bias, while preserving the remaining accuracy of the model.
翻訳日:2023-03-25 02:59:28 公開日:2023-03-16
# 言語モデルにおける協調性のスケーラブルな評価に向けて

Towards the Scalable Evaluation of Cooperativeness in Language Models ( http://arxiv.org/abs/2303.13360v1 )

ライセンス: Link先を確認
Alan Chan, Maxime Rich\'e, Jesse Clifton(参考訳) 事前訓練された言語モデル(PLM)によって駆動されるAIシステムは、交渉や紛争解決など、他のエージェントとの高度な対話において、人間を支援するために、ますます使用されるようになるだろう。 協調型AI \citep{dafoe_open_2020} の目標と一致して,我々は PLM のマルチエージェント行動の理解と形成を社会的な方法で行おうとする。 重要な第一歩は、様々な協力問題におけるモデル行動の評価である。 インタラクションにおける望ましい振る舞いは、正確なゲーム理論の構造に依存するため、クラウドワーカーと言語モデルの両方で特定の構造を持つシナリオを生成することに焦点を合わせます。 我々の仕事は次のとおりである。 まず,特定のゲーム理論構造に対応するシナリオの生成における重要な方法論的問題について議論する。 第二に、このようなシナリオを生成するために、クラウドワーカーと言語モデルの両方を使用します。 どちらの場合も世代ごとの質は劣る傾向にある。 さらに、クラウドワーカーと言語モデルの両方に、与えられたシナリオが意図したゲーム理論構造と一致しているかを判断させ、ゲームに応じて混合結果を求める。 第3に、生成したデータに基づいてシナリオのデータセットを提供します。 本データセットでは,UnifiedQA と GPT-3 の定量および定性評価を行う。 インストラクションチューニングモデルでは,スケールアップ時に協調的と見なされる傾向があり,他のモデルではフラットなスケーリング傾向が見られた。

It is likely that AI systems driven by pre-trained language models (PLMs) will increasingly be used to assist humans in high-stakes interactions with other agents, such as negotiation or conflict resolution. Consistent with the goals of Cooperative AI \citep{dafoe_open_2020}, we wish to understand and shape the multi-agent behaviors of PLMs in a pro-social manner. An important first step is the evaluation of model behaviour across diverse cooperation problems. Since desired behaviour in an interaction depends upon precise game-theoretic structure, we focus on generating scenarios with particular structures with both crowdworkers and a language model. Our work proceeds as follows. First, we discuss key methodological issues in the generation of scenarios corresponding to particular game-theoretic structures. Second, we employ both crowdworkers and a language model to generate such scenarios. We find that the quality of generations tends to be mediocre in both cases. We additionally get both crowdworkers and a language model to judge whether given scenarios align with their intended game-theoretic structure, finding mixed results depending on the game. Third, we provide a dataset of scenario based on our data generated. We provide both quantitative and qualitative evaluations of UnifiedQA and GPT-3 on this dataset. We find that instruct-tuned models tend to act in a way that could be perceived as cooperative when scaled up, while other models seemed to have flat scaling trends.
翻訳日:2023-03-25 02:32:33 公開日:2023-03-16
# 機械読解における疑わしい質問によるベトナム語モデルの弱さの解明

Revealing Weaknesses of Vietnamese Language Models Through Unanswerable Questions in Machine Reading Comprehension ( http://arxiv.org/abs/2303.13355v1 )

ライセンス: Link先を確認
Son Quoc Tran, Phong Nguyen-Thuan Do, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen(参考訳) 多言語性の呪いは単言語環境で多言語モデルの言語能力を大幅に制限するが、研究者はベトナム語機械の理解において最先端のシステムを開発するために多言語モデルに頼る必要がある。 この研究の難しさはベトナム語モデルの開発において高品質な作品が限られているためである。 本研究のさらなる研究を促進するために,機械読解理解の下流タスクを用いて,現在のベトナム語単言語モデルの言語弱さと強みを包括的に分析した。 分析結果から,ベトナム語モデルの開発に向けた新しい方向性を提案する。 この貢献に加えて,ベトナム機械読解ベンチマークにおける人工物の存在を明らかにすることにも成功し,ベトナム機械読解の進展を追跡するための新たな高品質ベンチマークの必要性も示唆した。 また,従来の作業から,機械読解の不可解な質問に注釈を付けるプロセスに,小さながら価値ある修正を加えた。 提案手法は,機械読解システムにおいて解答不能な質問の品質を高いレベルの難易度に向上させるのに役立つ。

Although the curse of multilinguality significantly restricts the language abilities of multilingual models in monolingual settings, researchers now still have to rely on multilingual models to develop state-of-the-art systems in Vietnamese Machine Reading Comprehension. This difficulty in researching is because of the limited number of high-quality works in developing Vietnamese language models. In order to encourage more work in this research field, we present a comprehensive analysis of language weaknesses and strengths of current Vietnamese monolingual models using the downstream task of Machine Reading Comprehension. From the analysis results, we suggest new directions for developing Vietnamese language models. Besides this main contribution, we also successfully reveal the existence of artifacts in Vietnamese Machine Reading Comprehension benchmarks and suggest an urgent need for new high-quality benchmarks to track the progress of Vietnamese Machine Reading Comprehension. Moreover, we also introduced a minor but valuable modification to the process of annotating unanswerable questions for Machine Reading Comprehension from previous work. Our proposed modification helps improve the quality of unanswerable questions to a higher level of difficulty for Machine Reading Comprehension systems to solve.
翻訳日:2023-03-25 02:32:11 公開日:2023-03-16
# MNISTからImageNetへ:継続的なカリキュラム学習のベンチマーク

From MNIST to ImageNet and Back: Benchmarking Continual Curriculum Learning ( http://arxiv.org/abs/2303.11076v1 )

ライセンス: Link先を確認
Kamil Faber, Dominik Zurek, Marcin Pietron, Nathalie Japkowicz, Antonio Vergari, Roberto Corizzo(参考訳) 連続学習(CL)は最近の機械学習研究で最も有望なトレンドの一つである。 その目標は、機械学習の古典的な仮定を超えて、動的環境で高い堅牢性を示すモデルと学習戦略を開発することだ。 cl研究の展望は、異なる学習タスク、データセット、評価メトリクスを含むいくつかの学習評価プロトコルに断片化されている。 さらに、これまで採用されてきたベンチマークは、現実世界のシナリオの複雑さからはまだ離れていて、通常は特定の戦略に特有の機能を強調するように調整されています。 このような状況では、戦略を客観的に評価することは困難である。 本研究では、6つの画像データセットから複数の異種タスクを含む2つの新しいclベンチマークを導入することで、画像データに対するclのこのギャップを埋める。 我々の目標は、複雑な実世界のシナリオに近い共通基盤上で、最先端のCL戦略を適切に評価することである。 我々はまた、現在のCLモデルがタスク全体の構造を活用できるかどうかを評価するために、タスクが複雑性の増大と減少の順序で提示されるように、ベンチマークを構造化する。 我々は,学習中にモデルを一般化し,忘れないようにする,厳密で再現可能な評価プロトコルをCLコミュニティに提供することに特に重点を置いている。 さらに,一般的なCL戦略がベンチマークに挑戦した場合,サブパー性能,高いレベルの忘れ込み,カリキュラムタスクの順序付けを効果的に活用する能力に制限があることを示す実験的な評価を行った。 これらの結果は、将来のCL作業における厳密な比較の必要性と、より複雑なシナリオに対処できる新しいCL戦略を設計する方法を強調していると信じています。

Continual learning (CL) is one of the most promising trends in recent machine learning research. Its goal is to go beyond classical assumptions in machine learning and develop models and learning strategies that present high robustness in dynamic environments. The landscape of CL research is fragmented into several learning evaluation protocols, comprising different learning tasks, datasets, and evaluation metrics. Additionally, the benchmarks adopted so far are still distant from the complexity of real-world scenarios, and are usually tailored to highlight capabilities specific to certain strategies. In such a landscape, it is hard to objectively assess strategies. In this work, we fill this gap for CL on image data by introducing two novel CL benchmarks that involve multiple heterogeneous tasks from six image datasets, with varying levels of complexity and quality. Our aim is to fairly evaluate current state-of-the-art CL strategies on a common ground that is closer to complex real-world scenarios. We additionally structure our benchmarks so that tasks are presented in increasing and decreasing order of complexity -- according to a curriculum -- in order to evaluate if current CL models are able to exploit structure across tasks. We devote particular emphasis to providing the CL community with a rigorous and reproducible evaluation protocol for measuring the ability of a model to generalize and not to forget while learning. Furthermore, we provide an extensive experimental evaluation showing that popular CL strategies, when challenged with our benchmarks, yield sub-par performance, high levels of forgetting, and present a limited ability to effectively leverage curriculum task ordering. We believe that these results highlight the need for rigorous comparisons in future CL works as well as pave the way to design new CL strategies that are able to deal with more complex scenarios.
翻訳日:2023-03-21 15:36:20 公開日:2023-03-16
# Mobiprox: モバイルでの動的近似コンピューティングのサポート

Mobiprox: Supporting Dynamic Approximate Computing on Mobiles ( http://arxiv.org/abs/2303.11291v1 )

ライセンス: Link先を確認
Matev\v{z} Fabjan\v{c}i\v{c}, Octavian Machidon, Hashim Sharif, Yifan Zhao, Sa\v{s}a Misailovi\'c, Veljko Pejovi\'c(参考訳) 実行時変更可能なコンテキスト依存ネットワーク圧縮により、モバイルのディープラーニングは、しばしばリソースの可用性、入力の"難易度"、あるいはユーザニーズに適応できる。 既存の圧縮技術はディープラーニングのメモリ、処理、エネルギー税を大幅に削減するが、結果として得られたモデルは恒久的に障害を受ける傾向にあり、リソース使用量を減らすための推論パワーを犠牲にする。 一方、既存のチューニング可能な圧縮アプローチでは、高価な再トレーニングが必要であり、モバイル対応実装を提供することはほとんどなく、圧縮を適用するための任意の戦略をサポートしない。 本稿では,デバイス上での柔軟な深層学習を実現するフレームワークMobiproxを提案する。 Mobiproxはテンソル演算の調整可能な近似を実装し、個々のネットワーク層の実行時適応を可能にする。 Mobiproxに付属するプロファイラとチューナーは、リソースの最小使用量で所望の推論品質につながる最も有望なニューラルネットワーク近似構成を特定する。 さらに,入力データの難易度などの文脈要因に応じて,モデルの近似レベルを動的に調整する制御戦略を開発する。 我々はAndroid OSにMobiproxを実装し、人間の活動認識や音声キーワード検出など様々なモバイル領域の実験を通じて、推論精度に最小限の影響を伴って最大15%のシステム全体のエネルギーを節約できることを実証した。

Runtime-tunable context-dependent network compression would make mobile deep learning adaptable to often varying resource availability, input "difficulty", or user needs. The existing compression techniques significantly reduce the memory, processing, and energy tax of deep learning, yet, the resulting models tend to be permanently impaired, sacrificing the inference power for reduced resource usage. The existing tunable compression approaches, on the other hand, require expensive re-training, seldom provide mobile-ready implementations, and do not support arbitrary strategies for adapting the compression. In this paper we present Mobiprox, a framework enabling flexible-accuracy on-device deep learning. Mobiprox implements tunable approximations of tensor operations and enables runtime adaptation of individual network layers. A profiler and a tuner included with Mobiprox identify the most promising neural network approximation configurations leading to the desired inference quality with the minimal use of resources. Furthermore, we develop control strategies that depending on contextual factors, such as the input data difficulty, dynamically adjust the approximation level of a model. We implement Mobiprox in Android OS and through experiments in diverse mobile domains, including human activity recognition and spoken keyword detection, demonstrate that it can save up to 15% system-wide energy with a minimal impact on the inference accuracy.
翻訳日:2023-03-21 14:23:24 公開日:2023-03-16
# 損失共振器におけるマルチモード光-マター相互作用の証明

Certifying multi-mode light-matter interaction in lossy resonators ( http://arxiv.org/abs/2107.11775v4 )

ライセンス: Link先を確認
Dominik Lentrodt, Oliver Diekmann, Christoph H. Keitel, Stefan Rotter and J\"org Evers(参考訳) 少数モードマスター方程式に基づく量子モデルは共振器量子電磁力学の研究において中心的な道具であり、セミナル単一モードjaynes-cummingsモデルは損失や多重モードを含むように拡張されている。 幅広い適用範囲にもかかわらず、このフレームワークの以前のアプローチはマルコフ近似または適合手順に依存している。 擬似モード理論と準正規モード理論を組み合わせることで、損失共振器におけるマルチモード効果の認証基準を開発する。 これは観測可能な証人に基づいており、適合手順もマルコフ近似も必要としない。 その結果,マルチモード効果がm\"ossbauer核を用いたx線キャビティqedにおける従来実験の理解に重要であること,核アンサンブル特性のチューニングを可能にすることを実証した。

Quantum models based on few-mode Master equations have been a central tool in the study of resonator quantum electrodynamics, extending the seminal single-mode Jaynes-Cummings model to include loss and multiple modes. Despite their broad application range, previous approaches within this framework have either relied on a Markov approximation or a fitting procedure. By combining ideas from pseudomode and quasinormal mode theory, we develop a certification criterion for multi-mode effects in lossy resonators. It is based on a witness observable, and neither requires a fitting procedure nor a Markov approximation. Using the resulting criterion, we demonstrate that such multi-mode effects are important for understanding previous experiments in X-ray cavity QED with M\"ossbauer nuclei and that they allow one to tune the nuclear ensemble properties.
翻訳日:2023-03-20 23:37:34 公開日:2023-03-16
# ボルン・インフェルド電気力学における衝撃波と真空複屈折の欠如について

On the absence of shock waves and vacuum birefringence in Born-Infeld electrodynamics ( http://arxiv.org/abs/2107.12249v4 )

ライセンス: Link先を確認
Hedvika Kadlecov\'a(参考訳) ボルン-インフェルド電磁力学における2つの対向伝播電磁波の真空中相互作用について検討した。 まず、線形偏極ビームのボルンケースである${\bf e}\cdot{\bf b}=0$, i について検討する。 e. ボルン=インフェルドとボルン電磁力学と同一の$\mathfrak{G}^2=0$(交叉電場構成)は、非線形偏光ビームに対する一般的なボルン=インフェルドの場合、$\mathfrak{G}^2\neq0$である。 いずれの場合も、非線形場方程式は自己相似解を用いて分離し、衝撃波の形成を調べる。 唯一の非線形解は、一定の速度で伝播し、衝撃にはならない並外れた進行波解であることを示す。 ボルンの場合、反伝播(実光子-光子散乱)および共伝播(非相互作用)ビーム配向に対する例外波解を自然に取得し、伝播の方向について検討する。 ボルン=インフェルドの場合、我々はさらに、ボルンの場合における背景場の位相速度の限界に合致する一定位相速度を持つ解を選んだ。 2種類の例外波解を求め,どの位相速度が対向ビームや共伝播ビームに対応しているかを数値的に解析し,その後,例外波の伝播方向を決定する。

We study the interaction of two counter-propagating electromagnetic waves in vacuum in the Born-Infeld electrodynamics. First we investigate the Born case for linearly polarized beams, ${\bf E}\cdot{\bf B}=0$, i. e. $\mathfrak{G}^2=0$ (crossed field configuration), which is identical for Born-Infeld and Born electrodynamics; subsequently we study the general Born--Infeld case for beams which are nonlinearly polarized, $\mathfrak{G}^2\neq0$. In both cases, we show that the nonlinear field equations decouple using self-similar solutions and investigate the shock wave formation. We show that the only nonlinear solutions are exceptional travelling wave solutions which propagate with constant speed and which do not turn into shocks. In the Born case, we naturally obtain exceptional wave solutions for counter-propagating (real photon-photon scattering) and for a co-propagating (non-interacting) beam orientation we investigate their direction of propagation. In the Born--Infeld case, we have additionally chosen the solutions which have constant phase velocities to match the limits of phase velocities of the background field in the Born case. We obtain two types of exceptional wave solutions, then we numerically analyze which phase velocities correspond to the counter- or co-propagating beams and subsequently we determine the direction of propagation of the exceptional waves.
翻訳日:2023-03-20 21:19:18 公開日:2023-03-16
# 全ファイバープラットフォームを用いたフォトニック空間量子状態の動的生成

Dynamic generation of photonic spatial quantum states with an all-fiber platform ( http://arxiv.org/abs/2303.09593v1 )

ライセンス: Link先を確認
A. Alarc\'on, J. Argillander, D. Spegel-Lexne, and G. B. Xavier(参考訳) フォトニック空間量子状態は、量子通信の応用に大きな関心を寄せている。 重要な課題の1つは、光ファイバー部品のみでこれらの状態を動的に生成する方法である。 本稿では,線形偏極モードに基づいて,任意の一般横空間量子状態間を動的に切り替えることのできる全ファイバーシステムを提案する。 私たちのプラットフォームは、サニャック干渉計とフォトニックランタンと少数モード光ファイバを組み合わせた高速光スイッチをベースにしています。 5nsの順序で空間モード間のスイッチング時間を示し、我々のプラットフォームに基づく測定デバイス非依存(MDI)量子乱数生成器を実証することにより、量子技術への適用性を示す。 我々は15時間にわたってジェネレータを実行し、乱数13.46Gbit以上を取得し、MDIプロトコルに従って少なくとも60.52%がプライベートであることを保証する。 本研究は,光ファイバー部品のみを用いて空間モードを動的に生成する光子ランタンを用いて,その堅牢性や積分性から,光子古典情報処理や量子情報処理に重要な影響を与えることを示す。

Photonic spatial quantum states are a subject of great interest for applications in quantum communication. One important challenge has been how to dynamically generate these states using only fiber-optical components. Here we propose and experimentally demonstrate an all-fiber system that can dynamically switch between any general transverse spatial qubit state based on linearly polarized modes. Our platform is based on a fast optical switch based on a Sagnac interferometer combined with a photonic lantern and few-mode optical fibers. We show switching times between spatial modes on the order of 5 ns and demonstrate the applicability of our scheme for quantum technologies by demonstrating a measurement-device-independent (MDI) quantum random number generator based on our platform. We run the generator continuously over 15 hours, acquiring over 13.46 Gbits of random numbers, of which we ensure that at least 60.52% are private, following the MDI protocol. Our results show the use of photonic lanterns to dynamically create spatial modes using only fiber components, which due to their robustness and integration capabilities, have important consequences for photonic classical and quantum information processing.
翻訳日:2023-03-20 16:46:07 公開日:2023-03-16
# 量子臨界に対するゼロ曲率条件

Zero Curvature Condition for Quantum Criticality ( http://arxiv.org/abs/2303.09591v1 )

ライセンス: Link先を確認
Chaoming Song(参考訳) 量子臨界度は通常、従来のランダウパラダイムの境界外にある。 その重要性にもかかわらず、量子相転移のためにランダウ理論を置き換える一般的なパラダイムは存在しない。 本稿では,新しい幾何学的アプローチに基づく量子臨界性の新しいパラダイムを提案する。 微視的な順序に注目する代わりに、我々のアプローチは、期待値の境界幾何学を通して最もよく研究できる可換作用素の競合に焦点を当てている。 量子相転移は、この境界のゼロ曲率点において正確に発生し、競合する作用素が臨界点で最大に通勤していることを示す。

Quantum criticality typically lies outside the bounds of the conventional Landau paradigm. Despite its significance, there is currently no generic paradigm to replace the Landau theory for quantum phase transition, partly due to the rich variety of quantum orders. In this paper, we present a new paradigm of quantum criticality based on a novel geometric approach. Instead of focusing on microscopic orderings, our approach centers on the competition of commuting operators, which can be best investigated through the boundary geometry of their expectation values. We demonstrate that the quantum phase transition occurs precisely at the zero-curvature point on this boundary, which implies the competing operators are maximally commuting at the critical point.
翻訳日:2023-03-20 16:45:48 公開日:2023-03-16
# 表現学習と複合変数構築による多変量ネットワークの視覚分析

Visual Analytics of Multivariate Networks with Representation Learning and Composite Variable Construction ( http://arxiv.org/abs/2303.09590v1 )

ライセンス: Link先を確認
Hsiao-Ying Lu, Takanori Fujiwara, Ming-Yi Chang, Yang-chih Fu, Anders Ynnerman, Kwan-Liu Ma(参考訳) 多変量ネットワークは現実世界のデータ駆動アプリケーションで一般的に見られる。 多変量ネットワークにおける関心関係の解明と理解は簡単な作業ではない。 本稿では,多変量ネットワークを探索し,ネットワークの構造的特徴と意味的特徴の関連性(例えば,ソーシャルネットワークの密度に関連する属性の組み合わせ)を抽出するための視覚的分析ワークフローを提案する。 ワークフローは、選択された入出力属性に基づいてデータを分類するニューラルネットワークベースの学習フェーズと、試験のための簡易な結果セットを作成するための次元縮小および最適化フェーズと、最後に、対話的な可視化インターフェースを介してユーザが行う解釈フェーズとからなる。 ニューラルネットワークから得られる非線形特徴を直感的に解釈できる線形特徴にモデル化する複合変数構築ステップが,我々の設計の鍵となる。 このワークフローの機能を,ソーシャルメディアから派生したネットワークに関する複数のケーススタディで実証し,専門家のインタビューを通じてワークフローを評価する。

Multivariate networks are commonly found in real-world data-driven applications. Uncovering and understanding the relations of interest in multivariate networks is not a trivial task. This paper presents a visual analytics workflow for studying multivariate networks to extract associations between different structural and semantic characteristics of the networks (e.g., what are the combinations of attributes largely relating to the density of a social network?). The workflow consists of a neural-network-based learning phase to classify the data based on the chosen input and output attributes, a dimensionality reduction and optimization phase to produce a simplified set of results for examination, and finally an interpreting phase conducted by the user through an interactive visualization interface. A key part of our design is a composite variable construction step that remodels nonlinear features obtained by neural networks into linear features that are intuitive to interpret. We demonstrate the capabilities of this workflow with multiple case studies on networks derived from social media usage and also evaluate the workflow through an expert interview.
翻訳日:2023-03-20 16:45:38 公開日:2023-03-16
# フラクトン超流動流体力学

Fracton superfluid hydrodynamics ( http://arxiv.org/abs/2303.09573v1 )

ライセンス: Link先を確認
Charles Stahl, Marvin Qi, Paolo Glorioso, Andrew Lucas, Rahul Nandkishore(参考訳) 系統的実効場理論を用いて, 自発的に破断した多極性対称性を有する系の流体力学について検討する。 我々は、電荷と双極子対称性を持つが運動量保存を持たない、最も単純な非自明な設定に焦点を当てる。 対称性が損なわれない場合、我々の形式主義は保存された双極子モーメントを持つ「フラストン流体力学」のクォート準拡散(\omega \sim -i k^4$)特性を再現する。 我々の形式主義はまた、電荷と双極子対称性の自発的破れを捉えている。 電荷対称性が自発的に壊れたとき、流体力学モードは2次伝播し、四次緩和する(\omega \sim \pm k^2 - ik^4$)。 双極子対称性が自然に壊れるが電荷対称性は保存されるとき、二次的緩和(拡散)な横モードに加えて、パラメータに依存する別のモードは純粋に拡散(\omega \sim -i k^2$)または二次的伝播(\omega \sim \pm k^2 -i k^2$)である。 我々の研究は、短期的な低温原子実験で検証できる具体的な予測を提供し、また自然に壊れた多極性対称性を持つシステムの研究に応用できる一般的なフレームワークをレイアウトする。

We examine the hydrodynamics of systems with spontaneously broken multipolar symmetries using a systematic effective field theory. We focus on the simplest non-trivial setting: a system with charge and dipole symmetry, but without momentum conservation. When no symmetries are broken, our formalism reproduces the quartic subdiffusion ($\omega \sim -i k^4$) characteristic of `fracton hydrodynamics' with conserved dipole moment. Our formalism also captures spontaneous breaking of charge and/or dipole symmetry. When charge symmetry is spontaneously broken, the hydrodynamic modes are quadratically propagating and quartically relaxing ($\omega \sim \pm k^2 - ik^4$). When the dipole symmetry is spontaneously broken but the charge symmetry is preserved, then we find quadratically relaxing (diffusive) transverse modes, plus another mode which depending on parameters may be either purely diffusive ($\omega \sim -i k^2$) or quadratically propagating and quadratically relaxing ($\omega \sim \pm k^2 -i k^2$). Our work provides concrete predictions that may be tested in near-term cold atom experiments, and also lays out a general framework that may be applied to study systems with spontaneously broken multipolar symmetries.
翻訳日:2023-03-20 16:45:20 公開日:2023-03-16
# TypeT5:静的解析を用いたSeq2seq型推論

TypeT5: Seq2seq Type Inference using Static Analysis ( http://arxiv.org/abs/2303.09564v1 )

ライセンス: Link先を確認
Jiayi Wei, Greg Durrett, Isil Dillig(参考訳) PythonとJavaScriptで書かれたプログラムで、欠落した型アノテーションを自動的に予測することへの関心が高まっている。 従来の手法は、最も一般的な型を予測する際に非常に精度が良いが、稀な型や複雑な型では性能が悪いことが多い。 本稿では,最先端のseq2seq事前学習言語モデルであるcodet5を活用して,型予測をコードインフィルタスクとして扱う新しい型推論手法を提案する。 本手法では静的解析を用いて,型シグネチャがモデルによって予測されるコード要素毎に動的コンテキストを構築する。 また,モデルの入力コンテキストに従来型予測を取り入れ,関連するコード要素間の情報交換を可能にする反復復号方式を提案する。 我々の評価によると、提案手法であるTypeT5は、全体的な正確性(特に稀で複雑な型)を高めるだけでなく、より一貫性のある結果をもたらし、より少ない型エラーをもたらす。

There has been growing interest in automatically predicting missing type annotations in programs written in Python and JavaScript. While prior methods have achieved impressive accuracy when predicting the most common types, they often perform poorly on rare or complex types. In this paper, we present a new type inference method that treats type prediction as a code infilling task by leveraging CodeT5, a state-of-the-art seq2seq pre-trained language model for code. Our method uses static analysis to construct dynamic contexts for each code element whose type signature is to be predicted by the model. We also propose an iterative decoding scheme that incorporates previous type predictions in the model's input context, allowing information exchange between related code elements. Our evaluation shows that the proposed approach, TypeT5, not only achieves a higher overall accuracy (particularly on rare and complex types) but also produces more coherent results with fewer type errors -- while enabling easy user intervention.
翻訳日:2023-03-20 16:44:51 公開日:2023-03-16
# HIVE:教育用ビジュアル編集のためのヒューマンフィードバック

HIVE: Harnessing Human Feedback for Instructional Visual Editing ( http://arxiv.org/abs/2303.09618v1 )

ライセンス: Link先を確認
Shu Zhang, Xinyi Yang, Yihao Feng, Can Qin, Chia-Chih Chen, Ning Yu, Zeyuan Chen, Huan Wang, Silvio Savarese, Stefano Ermon, Caiming Xiong and Ran Xu(参考訳) 人間のフィードバックを組み込むことは、大きな言語モデルによって生成されたテキストを人間の好みに合わせることが重要であることが示されている。 我々は、入力画像と編集命令に基づいて出力が生成される最先端の命令画像編集モデルが、その出力がユーザの正しい指示や好みに従わない場合にも、同様に人間のフィードバックの恩恵を受けると仮定する。 本稿では,人間のフィードバックを教育的視覚編集(hive)に活用する新しい枠組みを提案する。 具体的には、編集された画像に対する人間のフィードバックを収集し、基礎となるユーザの好みをキャプチャする報酬関数を学習する。 次に,推定報酬に基づいて人間の好みを組み込むスケーラブルな拡散モデルの微調整手法を提案する。 また,データ制限によるバイアスを軽減するために,新たな1mトレーニングデータセット,報酬学習のための3.6k報酬データセット,教示画像編集の性能向上を目的とした1k評価データセットを提案する。 そこで我々は,従来の最先端画像編集手法よりもhiveが好まれることを示すため,定量的・定性的に広範な実験を行った。

Incorporating human feedback has been shown to be crucial to align text generated by large language models to human preferences. We hypothesize that state-of-the-art instructional image editing models, where outputs are generated based on an input image and an editing instruction, could similarly benefit from human feedback, as their outputs may not adhere to the correct instructions and preferences of users. In this paper, we present a novel framework to harness human feedback for instructional visual editing (HIVE). Specifically, we collect human feedback on the edited images and learn a reward function to capture the underlying user preferences. We then introduce scalable diffusion model fine-tuning methods that can incorporate human preferences based on the estimated reward. Besides, to mitigate the bias brought by the limitation of data, we contribute a new 1M training dataset, a 3.6K reward dataset for rewards learning, and a 1K evaluation dataset to boost the performance of instructional image editing. We conduct extensive empirical experiments quantitatively and qualitatively, showing that HIVE is favored over previous state-of-the-art instructional image editing approaches by a large margin.
翻訳日:2023-03-20 16:37:38 公開日:2023-03-16
# 自励式技術的負債検出におけるF$_1$スコアの改善の測定

Measuring Improvement of F$_1$-Scores in Detection of Self-Admitted Technical Debt ( http://arxiv.org/abs/2303.09617v1 )

ライセンス: Link先を確認
William Aiken, Paul K. Mvula, Paula Branco, Guy-Vincent Jourdan, Mehrdad Sabetzadeh, Herna Viktor(参考訳) 人工知能と機械学習は、自然言語処理(NLP)タスクの迅速で重要な改善を目撃している。 Deep Learningを利用すると、研究者はソフトウェア工学におけるリポジトリのコメントを利用して、20のオープンソースプロジェクトのコードから自己承認技術的負債(SATD)を検出する正確な方法を作り出した。 本研究では,変換器(BERT)アーキテクチャによる双方向エンコーダ表現を利用した新しいアプローチによりSATD検出を改善する。 比較のために,従来のディープラーニング手法を再評価し,信頼度の高いF$_1$-scoresを報告するために,階層化された10倍のクロスバリデーションを適用した。 プロジェクト間のコンテキストとプロジェクト内コンテキストの両方でモデルを検証する。 各コンテキストでは、データの不均衡を考慮するために、再サンプリングと重複を拡張戦略として使用します。 トレーニングされたbertモデルは、クロスプロジェクトシナリオの20プロジェクトのうちの19プロジェクトにおいて、以前のすべてのメソッドの最高のパフォーマンスを向上しています。 しかし、データ拡張技術はプロジェクト内シナリオに存在するデータの欠如を克服するには不十分であり、既存の方法の方が優れている。 将来の研究は、大規模なbertモデルの潜在パワーを最大化するために、satdデータセットを多様化する方法を検討する。

Artificial Intelligence and Machine Learning have witnessed rapid, significant improvements in Natural Language Processing (NLP) tasks. Utilizing Deep Learning, researchers have taken advantage of repository comments in Software Engineering to produce accurate methods for detecting Self-Admitted Technical Debt (SATD) from 20 open-source Java projects' code. In this work, we improve SATD detection with a novel approach that leverages the Bidirectional Encoder Representations from Transformers (BERT) architecture. For comparison, we re-evaluated previous deep learning methods and applied stratified 10-fold cross-validation to report reliable F$_1$-scores. We examine our model in both cross-project and intra-project contexts. For each context, we use re-sampling and duplication as augmentation strategies to account for data imbalance. We find that our trained BERT model improves over the best performance of all previous methods in 19 of the 20 projects in cross-project scenarios. However, the data augmentation techniques were not sufficient to overcome the lack of data present in the intra-project scenarios, and existing methods still perform better. Future research will look into ways to diversify SATD datasets in order to maximize the latent power in large BERT models.
翻訳日:2023-03-20 16:37:19 公開日:2023-03-16
# クロネッカー積近似を用いた分散リーマン自然勾配法

Decentralized Riemannian natural gradient methods with Kronecker-product approximations ( http://arxiv.org/abs/2303.09611v1 )

ライセンス: Link先を確認
Jiang Hu, Kangkang Deng, Na Li, Quanzheng Li(参考訳) 2次情報の計算効率のよい近似により、自然勾配法は大規模構造最適化問題を解くのに成功している。 我々はリーマン多様体上の大規模分散最適化問題の自然な勾配法について検討し、局所的データセットで定義される局所目的関数は対数確率型である。 本稿では,リーマンフィッシャー情報行列(rfim)の構造を用いて,効率的な分散リーマン自然勾配降下法(drngd)を提案する。 高次元RFIMの通信問題を克服するために、RFIMを2つの低次元行列のクロネッカー積で近似できる構造的問題を考察する。 クロネッカー因子を介して通信を行うことにより、RFIMの高品質な近似を低コストで得ることができる。 DRNGD は、最もよく知られた$\mathcal{O}(1/K)$ の定常点に収束することを示す。 数値実験により,提案手法の効率を最先端手法と比較した。 我々の知る限りでは、これは分散多様体最適化問題を解く最初のリーマン二階法である。

With a computationally efficient approximation of the second-order information, natural gradient methods have been successful in solving large-scale structured optimization problems. We study the natural gradient methods for the large-scale decentralized optimization problems on Riemannian manifolds, where the local objective function defined by the local dataset is of a log-probability type. By utilizing the structure of the Riemannian Fisher information matrix (RFIM), we present an efficient decentralized Riemannian natural gradient descent (DRNGD) method. To overcome the communication issue of the high-dimension RFIM, we consider a class of structured problems for which the RFIM can be approximated by a Kronecker product of two low-dimension matrices. By performing the communications over the Kronecker factors, a high-quality approximation of the RFIM can be obtained in a low cost. We prove that DRNGD converges to a stationary point with the best-known rate of $\mathcal{O}(1/K)$. Numerical experiments demonstrate the efficiency of our proposed method compared with the state-of-the-art ones. To the best of our knowledge, this is the first Riemannian second-order method for solving decentralized manifold optimization problems.
翻訳日:2023-03-20 16:36:58 公開日:2023-03-16
# 原子スケールフォトニックキャビティの自己組織化

Self-assembly of atomic-scale photonic cavities ( http://arxiv.org/abs/2303.09610v1 )

ライセンス: Link先を確認
Ali Nawaz Babar, Thor Weis, Konstantinos Tsoukalas, Shima Kadkhodazadeh, Guillermo Arregui, Babak Vosoughi Lahijani and S{\o}ren Stobbe(参考訳) マクロ分子、ナノワイヤ、二次元材料などの自己組織化ナノテクノロジー構築ブロックの研究が著しく進展したにもかかわらず、ナノスコープをマクロ次元にブリッジする合成自己集合法は、生体自己組織化に劣っている。 対照的に、平面半導体技術はその固有のスケーラビリティのために大きな技術的影響を受けてきたが、自己組立によって実現された原子次元に到達できなかったようである。 ここでは, カシミール・ファン・デル・ワールス相互作用を含む表面力を用いて, 従来のリソグラフィやエッチングに限らず, 従来のリソグラフィやエッチングで可能な長さスケールよりもかなり低い空隙特性を有する自己結合型シリコンナノ構造を決定論的に自己組織化する。 この手法は極めて堅牢であり、自己組立のしきい値は、数千もの測定装置にわたる全ての制御パラメータに単調に依存する。 導波管を結合した高Qシリコンフォトニックキャビティは、光子を100倍のアスペクト比で2nmの空隙に閉じ込め、回折限界の100倍以上のモード体積に対応する。 走査型透過電子顕微鏡計測は、サブナノメータ次元でもデバイスを構築する能力を確認する。 我々の研究は、自己組立によって実現される原子次元と平面半導体のスケーラビリティを組み合わせた新しい世代の製造技術への第一歩を構成する。

Despite tremendous progress in the research on self-assembled nanotechnological building blocks such as macromolecules, nanowires, and two-dimensional materials, synthetic self-assembly methods bridging nanoscopic to macroscopic dimensions remain unscalable and inferior to biological self-assembly. In contrast, planar semiconductor technology has had an immense technological impact owing to its inherent scalability, yet it appears unable to reach the atomic dimensions enabled by self-assembly. Here we use surface forces including Casimir-van der Waals interactions to deterministically self-assemble and self-align suspended silicon nanostructures with void features well below the length scales possible with conventional lithography and etching, despite using nothing more than conventional lithography and etching. The method is remarkably robust and the threshold for self-assembly depends monotonically on all governing parameters across thousands of measured devices. We illustrate the potential of these concepts by fabricating nanostructures, which are impossible to make with any other known method: Waveguide-coupled high-Q silicon photonic cavities that confine telecom photons to 2 nm air gaps with an aspect ratio of 100, corresponding to mode volumes more than 100 times below the diffraction limit. Scanning transmission electron microscopy measurements confirm the ability to build devices even with subnanometer dimensions. Our work constitutes the first steps towards a new generation of fabrication technology that combines the atomic dimensions enabled by self-assembly with the scalability of planar semiconductors.
翻訳日:2023-03-20 16:36:41 公開日:2023-03-16
# veil: 弱教師付き物体検出のための字幕から抽出された画像ラベル

VEIL: Vetting Extracted Image Labels from In-the-Wild Captions for Weakly-Supervised Object Detection ( http://arxiv.org/abs/2303.09608v1 )

ライセンス: Link先を確認
Arushi Rai, Adriana Kovashka(参考訳) 大規模視覚言語データセットの使用は、ラベルノイズがローカライゼーションに悪影響を及ぼすため、オブジェクト検出に限られる。 従来の手法では、このような大規模なデータセットが事前トレーニングにどのように使用できるかを示しており、ローカライゼーションのための初期信号を提供することができるが、少なくともいくつかのカテゴリにおいて境界データのクリーン化なしには不十分である。 ノイズキャプションから抽出したラベルを「ベット」する手法を提案する。 抽出されたラベルが実際に画像に存在するか否かを予測する分類器を訓練する。 我々の分類器はデータセットの境界を越えて一般化し、カテゴリ間での一般化の約束を示す。 分類器を5つのデータセットの11のベースラインと比較し、ラベルベッティングなしで弱い教師付き検出を80%改善できることを実証する(パスカルvocで評価した場合、16.0から29.1のマップ)。

The use of large-scale vision-language datasets is limited for object detection due to the negative impact of label noise on localization. Prior methods have shown how such large-scale datasets can be used for pretraining, which can provide initial signal for localization, but is insufficient without clean bounding-box data for at least some categories. We propose a technique to "vet" labels extracted from noisy captions. Our method trains a classifier that predicts if an extracted label is actually present in the image or not. Our classifier generalizes across dataset boundaries and shows promise for generalizing across categories as well. We compare the classifier to eleven baselines on five datasets, and demonstrate that it can improve weakly-supervised detection without label vetting by 80% (16.0 to 29.1 mAP when evaluated on PASCAL VOC).
翻訳日:2023-03-20 16:36:11 公開日:2023-03-16
# DS-Fusion:Steylized Diffusionによるアートタイポグラフィー

DS-Fusion: Artistic Typography via Discriminated and Stylized Diffusion ( http://arxiv.org/abs/2303.09604v1 )

ライセンス: Link先を確認
Maham Tanveer, Yizhi Wang, Ali Mahdavi-Amiri, Hao Zhang(参考訳) 入力語の意味を視覚的に伝えるために1文字以上のフォントをスタイライゼーションし,出力の可読性を確保しつつ,芸術的タイポグラフィを自動的に生成する手法を提案する。 目的の相反する目標(芸術的スタイリゼーションとレジリエビリティ)、基礎的真実の欠如、膨大な検索空間など)を含む課題に対処するため,本研究では,大規模言語モデルを用いてテキストや視覚画像のブリッジと,拡散モデルバックボーンを用いた教師なし生成モデルの構築を行う。 具体的には、Latent Diffusion Model (LDM) において、入力スタイルを入力テキストに適応させるために、CNNベースの識別器をキー付加したデノナイジングジェネレータを用いる。 識別装置は、所定の文字/単語フォントのラスタ化画像を実サンプルとし、デノナイジングジェネレータの出力を偽サンプルとする。 本モデルは, 分別拡散とスタイリゼーション拡散のためのDS-Fusionとよばれる。 本手法のクオリティと汎用性を,多数の例,質的,定量的評価,アブレーション研究を通じて紹介する。 CLIPDrawやDALL-E 2といった強力なベースラインやアーティストによるタイポグラフィと比較したユーザスタディは、DS-Fusionの強力なパフォーマンスを示している。

We introduce a novel method to automatically generate an artistic typography by stylizing one or more letter fonts to visually convey the semantics of an input word, while ensuring that the output remains readable. To address an assortment of challenges with our task at hand including conflicting goals (artistic stylization vs. legibility), lack of ground truth, and immense search space, our approach utilizes large language models to bridge texts and visual images for stylization and build an unsupervised generative model with a diffusion model backbone. Specifically, we employ the denoising generator in Latent Diffusion Model (LDM), with the key addition of a CNN-based discriminator to adapt the input style onto the input text. The discriminator uses rasterized images of a given letter/word font as real samples and output of the denoising generator as fake samples. Our model is coined DS-Fusion for discriminated and stylized diffusion. We showcase the quality and versatility of our method through numerous examples, qualitative and quantitative evaluation, as well as ablation studies. User studies comparing to strong baselines including CLIPDraw and DALL-E 2, as well as artist-crafted typographies, demonstrate strong performance of DS-Fusion.
翻訳日:2023-03-20 16:35:53 公開日:2023-03-16
# ブラジレイラの地政学に就て

Um banco de dados de empregos formais georreferenciados em cidades brasileiras ( http://arxiv.org/abs/2303.09602v1 )

ライセンス: Link先を確認
Andre Borgato Morelli, Andr\'e de Carvalho Fiedler, Andr\'e Luiz Cunha(参考訳) 現在、トランスポートプランニングは、サービスレベルを保証するプロジェクトから、機会へのアクセシビリティを保証するプロジェクトへとパラダイムを変更しています。 この文脈では、アクセシビリティーを計算するための多くの研究やツールが利用可能であるが、これらのツールは必ずしも容易にアクセスできない仕事の位置データに依存している。 そこで本研究では,ブラジルの都市における正式な雇用の立地を示すデータベースの作成を提案する。 この方法は、raisジョブデータベースとcnefe street facesデータベースを使用して、都市におけるジョブの位置をzipコードから推定し、街路面上の非レジデンシャルアドレスの数を推定する。 その結果、仕事は大規模・中規模の都市や1つのジップコード都市でより正確に配置できる。 最後に、データベースは公開されており、研究者や計画専門家は、全国の領域でアクセシビリティ分析を簡単に適用できる。

Currently, transport planning has changed its paradigm from projects oriented to guarantee service levels to projects oriented to guarantee accessibility to opportunities. In this context, a number of studies and tools aimed at calculating accessibility are being made available, however these tools depend on job location data that are not always easily accessible. Thus, this work proposes the creation of a database with the locations of formal jobs in Brazilian cities. The method uses the RAIS jobs database and the CNEFE street faces database to infer the location of jobs in urban regions from the zip code and the number of non-residential addresses on street faces. As a result, jobs can be located more accurately in large and medium-sized cities and approximately in single zip code cities. Finally, the databases are made available openly so that researchers and planning professionals can easily apply accessibility analyzes throughout the national territory.
翻訳日:2023-03-20 16:35:28 公開日:2023-03-16
# 強化学習勧告と解釈可能な政策ダイナミクスを備えた心理療法aiコンパニオン

Psychotherapy AI Companion with Reinforcement Learning Recommendations and Interpretable Policy Dynamics ( http://arxiv.org/abs/2303.09601v1 )

ライセンス: Link先を確認
Baihan Lin, Guillermo Cecchi, Djallel Bouneffouf(参考訳) 患者反応に基づくセラピストのトピックレコメンデーションを生成する強化学習型精神療法aiコンパニオンを提案する。 このシステムは、Dep Reinforcement Learning(DRL)を使用して、不安、うつ病、統合失調症、自殺などの4つの異なる精神疾患に対する多目的ポリシーを生成する。 本稿では,3種類の作業アライアンス評価(タスク,ボンド,ゴール)を用いて,推奨トピックの精度に関する実験結果を示す。 実際のデータ(セラピストによって議論された歴史的トピック)を比較的よく捉えることができ、最良のパフォーマンスモデルが障害や評価尺度によって異なることを示す。 学習したポリシに対する解釈可能な洞察を得るために,2次元主成分分析空間と遷移行列のポリシトラジェクトリを可視化する。 これらの可視化は、異なる報酬信号で訓練され、異なる臨床診断で訓練されたポリシーの異なるパターンを明らかにする。 DISMOP(Disorder-Specific Multi-Objective Policies)と解釈可能なポリシーダイナミクスの生成に成功したことは、DRLがパーソナライズされ効率的な治療勧告を提供する可能性を示している。

We introduce a Reinforcement Learning Psychotherapy AI Companion that generates topic recommendations for therapists based on patient responses. The system uses Deep Reinforcement Learning (DRL) to generate multi-objective policies for four different psychiatric conditions: anxiety, depression, schizophrenia, and suicidal cases. We present our experimental results on the accuracy of recommended topics using three different scales of working alliance ratings: task, bond, and goal. We show that the system is able to capture the real data (historical topics discussed by the therapists) relatively well, and that the best performing models vary by disorder and rating scale. To gain interpretable insights into the learned policies, we visualize policy trajectories in a 2D principal component analysis space and transition matrices. These visualizations reveal distinct patterns in the policies trained with different reward signals and trained on different clinical diagnoses. Our system's success in generating DIsorder-Specific Multi-Objective Policies (DISMOP) and interpretable policy dynamics demonstrates the potential of DRL in providing personalized and efficient therapeutic recommendations.
翻訳日:2023-03-20 16:35:12 公開日:2023-03-16
# cito:torchを使用したニューラルネットワークトレーニング用rパッケージ

cito: An R package for training neural networks using torch ( http://arxiv.org/abs/2303.09599v1 )

ライセンス: Link先を確認
Christian Amesoeder, Florian Hartig, Maximilian Pichler(参考訳) 1. ディープニューラルネットワーク(DNN)は回帰・分類タスクのアルゴリズムの中心クラスとなっている。 ユーザがRでDNNを指定できるパッケージはいくつか存在するが、機能的には限られている。 したがって、現在のディープラーニングアプリケーションは、DNNを構築してトレーニングするために、PyTorchやTensorFlowといった主要なディープラーニングフレームワークの1つに依存している。 しかし、これらのフレームワークを使用するには、R環境における同等のレグレッションや機械学習パッケージよりも、かなり多くのトレーニングと時間が必要です。 2) 深層学習のためのユーザフレンドリーなRパッケージであるcitoについて紹介する。 背景では、citoはモデルに適合するためにtorchを使用しており、torchライブラリのすべての数値最適化を利用して、cpuやgpuのトレーニングモデル間の切り替えなどを行う。 さらに、citoには予測のための多くのユーザフレンドリーな機能と、適合したモデルのための説明可能な人工知能(xai)パイプラインが含まれている。 3) アフリカゾウの種分布モデルを構築し, 訓練されたDNNを探索するためのxAI機能を含む, カイトを用いた典型的な分析パイプラインを紹介する。 4. 結論として、citoはtorchに基づいたディープニューラルネットワークを指定、デプロイ、解釈するためのユーザフレンドリーなrフレームワークを提供する。 現在の安定したCRANバージョンは、主に完全に接続されたDNNをサポートするが、将来のバージョンにはCNNとRNNも含まれる予定である。

1. Deep neural networks (DNN) have become a central class of algorithms for regression and classification tasks. Although some packages exist that allow users to specify DNN in R, those are rather limited in their functionality. Most current deep learning applications therefore rely on one of the major deep learning frameworks, PyTorch or TensorFlow, to build and train DNN. However, using these frameworks requires substantially more training and time than comparable regression or machine learning packages in the R environment. 2. Here, we present cito, an user-friendly R package for deep learning. cito allows R users to specify deep neural networks in the familiar formula syntax used by most modeling functions in R. In the background, cito uses torch to fit the models, taking advantage of all the numerical optimizations of the torch library, including the ability to switch between training models on CPUs or GPUs. Moreover, cito includes many user-friendly functions for predictions and an explainable Artificial Intelligence (xAI) pipeline for the fitted models. 3. We showcase a typical analysis pipeline using cito, including its built-in xAI features to explore the trained DNN, by building a species distribution model of the African elephant. 4. In conclusion, cito provides a user-friendly R framework to specify, deploy and interpret deep neural networks based on torch. The current stable CRAN version mainly supports fully connected DNNs, but it is planned that future versions will also include CNNs and RNNs.
翻訳日:2023-03-20 16:34:51 公開日:2023-03-16
# 浮動小数点支援ロボットの残差物理学習と実物移動のためのシステム同定

Residual Physics Learning and System Identification for Sim-to-real Transfer of Policies on Buoyancy Assisted Legged Robots ( http://arxiv.org/abs/2303.09597v1 )

ライセンス: Link先を確認
Nitish Sontakke, Hosik Chae, Sangjoon Lee, Tianle Huang, Dennis W. Hong, Sehoon Ha(参考訳) Buoyancy Assisted Lightweight Legged Unit(BALLU)ロボットの軽量で柔らかい特性は、重くて頑丈なロボットとは異なり、人間を含む環境において本質的に安全な相互作用を提供する大きな可能性を秘めている。 しかし、その独特で繊細なダイナミクスは、現実世界で堅牢な制御ポリシーを得るための課題を課す。 本研究では,BALLUロボットの制御ポリシを,システム識別と新しい物理学習手法である環境ミミック(EnvMimic)を用いて,ロバストなシミュレートと現実的な伝達を示す。 まず,ハードウェアデータの収集とシミュレーションパラメータの最適化により,アクチュエータの非線形ダイナミクスをモデル化する。 標準的な教師付き学習形式に頼るのではなく、深層強化学習を用いて実世界の軌道にマッチする外部力政策を訓練し、残留物理学をより忠実にモデル化する。 シミュレーショントラジェクトリと実世界のトラジェクトリを比較することで,改良されたシミュレーション忠実度を解析する。 最終的に、改良されたシミュレータにより、BALLUのハードウェアにうまくデプロイできる歩行および旋回ポリシーを学習できることを示した。

The light and soft characteristics of Buoyancy Assisted Lightweight Legged Unit (BALLU) robots have a great potential to provide intrinsically safe interactions in environments involving humans, unlike many heavy and rigid robots. However, their unique and sensitive dynamics impose challenges to obtaining robust control policies in the real world. In this work, we demonstrate robust sim-to-real transfer of control policies on the BALLU robots via system identification and our novel residual physics learning method, Environment Mimic (EnvMimic). First, we model the nonlinear dynamics of the actuators by collecting hardware data and optimizing the simulation parameters. Rather than relying on standard supervised learning formulations, we utilize deep reinforcement learning to train an external force policy to match real-world trajectories, which enables us to model residual physics with greater fidelity. We analyze the improved simulation fidelity by comparing the simulation trajectories against the real-world ones. We finally demonstrate that the improved simulator allows us to learn better walking and turning policies that can be successfully deployed on the hardware of BALLU.
翻訳日:2023-03-20 16:34:27 公開日:2023-03-16
# SUD$^2$:画像再構成のための拡散モデルによるスーパービジョン

SUD$^2$: Supervision by Denoising Diffusion Models for Image Reconstruction ( http://arxiv.org/abs/2303.09642v1 )

ライセンス: Link先を確認
Matthew A. Chan, Sean I. Young, Christopher A. Metzler(参考訳) 多くのイメージング逆問題$\unicode{x2014}$ 画像依存のin-paintingやdehazing$\unicode{x2014}$ は、前方モデルが未知あるいは未知の潜在パラメータに依存しているため困難である。 膨大な量のペアトレーニングデータでニューラルネットワークをトレーニングすることで、そのような問題を解決することができるが、ペアトレーニングデータはしばしば利用できない。 本稿では,ペアトレーニングデータが少ない場合に,画像再構成ネットワークをトレーニングするための汎用フレームワークを提案する。 特に,画像復号化アルゴリズムと拡張により,ペアトレーニングデータがない場合のネットワークトレーニングを監督する拡散モデルをデノナイズする能力を示す。

Many imaging inverse problems$\unicode{x2014}$such as image-dependent in-painting and dehazing$\unicode{x2014}$are challenging because their forward models are unknown or depend on unknown latent parameters. While one can solve such problems by training a neural network with vast quantities of paired training data, such paired training data is often unavailable. In this paper, we propose a generalized framework for training image reconstruction networks when paired training data is scarce. In particular, we demonstrate the ability of image denoising algorithms and, by extension, denoising diffusion models to supervise network training in the absence of paired training data.
翻訳日:2023-03-20 16:29:06 公開日:2023-03-16
# 言語モデルにおける効果的な教師学習知識伝達のためのニューラルネットワーク探索

Neural Architecture Search for Effective Teacher-Student Knowledge Transfer in Language Models ( http://arxiv.org/abs/2303.09639v1 )

ライセンス: Link先を確認
Aashka Trivedi, Takuma Udagawa, Michele Merler, Rameswar Panda, Yousef El-Kurdi, Bishwaranjan Bhattacharjee(参考訳) 大規模な事前訓練された言語モデルは、様々な下流タスクで最先端の結果を得た。 より小さな学生モデルの知識蒸留(KD)は、リソース制約環境への展開を可能にする非効率性に対処する。 しかしながら、KDは、学生が既に大きなコーパスで事前訓練済みの既存のオプションセットから手動で選択されるため、すべての可能な学生アーキテクチャーの空間における準最適選択である。 本稿では,知識蒸留プロセスによって指導されるニューラルネットワーク探索(NAS)を用いて,与えられた自然言語タスクに対して,教師の蒸留に最適な学生モデルを求めるKD-NASを提案する。 検索プロセスの各エピソードにおいて、NASコントローラは、下流タスクの精度と推論の待ち時間の組み合わせに基づいて報酬を予測する。 最上位候補アーキテクチャは、小さなプロキシセットで教師から蒸留される。 最後に、最も報酬の高いアーキテクチャが選択され、下流タスクトレーニングセットで蒸留される。 我々のKD-NASモデルは,MNLIタスクを蒸留すると,文献で利用可能な手作りの学生アーキテクチャに対して,同等のGPUレイテンシでGLUEタスクの精度を2ポイント向上させる。 知識蒸留(Knowledge Distillation)を用いることで、BERTベースの教師に対して、CPU上でのGPUレイテンシ(3.2倍)の1.4倍の高速化を実現し、GLUEタスク(CoLAなしで)では97%のパフォーマンスを維持している。 また、GLUEベンチマークで手作りの学生モデルと同等の性能を持つアーキテクチャも得るが、GPUレイテンシの15%高速化(CPUレイテンシの20%高速化)とパラメータの0.8倍のパラメータを持つ。

Large pre-trained language models have achieved state-of-the-art results on a variety of downstream tasks. Knowledge Distillation (KD) of a smaller student model addresses their inefficiency, allowing for deployment in resource-constraint environments. KD however remains ineffective, as the student is manually selected from a set of existing options already pre-trained on large corpora, a sub-optimal choice within the space of all possible student architectures. This paper proposes KD-NAS, the use of Neural Architecture Search (NAS) guided by the Knowledge Distillation process to find the optimal student model for distillation from a teacher, for a given natural language task. In each episode of the search process, a NAS controller predicts a reward based on a combination of accuracy on the downstream task and latency of inference. The top candidate architectures are then distilled from the teacher on a small proxy set. Finally the architecture(s) with the highest reward is selected, and distilled on the full downstream task training set. When distilling on the MNLI task, our KD-NAS model produces a 2 point improvement in accuracy on GLUE tasks with equivalent GPU latency with respect to a hand-crafted student architecture available in the literature. Using Knowledge Distillation, this model also achieves a 1.4x speedup in GPU Latency (3.2x speedup on CPU) with respect to a BERT-Base Teacher, while maintaining 97% performance on GLUE Tasks (without CoLA). We also obtain an architecture with equivalent performance as the hand-crafted student model on the GLUE benchmark, but with a 15% speedup in GPU latency (20% speedup in CPU latency) and 0.8 times the number of parameters
翻訳日:2023-03-20 16:28:52 公開日:2023-03-16
# リモートフォトプレチモグラフィを用いた全身循環器センシング

Full-Body Cardiovascular Sensing with Remote Photoplethysmography ( http://arxiv.org/abs/2303.09638v1 )

ライセンス: Link先を確認
Lu Niu, Jeremy Speth, Nathan Vance, Ben Sporrer, Adam Czajka, Patrick Flynn(参考訳) RPPG(Remote Photoplethysmography)は、反射光の小さなゆらぎを検出して、カメラからの血流の変化を非接触でモニタリングする。 rPPGの以前の応用は、顔ビデオに焦点を当てていた。 本稿では,腕,足,手などの顔以外の身体領域からのrPPGの実現可能性について検討した。 本稿では,マルチサイト生理モニタリング(mspm)という新たなデータセットを収集し,本論文で発表する。 データセットは、露出した腕、脚、顔の毎秒90フレームのビデオと10の同期ppg記録で構成されている。 本研究は,色覚ベース(CHROM),平面直交スキン(POS),RemotePulseNet(RPNet)など,最先端のrPPGアプローチを用いた非顔面領域の心拍数推定実験を行った。 我々の知る限り、これは人体の複数の領域から同時に得られるrPPG信号の忠実度の最初の評価である。 私たちの実験では、腕、脚、手からの皮膚のピクセルは、すべて血液量パルスの潜在的な源であることが示された。 最高のパフォーマンスのアプローチであるPOSは、顔から1分あたり1.38ビートに対して、顔以外の部位から1分間あたり7.11ビートという平均的な絶対誤差を達成した。 さらに,PPG信号とrPPG信号の両方からのパルス通過時間(PTT)について実験を行った。 その結果,身体の遠位位置を視認すると,低フレームレートビデオでは遠隔pttが可能であった。 これらの知見とサポートデータセットは、顔以外のrPPGの新しい研究を促進し、カメラで全身の血流動態をモニタリングする。

Remote photoplethysmography (rPPG) allows for noncontact monitoring of blood volume changes from a camera by detecting minor fluctuations in reflected light. Prior applications of rPPG focused on face videos. In this paper we explored the feasibility of rPPG from non-face body regions such as the arms, legs, and hands. We collected a new dataset titled Multi-Site Physiological Monitoring (MSPM), which will be released with this paper. The dataset consists of 90 frames per second video of exposed arms, legs, and face, along with 10 synchronized PPG recordings. We performed baseline heart rate estimation experiments from non-face regions with several state-of-the-art rPPG approaches, including chrominance-based (CHROM), plane-orthogonal-to-skin (POS) and RemotePulseNet (RPNet). To our knowledge, this is the first evaluation of the fidelity of rPPG signals simultaneously obtained from multiple regions of a human body. Our experiments showed that skin pixels from arms, legs, and hands are all potential sources of the blood volume pulse. The best-performing approach, POS, achieved a mean absolute error peaking at 7.11 beats per minute from non-facial body parts compared to 1.38 beats per minute from the face. Additionally, we performed experiments on pulse transit time (PTT) from both the contact PPG and rPPG signals. We found that remote PTT is possible with moderately high frame rate video when distal locations on the body are visible. These findings and the supporting dataset should facilitate new research on non-face rPPG and monitoring blood flow dynamics over the whole body with a camera.
翻訳日:2023-03-20 16:28:22 公開日:2023-03-16
# 個々のFe-トリアゾールスピンクロスオーバーナノロッドの窒素空孔磁気測定

Nitrogen-vacancy magnetometry of individual Fe-triazole spin crossover nanorods ( http://arxiv.org/abs/2303.09636v1 )

ライセンス: Link先を確認
Suvechhya Lamichhane, Kayleigh A McElveen, Adam Erickson, Ilja Fescenko, Shuo Sun, Rupak Timalsina, Yinsheng Guo, Sy-Hwang Liou, Rebecca Y. Lai, Abdelghani Laraoui(参考訳) [Fe(Htrz)2(trz)](BF4)(Fe-トリアゾール)スピンクロスオーバー分子は、高スピン(HS)状態と低スピン(LS)状態の間の熱的、電気的、光学的スイッチングを示し、分子スピントロニクスの候補となる。 LSおよびHS遷移は、Fe(II)の電子配置に由来するものであり、それぞれ反磁性および常磁性であると考えられている。 fe(ii) ls状態は基底状態において6対の電子を持ち、磁場と相互作用せず、反磁性挙動が観察される。 fe-トリアゾール化合物のバルク磁気特性は標準磁気測定法によって広く研究されているが、個々のレベルの特性は失われている。 ナノ粒子クラスターのFe-トリアゾールLS状態と20nmから1000nmの個々のナノロッドの磁気特性を調べるために,窒素空孔(NV)を用いた磁気測定を行った。 走査型電子顕微鏡(SEM)とラマン分光法(Raman spectroscopy)は、ナノ粒子/ナノロドのサイズを決定し、それぞれのスピン状態を確認する。 ナノ粒子/ナノロッドが生成する磁場パターンは、印加磁場(最大350mT)の関数としてNV磁気顕微鏡により撮像され、SEMおよびRamanと相関する。 ナノロッドのほとんどの場合、LS状態はわずかに常磁性であり、表面酸化および/またはナノロッドエッジに沿ったFe(III)の存在によって説明できる。 Fe-トリアゾールLS状態ナノ粒子クラスターのNV測定により、反磁性と常磁性の両方の挙動が明らかになった。 我々は,スピンクロスオーバー分子と分子磁石の磁気特性を研究するために,NV量子センサの可能性を強調した。

[Fe(Htrz)2(trz)](BF4) (Fe-triazole) spin crossover molecules show thermal, electrical, and optical switching between high spin (HS) and low spin (LS) states, making them promising candidates for molecular spintronics. The LS and HS transitions originate from the electronic configurations of Fe(II), and are considered to be diamagnetic and paramagnetic respectively. The Fe(II) LS state has six paired electrons in the ground states with no interaction with the magnetic field and a diamagnetic behavior is usually observed. While the bulk magnetic properties of Fe-triazole compounds are widely studied by standard magnetometry techniques their properties at the individual level are missing. Here we use nitrogen vacancy (NV) based magnetometry to study the magnetic properties of the Fe-triazole LS state of nanoparticle clusters and individual nanorods of size varying from 20 to 1000 nm. Scanning electron microscopy (SEM) and Raman spectroscopy are performed to determine the size of the nanoparticles/nanorods and to confirm their respective spin state. The magnetic field patterns produced by the nanoparticles/nanorods are imaged by NV magnetic microscopy as a function of applied magnetic field (up to 350 mT) and correlated with SEM and Raman. We found that in most of the nanorods the LS state is slightly paramagnetic, explained by the surface oxidation and/or the greater Fe(III) presence along the nanorod edges. NV measurements on the Fe-triazole LS state nanoparticle clusters revealed both diamagnetic and paramagnetic behavior. Our results highlight the potential of NV quantum sensors to study the magnetic properties of spin crossover molecules and molecular magnets.
翻訳日:2023-03-20 16:27:57 公開日:2023-03-16
# 因果時間グラフ畳み込みニューラルネットワーク(ctgcn)

Causal Temporal Graph Convolutional Neural Networks (CTGCN) ( http://arxiv.org/abs/2303.09634v1 )

ライセンス: Link先を確認
Abigail Langbridge, Fearghal O'Donncha, Amadou Ba, Fabio Lorenzi, Christopher Lohse, Joern Ploennigs(参考訳) 多くの大規模アプリケーションはグラフ構造を用いてエレガントに表現できる。 しかしながら、スケーラビリティは適用に必要なドメイン知識によって制限されることが多い。 この問題に対処するため,新たにCTGCN (Causal Temporal Graph Convolutional Neural Network) を提案する。 我々のCTGCNアーキテクチャは因果発見機構に基づいており、基礎となる因果過程を発見することができる。 このアプローチの主な利点は、分割と克服のテクニックで計算スケーラビリティの問題を克服する能力と、因果モデルを用いた予測のさらなる説明可能性から来ています。 我々は,2つのデータセット上でCTGCNのスケーラビリティを評価し,本手法が大規模問題に適用可能であることを示すとともに,TGCNアーキテクチャへの因果関係の統合により,典型的なTGCNアプローチよりも最大40%の予測性能が向上することを示す。 結果は、追加のドメイン知識を必要とせずに得られ、我々のアプローチを様々なドメインに適応可能にします。

Many large-scale applications can be elegantly represented using graph structures. Their scalability, however, is often limited by the domain knowledge required to apply them. To address this problem, we propose a novel Causal Temporal Graph Convolutional Neural Network (CTGCN). Our CTGCN architecture is based on a causal discovery mechanism, and is capable of discovering the underlying causal processes. The major advantages of our approach stem from its ability to overcome computational scalability problems with a divide and conquer technique, and from the greater explainability of predictions made using a causal model. We evaluate the scalability of our CTGCN on two datasets to demonstrate that our method is applicable to large scale problems, and show that the integration of causality into the TGCN architecture improves prediction performance up to 40% over typical TGCN approach. Our results are obtained without requiring additional domain knowledge, making our approach adaptable to various domains, specifically when little contextual knowledge is available.
翻訳日:2023-03-20 16:27:22 公開日:2023-03-16
# 効率良く高精度な非線形モデル低減のためのハイパーリデュードオートエンコーダ

Hyper-Reduced Autoencoders for Efficient and Accurate Nonlinear Model Reductions ( http://arxiv.org/abs/2303.09630v1 )

ライセンス: Link先を確認
Jorio Cocola, John Tencer, Francesco Rizzi, Eric Parish, Patrick Blonigan(参考訳) 非線形多様体上の射影に基づくモデル次数減少は、アドベクションが支配するようなコルモゴロフ n-width がゆっくりと減衰する問題に対して最近提案されている。 これらの手法は、しばしばニューラルネットワークを多様体学習に使用し、従来の線形部分空間縮小順序モデルよりも精度の向上を示す。 前述した方法の欠点は、高忠実度ソリューションスナップショット上でネットワークをトレーニングする計算コストが潜在的に高いことである。 本研究では,高忠実度ソリューションスナップショットのサブサンプル版にのみニューラルネットワークをトレーニングすることにより,この欠点を克服する新しい手法を提案する。 この手法はコロケーションに基づく超減算とGappy-PODと組み合わせることで、効率的かつ正確なサロゲートモデルを実現する。 2d Burgers問題に対する我々のアプローチの有効性を示す。

Projection-based model order reduction on nonlinear manifolds has been recently proposed for problems with slowly decaying Kolmogorov n-width such as advection-dominated ones. These methods often use neural networks for manifold learning and showcase improved accuracy over traditional linear subspace-reduced order models. A disadvantage of the previously proposed methods is the potential high computational costs of training the networks on high-fidelity solution snapshots. In this work, we propose and analyze a novel method that overcomes this disadvantage by training a neural network only on subsampled versions of the high-fidelity solution snapshots. This method coupled with collocation-based hyper-reduction and Gappy-POD allows for efficient and accurate surrogate models. We demonstrate the validity of our approach on a 2d Burgers problem.
翻訳日:2023-03-20 16:27:05 公開日:2023-03-16
# MDPにおけるオンライン強化学習

Online Reinforcement Learning in Periodic MDP ( http://arxiv.org/abs/2303.09629v1 )

ライセンス: Link先を確認
Ayush Aniket, Arpan Chattopadhyay(参考訳) 我々は, 平均報酬最大化設定の下で, 状態遷移確率と報酬関数の両方が周期的に変化する特別な非定常MDPである周期的マルコフ決定過程(MDP)の学習について検討した。 本稿では,周期指数で状態空間を補足し,定常mdpとして問題を定式化し,周期的upper confidence bound reinforcement learning-2 (pucrl2) アルゴリズムを提案する。 PUCRL2 の後悔は、$N$ と $\mathcal{O}(\sqrt{Tlog T})$ と、水平長 $T$ で線形に変化することを示す。 本研究では,拡張mdpの遷移行列のスパース性に関する情報を利用して,後悔(o(\sqrt{n})$周期依存性)と経験的性能の両方において,pucrl2を強調するアルゴリズムpucrlbを提案する。 最後に,この期間が未知であるが候補期間の組が知られている環境における拡張不確実性に対して,他の2つのアルゴリズム u-pucrl2 と u-pucrlb を提案する。 数値的な結果は全てのアルゴリズムの有効性を示している。

We study learning in periodic Markov Decision Process (MDP), a special type of non-stationary MDP where both the state transition probabilities and reward functions vary periodically, under the average reward maximization setting. We formulate the problem as a stationary MDP by augmenting the state space with the period index, and propose a periodic upper confidence bound reinforcement learning-2 (PUCRL2) algorithm. We show that the regret of PUCRL2 varies linearly with the period $N$ and as $\mathcal{O}(\sqrt{Tlog T})$ with the horizon length $T$. Utilizing the information about the sparsity of transition matrix of augmented MDP, we propose another algorithm PUCRLB which enhances upon PUCRL2, both in terms of regret ($O(\sqrt{N})$ dependency on period) and empirical performance. Finally, we propose two other algorithms U-PUCRL2 and U-PUCRLB for extended uncertainty in the environment in which the period is unknown but a set of candidate periods are known. Numerical results demonstrate the efficacy of all the algorithms.
翻訳日:2023-03-20 16:26:53 公開日:2023-03-16
# 遊びから高レベルプランの効率的な学習

Efficient Learning of High Level Plans from Play ( http://arxiv.org/abs/2303.09628v1 )

ライセンス: Link先を確認
N\'uria Armengol Urp\'i, Marco Bagatella, Otmar Hilliges, Georg Martius, Stelian Coros(参考訳) 現実世界のロボット操作タスクは、細粒度の環境相互作用と、長期の目標を計画する能力の両方を含むため、明らかに難しい課題である。 深層強化学習(deep reinforcement learning, rl)法は,高次元環境におけるエンド・ツー・エンド計画において有意な成果を示したが,非効率な探索によるサンプル効率の低下や,長期にわたるクレジット割り当ての複雑さなどにより,基本的に制限されたままである。 本稿では,ロボット学習のためのフレームワークであるplay(elf-p)による高レベル計画の効率的な学習について述べる。 我々はタスクに依存しない遊びデータを利用して、オブジェクト中心のプリミティブよりも先に離散的な振る舞いを学習し、現在のコンテキストからその実現可能性のモデル化を行う。 次に,(1)プリミティブをビルディングブロックとして使用して,複雑な長方形タスクを足場とし,(2)学習の加速に先立って行動を活用する高レベル目標条件ポリシーを設計する。 ELF-Pは、複数のリアルな操作タスクよりもはるかに優れたサンプル効率を示し、物理ハードウェアに簡単に移行可能なポリシーを学習する。

Real-world robotic manipulation tasks remain an elusive challenge, since they involve both fine-grained environment interaction, as well as the ability to plan for long-horizon goals. Although deep reinforcement learning (RL) methods have shown encouraging results when planning end-to-end in high-dimensional environments, they remain fundamentally limited by poor sample efficiency due to inefficient exploration, and by the complexity of credit assignment over long horizons. In this work, we present Efficient Learning of High-Level Plans from Play (ELF-P), a framework for robotic learning that bridges motion planning and deep RL to achieve long-horizon complex manipulation tasks. We leverage task-agnostic play data to learn a discrete behavioral prior over object-centric primitives, modeling their feasibility given the current context. We then design a high-level goal-conditioned policy which (1) uses primitives as building blocks to scaffold complex long-horizon tasks and (2) leverages the behavioral prior to accelerate learning. We demonstrate that ELF-P has significantly better sample efficiency than relevant baselines over multiple realistic manipulation tasks and learns policies that can be easily transferred to physical hardware.
翻訳日:2023-03-20 16:26:32 公開日:2023-03-16
# 低光度画像強調のための雑音拡散後処理

Denoising Diffusion Post-Processing for Low-Light Image Enhancement ( http://arxiv.org/abs/2303.09627v1 )

ライセンス: Link先を確認
Savvas Panagiotou and Anna S. Bosman(参考訳) 低照度画像強調(LLIE)技術は、低照度シナリオで撮影された画像の可視性を高める。 しかし、強調した結果、ノイズや色偏差などの様々な画像劣化が明らかになった。 さらに、それぞれのLLIEアプローチは、強化された結果に異なる形の欠陥をもたらす可能性がある。 これらの画像劣化に対処するために、ポストプロセッシング・デノイザーが広く使われており、しばしば詳細を欠いた過剰な結果をもたらす。 本稿では,後処理として拡散モデルを用いることを提案し,低露光後拡散モデル(lpdm)を導入し,未露光画像と通常露光画像の条件分布をモデル化する。 本稿では,典型的な拡散モデルにおける計算コストのかかる生成逆過程を回避し,LPDMを経由した後処理画像に適用する。 広汎な実験により,様々な挑戦的な低照度データセット上での低照度画像の知覚的品質を高めることにより,提案手法は競合するポストプロセッシング・デノイザよりも優れていることが示された。 ソースコードはhttps://github.com/savvaki/LPDMで入手できる。

Low-light image enhancement (LLIE) techniques attempt to increase the visibility of images captured in low-light scenarios. However, as a result of enhancement, a variety of image degradations such as noise and color bias are revealed. Furthermore, each particular LLIE approach may introduce a different form of flaw within its enhanced results. To combat these image degradations, post-processing denoisers have widely been used, which often yield oversmoothed results lacking detail. We propose using a diffusion model as a post-processing approach, and we introduce Low-light Post-processing Diffusion Model (LPDM) in order to model the conditional distribution between under-exposed and normally-exposed images. We apply LPDM in a manner which avoids the computationally expensive generative reverse process of typical diffusion models, and post-process images in one pass through LPDM. Extensive experiments demonstrate that our approach outperforms competing post-processing denoisers by increasing the perceptual quality of enhanced low-light images on a variety of challenging low-light datasets. Source code is available at https://github.com/savvaki/LPDM.
翻訳日:2023-03-20 16:26:03 公開日:2023-03-16
# 量子化された捕食者様ダイナミクスの歪み安定性パターンとカオス的特徴

Distorted stability pattern and chaotic features for quantized prey-predator-like dynamics ( http://arxiv.org/abs/2303.09622v1 )

ライセンス: Link先を確認
Alex E. Bernardini and Orfeu Bertolami(参考訳) 量子位相空間の記述から生じるトポロジカル量子領域に関連する前駆体様系の非平衡および不安定性特性をワイル・ウィグナー量子力学の枠組みで検討した。 1次元ハミルトニアン系の一般化されたウィグナーフローについて報告すると、$\mathcal{h}(x,\,k)$ は$\partial^2 \mathcal{h} / \partial x \, \partial k = 0$ で制約され、ロトカ・ヴォルテラ(lv)方程式によって駆動されるプレイ・プレッダー力学は、ハイゼンベルク・ワイルルの非可換代数 $[x,\,k] = i$ にマッピングされる。 関連するウィグナー電流によって駆動される非リビリアパターンから、プレディプレデターのような力学に対する双曲平衡と安定性パラメータは、ウィグナー電流とガウスアンサンブルパラメータで定量化された非定常性および非リビリア性特性に対応して古典的背景上の量子歪みによって影響を受けることが示される。 拡張として、時間パラメータを識別する仮説を考えると、非双曲的分岐レジームは、$z-y$の異方性とガウスパラメータで同定され、定量化される。 分岐図は量子状態に対して、ガウスの局所化に大きく依存するカオスパターンを示す。 一般化されたウィグナー情報フローフレームワークの幅広い応用例の他に、連続的(双曲的レジーム)から離散的(カオス的レジーム)領域まで、lv駆動系の平衡および安定性シナリオに対する量子揺らぎの影響を定量化する手順が拡張されている。

Non-equilibrium and instability features of prey-predator-like systems associated to topological quantum domains emerging from a quantum phase-space description are investigated in the framework of the Weyl-Wigner quantum mechanics. Reporting about the generalized Wigner flow for one-dimensional Hamiltonian systems, $\mathcal{H}(x,\,k)$, constrained by $\partial^2 \mathcal{H} / \partial x \, \partial k = 0$, the prey-predator dynamics driven by Lotka-Volterra (LV) equations is mapped onto the Heisenberg-Weyl non-commutative algebra, $[x,\,k] = i$, where the canonical variables $x$ and $k$ are related to the two-dimensional LV parameters, $y = e^{-x}$ and $z = e^{-k}$. From the non-Liouvillian pattern driven by the associated Wigner currents, hyperbolic equilibrium and stability parameters for the prey-predator-like dynamics are then shown to be affected by quantum distortions over the classical background, in correspondence with non-stationarity and non-Liouvillianity properties quantified in terms of Wigner currents and Gaussian ensemble parameters. As an extension, considering the hypothesis of discretizing the time parameter, non-hyperbolic bifurcation regimes are identified and quantified in terms of $z-y$ anisotropy and Gaussian parameters. The bifurcation diagrams exhibit, for quantum regimes, chaotic patterns highly dependent on Gaussian localization. Besides exemplifying a broad range of applications of the generalized Wigner information flow framework, our results extend, from the continuous (hyperbolic regime) to discrete (chaotic regime) domains, the procedure for quantifying the influence of quantum fluctuations over equilibrium and stability scenarios of LV driven systems.
翻訳日:2023-03-20 16:25:33 公開日:2023-03-16
# Rt-Track: マルチペデストリアントラッキングのためのロバストなトリック

Rt-Track: Robust Tricks for Multi-Pedestrian Tracking ( http://arxiv.org/abs/2303.09668v1 )

ライセンス: Link先を確認
Yukuan Zhang, Yunhua Jia, Housheng Xie, Mengzhen Li, Limin Zhao, Yang Yang and Shan Zhao(参考訳) オブジェクトトラッキングは、シングルオブジェクトトラッキング(SOT)とマルチオブジェクトトラッキング(MOT)に分けられる。 MOTは連続した一連のビデオシーケンスで複数のオブジェクトのアイデンティティを維持することを目的としている。 近年、MOTは急速に進歩している。 しかし,複雑な場面における物体の動きや外観のモデル化は,依然として様々な課題に直面している。 本稿では,動き情報のモデリングを向上し,複雑なシーンにおける従来の手法の堅牢性の欠如を克服するために,スムーズな軌道予測(STP-DC)のための新たな方向整合性を設計する。 既存手法では歩行者再識別 (re-id) を用いて外観をモデル化しているが, 咬合や混雑場面の識別性に乏しい背景情報を抽出する。 外観モデルのモデリングを強化するために,HG-FEN (Hyper-grain Feature Embedding Network) を提案する。 また,ロバストな外観情報を格納するためのcf-ecmや連想精度を向上させるためのsk-asなど,他のロバスト性手法も提案した。 そこで我々は,MOTにおける最先端性能を実現するために,Rtトラックと呼ばれるロバストトラッカーを提案する。 MOT17.Rtトラックのテストセットでは79.5 MOTA、76.0 IDF1、62.1 HOTAを達成し、またMOT20では77.9 MOTA、78.4 IDF1、63.3 HOTAを達成している。

Object tracking is divided into single-object tracking (SOT) and multi-object tracking (MOT). MOT aims to maintain the identities of multiple objects across a series of continuous video sequences. In recent years, MOT has made rapid progress. However, modeling the motion and appearance models of objects in complex scenes still faces various challenging issues. In this paper, we design a novel direction consistency method for smooth trajectory prediction (STP-DC) to increase the modeling of motion information and overcome the lack of robustness in previous methods in complex scenes. Existing methods use pedestrian re-identification (Re-ID) to model appearance, however, they extract more background information which lacks discriminability in occlusion and crowded scenes. We propose a hyper-grain feature embedding network (HG-FEN) to enhance the modeling of appearance models, thus generating robust appearance descriptors. We also proposed other robustness techniques, including CF-ECM for storing robust appearance information and SK-AS for improving association accuracy. To achieve state-of-the-art performance in MOT, we propose a robust tracker named Rt-track, incorporating various tricks and techniques. It achieves 79.5 MOTA, 76.0 IDF1 and 62.1 HOTA on the test set of MOT17.Rt-track also achieves 77.9 MOTA, 78.4 IDF1 and 63.3 HOTA on MOT20, surpassing all published methods.
翻訳日:2023-03-20 16:19:36 公開日:2023-03-16
# 量子平均場フィルタリングと制御への招待

An invitation to quantum mean-field filtering and control ( http://arxiv.org/abs/2303.09667v1 )

ライセンス: Link先を確認
Sofiane Chalal, Nina H. Amini, Gaoyue Guo(参考訳) コロコルツォフの研究[14]に続いて、量子フレームワークにおける平均場制御理論の拡張を示す。 特にそのような拡張は、平均場設定におけるベラブキン量子フィルタリングと制御理論を考慮し自然に行われる。 状態力学はマッキーン・ヴラソフ型の制御されたベラブキン方程式によって記述され、不完全な測定記録と完全な測定のためのカオスの伝播の下での方程式の適切性を証明する。 また,粒子法を用いて平均場方程式をシミュレートし,その安定化フィードバック制御への応用を提案する。

Following the Kolokoltsov's work [14], we will present an extension of mean-field control theory in quantum framework. In particular such an extension is done naturally by considering the Belavkin quantum filtering and control theory in a mean-field setting. The state dynamics is described by a controlled Belavkin equation of McKean-Vlasov type, and we prove the well-posedness of the equation under imperfect measurements records and also the propagation of chaos for perfect measurements. Also, we apply particle methods to simulate the mean-field equation and we suggest its application in a stabilizing feedback control.
翻訳日:2023-03-20 16:19:08 公開日:2023-03-16
# 位置:弱教師付き割当接地のための対象部品のローカライズと転送

LOCATE: Localize and Transfer Object Parts for Weakly Supervised Affordance Grounding ( http://arxiv.org/abs/2303.09665v1 )

ライセンス: Link先を確認
Gen Li, Varun Jampani, Deqing Sun, Laura Sevilla-Lara(参考訳) 人間は観察を通して知識を得るのが得意です。 例えば、デモを見ることで新しいツールの使い方を学ぶことができる。 このスキルは、インテリジェントなシステムが世界と対話するための基本的なものです。 このスキルを得るための重要なステップは、オブジェクトのどの部分がそれぞれのアクションに余裕があるかを特定することです。 本稿では,この課題に対処し,画像間で一致する対象部品を識別できるLOCATEというフレームワークを提案し,対象が使用されている画像(学習に使用される外来画像)から対象が不活性である画像(テストに使用される自己中心画像)へ知識を伝達する。 この目的のために、まず相互作用領域を見つけ、特徴埋め込みを抽出する。 次に、埋め込みをコンパクトなプロトタイプ(人間、オブジェクト部分、背景)に集約し、オブジェクト部分を表すものを選択することを学びます。 最後に,選択したプロトタイプを用いて,空き地を案内する。 我々は、イメージレベルの余裕とオブジェクトラベルからのみ学習し、弱い教師付きでこれを行う。 広汎な実験により,本手法は目視対象と目視対象の両方で最先端の手法よりも優れていた。

Humans excel at acquiring knowledge through observation. For example, we can learn to use new tools by watching demonstrations. This skill is fundamental for intelligent systems to interact with the world. A key step to acquire this skill is to identify what part of the object affords each action, which is called affordance grounding. In this paper, we address this problem and propose a framework called LOCATE that can identify matching object parts across images, to transfer knowledge from images where an object is being used (exocentric images used for learning), to images where the object is inactive (egocentric ones used to test). To this end, we first find interaction areas and extract their feature embeddings. Then we learn to aggregate the embeddings into compact prototypes (human, object part, and background), and select the one representing the object part. Finally, we use the selected prototype to guide affordance grounding. We do this in a weakly supervised manner, learning only from image-level affordance and object labels. Extensive experiments demonstrate that our approach outperforms state-of-the-art methods by a large margin on both seen and unseen objects.
翻訳日:2023-03-20 16:18:57 公開日:2023-03-16
# トライブかノーか? TribalGramを用いた群差の臨界検査

Tribe or Not? Critical Inspection of Group Differences Using TribalGram ( http://arxiv.org/abs/2303.09664v1 )

ライセンス: Link先を確認
Yongsu Ahn, Muheng Yan, Yu-Ru Lin, Wen-Ting Chung, Rebecca Hwa(参考訳) AIやデータマイニング技術の台頭に伴い、グループプロファイリングやグループレベルの分析は、ポリシー作成やダイレクトマーケティングなど、多くの領域で利用されるようになった。 データから抽出された統計は、集団の共有特性に対する洞察を与える場合もあるが、グループレベルの分析は、ステレオタイピングや体系的な抑圧といった問題を引き起こすことがある。 分析ツールは、グループ分析において、より良心的なプロセスをいかに促進できるか? 本研究では,グループ分化の必要性を解明し,集団の過度な一般化を防止するために,説明可能なグループ分析設計ガイドラインのセットを特定する。 設計ガイドラインに従って,解釈可能な機械学習アルゴリズムと可視化を活用し,推論評価,モデル説明,データ相関,センスメイキングを提供するビジュアル分析スイートであるTribalGramを開発した。 ドメインの専門家とのインタビューを通じて、私たちの設計とツールは、データから掘り出された"グループ"をよりリッチに理解する方法について紹介します。

With the rise of AI and data mining techniques, group profiling and group-level analysis have been increasingly used in many domains including policy making and direct marketing. In some cases, the statistics extracted from data may provide insights to a group's shared characteristics; in others, the group-level analysis can lead to problems including stereotyping and systematic oppression. How can analytic tools facilitate a more conscientious process in group analysis? In this work, we identify a set of accountable group analytics design guidelines to explicate the needs for group differentiation and preventing overgeneralization of a group. Following the design guidelines, we develop TribalGram, a visual analytic suite that leverages interpretable machine learning algorithms and visualization to offer inference assessment, model explanation, data corroboration, and sense-making. Through the interviews with domain experts, we showcase how our design and tools can bring a richer understanding of "groups" mined from the data.
翻訳日:2023-03-20 16:18:38 公開日:2023-03-16
# マルチタスク視覚シーン理解のための効率的な計算共有

Efficient Computation Sharing for Multi-Task Visual Scene Understanding ( http://arxiv.org/abs/2303.09663v1 )

ライセンス: Link先を確認
Sara Shoouri, Mingyu Yang, Zichen Fan, Hun-Seok Kim(参考訳) 個々のモデルを使って複数の視覚的タスクを解くことはリソース集約的であり、マルチタスク学習は異なるタスク間で知識を共有することでリソースを保存することができる。 マルチタスク学習の利点にもかかわらず、これらのテクニックは各タスクの損失のバランスに苦慮し、潜在的なパフォーマンス低下につながる。 本稿では,個別に学習した単一タスク変換器を用いて,効率と精度のバランスをとる新しい計算・パラメータ共有フレームワークを提案する。 提案手法は,所望の性能を維持しつつ計算コストとパラメータストレージコストを削減するために,転送学習方式に動機づけられている。 提案手法では,タスクをベースタスクと他のサブタスクに分割し,タスク間の冗長性を低減し,知識共有を高めるために,ベースタスクとサブタスク間でアクティベーションとパラメータ/重みのかなりの部分を共有する。 NYUD-v2 と PASCAL-context データセットを用いて評価した結果,提案手法は,高精度で計算資源の削減が可能な,最先端のトランスフォーマーベースマルチタスク学習技術よりも優れていることがわかった。 さらに,提案手法をビデオストリーム入力に拡張し,時間領域とタスク領域の情報を効率的に共有することにより,計算コストをさらに削減する。 私たちのコードとモデルは公開されます。

Solving multiple visual tasks using individual models can be resource-intensive, while multi-task learning can conserve resources by sharing knowledge across different tasks. Despite the benefits of multi-task learning, such techniques can struggle with balancing the loss for each task, leading to potential performance degradation. We present a novel computation- and parameter-sharing framework that balances efficiency and accuracy to perform multiple visual tasks utilizing individually-trained single-task transformers. Our method is motivated by transfer learning schemes to reduce computational and parameter storage costs while maintaining the desired performance. Our approach involves splitting the tasks into a base task and the other sub-tasks, and sharing a significant portion of activations and parameters/weights between the base and sub-tasks to decrease inter-task redundancies and enhance knowledge sharing. The evaluation conducted on NYUD-v2 and PASCAL-context datasets shows that our method is superior to the state-of-the-art transformer-based multi-task learning techniques with higher accuracy and reduced computational resources. Moreover, our method is extended to video stream inputs, further reducing computational costs by efficiently sharing information across the temporal domain as well as the task domain. Our codes and models will be publicly available.
翻訳日:2023-03-20 16:18:22 公開日:2023-03-16
# 説明可能なGeoAI: 精度マップは人工知能の学習プロセスの解釈に役立つか? 自然特徴検出に関する実証的研究

Explainable GeoAI: Can saliency maps help interpret artificial intelligence's learning process? An empirical study on natural feature detection ( http://arxiv.org/abs/2303.09660v1 )

ライセンス: Link先を確認
Chia-Yu Hsu and Wenwen Li(参考訳) geoai(geospatial artificial intelligence)モデルの解釈性の向上は、ディープラーニングのような複雑なaiモデルの"ブラックボックス"を開く上で非常に重要である。 本稿では,特に地理空間解析や画像処理タスクに応用した場合の,ジオアイと深層学習モデルの推論行動の解釈における,一般的な塩分マップ生成手法と強みと弱みを比較した。 摂動法と勾配法という2種類のモデル説明法について検討した。 前者は、入力画像の局所化領域を変更することで、機械が予測を行うのを助ける重要な画像領域を特定する。 後者は、モデルの予測結果に対する入力画像の各画素の寄与を勾配バックプロパゲーションによって評価する。 本研究では,ディープラーニングを用いた自然特徴検出タスクにおいて,3つのアルゴリズム,オクルージョン法,統合勾配法,クラスアクティベーションマップ法について検討した。 アルゴリズムの長所と短所についても論じ,オブジェクト認識のためのモデル学習概念と人間理解概念の整合性も比較した。 実験では、2つのGeoAI対応データセットを使用して、研究結果の一般化性を実証した。

Improving the interpretability of geospatial artificial intelligence (GeoAI) models has become critically important to open the "black box" of complex AI models, such as deep learning. This paper compares popular saliency map generation techniques and their strengths and weaknesses in interpreting GeoAI and deep learning models' reasoning behaviors, particularly when applied to geospatial analysis and image processing tasks. We surveyed two broad classes of model explanation methods: perturbation-based and gradient-based methods. The former identifies important image areas, which help machines make predictions by modifying a localized area of the input image. The latter evaluates the contribution of every single pixel of the input image to the model's prediction results through gradient backpropagation. In this study, three algorithms-the occlusion method, the integrated gradients method, and the class activation map method-are examined for a natural feature detection task using deep learning. The algorithms' strengths and weaknesses are discussed, and the consistency between model-learned and human-understandable concepts for object recognition is also compared. The experiments used two GeoAI-ready datasets to demonstrate the generalizability of the research findings.
翻訳日:2023-03-20 16:18:01 公開日:2023-03-16
# マルチエージェント深部強化学習を用いた多モードプラグインハイブリッド電気自動車のエネルギー管理

Energy Management of Multi-mode Plug-in Hybrid Electric Vehicle using Multi-agent Deep Reinforcement Learning ( http://arxiv.org/abs/2303.09658v1 )

ライセンス: Link先を確認
Min Hua, Cetengfei Zhang, Fanggang Zhang, Zhi Li, Xiaoli Yu, Hongming Xu, Quan Zhou(参考訳) 最近の多モードプラグインハイブリッド電気自動車(PHEV)技術は、脱炭に寄与する経路の1つであり、エネルギー管理にはマルチインプットとマルチアウトプット(MIMO)制御が必要である。 現在、既存の手法はMIMO制御を単一出力(MISO)制御に分離しており、その局所的な最適性能しか達成できない。 マルチモード車両をグローバルに最適化するために,マルチエージェント深部強化学習(MADRL)に基づく多モードPHEVのエネルギー管理のためのMIMO制御手法を提案する。 相関比を導入することで,2つの学習エージェントが,ddpg(deep deterministic policy gradient)アルゴリズムを用いてmadrlフレームワークの下で協調的に作業できる手振り戦略が提案されている。 DDPGエージェントの統一設定は、学習性能に影響を及ぼす要因の感度分析によって得られる。 ハンドシェイキング戦略の最適作業モードは、関連性比のパラメトリックスタディにより達成される。 提案手法の利点は, ソフトウェア・イン・ザ・ループテストプラットフォームで実証された。 その結果,DDPGエージェントの学習率が学習成績の最大の要因であることが示唆された。 統合DDPG設定と0.2の妥当性比を用いて,MADRL法は単一エージェント法と比較して最大4%の省エネが可能となる。

The recently emerging multi-mode plug-in hybrid electric vehicle (PHEV) technology is one of the pathways making contributions to decarbonization, and its energy management requires multiple-input and multiple-output (MIMO) control. At the present, the existing methods usually decouple the MIMO control into single-output (MISO) control and can only achieve its local optimal performance. To optimize the multi-mode vehicle globally, this paper studies a MIMO control method for energy management of the multi-mode PHEV based on multi-agent deep reinforcement learning (MADRL). By introducing a relevance ratio, a hand-shaking strategy is proposed to enable two learning agents to work collaboratively under the MADRL framework using the deep deterministic policy gradient (DDPG) algorithm. Unified settings for the DDPG agents are obtained through a sensitivity analysis of the influencing factors to the learning performance. The optimal working mode for the hand-shaking strategy is attained through a parametric study on the relevance ratio. The advantage of the proposed energy management method is demonstrated on a software-in-the-loop testing platform. The result of the study indiates that learning rate of the DDPG agents is the greatest factor in learning performance. Using the unified DDPG settings and a relevance ratio of 0.2, the proposed MADRL method can save up to 4% energy compared to the single-agent method.
翻訳日:2023-03-20 16:17:41 公開日:2023-03-16
# ESCAPE:インタラクティブビジュアル分析による機械の盲点からのシステムエラーの対応

ESCAPE: Countering Systematic Errors from Machine's Blind Spots via Interactive Visual Analysis ( http://arxiv.org/abs/2303.09657v1 )

ライセンス: Link先を確認
Yongsu Ahn, Yu-Ru Lin, Panpan Xu, Zeng Dai(参考訳) 分類モデルは、データサンプルとターゲットクラスの間の関連を一般化することを学ぶ。 しかし、研究者たちは、機械学習の実践がAIアプリケーションにおける体系的なエラーに容易に結びつくことを、ますます観察している。 このようなブラインドスポットは、重要なパターン(例えば、黒猫)が欠落しているトレーニングサンプル(例えば、猫/犬の分類)や、周囲のパターン(例えば、草の背景を持つ犬)が特定のクラスに向かって誤解されている場合に発生する。 より高度な技術は、捕え、推論し、急激な関連を防ぐことは保証できない。 本研究では,系統的エラーに対応するためのヒューマン・イン・ザ・ループ・ワークフローを促進する視覚解析システムであるESCAPEを提案する。 このシステムは, 利用者が素早い関連性を容易に検査できるようにすることで, 誤分類に関する概念を自然に認識し, 偏りを低減できる緩和戦略を評価する。 また,概念と事例の関連をよりよく定量化する相対的概念連想法と,散発的な関係を緩和するデビアス法という2つの統計的アプローチを提案する。 本研究では,定量的実験,使用シナリオ,専門家インタビュー,制御されたユーザ実験など,広範囲な評価を通じて,提案するESCAPEシステムと統計指標の有用性を実証する。

Classification models learn to generalize the associations between data samples and their target classes. However, researchers have increasingly observed that machine learning practice easily leads to systematic errors in AI applications, a phenomenon referred to as AI blindspots. Such blindspots arise when a model is trained with training samples (e.g., cat/dog classification) where important patterns (e.g., black cats) are missing or periphery/undesirable patterns (e.g., dogs with grass background) are misleading towards a certain class. Even more sophisticated techniques cannot guarantee to capture, reason about, and prevent the spurious associations. In this work, we propose ESCAPE, a visual analytic system that promotes a human-in-the-loop workflow for countering systematic errors. By allowing human users to easily inspect spurious associations, the system facilitates users to spontaneously recognize concepts associated misclassifications and evaluate mitigation strategies that can reduce biased associations. We also propose two statistical approaches, relative concept association to better quantify the associations between a concept and instances, and debias method to mitigate spurious associations. We demonstrate the utility of our proposed ESCAPE system and statistical measures through extensive evaluation including quantitative experiments, usage scenarios, expert interviews, and controlled user experiments.
翻訳日:2023-03-20 16:17:17 公開日:2023-03-16
# 効率的な画像超解像のための反復的軟収縮学習

Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution ( http://arxiv.org/abs/2303.09650v1 )

ライセンス: Link先を確認
Jiamian Wang, Huan Wang, Yulun Zhang, Yun Fu, Zhiqiang Tao(参考訳) 画像超解像(SR)の分野は、CNNからトランスフォーマーアーキテクチャまで幅広いニューラルネットワークの設計を目撃している。 しかし、一般的なSRモデルはメモリフットプリントの禁止と集中的な計算に悩まされ、計算制約のあるプラットフォームへのさらなる展開が制限される。 本研究では,市販のネットワーク設計を活用し,計算オーバーヘッドを削減するスーパーレゾリューションのためのネットワークプルーニングの可能性について検討する。 2つの主要な課題は、SRにプルーニング法を適用することである。 第一に、広く使われているフィルタプルーニング技術は、様々なネットワーク構造に対する粒度と適応性の制限を反映している。 第二に、既存のプルーニング法は、通常、スパース構造決定のための事前訓練されたネットワーク上で動作し、従来のSRパラダイムで密集したモデルトレーニングを排除できなかった。 これらの課題に対処するために、スクラッチから直接訓練されたスパースモデルによる非構造化プルーニングを採用する。 具体的には,各イテレーションにおけるランダム初期化ネットワークのスパース構造を最適化し,オンザフライ規模に比例する少ない量で重要でない重みを微調整することにより,新しい反復的ソフト・収縮・パーセンテージ(iss-p)法を提案する。 提案する iss-p は最適化プロセスに適応したスパース構造を動的に学習し,より規則化された勾配スループットを与えることでスパースモデルのトレーサビリティを保った。 ベンチマークデータセットにおける実験は、提案されたiss-pの有効性を、様々なネットワークアーキテクチャにおける最先端の手法と比較している。

The field of image super-resolution (SR) has witnessed extensive neural network designs from CNN to transformer architectures. However, prevailing SR models suffer from prohibitive memory footprint and intensive computations, which limits further deployment on computational-constrained platforms. In this work, we investigate the potential of network pruning for super-resolution to take advantage of off-the-shelf network designs and reduce the underlying computational overhead. Two main challenges remain in applying pruning methods for SR. First, the widely-used filter pruning technique reflects limited granularity and restricted adaptability to diverse network structures. Second, existing pruning methods generally operate upon a pre-trained network for the sparse structure determination, failing to get rid of dense model training in the traditional SR paradigm. To address these challenges, we adopt unstructured pruning with sparse models directly trained from scratch. Specifically, we propose a novel Iterative Soft Shrinkage-Percentage (ISS-P) method by optimizing the sparse structure of a randomly initialized network at each iteration and tweaking unimportant weights with a small amount proportional to the magnitude scale on-the-fly. We observe that the proposed ISS-P could dynamically learn sparse structures adapting to the optimization process and preserve the sparse model's trainability by yielding a more regularized gradient throughput. Experiments on benchmark datasets demonstrate the effectiveness of the proposed ISS-P compared with state-of-the-art methods over diverse network architectures.
翻訳日:2023-03-20 16:16:49 公開日:2023-03-16
# 微小手術における大動脈瘤検出のためのシフトウィンドウトランスフォーマー

Shifted-Windows Transformers for the Detection of Cerebral Aneurysms in Microsurgery ( http://arxiv.org/abs/2303.09648v1 )

ライセンス: Link先を確認
Jinfan Zhou, William Muirhead, Simon C. Williams, Danail Stoyanov, Hani J. Marcus, and Evangelos B. Mazomenos(参考訳) 目的:微小動脈瘤クリッピング手術(MACS)は術中大動脈瘤破裂のリスクが高い。 手術ビデオで大動脈瘤が露出した場合の症例の自動認識は、神経ナビゲーションの貴重な基準点であり、相転移を示し、破壊のリスクの高い瞬間を示す。 本稿では,フレームレベルの専門家アノテーションを備えた16の手術用ビデオを含むMACSデータセットについて紹介し,手術用顕微鏡の視野に存在する大動脈瘤とビデオ用フレームを識別するための学習手法を提案する。 方法: データセットの不均衡(80%は存在せず,20%は存在せず, 明示的なアノテーションを伴わずに開発されたにもかかわらず, トランスフォーマーベースのディープラーニングアーキテクチャ(MACSSwin-T, vidMACSSwin-T)の適用性を実証し, 大動脈瘤の検出とMACSフレームの分類を行った。 提案手法は, 独立した集合を用いた多次元クロスバリデーション実験と, 人間の10人の専門家(神経外科医)に対する15枚の画像で評価した。 結果: 画像および映像レベルのアプローチでは, 平均80.8% (78.5%-82.4%) と87.1% (85.1%-91.3%) の精度が得られた。 モデルのクラスアクティベーションマップの質的評価は、これらは動脈瘤の実際の場所に局在していることを示している。 判定しきい値によっては、マッスウィン-tは66.7%から86.7%の精度を達成し、人間のパーサーの82%に対して中程度から強い相関がある。

Purpose: Microsurgical Aneurysm Clipping Surgery (MACS) carries a high risk for intraoperative aneurysm rupture. Automated recognition of instances when the aneurysm is exposed in the surgical video would be a valuable reference point for neuronavigation, indicating phase transitioning and more importantly designating moments of high risk for rupture. This article introduces the MACS dataset containing 16 surgical videos with frame-level expert annotations and proposes a learning methodology for surgical scene understanding identifying video frames with the aneurysm present in the operating microscope's field-of-view. Methods: Despite the dataset imbalance (80% no presence, 20% presence) and developed without explicit annotations, we demonstrate the applicability of Transformer-based deep learning architectures (MACSSwin-T, vidMACSSwin-T) to detect the aneurysm and classify MACS frames accordingly. We evaluate the proposed models in multiple-fold cross-validation experiments with independent sets and in an unseen set of 15 images against 10 human experts (neurosurgeons). Results: Average (across folds) accuracy of 80.8% (range 78.5%-82.4%) and 87.1% (range 85.1%-91.3%) is obtained for the image- and video-level approach respectively, demonstrating that the models effectively learn the classification task. Qualitative evaluation of the models' class activation maps show these to be localized on the aneurysm's actual location. Depending on the decision threshold, MACSWin-T achieves 66.7% to 86.7% accuracy in the unseen images, compared to 82% of human raters, with moderate to strong correlation.
翻訳日:2023-03-20 16:16:23 公開日:2023-03-16
# 疫学とアレタリック不確実性のモデル化のための確率論的関係--その意味論と定理証明による自動推論

Probabilistic relations for modelling epistemic and aleatoric uncertainty: its semantics and automated reasoning with theorem proving ( http://arxiv.org/abs/2303.09692v1 )

ライセンス: Link先を確認
Kangfeng Ye, Jim Woodcock, Simon Foster(参考訳) 確率的プログラミング(probabilistic programming)は、一般的なコンピュータプログラミング、統計推論、形式的意味論を組み合わせたプログラミングパラダイムである。 確率的プログラムはユビキタスであり、機械知能に大きな影響を与えると考えられている。 多くの確率的アルゴリズムは異なる領域で実際に使われているが、形式的意味論に基づく自動検証は比較的新しい研究領域である。 過去20年間、多くの関心を集めてきた。 しかし、多くの課題が残っている。 本稿で紹介した確率的関係(probabilistic relations,probabilistic relations)は,これらの課題に取り組む上で,私たちのビジョンに一歩踏み出します。 私たちの仕事の本質は、ヒューナーの予測的確率的プログラミングに基づいているが、彼の作品が広く採用されるにはいくつかの障害がある。 Our contributions here include (1) the formalisation of its syntax and semantics by introducing an Iverson bracket notation to separate relations from arithmetic; (2) the formalisation of relations using Unifying Theories of Programming (UTP) and probabilities outside the brackets using summation over the topological space of the real numbers; (3) the constructive semantics for probabilistic loops using the Kleene's fixed point theorem; (4) the enrichment of its semantics from distributions to subdistributions and superdistributions in order to deal with the constructive semantics; (5) the unique fixed point theorem to largely simplify the reasoning about probabilistic loops; and (6) the mechanisation of our theory in Isabelle/UTP, an implementation of UTP in Isabelle/HOL, for automated reasoning using theorem proving. 6つの興味深い例を示し,そのうち1つはロボットの局所化,2つは機械学習における分類問題,2つは確率的ループを含む。

Probabilistic programming is a programming paradigm that combines general computer programming, statistical inference, and formal semantics to help systems to made decisions when facing uncertainty. Probabilistic programs are ubiquitous and believed to have a major impact on machine intelligence. While many probabilistic algorithms have been used in practice in different domains, their automated verification based on formal semantics is still a relatively new research area. In the last two decades, it has been attracting a lot of interest. Many challenges, however, still remain. Our work presented in this paper, probabilistic relations, takes a step into our vision to tackle these challenges. Our work in essence is based on Hehner's predicative probabilistic programming, but there are several obstacles to the wider adoption of his work. Our contributions here include (1) the formalisation of its syntax and semantics by introducing an Iverson bracket notation to separate relations from arithmetic; (2) the formalisation of relations using Unifying Theories of Programming (UTP) and probabilities outside the brackets using summation over the topological space of the real numbers; (3) the constructive semantics for probabilistic loops using the Kleene's fixed point theorem; (4) the enrichment of its semantics from distributions to subdistributions and superdistributions in order to deal with the constructive semantics; (5) the unique fixed point theorem to largely simplify the reasoning about probabilistic loops; and (6) the mechanisation of our theory in Isabelle/UTP, an implementation of UTP in Isabelle/HOL, for automated reasoning using theorem proving. We demonstrate six interesting examples, and among them, one is about robot localisation, two are classification problems in machine learning, and two contain probabilistic loops.
翻訳日:2023-03-20 16:09:54 公開日:2023-03-16
# 多目的アーカイブ

Multi-Objective Archiving ( http://arxiv.org/abs/2303.09685v1 )

ライセンス: Link先を確認
Miqing Li, Manuel L\'opez-Ib\'a\~nez, Xin Yao(参考訳) ほとんどの多目的最適化アルゴリズムは、検索中に明示的にまたは暗黙的にアーカイブを保持する。 このようなアーカイブは、意思決定者に提示される高品質なソリューションを格納するためにのみ使用できるが、多くの場合、探索プロセス(例えば、進化計算の人口)に参加することができる。 過去20年間で、新しいソリューションを以前のソリューションと比較し、アーカイブ/人口の更新方法を決定するプロセスであるアーカイブは、進化的多目的最適化(EMO)において重要な問題となっている。 これは、従来のパレート方式から、より最近の指標に基づく、分解に基づく手法まで、様々な効果的なアーカイブ手法の開発に対するコミュニティの努力によって証明されている。 しかしながら、これらの取り組みの焦点は、特定の品質指標の観点からの実証的性能比較であり、一般的な理論的観点からのアーカイブ手法の体系的な研究が欠如している。 本稿では,多目的アーカイビングの体系的な概観を行い,理論と実践の全体論的視点からアーカイビングアルゴリズムを理解する方法を明らかにし,より重要なこととして,理論的に望ましい効果的なアーカイビングアルゴリズムの設計方法についてのガイダンスを提供する。 また、弱パレート対応指標(例えば、エプシロン指標)に基づくアーカイブアルゴリズムは、適切に設計されている限り、パレート対応指標(例えば、ハイパーボリュームインジケータ)に基づくアーカイザーと同じ理論的目的を達成することができることを示す。 そのような望ましいものとしては、性質極限最適化(英語版)、有界アーキビングアルゴリズムが解集合間の最も一般的な優越性に関する可能な最適性質の極限形式がある。

Most multi-objective optimisation algorithms maintain an archive explicitly or implicitly during their search. Such an archive can be solely used to store high-quality solutions presented to the decision maker, but in many cases may participate in the search process (e.g., as the population in evolutionary computation). Over the last two decades, archiving, the process of comparing new solutions with previous ones and deciding how to update the archive/population, stands as an important issue in evolutionary multi-objective optimisation (EMO). This is evidenced by constant efforts from the community on developing various effective archiving methods, ranging from conventional Pareto-based methods to more recent indicator-based and decomposition-based ones. However, the focus of these efforts is on empirical performance comparison in terms of specific quality indicators; there is lack of systematic study of archiving methods from a general theoretical perspective. In this paper, we attempt to conduct a systematic overview of multi-objective archiving, in the hope of paving the way to understand archiving algorithms from a holistic perspective of theory and practice, and more importantly providing a guidance on how to design theoretically desirable and practically useful archiving algorithms. In doing so, we also present that archiving algorithms based on weakly Pareto compliant indicators (e.g., epsilon-indicator), as long as designed properly, can achieve the same theoretical desirables as archivers based on Pareto compliant indicators (e.g., hypervolume indicator). Such desirables include the property limit-optimal, the limit form of the possible optimal property that a bounded archiving algorithm can have with respect to the most general form of superiority between solution sets.
翻訳日:2023-03-20 16:09:26 公開日:2023-03-16
# 金融リスク分析のための量子モンテカルロシミュレーション:株式、利率、信用リスク要因のシナリオ生成

Quantum Monte Carlo simulations for financial risk analytics: scenario generation for equity, rate, and credit risk factors ( http://arxiv.org/abs/2303.09682v1 )

ライセンス: Link先を確認
Titos Matsakos and Stuart Nield(参考訳) モンテカルロ(mc)シミュレーションは、バリュー・アット・リスク(var)の推定から市場外デリバティブの価格設定まで、金融リスク管理に広く使われている。 しかし、コンバージェンスに必要なシナリオの数のため、計算コストは大幅に増大する。 量子mc(qmc)アルゴリズムは、従来のアルゴリズムに比べて二次的なスピードアップを提供する、有望な代替手段である。 近年の研究では、入力量子状態と事前計算された確率分布を初期化することにより、共通リスク尺度の計算とQMCアルゴリズムの最適化が検討されている。 本稿では,リスク要因の時間的進化をシミュレートすることで,シナリオ生成を量子計算に組み込むことに焦点をあてる。 具体的には、エクイティ(幾何学的ブラウン運動)、利率(平均回帰モデル)、信用(構造的および縮小形信用モデル)リスクファクターの確率モデルを実装する量子回路を組み立てる。 次に、これらのシナリオをQMCシミュレーションにフィードし、市場と信用リスクの両方のユースケースでエンドツーエンドの例を提供します。

Monte Carlo (MC) simulations are widely used in financial risk management, from estimating value-at-risk (VaR) to pricing over-the-counter derivatives. However, they come at a significant computational cost due to the number of scenarios required for convergence. Quantum MC (QMC) algorithms are a promising alternative: they provide a quadratic speed-up as compared to their classical counterparts. Recent studies have explored the calculation of common risk measures and the optimisation of QMC algorithms by initialising the input quantum states with pre-computed probability distributions. In this paper, we focus on incorporating scenario generation into the quantum computation by simulating the evolution of risk factors over time. Specifically, we assemble quantum circuits that implement stochastic models for equity (geometric Brownian motion), interest rate (mean-reversion models), and credit (structural and reduced-form credit models) risk factors. We then feed these scenarios to QMC simulations to provide end-to-end examples for both market and credit risk use cases.
翻訳日:2023-03-20 16:08:52 公開日:2023-03-16
# スパイキング時空間変圧器によるイベントベースヒューマンポーズ追跡

Event-based Human Pose Tracking by Spiking Spatiotemporal Transformer ( http://arxiv.org/abs/2303.09681v1 )

ライセンス: Link先を確認
Shihao Zou, Yuxuan Mu, Xinxin Zuo, Sen Wang, Li Cheng(参考訳) イベントカメラは、動きのダイナミクスを捉えるための生物学的にインスパイアされた視覚センサーとして登場し、3Dのポーズトラッキングやビデオベースの人間のポーズ推定の新しい可能性を示す。 しかしながら、ポーズトラッキングにおける既存の作業では、確固とした開始姿勢を確立するために、追加のグレースケールイメージが必要か、イベントストリームのセグメントを分解して静的なイメージフレームを形成することによって、一時的な依存関係を全て無視するかのどちらかである。 一方、多くのイベントベースタスクにおいて、ニューラルネットワーク(ANN)の有効性が示されてきたが、ANNの使用は、高密度フレームベースの画像シーケンスと比較して、イベントカメラからのイベントの発生が時空間的にはるかに小さいという事実を無視する傾向にある。 上記の問題に動機づけられて,本稿では,イベントベースのポーズ追跡のためのエンド・ツー・エンドの \textit{sparse deep learning} アプローチを提案する。 1) 当社の知る限りでは,3次元人物ポーズ追跡がイベントのみから得られるのはこれが初めてであり,入力の一部としてフレームベースの画像にアクセスする必要がなくなる。 2) 提案手法はスパイク要素ワイズ(SEW)ResNetとスパイク時空間変換器からなるスパイクニューラルネットワーク(SNN)の枠組みに基づいている。 3) 大規模合成データセットを構築し, 広範かつ多種多様なアノテートされた3次元動作と, SynEventHPD と呼ばれる長時間のイベントストリームデータを特徴付ける。 実証実験は、性能と効率の両面で、我々のアプローチの優位性を実証した。 例えば、最先端の ANN と比較すると、FLOPS の計算効率は 20 % に低下する。 私たちの実装はhttps://github.com/JimmyZou/HumanPoseTracking_SNNで公開されています。

Event camera, as an emerging biologically-inspired vision sensor for capturing motion dynamics, presents new potential for 3D human pose tracking, or video-based 3D human pose estimation. However, existing works in pose tracking either require the presence of additional gray-scale images to establish a solid starting pose, or ignore the temporal dependencies all together by collapsing segments of event streams to form static image frames. Meanwhile, although the effectiveness of Artificial Neural Networks (ANNs, a.k.a. dense deep learning) has been showcased in many event-based tasks, the use of ANNs tends to neglect the fact that compared to the dense frame-based image sequences, the occurrence of events from an event camera is spatiotemporally much sparser. Motivated by the above mentioned issues, we present in this paper a dedicated end-to-end \textit{sparse deep learning} approach for event-based pose tracking: 1) to our knowledge this is the first time that 3D human pose tracking is obtained from events only, thus eliminating the need of accessing to any frame-based images as part of input; 2) our approach is based entirely upon the framework of Spiking Neural Networks (SNNs), which consists of Spike-Element-Wise (SEW) ResNet and our proposed spiking spatiotemporal transformer; 3) a large-scale synthetic dataset is constructed that features a broad and diverse set of annotated 3D human motions, as well as longer hours of event stream data, named SynEventHPD. Empirical experiments demonstrate the superiority of our approach in both performance and efficiency measures. For example, with comparable performance to the state-of-the-art ANNs counterparts, our approach achieves a computation reduction of 20\% in FLOPS. Our implementation is made available at https://github.com/JimmyZou/HumanPoseTracking_SNN and dataset will be released upon paper acceptance.
翻訳日:2023-03-20 16:08:30 公開日:2023-03-16
# 深層学習による網膜血管の分節化

Segmentation of Retinal Blood Vessels Using Deep Learning ( http://arxiv.org/abs/2303.09679v1 )

ライセンス: Link先を確認
Ifeyinwa Linda Anene and Yongmin Li(参考訳) 網膜血管の形態は人体の様々な疾患を示す可能性があり、研究者は診断を支援するために網膜画像の自動走査と分割に取り組んでいる。 このプロジェクトでは、異なるデータベース(UNet、DR-VNet、UNet-ResNet、UNet-VGG)からのデータセットを組み合わせて、網膜画像のセグメント化における4つのニューラルネットワークアーキテクチャのパフォーマンスを比較する。

The morphology of retinal blood vessels can indicate various diseases in the human body, and researchers have been working on automatic scanning and segmentation of retinal images to aid diagnosis. This project compares the performance of four neural network architectures in segmenting retinal images, using a combined dataset from different databases, namely the UNet, DR-VNet, UNet-ResNet and UNet-VGG.
翻訳日:2023-03-20 16:07:56 公開日:2023-03-16
# インスタンス記述型GANデータ拡張による表現学習

Instance-Conditioned GAN Data Augmentation for Representation Learning ( http://arxiv.org/abs/2303.09677v1 )

ライセンス: Link先を確認
Pietro Astolfi, Arantxa Casanova, Jakob Verbeek, Pascal Vincent, Adriana Romero-Soriano, Michal Drozdzal(参考訳) データ拡張は最先端のビジュアル表現モデルをトレーニングするための重要なコンポーネントになっている。 しかし、パフォーマンス改善につながる変換のハンドクラフトの組み合わせは、難しい作業であり、視覚的に非現実的なサンプルをもたらす可能性がある。 これらの限界を克服するために、最近の研究は学習可能なデータ拡張ツールとして生成モデルの使用を探求し、限られたアプリケーションドメイン(例えば、少数ショット学習や低データ医療画像など)で有望な結果を示している。 本稿では,インスタンス条件付きgan生成を利用したデータ拡張モジュールda_ic-ganについて紹介する。 本稿では,imagenetデータセット上のresnetsおよびdeitモデルの教師付きトレーニングに最初から接続することで,da_ic-ganの利点を示し,高容量モデルでは1%pから2%pまでの精度向上を実現する。 さらに、学習表現は、一握りの分散データセットに転送された場合、ベースラインよりも頑健であることが示され、インスタンスやビューのバリエーションに対するばらつきが増大する。 また,DA_IC-GANを自己指導型トレーニングレシピと組み合わせることで,いくつかの設定で1%pの精度向上を実現できることを示す。 この研究により、学習可能なデータ拡張の可能性に関する証拠を強化し、視覚表現学習を改善し、モデルトレーニングにおける非手作業による強化への道を開く。

Data augmentation has become a crucial component to train state-of-the-art visual representation models. However, handcrafting combinations of transformations that lead to improved performances is a laborious task, which can result in visually unrealistic samples. To overcome these limitations, recent works have explored the use of generative models as learnable data augmentation tools, showing promising results in narrow application domains, e.g., few-shot learning and low-data medical imaging. In this paper, we introduce a data augmentation module, called DA_IC-GAN, which leverages instance-conditioned GAN generations and can be used off-the-shelf in conjunction with most state-of-the-art training recipes. We showcase the benefits of DA_IC-GAN by plugging it out-of-the-box into the supervised training of ResNets and DeiT models on the ImageNet dataset, and achieving accuracy boosts up to between 1%p and 2%p with the highest capacity models. Moreover, the learnt representations are shown to be more robust than the baselines when transferred to a handful of out-of-distribution datasets, and exhibit increased invariance to variations of instance and viewpoints. We additionally couple DA_IC-GAN with a self-supervised training recipe and show that we can also achieve an improvement of 1%p in accuracy in some settings. With this work, we strengthen the evidence on the potential of learnable data augmentations to improve visual representation learning, paving the road towards non-handcrafted augmentations in model training.
翻訳日:2023-03-20 16:07:47 公開日:2023-03-16
# DiGeo: 一般化Fewショットオブジェクト検出のための識別幾何認識学習

DiGeo: Discriminative Geometry-Aware Learning for Generalized Few-Shot Object Detection ( http://arxiv.org/abs/2303.09674v1 )

ライセンス: Link先を確認
Jiawei Ma, Yulei Niu, Jincheng Xu, Shiyuan Huang, Guangxing Han, Shih-Fu Chang(参考訳) 一般化された少数ショットオブジェクト検出は、豊富なアノテーションを持つベースクラスと限られたトレーニングデータを持つ新しいクラスの両方を正確に検出することを目的としている。 既存のアプローチでは、ベースクラス性能を犠牲にして、少数ショットの一般化を強化したり、新しいクラス適応を限定した精度でベースクラス検出を高精度に維持したりしている。 本稿では,全てのクラスにおいて識別的特徴学習が不十分である理由を指摘する。 そこで我々は,クラス間分離とクラス内コンパクト性の幾何学的特徴を学習するための新しいトレーニングフレームワークDiGeoを提案する。 特徴クラスタの分離を導くために、重みをクラス中心として最大かつ等分するオフラインのsimplex equiangular tight frame (etf)分類器を導出する。 各クラスのクラスタを締めくくるために、クラス固有のマージンを分類損失に適応させ、クラス中心に近い機能を奨励します。 2つの数ショットベンチマークデータセット(voc, coco)と1つのlong-tailデータセット(lvis)の実験的研究により、単一モデルを用いて、基礎クラスの検出を損なうことなく、新しいクラスの一般化を効果的に改善できることが示されている。

Generalized few-shot object detection aims to achieve precise detection on both base classes with abundant annotations and novel classes with limited training data. Existing approaches enhance few-shot generalization with the sacrifice of base-class performance, or maintain high precision in base-class detection with limited improvement in novel-class adaptation. In this paper, we point out the reason is insufficient Discriminative feature learning for all of the classes. As such, we propose a new training framework, DiGeo, to learn Geometry-aware features of inter-class separation and intra-class compactness. To guide the separation of feature clusters, we derive an offline simplex equiangular tight frame (ETF) classifier whose weights serve as class centers and are maximally and equally separated. To tighten the cluster for each class, we include adaptive class-specific margins into the classification loss and encourage the features close to the class centers. Experimental studies on two few-shot benchmark datasets (VOC, COCO) and one long-tail dataset (LVIS) demonstrate that, with a single model, our method can effectively improve generalization on novel classes without hurting the detection of base classes.
翻訳日:2023-03-20 16:07:18 公開日:2023-03-16
# 光子の散逸分離モット絶縁体の安定性について

On the stability of dissipatively-prepared Mott insulators of photons ( http://arxiv.org/abs/2303.09673v1 )

ライセンス: Link先を確認
Orazio Scarlatella, Aashish A. Clerk, and Marco Schir\`o(参考訳) 貯留層工学は、制御された駆動散逸ダイナミクスを用いてターゲット量子状態と位相を準備するための強力なアプローチである。 本研究では,光子のモット絶縁体を実現するパラダイム的散逸モデルについて検討する。 いくつかの状態では、定常状態はモット絶縁基底状態に近似するが、この相はコヒーレントな極限サイクル相への非平衡遷移によって不安定となる。 これは標準平衡基底状態mott絶縁体から超流動遷移とは完全に異なる。 定常散逸性モット相は基底状態よりも遥かに脆弱であり、より小さな臨界ホッピングでは不安定になる。 さらに、基底状態のmott絶縁体への忠実度が高ければ高いほど、より脆弱になる。 また、この非平衡不安定性は、ドバイロン励起の拡散によって起こり、コヒーレントで非常に非古典的な光状態をもたらす。

Reservoir engineering is a powerful approach for using controlled driven-dissipative dynamics to prepare target quantum states and phases. In this work, we study a paradigmatic dissipative model that can realize a Mott insulator of photons. While in some regimes its steady state approximates a Mott-insulating ground-state, this phase becomes unstable through a non-equilibrium transition towards a coherent limit-cycle phase. This is completely distinct from the standard equilibrium ground-state Mott insulator to superfluid transition. This difference has dramatic observable consequences: the steady-state dissipative Mott phase is far more fragile than its ground state counterpart, becoming unstable for a smaller critical hopping. Further, the higher its fidelity to the ground-state Mott insulator, the more fragile it becomes. We also find that this non-equilibrium instability occurs via a proliferation of doublon excitations, leading to a coherent yet highly non-classical state of light.
翻訳日:2023-03-20 16:06:55 公開日:2023-03-16
# 深層学習による離散時間分岐予測

Predicting discrete-time bifurcations with deep learning ( http://arxiv.org/abs/2303.09669v1 )

ライセンス: Link先を確認
Thomas M. Bury, Daniel Dylewsky, Chris T. Bauch, Madhur Anand, Leon Glass, Alvin Shrier, Gil Bub(参考訳) 多くの自然系や人工系は臨界遷移を起こしやすい -- 突然で潜在的に破壊的なダイナミクスの変化を引き起こす可能性がある。 ディープラーニング分類器は、大規模なシミュレーショントレーニングデータセットから分岐の一般的な特徴(力学不安定性)を学習することにより、臨界遷移に対する早期警告信号(EWS)を提供することができる。 これまで、分類器は、離散時間分岐に特有のリッチダイナミクスを無視し、連続時間分岐を予測するためにのみ訓練されてきた。 ここでは、深層学習分類器を訓練し、コディメンジョン-1の5つの局所離散時間分岐に対してEWSを提供する。 生理学,経済学,生態学で使用される離散時間モデルのシミュレーションデータと,周期的に分岐するニワトリの群集を自発的に打ち負かす実験データを用いて,分類器を検証した。 分類器は、広範囲のノイズ強度と分岐へのアプローチ率で一般的に使用されるEWSより優れている。 また、ほとんどのケースで正確な分岐を予測しており、特に周期二重化、ナイマークサッカー、折り畳み分岐の精度が高い。 分岐予測のツールとしてのディープラーニングは、まだ初期段階にあり、重要な移行のためにシステムを監視する方法を変える可能性がある。

Many natural and man-made systems are prone to critical transitions -- abrupt and potentially devastating changes in dynamics. Deep learning classifiers can provide an early warning signal (EWS) for critical transitions by learning generic features of bifurcations (dynamical instabilities) from large simulated training data sets. So far, classifiers have only been trained to predict continuous-time bifurcations, ignoring rich dynamics unique to discrete-time bifurcations. Here, we train a deep learning classifier to provide an EWS for the five local discrete-time bifurcations of codimension-1. We test the classifier on simulation data from discrete-time models used in physiology, economics and ecology, as well as experimental data of spontaneously beating chick-heart aggregates that undergo a period-doubling bifurcation. The classifier outperforms commonly used EWS under a wide range of noise intensities and rates of approach to the bifurcation. It also predicts the correct bifurcation in most cases, with particularly high accuracy for the period-doubling, Neimark-Sacker and fold bifurcations. Deep learning as a tool for bifurcation prediction is still in its nascence and has the potential to transform the way we monitor systems for critical transitions.
翻訳日:2023-03-20 16:06:38 公開日:2023-03-16
# DSDP:GPUが加速するブラインドドッキング戦略

DSDP: A Blind Docking Strategy Accelerated by GPUs ( http://arxiv.org/abs/2303.09916v1 )

ライセンス: Link先を確認
YuPeng Huang, Hong Zhang, Siyuan Jiang, Dajiong Yue, Xiaohan Lin, Jun Zhang, Yi Qin Gao(参考訳) 分子ドッキングを含む仮想スクリーニングは、薬物発見において重要な役割を果たす。 ドッキングタスクを満たすために、伝統的な機械学習ベースの多くの方法が利用可能である。 従来のドッキング法は通常広範囲に時間がかかるが、ブラインドドッキングのパフォーマンスは改善され続けている。 機械学習に基づくドッキングの実行時間は大幅に削減されているが、精度はまだ限られている。 本研究では,従来の学習手法と機械学習手法の両方の利点を生かし,ブラインドドッキングの性能を向上させるために,Deep Site and Docking Pose (DSDP) を提案する。 従来の盲点ドッキングでは、タンパク質全体が立方体で覆われており、リガンドの初期位置は立方体内でランダムに生成される。 契約では、dsdpはタンパク質の結合部位を予測でき、さらなるコンフォメーションサンプリングのための正確な探索空間と初期位置を提供することができる。 DSDPのドッキングタスクは、スコア関数と、GPUの実装によって加速されるAutoDock Vinaの類似しているが修正された検索戦略を利用する。 我々はその性能をAutodock Vina、GNINA、QuickVina、SMINA、DiffDockといった最先端の手法と体系的に比較した。 DSDPは、システム当たり1.2秒のウォールクロック計算時間を持つ未バイアスで挑戦的なテストデータセット上で、29.8%のトップ-1成功率(RMSD < 2 {\AA})に達する。 DUD-EデータセットとEquiBind, TankBind, DiffDockで使用される時間分割PDBBindデータセットのパフォーマンスも有効であり、それぞれ 0.8 s と 1.0 s の 57.2% と 41.8% のトップ-1 の成功率を示している。

Virtual screening, including molecular docking, plays an essential role in drug discovery. Many traditional and machine-learning based methods are available to fulfil the docking task. The traditional docking methods are normally extensively time-consuming, and their performance in blind docking remains to be improved. Although the runtime of docking based on machine learning is significantly decreased, their accuracy is still limited. In this study, we take the advantage of both traditional and machine-learning based methods, and present a method Deep Site and Docking Pose (DSDP) to improve the performance of blind docking. For the traditional blind docking, the entire protein is covered by a cube, and the initial positions of ligands are randomly generated in the cube. In contract, DSDP can predict the binding site of proteins and provide an accurate searching space and initial positions for the further conformational sampling. The docking task of DSDP makes use of the score function and a similar but modified searching strategy of AutoDock Vina, accelerated by implementation in GPUs. We systematically compare its performance with the state-of-the-art methods, including Autodock Vina, GNINA, QuickVina, SMINA, and DiffDock. DSDP reaches a 29.8% top-1 success rate (RMSD < 2 {\AA}) on an unbiased and challenging test dataset with 1.2 s wall-clock computational time per system. Its performances on DUD-E dataset and the time-split PDBBind dataset used in EquiBind, TankBind, and DiffDock are also effective, presenting a 57.2% and 41.8% top-1 success rate with 0.8 s and 1.0 s per system, respectively.
翻訳日:2023-03-20 14:55:20 公開日:2023-03-16
# リハーサルフリードメインのアンチスプーフィング:より一般化し、少なくする

Rehearsal-Free Domain Continual Face Anti-Spoofing: Generalize More and Forget Less ( http://arxiv.org/abs/2303.09914v1 )

ライセンス: Link先を確認
Rizhao Cai, Yawen Cui, Zhi Li, Zitong Yu, Haoliang Li, Yongjian Hu, Alex Kot(参考訳) face anti-spoofing(fas)は最近、新しいドメインのデータに遭遇した後にfasモデルが進化することが期待される連続学習環境下で研究されている。 しかし、既存のメソッドでは、リハーサルのために以前のデータを格納するために余分なリプレイバッファが必要である。 本稿では,FASのドメイン継続学習(Domain Continual Learning, DCL)に対する最初のリハーサルのない手法を提案する。 未確認領域へのより良い一般化のために、連続学習セッション中にビジョントランスフォーマー(ViT)モデルを適用するために動的中央差分畳み込み適応器(DCDCA)を設計する。 従来のデータを用いることなく,従来のドメインの忘れを緩和するため,プロキシのプロトタイプから,従来のドメイン知識による継続的な学習を抑えるために,PPCR(Proxy Prototype Contrastive Regularization)を提案する。 実用的なdclシナリオをシミュレートし、一般化と反フォーゲティング性能の両方を評価する2つの新しいプロトコルを考案する。 広範な実験結果から,提案手法は未発見領域の一般化性能を向上し,過去の知識の破滅的な忘れることを軽減できることがわかった。 コードとプロトコルは間もなくリリースされる。

Face Anti-Spoofing (FAS) is recently studied under the continual learning setting, where the FAS models are expected to evolve after encountering the data from new domains. However, existing methods need extra replay buffers to store previous data for rehearsal, which becomes infeasible when previous data is unavailable because of privacy issues. In this paper, we propose the first rehearsal-free method for Domain Continual Learning (DCL) of FAS, which deals with catastrophic forgetting and unseen domain generalization problems simultaneously. For better generalization to unseen domains, we design the Dynamic Central Difference Convolutional Adapter (DCDCA) to adapt Vision Transformer (ViT) models during the continual learning sessions. To alleviate the forgetting of previous domains without using previous data, we propose the Proxy Prototype Contrastive Regularization (PPCR) to constrain the continual learning with previous domain knowledge from the proxy prototypes. Simulate practical DCL scenarios, we devise two new protocols which evaluate both generalization and anti-forgetting performance. Extensive experimental results show that our proposed method can improve the generalization performance in unseen domains and alleviate the catastrophic forgetting of the previous knowledge. The codes and protocols will be released soon.
翻訳日:2023-03-20 14:54:27 公開日:2023-03-16
# short: basal-adjust:高血糖予防のためのトレンド予測警告とベースレート調整

Short: Basal-Adjust: Trend Prediction Alerts and Adjusted Basal Rates for Hyperglycemia Prevention ( http://arxiv.org/abs/2303.09913v1 )

ライセンス: Link先を確認
Chloe Smith, Maxfield Kouzel, Xugui Zhou, Homa Alemzadeh(参考訳) 1型糖尿病治療の顕著な進歩は、最先端の人工膵システム(APS)の開発に寄与している。 しかし、現在、非安全な血糖値(BG)のタイムリーな治療、特にリバウンド高血糖の場合は、経過が存在している。 本稿では,BGの予測シナリオ分類のための機械学習(ML)手法を提案する。 予測される低血糖と高血糖の標準的な通知に加えて,BGシナリオ特異的な警告メッセージの導入と,リバウンド高血糖予防のための正確な基礎的提案の事前手順も紹介する。 DCLP3臨床データセットの実験的評価は、患者アラートに対するリバウンドの高い事象を予測するために、98%の精度と79%の精度を達成する。

Significant advancements in type 1 diabetes treatment have been made in the development of state-of-the-art Artificial Pancreas Systems (APS). However, lapses currently exist in the timely treatment of unsafe blood glucose (BG) levels, especially in the case of rebound hyperglycemia. We propose a machine learning (ML) method for predictive BG scenario categorization that outputs messages alerting the patient to upcoming BG trends to allow for earlier, educated treatment. In addition to standard notifications of predicted hypoglycemia and hyperglycemia, we introduce BG scenario-specific alert messages and the preliminary steps toward precise basal suggestions for the prevention of rebound hyperglycemia. Experimental evaluation on the DCLP3 clinical dataset achieves >98% accuracy and >79% precision for predicting rebound high events for patient alerts.
翻訳日:2023-03-20 14:54:03 公開日:2023-03-16
# アクションユニット検出のための視覚変換器

Vision Transformer for Action Units Detection ( http://arxiv.org/abs/2303.09917v1 )

ライセンス: Link先を確認
Tu Vu, Van Thong Huynh, Soo Hyung Kim(参考訳) 顔行動単位検出(英: Facial Action Units Detection, FAUs)は、顔上の異なるユニットを特定することを含む、きめ細かい分類問題である。 本稿では,ABAW(Affective Behavior Analysis in-the-wild)コンペティションの文脈において,AU(Action Units)検出のタスクに対処するための,シンプルだが効率的なビジョントランスフォーマーに基づくアプローチを提案する。 我々はビデオビジョン変換器(ViViT)ネットワークを用いて、映像の時間的顔の変化を捉える。 さらに、vision transformersモデルの大規模なサイズを削減するために、vivitの機能抽出層をcnn backbone(regnet)に置き換えます。 我々のモデルはABAW 2023チャレンジのベースラインモデルよりも優れており、その結果14倍の差がある。 さらに、達成された結果は、以前のABAW 2022チャレンジの上位3チームと比較される。

Facial Action Units detection (FAUs) represents a fine-grained classification problem that involves identifying different units on the human face, as defined by the Facial Action Coding System. In this paper, we present a simple yet efficient Vision Transformer-based approach for addressing the task of Action Units (AU) detection in the context of Affective Behavior Analysis in-the-wild (ABAW) competition. We employ the Video Vision Transformer(ViViT) Network to capture the temporal facial change in the video. Besides, to reduce massive size of the Vision Transformers model, we replace the ViViT feature extraction layers with the CNN backbone (Regnet). Our model outperform the baseline model of ABAW 2023 challenge, with a notable 14\% difference in result. Furthermore, the achieved results are comparable to those of the top three teams in the previous ABAW 2022 challenge.
翻訳日:2023-03-20 14:43:26 公開日:2023-03-16
# ASR誤り訂正のための視覚情報

Visual Information Matters for ASR Error Correction ( http://arxiv.org/abs/2303.10160v1 )

ライセンス: Link先を確認
Vanya Bannihatti Kumar, Shanbo Cheng, Ningxin Peng, Yuchen Zhang(参考訳) 処理後のステップで自動音声認識(ASR)出力を改善するため,並列テキストデータの利用効率から,ASR誤り訂正(EC)技術が広く開発されている。 従来の著作は主にテキストや/および音声データの使用に焦点を当てており、テキストや音声情報だけでなく、視覚情報などの他のモダリティもecにとって重要である。 ひとつは、以前の作業が視覚的情報を強調しないため、希少な探索が研究されていることである。 もうひとつは、ECモデルに視覚情報が重要となる高品質なベンチマークが、コミュニティに欠けていることです。 ですから この論文は 1) 簡易かつ効果的な方法,すなわち,視覚情報をECに組み込むためのプロンプトとしてのゲート融合とイメージキャプション 2) 大規模なベンチマークデータセット,すなわちVisual-ASR-ECでは,トレーニングデータの各項目は視覚,音声,テキスト情報で構成され,テストデータは人間のアノテータによって慎重に選択され,視覚情報の欠落時に人間がミスを犯すことが保証される。 実験結果から,字幕をプロンプトとして使用すれば,視覚情報の有効利用が可能であり,単語誤り率(WER)が最大1.2%向上し,視覚情報がVisual-ASR-ECデータセットに必須であることが示唆された。

Aiming to improve the Automatic Speech Recognition (ASR) outputs with a post-processing step, ASR error correction (EC) techniques have been widely developed due to their efficiency in using parallel text data. Previous works mainly focus on using text or/ and speech data, which hinders the performance gain when not only text and speech information, but other modalities, such as visual information are critical for EC. The challenges are mainly two folds: one is that previous work fails to emphasize visual information, thus rare exploration has been studied. The other is that the community lacks a high-quality benchmark where visual information matters for the EC models. Therefore, this paper provides 1) simple yet effective methods, namely gated fusion and image captions as prompts to incorporate visual information to help EC; 2) large-scale benchmark datasets, namely Visual-ASR-EC, where each item in the training data consists of visual, speech, and text information, and the test data are carefully selected by human annotators to ensure that even humans could make mistakes when visual information is missing. Experimental results show that using captions as prompts could effectively use the visual information and surpass state-of-the-art methods by upto 1.2% in Word Error Rate(WER), which also indicates that visual information is critical in our proposed Visual-ASR-EC dataset
翻訳日:2023-03-20 13:31:32 公開日:2023-03-16
# 絡み合いダイナミクスによる素数同定

Identifying primes from entanglement dynamics ( http://arxiv.org/abs/2303.10157v1 )

ライセンス: Link先を確認
A. L. M. Southier, L. F. Santos, P. H. Souto Ribeiro, A. D. Ribeiro(参考訳) 因数化は数 $n$ が素数か合成かを決定する最も基本的な方法である。 しかし、暗号プロトコルによって悪用される困難である$n$の大きな値を考えると、このアプローチは実行不可能になる。 本稿では,線形エンタングルメントエントロピーの進化解析に基づいて,自然数の原始性を決定する方法を提案する。 具体的には、このエントロピーのフーリエ級数の振幅における特異な挙動が素数と関係していることを示す。 また, このアイデアを実験的に実装し, 結果とリーマンゼータ関数の零点との関係について検討した。

Factorization is the most fundamental way to determine if a number $n$ is prime or composite. Yet, this approach becomes impracticable when considering large values of $n$, a difficulty that is exploited by cryptographic protocols. We propose an alternative method to decide the primality of a natural number, that is based on the analysis of the evolution of the linear entanglement entropy. Specifically, we show that a singular behavior in the amplitudes of the Fourier series of this entropy is associated with prime numbers. We also discuss how this idea could be experimentally implemented and examine possible connections between our results and the zeros of the Riemann zeta function.
翻訳日:2023-03-20 13:30:47 公開日:2023-03-16
# p-bitsを用いた確率計算のフルスタックビュー:デバイス,アーキテクチャ,アルゴリズム

A full-stack view of probabilistic computing with p-bits: devices, architectures and algorithms ( http://arxiv.org/abs/2302.06457v3 )

ライセンス: Link先を確認
Shuvro Chowdhury, Andrea Grimaldi, Navid Anjum Aadit, Shaila Niazi, Masoud Mohseni, Shun Kanai, Hideo Ohno, Shunsuke Fukami, Luke Theogarajan, Giovanni Finocchio, Supriyo Datta and Kerem Y. Camsari(参考訳) トランジスタは、2022年に75${}^\text{th}$ birthdayを祝った。 ムーアの法則によって定義されたトランジスタの継続的なスケーリングは、遅いペースで続けられる。 一方、現代の人工知能(AI)アルゴリズムによる計算需要とエネルギー消費は急増している。 汎用コンピューティングのためのトランジスタのスケーリングに代わるものとして、従来型技術とのトランジスタの統合が、ドメイン固有コンピューティングに有望な道として現れてきた。 本稿では、エネルギー効率とドメイン固有コンピューティング運動の代表的な例として、pビットを用いた確率計算のフルスタックレビューを行う。 pビットは、確率的アルゴリズムや応用に適したエネルギー効率の良い確率的システムを構築するのに使用できると我々は主張する。 ハードウェア,アーキテクチャ,アルゴリズムの観点から,確率的機械学習やaiから組合せ最適化や量子シミュレーションに至るまで,確率的コンピュータの主な応用について概説する。 新興ナノデバイスと既存のCMOSエコシステムを組み合わせることで、エネルギー効率の桁違いの改善と確率的サンプリングによる確率的コンピュータが実現される。

The transistor celebrated its 75${}^\text{th}$ birthday in 2022. The continued scaling of the transistor defined by Moore's Law continues, albeit at a slower pace. Meanwhile, computing demands and energy consumption required by modern artificial intelligence (AI) algorithms have skyrocketed. As an alternative to scaling transistors for general-purpose computing, the integration of transistors with unconventional technologies has emerged as a promising path for domain-specific computing. In this article, we provide a full-stack review of probabilistic computing with p-bits as a representative example of the energy-efficient and domain-specific computing movement. We argue that p-bits could be used to build energy-efficient probabilistic systems, tailored for probabilistic algorithms and applications. From hardware, architecture, and algorithmic perspectives, we outline the main applications of probabilistic computers ranging from probabilistic machine learning and AI to combinatorial optimization and quantum simulation. Combining emerging nanodevices with the existing CMOS ecosystem will lead to probabilistic computers with orders of magnitude improvements in energy efficiency and probabilistic sampling, potentially unlocking previously unexplored regimes for powerful probabilistic algorithms.
翻訳日:2023-03-19 12:03:45 公開日:2023-03-16
# ソクラテス的手法による大規模言語モデルの提案

Prompting Large Language Models With the Socratic Method ( http://arxiv.org/abs/2303.08769v2 )

ライセンス: Link先を確認
Edward Y. Chang(参考訳) 本稿では,GPT-3を含む大規模言語モデルと効果的に相互作用するプロンプトテンプレートの開発において,ソクラティック手法を用いた体系的アプローチを提案する。 様々な方法が検討され、創造性や創造性を高めるための想像力を高めながら、正確な答えと正当性をもたらすものを特定する。 エンジニアリング・プロンプト・テンプレートや、帰納的・帰納的・帰納的・帰納的推論へのそれらの関係を応用するために、 {\em definition}, {\em elenchus}, {\em dialectic}, {\em maieutics}, {\em generalization}, {\em counterfactual reasoning} などのテクニックが議論されている。 実例を通して,これらの対話と推論手法の有効性を示す。 対話開始前にタスクの目標とユーザ意図がChatGPTを介してGPT-3に伝達されると、大きな言語モデルがインテントで表現された外部コンテキストに接続し、より効果的に実行する、という興味深い観察がなされた。

This paper presents a systematic approach to using the Socratic method in developing prompt templates that effectively interact with large language models, including GPT-3. Various methods are examined, and those that yield precise answers and justifications while fostering creativity and imagination to enhance creative writing are identified. Techniques such as {\em definition}, {\em elenchus}, {\em dialectic}, {\em maieutics}, {\em generalization}, and {\em counterfactual reasoning} are discussed for their application in engineering prompt templates and their connections to inductive, deductive, and abductive reasoning. Through examples, the effectiveness of these dialogue and reasoning methods is demonstrated. An interesting observation is made that when the task's goal and user intent are conveyed to GPT-3 via ChatGPT before the start of a dialogue, the large language model seems to connect to the external context expressed in the intent and perform more effectively.
翻訳日:2023-03-19 11:40:05 公開日:2023-03-16
# ART:大規模言語モデルの自動多段階推論とツール利用

ART: Automatic multi-step reasoning and tool-use for large language models ( http://arxiv.org/abs/2303.09014v1 )

ライセンス: Link先を確認
Bhargavi Paranjape, Scott Lundberg, Sameer Singh, Hannaneh Hajishirzi, Luke Zettlemoyer, Marco Tulio Ribeiro(参考訳) 大規模言語モデル(LLM)は、思考の中間連鎖(CoT)推論ステップを生成することにより、無数およびゼロショット設定で複雑な推論を行うことができる。 さらに、各推論ステップは、コアLLM機能(例えば、検索/実行コード)を超えて計算をサポートする外部ツールに依存することができる。 CoTのプロンプトとツールの使用には、通常、手作りのタスク固有のデモと、ツール使用によるモデル世代間を注意深くスクリプト化する必要がある。 プログラムとして中間推論ステップを自動生成するために凍結LDMを使用するフレームワークであるART(Automatic Reasoning and Tool-use)を導入する。 新しいタスクが与えられた後、ARTはタスクライブラリからマルチステップ推論とツール使用のデモを選択する。 テスト時にartは、外部ツールが呼び出されるたびに生成をシームレスに停止し、生成を再開する前に出力を統合する。 ARTは、BigBenchとMMLUベンチマークの未確認タスクに対して、数発のプロンプトと自動CoTよりも大幅に改善され、手作りのCoTプロンプトのパフォーマンスはこれらのタスクの大部分で一致している。 ARTも拡張可能であり、タスク固有のプログラムのエラーを修正したり、新しいツールを導入することで、人間の介入を最小限に抑えて、特定のタスクのパフォーマンスを大幅に向上させることで、人間がパフォーマンスを向上させることができる。

Large language models (LLMs) can perform complex reasoning in few- and zero-shot settings by generating intermediate chain of thought (CoT) reasoning steps. Further, each reasoning step can rely on external tools to support computation beyond the core LLM capabilities (e.g. search/running code). Prior work on CoT prompting and tool use typically requires hand-crafting task-specific demonstrations and carefully scripted interleaving of model generations with tool use. We introduce Automatic Reasoning and Tool-use (ART), a framework that uses frozen LLMs to automatically generate intermediate reasoning steps as a program. Given a new task to solve, ART selects demonstrations of multi-step reasoning and tool use from a task library. At test time, ART seamlessly pauses generation whenever external tools are called, and integrates their output before resuming generation. ART achieves a substantial improvement over few-shot prompting and automatic CoT on unseen tasks in the BigBench and MMLU benchmarks, and matches performance of hand-crafted CoT prompts on a majority of these tasks. ART is also extensible, and makes it easy for humans to improve performance by correcting errors in task-specific programs or incorporating new tools, which we demonstrate by drastically improving performance on select tasks with minimal human intervention.
翻訳日:2023-03-17 17:23:40 公開日:2023-03-16
# 深部qネットワーク強化学習による発電所内無人航空機の自己検査法

Self-Inspection Method of Unmanned Aerial Vehicles in Power Plants Using Deep Q-Network Reinforcement Learning ( http://arxiv.org/abs/2303.09013v1 )

ライセンス: Link先を確認
Haoran Guan(参考訳) 発電所を検査するために、強化学習技術を用いて自律ロボットを構築することができる。 この方法は環境を再現し、単純な強化学習(RL)アルゴリズムを用いる。 この戦略は発電部門を含むいくつかの分野に適用される可能性がある。 本研究は, 知覚, 計画, 行動の事前学習モデルを提案する。 Unmanned Aerial Vehicle(UAV)ナビゲーション問題や、2015年にDeepmindがローンチした強化学習ベースのフレームワークであるDeep Q-network(DQN)など、最適化の問題に対処するためには、ディープラーニングとQラーニングの両方が組み込まれている。 そこで本研究では,uav自律ナビゲーションとdqn強化学習を組み合わせた電力プラント検査システムを提案する。 これらのトレーニングプロセスは、状態を参照して報酬関数を設定し、現在使用されている他の強化学習訓練技術と区別する内的および外的効果要因の両方を考慮する。 このテクニックの強化学習セグメントの重要な構成要素は、例えば、風場のシミュレーション、無人航空機の電池充電レベル、UAVが到達した高さなどの状態を導入することである。 訓練されたモデルは、UAVが困難な環境で単独で移動できるようにすることで、検査戦略が実際に適用される可能性が高い。 モデルの平均スコアは9,000に収束する。 訓練されたモデルにより、UAVは目標地点に向かうのに必要な最小の回転数を確保できた。

For the purpose of inspecting power plants, autonomous robots can be built using reinforcement learning techniques. The method replicates the environment and employs a simple reinforcement learning (RL) algorithm. This strategy might be applied in several sectors, including the electricity generation sector. A pre-trained model with perception, planning, and action is suggested by the research. To address optimization problems, such as the Unmanned Aerial Vehicle (UAV) navigation problem, Deep Q-network (DQN), a reinforcement learning-based framework that Deepmind launched in 2015, incorporates both deep learning and Q-learning. To overcome problems with current procedures, the research proposes a power plant inspection system incorporating UAV autonomous navigation and DQN reinforcement learning. These training processes set reward functions with reference to states and consider both internal and external effect factors, which distinguishes them from other reinforcement learning training techniques now in use. The key components of the reinforcement learning segment of the technique, for instance, introduce states such as the simulation of a wind field, the battery charge level of an unmanned aerial vehicle, the height the UAV reached, etc. The trained model makes it more likely that the inspection strategy will be applied in practice by enabling the UAV to move around on its own in difficult environments. The average score of the model converges to 9,000. The trained model allowed the UAV to make the fewest number of rotations necessary to go to the target point.
翻訳日:2023-03-17 17:23:15 公開日:2023-03-16
# 画像間翻訳とMRI再構成のための生成的深層学習の力を探る:クロスドメインレビュー

Exploring the Power of Generative Deep Learning for Image-to-Image Translation and MRI Reconstruction: A Cross-Domain Review ( http://arxiv.org/abs/2303.09012v1 )

ライセンス: Link先を確認
Yuda Bi(参考訳) 近年,ディープラーニングはコンピュータビジョンや画像処理の分野で卓越した計算モデリングツールとなっている。 本研究は,自然画像領域と医用画像領域における画像から画像への変換と再構成に使用される様々な深層学習手法を包括的に分析する。 本稿では,畳み込みニューラルネットワークや生成的敵ネットワークなどの有名なディープラーニングフレームワークとその変種について検討し,それぞれの基本原理と難しさについて考察する。 自然コンピュータビジョンの分野では,様々なディープラーニング生成モデルの開発と拡張について検討する。 本稿では, 医用画像翻訳, MRI再構成, マルチコントラストMRI合成などの医療画像生成問題に対する深層学習の可能性について検討する。 この徹底したレビューは、生成的コンピュータビジョンと医療画像の分野の学者と実践者に、過去の作品を要約し、将来の研究経路についての洞察を得るのに役立つ洞察を提供する。

Deep learning has become a prominent computational modeling tool in the areas of computer vision and image processing in recent years. This research comprehensively analyzes the different deep-learning methods used for image-to-image translation and reconstruction in the natural and medical imaging domains. We examine the famous deep learning frameworks, such as convolutional neural networks and generative adversarial networks, and their variants, delving into the fundamental principles and difficulties of each. In the field of natural computer vision, we investigate the development and extension of various deep-learning generative models. In comparison, we investigate the possible applications of deep learning to generative medical imaging problems, including medical image translation, MRI reconstruction, and multi-contrast MRI synthesis. This thorough review provides scholars and practitioners in the areas of generative computer vision and medical imaging with useful insights for summarizing past works and getting insight into future research paths.
翻訳日:2023-03-17 17:22:53 公開日:2023-03-16
# フローサイトメトリーデータ解析のための機械学習

Machine Learning for Flow Cytometry Data Analysis ( http://arxiv.org/abs/2303.09007v1 )

ライセンス: Link先を確認
Yanhua Xu(参考訳) フローサイトメトリーは主に、細胞内の特定のマーカーの発現に基づいて多数の生化学的物質の特性を検出するために用いられる。 特に、膜表面受容体、抗原、イオン、またはDNA/RNA発現中の検出に有用である。 混合集団における特異な種類の細胞を認識するための生物医学的研究ツールとして使用できるだけでなく、疾患に関連する異常な細胞集団を分類する診断ツールとしても使用できる。 現代のフローサイトメーターは、同時に数万の細胞を迅速に分析し、同時に単一の細胞から複数のパラメータを測定できる。 しかし, フローサイトメトリーの急速な発展により, 従来の解析手法ではフローサイトメトリーデータの解釈が困難になっている。 何百万もの細胞から収集された多次元データの中で、興味深い細胞集団を手動で識別できる必要がある。 したがって、フローサイトメトリーデータを自動的に解析する堅牢なアプローチ、特に細胞集団を自動同定するためには、必要不可欠である。 この論文は主に、実際のデータセットと合成データセットの両方において、現在の自動ゲーティングアルゴリズムの潜在的な欠点を発見する。 3つの代表的な自動クラスタリングアルゴリズムが選択され、完全に部分的に自動ゲーティングによって適用、比較、評価される。 この論文ではサブスペースクラスタリングのProClusも実装された。 フローサイトメトリーにおけるProClusの性能は良くないが、それでもノイズを検出するための有用なアルゴリズムである。

Flow cytometry mainly used for detecting the characteristics of a number of biochemical substances based on the expression of specific markers in cells. It is particularly useful for detecting membrane surface receptors, antigens, ions, or during DNA/RNA expression. Not only can it be employed as a biomedical research tool for recognising distinctive types of cells in mixed populations, but it can also be used as a diagnostic tool for classifying abnormal cell populations connected with disease. Modern flow cytometers can rapidly analyse tens of thousands of cells at the same time while also measuring multiple parameters from a single cell. However, the rapid development of flow cytometers makes it challenging for conventional analysis methods to interpret flow cytometry data. Researchers need to be able to distinguish interesting-looking cell populations manually in multi-dimensional data collected from millions of cells. Thus, it is essential to find a robust approach for analysing flow cytometry data automatically, specifically in identifying cell populations automatically. This thesis mainly concerns discover the potential shortcoming of current automated-gating algorithms in both real datasets and synthetic datasets. Three representative automated clustering algorithms are selected to be applied, compared and evaluated by completely and partially automated gating. A subspace clustering ProClus also implemented in this thesis. The performance of ProClus in flow cytometry is not well, but it is still a useful algorithm to detect noise.
翻訳日:2023-03-17 17:22:39 公開日:2023-03-16
# 条件付き合成食品画像生成

Conditional Synthetic Food Image Generation ( http://arxiv.org/abs/2303.09005v1 )

ライセンス: Link先を確認
Wenjin Fu, Yue Han, Jiangpeng He, Sriram Baireddy, Mridul Gupta, Fengqing Zhu(参考訳) GAN(Generative Adversarial Networks)はその強力な表現学習能力に基づいて画像合成のために広く研究されている。 本研究では,合成食品画像生成のスタイルガンとその応用について検討する。 自然画像生成におけるGANの顕著な性能にもかかわらず、食品画像は、高いクラス内多様性とクラス間類似性に悩まされ、過剰適合と合成画像の視覚的アーティファクトをもたらす。 そこで本研究では,食品画像生成のためのGAN法の性能向上を図る。 具体的には,まず,合成食品画像の生成と性能解析のためのベースラインとしてstylegan3を選択した。 そして,訓練期間中に食品画像のパフォーマンス劣化を引き起こす2つの課題を同定した。(1) クラス間特徴の絡み合い,(2) イメージダウンサンプリング中に高精細度の詳細が失われることである。 この問題に対処するため,我々は1つの食品カテゴリを一度に訓練し,特徴の絡み合いを回避し,高解像度データセットから切り出された画像パッチを活用して詳細を保持することを提案する。 本手法をFood-101データセット上で評価し,生成した合成食品画像の品質をベースラインと比較した。 最後に,データ拡張に高品質な合成トレーニングサンプルを含めることで,食品画像分類などの下流タスクのパフォーマンス向上の可能性を示す。

Generative Adversarial Networks (GAN) have been widely investigated for image synthesis based on their powerful representation learning ability. In this work, we explore the StyleGAN and its application of synthetic food image generation. Despite the impressive performance of GAN for natural image generation, food images suffer from high intra-class diversity and inter-class similarity, resulting in overfitting and visual artifacts for synthetic images. Therefore, we aim to explore the capability and improve the performance of GAN methods for food image generation. Specifically, we first choose StyleGAN3 as the baseline method to generate synthetic food images and analyze the performance. Then, we identify two issues that can cause performance degradation on food images during the training phase: (1) inter-class feature entanglement during multi-food classes training and (2) loss of high-resolution detail during image downsampling. To address both issues, we propose to train one food category at a time to avoid feature entanglement and leverage image patches cropped from high-resolution datasets to retain fine details. We evaluate our method on the Food-101 dataset and show improved quality of generated synthetic food images compared with the baseline. Finally, we demonstrate the great potential of improving the performance of downstream tasks, such as food image classification by including high-quality synthetic training samples in the data augmentation.
翻訳日:2023-03-17 17:22:17 公開日:2023-03-16
# デジタルコモンズの再生: トレーニングデータのためのパブリックデータトラスト

Reclaiming the Digital Commons: A Public Data Trust for Training Data ( http://arxiv.org/abs/2303.09001v1 )

ライセンス: Link先を確認
Alan Chan, Herbie Bradley, Nitarshan Rajkumar(参考訳) AIの民主化は、人々が自由にAIを使えるだけでなく、人々がAIをどのように使用するかを集合的に決定できることを意味している。 特に、デジタルコモンズの劣化や自動化の失業など、ますます進歩するAIシステムの開発から負の外部性を取り戻すためには、集団的な意思決定力が必要である。 AI開発とデプロイメントの急激なペースは、このパワーにはほとんど及ばない。 民間企業によって独占され、最も有能な基盤モデルの開発は、公的な入力なしに進められている。 このようなモデルによって生じる経済価値が、その負の外部性を考慮して再分配されることを保証する、実装されたメカニズムは存在しない。 モデルをトレーニングするために必要なデータを生成した市民は、データの使い方に関する入力を持っていません。 本研究では,基礎モデルのトレーニングデータに対して,公開データ信託が制御をアサートすることを提案する。 特に、この信頼は、インターネットをデジタルコモンズとして取り除き、商用モデル開発者に対して、デプロイメントからの収入のパーセンテージをライセンスするべきだ。 まず、我々はそのような信頼の存在について詳細に議論する。 また、実現可能性と潜在的なリスクについても論じる。 第二に、データトラストがモデル開発者に対して、信頼からのみトレーニングデータを使用するようにインセンティブを与える方法をいくつか詳述する。 本稿では,検証機構,潜在的規制行動,肯定的インセンティブの混合を提案する。 結論として,提案するデータ信頼の他のメリットを強調するとともに,当社の作業と,データとコンピューティングガバナンスの継続的な取り組みを結びつけることによる。

Democratization of AI means not only that people can freely use AI, but also that people can collectively decide how AI is to be used. In particular, collective decision-making power is required to redress the negative externalities from the development of increasingly advanced AI systems, including degradation of the digital commons and unemployment from automation. The rapid pace of AI development and deployment currently leaves little room for this power. Monopolized in the hands of private corporations, the development of the most capable foundation models has proceeded largely without public input. There is currently no implemented mechanism for ensuring that the economic value generated by such models is redistributed to account for their negative externalities. The citizens that have generated the data necessary to train models do not have input on how their data are to be used. In this work, we propose that a public data trust assert control over training data for foundation models. In particular, this trust should scrape the internet as a digital commons, to license to commercial model developers for a percentage cut of revenues from deployment. First, we argue in detail for the existence of such a trust. We also discuss feasibility and potential risks. Second, we detail a number of ways for a data trust to incentivize model developers to use training data only from the trust. We propose a mix of verification mechanisms, potential regulatory action, and positive incentives. We conclude by highlighting other potential benefits of our proposed data trust and connecting our work to ongoing efforts in data and compute governance.
翻訳日:2023-03-17 17:21:55 公開日:2023-03-16
# 組込みGPUにおける超解像処理のための高性能加速器

A High-Performance Accelerator for Super-Resolution Processing on Embedded GPU ( http://arxiv.org/abs/2303.08999v1 )

ライセンス: Link先を確認
Wenqian Zhao, Qi Sun, Yang Bai, Wenbo Li, Haisheng Zheng, Bei Yu, Martin D.F. Wong(参考訳) 近年、スーパーレゾリューション(sr)処理の著しい進歩が見られる。 しかし、そのリアルタイム推論要件は、モデル設計だけでなく、オンチップ実装にとっても課題となる。 本稿では,組み込みGPUデバイス上でのフルスタックSRアクセラレーションフレームワークを実装する。 SRモデルで使用される特殊辞書学習アルゴリズムを詳細に解析し,新しい辞書選択戦略により高速化した。 さらに、モデル構造とともにハードウェアプログラミングアーキテクチャを分析し、リソース制約下での推論レイテンシを最小化するために計算カーネルの最適設計を導く。 これらの新しい手法により、深層辞書学習に基づくsrモデルにおけるコミュニケーションと計算のボトルネックが完全に取り組まれる。 NVIDIA NX と 2080Ti のエッジ埋め込み実験により,我々の手法は最先端のNVIDIA TensorRT を著しく上回り,リアルタイム性能を実現することができることを示した。

Recent years have witnessed impressive progress in super-resolution (SR) processing. However, its real-time inference requirement sets a challenge not only for the model design but also for the on-chip implementation. In this paper, we implement a full-stack SR acceleration framework on embedded GPU devices. The special dictionary learning algorithm used in SR models was analyzed in detail and accelerated via a novel dictionary selective strategy. Besides, the hardware programming architecture together with the model structure is analyzed to guide the optimal design of computation kernels to minimize the inference latency under the resource constraints. With these novel techniques, the communication and computation bottlenecks in the deep dictionary learning-based SR models are tackled perfectly. The experiments on the edge embedded NVIDIA NX and 2080Ti show that our method outperforms the state-of-the-art NVIDIA TensorRT significantly, and can achieve real-time performance.
翻訳日:2023-03-17 17:21:29 公開日:2023-03-16
# 視覚と言語モデルを用いた統一視覚関係検出

Unified Visual Relationship Detection with Vision and Language Models ( http://arxiv.org/abs/2303.08998v1 )

ライセンス: Link先を確認
Long Zhao, Liangzhe Yuan, Boqing Gong, Yin Cui, Florian Schroff, Ming-Hsuan Yang, Hartwig Adam, Ting Liu(参考訳) この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。 異なるデータセットにまたがるラベルのマージは、一貫性のない分類が原因で困難になる可能性がある。 この問題は、対のオブジェクト間で二階のビジュアルセマンティクスが導入されたとき、視覚関係検出において悪化する。 この課題に対処するために、視覚と言語モデル(VLM)を活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。 VLMはよく整合したイメージとテキストの埋め込みを提供し、類似の関係はセマンティック統一のために互いに近接するように最適化される。 私たちのボトムアップ設計により、モデルがオブジェクト検出と視覚関連データセットの両方でトレーニングの利点を享受できます。 人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。 UniVRDはHICO-DETで38.07 mAPを達成し、現在の最高のボトムアップHOI検出器を60%上回った。 さらに重要なことは、我々の統合検出器がmAPのデータセット固有のモデルと同様に機能し、モデルをスケールアップする際のさらなる改善を実現することを示しています。

This work focuses on training a single visual relationship detector predicting over the union of label spaces from multiple datasets. Merging labels spanning different datasets could be challenging due to inconsistent taxonomies. The issue is exacerbated in visual relationship detection when second-order visual semantics are introduced between pairs of objects. To address this challenge, we propose UniVRD, a novel bottom-up method for Unified Visual Relationship Detection by leveraging vision and language models (VLMs). VLMs provide well-aligned image and text embeddings, where similar relationships are optimized to be close to each other for semantic unification. Our bottom-up design enables the model to enjoy the benefit of training with both object detection and visual relationship datasets. Empirical results on both human-object interaction detection and scene-graph generation demonstrate the competitive performance of our model. UniVRD achieves 38.07 mAP on HICO-DET, outperforming the current best bottom-up HOI detector by 60% relatively. More importantly, we show that our unified detector performs as well as dataset-specific models in mAP, and achieves further improvements when we scale up the model.
翻訳日:2023-03-17 17:21:14 公開日:2023-03-16
# 大規模容量拡大問題に対する時空間の学習

Learning Spatio-Temporal Aggregations for Large-Scale Capacity Expansion Problems ( http://arxiv.org/abs/2303.08996v1 )

ライセンス: Link先を確認
Aron Brenner, Rahman Khorramfar, Saurabh Amin(参考訳) 効果的な投資計画決定は、サイバー物理インフラが長期にわたるパフォーマンス要件を満たすために不可欠である。 これらの決定を計算するには、しばしば能力拡張問題(CEP)を解決する必要がある。 地域規模のエネルギーシステムでは、ネットワークサイズが大きく、ノード特性が異質であり、多数の運用期間があるため、これらの問題を解決するのに非常に費用がかかる。 トラクタビリティを維持するため、従来のアプローチでは、ネットワークノードを集約したり、代表時間のセットを選択したりする。 多くの場合、これらの削減はCEPのコストと制約に重大な影響を及ぼす供給需要の変動を捉えず、最適以下の決定につながる。 本稿では、ヘテロジニアスノード(CEPHN)を持つ汎用CEPの時空間アグリゲーションのための新しいグラフ畳み込みオートエンコーダ手法を提案する。 我々のアーキテクチャはグラフプーリングを利用して類似した特徴を持つノードを識別し、多目的損失関数を最小化する。 この損失関数は、可搬性と最適性に関して望ましい空間的および時間的集約を誘導するために調整される。 特に、グラフプーリングの出力は、低次元の符号化表現をクラスタリングしながら、空間的なアグリゲーションを提供する。 我々は,ニューイングランドにおける88ノード発電と天然ガスシステムを組み合わせた発電拡張計画にアプローチを適用した。 その結果、6つのノードからなるより単純なcephnと、1年間から選ばれた少数の代表日が得られた。 本研究では,損失関数を規定する超パラメータの範囲での集計結果を評価し,その結果の上限値とベンチマーク法で得られた値を比較した。 本手法は,ベンチマーク空間的(時間的)アグリゲーションアプローチより33%低い上限(約10%)を提供することを示す。

Effective investment planning decisions are crucial to ensure cyber-physical infrastructures satisfy performance requirements over an extended time horizon. Computing these decisions often requires solving Capacity Expansion Problems (CEPs). In the context of regional-scale energy systems, these problems are prohibitively expensive to solve due to large network sizes, heterogeneous node characteristics, and a large number of operational periods. To maintain tractability, traditional approaches aggregate network nodes and/or select a set of representative time periods. Often, these reductions do not capture supply-demand variations that crucially impact CEP costs and constraints, leading to suboptimal decisions. Here, we propose a novel graph convolutional autoencoder approach for spatio-temporal aggregation of a generic CEP with heterogeneous nodes (CEPHN). Our architecture leverages graph pooling to identify nodes with similar characteristics and minimizes a multi-objective loss function. This loss function is tailored to induce desirable spatial and temporal aggregations with regard to tractability and optimality. In particular, the output of the graph pooling provides a spatial aggregation while clustering the low-dimensional encoded representations yields a temporal aggregation. We apply our approach to generation expansion planning of a coupled 88-node power and natural gas system in New England. The resulting aggregation leads to a simpler CEPHN with 6 nodes and a small set of representative days selected from one year. We evaluate aggregation outcomes over a range of hyperparameters governing the loss function and compare resulting upper bounds on the original problem with those obtained using benchmark methods. We show that our approach provides upper bounds that are 33% (resp. 10%) lower those than obtained from benchmark spatial (resp. temporal) aggregation approaches.
翻訳日:2023-03-17 17:20:56 公開日:2023-03-16
# Mimic3D:3Dから2Dの模倣で3D対応のGANを作れる

Mimic3D: Thriving 3D-Aware GANs via 3D-to-2D Imitation ( http://arxiv.org/abs/2303.09036v1 )

ライセンス: Link先を確認
Xingyu Chen, Yu Deng, Baoyuan Wang(参考訳) 光リアリズムとマルチビューの3D整合性の両方で画像を生成することは、3D対応のGANには不可欠である。 CNNベースの2Dスーパーレゾリューションによるフォトリアリズムの改善は、厳密な3D一貫性を損なう可能性がある。 本稿では,3次元レンダリングブランチで生成した画像を2次元スーパーレゾリューションブランチで再現することにより,GANが厳密な3次元一貫性を維持しながら高品質な画像を生成することができる3D-to-2D模倣方式を提案する。 また、3次元表現学習を改善するために3次元認識畳み込みを導入し、画像生成品質をさらに向上させる。 本手法はFFHQとAFHQ-v2のFIDスコア5.4と4.3をそれぞれ512×512の解像度で達成し, 直接3Dレンダリングによる既存の3D認識GANよりも優れ, 2D超解像を利用する従来の最先端手法に非常に近い。 プロジェクトウェブサイト: https://seanchenxy.github.io/Mimic3DWeb

Generating images with both photorealism and multiview 3D consistency is crucial for 3D-aware GANs, yet existing methods struggle to achieve them simultaneously. Improving the photorealism via CNN-based 2D super-resolution can break the strict 3D consistency, while keeping the 3D consistency by learning high-resolution 3D representations for direct rendering often compromises image quality. In this paper, we propose a novel learning strategy, namely 3D-to-2D imitation, which enables a 3D-aware GAN to generate high-quality images while maintaining their strict 3D consistency, by letting the images synthesized by the generator's 3D rendering branch to mimic those generated by its 2D super-resolution branch. We also introduce 3D-aware convolutions into the generator for better 3D representation learning, which further improves the image generation quality. With the above strategies, our method reaches FID scores of 5.4 and 4.3 on FFHQ and AFHQ-v2 Cats, respectively, at 512x512 resolution, largely outperforming existing 3D-aware GANs using direct 3D rendering and coming very close to the previous state-of-the-art method that leverages 2D super-resolution. Project website: https://seanchenxy.github.io/Mimic3DWeb.
翻訳日:2023-03-17 17:14:46 公開日:2023-03-16
# 画像分類のための改良型自己組織化マップによる脳様表現の抽出

Extracting the Brain-like Representation by an Improved Self-Organizing Map for Image Classification ( http://arxiv.org/abs/2303.09035v1 )

ライセンス: Link先を確認
Jiahong Zhang, Lihong Cao, Moning Zhang, Wenlong Fu(参考訳) バックプロパゲーションに基づく教師あり学習はコンピュータビジョンタスクにおいて大きな成功を収めた。 しかし、その生物学的可能性は常に議論の余地がある。 近年,バイオインスパイアされたヘビアン学習規則 (HLR) が注目されている。 自己組織化マップ(SOM)は、ニューロン間の接続を確立するために競合するHLRを使用し、教師なしの方法で視覚的特徴を取得する。 SOMニューロンの表現には脳のような特徴があるが、人間の視覚野のニューロンの表現とはかなり異なる。 本稿では,mlSOMと命名されたマルチワード,マルチコード,ローカルな受容場を備えた改良型SOMを提案する。 我々はmlSOMのニューロン表現がヒト視覚皮質と類似していることを観察した。 さらに、mlSOMは、ヒトの下側頭葉にも見られる、オブジェクトのスパース分散表現を示す。 さらに、mlSOMは元のSOMや他の最先端HLRベースの手法よりも分類精度が良いことを示す。 コードはhttps://github.com/JiaHongZ/mlSOMでアクセスできる。

Backpropagation-based supervised learning has achieved great success in computer vision tasks. However, its biological plausibility is always controversial. Recently, the bio-inspired Hebbian learning rule (HLR) has received extensive attention. Self-Organizing Map (SOM) uses the competitive HLR to establish connections between neurons, obtaining visual features in an unsupervised way. Although the representation of SOM neurons shows some brain-like characteristics, it is still quite different from the neuron representation in the human visual cortex. This paper proposes an improved SOM with multi-winner, multi-code, and local receptive field, named mlSOM. We observe that the neuron representation of mlSOM is similar to the human visual cortex. Furthermore, mlSOM shows a sparse distributed representation of objects, which has also been found in the human inferior temporal area. In addition, experiments show that mlSOM achieves better classification accuracy than the original SOM and other state-of-the-art HLR-based methods. The code is accessible at https://github.com/JiaHongZ/mlSOM.
翻訳日:2023-03-17 17:14:20 公開日:2023-03-16
# コントラスト型局所ワーピングを用いた教師なし表情表現学習

Unsupervised Facial Expression Representation Learning with Contrastive Local Warping ( http://arxiv.org/abs/2303.09034v1 )

ライセンス: Link先を確認
Fanglei Xue, Yifan Sun, Yi Yang(参考訳) 本稿では,表情解析のための教師なし表現学習について検討する。 我々は、Unsupervised Facial Expression Representation (UFER) は探索に値すると考えており、スケーリング、アノテーションバイアス、離散ラベルと連続感情の相違、モデル事前学習といった、表情分析における重要な課題に対処する可能性があると考えている。 このようなモチベーションを生かしたコントラストローカルワープ(ContraWarping)を用いたUFER手法を提案し,感情表現が現在のグローバルトランスフォーメーション(ファイントランスフォーメーション,カラージッタなど)に頑健であるが,ランダムローカルワープによって容易に変更できるという知見を活用する。 したがって、顔画像が与えられると、contrawarpingはいくつかのグローバルトランスフォーメーションと局所ウォーピングを使用して、ポジティブなサンプルとネガティブなサンプルを生成し、新しいコントラスト学習フレームワークをセットアップする。 我々の詳細な調査によると、 1)グローバルトランスフォーメーションからの正のペアは、一般的な自己教師あり学習(例えばbyol)で活用することができ、既にいくつかの有益な特徴をもたらしている。 2)局所ウォーピングからの負のペアは表現関連変異を明示的に導入し,さらに大幅な改善をもたらす。 ContraWarpingに基づいて、表情認識と画像検索という2つの表情解析シナリオの下で、UFERの利点を実証する。 例えば、線形探索にContraWarping機能を直接使用すると、RAF-DBでは79.14%の精度が達成され、全監督対象(事前学習なしでは88.92% / 84.81%)へのギャップが大幅に減少する。

This paper investigates unsupervised representation learning for facial expression analysis. We think Unsupervised Facial Expression Representation (UFER) deserves exploration and has the potential to address some key challenges in facial expression analysis, such as scaling, annotation bias, the discrepancy between discrete labels and continuous emotions, and model pre-training. Such motivated, we propose a UFER method with contrastive local warping (ContraWarping), which leverages the insight that the emotional expression is robust to current global transformation (affine transformation, color jitter, etc.) but can be easily changed by random local warping. Therefore, given a facial image, ContraWarping employs some global transformations and local warping to generate its positive and negative samples and sets up a novel contrastive learning framework. Our in-depth investigation shows that: 1) the positive pairs from global transformations may be exploited with general self-supervised learning (e.g., BYOL) and already bring some informative features, and 2) the negative pairs from local warping explicitly introduce expression-related variation and further bring substantial improvement. Based on ContraWarping, we demonstrate the benefit of UFER under two facial expression analysis scenarios: facial expression recognition and image retrieval. For example, directly using ContraWarping features for linear probing achieves 79.14% accuracy on RAF-DB, significantly reducing the gap towards the full-supervised counterpart (88.92% / 84.81% with/without pre-training).
翻訳日:2023-03-17 17:14:03 公開日:2023-03-16
# 不確実性のみを支払う - 分散適応型トンプソンサンプリング

Only Pay for What Is Uncertain: Variance-Adaptive Thompson Sampling ( http://arxiv.org/abs/2303.09033v1 )

ライセンス: Link先を確認
Aadirupa Saha and Branislav Kveton(参考訳) ほとんどのバンディットアルゴリズムは報酬の分散または上限が知られていると仮定する。 分散過大評価は通常安全かつ健全であるが、後悔を増す。 一方、過小評価された分散は、最適下腕に早期にコミットするため、線形後悔を引き起こす可能性がある。 このことは、分散対応の頻繁なアルゴリズムに関する先行研究を動機付けている。 我々はベイズ設定の基礎を築いた。 特に, 既知および未知不均一報酬分散を用いたマルチアームバンドについて検討し, ベイズを後悔する双方に対するトンプソンサンプリングアルゴリズムを開発した。 私たちの後悔は報酬のばらつきを減らし、学習を楽にする。 未知の報酬分散に対するバウンドは、前者の学習報酬分散に対する影響を捉え、その種類の最初のものである。 実験では分散認識ベイズアルゴリズムの優越性を示し,その頑健性を強調する。

Most bandit algorithms assume that the reward variance or its upper bound is known. While variance overestimation is usually safe and sound, it increases regret. On the other hand, an underestimated variance may lead to linear regret due to committing early to a suboptimal arm. This motivated prior works on variance-aware frequentist algorithms. We lay foundations for the Bayesian setting. In particular, we study multi-armed bandits with known and \emph{unknown heterogeneous reward variances}, and develop Thompson sampling algorithms for both and bound their Bayes regret. Our regret bounds decrease with lower reward variances, which make learning easier. The bound for unknown reward variances captures the effect of the prior on learning reward variances and is the first of its kind. Our experiments show the superiority of variance-aware Bayesian algorithms and also highlight their robustness.
翻訳日:2023-03-17 17:13:32 公開日:2023-03-16
# 協調型多エージェント強化学習のための条件付き最適探索

Conditionally Optimistic Exploration for Cooperative Deep Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2303.09032v1 )

ライセンス: Link先を確認
Xutong Zhao, Yangchen Pan, Chenjun Xiao, Sarath Chandar, Janarthanan Rajendran(参考訳) MARL(Multi-Agent Reinforcement Learning)では,効率的な探索が重要である。 本稿では,理論的に正当化された木探索アルゴリズムUTT(Upper Confidence bounds to Trees)のアイデアに基づいて,協調探索を効率的に促進する探索手法を提案する。 高いレベルの直感は、オプティミズムに基づく探索を実行するために、各エージェントのオプティミズム推定が他のエージェントとの構造化された依存関係関係を捉えている場合、エージェントが協調戦略を実現することである。 探索木の各ノード(つまりアクション)において、UCTは親ノードの訪問数に条件付けしたボーナスを用いて楽観的な探索を行う。 我々は,MARLを木探索の繰り返しと見なす視点を提供し,条件最適化探索(COE)と呼ばれる手法を開発した。 我々は、エージェントがシーケンシャルな順序に従って行動を取ると仮定し、探索ツリーの同じ深さのノードを1つのエージェントのアクションとみなす。 COEは、各エージェントの状態-行動値の推定を、エージェントが現在のエージェントに取る状態の訪問数と共同アクションから導かれる楽観的なボーナスで計算する。 coeは分散実行を伴う集中トレーニングの任意の値分解法に適応できる。 様々な共同MARLベンチマークによる実験により、COEはハード探索タスクにおける現在の最先端探査手法よりも優れていることが示された。

Efficient exploration is critical in cooperative deep Multi-Agent Reinforcement Learning (MARL). In this paper, we propose an exploration method that efficiently encourages cooperative exploration based on the idea of the theoretically justified tree search algorithm UCT (Upper Confidence bounds applied to Trees). The high-level intuition is that to perform optimism-based exploration, agents would achieve cooperative strategies if each agent's optimism estimate captures a structured dependency relationship with other agents. At each node (i.e., action) of the search tree, UCT performs optimism-based exploration using a bonus derived by conditioning on the visitation count of its parent node. We provide a perspective to view MARL as tree search iterations and develop a method called Conditionally Optimistic Exploration (COE). We assume agents take actions following a sequential order, and consider nodes at the same depth of the search tree as actions of one individual agent. COE computes each agent's state-action value estimate with an optimistic bonus derived from the visitation count of the state and joint actions taken by agents up to the current agent. COE is adaptable to any value decomposition method for centralized training with decentralized execution. Experiments across various cooperative MARL benchmarks show that COE outperforms current state-of-the-art exploration methods on hard-exploration tasks.
翻訳日:2023-03-17 17:13:19 公開日:2023-03-16
# 絵は千語の価値: 言語モデルはピクセルから計画する

A Picture is Worth a Thousand Words: Language Models Plan from Pixels ( http://arxiv.org/abs/2303.09031v1 )

ライセンス: Link先を確認
Anthony Z. Liu, Lajanugen Logeswaran, Sungryull Sohn, Honglak Lee(参考訳) 計画は, 実環境下で長時間作業を行う人工エージェントの重要な機能である。 本研究では,事前学習型言語モデル(PLM)を用いて,具体的視覚環境におけるテキスト命令からのプランシーケンスを推論する。 以前の PLM ベースの計画手法では、観察はテキスト(例えば、キャプションモデルによって提供される)の形式で利用できると仮定するか、指示のみによる計画の推論、あるいは限られた方法で視覚環境に関する情報(事前訓練された価格関数など)を組み込む。 対照的に,plmの入力プロンプトとして観測が直接エンコードされた場合でも,plmは正確に計画できることを示す。 この単純なアプローチは、ALFWorldとVirtualHomeベンチマークの実験において、従来のアプローチよりも優れていることを示す。

Planning is an important capability of artificial agents that perform long-horizon tasks in real-world environments. In this work, we explore the use of pre-trained language models (PLMs) to reason about plan sequences from text instructions in embodied visual environments. Prior PLM based approaches for planning either assume observations are available in the form of text (e.g., provided by a captioning model), reason about plans from the instruction alone, or incorporate information about the visual environment in limited ways (such as a pre-trained affordance function). In contrast, we show that PLMs can accurately plan even when observations are directly encoded as input prompts for the PLM. We show that this simple approach outperforms prior approaches in experiments on the ALFWorld and VirtualHome benchmarks.
翻訳日:2023-03-17 17:12:54 公開日:2023-03-16
# リモートセンシングオブジェクト検出のための大規模選択カーネルネットワーク

Large Selective Kernel Network for Remote Sensing Object Detection ( http://arxiv.org/abs/2303.09030v1 )

ライセンス: Link先を確認
Yuxuan Li, Qibin Hou, Zhaohui Zheng, Ming-Ming Cheng, Jian Yang and Xiang Li(参考訳) リモートセンシングオブジェクト検出に関する最近の研究は、指向性境界ボックスの表現の改善に重点を置いているが、リモートセンシングシナリオで提示されるユニークな事前知識を見落としている。 このような事前知識は、十分長い範囲のコンテキストを参照せずに、小さなリモートセンシングオブジェクトを誤って検出し、異なるタイプのオブジェクトが必要とする長距離コンテキストが異なるため、有用である。 本稿では,これらの先行を考慮に入れ,Large Selective Kernel Network (LSKNet)を提案する。 LSKNetはその大きな空間受容場を動的に調整し、リモートセンシングシナリオにおける様々なオブジェクトの範囲をモデル化する。 我々の知る限りでは、リモートセンシングオブジェクト検出の分野で大規模で選択的カーネル機構が探索されたのはこれが初めてである。 ベルとホイッスルがなければ、LSKNetはHRSC2016 (98.46\% mAP)、DOTA-v1.0 (81.64\% mAP)、FAIR1M-v1.0 (47.87\% mAP)といった標準ベンチマークに新しい最先端スコアを設定する。 同様の手法に基づき、2022年にグレーターベイエリア国際アルゴリズムコンペティションで2位にランクインした。 コードはhttps://github.com/zcablii/Large-Selective-Kernel-Networkで入手できる。

Recent research on remote sensing object detection has largely focused on improving the representation of oriented bounding boxes but has overlooked the unique prior knowledge presented in remote sensing scenarios. Such prior knowledge can be useful because tiny remote sensing objects may be mistakenly detected without referencing a sufficiently long-range context, and the long-range context required by different types of objects can vary. In this paper, we take these priors into account and propose the Large Selective Kernel Network (LSKNet). LSKNet can dynamically adjust its large spatial receptive field to better model the ranging context of various objects in remote sensing scenarios. To the best of our knowledge, this is the first time that large and selective kernel mechanisms have been explored in the field of remote sensing object detection. Without bells and whistles, LSKNet sets new state-of-the-art scores on standard benchmarks, i.e., HRSC2016 (98.46\% mAP), DOTA-v1.0 (81.64\% mAP) and FAIR1M-v1.0 (47.87\% mAP). Based on a similar technique, we rank 2nd place in 2022 the Greater Bay Area International Algorithm Competition. Code is available at https://github.com/zcablii/Large-Selective-Kernel-Network.
翻訳日:2023-03-17 17:12:38 公開日:2023-03-16
# 深層強化学習におけるグローバルパフォーマンスメトリクス最適化のための学習報酬

Learning Rewards to Optimize Global Performance Metrics in Deep Reinforcement Learning ( http://arxiv.org/abs/2303.09027v1 )

ライセンス: Link先を確認
Junqi Qian, Paul Weng, Chenmien Tan(参考訳) 新しい問題に強化学習(rl)を適用する場合、報酬工学は必要だが、しばしばシステム設計者が直面する困難でエラーやすいタスクである。 このステップを回避するために,問題記述の一部として利用できると思われるグローバルパフォーマンスメトリックを最適化できる新しい(深度)RL法であるLR4GPMを提案する。 LR4GPMは,(1) 評価基準に適合する(おそらくベクトル)報酬関数を学習し,(2) 学習報酬に基づいて,この評価指標の近似を最適化するためのポリシーを訓練する。 このようなRLトレーニングは、報酬関数とポリシーの両方が非定常データを用いてトレーニングされているため、簡単ではない。 この問題を克服するために,我々はいくつかの訓練手法を提案する。 いくつかの領域におけるLR4GPMの効率を実証する。 特に、LR4GPMは、DAI'2020で主催された最近の自動運転コンペティションの勝者よりも優れています。

When applying reinforcement learning (RL) to a new problem, reward engineering is a necessary, but often difficult and error-prone task a system designer has to face. To avoid this step, we propose LR4GPM, a novel (deep) RL method that can optimize a global performance metric, which is supposed to be available as part of the problem description. LR4GPM alternates between two phases: (1) learning a (possibly vector) reward function used to fit the performance metric, and (2) training a policy to optimize an approximation of this performance metric based on the learned rewards. Such RL training is not straightforward since both the reward function and the policy are trained using non-stationary data. To overcome this issue, we propose several training tricks. We demonstrate the efficiency of LR4GPM on several domains. Notably, LR4GPM outperforms the winner of a recent autonomous driving competition organized at DAI'2020.
翻訳日:2023-03-17 17:12:15 公開日:2023-03-16
# 資源制約および細粒度物体検出のためのコモンセンス知識支援深層学習

Commonsense Knowledge Assisted Deep Learning for Resource-constrained and Fine-grained Object Detection ( http://arxiv.org/abs/2303.09026v1 )

ライセンス: Link先を確認
Pu Zhang, Bin Liu(参考訳) 本稿では,エッジコンピューティングなどの資源制約のあるケースにおける微細な画像オブジェクト検出について考察する。 ディープラーニング(DL)、すなわちディープニューラルネットワーク(DNN)による学習は、オブジェクト検出において支配的なアプローチとなっている。 正確なきめ細かい検出を実現するには、十分に大きなDNNモデルと大量のデータアノテーションを使用する必要がある。 そこで本研究では,コモンセンスの知識を活用し,粗粒度物体検出器の高精度検出を支援する手法を提案する。 具体的には,ベンチマークDL検出器によって得られた粗粒度ラベレを処理し,微細粒度ラベレを生成するコモンセンス知識推論モジュール(CKIM)を導入する。 我々はckimにおいて、spash-rule とファジィ-rule に基づく推論の両方を考慮し、後者は対象意味ラベルの曖昧さを扱うために使用される。 本手法は, YOLOv4, Mobilenetv3-SSD, YOLOv7-tinyという, 最新のDL検出器を用いて実装した。 実験結果から,提案手法は精度,モデルサイズ,処理遅延の点でベンチマーク検出器よりも優れていた。

In this paper, we consider fine-grained image object detection in resource-constrained cases such as edge computing. Deep learning (DL), namely learning with deep neural networks (DNNs), has become the dominating approach to object detection. To achieve accurate fine-grained detection, one needs to employ a large enough DNN model and a vast amount of data annotations, which brings a challenge for using modern DL object detectors in resource-constrained cases. To this end, we propose an approach, which leverages commonsense knowledge to assist a coarse-grained object detector to get accurate fine-grained detection results. Specifically, we introduce a commonsense knowledge inference module (CKIM) to process coarse-grained lables given by a benchmark DL detector to produce fine-grained lables. We consider both crisp-rule and fuzzy-rule based inference in our CKIM; the latter is used to handle ambiguity in the target semantic labels. We implement our method based on several modern DL detectors, namely YOLOv4, Mobilenetv3-SSD and YOLOv7-tiny. Experiment results show that our approach outperforms benchmark detectors remarkably in terms of accuracy, model size and processing latency.
翻訳日:2023-03-17 17:11:57 公開日:2023-03-16
# 因果関係の幾何学

The Geometry of Causality ( http://arxiv.org/abs/2303.09017v1 )

ライセンス: Link先を確認
Stefano Gogioso and Nicola Pinzani(参考訳) 完全デバイス非依存・理論非依存の環境で因果関係、非局所性、文脈性を研究するための統一的な運用フレームワークを提供する。 我々は、入力履歴の任意の空間と入力コンテキストの任意の選択に対して、私たちの選択した"causal polytopes"のポートマントーを定義する。 条件付き確率分布のより単純なポリトープを因果性方程式の集合でスライスすることで因果的トープが得られることを示す。 我々は,任意のサブカソーサルトピーが支持する経験的モデルの最大成分と関連する因果分数を計算するための効率的な線形プログラムを提供する。 任意の因果制約に対して因果分離性の概念を導入する。 実験モデルの最大因果分離可能な成分、したがってその因果分離分数を計算するための効率的な線形プログラムを提供する。 本研究では, 絡み合いや文脈制御を伴う量子スイッチの選択を含む, いくつかの新しい例について因果分画と因果分画性について検討する。 この過程において,因果的不分離性が非局所性や文脈性と明確に相関する現象である「因果的文脈性(causal contextity)」の存在を実証する。

We provide a unified operational framework for the study of causality, non-locality and contextuality, in a fully device-independent and theory-independent setting. We define causaltopes, our chosen portmanteau of "causal polytopes", for arbitrary spaces of input histories and arbitrary choices of input contexts. We show that causaltopes are obtained by slicing simpler polytopes of conditional probability distributions with a set of causality equations, which we fully characterise. We provide efficient linear programs to compute the maximal component of an empirical model supported by any given sub-causaltope, as well as the associated causal fraction. We introduce a notion of causal separability relative to arbitrary causal constraints. We provide efficient linear programs to compute the maximal causally separable component of an empirical model, and hence its causally separable fraction, as the component jointly supported by certain sub-causaltopes. We study causal fractions and causal separability for several novel examples, including a selection of quantum switches with entangled or contextual control. In the process, we demonstrate the existence of "causal contextuality", a phenomenon where causal inseparability is clearly correlated to, or even directly implied by, non-locality and contextuality.
翻訳日:2023-03-17 17:11:35 公開日:2023-03-16
# FindView: エージェントを見回すための精密なターゲットビューローカライゼーションタスク

FindView: Precise Target View Localization Task for Look Around Agents ( http://arxiv.org/abs/2303.09054v1 )

ライセンス: Link先を確認
Haruya Ishikawa, Yoshimitsu Aoki(参考訳) サービスロボットの需要の増加と自動検査により、エージェントは周囲の環境をローカライズし、共有コンテキストによって人間とより自然なコミュニケーションを実現する必要がある。 本研究では,FinderViewタスクと呼ばれるエージェントを探索するターゲットビューの正確なローカライゼーションを,新規かつ簡単なタスクとして提案する。 このタスクは、PTZカメラや360度メディアのユーザインタフェースの動きを模倣し、オブザーバーがターゲットと正確に一致するビューを見つけるために「周りを見回す」必要がある。 そこで本研究では,360度シーンと対話することで,学習のための強化学習を活用し,最適な視点をヒューリスティックに求めるルールベースエージェントと,政策学習エージェントを提案する。 広範な評価とベンチマークを通じて,学習手法には多くの利点,特に腐敗に頑健で,新たな場面に容易に展開できる正確な局所化がある,と結論づけた。

With the increase in demands for service robots and automated inspection, agents need to localize in its surrounding environment to achieve more natural communication with humans by shared contexts. In this work, we propose a novel but straightforward task of precise target view localization for look around agents called the FindView task. This task imitates the movements of PTZ cameras or user interfaces for 360 degree mediums, where the observer must "look around" to find a view that exactly matches the target. To solve this task, we introduce a rule-based agent that heuristically finds the optimal view and a policy learning agent that employs reinforcement learning to learn by interacting with the 360 degree scene. Through extensive evaluations and benchmarks, we conclude that learned methods have many advantages, in particular precise localization that is robust to corruption and can be easily deployed in novel scenes.
翻訳日:2023-03-17 17:05:02 公開日:2023-03-16
# 拡散型逆境浄化のロバスト評価

Robust Evaluation of Diffusion-Based Adversarial Purification ( http://arxiv.org/abs/2303.09051v1 )

ライセンス: Link先を確認
Minjong Lee, Dongwoo Kim(参考訳) 拡散型浄化法における現状の評価実践に疑問を呈する。 拡散法に基づく浄化法は,テスト時に入力データポイントから逆効果を取り除くことを目的としている。 このアプローチは、トレーニングとテストの切り離しによる敵のトレーニングに代わるものとして、注目を集める。 良く知られたホワイトボックス攻撃は、浄化の堅牢性を測定するためにしばしば用いられる。 しかし,これらの攻撃が拡散による浄化に最も有効であるかどうかは不明である。 本稿は,現在の実践を分析し,敵の攻撃に対する浄化法のロバスト性を評価するための新しいガイドラインを提供する。 本稿の分析に基づいて,最先端の対向訓練アプローチに対する競争結果を示す新たな浄化戦略を提案する。

We question the current evaluation practice on diffusion-based purification methods. Diffusion-based purification methods aim to remove adversarial effects from an input data point at test time. The approach gains increasing attention as an alternative to adversarial training due to the disentangling between training and testing. Well-known white-box attacks are often employed to measure the robustness of the purification. However, it is unknown whether these attacks are the most effective for the diffusion-based purification since the attacks are often tailored for adversarial training. We analyze the current practices and provide a new guideline for measuring the robustness of purification methods against adversarial attacks. Based on our analysis, we further propose a new purification strategy showing competitive results against the state-of-the-art adversarial training approaches.
翻訳日:2023-03-17 17:04:46 公開日:2023-03-16
# VoIPプラットフォームにおける知覚品質, 知性, 音響特性の改善

Improving Perceptual Quality, Intelligibility, and Acoustics on VoIP Platforms ( http://arxiv.org/abs/2303.09048v1 )

ライセンス: Link先を確認
Joseph Konan, Ojas Bhargave, Shikhar Agnihotri, Hojeong Lee, Ankit Shah, Shuo Han, Yunyang Zeng, Amanda Shu, Haohui Liu, Xuankai Chang, Hamza Khalid, Minseon Gwak, Kawon Lee, Minjeong Kim, Bhiksha Raj(参考訳) 本稿では,Deep Noise Suppression (DNS) 2020 Challengeでトレーニングされた微調整モデルを用いて,VoIP(VoIP)アプリケーション上での性能を向上させる手法を提案する。 我々のアプローチでは、dns 2020モデルをvoip通信の特定の音響特性に適用し、圧縮、伝送、プラットフォーム固有の処理によって引き起こされる歪みやアーティファクトを含む。 そこで本稿では,音声強調のためのノイズ抑圧とVoIP固有の音響を協調的に最適化する,VoIP-DNSのためのマルチタスク学習フレームワークを提案する。 我々は,様々なVoIPシナリオに対するアプローチを評価し,VoIPアプリケーション上での音声強調のための産業性能と最先端手法の両方に優れることを示す。 本研究は,音声認識,音声アシスタント,遠隔通信などの分野で重要な応用例であるVoIP-DNSを用いて,異なるVoIPプラットフォームに対して,DNS-2020でトレーニングしたモデルを改良・調整する可能性を示すものである。

In this paper, we present a method for fine-tuning models trained on the Deep Noise Suppression (DNS) 2020 Challenge to improve their performance on Voice over Internet Protocol (VoIP) applications. Our approach involves adapting the DNS 2020 models to the specific acoustic characteristics of VoIP communications, which includes distortion and artifacts caused by compression, transmission, and platform-specific processing. To this end, we propose a multi-task learning framework for VoIP-DNS that jointly optimizes noise suppression and VoIP-specific acoustics for speech enhancement. We evaluate our approach on a diverse VoIP scenarios and show that it outperforms both industry performance and state-of-the-art methods for speech enhancement on VoIP applications. Our results demonstrate the potential of models trained on DNS-2020 to be improved and tailored to different VoIP platforms using VoIP-DNS, whose findings have important applications in areas such as speech recognition, voice assistants, and telecommunication.
翻訳日:2023-03-17 17:04:37 公開日:2023-03-16
# 食品画像を用いた自己監督型視覚表現学習

Self-Supervised Visual Representation Learning on Food Images ( http://arxiv.org/abs/2303.09046v1 )

ライセンス: Link先を確認
Andrew Peng, Jiangpeng He, Fengqing Zhu(参考訳) 食品画像分析は、画像ベースの食事アセスメントの土台であり、どのような種類の食品とどれだけのエネルギーが消費されるかを監視するプロセスである。 既存の深層学習手法は、食品画像の人間のアノテーションに基づいて下流タスクの視覚表現を学習する。 しかし、実生活のほとんどの食品画像はラベルなしで取得され、データアノテーションには多くの時間と人的労力が必要であり、現実の用途では実現できない。 膨大な量のラベルなし画像を使用するため、既存の作品の多くはラベルなしデータから直接視覚表現の教師なしまたは自己教師なし学習に焦点を当てている。 しかし、これらの既存の作品はいずれも食品イメージに焦点を当てていないため、クラス間の類似度やクラス内分散度が高いため、一般的なオブジェクトよりも難しい。 本稿では,食品画像における既存の代表的自己教師あり学習手法の実装と分析に着目する。 具体的には,Food-101データセット上で選択した6つの自己教師型学習モデルの性能を比較した。 次に,食品データを用いた学習において,各モデルの長所と短所を分析し,性能向上に寄与する要因を同定する。 最後に,食品画像の自己教師型視覚表現学習における今後の課題について提案する。

Food image analysis is the groundwork for image-based dietary assessment, which is the process of monitoring what kinds of food and how much energy is consumed using captured food or eating scene images. Existing deep learning-based methods learn the visual representation for downstream tasks based on human annotation of each food image. However, most food images in real life are obtained without labels, and data annotation requires plenty of time and human effort, which is not feasible for real-world applications. To make use of the vast amount of unlabeled images, many existing works focus on unsupervised or self-supervised learning of visual representations directly from unlabeled data. However, none of these existing works focus on food images, which is more challenging than general objects due to its high inter-class similarity and intra-class variance. In this paper, we focus on the implementation and analysis of existing representative self-supervised learning methods on food images. Specifically, we first compare the performance of six selected self-supervised learning models on the Food-101 dataset. Then we analyze the pros and cons of each selected model when training on food data to identify the key factors that can help improve the performance. Finally, we propose several ideas for future work on self-supervised visual representation learning for food images.
翻訳日:2023-03-17 17:04:20 公開日:2023-03-16
# IoTと機械学習アルゴリズムに基づく選挙管理のためのWebとモバイルプラットフォーム

Web and Mobile Platforms for Managing Elections based on IoT And Machine Learning Algorithms ( http://arxiv.org/abs/2303.09045v1 )

ライセンス: Link先を確認
G. M. I. K. Galagoda, W. M. C. A. Karunarathne, R. S. Bates, K. M. H. V. P. Gangathilaka, Kanishka Yapa, Erandika Gamage(参考訳) 世界的なパンデミックはすべての国に深刻な影響を与えた。 その結果、ほとんどの国はプロセスの継続のためにオンライン技術に適応しなければならなかった。 さらに、スリランカは年間100億ドルを選挙に費やしている。 これらのイベントをオンラインでホストするコストを最小化する適切な方法を検討した。 既存の問題を解決し、時間の有効性とコスト削減を向上するために、IoTとMLベースのテクノロジを使用しました。 IoTベースのデータは不正から保護するために識別、登録、使用され、MLアルゴリズムは選挙データを操作し、勝利の予測、天気ベースの有権者の出席、選挙暴力を生成する。 すべてのデータは、クラウドコンピューティングと、データの保存とアクセスのための標準データベースに保存される。 本研究は主にE投票システムの4つの側面に焦点を当てている。 E投票における世界で最も頻繁に発生する問題は、システムのセキュリティ、正確性、信頼性である。 政府システムは、様々なサイバー攻撃に対して保護され、認可されたユーザーだけが貴重な機密情報にアクセスできるようにする必要がある。 パスワードなしでシステムにアクセスでき、バイオメトリックスの詳細が利用できるようになってからしばらく経ちますが、提案するシステムは、認証情報を取得、処理、結合、画像の再構成、出力の生成、トラッキングに異なるアプローチで対応しています。 加えて、e-votingの安全性も確実に向上します。 MLベースのアルゴリズムは異なるデータセットを使用し、事前に予測を提供する。

The global pandemic situation has severely affected all countries. As a result, almost all countries had to adjust to online technologies to continue their processes. In addition, Sri Lanka is yearly spending ten billion on elections. We have examined a proper way of minimizing the cost of hosting these events online. To solve the existing problems and increase the time potency and cost reduction we have used IoT and ML-based technologies. IoT-based data will identify, register, and be used to secure from fraud, while ML algorithms manipulate the election data and produce winning predictions, weather-based voters attendance, and election violence. All the data will be saved in cloud computing and a standard database to store and access the data. This study mainly focuses on four aspects of an E-voting system. The most frequent problems across the world in E-voting are the security, accuracy, and reliability of the systems. E-government systems must be secured against various cyber-attacks and ensure that only authorized users can access valuable, and sometimes sensitive information. Being able to access a system without passwords but using biometric details has been there for a while now, however, our proposed system has a different approach to taking the credentials, processing, and combining the images, reformatting and producing the output, and tracking. In addition, we ensure to enhance e-voting safety. While ML-based algorithms use different data sets and provide predictions in advance.
翻訳日:2023-03-17 17:04:02 公開日:2023-03-16
# CoLo-CAM:弱ラベル非拘束ビデオにおけるオブジェクトのコローカライゼーションのためのクラスアクティベーションマッピング

CoLo-CAM: Class Activation Mapping for Object Co-Localization in Weakly-Labeled Unconstrained Videos ( http://arxiv.org/abs/2303.09044v1 )

ライセンス: Link先を確認
Soufiane Belharbi, Shakeeb Murtaza, Marco Pedersoli, Ismail Ben Ayed, Luke McCaffrey, Eric Granger(参考訳) 弱教師付きビデオオブジェクトローカライゼーション(WSVOL)法は、しばしば視覚的およびモーション的キューのみに依存するため、不正確なローカライゼーションの影響を受ける。 近年,時間的クラスアクティベーションマッピング(CAM)法による識別モデルの研究が行われている。 結果は有望だが、オブジェクトは比較的長期にわたる依存に対するパフォーマンスの低下につながる最小限の動きを持つと仮定される。 本稿では,オブジェクトの移動に関する仮定を伴わずに,アクティベーションマップの時空間情報を活用するために,オブジェクトローカライゼーションのための新しいCoLo-CAM手法を提案する。 与えられたフレームの列上では、対象がフレーム全体に類似した色を持つと仮定して、カラーキューに基づいて、これらのマップにまたがる局所化の明示的な共同学習が生成される。 CAMのアクティベーションは、同様の色を持つピクセル上で同様に活性化するように制約され、コローカライゼーションが達成される。 この共同学習は、すべての画像位置および全フレームにわたってピクセル間の直接通信を生成し、学習されたローカライゼーションの転送、集約、修正を可能にする。 これは、ジョイントイメージ/マップよりもCRF損失の色項を最小化する。 マルチフレーム制約に加えて、擬似ラベルやcrf損失を含むフレーム単位のローカル制約を、フレーム単位のローカライゼーションを改善するためにグローバルサイズ制約と組み合わせて課しています。 制約のないビデオのための2つの挑戦的データセットに関する実証実験、YouTube-Objectsは、我々の方法の利点と長期依存に対する堅牢性を示し、新しい最先端のローカライゼーション性能をもたらす。 公開コード:https://github.com/sbelharbi/colo-cam

Weakly-supervised video object localization (WSVOL) methods often rely on visual and motion cues only, making them susceptible to inaccurate localization. Recently, discriminative models via a temporal class activation mapping (CAM) method have been explored. Although results are promising, objects are assumed to have minimal movement leading to degradation in performance for relatively long-term dependencies. In this paper, a novel CoLo-CAM method for object localization is proposed to leverage spatiotemporal information in activation maps without any assumptions about object movement. Over a given sequence of frames, explicit joint learning of localization is produced across these maps based on color cues, by assuming an object has similar color across frames. The CAMs' activations are constrained to activate similarly over pixels with similar colors, achieving co-localization. This joint learning creates direct communication among pixels across all image locations, and over all frames, allowing for transfer, aggregation, and correction of learned localization. This is achieved by minimizing a color term of a CRF loss over joint images/maps. In addition to our multi-frame constraint, we impose per-frame local constraints including pseudo-labels, and CRF loss in combination with a global size constraint to improve per-frame localization. Empirical experiments on two challenging datasets for unconstrained videos, YouTube-Objects, show the merits of our method, and its robustness to long-term dependencies, leading to new state-of-the-art localization performance. Public code: https://github.com/sbelharbi/colo-cam.
翻訳日:2023-03-17 17:03:42 公開日:2023-03-16
# 時間遅延を利用した貯水池計算と貯水池ネットワークの埋め込み理論

Embedding Theory of Reservoir Computing and Reducing Reservoir Network Using Time Delays ( http://arxiv.org/abs/2303.09042v1 )

ライセンス: Link先を確認
Xing-Yue Duan, Xiong Ying, Si-Yang Leng, J\"urgen Kurths, Wei Lin, Huan-Fei Ma(参考訳) Reservoir Computing(RC)は、リカレントニューラルネットワークの一種であり、異常な有効性と複雑な物理系の再構築や予測における高い性能のために爆発的な発展を遂げている。 しかし,rcの有効利用を誘発するメカニズムはいまだ不明であり,深く体系的な探索が待たれている。 ここでは、遅延埋め込み理論と一般化埋め込み理論を組み合わせることで、RCがもともと入力された非線形力学系の高次元埋め込みであることを厳密に証明する。 そこで, この埋め込み特性を用いて標準RCと時間遅延RCを統一し, ネットワークの出力層にのみ時間遅延を新たに導入し, さらに, RCにおける時間遅延とニューロン数のトレードオフ関係を求める。 この結果から,特定の物理系を再構成・予測するためにRCのネットワークサイズを著しく削減し,より驚くべきことに,時間遅延のある単一ニューロン貯水池のみを用いることで,これらの課題を達成するのに十分な場合がある。

Reservoir computing (RC), a particular form of recurrent neural network, is under explosive development due to its exceptional efficacy and high performance in reconstruction or/and prediction of complex physical systems. However, the mechanism triggering such effective applications of RC is still unclear, awaiting deep and systematic exploration. Here, combining the delayed embedding theory with the generalized embedding theory, we rigorously prove that RC is essentially a high dimensional embedding of the original input nonlinear dynamical system. Thus, using this embedding property, we unify into a universal framework the standard RC and the time-delayed RC where we novelly introduce time delays only into the network's output layer, and we further find a trade-off relation between the time delays and the number of neurons in RC. Based on this finding, we significantly reduce the network size of RC for reconstructing and predicting some representative physical systems, and, more surprisingly, only using a single neuron reservoir with time delays is sometimes sufficient for achieving those tasks.
翻訳日:2023-03-17 17:03:12 公開日:2023-03-16
# 不安スクリーニングのためのマルチモーダルデータ駆動フレームワーク

A Multimodal Data-driven Framework for Anxiety Screening ( http://arxiv.org/abs/2303.09041v1 )

ライセンス: Link先を確認
Haimiao Mo, Shuai Ding, Siu Cheung Hui(参考訳) 不安と適切な介入の早期スクリーニングは、患者の自傷や自殺の頻度を減らすために不可欠である。 医療資源が限られているため、医師の専門知識や専門機器に過度に依存する伝統的な手法は、高い精度とモデル解釈可能性の必要性を同時に満たすことはできない。 マルチモーダルデータは、モデルの精度を向上させるために不安スクリーニングの客観的な証拠を提供することができる。 マルチモーダルデータにおける大量のノイズとデータの不均衡の性質により、モデルは過度に適合する傾向にある。 しかし,高次元・マルチモーダルな特徴組合せをモデル入力とし,モデル学習に組み込む場合,これは微分不可能な問題である。 これにより、機械学習とディープラーニングに基づく既存の不安スクリーニング手法が適用不可能となる。 そこで本研究では,マルチモーダルなデータ駆動型不安スクリーニングフレームワークmmd-asを提案し,スマートフォンによる200人以上の船員の健康データについて実験を行う。 モデルの性能向上のために,提案フレームワークの特徴抽出,次元縮小,特徴選択,不安推定を共同で訓練した。 特徴選択ステップでは、改良花火アルゴリズムに基づく特徴選択法を用いて、特徴組合せの非微分可能問題を解くことにより、冗長な特徴を取り除き、理想的な特徴部分集合を探索する。 実験の結果,本フレームワークは比較手法よりも優れていた。

Early screening for anxiety and appropriate interventions are essential to reduce the incidence of self-harm and suicide in patients. Due to limited medical resources, traditional methods that overly rely on physician expertise and specialized equipment cannot simultaneously meet the needs for high accuracy and model interpretability. Multimodal data can provide more objective evidence for anxiety screening to improve the accuracy of models. The large amount of noise in multimodal data and the unbalanced nature of the data make the model prone to overfitting. However, it is a non-differentiable problem when high-dimensional and multimodal feature combinations are used as model inputs and incorporated into model training. This causes existing anxiety screening methods based on machine learning and deep learning to be inapplicable. Therefore, we propose a multimodal data-driven anxiety screening framework, namely MMD-AS, and conduct experiments on the collected health data of over 200 seafarers by smartphones. The proposed framework's feature extraction, dimension reduction, feature selection, and anxiety inference are jointly trained to improve the model's performance. In the feature selection step, a feature selection method based on the Improved Fireworks Algorithm is used to solve the non-differentiable problem of feature combination to remove redundant features and search for the ideal feature subset. The experimental results show that our framework outperforms the comparison methods.
翻訳日:2023-03-17 17:02:52 公開日:2023-03-16
# 学習可能なクエリを持つハイブリッドスペクトル消音トランス

Hybrid Spectral Denoising Transformer with Learnable Query ( http://arxiv.org/abs/2303.09040v1 )

ライセンス: Link先を確認
Zeqiang Lai, Ying Fu(参考訳) 本稿では,ハイパースペクトル画像デノージングのためのハイブリッドスペクトルデノージングトランス(hsdt)を提案する。 HSIにトランスフォーマーを適用する際の課題は、効率と柔軟性を維持しつつ、大域的および局所的な空間スペクトル相関を捕捉するCNNベースの手法の既存の制限に対処する能力から生じる。 この問題に対処するために,s3conv,gssa,自己変調フィードフォワードネットワーク(sm-ffn)の2つのモデルの利点を組み合わせたハイブリッド手法を提案する。 私たちのS3Convは、3D畳み込みの軽量な代替として機能し、任意のバンド数でHSIに取り組む柔軟性を維持しながら、より空間的・スペクトル的な特徴を抽出します。 これらの機能はGSSAによって適応的に処理され、スペクトル帯域にわたって3Dの自己アテンションを変換し、スペクトルシグネチャを符号化する学習可能なクエリセットによってガイドされる。 これは我々のモデルに、大域的なスペクトル相関を識別する強力な能力を与えるだけでなく、線形複雑性も維持する。 さらに, SM-FFNでは, より情報的領域の活性化を促進させる自己変調法を提案する。 シミュレーションと実世界のノイズの両面において,様々な実験を行い,HSDTが計算オーバーヘッドを低く保ちながら既存の最先端手法を著しく上回ることを示す。

In this paper, we present a Hybrid Spectral Denoising Transformer (HSDT) for hyperspectral image denoising. Challenges in adapting transformer for HSI arise from the capabilities to tackle existing limitations of CNN-based methods in capturing the global and local spatial-spectral correlations while maintaining efficiency and flexibility. To address these issues, we introduce a hybrid approach that combines the advantages of both models with a Spatial-Spectral Separable Convolution (S3Conv), Guided Spectral Self-Attention (GSSA), and Self-Modulated Feed-Forward Network (SM-FFN). Our S3Conv works as a lightweight alternative to 3D convolution, which extracts more spatial-spectral correlated features while keeping the flexibility to tackle HSIs with an arbitrary number of bands. These features are then adaptively processed by GSSA which per-forms 3D self-attention across the spectral bands, guided by a set of learnable queries that encode the spectral signatures. This not only enriches our model with powerful capabilities for identifying global spectral correlations but also maintains linear complexity. Moreover, our SM-FFN proposes the self-modulation that intensifies the activations of more informative regions, which further strengthens the aggregated features. Extensive experiments are conducted on various datasets under both simulated and real-world noise, and it shows that our HSDT significantly outperforms the existing state-of-the-art methods while maintaining low computational overhead.
翻訳日:2023-03-17 17:02:32 公開日:2023-03-16
# ChatGPT と GPT-4 を用いた標準言語へのラジオロジーレポートの翻訳とプロンプト学習:結果,限界,可能性

Translating Radiology Reports into Plain Language using ChatGPT and GPT-4 with Prompt Learning: Promising Results, Limitations, and Potential ( http://arxiv.org/abs/2303.09038v1 )

ライセンス: Link先を確認
Qing Lyu, Josh Tan, Mike E. Zapadka, Janardhana Ponnatapuram, Chuang Niu, Ge Wang, Christopher T. Whitlow(参考訳) ChatGPTと呼ばれる大きな言語モデルは、人間のような表現と推論能力のために広く注目を集めている。 本研究は,ChatGPTを用いて放射線学報告を患者や医療提供者にとって平易な言語に翻訳し,医療改善のための教育を行うための実験において,ChatGPTの有効性を検討するものである。 2月上旬に62例の低用量胸部CT肺がん検診と76例の脳MRI転移検診検査を施行した。 放射線科医による評価によれば、chatgptは5点システムで平均4.1のスコアで放射線報告書を平易な言語に翻訳することに成功した。 ChatGPTの提案は、医師とのフォローアップを維持し、症状を綿密に監視するなど全般的に関係があり、ChatGPT全体の138例のうち約37%が、報告書の調査結果に基づいて具体的な提案を行っている。 ChatGPTはまた、時折単純化された情報や無視された情報によって応答のランダム性を示す。 さらに、ChatGPTの結果を、新たにリリースされた大型モデルGPT-4と比較し、GPT-4が翻訳レポートの品質を大幅に向上できることを示した。 以上の結果から, 臨床教育における大規模言語モデルの利用は可能であり, 限界に対処し, ポテンシャルを最大化するためには, さらなる努力が必要である。

The large language model called ChatGPT has drawn extensively attention because of its human-like expression and reasoning abilities. In this study, we investigate the feasibility of using ChatGPT in experiments on using ChatGPT to translate radiology reports into plain language for patients and healthcare providers so that they are educated for improved healthcare. Radiology reports from 62 low-dose chest CT lung cancer screening scans and 76 brain MRI metastases screening scans were collected in the first half of February for this study. According to the evaluation by radiologists, ChatGPT can successfully translate radiology reports into plain language with an average score of 4.1 in the five-point system with 0.07 places of information missing and 0.11 places of misinformation. In terms of the suggestions provided by ChatGPT, they are general relevant such as keeping following-up with doctors and closely monitoring any symptoms, and for about 37% of 138 cases in total ChatGPT offers specific suggestions based on findings in the report. ChatGPT also presents some randomness in its responses with occasionally over-simplified or neglected information, which can be mitigated using a more detailed prompt. Furthermore, ChatGPT results are compared with a newly released large model GPT-4, showing that GPT-4 can significantly improve the quality of translated reports. Our results show that it is feasible to utilize large language models in clinical education, and further efforts are needed to address limitations and maximize their potential.
翻訳日:2023-03-17 17:02:06 公開日:2023-03-16
# 質問応答における秘密保持

Secret-Keeping in Question Answering ( http://arxiv.org/abs/2303.09067v1 )

ライセンス: Link先を確認
Nathaniel W. Rollings, Kent O'Sullivan, Sakshum Kulshrestha(参考訳) 既存の質問回答研究は、システムが解答できる場合に常に答えを提供するコンテキストにおいて、解決不可能な質問に焦点を当てている。 これはセンシティブなユーザーを保護するか、センシティブな情報を保護できる。 多くのモデルは、敵ユーザーの尋問の下で機密情報を暴露する。 我々は、特定の事実を秘密にしておくために質問応答システムを教えることができるかどうかを判断する。 我々は概念実証アーキテクチャを設計・実装し,その評価を通じて,システムパラノイア(偽陽性),情報漏洩(偽陰性),作業の実施を,情報集約の存在下で機密性を維持するためのより複雑な問題に拡張するための,今後の研究の方向性が多数存在することを判断する。

Existing question-answering research focuses on unanswerable questions in the context of always providing an answer when a system can\dots but what about cases where a system {\bf should not} answer a question. This can either be to protect sensitive users or sensitive information. Many models expose sensitive information under interrogation by an adversarial user. We seek to determine if it is possible to teach a question-answering system to keep a specific fact secret. We design and implement a proof-of-concept architecture and through our evaluation determine that while possible, there are numerous directions for future research to reduce system paranoia (false positives), information leakage (false negatives) and extend the implementation of the work to more complex problems with preserving secrecy in the presence of information aggregation.
翻訳日:2023-03-17 16:56:24 公開日:2023-03-16
# 高次元ペン化ベルンシュタイン支持ベクトルマシン

High-Dimensional Penalized Bernstein Support Vector Machines ( http://arxiv.org/abs/2303.09066v1 )

ライセンス: Link先を確認
Rachid Kharoubi, Abdallah Mkhadri and Karim Oualkacha(参考訳) サポートベクトルマシン(SVM)は、予測精度を向上させるためにバイナリ分類に使用される強力な分類器である。 しかし、SVMヒンジ損失関数の非微分性は、高次元設定において計算困難を引き起こす可能性がある。 この問題を克服するために、我々はベルンシュタイン多項式を用い、高次元 $p >> n$レジームに適したベルンシュタインサポートベクターマシン (bernsvm) と呼ばれる新しいsvmヒンジ損失の平滑化バージョンを提案する。 BernSVM の目的損失関数はクラス C^2$ であるので、ペナル化された BernSVM の解を計算するための2つの効率的なアルゴリズムを提案する。 第1のアルゴリズムは最大化行列化(MM)原理による座標降下に基づいており、第2のアルゴリズムはIRLS型アルゴリズムである。 標準仮定の下では、重み付きLasso BernSVM推定器の上界を確立するために、円錐条件と制限された強い凸性を導出する。 局所線形近似を用いて、後者の結果を非凸ペナルティscadとmcpを持つペナルティ化されたbernsvmに拡張する。 我々のバウンドは高い確率で保たれ、$\sqrt{s\log(p)/n}$のオーダーを達成する。 シミュレーション研究は、bernsvmの予測精度を競合相手と比較し、計算タイミングと誤差推定の観点から2つのアルゴリズムの性能を比較することを目的としている。 提案手法は,3つの大規模実データ例の分析から得られた。

The support vector machines (SVM) is a powerful classifier used for binary classification to improve the prediction accuracy. However, the non-differentiability of the SVM hinge loss function can lead to computational difficulties in high dimensional settings. To overcome this problem, we rely on Bernstein polynomial and propose a new smoothed version of the SVM hinge loss called the Bernstein support vector machine (BernSVM), which is suitable for the high dimension $p >> n$ regime. As the BernSVM objective loss function is of the class $C^2$, we propose two efficient algorithms for computing the solution of the penalized BernSVM. The first algorithm is based on coordinate descent with maximization-majorization (MM) principle and the second one is IRLS-type algorithm (iterative re-weighted least squares). Under standard assumptions, we derive a cone condition and a restricted strong convexity to establish an upper bound for the weighted Lasso BernSVM estimator. Using a local linear approximation, we extend the latter result to penalized BernSVM with non convex penalties SCAD and MCP. Our bound holds with high probability and achieves a rate of order $\sqrt{s\log(p)/n}$, where $s$ is the number of active features. Simulation studies are considered to illustrate the prediction accuracy of BernSVM to its competitors and also to compare the performance of the two algorithms in terms of computational timing and error estimation. The use of the proposed method is illustrated through analysis of three large-scale real data examples.
翻訳日:2023-03-17 16:56:09 公開日:2023-03-16
# フィルタを用いた細胞分類のためのt-SPNの最大マルジン学習

Maximum Margin Learning of t-SPNs for Cell Classification with Filtering ( http://arxiv.org/abs/2303.09065v1 )

ライセンス: Link先を確認
Haeyong Kang, Chang D. Yoo, Yongcheon Na(参考訳) 木構造的要約生産ネットワーク(t-SPN)と呼ばれる深い確率的アーキテクチャに基づくアルゴリズムを細胞分類として検討する。 t-SPNは、非正規化確率が最も類似したセルクラスのサブセットの条件確率として表されるように構成される。 構築されたt-SPNアーキテクチャは、真と最も競合する偽ラベルの条件付き確率の差であるマージンを最大化することによって学習される。 アーキテクチャの一般化能力を高めるため,L2規則化(REG)は学習過程における最大マージン(MM)基準とともに検討される。 細胞の特徴を強調するために, 理想的高域通過フィルタとガウスフィルタのラプラシアンフィルタの2つの汎用高域通過フィルタの有効性について検討した。 HEp-2とFeulgenベンチマークデータセットの両方で、正規化による最大マージン基準に基づいて学習されたt-SPNアーキテクチャは、畳み込みニューラルネットワーク(CNN)ベースのアルゴリズムを含む他の最先端アルゴリズムと比較して、最も精度が高い。 理想的なハイパスフィルタは、免疫蛍光染色に基づくHEp-2データセットでより効果的であり、LOGはフェールゲン染色に基づくフェールゲンデータセットでより効果的であった。

An algorithm based on a deep probabilistic architecture referred to as a tree-structured sum-product network (t-SPN) is considered for cell classification. The t-SPN is constructed such that the unnormalized probability is represented as conditional probabilities of a subset of most similar cell classes. The constructed t-SPN architecture is learned by maximizing the margin, which is the difference in the conditional probability between the true and the most competitive false label. To enhance the generalization ability of the architecture, L2-regularization (REG) is considered along with the maximum margin (MM) criterion in the learning process. To highlight cell features, this paper investigates the effectiveness of two generic high-pass filters: ideal high-pass filtering and the Laplacian of Gaussian (LOG) filtering. On both HEp-2 and Feulgen benchmark datasets, the t-SPN architecture learned based on the max-margin criterion with regularization produced the highest accuracy rate compared to other state-of-the-art algorithms that include convolutional neural network (CNN) based algorithms. The ideal high-pass filter was more effective on the HEp-2 dataset, which is based on immunofluorescence staining, while the LOG was more effective on the Feulgen dataset, which is based on Feulgen staining.
翻訳日:2023-03-17 16:55:40 公開日:2023-03-16
# 建物足跡抽出のためのu-netにおける新しいデュアルスキップ接続機構

A novel dual skip connection mechanism in U-Nets for building footprint extraction ( http://arxiv.org/abs/2303.09064v1 )

ライセンス: Link先を確認
Bipul Neupane, Jagannath Aryal, and Abbas Rajabifard(参考訳) 建物の足跡とその在庫の重要性は、複数の社会問題を可能にするものとして認識されている。 都市建物のフットプリントの抽出は複雑であり、超高解像度(VHR)地球観測(EO)画像のセマンティックセグメンテーションを必要とする。 U-Netはそのようなセグメンテーションのための一般的なディープラーニングアーキテクチャである。 U-Net++やU-Net3+などいくつかの再導入があり、再設計されたスキップ接続によるマルチスケール機能集約に重点を置いている。 しかし,マルチスケール情報の活用はまだ進展途上である。 本論文では,U-Net用デュアルスキップ接続機構 (DSCM) とU-Net3+用デュアルフルスケールスキップ接続機構 (DFSCM) を提案する。 U-NetのDSCMはエンコーダの機能を2倍にし、デコーダに渡して正確なローカライゼーションを行う。 同様に、DFSCMは、異なるスケールのフィーチャーマップから高レベルなセマンティクスで低レベルなコンテキスト情報を増やしている。 DSCMはResUnetと異なるスケールのU-Netでさらにテストされている。 そこで提案するメカニズムは,メルボルン市向けに開発したベンチマークwhuビルディングデータセットとマルチレゾリューションデータセットで評価される,いくつかの新しいネットワークを生成する。 ベンチマークデータセットの結果は、最先端のバニラU-Net3+と比較して、F1スコアとIoU(Intersection over Union)の17.7%と18.4%の増加を示している。 同じ実験的なセットアップで、U-NetとResUnet上のDSCMは、元のネットワークに対して5つの精度の尺度を得られる。 コードは、ピアレビューの後にGitHubのリンクで入手できる。

The importance of building footprints and their inventory has been recognised as an enabler for multiple societal problems. Extracting urban building footprint is complex and requires semantic segmentation of very high-resolution (VHR) earth observation (EO) images. U-Net is a common deep learning architecture for such segmentation. It has seen several re-incarnation including U-Net++ and U-Net3+ with a focus on multi-scale feature aggregation with re-designed skip connections. However, the exploitation of multi-scale information is still evolving. In this paper, we propose a dual skip connection mechanism (DSCM) for U-Net and a dual full-scale skip connection mechanism (DFSCM) for U-Net3+. The DSCM in U-Net doubles the features in the encoder and passes them to the decoder for precise localisation. Similarly, the DFSCM incorporates increased low-level context information with high-level semantics from feature maps in different scales. The DSCM is further tested in ResUnet and different scales of U-Net. The proposed mechanisms, therefore, produce several novel networks that are evaluated in a benchmark WHU building dataset and a multi-resolution dataset that we develop for the City of Melbourne. The results on the benchmark dataset demonstrate 17.7% and 18.4% gain in F1 score and Intersection over Union (IoU) compared to the state-of-the-art vanilla U-Net3+. In the same experimental setup, DSCM on U-Net and ResUnet provides a gain in five accuracy measures against the original networks. The codes will be available in a GitHub link after peer review.
翻訳日:2023-03-17 16:55:13 公開日:2023-03-16
# 地域型畳み込みニューラルネットワークを用いた植物病検出

Plant Disease Detection using Region-Based Convolutional Neural Network ( http://arxiv.org/abs/2303.09063v1 )

ライセンス: Link先を確認
Hasin Rehana, Muhammad Ibrahim, Md. Haider Ali(参考訳) 農業はバングラデシュの食料と経済において重要な役割を担っている。 長年にわたる人口の急激な増加は、食料生産の需要も増している。 低作物生産の主な原因の1つは、多くの細菌、ウイルス、真菌の植物病である。 植物病の早期発見と農薬や肥料の適切な使用は、病気の予防と収量の向上に不可欠である。 農夫の多くは、植物の状態を知ることなく、全畑で一般的な農薬や肥料を使っている。 このように、生産コストは頻繁に増加し、それだけでなく、時には収量に不利になる。 深層学習モデルは、植物の画像から植物疾患を自動的に検出し、人間の専門医の必要性を減らすのに非常に効果的である。 本稿では,トマトの葉病予測のための軽量深層学習モデルの構築を目的とする。 領域ベースの畳み込みニューラルネットワークを変更することで、ベンチマークデータセットで十分な経験的性能を示す効率的かつ効果的なモデルを設計する。 提案するモデルは、葉っぱの写真をドローンが撮る大きなシステムに簡単に配置でき、これらの画像は私たちのモデルに送られて健康状態を知ることができます。

Agriculture plays an important role in the food and economy of Bangladesh. The rapid growth of population over the years also has increased the demand for food production. One of the major reasons behind low crop production is numerous bacteria, virus and fungal plant diseases. Early detection of plant diseases and proper usage of pesticides and fertilizers are vital for preventing the diseases and boost the yield. Most of the farmers use generalized pesticides and fertilizers in the entire fields without specifically knowing the condition of the plants. Thus the production cost oftentimes increases, and, not only that, sometimes this becomes detrimental to the yield. Deep Learning models are found to be very effective to automatically detect plant diseases from images of plants, thereby reducing the need for human specialists. This paper aims at building a lightweight deep learning model for predicting leaf disease in tomato plants. By modifying the region-based convolutional neural network, we design an efficient and effective model that demonstrates satisfactory empirical performance on a benchmark dataset. Our proposed model can easily be deployed in a larger system where drones take images of leaves and these images will be fed into our model to know the health condition.
翻訳日:2023-03-17 16:54:47 公開日:2023-03-16
# 低リソース言語からの擬似コード生成のための知識伝達

Knowledge Transfer for Pseudo-code Generation from Low Resource Programming Language ( http://arxiv.org/abs/2303.09062v1 )

ライセンス: Link先を確認
Ankita Sontakke, Kanika Kalra, Manasi Patwardhan, Lovekesh Vig, Raveendra Kumar Medicherla, Ravindra Naik, Shrishti Pradhan(参考訳) ソフトウェアメンテナンスのためのレガシーソースコードの擬似コード記述の生成は、手作業による集中的な作業である。 最近のエンコーダ・デコーダ言語モデルは、C++のような高リソースプログラミング言語で擬似コード生成を自動化することを約束している。 レガシープログラミング言語(PL)で書かれたコードに対して、そのような擬似コードアノテーションを要求することは、ソースPLを十分に理解する必要のある時間とコストのかかる問題である。 本稿では,並列コード-pseudocodeデータを用いて,高資源pl(c++)上で訓練されたコード-pseudocodeニューラルモデルによって得られた知識の伝達に焦点をあてる。 我々は,この知識をPL-pseudocode並列データを持たないレガシPL(C)に伝達することを目指している。 そこで本研究では,新しいテストケースベースのフィルタリング手法を用いて,C++-to-pseudocodeモデルのC-to-pseudocodeモデルに適用する。 提案手法は, 逆翻訳, IBT反復によるC符号の成功率を23.27%向上させ, 提案手法の有効性を明らかにした。

Generation of pseudo-code descriptions of legacy source code for software maintenance is a manually intensive task. Recent encoder-decoder language models have shown promise for automating pseudo-code generation for high resource programming languages such as C++, but are heavily reliant on the availability of a large code-pseudocode corpus. Soliciting such pseudocode annotations for codes written in legacy programming languages (PL) is a time consuming and costly affair requiring a thorough understanding of the source PL. In this paper, we focus on transferring the knowledge acquired by the code-to-pseudocode neural model trained on a high resource PL (C++) using parallel code-pseudocode data. We aim to transfer this knowledge to a legacy PL (C) with no PL-pseudocode parallel data for training. To achieve this, we utilize an Iterative Back Translation (IBT) approach with a novel test-cases based filtration strategy, to adapt the trained C++-to-pseudocode model to C-to-pseudocode model. We observe an improvement of 23.27% in the success rate of the generated C codes through back translation, over the successive IBT iteration, illustrating the efficacy of our approach.
翻訳日:2023-03-17 16:54:31 公開日:2023-03-16
# MixTeacher:セミスーパービジョンオブジェクト検出のためのミックススケール教師によるマイニングラベル

MixTeacher: Mining Promising Labels with Mixed Scale Teacher for Semi-Supervised Object Detection ( http://arxiv.org/abs/2303.09061v1 )

ライセンス: Link先を確認
Liang Liu, Boshen Zhang, Jiangning Zhang, Wuhao Zhang, Zhenye Gan, Guanzhong Tian, Wenbing Zhu, Yabiao Wang, Chengjie Wang(参考訳) オブジェクトインスタンス間のスケール変動は、オブジェクト検出タスクにおいて依然として重要な課題である。 現代の検出モデルによる顕著な進歩にもかかわらず、この課題は半教師付きケースでは特に顕著である。 既存の半教師対象検出法は,ネットワーク予測から高品質な擬似ラベルをフィルタリングする厳密な条件に依存しているが,極端にスケールの大きいオブジェクトは信頼性が低いため,これらのオブジェクトに対する肯定的な監督が欠如している。 本稿では,疑似ラベル生成とスケール不変学習を改善するために,混合スケール教師を導入することで,スケール変動問題に対処する新しい枠組みを提案する。 さらに,混合スケール特徴量による予測の精度向上に寄与する,スケール横断予測のスコアプロモーションを用いた擬似ラベルのマイニングを提案する。 各種半教師付き設定下でのMS COCOおよびPASCAL VOCベンチマークに関する広範な実験により,本手法が新たな最先端性能を実現することを示す。 コードとモデルは \url{https://github.com/lliuz/mixteacher} で入手できる。

Scale variation across object instances remains a key challenge in object detection task. Despite the remarkable progress made by modern detection models, this challenge is particularly evident in the semi-supervised case. While existing semi-supervised object detection methods rely on strict conditions to filter high-quality pseudo labels from network predictions, we observe that objects with extreme scale tend to have low confidence, resulting in a lack of positive supervision for these objects. In this paper, we propose a novel framework that addresses the scale variation problem by introducing a mixed scale teacher to improve pseudo label generation and scale-invariant learning. Additionally, we propose mining pseudo labels using score promotion of predictions across scales, which benefits from better predictions from mixed scale features. Our extensive experiments on MS COCO and PASCAL VOC benchmarks under various semi-supervised settings demonstrate that our method achieves new state-of-the-art performance. The code and models are available at \url{https://github.com/lliuz/MixTeacher}.
翻訳日:2023-03-17 16:54:12 公開日:2023-03-16
# SVDE:協調型マルチエージェント強化学習のためのスケーラブルな値分解探索

SVDE: Scalable Value-Decomposition Exploration for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2303.09058v1 )

ライセンス: Link先を確認
Shuhan Qi, Shuhao Zhang, Qiang Wang, Jiajia Zhang, Jing Xiao, Xuan Wang(参考訳) 共同状態-作用空間を局所的な観測-作用空間に分解することでマルチエージェントシステムの難易度を下げる値分解法が,協調マルチエージェント強化学習(MARL)において普及している。 しかし, 値分解法には, トレーニング用試料の大量消費や, 活発な探査の欠如といった問題がある。 本稿では,スケーラブルなトレーニング機構,本質的報酬設計,探索的経験リプレイを含む,スケーラブルな価値分解探索(svde)手法を提案する。 スケーラブルなトレーニング機構は,mapreduce方式でサンプル生成を高速化するために,戦略学習と環境インタラクションを非同期に分離する。 探索の欠如に関する問題として,多様なサンプルを抽出し,非ノーベル標本をフィルタするために,本質的な報酬設計と爆発的体験の再現を提案する。 実験により,本手法は,StarCraft IIマイクロマネジメントゲームにおいて,他の一般的なアルゴリズムと比較して,ほぼすべてのマップ上で最高の性能を実現する。 データ効率実験は,サンプル収集と政策収束のためのSVDEの加速を示すとともに,一連のアブレーション実験を通じてSVDEの因子の有効性を示す。

Value-decomposition methods, which reduce the difficulty of a multi-agent system by decomposing the joint state-action space into local observation-action spaces, have become popular in cooperative multi-agent reinforcement learning (MARL). However, value-decomposition methods still have the problems of tremendous sample consumption for training and lack of active exploration. In this paper, we propose a scalable value-decomposition exploration (SVDE) method, which includes a scalable training mechanism, intrinsic reward design, and explorative experience replay. The scalable training mechanism asynchronously decouples strategy learning with environmental interaction, so as to accelerate sample generation in a MapReduce manner. For the problem of lack of exploration, an intrinsic reward design and explorative experience replay are proposed, so as to enhance exploration to produce diverse samples and filter non-novel samples, respectively. Empirically, our method achieves the best performance on almost all maps compared to other popular algorithms in a set of StarCraft II micromanagement games. A data-efficiency experiment also shows the acceleration of SVDE for sample collection and policy convergence, and we demonstrate the effectiveness of factors in SVDE through a set of ablation experiments.
翻訳日:2023-03-17 16:53:53 公開日:2023-03-16
# 人工知能を用いた疾患軌跡予測と薬物開発デジタル双生児のための合成多次元分子メディエータ時系列データの生成:考察

Generating synthetic multi-dimensional molecular-mediator time series data for artificial intelligence-based disease trajectory forecasting and drug development digital twins: Considerations ( http://arxiv.org/abs/2303.09056v1 )

ライセンス: Link先を確認
Gary An and Chase Cockrell(参考訳) 合成データの利用は、ニューラルネットワークベースの人工知能(AI)システムの開発における重要なステップとして認識されている。 他の領域におけるAIアプリケーションのための合成データを生成する方法は、主に画像処理に関連する特定のバイオメディカルAIシステムにおいて役割を果たすが、システムがどのように機能するかを知る必要があるAIタスクのための時系列データの生成には、重大なギャップがある。 これは合成多次元分子時系列データ(smmtsd)を生成する能力において最も顕著であり、様々な疾患を予測するバイオマーカーやメディエーターシグネチャの研究を支えるデータの一種であり、薬物開発パイプラインの重要な構成要素である。 このタイプの合成データを生成するための統計的およびデータ中心機械学習(ML)手段の欠如は、次元の曲線による永遠のデータ間隔、中央極限定理の適用性、および因果階層定理によって課される制限の2つの要因の組み合わせによるものであると我々は主張する。 あるいは, 複雑なマルチスケール機構に基づくシミュレーションモデルを用いて, エピステミック不完全性や最大エントロピーの原理に従って最大拡張性を提供する必要性を考慮し, 構築・運用する。 これらの手順は、ニューラルネットワークAIシステムに関連する既知の欠点、すなわちオーバーフィットと一般化性の欠如を最小限に抑えるSMMTDの生成を提供する。 多次元時系列データの特定因子を考慮に入れた合成データの生成は、メディエータ・バイオマーカーに基づくAI予測システムの開発に不可欠な機能であり、薬物開発デジタルツインズのようなシステムによる治療制御の開発と最適化である。

The use of synthetic data is recognized as a crucial step in the development of neural network-based Artificial Intelligence (AI) systems. While the methods for generating synthetic data for AI applications in other domains have a role in certain biomedical AI systems, primarily related to image processing, there is a critical gap in the generation of time series data for AI tasks where it is necessary to know how the system works. This is most pronounced in the ability to generate synthetic multi-dimensional molecular time series data (SMMTSD); this is the type of data that underpins research into biomarkers and mediator signatures for forecasting various diseases and is an essential component of the drug development pipeline. We argue the insufficiency of statistical and data-centric machine learning (ML) means of generating this type of synthetic data is due to a combination of factors: perpetual data sparsity due to the Curse of Dimensionality, the inapplicability of the Central Limit Theorem, and the limits imposed by the Causal Hierarchy Theorem. Alternatively, we present a rationale for using complex multi-scale mechanism-based simulation models, constructed and operated on to account for epistemic incompleteness and the need to provide maximal expansiveness in concordance with the Principle of Maximal Entropy. These procedures provide for the generation of SMMTD that minimizes the known shortcomings associated with neural network AI systems, namely overfitting and lack of generalizability. The generation of synthetic data that accounts for the identified factors of multi-dimensional time series data is an essential capability for the development of mediator-biomarker based AI forecasting systems, and therapeutic control development and optimization through systems like Drug Development Digital Twins.
翻訳日:2023-03-17 16:53:32 公開日:2023-03-16
# 時間的マックス: 時間的行動局所化のための最大極小化による時間的文脈の最大化

TemporalMaxer: Maximize Temporal Context with only Max Pooling for Temporal Action Localization ( http://arxiv.org/abs/2303.09055v1 )

ライセンス: Link先を確認
Tuan N. Tang, Kwonyoung Kim, Kwanghoon Sohn(参考訳) テンポラルアクションローカライゼーション(TAL)は、ビデオシーケンス内のアクションを特定し、ローカライズすることを目的とした、ビデオ理解における課題である。 近年,ビデオクリップの特徴抽出にtcm(long-term temporal context modeling)ブロックを適用することの重要性が注目されている。 本稿では,この課題に対処する最も簡単な手法を提案するとともに,抽出したビデオクリップ機能は,高度なアーキテクチャを使わずに優れた性能を実現するためにすでに有益である,と論じる。 そこで本研究では,抽出したビデオクリップの特徴量から得られた情報を最大化しつつ,最大プールブロックを基本かつパラメータフリーかつ局所的に操作する時間的文脈モデリングを最小化する時間的最大化手法を提案する。 隣接およびローカルのクリップ埋め込みに対して最も重要な情報だけを選択すると、このブロックはより効率的なtalモデルになる。 我々は,temporalmaxerがtalデータセットへの自己アテンションなどの長期的tcmを利用する他の最先端手法よりも優れており,パラメータや計算資源が大幅に少ないことを実証する。 このアプローチのコードはhttps://github.com/TuanTNG/TemporalMaxerで公開されています。

Temporal Action Localization (TAL) is a challenging task in video understanding that aims to identify and localize actions within a video sequence. Recent studies have emphasized the importance of applying long-term temporal context modeling (TCM) blocks to the extracted video clip features such as employing complex self-attention mechanisms. In this paper, we present the simplest method ever to address this task and argue that the extracted video clip features are already informative to achieve outstanding performance without sophisticated architectures. To this end, we introduce TemporalMaxer, which minimizes long-term temporal context modeling while maximizing information from the extracted video clip features with a basic, parameter-free, and local region operating max-pooling block. Picking out only the most critical information for adjacent and local clip embeddings, this block results in a more efficient TAL model. We demonstrate that TemporalMaxer outperforms other state-of-the-art methods that utilize long-term TCM such as self-attention on various TAL datasets while requiring significantly fewer parameters and computational resources. The code for our approach is publicly available at https://github.com/TuanTNG/TemporalMaxer
翻訳日:2023-03-17 16:53:00 公開日:2023-03-16
# コリファレンスレゾリューションモデルのための一般化失敗の調査

Investigating Failures to Generalize for Coreference Resolution Models ( http://arxiv.org/abs/2303.09092v1 )

ライセンス: Link先を確認
Ian Porada, Alexandra Olteanu, Kaheer Suleman, Adam Trischler, Jackie Chi Kit Cheung(参考訳) 参照分解モデルはしばしば複数のデータセットで評価される。 しかしデータセットは、コーパスの選択やアノテーションガイドラインなどの要因により、データセットにおけるコリファレンスの理論的概念がどのように運用されているかという、コリファレンスの実現方法によって異なります。 我々は,現在のコア参照解決モデルの誤差が,データセット間での運用上の相違(OntoNotes,PreCo,Winogrande)にどの程度関連しているかを検討する。 具体的には,コレファレンスや複合修飾子,コプラ述語など,複数のタイプのコレファレンスに対応するカテゴリにモデル性能を区別し,分類する。 このブレークダウンは、さまざまなコリファレンスタイプを一般化する能力において、最先端のモデルがどのように変化するかを調べるのに役立ちます。 例えば、実験では、OntoNotesでトレーニングされたモデルでは、PreCoの一般的な言及やコプラ述語が不十分です。 我々の研究は、現在のコア参照解決モデルの予測を校正するのに役立ち、将来の研究は、モデルを開発する際の一般化の低さと経験的に結びついているようなコア参照のタイプを明示的に説明できる。

Coreference resolution models are often evaluated on multiple datasets. Datasets vary, however, in how coreference is realized -- i.e., how the theoretical concept of coreference is operationalized in the dataset -- due to factors such as the choice of corpora and annotation guidelines. We investigate the extent to which errors of current coreference resolution models are associated with existing differences in operationalization across datasets (OntoNotes, PreCo, and Winogrande). Specifically, we distinguish between and break down model performance into categories corresponding to several types of coreference, including coreferring generic mentions, compound modifiers, and copula predicates, among others. This break down helps us investigate how state-of-the-art models might vary in their ability to generalize across different coreference types. In our experiments, for example, models trained on OntoNotes perform poorly on generic mentions and copula predicates in PreCo. Our findings help calibrate expectations of current coreference resolution models; and, future work can explicitly account for those types of coreference that are empirically associated with poor generalization when developing models.
翻訳日:2023-03-17 16:47:18 公開日:2023-03-16
# MetaRegNet:フロー駆動残差ネットワークを用いた変成画像登録

MetaRegNet: Metamorphic Image Registration Using Flow-Driven Residual Networks ( http://arxiv.org/abs/2303.09088v1 )

ライセンス: Link先を確認
Ankita Joshi and Yi Hong(参考訳) 深層学習に基づく手法は、二相性画像登録の難解な問題を含む、医療画像登録の効率的な解決策を提供する。 しかし、ほとんどの手法は正常な画像対を登録し、例えば腫瘍のような病理の存在下では、不一致の文字を扱うのが困難である。 我々は, 対応の欠如する病理領域において, 空間的変形と外観変化を共同で考慮し, メタモルフィック画像登録の解を求める。 この問題に取り組むためにいくつかのアプローチが提案されているが、病理の周りの大きな病理領域や変形を適切に扱うことはできない。 本稿では,時間変動流を利用して空間的2相変形を駆動し,強度変動を発生させるディープメタモルフィック画像登録ネットワーク(metaregnet)を提案する。 脳腫瘍はbrats 2021、肝腫瘍は3d-ircadb-01の2つのデータセットでmetaregnetを評価し、健康と腫瘍画像のペアを登録する有望な結果を示した。 ソースコードはオンラインで入手できる。

Deep learning based methods provide efficient solutions to medical image registration, including the challenging problem of diffeomorphic image registration. However, most methods register normal image pairs, facing difficulty handling those with missing correspondences, e.g., in the presence of pathology like tumors. We desire an efficient solution to jointly account for spatial deformations and appearance changes in the pathological regions where the correspondences are missing, i.e., finding a solution to metamorphic image registration. Some approaches are proposed to tackle this problem, but they cannot properly handle large pathological regions and deformations around pathologies. In this paper, we propose a deep metamorphic image registration network (MetaRegNet), which adopts time-varying flows to drive spatial diffeomorphic deformations and generate intensity variations. We evaluate MetaRegNet on two datasets, i.e., BraTS 2021 with brain tumors and 3D-IRCADb-01 with liver tumors, showing promising results in registering a healthy and tumor image pair. The source code is available online.
翻訳日:2023-03-17 16:47:01 公開日:2023-03-16
# 核スピンの状態非依存型ロバスト熱バスアルゴリズム冷却

State-independent robust heat-bath algorithmic cooling of nuclear spins ( http://arxiv.org/abs/2303.09087v1 )

ライセンス: Link先を確認
Krishna Shende and Arvind and Kavita Dorai(参考訳) 本研究では,最近提案されているnmr量子プロセッサ上でのロバストかつ状態に依存しない熱バスアルゴリズム冷却(hbac)法[1]の実装を実験的に実証する。 hbac法は反復的なユニタリエントロピー圧縮によって量子システムの純粋性を改善するが、各イテレーションで異なるソート演算を用いるため実験的に実装することは困難である。 新しいロバストなHBAC法は, 先行状態情報や単一固定操作を使わずに最適なHBACが可能であることを示した。 我々は13cおよび15nスピンの効率的な冷却を実験的に行うためにプロトコルを修正し、この修正されたプロトコルを量子ゲートの観点から最適に分解する。 最適なHBACが15Nスピンで実験的に実証されたのはこれが初めてである。 冷却状態に対するデコヒーレンスの影響を確認するために, アルゴリズムによって冷却されたスピンの緩和ダイナミクスを調べた。

In this work, we experimentally demonstrate the implementation of a recently proposed robust and state-independent heat-bath algorithmic cooling (HBAC) method [1] on an NMR quantum processor. While HBAC methods improve the purity of a quantum system via iterative unitary entropy compression, they are difficult to implement experimentally since they use sort operations that are different for each iteration. The new robust HBAC method proved that optimal HBAC is possible without prior state information and using a single fixed operation. We modified the protocol to experimentally perform efficient cooling of 13C and 15N spins and provide an optimal decomposition of this modified protocol in terms of quantum gates. This is the first time that optimal HBAC has been experimentally demonstrated on 15N spins. We examined the relaxation dynamics of these algorithmically cooled spins, in order to ascertain the effect of decoherence on the cooled states.
翻訳日:2023-03-17 16:46:40 公開日:2023-03-16
# 腰痛・坐骨神経痛に対する腰部脊柱管手術の術前予後評価 : マルチモダリティとマルチモーダル学習による検討

Preoperative Prognosis Assessment of Lumbar Spinal Surgery for Low Back Pain and Sciatica Patients based on Multimodalities and Multimodal Learning ( http://arxiv.org/abs/2303.09085v1 )

ライセンス: Link先を確認
Li-Chin Chen, Jung-Nien Lai, Hung-En Lin, Hsien-Te Chen, Kuo-Hsuan Hung, Yu Tsao(参考訳) 腰痛 (lbp) と坐骨神経痛 (sciatica) は、重度の痛みの症状である場合、外科的治療を必要とする。 しかし,術前の手術成績を評価する効果的な手段は存在しない。 本研究は, 東洋医学と機械学習の要素を組み合わせて, LBPおよび坐骨神経痛患者の腰部脊柱管手術の予後を予測する術前評価ツールを開発した。 標準術式評価, 伝統的な漢方医体構成評価, 計画的手術アプローチ, 母音の発音記録を収集し, 異なる形態で保存した。 私たちの研究は、モダリティの組み合わせ、マルチモーダル、融合戦略の活用に関する洞察を提供する。 モデルの解釈可能性やモダリティ間の相関についても検討した。 患者105名を対象に, 標準的手術評価, 体格評価, 計画的手術アプローチを組み合わせると, 0.81 % の精度で最高の成績を得た。 我々のアプローチは効果的であり、単純で効果的なため、一般的に広く適用することができる。

Low back pain (LBP) and sciatica may require surgical therapy when they are symptomatic of severe pain. However, there is no effective measures to evaluate the surgical outcomes in advance. This work combined elements of Eastern medicine and machine learning, and developed a preoperative assessment tool to predict the prognosis of lumbar spinal surgery in LBP and sciatica patients. Standard operative assessments, traditional Chinese medicine body constitution assessments, planned surgical approach, and vowel pronunciation recordings were collected and stored in different modalities. Our work provides insights into leveraging modality combinations, multimodals, and fusion strategies. The interpretability of models and correlations between modalities were also inspected. Based on the recruited 105 patients, we found that combining standard operative assessments, body constitution assessments, and planned surgical approach achieved the best performance in 0.81 accuracy. Our approach is effective and can be widely applied in general practice due to simplicity and effective.
翻訳日:2023-03-17 16:46:12 公開日:2023-03-16
# ターゲットにフォーカスする:ドメイン適応セマンティックセマンティックセグメンテーションのための二重教師学習フレームワーク

Focus on Your Target: A Dual Teacher-Student Framework for Domain-adaptive Semantic Segmentation ( http://arxiv.org/abs/2303.09083v1 )

ライセンス: Link先を確認
Xinyue Huo, Lingxi Xie, Wengang Zhou, Houqiang Li, Qi Tian(参考訳) 意味的セグメンテーションのための教師なしドメイン適応(UDA)について検討する。 現在、人気のあるUDAフレームワークは、モデルの2倍の能力を持つ自己学習にあります。 (i)ソースドメイン内のラベル付き画像から信頼性のあるセマンティクスを学習し、 (ii)未ラベル画像に擬似ラベルを生成して対象領域に適応すること。 対象ドメインからのトレーニングサンプルの割合を減少・増加させることで、「学習能力」は強化・弱められ、「適応能力」は反対方向に進み、特に単一モデルにおいてこれらの2つの能力の対立が示唆される。 この問題を軽減するために,新しい二元的教師学生(DTS)フレームワークを提案し,双方向学習戦略を取り入れた。 対象ドメインデータの割合を増やすことで、第2の教師学生モデルは、第1のモデルが影響を受けていない間に、"Focus on Your Target"に学習する。 DTSは既存の自己学習アプローチに簡単に接続できる。 標準的なUDAシナリオ(合成、ラベル付きデータ、実、ラベルなしデータ)では、DTSはベースラインに対して一貫した利得を示し、それぞれGTAv$\rightarrow$CityscapesとSynTHIA$\rightarrow$Cityscapesに76.5\%と75.1\% mIoUsの新しい最先端結果を設定する。

We study unsupervised domain adaptation (UDA) for semantic segmentation. Currently, a popular UDA framework lies in self-training which endows the model with two-fold abilities: (i) learning reliable semantics from the labeled images in the source domain, and (ii) adapting to the target domain via generating pseudo labels on the unlabeled images. We find that, by decreasing/increasing the proportion of training samples from the target domain, the 'learning ability' is strengthened/weakened while the 'adapting ability' goes in the opposite direction, implying a conflict between these two abilities, especially for a single model. To alleviate the issue, we propose a novel dual teacher-student (DTS) framework and equip it with a bidirectional learning strategy. By increasing the proportion of target-domain data, the second teacher-student model learns to 'Focus on Your Target' while the first model is not affected. DTS is easily plugged into existing self-training approaches. In a standard UDA scenario (training on synthetic, labeled data and real, unlabeled data), DTS shows consistent gains over the baselines and sets new state-of-the-art results of 76.5\% and 75.1\% mIoUs on GTAv$\rightarrow$Cityscapes and SYNTHIA$\rightarrow$Cityscapes, respectively.
翻訳日:2023-03-17 16:45:44 公開日:2023-03-16
# SSL-Cleanse: 自己監視学習におけるトロイの木馬の検出と緩和

SSL-Cleanse: Trojan Detection and Mitigation in Self-Supervised Learning ( http://arxiv.org/abs/2303.09079v1 )

ライセンス: Link先を確認
Mengxin Zheng, Jiaqi Xue, Xun Chen, Lei Jiang, Qian Lou(参考訳) 自己教師付き学習(SSL)は、データ表現の学習と符号化に一般的に用いられるアプローチである。 予めトレーニングされたsslイメージエンコーダを使用して、その上に下流の分類器をトレーニングすることで、ラベル付きデータの少ないさまざまなタスクで印象的なパフォーマンスを実現することができる。 SSLの利用の増加により、SSLエンコーダに関するセキュリティ研究や、さまざまなトロイの木馬攻撃の開発が急増した。 sslエンコーダにトロイの木馬攻撃が挿入される危険性は、秘密裏に動作し、さまざまなユーザやデバイスに広く広がる能力にある。 トロイの木馬エンコーダにおけるバックドアの挙動の存在は、下流の分類器によって必然的に継承され、脅威の検出と緩和がさらに困難になる。 教師あり学習における現在のトロイの木馬検出手法は、SSL下流の分類器を保護できる可能性があるが、広く普及する前にSSLエンコーダ内のトリガーを特定し、対処することは難しい課題である。 これは、ダウンストリームタスクが常に知られていないこと、データセットラベルが利用できないこと、SSLエンコーダのTrojan検出の間、オリジナルのトレーニングデータセットでさえアクセスできないためである。 本稿では,SSLエンコーダのバックドア攻撃の検出と軽減を目的としたSSL-Cleanseと呼ばれる革新的な手法を提案する。 様々なデータセットにおけるssl-cleanseを300モデルを用いて評価し,imagenet-100で平均検出成功率83.7%を得た。 バックドアを緩和した後、平均してバックドアエンコーダは0.24%の攻撃成功率を高い精度で達成し、SSL-Cleanseの有効性を証明した。

Self-supervised learning (SSL) is a commonly used approach to learning and encoding data representations. By using a pre-trained SSL image encoder and training a downstream classifier on top of it, impressive performance can be achieved on various tasks with very little labeled data. The increasing usage of SSL has led to an uptick in security research related to SSL encoders and the development of various Trojan attacks. The danger posed by Trojan attacks inserted in SSL encoders lies in their ability to operate covertly and spread widely among various users and devices. The presence of backdoor behavior in Trojaned encoders can inadvertently be inherited by downstream classifiers, making it even more difficult to detect and mitigate the threat. Although current Trojan detection methods in supervised learning can potentially safeguard SSL downstream classifiers, identifying and addressing triggers in the SSL encoder before its widespread dissemination is a challenging task. This is because downstream tasks are not always known, dataset labels are not available, and even the original training dataset is not accessible during the SSL encoder Trojan detection. This paper presents an innovative technique called SSL-Cleanse that is designed to detect and mitigate backdoor attacks in SSL encoders. We evaluated SSL-Cleanse on various datasets using 300 models, achieving an average detection success rate of 83.7% on ImageNet-100. After mitigating backdoors, on average, backdoored encoders achieve 0.24% attack success rate without great accuracy loss, proving the effectiveness of SSL-Cleanse.
翻訳日:2023-03-17 16:45:14 公開日:2023-03-16
# 自己整合性学習:ジェネレータと判別器の協調

Self-Consistent Learning: Cooperation between Generators and Discriminators ( http://arxiv.org/abs/2303.09075v1 )

ライセンス: Link先を確認
Tong Wu, Hao Wang, Zhongshen Zeng, Wei Wang, Hai-Tao Zheng, Jiaxing Zhang(参考訳) 下流の判別モデルのパフォーマンスを改善するために生成されたデータを使うことは、最近、事前学習された言語モデルの発展により、人気を集めている。 これまでのほとんどの研究では、生成モデルと識別モデルは別々に訓練されており、互いにどのような変化にも適応できない。 その結果、生成されたサンプルは実データ分布から容易に逸脱でき、識別モデルの改善はすぐに飽和に達する。 GAN(Generative Adversarial Network)は,共同トレーニングを実現するために,識別モデルを用いて生成モデルを訓練する。 しかし、標準的なGANの訓練は不安定で、しばしば収束に欠ける。 本稿では,これらの問題に対処するために,判別器と生成器が協調的に閉ループ形式で訓練される,$\textit{self- consistent learning}$フレームワークを提案する。 判別器とジェネレータは、スコアコンセンサスに到達するまで、交互トレーニングの複数のラウンドで互いに強化する。 このフレームワークはトレーニングが容易で、モード崩壊や非収束といった不安定性がないことが証明されている。 判別器は、ゼロショット設定における10以上の改善と、フルデータ設定における新たな最先端性能を達成する。

Using generated data to improve the performance of downstream discriminative models has recently gained popularity due to the great development of pre-trained language models. In most previous studies, generative models and discriminative models are trained separately and thus could not adapt to any changes in each other. As a result, the generated samples can easily deviate from the real data distribution, while the improvement of the discriminative model quickly reaches saturation. Generative adversarial networks (GANs) train generative models via an adversarial process with discriminative models to achieve joint training. However, the training of standard GANs is notoriously unstable and often falls short of convergence. In this paper, to address these issues, we propose a $\textit{self-consistent learning}$ framework, in which a discriminator and a generator are cooperatively trained in a closed-loop form. The discriminator and the generator enhance each other during multiple rounds of alternating training until a scoring consensus is reached. This framework proves to be easy to train and free from instabilities such as mode collapse and non-convergence. Extensive experiments on sentence semantic matching demonstrate the effectiveness of the proposed framework: the discriminator achieves 10+ AP of improvement on the zero-shot setting and new state-of-the-art performance on the full-data setting.
翻訳日:2023-03-17 16:44:43 公開日:2023-03-16
# HDR画像強調のためのマルチスケールトーンマッピングとデノイング

Joint Multi-Scale Tone Mapping and Denoising for HDR Image Enhancement ( http://arxiv.org/abs/2303.09071v1 )

ライセンス: Link先を確認
Litao Hu, Huaijin Chen, Jan P. Allebach(参考訳) 高ダイナミックレンジ(HDR)イメージング用の画像処理ユニット(IPU)または画像信号プロセッサ(ISP)は通常、デモサイティング、ホワイトバランス、レンズシェーディング補正、色補正、デノイング、トーンマッピングで構成される。 画像センサからのノイズに加えて、ISPのほぼすべてのステップはノイズを異なる方法で導入または増幅し、演算子を識別することでこれらのノイズを低減できる。 ダイナミックレンジ圧縮のために設計されたispのトーンマッピングオペレータはノイズレベルを著しく増幅することができ、特に低照度で撮影された画像ではノイズが著しく増大する。 そこで本稿では,hdr画像に対して両操作を念頭に置いて設計したマルチスケールデノイジングおよびトーンマッピングフレームワークを提案する。 私たちのジョイントネットワークは、両オペレータを最適化するエンドツーエンドのフォーマットでトレーニングされ、トーンマッピングオペレータがノイズ演算子を圧倒するのを防ぐことができます。 我々のモデルは、ベンチマークデータセットのほとんどにおいて、定量的かつ質的に既存のHDRおよびトーンマッピング演算子よりも優れています。

An image processing unit (IPU), or image signal processor (ISP) for high dynamic range (HDR) imaging usually consists of demosaicing, white balancing, lens shading correction, color correction, denoising, and tone-mapping. Besides noise from the imaging sensors, almost every step in the ISP introduces or amplifies noise in different ways, and denoising operators are designed to reduce the noise from these sources. Designed for dynamic range compressing, tone-mapping operators in an ISP can significantly amplify the noise level, especially for images captured in low-light conditions, making denoising very difficult. Therefore, we propose a joint multi-scale denoising and tone-mapping framework that is designed with both operations in mind for HDR images. Our joint network is trained in an end-to-end format that optimizes both operators together, to prevent the tone-mapping operator from overwhelming the denoising operator. Our model outperforms existing HDR denoising and tone-mapping operators both quantitatively and qualitatively on most of our benchmarking datasets.
翻訳日:2023-03-17 16:44:22 公開日:2023-03-16
# lcs-tf : 多エージェント深層強化学習に基づくインテリジェントレーン変更システム

LCS-TF: Multi-Agent Deep Reinforcement Learning-Based Intelligent Lane-Change System for Improving Traffic Flow ( http://arxiv.org/abs/2303.09070v1 )

ライセンス: Link先を確認
Lokesh Chandra Das, Myounggyu Won(参考訳) 離散車線変更は、交通効率に大きな影響を与えるため、自動運転車(AV)設計において重要な課題の1つである。 既存のインテリジェントレーンチェンジソリューションは、主にego-vehicleのパフォーマンスの最適化に重点を置いているため、一般化性能が制限されている。 近年、マルチエージェント強化学習(MARL)に基づく手法が、複数のエージェントの緊密な協調を通じて、エゴ車ベースのソリューションの限界に対処することに興味が増している。 MARLに基づくアプローチは有望な結果を示しているが,道路セグメント全体の交通フローに対するレーン変更決定の影響は十分に検討されていない。 本稿では,道路セグメント全体の交通量に焦点を絞ったグローバルな性能とともに,エゴ車両の局部性能を協調的に最適化することを目的とした,新しいMARLベースの車線変更システムを提案する。 関連する交通文献の精査により、道路セグメントの管理に責任を持つ道路側ユニット(rsu)から得られたグローバル交通情報と、その周辺車両に関する重要な地域交通情報とを統合した新しい国家空間をデザインする。 我々は,エゴ車の性能と交通流の全体的な改善を考慮して,エージェントが効果的に車線変更決定を行うことを保証する報奨関数を作成する。 マルチエージェントディープQネットワーク(DQN)アルゴリズムは,各エージェントが車線変更操作を効果的に行うための最適なポリシーを決定するように設計されている。 LCS-TFの性能は、最先端のMARLモデルと比較して広範囲なシミュレーションによって評価された。 交通効率,運転安全,運転快適性のあらゆる面で,LCS-TFは優れた性能を示した。

Discretionary lane-change is one of the critical challenges for autonomous vehicle (AV) design due to its significant impact on traffic efficiency. Existing intelligent lane-change solutions have primarily focused on optimizing the performance of the ego-vehicle, thereby suffering from limited generalization performance. Recent research has seen an increased interest in multi-agent reinforcement learning (MARL)-based approaches to address the limitation of the ego vehicle-based solutions through close coordination of multiple agents. Although MARL-based approaches have shown promising results, the potential impact of lane-change decisions on the overall traffic flow of a road segment has not been fully considered. In this paper, we present a novel hybrid MARL-based intelligent lane-change system for AVs designed to jointly optimize the local performance for the ego vehicle, along with the global performance focused on the overall traffic flow of a given road segment. With a careful review of the relevant transportation literature, a novel state space is designed to integrate both the critical local traffic information pertaining to the surrounding vehicles of the ego vehicle, as well as the global traffic information obtained from a road-side unit (RSU) responsible for managing a road segment. We create a reward function to ensure that the agents make effective lane-change decisions by considering the performance of the ego vehicle and the overall improvement of traffic flow. A multi-agent deep Q-network (DQN) algorithm is designed to determine the optimal policy for each agent to effectively cooperate in performing lane-change maneuvers. LCS-TF's performance was evaluated through extensive simulations in comparison with state-of-the-art MARL models. In all aspects of traffic efficiency, driving safety, and driver comfort, the results indicate that LCS-TF exhibits superior performance.
翻訳日:2023-03-17 16:43:59 公開日:2023-03-16
# vfp:畳み込みニューラルネットワークにおける属性の相関を考慮したiiot用表データ変換

VFP: Converting Tabular Data for IIoT into Images Considering Correlations of Attributes for Convolutional Neural Networks ( http://arxiv.org/abs/2303.09068v1 )

ライセンス: Link先を確認
Jong-Ik Park and Cheol-Ho Hong(参考訳) IIoTデバイスから生成された表形式のデータに対して、決定木アルゴリズムに基づく従来の機械学習(ML)技術が採用されている。 しかし、これらの手法は実数属性が支配的な表データの処理に制限がある。 この問題に対処するために、畳み込みニューラルネットワーク(cnns)を利用するために、表データから画像に変換するdeepinsight、refinement、igtdが提案されている。 画像の特定の箇所で同様の特徴を収集し、変換された画像を実際の画像のように見せる。 類似した特徴の収集は、オーバーフィッティングを避けるために非常に相関性の高い属性をドロップする、従来のグラフデータのMLテクニックとは対照的である。 また、従来の変換方式では画像サイズを固定し、表データの属性数に応じて、無駄あるいは不十分な画素が存在する。 そこで本稿では,Vortex Feature Positioning (VFP) という新しい変換手法を提案する。 VFPは、機能と類似の機能を互いに遠く離れた場所に配置する。 特徴は画像の中心から渦状に位置決めされ、属性の数によって画像サイズが決定される。 VFPは、属性の数に違いがあるIris、Wine、Dry Bean、Epileptic Seizure、SECOMの5つのデータセットで、従来のグラフデータに対するMLテクニックや、以前の変換メソッドよりも優れたテストパフォーマンスを示している。

For tabular data generated from IIoT devices, traditional machine learning (ML) techniques based on the decision tree algorithm have been employed. However, these methods have limitations in processing tabular data where real number attributes dominate. To address this issue, DeepInsight, REFINED, and IGTD were proposed to convert tabular data into images for utilizing convolutional neural networks (CNNs). They gather similar features in some specific spots of an image to make the converted image look like an actual image. Gathering similar features contrasts with traditional ML techniques for tabular data, which drops some highly correlated attributes to avoid overfitting. Also, previous converting methods fixed the image size, and there are wasted or insufficient pixels according to the number of attributes of tabular data. Therefore, this paper proposes a new converting method, Vortex Feature Positioning (VFP). VFP considers the correlation of features and places similar features far away from each. Features are positioned in the vortex shape from the center of an image, and the number of attributes determines the image size. VFP shows better test performance than traditional ML techniques for tabular data and previous converting methods in five datasets: Iris, Wine, Dry Bean, Epileptic Seizure, and SECOM, which have differences in the number of attributes.
翻訳日:2023-03-17 16:43:32 公開日:2023-03-16
# auアウェアグラフ畳み込みネットワークによるマクロ・マイクロ表現スポッティング

AU-aware graph convolutional network for Macro- and Micro-expression spotting ( http://arxiv.org/abs/2303.09114v1 )

ライセンス: Link先を確認
Shukang Yin, Shiwei Wu, Tong Xu, Shifeng Liu, Sirui Zhao, Enhong Chen(参考訳) 長ビデオにおける自動マイクロ圧縮(ME)スポッティングは, ME分析において重要なステップであるが, MEの短寿命化と低強度化による課題でもある。 この問題を解くにあたっては、人間の顔の構造や表情と関連する顔の筋肉の対応を考慮に入れていないのが一般的である。 そこで本研究では,MEスポッティングの性能向上のために,顔領域(ROI)間の関係をモデル化し,空間的特徴を抽出することを提案する。 具体的には、AUW-GCN(Action-Unit-aWare Graph Convolutional Network)と呼ばれるグラフ畳み込みベースのネットワークを提案する。 さらに、先行情報を注入し、小さなデータセットの問題に対処するために、AU関連統計データをネットワークにエンコードする。 総合的な実験により,2つのベンチマークデータセットであるCAS(ME)^2とSAMM-LVにおいて,ベースライン法を一貫して上回り,新たなSOTA性能を実現することができた。 私たちのコードはhttps://github.com/xjtupanda/auw-gcnで利用可能です。

Automatic Micro-Expression (ME) spotting in long videos is a crucial step in ME analysis but also a challenging task due to the short duration and low intensity of MEs. When solving this problem, previous works generally lack in considering the structures of human faces and the correspondence between expressions and relevant facial muscles. To address this issue for better performance of ME spotting, this paper seeks to extract finer spatial features by modeling the relationships between facial Regions of Interest (ROIs). Specifically, we propose a graph convolutional-based network, called Action-Unit-aWare Graph Convolutional Network (AUW-GCN). Furthermore, to inject prior information and to cope with the problem of small datasets, AU-related statistics are encoded into the network. Comprehensive experiments show that our results outperform baseline methods consistently and achieve new SOTA performance in two benchmark datasets,CAS(ME)^2 and SAMM-LV. Our code is available at https://github.com/xjtupanda/AUW-GCN.
翻訳日:2023-03-17 16:37:32 公開日:2023-03-16
# SigVIC:空間的重要度誘導可変レート画像圧縮

SigVIC: Spatial Importance Guided Variable-Rate Image Compression ( http://arxiv.org/abs/2303.09112v1 )

ライセンス: Link先を確認
Jiaming Liang, Meiqin Liu, Chao Yao, Chunyu Lin, Yao Zhao(参考訳) 可変レート機構は、異なるレート歪みトレードオフのために複数のモデルを訓練する学習ベースの画像圧縮の柔軟性と効率を改善した。 可変レートの最も一般的なアプローチの1つは、チャネルワイズまたは空間均一な内部特徴のスケーリングである。 しかし,画像圧縮のビット割り当てには空間的重要性の多様性が不可欠である。 本稿では,空間的重要性のマスクを適応的に学習するための空間的ゲーティングユニット(SGU)を設計した空間的重要度誘導可変画像圧縮(SigVIC)を提案する。 そして、空間スケーリングネットワーク(SSN)は、空間重要マスクを用いて、可変レートの特徴スケーリングとビット割り当てをガイドする。 さらに、デコード画像の品質を向上させるため、トップk浅層特徴を選択し、浅層特徴融合モジュール(sffm)を介してデコード特徴を洗練する。 実験により,本手法は,従来のコーデックや可変レートよりも優れ,ストレージの節約や柔軟性が高いことがわかった。

Variable-rate mechanism has improved the flexibility and efficiency of learning-based image compression that trains multiple models for different rate-distortion tradeoffs. One of the most common approaches for variable-rate is to channel-wisely or spatial-uniformly scale the internal features. However, the diversity of spatial importance is instructive for bit allocation of image compression. In this paper, we introduce a Spatial Importance Guided Variable-rate Image Compression (SigVIC), in which a spatial gating unit (SGU) is designed for adaptively learning a spatial importance mask. Then, a spatial scaling network (SSN) takes the spatial importance mask to guide the feature scaling and bit allocation for variable-rate. Moreover, to improve the quality of decoded image, Top-K shallow features are selected to refine the decoded features through a shallow feature fusion module (SFFM). Experiments show that our method outperforms other learning-based methods (whether variable-rate or not) and traditional codecs, with storage saving and high flexibility.
翻訳日:2023-03-17 16:37:15 公開日:2023-03-16
# 相関行列構成によるレゲットゲージ様不等式

Leggett-Garg-like Inequalities from a Correlation Matrix Construction ( http://arxiv.org/abs/2303.09107v1 )

ライセンス: Link先を確認
Dana Ben Porath and Eliahu Cohen(参考訳) レゲット・ガーグ不等式 (leggett-garg inequality, lgi) は、ある基本的な仮定の下で異なる時間における量 q の測定間の相関を制約する。 本稿では,lgiを解析し,非局所相関の文脈で最近提案された相関行列の数学的性質を利用する手法を用いて,類似するがやや精巧な不等式を提案する。 また、この手法は(LGIのように)異なる時間間の相関と(ベルの不等式のように)異なる位置間の相関を組み合わせた不等式にも適用できる。 提案されたすべての境界は、元の境界よりも追加の相関を含み、また特定の相補性をもたらす。 実験的実現の可能性とその応用について概説する。

The Leggett-Garg Inequality (LGI) constrains, under certain fundamental assumptions, the correlations between measurements of a quantity Q at different times. Here we analyze the LGI, and propose similar but somewhat more elaborate inequalities, employing a technique that utilizes the mathematical properties of correlation matrices, which was recently proposed in the context of nonlocal correlations. We also find that this technique can be applied to inequalities that combine correlations between different times (as in LGI) and correlations between different locations (as in Bell inequalities). All the proposed bounds include additional correlations compared to the original ones and also lead to a particular form of complementarity. A possible experimental realization and some applications are briefly discussed.
翻訳日:2023-03-17 16:36:57 公開日:2023-03-16
# 伝達型敵攻撃におけるモデルアンサンブルの再考

Rethinking Model Ensemble in Transfer-based Adversarial Attacks ( http://arxiv.org/abs/2303.09105v1 )

ライセンス: Link先を確認
Huanran Chen, Yichi Zhang, Yinpeng Dong, Jun Zhu(参考訳) ディープラーニングモデルは、敵の例に弱い。 トランスファーベースの敵攻撃は、ブラックボックス方式でディープラーニングモデルの弱点を識別できるため、大きな注目を集める。 逆の例の伝達性を改善する効果的な戦略は、モデルのアンサンブルを攻撃することである。 しかし、以前の作品では、異なるモデルの出力を平均し、モデルアンサンブルが転送可能性を強く改善できる理由と方法に関する詳細な分析を欠いている。 本研究では,敵対的攻撃におけるアンサンブルを再考し,損失景観の平坦性と各モデルの局所的最適度との密接性の性質と,モデルアンサンブルの共通弱点を定義する。 我々は,これら2つの性質が伝達可能性と強い相関関係にあることを実証的・理論的に示し,これら2つの性質を促進させることで,より伝達可能な逆例を生成するための共通弱攻撃(cwa)を提案する。 画像分類と物体検出の両タスクの実験結果から, 対角移動性向上のためのアプローチの有効性が検証された。

Deep learning models are vulnerable to adversarial examples. Transfer-based adversarial attacks attract tremendous attention as they can identify the weaknesses of deep learning models in a black-box manner. An effective strategy to improve the transferability of adversarial examples is attacking an ensemble of models. However, previous works simply average the outputs of different models, lacking an in-depth analysis on how and why model ensemble can strongly improve the transferability. In this work, we rethink the ensemble in adversarial attacks and define the common weakness of model ensemble with the properties of the flatness of loss landscape and the closeness to the local optimum of each model. We empirically and theoretically show that these two properties are strongly correlated with the transferability and propose a Common Weakness Attack (CWA) to generate more transferable adversarial examples by promoting these two properties. Experimental results on both image classification and object detection tasks validate the effectiveness of our approach to improve the adversarial transferability, especially when attacking adversarially trained models.
翻訳日:2023-03-17 16:36:42 公開日:2023-03-16
# 機械学習による心エコー図の医用画像処理

Machine learning based biomedical image processing for echocardiographic images ( http://arxiv.org/abs/2303.09103v1 )

ライセンス: Link先を確認
Ayesha Heena, Nagashettappa Biradar, Najmuddin M. Maroof, Surbhi Bhatia, Rashmi Agarwal, Kanta Prasad(参考訳) 人工知能と機械学習の人気は、研究者たちが最近の研究でそれを使うきっかけとなった。 提案手法では,K-Nearest Neighbor(KNN)アルゴリズムを用いて医用画像のセグメンテーションを行い,ニューラルネットワークに基づくデータ分類による画像特徴の抽出を行う。 医療画像における画像の分類は非常に重要であり、knは、単純で概念的、計算的であり、結果の精度が非常に良いアルゴリズムである。 KNNアルゴリズムは、機械学習アルゴリズムの幅広い応用でユニークなユーザフレンドリーなアプローチであり、主に画像処理の分類、セグメンテーション、回帰問題など、様々な画像処理アプリケーションに使われている。 提案システムはグレーレベル共起行列特徴を用いる。 トレーニングされたニューラルネットワークは、エコー画像のグループで正常にテストされ、回帰プロットを用いてエラーを比較した。 アルゴリズムの結果は, 定量および定性的指標を用いて検証され, 関連領域における現状の手法による定量および定性的指標の両面で, 優れた性能を示すことが証明された。 トレーニングニューラルネットワークの性能を比較するために、回帰分析は良い相関関係を示した。

The popularity of Artificial intelligence and machine learning have prompted researchers to use it in the recent researches. The proposed method uses K-Nearest Neighbor (KNN) algorithm for segmentation of medical images, extracting of image features for analysis by classifying the data based on the neural networks. Classification of the images in medical imaging is very important, KNN is one suitable algorithm which is simple, conceptual and computational, which provides very good accuracy in results. KNN algorithm is a unique user-friendly approach with wide range of applications in machine learning algorithms which are majorly used for the various image processing applications including classification, segmentation and regression issues of the image processing. The proposed system uses gray level co-occurrence matrix features. The trained neural network has been tested successfully on a group of echocardiographic images, errors were compared using regression plot. The results of the algorithm are tested using various quantitative as well as qualitative metrics and proven to exhibit better performance in terms of both quantitative and qualitative metrics in terms of current state-of-the-art methods in the related area. To compare the performance of trained neural network the regression analysis performed showed a good correlation.
翻訳日:2023-03-17 16:36:23 公開日:2023-03-16
# 信頼銀行による水中画像復元のためのコントラスト半教師付き学習

Contrastive Semi-supervised Learning for Underwater Image Restoration via Reliable Bank ( http://arxiv.org/abs/2303.09101v1 )

ライセンス: Link先を確認
Shirui Huang, Keyan Wang, Huan Liu, Jun Chen and Yunsong Li(参考訳) 最近の水中画像復元技術の顕著な成果にもかかわらず、ラベル付きデータの欠如はさらなる進歩の大きなハードルとなっている。 本研究では,ネットワークトレーニングにラベルのないデータを組み込むために,平均教師ベースの \textbf{semi}-supervised \textbf{u}nderwater \textbf{i}mage \textbf{r}estoration (\textbf{semi-uir}) フレームワークを提案する。 しかし,(1)教師の予測が間違っている場合,学習における一貫性の喪失は効果を欠く可能性がある。 2)L1距離を使用すると、ネットワークが間違ったラベルをオーバーフィットさせ、確認バイアスが発生する可能性がある。 上記の問題に対処するため,まず信頼性の高い銀行を導入し,<best-ever>出力を疑似基底真理として保存する。 出力の質を評価するために,単調性特性に基づく経験的解析を行い,最も信頼性の高いNR-IQA法を選択する。 また,確認バイアス問題の観点からは,誤りラベルのオーバーフィットを防止するため,対比正規化を取り入れている。 完全参照型および非参照型水中ベンチマークによる実験結果から,本アルゴリズムはSOTA法よりも定量的かつ定性的に改善されていることが示された。 コードは \href{https://github.com/Huang-ShiRui/Semi-UIR}{https://github.com/Huang-ShiRui/Semi-UIR} でリリースされた。

Despite the remarkable achievement of recent underwater image restoration techniques, the lack of labeled data has become a major hurdle for further progress. In this work, we propose a mean-teacher based \textbf{Semi}-supervised \textbf{U}nderwater \textbf{I}mage \textbf{R}estoration (\textbf{Semi-UIR}) framework to incorporate the unlabeled data into network training. However, the naive mean-teacher method suffers from two main problems: (1) The consistency loss used in training might become ineffective when the teacher's prediction is wrong. (2) Using L1 distance may cause the network to overfit wrong labels, resulting in confirmation bias. To address the above problems, we first introduce a reliable bank to store the ``best-ever" outputs as pseudo ground truth. To assess the quality of outputs, we conduct an empirical analysis based on the monotonicity property to select the most trustworthy NR-IQA method. Besides, in view of the confirmation bias problem, we incorporate contrastive regularization to prevent the overfitting on wrong labels. Experimental results on both full-reference and non-reference underwater benchmarks demonstrate that our algorithm has obvious improvement over SOTA methods quantitatively and qualitatively. Code has been released at \href{https://github.com/Huang-ShiRui/Semi-UIR}{https://github.com/Huang-ShiRui/Semi-UIR}.
翻訳日:2023-03-17 16:36:05 公開日:2023-03-16
# 視覚言語モデルのためのパッチトケンアライメントベイズ学習

Patch-Token Aligned Bayesian Prompt Learning for Vision-Language Models ( http://arxiv.org/abs/2303.09100v1 )

ライセンス: Link先を確認
Xinyang Liu, Dongsheng Wang, Miaoge Li, Zhibin Duan, Yishi Xu, Bo Chen, Mingyuan Zhou(参考訳) 視覚言語事前学習モデルの下流への応用では,効果的なプロンプトの構築に多大な関心が寄せられている。 既存のプロンプトエンジニアリングの作業は、手間のかかる手動設計が必要か、ポイント推定問題としてプロンプトチューニングを最適化するかのいずれかであり、カテゴリの多様な特性を記述せず、アプリケーションを制限することはできない。 そこでは,ラベル固有の確率的プロンプトを階層的に生成し,まず下位分布から潜在ベクトルをサンプリングし,次いで軽量な生成モデルを用いて学習を促すベイズ確率論的解法を提案する。 重要なことに、私たちは視覚知識とビューイメージとそれに対応するプロンプトを最適なトランスポート下でパッチやトークンセットとして意味的に規則化し、トレーニングカテゴリを過度に適合させるのではなく、ラベル固有の視覚概念を忠実に捉えるようにプロンプトトークンをプッシュする。 さらに、提案モデルは、一般化性を改善するためにインスタンス条件付きプロンプトが生成される条件付きケースに簡単に拡張することもできる。 15のデータセットに対する大規模な実験により,提案モデルの有効性と一般化性能が示された。

For downstream applications of vision-language pre-trained models, there has been significant interest in constructing effective prompts. Existing works on prompt engineering, which either require laborious manual designs or optimize the prompt tuning as a point estimation problem, may fail to describe diverse characteristics of categories and limit their applications. We introduce a Bayesian probabilistic resolution to prompt learning, where the label-specific stochastic prompts are generated hierarchically by first sampling a latent vector from an underlying distribution and then employing a lightweight generative model. Importantly, we semantically regularize prompt learning with the visual knowledge and view images and the corresponding prompts as patch and token sets under optimal transport, which pushes the prompt tokens to faithfully capture the label-specific visual concepts, instead of overfitting the training categories. Moreover, the proposed model can also be straightforwardly extended to the conditional case where the instance-conditional prompts are generated to improve the generalizability. Extensive experiments on 15 datasets show promising transferability and generalization performance of our proposed model.
翻訳日:2023-03-17 16:35:40 公開日:2023-03-16
# iris:rubric-informed segmentationによる動作品質評価

IRIS: Interpretable Rubric-Informed Segmentation for Action Quality Assessment ( http://arxiv.org/abs/2303.09097v1 )

ライセンス: Link先を確認
Hitoshi Matsuyama, Nobuo Kawaguchi, Brian Y. Lim(参考訳) スポーツビデオのai駆動行動品質評価(aqa)は、オリンピックの審査員を模倣して、パフォーマンスを第二の意見やトレーニングとしてスコアリングする。 しかし、これらのAIメソッドは解釈不能であり、アルゴリズムのアカウンタビリティにとって重要なスコアを正当化しない。 実際、主観的な判断を下す代わりに、スポーツの審査員は、各パフォーマンスシーケンスにおける複数のアクションに対して一貫した基準(ルーリック)を使用する。 そこで本研究では,AQAの動作シーケンスに対して,解釈可能なルーブリックインフォームドセグメンテーションを行うためのIRISを提案する。 IRISを用いてフィギュアスケートのパフォーマンスのスコアリングを行った。 IRISは(1)アクションセグメント,(2)ベーススコアに対する各セグメントの技術的要素スコア差,(3)複数のプログラムコンポーネントスコア,(4)総和ファイナルスコアを予測する。 モデルスタディにおいて、IRISは非解釈可能な最先端モデルよりも優れた性能を示した。 フォーマティブなユーザスタディでは、フィギュアスケートの練習がルーリックインフォームドの説明に同意し、それらが有用であることが分かり、信頼できるAI判断がより多くなった。 この研究は、AI決定を考慮に入れた判断ルーリックを使うことの重要性を強調している。

AI-driven Action Quality Assessment (AQA) of sports videos can mimic Olympic judges to help score performances as a second opinion or for training. However, these AI methods are uninterpretable and do not justify their scores, which is important for algorithmic accountability. Indeed, to account for their decisions, instead of scoring subjectively, sports judges use a consistent set of criteria - rubric - on multiple actions in each performance sequence. Therefore, we propose IRIS to perform Interpretable Rubric-Informed Segmentation on action sequences for AQA. We investigated IRIS for scoring videos of figure skating performance. IRIS predicts (1) action segments, (2) technical element score differences of each segment relative to base scores, (3) multiple program component scores, and (4) the summed final score. In a modeling study, we found that IRIS performs better than non-interpretable, state-of-the-art models. In a formative user study, practicing figure skaters agreed with the rubric-informed explanations, found them useful, and trusted AI judgments more. This work highlights the importance of using judgment rubrics to account for AI decisions.
翻訳日:2023-03-17 16:35:19 公開日:2023-03-16
# SLOPER4D:都市環境におけるグローバル4次元人文推定のためのシーンアウェアデータセット

SLOPER4D: A Scene-Aware Dataset for Global 4D Human Pose Estimation in Urban Environments ( http://arxiv.org/abs/2303.09095v1 )

ライセンス: Link先を確認
Yudi Dai (1), Yitai Lin (1), Xiping Lin (2), Chenglu Wen (1), Lan Xu (2), Hongwei Yi (3), Siqi Shen (1), Yuexin Ma (2), Cheng Wang (1) ((1) Xiamen University, China, (2) ShanghaiTech University, China, (3) Max Planck Institute for Intelligent Systems, Germany)(参考訳) SLOPER4Dは、大都市環境下で収集され、地球規模の人間のポーズ推定(GHPE)と野生における人間とシーンの相互作用の研究を容易にする。 LiDARとカメラを統合したヘッドマウントデバイスを用いて、エゴセントリックな視点から10の都市シーンで12人の被験者の活動を記録する。 2Dキーポイント、3Dポーズパラメータ、グローバル翻訳のためのフレームワイドアノテーションと、再構成されたシーンポイントクラウドを提供する。 このような大きなダイナミックシーンにおいて正確な3Dグラウンド真理を得るために,局所的なSMPLメッシュをシーンに適合させ,フレームごとのダイナミックモーションフレーム中のカメラキャリブレーションを微調整する共同最適化手法を提案する。 最終的に、SLOPER4Dは15の人間の動きで構成され、それぞれ200メートル以上(最大1,300メートル)の軌道長を持ち、100K以上のLiDARフレーム、300kのビデオフレーム、500K IMUベースのモーションフレームを含む2,000ドルm^2$(最大13,000ドルm^2$)の領域をカバーする。 SLOPER4Dでは、都市環境におけるカメラベースの3D HPEとLiDARベースの3D HPEを含む2つの重要なタスクの詳細な分析と、新しいタスクであるGHPEのベンチマークを行う。 詳細な分析は、SLOPER4Dが既存の手法に重大な課題をもたらし、大きな研究機会を生み出していることを示している。 データセットとコードは \url{http://www.lidarhumanmotion.net/sloper4d/} でリリースされる。

We present SLOPER4D, a novel scene-aware dataset collected in large urban environments to facilitate the research of global human pose estimation (GHPE) with human-scene interaction in the wild. Employing a head-mounted device integrated with a LiDAR and camera, we record 12 human subjects' activities over 10 diverse urban scenes from an egocentric view. Frame-wise annotations for 2D key points, 3D pose parameters, and global translations are provided, together with reconstructed scene point clouds. To obtain accurate 3D ground truth in such large dynamic scenes, we propose a joint optimization method to fit local SMPL meshes to the scene and fine-tune the camera calibration during dynamic motions frame by frame, resulting in plausible and scene-natural 3D human poses. Eventually, SLOPER4D consists of 15 sequences of human motions, each of which has a trajectory length of more than 200 meters (up to 1,300 meters) and covers an area of more than 2,000 $m^2$ (up to 13,000 $m^2$), including more than 100K LiDAR frames, 300k video frames, and 500K IMU-based motion frames. With SLOPER4D, we provide a detailed and thorough analysis of two critical tasks, including camera-based 3D HPE and LiDAR-based 3D HPE in urban environments, and benchmark a new task, GHPE. The in-depth analysis demonstrates SLOPER4D poses significant challenges to existing methods and produces great research opportunities. The dataset and code are released at \url{http://www.lidarhumanmotion.net/sloper4d/}
翻訳日:2023-03-17 16:34:59 公開日:2023-03-16
# GLEN:数千の型に対する汎用イベント検出

GLEN: General-Purpose Event Detection for Thousands of Types ( http://arxiv.org/abs/2303.09093v1 )

ライセンス: Link先を確認
Qiusi Zhan, Sha Li, Kathryn Conger, Martha Palmer, Heng Ji, Jiawei Han(参考訳) イベント抽出システムの開発は、広範囲の大規模データセットがないために妨げられている。 イベント抽出システムをより使いやすくするために、汎用イベント検出データセットglenを構築し、これは3,465種類のイベントタイプをカバーし、現在のどのデータセットよりも20倍以上大きなオントロジーを持つ。 GLENはDWD Overlayを利用して作成され、Wikidata QnodesとPropBankのロールセット間のマッピングを提供する。 これにより、PropBankの豊富なアノテーションを遠隔監視として利用することができます。 さらに,GLENにおける大きなオントロジーサイズと部分ラベルを扱うために設計された,多段階イベント検出モデルを提案する。 従来の分類基準モデルとより新しい定義ベースモデルよりも優れた性能(約10% F1ゲイン)を示す。 最後に, 誤差解析を行い, ラベルノイズが依然として性能向上の最大の課題であることを示す。

The development of event extraction systems has been hindered by the absence of wide-coverage, large-scale datasets. To make event extraction systems more accessible, we build a general-purpose event detection dataset GLEN, which covers 3,465 different event types, making it over 20x larger in ontology than any current dataset. GLEN is created by utilizing the DWD Overlay, which provides a mapping between Wikidata Qnodes and PropBank rolesets. This enables us to use the abundant existing annotation for PropBank as distant supervision. In addition, we also propose a new multi-stage event detection model specifically designed to handle the large ontology size and partial labels in GLEN. We show that our model exhibits superior performance (~10% F1 gain) compared to both conventional classification baselines and newer definition-based models. Finally, we perform error analysis and show that label noise is still the largest challenge for improving performance.
翻訳日:2023-03-17 16:34:29 公開日:2023-03-16
# 第5回ABAWコンペティションにおける顔影響行動解析法

Facial Affective Behavior Analysis Method for 5th ABAW Competition ( http://arxiv.org/abs/2303.09145v1 )

ライセンス: Link先を確認
Shangfei Wang, Yanan Chang, Yi Wu, Xiangyu Miao, Jiaqiang Wu, Zhouan Zhu, Jiahe Wang, Yufei Xiao(参考訳) 顔の感情行動分析は人間とコンピュータの相互作用において重要である。 第5回ABAWコンペティションには、Aff-Wild2データベースからの3つの課題が含まれている。 3つの顔の感情分析タスク、すなわち、価-覚醒推定、表現分類、行動単位認識が関係している。 3つの課題に対して,データ不均衡やデータノイズなど,対応する問題を解決するための3つのモデルを構築した。 3つの課題の実験では、提供されたトレーニングデータに基づいてモデルをトレーニングし、検証データ上でモデルを検証する。

Facial affective behavior analysis is important for human-computer interaction. 5th ABAW competition includes three challenges from Aff-Wild2 database. Three common facial affective analysis tasks are involved, i.e. valence-arousal estimation, expression classification, action unit recognition. For the three challenges, we construct three different models to solve the corresponding problems to improve the results, such as data unbalance and data noise. For the experiments of three challenges, we train the models on the provided training data and validate the models on the validation data.
翻訳日:2023-03-17 16:27:34 公開日:2023-03-16
# 法律面における大規模言語モデル視聴に関する調査研究

A Short Survey of Viewing Large Language Models in Legal Aspect ( http://arxiv.org/abs/2303.09136v1 )

ライセンス: Link先を確認
Zhongxiang Sun(参考訳) 大規模言語モデル(LLM)は、自然言語処理、コンピュータビジョン、強化学習など、多くの分野に変化をもたらした。 これらのモデルは法分野にも大きな影響を与えており、法的判断の予測、法的文書分析、法的文書作成など、様々な法的タスクの自動化にますます活用されている。 しかし、LLMの法的分野への統合は、プライバシーの懸念、偏見、説明可能性など、いくつかの法的問題を引き起こしている。 本稿では,LLMの法分野への統合について検討する。 法律業務におけるLLMの様々な応用について論じ、その使用から生じる法的課題を考察し、法律分野におけるLLMの専門化に使用できるデータ資源について検討する。 最後に,いくつかの有望な方向性について議論し,本論文をまとめる。 そうすることで、法律におけるLLMの現状の概要を提供し、それらの統合の潜在的なメリットと課題を強調したいと考えています。

Large language models (LLMs) have transformed many fields, including natural language processing, computer vision, and reinforcement learning. These models have also made a significant impact in the field of law, where they are being increasingly utilized to automate various legal tasks, such as legal judgement prediction, legal document analysis, and legal document writing. However, the integration of LLMs into the legal field has also raised several legal problems, including privacy concerns, bias, and explainability. In this survey, we explore the integration of LLMs into the field of law. We discuss the various applications of LLMs in legal tasks, examine the legal challenges that arise from their use, and explore the data resources that can be used to specialize LLMs in the legal domain. Finally, we discuss several promising directions and conclude this paper. By doing so, we hope to provide an overview of the current state of LLMs in law and highlight the potential benefits and challenges of their integration.
翻訳日:2023-03-17 16:27:27 公開日:2023-03-16
# ニューラルネットワークを用いた光ファイバーにおける周期信号の非線形変換予測

Predicting nonlinear reshaping of periodic signals in optical fibre with a neural network ( http://arxiv.org/abs/2303.09133v1 )

ライセンス: Link先を確認
Sonia Boscolo (AIPT), J.M. Dudley (FEMTO-ST), Christophe Finot (ICB)(参考訳) 我々は、ニューラルネットワークに基づく教師付き機械学習モデルを構築し、単純な正弦波変調の時間的およびスペクトル的変換を、光ファイバーの非線形伝搬時に発生する周波数領域のコム構造を持つパルス列に展開する。 ファイバーの正常および異常な2次分散状態について検討し、ニューラルネットワークの速度を利用して、カスタムコームの生成のための入力パラメータの空間を探索し、時間的あるいはスペクトル的な重要な焦点を発生させる。

We deploy a supervised machine-learning model based on a neural network to predict the temporal and spectral reshaping of a simple sinusoidal modulation into a pulse train having a comb structure in the frequency domain, which occurs upon nonlinear propagation in an optical fibre. Both normal and anomalous second-order dispersion regimes of the fibre are studied, and the speed of the neural network is leveraged to probe the space of input parameters for the generation of custom combs or the occurrence of significant temporal or spectral focusing.
翻訳日:2023-03-17 16:27:11 公開日:2023-03-16
# コード解析のための大規模言語モデルにおける分布シフトの探索

Exploring Distributional Shifts in Large Language Models for Code Analysis ( http://arxiv.org/abs/2303.09128v1 )

ライセンス: Link先を確認
Shushan Arakelyan, Rocktim Jyoti Das, Yi Mao and Xiang Ren(参考訳) CodeCodeT5とCodexの2つの大きな言語モデルの能力を体系的に研究し、ドメイン外のデータに一般化する。 本研究では,コード要約とコード生成という2つの基本的応用について考察する。 私たちはデータを、組織、プロジェクト、そしてソフトウェアプロジェクト内のモジュールによって、自然な境界に沿ってドメインに分割します。 これにより、デプロイ時にドメイン内データとドメイン外データの認識が容易になる。 各新領域のサンプルは,分布シフトの大きな課題を伴って,両方のモデルが存在することを確認した。 確立された異なる手法がモデルにどのように適応し、新しい領域をより一般化するかを考察する。 私たちの実験では、マルチタスク学習だけでは合理的なベースラインであるものの、トレーニングデータから取得したサンプルのわずかな微調整と組み合わせることで、非常に強力なパフォーマンスを達成できることが示されています。 実際、我々の実験によると、このソリューションは、非常に低データのシナリオで直接微調整より優れている。 最後に、このアプローチのバリエーションを検討し、複数のドメインに一度に適応するより広い適用方法を提案する。 コード生成の場合、複数のドメインに適応したモデルは、各ドメインに個別に適応したモデルと同等の性能を発揮することが分かりました。

We systematically study the capacity of two large language models for code - CodeT5 and Codex - to generalize to out-of-domain data. In this study, we consider two fundamental applications - code summarization, and code generation. We split data into domains following its natural boundaries - by an organization, by a project, and by a module within the software project. This makes recognition of in-domain vs out-of-domain data at the time of deployment trivial. We establish that samples from each new domain present both models with a significant challenge of distribution shift. We study how well different established methods can adapt models to better generalize to new domains. Our experiments show that while multitask learning alone is a reasonable baseline, combining it with few-shot finetuning on examples retrieved from training data can achieve very strong performance. In fact, according to our experiments, this solution can outperform direct finetuning for very low-data scenarios. Finally, we consider variations of this approach to create a more broadly applicable method to adapt to multiple domains at once. We find that in the case of code generation, a model adapted to multiple domains simultaneously performs on par with those adapted to each domain individually.
翻訳日:2023-03-17 16:27:02 公開日:2023-03-16
# 法医学的比較のための距離ベースアプローチの評価:手臭証拠への応用

Evaluation of distance-based approaches for forensic comparison: Application to hand odor evidence ( http://arxiv.org/abs/2303.09126v1 )

ライセンス: Link先を確認
Isabelle Rivals (UMRS, ESPCI Paris), C\'edric Sautier (IRCGN), Guillaume Cognon, Vincent Cuzuel(参考訳) 様々な種類のトレースに基づく同源仮説と異源仮説を区別する問題は、法医学における一般的な問題である。 この問題は、しばしば2つの競合する仮説のそれぞれを支持する証拠の相対的な強さを定量化できる確率比を与えるベイズ的アプローチによって取り組まれる。 ここでは,頑健性,特に高次元のエビデンスを扱う能力が極めて異なる距離に基づくアプローチに注目し,評価と最適化を行う必要がある。 2つの競合する仮説のそれぞれにおけるトレース間の距離の確率を推定する直接法と、同源分布と異源距離分布を判別するロジスティック回帰を用いた間接法との統一的枠組みを提案する。 直接メソッドはより柔軟だが、間接メソッドは機械学習においてより堅牢で極めて自然なものだ。 さらに, 間接的手法は, ベクトル的距離の利用を可能にし, スカラー距離アプローチによる重大な情報損失を防止する。間接的, 間接的手法は, 感度, 特異性, 頑健性の観点から比較される。 534人の被験者と1690人の匂いの痕跡からなる大きなパネルにおける経験的評価は、間接的な方法、特に次元の縮小を伴わない方法が特徴選択の有無で優れていることを示している。

The issue of distinguishing between the same-source and different-source hypotheses based on various types of traces is a generic problem in forensic science. This problem is often tackled with Bayesian approaches, which are able to provide a likelihood ratio that quantifies the relative strengths of evidence supporting each of the two competing hypotheses. Here, we focus on distance-based approaches, whose robustness and specifically whose capacity to deal with high-dimensional evidence are very different, and need to be evaluated and optimized. A unified framework for direct methods based on estimating the likelihoods of the distance between traces under each of the two competing hypotheses, and indirect methods using logistic regression to discriminate between same-source and different-source distance distributions, is presented. Whilst direct methods are more flexible, indirect methods are more robust and quite natural in machine learning. Moreover, indirect methods also enable the use of a vectorial distance, thus preventing the severe information loss suffered by scalar distance approaches.Direct and indirect methods are compared in terms of sensitivity, specificity and robustness, with and without dimensionality reduction, with and without feature selection, on the example of hand odor profiles, a novel and challenging type of evidence in the field of forensics. Empirical evaluations on a large panel of 534 subjects and their 1690 odor traces show the significant superiority of the indirect methods, especially without dimensionality reduction, be it with or without feature selection.
翻訳日:2023-03-17 16:26:45 公開日:2023-03-16
# 非画像表現型予測に寄与する繊維路形状計測法

Fiber Tract Shape Measures Inform Prediction of Non-Imaging Phenotypes ( http://arxiv.org/abs/2303.09124v1 )

ライセンス: Link先を確認
Wan Liu, Yuqian Chen, Chuyang Ye, Nikos Makris, Yogesh Rathi, Weidong Cai, Fan Zhang, Lauren J. O' Donnell(参考訳) 脳の白質結合の神経画像計測は、人口統計学的および認知的尺度のような非画像表現型の予測を可能にする。 既存の研究は, トラクトグラフィーで再構成した接続の形状を考慮せずに, 拡散MRIによる従来の微細構造と接続性について検討してきた。 本稿では, 従来の特徴と組み合わせて, 非画像表現型を予測するための繊維路形状特徴の可能性について検討する。 長さ, 直径, 伸長の3つの基本形状の特徴に着目した。 従来の回帰法とディープラーニングに基づく予測法を含む2つの異なる予測法が用いられている。 実験では、ミクロ構造、接続性、形状測定を用いた予測に効率的な2段階融合戦略を用いる。 脳の大きさによる予測バイアスを低減するため、正規化形状の特徴についても検討した。 ヒトコネクトームプロジェクト(hcp)の若年成人データセット(n=1065)における実験結果は、個々の形状特徴が非画像表現型の予測であることを示している。 微細構造や接続機能と組み合わせると、形状特徴は認知スコアtpvt (nih toolbox picture vocabulary test) の予測性能を大幅に向上させる。 本研究は, 繊維の形状が, 機械学習を用いた生体脳の記述と研究に有用な情報を含んでいることを示した。

Neuroimaging measures of the brain's white matter connections can enable the prediction of non-imaging phenotypes, such as demographic and cognitive measures. Existing works have investigated traditional microstructure and connectivity measures from diffusion MRI tractography, without considering the shape of the connections reconstructed by tractography. In this paper, we investigate the potential of fiber tract shape features for predicting non-imaging phenotypes, both individually and in combination with traditional features. We focus on three basic shape features: length, diameter, and elongation. Two different prediction methods are used, including a traditional regression method and a deep-learning-based prediction method. Experiments use an efficient two-stage fusion strategy for prediction using microstructure, connectivity, and shape measures. To reduce predictive bias due to brain size, normalized shape features are also investigated. Experimental results on the Human Connectome Project (HCP) young adult dataset (n=1065) demonstrate that individual shape features are predictive of non-imaging phenotypes. When combined with microstructure and connectivity features, shape features significantly improve performance for predicting the cognitive score TPVT (NIH Toolbox picture vocabulary test). Overall, this study demonstrates that the shape of fiber tracts contains useful information for the description and study of the living human brain using machine learning.
翻訳日:2023-03-17 16:26:18 公開日:2023-03-16
# 単一中心二電子積分アルゴリズムの新展開

A new development status of single-center two-electron integration algorithm ( http://arxiv.org/abs/2303.09121v1 )

ライセンス: Link先を確認
Lian-Peng Zhao(参考訳) 単一中心二電子統合は原子・分子構造のab initio計算において重要なコア技術である。 そこで本稿では,Zhaoらの手法をレビュー・最適化し,結論を導いた。この手法はトランケーション誤差のない正確な計算であるため,Slater-Condon積分法よりも優れている。

Single-center two-electron integration is an important core technology in ab initio calculation of atomic and molecular structures. Therefore, this paper reviews and optimizes the method of Zhao et al., and draws a conclusion: Because this method is an accurate calculation without truncation error, it is superior to Slater-Condon integration method.
翻訳日:2023-03-17 16:25:57 公開日:2023-03-16
# 音声駆動型音声合成のための拡散モデル

Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation ( http://arxiv.org/abs/2303.09119v1 )

ライセンス: Link先を確認
Lingting Zhu, Xian Liu, Xuanyu Liu, Rui Qian, Ziwei Liu, Lequan Yu(参考訳) 仮想アバターをアニメーションして音声ジェスチャーを作成することで、人間と機械の相互作用に様々な応用が期待できる。 既存の手法は主にGAN(Generative Adversarial Network)に依存しており、これは一般的に悪名高いモード崩壊と不安定なトレーニングに悩まされるため、正確なオーディオ・ジェスチャーの関節分布の学習が困難である。 本研究では,クロスモーダルな音声とジェスチャの関連を効果的に捉え,高忠実度音声駆動型ジェスチャ生成のための時間的コヒーレンスを保ちながら,拡散コペーチジェスチャ(diffgesture)という新しい拡散ベースフレームワークを提案する。 具体的には,まずスケルトンシーケンスと音声のクリップ上に拡散条件生成プロセスを確立し,フレームワーク全体を有効化する。 そして,複数のモーダルからの情報によりよく対応し,長期の時間依存性をモデル化するために,新しい拡散型音声ジェスチャ変換器が考案された。 さらに,時間的不整合を解消するために,アニールノイズサンプリング方式による有効拡散ジェスチャー安定化器を提案する。 拡散モデルのアーキテクチャ上の利点を活かして,多様性とジェスチャー品質をトレードオフする暗黙の分類子なし指導を取り入れた。 DiffGestureは、より優れたモードカバレッジとより強力な音声相関でコヒーレントなジェスチャーをレンダリングし、最先端のパフォーマンスを実現する。 コードはhttps://github.com/advocate99/diffgestureで入手できる。

Animating virtual avatars to make co-speech gestures facilitates various applications in human-machine interaction. The existing methods mainly rely on generative adversarial networks (GANs), which typically suffer from notorious mode collapse and unstable training, thus making it difficult to learn accurate audio-gesture joint distributions. In this work, we propose a novel diffusion-based framework, named Diffusion Co-Speech Gesture (DiffGesture), to effectively capture the cross-modal audio-to-gesture associations and preserve temporal coherence for high-fidelity audio-driven co-speech gesture generation. Specifically, we first establish the diffusion-conditional generation process on clips of skeleton sequences and audio to enable the whole framework. Then, a novel Diffusion Audio-Gesture Transformer is devised to better attend to the information from multiple modalities and model the long-term temporal dependency. Moreover, to eliminate temporal inconsistency, we propose an effective Diffusion Gesture Stabilizer with an annealed noise sampling strategy. Benefiting from the architectural advantages of diffusion models, we further incorporate implicit classifier-free guidance to trade off between diversity and gesture quality. Extensive experiments demonstrate that DiffGesture achieves state-of-theart performance, which renders coherent gestures with better mode coverage and stronger audio correlations. Code is available at https://github.com/Advocate99/DiffGesture.
翻訳日:2023-03-17 16:25:51 公開日:2023-03-16
# 放射線診断のための視覚言語的因果介入

Visual-Linguistic Causal Intervention for Radiology Report Generation ( http://arxiv.org/abs/2303.09117v1 )

ライセンス: Link先を確認
Weixing Chen, Yang Liu, Ce Wang, Guanbin Li, Jiarui Zhu and Liang Lin(参考訳) 自動x線レポート作成は, コンピュータ支援診断および薬剤指導に不可欠である。 重要なことは、自動放射線学レポート生成(RRG)は、視覚言語学的データ関係から医療報告を自動生成することにより、放射線科医の重荷を軽減できる。 しかし,視覚・言語バイアスによって引き起こされる画像テキストデータのスプリアス相関のため,異常を確実に記述する正確なレポートの作成が困難である。 さらに、クロスモーダルな共同創設者は通常観察不能であり、明示的に排除することは困難である。 本稿では、新しい視点、すなわち視覚言語学的因果的介入からRRGのクロスモーダルデータバイアスを緩和し、視覚的解答モジュール(VDM)と言語的解答モジュール(LDM)からなるRRGのための新しい視覚言語学的因果的介入(VLCI)フレームワークを提案する。 特に、vdmは、普遍的なクリニックのセマンティクスの抽出がないため、オブジェクト検出なしでパッチベースのローカルおよびグローバル機能から視覚共同創設者を探索し、分離する。 同時に、LDMは特定の辞書を構築することなく、健全な視覚特徴と高周波コンテキストによって引き起こされる言語的共同創設者を排除する。 IU-XrayとMIMIC-CXRデータセットの大規模な実験により、我々のVLCIは最先端のRRG法よりも大幅に優れていることが示された。 ソースコードとモデルはhttps://github.com/WissingChen/VLCIで入手できる。

Automatic radiology report generation is essential for computer-aided diagnosis and medication guidance. Importantly, automatic radiology report generation (RRG) can relieve the heavy burden of radiologists by generating medical reports automatically from visual-linguistic data relations. However, due to the spurious correlations within image-text data induced by visual and linguistic biases, it is challenging to generate accurate reports that reliably describe abnormalities. Besides, the cross-modal confounder is usually unobservable and difficult to be eliminated explicitly. In this paper, we mitigate the cross-modal data bias for RRG from a new perspective, i.e., visual-linguistic causal intervention, and propose a novel Visual-Linguistic Causal Intervention (VLCI) framework for RRG, which consists of a visual deconfounding module (VDM) and a linguistic deconfounding module (LDM), to implicitly deconfound the visual-linguistic confounder by causal front-door intervention. Specifically, the VDM explores and disentangles the visual confounder from the patch-based local and global features without object detection due to the absence of universal clinic semantic extraction. Simultaneously, the LDM eliminates the linguistic confounder caused by salient visual features and high-frequency context without constructing specific dictionaries. Extensive experiments on IU-Xray and MIMIC-CXR datasets show that our VLCI outperforms the state-of-the-art RRG methods significantly. Source code and models are available at https://github.com/WissingChen/VLCI.
翻訳日:2023-03-17 16:25:24 公開日:2023-03-16
# アマルガメーションのための学習: 感性分類のための多元変換学習フレームワーク

Learning for Amalgamation: A Multi-Source Transfer Learning Framework For Sentiment Classification ( http://arxiv.org/abs/2303.09115v1 )

ライセンス: Link先を確認
Cuong V. Nguyen, Khiem H. Le, Anh M. Tran, Quang H. Pham, Binh T. Nguyen(参考訳) トランスファー学習はディープラーニングにおいて重要な役割を担っており、トレーニングデータが不十分なターゲットドメインのパフォーマンスを著しく向上させることができる。 本研究は,1つの事前学習モデルを用いて,伝達学習の一般的な実践を越えて検討する。 ベトナムの感情分類の課題に注目し,いくつかの事前学習モデルから統一埋め込みを学ぶためのフレームワークであるlifaを提案する。 さらに、事前訓練されたモデルが互いに協力するか、競合するかを奨励する2つのLIFA変種を提案する。 これらの変種の研究は、モデル間の知識の共有が転校学習にとってより有益であることを示すことによって、lifaの成功に光を当てている。 さらに,ベトナム初の感情分類データベースであるaisia-vn-review-fデータセットを構築した。 AISIA-VN-Review-Fおよび既存のベンチマークにおいて、他の手法と比較してLIFAの有効性を実証するための広範な実験を行った。 ベトナムのnlp研究に貢献するために、我々はソースコードとデータセットを研究コミュニティに公開します。

Transfer learning plays an essential role in Deep Learning, which can remarkably improve the performance of the target domain, whose training data is not sufficient. Our work explores beyond the common practice of transfer learning with a single pre-trained model. We focus on the task of Vietnamese sentiment classification and propose LIFA, a framework to learn a unified embedding from several pre-trained models. We further propose two more LIFA variants that encourage the pre-trained models to either cooperate or compete with one another. Studying these variants sheds light on the success of LIFA by showing that sharing knowledge among the models is more beneficial for transfer learning. Moreover, we construct the AISIA-VN-Review-F dataset, the first large-scale Vietnamese sentiment classification database. We conduct extensive experiments on the AISIA-VN-Review-F and existing benchmarks to demonstrate the efficacy of LIFA compared to other techniques. To contribute to the Vietnamese NLP research, we publish our source code and datasets to the research community upon acceptance.
翻訳日:2023-03-17 16:24:57 公開日:2023-03-16
# nlut:neuarlベースのビデオフォトリアリスティックスタイル転送のための3dルックアップテーブル

NLUT: Neuarl-based 3D Lookup Tables for Video Photorealistic Style Transfer ( http://arxiv.org/abs/2303.09170v1 )

ライセンス: Link先を確認
Yaosen Chen, Han Yang, Yuexin Yang, Yuegen Liu, Wei Wang, Xuming Wen, Chaoping Xie(参考訳) ビデオフォトリアリスティックなスタイル転送は、時間的一貫性を維持しつつ、スタイル画像に類似したフォトリアリスティックなスタイルの動画を生成することが望まれる。 しかし,既存の手法ではフレーム単位のフォトリアリスティックなスタイル転送を行うことで,スタイリングされた映像の時間的一貫性を確保できない。 この問題に対処するために,我々は,映像のフォトリアリスティックな転送にluts(neural network-based 3d lookup tables)を使用し,効率と効率のバランスを実現している。 We first train a neural network for generating photorealistic stylized 3D LUTs on a large-scale dataset; then, when performing photorealistic style transfer for a specific video, we select a keyframe and style image in the video as the data source and fine-turn the neural network; finally, we query the 3D LUTs generated by the fine-tuned neural network for the colors in the video, resulting in a super-fast photorealistic style transfer, even processing 8K video takes less than 2 millisecond per frame. 実験の結果,任意のスタイル画像の光写実的スタイル転送を実現するだけでなく,視覚的品質や一貫性の観点からも既存手法よりも優れていた。 プロジェクトページ:https://semchan.github.io/NLUT_Project

Video photorealistic style transfer is desired to generate videos with a similar photorealistic style to the style image while maintaining temporal consistency. However, existing methods obtain stylized video sequences by performing frame-by-frame photorealistic style transfer, which is inefficient and does not ensure the temporal consistency of the stylized video. To address this issue, we use neural network-based 3D Lookup Tables (LUTs) for the photorealistic transfer of videos, achieving a balance between efficiency and effectiveness. We first train a neural network for generating photorealistic stylized 3D LUTs on a large-scale dataset; then, when performing photorealistic style transfer for a specific video, we select a keyframe and style image in the video as the data source and fine-turn the neural network; finally, we query the 3D LUTs generated by the fine-tuned neural network for the colors in the video, resulting in a super-fast photorealistic style transfer, even processing 8K video takes less than 2 millisecond per frame. The experimental results show that our method not only realizes the photorealistic style transfer of arbitrary style images but also outperforms the existing methods in terms of visual quality and consistency. Project page:https://semchan.github.io/NLUT_Project.
翻訳日:2023-03-17 16:19:12 公開日:2023-03-16
# マルチモーダルデータに基づく感情反応強度推定

Emotional Reaction Intensity Estimation Based on Multimodal Data ( http://arxiv.org/abs/2303.09167v1 )

ライセンス: Link先を確認
Shangfei Wang, Jiaqiang Wu, Feiyi Zheng, Xin Li, Xuewei Li, Suwen Wang, Yi Wu, Yanan Chang, Xiangyu Miao(参考訳) 本稿では, CVPR 2023: 5th Workshop and Competition on Affective Behavior Analysis in-the-wild (ABAW) において, 感情反応強度(ERI)推定チャレンジについて紹介する。 オリジンザザーが提供するマルチモーダルデータに基づき、異なる事前学習されたモデルを用いて音響的特徴と視覚的特徴を抽出する。 マルチモーダル機能は、クロスモーダルアテンションメクニズムを持つトランスフォーマーエンコーダによって混合される。 この論文では 1. SOTA事前訓練モデルにより、より良い特徴を抽出する。 2. ベースラインと比較すると、ピアソン相関係数が大幅に向上する。 3. モデルの性能向上のために, 特別なスキルでデータを処理する。

This paper introduces our method for the Emotional Reaction Intensity (ERI) Estimation Challenge, in CVPR 2023: 5th Workshop and Competition on Affective Behavior Analysis in-the-wild (ABAW). Based on the multimodal data provided by the originazers, we extract acoustic and visual features with different pretrained models. The multimodal features are mixed together by Transformer Encoders with cross-modal attention mechnism. In this paper, 1. better features are extracted with the SOTA pretrained models. 2. Compared with the baseline, we improve the Pearson's Correlations Coefficient a lot. 3. We process the data with some special skills to enhance performance ability of our model.
翻訳日:2023-03-17 16:18:51 公開日:2023-03-16
# マルチモーダルコントラスト学習における識別可能性

Identifiability Results for Multimodal Contrastive Learning ( http://arxiv.org/abs/2303.09166v1 )

ライセンス: Link先を確認
Imant Daunhawer, Alice Bizeul, Emanuele Palumbo, Alexander Marx, Julia E. Vogt(参考訳) コントラスト学習(Contrastive learning)は、マルチビューおよびマルチモーダル学習(例えば、画像/カプセルペアによる表現学習)の最近の進歩の基盤となる基礎である。 その効果はまだ完全には理解されていないが、最近の一連の研究は、対照的な学習がデータ生成過程を逆転させ、ビュー間で共有される真実の潜在因子を復元できることを示している。 本研究では,マルチモーダルコントラスト学習において,従来研究したマルチビュー設定よりも,より一般的な設定で共有因子を回収することが可能であることを示す。 具体的には、1つの生成機構(例えば、同じタイプの複数のカメラ)によるマルチビュー設定と、異なる機構(例えば、カメラとマイク)によって特徴付けられるマルチモーダル設定とを区別する。 本研究は,モーダリティ特異的潜伏変数の異なる機構で生成過程を再定義することにより,過去の識別可能性の結果を一般化する。 比較学習は、要因間の非自明な依存関係がある場合でも、モダリティ間で共有される潜在因子をブロックする。 数値シミュレーションにより識別精度を実証し,画像/テキストペアの複雑なマルチモーダルデータセット上での検証を行った。 我々の研究は、マルチモーダル表現学習の理論基盤を提供し、マルチモーダルコントラスト学習を実践的に効果的に設定する方法を説明する。

Contrastive learning is a cornerstone underlying recent progress in multi-view and multimodal learning, e.g., in representation learning with image/caption pairs. While its effectiveness is not yet fully understood, a line of recent work reveals that contrastive learning can invert the data generating process and recover ground truth latent factors shared between views. In this work, we present new identifiability results for multimodal contrastive learning, showing that it is possible to recover shared factors in a more general setup than the multi-view setting studied previously. Specifically, we distinguish between the multi-view setting with one generative mechanism (e.g., multiple cameras of the same type) and the multimodal setting that is characterized by distinct mechanisms (e.g., cameras and microphones). Our work generalizes previous identifiability results by redefining the generative process in terms of distinct mechanisms with modality-specific latent variables. We prove that contrastive learning can block-identify latent factors shared between modalities, even when there are nontrivial dependencies between factors. We empirically verify our identifiability results with numerical simulations and corroborate our findings on a complex multimodal dataset of image/text pairs. Zooming out, our work provides a theoretical basis for multimodal representation learning and explains in which settings multimodal contrastive learning can be effective in practice.
翻訳日:2023-03-17 16:18:40 公開日:2023-03-16
# 新しいベンチマーク: 平均教師付き学習と下流ドメイン適応のためのブレンダー付き合成データの有用性について

A New Benchmark: On the Utility of Synthetic Data with Blender for Bare Supervised Learning and Downstream Domain Adaptation ( http://arxiv.org/abs/2303.09165v1 )

ライセンス: Link先を確認
Hui Tang and Kui Jia(参考訳) コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。 しかしながら、高い労働コストとあいまいなラベリング精度のため、すべての関心領域のタスクごとに徹底したデータアノテーションは実行不可能である。 さらに、制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。 これらすべての疑問は、典型的な理論の検証と新しい発見への露出を妨げる可能性がある。 これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。 この研究は、素人による教師なし学習と下流ドメイン適応に関する深い研究をすることで、この線に沿って前進させます。 具体的には、3Dレンダリングによって実現されたよく制御されたIDデータ設定の下で、例えば、ショートカット学習のような典型的な重要な学習の洞察を体系的に検証し、一般化における様々なデータ体制とネットワークアーキテクチャの新しい法則を発見する。 さらに,3dシーンにおける物体スケール,素材テクスチャ,照明,カメラ視点,背景などの一般化に対する画像形成因子の影響についても検討した。 さらに, 合成データと実データとの伝達性を比較するため, シミュレーションから現実への適応を下流タスクとして用いることにより, 合成データの事前学習が実テスト結果の向上にも寄与することを示す。 最後に,今後の研究を促進するために,s2rdaと呼ばれる画像分類のための新しい大規模合成-実数ベンチマークを開発し,シミュレーションから現実への移動に関するより重要な課題を提供する。 コードとデータセットはhttps://github.com/huitangtang/on_the_utility_of_synthetic_dataで入手できる。

Deep learning in computer vision has achieved great success with the price of large-scale labeled training data. However, exhaustive data annotation is impracticable for each task of all domains of interest, due to high labor costs and unguaranteed labeling accuracy. Besides, the uncontrollable data collection process produces non-IID training and test data, where undesired duplication may exist. All these nuisances may hinder the verification of typical theories and exposure to new findings. To circumvent them, an alternative is to generate synthetic data via 3D rendering with domain randomization. We in this work push forward along this line by doing profound and extensive research on bare supervised learning and downstream domain adaptation. Specifically, under the well-controlled, IID data setting enabled by 3D rendering, we systematically verify the typical, important learning insights, e.g., shortcut learning, and discover the new laws of various data regimes and network architectures in generalization. We further investigate the effect of image formation factors on generalization, e.g., object scale, material texture, illumination, camera viewpoint, and background in a 3D scene. Moreover, we use the simulation-to-reality adaptation as a downstream task for comparing the transferability between synthetic and real data when used for pre-training, which demonstrates that synthetic data pre-training is also promising to improve real test results. Lastly, to promote future research, we develop a new large-scale synthetic-to-real benchmark for image classification, termed S2RDA, which provides more significant challenges for transfer from simulation to reality. The code and datasets are available at https://github.com/huitangtang/On_the_Utility_of_Synthetic_Data.
翻訳日:2023-03-17 16:18:17 公開日:2023-03-16
# トランスフォーマー付きビデオにおける感情反応強度推定と表現分類のためのマルチモーダル特徴抽出と融合

Multimodal Feature Extraction and Fusion for Emotional Reaction Intensity Estimation and Expression Classification in Videos with Transformers ( http://arxiv.org/abs/2303.09164v1 )

ライセンス: Link先を確認
Jia Li, Yin Chen, Xuesong Zhang, Jiantao Nie, Yangchen Yu, Ziqiang Li, Meng Wang, Richang Hong(参考訳) 本稿では,野生(abaw)2023年における情動行動分析の2つの下位課題である,感情反応強度(eri)推定チャレンジと表現(expr)分類チャレンジの解決法を提案する。 abaw 2023は、人間の感情、感情、行動を理解する能力を持つ機械やロボットを作ることを目標とし、よりインテリジェントな未来の実現に効果的に寄与する、野生の情動行動分析の問題に焦点を当てている。 本研究では,hume-reactionデータセットのための異なるモデルとツールを使用して,オーディオ機能やビデオ機能など,さまざまな側面の機能を抽出する。 これらのマルチモーダル特徴を分析し,結合し,検討することにより,マルチモーダル感情予測のためのモデルの精度を効果的に向上させる。 感情反応強度 (eri) 推定チャレンジでは, 検証データセット上でピアソン係数を84%上回り, 良好な結果を示した。

In this paper, we present our solutions to the two sub-challenges of Affective Behavior Analysis in the wild (ABAW) 2023: the Emotional Reaction Intensity (ERI) Estimation Challenge and Expression (Expr) Classification Challenge. ABAW 2023 focuses on the problem of affective behavior analysis in the wild, with the goal of creating machines and robots that have the ability to understand human feelings, emotions and behaviors, which can effectively contribute to the advent of a more intelligent future. In our work, we use different models and tools for the Hume-Reaction dataset to extract features of various aspects, such as audio features, video features, etc. By analyzing, combining, and studying these multimodal features, we effectively improve the accuracy of the model for multimodal sentiment prediction. For the Emotional Reaction Intensity (ERI) Estimation Challenge, our method shows excellent results with a Pearson coefficient on the validation dataset, exceeding the baseline method by 84 percent.
翻訳日:2023-03-17 16:17:48 公開日:2023-03-16
# abaw-5コンペティションビデオにおける一タスク感情認識における顔特徴

EmotiEffNet Facial Features in Uni-task Emotion Recognition in Video at ABAW-5 competition ( http://arxiv.org/abs/2303.09162v1 )

ライセンス: Link先を確認
Andrey V. Savchenko(参考訳) 本稿では,第5回ABAW(Affective Behavior Analysis in-the-Wild)コンペの結果を紹介する。 フレームレベル特徴抽出のためのemotieffnetファミリーからの事前学習された畳み込みネットワークの利用について検討した。 特に,多層パーセプトロンとLightAutoMLに基づく分類器のアンサンブルを提案する。 シーケンシャルフレームの結果を平滑化して後処理を行う。 大規模Aff-Wild2データベースの実験結果から,ベースラインと比較すると,表情認識とアクション単位検出のためのマクロ平均F1スコアが得られ,一致相関係数が得られた。

In this article, the results of our team for the fifth Affective Behavior Analysis in-the-wild (ABAW) competition are presented. The usage of the pre-trained convolutional networks from the EmotiEffNet family for frame-level feature extraction is studied. In particular, we propose an ensemble of a multi-layered perceptron and the LightAutoML-based classifier. The post-processing by smoothing the results for sequential frames is implemented. Experimental results for the large-scale Aff-Wild2 database demonstrate that our model achieves a much greater macro-averaged F1-score for facial expression recognition and action unit detection and concordance correlation coefficients for valence/arousal estimation when compared to baseline.
翻訳日:2023-03-17 16:17:28 公開日:2023-03-16
# ABAW5チャレンジにおけるトランスフォーマーエンコーダと聴覚融合による顔効果認識

Facial Affect Recognition based on Transformer Encoder and Audiovisual Fusion for the ABAW5 Challenge ( http://arxiv.org/abs/2303.09158v1 )

ライセンス: Link先を確認
Ziyang Zhang, Liuwei An, Zishun Cui, Ao xu, Tengteng Dong(参考訳) 本稿では,5th Workshop and Competition on Affective Behavior Analysis in-the-wild (ABAW) について,4つのサブチャレンジ(VA)推定,表現(Expr)分類,行動単位(AU)検出,感情反応強度(ERI)推定を含むソリューションを提案する。 第5回ABAWコンペティションは、さまざまなモダリティとデータセットを使用した顔認識に焦点を当てている。 本研究では,多数のソタモデルを用いて,強力な音声・視覚的特徴を抽出する。 これらの特徴はトランスフォーマエンコーダとtemmaによって融合される。 さらに,様々な特徴間の大きな次元差の影響を避けるため,異なる特徴を同じ次元に合わせるアフィンモジュールを設計した。 実験により,提案手法の優位性が示された。 VA推定サブチェレンジでは,平均コンコータンス相関係数(CCC)が0.6066である。 式分類では、平均f1スコアは0.4055である。 AU検出サブチャレンジでは、平均F1スコアは0.5296である。 感情反応強度推定サブチェレンジでは、検証セット上の平均ピアソン相関係数は0.3968である。 4つのサブチャレングの結果は、ベースラインよりも大きなマージンで上回っている。

In this paper, we present our solutions for the 5th Workshop and Competition on Affective Behavior Analysis in-the-wild (ABAW), which includes four sub-challenges of Valence-Arousal (VA) Estimation, Expression (Expr) Classification, Action Unit (AU) Detection and Emotional Reaction Intensity (ERI) Estimation. The 5th ABAW competition focuses on facial affect recognition utilizing different modalities and datasets. In our work, we extract powerful audio and visual features using a large number of sota models. These features are fused by Transformer Encoder and TEMMA. Besides, to avoid the possible impact of large dimensional differences between various features, we design an Affine Module to align different features to the same dimension. Extensive experiments demonstrate that the superiority of the proposed method. For the VA Estimation sub-challenge, our method obtains the mean Concordance Correlation Coefficient (CCC) of 0.6066. For the Expression Classification sub-challenge, the average F1 Score is 0.4055. For the AU Detection sub-challenge, the average F1 Score is 0.5296. For the Emotional Reaction Intensity Estimation sub-challenge, the average pearson's correlations coefficient on the validation set is 0.3968. All of the results of four sub-challenges outperform the baseline with a large margin.
翻訳日:2023-03-17 16:17:16 公開日:2023-03-16
# 概念ボトルネック構造を持つ線形ニューラルネットワークにおけるベイズ一般化誤差とマルチタスク定式化

Bayesian Generalization Error in Linear Neural Networks with Concept Bottleneck Structure and Multitask Formulation ( http://arxiv.org/abs/2303.09154v1 )

ライセンス: Link先を確認
Naoki Hayashi, Yoshihide Sawada(参考訳) 概念ボトルネックモデル (CBM) は、概念を用いてニューラルネットワークを解釈できるユビキタスな手法である。 CBMでは、出力層と最後の中間層の間に観測可能な値として概念を挿入する。 これは、最後の隠れた層から出力層への概念に対応する重みという、ニューラルネットワークによって生成された出力の背後にある理由を理解するのに役立つ。 しかし、ニューラルネットワークは一般に特異統計モデルであるため、cbmの一般化誤差の振る舞いを理解することはまだ不可能である。 モデルが特異であれば、パラメータから確率分布への1対1の写像は作成できない。 この非識別性は一般化性能の解析を困難にする。 本研究では,CBMの3層線形ニューラルネットワークにおけるベイズ一般化誤差と自由エネルギーを数学的に明らかにする。 また、ニューラルネットワークが元の出力だけでなく、概念も出力するマルチタスク問題も検討する。 その結果、CBMは3層線形ニューラルネットワークにおけるパラメータ領域の挙動とベイズ一般化誤差を標準モデルと比較して劇的に変化させるが、マルチタスクの定式化は行わない。

Concept bottleneck model (CBM) is a ubiquitous method that can interpret neural networks using concepts. In CBM, concepts are inserted between the output layer and the last intermediate layer as observable values. This helps in understanding the reason behind the outputs generated by the neural networks: the weights corresponding to the concepts from the last hidden layer to the output layer. However, it has not yet been possible to understand the behavior of the generalization error in CBM since a neural network is a singular statistical model in general. When the model is singular, a one to one map from the parameters to probability distributions cannot be created. This non-identifiability makes it difficult to analyze the generalization performance. In this study, we mathematically clarify the Bayesian generalization error and free energy of CBM when its architecture is three-layered linear neural networks. We also consider a multitask problem where the neural network outputs not only the original output but also the concepts. The results show that CBM drastically changes the behavior of the parameter region and the Bayesian generalization error in three-layered linear neural networks as compared with the standard version, whereas the multitask formulation does not.
翻訳日:2023-03-17 16:16:57 公開日:2023-03-16
# NeRFによる信頼性画像のデハージング

Reliable Image Dehazing by NeRF ( http://arxiv.org/abs/2303.09153v1 )

ライセンス: Link先を確認
Zheyan Jin, Shiqi Chen, Huajun Feng, Zhihai Xu, Qi Li, Yueting Chen(参考訳) 本稿では,高品質で広範で,データトレーニングや事前の必要のない画像デハジングアルゴリズムを提案する。 そこで本研究では,光散乱モデルとコンピュータグラフィックスライティングレンダリングモデルの組み合わせにより,従来のデハージングモデルの欠陥を分析し,新しい信頼性の高いデハージング再構成およびデハージングモデルを提案する。 新しいhazeモデルとカメラで得られた画像に基づいて3次元空間を再構成し、空間内の物体とhazeを正確に計算し、hazeの透明性関係を利用して正確なhaze除去を行う。 3次元シミュレーションデータセットを得るために、Unreal 5コンピュータグラフィックスレンダリングエンジンを使用しました。 様々な場面で実際の撮影データを得るために、霧発生器、アレイカメラ、携帯電話、水中カメラ、ドローンを使ってヘイズデータを得た。 式導出, シミュレーションデータセット, 実写データ集合を用いた実験結果を用いて, 提案手法の有効性を実証した。 他の様々な方法と比較すると、計算指標(4dbの高品質な平均シーン)、色は依然として自然であり、アルゴリズムは異なるシナリオでより堅牢であり、主観的知覚に最適である。

We present an image dehazing algorithm with high quality, wide application, and no data training or prior needed. We analyze the defects of the original dehazing model, and propose a new and reliable dehazing reconstruction and dehazing model based on the combination of optical scattering model and computer graphics lighting rendering model. Based on the new haze model and the images obtained by the cameras, we can reconstruct the three-dimensional space, accurately calculate the objects and haze in the space, and use the transparency relationship of haze to perform accurate haze removal. To obtain a 3D simulation dataset we used the Unreal 5 computer graphics rendering engine. In order to obtain real shot data in different scenes, we used fog generators, array cameras, mobile phones, underwater cameras and drones to obtain haze data. We use formula derivation, simulation data set and real shot data set result experimental results to prove the feasibility of the new method. Compared with various other methods, we are far ahead in terms of calculation indicators (4 dB higher quality average scene), color remains more natural, and the algorithm is more robust in different scenarios and best in the subjective perception.
翻訳日:2023-03-17 16:16:41 公開日:2023-03-16
# Occ-SDFハイブリッドを用いた部屋の学習 : アクシデントエイドのシーン表現を取り入れた手話距離関数

Learning a Room with the Occ-SDF Hybrid: Signed Distance Function Mingled with Occupancy Aids Scene Representation ( http://arxiv.org/abs/2303.09152v1 )

ライセンス: Link先を確認
Xiaoyang Lyu, Peng Dai, Zizhang Li, Dongyu Yan, Yi Lin, Yifan Peng, Xiaojuan Qi(参考訳) 符号付き距離関数(SDF)と幾何学的先行値(深さや表面正規値など)を用いた暗黙的ニューラルレンダリングは、大規模シーンの表面再構成において顕著な進歩をもたらした。 しかし、この方法で部屋レベルのシーンを画像から再現することは、低強度領域や小さくて薄い物体の構造を見逃す可能性がある。 原色レンダリング損失と先行組込みsdfシーン表現の制限を識別するために,3つのデータセットを用いた実験を行った。 その結果,カラーレンダリング損失は低強度領域に対する最適化バイアスとなり,勾配が消失し,これらの領域は最適化されないことがわかった。 この問題に対処するために,ゼロでない特徴値を用いて最適化信号を返す特徴ベースの色レンダリング損失を提案する。 さらに、SDF表現は、光路に沿った物体の影響を受け、単一の物体が存在する場合のSDF値の単調変化を妨害することができる。 これに対応するために,各点を個別に符号化し,問合せ線に沿ったオブジェクトの影響を受けない占有表現を用いて検討する。 実験結果から,特徴量に基づくレンダリング損失とOcc-SDFハイブリッド表現の結合力は,特に挑戦的な部屋レベルのシナリオにおいて,高品質な再構成結果が得られることが示された。 コードはリリースされます。

Implicit neural rendering, which uses signed distance function (SDF) representation with geometric priors (such as depth or surface normal), has led to impressive progress in the surface reconstruction of large-scale scenes. However, applying this method to reconstruct a room-level scene from images may miss structures in low-intensity areas or small and thin objects. We conducted experiments on three datasets to identify limitations of the original color rendering loss and priors-embedded SDF scene representation. We found that the color rendering loss results in optimization bias against low-intensity areas, causing gradient vanishing and leaving these areas unoptimized. To address this issue, we propose a feature-based color rendering loss that utilizes non-zero feature values to bring back optimization signals. Additionally, the SDF representation can be influenced by objects along a ray path, disrupting the monotonic change of SDF values when a single object is present. To counteract this, we explore using the occupancy representation, which encodes each point separately and is unaffected by objects along a querying ray. Our experimental results demonstrate that the joint forces of the feature-based rendering loss and Occ-SDF hybrid representation scheme can provide high-quality reconstruction results, especially in challenging room-level scenarios. The code would be released.
翻訳日:2023-03-17 16:16:21 公開日:2023-03-16
# 抽象論における時間性と因果性

Temporality and Causality in Abstract Argumentation ( http://arxiv.org/abs/2303.09197v1 )

ライセンス: Link先を確認
Y. Munro (1), C. Sarmiento (1), I. Bloch (1), G. Bourgne (1), M.-J. Lesot (1) ((1) Sorbonne Universit\'e, CNRS, LIP6, Paris, France)(参考訳) 抽象的議論の文脈では、時間性、すなわち、引数が列挙される順序、および因果性を考慮する利点を提示する。 本研究では,非循環的抽象的論証フレームワークの概念をアクション言語に書き換える形式的手法を提案する。これは世界の進化をモデル化し,直接的・間接的を問わず,議論と結果の因果関係を確立する。 解集合プログラミングの実装も提案され、説明への視点も提案されている。

In the context of abstract argumentation, we present the benefits of considering temporality, i.e. the order in which arguments are enunciated, as well as causality. We propose a formal method to rewrite the concepts of acyclic abstract argumentation frameworks into an action language, that allows us to model the evolution of the world, and to establish causal relationships between the enunciation of arguments and their consequences, whether direct or indirect. An Answer Set Programming implementation is also proposed, as well as perspectives towards explanations.
翻訳日:2023-03-17 16:09:54 公開日:2023-03-16
# リアルタイム物体検出と画像復元のためのフレームワーク

A Framework for Real-time Object Detection and Image Restoration ( http://arxiv.org/abs/2303.09190v1 )

ライセンス: Link先を確認
Rui-Yang Ju, Chih-Chia Chen, Jen-Shiun Chiang, Yu-Shian Lin, Wei-Han Chen(参考訳) 物体検出と単一画像超解像はコンピュータビジョン(CV)の古典的な問題である。 オブジェクト検出タスクは入力画像中のオブジェクトを認識することを目的としており、画像復元タスクは与えられた低品質画像から高品質な画像を再構築することを目的としている。 本稿では,物体検出と画像復元のための2段階フレームワークを提案する。 第1ステージでは、YOLOシリーズアルゴリズムを使用してオブジェクト検出を完了し、画像トリミングを行う。 第二段階では、この研究はSwin Transformerを改善し、新しいアルゴリズムを使ってSwin Transformer層を接続し、新しいニューラルネットワークアーキテクチャを設計する。 新たに提案する画像復元ネットワークをswinoirと呼ぶ。 この研究は、MS COCOデータセットとPascal VOCデータセットの異なるバージョンのYOLO検出アルゴリズムのモデル性能を比較し、異なるシナリオでフレームワークの第1段階で異なるYOLOネットワークモデルの適合性を実証する。 イメージ超解像度タスクでは、Swin Transformerレイヤを接続し、異なるライフサイクルシナリオで使用するSwinOIRの異なるサイズを設計するさまざまな方法を使用するモデルパフォーマンスを比較する。 実装コードはhttps://github.com/rubbbbbbby/swinoirでリリースしています。

Object detection and single image super-resolution are classic problems in computer vision (CV). The object detection task aims to recognize the objects in input images, while the image restoration task aims to reconstruct high quality images from given low quality images. In this paper, a two-stage framework for object detection and image restoration is proposed. The first stage uses YOLO series algorithms to complete the object detection and then performs image cropping. In the second stage, this work improves Swin Transformer and uses the new proposed algorithm to connect the Swin Transformer layer to design a new neural network architecture. We name the newly proposed network for image restoration SwinOIR. This work compares the model performance of different versions of YOLO detection algorithms on MS COCO dataset and Pascal VOC dataset, demonstrating the suitability of different YOLO network models for the first stage of the framework in different scenarios. For image super-resolution task, it compares the model performance of using different methods of connecting Swin Transformer layers and design different sizes of SwinOIR for use in different life scenarios. Our implementation code is released at https://github.com/Rubbbbbbbbby/SwinOIR.
翻訳日:2023-03-17 16:09:45 公開日:2023-03-16
# Wikiベースの関心のコミュニティ: デモグラフィックとアウトリーチ

Wiki-based Communities of Interest: Demographics and Outliers ( http://arxiv.org/abs/2303.09189v1 )

ライセンス: Link先を確認
Hiba Arnaout, Simon Razniewski, Jeff Z. Pan(参考訳) 本稿では,人口統計情報と地域コミュニティの外れ値に関するデータを公開する。 Wikidataを中心とするウィキソースから特定され、ホワイトハウスコロナウイルスタスクフォースのメンバーやデボラ・バークスなど345kの被験者を含む7.5kのコミュニティをカバーしている。 このようなデータマイニングに採用した統計的推論手法について述べる。 サブジェクト中心でグループ中心のデータセットをjson形式でリリースし、ブラウジングインターフェースも提供しています。 最後に, 社会科学研究においては, 人口統計分析の資源を提供し, ウェブ規模の共同百科事典では, 知識ギャップを埋めるための編集レコメンデーターとして機能し, ウェブ検索では, 質問対象に関する敬意の表を, より高いユーザエンゲージメントのために提供している。

In this paper, we release data about demographic information and outliers of communities of interest. Identified from Wiki-based sources, mainly Wikidata, the data covers 7.5k communities, such as members of the White House Coronavirus Task Force, and 345k subjects, e.g., Deborah Birx. We describe the statistical inference methodology adopted to mine such data. We release subject-centric and group-centric datasets in JSON format, as well as a browsing interface. Finally, we forsee three areas this research can have an impact on: in social sciences research, it provides a resource for demographic analyses; in web-scale collaborative encyclopedias, it serves as an edit recommender to fill knowledge gaps; and in web search, it offers lists of salient statements about queried subjects for higher user engagement.
翻訳日:2023-03-17 16:09:25 公開日:2023-03-16
# PSVT: プログレッシブビデオ変換器による多対人3D画像と形状推定

PSVT: End-to-End Multi-person 3D Pose and Shape Estimation with Progressive Video Transformers ( http://arxiv.org/abs/2303.09187v1 )

ライセンス: Link先を確認
Zhongwei Qiu, Yang Qiansheng, Jian Wang, Haocheng Feng, Junyu Han, Errui Ding, Chang Xu, Dongmei Fu, Jingdong Wang(参考訳) PSE(Multi-person video 3D Human Pose and Shape Estimation)の既存の手法は、一般的に2段階の戦略を採用し、まず各フレーム内の人間のインスタンスを検出し、その後、時間モデルで1対1のPSEを実行する。 しかし、空間インスタンス間のグローバルな時空間コンテキストは捉えられない。 本稿では,プログレッシブ・ビデオ・トランスフォーマー(PSVT)を用いたマルチパーソン3次元ポース・形状推定フレームワークを提案する。 PSVTでは、時空間エンコーダ(STE)が空間オブジェクト間のグローバルな特徴依存性をキャプチャする。 次に、時空間ポーズデコーダ(STPD)と形状デコーダ(STSD)は、それぞれ、ポーズクエリと特徴トークン、形状クエリと特徴トークンの間のグローバルな依存関係をキャプチャする。 時間の経過とともにオブジェクトの分散を処理するために、各フレームのポーズとシェープクエリを更新するために、プログレッシブデコードの新しいスキームを使用する。 また,形状パラメータを精度良く予測する新しい形状デコーダのためのポーズ誘導注意 (pga) を提案する。 2つのコンポーネントは性能を向上させるためにPSVTのデコーダを強化する。 4つのデータセットに対する大規模な実験は、PSVTがステージ・オブ・ザ・アーティファクトの結果を達成することを示している。

Existing methods of multi-person video 3D human Pose and Shape Estimation (PSE) typically adopt a two-stage strategy, which first detects human instances in each frame and then performs single-person PSE with temporal model. However, the global spatio-temporal context among spatial instances can not be captured. In this paper, we propose a new end-to-end multi-person 3D Pose and Shape estimation framework with progressive Video Transformer, termed PSVT. In PSVT, a spatio-temporal encoder (STE) captures the global feature dependencies among spatial objects. Then, spatio-temporal pose decoder (STPD) and shape decoder (STSD) capture the global dependencies between pose queries and feature tokens, shape queries and feature tokens, respectively. To handle the variances of objects as time proceeds, a novel scheme of progressive decoding is used to update pose and shape queries at each frame. Besides, we propose a novel pose-guided attention (PGA) for shape decoder to better predict shape parameters. The two components strengthen the decoder of PSVT to improve performance. Extensive experiments on the four datasets show that PSVT achieves stage-of-the-art results.
翻訳日:2023-03-17 16:09:07 公開日:2023-03-16
# 変圧器モデルにおけるブロックワイズビット圧縮

Block-wise Bit-Compression of Transformer-based Models ( http://arxiv.org/abs/2303.09184v1 )

ライセンス: Link先を確認
Gaochen Dong, Wei Chen(参考訳) BERT、GPT-3、ChatGPTに代表される最近のTransformerベースのモデルの人気により、自然言語処理タスクの分野では最先端のパフォーマンスがある。 しかし、大規模な計算、巨大なメモリフットプリント、そしてトランスフォーマーベースのモデルの高いレイテンシは、リアルタイム要求の高いクラウドにとって避けられない課題である。 この問題に対処するため,変換器のブロックワイドビット圧縮法であるBBCTを提案する。 本手法は, 埋め込み, 行列乗算, ゲル, ソフトマックス, 層正規化, およびすべての中間結果を含む, トランスフォーマー全体のよりきめ細かい圧縮を実現する。 実例では,BBCT の手法を用いて効率的な BERT を圧縮する。 GLUE(General Language Understanding Evaluation)のベンチマークテストの結果,ほとんどのタスクにおいて,BBCTは1%未満の精度低下を達成できることがわかった。

With the popularity of the recent Transformer-based models represented by BERT, GPT-3 and ChatGPT, there has been state-of-the-art performance in a range of natural language processing tasks. However, the massive computations, huge memory footprint, and thus high latency of Transformer-based models is an inevitable challenge for the cloud with high real-time requirement. To tackle the issue, we propose BBCT, a method of block-wise bit-compression for transformer without retraining. Our method achieves more fine-grained compression of the whole transformer, including embedding, matrix multiplication, GELU, softmax, layer normalization, and all the intermediate results. As a case, we compress an efficient BERT with the method of BBCT. Our benchmark test results on General Language Understanding Evaluation (GLUE) show that BBCT can achieve less than 1% accuracy drop in most tasks.
翻訳日:2023-03-17 16:08:44 公開日:2023-03-16
# 高速オープンボキャブラリーセグメンテーションのためのグローバル知識キャリブレーション

Global Knowledge Calibration for Fast Open-Vocabulary Segmentation ( http://arxiv.org/abs/2303.09181v1 )

ライセンス: Link先を確認
Kunyang Han, Yong Liu, Jun Hao Liew, Henghui Ding, Yunchao Wei, Jiajun Liu, Yitong Wang, Yansong Tang, Yujiu Yang, Jiashi Feng, Yao Zhao(参考訳) CLIPのような事前学習された視覚言語モデルの最近の進歩により、テキスト入力のみから任意の概念のセグメンテーションが可能になった。 しかし、既存のOVS技術は基本的な課題に直面しており、訓練された分類器はトレーニング中に観察される基本クラスに過度に適合する傾向にあり、その結果、見当たらないクラスに最適化性能をもたらす。 この問題を軽減するために、最近の研究は、分類のために追加の凍結事前訓練クリップの使用を提案している。 それでもこのアプローチは、CLIPビジョンエンコーダを各マスクに対して繰り返し前方通過する必要があるため、計算上のオーバーヘッドを発生させるため、現実のアプリケーションでは現実的ではない。 この課題に対処するため、我々の目標は、推論中にCLIP画像エンコーダの余分な計算負担を伴わずに、コンパチブルまたはより優れた動作が可能な高速OVSモデルを開発することである。 そこで本研究では,既知のクラスを微調整する場合に一般化表現を保存するという基本概念を提案する。 具体的には,各学習カテゴリの同義語群を生成するテキスト多様化戦略を導入し,学習した表現が特定のカテゴリ名に衝突しないようにする。 さらに,CLIPの一般化可能な知識を保存するために,テキスト誘導型知識蒸留法を採用した。 大規模な実験により,提案モデルが様々なデータセットにまたがる堅牢な一般化性能を実現することを示す。 さらに,オープン語彙ビデオセグメンテーションの予備検討を行い,ビデオ領域におけるオープン語彙研究を促進するためのベンチマークを示す。

Recent advancements in pre-trained vision-language models, such as CLIP, have enabled the segmentation of arbitrary concepts solely from textual inputs, a process commonly referred to as open-vocabulary semantic segmentation (OVS). However, existing OVS techniques confront a fundamental challenge: the trained classifier tends to overfit on the base classes observed during training, resulting in suboptimal generalization performance to unseen classes. To mitigate this issue, recent studies have proposed the use of an additional frozen pre-trained CLIP for classification. Nonetheless, this approach incurs heavy computational overheads as the CLIP vision encoder must be repeatedly forward-passed for each mask, rendering it impractical for real-world applications. To address this challenge, our objective is to develop a fast OVS model that can perform comparably or better without the extra computational burden of the CLIP image encoder during inference. To this end, we propose a core idea of preserving the generalizable representation when fine-tuning on known classes. Specifically, we introduce a text diversification strategy that generates a set of synonyms for each training category, which prevents the learned representation from collapsing onto specific known category names. Additionally, we employ a text-guided knowledge distillation method to preserve the generalizable knowledge of CLIP. Extensive experiments demonstrate that our proposed model achieves robust generalization performance across various datasets. Furthermore, we perform a preliminary exploration of open-vocabulary video segmentation and present a benchmark that can facilitate future open-vocabulary research in the video domain.
翻訳日:2023-03-17 16:08:28 公開日:2023-03-16
# 必要なものをつかむ - フレキシブルコンポーネントによる複雑なテーブル構造認識の再考

Grab What You Need: Rethinking Complex Table Structure Recognition with Flexible Components Deliberation ( http://arxiv.org/abs/2303.09174v1 )

ライセンス: Link先を確認
Hao Liu, Xin Li, Mingming Gong, Bing Liu, Yunfei Wu, Deqiang Jiang, Yinsong Liu, Xing Sun(参考訳) 近年,テーブル構造を機械可読形式に識別することを目的としたテーブル構造認識(tsr)タスクがコミュニティの関心を集めている。 目覚ましい成功にもかかわらず、ほとんどのシングルテーブルコンポーネントベースの手法は、複雑な内部構造だけでなく、外部のキャプチャ歪みによって邪魔される非正規化されたテーブルケースではうまく機能しない。 本稿では,既存の手法の性能低下が非効率なコンポーネント使用と冗長な後処理に起因する,複雑なtsr問題として提起する。 これを緩和するために、我々はテーブルコンポーネント抽出から効率の良いマルチコンポーネントレバレッジへと視点をシフトし、フィールドでのさらなる探索を待ちます。 具体的には,新たに提案されたコンポーネント・ディリベレータを備えたGrabTabというセミナー手法を提案する。 プログレッシブな審議機構のおかげで、grabtabは適切なコンポーネントを選択できるが、複雑な後処理を伴わずに、最も複雑なテーブルに柔軟に対応できる。 公開ベンチマークによる定量的な実験結果から,本手法は特に難易度の高い場面において,最先端の手法よりも優れていることが示された。

Recently, Table Structure Recognition (TSR) task, aiming at identifying table structure into machine readable formats, has received increasing interest in the community. While impressive success, most single table component-based methods can not perform well on unregularized table cases distracted by not only complicated inner structure but also exterior capture distortion. In this paper, we raise it as Complex TSR problem, where the performance degeneration of existing methods is attributable to their inefficient component usage and redundant post-processing. To mitigate it, we shift our perspective from table component extraction towards the efficient multiple components leverage, which awaits further exploration in the field. Specifically, we propose a seminal method, termed GrabTab, equipped with newly proposed Component Deliberator. Thanks to its progressive deliberation mechanism, our GrabTab can flexibly accommodate to most complex tables with reasonable components selected but without complicated post-processing involved. Quantitative experimental results on public benchmarks demonstrate that our method significantly outperforms the state-of-the-arts, especially under more challenging scenes.
翻訳日:2023-03-17 16:07:59 公開日:2023-03-16
# 感染曲線のフラット化による流行のネットワークベース制御--高クラスター対低クラスターソーシャルネットワーク

Network-based Control of Epidemic via Flattening the Infection Curve: High-Clustered vs. Low-Clustered Social Networks ( http://arxiv.org/abs/2303.09173v1 )

ライセンス: Link先を確認
Mohammadreza Doostmohammadian, Hamid R. Rabiee(参考訳) ネットワーク科学と制御に関する最近の研究は、流行の過程(例えば、COVID-19の拡散)といくつかのネットワーク特性の間に有意義な関係を示している。 本稿では,このようなネットワーク特性,すなわちクラスタリング係数と集中度尺度(あるいはノード影響指標)が,ウイルスの拡散と大規模ネットワーク上での感染拡大に与える影響について検討する。 結果は、個人(ネットワーク内のノード)をターゲットにして、感染曲線を \textit{flatten the infection curve} する。 いわゆる感染曲線のフラット化は、保健サービスコストの削減と当局や政府への負担の軽減である。 我々のモンテカルロシミュレーションの結果は、クラスタ化されたネットワークは一般に、感染曲線を平坦にすることがより容易であることを示している。 さらに,他のノードへのネットワーク平均距離に基づいてノードをターゲットとする距離ベース集中度尺度(ノード次数ではなく,ノード次数)は,個人を隔離・ワクチン接種の対象にするためのより良い選択である。

Recent studies in network science and control have shown a meaningful relationship between the epidemic processes (e.g., COVID-19 spread) and some network properties. This paper studies how such network properties, namely clustering coefficient and centrality measures (or node influence metrics), affect the spread of viruses and the growth of epidemics over scale-free networks. The results can be used to target individuals (the nodes in the network) to \textit{flatten the infection curve}. This so-called flattening of the infection curve is to reduce the health service costs and burden to the authorities/governments. Our Monte-Carlo simulation results show that clustered networks are, in general, easier to flatten the infection curve, i.e., with the same connectivity and the same number of isolated individuals they result in more flattened curves. Moreover, distance-based centrality measures, which target the nodes based on their average network distance to other nodes (and not the node degrees), are better choices for targeting individuals for isolation/vaccination.
翻訳日:2023-03-17 16:07:39 公開日:2023-03-16
# POMCPにおけるソフトポリシーガイダンスのための論理仕様の学習

Learning Logic Specifications for Soft Policy Guidance in POMCP ( http://arxiv.org/abs/2303.09172v1 )

ライセンス: Link先を確認
Giulio Mazzi, Daniele Meli, Alberto Castellini, Alessandro Farinelli(参考訳) 部分的に観測可能なモンテカルロ計画(POMCP)は、部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である。 モンテカルロ木探索に基づく戦略を用いて、ローカルおよびオンラインの最適ポリシーの近似を計算することで、大規模な状態空間へのスケーリングを可能にする。 しかし、pomcpは、特に大きな状態空間と長い地平線を持つ環境において、最終目標が達成された場合にのみ得られる、スパース報酬関数に苦しむ。 近年,探索と安全要件を満たすため,論理仕様をPOMCPに統合している。 しかし、このようなポリシー関連のルールは、特に現実のシナリオにおいて、ドメインの専門家による手動定義を必要とします。 本稿では,POMCP実行の痕跡,すなわちプランナーが生成した信念-行動ペアの集合から,帰納的論理プログラミングを用いて論理仕様を学習する。 具体的には、解集合プログラミングのパラダイムで表される規則を学習する。 それらをPOMCPに統合して、将来性のある行動に対するソフトポリシーバイアスを提供します。 rockampleとbatteryという2つのベンチマークシナリオのコンテキストでは、小さなタスクインスタンスから学習したルールを統合することで、モンテカルロシミュレーションの削減と、より大きなタスクインスタンスによるパフォーマンスの向上が期待できる。 POMCPの修正版をhttps://github.com/GiuMaz/pomcp_clingo.git.comで公開しています。

Partially Observable Monte Carlo Planning (POMCP) is an efficient solver for Partially Observable Markov Decision Processes (POMDPs). It allows scaling to large state spaces by computing an approximation of the optimal policy locally and online, using a Monte Carlo Tree Search based strategy. However, POMCP suffers from sparse reward function, namely, rewards achieved only when the final goal is reached, particularly in environments with large state spaces and long horizons. Recently, logic specifications have been integrated into POMCP to guide exploration and to satisfy safety requirements. However, such policy-related rules require manual definition by domain experts, especially in real-world scenarios. In this paper, we use inductive logic programming to learn logic specifications from traces of POMCP executions, i.e., sets of belief-action pairs generated by the planner. Specifically, we learn rules expressed in the paradigm of answer set programming. We then integrate them inside POMCP to provide soft policy bias toward promising actions. In the context of two benchmark scenarios, rocksample and battery, we show that the integration of learned rules from small task instances can improve performance with fewer Monte Carlo simulations and in larger task instances. We make our modified version of POMCP publicly available at https://github.com/GiuMaz/pomcp_clingo.git.
翻訳日:2023-03-17 16:07:19 公開日:2023-03-16
# 畳み込みニューラルネットワークのための細粒度・高精細度説明

Fine-Grained and High-Faithfulness Explanations for Convolutional Neural Networks ( http://arxiv.org/abs/2303.09171v1 )

ライセンス: Link先を確認
Changqing Qiu, Fusheng Jin, Yining Zhang(参考訳) 近年,CNNについての説明がホットスポットとなっている。 CAM(Class Activation Map)法とLRP(Layer-wise Relevance Propagation)法は2つの一般的な説明法である。 しかし、最後の畳み込み層の小さな空間分解能のため、CAMベースの手法は、ターゲットの粗い位置を提供する粗い粒度の視覚的説明しか生成できないことが多い。 一方、lrpとその変種は、細かな説明を生成することができる。 しかし、説明の忠実さは低すぎる。 本稿では,高忠実度で細粒度な視覚的説明を生成するために,カムベース手法を拡張したfg-camを提案する。 FG-CAMは、隣り合う2つの特徴写像と解像度差の関係を利用して、徐々に説明分解能を高めつつ、寄与画素を見つけ、各ステップで寄与しない画素をフィルタリングする。 提案手法は, CAM法の特徴を変化させることなく, その欠点を解消するだけでなく, LRPとその変種よりも忠実である詳細な説明を生成する。 また,FG-CAMはFG-CAMの変種であり,説明の忠実度にはほとんど変化がなく,ノイズの少ない説明を生成できる。 実験結果から,FG-CAMの性能にはほとんど影響がないことが明らかとなった。 FG-CAMは、浅い畳み込み層と中間の畳み込み層の両方において既存のCAM法を著しく上回り、入力層においてLPPとその変動を著しく上回ります。

Recently, explaining CNNs has become a research hotspot. CAM (Class Activation Map)-based methods and LRP (Layer-wise Relevance Propagation) method are two common explanation methods. However, due to the small spatial resolution of the last convolutional layer, the CAM-based methods can often only generate coarse-grained visual explanations that provide a coarse location of the target object. LRP and its variants, on the other hand, can generate fine-grained explanations. But the faithfulness of the explanations is too low. In this paper, we propose FG-CAM (fine-grained CAM), which extends the CAM-based methods to generate fine-grained visual explanations with high faithfulness. FG-CAM uses the relationship between two adjacent layers of feature maps with resolution difference to gradually increase the explanation resolution, while finding the contributing pixels and filtering out the pixels that do not contribute at each step. Our method not only solves the shortcoming of CAM-based methods without changing their characteristics, but also generates fine-grained explanations that have higher faithfulness than LRP and its variants. We also present FG-CAM with denoising, which is a variant of FG-CAM and is able to generate less noisy explanations with almost no change in explanation faithfulness. Experimental results show that the performance of FG-CAM is almost unaffected by the explanation resolution. FG-CAM outperforms existing CAM-based methods significantly in the both shallow and intermediate convolutional layers, and outperforms LRP and its variations significantly in the input layer.
翻訳日:2023-03-17 16:06:56 公開日:2023-03-16
# 小学生に向けて:効率的な画像検索のための容量動的蒸留

Towards a Smaller Student: Capacity Dynamic Distillation for Efficient Image Retrieval ( http://arxiv.org/abs/2303.09230v1 )

ライセンス: Link先を確認
Yi Xie, Huaidong Zhang, Xuemiao Xu, Jianqing Zhu, Shengfeng He(参考訳) 従来の知識蒸留に基づく効率的な画像検索手法は,高速推論のための学生モデルとして軽量ネットワークを用いる。 しかし、軽量な学生モデルは、最も重要な初期訓練期間中に効果的な知識模倣のための十分な表現能力に欠け、最終的な性能劣化を引き起こす。 そこで,本稿では,編集可能な表現能力を有する学生モデルを構築するキャパシティ動的蒸留フレームワークを提案する。 具体的には, 留学生モデルは当初, 初期研修期間における蒸留知識を実効的に学ぶための重厚なモデルであり, 訓練中は徐々に圧縮される。 モデルのキャパシティを動的に調整するために,動的なフレームワークでは,学習可能な畳み込み層を学習モデルの各残留ブロックに挿入する。 このインジケータは画像検索損失と圧縮損失によって同時に最適化され、勾配競合を解放するために検索誘導勾配再設定機構が提案されている。 広範な実験により、例えばveri-776データセットにおいて、教師としてのresnet101が与えられたことにより、精度を犠牲にすることなく67.13%のモデルパラメータと65.67%のフロップ(24.13%、21.94%)を節約できることを示した(約2.11%)。

Previous Knowledge Distillation based efficient image retrieval methods employs a lightweight network as the student model for fast inference. However, the lightweight student model lacks adequate representation capacity for effective knowledge imitation during the most critical early training period, causing final performance degeneration. To tackle this issue, we propose a Capacity Dynamic Distillation framework, which constructs a student model with editable representation capacity. Specifically, the employed student model is initially a heavy model to fruitfully learn distilled knowledge in the early training epochs, and the student model is gradually compressed during the training. To dynamically adjust the model capacity, our dynamic framework inserts a learnable convolutional layer within each residual block in the student model as the channel importance indicator. The indicator is optimized simultaneously by the image retrieval loss and the compression loss, and a retrieval-guided gradient resetting mechanism is proposed to release the gradient conflict. Extensive experiments show that our method has superior inference speed and accuracy, e.g., on the VeRi-776 dataset, given the ResNet101 as a teacher, our method saves 67.13% model parameters and 65.67% FLOPs (around 24.13% and 21.94% higher than state-of-the-arts) without sacrificing accuracy (around 2.11% mAP higher than state-of-the-arts).
翻訳日:2023-03-17 16:01:01 公開日:2023-03-16
# 磁性電解質:高出力材料スクリーニング、興味深い特性とその応用

Magnetic Electrides: High-Throughput Material Screening, Intriguing Properties, and Applications ( http://arxiv.org/abs/2303.09226v1 )

ライセンス: Link先を確認
Xiaoming Zhang, Weizhen Meng, Ying Liu, Xuefang Dai, Guodong Liu, and Liangzhi Kou(参考訳) セレクトリド(electrides)は、電子が余剰な電子がアニオンとして格子状部位に局在し、様々な特異な性質と応用をもたらす一意な電子リッチ材料である。 近年、何百もの窒化物が発見されているが、磁気窒化物は、その基礎物理学や実用化に関する研究はほとんど行われていない。 本研究は,高スループット計算スクリーニング法と最新の材料プロジェクトデータベースを用いて51の磁気選択性(反強磁性12個,強磁性13個,強磁性26個)を同定した。 これらの組成に基づいて、これらの磁気選択性は磁気半導体、金属、またはハーフメタルに分類でき、それぞれに特異なトポロジカルな状態を持ち、n2固定の触媒性能に優れた。 磁性電解質の新規な性質は、スピントロニクス、トポロジカルエレクトロニクス、電子放出および高性能触媒としての可能性を示している。 この研究は、磁気電極の同定、調査、実用化における新しい時代の始まりである。

Electrides are a unique class of electron-rich materials where excess electrons are localized in interstitial lattice sites as anions, leading to a range of unique properties and applications. While hundreds of electrides have been discovered in recent years, magnetic electrides have received limited attention, with few investigations into their fundamental physics and practical applications. In this work, 51 magnetic electrides (12 antiferromagnetic, 13 ferromagnetic, and 26 interstitial-magnetic) were identified using high-throughput computational screening methods and the latest Material Project database. Based on their compositions, these magnetic electrides can be classified as magnetic semiconductors, metals, or half-metals, each with unique topological states and excellent catalytic performance for N2 fixation due to their low work functions and excess electrons. The novel properties of magnetic electrides suggest potential applications in spintronics, topological electronics, electron emission, and as high-performance catalysts. This work marks the beginning of a new era in the identification, investigation, and practical applications of magnetic electrides.
翻訳日:2023-03-17 16:00:35 公開日:2023-03-16
# ヒューマンAIコラボレーション:AIデリゲーションがヒューマンタスクパフォーマンスとタスク満足度に及ぼす影響

Human-AI Collaboration: The Effect of AI Delegation on Human Task Performance and Task Satisfaction ( http://arxiv.org/abs/2303.09224v1 )

ライセンス: Link先を確認
Patrick Hemmer, Monika Westphal, Max Schemmer, Sebastian Vetter, Michael V\"ossing, Gerhard Satzger(参考訳) 最近の研究は、人工知能(AI)モデルを提案しており、これは、タスクのインスタンスの予測を行うか、または、双方の能力を考慮してそれを人間に委譲するかを決定することができる。 人工的に生成されたり、文脈に依存しない人間の予測を用いたシミュレーションでは、デリゲートは人間やAIモデルと比較して、人間とAIチームのパフォーマンスを改善するのに役立つ。 しかし、これまでのところ、AIモデルがタスクインスタンスを委譲していることに気付いたとき、人間がどのように機能し、どのようにタスクを知覚するかははっきりしていない。 196名の参加者による実験研究で、人間は代表者を意識しているかに関わらず、タスクのパフォーマンスとタスク満足度がaiデリゲーションによって向上することを示した。 さらに、パフォーマンスと満足度の向上の根底にあるメカニズムとして、人間の自己効力レベルの増加を見出した。 我々の発見は、AIモデルをより多くの管理責任を引き継ぐことが、職場における人間とAIのコラボレーションの効果的な形態であることを示す最初の証拠を提供する。

Recent work has proposed artificial intelligence (AI) models that can learn to decide whether to make a prediction for an instance of a task or to delegate it to a human by considering both parties' capabilities. In simulations with synthetically generated or context-independent human predictions, delegation can help improve the performance of human-AI teams -- compared to humans or the AI model completing the task alone. However, so far, it remains unclear how humans perform and how they perceive the task when they are aware that an AI model delegated task instances to them. In an experimental study with 196 participants, we show that task performance and task satisfaction improve through AI delegation, regardless of whether humans are aware of the delegation. Additionally, we identify humans' increased levels of self-efficacy as the underlying mechanism for these improvements in performance and satisfaction. Our findings provide initial evidence that allowing AI models to take over more management responsibilities can be an effective form of human-AI collaboration in workplaces.
翻訳日:2023-03-17 16:00:14 公開日:2023-03-16
# mixcycle:mixup支援の半教師付き3dシングルオブジェクトトラッキング

MixCycle: Mixup Assisted Semi-Supervised 3D Single Object Tracking with Cycle Consistency ( http://arxiv.org/abs/2303.09219v1 )

ライセンス: Link先を確認
Qiao Wu, Jiaqi Yang, Kun Sun, Chu'ai Zhang, Yanning Zhang, Mathieu Salzmann(参考訳) 3Dシングルオブジェクトトラッキング(SOT)は、自動走行には不可欠である。 既存のアプローチは、大きなラベル付きデータセットに大きく依存している。 しかし、ポイントクラウドの注釈はコストも時間もかかる。 教師なし2次元SOTにおけるサイクルトラッキングの大成功に触発されて,我々は最初の半教師付きアプローチを3次元SOTに導入した。 具体的には,2つのサイクル整合性戦略を導入する。 1) ラベルを活用する自己追跡サイクルは、トレーニングの初期段階において、モデルがよりよく収束するのに役立つ。 2) フォワード・バック・サイクルは, 動作変動に対するトラッカーの頑健さとテンプレート更新戦略によるテンプレートノイズを高める。 さらに,クラウドの多様性を指摘するためのトラッカーの堅牢性を改善するため,SOTMixupというデータ拡張戦略を提案する。 SOTMixupは、2点の雲中の点を混合速度でサンプリングしてトレーニングサンプルを生成し、混合速度に応じてトレーニングに適切な損失重みを割り当てる。 結果としてMixCycleアプローチは、外観マッチングベースのトラッカーに一般化される。 kittiベンチマークでは、$\textbf{10%}$ラベルでトレーニングされたmixcycleが$\textbf{100%}$ラベルでトレーニングされたp2bを上回り、$\textbf{1%}$ラベルを使用する場合、$\textbf{28.4%}$精度向上を達成している。 私たちのコードは公開されます。

3D single object tracking (SOT) is an indispensable part of automated driving. Existing approaches rely heavily on large, densely labeled datasets. However, annotating point clouds is both costly and time-consuming. Inspired by the great success of cycle tracking in unsupervised 2D SOT, we introduce the first semi-supervised approach to 3D SOT. Specifically, we introduce two cycle-consistency strategies for supervision: 1) Self tracking cycles, which leverage labels to help the model converge better in the early stages of training; 2) forward-backward cycles, which strengthen the tracker's robustness to motion variations and the template noise caused by the template update strategy. Furthermore, we propose a data augmentation strategy named SOTMixup to improve the tracker's robustness to point cloud diversity. SOTMixup generates training samples by sampling points in two point clouds with a mixing rate and assigns a reasonable loss weight for training according to the mixing rate. The resulting MixCycle approach generalizes to appearance matching-based trackers. On the KITTI benchmark, based on the P2B tracker, MixCycle trained with $\textbf{10%}$ labels outperforms P2B trained with $\textbf{100%}$ labels, and achieves a $\textbf{28.4%}$ precision improvement when using $\textbf{1%}$ labels. Our code will be publicly released.
翻訳日:2023-03-17 15:59:55 公開日:2023-03-16
# 制御降下訓練

Controlled Descent Training ( http://arxiv.org/abs/2303.09216v1 )

ライセンス: Link先を確認
Viktor Andersson, Bal\'azs Varga, Vincent Szolnoky, Andreas Syr\'en, Rebecka J\"ornsten, Bal\'azs Kulcs\'ar(参考訳) 本研究では、最適制御理論により、新しいモデルベースニューラルネットワーク(ANN)トレーニング手法を開発した。 この方法は、トレーニング損失収束を堅牢に保証し、トレーニング収束率を向上させるために、トレーニングラベルを補強する。 学習損失の収束が制御される勾配降下訓練の枠組みにおいて動的ラベル拡張が提案されている。 まず、経験的ニューラルネットワークカーネル(NTK)の助けを借りてトレーニング行動を捉え、システムと制御理論からツールを借りて、局所的およびグローバルなトレーニングダイナミクス(安定性、到達可能性など)を解析する。 第2に,制御入力と最適状態フィードバックポリシーとして,仮想ラベルを用いて勾配降下訓練機構を動的に変更することを提案する。 このようにして、局所的に$\mathcal{H}_2$Optimative and convergent training behaviorを実行する。 新たなアルゴリズムである \textit{Controlled Descent Training} (CDT) は局所収束を保証する。 CDTは、ANNアーキテクチャの分析、解釈、設計において、新たな可能性をもたらす。 本手法の適用性は, 標準回帰および分類問題において実証される。

In this work, a novel and model-based artificial neural network (ANN) training method is developed supported by optimal control theory. The method augments training labels in order to robustly guarantee training loss convergence and improve training convergence rate. Dynamic label augmentation is proposed within the framework of gradient descent training where the convergence of training loss is controlled. First, we capture the training behavior with the help of empirical Neural Tangent Kernels (NTK) and borrow tools from systems and control theory to analyze both the local and global training dynamics (e.g. stability, reachability). Second, we propose to dynamically alter the gradient descent training mechanism via fictitious labels as control inputs and an optimal state feedback policy. In this way, we enforce locally $\mathcal{H}_2$ optimal and convergent training behavior. The novel algorithm, \textit{Controlled Descent Training} (CDT), guarantees local convergence. CDT unleashes new potentials in the analysis, interpretation, and design of ANN architectures. The applicability of the method is demonstrated on standard regression and classification problems.
翻訳日:2023-03-17 15:59:28 公開日:2023-03-16
# GDDS : Group Deep Dense Supervision による肺気管支分画

GDDS: Pulmonary Bronchioles Segmentation with Group Deep Dense Supervision ( http://arxiv.org/abs/2303.09212v1 )

ライセンス: Link先を確認
Mingyue Zhao, Shang Zhao, Quan Quan, Li Fan, Xiaolan Qiu, Shiyuan Liu, and S.Kevin Zhou(参考訳) 気道分節, 特に気管支分節は, 気道分節は軽度に分布し, 微細なスケールであるため, 重要な課題である。 既存のニューラルネットワークは通常、細長いトポロジーを利用して気管支の接続や非効率な浅層特徴を学習し、そのような高周波情報を捉える。 これらの問題に対処するために,グループ深層密集監督 (gdds) に基づく新しい気管支分画法を提案する。 まず,局所的密集トポロジーを巧みに構築し,特定の浅層特徴層上で密集トポロジー学習を行うことにより,奥行き密集層(dds)を提案する。 GDDSはさらに、肉眼で容易に識別できないものでさえも、気管支を検知する能力が向上して、浅い特徴をさらに強化する。 BASベンチマークデータセットの大規模な実験により,本手法は,少数の余剰パラメータのみを導入しながら,大規模分岐を捕捉し,最先端の手法を大きなマージン(BDでは+12.8%,TDでは+8.8%)で上回り,ネットワークの感度を高めることが示されている。

Airway segmentation, especially bronchioles segmentation, is an important but challenging task because distal bronchus are sparsely distributed and of a fine scale. Existing neural networks usually exploit sparse topology to learn the connectivity of bronchioles and inefficient shallow features to capture such high-frequency information, leading to the breakage or missed detection of individual thin branches. To address these problems, we contribute a new bronchial segmentation method based on Group Deep Dense Supervision (GDDS) that emphasizes fine-scale bronchioles segmentation in a simple-but-effective manner. First, Deep Dense Supervision (DDS) is proposed by constructing local dense topology skillfully and implementing dense topological learning on a specific shallow feature layer. GDDS further empowers the shallow features with better perception ability to detect bronchioles, even the ones that are not easily discernible to the naked eye. Extensive experiments on the BAS benchmark dataset have shown that our method promotes the network to have a high sensitivity in capturing fine-scale branches and outperforms state-of-the-art methods by a large margin (+12.8 % in BD and +8.8 % in TD) while only introducing a small number of extra parameters.
翻訳日:2023-03-17 15:59:14 公開日:2023-03-16
# 感情反応強度推定のための二重分岐ネットワーク

A Dual Branch Network for Emotional Reaction Intensity Estimation ( http://arxiv.org/abs/2303.09210v1 )

ライセンス: Link先を確認
Jun Yu, Jichao Zhu, Wangyuan Zhu, Zhongpeng Cai, Guochen Xie, Renda Li, Gongpeng Zhao(参考訳) 情動反応インテンシティ(ERI)推定は,マルチモーダルシナリオにおいて重要な課題であり,医療,安全運転,その他の分野での基本的な応用がある。 本稿では,二重分岐型多出力回帰モデルである in-the-wild(abaw) における5番目の感情行動分析の eri 課題に対する解決法を提案する。 空間的注意は視覚的な特徴をよりよく抽出するために使用され、メル周波数ケプストラム係数技術は音響的特徴を抽出し、融合マルチモーダル特徴にモダリティドロップアウト(modality dropout)という手法を追加する。 本手法は公式検証セットにおいて優れた結果を得る。

Emotional Reaction Intensity(ERI) estimation is an important task in multimodal scenarios, and has fundamental applications in medicine, safe driving and other fields. In this paper, we propose a solution to the ERI challenge of the fifth Affective Behavior Analysis in-the-wild(ABAW), a dual-branch based multi-output regression model. The spatial attention is used to better extract visual features, and the Mel-Frequency Cepstral Coefficients technology extracts acoustic features, and a method named modality dropout is added to fusion multimodal features. Our method achieves excellent results on the official validation set.
翻訳日:2023-03-17 15:58:49 公開日:2023-03-16
# 時間的データから行動する学習による最適政策の推薦

Recommending the optimal policy by learning to act from temporal data ( http://arxiv.org/abs/2303.09209v1 )

ライセンス: Link先を確認
Stefano Branchi, Andrei Buliga, Chiara Di Francescomarino, Chiara Ghidini, Francesca Meneghello, Massimiliano Ronzani(参考訳) 規範的プロセス監視はプロセスマイニングにおいて顕著な問題であり、ターゲットの関心指標やキーパフォーマンス指標(kpi)を最適化する目的で推奨すべきアクションのセットを特定することから始まる。 この問題を難しくする1つの課題は、時間的にアノテートされた(プロセス)実行データのみに基づいた、規範的なプロセス監視技術を提供することである。 本稿では,過去の実行の観察からのみ(ほぼ)最適な方針である強化学習(rl)によって学習するaiベースのアプローチの提案と,関心のkpiを最適化するための最善のアクティビティを提案する。 これはまず、データから特定のKPIのマルコフ決定プロセスを学び、次にRLトレーニングを使用して最適なポリシーを学ぶことで達成される。 このアプローチは、実データと合成データセットに基づいて検証され、非政治的なDeep RLアプローチと比較される。 我々のアプローチがDeep RLアプローチと比較し、しばしば克服する能力は、時間的実行データしか利用できないシナリオにおいて、ホワイトボックスのRLテクニックの活用に寄与する。

Prescriptive Process Monitoring is a prominent problem in Process Mining, which consists in identifying a set of actions to be recommended with the goal of optimising a target measure of interest or Key Performance Indicator (KPI). One challenge that makes this problem difficult is the need to provide Prescriptive Process Monitoring techniques only based on temporally annotated (process) execution data, stored in, so-called execution logs, due to the lack of well crafted and human validated explicit models. In this paper we aim at proposing an AI based approach that learns, by means of Reinforcement Learning (RL), an optimal policy (almost) only from the observation of past executions and recommends the best activities to carry on for optimizing a KPI of interest. This is achieved first by learning a Markov Decision Process for the specific KPIs from data, and then by using RL training to learn the optimal policy. The approach is validated on real and synthetic datasets and compared with off-policy Deep RL approaches. The ability of our approach to compare with, and often overcome, Deep RL approaches provides a contribution towards the exploitation of white box RL techniques in scenarios where only temporal execution data are available.
翻訳日:2023-03-17 15:58:36 公開日:2023-03-16
# 畳み込みニューラルネットワークを用いたSAR観測における降雨による風速推定誤差の低減

Reduction of rain-induced errors for wind speed estimation on SAR observations using convolutional neural networks ( http://arxiv.org/abs/2303.09200v1 )

ライセンス: Link先を確認
Aur\'elien Colin (1, 2) and Pierre Tandeo (1, 3) and Charles Peureux (2) and Romain Husson (2) and Ronan Fablet (1, 3)(参考訳) 合成開口レーダは表面風速を高精度に推定できることが知られている。 これらの推定は通常、降雨などの風ではない過程を計算できない地球物理モデル関数(gmf)に依存する。 一方、畳み込みニューラルネットワークは、文脈情報を使用する能力を持ち、降雨地域を制限できる能力を示している。 Copernicus Sentinel-1ミッションから得られた大規模なSAR観測データセットをGMFと大気モデル風速、および降雨推定と組み合わせることで、降雨時の誤差を低減した風速推定器を訓練することができた。 ブイから観測された風速測定によるコロケーションは,1 mm/h以上 (3 mm/h) と推定される降雨時に27% (45%) 減少する根平均二乗誤差を示す。 これらの結果は,sar製品における雨関連誤差を補正する深層学習モデルの能力を示す。

Synthetic Aperture Radar is known to be able to provide high-resolution estimates of surface wind speed. These estimates usually rely on a Geophysical Model Function (GMF) that has difficulties accounting for non-wind processes such as rain events. Convolutional neural network, on the other hand, have the capacity to use contextual information and have demonstrated their ability to delimit rainfall areas. By carefully building a large dataset of SAR observations from the Copernicus Sentinel-1 mission, collocated with both GMF and atmospheric model wind speeds as well as rainfall estimates, we were able to train a wind speed estimator with reduced errors under rain. Collocations with in-situ wind speed measurements from buoys show a root mean square error that is reduced by 27% (resp. 45%) under rainfall estimated at more than 1 mm/h (resp. 3 mm/h). These results demonstrate the capacity of deep learning models to correct rain-related errors in SAR products.
翻訳日:2023-03-17 15:58:14 公開日:2023-03-16
# デジタルカメラノイズ合成のための生成モデル

A Generative Model for Digital Camera Noise Synthesis ( http://arxiv.org/abs/2303.09199v1 )

ライセンス: Link先を確認
Mingyang Song (1 and 2), Yang Zhang (2), Tun\c{c} O. Ayd{\i}n (2), Elham Amin Mansour (1 and 2), Christopher Schroers (2) ((1) ETH Zurich, Switzerland, (2) DisneyResearch|Studios, Switzerland)(参考訳) ノイズ合成は、カメラの設定とともにクリーンな画像から現実的なノイズを生成することを目的とした、挑戦的な低レベルのビジョンタスクである。 そこで本研究では,クリーンな特徴をネットワークへのノイズ注入のガイダンスとして利用する効果的な生成モデルを提案する。 具体的には,unetライクな構造でスキップ接続を行うが,ダウンサンプリングやアップサンプリングは行わない。 まず、クリーン画像から深い特徴を誘導として抽出し、ガウスノイズマップをノイズ源としてエンコーダとデコーダ間の遷移点に結合する。 次に,雑音特性をモデル化するためにガウス雑音を注入するデコーダ内の雑音合成ブロックを提案する。 第3に,追加のStyle Lossを用いることで,発電機の騒音特性の監視性を向上させることを提案する。 新たな実験を複数実施し,音の時間的ばらつきと空間的相関について検討し,今後の研究に有意義な知見を与えることを期待する。 最後に,提案手法は既存のカメラノイズ合成手法よりも優れていることを示す。

Noise synthesis is a challenging low-level vision task aiming to generate realistic noise given a clean image along with the camera settings. To this end, we propose an effective generative model which utilizes clean features as guidance followed by noise injections into the network. Specifically, our generator follows a UNet-like structure with skip connections but without downsampling and upsampling layers. Firstly, we extract deep features from a clean image as the guidance and concatenate a Gaussian noise map to the transition point between the encoder and decoder as the noise source. Secondly, we propose noise synthesis blocks in the decoder in each of which we inject Gaussian noise to model the noise characteristics. Thirdly, we propose to utilize an additional Style Loss and demonstrate that this allows better noise characteristics supervision in the generator. Through a number of new experiments, we evaluate the temporal variance and the spatial correlation of the generated noise which we hope can provide meaningful insights for future works. Finally, we show that our proposed approach outperforms existing methods for synthesizing camera noise.
翻訳日:2023-03-17 15:57:59 公開日:2023-03-16
# GridCLIP:グリッドレベルCLIP表現学習による一段階オブジェクト検出

GridCLIP: One-Stage Object Detection by Grid-Level CLIP Representation Learning ( http://arxiv.org/abs/2303.09252v1 )

ライセンス: Link先を確認
Jiayi Lin, Shaogang Gong(参考訳) 超大規模画像テキストペアデータに基づいて事前訓練された視覚言語基盤モデルは、下流の視覚認識および検出タスク、特に下流のモデルトレーニングにおけるアンサンプ付きカテゴリを補完する一般的な知識表現を提供する可能性がある。 物体検出にCLIPを利用する最近の研究は、2段検出器の設計が1段検出器よりも優れており、高いトレーニングリソースとより長い推論時間を必要とすることを示している。 本研究では,2段階検出器の性能差を2段階検出器の性能差に限定する1段階検出格子クリップを提案し,訓練および試験工程における2段階検出器(vild)の約43倍と5倍の速度で評価した。 GridCLIPはグリッドレベルの表現を学習し、従来のCLIP画像テキスト全体像マッピングをグリッドテキストアライメントに拡張することで、1段階検出学習の本質的な原則に適応する。 これは、CLIPを直接画像として扱う2段階検出器の領域テキストマッピングとは異なる。 具体的には、グリッドレベルのアライメントを実行して、CLIPイメージレベルの表現をグリッドレベルの表現に適応させ、CLIPカテゴリの表現と整列して、注釈付き(特に頻繁な)カテゴリを学習する。 画像レベルからグリッドレベルまでのCLIP画像エンコーダにおいて,より広いカテゴリ,特にアンサンプされたカテゴリの一般化可能な視覚表現を学習するために,トレーニング中に画像レベルアライメントを行い,より広範に事前学習されたカテゴリを伝播させる。 実験により、学習したCLIPベースのグリッドレベル表現は、アンダーサンプリングされた(稀で新しい)カテゴリのパフォーマンスを高め、LVISベンチマークで同等な検出性能に達した。

A vision-language foundation model pretrained on very large-scale image-text paired data has the potential to provide generalizable knowledge representation for downstream visual recognition and detection tasks, especially on supplementing the undersampled categories in downstream model training. Recent studies utilizing CLIP for object detection have shown that a two-stage detector design typically outperforms a one-stage detector, while requiring more expensive training resources and longer inference time. In this work, we propose a one-stage detector GridCLIP that narrows its performance gap to those of two-stage detectors, with approximately 43 and 5 times faster than its two-stage counterpart (ViLD) in the training and test process respectively. GridCLIP learns grid-level representations to adapt to the intrinsic principle of one-stage detection learning by expanding the conventional CLIP image-text holistic mapping to a more fine-grained, grid-text alignment. This differs from the region-text mapping in two-stage detectors that apply CLIP directly by treating regions as images. Specifically, GridCLIP performs Grid-level Alignment to adapt the CLIP image-level representations to grid-level representations by aligning to CLIP category representations to learn the annotated (especially frequent) categories. To learn generalizable visual representations of broader categories, especially undersampled ones, we perform Image-level Alignment during training to propagate broad pre-learned categories in the CLIP image encoder from the image-level to the grid-level representations. Experiments show that the learned CLIP-based grid-level representations boost the performance of undersampled (infrequent and novel) categories, reaching comparable detection performance on the LVIS benchmark.
翻訳日:2023-03-17 15:51:34 公開日:2023-03-16
# 単眼映像からのリアルタイム3次元視覚知覚のためのクロス次元精密学習

Cross-Dimensional Refined Learning for Real-Time 3D Visual Perception from Monocular Video ( http://arxiv.org/abs/2303.09248v1 )

ライセンス: Link先を確認
Ziyang Hong, C. Patrick Yue(参考訳) 本稿では,3次元シーンの幾何学的構造と意味的ラベルを共同で知覚する,新しいリアルタイム学習手法を提案する。 近年のリアルタイム3次元シーン再構築へのアプローチは,TSDF(Truncated signed distance function)を直接回帰するボリュームスキームが主流となっている。 しかしながら、これらのボリューム的アプローチは、その再構築のグローバルなコヒーレンスに焦点を当てる傾向にあり、局所的な幾何学的詳細が欠如している。 そこで本研究では,2次元画像特徴量における潜在幾何学的事前知識を,鮮明な深度予測とアンカー付き特徴生成により活用し,TSDFボリュームにおける占有学習を洗練することを提案する。 さらに,この横断的特徴洗練手法が意味的セグメント化タスクにも適用可能であることを見出した。 そこで我々は,3次元メッシュと3次元セマンティックラベリングの両方をリアルタイムで抽出する,エンドツーエンドのクロスディメンテーションニューラルネットワーク(CDRNet)を提案する。 実験の結果, 提案手法は, 複数のデータセット上での最先端の3次元知覚効率を実現し, 産業応用の可能性を示している。

We present a novel real-time capable learning method that jointly perceives a 3D scene's geometry structure and semantic labels. Recent approaches to real-time 3D scene reconstruction mostly adopt a volumetric scheme, where a truncated signed distance function (TSDF) is directly regressed. However, these volumetric approaches tend to focus on the global coherence of their reconstructions, which leads to a lack of local geometrical detail. To overcome this issue, we propose to leverage the latent geometrical prior knowledge in 2D image features by explicit depth prediction and anchored feature generation, to refine the occupancy learning in TSDF volume. Besides, we find that this cross-dimensional feature refinement methodology can also be adopted for the semantic segmentation task. Hence, we proposed an end-to-end cross-dimensional refinement neural network (CDRNet) to extract both 3D mesh and 3D semantic labeling in real time. The experiment results show that the proposed method achieves state-of-the-art 3D perception efficiency on multiple datasets, which indicates the great potential of our method for industrial applications.
翻訳日:2023-03-17 15:51:00 公開日:2023-03-16
# ノイズアノテートによる群集カウントのクロスヘッド・スーパービジョン

Cross-head Supervision for Crowd Counting with Noisy Annotations ( http://arxiv.org/abs/2303.09245v1 )

ライセンス: Link先を確認
Mingliang Dai, Zhizhong Huang, Jiaqi Gao, Hongming Shan and Junping Zhang(参考訳) 複数スケールのヘッドサイズや高いオクルージョンなどにより、群衆計数データセットには、アノテーションの欠如や位置シフトなどの騒がしいアノテーションがしばしば存在する。 これらのノイズの多いアノテーションはモデルトレーニング、特に密度マップベースの手法に大きく影響します。 そこで我々は,この2つの頭部が互いにノイズの多い領域(クロスヘッドスーパービジョン)で相互に監視できる,1つの畳み込みヘッドと1つのトランスフォーマーヘッドを持つ新規な群集カウントモデルを提案する。 結果のモデルであるCHS-Netは、様々な種類の帰納バイアスを相乗化して、より良いカウントを行うことができる。 さらに,訓練過程を安定させ,より信頼性の高い監督を行うための,漸進的なクロスヘッド指導学習戦略を開発する。 上海技術とQNRFデータセットの大規模な実験結果は、最先端の手法よりも優れた性能を示している。 コードはhttps://github.com/RaccoonDML/CHSNetで入手できる。

Noisy annotations such as missing annotations and location shifts often exist in crowd counting datasets due to multi-scale head sizes, high occlusion, etc. These noisy annotations severely affect the model training, especially for density map-based methods. To alleviate the negative impact of noisy annotations, we propose a novel crowd counting model with one convolution head and one transformer head, in which these two heads can supervise each other in noisy areas, called Cross-Head Supervision. The resultant model, CHS-Net, can synergize different types of inductive biases for better counting. In addition, we develop a progressive cross-head supervision learning strategy to stabilize the training process and provide more reliable supervision. Extensive experimental results on ShanghaiTech and QNRF datasets demonstrate superior performance over state-of-the-art methods. Code is available at https://github.com/RaccoonDML/CHSNet.
翻訳日:2023-03-17 15:50:39 公開日:2023-03-16
# 量子熱エンジンにおける波動粒子双対性

The Wave-Particle Duality in a Quantum Heat Engine ( http://arxiv.org/abs/2303.09244v1 )

ライセンス: Link先を確認
Marcelo Janovitch, Matteo Brunelli, Patrick P. Potts(参考訳) 波動粒子双対性 (wpd) によれば、量子系は粒子と波動のような振舞いの両方を示し、これらの古典的概念の1つだけでは説明できない。 古典的な手段では再生できない量子的特徴の同定は量子技術の鍵となる。 この課題は、しばしば、量子系を適切な古典的系と比較することによって追求される。 しかしながら、wpdは1つの古典モデルとの比較が一般に不十分であることを意味しており、少なくとも1つの波と1つの粒子モデルを考慮するべきである。 ここでは、この洞察を生かして、古典的な2つの対数を持つボソニック量子熱エンジンと、波動に基づくものと、粒子に基づくものとの対比を行う。 どちらの古典モデルも量子エンジンの平均出力を再現するが、どちらもゆらぎを再現しない。 波動モデルは真空揺らぎを捉えるのに失敗するが、粒子モデルは満点まで束を再現できない。 我々は、波動と粒子の記述が量子と一致する状態と、古典的モデルが不十分な状態とが一致し、非平衡ボソニック輸送におけるWPDの役割を明らかにする。

According to the wave-particle duality (WPD), quantum systems show both particle- and wave-like behavior, and cannot be described using only one of these classical concepts. Identifying quantum features that cannot be reproduced by any classical means is key for quantum technology. This task is often pursued by comparing the quantum system of interest to a suitable classical counterpart. However, the WPD implies that a comparison to a single classical model is generally insufficient; at least one wave and one particle model should be considered. Here we exploit this insight and contrast a bosonic quantum heat engine with two classical counterparts, one based on waves and one based on particles. While both classical models reproduce the average output power of the quantum engine, neither reproduces its fluctuations. The wave model fails to capture the vacuum fluctuations while the particle model cannot reproduce bunching to its full extent. We find regimes where wave and particle descriptions agree with the quantum one, as well as a regime where neither classical model is adequate, revealing the role of the WPD in non-equilibrium bosonic transport.
翻訳日:2023-03-17 15:50:24 公開日:2023-03-16
# マルチタスクネットワークのアンサンブルによる人間の反応強度推定

Human Reaction Intensity Estimation with Ensemble of Multi-task Networks ( http://arxiv.org/abs/2303.09240v1 )

ライセンス: Link先を確認
JiYeon Oh, Daun Kim, Jae-Yeop Jeong, Yeong-Gi Hong, Jin-Woo Jeong(参考訳) 様々な対話型コンピューティングドメインでは,実地での表情が不可欠である。 特に「感情反応強度」(eri)は表情認識タスクにおいて重要な話題である。 本稿では,多感情型タスク学習に基づくアプローチを提案し,第5回感情行動分析(ABAW)コンペティションで導入されたERI課題の予備的結果を示す。 平均PCCスコアは0.3254。

Facial expression in-the-wild is essential for various interactive computing domains. Especially, "Emotional Reaction Intensity" (ERI) is an important topic in the facial expression recognition task. In this paper, we propose a multi-emotional task learning-based approach and present preliminary results for the ERI challenge introduced in the 5th affective behavior analysis in-the-wild (ABAW) competition. Our method achieved the mean PCC score of 0.3254.
翻訳日:2023-03-17 15:50:03 公開日:2023-03-16
# ヤングの実験における量子コヒーレンスと干渉

Quantum coherence and interference in Young's experiments ( http://arxiv.org/abs/2303.09239v1 )

ライセンス: Link先を確認
Hao-Sheng Zeng, Wen-Jing Peng, Shu-Min Wu(参考訳) 本稿では,コヒーレンスのl1ノルムと量子干渉の関係を,入力光子同士が絡み合うようなヤング多光子マルチパス実験で研究するために,ペアワイズコヒーレンスの概念を提案する。 単一光子の局所的コヒーレンスのみが量子干渉を起こすことができ、光子の集団コヒーレンスが量子干渉に寄与しないことが判明した。 干渉縞の可視性は、対応する入力状態のコヒーレンスのl1ノルムよりも低く、コヒーレンスのl1ノルムは、量子干渉に必要なが十分な条件ではないことを示唆する。 また、最大縁の可視性も1つに到達できることがわかった。 最大視認性を生成するための最適な入力状態を示す。

We propose the concept of pair-wise coherence to study the relation between the l1 norm of coherence and the quantum interference in Young's multi-photon multi-path experiments, where the input photons may be entangled each other. We find that only the local coherence of each single photon can make quantum interference and the collective coherence between photons has no contribution to quantum interference. The visibility of interference fringe is commonly less than the l1norm of coherence of the corresponding input state, suggesting that the l1 norm of coherence is only the necessary but not sufficient condition for quantum interference. We also find that the maximal fringe visibility can reach one. The optimal input states for producing the maximal visibility are presented.
翻訳日:2023-03-17 15:49:55 公開日:2023-03-16
# 自然相互作用を伴う多部交絡の高速発生

The fastest generation of multipartite entanglement with natural interactions ( http://arxiv.org/abs/2303.09238v1 )

ライセンス: Link先を確認
Pawe{\l} Cie\'sli\'nski, Waldemar K{\l}obus, Pawe{\l} Kurzy\'nski, Tomasz Paterek, Wies{\l}aw Laskowski(参考訳) 複数の量子オブジェクト間の自然な相互作用は、基本的に2体項のみで構成されている。 対照的に、非常に絡み合った状態を生成する単一の大域ユニタリは通常、複数のサブシステムを同時に結合するハミルトニアンから生じる。 そうすれば、自然な相互作用によって生成される単一のユニタリと強い非古典的マルチパーティイト相関を生成できるだろうか? 2体制限はそれに必要な時間にどのように影響しますか? 我々は、2体相互作用を持つハミルトニアンによって生成される量子状態のユニタリ進化を研究することでこれらの質問に答える。 我々の主な焦点は、最大7キュービットのGHZ、W、Dicke、および絶対最大エンタングルド(AME)状態のマルチパート・エンタングルド・グリーンバーガー・ホーネ・ザイリンガー(GHZ)の最速世代である。 これらの結果は系のエネルギーを制約することで得られ、したがって自然相互作用に対する状態依存の量子速度限界と見なすことができる。 これらは、粒子の数が増加する特定の絡み合った状態の生成がそれ以上の時間を必要としない反直感効果をもたらす。 この手法は広範な数値シミュレーションと解析的推定に依存する。

Natural interactions among multiple quantum objects are fundamentally composed of two-body terms only. In contradistinction, single global unitaries that generate highly entangled states usually arise from Hamiltonians that couple multiple individual subsystems simultaneously. Is it then possible to create strongly nonclassical multipartite correlations with a single unitary generated by the natural interactions? How does the two-body restriction influence the time required for that? We answer these questions by studying the unitary evolutions of quantum states that are generated by Hamiltonians with two-body interactions. Our main focus is on the fastest generation of multipartite entangled Greenberger-Horne-Zeilinger (GHZ), W, Dicke and absolutely maximally entangled (AME) states for up to seven qubits. These results are obtained by constraining the energy in the system and accordingly can be seen as state-dependent quantum speed limits for natural interactions. They give rise to a counter-intuitive effect where the creation of particular entangled states with an increasing number of particles does not require more time. The methods used rely on extensive numerical simulations and analytical estimations.
翻訳日:2023-03-17 15:49:42 公開日:2023-03-16
# NAISR: 解釈可能な形状表現のための3次元ニューラル付加モデル

NAISR: A 3D Neural Additive Model for Interpretable Shape Representation ( http://arxiv.org/abs/2303.09234v1 )

ライセンス: Link先を確認
Yining Jiao, Carlton Zdanski, Julia Kimbell, Andrew Prince, Cameron Worden, Samuel Kirse, Christopher Rutter, Benjamin Shields, William Dunn, Jisan Mahmud, Marc Niethammer(参考訳) 深暗黙の関数(DIF)は、3次元形状の再構成、生成、登録、完了、編集、理解といった多くのコンピュータビジョンタスクの強力なパラダイムとして登場した。 しかし、関連する共変量を持つ一連の3次元形状が与えられると、各共変量に対する個々の依存を捉えながら正確に形状を表現できる形状表現法は存在しない。 このような手法は、形状の集団に隠された知識を発見する研究者にとって有用である。 直交共変量の影響に応じて形状アトラスを変形させることにより個々の形状を記述した3次元ニューラル付加モデル(NAISR)を提案する。 このアプローチは形状人口の傾向を捉え、形状伝達を通じて患者固有の予測を可能にする。 NAISRは、深い暗黙の形状表現の利点を特定の共変量に従って変形するアトラスと組み合わせる最初のアプローチである。 我々の運転問題は気道アトラスの構築であるが、AISRは形状の個体群をモデル化し、表現し、調査するための一般的なアプローチである。 小児上気道の形状再構成, 形状異方性, 形状変化, 形状移動について, NAISRを評価した。 実験により,NAAISRは解釈可能性を維持しながら,競争力のある形状復元性能を実現することを示した。

Deep implicit functions (DIFs) have emerged as a powerful paradigm for many computer vision tasks such as 3D shape reconstruction, generation, registration, completion, editing, and understanding. However, given a set of 3D shapes with associated covariates there is at present no shape representation method which allows to precisely represent the shapes while capturing the individual dependencies on each covariate. Such a method would be of high utility to researchers to discover knowledge hidden in a population of shapes. We propose a 3D Neural Additive Model for Interpretable Shape Representation (NAISR) which describes individual shapes by deforming a shape atlas in accordance to the effect of disentangled covariates. Our approach captures shape population trends and allows for patient-specific predictions through shape transfer. NAISR is the first approach to combine the benefits of deep implicit shape representations with an atlas deforming according to specified covariates. Although our driving problem is the construction of an airway atlas, NAISR is a general approach for modeling, representing, and investigating shape populations. We evaluate NAISR with respect to shape reconstruction, shape disentanglement, shape evolution, and shape transfer for the pediatric upper airway. Our experiments demonstrate that NAISR achieves competitive shape reconstruction performance while retaining interpretability.
翻訳日:2023-03-17 15:49:21 公開日:2023-03-16
# SwinVFTR:3D OCT流体セグメンテーションのための新しいボリューム特徴学習変換器

SwinVFTR: A Novel Volumetric Feature-learning Transformer for 3D OCT Fluid Segmentation ( http://arxiv.org/abs/2303.09233v1 )

ライセンス: Link先を確認
Sharif Amit Kamran, Khondker Fariha Hossain, Alireza Tavakkoli, Stewart Lee Zuckerbrod, Kenton M. Sanders, Salah A. Baker(参考訳) 3Dボリューム光コヒーレンストモグラフィー(OCT)画像における流体の正確なセグメンテーションは、眼疾患を検出する上で重要な課題である。 従来の自己エンコーディングに基づくセグメンテーション手法は、符号化相における連続的な解像度損失と復号相における損失情報を復元できないことによる流体領域の抽出に制限がある。 現在の医療用画像セグメンテーションのトランスフォーマは、この制限に対処しているが、異なるベンダー装置と抽出技術に基づいて幅の広いチャネル軸サイズを持つ3d octボリュームのアウト・オブ・ザ・ボックスを適用するようには設計されていない。 これらの問題に対処するために,3次元ボリュームCT画像の精密な流体分割を目的としたトランスフォーマーベースアーキテクチャSwinVFTRを提案する。 まず、チャネルワイドボリュームサンプリングを用いて、深さの異なるOCTボリュームのトレーニングを行う(Bスキャン)。 次に、エンコーダ内の新しいシフトウインドウトランスフォーマーブロックを使用して、流体領域のより優れたローカライゼーションとセグメンテーションを実現する。 さらに,従来のスキップ接続を改良した空間的・奥行き的注意のための新しいボリューム的注意ブロックを提案する。 その結果、マルチクラスのサイス損失を利用して、提案アーキテクチャは、Spectralis、Cirrus、Topconの3つの公開ベンダ固有のOCTデータセットにおいて、それぞれ平均サイススコア0.72、0.59、0.68で、既存のアーキテクチャを上回ります。 さらに、SwinVFTRは2つの関連する指標、平均交叉結合(Mean-IOU)と構造類似度測定(SSIM)で他のアーキテクチャより優れている。

Accurately segmenting fluid in 3D volumetric optical coherence tomography (OCT) images is a crucial yet challenging task for detecting eye diseases. Traditional autoencoding-based segmentation approaches have limitations in extracting fluid regions due to successive resolution loss in the encoding phase and the inability to recover lost information in the decoding phase. Although current transformer-based models for medical image segmentation addresses this limitation, they are not designed to be applied out-of-the-box for 3D OCT volumes, which have a wide-ranging channel-axis size based on different vendor device and extraction technique. To address these issues, we propose SwinVFTR, a new transformer-based architecture designed for precise fluid segmentation in 3D volumetric OCT images. We first utilize a channel-wise volumetric sampling for training on OCT volumes with varying depths (B-scans). Next, the model uses a novel shifted window transformer block in the encoder to achieve better localization and segmentation of fluid regions. Additionally, we propose a new volumetric attention block for spatial and depth-wise attention, which improves upon traditional residual skip connections. Consequently, utilizing multi-class dice loss, the proposed architecture outperforms other existing architectures on the three publicly available vendor-specific OCT datasets, namely Spectralis, Cirrus, and Topcon, with mean dice scores of 0.72, 0.59, and 0.68, respectively. Additionally, SwinVFTR outperforms other architectures in two additional relevant metrics, mean intersection-over-union (Mean-IOU) and structural similarity measure (SSIM).
翻訳日:2023-03-17 15:49:00 公開日:2023-03-16
# 悪性黒色腫に対するパーソナライズド・アーツ治療のためのジェネレーティブ・アドバイサル・ネットワーク

Generative Adversarial Network for Personalized Art Therapy in Melanoma Disease Management ( http://arxiv.org/abs/2303.09232v1 )

ライセンス: Link先を確認
Lennart J\"utte, Ning Wand, Bernhard Roth(参考訳) メラノーマは最も致命的な皮膚がんである。 患者は精神疾患に弱いため、がん治療の有効性と薬物計画への順守を低下させることができる。 患者が治療を受ける間、患者の精神的健康を維持することが重要である。 しかし、現在の治療法は個人的ではなく、患者特有のものである。 悪性黒色腫の病態管理における新たな治療ツールとして,個人皮膚内視鏡画像から一意のアートを迅速に生成できる,よく訓練された画像スタイルの転写モデルの提供を目標とする。 疾患管理におけるアートセラピーの一般的な形態としての視覚芸術の鑑賞は、心理的苦痛の程度を測定できる。 そこで我々は,皮膚黒色腫画像からパーソナライズされたユニークなアートワークを生成するスタイル転送のための,サイクル一貫性のある生成対向ネットワークを構築した。 そこで我々は,メラノーマ像を,病変の形状に関連する独特の花柄に変換するモデルを開発し,患者にパーソナライズした。 さらに,初期枠組みを変更し,結果の比較評価を行った。 そこで我々は,メラノーマの疾患管理における治療ツールボックスの選択肢を増やした。 使いやすいユーザインターフェースの開発は、ステークホルダへのアプローチの可用性を保証する。 花をテーマとしたアートワークへのメラノーマの変換は,提案モデルとグラフィカルユーザインタフェースによって実現されている。 この貢献により、芸術療法の新たな分野が開かれ、よりパーソナライズされた疾患管理につながる可能性がある。

Melanoma is the most lethal type of skin cancer. Patients are vulnerable to mental health illnesses which can reduce the effectiveness of the cancer treatment and the patients adherence to drug plans. It is crucial to preserve the mental health of patients while they are receiving treatment. However, current art therapy approaches are not personal and unique to the patient. We aim to provide a well-trained image style transfer model that can quickly generate unique art from personal dermoscopic melanoma images as an additional tool for art therapy in disease management of melanoma. Visual art appreciation as a common form of art therapy in disease management that measurably reduces the degree of psychological distress. We developed a network based on the cycle-consistent generative adversarial network for style transfer that generates personalized and unique artworks from dermoscopic melanoma images. We developed a model that converts melanoma images into unique flower-themed artworks that relate to the shape of the lesion and are therefore personal to the patient. Further, we altered the initial framework and made comparisons and evaluations of the results. With this, we increased the options in the toolbox for art therapy in disease management of melanoma. The development of an easy-to-use user interface ensures the availability of the approach to stakeholders. The transformation of melanoma into flower-themed artworks is achieved by the proposed model and the graphical user interface. This contribution opens a new field of GANs in art therapy and could lead to more personalized disease management.
翻訳日:2023-03-17 15:48:29 公開日:2023-03-16
# 交通予測における不確かさの適応モデリング

Adaptive Modeling of Uncertainties for Traffic Forecasting ( http://arxiv.org/abs/2303.09273v1 )

ライセンス: Link先を確認
Ying Wu, Yongchao Ye, Adnan Zeb, James J.Q. Yu, Zheng Wang(参考訳) ディープニューラルネットワーク(DNN)は、交通予測モデルを開発する主要なアプローチとして現れている。 これらのモデルは通常、平均されたテストケースのエラーを最小限に抑えるように訓練され、トラフィック速度や走行時間に対するスカラー値などの単点予測を生成する。 しかし、シングルポイント予測は、最良または最悪の到着時刻を決定するなど、多くの交通管理シナリオにおいて重要な予測の不確実性を考慮していない。 我々は,不確実性モデリングのための任意のdnnモデルの能力を強化する汎用フレームワークquantrafficを提案する。 QuanTrafficは人間の関与をほとんど必要とせず、デプロイメント中にベースとなるDNNアーキテクチャを変更することはない。 代わりに、DNNモデルトレーニング中に標準量子関数を自動的に学習し、単一点予測のための予測間隔を生成する。 予測間隔は、トラフィック予測の真の値が低下する可能性のある範囲を定義する。 さらに、QuanTrafficは、テスト入力の位置と予測ウィンドウに基づいて予測間隔を動的に調整する適応型スキームを開発した。 7つの公開データセットにわたるトラフィック予測のための5つの代表的DNNモデルに適用することにより、QuanTrafficを評価した。 次に、QuanTrafficを5つの不確実な定量化法と比較した。 ベースラインの不確実性モデリング技術と比較して、ベースとなるDNNアーキテクチャを持つQuanTrafficは、報告されたデータセットの既存のものよりも一貫して、より堅牢なパフォーマンスを提供する。

Deep neural networks (DNNs) have emerged as a dominant approach for developing traffic forecasting models. These models are typically trained to minimize error on averaged test cases and produce a single-point prediction, such as a scalar value for traffic speed or travel time. However, single-point predictions fail to account for prediction uncertainty that is critical for many transportation management scenarios, such as determining the best- or worst-case arrival time. We present QuanTraffic, a generic framework to enhance the capability of an arbitrary DNN model for uncertainty modeling. QuanTraffic requires little human involvement and does not change the base DNN architecture during deployment. Instead, it automatically learns a standard quantile function during the DNN model training to produce a prediction interval for the single-point prediction. The prediction interval defines a range where the true value of the traffic prediction is likely to fall. Furthermore, QuanTraffic develops an adaptive scheme that dynamically adjusts the prediction interval based on the location and prediction window of the test input. We evaluated QuanTraffic by applying it to five representative DNN models for traffic forecasting across seven public datasets. We then compared QuanTraffic against five uncertainty quantification methods. Compared to the baseline uncertainty modeling techniques, QuanTraffic with base DNN architectures delivers consistently better and more robust performance than the existing ones on the reported datasets.
翻訳日:2023-03-17 15:42:44 公開日:2023-03-16
# 木組による予測のための最小コスト記述の探索

Finding Minimum-Cost Explanations for Predictions made by Tree Ensembles ( http://arxiv.org/abs/2303.09271v1 )

ライセンス: Link先を確認
John T\"ornblom, Emil Karlsson, Simin Nadjm-Tehrani(参考訳) 機械学習モデルが特定の予測に到達した理由を説明する能力は、クリティカルシステムの人間オペレータによる意思決定支援として使用される場合に重要である。 提供された説明は確実に正確でなければならず、最小限の説明と呼ばれる冗長な情報がないのが好ましい。 本稿では,コスト関数に関して最小であるだけでなく最小のツリーアンサンブルによる予測を説明することを目的とする。 この目的のために、我々はまず説明の正しさを判定し、最小限の説明を計算する際に、現在の最先端の代替品のランタイム性能を桁違いに上回る、高効率なオラクルを提示する。 次に, 関連研究(m-MARCOと呼ぶ)から MARCO と呼ばれるアルゴリズムを適用し, 予測毎の1つの最小説明を計算し, 全最小説明を列挙する MARCO アルゴリズムと比較して, 全体的なスピードアップ係数を2倍に示す。 最後に,様々な利用事例から得られた説明について検討し,その特徴についてさらなる知見を得た。 特に、いくつかのケースでは、1つの予測のために選択すべき最小限の説明が10万以上存在することを観察します。 これらのケースでは、最小限の説明のごく一部のみが最小であり、最小限の説明ははるかに冗長であり、したがってこの研究の目的を動機付けている。

The ability to explain why a machine learning model arrives at a particular prediction is crucial when used as decision support by human operators of critical systems. The provided explanations must be provably correct, and preferably without redundant information, called minimal explanations. In this paper, we aim at finding explanations for predictions made by tree ensembles that are not only minimal, but also minimum with respect to a cost function. To this end, we first present a highly efficient oracle that can determine the correctness of explanations, surpassing the runtime performance of current state-of-the-art alternatives by several orders of magnitude when computing minimal explanations. Secondly, we adapt an algorithm called MARCO from related works (calling it m-MARCO) for the purpose of computing a single minimum explanation per prediction, and demonstrate an overall speedup factor of two compared to the MARCO algorithm which enumerates all minimal explanations. Finally, we study the obtained explanations from a range of use cases, leading to further insights of their characteristics. In particular, we observe that in several cases, there are more than 100,000 minimal explanations to choose from for a single prediction. In these cases, we see that only a small portion of the minimal explanations are also minimum, and that the minimum explanations are significantly less verbose, hence motivating the aim of this work.
翻訳日:2023-03-17 15:42:08 公開日:2023-03-16
# spectralclip: スペクトルの観点から見たテキストガイドスタイル転送におけるアーティファクトの防止

SpectralCLIP: Preventing Artifacts in Text-Guided Style Transfer from a Spectral Perspective ( http://arxiv.org/abs/2303.09270v1 )

ライセンス: Link先を確認
Zipeng Xu, Songlong Xing, Enver Sangineto, Nicu Sebe(参考訳) 対照的な言語イメージプリトレーニング(clip)は、幅広い視覚言語クロスモーダルタスクの最先端を更新した。 特に、従来のスタイル転送法のようにスタイル参照画像の必要性をなくし、テキストガイドによる画像転送の興味深い研究ラインを作成している。 しかし、CLIPを直接使用してスタイルの転送をガイドすると、CLIPに固有の視覚的および文字的概念の絡み合いが原因で、望ましくないアーティファクト(主に書かれた単語と無関係な視覚的実体)がイメージ全体に広がる。 異なる粒度での言語情報フィルタリングにおけるスペクトル解析の利用に触発されて,クリップビジョンエンコーダの最終層からのパッチ埋め込みをスペクトル解析の観点から解析し,好ましくないアーティファクトの存在が特定の周波数成分と高い相関関係にあることを見出した。 本稿では,CLIPビジョンエンコーダ上にスペクトルフィルタリング層を実装したSpectralCLIPを提案する。 実験結果から,SpectralCLIPは,スタイリゼーションの品質を損なうことなく,定量的・質的手法で人工物の発生を効果的に防止できることが示された。 さらに,テキスト条件付き画像生成にspectrumclipを適用し,生成された画像中の書き言葉を防止する。 コードはhttps://github.com/zipengxuc/SpectralCLIPで入手できる。

Contrastive Language-Image Pre-Training (CLIP) has refreshed the state of the art for a broad range of vision-language cross-modal tasks. Particularly, it has created an intriguing research line of text-guided image style transfer, dispensing with the need for style reference images as in traditional style transfer methods. However, directly using CLIP to guide the transfer of style leads to undesirable artifacts (mainly written words and unrelated visual entities) spread over the image, partly due to the entanglement of visual and written concepts inherent in CLIP. Inspired by the use of spectral analysis in filtering linguistic information at different granular levels, we analyse the patch embeddings from the last layer of the CLIP vision encoder from the perspective of spectral analysis and find that the presence of undesirable artifacts is highly correlated to some certain frequency components. We propose SpectralCLIP, which implements a spectral filtering layer on top of the CLIP vision encoder, to alleviate the artifact issue. Experimental results show that SpectralCLIP prevents the generation of artifacts effectively in quantitative and qualitative terms, without impairing the stylisation quality. We further apply SpectralCLIP to text-conditioned image generation and show that it prevents written words in the generated images. Code is available at https://github.com/zipengxuc/SpectralCLIP.
翻訳日:2023-03-17 15:41:43 公開日:2023-03-16
# ELFIS:サブセットを用いたきめ細かい画像認識のためのエキスパート学習

ELFIS: Expert Learning for Fine-grained Image Recognition Using Subsets ( http://arxiv.org/abs/2303.09269v1 )

ライセンス: Link先を確認
Pablo Villacorta, Jes\'us M. Rodr\'iguez-de-Vera, Marc Bola\~nos, Ignacio Saras\'ua, Bhalaji Nagarajan, Petia Radeva(参考訳) ファイングラインド視覚認識(FGVR)は、非常に類似したカテゴリーを区別する問題に取り組む。 FGVRの主なアプローチの1つ、すなわちサブセット学習は、ディープニューラルネットワークの性能を改善するために、既存のクラス分類からの情報を活用しようとしている。 しかし、これらの手法は必ずしもモデルに最適ではない手作り階層の存在に依存している。 本稿では,データセットのカテゴリをメタデータとモデル固有情報の両方を用いてメタカテゴリに分類する,fgvrのためのエキスパート学習フレームワークであるelfisを提案する。 ニューラルネットワークベースのエキスパートのセットは、メタカテゴリに焦点を当ててトレーニングされ、マルチタスクフレームワークに統合される。 大規模な実験では、CNNとトランスフォーマーベースのネットワークを使用して、最大1.3%の精度でSoTA FGVRベンチマークが改善された。 その結果,いずれの分類モデルにもALFISが適用可能であることが確認された。 ソースコードは近々公開される予定だ。

Fine-Grained Visual Recognition (FGVR) tackles the problem of distinguishing highly similar categories. One of the main approaches to FGVR, namely subset learning, tries to leverage information from existing class taxonomies to improve the performance of deep neural networks. However, these methods rely on the existence of handcrafted hierarchies that are not necessarily optimal for the models. In this paper, we propose ELFIS, an expert learning framework for FGVR that clusters categories of the dataset into meta-categories using both dataset-inherent lexical and model-specific information. A set of neural networks-based experts are trained focusing on the meta-categories and are integrated into a multi-task framework. Extensive experimentation shows improvements in the SoTA FGVR benchmarks of up to +1.3% of accuracy using both CNNs and transformer-based networks. Overall, the obtained results evidence that ELFIS can be applied on top of any classification model, enabling the obtention of SoTA results. The source code will be made public soon.
翻訳日:2023-03-17 15:41:18 公開日:2023-03-16
# StylerDALLE:大規模生成モデルのベクトル量子化トケナイザを用いた言語ガイド型変換

StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized Tokenizer of a Large-Scale Generative Model ( http://arxiv.org/abs/2303.09268v1 )

ライセンス: Link先を確認
Zipeng Xu, Enver Sangineto, Nicu Sebe(参考訳) スタイル転送タスクの進歩にもかかわらず、以前のほとんどの作品は、色やテクスチャのような比較的単純な特徴のみを転送することに集中し、全体的なアート表現や画家特有の特徴のようなより抽象的な概念を欠いている。 しかし、これらの抽象的なセマンティクスは、画像とテキストドキュメントの巨大なデータセットを使用してトレーニングされたDALL-EやCLIPのようなモデルによってキャプチャできる。 本稿では,これら2つのモデルを活用し,自然言語を用いて抽象的アートスタイルを記述するスタイル転送手法であるstylerdalleを提案する。 具体的には, 大規模事前学習ベクトル量子化トークン化器の離散的潜在空間において, 入力内容画像から出力スタイライゼーション画像への非自己回帰トークン列変換として言語ガイド方式の転送タスクを定式化する。 スタイル情報を組み込むために,CLIPに基づく言語指導による強化学習戦略を提案し,スタイリゼーションとコンテンツ保存を同時に行う。 実験により,異なる粒度で言語指示を用いたアートスタイルを効果的に転送できる手法の優位性を示す。 コードはhttps://github.com/zipengxuc/stylerdalleで入手できる。

Despite the progress made in the style transfer task, most previous work focus on transferring only relatively simple features like color or texture, while missing more abstract concepts such as overall art expression or painter-specific traits. However, these abstract semantics can be captured by models like DALL-E or CLIP, which have been trained using huge datasets of images and textual documents. In this paper, we propose StylerDALLE, a style transfer method that exploits both of these models and uses natural language to describe abstract art styles. Specifically, we formulate the language-guided style transfer task as a non-autoregressive token sequence translation, i.e., from input content image to output stylized image, in the discrete latent space of a large-scale pretrained vector-quantized tokenizer. To incorporate style information, we propose a Reinforcement Learning strategy with CLIP-based language supervision that ensures stylization and content preservation simultaneously. Experimental results demonstrate the superiority of our method, which can effectively transfer art styles using language instructions at different granularities. Code is available at https://github.com/zipengxuc/StylerDALLE.
翻訳日:2023-03-17 15:41:05 公開日:2023-03-16
# SmartBERT: BERT推論の高速化のための動的初期出力メカニズムの促進

SmartBERT: A Promotion of Dynamic Early Exiting Mechanism for Accelerating BERT Inference ( http://arxiv.org/abs/2303.09266v1 )

ライセンス: Link先を確認
Boren Hu, Yun Zhu, Jiacheng Li, Siliang Tang(参考訳) 動的早期終了はbertのような事前学習された言語モデルの推論速度を改善することが証明されている。 しかし、全てのサンプルは、早期に出る前に連続する全ての層を通り、より複雑なサンプルは、通常より多くの層を通り抜けなければならない。 本稿では,スイッチングゲートと出口演算子をBERTの各層に追加する,新しい動的早期退避と,BERT推論の層スキップを組み合わせたSmartBERTを提案する。 SmartBERTはいくつかのレイヤを適応的にスキップし、終了するかどうかを適応的に選択できる。 さらに,クロスレイヤのコントラスト学習を提案し,それをトレーニングフェーズに組み込むことで,早期退避に有用な中間層と分類器を増強する。 トレーニングフェーズと推論フェーズ間のスキップゲートの一貫性を維持するために,トレーニングフェーズにおけるハードウェイト機構を提案する。 GLUEベンチマークの8つの分類データセットについて実験を行った。 実験の結果, SmartBERT は BERT と比較して最小限の精度で2~3倍の計算量削減を実現し, 提案手法は効率と精度の両方で従来の手法より優れていた。 さらに、RTEやWNLIのような複雑なデータセットでは、エントロピーに基づく早期退避はほとんど機能せず、スキップ機構は計算の削減に不可欠であることを示す。

Dynamic early exiting has been proven to improve the inference speed of the pre-trained language model like BERT. However, all samples must go through all consecutive layers before early exiting and more complex samples usually go through more layers, which still exists redundant computation. In this paper, we propose a novel dynamic early exiting combined with layer skipping for BERT inference named SmartBERT, which adds a skipping gate and an exiting operator into each layer of BERT. SmartBERT can adaptively skip some layers and adaptively choose whether to exit. Besides, we propose cross-layer contrastive learning and combine it into our training phases to boost the intermediate layers and classifiers which would be beneficial for early exiting. To keep the consistent usage of skipping gates between training and inference phases, we propose a hard weight mechanism during training phase. We conduct experiments on eight classification datasets of the GLUE benchmark. Experimental results show that SmartBERT achieves 2-3x computation reduction with minimal accuracy drops compared with BERT and our method outperforms previous methods in both efficiency and accuracy. Moreover, in some complex datasets like RTE and WNLI, we prove that the early exiting based on entropy hardly works, and the skipping mechanism is essential for reducing computation.
翻訳日:2023-03-17 15:40:42 公開日:2023-03-16
# 直交方向制約付き勾配法:非線形等式制約からスティフェル多様体へ

Orthogonal Directions Constrained Gradient Method: from non-linear equality constraints to Stiefel manifold ( http://arxiv.org/abs/2303.09261v1 )

ライセンス: Link先を確認
Sholom Schechtman, Daniil Tiapkin, Michael Muehlebach, Eric Moulines(参考訳) 滑らかな多様体 $\mathcal{M}$ 上の非凸函数を最小化する問題を考える。 本稿では,ベクトル空間への射影計算のみを必要とする新しいアルゴリズム,Orthogonal Directions Constrained Gradient Method (ODCGM)を提案する。 ODCGM は実現不可能であるが、イテレートは常に多様体へ向けられ、ODCGM の $\mathcal{M}$ への収束を保証する。 ODCGMは、リトラクションの計算を必要とする古典的な手法よりも実装がずっと簡単である。 さらに, odcgm は, 決定論的および確率的ケースでそれぞれ $\mathcal{o}(1/\varepsilon^2)$ と $\mathcal{o}(1/\varepsilon^4)$ をそれぞれ示している。 さらに,提案手法は射影距離の適切な選択の下で,最近導入されたスティーフェル多様体上の最適化アルゴリズムであるAblin and Peyr\'e (2022) の着地アルゴリズムを復元する。 その結果、Ablin と Peyr\e (2022) の分析を著しく拡張し、決定論と確率論の両方のフレームワークにおいて、ほぼ最適のレートを確立した。 最後に,ODCGMの高次元環境における効率を示す数値実験を行った。

We consider the problem of minimizing a non-convex function over a smooth manifold $\mathcal{M}$. We propose a novel algorithm, the Orthogonal Directions Constrained Gradient Method (ODCGM) which only requires computing a projection onto a vector space. ODCGM is infeasible but the iterates are constantly pulled towards the manifold, ensuring the convergence of ODCGM towards $\mathcal{M}$. ODCGM is much simpler to implement than the classical methods which require the computation of a retraction. Moreover, we show that ODCGM exhibits the near-optimal oracle complexities $\mathcal{O}(1/\varepsilon^2)$ and $\mathcal{O}(1/\varepsilon^4)$ in the deterministic and stochastic cases, respectively. Furthermore, we establish that, under an appropriate choice of the projection metric, our method recovers the landing algorithm of Ablin and Peyr\'e (2022), a recently introduced algorithm for optimization over the Stiefel manifold. As a result, we significantly extend the analysis of Ablin and Peyr\'e (2022), establishing near-optimal rates both in deterministic and stochastic frameworks. Finally, we perform numerical experiments which shows the efficiency of ODCGM in a high-dimensional setting.
翻訳日:2023-03-17 15:40:18 公開日:2023-03-16
# 離散変調連続可変量子鍵分布のセキュリティ

Security of discrete-modulated continuous-variable quantum key distribution ( http://arxiv.org/abs/2303.09255v1 )

ライセンス: Link先を確認
Stefan B\"auml, Carlos Pascual Garc\'ia, Victoria Wright, Omar Fawzi, Antonio Ac\'in(参考訳) 離散変調による連続可変量子鍵分布は、広く利用可能な光学素子と既存の通信インフラを用いて量子物理セキュリティを提供する可能性がある。 その実装はガウス変調に基づくプロトコルよりもはるかに単純であるが、コヒーレント攻撃に対する有限サイズのセキュリティを証明することは困難である。 本研究では、4つのコヒーレント状態とヘテロダイン検出を含む離散変調量子鍵分布プロトコルに対するコヒーレント攻撃に対する有限サイズのセキュリティを証明するために、これまで離散変数の設定に用いられてきたエントロピー累積定理を適用する。 そのために,従来の手法とは対照的に,すべての情報を無差別に扱うプロトコルを考える。 我々はまず、その漸近速度を現実的なフォトン数カットオフ仮定の下で制限した。 この境界はエントロピー蓄積を用いた有限サイズのセキュリティ証明にアップグレードされる。 我々の分析は、$n=10^{12}$ラウンドに対する非自明な鍵レートを提供する。

Continuous variable quantum key distribution with discrete modulation has the potential to provide quantum physical security using widely available optical elements and existing telecom infrastructure. While their implementation is significantly simpler than that for protocols based on Gaussian modulation, proving their finite-size security against coherent attacks poses a challenge. In this work we apply the entropy accumulation theorem, a tool that has previously been used in the setting of discrete variables, to prove finite-size security against coherent attacks for a discrete-modulated quantum key distribution protocol involving four coherent states and heterodyne detection. To do so, and contrary to previous approaches, we consider a protocol in which all the information is discretised. We first bound its asymptotic rate under a realistic photon number cutoff assumption. This bound is then upgraded into a finite-size security proof using entropy accumulation. Our analysis provides non-trivial key rates for $n=10^{12}$ rounds.
翻訳日:2023-03-17 15:39:52 公開日:2023-03-16
# 深部視覚横断型Few-Shot学習の実態調査

A Survey of Deep Visual Cross-Domain Few-Shot Learning ( http://arxiv.org/abs/2303.09253v1 )

ライセンス: Link先を確認
Wenjian Wang, Lijuan Duan, Yuxi Wang, Junsong Fan, Zhi Gong, Zhaoxiang Zhang(参考訳) ラベル付きデータに制限のある新しいクラスを認識可能にするため、少数の転校学習が研究の中心となっている。 トレーニングデータとテストデータは同じデータ分布を持つと仮定されるが、実際のアプリケーションではそうではないことが多い。 これにより、新しいクラス分布が学習クラスと大きく異なる場合、モデル転送効果が低下する。 クロスドメイン・マイノショット(cdfs)の研究がこの問題を解決するために現れ、より挑戦的で現実的な設定を形成している。 本調査では,問題設定と対応ソリューションの観点からCDFSの詳細な分類について述べる。 我々は,既存のcdfsネットワークアーキテクチャを要約し,分類が示す各方向の解法について論じる。 さらに,様々なcdfsダウンストリームアプリケーションとアウトライン分類,検出,セグメンテーションベンチマークと対応する評価基準について紹介する。 また,CDFS研究の課題についても論じ,今後の研究の方向性を探る。 このレビューを通じて,cdfs研究の包括的ガイダンスを提供することを目標とし,研究者が最先端の知見を得るとともに,既存のソリューションを構築でき,独自のcdfsモデルを開発することが可能となる。

Few-Shot transfer learning has become a major focus of research as it allows recognition of new classes with limited labeled data. While it is assumed that train and test data have the same data distribution, this is often not the case in real-world applications. This leads to decreased model transfer effects when the new class distribution differs significantly from the learned classes. Research into Cross-Domain Few-Shot (CDFS) has emerged to address this issue, forming a more challenging and realistic setting. In this survey, we provide a detailed taxonomy of CDFS from the problem setting and corresponding solutions view. We summarise the existing CDFS network architectures and discuss the solution ideas for each direction the taxonomy indicates. Furthermore, we introduce various CDFS downstream applications and outline classification, detection, and segmentation benchmarks and corresponding standards for evaluation. We also discuss the challenges of CDFS research and explore potential directions for future investigation. Through this review, we aim to provide comprehensive guidance on CDFS research, enabling researchers to gain insight into the state-of-the-art while allowing them to build upon existing solutions to develop their own CDFS models.
翻訳日:2023-03-17 15:39:37 公開日:2023-03-16
# GLH-Water:大型超高解像度衛星画像における地球表面水検出のための大規模データセット

GLH-Water: A Large-Scale Dataset for Global Surface Water Detection in Large-Size Very-High-Resolution Satellite Imagery ( http://arxiv.org/abs/2303.09310v1 )

ライセンス: Link先を確認
Yansheng Li, Bo Dang, Wanchun Li, Yongjun Zhang(参考訳) 超高分解能(VHR)衛星画像における地球表面の水検出は、改良された洪水マッピングや水資源評価といった主要な用途に直接役立てることができる。 局所的な地理的スケールに対応する小型衛星画像の表面水の検出は達成されていないが、地球表面水のマッピングと解析に適したデータセットや方法はまだ検討されていない。 本稿では,この課題の展開と適用の促進を目的として,地球規模で分布する250の衛星画像と,多種多様な水域(河川,湖沼,池,灌水田,裸地,都市部など)を含む表層水アノテーションを用いたGLH-waterデータセットを提案する。 各画像のサイズは、0.3mの空間解像度で12,800ドル(約1万2000円)です。 GLH-waterのベンチマークを構築するために,代表表面水検出モデル,一般的なセマンティックセグメンテーションモデル,超高分解能セグメンテーションモデルを用いた広範囲な実験を行った。 さらに,この課題を最初に検討するために,新たなピラミッド一貫性損失(pcl)を用いて,強力なベースラインを設計した。 最後に,クロスデータセットおよびパイロット領域の一般化実験を実施し,GLH-waterの強い一般化と実用性を示す。 データセットはhttps://jack-bo1220.github.io/project/GLH-water.htmlで公開されている。

Global surface water detection in very-high-resolution (VHR) satellite imagery can directly serve major applications such as refined flood mapping and water resource assessment. Although achievements have been made in detecting surface water in small-size satellite images corresponding to local geographic scales, datasets and methods suitable for mapping and analyzing global surface water have yet to be explored. To encourage the development of this task and facilitate the implementation of relevant applications, we propose the GLH-water dataset that consists of 250 satellite images and manually labeled surface water annotations that are distributed globally and contain water bodies exhibiting a wide variety of types (e.g., rivers, lakes, and ponds in forests, irrigated fields, bare areas, and urban areas). Each image is of the size 12,800 $\times$ 12,800 pixels at 0.3 meter spatial resolution. To build a benchmark for GLH-water, we perform extensive experiments employing representative surface water detection models, popular semantic segmentation models, and ultra-high resolution segmentation models. Furthermore, we also design a strong baseline with the novel pyramid consistency loss (PCL) to initially explore this challenge. Finally, we implement the cross-dataset and pilot area generalization experiments, and the superior performance illustrates the strong generalization and practical application of GLH-water. The dataset is available at https://jack-bo1220.github.io/project/GLH-water.html.
翻訳日:2023-03-17 15:33:52 公開日:2023-03-16
# 明示的・暗示的高周波特徴からの深部超解像

Depth Super-Resolution from Explicit and Implicit High-Frequency Features ( http://arxiv.org/abs/2303.09307v1 )

ライセンス: Link先を確認
Xin Qiao, Chenyang Ge, Youmin Zhang, Yanhui Zhou, Fabio Tosi, Matteo Poggi, Stefano Mattoccia(参考訳) 本稿では,高分解能深度マップを明示的かつ暗黙的な高周波数特徴から徐々に再構成する多段深度超解ネットワークを提案する。 前者は局所的および大域的コンテキストの両方の効率的なトランス処理により抽出され、後者は色画像を周波数領域に投影して得られる。 どちらも、マルチステージおよびマルチスケールフレームワーク内の融合戦略によって、深度特徴と組み合わせられる。 NYUv2、Middlebury、DIML、RGBDDといった主要なベンチマークの実験では、我々のアプローチは既存のメソッドよりも大きなマージン(NYUv2とDIMLは16倍のアップサンプリングで現在のDADAに対して約20%)、ガイド付き深度超分解タスクにおいて新たな最先端技術を確立している。

We propose a novel multi-stage depth super-resolution network, which progressively reconstructs high-resolution depth maps from explicit and implicit high-frequency features. The former are extracted by an efficient transformer processing both local and global contexts, while the latter are obtained by projecting color images into the frequency domain. Both are combined together with depth features by means of a fusion strategy within a multi-stage and multi-scale framework. Experiments on the main benchmarks, such as NYUv2, Middlebury, DIML and RGBDD, show that our approach outperforms existing methods by a large margin (~20% on NYUv2 and DIML against the contemporary work DADA, with 16x upsampling), establishing a new state-of-the-art in the guided depth super-resolution task.
翻訳日:2023-03-17 15:33:30 公開日:2023-03-16
# ロバストバングラ複合型エンティティ認識を目指して

Towards Robust Bangla Complex Named Entity Recognition ( http://arxiv.org/abs/2303.09306v1 )

ライセンス: Link先を確認
HAZ Sameen Shahgir, Ramisa Alam, Md. Zarif Ul Alam(参考訳) 名前付きエンティティ認識(NER)は、名前付きエンティティをテキストで識別し分類する自然言語処理の基本的なタスクである。 しかし、バングラデシュでは世界第7位の言語であるにもかかわらず、複雑な名前付きエンティティ認識のための多くの作業は行われていない。 CNERは従来のNERよりも難しいタスクであり、バングラ語では一般的ではない複雑で複雑なエンティティを識別し分類する。 本稿では,BanglaCoNERデータセット上のCNERタスク,すなわち条件付きランダムフィールド(CRF)と,BanglaBERTのような微調整型トランスフォーマーに基づくディープラーニングモデルを用いて,Bangla Complex Named Entity Recognition Challengeの勝利解を提案する。 データセットはトレーニング用15300文と検証用800文で構成された。 conll形式。 データセット上の探索データ分析(EDA)では、データセットには7つの異なるNERタグがあり、英語の単語の存在が顕著であり、データセットが合成され、おそらく翻訳の産物であることを示している。 NERのBanglaBERT(大規模)モデルを微調整しながら,音声の一部(POS)タグ,単語接尾辞,ガゼッタ,埋め込みからのクラスタ情報など,さまざまな機能の組み合わせを実験した。 CNERタスクを含むNLPにおいて、ディープラーニングに基づくモデルがより効果的なモデルであることが証明された理由として、すべての言語パターンがすぐに人間に明らかまたは直感的であるわけではないことが判明した。 我々の微調整BanglaBERT(大きな)モデルは、検証セット上でF1スコア0.79を達成する。 本研究は,Bangla Complex Named Entity Recognitionの重要性,特に合成データセットの文脈において強調した。 また,バングラ語におけるNERに対するBanglaBERTなどのディープラーニングモデルの有効性を示した。

Named Entity Recognition (NER) is a fundamental task in natural language processing that involves identifying and classifying named entities in text. But much work hasn't been done for complex named entity recognition in Bangla, despite being the seventh most spoken language globally. CNER is a more challenging task than traditional NER as it involves identifying and classifying complex and compound entities, which are not common in Bangla language. In this paper, we present the winning solution of Bangla Complex Named Entity Recognition Challenge - addressing the CNER task on BanglaCoNER dataset using two different approaches, namely Conditional Random Fields (CRF) and finetuning transformer based Deep Learning models such as BanglaBERT. The dataset consisted of 15300 sentences for training and 800 sentences for validation, in the .conll format. Exploratory Data Analysis (EDA) on the dataset revealed that the dataset had 7 different NER tags, with notable presence of English words, suggesting that the dataset is synthetic and likely a product of translation. We experimented with a variety of feature combinations including Part of Speech (POS) tags, word suffixes, Gazetteers, and cluster information from embeddings, while also finetuning the BanglaBERT (large) model for NER. We found that not all linguistic patterns are immediately apparent or even intuitive to humans, which is why Deep Learning based models has proved to be the more effective model in NLP, including CNER task. Our fine tuned BanglaBERT (large) model achieves an F1 Score of 0.79 on the validation set. Overall, our study highlights the importance of Bangla Complex Named Entity Recognition, particularly in the context of synthetic datasets. Our findings also demonstrate the efficacy of Deep Learning models such as BanglaBERT for NER in Bangla language.
翻訳日:2023-03-17 15:33:03 公開日:2023-03-16
# xaiのインスタンス群を逆さまに説明する--グループカウンタファクトのユースケース,アルゴリズム,ユーザスタディ

Explaining Groups of Instances Counterfactually for XAI: A Use Case, Algorithm and User Study for Group-Counterfactuals ( http://arxiv.org/abs/2303.09297v1 )

ライセンス: Link先を確認
Greta Warren, Mark T. Keane, Christophe Gueret, Eoin Delaney(参考訳) カウンターファクチュアルな説明はポストホックな説明として人気が高まっている。 (i)問題領域における適用性 (ii)法律上の遵守(例えば、gdpr)、及び (iii)人間の説明の対比的性質に依存すること。 通常、反事実説明は個々の予測インスタンスを説明するために用いられるが、類似したインスタンスのグループを「グループ反事実」を用いて集団的に説明する(例、患者集団における病気の繰り返しパターンを強調する)新しいユースケースを探索する。 これらの集団の反事実は、複数の出来事や状況をカバーする、一貫性のある広範な説明に対する人間の好みを満たす。 to-be-explainedモデルに忠実なハイカバレッジな説明を生成するために,新しいグループカウントファクトアルゴリズムを提案する。 この説明戦略は、客観的(精度)と主観的(信頼、説明満足度、信頼)の心理的尺度を用いて、大きく制御されたユーザスタディ(N=207)で評価される。 その結果,AIシステムに対する理解は,集団の反事実は控えめだが,明確な改善が見られた。 これらの知見は, 対実的手法とXAIに対する意味を論じる。

Counterfactual explanations are an increasingly popular form of post hoc explanation due to their (i) applicability across problem domains, (ii) proposed legal compliance (e.g., with GDPR), and (iii) reliance on the contrastive nature of human explanation. Although counterfactual explanations are normally used to explain individual predictive-instances, we explore a novel use case in which groups of similar instances are explained in a collective fashion using ``group counterfactuals'' (e.g., to highlight a repeating pattern of illness in a group of patients). These group counterfactuals meet a human preference for coherent, broad explanations covering multiple events/instances. A novel, group-counterfactual algorithm is proposed to generate high-coverage explanations that are faithful to the to-be-explained model. This explanation strategy is also evaluated in a large, controlled user study (N=207), using objective (i.e., accuracy) and subjective (i.e., confidence, explanation satisfaction, and trust) psychological measures. The results show that group counterfactuals elicit modest but definite improvements in people's understanding of an AI system. The implications of these findings for counterfactual methods and for XAI are discussed.
翻訳日:2023-03-17 15:32:14 公開日:2023-03-16
# 拡散生成画像検出用ダイア

DIRE for Diffusion-Generated Image Detection ( http://arxiv.org/abs/2303.09295v1 )

ライセンス: Link先を確認
Zhendong Wang, Jianmin Bao, Wengang Zhou, Weilun Wang, Hezhen Hu, Hong Chen, Houqiang Li(参考訳) 拡散モデルでは視覚合成が著しく成功したが、悪意のある目的に対する潜在的な乱用への懸念も生じている。 本稿では,拡散生成画像から実像を分離する検出器の構築を目的とする。 既存の検出器は、訓練データに特定の拡散モデルから生成された画像を含めても、拡散モデルによって生成された画像を検出するのに苦労している。 そこで本研究では,事前学習した拡散モデルを用いて,入力画像とその再構成の誤差を測定する拡散再構成誤差(dire)と呼ばれる新しい画像表現を提案する。 拡散生成画像は拡散モデルによって大まかに再構成できるが,実画像では再現できない。 DIREは生成されたイメージと実際のイメージを区別するためのブリッジとして機能する、というヒントを提供する。 direは、ほとんどの拡散モデルが生成する画像を検出する効果的な方法を提供し、一般に、未知の拡散モデルから生成された画像を検出し、様々な摂動に頑健である。 さらに,8つの拡散モデルによる画像を含む総合拡散生成ベンチマークを構築し,拡散生成画像検出器の性能評価を行った。 収集したベンチマークの大規模な実験により、DIREは以前の生成画像検出器よりも優れていることが示された。 コードとデータセットはhttps://github.com/zhendongwang6/direで入手できる。

Diffusion models have shown remarkable success in visual synthesis, but have also raised concerns about potential abuse for malicious purposes. In this paper, we seek to build a detector for telling apart real images from diffusion-generated images. We find that existing detectors struggle to detect images generated by diffusion models, even if we include generated images from a specific diffusion model in their training data. To address this issue, we propose a novel image representation called DIffusion Reconstruction Error (DIRE), which measures the error between an input image and its reconstruction counterpart by a pre-trained diffusion model. We observe that diffusion-generated images can be approximately reconstructed by a diffusion model while real images cannot. It provides a hint that DIRE can serve as a bridge to distinguish generated and real images. DIRE provides an effective way to detect images generated by most diffusion models, and it is general for detecting generated images from unseen diffusion models and robust to various perturbations. Furthermore, we establish a comprehensive diffusion-generated benchmark including images generated by eight diffusion models to evaluate the performance of diffusion-generated image detectors. Extensive experiments on our collected benchmark demonstrate that DIRE exhibits superiority over previous generated-image detectors. The code and dataset are available at https://github.com/ZhendongWang6/DIRE.
翻訳日:2023-03-17 15:31:52 公開日:2023-03-16
# インフォメーション行動分析におけるトランスフォーマティブに基づく映像フレームレベルの予測

A transformer-based approach to video frame-level prediction in Affective Behaviour Analysis In-the-wild ( http://arxiv.org/abs/2303.09293v1 )

ライセンス: Link先を確認
Dang-Khanh Nguyen, Ngoc-Huynh Ho, Sudarshan Pant, Hyung-Jeong Yang(参考訳) 近年、インフルエンサーコンピューティングを含む多くのアプリケーションにおいて、トランスフォーマーアーキテクチャが支配的なパラダイムとなっている。 本報告では,第5回情動行動分析における感情分類タスクを処理するトランスフォーマティブモデルを提案する。 注意モデルと合成データセットを利用することで、オーガナイザが提供するデータセットであるAff-Wild2の検証セットでスコア0.4775を得る。

In recent years, transformer architecture has been a dominating paradigm in many applications, including affective computing. In this report, we propose our transformer-based model to handle Emotion Classification Task in the 5th Affective Behavior Analysis In-the-wild Competition. By leveraging the attentive model and the synthetic dataset, we attain a score of 0.4775 on the validation set of Aff-Wild2, the dataset provided by the organizer.
翻訳日:2023-03-17 15:31:32 公開日:2023-03-16
# イメージ分類器がクラスに関する機密情報を漏洩

Image Classifiers Leak Sensitive Attributes About Their Classes ( http://arxiv.org/abs/2303.09289v1 )

ライセンス: Link先を確認
Lukas Struppek, Dominik Hintersdorf, Felix Friedrich, Manuel Brack, Patrick Schramowski, Kristian Kersting(参考訳) ニューラルネットワークベースのイメージ分類器は、コンピュータビジョンタスクのための強力なツールであるが、クラスに関する機密属性情報を不注意に明らかにし、プライバシに関する懸念を提起する。 このプライバシー漏洩を調査するために,ブラックボックス設定で個々のクラスの機密属性を推測する手法として,テキストと画像合成の最近の進歩を活用しつつ,関連するホワイトボックス攻撃と競合する最初のクラス属性推論攻撃(Caia)を導入する。 顔認識領域における我々の広範な実験は、カイアがトレーニングラベルに含まれていない個人の髪の色、性別、人種的外観など、未公表の機密属性を正確に推測できることを示している。 興味深いことに、敵対的なロバストモデルが、標準モデルよりもプライバシーリークに対してさらに脆弱であることを示し、ロバスト性とプライバシのトレードオフが存在することを示している。

Neural network-based image classifiers are powerful tools for computer vision tasks, but they inadvertently reveal sensitive attribute information about their classes, raising concerns about their privacy. To investigate this privacy leakage, we introduce the first Class Attribute Inference Attack (Caia), which leverages recent advances in text-to-image synthesis to infer sensitive attributes of individual classes in a black-box setting, while remaining competitive with related white-box attacks. Our extensive experiments in the face recognition domain show that Caia can accurately infer undisclosed sensitive attributes, such as an individual's hair color, gender and racial appearance, which are not part of the training labels. Interestingly, we demonstrate that adversarial robust models are even more vulnerable to such privacy leakage than standard models, indicating that a trade-off between robustness and privacy exists.
翻訳日:2023-03-17 15:31:24 公開日:2023-03-16
# deep convolutional neural network based artifact reductionによるsparse-view ctによる出血自動検出の改善

Improving Automated Hemorrhage Detection in Sparse-view Computed Tomography via Deep Convolutional Neural Network based Artifact Reduction ( http://arxiv.org/abs/2303.09340v1 )

ライセンス: Link先を確認
Johannes Thalhammer, Manuel Schultheiss, Tina Dorosti, Tobias Lasser, Franz Pfeiffer, Daniela Pfeiffer, Florian Schaff(参考訳) 頭蓋内出血は、迅速かつ頻繁な治療を必要とする深刻な健康問題を引き起こす。 診断には頭蓋骨CT(Cranial Computed Tomography, CCT)が用いられる。 しかし、放射線による健康リスクの増加が懸念されている。 この潜在的なリスクを減らすための最も重要な戦略は、放射線線量を最小限に抑え、診断タスクと整合させることである。 スパースビューCTは、画像の品質を犠牲にしながら、取得したビューの総数を減らし、線量を削減する効果的な方法である。 本研究では, スパースビューCCTからのアーティファクトの削減にU-Netアーキテクチャを用い, スパースビューからの完全サンプル再構成を予測する。 出血分類畳み込みニューラルネットワークを用いて予測したcctの出血検出能を評価し, 完全サンプリングcctで訓練し, 異なるサブタイプの出血を検出・分類した。 スパースビューCTにおける出血の自動分類と検出精度は,U-Netにより大幅に向上することが示唆された。 これにより,低用量ctデータを用いた迅速自動出血検出が,日常臨床における放射線科医の補助に有用であることが示された。

Intracranial hemorrhage poses a serious health problem requiring rapid and often intensive medical treatment. For diagnosis, a Cranial Computed Tomography (CCT) scan is usually performed. However, the increased health risk caused by radiation is a concern. The most important strategy to reduce this potential risk is to keep the radiation dose as low as possible and consistent with the diagnostic task. Sparse-view CT can be an effective strategy to reduce dose by reducing the total number of views acquired, albeit at the expense of image quality. In this work, we use a U-Net architecture to reduce artifacts from sparse-view CCTs, predicting fully sampled reconstructions from sparse-view ones. We evaluate the hemorrhage detectability in the predicted CCTs with a hemorrhage classification convolutional neural network, trained on fully sampled CCTs to detect and classify different sub-types of hemorrhages. Our results suggest that the automated classification and detection accuracy of hemorrhages in sparse-view CCTs can be improved substantially by the U-Net. This demonstrates the feasibility of rapid automated hemorrhage detection on low-dose CT data to assist radiologists in routine clinical practice.
翻訳日:2023-03-17 15:24:29 公開日:2023-03-16
# ShabbyPages: 再現可能なドキュメントのデノベーションとバイナリ化データセット

ShabbyPages: A Reproducible Document Denoising and Binarization Dataset ( http://arxiv.org/abs/2303.09339v1 )

ライセンス: Link先を確認
Alexander Groleau, Kok Wei Chee, Stefan Larson, Samay Maini, Jonathan Boarman(参考訳) ドキュメントの視覚化とバイナライゼーションは、ドキュメント処理の分野における基本的な問題だが、現在のデータセットは小さすぎることが多く、現代的なデータ駆動機械学習モデルを効果的にトレーニングし、ベンチマークするのに十分な複雑さがないことが多い。 このギャップを埋めるために,新たなドキュメントイメージデータセットであるshabbypagesを紹介する。 ShabbyPagesには6000以上のクリーンな「生まれながらのデジタル」イメージが含まれており、Aaugraphyドキュメント拡張ツールを使用して、物理的プロセスによって印刷、ファックス、フォトコピー、その他の変更が行われたかのように拡張されている。 本稿では、ShabbyPagesの作成プロセスについて議論し、ShabbyPagesベンチマークのベースライン性能を確立し、人間の知覚能力の高い実雑音特徴を除去する畳み込みデノイザの訓練によるShabbyPagesの有用性を実証する。

Document denoising and binarization are fundamental problems in the document processing space, but current datasets are often too small and lack sufficient complexity to effectively train and benchmark modern data-driven machine learning models. To fill this gap, we introduce ShabbyPages, a new document image dataset designed for training and benchmarking document denoisers and binarizers. ShabbyPages contains over 6,000 clean "born digital" images with synthetically-noised counterparts ("shabby pages") that were augmented using the Augraphy document augmentation tool to appear as if they have been printed and faxed, photocopied, or otherwise altered through physical processes. In this paper, we discuss the creation process of ShabbyPages and demonstrate the utility of ShabbyPages by training convolutional denoisers which remove real noise features with a high degree of human-perceptible fidelity, establishing baseline performance for a new ShabbyPages benchmark.
翻訳日:2023-03-17 15:24:11 公開日:2023-03-16
# 低光環境におけるリモートフォトプレチモグラフィのための画像強調

Image Enhancement for Remote Photoplethysmography in a Low-Light Environment ( http://arxiv.org/abs/2303.09336v1 )

ライセンス: Link先を確認
Lin Xi, Weihai Chen, Changchen Zhao, Xingming Wu, and Jianhua Wang(参考訳) センサ技術の改善とアルゴリズムの大幅な進歩により、遠隔心拍モニタリング技術の精度が大幅に向上した。 アルゴリズムの大幅な進歩にもかかわらず、rppgアルゴリズムの性能は、夜や光不足環境で発生した長期かつ高強度な連続作業で低下する可能性がある。 主な課題の1つは、失った顔の詳細と低いコントラストが検出と追跡の失敗を引き起こすことである。 また、ビデオ撮影における照明不足は生理的信号の品質を損なう。 本稿では,rPPGアルゴリズム(Green, ICA, POS)の性能を評価するために,様々な照明のバリエーションで記録された遠隔心拍数推定のための大規模データセットを収集する。 また,低照度条件下での遠隔心拍数推定のための低照度拡張ソリューション(技術ソリューション)を提案する。 収集したデータセットを使って 1) 顔検出アルゴリズムは,低照度で撮影した映像の顔を検出することができない。 2 脈動信号の振幅の低下は、騒音信号が支配的な位置にあることにつながる。 3) クロミナンス法は, 肌色が持続しないという仮定の限界に悩まされ, グリーン法とICA法は暗照環境におけるPOSよりも影響が小さい。 提案手法は,脈動信号の信号対雑音比と精度を検出・改善するために有効である。

With the improvement of sensor technology and significant algorithmic advances, the accuracy of remote heart rate monitoring technology has been significantly improved. Despite of the significant algorithmic advances, the performance of rPPG algorithm can degrade in the long-term, high-intensity continuous work occurred in evenings or insufficient light environments. One of the main challenges is that the lost facial details and low contrast cause the failure of detection and tracking. Also, insufficient lighting in video capturing hurts the quality of physiological signal. In this paper, we collect a large-scale dataset that was designed for remote heart rate estimation recorded with various illumination variations to evaluate the performance of the rPPG algorithm (Green, ICA, and POS). We also propose a low-light enhancement solution (technical solution) for remote heart rate estimation under the low-light condition. Using collected dataset, we found 1) face detection algorithm cannot detect faces in video captured in low light conditions; 2) A decrease in the amplitude of the pulsatile signal will lead to the noise signal to be in the dominant position; and 3) the chrominance-based method suffers from the limitation in the assumption about skin-tone will not hold, and Green and ICA method receive less influence than POS in dark illuminance environment. The proposed solution for rPPG process is effective to detect and improve the signal-to-noise ratio and precision of the pulsatile signal.
翻訳日:2023-03-17 15:23:47 公開日:2023-03-16
# ExoplANNET:放射速度データにおける惑星信号の検出と識別のためのディープラーニングアルゴリズム

ExoplANNET: A deep learning algorithm to detect and identify planetary signals in radial velocity data ( http://arxiv.org/abs/2303.09335v1 )

ライセンス: Link先を確認
L. A. Nieto, R. F. D\'iaz(参考訳) 放射速度法による太陽系外惑星の検出は、未発見の恒星間伴星による恒星の速度の変化を検出することを含む。 インスツルメンタルエラー、不規則な時間サンプリング、恒星の内在的な変動に起因する異なるノイズ源は、データの解釈を妨げ、さらに急激な検出にも繋がる。 最近では、機械学習アルゴリズムを使用する太陽系外惑星の分野に研究が出現し始め、その分野の伝統的な技術で得られた成果を超えるものも現れた。 本研究では、放射速度法におけるニューラルネットワークのスコープ、特に恒星起源の相関ノイズの存在下での太陽系外惑星検出について探究する。 本研究では、放射速度法で検出された信号の意義の計算を置換し、惑星の起源として分類するニューラルネットワークを提案する。 このアルゴリズムは惑星の伴星を持たないシステムの合成データを用いて訓練される。 恒星活動の挙動に関する過去の研究に基づいて,シミュレーションにおいて現実的な相関ノイズを注入した。 ネットワークの性能は、null仮説の重要度テストに基づく従来の手法と比較される。 ネットワークの偽陽性率は28%減少している。 この改良は、主に低質量惑星に関連する小振幅信号の検出で観察される。 さらに、実行時間は従来の方法よりも5桁高速である。 アルゴリズムが示す優れた性能は、これまでシミュレーションされたラジアル速度データでのみテストされてきた。 原則として、リアルタイムシリーズでの使用に適応するのは簡単であるべきだが、その性能を徹底的にテストする必要がある。 今後は、太陽系外惑星検出のための貴重なツールとして採用される可能性を評価する必要がある。

The detection of exoplanets with the radial velocity method consists in detecting variations of the stellar velocity caused by an unseen sub-stellar companion. Instrumental errors, irregular time sampling, and different noise sources originating in the intrinsic variability of the star can hinder the interpretation of the data, and even lead to spurious detections. In recent times, work began to emerge in the field of extrasolar planets that use Machine Learning algorithms, some with results that exceed those obtained with the traditional techniques in the field. We seek to explore the scope of the neural networks in the radial velocity method, in particular for exoplanet detection in the presence of correlated noise of stellar origin. In this work, a neural network is proposed to replace the computation of the significance of the signal detected with the radial velocity method and to classify it as of planetary origin or not. The algorithm is trained using synthetic data of systems with and without planetary companions. We injected realistic correlated noise in the simulations, based on previous studies of the behaviour of stellar activity. The performance of the network is compared to the traditional method based on null hypothesis significance testing. The network achieves 28 % fewer false positives. The improvement is observed mainly in the detection of small-amplitude signals associated with low-mass planets. In addition, its execution time is five orders of magnitude faster than the traditional method. The superior performance exhibited by the algorithm has only been tested on simulated radial velocity data so far. Although in principle it should be straightforward to adapt it for use in real time series, its performance has to be tested thoroughly. Future work should permit evaluating its potential for adoption as a valuable tool for exoplanet detection.
翻訳日:2023-03-17 15:23:26 公開日:2023-03-16
# パララックスカメラモーションボケのための奥行き認識画像合成モデル

Depth-Aware Image Compositing Model for Parallax Camera Motion Blur ( http://arxiv.org/abs/2303.09334v1 )

ライセンス: Link先を確認
German F. Torres, Joni-Kristian K\"am\"ar\"ainen(参考訳) カメラの動きは、3D世界の奥行きの変化によって空間的に異なるぼやけをもたらす。 本研究では,パララックスカメラ動作下でのぼかしが生じるシーン構成について検討する。 深度依存型空間変化ブラーのための単純で正確な画像合成ブラー(ICB)モデルを提案する。 前方)モデルは、単一の画像、深度マップ、カメラ軌道から現実的な動きのぼかしを生成する。 さらに、ICBモデルと座標ベースMLPを組み合わせることで、ぼやけた入力から鋭い神経表現を学習する。 実験結果は合成および実例で報告されている。 その結果, icbフォワードモデルは計算効率が良く, 咬合情報の欠如にもかかわらず現実的なぼやけを生じさせることがわかった。 さらに, 鋭い表現を復元する手法は, 分離作業に対する競争的アプローチであることが証明された。

Camera motion introduces spatially varying blur due to the depth changes in the 3D world. This work investigates scene configurations where such blur is produced under parallax camera motion. We present a simple, yet accurate, Image Compositing Blur (ICB) model for depth-dependent spatially varying blur. The (forward) model produces realistic motion blur from a single image, depth map, and camera trajectory. Furthermore, we utilize the ICB model, combined with a coordinate-based MLP, to learn a sharp neural representation from the blurred input. Experimental results are reported for synthetic and real examples. The results verify that the ICB forward model is computationally efficient and produces realistic blur, despite the lack of occlusion information. Additionally, our method for restoring a sharp representation proves to be a competitive approach for the deblurring task.
翻訳日:2023-03-17 15:23:02 公開日:2023-03-16
# モデルに基づく概念ドリフトの説明

Model Based Explanations of Concept Drift ( http://arxiv.org/abs/2303.09331v1 )

ライセンス: Link先を確認
Fabian Hinder, Valerie Vaquet, Johannes Brinkrolf, Barbara Hammer(参考訳) 概念ドリフトの概念は、観測データを生成する分布が時間とともに変化する現象を指す。 ドリフトが存在する場合、機械学習モデルは不正確になり、調整が必要である。 概念ドリフトの検出や観測ドリフトの存在下でモデルを調整する方法は存在するが、ドリフトを説明する問題、すなわち、人間の理解可能な方法での分布の潜在的に複雑で高次元的な変化を説明する問題は、今のところほとんど考慮されていない。 この問題は、漂流がどのように、どこで現れるかの最も顕著な特徴を検査できるため重要である。 これにより、変化の人間的理解が可能になり、生涯学習モデルの受容が高まる。 本稿では,概念ドリフトを特徴付ける新しい技術として,様々な説明手法に基づく空間的特徴の特性変化について述べる。 そこで本研究では,概念ドリフトの説明を,ドリフトに関する関連情報を抽出する適切な方法で訓練されたモデルの説明に還元する手法を提案する。 このように、様々な説明スキームが利用可能である。 これにより、手元のドリフト説明問題に対して適切な方法を選択することができる。 このアプローチの可能性を概説し、いくつかの例でその有用性を示す。

The notion of concept drift refers to the phenomenon that the distribution generating the observed data changes over time. If drift is present, machine learning models can become inaccurate and need adjustment. While there do exist methods to detect concept drift or to adjust models in the presence of observed drift, the question of explaining drift, i.e., describing the potentially complex and high dimensional change of distribution in a human-understandable fashion, has hardly been considered so far. This problem is of importance since it enables an inspection of the most prominent characteristics of how and where drift manifests itself. Hence, it enables human understanding of the change and it increases acceptance of life-long learning models. In this paper, we present a novel technology characterizing concept drift in terms of the characteristic change of spatial features based on various explanation techniques. To do so, we propose a methodology to reduce the explanation of concept drift to an explanation of models that are trained in a suitable way extracting relevant information regarding the drift. This way a large variety of explanation schemes is available. Thus, a suitable method can be selected for the problem of drift explanation at hand. We outline the potential of this approach and demonstrate its usefulness in several examples.
翻訳日:2023-03-17 15:22:50 公開日:2023-03-16
# 高等教育プログラミングコースにおけるジェネレーティブ事前学習トランスフォーマー(gpt)の評価を通すことができるか?

Can Generative Pre-trained Transformers (GPT) Pass Assessments in Higher Education Programming Courses? ( http://arxiv.org/abs/2303.09325v1 )

ライセンス: Link先を確認
Jaromir Savelka, Arav Agarwal, Christopher Bogart, Yifan Song, Majd Sakr(参考訳) 初期および中間のpythonプログラミングコースにおける評価をポストセカンダリーレベルでパスする,ジェネレーティブ事前学習トランスフォーマー(gpt)の能力を評価した。 プログラミング教育におけるこの新興技術の潜在的な使用(例えば、エクササイズ生成、コード説明)と誤用(例えば、不正)に関する議論は激化しているが、これまでは、様々な評価機器を備えた本格的なプログラミングコースの現実的な文脈におけるモデルの能力に関する厳密な分析は行われていない。 我々は,単純な複数項目の質問(コードが関与しない)から,コードベースを複数のファイルに分散した複雑なプログラミングプロジェクト(全体として599エクササイズ)まで,3つのPythonコースでGPTを評価した。 さらに,GPTモデルがオートグレーダのフィードバックをいかに活用するかを検討した。 現在のモデルは、pythonプログラミングコース(エントリレベルのモジュールでも70%)に典型的に関与する評価のスペクトルを完全に通すことができないことが分かりました。 しかし、これらの容易なモデルを簡単に適用することで、学習者が導入科目や中間科目で利用可能な総合スコアの非自明な部分(>55%)を得ることができることは明らかである。 モデルには、オートグレーダーのフィードバックに基づくソリューションの修正など、優れた能力があるが、いくつかの制限がある(例えば、複雑な推論ステップの連鎖を必要とする運動の扱いが貧弱である)。 これらの知見は,GPTがエンド・ツー・エンドのソリューションとは対照的に,学習者にとって貴重なアシスタントとなるように,評価に適応したいと考えるインストラクターによって活用することができる。

We evaluated the capability of generative pre-trained transformers (GPT), to pass assessments in introductory and intermediate Python programming courses at the postsecondary level. Discussions of potential uses (e.g., exercise generation, code explanation) and misuses (e.g., cheating) of this emerging technology in programming education have intensified, but to date there has not been a rigorous analysis of the models' capabilities in the realistic context of a full-fledged programming course with diverse set of assessment instruments. We evaluated GPT on three Python courses that employ assessments ranging from simple multiple-choice questions (no code involved) to complex programming projects with code bases distributed into multiple files (599 exercises overall). Further, we studied if and how successfully GPT models leverage feedback provided by an auto-grader. We found that the current models are not capable of passing the full spectrum of assessments typically involved in a Python programming course (<70% on even entry-level modules). Yet, it is clear that a straightforward application of these easily accessible models could enable a learner to obtain a non-trivial portion of the overall available score (>55%) in introductory and intermediate courses alike. While the models exhibit remarkable capabilities, including correcting solutions based on auto-grader's feedback, some limitations exist (e.g., poor handling of exercises requiring complex chains of reasoning steps). These findings can be leveraged by instructors wishing to adapt their assessments so that GPT becomes a valuable assistant for a learner as opposed to an end-to-end solution.
翻訳日:2023-03-17 15:22:32 公開日:2023-03-16
# ジョイント主題とテキスト条件画像生成のための統一的マルチモーダル潜在拡散

Unified Multi-Modal Latent Diffusion for Joint Subject and Text Conditional Image Generation ( http://arxiv.org/abs/2303.09319v1 )

ライセンス: Link先を確認
Yiyang Ma, Huan Yang, Wenjing Wang, Jianlong Fu, Jiaying Liu(参考訳) 近年,拡散モデルを用いて言語誘導画像生成が大きな成功を収めている。 しかし、テキストは特定の犬や特定の車など、特定の対象を詳細に記述することができないため、ユーザー要求を満たすのに十分正確ではない。 本稿では,特定の対象を含む共同テキストや画像を入力シーケンスとして取り出して,被験者とカスタマイズした画像を生成する,Unified Multi-Modal Latent Diffusion (UMM-Diffusion)を提案する。 より具体的に言うと、入力テキストと画像の両方が1つの統一されたマルチモーダル潜在空間にエンコードされ、入力画像は疑似単語埋め込みに投影され、さらにテキストと組み合わせて画像生成を導くことができる。 また、背景や照明などの入力画像の無関係な部分を排除するため、多モード入力と純粋なテキスト入力で導かれる結果を融合させる画像生成装置によって使用される拡散モデルの新しいサンプリング手法を提案する。 画像エンコーダと画像エンコーダを併用することにより,入力テキストと画像の両面から複雑な意味を持つ高品質画像を生成することができる。

Language-guided image generation has achieved great success nowadays by using diffusion models. However, texts can be less detailed to describe highly-specific subjects such as a particular dog or a certain car, which makes pure text-to-image generation not accurate enough to satisfy user requirements. In this work, we present a novel Unified Multi-Modal Latent Diffusion (UMM-Diffusion) which takes joint texts and images containing specified subjects as input sequences and generates customized images with the subjects. To be more specific, both input texts and images are encoded into one unified multi-modal latent space, in which the input images are learned to be projected to pseudo word embedding and can be further combined with text to guide image generation. Besides, to eliminate the irrelevant parts of the input images such as background or illumination, we propose a novel sampling technique of diffusion models used by the image generator which fuses the results guided by multi-modal input and pure text input. By leveraging the large-scale pre-trained text-to-image generator and the designed image encoder, our method is able to generate high-quality images with complex semantics from both aspects of input texts and images.
翻訳日:2023-03-17 15:21:40 公開日:2023-03-16
# NFAを効率的に推論するための非常に単純な性質の活用

Taking advantage of a very simple property to efficiently infer NFAs ( http://arxiv.org/abs/2303.09311v1 )

ライセンス: Link先を確認
Tomasz Jastrzab, Fr\'ed\'eric Lardeux (LERIA), Eric Monfroy (LERIA)(参考訳) 文法推論は、形式文法を有限状態機械または書き直し規則の集合として学習することで構成される。 本稿では,ある単語を受理しなければならない非決定論的有限オートマタ(NFA)を推定し,与えられたサンプルから他の単語を拒絶することに関心がある。 この問題は自然にsatでモデル化できる。 標準モデルは巨大であり、プレフィックス、接尾辞、ハイブリッドに基づくいくつかのモデルはより小さなsatインスタンスを生成するように設計された。 あるサンプルに対してサイズ k の NFA が存在するなら、サイズ k+1 の NFA が存在する。 我々はまず、この性質を k+1 の NFA にいくつかの特性を加えて強化する。 したがって、この性質を用いて、与えられたサンプルに対して最小の NFA の大きさの境界を締め付けることができる。 次に、k の NFA の初期モデルよりも小さいサイズ k+1 の NFA に対する単純化された洗練されたモデルを提案する。 また,サイズkのnfaを,サイズk+1の特定のnfaから構築する還元アルゴリズムを提案する。 最後に,提案手法の有効性を示す実験を行い,提案の有効性を検証する。

Grammatical inference consists in learning a formal grammar as a finite state machine or as a set of rewrite rules. In this paper, we are concerned with inferring Nondeterministic Finite Automata (NFA) that must accept some words, and reject some other words from a given sample. This problem can naturally be modeled in SAT. The standard model being enormous, some models based on prefixes, suffixes, and hybrids were designed to generate smaller SAT instances. There is a very simple and obvious property that says: if there is an NFA of size k for a given sample, there is also an NFA of size k+1. We first strengthen this property by adding some characteristics to the NFA of size k+1. Hence, we can use this property to tighten the bounds of the size of the minimal NFA for a given sample. We then propose simplified and refined models for NFA of size k+1 that are smaller than the initial models for NFA of size k. We also propose a reduction algorithm to build an NFA of size k from a specific NFA of size k+1. Finally, we validate our proposition with some experimentation that shows the efficiency of our approach.
翻訳日:2023-03-17 15:21:19 公開日:2023-03-16
# 映像シャドウ除去のための物理空間的特徴の学習

Learning Physical-Spatio-Temporal Features for Video Shadow Removal ( http://arxiv.org/abs/2303.09370v1 )

ライセンス: Link先を確認
Zhihao Chen, Liang Wan, Yefan Xiao, Lei Zhu, Huazhu Fu(参考訳) 近年,1枚の画像における影の除去が注目されている。 しかし、ダイナミックなシーンによるシャドウの除去はほとんど未検討のままである。 本稿では,映像シャドウの物理的特性,空間的関係,時間的コヒーレンスという3つの本質的特徴を生かして,pstnetと呼ばれる最初のデータ駆動映像シャドウ除去モデルを提案する。 具体的には、複雑な照明やテクスチャを持つシーンに適応する局所照明推定を行うために専用の物理ブランチが設けられ、マスクガイドによる注意戦略によって物理的特徴が強化された。 次に,特徴マップの時空間的特徴と時間的特性を増大させ,これら3つの特徴を効果的に統合する漸進的アグリゲーションモジュールを開発した。 さらに、ペア化シャドウビデオのデータセット不足に対処するため、シャドウレンダラーのスイッチを制御することで、人気ゲームGTAVの助けを借りてデータセット(SVSRD-85)を合成する。 画像シャドウ除去器と画像/映像復元法を含む9種類の最先端モデルに対する実験により,影領域のRMSE誤差を14.7倍に改善した。 さらに,実世界において合成駆動モデルを効果的にするための軽量モデル適応戦略を開発した。 公開sbuタイムラプスデータセットの視覚的比較は,実場面におけるモデルの一般化能力を検証する。

Shadow removal in a single image has received increasing attention in recent years. However, removing shadows over dynamic scenes remains largely under-explored. In this paper, we propose the first data-driven video shadow removal model, termed PSTNet, by exploiting three essential characteristics of video shadows, i.e., physical property, spatio relation, and temporal coherence. Specifically, a dedicated physical branch was established to conduct local illumination estimation, which is more applicable for scenes with complex lighting and textures, and then enhance the physical features via a mask-guided attention strategy. Then, we develop a progressive aggregation module to enhance the spatio and temporal characteristics of features maps, and effectively integrate the three kinds of features. Furthermore, to tackle the lack of datasets of paired shadow videos, we synthesize a dataset (SVSRD-85) with aid of the popular game GTAV by controlling the switch of the shadow renderer. Experiments against 9 state-of-the-art models, including image shadow removers and image/video restoration methods, show that our method improves the best SOTA in terms of RMSE error for the shadow area by 14.7. In addition, we develop a lightweight model adaptation strategy to make our synthetic-driven model effective in real world scenes. The visual comparison on the public SBU-TimeLapse dataset verifies the generalization ability of our model in real scenes.
翻訳日:2023-03-17 15:14:51 公開日:2023-03-16
# 状態空間分割によるゴール条件付きオフライン強化学習

Goal-conditioned Offline Reinforcement Learning through State Space Partitioning ( http://arxiv.org/abs/2303.09367v1 )

ライセンス: Link先を確認
Mianchu Wang, Yue Jin and Giovanni Montana(参考訳) オフライン強化学習(RL)は、オフラインデータセットのみを使用してシーケンシャルな決定ポリシーを推論することを目的としている。 これは特に難しい設定で、特定のシナリオ下で複数の異なる目標や成果を達成することを学ぶ場合、報酬はわずかである。 教師付き学習による目標条件付き政策のオフライン学習では、ログライクな損失の利点により、単調な政策改善が保証される。 本研究では, 利点にもかかわらず, 分散シフトやマルチモーダリティ問題を完全に解決するには, このアプローチはまだ不十分である,と論じる。 後者は、状態から望ましい目標へと至る、ユニークで最適なポリシーを見つけることが、複数の競合する可能性のあるソリューションが存在する可能性があるため、特に困難である。 これらの課題に対処するため、我々は、帰納的バイアスの新たな源となる補足的優位性に基づく重み付け手法を提案する: 状態空間の値に基づく分割を考えると、最終目標よりも到達しやすい領域に到達することが期待される行動の寄与がさらに増加する。 実験的に,提案手法であるDual-Advantage Weighted Offline Goal-conditioned RL (DAWOG) が,一般的なベンチマークにおいて競合するオフラインアルゴリズムよりも優れていることを示す。 分析的に、学習ポリシーが基礎となる行動ポリシーよりも決して悪くないことを保証する。

Offline reinforcement learning (RL) aims to infer sequential decision policies using only offline datasets. This is a particularly difficult setup, especially when learning to achieve multiple different goals or outcomes under a given scenario with only sparse rewards. For offline learning of goal-conditioned policies via supervised learning, previous work has shown that an advantage weighted log-likelihood loss guarantees monotonic policy improvement. In this work we argue that, despite its benefits, this approach is still insufficient to fully address the distribution shift and multi-modality problems. The latter is particularly severe in long-horizon tasks where finding a unique and optimal policy that goes from a state to the desired goal is challenging as there may be multiple and potentially conflicting solutions. To tackle these challenges, we propose a complementary advantage-based weighting scheme that introduces an additional source of inductive bias: given a value-based partitioning of the state space, the contribution of actions expected to lead to target regions that are easier to reach, compared to the final goal, is further increased. Empirically, we demonstrate that the proposed approach, Dual-Advantage Weighted Offline Goal-conditioned RL (DAWOG), outperforms several competing offline algorithms in commonly used benchmarks. Analytically, we offer a guarantee that the learnt policy is never worse than the underlying behaviour policy.
翻訳日:2023-03-17 15:14:26 公開日:2023-03-16
# 医学的時間的制約の抽出のための文脈内学習のスコープ

The Scope of In-Context Learning for the Extraction of Medical Temporal Constraints ( http://arxiv.org/abs/2303.09366v1 )

ライセンス: Link先を確認
Parker Seegmiller, Joseph Gatto, Madhusudan Basak, Diane Cook, Hassan Ghasemzadeh, John Stankovic and Sarah Preum(参考訳) 薬はしばしば日常的な患者活動に時間的制約を課す。 このような医学的時間的制約(MTC)の違反は、医療結果の悪化と医療費の増加に加えて、治療の順守の欠如につながる。 これらのMDCは、患者の教育材料と臨床テキストの両方において、薬物使用ガイドライン(DUG)に見出される。 DUGにおけるMCCの計算的表現は、安全な患者の活動パターンを定義することで、患者中心の医療応用を促進する。 本研究では, DUG に含まれる MTC の新しい分類法を定義し,非構造化 DUG から MTC を計算的に表現する新しい文脈自由文法 (CFG) モデルを開発した。 さらに,N = 836 DUGを正規化MCCでラベル付けした3つの新しいデータセットもリリースした。 我々は、DUGsで見つかったMCCを自動的に抽出し、正規化するインコンテキスト学習(ICL)ソリューションを開発し、すべてのデータセットの平均F1スコアが0.62に達する。 最後に,ICLモデルの性能をベースラインモデル,データセットおよびMCCタイプ,深度誤差解析を通じて厳密に検討する。

Medications often impose temporal constraints on everyday patient activity. Violations of such medical temporal constraints (MTCs) lead to a lack of treatment adherence, in addition to poor health outcomes and increased healthcare expenses. These MTCs are found in drug usage guidelines (DUGs) in both patient education materials and clinical texts. Computationally representing MTCs in DUGs will advance patient-centric healthcare applications by helping to define safe patient activity patterns. We define a novel taxonomy of MTCs found in DUGs and develop a novel context-free grammar (CFG) based model to computationally represent MTCs from unstructured DUGs. Additionally, we release three new datasets with a combined total of N = 836 DUGs labeled with normalized MTCs. We develop an in-context learning (ICL) solution for automatically extracting and normalizing MTCs found in DUGs, achieving an average F1 score of 0.62 across all datasets. Finally, we rigorously investigate ICL model performance against a baseline model, across datasets and MTC types, and through in-depth error analysis.
翻訳日:2023-03-17 15:14:01 公開日:2023-03-16
# Tollywood Emotions: Annotation of Valence-Arousal in Telugu Song Lyrics

Tollywood Emotions: Annotation of Valence-Arousal in Telugu Song Lyrics ( http://arxiv.org/abs/2303.09364v1 )

ライセンス: Link先を確認
R Guru Ravi Shanker, B Manikanta Gupta, BV Koushik, Vinoo Alluri(参考訳) 特定の音楽トラックからの感情認識は、音響的特徴、ソーシャルタグ、メタデータに大きく依存しているが、歌詞にはほとんど焦点を当てていない。 ヴァレンスと覚醒的手動による歌詞評価の両方を含むインドの歌のデータセットは存在しない。 本稿では,Spotifyから収集したTeluguの歌詞を手作業で注釈付けした新しいデータセットについて紹介する。 ヴァレンスと覚醒の両方において、かなり高いアノテータ間合意が観察された。 次に,2つの分類手法を用いて,歌詞からヴァレンス,覚醒,それぞれの感情を識別する音楽感情認識モデルを作成する。 時間周波数逆文書周波数(TF-IDF)特性と事前学習したXLMRoBERTa(XLM-R)モデルを微調整したサポートベクターマシン(SVM)を用いた。 微調整されたXLMRoBERTaは、平均F1スコア(54.69%、67.61%、34.13%から77.90%、80.71%、58.33%)を10倍のクロスバリデーションで改善し、SVMよりも優れている。 さらに、歌詞の注釈をspotifyのヴァレンスとエネルギの注釈(arousalと同じ)と比較した。 本研究の意義について述べる。 最後に、私たちはデータセットを歌詞、アノテーション、spotify idで公開しています。

Emotion recognition from a given music track has heavily relied on acoustic features, social tags, and metadata but is seldom focused on lyrics. There are no datasets of Indian language songs that contain both valence and arousal manual ratings of lyrics. We present a new manually annotated dataset of Telugu songs' lyrics collected from Spotify with valence and arousal annotated on a discrete scale. A fairly high inter-annotator agreement was observed for both valence and arousal. Subsequently, we create two music emotion recognition models by using two classification techniques to identify valence, arousal and respective emotion quadrant from lyrics. Support vector machine (SVM) with term frequency-inverse document frequency (TF-IDF) features and fine-tuning the pre-trained XLMRoBERTa (XLM-R) model were used for valence, arousal and quadrant classification tasks. Fine-tuned XLMRoBERTa performs better than the SVM by improving macro-averaged F1-scores of 54.69%, 67.61%, 34.13% to 77.90%, 80.71% and 58.33% for valence, arousal and quadrant classifications, respectively, on 10-fold cross-validation. In addition, we compare our lyrics annotations with Spotify's annotations of valence and energy (same as arousal), which are based on entire music tracks. The implications of our findings are discussed. Finally, we make the dataset publicly available with lyrics, annotations and Spotify IDs.
翻訳日:2023-03-17 15:13:42 公開日:2023-03-16
# 計算病理学における再現性研究のためのプラットフォームとしてのNCI Imaging Data Commons

The NCI Imaging Data Commons as a platform for reproducible research in computational pathology ( http://arxiv.org/abs/2303.09354v1 )

ライセンス: Link先を確認
Daniela P. Schacherer, Markus D. Herrmann, David A. Clunie, Henning H\"ofener, William Clifford, William J.R. Longabaugh, Steve Pieper, Ron Kikinis, Andrey Fedorov, Andr\'e Homeyer(参考訳) 目的:再現性は、計算病理学(CompPath)における機械学習(ML)ソリューションを実際に翻訳するために重要である。 しかし、ML結果の再現に困難を訴える研究が増えている。 NCI Imaging Data Commons (IDC) は、クラウドベースのMLサービスで使用されるように設計された、 >38,000全体スライディングイメージ(WSI)を含む、120以上のがんイメージコレクションのパブリックリポジトリである。 本稿では,CompPath 研究の再現性を高めるための IDC の可能性を探る。 すべてのイメージはDICOM標準に従ってエンコードされ、永続的に識別され、豊富なメタデータを介して発見可能で、オープンツールを介してアクセスできます。 そこで本研究では,肺腫瘍組織を分類する代表的なml法をトレーニングし,idcと異なるデータセットを用いて評価する実験を行った。 再現性を評価するために、実験は独立しているが同じ構成のMLサービスのセッションで複数回行われた。 結果: 同じ実験の異なるランのAUC値は概ね一貫したものであり、以前公表された同様の研究と同じ桁である。 しかし、auc値のばらつきは0.044までで、再現性に実用的限界があることを示している。 議論と結論: FAIR原則を実現することで、IDCは他の研究者がまったく同じデータセットを再利用できるようになる。 クラウドベースのMLサービスは、他の人が高性能ハードウェアを所有することなく、同じ構成のコンピューティング環境でCompPath実験を実行できる。 両方の組み合わせにより再現性限界に近づくことができる。

Objective: Reproducibility is critical for translating machine learning-based (ML) solutions in computational pathology (CompPath) into practice. However, an increasing number of studies report difficulties in reproducing ML results. The NCI Imaging Data Commons (IDC) is a public repository of >120 cancer image collections, including >38,000 whole-slide images (WSIs), that is designed to be used with cloud-based ML services. Here, we explore the potential of the IDC to facilitate reproducibility of CompPath research. Materials and Methods: The IDC realizes the FAIR principles: All images are encoded according to the DICOM standard, persistently identified, discoverable via rich metadata, and accessible via open tools. Taking advantage of this, we implemented two experiments in which a representative ML-based method for classifying lung tumor tissue was trained and/or evaluated on different datasets from the IDC. To assess reproducibility, the experiments were run multiple times with independent but identically configured sessions of common ML services. Results: The AUC values of different runs of the same experiment were generally consistent and in the same order of magnitude as a similar, previously published study. However, there were occasional small variations in AUC values of up to 0.044, indicating a practical limit to reproducibility. Discussion and conclusion: By realizing the FAIR principles, the IDC enables other researchers to reuse exactly the same datasets. Cloud-based ML services enable others to run CompPath experiments in an identically configured computing environment without having to own high-performance hardware. The combination of both makes it possible to approach the reproducibility limit.
翻訳日:2023-03-17 15:13:11 公開日:2023-03-16
# ビットベクトル理論のための量子SMTソルバー

A Quantum SMT Solver for Bit-Vector Theory ( http://arxiv.org/abs/2303.09353v1 )

ライセンス: Link先を確認
Shang-Wei Lin, Si-Han Chen, Tzu-Fan Wang and Yean-Ru Chen(参考訳) 古典的SMTソルバは、式$F$ of satisfiability modulo theory (SMT) を与えられたとき、(1) ブール式$F_B$、(2) ブール解を$F_B$として抽象化し、(3) ブール解が理論と整合であるかどうかを確認する。 ステップ~{(2)} と (3) は、一貫性のある解が見つかるまで前後に実行される必要がある。 本研究では,ビットベクトル理論のための量子SMTソルバを開発する。 量子系における重ね合わせの特性により、解法は全ての入力を同時に考慮し、ブールと理論領域間の一貫性を1ショットで確認することができる。

Given a formula $F$ of satisfiability modulo theory (SMT), the classical SMT solver tries to (1) abstract $F$ as a Boolean formula $F_B$, (2) find a Boolean solution to $F_B$, and (3) check whether the Boolean solution is consistent with the theory. Steps~{(2)} and (3) may need to be performed back and forth until a consistent solution is found. In this work, we develop a quantum SMT solver for the bit-vector theory. With the characteristic of superposition in quantum system, our solver is able to consider all the inputs simultaneously and check their consistency between Boolean and the theory domains in one shot.
翻訳日:2023-03-17 15:12:43 公開日:2023-03-16
# hubs and hyperspheres: 超球面埋め込みによるハブネスの低減とトランスダクティブな少数ショット学習の改善

Hubs and Hyperspheres: Reducing Hubness and Improving Transductive Few-shot Learning with Hyperspherical Embeddings ( http://arxiv.org/abs/2303.09352v1 )

ライセンス: Link先を確認
Daniel J. Trosten, Rwiddhi Chakraborty, Sigurd L{\o}kse, Kristoffer Knutsen Wickstr{\o}m, Robert Jenssen, Michael C. Kampffmeyer(参考訳) 距離に基づく分類は、トランスダクティブ・ショットラーニング(FSL)において頻繁に用いられる。 しかし、画像表現の高次元性のため、FSL分類器はハブ性の問題に悩まされがちであり、いくつかの点(ハーブ)が他の点の複数の近傍リストで頻繁に発生する。 ハネスは、あるクラスからのハブが他のクラスから最も近いポイントの隣人の中にしばしば現れるとき、距離ベースの分類に悪影響を及ぼし、分類器のパフォーマンスを低下させる。 FSLにおける疎密性問題に対処するため、まず、超球面上に一様に表現を分散させることにより、疎密性を排除できることを証明した。 次に、ハイパースフィアに表現を埋め込むための2つの新しいアプローチを提案し、クラス構造を維持しながら、一様性と局所的類似性保存とのトレードオフを最適化することを証明した。 実験により,提案手法はハブ性を低減し,広範囲の分類器に対するトランスダクティブFSL精度を大幅に向上することが示された。

Distance-based classification is frequently used in transductive few-shot learning (FSL). However, due to the high-dimensionality of image representations, FSL classifiers are prone to suffer from the hubness problem, where a few points (hubs) occur frequently in multiple nearest neighbour lists of other points. Hubness negatively impacts distance-based classification when hubs from one class appear often among the nearest neighbors of points from another class, degrading the classifier's performance. To address the hubness problem in FSL, we first prove that hubness can be eliminated by distributing representations uniformly on the hypersphere. We then propose two new approaches to embed representations on the hypersphere, which we prove optimize a tradeoff between uniformity and local similarity preservation -- reducing hubness while retaining class structure. Our experiments show that the proposed methods reduce hubness, and significantly improves transductive FSL accuracy for a wide range of classifiers.
翻訳日:2023-03-17 15:12:28 公開日:2023-03-16
# 特権情報を用いた学習による教師なしドメイン適応

Unsupervised domain adaptation by learning using privileged information ( http://arxiv.org/abs/2303.09350v1 )

ライセンス: Link先を確認
Adam Breitholtz, Anton Matsson and Fredrik D. Johansson(参考訳) unsupervised domain adaptation (uda) の成功は、共変量シフトや入力領域間の重なりといった強い仮定の下でのみ保証される。 後者は画像分類のような高次元のアプリケーションではしばしば違反するが、この問題にもかかわらずアルゴリズム開発のためのインスピレーションとベンチマークとして機能し続けている。 本研究では,情報源と対象領域からのサンプルに関するサイド情報へのアクセスが,これらの仮定を緩和し,よりリッチな変数集合を収集するコストを犠牲にして,学習におけるサンプル効率を向上させることができることを示す。 我々はこのドメイン適応を特権情報(DALUPI)を用いて学習する。 本稿では,本手法を応用した2段階学習アルゴリズムと,マルチラベル画像分類のための実用的エンドツーエンドアルゴリズムを提案する。 医学画像解析への応用を含む一連の実験において、学習に特権情報を組み込むことで、古典的学習に比べてドメイン転送の誤りを低減できることを実証する。

Successful unsupervised domain adaptation (UDA) is guaranteed only under strong assumptions such as covariate shift and overlap between input domains. The latter is often violated in high-dimensional applications such as image classification which, despite this challenge, continues to serve as inspiration and benchmark for algorithm development. In this work, we show that access to side information about examples from the source and target domains can help relax these assumptions and increase sample efficiency in learning, at the cost of collecting a richer variable set. We call this domain adaptation by learning using privileged information (DALUPI). Tailored for this task, we propose a simple two-stage learning algorithm inspired by our analysis and a practical end-to-end algorithm for multi-label image classification. In a suite of experiments, including an application to medical image analysis, we demonstrate that incorporating privileged information in learning can reduce errors in domain transfer compared to classical learning.
翻訳日:2023-03-17 15:12:09 公開日:2023-03-16
# CSSL-MHTR: スケーラブルなマルチスクリプト手書き文字認識のための継続的自己教師付き学習

CSSL-MHTR: Continual Self-Supervised Learning for Scalable Multi-script Handwritten Text Recognition ( http://arxiv.org/abs/2303.09347v1 )

ライセンス: Link先を確認
Marwa Dhiaf, Mohamed Ali Souibgui, Kai Wang, Yuyang Liu, Yousri Kessentini, Alicia Forn\'es, Ahmed Cheikh Rouhou(参考訳) 自己教師型学習がドキュメント分析の強力な代替手段として最近登場した。 これらのアプローチは、高品質の画像表現を学習し、大量のラベル付きデータを必要とする教師付きメソッドの制限を克服することができる。 しかし、これらの手法は、データを逐次的にモデルに提示し、現実的なシナリオに近い、インクリメンタルな方法で新しい知識を捉えることができない。 本稿では,手書き文字認識における破滅的忘れ問題を軽減するために,連続的な自己教師型学習の可能性について検討する。 本手法は,各タスクにアダプタと呼ばれる中間層を追加し,現在のタスクを学習しながら,前のモデルから効率的に知識を抽出する。 提案フレームワークは計算とメモリの複雑さの両方において効率的である。 本手法の有効性を実証するために,ラテン文字や非ラテン文字を含む様々なテキスト認識下流タスクに学習モデルを移行することで評価した。 私たちが知る限り、これは手書きテキスト認識における継続的自己教師付き学習の最初の応用である。 私たちは英語、イタリア語、ロシア語のスクリプトで最先端のパフォーマンスを達成し、タスク毎に数個のパラメータを追加しています。 コードとトレーニングされたモデルは一般公開される。

Self-supervised learning has recently emerged as a strong alternative in document analysis. These approaches are now capable of learning high-quality image representations and overcoming the limitations of supervised methods, which require a large amount of labeled data. However, these methods are unable to capture new knowledge in an incremental fashion, where data is presented to the model sequentially, which is closer to the realistic scenario. In this paper, we explore the potential of continual self-supervised learning to alleviate the catastrophic forgetting problem in handwritten text recognition, as an example of sequence recognition. Our method consists in adding intermediate layers called adapters for each task, and efficiently distilling knowledge from the previous model while learning the current task. Our proposed framework is efficient in both computation and memory complexity. To demonstrate its effectiveness, we evaluate our method by transferring the learned model to diverse text recognition downstream tasks, including Latin and non-Latin scripts. As far as we know, this is the first application of continual self-supervised learning for handwritten text recognition. We attain state-of-the-art performance on English, Italian and Russian scripts, whilst adding only a few parameters per task. The code and trained models will be publicly available.
翻訳日:2023-03-17 15:11:55 公開日:2023-03-16
# ニューラルネットワークに基づく随伴法による実時間弾性部分形状マッチング

Real-time elastic partial shape matching using a neural network-based adjoint method ( http://arxiv.org/abs/2303.09343v1 )

ライセンス: Link先を確認
Alban Odot (MIMESIS), Guillaume Mestdagh (IRMA, MIMESIS), Yannick Privat, St\'ephane Cotin (MIMESIS)(参考訳) 表面マッチングは、通常、物理的ポリシーの欠如による構造的故障につながる大きな変形をもたらす。 この文脈では、非線形変形可能な物体の部分的表面マッチングは、構造変形を制御する工学において不可欠である。 本稿では,物体に作用する表面力分布と超弾性モデルを用いて計算した結果の変形が未知である人工ニューラルネットワークを用いて,最適制御問題として登録問題を定式化することを提案する。 この最適化問題は、フィードフォワードニューラルネットワークを用いて超弾性問題を解き、ネットワークのバックプロパゲーションにより随伴問題を得る随伴法を用いて解く。 このプロセスは、許容可能な登録エラーを提供しながら、計算速度を複数桁改善する。

Surface matching usually provides significant deformations that can lead to structural failure due to the lack of physical policy. In this context, partial surface matching of non-linear deformable bodies is crucial in engineering to govern structure deformations. In this article, we propose to formulate the registration problem as an optimal control problem using an artificial neural network where the unknown is the surface force distribution that applies to the object and the resulting deformation computed using a hyper-elastic model. The optimization problem is solved using an adjoint method where the hyper-elastic problem is solved using the feed-forward neural network and the adjoint problem is obtained through the backpropagation of the network. Our process improves the computation speed by multiple orders of magnitude while providing acceptable registration errors.
翻訳日:2023-03-17 15:11:36 公開日:2023-03-16
# リニアコンテクストバンディットにおけるミス種別とサブオプティマスギャップの相互作用について

On the Interplay Between Misspecification and Sub-optimality Gap in Linear Contextual Bandits ( http://arxiv.org/abs/2303.09390v1 )

ライセンス: Link先を確認
Weitong Zhang and Jiafan He and Zhiyuan Fan and Quanquan Gu(参考訳) 本研究では,不特定設定における線形文脈バンディットについて検討し,期待報酬関数は境界的不特定化レベル$\zeta>0$までの線形関数クラスで近似できることを示した。 本稿では,オンライン回帰の不確実性が大きい文脈ベクトルのみを選択する新しいデータ選択方式に基づくアルゴリズムを提案する。 誤特定レベル $\zeta$ が$\tilde o (\delta / \sqrt{d})$ で、$\delta$ が最小の準最適ギャップであり、$d$ が文脈ベクトルの次元であるとき、アルゴリズムは$\tilde o (d^2/\delta)$ が対数因子に設定されるのと同じギャップ依存の後悔を楽しむ。 さらに,既存のアルゴリズムであるSupLinUCB (Chu et al., 2011) が,準最適ギャップ$\Delta$の知識を必要とせずに,ギャップ依存の連続後悔境界を達成可能であることを示す。 Lattimore et al. (2020) より適応された下限とともに、この結果は、(1) 線形文脈的帯域幅モデルは、$\zeta \leq \tilde O(\Delta / \sqrt{d})$, (2) が$\zeta \geq \tilde \Omega({\Delta} / {\sqrt{d}})$の場合に効率よく学習可能であることを示唆している。 合成と実世界の両方のデータセットの実験は、我々の理論的結果を裏付ける。

We study linear contextual bandits in the misspecified setting, where the expected reward function can be approximated by a linear function class up to a bounded misspecification level $\zeta>0$. We propose an algorithm based on a novel data selection scheme, which only selects the contextual vectors with large uncertainty for online regression. We show that, when the misspecification level $\zeta$ is dominated by $\tilde O (\Delta / \sqrt{d})$ with $\Delta$ being the minimal sub-optimality gap and $d$ being the dimension of the contextual vectors, our algorithm enjoys the same gap-dependent regret bound $\tilde O (d^2/\Delta)$ as in the well-specified setting up to logarithmic factors. In addition, we show that an existing algorithm SupLinUCB (Chu et al., 2011) can also achieve a gap-dependent constant regret bound without the knowledge of sub-optimality gap $\Delta$. Together with a lower bound adapted from Lattimore et al. (2020), our result suggests an interplay between misspecification level and the sub-optimality gap: (1) the linear contextual bandit model is efficiently learnable when $\zeta \leq \tilde O(\Delta / \sqrt{d})$; and (2) it is not efficiently learnable when $\zeta \geq \tilde \Omega({\Delta} / {\sqrt{d}})$. Experiments on both synthetic and real-world datasets corroborate our theoretical results.
翻訳日:2023-03-17 15:06:05 公開日:2023-03-16
# 高信頼の認定再考と自律システムの倫理的保護

Rethinking Certification for Higher Trust and Ethical Safeguarding of Autonomous Systems ( http://arxiv.org/abs/2303.09388v1 )

ライセンス: Link先を確認
Dasa Kusnirakova and Barbora Buhnova(参考訳) 自動運転のような重要なドメインを浸透させるソフトウェアの複雑さが増す中、これらのシステムのエンジニアリングを再考する必要がある新しい課題が生まれている。 自動運転は、自動運転システムの認証の複雑さを増し、重要な運転機能をすべて徐々に超えていくことが期待されている。 その結果、認証当局はすでに自動運転車とそのソフトウェアを認証するための戦略を導入している。 しかし、これらの新しいアプローチにもかかわらず、認証手続きは将来の自律システムのダイナミズムと予測不能に完全に追いついていないため、これらのシステムに課される全ての要件へのコンプライアンスを保証するとは限らない。 本稿では,システムに重大な影響を与える可能性のある認証戦略について,いくつかの問題点を特定した。 例えば、絶えず変化するシステムで発生するソフトウェア変更に対する適切なリフレクションの欠如や、協調動作の管理に必要なシステムの協力の低さを強調します。 他の欠点は、自律的なソフトウェアシステムの倫理的振る舞いなどの側面を無視して、認定された認定の焦点を狭めることである。 この論文の貢献は3倍である。 まず、自動運転システムにおける現在の認証プロセスを変更する必要のある動機について述べる。 第2に、認定プロセスで使用される現在の国際標準を、動的ソフトウェアエコシステムと自律システム自体に規定された要件から導かれる要件に分析する。 第3に、欠落した部分を認定手続きに組み込むという概念を概説する。

With the increasing complexity of software permeating critical domains such as autonomous driving, new challenges are emerging in the ways the engineering of these systems needs to be rethought. Autonomous driving is expected to continue gradually overtaking all critical driving functions, which is adding to the complexity of the certification of autonomous driving systems. As a response, certification authorities have already started introducing strategies for the certification of autonomous vehicles and their software. But even with these new approaches, the certification procedures are not fully catching up with the dynamism and unpredictability of future autonomous systems, and thus may not necessarily guarantee compliance with all requirements imposed on these systems. In this paper, we identified a number of issues with the proposed certification strategies, which may impact the systems substantially. For instance, we emphasize the lack of adequate reflection on software changes occurring in constantly changing systems, or low support for systems' cooperation needed for the management of coordinated moves. Other shortcomings concern the narrow focus of the awarded certification by neglecting aspects such as the ethical behavior of autonomous software systems. The contribution of this paper is threefold. First, we discuss the motivation for the need to modify the current certification processes for autonomous driving systems. Second, we analyze current international standards used in the certification processes towards requirements derived from the requirements laid on dynamic software ecosystems and autonomous systems themselves. Third, we outline a concept for incorporating the missing parts into the certification procedure.
翻訳日:2023-03-17 15:05:28 公開日:2023-03-16
# AIシステムによるマニピュレーションの特徴付け

Characterizing Manipulation from AI Systems ( http://arxiv.org/abs/2303.09387v1 )

ライセンス: Link先を確認
Micah Carroll, Alan Chan, Henry Ashton, David Krueger(参考訳) 操作は、ソーシャルメディア、広告、チャットボットなど、多くのドメインで共通の関心事である。 aiシステムは、私たちの世界とのインタラクションをより多く仲介するので、aiシステムが人間の \textit{with the intent of the system designer}を操作できる程度を理解することが重要です。 我々の研究は、AIシステムのコンテキストにおける操作の定義と測定における課題を明らかにする。 第一に、私たちは他の分野からの操作に関する先行文献を構築し、インセンティブ、意図、危害、隠ぺいの概念に依存する操作の可能な概念の空間を特徴づける。 各要因の運用方法についての提案をレビューする。 第2に,我々の特性に基づく操作の定義を提案する。 システムは操作的 \textit{if it が意図的かつ秘密的に人間(または他のエージェント)を変更するインセンティブを追求しているかのように振る舞う。 第3に,マニピュレーションと関連する概念(デセプションや強制など)との関係について論じる。 最後に、いくつかのアプリケーションにおける操作の運用をコンテキスト化します。 全体的な評価では、AIシステムによる操作の定義と測定にいくつかの進歩があったが、多くのギャップが残っている。 コンセンサスの定義や測定のための信頼できるツールがないため、システム設計者の意図なしにAIシステムが人間の操作を学ぶ可能性を排除することはできない。 このような操作は、人間の自律性に重大な脅威をもたらし、それを軽減するための予防措置が保証されていることを示唆している。

Manipulation is a common concern in many domains, such as social media, advertising, and chatbots. As AI systems mediate more of our interactions with the world, it is important to understand the degree to which AI systems might manipulate humans \textit{without the intent of the system designers}. Our work clarifies challenges in defining and measuring manipulation in the context of AI systems. Firstly, we build upon prior literature on manipulation from other fields and characterize the space of possible notions of manipulation, which we find to depend upon the concepts of incentives, intent, harm, and covertness. We review proposals on how to operationalize each factor. Second, we propose a definition of manipulation based on our characterization: a system is manipulative \textit{if it acts as if it were pursuing an incentive to change a human (or another agent) intentionally and covertly}. Third, we discuss the connections between manipulation and related concepts, such as deception and coercion. Finally, we contextualize our operationalization of manipulation in some applications. Our overall assessment is that while some progress has been made in defining and measuring manipulation from AI systems, many gaps remain. In the absence of a consensus definition and reliable tools for measurement, we cannot rule out the possibility that AI systems learn to manipulate humans without the intent of the system designers. We argue that such manipulation poses a significant threat to human autonomy, suggesting that precautionary actions to mitigate it are warranted.
翻訳日:2023-03-17 15:05:06 公開日:2023-03-16
# LLMSecEval: セキュリティ評価のための自然言語プロンプトのデータセット

LLMSecEval: A Dataset of Natural Language Prompts for Security Evaluations ( http://arxiv.org/abs/2303.09384v1 )

ライセンス: Link先を確認
Catherine Tony, Markus Mutas, Nicol\'as E. D\'iaz Ferreyra and Riccardo Scandariato(参考訳) Codexのような大規模言語モデル(LLM)は、公開されているソースから数十億行のコードでトレーニングされたコード補完とコード生成タスクを実行する強力なツールである。 さらに、これらのモデルは、パブリックGitHubリポジトリから言語やプログラミングプラクティスを学ぶことによって、自然言語(NL)記述からコードスニペットを生成することができる。 LLMはNL駆動によるソフトウェアアプリケーションのデプロイを約束するが、それらが生成するコードのセキュリティは広く調査されておらず、文書化されていない。 本稿では,このようなモデルのセキュリティ性能を評価するために,150個のnlプロンプトを含むデータセットllmsecevalを提案する。 このようなプロンプトは、MITREのTop 25 Common Weakness Enumeration (CWE)ランキングに記載されているさまざまなセキュリティ脆弱性に起因したコードスニペットのNL記述である。 データセットの各プロンプトには、LLMが生成したコードに対する比較評価を容易にするセキュアな実装例が付属しています。 実用アプリケーションとして,NL記述から自動生成されるスニペットのセキュリティ評価にLLMSecEvalをどのように利用できるかを示す。

Large Language Models (LLMs) like Codex are powerful tools for performing code completion and code generation tasks as they are trained on billions of lines of code from publicly available sources. Moreover, these models are capable of generating code snippets from Natural Language (NL) descriptions by learning languages and programming practices from public GitHub repositories. Although LLMs promise an effortless NL-driven deployment of software applications, the security of the code they generate has not been extensively investigated nor documented. In this work, we present LLMSecEval, a dataset containing 150 NL prompts that can be leveraged for assessing the security performance of such models. Such prompts are NL descriptions of code snippets prone to various security vulnerabilities listed in MITRE's Top 25 Common Weakness Enumeration (CWE) ranking. Each prompt in our dataset comes with a secure implementation example to facilitate comparative evaluations against code produced by LLMs. As a practical application, we show how LLMSecEval can be used for evaluating the security of snippets automatically generated from NL descriptions.
翻訳日:2023-03-17 15:04:41 公開日:2023-03-16
# 計算的注意を用いた人間の注意予測

Predicting Human Attention using Computational Attention ( http://arxiv.org/abs/2303.09383v1 )

ライセンス: Link先を確認
Zhibo Yang, Sounak Mondal, Seoyoung Ahn, Gregory Zelinsky, Minh Hoai, Dimitris Samaras(参考訳) 視覚的注意のほとんどのモデルは、異なる視覚的検索と自由視聴タスクを用いて、トップダウンまたはボトムアップの制御を予測することを目的としている。 注意制御の両形態を予測する単一モデルであるヒューマンアテンショントランスフォーマ(hat)を提案する。 HATは、目標現在および目標存在探索中の固定のスキャンパスを予測するための新しい最先端(SOTA)であり、タスクレスな自由視聴固定のスキャンパスの予測においてSOTAと一致または上回っている。 この新しいsotaは、新しいトランスフォーマーベースのアーキテクチャと、人間のダイナミックな視覚ワーキングメモリに似た時空間認識を集合的に生成する簡易なフォベテッド網膜を使用することで実現されている。 固定セルの粗いグリッドと固定の離散化による情報損失を経験する従来の方法とは異なり、HATは密度の高い予測アーキテクチャを備え、各固定に対する密度の高いヒートマップを出力する。 HATは、有効性と汎用性の両方を強調する、計算的注意の新たな標準を定めている。 HATの実証されたスコープと適用性は、様々な注意を要するシナリオにおいて、人間の振る舞いをより正確に予測できる新しい注意モデルの開発を促すだろう。

Most models of visual attention are aimed at predicting either top-down or bottom-up control, as studied using different visual search and free-viewing tasks. We propose Human Attention Transformer (HAT), a single model predicting both forms of attention control. HAT is the new state-of-the-art (SOTA) in predicting the scanpath of fixations made during target-present and target-absent search, and matches or exceeds SOTA in the prediction of taskless free-viewing fixation scanpaths. HAT achieves this new SOTA by using a novel transformer-based architecture and a simplified foveated retina that collectively create a spatio-temporal awareness akin to the dynamic visual working memory of humans. Unlike previous methods that rely on a coarse grid of fixation cells and experience information loss due to fixation discretization, HAT features a dense-prediction architecture and outputs a dense heatmap for each fixation, thus avoiding discretizing fixations. HAT sets a new standard in computational attention, which emphasizes both effectiveness and generality. HAT's demonstrated scope and applicability will likely inspire the development of new attention models that can better predict human behavior in various attention-demanding scenarios.
翻訳日:2023-03-17 15:04:23 公開日:2023-03-16
# マルチモーダル微分可能教師なし特徴選択

Multi-modal Differentiable Unsupervised Feature Selection ( http://arxiv.org/abs/2303.09381v1 )

ライセンス: Link先を確認
Junchen Yang, Ofir Lindenbaum, Yuval Kluger, Ariel Jaffe(参考訳) マルチモーダル高スループット生物学的データは、大きな科学的機会と重要な計算課題を示す。 マルチモーダル測定では、各サンプルは2つ以上のセンサーによって同時に観測される。 このような設定では、両方のモダリティにおいて観察される多くの変数は、しばしば迷惑であり、興味のある現象に関する情報を持たない。 本稿では,複合高次元計測に基づいて情報変数を同定するマルチモーダルな非教師付き特徴選択フレームワークを提案する。 本手法は,2種類の潜在低次元構造に関連する特徴を同定する。 (i)両形態の観察を司る共有構造 (ii) 1つのモダリティにのみ現れる微分構造。 そこで我々は2つのラプラシア系スコアリング演算子を提案する。 グラフラプラシアンによって取得された構造の特徴を隠蔽し、精度を高めるため、異なるゲートでスコアを組み込む。 新しい手法の性能は、単細胞マルチオミクスへの生物学的応用を含む合成および実データを用いて説明される。

Multi-modal high throughput biological data presents a great scientific opportunity and a significant computational challenge. In multi-modal measurements, every sample is observed simultaneously by two or more sets of sensors. In such settings, many observed variables in both modalities are often nuisance and do not carry information about the phenomenon of interest. Here, we propose a multi-modal unsupervised feature selection framework: identifying informative variables based on coupled high-dimensional measurements. Our method is designed to identify features associated with two types of latent low-dimensional structures: (i) shared structures that govern the observations in both modalities and (ii) differential structures that appear in only one modality. To that end, we propose two Laplacian-based scoring operators. We incorporate the scores with differentiable gates that mask nuisance features and enhance the accuracy of the structure captured by the graph Laplacian. The performance of the new scheme is illustrated using synthetic and real datasets, including an extended biological application to single-cell multi-omics.
翻訳日:2023-03-17 15:03:59 公開日:2023-03-16
# aiの誤用から社会を守る - 能力制限はいつ保証されるのか?

Protecting Society from AI Misuse: When are Restrictions on Capabilities Warranted? ( http://arxiv.org/abs/2303.09377v1 )

ライセンス: Link先を確認
Markus Anderljung and Julian Hazell(参考訳) 人工知能(AI)システムは、より有能に成長するにつれて、ますます害をもたらすために使われるようになる。 事実、AIシステムは、不正行為の自動化、人権侵害、有害な偽画像の作成、危険な毒素の特定にすでに使われ始めている。 AIの誤用を防ぐため、特定の能力に対するターゲットの介入は保証される。 これらの制限には、特定のタイプのAIモデルにアクセス可能な人、使用可能なもの、アウトプットがフィルタリングされているか、あるいはユーザにトレース可能であるか、開発に必要なリソースを制御することが含まれる。 また、危害を引き起こすのに必要なAI以外の機能に制限を加える必要があるとも主張しています。 能力制限は誤用以上の使用を減らすリスクを負うが(好ましくない誤用トレードオフに直面している)、他の介入が不十分な場合に能力への介入が保証される。 誤用(誤用連鎖)を引き起こすのに必要な特定のステップに注目し、介入が保証されているかどうかを判断する枠組みに注目し、ai誤用を減らすための介入の分類を提供する。 この推論を,新しい毒素の予測,有害な画像の作成,槍フィッシングキャンペーンの自動化という3つの例に適用する。

Artificial intelligence (AI) systems will increasingly be used to cause harm as they grow more capable. In fact, AI systems are already starting to be used to automate fraudulent activities, violate human rights, create harmful fake images, and identify dangerous toxins. To prevent some misuses of AI, we argue that targeted interventions on certain capabilities will be warranted. These restrictions may include controlling who can access certain types of AI models, what they can be used for, whether outputs are filtered or can be traced back to their user, and the resources needed to develop them. We also contend that some restrictions on non-AI capabilities needed to cause harm will be required. Though capability restrictions risk reducing use more than misuse (facing an unfavorable Misuse-Use Tradeoff), we argue that interventions on capabilities are warranted when other interventions are insufficient, the potential harm from misuse is high, and there are targeted ways to intervene on capabilities. We provide a taxonomy of interventions that can reduce AI misuse, focusing on the specific steps required for a misuse to cause harm (the Misuse Chain), and a framework to determine if an intervention is warranted. We apply this reasoning to three examples: predicting novel toxins, creating harmful images, and automating spear phishing campaigns.
翻訳日:2023-03-17 15:03:43 公開日:2023-03-16
# dinar: 一発ヒトアバターの神経テクスチャの拡散インパインティング

DINAR: Diffusion Inpainting of Neural Textures for One-Shot Human Avatars ( http://arxiv.org/abs/2303.09375v1 )

ライセンス: Link先を確認
David Svitov, Dmitrii Gudkov, Renat Bashirov, Victor Lemptisky(参考訳) DINARは、1枚のRGB画像から現実的なフルボディアバターを作成するためのアプローチである。 従来の研究と同様に, SMPL-Xボディーモデルと組み合わせた神経テクスチャを用いて, アバターのフォトリアリスティックな品質を実現し, アニメーションや高速な推論を実現している。 テクスチャを復元するために、潜伏拡散モデルを使用し、そのようなモデルを神経テクスチャ空間でどのようにトレーニングするかを示す。 拡散モデルを用いることで、正面から見ると人物の背中のような大きな目立たない領域を現実的に再構築することができる。 パイプライン内のモデルは、2D画像とビデオのみを使用してトレーニングされています。 実験では,最先端のレンダリング品質と,新たなポーズや視点への優れた一般化を実現する。 特に、このアプローチはSnapshotPeople公開ベンチマークの最先端を改善している。

We present DINAR, an approach for creating realistic rigged fullbody avatars from single RGB images. Similarly to previous works, our method uses neural textures combined with the SMPL-X body model to achieve photo-realistic quality of avatars while keeping them easy to animate and fast to infer. To restore the texture, we use a latent diffusion model and show how such model can be trained in the neural texture space. The use of the diffusion model allows us to realistically reconstruct large unseen regions such as the back of a person given the frontal view. The models in our pipeline are trained using 2D images and videos only. In the experiments, our approach achieves state-of-the-art rendering quality and good generalization to new poses and viewpoints. In particular, the approach improves state-of-the-art on the SnapshotPeople public benchmark.
翻訳日:2023-03-17 15:03:19 公開日:2023-03-16
# 不均一脳MRIの領域適応分割のための3次元仮面自動符号化と擬似ラベル法

3D Masked Autoencoding and Pseudo-labeling for Domain Adaptive Segmentation of Heterogeneous Infant Brain MRI ( http://arxiv.org/abs/2303.09373v1 )

ライセンス: Link先を確認
Xuzhe Zhang, Yuhao Wu, Jia Guo, Jerod M. Rasmussen, Thomas G. O'Connor, Hyagriv N. Simhan, Sonja Entringer, Pathik D. Wadhwa, Claudia Buss, Cristiane S. Duarte, Andrea Jackowski, Hai Li, Jonathan Posner, Andrew F. Laine, Yun Wang(参考訳) 複数の年齢、形態、部位にまたがる乳幼児脳MRIのロバストセグメンテーションは、異なるMRIスキャナー、ベンダー、または取得シーケンスによって引き起こされる固有の不均一性や、様々な神経発達の段階によって、依然として困難である。 この課題に対処するために、これまでの研究では、機能アライメント、エントロピー最小化、コントラスト合成(スタイル転送)、擬似ラベルなど、様々な観点からドメイン適応(da)アルゴリズムを探求してきた。 本稿では, 乳児脳MRIにおける大脳皮質下領域の横断的, 横断的, 横断的セグメンテーションの課題に対処するため, MAPSeg (Masked Autoencoding and Pseudo-labelling Segmentation) と呼ばれる新しいフレームワークを提案する。 3Dマスクによるオートエンコーディングとマスク付き擬似ラベルを用いたモデルでは、ラベル付きソースドメインデータとラベルなしターゲットドメインデータから共同で学習することができる。 異なる年齢やサイトから取得したエキスパートアノテートデータセットのフレームワークを評価した。 MAPSegは、以前の最先端の教師付きベースライン、ドメインの一般化、年齢、モダリティ、取得サイトに関わらず、下位皮質領域を分割するドメイン適応フレームワークなど、他の手法よりも一貫して優れていた。 コードと事前訓練されたエンコーダはhttps://github.com/XuzheZ/MAPSegで公開される。

Robust segmentation of infant brain MRI across multiple ages, modalities, and sites remains challenging due to the intrinsic heterogeneity caused by different MRI scanners, vendors, or acquisition sequences, as well as varying stages of neurodevelopment. To address this challenge, previous studies have explored domain adaptation (DA) algorithms from various perspectives, including feature alignment, entropy minimization, contrast synthesis (style transfer), and pseudo-labeling. This paper introduces a novel framework called MAPSeg (Masked Autoencoding and Pseudo-labelling Segmentation) to address the challenges of cross-age, cross-modality, and cross-site segmentation of subcortical regions in infant brain MRI. Utilizing 3D masked autoencoding as well as masked pseudo-labeling, the model is able to jointly learn from labeled source domain data and unlabeled target domain data. We evaluated our framework on expert-annotated datasets acquired from different ages and sites. MAPSeg consistently outperformed other methods, including previous state-of-the-art supervised baselines, domain generalization, and domain adaptation frameworks in segmenting subcortical regions regardless of age, modality, or acquisition site. The code and pretrained encoder will be publicly available at https://github.com/XuzheZ/MAPSeg
翻訳日:2023-03-17 15:03:03 公開日:2023-03-16
# 視覚的質問応答一貫性の論理的意味

Logical Implications for Visual Question Answering Consistency ( http://arxiv.org/abs/2303.09427v1 )

ライセンス: Link先を確認
Sergio Tascon-Morales and Pablo M\'arquez-Neila and Raphael Sznitman(参考訳) VQA(Visual Question Answering)モデルはかなり最近の進歩にもかかわらず、矛盾する、あるいは矛盾する回答は、真の推論能力に疑問を呈し続けている。 しかし、ほとんどの提案手法は、モデルの一貫性を強制するために、質問と回答のペアに対して間接的な戦略や強い仮定を用いる。 代わりに,論理的不整合を直接低減し,モデル性能を向上させるための新しい戦略を提案する。 これを実現するために,VQAモデルに広く適用可能な新しい一貫性損失項を導入し,質問と回答のペア間の論理的関係を理解することに依存する。 このような情報は一般にVQAデータセットでは利用できないが、専用言語モデルを用いてこれらの論理的関係を推論し、提案した一貫性損失関数で使用することを提案する。 我々は、VQAイントロスペクションとDMEデータセットに関する広範な実験を行い、我々の手法が最先端のVQAモデルに改善をもたらすことを示した。

Despite considerable recent progress in Visual Question Answering (VQA) models, inconsistent or contradictory answers continue to cast doubt on their true reasoning capabilities. However, most proposed methods use indirect strategies or strong assumptions on pairs of questions and answers to enforce model consistency. Instead, we propose a novel strategy intended to improve model performance by directly reducing logical inconsistencies. To do this, we introduce a new consistency loss term that can be used by a wide range of the VQA models and which relies on knowing the logical relation between pairs of questions and answers. While such information is typically not available in VQA datasets, we propose to infer these logical relations using a dedicated language model and use these in our proposed consistency loss function. We conduct extensive experiments on the VQA Introspect and DME datasets and show that our method brings improvements to state-of-the-art VQA models, while being robust across different architectures and settings.
翻訳日:2023-03-17 14:55:57 公開日:2023-03-16
# 開系行列積シミュレーション法による二部体エントロピー成長の比較

Comparing bipartite entropy growth in open-system matrix product simulation methods ( http://arxiv.org/abs/2303.09426v1 )

ライセンス: Link先を確認
Guillermo Preisser, David Wellnitz, Thomas Botzung, Johannes Schachenmayer(参考訳) 一次元量子多体系の力学は、しばしば行列積状態 (MPS) で数値的にシミュレートされる。 MPS法の計算複雑性は、鎖の分岐に対する密度行列の減少のエントロピーの成長と関連していることが知られている。 閉系では、複雑性に関連するエントロピーはエントロピーによって一意的に定義されるが、開系では表現の選択に依存する。 本稿では,オープンシステムシミュレーションにおける行列積表現の複雑性に関連する異なるエントロピーの成長を体系的に比較する。 我々は自発放出・吸収・脱落の存在下でXXZスピン-1/2鎖をシミュレートする。 完全密度行列を行列積密度演算子 (MPDO) として表現したシミュレーションと, それぞれの軌道がMPS (QT+MPS) で表される量子軌道とを比較した。 我々は,MPDO記述における両部エントロピーが,一般にQT+MPSのエントロピーよりも時間とともに拡張可能であることを示す(トラジェクティブエントロピー,TE)。 一 自発放出吸収のために、TEが成長している間にOEは消滅し、大きな放散率及び十分に長い時間に一定の値に達すること。 ii) OEの劣化は対数成長のみを示し, TEは多項式成長する。 QT+MPSはより小さな局所状態空間を必要とするが、より好ましいエントロピー成長により、MPDOシミュレーションはQT+MPSよりも根本的に効率的になる。 さらに、MPDOシミュレーションにより、高次トロッター分解や翻訳不変性が容易に利用でき、より大きな時間ステップとシステムサイズを実現できる。

The dynamics of one-dimensional quantum many body systems is often numerically simulated with matrix product states (MPS). The computational complexity of MPS methods is known to be related to the growth of entropies of reduced density matrices for bipartitions of the chain. While for closed systems the entropy relevant for the complexity is uniquely defined by the entanglement entropy, for open systems it depends on the choice of the representation. Here, we systematically compare the growth of different entropies relevant to the complexity of matrix product representations in open-system simulations. We simulate an XXZ spin-1/2 chain in the presence of spontaneous emission/absorption and dephasing. We compare simulations using a representation of the full density matrix as a matrix product density operator (MPDO) with a quantum trajectory unravelling, where each trajectory is itself represented by an MPS (QT+MPS). We show that the bipartite entropy in the MPDO description (operator entanglement, OE) generally scales more favorable with time than the entropy in QT+MPS (trajectory entanglement, TE): i) For spontaneous emission/absorption the OE vanishes while the TE grows and reaches a constant value for large dissipative rates and sufficiently long times; ii) for dephasing the OE exhibits only logarithmic growth while the TE grows polynomially. Although QT+MPS requires a smaller local state space, the more favorable entropy growth can thus make MPDO simulations fundamentally more efficient than QT+MPS. Furthermore, MPDO simulations allow for easier exploitation of higher order Trotter decompositions and translational invariance, allowing for larger time steps and system sizes.
翻訳日:2023-03-17 14:55:41 公開日:2023-03-16
# 量子速度限界仮説を否定する閉システム

Closed systems refuting quantum speed limit hypotheses ( http://arxiv.org/abs/2303.09423v1 )

ライセンス: Link先を確認
Niklas H\"ornedal and Ole S\"onnerborn(参考訳) 速度で割った距離の形をした孤立系の量子速度制限は、閉じた系に直接拡張される。 これは例えば、よく知られたマンデルスタム・タム量子速度制限の場合である。 マーゴラスとレヴィティンは同様によく知られており、表面上は量子速度の限界を導いており、マーゴラス-レヴィタンの量子速度の限界も同様に閉系に拡張できると広く信じられている。 しかし、最近の幾何学的な検証により、ほとんどの量子速度限界と大きく異なることが明らかとなった。 本稿では,Margolus-Levitin量子速度制限が,明らかな方法で閉系に拡張されないという一般的な信念に反することを示す。 より正確には、任意の忠実度を持つ状態間で任意の短時間で発展し、任意の選択された値で正規化された期待エネルギーを維持する閉系が存在することを示す。 また、孤立系では、マンデルスタム・タム量子速度制限と、バティア・ダビエス量子速度制限と呼ばれるこの制限のわずかに弱められたバージョンが常に同時に飽和することを示した。 これら2つの進化時間の推定は、クローズドシステムへ直接拡張される。 マンデルスタム・タム量子速度制限を飽和させるが、バティア・ダビエス量子速度制限は飽和しない閉系が存在することを示す。

Quantum speed limits for isolated systems that take the form of a distance divided by a speed extend straightforwardly to closed systems. This is, for example, the case with the well-known Mandelstam-Tamm quantum speed limit. Margolus and Levitin derived an equally well-known and ostensibly related quantum speed limit, and it seems to be widely believed that the Margolus-Levitin quantum speed limit can be similarly extended to closed systems. However, a recent geometrical examination of this limit reveals that it differs significantly from most quantum speed limits. In this paper, we show contrary to the common belief that the Margolus-Levitin quantum speed limit does not extend to closed systems in an obvious way. More precisely, we show that there exist closed systems that evolve between states with any given fidelity in an arbitrarily short time while keeping the normalized expected energy fixed at any chosen value. We also show that for isolated systems, the Mandelstam-Tamm quantum speed limit and a slightly weakened version of this limit that we call the Bhatia-Davies quantum speed limit always saturate simultaneously. Both of these evolution time estimates extend straightforwardly to closed systems. We demonstrate that there are closed systems that saturate the Mandelstam-Tamm quantum speed limit but not the Bhatia-Davies quantum speed limit.
翻訳日:2023-03-17 14:55:15 公開日:2023-03-16
# Team SheffieldVeraAI at SemEval-2023 Task 3: Mono and multilingual approach for news genre, topic and persuasion technique classification

Team SheffieldVeraAI at SemEval-2023 Task 3: Mono and multilingual approaches for news genre, topic and persuasion technique classification ( http://arxiv.org/abs/2303.09421v1 )

ライセンス: Link先を確認
Ben Wu, Olesya Razuvayevskaya, Freddy Heppell, Jo\~ao A. Leite, Carolina Scarton, Kalina Bontcheva and Xingyi Song(参考訳) 本稿では,semeval-2023タスク3について,オンラインニュースにおけるカテゴリー,フレーミング,説得手法を多言語環境で検出する手法について述べる。 本稿では,Subtask 1 (News Genre) について,ドイツ語で1位となり,多言語チームの中では最高位であった完全訓練およびアダプタ mBERT モデルのアンサンブルを提案する。 Subtask 2(Framing)では,単言語RoBERTa-MUPPETLARGEとXLM-RoBERTaLARGEのアンサンブルと,アダプタとタスク適応型事前学習という2つの異なるアンサンブルを用いて,各言語の平均ランクを3言語で1位とした。 Subtask 3(Persuasion Techniques)では、英語用単言語RoBERTa-Baseモデルと、残りの言語用多言語mBERTモデルを訓練し、英語用2番目を含むすべての言語で10位に達した。 各サブタスクについて,単言語および多言語アプローチを比較し,クラス不均衡手法を検討する。

This paper describes our approach for SemEval-2023 Task 3: Detecting the category, the framing, and the persuasion techniques in online news in a multi-lingual setup. For Subtask 1 (News Genre), we propose an ensemble of fully trained and adapter mBERT models which was ranked joint-first for German, and had the highest mean rank of multi-language teams. For Subtask 2 (Framing), we achieved first place in 3 languages, and the best average rank across all the languages, by using two separate ensembles: a monolingual RoBERTa-MUPPETLARGE and an ensemble of XLM-RoBERTaLARGE with adapters and task adaptive pretraining. For Subtask 3 (Persuasion Techniques), we train a monolingual RoBERTa-Base model for English and a multilingual mBERT model for the remaining languages, which achieved top 10 for all languages, including 2nd for English. For each subtask, we compare monolingual and multilingual approaches, and consider class imbalance techniques.
翻訳日:2023-03-17 14:54:51 公開日:2023-03-16
# All4One: 自己注意と冗長性軽減による共生的近隣コントラスト学習

All4One: Symbiotic Neighbour Contrastive Learning via Self-Attention and Redundancy Reduction ( http://arxiv.org/abs/2303.09417v1 )

ライセンス: Link先を確認
Imanol G. Estepa, Ignacio Saras\'ua, Bhalaji Nagarajan, Petia Radeva(参考訳) 最も近い近隣の手法は、高い一般化能力のため、最も成功した自己教師付き学習(SSL)手法の1つであることが証明されている。 しかし、その計算効率は複数の隣人が使用されると低下する。 本稿では,all4one と呼ぶ新しいコントラスト型ssl方式を提案する。これは自己着脱機構を用いて作成した 'centroids' を用いて近傍表現間の距離を減少させるものである。 我々は、Centroid Contrastingの目標と、1つのNeighbour ContrastingとFeature Contrastingの目標を使用する。 セントロイドは複数の近傍から文脈情報を学ぶのに役立ち、隣接コントラストは近隣から直接学習表現を可能にし、特徴コントラストは特徴に固有の学習表現を可能にする。 この組み合わせにより、All4Oneは人気のあるベンチマークデータセットの線形分類評価において、人気のあるインスタンス識別アプローチを1%以上上回り、最先端(SoTA)結果が得られる。 最後に、All4Oneは、低次元と弱い拡張設定でNNCLRとBarlow Twinsを5%以上上回り、次元と拡張の埋め込みに対して堅牢であることを示す。 ソースコードはまもなく公開される予定だ。

Nearest neighbour based methods have proved to be one of the most successful self-supervised learning (SSL) approaches due to their high generalization capabilities. However, their computational efficiency decreases when more than one neighbour is used. In this paper, we propose a novel contrastive SSL approach, which we call All4One, that reduces the distance between neighbour representations using ''centroids'' created through a self-attention mechanism. We use a Centroid Contrasting objective along with single Neighbour Contrasting and Feature Contrasting objectives. Centroids help in learning contextual information from multiple neighbours whereas the neighbour contrast enables learning representations directly from the neighbours and the feature contrast allows learning representations unique to the features. This combination enables All4One to outperform popular instance discrimination approaches by more than 1% on linear classification evaluation for popular benchmark datasets and obtains state-of-the-art (SoTA) results. Finally, we show that All4One is robust towards embedding dimensionalities and augmentations, surpassing NNCLR and Barlow Twins by more than 5% on low dimensionality and weak augmentation settings. The source code would be made available soon.
翻訳日:2023-03-17 14:54:26 公開日:2023-03-16
# 自律運転における象徴的知覚リスク

Symbolic Perception Risk in Autonomous Driving ( http://arxiv.org/abs/2303.09416v1 )

ライセンス: Link先を確認
Guangyi Liu, Disha Kamale, Cristian-Ioan Vasile, and Nader Motee(参考訳) 我々は,外因性雑音の存在下での交通標識分類タスクにおける誤認識のリスクを評価するための新しい枠組みを開発した。 視覚的入力品質が徐々に改善され,交通標識までの距離が減少し,ノイズが減少する自律運転環境では,この問題を考察する。 標準分類アルゴリズムを用いて得られた推定知覚統計を用いて、誤知覚のリスクを定量化し、不完全な視覚観察の効果を緩和する。 認識出力, 期待される高レベル行動, 潜在的なコストを探索することにより, 誤認識の条件付き値-リスク(CVaR)のクローズドな表現を示す。 提案手法の有効性を裏付けるケーススタディがいくつかある。

We develop a novel framework to assess the risk of misperception in a traffic sign classification task in the presence of exogenous noise. We consider the problem in an autonomous driving setting, where visual input quality gradually improves due to improved resolution, and less noise since the distance to traffic signs decreases. Using the estimated perception statistics obtained using the standard classification algorithms, we aim to quantify the risk of misperception to mitigate the effects of imperfect visual observation. By exploring perception outputs, their expected high-level actions, and potential costs, we show the closed-form representation of the conditional value-at-risk (CVaR) of misperception. Several case studies support the effectiveness of our proposed methodology.
翻訳日:2023-03-17 14:54:04 公開日:2023-03-16
# 量子物理学における審美的動機:過去と現在

Aesthetic Motivation in Quantum Physics: Past and Present ( http://arxiv.org/abs/2303.09413v1 )

ライセンス: Link先を確認
Henrik Zinkernagel(参考訳) このエッセイは、主に量子物理学における美学とモチベーションの関係を探求し、遊び、美、洞察の喜びの概念に焦点を当てている。 これらの概念の動機づける役割は、コペンハーゲンのニールス・ボーア研究所(niels bohr institute)に関連する物理学者の一連のインタビューに基づいて、量子の先駆者の間で歴史的に検討されている。

This essay explores the relations between aesthetics and motivation, primarily in quantum physics, focusing on the notions of play, beauty, and the joy of insight. The motivating role of these notions is examined both historically among the quantum pioneers and contemporarily, based on a series of interviews, among physicists associated with the Niels Bohr Institute in Copenhagen.
翻訳日:2023-03-17 14:53:51 公開日:2023-03-16
# NeRF固有の4つ: 逆内在カメラパラメータと外在カメラパラメータの同時最適化

NeRFtrinsic Four: An End-To-End Trainable NeRF Jointly Optimizing Diverse Intrinsic and Extrinsic Camera Parameters ( http://arxiv.org/abs/2303.09412v1 )

ライセンス: Link先を確認
Hannah Schieber, Fabian Deuser, Bernhard Egger, Norbert Oswald, Daniel Roth(参考訳) ニューラル放射場(NeRF)を用いた新しいビュー合成は、新しい視点から高品質な画像を生成する最先端技術である。 既存の手法では、極端および内在的なカメラパラメータに関する事前知識が必要である。 これにより、前処理ステップが必要な合成シーンや現実世界のシナリオへの適用が制限される。 カメラパラメータとNeRFの合同最適化に関する最近の研究は、ノイズのある外部カメラパラメータの精製に重点を置いており、しばしば固有のカメラパラメータの事前処理に依存している。 さらなるアプローチは、1つのカメラのみを本質的にカバーすることに限られる。 これらの制約に対処するため、我々はNeRFtrinsic Fourと呼ばれる新しいエンドツーエンドのトレーニング可能なアプローチを提案する。 我々は,gaussian fourier特徴を用いて,外部カメラパラメータを推定し,投影誤差の監視により,固有カメラパラメータの変動を動的に予測する。 提案手法はLLFFとBLEFFの既存の共同最適化手法よりも優れている。 これら既存のデータセットに加えて,固有カメラパラメータの異なるiffと呼ばれる新しいデータセットも導入する。 nerftrinsic fourは、nerfベースのビュー合成を共同最適化するステップであり、カメラパラメータの異なる現実世界のシナリオにおいて、よりリアルで柔軟なレンダリングを可能にする。

Novel view synthesis using neural radiance fields (NeRF) is the state-of-the-art technique for generating high-quality images from novel viewpoints. Existing methods require a priori knowledge about extrinsic and intrinsic camera parameters. This limits their applicability to synthetic scenes, or real-world scenarios with the necessity of a preprocessing step. Current research on the joint optimization of camera parameters and NeRF focuses on refining noisy extrinsic camera parameters and often relies on the preprocessing of intrinsic camera parameters. Further approaches are limited to cover only one single camera intrinsic. To address these limitations, we propose a novel end-to-end trainable approach called NeRFtrinsic Four. We utilize Gaussian Fourier features to estimate extrinsic camera parameters and dynamically predict varying intrinsic camera parameters through the supervision of the projection error. Our approach outperforms existing joint optimization methods on LLFF and BLEFF. In addition to these existing datasets, we introduce a new dataset called iFF with varying intrinsic camera parameters. NeRFtrinsic Four is a step forward in joint optimization NeRF-based view synthesis and enables more realistic and flexible rendering in real-world scenarios with varying camera parameters.
翻訳日:2023-03-17 14:53:42 公開日:2023-03-16
# ナレーター:関係推論による人間-シーンインタラクション生成の自然制御に向けて

Narrator: Towards Natural Control of Human-Scene Interaction Generation via Relationship Reasoning ( http://arxiv.org/abs/2303.09410v1 )

ライセンス: Link先を確認
Haibiao Xuan, Xiongzheng Li, Jinsong Zhang, Hongwen Zhang, Yebin Liu and Kun Li(参考訳) 自然制御可能なヒューマン・シーン・インタラクション(HSI)生成は、VR/ARコンテンツ作成や人間中心AIなど、さまざまな分野で重要な役割を果たしている。 しかし、既存の手法は制御性に不自然な非直感的であり、実際は適用を厳しく制限している。 そこで本研究では,テキスト記述から現実的で多様なHSIを自然かつ制御的に生成する課題に焦点を当てる。 人間の認知から、理想的な生成モデルは、空間的関係と対話的行動について正しく推論すべきである。 そこで我々は,3次元シーンとテキスト記述を与えられた自然制御可能な生成のための条件付き変分オートエンコーダを用いた新しい関係推論に基づく生成手法であるNarratorを提案する。 また,3次元シーンとテキスト記述のグローバルな空間関係をシーングラフに基づいてモデル化し,相互作用を原子体部分状態として表現するための部分レベルアクション機構を導入する。 特に、関係推論の利点から、制御可能な複数のシーンインタラクション生成のための最初の探索である、シンプルで効果的なマルチヒューマン生成戦略をさらに提案する。 我々の広範な実験と知覚研究により、ナレーターは様々な相互作用を制御的に生成し、既存の作品を大幅に上回ることができることが示された。 コードとデータセットは研究目的に利用できる。

Naturally controllable human-scene interaction (HSI) generation has an important role in various fields, such as VR/AR content creation and human-centered AI. However, existing methods are unnatural and unintuitive in their controllability, which heavily limits their application in practice. Therefore, we focus on a challenging task of naturally and controllably generating realistic and diverse HSIs from textual descriptions. From human cognition, the ideal generative model should correctly reason about spatial relationships and interactive actions. To that end, we propose Narrator, a novel relationship reasoning-based generative approach using a conditional variation autoencoder for naturally controllable generation given a 3D scene and a textual description. Also, we model global and local spatial relationships in a 3D scene and a textual description respectively based on the scene graph, and introduce a partlevel action mechanism to represent interactions as atomic body part states. In particular, benefiting from our relationship reasoning, we further propose a simple yet effective multi-human generation strategy, which is the first exploration for controllable multi-human scene interaction generation. Our extensive experiments and perceptual studies show that Narrator can controllably generate diverse interactions and significantly outperform existing works. The code and dataset will be available for research purposes.
翻訳日:2023-03-17 14:53:23 公開日:2023-03-16
# コスト対応曖昧性集合を用いた分布的ロバスト最適化

Distributionally Robust Optimization using Cost-Aware Ambiguity Sets ( http://arxiv.org/abs/2303.09408v1 )

ライセンス: Link先を確認
Mathijs Schuurmans and Panagiotis Patrinos(参考訳) 本稿では,分散ロバスト最適化(DRO)のためのあいまい性の新たなクラスを提案する。 これらの曖昧性集合はコスト認識曖昧性集合と呼ばれ、最適解の独立な推定で評価されるコスト関数に依存する半空間として定義される。 得られたDRO法は,高信頼上界と外乱予測コストの一貫した推定器の両方を提供し,分散に基づく曖昧性集合に比べて保守的解が低いことを実証的に示す。

We present a novel class of ambiguity sets for distributionally robust optimization (DRO). These ambiguity sets, called cost-aware ambiguity sets, are defined as halfspaces which depend on the cost function evaluated at an independent estimate of the optimal solution, thus excluding only those distributions that are expected to have significant impact on the obtained worst-case cost. We show that the resulting DRO method provides both a high-confidence upper bound and a consistent estimator of the out-of-sample expected cost, and demonstrate empirically that it results in less conservative solutions compared to divergence-based ambiguity sets.
翻訳日:2023-03-17 14:53:03 公開日:2023-03-16
# 証明数に基づくモンテカルロ木探索

Proof Number Based Monte-Carlo Tree Search ( http://arxiv.org/abs/2303.09449v1 )

ライセンス: Link先を確認
Elliot Doe, Mark H. M. Winands, Jakub Kowalski, Dennis J. N. J. Soemers, Daniel G\'orski, Cameron Browne(参考訳) 本稿では,モンテカルロ木探索(MCTS)とProof-Number Search(PNS)を組み合わせた新しいゲーム検索アルゴリズムであるPN-MCTSを提案する。 これら2つのアルゴリズムは、様々な領域における意思決定にうまく適用されている。 我々は,mcts木に収集された証明と不完全数によって提供される付加的な知識が,最終移動選択,部分木解,uct公式の3つの領域を定義できる。 さまざまな時間設定で可能な組み合わせをすべてテストし、いくつかのゲームでVanilla UCT MCTSと対戦する: Lines of Action(7$\times$7$と8$\times$8$)、MiniShogi、Knightthrough、Awari、Gomoku。 さらに,新たなアルゴリズムを拡張して,MCTSツリー上にPNSの付加層を追加することで,Awariのようなドローを持つゲームに適切に対処する。 実験の結果、PN-MCTSは6つのゲームドメインのうち5つ(すべてゴモクを除く)でMCTSを確実に上回り、96.2%の勝利率を記録した。

This paper proposes a new game search algorithm, PN-MCTS, that combines Monte-Carlo Tree Search (MCTS) and Proof-Number Search (PNS). These two algorithms have been successfully applied for decision making in a range of domains. We define three areas where the additional knowledge provided by the proof and disproof numbers gathered in MCTS trees might be used: final move selection, solving subtrees, and the UCT formula. We test all possible combinations on different time settings, playing against vanilla UCT MCTS on several games: Lines of Action ($7$$\times$$7$ and $8$$\times$$8$), MiniShogi, Knightthrough, Awari, and Gomoku. Furthermore, we extend this new algorithm to properly address games with draws, like Awari, by adding an additional layer of PNS on top of the MCTS tree. The experiments show that PN-MCTS confidently outperforms MCTS in 5 out of 6 game domains (all except Gomoku), achieving win rates up to 96.2% for Lines of Action.
翻訳日:2023-03-17 14:47:06 公開日:2023-03-16
# リハーサルなし連続学習のためのプロンプトチューニングによるステアリングプロトタイプ

Steering Prototype with Prompt-tuning for Rehearsal-free Continual Learning ( http://arxiv.org/abs/2303.09447v1 )

ライセンス: Link先を確認
Zhuowei Li, Long Zhao, Zizhao Zhang, Han Zhang, Di Liu, Ting Liu, Dimitris N. Metaxas(参考訳) クラス埋め込みの表現としてのPrototypeは、メモリフットプリントの削減や、継続的な学習シナリオにおける忘れの軽減のために研究されている。 しかし, プロトタイプベースの手法は, セマンティックドリフトやプロトタイプの干渉による急激な性能劣化に悩まされている。 本研究では,Contrastive Prototypeal Prompt (CPP) を提案し,対照的な学習目的に最適化されたタスク固有のプロンプトチューニングが,両方の障害に効果的に対処し,プロトタイプの有用性を著しく向上させることができることを示す。 実験の結果,cppは4つの難解なクラスインクリメンタル学習ベンチマークに優れており,その結果,最先端の手法よりも4%から6%の絶対的改善が得られた。 さらに、CPPはリハーサルバッファを必要とせず、継続学習とオフライン共同学習のパフォーマンスギャップを橋渡しし、Transformerアーキテクチャの下で連続学習システムのための有望な設計スキームを示す。

Prototype, as a representation of class embeddings, has been explored to reduce memory footprint or mitigate forgetting for continual learning scenarios. However, prototype-based methods still suffer from abrupt performance deterioration due to semantic drift and prototype interference. In this study, we propose Contrastive Prototypical Prompt (CPP) and show that task-specific prompt-tuning, when optimized over a contrastive learning objective, can effectively address both obstacles and significantly improve the potency of prototypes. Our experiments demonstrate that CPP excels in four challenging class-incremental learning benchmarks, resulting in 4% to 6% absolute improvements over state-of-the-art methods. Moreover, CPP does not require a rehearsal buffer and it largely bridges the performance gap between continual learning and offline joint-learning, showcasing a promising design scheme for continual learning systems under a Transformer architecture.
翻訳日:2023-03-17 14:46:44 公開日:2023-03-16
# 肺セグメンテーションを用いたct検査によるcovid-19検出の増強と重症度

Enhanced detection of the presence and severity of COVID-19 from CT scans using lung segmentation ( http://arxiv.org/abs/2303.09440v1 )

ライセンス: Link先を確認
Robert Turnbull(参考訳) 医療画像の自動解析の改善は、患者にケアを提供するためのより多くの選択肢を提供する。 2023年のAI対応医療画像分析ワークショップとコビッド-19診断コンペティション(AI-MIA-COV19D)は、CTスキャンから新型コロナウイルスの存在と重症度を検出する機械学習手法を試験、洗練する機会を提供する。 本稿では2022年大会に提出されたディープラーニングモデルであるCov3dのバージョン2を示す。 モデルは、CTスキャンの肺を分画し、この領域への入力を収穫する前処理ステップによって改善されている。 その結果、CTスキャンにおけるCOVID-19の存在を予測するための検証マクロF1スコアが92.2%となり、これはベースラインの74%を大きく上回っている。 これは、タスク2の検証セットにおけるcovid-19の重症度を予測するマクロf1スコアを67%とし、これは38%のベースラインを超えている。

Improving automated analysis of medical imaging will provide clinicians more options in providing care for patients. The 2023 AI-enabled Medical Image Analysis Workshop and Covid-19 Diagnosis Competition (AI-MIA-COV19D) provides an opportunity to test and refine machine learning methods for detecting the presence and severity of COVID-19 in patients from CT scans. This paper presents version 2 of Cov3d, a deep learning model submitted in the 2022 competition. The model has been improved through a preprocessing step which segments the lungs in the CT scan and crops the input to this region. It results in a validation macro F1 score for predicting the presence of COVID-19 in the CT scans at 92.2% which is significantly above the baseline of 74%. It gives a macro F1 score for predicting the severity of COVID-19 on the validation set for task 2 as 67% which is above the baseline of 38%.
翻訳日:2023-03-17 14:46:09 公開日:2023-03-16
# Trustera: ライブ会話のリアクションシステム

Trustera: A Live Conversation Redaction System ( http://arxiv.org/abs/2303.09438v1 )

ライセンス: Link先を確認
Evandro Gouv\^ea, Ali Dadgar, Shahab Jalalvand, Rathi Chengalvarayan, Badrinath Jayakumar, Ryan Price, Nicholas Ruiz, Jennifer McGovern, Srinivas Bangalore, Ben Stern(参考訳) trusteraは、個人識別可能な情報(pii)をリアルタイムの会話で再現し、エージェントがセンシティブな情報を聞く必要をなくし、顧客とエージェントの会話の自然さを保った最初の機能システムである。 コール後のリアクションとは対照的に、顧客がPIIエンティティに話しかけ始めると、オーディオマスキングが始まる。 これにより、PIIがインターセプトされたり、安全でないデータストレージに格納されたりするリスクが大幅に低減される。 Trusteraのアーキテクチャは、音声認識、自然言語理解、ライブオーディオ再実行モジュールからなる。 システムの目的は3つある: PII であるエンティティを再実行し、エージェントに渡されるオーディオを隠蔽し、同時にエンティティをキャプチャし、取得した PII を支払いトランザクションや呼び出し元識別に使用できる。 trusteraは現在、何千ものエージェントが顧客の機密情報を確保するために使用しています。

Trustera, the first functional system that redacts personally identifiable information (PII) in real-time spoken conversations to remove agents' need to hear sensitive information while preserving the naturalness of live customer-agent conversations. As opposed to post-call redaction, audio masking starts as soon as the customer begins speaking to a PII entity. This significantly reduces the risk of PII being intercepted or stored in insecure data storage. Trustera's architecture consists of a pipeline of automatic speech recognition, natural language understanding, and a live audio redactor module. The system's goal is three-fold: redact entities that are PII, mask the audio that goes to the agent, and at the same time capture the entity, so that the captured PII can be used for a payment transaction or caller identification. Trustera is currently being used by thousands of agents to secure customers' sensitive information.
翻訳日:2023-03-17 14:45:53 公開日:2023-03-16
# 結論へのジャンプ: 線形変換を備えたショートカッティング変換器

Jump to Conclusions: Short-Cutting Transformers With Linear Transformations ( http://arxiv.org/abs/2303.09435v1 )

ライセンス: Link先を確認
Alexander Yom Din, Taelin Karidi, Leshem Choshen, Mor Geva(参考訳) トランスフォーマーベースの言語モデル(LM)は、各層で入力の隠れ表現を生成するが、予測には最終層表現のみを使用する。 これは、モデルの内部意思決定プロセスとその中間表現の有用性を曖昧にする。 これを解明する一つの方法は、隠れた表現を最終的な表現としてキャストし、中間のトランスフォーマー計算をバイパスすることである。 本研究では, 線形変換を用いた簡単な鋳造法を提案する。 提案手法は, 最終層空間のすべての層から隠れた表現を検査する手法よりも, より正確な近似を導出することを示す。 さらに, 言語モデリングの文脈では, gpt-2 と bert の初期層表現を「覗き込む」ことが可能であり, lms が初期層における最終出力を既に予測していることが多い。 次に,近年の早期出口戦略に対する本手法の実践性を実証し,例えば95%の精度維持を目指すと,従来のアプローチの節約に加えて,GPT-2では7.9%,BERTでは5.4%の追加レイヤを節約できることを示した。 最後に、我々の手法を線形に近似した部分加群に拡張し、この変化に対して注意が最も寛容であることを確かめる。

Transformer-based language models (LMs) create hidden representations of their inputs at every layer, but only use final-layer representations for prediction. This obscures the internal decision-making process of the model and the utility of its intermediate representations. One way to elucidate this is to cast the hidden representations as final representations, bypassing the transformer computation in-between. In this work, we suggest a simple method for such casting, by using linear transformations. We show that our approach produces more accurate approximations than the prevailing practice of inspecting hidden representations from all layers in the space of the final layer. Moreover, in the context of language modeling, our method allows "peeking" into early layer representations of GPT-2 and BERT, showing that often LMs already predict the final output in early layers. We then demonstrate the practicality of our method to recent early exit strategies, showing that when aiming, for example, at retention of 95% accuracy, our approach saves additional 7.9% layers for GPT-2 and 5.4% layers for BERT, on top of the savings of the original approach. Last, we extend our method to linearly approximate sub-modules, finding that attention is most tolerant to this change.
翻訳日:2023-03-17 14:45:38 公開日:2023-03-16
# NeRFMeshing: 幾何学的に正確な3Dメッシュに神経放射場を蒸留する

NeRFMeshing: Distilling Neural Radiance Fields into Geometrically-Accurate 3D Meshes ( http://arxiv.org/abs/2303.09431v1 )

ライセンス: Link先を確認
Marie-Julie Rakotosaona, Fabian Manhardt, Diego Martin Arroyo, Michael Niemeyer, Abhijit Kundu, Federico Tombari(参考訳) NeRF(Neural Radiance Fields)の導入により、新しいビュー合成は、最近大きな飛躍を遂げた。 中心となるのが、各3dポイントが放射光を発し、微分可能なボリュームトリップレンダリングを使用してビュー合成を行うことである。 ニューラルネットワークは画像レンダリングの3Dシーンを正確に表現できるが、3Dメッシュは依然としてほとんどのコンピュータグラフィックスやシミュレーションパイプラインでサポートされているメインシーン表現であり、リアルタイムレンダリングや物理ベースのシミュレーションなどのタスクを可能にする。 ニューラル放射場からの3Dメッシュの取得は、NeRFが視線合成に最適化されているため、放射場上の正確な基底幾何学を強制しないため、依然としてオープンな課題である。 そこで我々は,NeRF駆動のアプローチで容易に3次元表面を再構成できる,コンパクトで柔軟なアーキテクチャを提案する。 放射場を訓練すると、体積3D表現を符号付き表面近似ネットワークに蒸留し、3Dメッシュと外観を容易に抽出することができる。 最後の3Dメッシュは物理的に正確で、デバイスアレイ上でリアルタイムでレンダリングできます。

With the introduction of Neural Radiance Fields (NeRFs), novel view synthesis has recently made a big leap forward. At the core, NeRF proposes that each 3D point can emit radiance, allowing to conduct view synthesis using differentiable volumetric rendering. While neural radiance fields can accurately represent 3D scenes for computing the image rendering, 3D meshes are still the main scene representation supported by most computer graphics and simulation pipelines, enabling tasks such as real time rendering and physics-based simulations. Obtaining 3D meshes from neural radiance fields still remains an open challenge since NeRFs are optimized for view synthesis, not enforcing an accurate underlying geometry on the radiance field. We thus propose a novel compact and flexible architecture that enables easy 3D surface reconstruction from any NeRF-driven approach. Upon having trained the radiance field, we distill the volumetric 3D representation into a Signed Surface Approximation Network, allowing easy extraction of the 3D mesh and appearance. Our final 3D mesh is physically accurate and can be rendered in real time on an array of devices.
翻訳日:2023-03-17 14:45:13 公開日:2023-03-16
# 量子インスピレーション型数値解析におけるMPSのグローバル最適化

Global optimization of MPS in quantum-inspired numerical analysis ( http://arxiv.org/abs/2303.09430v1 )

ライセンス: Link先を確認
Paula Garc\'ia-Molina, Luca Tagliacozzo, Juan Jos\'e Garc\'ia-Ripoll(参考訳) 本稿では,行列積状態(MPS)を用いた偏微分方程式(PDE)の解について論じる。 この研究はハミルトン方程式の最低固有状態の探索に焦点をあて、虚数時間進化、最も急勾配降下、改善された勾配降下、暗黙的に再起動されたアルノルニ法、密度行列再正規化群(DMRG)最適化の5つのアルゴリズムが導入された。 最初の4つの方法は限定精度線形代数の枠組みを用いて設計され、MPSと行列積演算子(MPO)間の演算は有限資源で実装される。 すべての手法はPDEを用いて最大2次元の量子調和振動子をベンチマークし、最大2^{28}$ポイントの正規格子上でベンチマークを行う。 本研究では,すべてのmpsに基づく手法が,メモリ使用量に関してベクトルに基づく正確な対角化技術よりも優れていることを示す。 想像時間アルゴリズムは、キャリブレーションのニーズとコストの両面で、任意の種類の勾配降下を過小評価することが示されている。 最後に、Arnticiのような手法やDMRGは、問題のサイズが大きくなるにつれて正確な対角化を含む他の方法よりも漸近的に優れている。

This work discusses the solution of partial differential equations (PDEs) using matrix product states (MPS). The study focuses on the search for the lowest eigenstates of a Hamiltonian equation, for which five algorithms are introduced: imaginary-time evolution, steepest gradient descent, an improved gradient descent, an implicitly restarted Arnoldi method, and density matrix renormalization group (DMRG) optimization. The first four methods are engineered using a framework of limited-precision linear algebra, where operations between MPS and matrix product operators (MPOs) are implemented with finite resources. All methods are benchmarked using the PDE for a quantum harmonic oscillator in up to two dimensions, over a regular grid with up to $2^{28}$ points. Our study reveals that all MPS-based techniques outperform exact diagonalization techniques based on vectors, with respect to memory usage. Imaginary-time algorithms are shown to underperform any type of gradient descent, both in terms of calibration needs and costs. Finally, Arnoldi like methods and DMRG asymptotically outperform all other methods, including exact diagonalization, as problem size increases, with an exponential advantage in memory and time usage.
翻訳日:2023-03-17 14:44:52 公開日:2023-03-16
# 合成画像検索のためのデータローミングと早期融合

Data Roaming and Early Fusion for Composed Image Retrieval ( http://arxiv.org/abs/2303.09429v1 )

ライセンス: Link先を確認
Matan Levy, Rami Ben-Ari, Nir Darshan, Dani Lischinski(参考訳) 本研究では,クエリが画像とテキストの2つのモダリティで構成され,ユーザの表現能力を拡張する,合成画像検索(coir)のタスクについて検討する。 従来の方法では、各クエリのモダリティを別々にエンコーディングし、その後に抽出された特徴の後期融合によって、このタスクに対処する。 本稿では,CASE(Cross-Attention driven Shift Encoder)という新しい手法を提案する。 本手法は,確立したベンチマーク (fashioniq と cirr) において,既存の最先端技術よりも高いマージンを示した。 しかし、CoIRデータセットは他のビジョンや言語(V&L)データセットと比べて桁違いに小さく、深刻な欠陥(冗長なモダリティを持つクエリなど)に悩まされているものもある。 本稿では,新しいcoirデータセットであるlasco(large scale composed image retrieval)を導入することで,これらの欠点を解決する。 LaSCoの事前トレーニングはさらなるパフォーマンス向上をもたらす。 さらに,クエリにおけるモダリティ冗長性や必要性を検出するために,coirデータセットとメソッドの新たな分析を提案する。

We study the task of Composed Image Retrieval (CoIR), where a query is composed of two modalities, image and text, extending the user's expression ability. Previous methods typically address this task by a separate encoding of each query modality, followed by late fusion of the extracted features. In this paper, we propose a new approach, Cross-Attention driven Shift Encoder (CASE), employing early fusion between modalities through a cross-attention module with an additional auxiliary task. We show that our method outperforms the existing state-of-the-art, on established benchmarks (FashionIQ and CIRR) by a large margin. However, CoIR datasets are a few orders of magnitude smaller compared to other vision and language (V&L) datasets, and some suffer from serious flaws (e.g., queries with a redundant modality). We address these shortcomings by introducing Large Scale Composed Image Retrieval (LaSCo), a new CoIR dataset x10 times larger than current ones. Pre-training on LaSCo yields a further performance boost. We further suggest a new analysis of CoIR datasets and methods, for detecting modality redundancy or necessity, in queries.
翻訳日:2023-03-17 14:44:28 公開日:2023-03-16
# 量子機械学習における課題と機会

Challenges and Opportunities in Quantum Machine Learning ( http://arxiv.org/abs/2303.09491v1 )

ライセンス: Link先を確認
M. Cerezo, Guillaume Verdon, Hsin-Yuan Huang, Lukasz Cincio, Patrick J. Coles(参考訳) 機械学習と量子コンピューティングの交差点では、量子機械学習(qml)は、特に量子データのためのデータ分析を加速する可能性があり、量子材料、生化学、高エネルギー物理学への応用がある。 しかし、QMLモデルのトレーニング性に関する課題は依然として残っている。 ここでは、QMLの現在の方法と応用について概観する。 量子ニューラルネットワークと量子深層学習に注目し,量子機械学習と古典的機械学習の違いに注目した。 最後にQMLによる量子優位性の可能性について論じる。

At the intersection of machine learning and quantum computing, Quantum Machine Learning (QML) has the potential of accelerating data analysis, especially for quantum data, with applications for quantum materials, biochemistry, and high-energy physics. Nevertheless, challenges remain regarding the trainability of QML models. Here we review current methods and applications for QML. We highlight differences between quantum and classical machine learning, with a focus on quantum neural networks and quantum deep learning. Finally, we discuss opportunities for quantum advantage with QML.
翻訳日:2023-03-17 14:37:20 公開日:2023-03-16
# 離散状態空間を用いた実効的時系列モデリング

Effectively Modeling Time Series with Simple Discrete State Spaces ( http://arxiv.org/abs/2303.09489v1 )

ライセンス: Link先を確認
Michael Zhang, Khaled K. Saab, Michael Poli, Tri Dao, Karan Goel, and Christopher R\'e(参考訳) 時系列モデリングは確立された問題であり、(1)複雑な依存関係を表現的に表現し、(2)長い地平線を予測し、(3)長いシーケンスを効率的に訓練する必要がある。 状態空間モデル(SSM)は時系列の古典的なモデルであり、先行研究ではSSMとディープラーニング層を組み合わせて効率的なシーケンスモデリングを行う。 しかし,従来の手法では,SSM表現が自己回帰時系列過程を表現できないという根本的な制約がある。 そこで我々は,3つの基準をすべて改善した新しい状態空間時系列アーキテクチャであるSpaceTimeを導入する。 本研究では,離散時間プロセスの標準表現であるコンパニオン行列に基づく新しいSSMパラメータ化を提案し,SpaceTimeのSSM層が望ましい自己回帰過程を学習できるようにする。 ロングホライズン予測には,各層毎の入力を生成することで,時空が将来の多くの時間ステップを予測できるコンパニオンssmの「閉ループ」変動を導入する。 効率的なトレーニングと推論のために,フォワードパスのメモリ削減と計算をコンパニオン行列で実現するアルゴリズムを提案する。 シーケンス長 $\ell$ と状態空間サイズ $d$ では、$\tilde{O}(d \ell)$ na\ から $\tilde{O}(d + \ell)$ へ移行します。 実験では,6/7ECGのAUROC,音声時系列分類のAUROC,14/16 Informer予測タスクのMSEなど,多種多様なベンチマークにおける最先端の成果が得られた。 さらに,(1)深部ssmが故障する前のar($p$)プロセスに適合する,(2)最新技術よりも長い地平線で予測する,(3)リアルタイムetth1データのトレーニングをトランスフォーマーやlstmよりも73%,80%高速化する,などを見出した。

Time series modeling is a well-established problem, which often requires that methods (1) expressively represent complicated dependencies, (2) forecast long horizons, and (3) efficiently train over long sequences. State-space models (SSMs) are classical models for time series, and prior works combine SSMs with deep learning layers for efficient sequence modeling. However, we find fundamental limitations with these prior approaches, proving their SSM representations cannot express autoregressive time series processes. We thus introduce SpaceTime, a new state-space time series architecture that improves all three criteria. For expressivity, we propose a new SSM parameterization based on the companion matrix -- a canonical representation for discrete-time processes -- which enables SpaceTime's SSM layers to learn desirable autoregressive processes. For long horizon forecasting, we introduce a "closed-loop" variation of the companion SSM, which enables SpaceTime to predict many future time-steps by generating its own layer-wise inputs. For efficient training and inference, we introduce an algorithm that reduces the memory and compute of a forward pass with the companion matrix. With sequence length $\ell$ and state-space size $d$, we go from $\tilde{O}(d \ell)$ na\"ively to $\tilde{O}(d + \ell)$. In experiments, our contributions lead to state-of-the-art results on extensive and diverse benchmarks, with best or second-best AUROC on 6 / 7 ECG and speech time series classification, and best MSE on 14 / 16 Informer forecasting tasks. Furthermore, we find SpaceTime (1) fits AR($p$) processes that prior deep SSMs fail on, (2) forecasts notably more accurately on longer horizons than prior state-of-the-art, and (3) speeds up training on real-world ETTh1 data by 73% and 80% relative wall-clock time over Transformers and LSTMs.
翻訳日:2023-03-17 14:37:12 公開日:2023-03-16
# マルチモーダルMRIデータを用いたストローク出力予測のための新しいオートエンコーダ-LSTMモデル

A Novel Autoencoders-LSTM Model for Stroke Outcome Prediction using Multimodal MRI Data ( http://arxiv.org/abs/2303.09484v1 )

ライセンス: Link先を確認
Nima Hatami and Laura Mechtouff and David Rousseau and Tae-Hee Cho and Omer Eker and Yves Berthezene and Carole Frindel(参考訳) 患者予後予測は虚血性脳卒中管理に重要である。 本稿では,マルチモーダル磁気共鳴イメージング(MRI)を用いた脳卒中予後予測のための新しい機械学習モデルを提案する。 提案モデルは2つのシリアルレベルのオートエンコーダ (AE) から構成されており, レベル1の異なるAEを用いてMRIモードから一様特徴を学習し, レベル2のAEを用いて一様特徴を圧縮マルチモーダル特徴に結合する。 与えられた患者のマルチモーダル特徴のシーケンスは、lstmネットワークによって結果スコアの予測に使用される。 AE2-LSTMモデルはMRIデータの多モード性や容積性を改善するための有効な手法であることが証明された。 AE2-LSTM は AUC=0.71 と MAE=0.34 を達成し,既存の最先端技術モデルよりも優れていることを示す実験結果を得た。

Patient outcome prediction is critical in management of ischemic stroke. In this paper, a novel machine learning model is proposed for stroke outcome prediction using multimodal Magnetic Resonance Imaging (MRI). The proposed model consists of two serial levels of Autoencoders (AEs), where different AEs at level 1 are used for learning unimodal features from different MRI modalities and a AE at level 2 is used to combine the unimodal features into compressed multimodal features. The sequences of multimodal features of a given patient are then used by an LSTM network for predicting outcome score. The proposed AE2-LSTM model is proved to be an effective approach for better addressing the multimodality and volumetric nature of MRI data. Experimental results show that the proposed AE2-LSTM outperforms the existing state-of-the art models by achieving highest AUC=0.71 and lowest MAE=0.34.
翻訳日:2023-03-17 14:36:32 公開日:2023-03-16
# 連続学習における補助ネットワークによる安定性・塑性トレードオフの達成

Achieving a Better Stability-Plasticity Trade-off via Auxiliary Networks in Continual Learning ( http://arxiv.org/abs/2303.09483v1 )

ライセンス: Link先を確認
Sanghwan Kim, Lorenzo Noci, Antonio Orvieto and Thomas Hofmann(参考訳) 新しいタスクをシーケンシャルに学習する人間の自然な能力とは対照的に、ニューラルネットワークは壊滅的な忘れに苦しむことが知られており、古いタスクにおけるモデルのパフォーマンスは、新しいタスクに最適化された後に劇的に低下する。 それ以来、継続学習(CL)コミュニティは、ニューラルネットワークに現在のタスク(塑性)を学習する能力を持たせつつ、以前のタスク(安定性)を高い精度で達成することを目的とした、いくつかのソリューションを提案してきた。 顕著な改善にもかかわらず、可塑性-安定性のトレードオフはまだ解決には程遠い。 本研究では,主に安定性を重視した連続学習モデルに可塑性を促進させる補助的ネットワークを新たに導入する,補助的ネットワーク継続学習(ANCL)を提案する。 より具体的には、提案したフレームワークは、可塑性と安定性を自然に補間し、タスクインクリメンタルとクラスインクリメンタルシナリオの強いベースラインを超えたレギュレータとして実現されている。 ancl溶液の広範な分析を通じて,安定性・可塑性トレードオフ下での重要な原理を明らかにした。

In contrast to the natural capabilities of humans to learn new tasks in a sequential fashion, neural networks are known to suffer from catastrophic forgetting, where the model's performances on old tasks drop dramatically after being optimized for a new task. Since then, the continual learning (CL) community has proposed several solutions aiming to equip the neural network with the ability to learn the current task (plasticity) while still achieving high accuracy on the previous tasks (stability). Despite remarkable improvements, the plasticity-stability trade-off is still far from being solved and its underlying mechanism is poorly understood. In this work, we propose Auxiliary Network Continual Learning (ANCL), a novel method that applies an additional auxiliary network which promotes plasticity to the continually learned model which mainly focuses on stability. More concretely, the proposed framework materializes in a regularizer that naturally interpolates between plasticity and stability, surpassing strong baselines on task incremental and class incremental scenarios. Through extensive analyses on ANCL solutions, we identify some essential principles beneath the stability-plasticity trade-off.
翻訳日:2023-03-17 14:36:15 公開日:2023-03-16
# 単純個体群進化に基づく任意順序メタラーニング

Arbitrary Order Meta-Learning with Simple Population-Based Evolution ( http://arxiv.org/abs/2303.09478v1 )

ライセンス: Link先を確認
Chris Lu, Sebastian Towers, Jakob Foerster(参考訳) メタ学習は学習するべき学習の概念であり、学習システムが新しいタスクを迅速かつ柔軟に解決することを可能にする。 これは通常、内部ループパラメータのセットを更新するために使用される外ループメタパラメータのセットを定義することである。 ほとんどのメタラーニングアプローチでは、これらのメタパラメータを更新するために複雑で計算コストのかかるバイレベル最適化スキームを使用している。 理想的には、システムは複数の順序のメタ学習、すなわち学習や学習などを学習し、自分自身の学習を加速する必要がある。 残念ながら、標準的なメタ学習技術は、メタ最適化手順が複雑すぎるか不安定になるため、高次メタパラメーターには不適切であることが多い。 実世界進化において観察する高次メタラーニングに触発されて,単純な集団型進化を用いて任意の高次メタパラメータを暗黙的に最適化することを示した。 まず、人口ベース進化は、単純な設定で任意の高次メタパラメータを暗黙的に最適化することを示す。 次に、任意順序メタ学習を可能にする最小の自己参照パラメータ化を導入する。 最後に,高次メタ学習が時系列予測タスクの性能を向上させることを示す。

Meta-learning, the notion of learning to learn, enables learning systems to quickly and flexibly solve new tasks. This usually involves defining a set of outer-loop meta-parameters that are then used to update a set of inner-loop parameters. Most meta-learning approaches use complicated and computationally expensive bi-level optimisation schemes to update these meta-parameters. Ideally, systems should perform multiple orders of meta-learning, i.e. to learn to learn to learn and so on, to accelerate their own learning. Unfortunately, standard meta-learning techniques are often inappropriate for these higher-order meta-parameters because the meta-optimisation procedure becomes too complicated or unstable. Inspired by the higher-order meta-learning we observe in real-world evolution, we show that using simple population-based evolution implicitly optimises for arbitrarily-high order meta-parameters. First, we theoretically prove and empirically show that population-based evolution implicitly optimises meta-parameters of arbitrarily-high order in a simple setting. We then introduce a minimal self-referential parameterisation, which in principle enables arbitrary-order meta-learning. Finally, we show that higher-order meta-learning improves performance on time series forecasting tasks.
翻訳日:2023-03-17 14:35:53 公開日:2023-03-16
# 広ランク正半定値行列のグラディエントフロー

Gradient flow on extensive-rank positive semi-definite matrix denoising ( http://arxiv.org/abs/2303.09474v1 )

ライセンス: Link先を確認
Antoine Bodin and Nicolas Macris(参考訳) 本研究では,多階高次元環境における正の半定値行列除算問題に対する勾配流解析のための新しい手法を提案する。 我々は、確率行列理論の最近の線形鉛筆手法を用いて、問題の行列平均二乗誤差の完全時間進化を追跡する固定点方程式を導出する。 得られた定点方程式の予測は数値実験により検証される。 ここでは、例によって形式主義のいくつかの予測を簡潔に説明し、特に、適切な極限における低ランク問題の古典的な相転移に結びつく広範かつ高次元の体制における連続的な相転移を明らかにする。 形式主義は、このコミュニケーションで示されるよりもずっと広い適用性を持っている。

In this work, we present a new approach to analyze the gradient flow for a positive semi-definite matrix denoising problem in an extensive-rank and high-dimensional regime. We use recent linear pencil techniques of random matrix theory to derive fixed point equations which track the complete time evolution of the matrix-mean-square-error of the problem. The predictions of the resulting fixed point equations are validated by numerical experiments. In this short note we briefly illustrate a few predictions of our formalism by way of examples, and in particular we uncover continuous phase transitions in the extensive-rank and high-dimensional regime, which connect to the classical phase transitions of the low-rank problem in the appropriate limit. The formalism has much wider applicability than shown in this communication.
翻訳日:2023-03-17 14:35:34 公開日:2023-03-16
# DiffIR:画像復元のための効率的な拡散モデル

DiffIR: Efficient Diffusion Model for Image Restoration ( http://arxiv.org/abs/2303.09472v1 )

ライセンス: Link先を確認
Bin Xia, Yulun Zhang, Shiyin Wang, Yitong Wang, Xinglong Wu, Yapeng Tian, Wenming Yang, and Luc Van Gool(参考訳) 拡散モデル(DM)は、画像合成過程をデノナイジングネットワークのシーケンシャルな応用にモデル化することで、SOTA性能を達成した。 しかし、スクラッチから各画素を生成する画像合成とは異なり、ほとんどの画像復元(IR)が与えられる。 したがって、IRの場合、画像全体や特徴マップを推定する大規模なモデルで大規模なイテレーションを実行する従来のDMは非効率である。 この問題に対処するために、コンパクトIR先行抽出ネットワーク(CPEN)、動的IRトランスフォーマ(DIRformer)、復調ネットワーク(denoising network)からなるIR(DiffIR)のための効率的なDMを提案する。 具体的には、DiffIRには2つのトレーニングステージがある。 事前トレーニングでは, CPEN$_{S1}$に接地画像を入力することで, コンパクトIR先行表現(IPR)を捕捉し, DIRformerを誘導する。 第2段階では、LQ画像のみを用いて事前訓練されたCPEN$_{S1}$と同じIRPを直接推定するようにDMを訓練する。 IPRはコンパクトなベクトルであるため、DiffIRは従来のDMよりも少ないイテレーションで正確な推定を行い、より安定でリアルな結果を生成することができる。 繰り返しは少ないので、我々のDiffIRはCPEN$_{S2}$, DIRformer, denoising Networkを併用することで、推定誤差の影響をさらに低減することができる。 計算コストを削減しつつ、複数のIRタスクを広範囲に実験し、SOTA性能を達成する。

Diffusion model (DM) has achieved SOTA performance by modeling the image synthesis process into a sequential application of a denoising network. However, different from image synthesis generating each pixel from scratch, most pixels of image restoration (IR) are given. Thus, for IR, traditional DMs running massive iterations on a large model to estimate whole images or feature maps is inefficient. To address this issue, we propose an efficient DM for IR (DiffIR), which consists of a compact IR prior extraction network (CPEN), dynamic IR transformer (DIRformer), and denoising network. Specifically, DiffIR has two training stages: pretraining and training DM. In pretraining, we input ground-truth images into CPEN$_{S1}$ to capture a compact IR prior representation (IPR) to guide DIRformer. In the second stage, we train the DM to directly estimate the same IRP as pretrained CPEN$_{S1}$ only using LQ images. We observe that since the IPR is only a compact vector, DiffIR can use fewer iterations than traditional DM to obtain accurate estimations and generate more stable and realistic results. Since the iterations are few, our DiffIR can adopt a joint optimization of CPEN$_{S2}$, DIRformer, and denoising network, which can further reduce the estimation error influence. We conduct extensive experiments on several IR tasks and achieve SOTA performance while consuming less computational costs.
翻訳日:2023-03-17 14:35:22 公開日:2023-03-16
# 雑音ラベルによる学習改善のためのクラスセントロイド距離とアウトリーディスカウントの組み合わせ

Combining Distance to Class Centroids and Outlier Discounting for Improved Learning with Noisy Labels ( http://arxiv.org/abs/2303.09470v1 )

ライセンス: Link先を確認
Farooq Ahmad Wani, Maria Sofia Bucarelli, Fabrizio Silvestri(参考訳) 本稿では,ノイズラベルの存在下での機械学習モデルのトレーニングの課題に対処するための新しい手法を提案する。 アイテムの潜在空間におけるクラスセントロイド間距離の巧妙な使用法と割引戦略を組み合わせることで、全てのクラスセントロイド(すなわち、外れ値)から遠く離れたサンプルの重要性を減らし、ノイズラベルの問題に効果的に対処する。 私たちのアプローチは、トレーニングの初期段階でそれぞれのクラスセントロイドから遠く離れたサンプルの方がノイズが多い、という考え方に基づいています。 提案手法の有効性を,いくつかの一般的なベンチマークデータセットを用いた広範囲な実験により実証する。 以上の結果から,本手法は本分野の最先端技術よりも優れており,ノイズラベルを含むデータセットの分類精度が大幅に向上していることがわかった。

In this paper, we propose a new approach for addressing the challenge of training machine learning models in the presence of noisy labels. By combining a clever usage of distance to class centroids in the items' latent space with a discounting strategy to reduce the importance of samples far away from all the class centroids (i.e., outliers), our method effectively addresses the issue of noisy labels. Our approach is based on the idea that samples farther away from their respective class centroid in the early stages of training are more likely to be noisy. We demonstrate the effectiveness of our method through extensive experiments on several popular benchmark datasets. Our results show that our approach outperforms the state-of-the-art in this area, achieving significant improvements in classification accuracy when the dataset contains noisy labels.
翻訳日:2023-03-17 14:34:54 公開日:2023-03-16
# 固定予算バンディット同定における複雑性の存在について

On the Existence of a Complexity in Fixed Budget Bandit Identification ( http://arxiv.org/abs/2303.09468v1 )

ライセンス: Link先を確認
R\'emy Degenne(参考訳) 固定予算帯域識別では、アルゴリズムは複数の分布から与えられた最終時点までのサンプルを逐次観察する。 その後、分布の集合に関する問い合わせに答える。 良いアルゴリズムは誤りの確率が小さいだろう。 この確率は最終時刻に指数関数的に減少するが、ほとんどの識別タスクにおいて最高の到達可能率は正確には分かっていない。 固定予算タスクが、すべてのバンディット問題の1つのアルゴリズムによって達成される誤差の確率の下限として定義される複雑性を認めると、その問題に対する最適な非適応サンプリング手順によって複雑性が決定されることを示す。 2本の腕を持つベルヌーイのベストアーム識別を含むいくつかの固定予算識別タスクには、そのような複雑さがないことを示す: 可能な最良率を至る所で達成する単一のアルゴリズムは存在しない。

In fixed budget bandit identification, an algorithm sequentially observes samples from several distributions up to a given final time. It then answers a query about the set of distributions. A good algorithm will have a small probability of error. While that probability decreases exponentially with the final time, the best attainable rate is not known precisely for most identification tasks. We show that if a fixed budget task admits a complexity, defined as a lower bound on the probability of error which is attained by a single algorithm on all bandit problems, then that complexity is determined by the best non-adaptive sampling procedure for that problem. We show that there is no such complexity for several fixed budget identification tasks including Bernoulli best arm identification with two arms: there is no single algorithm that attains everywhere the best possible rate.
翻訳日:2023-03-17 14:34:41 公開日:2023-03-16
# $p+$:テキストから画像へのコンディショニングの拡張

$P+$: Extended Textual Conditioning in Text-to-Image Generation ( http://arxiv.org/abs/2303.09522v1 )

ライセンス: Link先を確認
Andrey Voynov, Qinghao Chu, Daniel Cohen-Or, Kfir Aberman(参考訳) テキストから画像への拡張テキスト条件空間($P+$)を導入する。 この空間は層間プロンプトから導かれる複数のテキスト条件で構成され、それぞれ拡散モデルのデノイングUネットの層に対応する。 拡張空間は画像合成の非結合性と制御性が向上することを示す。 さらに、拡張テキスト変換(XTI)を導入し、画像は$P+$に変換され、層単位のトークンで表現される。 XTI は表現的かつ正確であり,元の Textual Inversion (TI) 空間よりも高速に収束することを示す。 拡張反転法は、再構成と編集可能性の間の明らかなトレードオフを含まず、より規則的な反転を引き起こす。 テキスト・ツー・イメージ・モデルのパーソナライズのための手法の有効性を実証するため,新しい空間の特性を分析し,理解するための広範囲な実験を行った。 さらに、この空間のユニークな特性を利用して、テキストから画像へのモデルを用いたオブジェクトスタイルの混合において、これまで達成できなかった結果を得る。 プロジェクトページ: https://prompt-plus.github.io

We introduce an Extended Textual Conditioning space in text-to-image models, referred to as $P+$. This space consists of multiple textual conditions, derived from per-layer prompts, each corresponding to a layer of the denoising U-net of the diffusion model. We show that the extended space provides greater disentangling and control over image synthesis. We further introduce Extended Textual Inversion (XTI), where the images are inverted into $P+$, and represented by per-layer tokens. We show that XTI is more expressive and precise, and converges faster than the original Textual Inversion (TI) space. The extended inversion method does not involve any noticeable trade-off between reconstruction and editability and induces more regular inversions. We conduct a series of extensive experiments to analyze and understand the properties of the new space, and to showcase the effectiveness of our method for personalizing text-to-image models. Furthermore, we utilize the unique properties of this space to achieve previously unattainable results in object-style mixing using text-to-image models. Project page: https://prompt-plus.github.io
翻訳日:2023-03-17 14:29:13 公開日:2023-03-16
# PyVBMC:Pythonにおける効率的なベイズ推論

PyVBMC: Efficient Bayesian inference in Python ( http://arxiv.org/abs/2303.09519v1 )

ライセンス: Link先を確認
Bobby Huggins, Chengkun Li, Marlon Tobaben, Mikko J. Aarnos, Luigi Acerbi(参考訳) PyVBMCは変分ベイズ的モンテカルロ(VBMC)アルゴリズムのPythonによるブラックボックス計算モデルの後方およびモデル推論の実装である(Acerbi, 2018, 2020)。 vbmcは、モデル評価が比較的高価(例えば、1秒以上)かつ/または騒がしい場合に、効率的なパラメータ推定とモデル評価のために設計された近似推論手法である。 具体的には、vbmcが計算する: - モデルパラメータの柔軟な(非ガウス的)後方分布で、統計と後方サンプルを容易に抽出できる。 pyvbmcは、およそ10~15の連続パラメータを持つ任意の計算モデルや統計モデルに適用することができ、モデルのターゲットログの確率を計算するpython関数や、その近似(シミュレーションやモンテカルロ法によって得られる可能性の推定など)を提供する唯一の要件である。 pyvbmcは、モデルが1評価に約1秒以上かかる場合に特に効果的であり、従来の近似推定法と比較して、劇的なスピードアップは1-2桁である。 人工的なテスト問題と、計算科学、特に計算と認知の神経科学からの多数の実モデルに関する広範囲なベンチマークは、VBMCが一般的に、サンプル効率のよいベイズ推論の代替手法よりも優れており、正確なモデルとシミュレータベースのモデル(Acerbi, 2018, 2019, 2020)にも適用可能であることを示している。 PyVBMCは、この最先端推論アルゴリズムをPythonに導入し、アルゴリズムを実行し、結果を操作し、視覚化するための、使い易いPythonicインターフェースを提供する。

PyVBMC is a Python implementation of the Variational Bayesian Monte Carlo (VBMC) algorithm for posterior and model inference for black-box computational models (Acerbi, 2018, 2020). VBMC is an approximate inference method designed for efficient parameter estimation and model assessment when model evaluations are mildly-to-very expensive (e.g., a second or more) and/or noisy. Specifically, VBMC computes: - a flexible (non-Gaussian) approximate posterior distribution of the model parameters, from which statistics and posterior samples can be easily extracted; - an approximation of the model evidence or marginal likelihood, a metric used for Bayesian model selection. PyVBMC can be applied to any computational or statistical model with up to roughly 10-15 continuous parameters, with the only requirement that the user can provide a Python function that computes the target log likelihood of the model, or an approximation thereof (e.g., an estimate of the likelihood obtained via simulation or Monte Carlo methods). PyVBMC is particularly effective when the model takes more than about a second per evaluation, with dramatic speed-ups of 1-2 orders of magnitude when compared to traditional approximate inference methods. Extensive benchmarks on both artificial test problems and a large number of real models from the computational sciences, particularly computational and cognitive neuroscience, show that VBMC generally - and often vastly - outperforms alternative methods for sample-efficient Bayesian inference, and is applicable to both exact and simulator-based models (Acerbi, 2018, 2019, 2020). PyVBMC brings this state-of-the-art inference algorithm to Python, along with an easy-to-use Pythonic interface for running the algorithm and manipulating and visualizing its results.
翻訳日:2023-03-17 14:28:55 公開日:2023-03-16
# スピンネットワークにおける励起伝達制御のロバスト性評価と統一化

Analyzing and Unifying Robustness Measures for Excitation Transfer Control in Spin Networks ( http://arxiv.org/abs/2303.09518v1 )

ライセンス: Link先を確認
S. P. O'Neil, I. Khalid, A. A. Rompokos, C. A. Weidner, F. C. Langbein, S. G. Schirmer, E. A. Jonckheere(参考訳) 量子制御の最近の業績は、量子通信、コンピューティング、センシングのアプリケーションのためのコントローラを設計するための高度な技術を生み出した。 しかし、そのようなシステムのノイズや不確実性への感受性は、量子デバイスの完全なポテンシャルを実現するために、これらの条件下で効果的に機能する堅牢なコントローラを必要とする。 時間領域のログ感度と最近導入されたロバストネス不忠実度測定(RIM)は、量子システムにおけるコントローラのロバストネスを定量化する2つの方法である。 前者は分析的に見つかるが、後者はモンテカルロサンプリングを必要とする。 本研究は, スピン鎖および環における単一励起伝達の堅牢性を評価するために, 対数感度とRIMの相関関係について検討した。 予測される誤差の差分感度は, RIMの差分感度と一致し, 予測値が誤差確率分布上にあることを示す。 統計的解析により、対数感度とRIMは差分感度を介してリンクされ、差分感度とRIMは極めて一致していることが示された。 様々な現実的なシナリオにおけるコントローラーの堅牢性を評価するための2つの手段(分析的手法とサンプリング的手法)の統合は、量子コントローラの堅牢性をモデル化し評価するための様々なツールを統一する第一歩となる。

Recent achievements in quantum control have resulted in advanced techniques for designing controllers for applications in quantum communication, computing, and sensing. However, the susceptibility of such systems to noise and uncertainties necessitates robust controllers that perform effectively under these conditions to realize the full potential of quantum devices. The time-domain log-sensitivity and a recently introduced robustness infidelity measure (RIM) are two means to quantify controller robustness in quantum systems. The former can be found analytically, while the latter requires Monte-Carlo sampling. In this work, the correlation between the log-sensitivity and the RIM for evaluating the robustness of single excitation transfer fidelity in spin chains and rings in the presence of dephasing is investigated. We show that the expected differential sensitivity of the error agrees with the differential sensitivity of the RIM, where the expectation is over the error probability distribution. Statistical analysis also demonstrates that the log-sensitivity and the RIM are linked via the differential sensitivity, and that the differential sensitivity and RIM are highly concordant. This unification of two means (one analytic and one via sampling) to assess controller robustness in a variety of realistic scenarios provides a first step in unifying various tools to model and assess robustness of quantum controllers.
翻訳日:2023-03-17 14:28:23 公開日:2023-03-16
# 減衰環境をもつカルデイラ・レゲット模型における量子ブラウン運動

Quantum Brownian Motion in the Caldeira-Leggett Model with a Damped Environment ( http://arxiv.org/abs/2303.09516v1 )

ライセンス: Link先を確認
Lester Buxton, Marc-Thomas Russo, Jim Al-Khalili, Andrea Rocco(参考訳) 我々は、カルデイラ・レゲットのアプローチに従い、入浴発振器にカルディラ・カナイ・ラグランジアンを採用することにより、減衰調和振動子の環境に結合した量子システムをモデル化する。 興味の量子系の主方程式(一般ポテンシャルの粒子)を導出する際、入浴発振器の減衰によって誘導される新しい逆調和振動子項によってポテンシャルが非自明に変形されることが示される。 二重井戸電位における粒子の場合を数値解析し, 短時間での脱コヒーレンス率とより長い時間での移動確率の両方を変化させることを見出した。 また,環境減衰の変化にも拘わらず,ポテンシャルを固定する簡単な再スケーリング条件を同定した。 ここでは、環境減衰の増加はデコヒーレンスを遅くする。

We model a quantum system coupled to an environment of damped harmonic oscillators by following the approach of Caldeira-Leggett and adopting the Caldirola-Kanai Lagrangian for the bath oscillators. In deriving the master equation of the quantum system of interest (a particle in a general potential), we show that the potential is modified non-trivially by a new inverted harmonic oscillator term, induced by the damping of the bath oscillators. We analyze numerically the case of a particle in a double-well potential, and find that this modification changes both the rate of decoherence at short times and the well-transfer probability at longer times. We also identify a simple rescaling condition that keeps the potential fixed despite changes in the environmental damping. Here, the increase of environmental damping leads to a slowing of decoherence.
翻訳日:2023-03-17 14:28:00 公開日:2023-03-16
# MATIS:手術器具分割用マスケアテンショントランス

MATIS: Masked-Attention Transformers for Surgical Instrument Segmentation ( http://arxiv.org/abs/2303.09514v1 )

ライセンス: Link先を確認
Nicol\'as Ayobi, Alejandra P\'erez-Rond\'on, Santiago Rodr\'iguez, Pablo Arbel\'aez(参考訳) そこで本研究では,2段階の完全トランスフォーマティブ法であるmatis(手術用インスツルメンテーションセグメンテーション)のためのマスク付きアテンショントランスフォーマを提案する。 MATISは、タスクのインスタンスレベルの性質を利用して、一連の細かな機器領域の提案を生成・分類するマスク付きアテンションモジュールを使用する。 本手法は,映像変換器による長期映像レベル情報を取り入れ,時間的整合性の向上とマスク分類の強化を図る。 当社のアプローチは、Endovis 2017とEndovis 2018の2つの標準公開ベンチマークで検証しています。 実験により,matisのフレーム単位のベースラインが従来の最先端のメソッドよりも優れており,時間的一貫性モジュールを含めれば,モデルの性能がさらに向上することを示した。

We propose Masked-Attention Transformers for Surgical Instrument Segmentation (MATIS), a two-stage, fully transformer-based method that leverages modern pixel-wise attention mechanisms for instrument segmentation. MATIS exploits the instance-level nature of the task by employing a masked attention module that generates and classifies a set of fine instrument region proposals. Our method incorporates long-term video-level information through video transformers to improve temporal consistency and enhance mask classification. We validate our approach in the two standard public benchmarks, Endovis 2017 and Endovis 2018. Our experiments demonstrate that MATIS' per-frame baseline outperforms previous state-of-the-art methods and that including our temporal consistency module boosts our model's performance further.
翻訳日:2023-03-17 14:27:42 公開日:2023-03-16
# LDMVFI:潜時拡散モデルを用いたビデオフレーム補間

LDMVFI: Video Frame Interpolation with Latent Diffusion Models ( http://arxiv.org/abs/2303.09508v1 )

ライセンス: Link先を確認
Duolikun Danier, Fan Zhang, David Bull(参考訳) 既存のビデオフレーム補間(VFI)の研究は、主に出力と接地木フレームの間のL1またはL2距離を最小化するために訓練されたディープニューラルネットワークを使用している。 近年の進歩にもかかわらず、既存のVFI手法は知覚的に劣る結果をもたらす傾向にあり、特に大きな動きや動的テクスチャを含む挑戦的なシナリオでは顕著である。 知覚指向型VFI法の開発に向けて,潜在拡散モデルに基づくVFI,LDMVFIを提案する。 これは、VFI問題を条件生成問題として定式化することで、生成の観点からアプローチする。 遅延拡散モデルを用いてVFIに対処する最初の試みとして、既存のVFI文献で採用されている共通評価プロトコルに従って、我々の手法を厳格にベンチマークする。 ldmvfiの定量的実験とユーザスタディにより,高分解能環境においても,映像コンテンツは美術品よりも優れた知覚品質で補間可能であることが示された。 ソースコードはここで入手できます。

Existing works on video frame interpolation (VFI) mostly employ deep neural networks trained to minimize the L1 or L2 distance between their outputs and ground-truth frames. Despite recent advances, existing VFI methods tend to produce perceptually inferior results, particularly for challenging scenarios including large motions and dynamic textures. Towards developing perceptually-oriented VFI methods, we propose latent diffusion model-based VFI, LDMVFI. This approaches the VFI problem from a generative perspective by formulating it as a conditional generation problem. As the first effort to address VFI using latent diffusion models, we rigorously benchmark our method following the common evaluation protocol adopted in the existing VFI literature. Our quantitative experiments and user study indicate that LDMVFI is able to interpolate video content with superior perceptual quality compared to the state of the art, even in the high-resolution regime. Our source code will be made available here.
翻訳日:2023-03-17 14:27:28 公開日:2023-03-16
# IntelのニューロモーフィックDNSチャレンジ

The Intel Neuromorphic DNS Challenge ( http://arxiv.org/abs/2303.09503v1 )

ライセンス: Link先を確認
Jonathan Timchek, Sumit Bam Shrestha, Daniel Ben Dayan Rubin, Adam Kupryjanow, Garrick Orchard, Lukasz Pindor, Timothy Shea, and Mike Davies(参考訳) ニューロモルフィックコンピューティング研究の進歩のための重要なイネーブルは、重要なタスクにおいて異なるニューロモルフィックソリューションを透過的に評価し、それらを最先端の従来のソリューションと比較する能力である。 Microsoft DNS ChallengeにインスパイアされたIntel Neuromorphic Deep Noise Suppression Challenge (Intel N-DNS Challenge)は、ユビキタスで商業的なタスクであるリアルタイムオーディオデノイングに取り組む。 音声のノイズ除去は、低帯域幅、時間的性質、低消費電力デバイスとの関連性から、ニューロモルフィックコンピューティングの利点を享受する可能性が高い。 Intel N-DNS Challengeは、アルゴリズム革新を促進するシミュレーションベースのアルゴリズムトラックと、ソリューションを厳格に評価するニューロモルフィックハードウェア(Loihi 2)トラックの2つのトラックで構成されている。 両トラックについて,出力音声品質に加えて,エネルギー,レイテンシ,リソース消費に基づく評価手法を提案する。 我々は、Intel N-DNS Challengeデータセットのスクリプトと評価コードを自由にアクセス可能にし、コミュニティによる金銭的報酬への参加を奨励し、Microsoft NsNet2や製品で使用される独自のIntel Denoisingモデルと比較して、有望なオーディオ品質、高電力効率、低リソース消費を示すニューロモルフィックベースラインソリューションをリリースする。 Intel N-DNS Challengeがニューロモルフィックアルゴリズムの研究、特にリアルタイム信号処理のトレーニングツールや手法の分野でイノベーションを加速させることを期待している。 この課題の勝者たちは、従来の最先端のソリューションと比較して、現在利用可能なニューロモルフィックデバイスにおいて、オーディオのノイズ発生、電力とリソースの大幅な増加といった問題を実現することを期待している。

A critical enabler for progress in neuromorphic computing research is the ability to transparently evaluate different neuromorphic solutions on important tasks and to compare them to state-of-the-art conventional solutions. The Intel Neuromorphic Deep Noise Suppression Challenge (Intel N-DNS Challenge), inspired by the Microsoft DNS Challenge, tackles a ubiquitous and commercially relevant task: real-time audio denoising. Audio denoising is likely to reap the benefits of neuromorphic computing due to its low-bandwidth, temporal nature and its relevance for low-power devices. The Intel N-DNS Challenge consists of two tracks: a simulation-based algorithmic track to encourage algorithmic innovation, and a neuromorphic hardware (Loihi 2) track to rigorously evaluate solutions. For both tracks, we specify an evaluation methodology based on energy, latency, and resource consumption in addition to output audio quality. We make the Intel N-DNS Challenge dataset scripts and evaluation code freely accessible, encourage community participation with monetary prizes, and release a neuromorphic baseline solution which shows promising audio quality, high power efficiency, and low resource consumption when compared to Microsoft NsNet2 and a proprietary Intel denoising model used in production. We hope the Intel N-DNS Challenge will hasten innovation in neuromorphic algorithms research, especially in the area of training tools and methods for real-time signal processing. We expect the winners of the challenge will demonstrate that for problems like audio denoising, significant gains in power and resources can be realized on neuromorphic devices available today compared to conventional state-of-the-art solutions.
翻訳日:2023-03-17 14:27:12 公開日:2023-03-16
# ヒルベルト・シュミット独立基準に基づく健康状態推定のためのゲートリカレントユニットネットワーク

Gate Recurrent Unit Network based on Hilbert-Schmidt Independence Criterion for State-of-Health Estimation ( http://arxiv.org/abs/2303.09497v1 )

ライセンス: Link先を確認
Ziyue Huang, Lujuan Dang, Yuqing Xie, Wentao Ma, and Badong Chen(参考訳) State-of-Health (SOH) 推定は、バッテリーの安全性と信頼性を確保するための重要なステップである。 異なるサイクルにおけるデータ分布やシーケンスの長さのばらつきなどの問題により、既存の手法の多くは、時間と労力を要する健康特徴抽出技術を必要としている。 GRUは単純な構造と優れた性能のためにこの問題をうまく解決することができ、広く注目を集めている。 しかし、冗長な情報はネットワーク内に存在し、SOH推定の精度に影響を与える。 この問題に対処するため,Hilbert-Schmidt Independence Criterion(GRU-HSIC)に基づく新しいGRUネットワークを提案する。 まず、ゼロマスキングネットワークを使用して、各サイクル毎に異なる長さで測定されたすべてのバッテリデータを同じ長さのシーケンスに変換し、各サイクルで元のデータサイズに関する情報を保持する。 第2に、インフォメーション・ボトルネック(IB)理論から進化したHilbert-Schmidt Independence Criterion(HSIC)ボトルネックをGRUに拡張し、隠れた層から情報を圧縮する。 提案手法を評価するため,メリーランド大学のCALCE(Center for Advanced Life Cycle Engineering)とNASAのAmes Prognostics Center of Excellenceのデータセット実験を行った。 実験により,本モデルは他の再帰モデルよりも精度が高いことを示した。

State-of-health (SOH) estimation is a key step in ensuring the safe and reliable operation of batteries. Due to issues such as varying data distribution and sequence length in different cycles, most existing methods require health feature extraction technique, which can be time-consuming and labor-intensive. GRU can well solve this problem due to the simple structure and superior performance, receiving widespread attentions. However, redundant information still exists within the network and impacts the accuracy of SOH estimation. To address this issue, a new GRU network based on Hilbert-Schmidt Independence Criterion (GRU-HSIC) is proposed. First, a zero masking network is used to transform all battery data measured with varying lengths every cycle into sequences of the same length, while still retaining information about the original data size in each cycle. Second, the Hilbert-Schmidt Independence Criterion (HSIC) bottleneck, which evolved from Information Bottleneck (IB) theory, is extended to GRU to compress the information from hidden layers. To evaluate the proposed method, we conducted experiments on datasets from the Center for Advanced Life Cycle Engineering (CALCE) of the University of Maryland and NASA Ames Prognostics Center of Excellence. Experimental results demonstrate that our model achieves higher accuracy than other recurrent models.
翻訳日:2023-03-17 14:26:38 公開日:2023-03-16
# コンセンサスによる敵対的ロバストな協調的認識

Among Us: Adversarially Robust Collaborative Perception by Consensus ( http://arxiv.org/abs/2303.09495v1 )

ライセンス: Link先を確認
Yiming Li and Qi Fang and Jiamu Bai and Siheng Chen and Felix Juefei-Xu and Chen Feng(参考訳) 複数のロボットは(例えば物体を検知するなど)シーンを個人よりも協調的に知覚できるが、深層学習では敵の攻撃に苦しむ。 これは敵の防御によって対処できるが、その訓練にはよく知られていない攻撃機構が必要である。 異なる方法として、未確認攻撃者に一般化可能なサンプリングベース防衛戦略であるROBOSACを提案する。 私たちのキーとなる考え方は、協調的な知覚は、個々の知覚よりも結果に不満を抱くよりも、コンセンサスにつながるべきだ、ということです。 知覚の結果は、チームメートのランダムなサブセットとのコラボレーションの有無に関わらず、コンセンサスに達するまで比較されます。 そのようなフレームワークでは、サンプリングされたサブセット内の多くのチームメイトは、しばしばより良い知覚性能を伴うが、潜在的な攻撃を拒否するには、より長いサンプリング時間を必要とする。 したがって、攻撃者フリーのサブセットの所望のサイズを保証するためにどれだけのサンプリング試行が必要か、または、そのサブセットの最大サイズが、所定の数回の試行でうまくサンプリングできるかを導出する。 自律走行シナリオにおける協調的3次元物体検出の課題について,提案手法を検証する。

Multiple robots could perceive a scene (e.g., detect objects) collaboratively better than individuals, although easily suffer from adversarial attacks when using deep learning. This could be addressed by the adversarial defense, but its training requires the often-unknown attacking mechanism. Differently, we propose ROBOSAC, a novel sampling-based defense strategy generalizable to unseen attackers. Our key idea is that collaborative perception should lead to consensus rather than dissensus in results compared to individual perception. This leads to our hypothesize-and-verify framework: perception results with and without collaboration from a random subset of teammates are compared until reaching a consensus. In such a framework, more teammates in the sampled subset often entail better perception performance but require longer sampling time to reject potential attackers. Thus, we derive how many sampling trials are needed to ensure the desired size of an attacker-free subset, or equivalently, the maximum size of such a subset that we can successfully sample within a given number of trials. We validate our method on the task of collaborative 3D object detection in autonomous driving scenarios.
翻訳日:2023-03-17 14:26:14 公開日:2023-03-16
# 限界学習型マルチ教師モデルに基づく適応型MRI前立腺分画の知識蒸留

Knowledge Distillation for Adaptive MRI Prostate Segmentation Based on Limit-Trained Multi-Teacher Models ( http://arxiv.org/abs/2303.09494v1 )

ライセンス: Link先を確認
Eddardaa Ben Loussaief, Hatem Rashwan, Mohammed Ayad, Mohammed Zakaria Hassan, and Domenec Puig(参考訳) 多くの医療業務において、深層モデルの性能は近年大幅に改善されている。 これらのモデルは、しばしば熟練した学習者です。 しかし、複雑なアーキテクチャ設計と高い計算複雑性により、特に限られたリソースを持つデバイスにおいて、臨床環境でのデプロイが困難になる。 この問題に対処するために、圧縮法と加速技術として知識蒸留(KD)が提案されている。 kdは、知識を負担の多いモデル(教師モデル)から軽量モデル(生徒モデル)に移すことができる効率的な学習戦略である。 したがって,教師のパフォーマンスを保ったまま,低パラメータのコンパクトモデルが得られる。 そこで本研究では,kd-based deep model for prostate mri segmentation を開発し,kd-based distillation と kullback-leibler divergence, lovasz, dice loss を組み合わせた。 2つの圧縮手順を適用することで、その効果をさらに実証する。 1)教養のある一人の教師から生徒モデルに知識を蒸留すること,及び 2) 医療用アプリケーションは, ほとんどが小さなデータセットを持っているため, 個々の教師が小さな画像セットで訓練し, 希望する精度と高速な推論時間を考慮して, 教師にできるだけ近い適応型学習モデルを学ぶように訓練する。 一般の多部位前立腺腫瘍データセットを用いた広範囲な実験を行い,提案手法がdice類似度スコアを9%向上させることを示した。

With numerous medical tasks, the performance of deep models has recently experienced considerable improvements. These models are often adept learners. Yet, their intricate architectural design and high computational complexity make deploying them in clinical settings challenging, particularly with devices with limited resources. To deal with this issue, Knowledge Distillation (KD) has been proposed as a compression method and an acceleration technology. KD is an efficient learning strategy that can transfer knowledge from a burdensome model (i.e., teacher model) to a lightweight model (i.e., student model). Hence we can obtain a compact model with low parameters with preserving the teacher's performance. Therefore, we develop a KD-based deep model for prostate MRI segmentation in this work by combining features-based distillation with Kullback-Leibler divergence, Lovasz, and Dice losses. We further demonstrate its effectiveness by applying two compression procedures: 1) distilling knowledge to a student model from a single well-trained teacher, and 2) since most of the medical applications have a small dataset, we train multiple teachers that each one trained with a small set of images to learn an adaptive student model as close to the teachers as possible considering the desired accuracy and fast inference time. Extensive experiments were conducted on a public multi-site prostate tumor dataset, showing that the proposed adaptation KD strategy improves the dice similarity score by 9%, outperforming all tested well-established baseline models.
翻訳日:2023-03-17 14:25:52 公開日:2023-03-16
# 教師なしリモートセンシング変化検出のためのDeep Metric Learning

Deep Metric Learning for Unsupervised Remote Sensing Change Detection ( http://arxiv.org/abs/2303.09536v1 )

ライセンス: Link先を確認
Wele Gedara Chaminda Bandara, Vishal M. Patel(参考訳) リモートセンシング変化検出(Remote Sensing Change Detection, RS-CD)は, 土地被覆, 土地利用, 人的開発分析, 災害対応など, さまざまなRS応用を支援するマルチテンポラルリモートセンシング画像(MT-RSI)から, 関連する変化を検出することを目的とする。 既存のRS-CD法の性能は、大きな注釈付きデータセットのトレーニングによるものである。 さらに、トレーニングとテストデータセットの間にドメインのギャップがある場合、トレーニングされたモデルがパフォーマンスが極めて低くなるという意味で、これらのモデルの多くは転送性が低い。 本稿では,これらの問題に対応可能な深層メトリック学習に基づく教師なしcd手法を提案する。 提案手法は,mt-rsiを与えられた場合,大規模データセット上でトレーニングすることなく教師なしcdロスを反復的に最適化することにより,対応する変更確率マップを生成する。 本手法は,D-CPG(Deep-Change Probability Generator)とD-FE(Deep-Feature Extractor)という,相互接続された2つのディープネットワークから構成される。 D-CPGは、与えられたMT-RSIの変化を予測し、変更確率マップを含まないように設計されており、D-FEはMT-RSIの深い特徴を抽出するために使用される。 D-FEのパラメータを初期化するために転送学習機能を利用する。 MT-RSI に対する D-CPG と D-FE のパラメータを反復的に最適化し,提案した非教師付き '`similarity-dissimilarity loss'' を最小化する。 この損失は、二時間画像領域における無変化ペアワイズ画素とそれらの深い特徴領域との間の距離を最小化しながら、ペアワイズ画素間の距離を最大化するメトリック学習の原則によって動機付けられる。 3つのcdデータセットで行った実験では,教師なしcd法が最先端の教師なしcd法と教師なしcd法に比較して有意な改善が得られた。 https://github.com/wgcban/Metric-CDで利用可能なコード

Remote Sensing Change Detection (RS-CD) aims to detect relevant changes from Multi-Temporal Remote Sensing Images (MT-RSIs), which aids in various RS applications such as land cover, land use, human development analysis, and disaster response. The performance of existing RS-CD methods is attributed to training on large annotated datasets. Furthermore, most of these models are less transferable in the sense that the trained model often performs very poorly when there is a domain gap between training and test datasets. This paper proposes an unsupervised CD method based on deep metric learning that can deal with both of these issues. Given an MT-RSI, the proposed method generates corresponding change probability map by iteratively optimizing an unsupervised CD loss without training it on a large dataset. Our unsupervised CD method consists of two interconnected deep networks, namely Deep-Change Probability Generator (D-CPG) and Deep-Feature Extractor (D-FE). The D-CPG is designed to predict change and no change probability maps for a given MT-RSI, while D-FE is used to extract deep features of MT-RSI that will be further used in the proposed unsupervised CD loss. We use transfer learning capability to initialize the parameters of D-FE. We iteratively optimize the parameters of D-CPG and D-FE for a given MT-RSI by minimizing the proposed unsupervised ``similarity-dissimilarity loss''. This loss is motivated by the principle of metric learning where we simultaneously maximize the distance between change pair-wise pixels while minimizing the distance between no-change pair-wise pixels in bi-temporal image domain and their deep feature domain. The experiments conducted on three CD datasets show that our unsupervised CD method achieves significant improvements over the state-of-the-art supervised and unsupervised CD methods. Code available at https://github.com/wgcban/Metric-CD
翻訳日:2023-03-17 14:20:32 公開日:2023-03-16
# FateZero:ゼロショットテキストベースのビデオ編集のための注意喚起

FateZero: Fusing Attentions for Zero-shot Text-based Video Editing ( http://arxiv.org/abs/2303.09535v1 )

ライセンス: Link先を確認
Chenyang Qi, Xiaodong Cun, Yong Zhang, Chenyang Lei, Xintao Wang, Ying Shan, Qifeng Chen(参考訳) 拡散に基づく生成モデルは、テキストベースの画像生成において顕著な成功を収めた。 しかし、生成の進行に膨大なランダム性があるため、実際のビジュアルコンテンツ編集、特にビデオにそのようなモデルを適用することは依然として困難である。 本稿では,実世界ビデオにおけるゼロショットテキストベースの編集手法であるfatezeroを提案する。 ビデオの編集を一貫して行うために,事前学習したモデルに基づく手法を提案する。 まず,直感的なDDIMインバージョンとは対照的に,本手法はインバージョン中の中間注目マップを捕捉し,構造情報と動作情報の両方を効果的に保持する。 これらのマップは、同期中に生成するのではなく、編集プロセスで直接融合される。 さらにソースビデオのセマンティックリークを最小限に抑えるため、ソースプロンプトからのクロスアテンション特徴から得られるブレンディングマスクと自己アテンションを融合する。 さらに,フレームの整合性を確保するために空間的時間的注意を導入することで,UNetの自己注意機構を改良した。 しかし,本手法は,訓練されたテキスト対画像モデルから,ゼロショットのテキスト駆動ビデオスタイルとローカル属性編集の能力を示す最初の手法である。 また,テキスト対ビデオモデルに基づくゼロショット形状認識編集能力も向上した。 広範な実験により,過去の作品よりも優れた時間的一貫性と編集能力が実証された。

The diffusion-based generative models have achieved remarkable success in text-based image generation. However, since it contains enormous randomness in generation progress, it is still challenging to apply such models for real-world visual content editing, especially in videos. In this paper, we propose FateZero, a zero-shot text-based editing method on real-world videos without per-prompt training or use-specific mask. To edit videos consistently, we propose several techniques based on the pre-trained models. Firstly, in contrast to the straightforward DDIM inversion technique, our approach captures intermediate attention maps during inversion, which effectively retain both structural and motion information. These maps are directly fused in the editing process rather than generated during denoising. To further minimize semantic leakage of the source video, we then fuse self-attentions with a blending mask obtained by cross-attention features from the source prompt. Furthermore, we have implemented a reform of the self-attention mechanism in denoising UNet by introducing spatial-temporal attention to ensure frame consistency. Yet succinct, our method is the first one to show the ability of zero-shot text-driven video style and local attribute editing from the trained text-to-image model. We also have a better zero-shot shape-aware editing ability based on the text-to-video model. Extensive experiments demonstrate our superior temporal consistency and editing capability than previous works.
翻訳日:2023-03-17 14:19:29 公開日:2023-03-16
# incrowdformer:エゴセントリックな視点による歩行者世界モデル

InCrowdFormer: On-Ground Pedestrian World Model From Egocentric Views ( http://arxiv.org/abs/2303.09534v1 )

ライセンス: Link先を確認
Mai Nishimura, Shohei Nobuhara, Ko Nishino(参考訳) 我々は,地上の歩行者が地上の観衆の周囲を移動する様子を予測できる計算モデルとして,地上の歩行者世界モデルを紹介した。 我々のモデルであるInCrowdFormerは、歩行者インタラクションをモデル化してトランスフォーマーアーキテクチャを完全に活用し、アテンションを伴うトップダウンビュー変換をエゴセントリックにし、エンコーダ・デコーダアーキテクチャを持つ多人数の人の地上位置を自動回帰的に予測する。 未知の歩行者高から生じる不確かさを潜在コードで符号化し,歩行者位置の後方分布を予測する。 InCrowdFormerの有効性を,実動の新たな予測ベンチマークで検証する。 その結果,incrowdformerは歩行者の将来のコーディネーションを正確に予測できることがわかった。 私たちの知る限りでは、InCrowdFormerは初めての歩行者世界モデルであり、群衆のナビゲーション、追跡、合成など、幅広いエゴセントリックな視点のアプリケーションに恩恵をもたらすと信じています。

We introduce an on-ground Pedestrian World Model, a computational model that can predict how pedestrians move around an observer in the crowd on the ground plane, but from just the egocentric-views of the observer. Our model, InCrowdFormer, fully leverages the Transformer architecture by modeling pedestrian interaction and egocentric to top-down view transformation with attention, and autoregressively predicts on-ground positions of a variable number of people with an encoder-decoder architecture. We encode the uncertainties arising from unknown pedestrian heights with latent codes to predict the posterior distributions of pedestrian positions. We validate the effectiveness of InCrowdFormer on a novel prediction benchmark of real movements. The results show that InCrowdFormer accurately predicts the future coordination of pedestrians. To the best of our knowledge, InCrowdFormer is the first-of-its-kind pedestrian world model which we believe will benefit a wide range of egocentric-view applications including crowd navigation, tracking, and synthesis.
翻訳日:2023-03-17 14:19:04 公開日:2023-03-16
# 鏡の輝きと鏡のランゲヴィンダイナミクスの変分原理

Variational Principles for Mirror Descent and Mirror Langevin Dynamics ( http://arxiv.org/abs/2303.09532v1 )

ライセンス: Link先を確認
Belinda Tzen, Anant Raj, Maxim Raginsky, Francis Bach(参考訳) 1970年代にネミロフスキーとユディンによって導入されたミラー降下は、強い凸ポテンシャル関数の選択を通じて、手前の最適化問題の幾何学に合わせて調整できる原始二重凸最適化法である。 大規模最適化、機械学習、制御など、さまざまなアプリケーションで基本的なプリミティブとして生まれます。 本稿では,ミラー降下の変分的定式化と,その確率的変種であるミラーランゲバンダイナミクスを提案する。 グラデーションフローの変分原理に関するbrezisとekelandの古典的な業績に触発された主なアイデアは、ミラー降下が特定の最適制御問題の閉ループ解として出現し、ベルマン値関数は、初期条件と対象関数の大域的最小化との間のブレグマン分岐によって与えられることを示すことである。

Mirror descent, introduced by Nemirovski and Yudin in the 1970s, is a primal-dual convex optimization method that can be tailored to the geometry of the optimization problem at hand through the choice of a strongly convex potential function. It arises as a basic primitive in a variety of applications, including large-scale optimization, machine learning, and control. This paper proposes a variational formulation of mirror descent and of its stochastic variant, mirror Langevin dynamics. The main idea, inspired by the classic work of Brezis and Ekeland on variational principles for gradient flows, is to show that mirror descent emerges as a closed-loop solution for a certain optimal control problem, and the Bellman value function is given by the Bregman divergence between the initial condition and the global minimizer of the objective function.
翻訳日:2023-03-17 14:18:42 公開日:2023-03-16
# GLASU: 垂直分散グラフデータを用いたフェデレーション学習のための通信効率の良いアルゴリズム

GLASU: A Communication-Efficient Algorithm for Federated Learning with Vertically Distributed Graph Data ( http://arxiv.org/abs/2303.09531v1 )

ライセンス: Link先を確認
Xinwei Zhang, Mingyi Hong and Jie Chen(参考訳) 垂直フェデレーション学習(vertical federated learning, vfl)は、分散学習パラダイムであり、コンピュータクライアントは、所有する同じサンプルセットの部分的な特徴に基づいて、総合的にモデルをトレーニングする。 VFLに関する現在の研究は、サンプルが独立した場合に焦点を当てているが、グラフを通してサンプルが相互に関連付けられている場合、新たなシナリオに対処することは滅多にない。 グラフ構造化データでは、グラフニューラルネットワーク(gnn)は競争力のある機械学習モデルであるが、vfl設定におけるナイーブな実装は重要な通信オーバーヘッドをもたらす。 さらに,偏りのある確率勾配によって引き起こされる課題に対して,トレーニングの分析を行う。 本稿では,クライアントとサーバ間でバックボーンGNNを分割するモデル分割手法と通信効率のよいGLASUを提案する。 GLASUは遅延アグリゲーションと古いアップデートを採用し、モデルの評価時にアグリゲーションをスキップし、トレーニング中に機能交換をスキップする。 提案アルゴリズムは,実世界のデータセットに対する理論的解析と広範な数値実験を行い,中央集権的な学習を行うと,背骨GNNの性能が一致するGNNモデルを効果的に訓練することを示した。

Vertical federated learning (VFL) is a distributed learning paradigm, where computing clients collectively train a model based on the partial features of the same set of samples they possess. Current research on VFL focuses on the case when samples are independent, but it rarely addresses an emerging scenario when samples are interrelated through a graph. For graph-structured data, graph neural networks (GNNs) are competitive machine learning models, but a naive implementation in the VFL setting causes a significant communication overhead. Moreover, the analysis of the training is faced with a challenge caused by the biased stochastic gradients. In this paper, we propose a model splitting method that splits a backbone GNN across the clients and the server and a communication-efficient algorithm, GLASU, to train such a model. GLASU adopts lazy aggregation and stale updates to skip aggregation when evaluating the model and skip feature exchanges during training, greatly reducing communication. We offer a theoretical analysis and conduct extensive numerical experiments on real-world datasets, showing that the proposed algorithm effectively trains a GNN model, whose performance matches that of the backbone GNN when trained in a centralized manner.
翻訳日:2023-03-17 14:18:25 公開日:2023-03-16
# レーダデータにおけるクラッタの処理 -- PointNet++ を用いたラベル生成と検出

Tackling Clutter in Radar Data -- Label Generation and Detection Using PointNet++ ( http://arxiv.org/abs/2303.09530v1 )

ライセンス: Link先を確認
Johannes Kopp, Dominik Kellner, Aldi Piroli and Klaus Dietmayer(参考訳) 環境認識に使用されるレーダーセンサー(例えば自動運転車)は、多くの不要な乱雑を出力する。 対応する実オブジェクトが存在しないこれらのポイントは、オブジェクト検出やトラッキングのような処理ステップにおけるエラーの主な原因である。 そこで本研究では,クラッタ同定のための2つのニューラルネットワーク構成を提案する。 このタスクのために、入力データ、ネットワークアーキテクチャ、トレーニング構成を調整する。 複数のセンサースキャンからなる点雲のダウンサンプリングには特に注意が払われる。 広範な評価において、新しいセットアップは、既存のアプローチよりも大幅に優れたパフォーマンスを示す。 clutterをアノテートした適切な公開データセットがないため,各ラベルを自動的に生成する手法を設計した。 オブジェクトアノテーションで既存のデータに適用し、そのコードを公開することにより、現実の運転シナリオを表す最初の自由に利用可能なレーダークラッタデータセットを効果的に作成する。 コードと命令はwww.github.com/kopp-j/clutter-dsでアクセスできる。

Radar sensors employed for environment perception, e.g. in autonomous vehicles, output a lot of unwanted clutter. These points, for which no corresponding real objects exist, are a major source of errors in following processing steps like object detection or tracking. We therefore present two novel neural network setups for identifying clutter. The input data, network architectures and training configuration are adjusted specifically for this task. Special attention is paid to the downsampling of point clouds composed of multiple sensor scans. In an extensive evaluation, the new setups display substantially better performance than existing approaches. Because there is no suitable public data set in which clutter is annotated, we design a method to automatically generate the respective labels. By applying it to existing data with object annotations and releasing its code, we effectively create the first freely available radar clutter data set representing real-world driving scenarios. Code and instructions are accessible at www.github.com/kopp-j/clutter-ds.
翻訳日:2023-03-17 14:18:03 公開日:2023-03-16
# 連続時間MDPにおけるOmega-Regular Specificationの強化学習

Reinforcement Learning for Omega-Regular Specifications on Continuous-Time MDP ( http://arxiv.org/abs/2303.09528v1 )

ライセンス: Link先を確認
Amin Falah, Shibashis Guha, Ashutosh Trivedi(参考訳) 連続時間マルコフ決定プロセス(ctmdps)は、密集時間および確率的環境下での逐次意思決定を表現する標準モデルである。 環境の確率的進化がサンプリングによってのみ可能である場合、モデルフリー強化学習(RL)は最適な決定順序を計算するアルゴリズムである。 一方、RLは学習目的をスカラー報酬信号として符号化する必要がある。 このような手作業による翻訳は退屈で誤りやすいため、離散時間マルコフ決定プロセス(mdps)のスカラー報酬に高水準の目的(論理やオートマトン形式で表現される)を翻訳する手法がいくつか提案されている。 残念ながら、CTMDPには自動翻訳は存在しない。 我々は,オメガ規則言語として表現された学習目標に対するCTMDP環境について検討する。 オメガ正規言語は正規言語を無限水平仕様に一般化し、人気のある線形時間論理LTLで与えられる特性を表現できる。 CTMDPの高密度時間特性に対応するため、オメガ規則目的の2つの異なる意味を考察する。 1) 学習者の目標が良好な状態においてポジティブな時間を過ごす確率を最大化することにある満足度意味論 2) 学習者の目標である期待セマンティクスは、オートマトンの ``good states" に費やされる長期の期待平均時間を最適化することである。 本稿では,CTMDPの既製のRLアルゴリズムで容易に利用できるスカラー報酬信号への正しい翻訳を可能にする手法を提案する。 提案アルゴリズムの有効性を,オメガ正規目的のCTMDPベンチマークで評価することで実証する。

Continuous-time Markov decision processes (CTMDPs) are canonical models to express sequential decision-making under dense-time and stochastic environments. When the stochastic evolution of the environment is only available via sampling, model-free reinforcement learning (RL) is the algorithm-of-choice to compute optimal decision sequence. RL, on the other hand, requires the learning objective to be encoded as scalar reward signals. Since doing such translations manually is both tedious and error-prone, a number of techniques have been proposed to translate high-level objectives (expressed in logic or automata formalism) to scalar rewards for discrete-time Markov decision processes (MDPs). Unfortunately, no automatic translation exists for CTMDPs. We consider CTMDP environments against the learning objectives expressed as omega-regular languages. Omega-regular languages generalize regular languages to infinite-horizon specifications and can express properties given in popular linear-time logic LTL. To accommodate the dense-time nature of CTMDPs, we consider two different semantics of omega-regular objectives: 1) satisfaction semantics where the goal of the learner is to maximize the probability of spending positive time in the good states, and 2) expectation semantics where the goal of the learner is to optimize the long-run expected average time spent in the ``good states" of the automaton. We present an approach enabling correct translation to scalar reward signals that can be readily used by off-the-shelf RL algorithms for CTMDPs. We demonstrate the effectiveness of the proposed algorithms by evaluating it on some popular CTMDP benchmarks with omega-regular objectives.
翻訳日:2023-03-17 14:17:50 公開日:2023-03-16
# フェアネスを考慮した個人共同フィルタリング

Fairness-aware Differentially Private Collaborative Filtering ( http://arxiv.org/abs/2303.09527v1 )

ライセンス: Link先を確認
Zhenhuan Yang, Yingqiang Ge, Congzhe Su, Dingxian Wang, Xiaoting Zhao, Yiming Ying(参考訳) 近年,プライバシーを保全する機械学習タスクにおいて,ディファレンシャルプライバシガイドアルゴリズムが採用されている。 しかし、そのようなアルゴリズムの使用はアルゴリズムの公平性の観点からトレードオフがあり、広く認められている。 具体的には,DP-SGDにより学習された古典的協調フィルタリング手法が,異なるユーザエンゲージメントレベルに対して,異なるユーザグループに異なる影響を与えることを実証的に観察した。 これにより、元の不公平なモデルは、非アクティブなユーザに対してより偏りが増す。 上記の問題に対処するために,協調フィルタリングに基づくアルゴリズムのための二段階フレームワークである \textbf{dp-fair} を提案する。 具体的には、差別的なプライバシメカニズムと公正な制約を組み合わせて、公正なレコメンデーションを確保しながらユーザのプライバシを保護する。 AmazonデータセットとEtsyから収集したユーザ履歴ログに基づく実験結果から,提案手法は,バニラDP-SGDと比較して,浅部および深部の両方の推奨モデルに対して,全体的な精度とユーザグループフェアネスの両方において優れた性能を示すことが示された。

Recently, there has been an increasing adoption of differential privacy guided algorithms for privacy-preserving machine learning tasks. However, the use of such algorithms comes with trade-offs in terms of algorithmic fairness, which has been widely acknowledged. Specifically, we have empirically observed that the classical collaborative filtering method, trained by differentially private stochastic gradient descent (DP-SGD), results in a disparate impact on user groups with respect to different user engagement levels. This, in turn, causes the original unfair model to become even more biased against inactive users. To address the above issues, we propose \textbf{DP-Fair}, a two-stage framework for collaborative filtering based algorithms. Specifically, it combines differential privacy mechanisms with fairness constraints to protect user privacy while ensuring fair recommendations. The experimental results, based on Amazon datasets, and user history logs collected from Etsy, one of the largest e-commerce platforms, demonstrate that our proposed method exhibits superior performance in terms of both overall accuracy and user group fairness on both shallow and deep recommendation models compared to vanilla DP-SGD.
翻訳日:2023-03-17 14:17:20 公開日:2023-03-16
# 臨界横場イジング鎖の固有状態が地域法則を満たすことはない

No eigenstate of the critical transverse-field Ising chain satisfies the area law ( http://arxiv.org/abs/2303.09525v1 )

ライセンス: Link先を確認
Saverio Bocini, Maurizio Fagotti(参考訳) 我々は、すべての一点シフト不変保存電荷に共通する基礎において、基底状態が半整数中心電荷を持つ場合、領域法則を満たす非相互作用局所スピン1/2鎖ハミルトニアンの固有状態は存在しないと主張する。 つまり、これらのモデルでは、すべての(quasi)局所一点シフト不変保存作用素はギャップなしである。 両部交絡特性の観点からは、実際には3つの異なる1サイトシフト不変非相互作用モデルが存在し、そのうちの2つはXXモデルと等価である(そのうちの1つは、変換が1サイトシフト不変性を破る)。 前者のクラスは、領域法則を満たす局所的に異なる2つの1サイトシフト不変励起状態を持つ。

We argue that, in a basis common to all one-site shift invariant conserved charges, there is no eigenstate of a noninteracting local spin-1/2 chain Hamiltonian that satisfies the area law if the ground state has half-integer central charge. That is to say, in those models all (quasi)local one-site shift invariant conserved operators are gapless. From the standpoint of bipartite entanglement properties, we show indeed that there are three distinct one-site shift invariant noninteracting models, two of which are equivalent to the XX model (for one of them the transformation breaks one-site shift invariance) and the other to the critical Ising model. The former class has two locally distinct one-site shift invariant excited states satisfying the area law; the latter two classes have none.
翻訳日:2023-03-17 14:16:55 公開日:2023-03-16
# 並列処理による2次元MRIスライスからの高速3次元ボリューム画像再構成

Fast 3D Volumetric Image Reconstruction from 2D MRI Slices by Parallel Processing ( http://arxiv.org/abs/2303.09523v1 )

ライセンス: Link先を確認
Somoballi Ghoshal, Shremoyee Goswami, Amlan Chakrabarti, Susmita Sur-Kolay(参考訳) MRI(Magnetic Resonance Imaging)は、解剖学的特徴の非侵襲的イメージング技術である。 標本の器官の機能解析に役立てることができるが、非常に高価である。 本研究における方法 (i)ヒトの脊椎および脳の2次元(2d)スライスの1つの軸に沿った1つの配列からの仮想3次元(3d)再構成と、 (II)欠落したスライス間データの生成を提案する。 われわれのアプローチは、捕獲された物体の内部組織だけでなく、エッジ、形状、大きさの保存に役立ちます。 単一軸に沿った元の2dスライスのシーケンスは、より小さい等分部分に分割され、エッジ保存kriging補間を用いて再構成され、欠落スライス情報を予測する。 補間処理を高速化するために,並列コア上で初期補間を行うことにより,マルチプロセスを用いた。 そこで形成した3D行列から,$Z$軸に沿った2Dブロックを考慮したエッジを推定し,提案した平均中間論理を用いてブラーリング効果を最小化する。 最後に、可視化のために、サブ行列は最終3次元行列にマージされる。 次に、新たに形成された3Dマトリクスをボクセルに分割し、マーチングキューブ法を適用して、近似した3D画像を視聴する。 我々の知る限り、これは2次元スライスからの3次元再構成のためのクリッピング補間とマルチプロセッシングに基づくこの種のアプローチの1つであり、画像比較の類似度指標に関して、約98.89 %の精度が達成されている。 再構成に必要な時間も、シングルコア処理と比較して大きな入力データセットであっても、マルチ処理で約70 %削減されている。

Magnetic Resonance Imaging (MRI) is a technology for non-invasive imaging of anatomical features in detail. It can help in functional analysis of organs of a specimen but it is very costly. In this work, methods for (i) virtual three-dimensional (3D) reconstruction from a single sequence of two-dimensional (2D) slices of MR images of a human spine and brain along a single axis, and (ii) generation of missing inter-slice data are proposed. Our approach helps in preserving the edges, shape, size, as well as the internal tissue structures of the object being captured. The sequence of original 2D slices along a single axis is divided into smaller equal sub-parts which are then reconstructed using edge preserved kriging interpolation to predict the missing slice information. In order to speed up the process of interpolation, we have used multiprocessing by carrying out the initial interpolation on parallel cores. From the 3D matrix thus formed, shearlet transform is applied to estimate the edges considering the 2D blocks along the $Z$ axis, and to minimize the blurring effect using a proposed mean-median logic. Finally, for visualization, the sub-matrices are merged into a final 3D matrix. Next, the newly formed 3D matrix is split up into voxels and marching cubes method is applied to get the approximate 3D image for viewing. To the best of our knowledge it is a first of its kind approach based on kriging interpolation and multiprocessing for 3D reconstruction from 2D slices, and approximately 98.89\% accuracy is achieved with respect to similarity metrics for image comparison. The time required for reconstruction has also been reduced by approximately 70\% with multiprocessing even for a large input data set compared to that with single core processing.
翻訳日:2023-03-17 14:16:40 公開日:2023-03-16
# Min-SNR重み付けによる効率的な拡散訓練

Efficient Diffusion Training via Min-SNR Weighting Strategy ( http://arxiv.org/abs/2303.09556v1 )

ライセンス: Link先を確認
Tiankai Hang, Shuyang Gu, Chen Li, Jianmin Bao, Dong Chen, Han Hu, Xin Geng, Baining Guo(参考訳) 減音拡散モデルは画像生成の主流の手法であるが、これらのモデルの訓練はしばしば収束の遅さに苦しむ。 本稿では,時間ステップ間の最適化方向の矛盾による収束が遅いことを発見した。 この問題に対処するため,拡散学習をマルチタスク学習問題として扱うとともに,Min-SNR-$\gamma$と呼ばれるシンプルなアプローチを導入する。 本手法は,信号対雑音比に基づいて時間ステップの損失重みを適応させ,時間ステップ間の競合を効果的にバランスさせる。 その結果,収束速度が大幅に向上し,従来の重み付け戦略よりも3.4$\times$が速くなった。 また、imagenetの256\times256$ベンチマークで、以前の最先端アーキテクチャよりも小さなアーキテクチャを使用して、新しい記録fidスコアを2.06で達成した方が、より効果的である。

Denoising diffusion models have been a mainstream approach for image generation, however, training these models often suffers from slow convergence. In this paper, we discovered that the slow convergence is partly due to conflicting optimization directions between timesteps. To address this issue, we treat the diffusion training as a multi-task learning problem, and introduce a simple yet effective approach referred to as Min-SNR-$\gamma$. This method adapts loss weights of timesteps based on clamped signal-to-noise ratios, which effectively balances the conflicts among timesteps. Our results demonstrate a significant improvement in converging speed, 3.4$\times$ faster than previous weighting strategies. It is also more effective, achieving a new record FID score of 2.06 on the ImageNet $256\times256$ benchmark using smaller architectures than that employed in previous state-of-the-art.
翻訳日:2023-03-17 14:10:40 公開日:2023-03-16
# SoftZoo: 多様な環境におけるロコモーションのためのソフトロボットの共同設計ベンチマーク

SoftZoo: A Soft Robot Co-design Benchmark For Locomotion In Diverse Environments ( http://arxiv.org/abs/2303.09555v1 )

ライセンス: Link先を確認
Tsun-Hsuan Wang, Pingchuan Ma, Andrew Everett Spielberg, Zhou Xian, Hao Zhang, Joshua B. Tenenbaum, Daniela Rus, Chuang Gan(参考訳) 制御のためのロボット学習では重要な研究が進められているが、同時に形態を最適化する場合に独特の課題が発生する。 既存の作業は通常、特定の環境や表現用に調整されている。 固有の設計と性能上のトレードオフをより深く理解し、新しいタイプのソフトロボットの開発を加速するためには、確立されたタスク、環境、評価指標を備えた包括的なバーチャルプラットフォームが必要である。 本研究では,多様な環境におけるロコモーションのためのソフトロボット共同設計プラットフォームsoftzooを紹介する。 SoftZooは、平らな地面、砂漠、湿地、粘土、氷、雪、浅い水、海などの環境をシミュレートする機能など、自然にヒントを得た幅広い素材セットをサポートしている。 さらに、高速移動、アジャイル回転、パスフォローなど、ソフトロボティクスに関連するさまざまなタスクや、形態学と制御のための微分可能な設計表現を提供する。 これらの要素を組み合わせることで、ソフトロボットの共同設計アルゴリズムの分析と開発のための機能豊富なプラットフォームを形成する。 代表的な表現と共設計アルゴリズムをベンチマークし、光を当てる 1) 環境,形態,行動の相互作用 2) 意匠空間の表現の重要性 3)筋肉形成とコントローラ合成の曖昧さ,及び 4) 微分可能な物理学の価値。 私たちはsoftzooが標準的なプラットフォームとなり、ソフトロボットの行動と形態的知性の共同設計のための新しい表現とアルゴリズムの開発へのアプローチをテンプレート化することを期待しています。

While significant research progress has been made in robot learning for control, unique challenges arise when simultaneously co-optimizing morphology. Existing work has typically been tailored for particular environments or representations. In order to more fully understand inherent design and performance tradeoffs and accelerate the development of new breeds of soft robots, a comprehensive virtual platform with well-established tasks, environments, and evaluation metrics is needed. In this work, we introduce SoftZoo, a soft robot co-design platform for locomotion in diverse environments. SoftZoo supports an extensive, naturally-inspired material set, including the ability to simulate environments such as flat ground, desert, wetland, clay, ice, snow, shallow water, and ocean. Further, it provides a variety of tasks relevant for soft robotics, including fast locomotion, agile turning, and path following, as well as differentiable design representations for morphology and control. Combined, these elements form a feature-rich platform for analysis and development of soft robot co-design algorithms. We benchmark prevalent representations and co-design algorithms, and shed light on 1) the interplay between environment, morphology, and behavior; 2) the importance of design space representations; 3) the ambiguity in muscle formation and controller synthesis; and 4) the value of differentiable physics. We envision that SoftZoo will serve as a standard platform and template an approach toward the development of novel representations and algorithms for co-designing soft robots' behavioral and morphological intelligence.
翻訳日:2023-03-17 14:10:24 公開日:2023-03-16
# PartNeRF:3Dスーパービジョンなしで部品を認識可能な3D形状を生成する

PartNeRF: Generating Part-Aware Editable 3D Shapes without 3D Supervision ( http://arxiv.org/abs/2303.09554v1 )

ライセンス: Link先を確認
Konstantinos Tertikas and Pascalidou Despoina and Boxiao Pan and Jeong Joon Park and Mikaela Angelina Uy and Ioannis Emiris and Yannis Avrithis and Leonidas Guibas(参考訳) 生成モデルと暗黙の表現の印象的な進歩は、高品質の3d形状を生成する方法を生み出した。 しかし、形状をローカルに制御し編集できることは、いくつかのコンテンツ作成アプリケーションをアンロックできる重要な性質である。 局所制御は部分認識モデルで実現できるが、既存の手法では3Dの監督が必要であり、テクスチャを生成できない。 本研究では,編集可能な3次元形状合成のための新しいパート認識生成モデルであるPartNeRFを考案した。 我々のモデルは、アフィン変換で拡張された局所的に定義されたNeRFの集合としてオブジェクトを生成する。 これにより、部品への変換の適用、異なるオブジェクトからの部品の混合など、いくつかの編集操作が可能になる。 異なる、操作可能な部品を確実にするために、各光線の色が1つのNeRFによってのみ決定される部分に対して、光線をハードに割り当てる。 その結果、ある部分を変更することは、他の部分の外観に影響を与えない。 様々なShapeNetカテゴリの評価は,従来の3次元監視やNeRFに依存したモデルを必要とする部分ベース生成手法と比較して,改良された忠実度を持つ編集可能な3Dオブジェクトを生成することができることを示す。

Impressive progress in generative models and implicit representations gave rise to methods that can generate 3D shapes of high quality. However, being able to locally control and edit shapes is another essential property that can unlock several content creation applications. Local control can be achieved with part-aware models, but existing methods require 3D supervision and cannot produce textures. In this work, we devise PartNeRF, a novel part-aware generative model for editable 3D shape synthesis that does not require any explicit 3D supervision. Our model generates objects as a set of locally defined NeRFs, augmented with an affine transformation. This enables several editing operations such as applying transformations on parts, mixing parts from different objects etc. To ensure distinct, manipulable parts we enforce a hard assignment of rays to parts that makes sure that the color of each ray is only determined by a single NeRF. As a result, altering one part does not affect the appearance of the others. Evaluations on various ShapeNet categories demonstrate the ability of our model to generate editable 3D objects of improved fidelity, compared to previous part-based generative approaches that require 3D supervision or models relying on NeRFs.
翻訳日:2023-03-17 14:10:00 公開日:2023-03-16
# LERF: 言語組み込みのラジアンスフィールド

LERF: Language Embedded Radiance Fields ( http://arxiv.org/abs/2303.09553v1 )

ライセンス: Link先を確認
Justin Kerr, Chung Min Kim, Ken Goldberg, Angjoo Kanazawa, Matthew Tancik(参考訳) 人間は、視覚的外観、意味論、抽象的関連、行動可能な余裕など、幅広い特性に基づいて、自然言語を使って特定の3D位置を指す物理世界を記述する。 本研究では,CLIPのような市販のモデルからNeRFへの言語埋め込みを基底にする方法であるLanguage Embedded Radiance Fields (LERFs)を提案する。 LERFは、トレーニング線に沿ったCLIP埋め込みを使用して、NeRF内の密集したマルチスケール言語フィールドを学習し、これらの埋め込みをトレーニングビュー全体で監視し、マルチビューの一貫性を提供し、基礎となる言語フィールドを円滑にする。 最適化後、LERFは、ロボット工学、視覚言語モデルの理解、そして3Dシーンとの対話といった潜在的なユースケースを持つ、幅広い言語プロンプトのための3D関連性マップをリアルタイムで抽出することができる。 LERFは、領域の提案やマスクに頼ることなく、蒸留した3D CLIP埋め込み上でピクセル整列のゼロショットクエリを可能にする。 プロジェクトのWebサイトはhttps://lerf.io.orgにある。

Humans describe the physical world using natural language to refer to specific 3D locations based on a vast range of properties: visual appearance, semantics, abstract associations, or actionable affordances. In this work we propose Language Embedded Radiance Fields (LERFs), a method for grounding language embeddings from off-the-shelf models like CLIP into NeRF, which enable these types of open-ended language queries in 3D. LERF learns a dense, multi-scale language field inside NeRF by volume rendering CLIP embeddings along training rays, supervising these embeddings across training views to provide multi-view consistency and smooth the underlying language field. After optimization, LERF can extract 3D relevancy maps for a broad range of language prompts interactively in real-time, which has potential use cases in robotics, understanding vision-language models, and interacting with 3D scenes. LERF enables pixel-aligned, zero-shot queries on the distilled 3D CLIP embeddings without relying on region proposals or masks, supporting long-tail open-vocabulary queries hierarchically across the volume. The project website can be found at https://lerf.io .
翻訳日:2023-03-17 14:09:40 公開日:2023-03-16
# 完全な因果グラフとしてのデータフローグラフ

Dataflow graphs as complete causal graphs ( http://arxiv.org/abs/2303.09552v1 )

ライセンス: Link先を確認
Andrei Paleyes, Siyuan Guo, Bernhard Sch\"olkopf, Neil D. Lawrence(参考訳) コンポーネントベースの開発は、現代のソフトウェアエンジニアリングプラクティスの背後にあるコア原則の1つです。 ソフトウェアシステムのコンポーネント間の因果関係を理解することは、開発者に大きな利益をもたらす。 しかし、現代のソフトウェア設計アプローチでは、システム規模でのそのような関係の追跡と発見が難しくなり、それによって知的負債が増大する。 本稿では,fbp(flow-based programming)というソフトウェア設計の代替手法を検討し,fbpが生成するデータフローグラフと構造因果モデルとの関係について,コミュニティの注意を喚起する。 実証的な例では、この接続がどのようにしてソフトウェアプロジェクトの日々のタスクを改善するために活用できるかを示します。

Component-based development is one of the core principles behind modern software engineering practices. Understanding of causal relationships between components of a software system can yield significant benefits to developers. Yet modern software design approaches make it difficult to track and discover such relationships at system scale, which leads to growing intellectual debt. In this paper we consider an alternative approach to software design, flow-based programming (FBP), and draw the attention of the community to the connection between dataflow graphs produced by FBP and structural causal models. With expository examples we show how this connection can be leveraged to improve day-to-day tasks in software projects, including fault localisation, business analysis and experimentation.
翻訳日:2023-03-17 14:09:10 公開日:2023-03-16
# SurroundOcc: 自律走行のためのマルチカメラ3D動作予測

SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving ( http://arxiv.org/abs/2303.09551v1 )

ライセンス: Link先を確認
Yi Wei, Linqing Zhao, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu(参考訳) 3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。 既存のほとんどの手法は3次元オブジェクト検出に重点を置いているが、任意の形状と無限クラスの実世界のオブジェクトを記述することは困難である。 本稿では,より包括的な3Dシーンの認識に向けて,マルチカメラ画像を用いたSurroundOcc法を提案する。 まず,各画像のマルチスケール特徴を抽出し,空間的2d-3d注意を3dボリューム空間に持ち上げる。 次に、3Dコンボリューションを適用して、ボリューム機能を段階的にアップサンプし、複数のレベルを監督する。 密接な占有率予測を得るため,我々は、占有率の制約を拡げることなく、密接な占有基盤真理を生成するパイプラインを設計した。 具体的には、動的オブジェクトと静的シーンのマルチフレームLiDARスキャンを別々に融合する。 そして、穴を埋めるためにPoisson Reconstructionを採用し、メッシュを酸化して密度の高い占有ラベルを得る。 nuScenesとSemanticKITTIデータセットの大規模な実験により,本手法の優位性を実証した。 コードとデータセットはhttps://github.com/weiyithu/SurroundOccで入手できる。

3D scene understanding plays a vital role in vision-based autonomous driving. While most existing methods focus on 3D object detection, they have difficulty describing real-world objects of arbitrary shapes and infinite classes. Towards a more comprehensive perception of a 3D scene, in this paper, we propose a SurroundOcc method to predict the 3D occupancy with multi-camera images. We first extract multi-scale features for each image and adopt spatial 2D-3D attention to lift them to the 3D volume space. Then we apply 3D convolutions to progressively upsample the volume features and impose supervision on multiple levels. To obtain dense occupancy prediction, we design a pipeline to generate dense occupancy ground truth without expansive occupancy annotations. Specifically, we fuse multi-frame LiDAR scans of dynamic objects and static scenes separately. Then we adopt Poisson Reconstruction to fill the holes and voxelize the mesh to get dense occupancy labels. Extensive experiments on nuScenes and SemanticKITTI datasets demonstrate the superiority of our method. Code and dataset are available at https://github.com/weiyithu/SurroundOcc
翻訳日:2023-03-17 14:08:58 公開日:2023-03-16
# WebSHAP: あらゆる機械学習モデルの説明を目指す

WebSHAP: Towards Explaining Any Machine Learning Models Anywhere ( http://arxiv.org/abs/2303.09545v1 )

ライセンス: Link先を確認
Zijie J. Wang, Duen Horng Chau(参考訳) マシンラーニング(ML)が日々のWebエクスペリエンスに統合されるにつれて、透過的で説明可能なWebベースのMLが求められます。 しかし、既存の説明可能性のテクニックは、しばしば専用のバックエンドサーバーを必要とするため、Webコミュニティがレイテンシの低減とプライバシー向上のためにブラウザ内MLに向かっているため、その有用性を制限している。 クライアント側の説明可能性ソリューションの必要性に対処するため、WebSHAPは、最先端のモデルに依存しない説明可能性技術SHAPをWeb環境に適用する最初のブラウザ内ツールである。 私たちのオープンソースツールは、クライアントサイドのハードウェア機能を活用し、既存のWeb MLアプリケーションに簡単に統合できるWebGLのようなモダンなWeb技術で開発されています。 ローン申請者にmlベースのローン承認決定を説明する利用シナリオでwebshapを示す。 研究成果を振り返って,透明なWeb MLに関する今後の研究の機会と課題について論じる。 WebSHAPはhttps://github.com/poloclub/webshapで入手できる。

As machine learning (ML) is increasingly integrated into our everyday Web experience, there is a call for transparent and explainable web-based ML. However, existing explainability techniques often require dedicated backend servers, which limit their usefulness as the Web community moves toward in-browser ML for lower latency and greater privacy. To address the pressing need for a client-side explainability solution, we present WebSHAP, the first in-browser tool that adapts the state-of-the-art model-agnostic explainability technique SHAP to the Web environment. Our open-source tool is developed with modern Web technologies such as WebGL that leverage client-side hardware capabilities and make it easy to integrate into existing Web ML applications. We demonstrate WebSHAP in a usage scenario of explaining ML-based loan approval decisions to loan applicants. Reflecting on our work, we discuss the opportunities and challenges for future research on transparent Web ML. WebSHAP is available at https://github.com/poloclub/webshap.
翻訳日:2023-03-17 14:08:38 公開日:2023-03-16
# 拡散HPC:リアルな人間による合成画像の生成

Diffusion-HPC: Generating Synthetic Images with Realistic Humans ( http://arxiv.org/abs/2303.09541v1 )

ライセンス: Link先を確認
Zhenzhen Weng, Laura Bravo-S\'anchez, Serena Yeung(参考訳) 近年のテキストから画像への生成モデルは、高忠実度およびフォトリアリスティックな画像を生成する優れた能力を発揮している。 しかし、視覚的に印象的な結果にもかかわらず、これらのモデルはしばしば、世代でもっともらしい人間の構造を維持するのに苦労する。 このため、大量の合成データを生成して下流画像認識タスクを支援する有望な結果が得られたが、下流の人間のポーズ知覚や理解を改善するには至っていない。 本研究では,人体構造に関する事前知識を注入することにより,人体に提示可能な写真実写画像を生成するテキスト条件付きDiffusion Model with Human Pose Correction (Diffusion HPC)を提案する。 拡散hpcは人間の世代のリアリズムを効果的に改善することを示す。 さらに、世代が基盤となる3dメッシュを伴っているため、3dトレーニングデータの不足が長年問題となっている下流のヒューマンメッシュリカバリタスクには、ディフュージョンhpcが生成したイメージメッシュペアが適している。

Recent text-to-image generative models have exhibited remarkable abilities in generating high-fidelity and photo-realistic images. However, despite the visually impressive results, these models often struggle to preserve plausible human structure in the generations. Due to this reason, while generative models have shown promising results in aiding downstream image recognition tasks by generating large volumes of synthetic data, they remain infeasible for improving downstream human pose perception and understanding. In this work, we propose Diffusion model with Human Pose Correction (Diffusion HPC), a text-conditioned method that generates photo-realistic images with plausible posed humans by injecting prior knowledge about human body structure. We show that Diffusion HPC effectively improves the realism of human generations. Furthermore, as the generations are accompanied by 3D meshes that serve as ground truths, Diffusion HPC's generated image-mesh pairs are well-suited for downstream human mesh recovery task, where a shortage of 3D training data has long been an issue.
翻訳日:2023-03-17 14:08:20 公開日:2023-03-16
# SemDeDup:セマンティック重複によるWebスケールのデータ効率学習

SemDeDup: Data-efficient learning at web-scale through semantic deduplication ( http://arxiv.org/abs/2303.09540v1 )

ライセンス: Link先を確認
Amro Abbas, Kushal Tirumala, D\'aniel Simig, Surya Ganguli, Ari S. Morcos(参考訳) 機械学習の進歩の大部分は、データの大幅な増加によるものだ。 しかしながら、laionのような大規模なwebスケールのデータセットは、正確な重複の検索以上のものが多く、冗長性が失われる可能性がある。 本稿では,semdedupについて紹介する。semdedupは,事前学習したモデルからの埋め込みを利用して意味的重複を識別し除去する手法である。 セマンティクスの重複を取り除くことは、パフォーマンスを保ち、学習をスピードアップする。 LAIONのサブセットを分析して、SemDeDupがパフォーマンス損失を最小限に抑え、トレーニング時間を半減できることを示す。 さらに、性能は分布から向上する。 また、部分的にキュレートされたデータセットであるc4でトレーニングされた言語モデルを分析することで、semdedupが以前のアプローチよりも改善され、効率が向上することを示した。 semdedupは、より少ないデータでモデルの学習を速くするために、品質埋め込みを利用する簡単な方法の例を提供する。

Progress in machine learning has been driven in large part by massive increases in data. However, large web-scale datasets such as LAION are largely uncurated beyond searches for exact duplicates, potentially leaving much redundancy. Here, we introduce SemDeDup, a method which leverages embeddings from pre-trained models to identify and remove semantic duplicates: data pairs which are semantically similar, but not exactly identical. Removing semantic duplicates preserves performance and speeds up learning. Analyzing a subset of LAION, we show that SemDeDup can remove 50% of the data with minimal performance loss, effectively halving training time. Moreover, performance increases out of distribution. Also, analyzing language models trained on C4, a partially curated dataset, we show that SemDeDup improves over prior approaches while providing efficiency gains. SemDeDup provides an example of how simple ways of leveraging quality embeddings can be used to make models learn faster with less data.
翻訳日:2023-03-17 14:08:04 公開日:2023-03-16
# 自由フェルミオン量子回路の代数圧縮:粒子生成、任意格子および制御された進化

Algebraic Compression of Free Fermionic Quantum Circuits: Particle Creation, Arbitrary Lattices and Controlled Evolution ( http://arxiv.org/abs/2303.09538v1 )

ライセンス: Link先を確認
Efekan K\"okc\"u, Daan Camps, Lindsay Bassman Oftelie, Wibe A. de Jong, Roel Van Beeumen, A. F. Kemper(参考訳) 最近我々は、フリーフェルミオンに写像できるハミルトンの下でのトロッター化進化を圧縮するリー代数法に基づく局所的・構成的アルゴリズムを開発した。 圧縮アルゴリズムは、キュービット数を線形にスケールし、任意に長い進化時間に対して固定深さであり、時間依存ハミルトニアンに適用できる回路を生成するが、単純最寄りのスピン相互作用とフェルミオンホッピングに制限される。 本研究では,長いスピン相互作用とフェルミオンホッピングで進化をシミュレートする回路を圧縮するアルゴリズムを拡張し,任意の格子を量子ビット列に埋め込み可能とした。 さらに,制御された時間発展やフェルミオン生成や消滅演算子も圧縮可能であることを示した。 半充填フェルミオン鎖の基底状態について,ibmq_washington上で4 \times 4$ tight binding modelをシミュレートして実験を行った。 これらの新たな展開により,より広い範囲の関心モデルのシミュレーションとサブサーキットの効率的な圧縮が可能となった。

Recently we developed a local and constructive algorithm based on Lie algebraic methods for compressing Trotterized evolution under Hamiltonians that can be mapped to free fermions. The compression algorithm yields a circuit which scales linearly in the number of qubits, is fixed depth for for arbitrarily long evolution times and is applicable to time dependent Hamiltonians, although is limited to simple nearest-neighbor spin interactions and fermionic hopping. In this work, we extend the algorithm to compress circuits simulating evolution with long-range spin interactions and fermionic hopping, thereby enabling embedding of arbitrary lattices onto a chain of qubits. Moreover, we show that controlled time evolution, as well as fermion creation and annihilation operators can also be compressed. We demonstrate our results by adiabatically preparing the ground state for a half-filled fermionic chain, and simulating a $4 \times 4$ tight binding model on ibmq_washington. With these new developments, our results enable the simulation of a wider range of models of interest and the efficient compression of subcircuits.
翻訳日:2023-03-17 14:07:45 公開日:2023-03-16
# ODIN:データセットロックインを軽減するオンデマンドデータ定式化

ODIN: On-demand Data Formulation to Mitigate Dataset Lock-in ( http://arxiv.org/abs/2303.06832v2 )

ライセンス: Link先を確認
SP Choi, Jihun Lee, Hyeongseok Ahn, Sanghee Jung, Bumsoo Kang(参考訳) ODINは、生成AIモデルを統合することでデータセット制約の問題に対処する革新的なアプローチである。 従来のゼロショット学習方法はトレーニングデータセットによって制約される。 この制限を根本的に克服するため、ODINは、ユーザ要求に基づいてオンデマンドデータセットを生成することにより、データセット制約を緩和しようとする。 ODINは、プロンプトジェネレータ、テキスト・ツー・イメージジェネレータ、イメージ・ポストプロセッサの3つの主要モジュールで構成されている。 高品質なプロンプトと画像を生成するために,大言語モデル(chatgptなど)とテキストから画像への拡散モデル(安定拡散など)をそれぞれ採用した。 モデル精度とデータ多様性の観点から様々なデータセット上でODINを評価し,その可能性を示すとともに,さらなる調査のために実験後実験を行った。 全体として、ODINは、Alがトレーニングデータセット以外の見えない知識を学習できるようにする、実現可能なアプローチである。

ODIN is an innovative approach that addresses the problem of dataset constraints by integrating generative AI models. Traditional zero-shot learning methods are constrained by the training dataset. To fundamentally overcome this limitation, ODIN attempts to mitigate the dataset constraints by generating on-demand datasets based on user requirements. ODIN consists of three main modules: a prompt generator, a text-to-image generator, and an image post-processor. To generate high-quality prompts and images, we adopted a large language model (e.g., ChatGPT), and a text-to-image diffusion model (e.g., Stable Diffusion), respectively. We evaluated ODIN on various datasets in terms of model accuracy and data diversity to demonstrate its potential, and conducted post-experiments for further investigation. Overall, ODIN is a feasible approach that enables Al to learn unseen knowledge beyond the training dataset.
翻訳日:2023-03-17 11:41:51 公開日:2023-03-16
# 2次元拡散モデルにロバストテキスト-3次元生成のための3次元一貫性を知らせる

Let 2D Diffusion Model Know 3D-Consistency for Robust Text-to-3D Generation ( http://arxiv.org/abs/2303.07937v3 )

ライセンス: Link先を確認
Junyoung Seo, Wooseok Jang, Min-Seop Kwak, Jaehoon Ko, Hyeonsu Kim, Junho Kim, Jin-Hwa Kim, Jiyoung Lee, Seungryong Kim(参考訳) テキスト対3d生成は、前訓練されたテキスト対2d拡散モデルを用いてゼロショット設定で神経放射場(nerf)を最適化する手法であるスコア蒸留の出現により、近年急速に進歩している。 しかし, 2次元拡散モデルにおける3次元認識の欠如は, スコア蒸留法による3次元シーンの再構成を不安定にする。 そこで本研究では,事前学習した2次元拡散モデルに3次元認識を組み込んだ新しいフレームワークである3dfuseを提案する。 まず,与えられたテキストプロンプトの粗い3次元構造を構築し,拡散モデルの条件として投影された視点特異的深度マップを用いた。 さらに,ロバストな生成のための粗い3次元構造内の誤差や空間性を扱う2次元拡散モデルの学習を可能にするトレーニング戦略と,シーンのすべての視点において意味的一貫性を確保する手法を導入する。 我々の枠組みは, 先行技術の限界を超え, 2次元拡散モデルの3次元整合生成に大きな影響を与える。

Text-to-3D generation has shown rapid progress in recent days with the advent of score distillation, a methodology of using pretrained text-to-2D diffusion models to optimize neural radiance field (NeRF) in the zero-shot setting. However, the lack of 3D awareness in the 2D diffusion models destabilizes score distillation-based methods from reconstructing a plausible 3D scene. To address this issue, we propose 3DFuse, a novel framework that incorporates 3D awareness into pretrained 2D diffusion models, enhancing the robustness and 3D consistency of score distillation-based methods. We realize this by first constructing a coarse 3D structure of a given text prompt and then utilizing projected, view-specific depth map as a condition for the diffusion model. Additionally, we introduce a training strategy that enables the 2D diffusion model learns to handle the errors and sparsity within the coarse 3D structure for robust generation, as well as a method for ensuring semantic consistency throughout all viewpoints of the scene. Our framework surpasses the limitations of prior arts, and has significant implications for 3D consistent generation of 2D diffusion models.
翻訳日:2023-03-17 11:33:01 公開日:2023-03-16
# 医用イメージングシステムのための弱監視セマンティックセマンティックセマンティックアンサンブルの探索

Exploring Weakly Supervised Semantic Segmentation Ensembles for Medical Imaging Systems ( http://arxiv.org/abs/2303.07896v2 )

ライセンス: Link先を確認
Erik Ostrowski and Bharath Srinivas Prabakaran and Muhammad Shafique(参考訳) 画像中の特定の医療状態の信頼性の高い分類と検出には、最先端のセマンティックセグメンテーションネットワークが必要となる。 しかし、そのようなデータセットの公開は最小限である。 したがって,画像レベルのラベルによるセマンティックセグメンテーションは,この問題に対して有望な代替手段となる。 それにもかかわらず、この技術とその医療分野への適用性を評価することに重点を置く研究はほとんどない。 その複雑さと、医療データセットにおける少数のトレーニング例のため、分類器に基づくクラスアクティベーションマップ(CAM)のような弱い教師付きネットワークは、それらから有用な情報を抽出するのに苦労する。 しかし、最先端のアプローチのほとんどは、改善を達成するためにそれらに依存している。 そこで本稿では,複雑なデータセットの低品質CAM予測を引き続き活用して,結果の精度を向上させるフレームワークを提案する。 本フレームワークは,まず低閾値CAMを用いて目標対象を高い精度でカバーし,第2に,目標対象を強調表示しながらエラーを発生させる複数の低閾値CAMを組み合わせる。 人気のあるマルチモーダルブラットと前立腺デカトロンセグメンテーションチャレンジデータセットについて,徹底的な実験を行った。 提案フレームワークを用いて,従来のデータと比較して,ブラットで最大8%,デキャスロンデータセットで6%の改善diceスコアを実証した。

Reliable classification and detection of certain medical conditions, in images, with state-of-the-art semantic segmentation networks, require vast amounts of pixel-wise annotation. However, the public availability of such datasets is minimal. Therefore, semantic segmentation with image-level labels presents a promising alternative to this problem. Nevertheless, very few works have focused on evaluating this technique and its applicability to the medical sector. Due to their complexity and the small number of training examples in medical datasets, classifier-based weakly supervised networks like class activation maps (CAMs) struggle to extract useful information from them. However, most state-of-the-art approaches rely on them to achieve their improvements. Therefore, we propose a framework that can still utilize the low-quality CAM predictions of complicated datasets to improve the accuracy of our results. Our framework achieves that by first utilizing lower threshold CAMs to cover the target object with high certainty; second, by combining multiple low-threshold CAMs that even out their errors while highlighting the target object. We performed exhaustive experiments on the popular multi-modal BRATS and prostate DECATHLON segmentation challenge datasets. Using the proposed framework, we have demonstrated an improved dice score of up to 8% on BRATS and 6% on DECATHLON datasets compared to the previous state-of-the-art.
翻訳日:2023-03-17 11:32:41 公開日:2023-03-16
# 圧縮ビデオの時間的接地に効果的で効率的なパイプライン

You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos ( http://arxiv.org/abs/2303.07863v2 )

ライセンス: Link先を確認
Xiang Fang, Daizong Liu, Pan Zhou, Guoshun Nan(参考訳) ビデオがトリミングされていない場合、時間的文接地(TSG)は、文問合せに応じて意味的にターゲットモーメントを見つけることを目的としている。 これまでの卓越した作品は、十分に成功したものの、連続した復号化フレームから抽出された高レベルな視覚的特徴にのみ焦点を合わせ、クエリモデリングのための圧縮ビデオの処理に失敗した。 本稿では,画像入力として完全にデ圧縮されたフレームではなく,圧縮されたビデオを直接利用する圧縮ドメインtsgを提案する。 生のビデオビットストリーム入力を処理するために,3種類の低レベル視覚特徴(iフレーム,運動ベクトル,残差特徴)を抽出・集約し,効率的かつ効率的な接地を行う,圧縮領域空間時空間融合(tcsf)フレームワークを提案する。 特に、以前の処理のようにデコードされたフレーム全体をエンコードする代わりに、I-frame機能のみを学習して、遅延やレイテンシを低減することで、外観表現をキャプチャします。 さらに, 動きベクトルの特徴を学習するだけでなく, 残像を通して隣接するフレームの関係を探索することで, 動き情報を探究する。 このようにして、適応的な動き出現融合モジュールを備えた3分岐空間時間的注意層を設計し、最終接地のための外観情報と動き情報の両方を抽出・集約する。 3つの挑戦的なデータセットの実験から、我々のTCSFは、複雑さの低い他の最先端のメソッドよりも優れたパフォーマンスを実現しています。

Given an untrimmed video, temporal sentence grounding (TSG) aims to locate a target moment semantically according to a sentence query. Although previous respectable works have made decent success, they only focus on high-level visual features extracted from the consecutive decoded frames and fail to handle the compressed videos for query modelling, suffering from insufficient representation capability and significant computational complexity during training and testing. In this paper, we pose a new setting, compressed-domain TSG, which directly utilizes compressed videos rather than fully-decompressed frames as the visual input. To handle the raw video bit-stream input, we propose a novel Three-branch Compressed-domain Spatial-temporal Fusion (TCSF) framework, which extracts and aggregates three kinds of low-level visual features (I-frame, motion vector and residual features) for effective and efficient grounding. Particularly, instead of encoding the whole decoded frames like previous works, we capture the appearance representation by only learning the I-frame feature to reduce delay or latency. Besides, we explore the motion information not only by learning the motion vector feature, but also by exploring the relations of neighboring frames via the residual feature. In this way, a three-branch spatial-temporal attention layer with an adaptive motion-appearance fusion module is further designed to extract and aggregate both appearance and motion information for the final grounding. Experiments on three challenging datasets shows that our TCSF achieves better performance than other state-of-the-art methods with lower complexity.
翻訳日:2023-03-17 11:32:14 公開日:2023-03-16
# 白人至上主義プロパガンダのオンラインクロスオーバー

Online to Offline Crossover of White Supremacist Propaganda ( http://arxiv.org/abs/2303.07838v2 )

ライセンス: Link先を確認
Ahmad Diab, Bolor-Erdene Jagdagdorj, Lynnette Hui Xian Ng, Yu-Ru Lin and Michael Miller Yoder(参考訳) 白人至上主義過激派は、多くの西側諸国において重要な国内テロの脅威である。 これらのグループはインターネットを利用して、オンラインプラットフォーム(ブログ、チャットルーム、フォーラム、ソーシャルメディア)を通じて彼らのイデオロギーを広める。 本研究では,オンラインおよびオフライン環境における白人至上主義プロパガンダの持続性と到達度について検討する。 また、オンラインからオフライン環境にまたがる物語のパターンも研究しています。 地理空間分析から,アメリカ合衆国ではオフラインプロパガンダが地理的に広く普及しており,北東部ではわずかに傾向が見られた。 最も遠くに広がり、最も長く続くプロパガンダは愛国的なフレーミングを持ち、短く、記憶力があり、反復可能である。 テキストの比較によって,オンラインプロパガンダは,オフラインフライヤーやバナー,落書きなどにおいて,同じプロパガンダの出現を典型的に導く。 この研究は、オンラインとオフラインの両方で永続的な白人至上主義の物語の特徴に光を当てることを願っている。

White supremacist extremist groups are a significant domestic terror threat in many Western nations. These groups harness the Internet to spread their ideology via online platforms: blogs, chat rooms, forums, and social media, which can inspire violence offline. In this work, we study the persistence and reach of white supremacist propaganda in both online and offline environments. We also study patterns in narratives that crossover from online to offline environments, or vice versa. From a geospatial analysis, we find that offline propaganda is geographically widespread in the United States, with a slight tendency toward Northeastern states. Propaganda that spreads the farthest and lasts the longest has a patriotic framing and is short, memorable, and repeatable. Through text comparison methods, we illustrate that online propaganda typically leads the appearance of the same propaganda in offline flyers, banners, and graffiti. We hope that this study sheds light on the characteristics of persistent white supremacist narratives both online and offline.
翻訳日:2023-03-17 11:31:43 公開日:2023-03-16
# NEF:多視点画像からの3次元パラメトリック曲線再構成のためのニューラルネットワーク

NEF: Neural Edge Fields for 3D Parametric Curve Reconstruction from Multi-view Images ( http://arxiv.org/abs/2303.07653v2 )

ライセンス: Link先を確認
Yunfan Ye, Renjiao Yi, Zhirui Gao, Chenyang Zhu, Zhiping Cai, Kai Xu(参考訳) キャリブレーションされた多視点画像から物体の3次元特徴曲線を再構成する問題について検討する。 そのために,ニューラルエッジフィールド (nef) と呼ばれる3次元エッジの密度分布を表すニューラル暗黙的場を学習する。 NeRFにインスパイアされたNEFは、所定のビューで2次元エッジマップを描画するビューベースのレンダリング損失を最適化し、そのビューの画像から抽出した接地トラスエッジマップと比較する。 NEFのレンダリングベースの微分可能最適化は、3Dエッジ、3D幾何演算子、またはクロスビューエッジ対応を監督することなく、2Dエッジ検出を完全に活用する。 いくつかの技術設計は、堅牢なエッジ抽出のための範囲制限とビュー非依存のNEFを確実に学習するために考案された。 最終パラメトリックな3次元曲線は繰り返し最適化法を用いてNEFから抽出される。 合成データを用いたベンチマークでは、NEFが既存の最先端手法をすべての指標で上回っていることを示す。 プロジェクトページ: https://yunfan1202.github.io/nef/

We study the problem of reconstructing 3D feature curves of an object from a set of calibrated multi-view images. To do so, we learn a neural implicit field representing the density distribution of 3D edges which we refer to as Neural Edge Field (NEF). Inspired by NeRF, NEF is optimized with a view-based rendering loss where a 2D edge map is rendered at a given view and is compared to the ground-truth edge map extracted from the image of that view. The rendering-based differentiable optimization of NEF fully exploits 2D edge detection, without needing a supervision of 3D edges, a 3D geometric operator or cross-view edge correspondence. Several technical designs are devised to ensure learning a range-limited and view-independent NEF for robust edge extraction. The final parametric 3D curves are extracted from NEF with an iterative optimization method. On our benchmark with synthetic data, we demonstrate that NEF outperforms existing state-of-the-art methods on all metrics. Project page: https://yunfan1202.github.io/NEF/.
翻訳日:2023-03-17 11:31:24 公開日:2023-03-16
# TriDet: 相対境界モデルによる時間的行動検出

TriDet: Temporal Action Detection with Relative Boundary Modeling ( http://arxiv.org/abs/2303.07347v2 )

ライセンス: Link先を確認
Dingfeng Shi, Yujie Zhong, Qiong Cao, Lin Ma, Jia Li, Dacheng Tao(参考訳) 本稿では,時間的行動検出のための一段階フレームワークTriDetを提案する。 既存の手法はビデオのあいまいな動作境界による不正確な境界予測に悩まされることが多い。 そこで本研究では,境界付近の相対確率分布を推定して動作境界をモデル化する新しいトライデントヘッドを提案する。 トリデットの特徴ピラミッドでは,映像特徴に発生する自己注目のランクロス問題を軽減し,異なる時間的粒度にまたがる情報を集約する効率的なスケーラブル粒度知覚(sgp)層を提案する。 TridentヘッドとSGPベースの特徴ピラミッドから恩恵を受け、TriDetは3つの挑戦的なベンチマーク(THUMOS14、HACS、EPIC-KITCHEN 100)で最先端のパフォーマンスを達成した。 例えば、TriDetはTHUMOS14で平均69.3\%のmAPを達成し、以前の最高値を2.5\%で上回ったが、レイテンシは74.6\%でしかなかった。 コードはhttps://github.com/ssste/TriDetにリリースされている。

In this paper, we present a one-stage framework TriDet for temporal action detection. Existing methods often suffer from imprecise boundary predictions due to the ambiguous action boundaries in videos. To alleviate this problem, we propose a novel Trident-head to model the action boundary via an estimated relative probability distribution around the boundary. In the feature pyramid of TriDet, we propose an efficient Scalable-Granularity Perception (SGP) layer to mitigate the rank loss problem of self-attention that takes place in the video features and aggregate information across different temporal granularities. Benefiting from the Trident-head and the SGP-based feature pyramid, TriDet achieves state-of-the-art performance on three challenging benchmarks: THUMOS14, HACS and EPIC-KITCHEN 100, with lower computational costs, compared to previous methods. For example, TriDet hits an average mAP of $69.3\%$ on THUMOS14, outperforming the previous best by $2.5\%$, but with only $74.6\%$ of its latency. The code is released to https://github.com/sssste/TriDet.
翻訳日:2023-03-17 11:31:04 公開日:2023-03-16
# アンサンブル法による新型コロナウイルス重症度分析の強化

Enhancing COVID-19 Severity Analysis through Ensemble Methods ( http://arxiv.org/abs/2303.07130v2 )

ライセンス: Link先を確認
Anand Thyagachandran, Hema A Murthy(参考訳) ctスキャンは肺の詳細な画像を提供し、臨床医はcovid-19による損傷の程度を観察できる。 CTシーバリティスコア(CTSS)に基づくスコアリング法は、CTスキャンで観察される肺への関与の程度を特定するために用いられる。 本稿では,covid-19患者の感染領域を画像処理アルゴリズムと事前学習したunetモデルを組み合わせて抽出する,ドメイン知識に基づくパイプラインを提案する。 次に、感染の重症度を3つの機械学習モデル(Extreme Gradient Boosting、Extremely Randomized Trees、Support Vector Machine)のアンサンブルを使用して分類する。 提案システムは,AI-MIA-COV19D(AI-MIA-COV19D)の検証データセットを用いて評価し,マクロF1スコア64\%を達成した。 これらの結果から,ctスキャンによる新型コロナウイルスの正確な診断に,ドメイン知識と機械学習技術を組み合わせる可能性が示唆された。 重大度解析システムの実装は \textit{https://github.com/aanandt/enhancing-covid-19-severity- analysis-through-ensemble-methods.git } で利用可能である。

Computed Tomography (CT) scans provide a detailed image of the lungs, allowing clinicians to observe the extent of damage caused by COVID-19. The CT severity score (CTSS) based scoring method is used to identify the extent of lung involvement observed on a CT scan. This paper presents a domain knowledge-based pipeline for extracting regions of infection in COVID-19 patients using a combination of image-processing algorithms and a pre-trained UNET model. The severity of the infection is then classified into different categories using an ensemble of three machine-learning models: Extreme Gradient Boosting, Extremely Randomized Trees, and Support Vector Machine. The proposed system was evaluated on a validation dataset in the AI-Enabled Medical Image Analysis Workshop and COVID-19 Diagnosis Competition (AI-MIA-COV19D) and achieved a macro F1 score of 64\%. These results demonstrate the potential of combining domain knowledge with machine learning techniques for accurate COVID-19 diagnosis using CT scans. The implementation of the proposed system for severity analysis is available at \textit{https://github.com/aanandt/Enhancing-COVID-19-Severity-Analysis-through-Ensemble-Methods.git }
翻訳日:2023-03-17 11:30:42 公開日:2023-03-16
# 適応型データフリー量子化

Adaptive Data-Free Quantization ( http://arxiv.org/abs/2303.06869v2 )

ライセンス: Link先を確認
Biao Qian, Yang Wang, Richang Hong, Meng Wang(参考訳) データフリー量子化(DFQ)は、元のデータにアクセスせずに量子化されたネットワーク(Q)の性能を回復するが、完全精度ネットワーク(P)から学習することで、生成したサンプル、すなわち、Qの学習過程に情報的か否かの知識の適応性を見越して、ジェネレータ(G)を介して偽のサンプルを生成する。 さまざまなビット幅シナリオの下でQに対するサンプル適応性を測定するには、どうすればよいのか? Qの一般化を改善するために大きな適応性を持つサンプルを生成するには? 最大の適応性がベストなのか? そこで,本稿では,ゼロサムゲームの観点からDFQを再検討するAdaptive Data-Free Quantization (AdaDFQ)法を提案する。 この観点から、さらに意見の不一致と合意のサンプルを2つの境界に定め、そこで利幅を過度に調整し、Qに適応可能なサンプルを生成するよう最適化する。 1)最大の適応性は、qの一般化に役立つサンプル生成にとって最善ではない。 2) 生成したサンプルの知識は, q に限らず,p の訓練データのカテゴリと分布情報にも関連し, adadfq の利点を実証する。 私たちのコードは、https: github.com/hfutqian/adadfqで利用可能です。

Data-free quantization (DFQ) recovers the performance of quantized network (Q) without accessing the original data, but generates the fake sample via a generator (G) by learning from full-precision network (P), which, however, is totally independent of Q, overlooking the adaptability of the knowledge from generated samples, i.e., informative or not to the learning process of Q, resulting into the overflow of generalization error. Building on this, several critical questions -- how to measure the sample adaptability to Q under varied bit-width scenarios? how to generate the samples with large adaptability to improve Q's generalization? whether the largest adaptability is the best? To answer the above questions, in this paper, we propose an Adaptive Data-Free Quantization (AdaDFQ) method, which revisits DFQ from a zero-sum game perspective upon the sample adaptability between two players -- a generator and a quantized network. Following this viewpoint, we further define the disagreement and agreement samples to form two boundaries, where the margin is optimized to address the over-and-under fitting issues, so as to generate the samples with adaptive adaptability to Q. Our AdaDFQ reveals: 1) the largest adaptability is NOT the best for sample generation to benefit Q's generalization; 2) the knowledge of the generated sample should not be informative to Q only, but also related to the category and distribution information of the training data for P. The theoretical and empirical analysis validate the advantages of AdaDFQ over the state-of-the-arts. Our code is available at https: github.com/hfutqian/AdaDFQ.
翻訳日:2023-03-17 11:30:18 公開日:2023-03-16
# 変圧器を用いたシンボリック回帰計画

Transformer-based Planning for Symbolic Regression ( http://arxiv.org/abs/2303.06833v2 )

ライセンス: Link先を確認
Parshin Shojaee, Kazem Meidani, Amir Barati Farimani, Chandan K. Reddy(参考訳) 記号回帰(SR)は、その値に基づいて関数の数学的表現を見つけることを含む機械学習における挑戦的なタスクである。 SRの最近の進歩は、合成データセットの大規模事前学習の恩恵を受け、推論時間の観点からGPベースの手法よりもかなりの利点がある、配列として方程式を生成するための事前訓練されたトランスフォーマーベースのモデルの有効性を実証している。 しかし、これらのモデルはテキスト生成から借りた教師付き事前学習目標に焦点を当て、精度や複雑さといった方程式固有の目的を無視している。 そこで本研究では,モンテカルロ木探索をトランスフォーマ復号処理に組み込んだ,トランスフォーマに基づくシンボリック回帰計画戦略TPSRを提案する。 TPSRは、従来の復号法とは対照的に、方程式生成プロセスに外部の知識源として、精度や複雑さなどの非微分可能なフィードバックを統合することができる。 様々なデータセットに対する大規模な実験により、我々のアプローチは最先端の手法よりも優れており、モデルの適合・複雑度トレードオフ、外挿能力、ノイズに対する堅牢性を高めている。 また,様々なキャッシング機構の活用により,tpsrの効率がさらに向上することを示す。

Symbolic regression (SR) is a challenging task in machine learning that involves finding a mathematical expression for a function based on its values. Recent advancements in SR have demonstrated the efficacy of pretrained transformer-based models for generating equations as sequences, which benefit from large-scale pretraining on synthetic datasets and offer considerable advantages over GP-based methods in terms of inference time. However, these models focus on supervised pretraining goals borrowed from text generation and ignore equation-specific objectives like accuracy and complexity. To address this, we propose TPSR, a Transformer-based Planning strategy for Symbolic Regression that incorporates Monte Carlo Tree Search into the transformer decoding process. TPSR, as opposed to conventional decoding strategies, allows for the integration of non-differentiable feedback, such as fitting accuracy and complexity, as external sources of knowledge into the equation generation process. Extensive experiments on various datasets show that our approach outperforms state-of-the-art methods, enhancing the model's fitting-complexity trade-off, extrapolation abilities, and robustness to noise. We also demonstrate that the utilization of various caching mechanisms can further enhance the efficiency of TPSR.
翻訳日:2023-03-17 11:29:50 公開日:2023-03-16
# DeepMIM: マスク画像モデリングのためのDeep Supervision

DeepMIM: Deep Supervision for Masked Image Modeling ( http://arxiv.org/abs/2303.08817v2 )

ライセンス: Link先を確認
Sucheng Ren, Fangyun Wei, Samuel Albanie, Zheng Zhang, Han Hu(参考訳) 深層監視はニューラルネットワークの中間的特徴に対する追加の監督を伴うが、学習の困難さを著しく軽減し、バニラトレーニングによる勾配消失を回避するなどの最適化を容易化するため、深層学習初期の画像分類において広く用いられていた。 それにもかかわらず、正規化技術と残差接続の出現により、画像分類の深い監督は徐々に廃止されていった。 本稿では,視覚トランスフォーマー(vit)をマスク・アンド・予測方式で事前学習するマスク画像モデリング(mim)の深い監督について再検討する。 実験的に、深い監督によってより浅い層がより意味のある表現を学習し、モデルの収束を加速し、注意の多様性を増大させることがわかった。 DeepMIMと呼ばれる私たちのアプローチは、各レイヤの表現能力を著しく向上させます。 さらに、DeepMIMは多くのMIMモデルと互換性があり、様々なリコンストラクションターゲットがある。 例えば、ViT-Bを使用すると、ImageNet上でDeepMIMは84.2のトップ-1の精度を達成し、MAEを+0.6で上回る。 DeepMIMとより強力なトークン化CLIPを組み合わせることで、画像分類(ImageNet-1Kの85.6トップ-1精度、MaE-CLIP+0.8パフォーマンス)、オブジェクト検出(COCOの52.8 APbox)、セマンティックセグメンテーション(ADE20Kの53.1 mIoU)など、さまざまなダウンストリームタスクにおける最先端のパフォーマンスを実現する。 コードとモデルはhttps://github.com/OliverRensu/DeepMIM.comで入手できる。

Deep supervision, which involves extra supervisions to the intermediate features of a neural network, was widely used in image classification in the early deep learning era since it significantly reduces the training difficulty and eases the optimization like avoiding gradient vanish over the vanilla training. Nevertheless, with the emergence of normalization techniques and residual connection, deep supervision in image classification was gradually phased out. In this paper, we revisit deep supervision for masked image modeling (MIM) that pre-trains a Vision Transformer (ViT) via a mask-and-predict scheme. Experimentally, we find that deep supervision drives the shallower layers to learn more meaningful representations, accelerates model convergence, and expands attention diversities. Our approach, called DeepMIM, significantly boosts the representation capability of each layer. In addition, DeepMIM is compatible with many MIM models across a range of reconstruction targets. For instance, using ViT-B, DeepMIM on MAE achieves 84.2 top-1 accuracy on ImageNet, outperforming MAE by +0.6. By combining DeepMIM with a stronger tokenizer CLIP, our model achieves state-of-the-art performance on various downstream tasks, including image classification (85.6 top-1 accuracy on ImageNet-1K, outperforming MAE-CLIP by +0.8), object detection (52.8 APbox on COCO) and semantic segmentation (53.1 mIoU on ADE20K). Code and models are available at https://github.com/OliverRensu/DeepMIM.
翻訳日:2023-03-17 11:24:27 公開日:2023-03-16
# gpt-4技術報告

GPT-4 Technical Report ( http://arxiv.org/abs/2303.08774v2 )

ライセンス: Link先を確認
OpenAI(参考訳) 本稿では,画像とテキストの入力を受け付け,テキスト出力を生成する大規模マルチモーダルモデルgpt-4の開発について報告する。 多くの実世界のシナリオでは人間よりも能力は低いが、GPT-4は様々な専門的、学術的なベンチマークで人間レベルのパフォーマンスを示しており、試験受験者の上位10%のスコアで模擬試験に合格している。 GPT-4は、文書内の次のトークンを予測するために事前訓練されたトランスフォーマーベースのモデルである。 トレーニング後のアライメントプロセスは,実効性と所望の行動への順応性の向上をもたらす。 このプロジェクトのコアコンポーネントは、幅広いスケールで予測可能な振る舞いをするインフラストラクチャと最適化手法の開発だった。 これにより、GPT-4の1/1000分の1以下のモデルに基づいて、GPT-4の性能のいくつかの側面を正確に予測できる。

We report the development of GPT-4, a large-scale, multimodal model which can accept image and text inputs and produce text outputs. While less capable than humans in many real-world scenarios, GPT-4 exhibits human-level performance on various professional and academic benchmarks, including passing a simulated bar exam with a score around the top 10% of test takers. GPT-4 is a Transformer-based model pre-trained to predict the next token in a document. The post-training alignment process results in improved performance on measures of factuality and adherence to desired behavior. A core component of this project was developing infrastructure and optimization methods that behave predictably across a wide range of scales. This allowed us to accurately predict some aspects of GPT-4's performance based on models trained with no more than 1/1,000th the compute of GPT-4.
翻訳日:2023-03-17 11:23:53 公開日:2023-03-16
# ResDiff:超解像のためのCNNと拡散モデルの組み合わせ

ResDiff: Combining CNN and Diffusion Model for Image Super-Resolution ( http://arxiv.org/abs/2303.08714v2 )

ライセンス: Link先を確認
Shuyao Shang, Zhengyang Shan, Guangxing Liu, Jinglin Zhang(参考訳) 単純な畳み込みニューラルネットワーク(cnn)が主低周波コンテンツを復元できるため、拡散確率モデル(dpm)を直接画像の超解像に適応することは無駄である。 そこで,Single Image Super-Resolution (SISR)のための残像構造に基づく拡散確率モデルResDiffを提案する。 ResDiffは、一次低周波成分を復元するCNNと、地上構造画像とCNN予測画像の間の残差を予測するDPMを組み合わせる。 MR画像を直接HR空間へ誘導する拡散法とは対照的に、ResDiffはCNNの初期予測を利用して、HR空間とCNN予測空間の間の残留空間に向けてノイズを誘導し、生成プロセスを加速するだけでなく、優れたサンプル品質を得る。 また, 周波数領域に基づくcnnの損失関数を導入し, 復元を容易にするとともに, 周波数領域誘導拡散をdpm向けに設計した。 複数のベンチマークデータセットに関する広範な実験により、ResDiffはモデル収束時間、より優れた生成品質、より多様なサンプルの観点から、従来の拡散ベースの手法よりも優れていることが示された。

Adapting the Diffusion Probabilistic Model (DPM) for direct image super-resolution is wasteful, given that a simple Convolutional Neural Network (CNN) can recover the main low-frequency content. Therefore, we present ResDiff, a novel Diffusion Probabilistic Model based on Residual structure for Single Image Super-Resolution (SISR). ResDiff utilizes a combination of a CNN, which restores primary low-frequency components, and a DPM, which predicts the residual between the ground-truth image and the CNN-predicted image. In contrast to the common diffusion-based methods that directly use LR images to guide the noise towards HR space, ResDiff utilizes the CNN's initial prediction to direct the noise towards the residual space between HR space and CNN-predicted space, which not only accelerates the generation process but also acquires superior sample quality. Additionally, a frequency-domain-based loss function for CNN is introduced to facilitate its restoration, and a frequency-domain guided diffusion is designed for DPM on behalf of predicting high-frequency details. The extensive experiments on multiple benchmark datasets demonstrate that ResDiff outperforms previous diffusion-based methods in terms of shorter model convergence time, superior generation quality, and more diverse samples.
翻訳日:2023-03-17 11:23:27 公開日:2023-03-16
# Aerial-Ground Person Re-ID

Aerial-Ground Person Re-ID ( http://arxiv.org/abs/2303.08597v2 )

ライセンス: Link先を確認
Huy Nguyen, Kien Nguyen, Sridha Sridharan, Clinton Fookes(参考訳) 人は複数の重複しないカメラで人と再識別します。 飛行中のプラットフォームを監視に展開する一方で、既存の人物のre-IDベンチマークは地上でのマッチングと空中のマッチングに非常に限定的な取り組みに重点を置いている。 そこで我々は,航空カメラと地上カメラをまたいで,人物のリIDマッチングを行う新しいベンチマークデータセットAG-ReIDを提案する。 データセットには、388のアイデンティティの21,983のイメージと、各IDに対する15のソフト属性が含まれている。 データは、高度15~45mのUAVと、大学のキャンパスで地上のCCTVカメラによって収集されました。 我々のデータセットは、カメラ間で人物の外観が著しく異なるため、人物のリIDに対する新たな視点課題を提示している。 本稿では,この課題に対処するために,ソフト属性を用いたリIDモデルのトレーニングを指導するための説明可能なアルゴリズムを提案する。 地上人物再ID課題に対する提案手法の有効性を示す実験を行った。 データセットが公開され、ベースラインコードがオープンソース化され、この分野の研究が促進される。

Person re-ID matches persons across multiple non-overlapping cameras. Despite the increasing deployment of airborne platforms in surveillance, current existing person re-ID benchmarks' focus is on ground-ground matching and very limited efforts on aerial-aerial matching. We propose a new benchmark dataset - AG-ReID, which performs person re-ID matching in a new setting: across aerial and ground cameras. Our dataset contains 21,983 images of 388 identities and 15 soft attributes for each identity. The data was collected by a UAV flying at altitudes between 15 to 45 meters and a ground-based CCTV camera on a university campus. Our dataset presents a novel elevated-viewpoint challenge for person re-ID due to the significant difference in person appearance across these cameras. We propose an explainable algorithm to guide the person re-ID model's training with soft attributes to address this challenge. Experiments demonstrate the efficacy of our method on the aerial-ground person re-ID task. The dataset will be published and the baseline codes will be open-sourced to facilitate research in this area.
翻訳日:2023-03-17 11:23:04 公開日:2023-03-16
# 中性子拡散固有値問題を解くためのデータ有効物理形ニューラルネットワークの不確実性解析について

On the uncertainty analysis of the data-enabled physics-informed neural network for solving neutron diffusion eigenvalue problem ( http://arxiv.org/abs/2303.08455v2 )

ライセンス: Link先を確認
Yu Yang, Helin Gong, Qihong Yang, Yangtao Deng, Qiaolin He, Shiquan Zhang(参考訳) 実際の工学実験では、検出器によって得られたデータは必然的にうるさい。 既に提案されているデータ対応物理インフォームドニューラルネットワーク (DEPINN) \citep{DEPINN} について, 先行データがノイズのスケールが異なる場合の中性子拡散固有値問題の計算におけるDEPINNの性能について検討した。 さらに,ノイズの影響を低減し,ノイズ先行データの利用性を向上させるために,革新的区間損失関数を提案し,厳密な数学的証明を与える。 DEPINNのロバスト性は2つの典型的なベンチマーク問題に対して,多数の数値結果を用いて検討し,提案した区間損失関数の有効性を比較検討した。 本稿では, 原子炉物理の実用化に向けた改良型DEPINNの実現可能性を確認する。

In practical engineering experiments, the data obtained through detectors are inevitably noisy. For the already proposed data-enabled physics-informed neural network (DEPINN) \citep{DEPINN}, we investigate the performance of DEPINN in calculating the neutron diffusion eigenvalue problem from several perspectives when the prior data contain different scales of noise. Further, in order to reduce the effect of noise and improve the utilization of the noisy prior data, we propose innovative interval loss functions and give some rigorous mathematical proofs. The robustness of DEPINN is examined on two typical benchmark problems through a large number of numerical results, and the effectiveness of the proposed interval loss function is demonstrated by comparison. This paper confirms the feasibility of the improved DEPINN for practical engineering applications in nuclear reactor physics.
翻訳日:2023-03-17 11:22:47 公開日:2023-03-16
# PoseRAC: 繰り返しアクションカウントのためのPose Saliency Transformer

PoseRAC: Pose Saliency Transformer for Repetitive Action Counting ( http://arxiv.org/abs/2303.08450v2 )

ライセンス: Link先を確認
Ziyu Yao, Xuxin Cheng, Yuexian Zou(参考訳) 本稿では,Pose Saliency Representationと呼ばれる新しいアプローチの導入を通じて,反復行動の分野への重要な貢献を示す。 提案手法は, 冗長なフレームではなく2つの姿勢のみを用いて効率よく各動作を表現し, 性能を向上しながら計算コストを大幅に削減する。 さらに,この表現に基づくポーズレベル手法であるponsracを導入することで,トレーニングに敬礼のポーズを注釈するためにponss saliencyアノテーションを用いて,2つの新バージョンデータセットで最先端のパフォーマンスを実現する。 当社の軽量モデルは非常に効率的で、GPUでのトレーニングに20分しか必要とせず、従来の方法に比べて10倍近い速さで推論します。 さらに,従来のトランスRACの0.29に対してOBOの0.56を達成し,従来のトランスRACよりも大幅に改善した。 コードと新しいデータセットは、さらなる研究と実験のためにhttps://github.com/MiracleDance/PoseRACで公開されている。

This paper presents a significant contribution to the field of repetitive action counting through the introduction of a new approach called Pose Saliency Representation. The proposed method efficiently represents each action using only two salient poses instead of redundant frames, which significantly reduces the computational cost while improving the performance. Moreover, we introduce a pose-level method, PoseRAC, which is based on this representation and achieves state-of-the-art performance on two new version datasets by using Pose Saliency Annotation to annotate salient poses for training. Our lightweight model is highly efficient, requiring only 20 minutes for training on a GPU, and infers nearly 10x faster compared to previous methods. In addition, our approach achieves a substantial improvement over the previous state-of-the-art TransRAC, achieving an OBO metric of 0.56 compared to 0.29 of TransRAC. The code and new dataset are available at https://github.com/MiracleDance/PoseRAC for further research and experimentation, making our proposed approach highly accessible to the research community.
翻訳日:2023-03-17 11:22:31 公開日:2023-03-16
# FactReranker: Fact-guided Reranker for Faithful Radiology Reports Summarization

FactReranker: Fact-guided Reranker for Faithful Radiology Report Summarization ( http://arxiv.org/abs/2303.08335v2 )

ライセンス: Link先を確認
Qianqian Xie, Jiayu Zhou, Yifan Peng, Fei Wang(参考訳) 自動x線レポート要約は重要な臨床課題であり、生成した要約と基底真理x線学的所見の間の事実的正確性を維持することが重要な課題である。 既存の研究では、CheXBertやRadGraphスコアなどの事実整合性メトリクスを直接最適化するために強化学習を採用している。 しかし, グリーディサーチやビームサーチを用いた復号法は, 最適候補を選定する際の事実整合性を考慮せず, 結果整合性の向上に繋がる。 そこで我々は,提案する2段階要約手法であるfactrerankerを提案する。これは,推定された事実整合性スコアに基づいて,すべての候補から最良要約を選択することを学ぶ最初の試みである。 本稿では、RadGraphスキーマに基づいて、入力医療報告の医療事実、金の要約、および候補要約を抽出し、抽出した医療事実を効率的に組み込んで最適な要約を選択することを提案する。 我々は、事実誘導リランカを事実知識グラフ生成と事実スコアラに分解し、入力されたテキストの医療的事実と金の要約とのマッピングをモデル化できるようにし、推論中に金の要約が観察できない場合でも最適な要約を選択することができる。 また,現実的一貫した候補を選択する際のリランカの能力を測定するためのファクトベースランキング指標(RadMRR)を提案する。 2つのベンチマークデータセットにおける実験結果は,既存の手法と比較して,事実整合性スコアの高い要約生成において,提案手法が優れていることを示す。

Automatic radiology report summarization is a crucial clinical task, whose key challenge is to maintain factual accuracy between produced summaries and ground truth radiology findings. Existing research adopts reinforcement learning to directly optimize factual consistency metrics such as CheXBert or RadGraph score. However, their decoding method using greedy search or beam search considers no factual consistency when picking the optimal candidate, leading to limited factual consistency improvement. To address it, we propose a novel second-stage summarizing approach FactReranker, the first attempt that learns to choose the best summary from all candidates based on their estimated factual consistency score. We propose to extract medical facts of the input medical report, its gold summary, and candidate summaries based on the RadGraph schema and design the fact-guided reranker to efficiently incorporate the extracted medical facts for selecting the optimal summary. We decompose the fact-guided reranker into the factual knowledge graph generation and the factual scorer, which allows the reranker to model the mapping between the medical facts of the input text and its gold summary, thus can select the optimal summary even the gold summary can't be observed during inference. We also present a fact-based ranking metric (RadMRR) for measuring the ability of the reranker on selecting factual consistent candidates. Experimental results on two benchmark datasets demonstrate the superiority of our method in generating summaries with higher factual consistency scores when compared with existing methods.
翻訳日:2023-03-17 11:22:10 公開日:2023-03-16
# videofusion:高品質ビデオ生成のための分解拡散モデル

VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation ( http://arxiv.org/abs/2303.08320v2 )

ライセンス: Link先を確認
Zhengxiong Luo, Dayou Chen, Yingya Zhang, Yan Huang, Liang Wang, Yujun Shen, Deli Zhao, Jingren Zhou, Tieniu Tan(参考訳) データポイントに徐々にノイズを付加して前方拡散過程を構築する拡散確率モデル (DPM) は、新しいサンプルを生成するために逆復調過程を学習し、複雑なデータ分布を扱うことを示した。 最近の画像合成の成功にもかかわらず、高次元データ空間のため、ビデオ生成にDPMを適用することは依然として困難である。 従来の方法は標準拡散プロセスを採用しており、同じビデオクリップ内のフレームが独立したノイズで破壊され、コンテンツの冗長性と時間的相関が無視される。 本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。 ノイズ除去パイプラインは、ノイズ分解に適合する2つの協調学習ネットワークを用いる。 各種データセットを用いた実験により, 高品質ビデオ生成において, 提案手法がganベースと拡散ベースの両方の選択肢を上回っていることを確認した。 さらに, 画像拡散モデルの事前学習と, テキスト条件付きビデオ生成の有効性を示す。

A diffusion probabilistic model (DPM), which constructs a forward diffusion process by gradually adding noise to data points and learns the reverse denoising process to generate new samples, has been shown to handle complex data distribution. Despite its recent success in image synthesis, applying DPMs to video generation is still challenging due to high-dimensional data spaces. Previous methods usually adopt a standard diffusion process, where frames in the same video clip are destroyed with independent noises, ignoring the content redundancy and temporal correlation. This work presents a decomposed diffusion process via resolving the per-frame noise into a base noise that is shared among all frames and a residual noise that varies along the time axis. The denoising pipeline employs two jointly-learned networks to match the noise decomposition accordingly. Experiments on various datasets confirm that our approach, termed as VideoFusion, surpasses both GAN-based and diffusion-based alternatives in high-quality video generation. We further show that our decomposed formulation can benefit from pre-trained image diffusion models and well-support text-conditioned video creation.
翻訳日:2023-03-17 11:21:40 公開日:2023-03-16
# 大規模言語モデルの学習後量子化に関する総合的研究

A Comprehensive Study on Post-Training Quantization for Large Language Models ( http://arxiv.org/abs/2303.08302v2 )

ライセンス: Link先を確認
Zhewei Yao, Cheng Li, Xiaoxia Wu, Stephen Youn, Yuxiong He(参考訳) 学習後の量子化(\ptq)は、近年、大規模言語モデルのメモリ消費と/または計算コストを削減するための妥協手法として示されている。 しかし、異なる量子化スキーム、異なるモデルファミリー、異なる \ptq 法、異なる量子化ビット精度などの影響に関する包括的な研究はいまだに欠落している。 本研究では,これらの部品について,何万ものゼロショット実験を行った。 その結果、(1)細粒度量子化と(naive round-to-nearest量子化ではなく) \ptq法が精度向上のために必要であり、(2)粗粒度量子化の上位ビット(例えば5ビット)は、非常に細粒度量子化(有効ビット精度が5ビットに近い)の下位ビット(例えば4ビット)よりも強力であることがわかった。 また,本研究で解決されていない将来的な機会とシステムワークの提案を残し,異なるサイズのllmに対して量子化をどのように活用するかを推奨する。

Post-training quantization (\ptq) had been recently shown as a compromising method to reduce memory consumption and/or compute cost for large language models. However, a comprehensive study about the effect of different quantization schemes, different model families, different \ptq methods, different quantization bit precision, etc, is still missing. In this work, we provide an extensive study of those components over tens of thousands of zero-shot experiments. Our results show that (1) Fine-grained quantization and \ptq methods (instead of naive round-to-nearest quantization) are necessary to achieve good accuracy and (2) Higher bits (e.g., 5 bits) with coarse-grained quantization is more powerful than lower bits (e.g., 4 bits) with very fine-grained quantization (whose effective bit precision is similar to 5 bits). We also present recommendations about how to utilize quantization for \llms with different sizes, and leave suggestions of future opportunities and system work that are not resolved in this work.
翻訳日:2023-03-17 11:21:20 公開日:2023-03-16
# グラフニューラルネットワークによるフェアグラフフィルタリング

Graph Neural Network Surrogates of Fair Graph Filtering ( http://arxiv.org/abs/2303.08157v2 )

ライセンス: Link先を確認
Emmanouil Krasanakis, Symeon Papadopoulos(参考訳) 先行ノード値から後続スコアに変換するグラフフィルタは、リコメンデーションやランキングなど、人間に影響を与えるグラフマイニングタスクをサポートすることが多い。 したがって、ノード群間の統計的パリティ制約(例えば、その表現に比例して性別間でスコアの質量を分配する)を満たす観点から、それらを公平にすることが重要である。 元の後方を最小限に摂動しながらこれを実現するため,後方目標に対するフィルタ対応普遍近似フレームワークを提案する。 これは、実行時にフィルタに類似するようにトレーニングされた適切なグラフニューラルネットワークを定義すると同時に、フェアネスを認識できるものを含む、大きな目的のクラスをローカルに最適化する。 8つのフィルタと5つのグラフの集合に対する実験により、我々のアプローチは、スコアベースのコミュニティメンバー推薦のAUCを維持しつつ、事前拡散の最小限のユーティリティ損失を発生させながら、パリティ制約を満たす方法よりも同等かそれ以上に優れていることが示された。

Graph filters that transform prior node values to posterior scores via edge propagation often support graph mining tasks affecting humans, such as recommendation and ranking. Thus, it is important to make them fair in terms of satisfying statistical parity constraints between groups of nodes (e.g., distribute score mass between genders proportionally to their representation). To achieve this while minimally perturbing the original posteriors, we introduce a filter-aware universal approximation framework for posterior objectives. This defines appropriate graph neural networks trained at runtime to be similar to filters but also locally optimize a large class of objectives, including fairness-aware ones. Experiments on a collection of 8 filters and 5 graphs show that our approach performs equally well or better than alternatives in meeting parity constraints while preserving the AUC of score-based community member recommendation and creating minimal utility loss in prior diffusion.
翻訳日:2023-03-17 11:20:58 公開日:2023-03-16