このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230102となっている論文です。

PDF登録状況(公開日: 20230102)

TitleAuthorsAbstract論文公表日・翻訳日
# アセットアロケーションのための深層強化学習:リワードクリッピング

Deep Reinforcement Learning for Asset Allocation: Reward Clipping ( http://arxiv.org/abs/2301.05300v1 )

ライセンス: Link先を確認
Jiwon Kim and Moon-Ju Kang and KangHun Lee and HyungJun Moon and Bo-Kwan Jeon(参考訳) 近年、より安定した利益を得るために資産配分に強化学習を適用する試みが数多く行われている。 本稿では,複数の強化学習アルゴリズム(アクターのみ,アクタークリティカル,PPOモデル)のパフォーマンスを比較する。 さらに,各モデルのキャラクタを分析して,リワードクリッピングモデルと呼ばれる高度なアルゴリズムを導入する。 報酬クリッピングモデルは、ファイナンスドメインの他の既存モデル、特にポートフォリオ最適化モデルよりも優れているようです。 最後に、これらのモデルのパフォーマンスを、市場縮小と拡大中の従来の投資戦略と比較する。

Recently, there are many trials to apply reinforcement learning in asset allocation for earning more stable profits. In this paper, we compare performance between several reinforcement learning algorithms - actor-only, actor-critic and PPO models. Furthermore, we analyze each models' character and then introduce the advanced algorithm, so called Reward clipping model. It seems that the Reward Clipping model is better than other existing models in finance domain, especially portfolio optimization - it has strength both in bull and bear markets. Finally, we compare the performance for these models with traditional investment strategies during decreasing and increasing markets.
翻訳日:2023-01-29 14:27:36 公開日:2023-01-02
# 実写フルアノテート顕微鏡画像データセット生成のための非定常拡散確率モデル

Denoising Diffusion Probabilistic Models for Generation of Realistic Fully-Annotated Microscopy Image Data Sets ( http://arxiv.org/abs/2301.10227v1 )

ライセンス: Link先を確認
Dennis Eschweiler and Johannes Stegmaier(参考訳) 拡散確率モデルは現実的な画像データを生成する大きな可能性を示している。 これらのモデルを用いて,細胞構造をシミュレーションしたスケッチを用いて2次元および3次元の顕微鏡画像データを生成する方法を示す。 複数のデータセットは、異なる細胞構造のスケッチをシミュレートするためのインスピレーションとして使用され、人間の相互作用を必要とせずに完全な注釈付き画像データセットを生成することができる。 これらのデータセットは、セグメンテーションアプローチを訓練するために使われ、蛍光顕微鏡画像データにおけるアノテーションフリーな細胞構造のセグメンテーションを達成できることを実証し、人間の注記作業の必要性を排除する究極の目標に向かって跳躍する。

Denoising diffusion probabilistic models have shown great potential in generating realistic image data. We show how those models can be used to generate realistic microscopy image data in 2D and 3D based on simulated sketches of cellular structures. Multiple data sets are used as an inspiration to simulate sketches of different cellular structures, allowing to generate fully-annotated image data sets without requiring human interactions. Those data sets are used to train segmentation approaches and demonstrate that annotation-free segmentation of cellular structures in fluorescence microscopy image data can be achieved, thereby leaping towards the ultimate goal of eliminating the necessity of human annotation efforts.
翻訳日:2023-01-29 13:20:34 公開日:2023-01-02
# アルゴリズムの欠如

Lost in Algorithms ( http://arxiv.org/abs/2301.10333v1 )

ライセンス: Link先を確認
Andrew N. Sloss(参考訳) アルゴリズムはより有能になりつつあり、それとともにhic sunt dracones(ドラゴン)が現れる。 この用語は既知の地図以外の領域を象徴している。 この用語は、アルゴリズムでエキサイティングで、潜在的に危険な、未知の領域に足を踏み入れるために使われます。 自然界を理解する好奇心が、新しい方法の探索を促します。 そのため、この主題を探求することが重要である。 このプロジェクトの目的は、現在のハードウェアの状態と合わせて得られた情報をオーバーレイして、将来のアルゴリズムの今後の方向性を判断できるかどうかを確認することである。 本論文では,非古典的コンピューティングを若干カバーするが,古典的コンピューティング(すなわちデジタルコンピュータ)に重点を置いている。 非古典的量子コンピューティングには古典的コンピュータが必要であり、それらは互いに排他的ではない。

Algorithms are becoming more capable, and with that comes hic sunt dracones (here be dragons). The term symbolizes areas beyond our known maps. We use this term since we are stepping into an exciting, potentially dangerous, and unknown area with algorithms. Our curiosity to understand the natural world drives our search for new methods. For this reason, it is crucial to explore this subject. The project's objective is to overlay the information obtained, in conjunction with the state of hardware today, to see if we can determine the likely directions for future algorithms'. Even though we slightly cover non-classical computing in this paper, our primary focus is on classical computing (i.e., digital computers). It is worth noting that non-classical quantum computing requires classical computers to operate; they are not mutually exclusive.
翻訳日:2023-01-29 13:11:44 公開日:2023-01-02
# アンダーソン局在の観測エントロピー的研究

Observational entropic study of Anderson localization ( http://arxiv.org/abs/2209.10273v3 )

ライセンス: Link先を確認
Ranjan Modak and S. Aravinda(参考訳) 量子力学の文脈における熱力学エントロピーの概念は議論の的となっている。 フォン・ノイマンのエントロピーを熱力学的エントロピーと呼ぶ提案があったが、それ自身の制限がある。 観測エントロピーはボルツマンエントロピーの一般化として発展しており、量子力学における熱力学的エントロピーを明確かつ明確に理解するための最も有望な候補の一つである。 本研究では,一次元Aubrey-Andr\eモデルにおける局所化・非局在化遷移の文脈における観測エントロピーの挙動について検討する。 典型的な中間スペクトル状態において、非局在化相では、観察エントロピーは粗粒度で急速に成長し、最大値まで飽和するのに対し、局所化相では成長は対数的である。 さらに, 粗粒化は非局在化相におけるシステムサイズと対数的に増加し, 局所化相における領域法則に従う。 また, 観測エントロピーの増加と量子クエンチは非局在化相と遷移点において時間対数であり, 局所化相では振動する。 最後に、運動量空間粗粒化を用いたAAモデルの自己双対性についても検討する。

The notion of the thermodynamic entropy in the context of quantum mechanics is a controversial topic. While there were proposals to refer von Neumann entropy as the thermodynamic entropy, it has it's own limitations. The observational entropy has been developed as a generalization of Boltzmann entropy, and it is presently one of the most promising candidates to provide a clear and well-defined understanding of the thermodynamic entropy in quantum mechanics. In this work, we study the behaviour of the observational entropy in the context of localization-delocalization transition for one-dimensional Aubrey-Andr\'e (AA) model. We find that for the typical mid-spectrum states, in the delocalized phase the observation entropy grows rapidly with coarse-grain size and saturates to the maximal value, while in the localized phase the growth is logarithmic. Moreover, for a given coarse-graining, it increases logarithmically with system size in the delocalized phase, and obeys area law in the localized phase. We also find the increase of the observational entropy followed by the quantum quench, is logarithmic in time in the delocalized phase as well as at the transition point, while in the localized phase it oscillates. Finally, we also venture the self-dual property of the AA model using momentum space coarse-graining.
翻訳日:2023-01-25 20:45:06 公開日:2023-01-02
# 量子機械学習による分子の近似基底状態の生成

Generating Approximate Ground States of Molecules Using Quantum Machine Learning ( http://arxiv.org/abs/2210.05489v3 )

ライセンス: Link先を確認
Jack Ceroni, Torin F. Stetina, Maria Kieferova, Carlos Ortiz Marrero, Juan Miguel Arrazola, Nathan Wiebe(参考訳) 原子核の位置に関する分子のポテンシャルエネルギー表面(PES)は、第一原理から化学反応を理解するための主要な道具である。 しかし、高次元PSS上で大量の基底状態のサンプリングを行うためには、大量の状態の準備が必要であるため、この情報を取得することは複雑である。 本研究では,pes上の任意の点における量子状態生成のための生成量子機械学習モデルを提案する。 このモデルは、異なる古典的核座標に関連する基底状態波動関数からなる量子データを用いて訓練される。 我々のアプローチでは、古典的なニューラルネットワークを用いて分子の核座標を変動量子回路の量子パラメータに変換する。 モデルは、ニューラルネットワークパラメータを最適化するために、忠実度損失関数を使用してトレーニングされる。 勾配評価は, 水素鎖, 水, および水化ベリリウムのpes上での波動関数の調製が効率的かつ数値的に可能であることを示す。 いずれの場合も、実際に行われている基底状態と非常に高い重複を達成するためには、少数のトレーニングポイントが必要である。 理論的観点からは、もし少数のサンプルを使って回避された交差を学習できたら、グローバーの下限を破ることができることを示すことで、これらのプロトコルの限界をさらに証明する。 さらに,量子フィッシャー情報からの引数を用いて,局所最適ニューラルネットワーク関数を学習するのに必要な量子データ量の上限を低くすることを示す。 この研究は量子化学が量子機械学習の重要なユースケースであることを示すものである。

The potential energy surface (PES) of molecules with respect to their nuclear positions is a primary tool in understanding chemical reactions from first principles. However, obtaining this information is complicated by the fact that sampling a large number of ground states over a high-dimensional PES can require a vast number of state preparations. In this work, we propose using a generative quantum machine learning model to prepare quantum states at arbitrary points on the PES. The model is trained using quantum data consisting of ground-state wavefunctions associated with different classical nuclear coordinates. Our approach uses a classical neural network to convert the nuclear coordinates of a molecule into quantum parameters of a variational quantum circuit. The model is trained using a fidelity loss function to optimize the neural network parameters. We show that gradient evaluation is efficient and numerically demonstrate our method's ability to prepare wavefunctions on the PES of hydrogen chains, water, and beryllium hydride. In all cases, we find that a small number of training points are needed to achieve very high overlap with the groundstates in practice. From a theoretical perspective, we further prove limitations on these protocols by showing that if we were able to learn across an avoided crossing using a small number of samples, then we would be able to violate Grover's lower bound. Additionally, we prove lower bounds on the amount of quantum data needed to learn a locally optimal neural network function using arguments from quantum Fisher information. This work further identifies that quantum chemistry can be an important use case for quantum machine learning.
翻訳日:2023-01-22 22:20:17 公開日:2023-01-02
# 自由ハミルトニアン還元による量子一般化カロジェロ・モーゼ系

Quantum generalized Calogero-Moser systems from free Hamiltonian reduction ( http://arxiv.org/abs/2211.05751v2 )

ライセンス: Link先を確認
Katarzyna Kowalczyk-Murynka, Marek Ku\'s(参考訳) 1/x^2$の反発ポテンシャルを持つ粒子の1次元系は、カロジェロ・モーサー系として知られている。 その古典的なバージョンは、ポアソン括弧に関して$\mathfrak{so}(N)$または$\mathfrak{su}(N)$代数にまたがる結合定数を追加の自由度で置換することで一般化することができる。 この一般化モデルの量子バージョンを示す。 古典的一般化は自由系のシンプレクティック還元によって得られるので、類似した直線に沿って量子系を得る方法を提案する。 自由量子系の還元はハミルトニアン(英語版)(hamiltonian)となり、基底、直交、ユニタリ、対称性群に依存する古典系の力学の違いを保存できる。 直交系はユニタリ系よりも反発性が低いことが知られており、還元された自由量子ハミルトニアンはこの性質を、考慮された系の素直なディラック量子化を行う際に存在しない追加の魅力的な項 $\sum_{i<j}\frac{-\hbar^2}{(x_i-x_j)^2}$ で示している。 一般化された量子カロジェロ・モーゼル・ハミルトニアンの詳細と厳密な導出を示し、粒子数$N=2,3$のスペクトルと波動関数を見つけ、一般値$N$のハミルトニアンを部分的に対角化する。

The one-dimensional system of particles with a $1/x^2$ repulsive potential is known as the Calogero-Moser system. Its classical version can be generalised by substituting the coupling constants with additional degrees of freedom, which span the $\mathfrak{so}(N)$ or $\mathfrak{su}(N)$ algebra with respect to Poisson brackets. We present the quantum version of this generalized model. As the classical generalization is obtained by a symplectic reduction of a free system, we present a method of obtaining a quantum system along similar lines. The reduction of a free quantum system results in a Hamiltonian, which preserves the differences in dynamics of the classical system depending on the underlying, orthogonal or unitary, symmetry group. The orthogonal system is known to be less repulsive than the unitary one, and the reduced free quantum Hamiltonian manifests this trait through an additional attractive term $\sum_{i<j}\frac{-\hbar^2}{(x_i-x_j)^2}$, which is absent when one performs the straightforward Dirac quantization of the considered system. We present a detailed and rigorous derivation of the generalized quantum Calogero-Moser Hamiltonian, we find the spectra and wavefunctions for the number of particles $N=2,3$, and we diagonalize the Hamiltonian partially for a general value of $N$.
翻訳日:2023-01-19 19:14:27 公開日:2023-01-02
# 限られた訓練データを考慮した非侵入水利用分類

Non-intrusive Water Usage Classification Considering Limited Training Data ( http://arxiv.org/abs/2301.03457v1 )

ライセンス: Link先を確認
Pavlos Pavlou, Stelios Vrachimis, Demetrios G. Eliades, Marios M. Polycarpou(参考訳) 家電の使用状況を継続的に監視するための家庭内水消費のスマート測定は, 人々の水環境保全に対する行動に影響を及ぼすことが示された。 しかし,各家電をモニタする複数のセンサの設置は初期コストが高く,センサを用いた各種家電の消費監視は費用対効果が低い。 この課題に対処するため、研究は機械学習(ml)法を用いた国内総消費量の測定を分析し、各機器に水の使用量を分解することに焦点を当てている。 特定のアプライアンスが断続的なフローで動作し、個々の消費イベントの識別が困難になる可能性があるため、mlで使用するアプライアンスを特定するのは困難である。 さらに、MLアプローチはモデルをトレーニングするために大量のラベル付き入力データを必要とするが、通常は単一の家庭では利用できない。 本研究では,まず,実際のラベル付きデータを持つ大規模トレーニングデータセットの必要性を克服するために,地域水利用特性と分解能に基づく合成時系列を生成するデータモデルを提案する。 この手法では,研究領域からのラベル付きデータを少数必要とする。 そこで本研究では,家庭内水消費の総量を用いて,単一および重複する家庭用水利用イベントを分類するアルゴリズムを提案する。

Smart metering of domestic water consumption to continuously monitor the usage of different appliances has been shown to have an impact on people's behavior towards water conservation. However, the installation of multiple sensors to monitor each appliance currently has a high initial cost and as a result, monitoring consumption from different appliances using sensors is not cost-effective. To address this challenge, studies have focused on analyzing measurements of the total domestic consumption using Machine Learning (ML) methods, to disaggregate water usage into each appliance. Identifying which appliances are in use through ML is challenging since their operation may be overlapping, while specific appliances may operate with intermittent flow, making individual consumption events hard to distinguish. Moreover, ML approaches require large amounts of labeled input data to train their models, which are typically not available for a single household, while usage characteristics may vary in different regions. In this work, we initially propose a data model that generates synthetic time series based on regional water usage characteristics and resolution to overcome the need for a large training dataset with real labeled data. The method requires a small number of real labeled data from the studied region. Following this, we propose a new algorithm for classifying single and overlapping household water usage events, using the total domestic consumption measurements.
翻訳日:2023-01-15 23:09:05 公開日:2023-01-02
# ハイブリッド量子ナノワイヤにおけるSnのエピタキシャル駆動相選択性

Epitaxially Driven Phase Selectivity of Sn in Hybrid Quantum Nanowires ( http://arxiv.org/abs/2212.13314v2 )

ライセンス: Link先を確認
Sabbir A. Khan, Sara Mart\'i-S\'anchez, Dags Olsteins, Charalampos Lampadaris, Damon James Carrad, Yu Liu, Judith Qui\~nones, Maria Chiara Spadaro, Thomas S. Jespersen, Peter Krogstrup and Jordi Arbiol(参考訳) ハイブリッド半導体/超伝導ナノワイヤは、ゲート可変超伝導とトポロジカルな挙動の出現を研究するための広汎なプラットフォームを構成する。 低次元と結晶構造の柔軟性により、新しいヘテロ構造の成長と効率的な物質最適化が促進される。 本稿では,InSb,InAsSb,InAsナノワイヤ上でのSn成長の広範な最適化について述べる。 半導体の成長条件と結晶構造・対称性が、セミメタル$\mathrm{\alpha-Sn}$または超伝導$\mathrm{\beta-Sn}$の生成を駆動することを示す。 InAsナノワイヤの場合、相純物は$\mathrm{\beta-Sn} のシェルを超伝導する。 しかし、InSb と InAsSb のナノワイヤの場合、初期エピタキシャル $\mathrm{\alpha-Sn} の相は、Sn の殻の厚さとともに $\mathrm{\alpha} と $\mathrm{\beta} の相が共存する多結晶殻へと進化する。 これらのナノワイヤが超伝導を示すかどうかは、$\mathrm{\beta-sn}$の内容に依存する。 したがって、この研究は様々な半導体のsn相制御に対する重要な洞察を与え、超伝導ハイブリッドがトポロジカル系を生成するのに適した結果をもたらす。

Hybrid semiconductor/superconductor nanowires constitute a pervasive platform for studying gate-tunable superconductivity and the emergence of topological behavior. Their low-dimensionality and crystal structure flexibility facilitate novel heterostructure growth and efficient material optimization; crucial prerequisites for accurately constructing complex multi-component quantum materials. Here, we present an extensive optimization of Sn growth on InSb, InAsSb and InAs nanowires. We demonstrate how the growth conditions and the crystal structure/symmetry of the semiconductor drive the formation of either semi-metallic $\mathrm{\alpha-Sn}$ or superconducting $\mathrm{\beta-Sn}$. For InAs nanowires, we obtain phase-pure, superconducting $\mathrm{\beta-Sn}$ shells. However, for InSb and InAsSb nanowires, an initial epitaxial $\mathrm{\alpha-Sn}$ phase evolves into a polycrystalline shell of coexisting $\mathrm{\alpha}$ and $\mathrm{\beta}$ phases, where the $\beta/\alpha$ volume ratio increases with Sn shell thickness. Whether these nanowires exhibit superconductivity or not critically relies on the $\mathrm{\beta-Sn}$ content. Therefore, this work provides key insights into Sn phase control on a variety of semiconductors, with consequences for the yield of superconducting hybrids suitable for generating topological systems.
翻訳日:2023-01-09 04:04:44 公開日:2023-01-02
# PT-SymmetryによるDNA切断

DNA Unzipping as PT-Symmetry Breaking Transition ( http://arxiv.org/abs/2212.14394v2 )

ライセンス: Link先を確認
Tanmoy Pal, Ranjan Modak, Bhabani Prasad Mandal(参考訳) 非エルミートハッタノ・ネルソン・ハミルトニアンの基底状態における量子力学的局在-非局在遷移によって等価に記述される古典的なdnaアンジッピング遷移は、一般化パリティ(p)時間反転(t)対称性の破れ遷移によって導かれる。 また,有限サイズ格子上の単一不純物および準周期ポテンシャルの存在下では,Hatano-Nelsonモデルの1次元離散化バージョンも検討する。 以上の結果から,これらのモデルではPT未破壊相から破壊相への相転移が認められた。 興味深いことに、一般化されたPT相転移点も両方のモデルの局在化-非局在化遷移と一致する。

We show that classical DNA unzipping transition which is equivalently described by quantum mechanical localization-delocalization transition in the ground state of non-Hermitian Hatano-Nelson Hamiltonian is underpinned by generalized parity (P)-time reversal (T) symmetry breaking transition. We also study the one-dimensional discretized version of Hatano-Nelson model in the presence of the single impurity and quasiperiodic potential on a finite-size lattice. Our results show that these models undergo a phase transition from a PT unbroken phase to a broken phase. Interestingly, the generalized PT phase transition points also coincide with the localization-delocalization transition for both models.
翻訳日:2023-01-09 03:56:25 公開日:2023-01-02
# パラメータ依存非エルミートハミルトニアンの例外点のダイナミクスを管理する運動方程式

Equations of motion governing the dynamics of the exceptional points of parameterically dependent nonhermitian Hamiltonians ( http://arxiv.org/abs/2212.14804v2 )

ライセンス: Link先を確認
Milan \v{S}indelka, Pavel Str\'ansk\'y, Pavel Cejnar(参考訳) 非エルミート的ハミルトニアン $\hat{H}(\lambda,\delta)$ の例外点 (EPs) について、パラメータ $\lambda \in {\mathbb C}$ と $\delta \in {\mathbb R}$ について検討する。 実制御パラメータである$\delta$ が変化すると、$\hat{h}(\lambda,\delta)$の$k$-th ep(または、同時に存在するepの$k$-thクラスタ)は、連続軌道に沿って$\lambda$の複素平面を移動し、$\lambda_k(\delta)$となる。 我々は、軌道 $\lambda_k(\delta)$ に対して自己を含む運動方程式集合(eom)を導出し、一方で$\delta$ を伝播時間として解釈する。 そのようなEOMは、EPの外部摂動に対する応答や関連するハミルトンの連続パラメトリックな変化について研究したいときに、興味を持つ。 これは例えば、エルミート曲線の交差/退化から発するEP(ハミルトンパラメータが連続的に変化するときに回避される)の場合である。 EPに対して提示されたEOMは、理論的メリットだけでなく、実際的な妥当性も有している。 すなわち、単に提示されたアプローチは、原子、核、凝縮物質物理学で遭遇する幅広い種類の複雑な量子系に対してEPを生成するのに有用な効率的な数値法であると見なすことができる。 このような手法の性能は, 単純だが非自明な玩具モデルを用いて数値的に検証する。

We study exceptional points (EPs) of a nonhermitian Hamiltonian $\hat{H}(\lambda,\delta)$ whose parameters $\lambda \in {\mathbb C}$ and $\delta \in {\mathbb R}$. As the real control parameter $\delta$ is varied, the $k$-th EP (or $k$-th cluster of simultaneously existing EPs) of $\hat{H}(\lambda,\delta)$ moves in the complex plane of $\lambda$ along a continuous trajectory, $\lambda_k(\delta)$. We derive a self contained set of equations of motion (EOM) for the trajectory $\lambda_k(\delta)$, while interpreting $\delta$ as the propagation time. Such EOM become of interest whenever one wishes to study the response of EPs to external perturbations or continuous parametric changes of the pertinent Hamiltonian. This is e.g.~the case of EPs emanating from hermitian curve crossings/degeneracies (which turn into avoided crossings/near-degeneracies when the Hamiltonian parameters are continuously varied). The presented EOM for EPs have not only their theoretical merits, they possess also a substantial practical relevance. Namely, the just presented approach can be regarded even as an efficient numerical method, useful for generating EPs for a broad class of complex quantum systems encountered in atomic, nuclear and condensed matter physics. Performance of such a method is tested here numerically on a simple yet nontrivial toy model.
翻訳日:2023-01-09 03:55:08 公開日:2023-01-02
# 外挿によるトロッターシミュレーションの誤差スケーリングの改善

Improved Error Scaling for Trotter Simulations through Extrapolation ( http://arxiv.org/abs/2212.14144v2 )

ライセンス: Link先を確認
Gumaro Rendon, Jacob Watkins, Nathan Wiebe(参考訳) 近年、トロッター公式は、ハミルトニアンの局所性と可換構造を活用できるため、量子コンピュータ上で量子力学をシミュレートするための主要な手法として登場している。 しかし、トロッターの公式に直面する大きな問題は、誤差耐性で多対数スケーリングを達成できないことである。 我々は,特に選択されたトロッターステップサイズで得られたトロッター・スズズキシミュレーションからデータを取り,トロッターステップサイズがゼロになる限界で見られる値を評価する,十分に条件付けられた外挿スキームを提供することでこの問題に対処した。 1次トロッター公式であっても、位相推定のために$\tilde{o}(1/\epsilon)$ scalingと、シミュレーション時間$t$とエラー耐性$\epsilon$のための時間発展期待値を推定するための$\tilde{o}(t^2/\epsilon)$ scalingを示す。 これは、最も知られていない外挿のないトロッター公式よりも、エラー耐性でスケーリングする方がよい。 さらに, 位相推定のための新しい手法を提案するとともに, 量子コンピュータ上でのトロッター誤差を外挿によって推定する新しい手法を提案し, トロッターシミュレーションにおける誤差を独立的に評価する新しい方法を得る。

In recent years, Trotter formulas have emerged as a leading approach for simulating quantum dynamics on quantum computers, owing to their ability to exploit locality and commutator structure of the Hamiltonian. However, a major problem facing Trotter formulas is their inability to achieve poly-logarithmic scaling with the error tolerance. We address this problem by providing a well-conditioned extrapolation scheme that takes data from Trotter-Suzuki simulations obtained for specifically chosen Trotter step sizes and estimates the value that would be seen in the limit where the Trotter step size goes to zero. We show this leads, even for the first order Trotter formula, to $\tilde{O}(1/\epsilon)$ scaling for phase estimation and $\tilde{O}(t^2/\epsilon)$ scaling for estimating time-evolved expectation values for simulation time $t$ and error tolerance $\epsilon$. This is better scaling with the error tolerance than the best known un-extrapolated Trotter formulas. Additionally, we provide a new approach for phase estimation that is unbiased and also provide a new approach for estimating the Trotter error on a quantum computer through extrapolation which yields a new way to independently assess the errors in a Trotter simulation.
翻訳日:2023-01-09 02:15:28 公開日:2023-01-02
# E91プロトコルにおける最適光子予算配分

Optimal photon budget allocation in E91 protocol ( http://arxiv.org/abs/2212.13837v2 )

ライセンス: Link先を確認
Melis Pahal{\i}, Kadir Durak, Utku Tefek(参考訳) グローバル規模での量子通信技術の展開のためには、一定時間間隔ごとに様々な大きさの施設のデータ交換需要を満たすことが必要であり、費用対効果と実現性が重要である。 これらの要件を満たすために、キーレートの向上とシステム最適化に多くの努力が払われている。 本研究では、セキュリティを損なうことなく、標準化されたE91 QKDシステムにおける生鍵レートの改善に焦点を当てた。 本手法は,異なる目的のために使用する3種類のビット間の光子予算配分を最適化することである。 これらの3つのビットは鍵ビットであり、ベルの不等式ビットと廃棄ビットであり、それらの比は原理実証実験においてそれぞれ$25\%$、$50\%$、$25\%$である。 一方で、226.22.22\%$の生鍵レート増加率を示し、3種類のビット間で8,3\%$,10\%$,7\%$の光子予算割り当てを示す。 これらの比率は50:50ドルのビームスプリッターを、一方の通信側で90:10ドルのビームスプリッター、もう一方の通信側で93:7ドルのビームスプリッターに置き換えることで達成される。 さらに,光子予算によって最適なビーム分割比が変化することを示した。

In order for the deployment of quantum communication technologies in a global scale, it is necessary to meet data exchange demand of various size establishments per certain time intervals and it is important to make them cost effective and feasible. In order to meet these requirements, a lot of effort has been put into increasing key rate and having optimized systems. In this study, we focus on the improvement of raw key rate in a standardized E91 QKD system without compromising its security. Our method is to optimize photon budget allocation among three types of bits used in the system for different purposes or occurred unavoidably. These three types of bits are key bits, Bell's inequality bits and discarded bits and their ratios were $25\%$, $50\%$ and $25\%$, respectively, in the proof-of-principle experiment. On the other hand, we present $226.22\%$ increase in raw key rate with $83\%$, $10\%$ and $7\%$ allocation of photon budget among three types of bits. These ratios are achieved by replacing $50:50$ beam splitters with a $90:10$ beam splitter at one communicating side and a $93:7$ beam splitter at the other communicating side. Additionally, we demonstrate that the optimum beam splitting ratios can vary depending on photon budget.
翻訳日:2023-01-09 02:04:39 公開日:2023-01-02
# 複素力学における量子速度限界

Quantum speed limit for complex dynamics ( http://arxiv.org/abs/2301.00566v1 )

ライセンス: Link先を確認
Mao Zhang and Huai-Ming Yu and Jing Liu(参考訳) 量子速度制限は固定されたミッションの最小時間スケールに焦点を合わせ、したがって高速ダイナミクスが通常有用である量子情報において重要である。 量子速度制限(OQSL)の運用定義が最近提案され、時間に依存しないハミルトンの固有最小時間を明らかにした。 しかし、時間依存ハミルトニアンに対するOQSLを評価する一般的な方法、特にノイズが関与する場合は、まだ不足している。 本稿では,ある種の時間依存ハミルトニアンに対してoqslの表現を提供し,複雑な力学におけるoqslの評価のための機械学習に基づく3段階の手法を提案する。

Quantum speed limit focuses on the minimum time scale for a fixed mission and hence is important in quantum information where fast dynamics is usually beneficial. Recently an operational definition of quantum speed limit (OQSL) was proposed, which reveals the intrinsic minimum time for time-independent Hamiltonians. However, a general method to evaluate the OQSL for time-dependent Hamiltonians, especially when noises are involved, is still in lack. Hereby we provide the expression of OQSL for a certain type of time-dependent Hamiltonians and propose a three-step (classification-regression-calibration) methodology based on machine learning for the evaluation of OQSL in complex dynamics.
翻訳日:2023-01-09 01:40:33 公開日:2023-01-02
# 非励起ブラックホール熱力学における一般不確かさ原理の影響

Generalized Uncertainty Principle Impact on Nonextensive Black Hole Thermodynamics ( http://arxiv.org/abs/2301.00609v1 )

ライセンス: Link先を確認
Ilim Cimidiker, Mariusz P. Dabrowski, Hussain Gohar(参考訳) 一般化不確実性原理(GUP)がブラックホールに適用される非励起熱力学および各非励起エントロピーに関連する異なる温度での放射の空間性に及ぼす影響について検討した。 r\'enyi, tsallis-cirto, kaniadakis, sharma mittal, and barrow entropies, temperature, and heat capacities を考察し、それぞれのケースにおいて、gup補正により、温度とエントロピーは有限値であることが示され、ブラックホールの最終状態は蒸発過程の終わりの残骸であり、各温度での放射のスパーシティはブラックホールの質量に依存することが示されている。 また, GUPは, 蒸発中常に一定であるホーキング温度の空間パラメータと比較して, 各ケースの空間パラメータの値を減少させることがわかった。

The effect of the generalized uncertainty principle (GUP) on nonextensive thermodynamics applied to black holes, as well as the sparsity of radiation at different temperatures associated with each nonextensive entropy, is investigated. We examine the R\'enyi, Tsallis-Cirto, Kaniadakis, Sharma Mittal, and Barrow entropies, temperatures, and heat capacities and show that, in each case, due to GUP corrections, the temperature and entropy have finite values, implying that the final state of the black hole is a remnant at the end of the evaporation process and that the sparsity of the radiation at each temperature depends on the mass of the black hole. We also find that GUP reduces the value of the sparsity parameter for each case as compared to the sparsity parameter at Hawking temperature, which is always constant throughout the evaporation.
翻訳日:2023-01-09 01:40:20 公開日:2023-01-02
# 2次元におけるフラットバンドの一般的なトポロジ的基準

A Generic Topological Criterion for Flat Bands in Two Dimensions ( http://arxiv.org/abs/2301.00824v1 )

ライセンス: Link先を確認
Alireza Parhizkar, Victor Galitski(参考訳) 相互に歪んだグラフェンの層は、moir\'eパターンと様々な非自明な現象を引き起こす。 このクラスのモデルの連続極限は、2つの古典ゲージ場に結合したディラックフェルミオンの(2+1)次元場理論と等価であることを示す。 さらに, 平坦なバンドの存在は, 時間次元が`removed である場理論の有効な次元還元を意味することを示した。 「「2次元ユークリッド説」はキラル異常を含む。 関連するアティヤ・シンガー指数定理は、フラットバンドの存在に対する自己矛盾条件を与える。 特に、粒子-ホール対称性が存在するカイラル極限のツイスト二層グラフェンに存在することが知られている一連の量子化されたマジック角を再現する。 また、この基準を用いて、外部磁場がこの系列を平らなmoir\'e-Landauバンドに関連する磁場依存マジック角の対に分割することを示す。 私たちが導出したトポロジカルな基準は、モワール二層体に限らず、様々な物質系において平坦なバンドを見つけるための一般的な実用的な方法を提供する。

Mutually distorted layers of graphene give rise to a moir\'e pattern and a variety of non-trivial phenomena. We show that the continuum limit of this class of models is equivalent to a (2+1)-dimensional field theory of Dirac fermions coupled to two classical gauge fields. We further show that the existence of a flat band implies an effective dimensional reduction in the field theory, where the time dimension is ``removed.'' The resulting two-dimensional Euclidean theory contains the chiral anomaly. The associated Atiyah-Singer index theorem provides a self-consistency condition for the existence of flat bands. In particular, it reproduces a series of quantized magic angles known to exist in twisted bilayer graphene in the chiral limit where there is a particle-hole symmetry. We also use this criterion to prove that an external magnetic field splits this series into pairs of magnetic field-dependent magic angles associated with flat moir\'e-Landau bands. The topological criterion we derive provides a generic practical method for finding flat bands in a variety of material systems including but not limited to moir\'e bilayers.
翻訳日:2023-01-09 01:39:20 公開日:2023-01-02
# ハミルトン工学による耐雑音量子メモリの実現

Noise-resistant quantum memory enabled by Hamiltonian engineering ( http://arxiv.org/abs/2301.00575v1 )

ライセンス: Link先を確認
Lei Jing, Peng Du, Hui Tang, Wenxian Zhang(参考訳) 量子ドットの核スピンは、高速でスケーラブルな量子メモリの候補である。 中心電子と周囲の原子核との間の超微細な相互作用を利用することで、量子情報を核の集合状態に移し、長期間保存することができる。 しかし、部分的に偏極化した核浴における核スピンの変動は量子記憶率を低下させた。 本稿では,ハミルトン工学を通して高速かつ高忠実な量子メモリを実現するための耐雑音プロトコルを提案する。 分析と数値により、電子と核スピンの間の高忠実な量子状態移動は、核スピンノイズの強い抑制のため、比較的低い偏極で達成可能であることを示す。 10^4$の核スピンを持つ現実的な量子ドットでは、偏光度が30%以下で80%を超える忠実度が可能である。 提案手法は,高核偏極の要求を低減し,量子ドットにおける量子メモリを実験的に実現しやすくする。

Nuclear spins in quantum dots are promising candidates for fast and scalable quantum memory. By utilizing the hyperfine interaction between the central electron and its surrounding nuclei, quantum information can be transferred to the collective state of the nuclei and be stored for a long time. However, nuclear spin fluctuations in a partially polarized nuclear bath deteriorate the quantum memory fidelity. Here we introduce a noise-resistant protocol to realize fast and high-fidelity quantum memory through Hamiltonian engineering. With analytics and numerics, we show that high-fidelity quantum state transfer between the electron and the nuclear spins is achievable at relatively low nuclear polarizations, due to the strong suppression of nuclear spin noises. For a realistic quantum dot with $10^4$ nuclear spins, a fidelity surpassing 80% is possible at a polarization as low as 30%. Our approach reduces the demand for high nuclear polarization, making experimentally realizing quantum memory in quantum dots more feasible.
翻訳日:2023-01-09 01:30:14 公開日:2023-01-02
# 量子フーリエ変換回路の検証のための回転抽象化

Rotational Abstractions for Verification of Quantum Fourier Transform Circuits ( http://arxiv.org/abs/2301.00737v1 )

ライセンス: Link先を確認
Arun Govindankutty, Sudarshan K. Srinivasan, and Nimish Mathure(参考訳) 大規模量子コンピュータの構築と、科学と工学の分野における効率的な問題解決のために量子アルゴリズムを活用することの競争により、効率的でスケーラブルな検証方法の必要性は極めて重要である。 本稿では,量子フーリエ変換(QFT)回路を対象とした新しい形式検証手法を提案する。 QFTは、多くの量子コンピューティングアプリケーションの基礎となる基本的な量子アルゴリズムである。 検証方法はQFTで使用される量子ゲートの抽象化を用いて、検証問題をヒルベルト空間からビットベクトルの量子化自由論理へ還元する。 ビットベクトルの推論には極めて効率的な決定手順が利用できる。 したがって、本手法は1万量子ビットと5000万量子ゲートを有するqft回路の検証までスケールアップでき、これまでのqft回路の大きさを形式的検証手法で検証できる。

With the race to build large-scale quantum computers and efforts to exploit quantum algorithms for efficient problem solving in science and engineering disciplines, the requirement to have efficient and scalable verification methods are of vital importance. We propose a novel formal verification method that is targeted at Quantum Fourier Transform (QFT) circuits. QFT is a fundamental quantum algorithm that forms the basis of many quantum computing applications. The verification method employs abstractions of quantum gates used in QFT that leads to a reduction of the verification problem from Hilbert space to the quantifier free logic of bit-vectors. Very efficient decision procedures are available to reason about bit-vectors. Therefore, our method is able to scale up to the verification of QFT circuits with 10,000 qubits and 50 million quantum gates, providing a meteoric advance in the size of QFT circuits thus far verified using formal verification methods.
翻訳日:2023-01-09 01:29:59 公開日:2023-01-02
# 超低温量子気体中のRydberg三量体と非局所3体空間相関の測定

Measuring nonlocal three-body spatial correlations with Rydberg trimers in ultracold quantum gases ( http://arxiv.org/abs/2301.00871v1 )

ライセンス: Link先を確認
S. K. Kanungo, Y. Lu, F. B. Dunning, S. Yoshida, J. Burgd\"orfer and T. C. Killian(参考訳) 超長距離トリマーRydberg分子の生成速度の研究を通じて、ボゾン(^{84}$Sr)およびスピン偏極フェルミオン(^{87}$Sr)ストロンチウムの非退化超低温気体中の非局所的な3次空間相関を測定する。 トリマー生成速度は、バッキングによるボソニック$^{84}$srの場合の最大6倍 (3!) の強化と、アンチバンチングによるスピン偏極フェルミオン$^{87}$srの顕著な減少という量子統計の影響に非常に敏感である。 実験結果は理論的予測と比較され,良好な一致が得られた。 本手法は,超低温原子ガス系における高次非局所空間相関の研究への道を開くものである。

We measure nonlocal third-order spatial correlations in non-degenerate ultracold gases of bosonic ($^{84}$Sr) and spin-polarized fermionic ($^{87}$Sr) strontium through studies of the formation rates for ultralong-range trimer Rydberg molecules. The trimer production rate is observed to be very sensitive to the effects of quantum statistics with a strong enhancement of up to a factor of six (3!) in the case of bosonic $^{84}$Sr due to bunching, and a marked reduction for spin-polarized fermionic $^{87}$Sr due to anti-bunching. The experimental results are compared to theoretical predictions and good agreement is observed. The present approach opens the way to {\it{in situ}} studies of higher-order nonlocal spatial correlations in a wide array of ultracold atomic-gas systems.
翻訳日:2023-01-09 01:29:45 公開日:2023-01-02
# 微小重力下での2次元物質近傍の量子原子物質

Quantum Atomic Matter Near Two-Dimensional Materials in Microgravity ( http://arxiv.org/abs/2301.00494v1 )

ライセンス: Link先を確認
Adrian Del Maestro, Sang Wook Kim, Nicholas P. Bigelow, Robert J. Thompson, Valeri N. Kotov(参考訳) グラフェンや遷移金属ジアルコゲナイドのような新しい2次元(2次元)原子平らな材料は、非伝統的なディラック電子スペクトルを示す。 我々は、微小重力下での低温原子との相互作用を効果的に設計し、複雑な電子と原子集団の量子相と現象の相乗効果をもたらすことを提案する。 ディラック材料は、ひずみ、キャリアとのドーピング、誘電体環境の調整などによる電子特性の変化による操作や量子工学の影響を受けやすい。 したがって、原子とそのような物質との相互作用、すなわちファンデルワールス/カシミール・ポルダー相互作用は効果的に操作でき、原子的に薄い物質から量子反射やボース=アインシュタイン凝縮(BEC)周波数シフトなどの物理効果を観測することができる。

Novel two-dimensional (2D) atomically flat materials, such as graphene and transition-metal dichalcogenides, exhibit unconventional Dirac electronic spectra. We propose to effectively engineer their interactions with cold atoms in microgravity, leading to a synergy between complex electronic and atomic collective quantum phases and phenomena. Dirac materials are susceptible to manipulation and quantum engineering via changes in their electronic properties by application of strain, doping with carriers, adjustment of their dielectric environment, etc. Consequently the interaction of atoms with such materials, namely the van der Waals / Casimir-Polder interaction, can be effectively manipulated, leading to the potential observation of physical effects such as Quantum Reflection off atomically thin materials and confined Bose-Einstein Condensate (BEC) frequency shifts.
翻訳日:2023-01-09 01:27:54 公開日:2023-01-02
# 量子アニーリング対QAOA: NISQコンピュータにおける127Qubit高次イジング問題

Quantum Annealing vs. QAOA: 127 Qubit Higher-Order Ising Problems on NISQ Computers ( http://arxiv.org/abs/2301.00520v1 )

ライセンス: Link先を確認
Elijah Pelofske, Andreas B\"artschi, Stephan Eidenbenz(参考訳) quantum annealing (qa) と quantum alternating operator ansatz (qaoa) は、組合せ最適化問題の最適解をサンプリングするためのヒューリスティックな量子アルゴリズムである。 本稿では、D-Waveハードウェア上のQAとIBMQハードウェア上のQAOAの厳密な直接比較を行う。 研究された問題は、イジング問題のクラスの例であり、変数割り当ては$+1$または$-1$であり、キュービックな$zzz$相互作用(高次項)を含み、ペガサストポロジーd波チップのネイティブ接続とibmqチップのヘキサゴナル格子の両方に一致する。 ヘキサゴナル格子上の新しいQAOA実装は、CNOT深さが1ラウンドあたり6ドルであり、ヘキサゴナル格子全体の使用を可能にする。 実験により、QAOAは、ibm_washingtonの127個のプログラム可能な超伝導トランスモンキュービット全てを用いて、グリッド検索で1ドルおよび2ドル以上のラウンド角を持つランダムに生成されたIsingインスタンスのアンサンブル上で実行される。 また,すべてのQAOA回路上でDDD(Digital Dynamical Decoupling)の誤差抑制技術をテストする。 プログラム可能な超伝導束量子ビットデバイスD−Wave Advantage_system4.1とAdvantage_system6.1とで、修正されたアニーリングスケジュールと一時停止とを用いてIsingインスタンス上でQAを実行する。 QAはすべての問題インスタンスでQAOAを上回っている。 また、DDDでは2ラウンドのQAOAが1ラウンドのQAOAを上回っていることも分かりました。

Quantum annealing (QA) and Quantum Alternating Operator Ansatz (QAOA) are both heuristic quantum algorithms intended for sampling optimal solutions of combinatorial optimization problems. In this article we implement a rigorous direct comparison between QA on D-Wave hardware and QAOA on IBMQ hardware. The studied problems are instances of a class of Ising problems, with variable assignments of $+1$ or $-1$, that contain cubic $ZZZ$ interactions (higher order terms) and match both the native connectivity of the Pegasus topology D-Wave chips and the heavy hexagonal lattice of the IBMQ chips. The novel QAOA implementation on the heavy hexagonal lattice has a CNOT depth of $6$ per round and allows for usage of an entire heavy hexagonal lattice. Experimentally, QAOA is executed on an ensemble of randomly generated Ising instances with a grid search over $1$ and $2$ round angles using all 127 programmable superconducting transmon qubits of ibm_washington. The error suppression technique digital dynamical decoupling (DDD) is also tested on all QAOA circuits. QA is executed on the same Ising instances with the programmable superconducting flux qubit devices D-Wave Advantage_system4.1 and Advantage_system6.1 using modified annealing schedules with pauses. We find that QA outperforms QAOA on all problem instances. We also find that DDD enables 2-round QAOA to outperform 1-round QAOA, which is not the case without DDD.
翻訳日:2023-01-09 01:19:42 公開日:2023-01-02
# 表面電極イオントラップのポテンシャルを正確にモデル化する

Precisely Modeling the Potential of a Surface Electrode Ion Trap ( http://arxiv.org/abs/2301.00559v1 )

ライセンス: Link先を確認
Qingqing Qin (1, 2 and 3), Ting Chen (1, 2 and 3), Xinfang Zhang (4), Baoquan Ou (5, 2 and 3), Jie Zhang (1, 2 and 3), Chunwang Wu,(1, 2 and 3), Yi Xie (1, 2 and 3), Wei Wu (1, 2 and 3) and Pingxing Chen (1, 2 and 3) ((1) Institute for Quantum Science and Technology, College of Science, National University of Defense Technology, Changsha 410073, P. R. China, (2) Hunan Key Laboratory of Mechanism and Technology of Quantum Information, Changsha 410073, Hunan, P. R. China, (3) Hefei National Laboratory, Hefei 230088, P. R. China (4) Institute for Quantum Information & State Key Laboratory of High Performance Computing, College of Computer Science, National University of Defense Technology, Changsha 410073, China, (5) Department of Physics, College of Science, National University of Defense Technology, Changsha 410073, P. R. China)(参考訳) ポールトラップの電極が生成するポテンシャルを正確にモデル化することは、ポールトラップ内のイオンを用いた精密計量学または量子計算において非常に重要である。 矩形電極では,空間場分布の簡易かつ高精度なパラメトリック表現が得られた。 この式を用いて多目的最適化に基づく手法を提案し, 電極および成界電界による空間場強度を精度良く評価する。 この方法では、線形弦におけるイオンの平衡位置、トラップ周波数、単一イオンの平衡位置など、多くの異なる種類のデータを最適化に利用することができるため、モデルの精度が大幅に向上する。 予測された周期周波数と平均イオン位置の誤差は、それぞれ$\pm 0.5\%$と1.2$\mu$m以下であり、既存の方法による予測よりもはるかに良い。

Accurately modeling the potential generated by electrode of a Paul trap is of great importance for either precision metrology or quantum computing using ions in a Paul trap. For a rectangular shaped electrode, we find a simple but highly accurate parametric expression for the spatial field distribution. Using this expression, a method based on multi-objective optimization is presented to accurately characterize the spatial field strength due to the electrodes and also the stray electric field. This method allows to utilize many different types of data for optimization, such as the equilibrium position of ions in a linear string, trap frequencies and the equilibrium position of a single ion, which therefore greatly improves the model accuracy. The errors of predicted secular frequencies and average ion position are less than $\pm 0.5\%$ and 1.2 $\mu$m respectively, much better than the ones predicted by existing method.
翻訳日:2023-01-09 01:19:09 公開日:2023-01-02
# 環境にともなう作業抽出

Environmental-induced work extraction ( http://arxiv.org/abs/2301.00574v1 )

ライセンス: Link先を確認
Rasim Volga Ovali, Shakir Ullah, Mehmet G\"unay, Mehmet Emre Tasgin(参考訳) 測定は、絡み合った、例えば2モードシステムから作業を引き出すことができる。 ここでは,新羅やデーモンのような知的生物が存在しない場合の抽出作業について問う。 環境モードで監視を行う場合、すなわち測定装置が存在しない場合には、測定バスがコヒーレント状態となる。 これは固定強度 $\lambda=1$ のガウス測定を意味する。 2モードガウス状態の場合、抽出された仕事は既に測定結果から独立である。 強度も固定された後、自然は与えられた絡み合い度に特定の量の作業を割り当てる。 抽出された作業は、低温における全熱エネルギーのエンタングルメント度(例えば光学モードの室温)となる。 環境そのものは、エンタングルメントを無秩序で微視的、ランダムな熱エネルギーから、秩序、巨視的、指向性(運動的)なエネルギーに変換する。 そして変換量は、絡み合いによってのみ決定される。

A measurement can extract work from an entangled, e.g., two-mode system. Here, we inquire the extracted work when no intellectual creature, like an ancilla/daemon, is present. When the monitoring is carried out by the environmental modes, that is when no measurement-apparatus is present, the measurement-basis becomes the coherent state. This implies a Gaussian measurement with a fixed strength $\lambda=1$. For two-mode Gaussian states, extracted work is already independent from the measurement outcome. After the strength is also fixed, this makes nature assign a particular amount of work to a given entanglement degree. Extracted work becomes the entanglement-degree times the entire thermal energy at low temperatures -- e.g., room temperature for optical modes. Environment, nature itself, converts entanglement to an ordered, macroscopic, directional~(kinetic) energy from a disordered, microscopic, randomized thermal energy. And the converted amount is solely determined by the entanglement.
翻訳日:2023-01-09 01:18:55 公開日:2023-01-02
# 適応量子振幅推定

Adaptive Quantum Amplitude Estimation ( http://arxiv.org/abs/2301.00528v1 )

ライセンス: Link先を確認
Xi Lu and Hongwei Lin(参考訳) 最大ラピッド振幅推定(mlae)アルゴリズムは、古典モンテカルロ法上の理論的に二次的なスピードアップを持つ量子振幅推定問題の実用的な解である。 しかし,MLAEは不正確性の主要な原因の一つであり,偏りがないことが判明した。 本稿では、臨界点を避けるためにMLAEパラメータを適応的に選択することで、適応量子振幅推定(AQAE)アルゴリズムを提案する。 また,我々のアルゴリズムはMLAEよりもほとんど偏りがなく,効率的であることを示す数値実験を行った。

The maximum likelihood amplitude estimation (MLAE) algorithm is a practical solution to the quantum amplitude estimation problem, which has a theoretically quadratic speedup over classical Monte Carlo method. However, we find that MLAE is not unbiased, which is one of the major causes of its inaccuracy. We propose an adaptive quantum amplitude estimation (AQAE) algorithm by choosing MLAE parameters adaptively to avoid critical points. We also do numerical experiments to show that our algorithm is approximately unbiased and more efficient than MLAE.
翻訳日:2023-01-09 01:10:12 公開日:2023-01-02
# PauliComposer: Pauli行列の計算テンソル製品は効率的

PauliComposer: Compute Tensor Products of Pauli Matrices Efficiently ( http://arxiv.org/abs/2301.00560v1 )

ライセンス: Link先を確認
Sebasti\'an V. Romero and Juan Santos-Su\'arez(参考訳) パウリ行列のテンソル積を効率的に計算する簡単なアルゴリズムを導入する。 これは計算をこの特定のケースに合わせることで行われ、不要な計算を避けることができる。 この戦略の強さは最先端技術と比較され、顕著な加速を示している。 副産物として,ハミルトニアンのポーリ基底分解(pauli basis decomposition of hamiltonian)という,量子シミュレーションにおける1つの鍵計算の最適化手法を提案する。

We introduce a simple algorithm that efficiently computes tensor products of Pauli matrices. This is done by tailoring the calculations to this specific case, which allows to avoid unnecessary calculations. The strength of this strategy is benchmarked against state-of-the-art techniques, showing a remarkable acceleration. As a side product, we provide an optimized method for one key calculus in quantum simulations: the Pauli basis decomposition of Hamiltonians.
翻訳日:2023-01-09 01:10:03 公開日:2023-01-02
# 非線形非エルミート型ランダウ・ツェナー・ストワッケルベルク・メジャーナ干渉法

Nonlinear Non-Hermitian Landau-Zener-St\"uckelberg-Majorana interferometry ( http://arxiv.org/abs/2301.00734v1 )

ライセンス: Link先を確認
Xin Wang, H. D. Liu, and L. B. Fu(参考訳) 本研究では,非エルミート非線形LZSM干渉計を非エルミートN体相互作用ボソン系において,非エルミート非エルミート非線形LZSM干渉法について検討した。 平均場近似と射影ヒルベルト空間を用いることで、非相反性と非線形性がエネルギースペクトル、動力学、干渉縞の形成に及ぼす影響が研究されている。 エネルギースペクトルとジョセフソン振動と自己トラッピングの相転移に及ぼす相間トンネルと反相トンネルの相異なる対称性と2種類の相反性の影響について検討した。 lzsm干渉法では、非相反性の強さは射影状態の個体群と射影空間の干渉パターンの強さにおいて必須の役割を果たすことが示されている。 弱い結合近似の下での破壊的・建設的干渉の条件は、非線形性の強さにのみ依存する。 この結果は非線形非エルミートLZSM干渉法を非線形性と非エルミート性に関連する非エルミート非線形二段階系のパラメータの研究に応用する。

In this work, we have studied the non-Hermitian nonlinear LZSM interferometry in a non-Hermitian N-body interacting boson system in which the non-Hermicity is from the nonreciprocal tunnelings between the bosons. By using the mean-field approximation and projective Hilbert space, the effect of nonreciprocity and nonlinearity on the energy spectrum, the dynamics, and the formation of the interference fringes have been studied. The different symmetries and the impact of the two different types of reciprocity, i.e. the in-phase tunneling and anti-phase tunneling, on the energy spectrum and the phase transition between the Josephson oscillation and the self-trapping have been investigated. For the LZSM interferometry, the strength of the nonreciprocity is found to take an essential role in the population of the projective state and the strengths of the interference patterns in the projective space. While the conditions of destructive and constructive interference under the weak-coupling approximation still only depend on the strength of nonlinearity. Our result provides an application of the nonlinear non-Hermitian LZSM interferometry in studying the parameters of a non-Hermitian nonlinear two-level system which related to the nonlinearity and the non-Hermicity.
翻訳日:2023-01-09 01:09:56 公開日:2023-01-02
# DMOps: データ管理の運用と準備

DMOps: Data Management Operation and Recipes ( http://arxiv.org/abs/2301.01228v1 )

ライセンス: Link先を確認
Eujeong Choi, Chanjun Park(参考訳) データ中心のAIは、機械学習(ML)パイプライン内のデータの重要性に光を当てている。 その重要性を認め、学界、産業、政府部門から様々な研究と政策が提案されている。 既存のデータを利用する能力は不可欠だが、データセットを構築する能力はこれまで以上に重要になっている。 この傾向を考慮し、タスクやドメインに関係なく業界を導く「データ管理操作とレシピ」を提案する。 言い換えると、本論文は実世界体験から派生したdmopsの概念を提案する。 データ構築のベースラインを提供することで、私たちは業界がそのデータ運用を最適に合理化したいと考えています。

Data-centric AI has shed light on the significance of data within the machine learning (ML) pipeline. Acknowledging its importance, various research and policies are suggested by academia, industry, and government departments. Although the capability of utilizing existing data is essential, the capability to build a dataset has become more important than ever. In consideration of this trend, we propose a "Data Management Operation and Recipes" that will guide the industry regardless of the task or domain. In other words, this paper presents the concept of DMOps derived from real-world experience. By offering a baseline for building data, we want to help the industry streamline its data operation optimally.
翻訳日:2023-01-04 15:32:20 公開日:2023-01-02
# 転送可能エネルギー貯蔵入札者

Transferable Energy Storage Bidder ( http://arxiv.org/abs/2301.01233v1 )

ライセンス: Link先を確認
Yousuf Baker, Ningkun Zheng, Bolun Xu(参考訳) エネルギー貯蔵資源は、電力市場全体に参加する際に価格の不確実性と物理的な運用特性の両方を考慮する必要がある。 電力価格は不安定であり、エネルギー貯蔵は効率の損失、電力、エネルギーの制約があるため、これは難しい問題である。 本稿では,エネルギー貯蔵のための畳み込み型長期記憶ネットワークとモデルベース最適化を組み合わせることで,電力市場への応答や入札を可能とした,新しい,多用途で転送可能な手法を提案する。 convlstmネットワークに転送学習を適用し、トレーニングした入札モデルを新しい市場環境に迅速に適応させる。 提案手法をニューヨーク州の歴史的価格を用いて検証し, エネルギー貯蔵期間の異なる価格反応とホールセール市場での入札条件の両方において, 完全フォアテアケースと比較して70%から90%の利益率を達成した。 また,ニューヨークのデータを用いて入札モデルを事前学習し,オーストラリアのクイーンズランド州の仲裁に適用することで,転校学習アプローチをテストした。 その結果、トランスファーラーニングは3日間のローカルトレーニングデータで例外的な仲裁収益性を実現し、データの可用性が極めて制限されたシナリオにおいて、スクラッチからのトレーニングよりも大きな優位性を示している。

Energy storage resources must consider both price uncertainties and their physical operating characteristics when participating in wholesale electricity markets. This is a challenging problem as electricity prices are highly volatile, and energy storage has efficiency losses, power, and energy constraints. This paper presents a novel, versatile, and transferable approach combining model-based optimization with a convolutional long short-term memory network for energy storage to respond to or bid into wholesale electricity markets. We apply transfer learning to the ConvLSTM network to quickly adapt the trained bidding model to new market environments. We test our proposed approach using historical prices from New York State, showing it achieves state-of-the-art results, achieving between 70% to near 90% profit ratio compared to perfect foresight cases, in both price response and wholesale market bidding setting with various energy storage durations. We also test a transfer learning approach by pre-training the bidding model using New York data and applying it to arbitrage in Queensland, Australia. The result shows transfer learning achieves exceptional arbitrage profitability with as little as three days of local training data, demonstrating its significant advantage over training from scratch in scenarios with very limited data availability.
翻訳日:2023-01-04 15:32:05 公開日:2023-01-02
# PaRIS粒子ギブを用いた状態とパラメータ学習

State and parameter learning with PaRIS particle Gibbs ( http://arxiv.org/abs/2301.00900v1 )

ライセンス: Link先を確認
Gabriel Cardoso, Yazid Janati El Idrissi, Sylvain Le Corff, Eric Moulines, Jimmy Olsson(参考訳) 一般隠れマルコフモデルとしても知られる非線形状態空間モデルは、統計機械学習においてユビキタスであり、シリアルデータやシーケンスの最も古典的な生成モデルである。 素粒子ベースの高速増進スムーズなPaRISは連続モンテカルロ法(SMC)であり、これらのモデルにおける滑らかな分布の下で加法関数の期待を効率的にオンライン近似することができる。 このような期待は、確率推定(MLE)やマルコフスコアクライミング(MSC)など、いくつかの学習文脈で自然に現れる。 PARISは線形計算複雑性、メモリ要件の制限、非漸近境界、収束結果、安定性保証を備える。 それでも、自己正規化された重要度サンプリングに基づいて、PaRIS推定器は偏りがある。 我々の最初の貢献はパリの粒子ギブスPSGサンプリングアルゴリズムを設計することであり、これは条件付きSMCの動きによって駆動されるPaRISアルゴリズムと見なされる。 PPGアルゴリズムは, 偏差と分散の新たな境界や偏差の不等式を含む理論的な結果で検証する。 第2のコントリビューションは PPG を学習フレームワークに適用することであり,特に MLE と MSC を取り上げている。 この文脈では、標準的な仮定の下で、非漸近的境界はバイアス低減の値と PPG の暗黙的ラオ-ブラックウェル化の値を強調する。 これらはこの種の非漸近的な結果である。 我々は,我々の主張を裏付ける数値実験を行い,理論的な結果を示す。

Non-linear state-space models, also known as general hidden Markov models, are ubiquitous in statistical machine learning, being the most classical generative models for serial data and sequences in general. The particle-based, rapid incremental smoother PaRIS is a sequential Monte Carlo (SMC) technique allowing for efficient online approximation of expectations of additive functionals under the smoothing distribution in these models. Such expectations appear naturally in several learning contexts, such as likelihood estimation (MLE) and Markov score climbing (MSC). PARIS has linear computational complexity, limited memory requirements and comes with non-asymptotic bounds, convergence results and stability guarantees. Still, being based on self-normalised importance sampling, the PaRIS estimator is biased. Our first contribution is to design a novel additive smoothing algorithm, the Parisian particle Gibbs PPG sampler, which can be viewed as a PaRIS algorithm driven by conditional SMC moves, resulting in bias-reduced estimates of the targeted quantities. We substantiate the PPG algorithm with theoretical results, including new bounds on bias and variance as well as deviation inequalities. Our second contribution is to apply PPG in a learning framework, covering MLE and MSC as special examples. In this context, we establish, under standard assumptions, non-asymptotic bounds highlighting the value of bias reduction and the implicit Rao--Blackwellization of PPG. These are the first non-asymptotic results of this kind in this setting. We illustrate our theoretical results with numerical experiments supporting our claims.
翻訳日:2023-01-04 15:08:19 公開日:2023-01-02
# 3DSGrasp:ロボットグラスの3次元形状補完

3DSGrasp: 3D Shape-Completion for Robotic Grasp ( http://arxiv.org/abs/2301.00866v1 )

ライセンス: Link先を確認
Seyed S. Mohammadi, Nuno F. Duarte, Dimitris Dimou, Yiming Wang, Matteo Taiana, Pietro Morerio, Atabak Dehban, Plinio Moreno, Alexandre Bernardino, Alessio Del Bue and Jose Santos-Victor(参考訳) オブジェクトの完全な3Dポイントクラウドデータ(PCD)が利用可能であれば、現実のロボットの把握は堅牢に行うことができる。 しかし、実際にPCDは、握り動作の前にオブジェクトがほとんど見えず、まばらな視点で見られているとき、しばしば不完全であり、間違った、または不正確な握りポーズが発生する。 3dsgraspと呼ばれる新しい把持戦略を提案する。これは部分的pcdから欠落した形状を予測し、信頼できる把持姿勢を生成する。 提案するPCDコンプリートネットワークは,オフセットアテンション層を有するトランスフォーマーベースのエンコーダデコーダネットワークである。 我々のネットワークは本質的に対象のポーズと点の置換に不変であり、幾何学的に一貫性があり適切に完備したpcdを生成する。 3DSGraspはPCD完了タスクにおける最先端の手法よりも優れており、実世界のシナリオにおける把握成功率を大幅に向上させる。 コードとデータセットは、受け入れ次第利用可能になる。

Real-world robotic grasping can be done robustly if a complete 3D Point Cloud Data (PCD) of an object is available. However, in practice, PCDs are often incomplete when objects are viewed from few and sparse viewpoints before the grasping action, leading to the generation of wrong or inaccurate grasp poses. We propose a novel grasping strategy, named 3DSGrasp, that predicts the missing geometry from the partial PCD to produce reliable grasp poses. Our proposed PCD completion network is a Transformer-based encoder-decoder network with an Offset-Attention layer. Our network is inherently invariant to the object pose and point's permutation, which generates PCDs that are geometrically consistent and completed properly. Experiments on a wide range of partial PCD show that 3DSGrasp outperforms the best state-of-the-art method on PCD completion tasks and largely improves the grasping success rate in real-world scenarios. The code and dataset will be made available upon acceptance.
翻訳日:2023-01-04 14:57:41 公開日:2023-01-02
# SAFEMYRIDES:分散制御エッジ計算のライダー共有モニタリングサービスへの応用

SAFEMYRIDES: Application of Decentralized Control Edge-Computing to Ridesharing Monitoring Services ( http://arxiv.org/abs/2301.00888v1 )

ライセンス: Link先を確認
Samaa Elnagar, Manoj A. Thomas, Kweku-Muata Osei-Bryson(参考訳) エッジコンピューティングは多くの産業やサービスの面を変えつつある。 一般的なエッジコンピューティングモデルは、セキュリティリスクとプライバシ侵害につながる計算をオフロードする。 しかし、ディープラーニングの進歩により、IoT(Internet of Things)は決定を下し、ローカルで認知タスクを実行できるようになった。 この研究は、ほとんどの計算と決定がIoTレベルに移動される分散制御エッジモデルを導入している。 このモデルは、エッジへの通信を減らすことを目的としており、それによって効率が向上し、レイテンシーが減少する。 このモデルはまた、セキュリティとプライバシのリスクを引き起こすデータ転送を避ける。 SAFEMYRIDES(SAFEMYRIDES)は,スマートフォンが実行時に違反を検出するシーン認識型ライドシェアリング監視システムである。 現在のリアルタイム監視システムは費用がかかり、連続的なネットワーク接続が必要である。 このシステムは、IoT上でローカルに実行される最適化されたディープラーニングを使用して、ライドシェアリングにおける違反を検出し、違反発生を記録する。 このシステムは、プライバシーを侵害することなく、ライドシェアリングの安全性とセキュリティを高める。

Edge computing is changing the face of many industries and services. Common edge computing models offload computing which is prone to security risks and privacy violation. However, advances in deep learning enabled Internet of Things (IoTs) to take decisions and run cognitive tasks locally. This research introduces a decentralized-control edge model where most computation and decisions are moved to the IoT level. The model aims at decreasing communication to the edge which in return enhances efficiency and decreases latency. The model also avoids data transfer which raises security and privacy risks. To examine the model, we developed SAFEMYRIDES, a scene-aware ridesharing monitoring system where smart phones are detecting violations at the runtime. Current real-time monitoring systems are costly and require continuous network connectivity. The system uses optimized deep learning that run locally on IoTs to detect violations in ridesharing and record violation incidences. The system would enhance safety and security in ridesharing without violating privacy.
翻訳日:2023-01-04 14:57:23 公開日:2023-01-02
# 人間の学習のダイナミクスのモデル化と影響

Towards Modeling and Influencing the Dynamics of Human Learning ( http://arxiv.org/abs/2301.00901v1 )

ライセンス: Link先を確認
Ran Tian, Masayoshi Tomizuka, Anca Dragan, and Andrea Bajcsy(参考訳) 人間には、ロボットの内部モデル(物理的能力など)、世界(次の出来事のように)、タスク(好みのゴールのような)がある。 しかし、人間の内的モデルは必ずしも完全ではない:例えば、ロボットの慣性を過小評価することは容易である。 それでも、これらのモデルは、人間がより多くの経験を集めるにつれて変化し、改善する。 興味深いことに、ロボットの行動は、この経験に影響を与え、それによって人々の内的モデルの変化に影響を及ぼす。 この作業では、ロボットが持つ影響を理解し、それを活用して人々をよりよく支援し、人間のモデルが現実とより迅速に一致できるようにする。 我々の重要なアイデアは、人間の学習を、新たな観察によって人間の内部モデルを進化させる非線形力学系としてモデル化することである。 自然に人間の学習を提示するデモから人間の学習ダイナミクスを推測するために、新しい最適化問題を定式化する。 次に,ロボット計画問題に人間の学習ダイナミクスモデルを埋め込むことにより,ロボットが人間の学習に影響を与える方法を定式化する。 我々の定式化は具体的な問題ステートメントを提供するが、完全な一般性で解決することは困難である。 我々は、表現できる人間の内部モデルの複雑さを犠牲にする近似に寄与するが、ロボットはこれらの内部モデルの非線形ダイナミクスを学べる。 7DOFロボットアームが参加者により良い遠隔操作者になるよう教える、シミュレーション環境と個人内ユーザスタディのスイートにおける推論と計画手法を評価した。 人間の学習に影響を与えることは依然としてオープンな問題であるが、この影響は可能であり、実際の人間とロボットの相互作用に有効であることを示す。

Humans have internal models of robots (like their physical capabilities), the world (like what will happen next), and their tasks (like a preferred goal). However, human internal models are not always perfect: for example, it is easy to underestimate a robot's inertia. Nevertheless, these models change and improve over time as humans gather more experience. Interestingly, robot actions influence what this experience is, and therefore influence how people's internal models change. In this work we take a step towards enabling robots to understand the influence they have, leverage it to better assist people, and help human models more quickly align with reality. Our key idea is to model the human's learning as a nonlinear dynamical system which evolves the human's internal model given new observations. We formulate a novel optimization problem to infer the human's learning dynamics from demonstrations that naturally exhibit human learning. We then formalize how robots can influence human learning by embedding the human's learning dynamics model into the robot planning problem. Although our formulations provide concrete problem statements, they are intractable to solve in full generality. We contribute an approximation that sacrifices the complexity of the human internal models we can represent, but enables robots to learn the nonlinear dynamics of these internal models. We evaluate our inference and planning methods in a suite of simulated environments and an in-person user study, where a 7DOF robotic arm teaches participants to be better teleoperators. While influencing human learning remains an open problem, our results demonstrate that this influence is possible and can be helpful in real human-robot interaction.
翻訳日:2023-01-04 14:57:08 公開日:2023-01-02
# マルチステップ風力予測のための同時CNN-RNN手法

A Concurrent CNN-RNN Approach for Multi-Step Wind Power Forecasting ( http://arxiv.org/abs/2301.00819v1 )

ライセンス: Link先を確認
Syed Kazmi, Berk Gorgulu, Mucahit Cevik, Mustafa Gokce Baydogan(参考訳) 風力予測は、意思決定において高い確実性を持つことによって、電力システムの計画を支援する。 気象現象(例えば風速)に固有のランダム性のため、風力の長期予測を高精度に行うことは極めて困難である。 この課題を是正するための1つのアプローチは、地理的グリッドをまたいだ複数の地点からの気象情報を利用して風力パターンの全体像と、以前の風力発電所の電力出力からの時間的情報を得ることである。 提案したCNN-RNNアーキテクチャは,畳み込みニューラルネットワーク(CNN)と繰り返しニューラルネットワーク(RNN)を組み合わせて,多次元入力データから空間的および時間的情報を抽出し,日々の予測を行う。 そこで本研究では,複数の数値天気予報モデル,風力発電,地理的位置からのデータを組み合わせて,超ワイドな学習環境を構築する。 さらに,複数の風力発電所から得られたデータセットに対して,同じモデルをトレーニングすることの影響を理解するためのグローバル予測手法を実験し,畳み込み層から抽出した空間情報を,完全連結層ではなくツリーアンサンブル(光勾配昇降機(lgbm)など)に渡す手法を提案する。 その結果,提案するcnn-rnnアーキテクチャは,lgbm,extra tree regressor,線形回帰といった他のモデルに匹敵するが,各農場で個別に訓練された場合,その性能を再現できないことがわかった。 また,CNNからLGBMへ空間情報を渡すことで,その性能が向上し,CNNの空間的特徴抽出能力がさらに向上することを示す。

Wind power forecasting helps with the planning for the power systems by contributing to having a higher level of certainty in decision-making. Due to the randomness inherent to meteorological events (e.g., wind speeds), making highly accurate long-term predictions for wind power can be extremely difficult. One approach to remedy this challenge is to utilize weather information from multiple points across a geographical grid to obtain a holistic view of the wind patterns, along with temporal information from the previous power outputs of the wind farms. Our proposed CNN-RNN architecture combines convolutional neural networks (CNNs) and recurrent neural networks (RNNs) to extract spatial and temporal information from multi-dimensional input data to make day-ahead predictions. In this regard, our method incorporates an ultra-wide learning view, combining data from multiple numerical weather prediction models, wind farms, and geographical locations. Additionally, we experiment with global forecasting approaches to understand the impact of training the same model over the datasets obtained from multiple different wind farms, and we employ a method where spatial information extracted from convolutional layers is passed to a tree ensemble (e.g., Light Gradient Boosting Machine (LGBM)) instead of fully connected layers. The results show that our proposed CNN-RNN architecture outperforms other models such as LGBM, Extra Tree regressor and linear regression when trained globally, but fails to replicate such performance when trained individually on each farm. We also observe that passing the spatial information from CNN to LGBM improves its performance, providing further evidence of CNN's spatial feature extraction capabilities.
翻訳日:2023-01-04 14:48:12 公開日:2023-01-02
# ツイートの人気動態

Tweet's popularity dynamics ( http://arxiv.org/abs/2301.00853v1 )

ライセンス: Link先を確認
Ferdinand Willemin(参考訳) この記事では、機械学習とディープラーニング技術を用いて、ツイート人気進化のパターンを自動的に識別することを目的とした、4ヶ月のプロジェクトの成果をグラフ化します。 データと問題の範囲の両方を認識するために、点から点までの距離に基づく簡単なクラスタリングアルゴリズムを用いる。 そして,アルゴリズムを改良するために,特に特徴抽出技術を用いた様々な分析を行った。 最終的にアルゴリズムはそのようなタスクを自動化することに失敗するが、このエクササイズはソーシャルネットワークにおけるバイラル性の影響に影響を及ぼす複雑な問題を引き起こす。

This article charts the work of a 4 month project aimed at automatically identifying patterns of tweets popularity evolution using Machine Learning and Deep Learning techniques. To apprehend both the data and the extent of the problem, a straightforward clustering algorithm based on a point to point distance is used. Then, in an attempt to refine the algorithm, various analyses especially using feature extraction techniques are conducted. Although the algorithm eventually fails to automate such a task, this exercise raises a complex but necessary issue touching on the impact of virality on social networks.
翻訳日:2023-01-04 14:47:39 公開日:2023-01-02
# OF-AE:斜め森林オートエンコーダ

OF-AE: Oblique Forest AutoEncoders ( http://arxiv.org/abs/2301.00880v1 )

ライセンス: Link先を確認
Cristian Daniel Alecsa(参考訳) 本研究では,斜め森林の自動エンコーダ(略称OF-AE)という自動エンコード作業に対処できる斜め木からなるアンサンブル手法を提案する。 この方法は[1]で導入されたeForestエンコーダの自然な拡張である。 より正確には、軸並列型ではなく、特徴の多変量線形結合からなる斜め分割を用いることにより、特徴値制約からなる線形不等式の集合のスパース解を計算し、自動エンコーダ法を考案する。 結果の再現コードはhttps://github.com/CDAlecsa/Oblique-Forest-AutoEncoders.comで公開されている。

In the present work we propose an unsupervised ensemble method consisting of oblique trees that can address the task of auto-encoding, namely Oblique Forest AutoEncoders (briefly OF-AE). Our method is a natural extension of the eForest encoder introduced in [1]. More precisely, by employing oblique splits consisting in multivariate linear combination of features instead of the axis-parallel ones, we will devise an auto-encoder method through the computation of a sparse solution of a set of linear inequalities consisting of feature values constraints. The code for reproducing our results is available at https://github.com/CDAlecsa/Oblique-Forest-AutoEncoders.
翻訳日:2023-01-04 14:47:30 公開日:2023-01-02
# タイムラインをフォロー! 時系列における抽象的・抽出的タイムライン作成

Follow the Timeline! Generating Abstractive and Extractive Timeline Summary in Chronological Order ( http://arxiv.org/abs/2301.00867v1 )

ライセンス: Link先を確認
Xiuying Chen, Mingzhe Li, Shen Gao, Zhangming Chan, Dongyan Zhao, Xin Gao, Xiangliang Zhang, Rui Yan(参考訳) 今日では、一般的なニュースクエリの洪水に関するタイムスタンプ付きWebドキュメントがインターネット全体に広まり、タイムラインの要約は、タイムラインに沿ったイベントの進化軌跡を簡潔に要約する。 従来の文書要約とは異なり、タイムライン要約は入力イベントの時系列情報をモデル化し、重要なイベントを時系列順に要約する必要がある。 本稿では,この課題に取り組むために,時間順に抽象的かつ抽出的なタイムライン要約を生成できる統一タイムライン要約器(uts)を提案する。 具体的には、エンコーダ部では、コンテンツ依存度に応じて複数のイベントを関連付け、各イベントのグローバル表現を学ぶグラフベースのイベントエンコーダを提案する。 復号器部では,抽象要約の時系列順序を確実にするために,逐次情報を残した生成過程における事象レベルの注意の特徴を抽出し,それを用いて真実要約の進化的注意をシミュレートする。 イベントレベルの注意は、抽出された要約も時系列に現れる要約の抽出を支援するためにも使用できる。 これまでの中国の大規模タイムライン要約データセットを拡張し,新しい英語タイムラインデータセットを収集する。 これらのデータセットとドメイン外タイムライン17データセットで実施された大規模な実験は、UTSが自動評価と人的評価の両方で最先端のパフォーマンスを達成することを示している。

Nowadays, time-stamped web documents related to a general news query floods spread throughout the Internet, and timeline summarization targets concisely summarizing the evolution trajectory of events along the timeline. Unlike traditional document summarization, timeline summarization needs to model the time series information of the input events and summarize important events in chronological order. To tackle this challenge, in this paper, we propose a Unified Timeline Summarizer (UTS) that can generate abstractive and extractive timeline summaries in time order. Concretely, in the encoder part, we propose a graph-based event encoder that relates multiple events according to their content dependency and learns a global representation of each event. In the decoder part, to ensure the chronological order of the abstractive summary, we propose to extract the feature of event-level attention in its generation process with sequential information remained and use it to simulate the evolutionary attention of the ground truth summary. The event-level attention can also be used to assist in extracting summary, where the extracted summary also comes in time sequence. We augment the previous Chinese large-scale timeline summarization dataset and collect a new English timeline dataset. Extensive experiments conducted on these datasets and on the out-of-domain Timeline 17 dataset show that UTS achieves state-of-the-art performance in terms of both automatic and human evaluations.
翻訳日:2023-01-04 14:32:50 公開日:2023-01-02
# MAUD: 合併合意理解のための専門家アノテーション付き法定NLPデータセット

MAUD: An Expert-Annotated Legal NLP Dataset for Merger Agreement Understanding ( http://arxiv.org/abs/2301.00876v1 )

ライセンス: Link先を確認
Steven H. Wang, Antoine Scardigli, Leonard Tang, Wei Chen, Dimitry Levkin, Anya Chen, Spencer Ball, Thomas Woodside, Oliver Zhang, Dan Hendrycks(参考訳) 法的文の理解は、法的条項の長さと複雑さ、専門家による注釈付きデータセットの不足などにより、特に困難な課題である。 この課題に対処するために,米国バー協会の2021年公開目標決定点研究に基づく専門家による注釈付き読解データセットであるMerger Agreement Understanding Dataset (MAUD)を導入し,39,000件以上のサンプルと47,000件以上の総アノテーションについて述べる。 微調整されたトランスフォーマーのベースラインは有望な結果を示し、ほとんどの質問でモデルはランダムに動作します。 しかし、多くの質問に対して、大きな改善の余地はまだあります。 唯一の専門家による合併合意データセットとして、MAUDは法律専門家とNLPコミュニティのベンチマークとして有用である。

Reading comprehension of legal text can be a particularly challenging task due to the length and complexity of legal clauses and a shortage of expert-annotated datasets. To address this challenge, we introduce the Merger Agreement Understanding Dataset (MAUD), an expert-annotated reading comprehension dataset based on the American Bar Association's 2021 Public Target Deal Points Study, with over 39,000 examples and over 47,000 total annotations. Our fine-tuned Transformer baselines show promising results, with models performing well above random on most questions. However, on a large subset of questions, there is still room for significant improvement. As the only expert-annotated merger agreement dataset, MAUD is valuable as a benchmark for both the legal profession and the NLP community.
翻訳日:2023-01-04 14:32:22 公開日:2023-01-02
# 言語モデルを用いた政治分極の理解:データセットと方法

Understanding Political Polarisation using Language Models: A dataset and method ( http://arxiv.org/abs/2301.00891v1 )

ライセンス: Link先を確認
Samiran Gode, Supreeth Bare, Bhiksha Raj, Hyungon Yoo(参考訳) 本稿は,米国の政治システムにおける政治的分極を言語モデルを用いて分析することを目的とした。 この情報の提供により、有権者は経済、医療、教育、その他の社会問題に関する候補者の見解を理解することができる。 主なコントリビューションは、過去120年にわたってWikipediaから抽出されたデータセットと、候補者の偏極度を分析するのに役立つ言語モデルに基づく手法です。 私たちのデータは、候補者の政治的見解は理性に基づいており、出生地や母校などの要因とは無関係である、という仮説から、背景情報と候補者に関する政治的情報という2つの部分に分けられる。 さらに、これらのデータを時系列的に4つのフェーズに分割し、候補間の偏極がどう変化するかを理解するのに役立つ。 このデータはバイアスを取り除くためにクリーン化されている。 偏極を理解するために、Word2VecとDoc2Vecの古典的な言語モデルの結果を示すことから始めます。 そして、トランスフォーマーベースのエンコーダであるLongformerのような強力な技術を使って、より多くの情報を同化し、それぞれの候補者の政治的見解と背景に基づいて、最も近い隣人を見つける。

Our paper aims to analyze political polarization in US political system using Language Models, and thereby help candidates make an informed decision. The availability of this information will help voters understand their candidates views on the economy, healthcare, education and other social issues. Our main contributions are a dataset extracted from Wikipedia that spans the past 120 years and a Language model based method that helps analyze how polarized a candidate is. Our data is divided into 2 parts, background information and political information about a candidate, since our hypothesis is that the political views of a candidate should be based on reason and be independent of factors such as birthplace, alma mater, etc. We further split this data into 4 phases chronologically, to help understand if and how the polarization amongst candidates changes. This data has been cleaned to remove biases. To understand the polarization we begin by showing results from some classical language models in Word2Vec and Doc2Vec. And then use more powerful techniques like the Longformer, a transformer based encoder, to assimilate more information and find the nearest neighbors of each candidate based on their political view and their background.
翻訳日:2023-01-04 14:31:59 公開日:2023-01-02
# 階層的プライバシー

Ranking Differential Privacy ( http://arxiv.org/abs/2301.00841v1 )

ライセンス: Link先を確認
Shirong Xu, Will Wei Sun and Guang Cheng(参考訳) ランキングは様々な実生活シナリオで広く収集され、ビデオやニュースでのユーザの好みなどの個人情報が漏洩する。 ランキングを保護するために、既存の作業は、主に1つのランキングのセットまたは、$\epsilon$-differential privacyの下でランクのペア比較で、プライバシー保護を開発する。 本稿では,ランクを保護するために,$\epsilon$-level差分プライバシーという新しい概念を提案する。 我々は、mallows model (mallows, 1957) と提案されている$\epsilon$- ranking differential privacy との接続を確立する。 これにより、開発した$\epsilon$-level差分プライバシーを満足しながら、合成ランキングを生成するマルチステージランキングアルゴリズムを開発することができる。 予測攻撃やパーソナライズされたランキングタスクを含む下流タスクにおける合成ランキングの有用性に関する理論的結果を確立した。 推論攻撃のために、$\epsilon$が真のランキングの推定にどのように影響するかを合成ランキングに基づいて定量化する。 パーソナライズされたランキングタスクでは,ユーザ間のプライバシ嗜好の変化を検討し,そのプライバシ嗜好が最適なランキング関数の推定における一貫性に与える影響を定量化する。 理論結果を検証し,提案する合成ランキングアルゴリズムの有効性を実証するために,広範な数値実験を行った。

Rankings are widely collected in various real-life scenarios, leading to the leakage of personal information such as users' preferences on videos or news. To protect rankings, existing works mainly develop privacy protection on a single ranking within a set of ranking or pairwise comparisons of a ranking under the $\epsilon$-differential privacy. This paper proposes a novel notion called $\epsilon$-ranking differential privacy for protecting ranks. We establish the connection between the Mallows model (Mallows, 1957) and the proposed $\epsilon$-ranking differential privacy. This allows us to develop a multistage ranking algorithm to generate synthetic rankings while satisfying the developed $\epsilon$-ranking differential privacy. Theoretical results regarding the utility of synthetic rankings in the downstream tasks, including the inference attack and the personalized ranking tasks, are established. For the inference attack, we quantify how $\epsilon$ affects the estimation of the true ranking based on synthetic rankings. For the personalized ranking task, we consider varying privacy preferences among users and quantify how their privacy preferences affect the consistency in estimating the optimal ranking function. Extensive numerical experiments are carried out to verify the theoretical results and demonstrate the effectiveness of the proposed synthetic ranking algorithm.
翻訳日:2023-01-04 14:20:29 公開日:2023-01-02
# 変圧器を用いたジオコーディング

Transformer Based Geocoding ( http://arxiv.org/abs/2301.01170v1 )

ライセンス: Link先を確認
Yuval Solaz and Vitaly Shalumov(参考訳) 本稿では,自由テキストからの位置情報の予測問題をシーケンス・ツー・シーケンス問題として定式化する。 この定式化を用いて,自由テキストを入力としてt5エンコーダ・デコーダトランスフォーマモデルを,出力としてジオロケーションを用いてトレーニングすることにより,ジオコーディングモデルを得る。 ジオコーディングモデルはジオロケーション表現のための適応セルパーティショニングを伴うジオタグウィキダンプデータに基づいて訓練された。 この作業で使用されるRestベースのアプリケーション、データセット、モデルチェックポイントを含むすべてのコードが公開されている。

In this paper, we formulate the problem of predicting a geolocation from free text as a sequence-to-sequence problem. Using this formulation, we obtain a geocoding model by training a T5 encoder-decoder transformer model using free text as an input and geolocation as an output. The geocoding model was trained on geo-tagged wikidump data with adaptive cell partitioning for the geolocation representation. All of the code including Rest-based application, dataset and model checkpoints used in this work are publicly available.
翻訳日:2023-01-04 14:05:23 公開日:2023-01-02
# ロバスト平均逆マルコフ決定過程

Robust Average-Reward Markov Decision Processes ( http://arxiv.org/abs/2301.00858v1 )

ライセンス: Link先を確認
Yue Wang, Alvaro Velasquez, George Atia, Ashley Prater-Bennette, Shaofeng Zou(参考訳) ロバストなマルコフ決定プロセス(MDP)では、遷移カーネルの不確実性は、不確実性のMDPに対して最悪の性能を最適化するポリシーを見つけることで対処される。 文献の多くは割引されたMDPに焦点を合わせてきたが、堅固な平均リワードMDPはほとんど未調査のままである。 本稿では,不確実性集合に対して最悪の平均報酬を最適化する政策を見出すことを目標とする,ロバストな平均リワードMDPに着目した。 まず, ディスカウント型MDPを用いて, 平均回帰MDPを近似する手法を提案する。 我々は、ロバストな割引値関数が、割引係数$\gamma$が$$$になるにつれて、ロバストな平均リワードに収束し、さらに、$\gamma$が大きければ、ロバストな割引値DPの最適ポリシーもロバストな平均リワードの最適ポリシーであることを示す。 さらに、ロバストな動的プログラミングアプローチを設計、理論的にその収束を最適に特徴付ける。 次に,ディスカウント型MDPを中間段階として使用せずに,ロバストな平均回帰MDPを直接検討する。 我々は、ロバスト平均回帰mdpに対するロバストベルマン方程式を導出し、最適なポリシーがその解から導出できることを証明し、さらにその解、あるいは同等に最適なロバストなポリシーを見つけるロバストな相対値反復アルゴリズムを設計する。

In robust Markov decision processes (MDPs), the uncertainty in the transition kernel is addressed by finding a policy that optimizes the worst-case performance over an uncertainty set of MDPs. While much of the literature has focused on discounted MDPs, robust average-reward MDPs remain largely unexplored. In this paper, we focus on robust average-reward MDPs, where the goal is to find a policy that optimizes the worst-case average reward over an uncertainty set. We first take an approach that approximates average-reward MDPs using discounted MDPs. We prove that the robust discounted value function converges to the robust average-reward as the discount factor $\gamma$ goes to $1$, and moreover, when $\gamma$ is large, any optimal policy of the robust discounted MDP is also an optimal policy of the robust average-reward. We further design a robust dynamic programming approach, and theoretically characterize its convergence to the optimum. Then, we investigate robust average-reward MDPs directly without using discounted MDPs as an intermediate step. We derive the robust Bellman equation for robust average-reward MDPs, prove that the optimal policy can be derived from its solution, and further design a robust relative value iteration algorithm that provably finds its solution, or equivalently, the optimal robust policy.
翻訳日:2023-01-04 14:03:00 公開日:2023-01-02
# 高次元センサフィードバックを用いた灌水スケジューリングのための深部強化学習

Deep reinforcement learning for irrigation scheduling using high-dimensional sensor feedback ( http://arxiv.org/abs/2301.00899v1 )

ライセンス: Link先を確認
Yuji Saikai, Allan Peake, Karine Chenu(参考訳) 深層補強学習は,様々な測定値に適応的な水量を適用することにより,多くのクロッピングシステムにおいて灌水スケジューリングを改善する可能性を秘めている。 目標は、農家に利用可能な情報を処理し、考慮された時間ステップに対して合理的な灌水量を規定するインテリジェントな決定ルールを見つけることである。 しかし、技術革新のため、この技術の研究はまばらで実用的ではないままである。 そこで本研究では, 研究者が独自の最適化問題を定式化し, 深層強化学習に基づく解法アルゴリズムを実装可能な, 汎用的なフレームワークと実行可能な手順を提案する。 本フレームワークの有効性は, 利益が最大化されたオーストラリアの生産地域で栽培された灌水小麦のケーススタディを用いて実証した。 特に、決定規則は、作物の表現学的段階、葉面積指数、5つのトップ層ごとに抽出可能な土壌水、累積降雨、累積灌水という9つの状態変数の入力を必要とする。 毎日、5つの候補灌水量(0, 10, 20, 30, 40 mm)以上の確率的処方薬を返します。 生産システムはAPSIM-Wheatモデルを用いてGoondiwindiでシミュレーションした。 1981-2010年気象データを用いた学習環境の学習後,2011-2020年ごとの学習決定ルールを個別に検証した。 その結果,各年ごとに個別に最適化された灌水スケジュールを用いて得られたベンチマーク利益と比較した。 発見された決定規則は、平均利益の96%以上を達成した日々の灌水量を規定した。 このフレームワークは汎用的で、現実的な最適化問題のある幅広いクロッピングシステムに適用できる。

Deep reinforcement learning has considerable potential to improve irrigation scheduling in many cropping systems by applying adaptive amounts of water based on various measurements over time. The goal is to discover an intelligent decision rule that processes information available to growers and prescribes sensible irrigation amounts for the time steps considered. Due to the technical novelty, however, the research on the technique remains sparse and impractical. To accelerate the progress, the paper proposes a general framework and actionable procedure that allow researchers to formulate their own optimisation problems and implement solution algorithms based on deep reinforcement learning. The effectiveness of the framework was demonstrated using a case study of irrigated wheat grown in a productive region of Australia where profits were maximised. Specifically, the decision rule takes nine state variable inputs: crop phenological stage, leaf area index, extractable soil water for each of the five top layers, cumulative rainfall and cumulative irrigation. It returns a probabilistic prescription over five candidate irrigation amounts (0, 10, 20, 30 and 40 mm) every day. The production system was simulated at Goondiwindi using the APSIM-Wheat crop model. After training in the learning environment using 1981--2010 weather data, the learned decision rule was tested individually for each year of 2011--2020. The results were compared against the benchmark profits obtained using irrigation schedules optimised individually for each of the considered years. The discovered decision rule prescribed daily irrigation amounts that achieved more than 96% of the benchmark profits. The framework is general and applicable to a wide range of cropping systems with realistic optimisation problems.
翻訳日:2023-01-04 14:02:30 公開日:2023-01-02
# 知的生命のゲーム

Game of Intelligent Life ( http://arxiv.org/abs/2301.00897v1 )

ライセンス: Link先を確認
Marlene Grieskamp, Chaytan Inman, Shaun Lee(参考訳) 細胞オートマトン(CA)は、単純なグローバルな相互作用規則が成立する、創発的で複雑な個別化行動によって研究者を魅了する。 この分野の最近の進歩は、CAと畳み込みニューラルネットワークを組み合わせて自己再生画像を実現している。 このCAの新しい分岐は神経細胞オートマトン[1]と呼ばれる。 このプロジェクトの目的は、ニューラルセルオートマトンの概念を使って予測機械を成長させることである。 我々は多くの異なる畳み込みニューラルネットワークをグリッドに配置する。 それぞれのconvネットセルは次の状態の予測を出力し、予測エラーを最小限にする。 細胞は入力として隣人の色とフィットネスを受け取りました。 各セルのフィットネススコアは、その予測の正確さを記述している。 細胞は環境を探索するためにも動き、いくつかの確率性が運動に適用された。

Cellular automata (CA) captivate researchers due to teh emergent, complex individualized behavior that simple global rules of interaction enact. Recent advances in the field have combined CA with convolutional neural networks to achieve self-regenerating images. This new branch of CA is called neural cellular automata [1]. The goal of this project is to use the idea of idea of neural cellular automata to grow prediction machines. We place many different convolutional neural networks in a grid. Each conv net cell outputs a prediction of what the next state will be, and minimizes predictive error. Cells received their neighbors' colors and fitnesses as input. Each cell's fitness score described how accurate its predictions were. Cells could also move to explore their environment and some stochasticity was applied to movement.
翻訳日:2023-01-04 13:56:22 公開日:2023-01-02
# 認知コンピューティングとは何か? 芸術の建築と現状

What is Cognitive Computing? An Architecture and State of The Art ( http://arxiv.org/abs/2301.00882v1 )

ライセンス: Link先を確認
Samaa Elnagar, Manoj A. Thomas, Kweku-Muata Osei-Bryson(参考訳) 認知コンピューティング(COC)は、リアルタイムに応答する低計算リソースの認知マシンを構築することを目的としている。 しかし、学術文献は様々な研究領域とCOCの様々な解釈を示している。 これは、cocの性質を表わす凝集性のあるアーキテクチャを求める。 ハーバート・サイモンがデザイン科学が人工科学であると考えるならば、認知システムは認知科学または「人工科学の最新科学」の産物であると主張する。 したがって、cocの概念基盤を構築することは、将来の認知コンピューティングベースのシステムにとって必須のステップである。 本稿では,COCに関する文献を無数の統計的解析手法を用いて分析し,COCのアーキテクチャを提案する。 次に,統計的解析結果と従来の定性分析結果を比較し,その結果を確認した。 この研究はまた、COCに関する最近の研究を包括的に調査し、技術の現状を特定し、COCにおける様々な研究分野の進歩を結びつける。 この研究は、認知計算の構造を包括的に補完する3つの下敷きなコンピューティングパラダイム(von-neuman、neuromorphic engineering、quantum computing)があることを発見した。 研究はCOC傘の下での応用可能性と研究の方向性について論じる。

Cognitive Computing (COC) aims to build highly cognitive machines with low computational resources that respond in real-time. However, scholarly literature shows varying research areas and various interpretations of COC. This calls for a cohesive architecture that delineates the nature of COC. We argue that if Herbert Simon considered the design science is the science of artificial, cognitive systems are the products of cognitive science or 'the newest science of the artificial'. Therefore, building a conceptual basis for COC is an essential step into prospective cognitive computing-based systems. This paper proposes an architecture of COC through analyzing the literature on COC using a myriad of statistical analysis methods. Then, we compare the statistical analysis results with previous qualitative analysis results to confirm our findings. The study also comprehensively surveys the recent research on COC to identify the state of the art and connect the advances in varied research disciplines in COC. The study found that there are three underlaying computing paradigms, Von-Neuman, Neuromorphic Engineering and Quantum Computing, that comprehensively complement the structure of cognitive computation. The research discuss possible applications and open research directions under the COC umbrella.
翻訳日:2023-01-04 13:53:53 公開日:2023-01-02
# Scale-MAE:マルチスケール地理空間表現学習のためのスケール対応マスケードオートエンコーダ

Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning ( http://arxiv.org/abs/2212.14532v2 )

ライセンス: Link先を確認
Colorado J. Reed, Ritwik Gupta, Shufan Li, Sarah Brockman, Christopher Funk, Brian Clipp, Kurt Keutzer, Salvatore Candido, Matt Uyttendaele, Trevor Darrell(参考訳) リモートセンシングイメージは、異なるセンサーが異なる空間スケールで補完的なデータを収集する地球全体像を提供する。 大規模で事前訓練されたモデルは通常、様々な条件やスケールを模倣するために強化されたイメージで微調整され、その結果、様々なタスクに様々な空間スケールの画像で使用される。 このようなモデルは、データ内のスケール固有の情報を見渡す。 本稿では,事前学習プロセスを通じて,異なる既知のスケールでデータ間の関係を明示的に学習する事前学習手法であるScale-MAEを提案する。 scale-maeは、画像がカバーする地球の面積が画像解像度ではなくvit位置符号化のスケールを決定する既知の入力スケールで入力画像をマスクすることにより、ネットワークを事前学習する。 Scale-MAEは、マスクされた画像を標準のViTバックボーンで符号化し、その後、帯域通過フィルタを介してマスクされた画像を復号し、低周波画像の低/高周波画像の再構成を行う。 その結果,低周波画像と高周波画像の両方を再構成することで,リモートセンシング画像のマルチスケール表現が堅牢になることがわかった。 Scale-MAEは8つのリモートセンシングデータセットに対して平均5.0\%の非パラメトリックkNN分類の改善を達成し、様々な評価尺度に対するSpaceNetビルディングセグメンテーション転送タスクに対して0.9$ mIoUから3.8$ mIoUの改善を得られる。

Remote sensing imagery provides comprehensive views of the Earth, where different sensors collect complementary data at different spatial scales. Large, pretrained models are commonly finetuned with imagery that is heavily augmented to mimic different conditions and scales, with the resulting models used for various tasks with imagery from a range of spatial scales. Such models overlook scale-specific information in the data. In this paper, we present Scale-MAE, a pretraining method that explicitly learns relationships between data at different, known scales throughout the pretraining process. Scale-MAE pretrains a network by masking an input image at a known input scale, where the area of the Earth covered by the image determines the scale of the ViT positional encoding, not the image resolution. Scale-MAE encodes the masked image with a standard ViT backbone, and then decodes the masked image through a bandpass filter to reconstruct low/high frequency images at lower/higher scales. We find that tasking the network with reconstructing both low/high frequency images leads to robust multiscale representations for remote sensing imagery. Scale-MAE achieves an average of a $5.0\%$ non-parametric kNN classification improvement across eight remote sensing datasets compared to current state-of-the-art and obtains a $0.9$ mIoU to $3.8$ mIoU improvement on the SpaceNet building segmentation transfer task for a range of evaluation scales.
翻訳日:2023-01-04 11:44:07 公開日:2023-01-02
# 非線形システム同定のためのスキップ接続を有するスパースニューラルネットワーク

Sparse neural networks with skip-connections for nonlinear system identification ( http://arxiv.org/abs/2301.00582v1 )

ライセンス: Link先を確認
Erlend Torje Berg Lundby, Haakon Robinsson, Adil Rasheed, Ivar Johan Halvorsen, Jan Tommy Gravdahl(参考訳) ニューラルネットワークのようなデータ駆動モデルは、サイバー物理システムのモデリングや制御など、安全クリティカルなアプリケーションにますます応用されている。 アプローチの柔軟性にもかかわらず、この文脈ではこれらのモデルの安全性や、潜在的に高価なデータを大量に必要とすることへの懸念が残っている。 特に、長期予測が必要な場合や頻繁な測定ができない場合には、モデルのオープンループ安定性が重要となる。 しかし、ニューラルネットワークのような複雑なブラックボックスモデルに対してそのような保証を行うことは困難であり、以前の研究はモデル安定性が実際に問題であることを示している。 本研究では, 反応器の内部状態の測定に要する時間とコストを考慮したアルミニウム抽出プロセスについて考察する。 ニューラルネットワークを用いてプロセスをモデル化し、ネットワークアーキテクチャにスキップ接続を含めると同時に、l1正規化を用いてスパース接続重みを誘導する役割について検討する。 これらの測定により,様々なサイズのデータセットに対するモデルの精度と安定性が大幅に向上することを示す。

Data-driven models such as neural networks are being applied more and more to safety-critical applications, such as the modeling and control of cyber-physical systems. Despite the flexibility of the approach, there are still concerns about the safety of these models in this context, as well as the need for large amounts of potentially expensive data. In particular, when long-term predictions are needed or frequent measurements are not available, the open-loop stability of the model becomes important. However, it is difficult to make such guarantees for complex black-box models such as neural networks, and prior work has shown that model stability is indeed an issue. In this work, we consider an aluminum extraction process where measurements of the internal state of the reactor are time-consuming and expensive. We model the process using neural networks and investigate the role of including skip connections in the network architecture as well as using l1 regularization to induce sparse connection weights. We demonstrate that these measures can greatly improve both the accuracy and the stability of the models for datasets of varying sizes.
翻訳日:2023-01-03 16:29:12 公開日:2023-01-02
# 離散アルファベットを用いた有向情報のデータ駆動最適化

Data-Driven Optimization of Directed Information over Discrete Alphabets ( http://arxiv.org/abs/2301.00621v1 )

ライセンス: Link先を確認
Dor Tsur, Ziv Aharoni, Ziv Goldfeld and Haim Permuter(参考訳) Directed Information (DI) は、逐次確率モデルの研究と解析のための基本的な尺度である。 特に、入力分布に最適化された場合、一般的な通信チャネルの容量を特徴付ける。 しかし、DIの解析計算は典型的には難解であり、離散的な入力アルファベットに対する既存の最適化手法ではチャネルモデルに関する知識が必要であり、サンプルが利用可能であれば適用できない。 これらの制約を克服するために,離散入力空間上のdiに対する新しい推定最適化フレームワークを提案する。 我々は, マルコフ決定過程としてdi最適化を定式化し, 強化学習手法を用いて入力過程確率質量関数(pmf)の深い生成モデルを最適化する。 このオプティマイザと最近開発されたdiニューラルネットワーク推定器を組み合わせることで、様々な離散チャネルの容量をメモリで推定するエンド・ツー・エンド推定最適化アルゴリズムを得る。 さらに、最適化されたPMFモデルをどう使うかを示す。 (i)単相有限状態チャネルのフィードバック容量に関する理論的境界を得る。 (ii)ピークパワー制約付き白色ガウスノイズチャネルにおける星座の確率的形状形成を行う。

Directed information (DI) is a fundamental measure for the study and analysis of sequential stochastic models. In particular, when optimized over input distributions it characterizes the capacity of general communication channels. However, analytic computation of DI is typically intractable and existing optimization techniques over discrete input alphabets require knowledge of the channel model, which renders them inapplicable when only samples are available. To overcome these limitations, we propose a novel estimation-optimization framework for DI over discrete input spaces. We formulate DI optimization as a Markov decision process and leverage reinforcement learning techniques to optimize a deep generative model of the input process probability mass function (PMF). Combining this optimizer with the recently developed DI neural estimator, we obtain an end-to-end estimation-optimization algorithm which is applied to estimating the (feedforward and feedback) capacity of various discrete channels with memory. Furthermore, we demonstrate how to use the optimized PMF model to (i) obtain theoretical bounds on the feedback capacity of unifilar finite-state channels; and (ii) perform probabilistic shaping of constellations in the peak power-constrained additive white Gaussian noise channel.
翻訳日:2023-01-03 16:28:56 公開日:2023-01-02
# マクロファージの2次元顕微鏡像におけるセグメンテーションによる細胞追跡

Segmentation based tracking of cells in 2D+time microscopy images of macrophages ( http://arxiv.org/abs/2301.00765v1 )

ライセンス: Link先を確認
Seol Ah Park, Tamara Sipka, Zuzana Kriva, George Lutfalla, Mai Nguyen-Chi, and Karol Mikula(参考訳) 移動中のマクロファージの自動セグメンテーションと追跡は、動的に変化する形状や動きのために困難なタスクである。 本稿では,時間分解顕微鏡マクロファージデータにおけるセルの自動追跡を実現するアルゴリズムを提案する。 まず, 空間時間フィルタリング, 大津のしきい値設定, SUBSURF (subjective surface segmentation) を用いたセグメント化手法を設計する。 次に、セグメント画像において、時間方向に重なり合う細胞のための部分軌跡を抽出する。 最後に、抽出された軌跡を移動方向を考慮してリンクする。 提案手法によるセグメント画像と得られた軌跡を, 半自動セグメンテーションと手動トラッキングと比較した。 提案手法は, 難解な状況, 弱弱蛍光強度, 不規則形状, マクロファージの運動下でのマクロファージデータの精度97.4%を達成した。 自動抽出されたマクロファージの軌跡は, 創傷治癒などの状況において, 偏極モードに応じてマクロファージがどのように移動するかを示す証拠となると期待している。

The automated segmentation and tracking of macrophages during their migration are challenging tasks due to their dynamically changing shapes and motions. This paper proposes a new algorithm to achieve automatic cell tracking in time-lapse microscopy macrophage data. First, we design a segmentation method employing space-time filtering, local Otsu's thresholding, and the SUBSURF (subjective surface segmentation) method. Next, the partial trajectories for cells overlapping in the temporal direction are extracted in the segmented images. Finally, the extracted trajectories are linked by considering their direction of movement. The segmented images and the obtained trajectories from the proposed method are compared with those of the semi-automatic segmentation and manual tracking. The proposed tracking achieved 97.4% of accuracy for macrophage data under challenging situations, feeble fluorescent intensity, irregular shapes, and motion of macrophages. We expect that the automatically extracted trajectories of macrophages can provide pieces of evidence of how macrophages migrate depending on their polarization modes in the situation, such as during wound healing.
翻訳日:2023-01-03 16:24:30 公開日:2023-01-02
# Frank-Wolfe 最適化による効率的なオンライン学習:動的レギュレット境界付きアルゴリズムと制御への応用

Efficient Online Learning with Memory via Frank-Wolfe Optimization: Algorithms with Bounded Dynamic Regret and Applications to Control ( http://arxiv.org/abs/2301.00497v1 )

ライセンス: Link先を確認
Hongyu Zhou, Zirui Xu, Vasileios Tzoumas(参考訳) 投影操作はオンライン学習における典型的な計算ボトルネックである。 本稿では,OCO-M(Online Convex Optimization with Memory)のフレームワーク内でのプロジェクションフリーなオンライン学習を可能にする。OCO-Mは,オンライン学習損失関数が現在および過去の意思決定に依存することを許すことで,意思決定履歴が現在の結果にどのように影響するかをキャプチャする。 特に,動的後悔を最小化するメモリを持つ最初のプロジェクションフリーメタベース学習アルゴリズムを導入する。 私たちは、自律エージェントがリアルタイムに時間変動環境に適応する必要がある人工知能アプリケーションによって動機付けられています。 そのような応用例としては、動的システムのオンライン制御、統計仲裁、時系列予測などがある。 このアルゴリズムは、Online Frank-Wolfe(OFW)とHedgeアルゴリズムに基づいている。 本稿では,予測不能なプロセスノイズの存在下で,線形時間変化システムのオンライン制御にアルゴリズムを適用する方法を示す。 この目的のために、最適な時間変化線形フィードバック制御ポリシーに対してメモリと動的後悔を限定した最初のコントローラを開発する。 線形時間不変システムのオンライン制御をシミュレートしたシナリオでアルゴリズムを検証する。

Projection operations are a typical computation bottleneck in online learning. In this paper, we enable projection-free online learning within the framework of Online Convex Optimization with Memory (OCO-M) -- OCO-M captures how the history of decisions affects the current outcome by allowing the online learning loss functions to depend on both current and past decisions. Particularly, we introduce the first projection-free meta-base learning algorithm with memory that minimizes dynamic regret, i.e., that minimizes the suboptimality against any sequence of time-varying decisions. We are motivated by artificial intelligence applications where autonomous agents need to adapt to time-varying environments in real-time, accounting for how past decisions affect the present. Examples of such applications are: online control of dynamical systems; statistical arbitrage; and time series prediction. The algorithm builds on the Online Frank-Wolfe (OFW) and Hedge algorithms. We demonstrate how our algorithm can be applied to the online control of linear time-varying systems in the presence of unpredictable process noise. To this end, we develop the first controller with memory and bounded dynamic regret against any optimal time-varying linear feedback control policy. We validate our algorithm in simulated scenarios of online control of linear time-invariant systems.
翻訳日:2023-01-03 16:22:18 公開日:2023-01-02
# EmoGator: ベースライン機械学習分類手法を備えたオープンソースの新しいボーカルバーストデータセット

EmoGator: A New Open Source Vocal Burst Dataset with Baseline Machine Learning Classification Methodologies ( http://arxiv.org/abs/2301.00508v1 )

ライセンス: Link先を確認
Fred W. Buhl(参考訳) 声のバーストは、笑い、泣き声、なめらかさ、ムアン、グロアンといった感情を伝える短い非音声の発声であり、しばしば見過ごされる音声感情認識の側面であるが、人間の声のコミュニケーションにおいて重要な側面である。 これらの興味深い発声の研究の障壁の1つは、大きなデータセットの欠如である。 EmoGatorデータセットは、365人のスピーカーから32,040人のサンプルと16.91時間のオーディオで構成されており、それぞれのサンプルはスピーカーによって30の異なる感情カテゴリの1つに分類されている。 感情カテゴリーを識別するための分類器の構築にはいくつかの異なるアプローチが議論され、今後の研究の方向性が提案される。 データセットはhttps://github.com/fredbuhl/EmoGator.comからダウンロードできる。

Vocal Bursts -- short, non-speech vocalizations that convey emotions, such as laughter, cries, sighs, moans, and groans -- are an often-overlooked aspect of speech emotion recognition, but an important aspect of human vocal communication. One barrier to study of these interesting vocalizations is a lack of large datasets. I am pleased to introduce the EmoGator dataset, which consists of 32,040 samples from 365 speakers, 16.91 hours of audio; each sample classified into one of 30 distinct emotion categories by the speaker. Several different approaches to construct classifiers to identify emotion categories will be discussed, and directions for future research will be suggested. Data set is available for download from https://github.com/fredbuhl/EmoGator.
翻訳日:2023-01-03 16:21:57 公開日:2023-01-02
# 非一貫性マシン型通信のためのモデル駆動型ディープラーニング

Model-Driven Deep Learning for Non-Coherent Massive Machine-Type Communications ( http://arxiv.org/abs/2301.00516v1 )

ライセンス: Link先を確認
Zhe Ma, Wen Wu, Feifei Gao, Xuemin (Sherman) Shen(参考訳) 本稿では、パイロットシーケンスにデータビットが埋め込まれ、基地局が明示的なチャネル推定なしにアクティブデバイスとその組み込みデータビットを同時に検出する一相非一貫性スキームを用いて、大規模機械型通信(mmtc)におけるデバイス動作とデータ検出について検討する。 非コヒーレント送信方式によって導入された相関スパーシティパターンのため、従来の近似メッセージパッシング(amp)アルゴリズムは十分な性能を達成できない。 そこで本研究では,パイロット活動相関を効果的に活用することにより,検出性能を向上させる深層学習型AMPネットワーク(DL-mAMPnet)を提案する。 DL-mAMPnetは、AMPアルゴリズムをフィードフォワードニューラルネットワークに展開し、AMPアルゴリズムの原理的数学的モデルと強力な学習能力を組み合わせることにより、両方の手法の利点を享受する。 DL-mAMPnetにトレーニング可能なパラメータを導入し、相関した空間パターンと大規模フェーディング係数を近似する。 さらに、相関空間パターンによる空間的特徴を利用して、改良モジュールを更に向上させるように設計されている。 シミュレーションの結果,提案するdl-mampnetは,シンボル誤り率の性能で従来のアルゴリズムを大きく上回ることがわかった。

In this paper, we investigate the joint device activity and data detection in massive machine-type communications (mMTC) with a one-phase non-coherent scheme, where data bits are embedded in the pilot sequences and the base station simultaneously detects active devices and their embedded data bits without explicit channel estimation. Due to the correlated sparsity pattern introduced by the non-coherent transmission scheme, the traditional approximate message passing (AMP) algorithm cannot achieve satisfactory performance. Therefore, we propose a deep learning (DL) modified AMP network (DL-mAMPnet) that enhances the detection performance by effectively exploiting the pilot activity correlation. The DL-mAMPnet is constructed by unfolding the AMP algorithm into a feedforward neural network, which combines the principled mathematical model of the AMP algorithm with the powerful learning capability, thereby benefiting from the advantages of both techniques. Trainable parameters are introduced in the DL-mAMPnet to approximate the correlated sparsity pattern and the large-scale fading coefficient. Moreover, a refinement module is designed to further advance the performance by utilizing the spatial feature caused by the correlated sparsity pattern. Simulation results demonstrate that the proposed DL-mAMPnet can significantly outperform traditional algorithms in terms of the symbol error rate performance.
翻訳日:2023-01-03 16:21:43 公開日:2023-01-02
# 適応安定認証によるrlに基づくポリシー最適化手法

A RL-based Policy Optimization Method Guided by Adaptive Stability Certification ( http://arxiv.org/abs/2301.00521v1 )

ライセンス: Link先を確認
Shengjie Wang, Fengbo Lan, Xiang Zheng, Yuxue Cao, Oluwatosin Oseni, Haotian Xu, Yang Gao, Tao Zhang(参考訳) 制御理論とは対照的に、モデルフリー強化学習(RL)法では安定性保証の欠如が大きな問題となっている。 ポリシとリアプノフ関数を共同で学習することは、最近、システム全体の安定性を保証するための有望なアプローチとなっている。 しかし、古典的なリャプノフの制約はサンプリングベース最適化中にシステムを安定化できない。 そこで本研究では,適応安定認証(ASC)を提案する。 ASC条件は最適ポリシーをヒューリスティックに探索できるため,適応型リアプノフに基づくアクター・クリティカル(ALAC)アルゴリズムをASC条件に基づいて設計する。 一方,本アルゴリズムは,様々な制約を現行手法の目的に結合する最適化問題を回避する。 10のロボットタスクで評価すると,従来の研究よりも蓄積コストが低く,安定性の制約違反が少ない。

In contrast to the control-theoretic methods, the lack of stability guarantee remains a significant problem for model-free reinforcement learning (RL) methods. Jointly learning a policy and a Lyapunov function has recently become a promising approach to ensuring the whole system with a stability guarantee. However, the classical Lyapunov constraints researchers introduced cannot stabilize the system during the sampling-based optimization. Therefore, we propose the Adaptive Stability Certification (ASC), making the system reach sampling-based stability. Because the ASC condition can search for the optimal policy heuristically, we design the Adaptive Lyapunov-based Actor-Critic (ALAC) algorithm based on the ASC condition. Meanwhile, our algorithm avoids the optimization problem that a variety of constraints are coupled into the objective in current approaches. When evaluated on ten robotic tasks, our method achieves lower accumulated cost and fewer stability constraint violations than previous studies.
翻訳日:2023-01-03 16:15:29 公開日:2023-01-02
# 変化環境におけるシーケンス決定のための局所微分プライバシー

Local Differential Privacy for Sequential Decision Making in a Changing Environment ( http://arxiv.org/abs/2301.00561v1 )

ライセンス: Link先を確認
Pratik Gajane(参考訳) 我々は,変化する環境における逐次意思決定シナリオにおいて,高い実用性を提供しながら,プライバシの保護という課題について検討する。 環境は一定であり、未知の瞬間に変化する。 この問題を定式化するために,非定常確率的乱雑包帯と呼ばれる多武装包帯の変種を提案する。 SW-KLUCB-CFと呼ばれるアルゴリズムを構築し,その効用上界を後悔の度合いで証明する。 SW-KLUCB-CFの証明された後悔の上限は、時間ステップの数でほぼ最適であり、時間ステップの数と変化の数で類似した問題に対して最もよく知られた上限と一致する。 さらに,高い実用性を提供しながら,所望の局所微分プライバシーのレベルを保証できる,実現可能な最適メカニズムを提案する。

We study the problem of preserving privacy while still providing high utility in sequential decision making scenarios in a changing environment. We consider abruptly changing environment: the environment remains constant during periods and it changes at unknown time instants. To formulate this problem, we propose a variant of multi-armed bandits called non-stationary stochastic corrupt bandits. We construct an algorithm called SW-KLUCB-CF and prove an upper bound on its utility using the performance measure of regret. The proven regret upper bound for SW-KLUCB-CF is near-optimal in the number of time steps and matches the best known bound for analogous problems in terms of the number of time steps and the number of changes. Moreover, we present a provably optimal mechanism which can guarantee the desired level of local differential privacy while providing high utility.
翻訳日:2023-01-03 16:15:16 公開日:2023-01-02
# 高次元データセットにおける値計算の欠如に対する自己複製的ランダム林の連鎖

Chains of Autoreplicative Random Forests for missing value imputation in high-dimensional datasets ( http://arxiv.org/abs/2301.00595v1 )

ライセンス: Link先を確認
Ekaterina Antonenko and Jesse Read(参考訳) データサイエンスと機械学習では、欠落値が一般的な問題である。 欠落した値のインスタンスを削除することは、さらなるデータ分析の品質に悪影響を及ぼす可能性がある。 これは、インスタンスよりも比較的多くの機能がある場合に悪化するため、影響を受けるインスタンスの割合が高い。 このようなシナリオは、例えば単一ヌクレオチド多型(snp)データセットは、比較的少数の個人に対してゲノム上の多くの機能を提供します。 モデル化前にできるだけ多くの情報を保存するためには、厳密なインプテーションスキームが必要である。 Denoising Autoencodersは、高次元データにおける計算の最先端の手法であるが、実世界の問題でしばしば利用できないような、十分な完全なケースを訓練する必要がある。 本稿では,無価値計算を多ラベル分類問題とみなし,自己複製型ランダム林の連鎖を提案する。 ニューラルネットワークの代わりにマルチラベルランダムフォレストを使用することは、最適化すべきパラメータが少ないため、低サンプリングデータではうまく機能する。 いくつかのSNPデータセットの実験では、我々のアルゴリズムは、データセットの情報のみに基づいて欠落した値を効果的に示唆し、追加情報を必要としない標準アルゴリズムよりも優れた性能を示す。 本稿では,このアルゴリズムはsnpデータ専用に実装されているが,値インプテーションの欠如した他の場合にも容易に適用できることを示す。

Missing values are a common problem in data science and machine learning. Removing instances with missing values can adversely affect the quality of further data analysis. This is exacerbated when there are relatively many more features than instances, and thus the proportion of affected instances is high. Such a scenario is common in many important domains, for example, single nucleotide polymorphism (SNP) datasets provide a large number of features over a genome for a relatively small number of individuals. To preserve as much information as possible prior to modeling, a rigorous imputation scheme is acutely needed. While Denoising Autoencoders is a state-of-the-art method for imputation in high-dimensional data, they still require enough complete cases to be trained on which is often not available in real-world problems. In this paper, we consider missing value imputation as a multi-label classification problem and propose Chains of Autoreplicative Random Forests. Using multi-label Random Forests instead of neural networks works well for low-sampled data as there are fewer parameters to optimize. Experiments on several SNP datasets show that our algorithm effectively imputes missing values based only on information from the dataset and exhibits better performance than standard algorithms that do not require any additional information. In this paper, the algorithm is implemented specifically for SNP data, but it can easily be adapted for other cases of missing value imputation.
翻訳日:2023-01-03 16:15:00 公開日:2023-01-02
# 非凸合成最適化のための分散化を伴う確率可変距離近位勾配

Stochastic Variable Metric Proximal Gradient with variance reduction for non-convex composite optimization ( http://arxiv.org/abs/2301.00631v1 )

ライセンス: Link先を確認
Gersende Fort (IMT), Eric Moulines (CMAP)(参考訳) 本稿では, 有限和非凸合成最適化のための新しいアルゴリズムであるPerturbed Proximal Preconditioned SPIDERアルゴリズム(3P-SPIDER)を提案する。 近似事前条件付きフォワード演算子を許容し、可変距離近接演算子を後方演算子として用いる確率的可変メトリックフォワードアルゴリズムであり、有限和設定に対処するために分散還元を伴うミニバッチ戦略も提案している。 3P-SPIDERは確率的事前条件付き勾配Descent-basedアルゴリズムと増分期待最大化アルゴリズムを拡張して合成最適化を行い、その場合フォワード演算子をクローズド形式で計算できないことを示す。 また,3P-SPIDERを期待して収束を明示的に制御し,その複雑さをエプシロン近似定常条件を満たすために検討する。 その結果, 合成非凸最適化設定, 有限和設定をミニバッチ戦略を用いて解き, 事前条件付きフォワード演算子の決定論的あるいはランダムな近似を可能にする分散低減手法を初めて組み合わせた。 最後に、ランダムな効果を持つロジスティック回帰モデルにおける推論への応用を通じて、3P-SPIDERを他の確率的前方向きアルゴリズムと比較し、3P-SPIDERの設計パラメータの役割について議論する。

This paper introduces a novel algorithm, the Perturbed Proximal Preconditioned SPIDER algorithm (3P-SPIDER), designed to solve finite sum non-convex composite optimization. It is a stochastic Variable Metric Forward-Backward algorithm, which allows approximate preconditioned forward operator and uses a variable metric proximity operator as the backward operator; it also proposes a mini-batch strategy with variance reduction to address the finite sum setting. We show that 3P-SPIDER extends some Stochastic preconditioned Gradient Descent-based algorithms and some Incremental Expectation Maximization algorithms to composite optimization and to the case the forward operator can not be computed in closed form. We also provide an explicit control of convergence in expectation of 3P-SPIDER, and study its complexity in order to satisfy the epsilon-approximate stationary condition. Our results are the first to combine the composite non-convex optimization setting, a variance reduction technique to tackle the finite sum setting by using a minibatch strategy and, to allow deterministic or random approximations of the preconditioned forward operator. Finally, through an application to inference in a logistic regression model with random effects, we numerically compare 3P-SPIDER to other stochastic forward-backward algorithms and discuss the role of some design parameters of 3P-SPIDER.
翻訳日:2023-01-03 16:14:37 公開日:2023-01-02
# ランダムウォークサンプリングによる個人用グラフニューラルネットワークの訓練

Training Differentially Private Graph Neural Networks with Random Walk Sampling ( http://arxiv.org/abs/2301.00738v1 )

ライセンス: Link先を確認
Morgane Ayle, Jan Schuchardt, Lukas Gosch, Daniel Z\"ugner, Stephan G\"unnemann(参考訳) ディープラーニングモデルは、トレーニングデータのプライバシを危険にさらすことで知られており、安全で倫理的なリリースを公衆に提供する上での課題となっている。 差動的確率勾配降下は、トレーニングデータに関する機密情報を漏らさずにニューラルネットワークを訓練するためのデファクトスタンダードである。 しかし、グラフ構造化データのモデルに適用することは、すなわちデータとは異なり、グラフ内のノードに関するセンシティブな情報は、その勾配だけでなく、より大きな近傍にあるすべてのノードの勾配を通しても漏れることができない。 実際には、これはグラフ上のプライバシー保存ディープラーニングを非常に浅いグラフニューラルネットワークに制限する。 本稿では,与えられた学習グラフの非結合部分グラフ上でグラフニューラルネットワークを訓練することにより,この問題を解決する。 本研究では,このような不一致部分グラフを生成するためのランダムウォークベースの手法を3つ開発し,データ生成分布を注意深く解析し,強力なプライバシー保証を提供する。 広範な実験により,本手法は3つの大きなグラフにおいて最先端のベースラインを大きく上回り,さらに4つの小さなグラフにマッチあるいは上回ることを示す。

Deep learning models are known to put the privacy of their training data at risk, which poses challenges for their safe and ethical release to the public. Differentially private stochastic gradient descent is the de facto standard for training neural networks without leaking sensitive information about the training data. However, applying it to models for graph-structured data poses a novel challenge: unlike with i.i.d. data, sensitive information about a node in a graph cannot only leak through its gradients, but also through the gradients of all nodes within a larger neighborhood. In practice, this limits privacy-preserving deep learning on graphs to very shallow graph neural networks. We propose to solve this issue by training graph neural networks on disjoint subgraphs of a given training graph. We develop three random-walk-based methods for generating such disjoint subgraphs and perform a careful analysis of the data-generating distributions to provide strong privacy guarantees. Through extensive experiments, we show that our method greatly outperforms the state-of-the-art baseline on three large graphs, and matches or outperforms it on four smaller ones.
翻訳日:2023-01-03 16:13:28 公開日:2023-01-02
# 序文 異常拡散データによる物理過程の特徴付け

Preface: Characterisation of Physical Processes from Anomalous Diffusion Data ( http://arxiv.org/abs/2301.00800v1 )

ライセンス: Link先を確認
Carlo Manzo and Gorka Mu\~noz-Gil and Giovanni Volpe and Miguel Angel Garcia-March and Maciej Lewenstein and Ralf Metzler(参考訳) Anomalous Diffusion Challenge (https://andi-challenge.org ) の特集「異常拡散データからの物理過程のキャラクタライゼーション」によせて、Journal of Physics A: Mathematical and Theory に掲載されている。 特別号に含まれる記事のリストはhttps://iopscience.iop.org/journal/1751-8121/page/Characterisation-of-Physical-Processes-from-Anomal ous-Diffusion-Dataで参照することができる。

Preface to the special issue "Characterisation of Physical Processes from Anomalous Diffusion Data" associated with the Anomalous Diffusion Challenge ( https://andi-challenge.org ) and published in Journal of Physics A: Mathematical and Theoretical. The list of articles included in the special issue can be accessed at https://iopscience.iop.org/journal/1751-8121/page/Characterisation-of-Physical-Processes-from-Anomal ous-Diffusion-Data .
翻訳日:2023-01-03 16:06:48 公開日:2023-01-02
# 2021年メキシコ議会選挙におけるツイートベース選挙モデルの設計と分析

Design and analysis of tweet-based election models for the 2021 Mexican legislative election ( http://arxiv.org/abs/2301.00626v1 )

ライセンス: Link先を確認
Alejandro Vigna-G\'omez, Javier Murillo, Manelik Ramirez, Alberto Borbolla, Ian M\'arquez and Prasun K. Ray(参考訳) オンラインソーシャルメディアを用いた実生活の人間行動のモデル化と予測は、政治、政府、学界、産業において活発な試みである。 2006年の創設以来、twitterは社会的行動の計測と予測に使用できる潜在的な実験室として提案されてきた。 過去10年間で、Twitterのユーザーベースは増加し、一般大衆を代表するものになっている。 ここでは、2021年のメキシコ議会選挙でこのユーザーベースを分析します。 そのために、選挙前の6ヶ月で1500万件の選挙関連ツイートのデータセットを使用します。 我々は、政党または野党に政治的選好を割り当てる異なる選挙モデルについて検討する。 地理的属性を持つデータを用いたモデルが従来のポーリング法よりも精度と精度で選挙結果を決定することがわかった。 これらの結果は, オンラインデータ分析が従来の世論調査手法を上回ることができ, 政治分析や一般予測は, 近い将来, そうしたデータを組み込むことで恩恵を受ける可能性が示唆された。 さらに、地理的属性を持つ同じtwitterデータセットは、メキシコの人口とインターネット利用に関する公式国勢調査結果と正の相関がある。 これらの結果は、オンラインアクティビティが適切にキュレートされ、オフライン動作を正確に表現できる期間に達したことを示唆している。

Modelling and forecasting real-life human behaviour using online social media is an active endeavour of interest in politics, government, academia, and industry. Since its creation in 2006, Twitter has been proposed as a potential laboratory that could be used to gauge and predict social behaviour. During the last decade, the user base of Twitter has been growing and becoming more representative of the general population. Here we analyse this user base in the context of the 2021 Mexican Legislative Election. To do so, we use a dataset of 15 million election-related tweets in the six months preceding election day. We explore different election models that assign political preference to either the ruling parties or the opposition. We find that models using data with geographical attributes determine the results of the election with better precision and accuracy than conventional polling methods. These results demonstrate that analysis of public online data can outperform conventional polling methods, and that political analysis and general forecasting would likely benefit from incorporating such data in the immediate future. Moreover, the same Twitter dataset with geographical attributes is positively correlated with results from official census data on population and internet usage in Mexico. These findings suggest that we have reached a period in time when online activity, appropriately curated, can provide an accurate representation of offline behaviour.
翻訳日:2023-01-03 15:58:36 公開日:2023-01-02
# 都市視覚知能:aiと街並み画像を用いた都市研究

Urban Visual Intelligence: Studying Cities with AI and Street-level Imagery ( http://arxiv.org/abs/2301.00580v1 )

ライセンス: Link先を確認
Fan Zhanga, Arianna Salazar Mirandaa, F\'abio Duarte, Lawrence Vale, Gary Hack, Yu Liu, Michael Batty, Carlo Ratti(参考訳) 都市の視覚次元は、シッテ、リンチ、アーンハイム、ヤコブなどの学者の先駆的業績以来、都市研究において基本的な主題となっている。 数十年後、ビッグデータと人工知能(AI)は人々の移動、感覚、都市との相互作用に革命をもたらしている。 本稿では,都市の外観と機能に関する文献を概観し,視覚情報がどのように活用されたかを説明する。 概念的枠組みである都市視覚知能(urban visual intelligence)は、新しい画像データソースとai技術が研究者が認識し測定する方法を再形作し、物理的環境とその社会経済環境との相互作用を様々な規模で研究することを可能にするために導入されている。 論文は、これらの新しいアプローチは、研究者が古典的な都市理論とテーマを再検討することを可能にし、デジタル時代の人間の行動や願望に合致した環境を作るのに役立つと論じている。

The visual dimension of cities has been a fundamental subject in urban studies, since the pioneering work of scholars such as Sitte, Lynch, Arnheim, and Jacobs. Several decades later, big data and artificial intelligence (AI) are revolutionizing how people move, sense, and interact with cities. This paper reviews the literature on the appearance and function of cities to illustrate how visual information has been used to understand them. A conceptual framework, Urban Visual Intelligence, is introduced to systematically elaborate on how new image data sources and AI techniques are reshaping the way researchers perceive and measure cities, enabling the study of the physical environment and its interactions with socioeconomic environments at various scales. The paper argues that these new approaches enable researchers to revisit the classic urban theories and themes, and potentially help cities create environments that are more in line with human behaviors and aspirations in the digital age.
翻訳日:2023-01-03 15:56:55 公開日:2023-01-02
# トランスフォーマによるエッジ強化イメージスタイル転送

Edge Enhanced Image Style Transfer via Transformers ( http://arxiv.org/abs/2301.00592v1 )

ライセンス: Link先を確認
Chiyu Zhang, Jun Yang, Zaiyan Dai, Peng Cao(参考訳) 近年、任意の画像スタイルの転送が注目されている。 一対のコンテンツとスタイルイメージが与えられた場合、前者からのコンテンツを保持しつつ、後者からのスタイルパターンをキャッチするスタイル化されたイメージが望まれる。 しかし,コンテンツの詳細とスタイル特徴のトレードオフを同時に把握することは困難である。 十分なスタイルパターンで画像をスタイリングするには、内容の詳細が損なわれ、時には画像のオブジェクトを明確に区別することができない。 そこで本稿では,画像スタイル転送のためのSTTとエッジロスのための新しいトランスフォーマー方式を提案する。 定性的かつ定量的な実験により、STTはコンテンツリーク問題を緩和しつつ、最先端の画像スタイルの転送手法に匹敵する性能を示す。

In recent years, arbitrary image style transfer has attracted more and more attention. Given a pair of content and style images, a stylized one is hoped that retains the content from the former while catching style patterns from the latter. However, it is difficult to simultaneously keep well the trade-off between the content details and the style features. To stylize the image with sufficient style patterns, the content details may be damaged and sometimes the objects of images can not be distinguished clearly. For this reason, we present a new transformer-based method named STT for image style transfer and an edge loss which can enhance the content details apparently to avoid generating blurred results for excessive rendering on style features. Qualitative and quantitative experiments demonstrate that STT achieves comparable performance to state-of-the-art image style transfer methods while alleviating the content leak problem.
翻訳日:2023-01-03 15:56:35 公開日:2023-01-02
# 意味領域予測による道路シーンレベルの表現の学習

Learning Road Scene-level Representations via Semantic Region Prediction ( http://arxiv.org/abs/2301.00714v1 )

ライセンス: Link先を確認
Zihao Xiao, Alan Yuille, Yi-Ting Chen(参考訳) 本研究では,自動運転システムにおける2つの重要な課題,すなわち,エゴセントリック画像からのドライバ意図予測とリスクオブジェクト識別に取り組む。 主に、これらの2つのタスクに対して、適切な道路シーンレベルの表現は何か? シーンレベルの表現は、目的地へのアクションを実行しながら、エゴ車両周辺の交通シーンの高レベルな意味と幾何学的表現をキャプチャしなければなりません。 この目的のために,手頃な行動(4方向交差点での左折など)をしながら,エゴ車両が訪れる領域である意味領域の表現を導入する。 本稿では,新しい意味領域予測タスクと自動意味領域ラベリングアルゴリズムを用いてシーンレベルの表現を学習する。 HDD と nuScenes データセットで広範囲な評価を行い,学習結果からドライバの意図予測とリスクオブジェクト識別の最先端性能が得られた。

In this work, we tackle two vital tasks in automated driving systems, i.e., driver intent prediction and risk object identification from egocentric images. Mainly, we investigate the question: what would be good road scene-level representations for these two tasks? We contend that a scene-level representation must capture higher-level semantic and geometric representations of traffic scenes around ego-vehicle while performing actions to their destinations. To this end, we introduce the representation of semantic regions, which are areas where ego-vehicles visit while taking an afforded action (e.g., left-turn at 4-way intersections). We propose to learn scene-level representations via a novel semantic region prediction task and an automatic semantic region labeling algorithm. Extensive evaluations are conducted on the HDD and nuScenes datasets, and the learned representations lead to state-of-the-art performance for driver intention prediction and risk object identification.
翻訳日:2023-01-03 15:56:21 公開日:2023-01-02
# 映像ストリームのスタイライゼーションにおける時間的一貫性のインタラクティブ制御

Interactive Control over Temporal-consistency while Stylizing Video Streams ( http://arxiv.org/abs/2301.00750v1 )

ライセンス: Link先を確認
Sumit Shekhar, Max Reimann, Moritz Hilscher, Amir Semmo, J\"urgen D\"ollner, Matthias Trapp(参考訳) ニューラルスタイルトランスファー(NST)の出現により、画像のスタイリングは非常に人気がある。 スタイリゼーションテクニックをビデオに拡張する便利な方法は、フレーム単位で適用することである。 しかし、フレームごとのアプリケーションは通常、望ましくないflickeringアーティファクトによって表現される時間的一貫性を欠いている。 時間的一貫性を強制するための既存のアプローチのほとんどは、以下の1つ以上の欠点に苦しむ。 1) タイマライズ手法の限られた範囲にのみ適合し,(2) は入力として完全なビデオを必要とするオフライン方式でのみ適用可能であり,(3) はタイマライズ作業に一貫性を持たず,(4) は対話的一貫性制御を提供しない。 既存の一貫したビデオフィルタリングアプローチは、フリッカリングアーティファクトを完全に取り除き、特定の一貫性制御の側面を尊重しない。 しかし、スタイリゼーションタスクでは、一貫性制御は芸術的なルックアンドフィールに一定の量のフリックを付加するために必要な要件である。 さらに、ユーザビリティの観点から、このコントロールをインタラクティブにすることが最重要である。 以上の要件を満たすために,インタラクティブな一貫性制御を提供しながら映像ストリームをスタイリングできる手法を提案する。 スタイル化以外にも,他の様々な画像処理フィルタもサポートしています。 インタラクティブな性能を実現するため,デスクトップシステム上で80 Frames per second (FPS) で動作するライトオプティカルフローネットワークを開発した。 その結果,我々のフローネットワークを用いた映像出力は最先端のオプティカルフローネットワークで得られるものと同等であることが判明した。 さらに,局所的特徴と大域的特徴を適応的に組み合わせることで,両者の対話的選択を可能にする。 客観的および主観的評価により,本手法は最先端手法よりも優れていることを示す。

With the advent of Neural Style Transfer (NST), stylizing an image has become quite popular. A convenient way for extending stylization techniques to videos is by applying them on a per-frame basis. However, such per-frame application usually lacks temporal-consistency expressed by undesirable flickering artifacts. Most of the existing approaches for enforcing temporal-consistency suffers from one or more of the following drawbacks. They (1) are only suitable for a limited range of stylization techniques, (2) can only be applied in an offline fashion requiring the complete video as input, (3) cannot provide consistency for the task of stylization, or (4) do not provide interactive consistency-control. Note that existing consistent video-filtering approaches aim to completely remove flickering artifacts and thus do not respect any specific consistency-control aspect. For stylization tasks, however, consistency-control is an essential requirement where a certain amount of flickering can add to the artistic look and feel. Moreover, making this control interactive is paramount from a usability perspective. To achieve the above requirements, we propose an approach that can stylize video streams while providing interactive consistency-control. Apart from stylization, our approach also supports various other image processing filters. For achieving interactive performance, we develop a lite optical-flow network that operates at 80 Frames per second (FPS) on desktop systems with sufficient accuracy. We show that the final consistent video-output using our flow network is comparable to that being obtained using state-of-the-art optical-flow network. Further, we employ an adaptive combination of local and global consistent features and enable interactive selection between the two. By objective and subjective evaluation, we show that our method is superior to state-of-the-art approaches.
翻訳日:2023-01-03 15:56:06 公開日:2023-01-02
# 6gのための全体ネットワーク仮想化と普及型ネットワークインテリジェンス

Holistic Network Virtualization and Pervasive Network Intelligence for 6G ( http://arxiv.org/abs/2301.00519v1 )

ライセンス: Link先を確認
Xuemin (Sherman) Shen, Jie Gao, Wen Wu, Mushu Li, Conghao Zhou, and Weihua Zhuang(参考訳) 本稿では,ネットワークアーキテクチャの進化と展望を考察し,第6世代 (6g) ネットワークのための新しい概念的アーキテクチャを提案する。 提案するアーキテクチャには,ネットワーク仮想化と汎用人工知能(ai)という,2つの重要な要素がある。 全体的なネットワーク仮想化は、それぞれサービス提供とサービス需要の観点から、ネットワークスライシングとデジタルツインで構成され、サービス中心とユーザ中心のネットワークを組み込む。 広く普及しているネットワークインテリジェンスは、それぞれAIとAIのネットワークの観点から、未来のネットワークにAIを統合する。 ネットワークの仮想化と広く普及するネットワークインテリジェンスに基づいて,提案するアーキテクチャは,ネットワーク管理のためのモデル駆動型手法とデータ駆動型手法,仮想化とai間の3種類のインタラクション,すなわち,ディジタルツインとネットワークスライシングパラダイムの相互作用を促進することにより,6gネットワークの柔軟性,スケーラビリティ,適応性,インテリジェンスを最大化することができる。 また、提案されたアーキテクチャに関する課題とオープンな課題を特定します。 ビジョンを提供することで、6gの潜在的なアーキテクチャに関するさらなる議論と開発を刺激することを目指している。

In this tutorial paper, we look into the evolution and prospect of network architecture and propose a novel conceptual architecture for the 6th generation (6G) networks. The proposed architecture has two key elements, i.e., holistic network virtualization and pervasive artificial intelligence (AI). The holistic network virtualization consists of network slicing and digital twin, from the aspects of service provision and service demand, respectively, to incorporate service-centric and user-centric networking. The pervasive network intelligence integrates AI into future networks from the perspectives of networking for AI and AI for networking, respectively. Building on holistic network virtualization and pervasive network intelligence, the proposed architecture can facilitate three types of interplay, i.e., the interplay between digital twin and network slicing paradigms, between model-driven and data-driven methods for network management, and between virtualization and AI, to maximize the flexibility, scalability, adaptivity, and intelligence for 6G networks. We also identify challenges and open issues related to the proposed architecture. By providing our vision, we aim to inspire further discussions and developments on the potential architecture of 6G.
翻訳日:2023-01-03 15:48:10 公開日:2023-01-02
# チャネル間因果性による発達失調症における神経源/シンク位相接続

Neural source/sink phase connectivity in developmental dyslexia by means of interchannel causality ( http://arxiv.org/abs/2301.00552v1 )

ライセンス: Link先を確認
I. Rodr\'Iguez-Rodr\'Iguez, A. Ortiz, N.J. Gallego-Molina, M.A. Formoso, W.L. Woo(参考訳) 脳接続ネットワークは、発達障害の理解と診断を通知するが、その原因と効果の関係はまだ十分に調べられていない。 脳波信号と4.8Hz(韻律・音節周波数)の帯域制限ホワイトノイズ刺激を用いて、チャネル間の相グランガー因果関係を測定し、ディプレックス学習者と制御者の差を識別し、指向性を計算する方法を提案する。 因果関係が両方向に進むにつれて、チャネルのソースとしてのアクティビティ、シンクとしてのアクティビティ、合計の3つのシナリオを探求する。 提案手法は分類と探索分析の両方に利用できる。 いずれのシナリオにおいても,テータバンドとガンマバンドの振動差に対する時間的サンプリングフレームワークの仮定に従って,確立された右横型テータサンプリングネットワークの異常が確認された。 さらに, この異常は, 流し込みとして働くチャネルの因果関係において主に発生し, 全活動が観測された時よりも顕著に顕著であることを示す。 シンクシナリオでは,0.84 と 0.88 の精度,0.87 auc と 0.93 auc がそれぞれ得られた。

While the brain connectivity network can inform the understanding and diagnosis of developmental dyslexia, its cause-effect relationships have not yet enough been examined. Employing electroencephalography signals and band-limited white noise stimulus at 4.8 Hz (prosodic-syllabic frequency), we measure the phase Granger causalities among channels to identify differences between dyslexic learners and controls, thereby proposing a method to calculate directional connectivity. As causal relationships run in both directions, we explore three scenarios, namely channels' activity as sources, as sinks, and in total. Our proposed method can be used for both classification and exploratory analysis. In all scenarios, we find confirmation of the established right-lateralized Theta sampling network anomaly, in line with the temporal sampling framework's assumption of oscillatory differences in the Theta and Gamma bands. Further, we show that this anomaly primarily occurs in the causal relationships of channels acting as sinks, where it is significantly more pronounced than when only total activity is observed. In the sink scenario, our classifier obtains 0.84 and 0.88 accuracy and 0.87 and 0.93 AUC for the Theta and Gamma bands, respectively.
翻訳日:2023-01-03 15:47:49 公開日:2023-01-02
# マルチテナントO-RANにおけるフェアネス保証とオークションベースのx-haulとクラウドリソース割り当て

Fairness Guaranteed and Auction-based x-haul and Cloud Resource Allocation in Multi-tenant O-RANs ( http://arxiv.org/abs/2301.00597v1 )

ライセンス: Link先を確認
Sourav Mondal and Marco Ruffini(参考訳) オープンラジオアクセスネットワーク(O-RAN)は、非集約無線ユニット(RU)、分散ユニット(DU)、中央集権ユニット(CU)によるベースバンド関数処理のためのクラウド化とネットワーク機能仮想化を採用している。 これにより、複数のモバイルネットワークオペレータ(MNO)が独自またはオープンなRUをインストールできるが、オープンなx-haulインターフェースを通じて、一般に利用可能なオープンクラウドからDU-CU関数のオンデマンド計算リソースをリースすることができる。 本稿では,小・中・大規模MNOに対して持続可能なマルチテナントO-RANエコシステムを構築するために,min-max FairnessとVickrey-Clarke-Groves(VCG)オークションベースのx-haulとDU-CUリソース割り当て機構を提案する。 min-maxフェアアプローチはコスト共有によるrusの最大opexを最小化し、vcgオークションベースのアプローチは、rusから真理的な要求を抽出しながら使用されるすべてのリソースのopexを最小化する。 我々は、pon仮想化技術を用いて、rusとエッジクラウド間の光接続をマクロセルruロケーションと中央オフィスロケーションのオープンクラウド間で柔軟に提供するtwdm(time-wavelength division multiplexed)パッシブ光ネットワーク(pon)ベースのx-haulインターフェースを検討する。 さらに,従来の資源割当アルゴリズムや強化学習に基づくアルゴリズムに比べ,経済効率とネットワーク資源利用率を著しく向上させる効率的なヒューリスティックの設計を行った。

The open-radio access network (O-RAN) embraces cloudification and network function virtualization for base-band function processing by dis-aggregated radio units (RUs), distributed units (DUs), and centralized units (CUs). These enable the cloud-RAN vision in full, where multiple mobile network operators (MNOs) can install their proprietary or open RUs, but lease on-demand computational resources for DU-CU functions from commonly available open-clouds via open x-haul interfaces. In this paper, we propose and compare the performances of min-max fairness and Vickrey-Clarke-Groves (VCG) auction-based x-haul and DU-CU resource allocation mechanisms to create a multi-tenant O-RAN ecosystem that is sustainable for small, medium, and large MNOs. The min-max fair approach minimizes the maximum OPEX of RUs through cost-sharing proportional to their demands, whereas the VCG auction-based approach minimizes the total OPEX for all resources utilized while extracting truthful demands from RUs. We consider time-wavelength division multiplexed (TWDM) passive optical network (PON)-based x-haul interfaces where PON virtualization technique is used to flexibly provide optical connections among RUs and edge-clouds at macro-cell RU locations as well as open-clouds at the central office locations. Moreover, we design efficient heuristics that yield significantly better economic efficiency and network resource utilization than conventional greedy resource allocation algorithms and reinforcement learning-based algorithms.
翻訳日:2023-01-03 15:47:26 公開日:2023-01-02
# 音声言語モデルのための離散的自己教師あり音声表現の分析

Analysing Discrete Self Supervised Speech Representation for Spoken Language Modeling ( http://arxiv.org/abs/2301.00591v1 )

ライセンス: Link先を確認
Amitay Sicherman, Yossi Adi(参考訳) 本研究は、GSLM(Generative Spoken Language Modeling)の目を通して、個別の自己教師型音声表現を深く分析する。 このような分析の結果から,gslmの離散単位の実用的改善を提案する。 まず、これらのユニットを解釈、可視化、再合成の3つの軸で分析し、理解し始める。 分析の結果,音声単位と音素,音素の相関は高いが,話者や性別との相関は弱いことがわかった。 さらに,抽出した単位の冗長性を発見し,その1つの理由が単位のコンテキストであると主張した。 この分析に続いて,単位冗長性を測定するための新しい教師なし計量を提案する。 最後に、この指標を用いて、単位クラスタリングの堅牢性を向上させる新しい手法を開発し、ABXなどのゼロリソース音声メトリクスを考慮し、大幅な改善を示す。 コードと分析ツールは以下のリンクで利用可能である。

This work profoundly analyzes discrete self-supervised speech representations through the eyes of Generative Spoken Language Modeling (GSLM). Following the findings of such an analysis, we propose practical improvements to the discrete unit for the GSLM. First, we start comprehending these units by analyzing them in three axes: interpretation, visualization, and resynthesis. Our analysis finds a high correlation between the speech units to phonemes and phoneme families, while their correlation with speaker or gender is weaker. Additionally, we found redundancies in the extracted units and claim that one reason may be the units' context. Following this analysis, we propose a new, unsupervised metric to measure unit redundancies. Finally, we use this metric to develop new methods that improve the robustness of units clustering and show significant improvement considering zero-resource speech metrics such as ABX. Code and analysis tools are available under the following link.
翻訳日:2023-01-03 15:46:04 公開日:2023-01-02
# 精密薬物投与における強化学習の課題:行動効果の遅延と持続性について

On the Challenges of using Reinforcement Learning in Precision Drug Dosing: Delay and Prolongedness of Action Effects ( http://arxiv.org/abs/2301.00512v1 )

ライセンス: Link先を確認
Sumana Basu, Marc-Andr\'e Legault, Adriana Romero-Soriano, Doina Precup(参考訳) 薬物投与はAIの重要な応用であり、強化学習(RL)問題として定式化することができる。 本稿では,RLを薬物投与に使用する上での大きな課題として,RLフレームワークのマルコフ仮定を破る薬剤投与の遅れと長期的効果の2つを同定する。 PAE-POMDP(Prolonged Action Effect-Partially Observable Markov Decision Process)は,PAE-POMDP(Prolonged Action Effect-Partially Observable Markov Decision Process)のサブクラスである。 薬理学の文献に動機づけられ,pae-pomdpをmdpに変換するための単純かつ効果的な手法を提案する。 提案手法をトイタスクで検証し,臨床的にインスパイアされた報酬機能を実現するためのグルコース制御課題について検証した。 その結果,(1)マルコフ仮定を復元する手法はバニラベースラインよりも大きな改善をもたらすこと,(2)アプローチは行動の長期的効果を本質的に捉えうる反復ポリシーと競合すること,(3)反復ベースラインよりも時間とメモリ効率が著しく高く,従ってリアルタイム制御システムに適していること,(4)政策分析において良好な質的行動を示すこと,の2つが得られた。

Drug dosing is an important application of AI, which can be formulated as a Reinforcement Learning (RL) problem. In this paper, we identify two major challenges of using RL for drug dosing: delayed and prolonged effects of administering medications, which break the Markov assumption of the RL framework. We focus on prolongedness and define PAE-POMDP (Prolonged Action Effect-Partially Observable Markov Decision Process), a subclass of POMDPs in which the Markov assumption does not hold specifically due to prolonged effects of actions. Motivated by the pharmacology literature, we propose a simple and effective approach to converting drug dosing PAE-POMDPs into MDPs, enabling the use of the existing RL algorithms to solve such problems. We validate the proposed approach on a toy task, and a challenging glucose control task, for which we devise a clinically-inspired reward function. Our results demonstrate that: (1) the proposed method to restore the Markov assumption leads to significant improvements over a vanilla baseline; (2) the approach is competitive with recurrent policies which may inherently capture the prolonged effect of actions; (3) it is remarkably more time and memory efficient than the recurrent baseline and hence more suitable for real-time dosing control systems; and (4) it exhibits favorable qualitative behavior in our policy analysis.
翻訳日:2023-01-03 15:37:44 公開日:2023-01-02
# 大規模言語モデルはワンショットで正確に処理できる

Massive Language Models Can Be Accurately Pruned in One-Shot ( http://arxiv.org/abs/2301.00774v1 )

ライセンス: Link先を確認
Elias Frantar, Dan Alistarh(参考訳) 大規模な生成事前学習型トランスフォーマー(GPT)ファミリーモデルでは,1ショットで少なくとも50%の間隔で再学習することなく,精度の低下を最小限に抑えることができた。 これはSparseGPTと呼ばれる新しいプルーニング手法によって実現され、特に大規模GPTファミリーモデルにおいて効率的かつ正確に動作するように設計されている。 利用可能な最大のオープンソースモデルであるOPT-175BとBLOOM-176BでSparseGPTを実行する場合、パープレキシティが無視できるほど60%の範囲に到達できる。 SparseGPTは半構造化(2:4および4:8)パターンに一般化し、重み量子化アプローチと互換性がある。

We show for the first time that large-scale generative pretrained transformer (GPT) family models can be pruned to at least 50% sparsity in one-shot, without any retraining, at minimal loss of accuracy. This is achieved via a new pruning method called SparseGPT, specifically designed to work efficiently and accurately on massive GPT-family models. When executing SparseGPT on the largest available open-source models, OPT-175B and BLOOM-176B, we can reach 60% sparsity with negligible increase in perplexity: remarkably, more than 100 billion weights from these models can be ignored at inference time. SparseGPT generalizes to semi-structured (2:4 and 4:8) patterns, and is compatible with weight quantization approaches.
翻訳日:2023-01-03 15:37:05 公開日:2023-01-02
# シーンスケール3次元カテゴリーデータの拡散確率モデル

Diffusion Probabilistic Models for Scene-Scale 3D Categorical Data ( http://arxiv.org/abs/2301.00527v1 )

ライセンス: Link先を確認
Jumin Lee, Woobin Im, Sebin Lee, Sung-Eui Yoon(参考訳) 本稿では,シーンスケールで3次元データを生成する拡散モデルについて学習する。 本モデルでは,複数の物体からなる3dシーンを製作する一方,最近の拡散研究では1つの物体に焦点を当てている。 目的を実現するために,離散的なクラスラベル,すなわちカテゴリ分布を持つシーンを表現し,複数のオブジェクトを意味カテゴリーに割り当てる。 そこで, 離散拡散モデルを拡張し, シーンスケールのカテゴリー分布を学習する。 さらに,遅延拡散モデルにより,トレーニングやデプロイの計算コストを低減できることを示す。 私たちの知る限りでは、私たちの研究はシーンスケールの3dカテゴリーデータに離散的かつ潜在的な拡散を適用する最初の方法です。 さらに, この拡散モデルを用いて条件分布を学習し, 条件がスパース・ポイント・クラウド内の部分的観測である意味的シーン・コンプリート(ssc)を行う。 実験では,我々の拡散モデルが合理的なシーンを生成するだけでなく,シーン完了タスクを識別モデルよりも優れていることを示す。 私たちのコードとモデルはhttps://github.com/zoomin-lee/scene-scale-diffusionで利用可能です。

In this paper, we learn a diffusion model to generate 3D data on a scene-scale. Specifically, our model crafts a 3D scene consisting of multiple objects, while recent diffusion research has focused on a single object. To realize our goal, we represent a scene with discrete class labels, i.e., categorical distribution, to assign multiple objects into semantic categories. Thus, we extend discrete diffusion models to learn scene-scale categorical distributions. In addition, we validate that a latent diffusion model can reduce computation costs for training and deploying. To the best of our knowledge, our work is the first to apply discrete and latent diffusion for 3D categorical data on a scene-scale. We further propose to perform semantic scene completion (SSC) by learning a conditional distribution using our diffusion model, where the condition is a partial observation in a sparse point cloud. In experiments, we empirically show that our diffusion models not only generate reasonable scenes, but also perform the scene completion task better than a discriminative model. Our code and models are available at https://github.com/zoomin-lee/scene-scale-diffusion
翻訳日:2023-01-03 15:22:10 公開日:2023-01-02
# 映像人物再同定のための多段時空間アグリゲーショントランス

Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person Re-identification ( http://arxiv.org/abs/2301.00531v1 )

ライセンス: Link先を確認
Ziyi Tang, Ruimao Zhang, Zhanglin Peng, Jinrui Chen, Liang Lin(参考訳) 近年、トランスフォーマーアーキテクチャはビデオベースの人物再識別タスクにおいて優れていることが示されている。 映像表現学習にヒントを得たこれらの手法は主に情報的空間的特徴と時間的特徴を抽出するモジュールの設計に焦点を当てている。 しかし, 地域属性とグローバルアイデンティティ情報の抽出には依然として限定的であり, 再識別作業には重要な課題である。 本稿では,上記の問題に対処するために,新たに設計された2つのプロキシ埋め込みモジュールを備えた多段空間-時空間アグリゲーショントランスフォーマ(mstat)を提案する。 具体的には、MSTATは、属性関連、アイデンティティ関連、属性関連情報をそれぞれビデオクリップから符号化する3つの段階から構成され、入力者の全体的知覚を達成する。 最終識別のためのすべてのステージの出力を組み合わせます。 実際には、計算コストを節約するために、空間時間集約(STA)モジュールをまず各ステージに導入し、空間次元と時間次元を別々にセルフアテンション操作を行う。 さらに,属性認識およびid認識型プロキシ埋め込みモジュール(aapおよびiap)を導入し,情報的かつ識別的な特徴表現を異なる段階で抽出する。 これらすべては、特定の意味を持つ、新しく設計された自己注意操作を採用することで実現される。 さらに,モデルのロバスト性をさらに向上させるために,時間パッチシャッフルも導入されている。 ビデオから情報および識別情報を抽出する上で,提案モジュールの有効性を実証し,MSTATが様々な標準ベンチマークで最先端の精度を達成できることを示す。

In recent years, the Transformer architecture has shown its superiority in the video-based person re-identification task. Inspired by video representation learning, these methods mainly focus on designing modules to extract informative spatial and temporal features. However, they are still limited in extracting local attributes and global identity information, which are critical for the person re-identification task. In this paper, we propose a novel Multi-Stage Spatial-Temporal Aggregation Transformer (MSTAT) with two novel designed proxy embedding modules to address the above issue. Specifically, MSTAT consists of three stages to encode the attribute-associated, the identity-associated, and the attribute-identity-associated information from the video clips, respectively, achieving the holistic perception of the input person. We combine the outputs of all the stages for the final identification. In practice, to save the computational cost, the Spatial-Temporal Aggregation (STA) modules are first adopted in each stage to conduct the self-attention operations along the spatial and temporal dimensions separately. We further introduce the Attribute-Aware and Identity-Aware Proxy embedding modules (AAP and IAP) to extract the informative and discriminative feature representations at different stages. All of them are realized by employing newly designed self-attention operations with specific meanings. Moreover, temporal patch shuffling is also introduced to further improve the robustness of the model. Extensive experimental results demonstrate the effectiveness of the proposed modules in extracting the informative and discriminative information from the videos, and illustrate the MSTAT can achieve state-of-the-art accuracies on various standard benchmarks.
翻訳日:2023-01-03 15:21:52 公開日:2023-01-02
# 6-DOFカメラの同時追跡とマッピングのためのイベントベースアルゴリズム

An Event-based Algorithm for Simultaneous 6-DOF Camera Pose Tracking and Mapping ( http://arxiv.org/abs/2301.00618v1 )

ライセンス: Link先を確認
Masoud Dayani Najafabadi and Mohammad Reza Ahmadzadeh(参考訳) 通常のカメラと比較して、ダイナミックビジョンセンサーやイベントカメラは、各ピクセル位置の強度の変化に基づいて、非同期にコンパクトな視覚データを出力することができる。 本稿では,現在のイメージベースslam技術のセンサへの応用について検討する。 これにより、適応的に選択されたイベントウィンドウ内の情報を処理して、モーション補償画像を形成する。 これらの画像はシーンを再構築し、カメラの6-DOFのポーズを推定するために使用される。 また、その能力を評価するために、イベントのみのパイプラインの慣性バージョンも提案する。 提案アルゴリズムの異なる構成の結果と、2つの公開イベントデータセットのシーケンスの基底真理を比較した。 また,提案するイベント慣性パイプラインの結果を最先端のパイプラインと比較し,地図推定が信頼できる場合に比較し,より正確な結果が得られることを示す。

Compared to regular cameras, Dynamic Vision Sensors or Event Cameras can output compact visual data based on a change in the intensity in each pixel location asynchronously. In this paper, we study the application of current image-based SLAM techniques to these novel sensors. To this end, the information in adaptively selected event windows is processed to form motion-compensated images. These images are then used to reconstruct the scene and estimate the 6-DOF pose of the camera. We also propose an inertial version of the event-only pipeline to assess its capabilities. We compare the results of different configurations of the proposed algorithm against the ground truth for sequences of two publicly available event datasets. We also compare the results of the proposed event-inertial pipeline with the state-of-the-art and show it can produce comparable or more accurate results provided the map estimate is reliable.
翻訳日:2023-01-03 15:21:23 公開日:2023-01-02
# 教師なし再同定のための生成分散からの学習不変性

Learning Invariance from Generated Variance for Unsupervised Person Re-identification ( http://arxiv.org/abs/2301.00725v1 )

ライセンス: Link先を確認
Hao Chen, Yaohui Wang, Benoit Lagadec, Antitza Dantcheva, Francois Bremond(参考訳) 本研究は、人物再識別(ReID)における教師なし表現学習に焦点を当てている。 最近の自己教師付きコントラスト学習法は、同一画像の2つの拡張ビュー間の表現類似性を最大化することで不変性を学ぶ。 しかし、従来のデータ拡張は、IDに敏感なReIDタスクでは必ずしも好ましくないアイデンティティ機能に対する望ましくない歪みをもたらす可能性がある。 本稿では,従来のデータ拡張を,コントラスト学習のための拡張ビューを生成するために,GAN(Generative Adversarial Network)に置き換えることを提案する。 3次元メッシュガイド型人物画像生成装置の提案により、人物画像をID関連およびID非関連の特徴に分解する。 id-unrelated space(poseとカメラスタイル)でのみ動作する従来のganベースのreidメソッドから外れて、id-unrelatedとid-related機能の両方でganベースの拡張を行います。 さらに、ネットワークがID非関連およびID関連拡張から不変性を学ぶのを助けるために、特定の対照的な損失を提案する。 ジェネレイティブモジュールとコントラストモジュールを共同で訓練することにより,メインストリームの大規模ベンチマークにおいて,新たな最先端の非教師なしreid性能を実現する。

This work focuses on unsupervised representation learning in person re-identification (ReID). Recent self-supervised contrastive learning methods learn invariance by maximizing the representation similarity between two augmented views of a same image. However, traditional data augmentation may bring to the fore undesirable distortions on identity features, which is not always favorable in id-sensitive ReID tasks. In this paper, we propose to replace traditional data augmentation with a generative adversarial network (GAN) that is targeted to generate augmented views for contrastive learning. A 3D mesh guided person image generator is proposed to disentangle a person image into id-related and id-unrelated features. Deviating from previous GAN-based ReID methods that only work in id-unrelated space (pose and camera style), we conduct GAN-based augmentation on both id-unrelated and id-related features. We further propose specific contrastive losses to help our network learn invariance from id-unrelated and id-related augmentations. By jointly training the generative and the contrastive modules, our method achieves new state-of-the-art unsupervised person ReID performance on mainstream large-scale benchmarks.
翻訳日:2023-01-03 15:20:50 公開日:2023-01-02
# P3DC-Shot:最近傍のFew-Shot分類のための事前駆動離散データ校正

P3DC-Shot: Prior-Driven Discrete Data Calibration for Nearest-Neighbor Few-Shot Classification ( http://arxiv.org/abs/2301.00740v1 )

ライセンス: Link先を確認
Shuangmei Wang, Rui Ma, Tieru Wu, Yang Cao(参考訳) near-neighbor (nn) 分類は、単純かつ効果的なアプローチとして証明されている。 事前学習した深層モデルから抽出した特徴に基づいて最寄りのサポートクラスを見つけることにより、クエリデータを効率的に分類することができる。 しかし、NNベースの手法はデータ分布に敏感であり、サポートセットのサンプルが異なるクラスの分布境界付近にある場合、誤った予測が生じる可能性がある。 そこで,本研究では,前駆的データキャリブレーションを応用した最近近距離ベースマイトショット分類法であるp3dc-shotを提案する。 基本クラスの分布や統計を利用して数発のタスクでデータをキャリブレーションする分布キャリブレーション手法に着想を得て,NNベースの小ショット分類により適した新しい離散データキャリブレーション演算を提案する。 具体的には,各ベースクラスを表すプロトタイプをプリエントとして扱い,異なるベースプロトタイプとの類似性に基づいて各サポートデータを校正する。 次に,これらの個別校正支援データを用いてnn分類を行う。 各種データセットの広範な実験結果から, 学習手順を付加するSOTA法に比較して, 学習効率のよい非学習法が優れているか, 少なくとも同等であることが示された。

Nearest-Neighbor (NN) classification has been proven as a simple and effective approach for few-shot learning. The query data can be classified efficiently by finding the nearest support class based on features extracted by pretrained deep models. However, NN-based methods are sensitive to the data distribution and may produce false prediction if the samples in the support set happen to lie around the distribution boundary of different classes. To solve this issue, we present P3DC-Shot, an improved nearest-neighbor based few-shot classification method empowered by prior-driven data calibration. Inspired by the distribution calibration technique which utilizes the distribution or statistics of the base classes to calibrate the data for few-shot tasks, we propose a novel discrete data calibration operation which is more suitable for NN-based few-shot classification. Specifically, we treat the prototypes representing each base class as priors and calibrate each support data based on its similarity to different base prototypes. Then, we perform NN classification using these discretely calibrated support data. Results from extensive experiments on various datasets show our efficient non-learning based method can outperform or at least comparable to SOTA methods which need additional learning steps.
翻訳日:2023-01-03 15:20:25 公開日:2023-01-02
# NaQ: エピソード記憶を監督するためのクエリとしてナレーションを活用する

NaQ: Leveraging Narrations as Queries to Supervise Episodic Memory ( http://arxiv.org/abs/2301.00746v1 )

ライセンス: Link先を確認
Santhosh Kumar Ramakrishnan, Ziad Al-Halah, Kristen Grauman(参考訳) 自然言語クエリ(nlq: natural language query)で長いエゴセントリックなビデオを探すことは、拡張現実とロボティクスにおいて魅力的な応用だ。 しかし、学習問題(自由形式のテキストクエリ入力、ローカライズされたビデオ時間窓出力)の構造的性質と、そのニードル・イン・ア・ヘイスタックの性質は、技術的に困難かつ高価である。 ビデオクエリローカライズモデルのための標準ビデオテキストナレーションをトレーニングデータに変換するデータ拡張戦略であるnaq(narrations-as-queries)を提案する。 Ego4Dベンチマークで私たちのアイデアを検証すると、実際に非常に大きな影響を与えます。 NaQは複数のトップモデルを実質的なマージン(精度を倍増させる)で改善し、Ego4D NLQチャレンジでこれまでで最高の結果を得る。 NLQの最先端化に加えて、ロングテールオブジェクトクエリのゲインやゼロショットおよび少数ショットNLQの実行機能など、我々のアプローチのユニークな特性も示す。

Searching long egocentric videos with natural language queries (NLQ) has compelling applications in augmented reality and robotics, where a fluid index into everything that a person (agent) has seen before could augment human memory and surface relevant information on demand. However, the structured nature of the learning problem (free-form text query inputs, localized video temporal window outputs) and its needle-in-a-haystack nature makes it both technically challenging and expensive to supervise. We introduce Narrations-as-Queries (NaQ), a data augmentation strategy that transforms standard video-text narrations into training data for a video query localization model. Validating our idea on the Ego4D benchmark, we find it has tremendous impact in practice. NaQ improves multiple top models by substantial margins (even doubling their accuracy), and yields the very best results to date on the Ego4D NLQ challenge, soundly outperforming all challenge winners in the CVPR and ECCV 2022 competitions and topping the current public leaderboard. Beyond achieving the state-of-the-art for NLQ, we also demonstrate unique properties of our approach such as gains on long-tail object queries, and the ability to perform zero-shot and few-shot NLQ.
翻訳日:2023-01-03 15:20:02 公開日:2023-01-02
# ステップ:未ラベルの手続きビデオからの自己教師付きキーステップ抽出

STEPs: Self-Supervised Key Step Extraction from Unlabeled Procedural Videos ( http://arxiv.org/abs/2301.00794v1 )

ライセンス: Link先を確認
Anshul Shah, Benjamin Lundell, Harpreet Sawhney, Rama Chellappa(参考訳) 我々は、拡張現実(ar)ヘッドセットが仕事のトレーニングやパフォーマンスに革命をもたらす可能性に動機付けられた、ラベルなしの手続きビデオから重要なステップを抽出する問題に対処する。 問題を表現学習とキーステップ抽出という2つのステップに分解する。 我々は,テンポラリモジュールを用いた既製ビデオ機能を活用した学習戦略を通じて,自己教師あり表現学習を採用する。 トレーニングは、ビデオから抽出された外観、動き、ポーズなどの複数の手がかりを含む自己教師付き学習損失を実装し、一般化可能な表現を学習する。 提案手法は,手続きビデオから抽出した表現をクラスタ化する可変アルゴリズムを用いて鍵ステップを抽出する。 本手法をキーステップ定位法を用いて定量的に評価し,位相分類などの下流課題における抽出表現の有効性を実証した。 定性的な結果は,抽出されたキーステップが手続きタスクを簡潔に表現する意味を持つことを示す。

We address the problem of extracting key steps from unlabeled procedural videos, motivated by the potential of Augmented Reality (AR) headsets to revolutionize job training and performance. We decompose the problem into two steps: representation learning and key steps extraction. We employ self-supervised representation learning via a training strategy that adapts off-the-shelf video features using a temporal module. Training implements self-supervised learning losses involving multiple cues such as appearance, motion and pose trajectories extracted from videos to learn generalizable representations. Our method extracts key steps via a tunable algorithm that clusters the representations extracted from procedural videos. We quantitatively evaluate our approach with key step localization and also demonstrate the effectiveness of the extracted representations on related downstream tasks like phase classification. Qualitative results demonstrate that the extracted key steps are meaningful to succinctly represent the procedural tasks.
翻訳日:2023-01-03 15:19:33 公開日:2023-01-02
# キャプションで裏切られた:open vocabularyインスタンスセグメンテーションのための共同キャプショングラウンドと生成

Betrayed by Captions: Joint Caption Grounding and Generation for Open Vocabulary Instance Segmentation ( http://arxiv.org/abs/2301.00805v1 )

ライセンス: Link先を確認
Jianzong Wu, Xiangtai Li, Henghui Ding, Xia Li, Guangliang Cheng, Yunhai Tong, Chen Change Loy(参考訳) 本稿では,インスタンスレベルのオープンボキャブラリセグメンテーションに注目し,マスアノテーションを使わずにインスタンス単位の新規カテゴリのセグメンテーションを拡張する。 画像キャプションの助けを借りて, 字幕内の数千のオブジェクト名詞を活用して, 新規クラスの発見を目的とした, シンプルかつ効果的なフレームワークについて検討する。 事前学習されたキャプションモデルを採用するか,複雑なパイプラインを用いた大規模なキャプションデータセットを使用するかわりに,キャプションのグラウンド化とキャプション生成という2つの側面からエンドツーエンドなソリューションを提案する。 特に,マスクトランスフォーマーのベースラインに基づくcgg(joint caption grounding and generation)フレームワークを考案する。 このフレームワークには、明示的で暗黙的なマルチモーダルな特徴アライメントを実行する、新たなグラウンディング損失がある。 さらに、追加のキャプション監視を可能にする軽量キャプション生成ヘッドを設計する。 接地と生成は相互に補完し,新しいカテゴリーのセグメンテーション性能を著しく向上させる。 OVIS(Open Vocabulary Instance Segmentation)とOSPS(Open Set Panoptic Segmentation)の2つの設定でCOCOデータセットの広範な実験を行う。 その結果,従来のOVIS法よりもCGGフレームワークが優れていることが示され,新たな授業ではキャプションデータなしで6.8%mAPが向上した。 また,OSPSベンチマークにおける新しいクラスに対して,様々な設定で15%以上のPQ改善を実現する。

In this work, we focus on instance-level open vocabulary segmentation, intending to expand a segmenter for instance-wise novel categories without mask annotations. We investigate a simple yet effective framework with the help of image captions, focusing on exploiting thousands of object nouns in captions to discover instances of novel classes. Rather than adopting pretrained caption models or using massive caption datasets with complex pipelines, we propose an end-to-end solution from two aspects: caption grounding and caption generation. In particular, we devise a joint Caption Grounding and Generation (CGG) framework based on a Mask Transformer baseline. The framework has a novel grounding loss that performs explicit and implicit multi-modal feature alignments. We further design a lightweight caption generation head to allow for additional caption supervision. We find that grounding and generation complement each other, significantly enhancing the segmentation performance for novel categories. We conduct extensive experiments on the COCO dataset with two settings: Open Vocabulary Instance Segmentation (OVIS) and Open Set Panoptic Segmentation (OSPS). The results demonstrate the superiority of our CGG framework over previous OVIS methods, achieving a large improvement of 6.8% mAP on novel classes without extra caption data. Our method also achieves over 15% PQ improvements for novel classes on the OSPS benchmark under various settings.
翻訳日:2023-01-03 15:19:16 公開日:2023-01-02
# ConvNeXt V2: Masked AutoencodersによるConvNetの共同設計とスケーリング

ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders ( http://arxiv.org/abs/2301.00808v1 )

ライセンス: Link先を確認
Sanghyun Woo, Shoubhik Debnath, Ronghang Hu, Xinlei Chen, Zhuang Liu, In So Kweon and Saining Xie(参考訳) アーキテクチャの改善と表現学習フレームワークの改善によって、視覚認識の分野は2020年代初めに急速に近代化され、パフォーマンスが向上した。 例えば、ConvNeXtで表現されたモダンなConvNetは、さまざまなシナリオで強力なパフォーマンスを示している。 これらのモデルは当初、imagenetラベルによる教師付き学習のために設計されたが、マスク付きオートエンコーダ(mae)のような自己教師付き学習技術の恩恵を受ける可能性がある。 しかし、これらの2つのアプローチを組み合わせるだけで性能が劣ることがわかった。 本稿では,完全な畳み込みマスク付きオートエンコーダフレームワークと,チャネル間機能競合を強化するためにConvNeXtアーキテクチャに追加可能な新たなグローバル応答正規化(GRN)層を提案する。 この自己教師あり学習技術とアーキテクチャ改善の共設計により、convnext v2と呼ばれる新しいモデルファミリが実現され、イメージネット分類、coco検出、ade20kセグメンテーションなど、さまざまな認識ベンチマークにおける純粋なconvnetのパフォーマンスが大幅に向上した。 また,イメージネット上で76.7%のtop-1精度を持つ効率的な3.7mパラメータattoモデルから,パブリックトレーニングデータのみを使用して88.9%の精度を達成する650mの巨大モデルまで,さまざまなサイズの事前学習されたconvnext v2モデルを提供する。

Driven by improved architectures and better representation learning frameworks, the field of visual recognition has enjoyed rapid modernization and performance boost in the early 2020s. For example, modern ConvNets, represented by ConvNeXt, have demonstrated strong performance in various scenarios. While these models were originally designed for supervised learning with ImageNet labels, they can also potentially benefit from self-supervised learning techniques such as masked autoencoders (MAE). However, we found that simply combining these two approaches leads to subpar performance. In this paper, we propose a fully convolutional masked autoencoder framework and a new Global Response Normalization (GRN) layer that can be added to the ConvNeXt architecture to enhance inter-channel feature competition. This co-design of self-supervised learning techniques and architectural improvement results in a new model family called ConvNeXt V2, which significantly improves the performance of pure ConvNets on various recognition benchmarks, including ImageNet classification, COCO detection, and ADE20K segmentation. We also provide pre-trained ConvNeXt V2 models of various sizes, ranging from an efficient 3.7M-parameter Atto model with 76.7% top-1 accuracy on ImageNet, to a 650M Huge model that achieves a state-of-the-art 88.9% accuracy using only public training data.
翻訳日:2023-01-03 15:18:49 公開日:2023-01-02
# 時間文接地のためのビデオサンプリングと推論戦略の再考

Rethinking the Video Sampling and Reasoning Strategies for Temporal Sentence Grounding ( http://arxiv.org/abs/2301.00514v1 )

ライセンス: Link先を確認
Jiahao Zhu, Daizong Liu, Pan Zhou, Xing Di, Yu Cheng, Song Yang, Wenzheng Xu, Zichuan Xu, Yao Wan, Lichao Sun, Zeyu Xiong(参考訳) 時間的文グラウンドディング(TSG)は、特定のセグメントの時間的境界を文問合せによってビデオから識別することを目的としている。 既存のすべての作業は、まずスパースサンプリング戦略を使用して、一定数のビデオフレームを抽出し、その後、推論のためのクエリ文とマルチモーダルインタラクションを実行する。 しかし、これらの手法は2つの必須問題を見落としていると論じる。 1)境界バイアス: 注釈付き対象セグメントは一般的に2つの特定のフレームを対応する開始と終了のタイムスタンプとして参照する。 ビデオダウンサンプリングプロセスは2つのフレームを失い、隣接する無関係なフレームを新しいバウンダリとして取り込む。 2)推論バイアス:このような不正確な境界フレームは、フレーム-クエリ間相互作用における推論バイアスにもつながり、モデルの一般化能力が低下する。 上記の制約を緩和するため,本稿では,新たな境界を豊かにするために追加の文脈フレームを生成するシアームサンプリング機構を導入するtsgのための新しいシアームサンプリング推論ネットワーク(ssrn)を提案する。 具体的には、これらのフレーム間の相互関係を学習し、より正確なフレームクエリ推論のために境界上のソフトラベルを生成するための推論戦略を開発する。 このようなメカニズムは、きめ細かなアクティビティ理解のために、サンプルされたスパースフレームに欠如する連続的なビジュアルセマンティクスを補うこともできる。 広範な実験により、3つの挑戦的データセットにおけるssrnの有効性が実証された。

Temporal sentence grounding (TSG) aims to identify the temporal boundary of a specific segment from an untrimmed video by a sentence query. All existing works first utilize a sparse sampling strategy to extract a fixed number of video frames and then conduct multi-modal interactions with query sentence for reasoning. However, we argue that these methods have overlooked two indispensable issues: 1) Boundary-bias: The annotated target segment generally refers to two specific frames as corresponding start and end timestamps. The video downsampling process may lose these two frames and take the adjacent irrelevant frames as new boundaries. 2) Reasoning-bias: Such incorrect new boundary frames also lead to the reasoning bias during frame-query interaction, reducing the generalization ability of model. To alleviate above limitations, in this paper, we propose a novel Siamese Sampling and Reasoning Network (SSRN) for TSG, which introduces a siamese sampling mechanism to generate additional contextual frames to enrich and refine the new boundaries. Specifically, a reasoning strategy is developed to learn the inter-relationship among these frames and generate soft labels on boundaries for more accurate frame-query reasoning. Such mechanism is also able to supplement the absent consecutive visual semantics to the sampled sparse frames for fine-grained activity understanding. Extensive experiments demonstrate the effectiveness of SSRN on three challenging datasets.
翻訳日:2023-01-03 15:09:42 公開日:2023-01-02
# indic 言語のための統計的機械翻訳

Statistical Machine Translation for Indic Languages ( http://arxiv.org/abs/2301.00539v1 )

ライセンス: Link先を確認
Sudhansu Bala Das, Divyajoti Panda, Tapas Kumar Mishra, Bidyut Kr. Patra(参考訳) 機械翻訳(MT)システムは一般的に,様々な自然言語処理(NLP)技術を用いて,文脈の独創性を保持する対象言語へのソースコードの自動表現を目標とする。 様々なNLP手法の中で、統計機械翻訳(SMT)がある。 SMTは確率的および統計的手法を用いて情報と変換を分析する。 本稿では、英語を15の低リソースインド語(IL)に翻訳するためのバイリンガルSMTモデルの開発とその逆について論じる。 当初、15の言語はすべて、実験的なニーズに関する短い説明で説明されています。 さらに、モデル構築のためのSamanantarデータセットとOPUSデータセットの詳細な分析と、微調整とテストのための標準ベンチマークデータセット(Flores-200)を実験の一環として実施する。 本稿では,データセットのノイズに対処するため,様々な前処理手法を提案する。 このシステムを構築するために,MOSES オープンソース SMT ツールキットについて検討した。 単語の並べ替え分類フレームワークを用いて、文法の規則や文脈に依存した調整を理解するために、距離の並べ替えを利用する。 実験では,BLEU, METEOR, RIBESなどの標準指標を用いて翻訳の質を評価する。

Machine Translation (MT) system generally aims at automatic representation of source language into target language retaining the originality of context using various Natural Language Processing (NLP) techniques. Among various NLP methods, Statistical Machine Translation(SMT). SMT uses probabilistic and statistical techniques to analyze information and conversion. This paper canvasses about the development of bilingual SMT models for translating English to fifteen low-resource Indian Languages (ILs) and vice versa. At the outset, all 15 languages are briefed with a short description related to our experimental need. Further, a detailed analysis of Samanantar and OPUS dataset for model building, along with standard benchmark dataset (Flores-200) for fine-tuning and testing, is done as a part of our experiment. Different preprocessing approaches are proposed in this paper to handle the noise of the dataset. To create the system, MOSES open-source SMT toolkit is explored. Distance reordering is utilized with the aim to understand the rules of grammar and context-dependent adjustments through a phrase reordering categorization framework. In our experiment, the quality of the translation is evaluated using standard metrics such as BLEU, METEOR, and RIBES
翻訳日:2023-01-03 14:53:17 公開日:2023-01-02
# ロシア・ウクライナ戦争:各国のセンチメントトレンドのモデル化とクラスタリング

Russia-Ukraine war: Modeling and Clustering the Sentiments Trends of Various Countries ( http://arxiv.org/abs/2301.00604v1 )

ライセンス: Link先を確認
Hamed Vahdat-Nejad, Mohammad Ghasem Akbari, Fatemeh Salmani, Faezeh Azizi, Hamid-Reza Nili-Sani(参考訳) Twitterの成長と人気により、様々なトピックに関する膨大な数のビューがユーザによって共有され、このプラットフォームは様々な政治的、社会的、経済的問題に関する貴重な情報ソースとなっている。 本稿では、ロシア・ウクライナ戦争の英語ツイートを調査し、紛争に関するユーザの意見や感情を反映した傾向を分析する。 BERTモデルを用いて、ツイートの肯定的・否定的な感情を分析し、様々な国における肯定的・否定的なツイートの頻度に関連する時系列を算出する。 そこで本研究では,近隣地域の平均値に基づく時系列のモデリングとクラスタリング手法を提案する。 クラスタリングの結果は、この対立に関する世論に対する貴重な洞察を提供する。 中でも、米国、カナダ、イギリス、そしてほとんどの西欧諸国のユーザーからの同様の考え方と、紛争に対する東欧、スカンジナビア、アジア、南米諸国の共通見解について言及することができる。

With Twitter's growth and popularity, a huge number of views are shared by users on various topics, making this platform a valuable information source on various political, social, and economic issues. This paper investigates English tweets on the Russia-Ukraine war to analyze trends reflecting users' opinions and sentiments regarding the conflict. The tweets' positive and negative sentiments are analyzed using a BERT-based model, and the time series associated with the frequency of positive and negative tweets for various countries is calculated. Then, we propose a method based on the neighborhood average for modeling and clustering the time series of countries. The clustering results provide valuable insight into public opinion regarding this conflict. Among other things, we can mention the similar thoughts of users from the United States, Canada, the United Kingdom, and most Western European countries versus the shared views of Eastern European, Scandinavian, Asian, and South American nations toward the conflict.
翻訳日:2023-01-03 14:52:56 公開日:2023-01-02
# 自動スコアリングのためのエッセイを戦略的に選択するアクティブラーニング手法

Using Active Learning Methods to Strategically Select Essays for Automated Scoring ( http://arxiv.org/abs/2301.00628v1 )

ライセンス: Link先を確認
Tahereh Firoozi, Hamid Mohammadi, Mark J. Gierl(参考訳) 自動エッセイスコアリングに関する研究は,学生の書面応答を大規模に評価する手段として重要になっている。 学生がオンライン学習環境に移行する際には,書面応答の評価を行うためのスケーラブルな手法が必要である。 本研究の目的は,近代的な自動エッセイ評価システムの訓練に必要なデータを提供しながら,人間による評価が必要なエッセイの数を最小限に抑えるために利用可能な3つのアクティブラーニング手法を記述し,評価することである。 3つのアクティブな学習方法は不確実性に基づく、トポロジに基づく、ハイブリッドな方法である。 これらの3つの手法は, トランスフォーマー言語モデルから双方向エンコーダ表現を訓練したスコアリングモデルを用いて分類された自動学生評価コンテストに含まれるエッセイを選択するために用いられた。 3つのアクティブラーニング手法はいずれも強い結果を示し、トポロジカルベース法が最も効率的な分類を生み出した。 成長率も評価された。 能動的学習法は, 異なるサンプルサイズ割り当ての下で異なるレベルの効率を創出するが, 全体としては3つの手法は極めて効率的であり, 互いに類似した分類が得られた。

Research on automated essay scoring has become increasing important because it serves as a method for evaluating students' written-responses at scale. Scalable methods for scoring written responses are needed as students migrate to online learning environments resulting in the need to evaluate large numbers of written-response assessments. The purpose of this study is to describe and evaluate three active learning methods than can be used to minimize the number of essays that must be scored by human raters while still providing the data needed to train a modern automated essay scoring system. The three active learning methods are the uncertainty-based, the topological-based, and the hybrid method. These three methods were used to select essays included as part of the Automated Student Assessment Prize competition that were then classified using a scoring model that was training with the bidirectional encoder representations from transformer language model. All three active learning methods produced strong results, with the topological-based method producing the most efficient classification. Growth rate accuracy was also evaluated. The active learning methods produced different levels of efficiency under different sample size allocations but, overall, all three methods were highly efficient and produced classifications that were similar to one another.
翻訳日:2023-01-03 14:52:41 公開日:2023-01-02
# 高時間分解能イベントベース車両検出と追跡

High-temporal-resolution event-based vehicle detection and tracking ( http://arxiv.org/abs/2212.14289v2 )

ライセンス: Link先を確認
Zaid El-Shair and Samir Rawashdeh(参考訳) イベントベースのビジョンは近年、その高い時間分解能(~1us)、高いダイナミックレンジ(>120db)、わずか数マイクロ秒の出力レイテンシといったユニークな特徴によって、急速に成長しています。 この研究は、手作りのイベントベース手法で補完される最先端のフレームベースの検出器を活用して、計算オーバーヘッドを最小限に抑えて全体的なトラッキング性能を改善する、ハイブリッドでマルチモーダルなオブジェクト検出とトラッキングのアプローチをさらに探求する。 得られたbbsの精度を向上させるイベントベースバウンディングボックス(bb)の改良と、失敗した検出を回収し、高時間分解能トラッキングアウトプットを可能にするフレーム間検出を生成する連続イベントベースオブジェクト検出方法を含む。 これらの手法の利点は高次追跡精度(HOTA)を用いたアブレーション法により定量的に検証される。 その結果、HOTAはフレームのみを使用して56.6%から64.1%、64.9%に改善され、イベントとエッジベースのマスク構成が24Hzのベースラインフレームレートで提案された2つの手法と組み合わせられた。 同様に、これらの手法を同じ構成に組み込むことで、HOTAは52.5%から63.1%に改善され、51.3%から60.2%に改善された。 最後に,高速LiDARを用いた実世界の単一物体追跡性能の検証実験を行った。 提案手法は,24Hzの基線フレームレートと最大500Hzの追従速度でフレームベース物体検出器を使用する場合と比較して大きな利点があることを示す。

Event-based vision has been rapidly growing in recent years justified by the unique characteristics it presents such as its high temporal resolutions (~1us), high dynamic range (>120dB), and output latency of only a few microseconds. This work further explores a hybrid, multi-modal, approach for object detection and tracking that leverages state-of-the-art frame-based detectors complemented by hand-crafted event-based methods to improve the overall tracking performance with minimal computational overhead. The methods presented include event-based bounding box (BB) refinement that improves the precision of the resulting BBs, as well as a continuous event-based object detection method, to recover missed detections and generate inter-frame detections that enable a high-temporal-resolution tracking output. The advantages of these methods are quantitatively verified by an ablation study using the higher order tracking accuracy (HOTA) metric. Results show significant performance gains resembled by an improvement in the HOTA from 56.6%, using only frames, to 64.1% and 64.9%, for the event and edge-based mask configurations combined with the two methods proposed, at the baseline framerate of 24Hz. Likewise, incorporating these methods with the same configurations has improved HOTA from 52.5% to 63.1%, and from 51.3% to 60.2% at the high-temporal-resolution tracking rate of 384Hz. Finally, a validation experiment is conducted to analyze the real-world single-object tracking performance using high-speed LiDAR. Empirical evidence shows that our approaches provide significant advantages compared to using frame-based object detectors at the baseline framerate of 24Hz and higher tracking rates of up to 500Hz.
翻訳日:2023-01-03 14:52:02 公開日:2023-01-02
# 地中真理の探求--アノテータノイズの存在下での信頼モデル学習と不確かさの推定

In Quest of Ground Truth: Learning Confident Models and Estimating Uncertainty in the Presence of Annotator Noise ( http://arxiv.org/abs/2301.00524v1 )

ライセンス: Link先を確認
Asma Ahmed Hashmi, Artem Agafonov, Aigerim Zhumabayeva, Mohammad Yaqub and Martin Tak\'a\v{c}(参考訳) ディープラーニング(DL)モデルのパフォーマンスはラベルの品質に依存します。 一部の領域では、人間のアノテータの関与はデータにノイズをもたらす可能性がある。 これらのラベルが盲目的に基底真理(GT)と見なされる場合、DLモデルは性能不足に悩まされる。 本稿では,ノイズラベルの存在下での信頼度モデル学習を目的とした手法を提案する。 これは複数のアノテータの不確かさを推定すると共に行われる。 分類器ネットワークにエントロピーや情報ベース正規化器を追加することにより,雑音ラベルのみの予測を頑健に推定する。 我々はMNIST, CIFAR-10, FMNISTデータセットのノイズバージョンについて実験を行った。 実験結果から,本手法はsof-the-art (sota) 法と比較して頑健性を示す。 さらに,様々なアノテータのノイズタイプとレベルが入力画像のスタイルに依存するようなキュレートデータセット上で,提案手法の評価を行った。 私たちのアプローチはうまく機能しており、注釈者の混乱を学ぶのに適しています。 さらに,我々のモデルが他のベースラインよりもgtの予測に自信を持っていることを示す。 最後に,セグメンテーション問題に対するアプローチを評価し,実験の有効性を示す。

The performance of the Deep Learning (DL) models depends on the quality of labels. In some areas, the involvement of human annotators may lead to noise in the data. When these corrupted labels are blindly regarded as the ground truth (GT), DL models suffer from performance deficiency. This paper presents a method that aims to learn a confident model in the presence of noisy labels. This is done in conjunction with estimating the uncertainty of multiple annotators. We robustly estimate the predictions given only the noisy labels by adding entropy or information-based regularizer to the classifier network. We conduct our experiments on a noisy version of MNIST, CIFAR-10, and FMNIST datasets. Our empirical results demonstrate the robustness of our method as it outperforms or performs comparably to other state-of-the-art (SOTA) methods. In addition, we evaluated the proposed method on the curated dataset, where the noise type and level of various annotators depend on the input image style. We show that our approach performs well and is adept at learning annotators' confusion. Moreover, we demonstrate how our model is more confident in predicting GT than other baselines. Finally, we assess our approach for segmentation problem and showcase its effectiveness with experiments.
翻訳日:2023-01-03 14:45:40 公開日:2023-01-02
# クリップ駆動による臓器分節・腫瘍検出のためのユニバーサルモデル

CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection ( http://arxiv.org/abs/2301.00785v1 )

ライセンス: Link先を確認
Jie Liu, Yixiao Zhang, Jie-Neng Chen, Junfei Xiao, Yongyi Lu, Bennett A. Landman, Yixuan Yuan, Alan Yuille, Yucheng Tang, Zongwei Zhou(参考訳) 公的データセットの増加は、解剖学的構造の評価に顕著な臨床効果を示している。 しかし、それぞれのデータセットは小さく、部分的にラベル付けされており、重度の腫瘍患者を調査することは稀である。 さらに、現在のモデルは特定の臓器や腫瘍のセグメント化に限られており、新しいドメインやクラスに拡張することはできない。 これらの制約に対処するために、CLIP駆動ユニバーサルモデルと呼ばれるセグメンテーションモデルに、Contrastive Language-Image Pre-Training (CLIP)から学んだ埋め込みを導入する。 ユニバーサルモデルでは腹部構造間の意味的関係を利用して,25臓器と6種類の腫瘍を分類できる。 このモデルは、3,410個のCTスキャンを持つ14のデータセットから開発され、3つのデータセットから6,162個の外部CTスキャンで評価される。 我々は,医学分離宣言 (MSD) の公的リーダーボードにランクインし,BTCV (Beyond The Cranial Vault) の最先端の成果を達成する。 データセット固有のモデルと比較すると、ユニバーサルモデルは計算効率が6倍速く、様々なサイトからのctスキャンをより一般化し、新しいタスクでより強力な転送学習性能を示す。 CLIP埋め込みの設計により、Universal Modelは、これまで学んだクラスを破滅的に忘れることなく、新しいクラスに容易に拡張できる。

An increasing number of public datasets have shown a marked clinical impact on assessing anatomical structures. However, each of the datasets is small, partially labeled, and rarely investigates severe tumor subjects. Moreover, current models are limited to segmenting specific organs/tumors, which can not be extended to novel domains and classes. To tackle these limitations, we introduce embedding learned from Contrastive Language-Image Pre-training (CLIP) to segmentation models, dubbed the CLIP-Driven Universal Model. The Universal Model can better segment 25 organs and 6 types of tumors by exploiting the semantic relationship between abdominal structures. The model is developed from an assembly of 14 datasets with 3,410 CT scans and evaluated on 6,162 external CT scans from 3 datasets. We rank first on the public leaderboard of the Medical Segmentation Decathlon (MSD) and achieve the state-of-the-art results on Beyond The Cranial Vault (BTCV). Compared with dataset-specific models, the Universal Model is computationally more efficient (6x faster), generalizes better to CT scans from varying sites, and shows stronger transfer learning performance on novel tasks. The design of CLIP embedding enables the Universal Model to be easily extended to new classes without catastrophically forgetting the previously learned classes.
翻訳日:2023-01-03 14:45:19 公開日:2023-01-02
# 低レベル強凸性のない二値最適化について

On Bilevel Optimization without Lower-level Strong Convexity ( http://arxiv.org/abs/2301.00712v1 )

ライセンス: Link先を確認
Lesi Chen, Jing Xu and Jingzhao Zhang(参考訳) 双レベル問題の理論的性質は、低レベル問題は強凸であるときによく研究される。 本研究では,強い凸性仮定を伴わない二段階最適化問題に焦点をあてる。 これらの場合、KKT条件や正規化のような共通局所最適度が望ましくない結果をもたらすことが最初に示される。 次に,両レベルの問題を抽出可能な最も穏やかな条件を特定することを目的とする。 成長条件の2つのクラスを, 連続性につながる低レベル目標上で同定する。 これらの仮定の下では、双位問題の局所最適性は超対象のゴールドスタイン定常条件によって定義できることを示す。 そこで本研究では, 独立性を持つゼロ次オラクルを用いて, 両レベル問題の解法として, Inexact Gradient-Free Method (IGFM) を提案する。 我々の非漸近解析は、提案手法が$(\delta, \varepsilon)$ Goldstein固定点を、d, 1/\delta$および1/\varepsilon$の多項式であるゼロ次オラクル複雑性を持つ双位問題に対して見つけることができることを示した。

Theoretical properties of bilevel problems are well studied when the lower-level problem is strongly convex. In this work, we focus on bilevel optimization problems without the strong-convexity assumption. In these cases, we first show that the common local optimality measures such as KKT condition or regularization can lead to undesired consequences. Then, we aim to identify the mildest conditions that make bilevel problems tractable. We identify two classes of growth conditions on the lower-level objective that leads to continuity. Under these assumptions, we show that the local optimality of the bilevel problem can be defined via the Goldstein stationarity condition of the hyper-objective. We then propose the Inexact Gradient-Free Method (IGFM) to solve the bilevel problem, using an approximate zeroth order oracle that is of independent interest. Our non-asymptotic analysis demonstrates that the proposed method can find a $(\delta, \varepsilon)$ Goldstein stationary point for bilevel problems with a zeroth order oracle complexity that is polynomial in $d, 1/\delta$ and $1/\varepsilon$.
翻訳日:2023-01-03 14:36:58 公開日:2023-01-02
# 物理インフォームドニューラルネットワークに基づくリチウムイオン電池の診断・健康管理のためのハウジングモデル

Fusing Models for Prognostics and Health Management of Lithium-Ion Batteries Based on Physics-Informed Neural Networks ( http://arxiv.org/abs/2301.00776v1 )

ライセンス: Link先を確認
Pengfei Wen, Zhi-Sheng Ye, Yong Li, Shaowei Chen, Shuai Zhao(参考訳) リチウムイオン(Liイオン)電池の診断・健康管理(PHM)については,劣化過程を特徴付けるために多くのモデルが確立されている。 既存の経験モデルや物理モデルは、劣化ダイナミクスに関する重要な情報を明らかにすることができる。 しかし、それらのモデルで表される情報を融合させる汎用的かつ柔軟な手法は存在しない。 physics-informed neural network (pinn)は、経験的または物理的動的モデルをデータ駆動モデルと融合する効率的なツールである。 様々な情報ソースをフル活用するために,PINNに基づくモデル融合方式を提案する。 半経験的半物理偏微分方程式(PDE)を開発し、Liイオン電池の劣化ダイナミクスをモデル化する。 ダイナミクスに関する事前の知識がほとんどない場合、データ駆動型ディープ隠れ物理モデル(deephpm)を利用して、基盤となる動的モデルを見つけます。 発見されたダイナミクス情報は、PINNフレームワークのサロゲートニューラルネットワークがマイニングしたものと融合する。 さらに、PINNのトレーニング時に複数の学習タスクのバランスをとるために、不確実性に基づく適応重み付け手法を用いる。 提案手法はLi-イオンリン酸塩/グラファイト電池のパブリックデータセット上で検証される。

For Prognostics and Health Management (PHM) of Lithium-ion (Li-ion) batteries, many models have been established to characterize their degradation process. The existing empirical or physical models can reveal important information regarding the degradation dynamics. However, there is no general and flexible methods to fuse the information represented by those models. Physics-Informed Neural Network (PINN) is an efficient tool to fuse empirical or physical dynamic models with data-driven models. To take full advantage of various information sources, we propose a model fusion scheme based on PINN. It is implemented by developing a semi-empirical semi-physical Partial Differential Equation (PDE) to model the degradation dynamics of Li-ion-batteries. When there is little prior knowledge about the dynamics, we leverage the data-driven Deep Hidden Physics Model (DeepHPM) to discover the underlying governing dynamic models. The uncovered dynamics information is then fused with that mined by the surrogate neural network in the PINN framework. Moreover, an uncertainty-based adaptive weighting method is employed to balance the multiple learning tasks when training the PINN. The proposed methods are verified on a public dataset of Li-ion Phosphate (LFP)/graphite batteries.
翻訳日:2023-01-03 14:36:34 公開日:2023-01-02
# SIRL:類似性に基づく暗黙表現学習

SIRL: Similarity-based Implicit Representation Learning ( http://arxiv.org/abs/2301.00810v1 )

ライセンス: Link先を確認
Andreea Bobu, Yi Liu, Rohin Shah, Daniel S. Brown, Anca D. Dragan(参考訳) ロボットが入力として生の状態を直接取る高容量モデルを使って報酬関数を学習するときは、タスクの「機能」であるタスクの表現と、これらの機能をひとつの目的に組み合わせる方法の両方を学ぶ必要がある。 完全な報酬関数を教えるために設計された入力から、一度に両方をしようとすると、データに散発的な相関関係を含む表現にたどり着くのは簡単で、新しい設定に一般化することができない。 その代わり、私たちの究極のゴールは、人々が実際に関心を持ち、状態や行動を表すときに使用する因果的特徴をロボットが識別し、分離できるようにすることです。 私たちの考えは、ユーザに対して、同じような振る舞いを問うことで、この表現をチューニングできる、ということだ: 重要な特徴が似ていても、たとえ低レベルの振る舞いが異なるとしても、振る舞いは似ている。 これは、ロボットが表現に進む必要のあるものと、刺激的なもの、そして行動のどの側面を一緒に圧縮できるかを曖昧にすることができることを意味している。 類似性に基づく学習表現の概念は、視覚的に類似したデータポイントを類似した埋め込みにマッピングする自己教師付き表現学習技術であり、データ拡張ヒューリスティックを通じて設計者が類似性を定義する。 対照的に、人々が使用する表現を学ぶために、私たちは彼らの好みや目的を学ぶために、類似性の定義を使います。 シミュレーションやユーザスタディにおいて、このような類似性クエリによる学習は、完璧とは程遠いが、自己教師型やタスクインプット型よりもはるかに一般化可能な表現につながることを示す。

When robots learn reward functions using high capacity models that take raw state directly as input, they need to both learn a representation for what matters in the task -- the task ``features" -- as well as how to combine these features into a single objective. If they try to do both at once from input designed to teach the full reward function, it is easy to end up with a representation that contains spurious correlations in the data, which fails to generalize to new settings. Instead, our ultimate goal is to enable robots to identify and isolate the causal features that people actually care about and use when they represent states and behavior. Our idea is that we can tune into this representation by asking users what behaviors they consider similar: behaviors will be similar if the features that matter are similar, even if low-level behavior is different; conversely, behaviors will be different if even one of the features that matter differs. This, in turn, is what enables the robot to disambiguate between what needs to go into the representation versus what is spurious, as well as what aspects of behavior can be compressed together versus not. The notion of learning representations based on similarity has a nice parallel in contrastive learning, a self-supervised representation learning technique that maps visually similar data points to similar embeddings, where similarity is defined by a designer through data augmentation heuristics. By contrast, in order to learn the representations that people use, so we can learn their preferences and objectives, we use their definition of similarity. In simulation as well as in a user study, we show that learning through such similarity queries leads to representations that, while far from perfect, are indeed more generalizable than self-supervised and task-input alternatives.
翻訳日:2023-01-03 14:36:15 公開日:2023-01-02
# 深い線形ネットワークによるベイズ補間

Bayesian Interpolation with Deep Linear Networks ( http://arxiv.org/abs/2212.14457v2 )

ライセンス: Link先を確認
Boris Hanin, Alexander Zlokapa(参考訳) 本稿では,出力次元1の深い線形ネットワークを用いたベイズ推定について述べる。 補間(ゼロノイズ)理論において、ガウスの重み前置法とmse負の対数類似性損失により、予測後置法とベイズ模型の証明は、meijer-g関数と呼ばれる有理特殊関数のクラスで閉じた形で書けることが示される。 これらの結果は非漸近的であり、トレーニングデータセット、ネットワーク深度、隠された層幅を保ち、各層にユークリッド共分散を持つ深いガウス過程を用いてベイズ補間を正確に解いた。 Meijer-G関数の新たな漸近展開を通じて、深度の役割の豊かな新しい絵が現れる。 具体的には、データ非依存の深い線形ネットワークの後方は、データ依存の先行を最大化する証拠を持つ浅層ネットワークと同じである。 この意味で、深い線形ネットワークは証明可能な最適予測を行う。 また,広帯域ネットワークにおけるベイズモデル証拠は,データ非依存の先行から,無限の深さでのみ最大化できることを証明した。 これは(少なくとも線形の場合)より深いネットワークを好む原則的な理由を与える。 最後に,データ非依存の場合には,[\#\text{hidden layers}\times\frac{\#\text{training data}}{\text{network width}}\] によって与えられる有効深さの新たな概念を優先することで,広い線形ネットワークにおけるベイジアン後方を決定することにより,一般化誤差に対する厳密な新しいスケーリング則が与えられることを示した。

This article concerns Bayesian inference using deep linear networks with output dimension one. In the interpolating (zero noise) regime we show that with Gaussian weight priors and MSE negative log-likelihood loss both the predictive posterior and the Bayesian model evidence can be written in closed form in terms of a class of meromorphic special functions called Meijer-G functions. These results are non-asymptotic and hold for any training dataset, network depth, and hidden layer widths, giving exact solutions to Bayesian interpolation using a deep Gaussian process with a Euclidean covariance at each layer. Through novel asymptotic expansions of Meijer-G functions, a rich new picture of the role of depth emerges. Specifically, we find that the posteriors in deep linear networks with data-independent priors are the same as in shallow networks with evidence maximizing data-dependent priors. In this sense, deep linear networks make provably optimal predictions. We also prove that, starting from data-agnostic priors, Bayesian model evidence in wide networks is only maximized at infinite depth. This gives a principled reason to prefer deeper networks (at least in the linear case). Finally, our results show that with data-agnostic priors a novel notion of effective depth given by \[\#\text{hidden layers}\times\frac{\#\text{training data}}{\text{network width}}\] determines the Bayesian posterior in wide linear networks, giving rigorous new scaling laws for generalization error.
翻訳日:2023-01-03 14:35:42 公開日:2023-01-02
# 動的特徴選択のための相互情報の最大化学習

Learning to Maximize Mutual Information for Dynamic Feature Selection ( http://arxiv.org/abs/2301.00557v1 )

ライセンス: Link先を確認
Ian Covert, Wei Qiu, Mingyu Lu, Nayoon Kim, Nathan White, Su-In Lee(参考訳) 機能選択はMLのデータ取得コストを削減するのに役立つが、標準的なアプローチは静的な機能サブセットでモデルをトレーニングすることだ。 本稿では,現在利用可能な情報に基づいてモデルを逐次クエリする動的特徴選択(DFS)問題を考察する。 DFSは、しばしば強化学習(RL)によって対処されるが、条件付き相互情報に基づいて、より単純な特徴選択のアプローチを検討する。 本手法は理論的に魅力的であるが,データ分布へのオラクルアクセスを必要とするため,償却最適化に基づく学習手法を開発する。 提案手法は, 最適性に訓練された際の欲望ポリシーを回復し, 既存の多数の特徴選択手法よりも優れており, この問題に対する単純かつ強力なアプローチとして検証できる。

Feature selection helps reduce data acquisition costs in ML, but the standard approach is to train models with static feature subsets. Here, we consider the dynamic feature selection (DFS) problem where a model sequentially queries features based on the presently available information. DFS is often addressed with reinforcement learning (RL), but we explore a simpler approach of greedily selecting features based on their conditional mutual information. This method is theoretically appealing but requires oracle access to the data distribution, so we develop a learning approach based on amortized optimization. The proposed method is shown to recover the greedy policy when trained to optimality and outperforms numerous existing feature selection methods in our experiments, thus validating it as a simple but powerful approach for this problem.
翻訳日:2023-01-03 14:34:13 公開日:2023-01-02
# 時空間データに対する混合移動平均場誘導学習

Mixed moving average field guided learning for spatio-temporal data ( http://arxiv.org/abs/2301.00736v1 )

ライセンス: Link先を確認
Imma Valentina Curato, Orkun Furat and Bennet Stroeh(参考訳) 混合移動平均場は時空間データのための汎用モデリングクラスである。 しかし、その予測分布は一般にはアクセスできない。 このモデリング仮定に基づき、一般化ベイズアルゴリズムを用いて予測を行う、理論誘導型機械学習アプローチを定義する。 我々はリプシッツ予測器、例えば線形モデルやフィードフォワードニューラルネットワークを用い、空間次元と時間次元に沿って直列に相関したデータに対する新しいPACベイズ境界を最小化することによりランダム化推定器を決定する。 因果的未来予測を行うことは、短時間かつ長距離の依存を持つデータへの潜在的な応用として、我々の方法論のハイライトである。 本稿では,線形予測器とSTOUプロセスからの時空間データのシミュレーションを例に,学習手法の性能を示す。

Influenced mixed moving average fields are a versatile modeling class for spatio-temporal data. However, their predictive distribution is not generally accessible. Under this modeling assumption, we define a novel theory-guided machine learning approach that employs a generalized Bayesian algorithm to make predictions. We employ a Lipschitz predictor, for example, a linear model or a feed-forward neural network, and determine a randomized estimator by minimizing a novel PAC Bayesian bound for data serially correlated along a spatial and temporal dimension. Performing causal future predictions is a highlight of our methodology as its potential application to data with short and long-range dependence. We conclude by showing the performance of the learning methodology in an example with linear predictors and simulated spatio-temporal data from an STOU process.
翻訳日:2023-01-03 14:33:58 公開日:2023-01-02
# 深層学習を用いた光コヒーレンストモグラフィ画像のスペクトル帯域復元

Spectral Bandwidth Recovery of Optical Coherence Tomography Images using Deep Learning ( http://arxiv.org/abs/2301.00504v1 )

ライセンス: Link先を確認
Timothy T. Yu, Da Ma, Jayden Cole, Myeong Jin Ju, Mirza F. Beg and Marinko V. Sarunic(参考訳) 光コヒーレンストモグラフィー(OCT)は横断的なデータを捉え、網膜疾患のスクリーニング、モニタリング、治療計画に使用される。 取得速度を向上する技術開発は、しばしばスペクトル帯域幅が狭くなり、したがって軸方向分解能が低くなる。 従来,OCTのサブサンプルデータを再構成するために画像処理技術が用いられており,近年ではディープラーニングに基づく手法が研究されている。 本研究では,スペクトル領域におけるガウスウィンドウ化による軸方向スキャン(Aスキャン)分解能の低下をシミュレートし,画像特徴再構成のための学習的アプローチについて検討する。 広視野 OCT システムに付随する解像度の低減を期待して,我々は,超解像度生成対向ネットワーク (SRGAN) アーキテクチャを改良したピクセル・ツー・ピクセル・アプローチを用いて,失われた特徴を再構築し,臨床医の意思決定におけるより良い支援方法を探求する超解像度技術を構築した。

Optical coherence tomography (OCT) captures cross-sectional data and is used for the screening, monitoring, and treatment planning of retinal diseases. Technological developments to increase the speed of acquisition often results in systems with a narrower spectral bandwidth, and hence a lower axial resolution. Traditionally, image-processing-based techniques have been utilized to reconstruct subsampled OCT data and more recently, deep-learning-based methods have been explored. In this study, we simulate reduced axial scan (A-scan) resolution by Gaussian windowing in the spectral domain and investigate the use of a learning-based approach for image feature reconstruction. In anticipation of the reduced resolution that accompanies wide-field OCT systems, we build upon super-resolution techniques to explore methods to better aid clinicians in their decision-making to improve patient outcomes, by reconstructing lost features using a pixel-to-pixel approach with an altered super-resolution generative adversarial network (SRGAN) architecture.
翻訳日:2023-01-03 14:27:32 公開日:2023-01-02
# nash深部qネットワークによる大規模交通信号制御

Large-Scale Traffic Signal Control by a Nash Deep Q-network Approach ( http://arxiv.org/abs/2301.00637v1 )

ライセンス: Link先を確認
Yuli.Zhang, Shangbo.Wang, Ruiyuan.Jiang(参考訳) 強化学習(rl)は現在、交通信号制御(tsc)の最も一般的な手法の1つであり、リアルタイムの交通データに応じて信号位相と持続時間を適応的に調整することができる。 しかしながら、完全に中央集権的なRLアプローチは、交叉の増加を伴う状態-作用空間の指数的な増加のため、マルチネットワークシナリオにおいて困難を伴う。 マルチエージェント強化学習(MARL)は,各ローカルRLエージェントのグローバルコントロールを利用することで,高次元問題を克服することができるが,非定常マルコフ決定プロセス(MDP)による収束の失敗など,新たな課題も生じている。 本稿では,完全集中型アプローチとMARLアプローチの両方の弱点を緩和する,オフポリチナッシュ深層Q-Network(OPNDQN)アルゴリズムを提案する。 OPNDQNアルゴリズムは、隣接する交差点間のナッシュ均衡を見つけるために、各イテレーションにおける架空のゲームアプローチを利用することで、従来のアルゴリズムが大きな状態-行動空間の交通モデルでは利用できないという問題を解決する。 OPNDQNの主な利点の1つは、マルチエージェントマルコフ過程の非定常性を緩和することである。 一方,大規模な交通ネットワークをトレーニングする場合,OPNDQNの収束率は,各エージェントのすべての状態情報を組み込んでいないため,既存のMARLアプローチよりも高い。 本研究では,都市モビリティシミュレータ(sumo)のシミュレーションを用いて広範囲な実験を行い,平均待ち時間,エピソード訓練報酬,平均待ち時間という観点から,既存のmarlアプローチよりもopndqnが優勢であることを示す。

Reinforcement Learning (RL) is currently one of the most commonly used techniques for traffic signal control (TSC), which can adaptively adjusted traffic signal phase and duration according to real-time traffic data. However, a fully centralized RL approach is beset with difficulties in a multi-network scenario because of exponential growth in state-action space with increasing intersections. Multi-agent reinforcement learning (MARL) can overcome the high-dimension problem by employing the global control of each local RL agent, but it also brings new challenges, such as the failure of convergence caused by the non-stationary Markov Decision Process (MDP). In this paper, we introduce an off-policy nash deep Q-Network (OPNDQN) algorithm, which mitigates the weakness of both fully centralized and MARL approaches. The OPNDQN algorithm solves the problem that traditional algorithms cannot be used in large state-action space traffic models by utilizing a fictitious game approach at each iteration to find the nash equilibrium among neighboring intersections, from which no intersection has incentive to unilaterally deviate. One of main advantages of OPNDQN is to mitigate the non-stationarity of multi-agent Markov process because it considers the mutual influence among neighboring intersections by sharing their actions. On the other hand, for training a large traffic network, the convergence rate of OPNDQN is higher than that of existing MARL approaches because it does not incorporate all state information of each agent. We conduct an extensive experiments by using Simulation of Urban MObility simulator (SUMO), and show the dominant superiority of OPNDQN over several existing MARL approaches in terms of average queue length, episode training reward and average waiting time.
翻訳日:2023-01-03 14:25:07 公開日:2023-01-02
# 因果推論(C-inf)-典型的な相転移の非対称シナリオ

Causal Inference (C-inf) -- asymmetric scenario of typical phase transitions ( http://arxiv.org/abs/2301.00801v1 )

ライセンス: Link先を確認
Agostino Capponi, Mihailo Stojnic(参考訳) 本稿では,[10]で確立された因果推論(C-inf)と低ランクリカバリ(LRR)の数学的に厳密な関係について検討する。 ランダム双対性(Random duality)-自由確率理論(RDT-FPT)接続を利用すると、明確な典型的C-inf非対称相転移(PT)が得られる。 両立する低ランク現象は,[10]で考慮された対称的最悪の場合と比較して,非対称的なシナリオでは正確に2倍大きな低ランク現象が許容されることを意味する。 その結果,最終PT式は[10]と同等にエレガントであり,対象のC-inf行列の低ランク性と治療時間との直接的な関係を強調した。 この結果はC-inf行列が必ずしも対称であるとは限らないアプリケーションに強い意味を持つ。

In this paper, we revisit and further explore a mathematically rigorous connection between Causal inference (C-inf) and the Low-rank recovery (LRR) established in [10]. Leveraging the Random duality - Free probability theory (RDT-FPT) connection, we obtain the exact explicit typical C-inf asymmetric phase transitions (PT). We uncover a doubling low-rankness phenomenon, which means that exactly two times larger low rankness is allowed in asymmetric scenarios compared to the symmetric worst case ones considered in [10]. Consequently, the final PT mathematical expressions are as elegant as those obtained in [10], and highlight direct relations between the targeted C-inf matrix low rankness and the time of treatment. Our results have strong implications for applications, where C-inf matrices are not necessarily symmetric.
翻訳日:2023-01-03 14:19:07 公開日:2023-01-02
# Knockoffs-SPR: ノイズラベルによる学習におけるクリーンサンプル選択

Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels ( http://arxiv.org/abs/2301.00545v1 )

ライセンス: Link先を確認
Yikai Wang, Yanwei Fu, and Xinwei Sun(参考訳) ノイズの多いトレーニングセットは通常、ニューラルネットワークの一般化と堅牢性の低下につながる。 本稿では,ノイズラベルを用いた学習のための新しいクリーンサンプル選択フレームワークを提案する。 具体的には,ネットワーク特徴量と1ホットラベルとの線形関係をモデル化するために,まずSPR(Scalable Penalized Regression)法を提案する。 SPRでは、クリーンデータは回帰モデルで解決されたゼロ平均シフトパラメータによって識別される。 理論的には、SPRはいくつかの条件下でクリーンなデータを復元できることを示す。 一般的なシナリオでは、条件はもはや満たされず、一部のノイズデータは誤ってクリーンデータとして選択される。 この問題を解決するために,選択したクリーンデータ中のFalse-Selection-Rate(FSR)を制御可能なKnockoffフィルタ(Knockoffs-SPR)を用いたスケーラブルなペナル化回帰法を提案する。 効率を改善するために、トレーニングセット全体を小さな断片に分割して、フレームワークを大規模データセットにスケーラブルにするために並列に解決できる分割アルゴリズムを提案する。 knockoffs-sprは標準教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができるが、半教師付きアルゴリズムと組み合わせることで、ノイズデータのサポートをラベルなしデータとして活用する。 いくつかのベンチマークデータセットと実世界のノイズデータセットの実験結果から、フレームワークの有効性を示し、Knockoffs-SPRの理論的結果を検証する。 私たちのコードと事前訓練されたモデルはリリースされます。

A noisy training set usually leads to the degradation of the generalization and robustness of neural networks. In this paper, we propose a novel theoretically guaranteed clean sample selection framework for learning with noisy labels. Specifically, we first present a Scalable Penalized Regression (SPR) method, to model the linear relation between network features and one-hot labels. In SPR, the clean data are identified by the zero mean-shift parameters solved in the regression model. We theoretically show that SPR can recover clean data under some conditions. Under general scenarios, the conditions may be no longer satisfied; and some noisy data are falsely selected as clean data. To solve this problem, we propose a data-adaptive method for Scalable Penalized Regression with Knockoff filters (Knockoffs-SPR), which is provable to control the False-Selection-Rate (FSR) in the selected clean data. To improve the efficiency, we further present a split algorithm that divides the whole training set into small pieces that can be solved in parallel to make the framework scalable to large datasets. While Knockoffs-SPR can be regarded as a sample selection module for a standard supervised training pipeline, we further combine it with a semi-supervised algorithm to exploit the support of noisy data as unlabeled data. Experimental results on several benchmark datasets and real-world noisy datasets show the effectiveness of our framework and validate the theoretical results of Knockoffs-SPR. Our code and pre-trained models will be released.
翻訳日:2023-01-03 14:16:46 公開日:2023-01-02
# PCRLv2:医用画像解析における自己教師付き事前学習のための統合視覚情報保存フレームワーク

PCRLv2: A Unified Visual Information Preservation Framework for Self-supervised Pre-training in Medical Image Analysis ( http://arxiv.org/abs/2301.00772v1 )

ライセンス: Link先を確認
Hong-Yu Zhou, Chixiang Lu, Chaoqi Chen, Sibei Yang, Yizhou Yu(参考訳) コンピュータビジョンにおける近年の自己教師付き学習(ssl)の進歩は、siamのイメージビューを比較することによって、潜在表現における不変性と識別的意味論を保存することを目的としている。 しかし、保存された高レベルセマンティクスには十分な局所情報が含まれておらず、医療画像解析(画像に基づく診断や腫瘍の分節化など)に不可欠である。 比較SSLの局所性問題を緩和するために,よりピクセルレベルの情報を高レベルの意味論に明示的にエンコードするための画素復元タスクを提案する。 また,画像理解を支援する強力なツールであるスケール情報の保存にも取り組んでいるが,sslではそれほど注目されていない。 得られたフレームワークは、特徴ピラミッド上のマルチタスク最適化問題として定式化することができる。 具体的には,ピラミッドのマルチスケール画素復元とシアムの特徴比較を行う。 さらに,機能ピラミッドの構築と3次元医用イメージングにおけるマルチクロップに代わるサブクロップの開発のために,ノンスキップのu-netを提案する。 提案された統合SSLフレームワーク(PCRLv2)は、脳腫瘍のセグメンテーション(BraTS 2018)、胸部病理診断(ChestX-ray、CheXpert)、肺結節検出(LUNA)、腹部臓器のセグメンテーション(LiTS)など、様々なタスクにおいて自己監督されたフレームワークを超越し、時にはアノテーションを限定した大きなマージンでそれらを上回る。

Recent advances in self-supervised learning (SSL) in computer vision are primarily comparative, whose goal is to preserve invariant and discriminative semantics in latent representations by comparing siamese image views. However, the preserved high-level semantics do not contain enough local information, which is vital in medical image analysis (e.g., image-based diagnosis and tumor segmentation). To mitigate the locality problem of comparative SSL, we propose to incorporate the task of pixel restoration for explicitly encoding more pixel-level information into high-level semantics. We also address the preservation of scale information, a powerful tool in aiding image understanding but has not drawn much attention in SSL. The resulting framework can be formulated as a multi-task optimization problem on the feature pyramid. Specifically, we conduct multi-scale pixel restoration and siamese feature comparison in the pyramid. In addition, we propose non-skip U-Net to build the feature pyramid and develop sub-crop to replace multi-crop in 3D medical imaging. The proposed unified SSL framework (PCRLv2) surpasses its self-supervised counterparts on various tasks, including brain tumor segmentation (BraTS 2018), chest pathology identification (ChestX-ray, CheXpert), pulmonary nodule detection (LUNA), and abdominal organ segmentation (LiTS), sometimes outperforming them by large margins with limited annotations.
翻訳日:2023-01-03 14:16:22 公開日:2023-01-02
# g-ceals: 表データ表現のためのオートエンコーダ潜在空間へのガウスクラスタ埋め込み

G-CEALS: Gaussian Cluster Embedding in Autoencoder Latent Space for Tabular Data Representation ( http://arxiv.org/abs/2301.00802v1 )

ライセンス: Link先を確認
Manar D. Samad and Sakib Abrar(参考訳) データ可視化のために提案された近傍埋め込みの概念に触発されたクラスタリングアルゴリズムとt分布埋め込みを共同学習することにより、画像データのクラスタリングのためのオートエンコーダの潜在空間が改善されている。 しかし、多変量表データでは画像データとは異なる表現学習の課題が生まれ、従来の機械学習は深層表データ学習よりも優れていることが多い。 本稿では,画像データとは対照的に表データ学習の課題に対処し,t分布を多変量ガウスクラスターに置き換え,オートエンコーダ潜在空間(g-ceals)に埋め込みた新しいガウスクラスタを提案する。 現在の手法とは異なり、提案手法は表現学習において任意のクラスタリングアルゴリズムに対応するため、ガウス埋め込みと対象クラスタ分布を独立に定義する。 トレーニングされたG-CEALSモデルは、見えないテストデータに対する品質埋め込みを抽出する。 埋め込みクラスタリングの精度に基づき,提案手法の平均ランクは1.4 (0.7)であり,全8基クラスタリング法と7つの表付きデータセット上のクラスタ埋め込み法より優れている。 本稿では,ダウンストリームクラスタリングにおける多変量表データ表現を改善するために,組込みとクラスタリングを共同で学習する最初のアルゴリズムの1つを示す。

The latent space of autoencoders has been improved for clustering image data by jointly learning a t-distributed embedding with a clustering algorithm inspired by the neighborhood embedding concept proposed for data visualization. However, multivariate tabular data pose different challenges in representation learning than image data, where traditional machine learning is often superior to deep tabular data learning. In this paper, we address the challenges of learning tabular data in contrast to image data and present a novel Gaussian Cluster Embedding in Autoencoder Latent Space (G-CEALS) algorithm by replacing t-distributions with multivariate Gaussian clusters. Unlike current methods, the proposed approach independently defines the Gaussian embedding and the target cluster distribution to accommodate any clustering algorithm in representation learning. A trained G-CEALS model extracts a quality embedding for unseen test data. Based on the embedding clustering accuracy, the average rank of the proposed G-CEALS method is 1.4 (0.7), which is superior to all eight baseline clustering and cluster embedding methods on seven tabular data sets. This paper shows one of the first algorithms to jointly learn embedding and clustering to improve multivariate tabular data representation in downstream clustering.
翻訳日:2023-01-03 14:08:08 公開日:2023-01-02
# 後方崩壊と潜在変数非識別性

Posterior Collapse and Latent Variable Non-identifiability ( http://arxiv.org/abs/2301.00537v1 )

ライセンス: Link先を確認
Yixin Wang, David M. Blei, John P. Cunningham(参考訳) 変動オートエンコーダは、ニューラルネットワークによってパラメトリ化された柔軟な分布を通してマッピングされる低次元の潜在変数を肯定することで高次元データをモデル化する。 不運なことに、変分オートエンコーダはしばしば後方崩壊に苦しみ、潜在変数の後方は前と等しいため、変分オートエンコーダは有意義な表現を生成する手段として役に立たない。 後方崩壊に対する既存のアプローチは、ニューラルネットワークの使用や、変分近似による最適化の問題に起因することが多い。 本稿では,後方崩壊を潜在変数非識別可能性の問題として捉える。 後続変数が生成モデルで識別できない場合にのみ、後続変数が崩壊することを証明する。 この事実は、後方崩壊がフレキシブル分布や近似推論の使用に特有の現象ではないことを示唆している。 むしろ、我々が示すような正確な推論であっても、古典的な確率モデルで起こりうる。 これらの結果に基づき,可逆同定型変分オートエンコーダのクラスと,柔軟性を犠牲にすることなく識別性を強制する深層生成モデルを提案する。 このモデルクラスは、単射ブレニエ写像を利用して、特別な変分推論目的や最適化のトリックを伴わずに、入力凸ニューラルネットワークでそれらをパラメータ化することで、潜時変数の非識別性の問題を解決する。 合成および実データ全体にわたって、潜在識別可能な変分オートエンコーダは、後方崩壊を緩和し、データの有意義な表現を提供する既存の方法より優れている。

Variational autoencoders model high-dimensional data by positing low-dimensional latent variables that are mapped through a flexible distribution parametrized by a neural network. Unfortunately, variational autoencoders often suffer from posterior collapse: the posterior of the latent variables is equal to its prior, rendering the variational autoencoder useless as a means to produce meaningful representations. Existing approaches to posterior collapse often attribute it to the use of neural networks or optimization issues due to variational approximation. In this paper, we consider posterior collapse as a problem of latent variable non-identifiability. We prove that the posterior collapses if and only if the latent variables are non-identifiable in the generative model. This fact implies that posterior collapse is not a phenomenon specific to the use of flexible distributions or approximate inference. Rather, it can occur in classical probabilistic models even with exact inference, which we also demonstrate. Based on these results, we propose a class of latent-identifiable variational autoencoders, deep generative models which enforce identifiability without sacrificing flexibility. This model class resolves the problem of latent variable non-identifiability by leveraging bijective Brenier maps and parameterizing them with input convex neural networks, without special variational inference objectives or optimization tricks. Across synthetic and real datasets, latent-identifiable variational autoencoders outperform existing methods in mitigating posterior collapse and providing meaningful representations of the data.
翻訳日:2023-01-03 14:07:29 公開日:2023-01-02
# 因果推論(C-inf)-閉形式最悪の場合の典型的な相転移

Causal Inference (C-inf) -- closed form worst case typical phase transitions ( http://arxiv.org/abs/2301.00793v1 )

ライセンス: Link先を確認
Agostino Capponi, Mihailo Stojnic(参考訳) 本稿では,因果推論(C-inf)と低ランク回復(LRR)の数学的に厳密な関係を確立する。 我々は[46,48,50]で開発されたランダム双対理論(RDT)の概念と自由確率論に関連する新しい数学的戦略を用いて、正確な典型的(かつ達成可能な)最悪のケースフェーズ遷移(PT)を得る。 これらのPTは、LRRによる因果推論が可能なシナリオを、そうでないシナリオと正確に分離する。 我々は,PT現象の理論的予測を裏付ける数値実験で数学的解析を補足し,さらに,比較的小さな試料サイズによく一致することを示す。 対象のc-inf行列の低ランク性と処理時間との直接関係を強調する,結果のptsに対する簡単な閉形式表現を得る。 したがって、我々の結果はC-infの典型的な適用範囲を決定するために利用できる。

In this paper we establish a mathematically rigorous connection between Causal inference (C-inf) and the low-rank recovery (LRR). Using Random Duality Theory (RDT) concepts developed in [46,48,50] and novel mathematical strategies related to free probability theory, we obtain the exact explicit typical (and achievable) worst case phase transitions (PT). These PT precisely separate scenarios where causal inference via LRR is possible from those where it is not. We supplement our mathematical analysis with numerical experiments that confirm the theoretical predictions of PT phenomena, and further show that the two closely match for fairly small sample sizes. We obtain simple closed form representations for the resulting PTs, which highlight direct relations between the low rankness of the target C-inf matrix and the time of the treatment. Hence, our results can be used to determine the range of C-inf's typical applicability.
翻訳日:2023-01-03 14:07:04 公開日:2023-01-02
# 単語埋め込みに基づくジェンダーバイアスメトリクスの周波数に対する望ましくない依存性

The Undesirable Dependence on Frequency of Gender Bias Metrics Based on Word Embeddings ( http://arxiv.org/abs/2301.00792v1 )

ライセンス: Link先を確認
Francisco Valentini, Germ\'an Rosati, Diego Fernandez Slezak, Edgar Altszyler(参考訳) 多くの研究が単語埋め込みに基づくメトリクスを使用して、テキストの社会的バイアスやステレオタイプを定量化している。 最近の研究では、単語埋め込みは意味的類似性を捉えることができるが、単語の頻度に影響される可能性がある。 本研究では, 単語埋め込みに基づくバイアス定量化手法を用いて, 男女差の測定における周波数の影響について検討した。 否定的なサンプリングと手袋を持つスキップグラムは、高頻度の単語では男性バイアスを検知する傾向があり、低頻度の単語では女性バイアスを返しがちである。 単語がランダムにシャッフルされる場合、これらの振る舞いは依然として存在する。 これは、非シャッフルコーパスで観察される周波数ベースの効果が、単語の関連ではなく、計量の性質に由来することを証明している。 バイアスの指標は単語の共起にのみ依存するべきであり、個々の単語頻度には依存しない。 最後に,これらの結果と,ポイントワイズ相互情報に基づく代替指標との比較を行った。 この測定値は,全周波数にわたって男性偏差に対してわずかに偏りがあるにもかかわらず,周波数依存性が明らかでないことがわかった。

Numerous works use word embedding-based metrics to quantify societal biases and stereotypes in texts. Recent studies have found that word embeddings can capture semantic similarity but may be affected by word frequency. In this work we study the effect of frequency when measuring female vs. male gender bias with word embedding-based bias quantification methods. We find that Skip-gram with negative sampling and GloVe tend to detect male bias in high frequency words, while GloVe tends to return female bias in low frequency words. We show these behaviors still exist when words are randomly shuffled. This proves that the frequency-based effect observed in unshuffled corpora stems from properties of the metric rather than from word associations. The effect is spurious and problematic since bias metrics should depend exclusively on word co-occurrences and not individual word frequencies. Finally, we compare these results with the ones obtained with an alternative metric based on Pointwise Mutual Information. We find that this metric does not show a clear dependence on frequency, even though it is slightly skewed towards male bias across all frequencies.
翻訳日:2023-01-03 14:00:29 公開日:2023-01-02
# 非対称性標識DAGの学習と解釈--COVID-19の恐怖を事例として

Learning and interpreting asymmetry-labeled DAGs: a case study on COVID-19 fear ( http://arxiv.org/abs/2301.00629v1 )

ライセンス: Link先を確認
Manuele Leonelli and Gherardo Varando(参考訳) ベイズネットワークは離散変数の依存構造を学習し、推論するために広く使われている。 しかし、それらは対称条件付き独立性を形式的にエンコードするだけであり、実際には保持するには厳格すぎることが多い。 非対称性ラベル付きDAGは、独立性の対称仮定を緩和し、興味のある変数の間に存在する依存のタイプを示すことによってベイズネットワークのクラスを拡張することが最近提案されている。 ここでは、このモデルのクラスに対する新しい構造学習アルゴリズムについて紹介する。 包括的計算研究はアルゴリズムの効率を強調する。 イタリアで収集されたcovid-19スケールの恐れのデータを使用した現実世界のデータアプリケーションは、実際の使用例を示している。

Bayesian networks are widely used to learn and reason about the dependence structure of discrete variables. However, they are only capable of formally encoding symmetric conditional independence, which in practice is often too strict to hold. Asymmetry-labeled DAGs have been recently proposed to both extend the class of Bayesian networks by relaxing the symmetric assumption of independence and denote the type of dependence existing between the variables of interest. Here, we introduce novel structural learning algorithms for this class of models which, whilst being efficient, allow for a straightforward interpretation of the underlying dependence structure. A comprehensive computational study highlights the efficiency of the algorithms. A real-world data application using data from the Fear of COVID-19 Scale collected in Italy showcases their use in practice.
翻訳日:2023-01-03 14:00:12 公開日:2023-01-02
# タスク固有のシーン構造表現

Task-specific Scene Structure Representations ( http://arxiv.org/abs/2301.00555v1 )

ライセンス: Link先を確認
Jisu Shin, Seunghyun Shin and Hae-Gon Jeon(参考訳) 低レベルの視覚タスクには,シーンの情報構造を理解することが不可欠である。 残念ながら、視覚特徴の影響がタスク固有のため、情報構造を具体的に視覚的に定義することは困難である。 本稿では,シーンのタスク固有の構造ガイダンスを抽出する単一汎用ニューラルネットワークアーキテクチャを提案する。 そこで我々はまず,固有ベクトルの集合を計算し,画像領域上の小さなコンパクトな構造を形成するセグメントグラフをモデル化する,従来のスペクトルクラスタリング手法を解析する。 次に、タスク固有の情報構造を表現するために、従来のグラフ分割問題を学習可能なネットワーク、 \textit{scene structure guidance network (ssgnet) に展開する。 SSGNetは、画像構造の明示的な特徴表現を生成する固有ベクトルの一連の係数を生成する。 さらに、当社のSSGNetは軽量($55K)で、オフザシェルフアーキテクチャのプラグイン・アンド・プレイモジュールとして使用することができます。 訓練中にタスク固有のシーン構造生成を強制する2つの新しいトレーニング損失を提案することにより、監督なしでssgnetを最適化する。 我々の主な貢献は、ジョイントアップサンプリングやイメージデノーミングを含むいくつかの低レベル視覚アプリケーションに対して、そのような単純なネットワークが最先端の成果を得られることを示すことである。 また、我々のSSGNetは構造的な埋め込みフレームワークを使用する既存の手法と比較して、目に見えないデータセットをうまく一般化しています。 ソースコードはhttps://github.com/jsshin98/ssgnetで入手できます。

Understanding the informative structures of scenes is essential for low-level vision tasks. Unfortunately, it is difficult to obtain a concrete visual definition of the informative structures because influences of visual features are task-specific. In this paper, we propose a single general neural network architecture for extracting task-specific structure guidance for scenes. To do this, we first analyze traditional spectral clustering methods, which computes a set of eigenvectors to model a segmented graph forming small compact structures on image domains. We then unfold the traditional graph-partitioning problem into a learnable network, named \textit{Scene Structure Guidance Network (SSGNet)}, to represent the task-specific informative structures. The SSGNet yields a set of coefficients of eigenvectors that produces explicit feature representations of image structures. In addition, our SSGNet is light-weight ($\sim$ 55K parameters), and can be used as a plug-and-play module for off-the-shelf architectures. We optimize the SSGNet without any supervision by proposing two novel training losses that enforce task-specific scene structure generation during training. Our main contribution is to show that such a simple network can achieve state-of-the-art results for several low-level vision applications including joint upsampling and image denoising. We also demonstrate that our SSGNet generalizes well on unseen datasets, compared to existing methods which use structural embedding frameworks. Our source codes are available at https://github.com/jsshin98/SSGNet.
翻訳日:2023-01-03 13:59:24 公開日:2023-01-02
# 空中デュアルビュー画像における証拠融合を用いたクレディブルリモートセンシングシーン分類

Credible Remote Sensing Scene Classification Using Evidential Fusion on Aerial-Ground Dual-view Images ( http://arxiv.org/abs/2301.00622v1 )

ライセンス: Link先を確認
Kun Zhao, Qian Gao, Siyuan Hao, Jie Sun, Lijian Zhou(参考訳) 単一のビューからのデータよりも包括的な情報を提供できるため、マルチビュー(マルチソース、マルチモーダル、マルチパースペクティブなど)データはリモートセンシングタスクでより頻繁に使用される。 しかし、ビューの数が増えるにつれて、データ品質の問題がより明らかになり、マルチビューデータの潜在的な利点が制限される。 最近のディープニューラルネットワーク(DNN)ベースのモデルでは、データの重みを適応的に学習することができるが、融合時に各ビューのデータ品質を明示的に定量化するための研究の欠如により、これらのモデルが説明不能になり、下流のリモートセンシングタスクでは不満足で柔軟性に欠ける。 このギャップを埋めるために, 各ビューの信頼性をモデル化するために, 地上2視点リモートセンシングシーン分類の課題に対して, 明らかな深層学習を導入する。 具体的には、各視点の意思決定リスクを記述する不確実性値を計算するために証拠理論を用いる。 この不確実性に基づいて、リスクの低い視点がより重みを得られることを保証するために、新たな意思決定レベルの融合戦略が提案されている。 航空地対地リモートセンシング画像の2つのよく知られた公開データセットで、提案されたアプローチは最先端の成果を達成し、その効果を示している。 この記事のコードとデータセットは以下のアドレスで利用可能である。

Due to their ability to offer more comprehensive information than data from a single view, multi-view (multi-source, multi-modal, multi-perspective, etc.) data are being used more frequently in remote sensing tasks. However, as the number of views grows, the issue of data quality becomes more apparent, limiting the potential benefits of multi-view data. Although recent deep neural network (DNN) based models can learn the weight of data adaptively, a lack of research on explicitly quantifying the data quality of each view when fusing them renders these models inexplicable, performing unsatisfactorily and inflexible in downstream remote sensing tasks. To fill this gap, in this paper, evidential deep learning is introduced to the task of aerial-ground dual-view remote sensing scene classification to model the credibility of each view. Specifically, the theory of evidence is used to calculate an uncertainty value which describes the decision-making risk of each view. Based on this uncertainty, a novel decision-level fusion strategy is proposed to ensure that the view with lower risk obtains more weight, making the classification more credible. On two well-known, publicly available datasets of aerial-ground dual-view remote sensing images, the proposed approach achieves state-of-the-art results, demonstrating its effectiveness. The code and datasets of this article are available at the following address: https://github.com/gaopiaoliang/Evidential.
翻訳日:2023-01-03 13:59:01 公開日:2023-01-02
# Alipayにおけるユーザ次のインテント予測のための概念知識グラフ

A Concept Knowledge Graph for User Next Intent Prediction at Alipay ( http://arxiv.org/abs/2301.00503v1 )

ライセンス: Link先を確認
Yacheng He, Qianghuai Jia, Lin Yuan, Ruopeng Li, Yixin Ou, Ningyu Zhang(参考訳) 本稿では,概念知識グラフを用いたユーザ次の意図予測技術について述べる。 このシステムはAlipayのWeb上に展開され、1日当たり1億人以上のアクティブユーザーを提供している。 具体的には,AlipayKGを提案する。これはライフサービスドメインにおけるオフラインの概念知識グラフであり,ユーザの履歴行動,ユーザによってインタラクションされるリッチコンテンツ,ユーザ間の関係をモデル化する。 さらに、知識グラフから専門家ルールを統合してオンラインユーザの次の意図を推測するトランスフォーマティブベースモデルについても紹介する。 実験の結果,提案手法は説明可能性を維持しつつ,下流タスクの性能を効果的に向上できることがわかった。

This paper illustrates the technologies of user next intent prediction with a concept knowledge graph. The system has been deployed on the Web at Alipay, serving more than 100 million daily active users. Specifically, we propose AlipayKG to explicitly characterize user intent, which is an offline concept knowledge graph in the Life-Service domain modeling the historical behaviors of users, the rich content interacted by users and the relations between them. We further introduce a Transformer-based model which integrates expert rules from the knowledge graph to infer the online user's next intent. Experimental results demonstrate that the proposed system can effectively enhance the performance of the downstream tasks while retaining explainability.
翻訳日:2023-01-03 13:51:38 公開日:2023-01-02
# ミリ波通信のためのポイントクラウドに基づくプロアクティブリンク品質予測

Point Cloud-based Proactive Link Quality Prediction for Millimeter-wave Communications ( http://arxiv.org/abs/2301.00752v1 )

ライセンス: Link先を確認
Shoki Ohta, Takayuki Nishio, Riichi Kudo, Kahoko Takahashi, Hisashi Nagata(参考訳) 本研究では,ミリ波通信におけるポイントクラウドに基づくリンク品質予測の実現可能性を示す。 深度画像の時系列から機械学習を用いて将来の受信信号強度を定量的かつ決定的に予測し、mWave通信における人体視線(LOS)経路遮断を緩和する画像ベース手法が提案されている。 しかし、カメラ画像はプライベート情報を含む可能性があるため、適用環境では画像ベースの手法が限られている。 そこで本研究では,mmWaveリンク品質予測のための光検出・測光(LiDAR)から得られる点雲の有用性を示す。 点雲は3次元(3d)空間を点の集合として表現し、カメラ画像よりもセンシティブな情報を含まない。 さらに点雲は3次元位置と運動情報を提供し、歩行者を含む電波伝搬環境を理解するのに必要である。 本研究は,mmWaveリンク品質予測法を設計し,LiDARと深度カメラの異なる種類の点雲と,リンク品質,受信信号強度,スループットの異なる数値指標を用いて2つの実験評価を行った。 これらの実験に基づき,提案手法は人体によるロスブロックによるmmwaveリンク品質の将来の大きな減衰を予測できるため,ポイントクラウドベースの手法が画像ベース手法の代替となりうる。

This study demonstrates the feasibility of point cloud-based proactive link quality prediction for millimeter-wave (mmWave) communications. Image-based methods to quantitatively and deterministically predict future received signal strength using machine learning from time series of depth images to mitigate the human body line-of-sight (LOS) path blockage in mmWave communications have been proposed. However, image-based methods have been limited in applicable environments because camera images may contain private information. Thus, this study demonstrates the feasibility of using point clouds obtained from light detection and ranging (LiDAR) for the mmWave link quality prediction. Point clouds represent three-dimensional (3D) spaces as a set of points and are sparser and less likely to contain sensitive information than camera images. Additionally, point clouds provide 3D position and motion information, which is necessary for understanding the radio propagation environment involving pedestrians. This study designs the mmWave link quality prediction method and conducts two experimental evaluations using different types of point clouds obtained from LiDAR and depth cameras, as well as different numerical indicators of link quality, received signal strength and throughput. Based on these experiments, our proposed method can predict future large attenuation of mmWave link quality due to LOS blockage by human bodies, therefore our point cloud-based method can be an alternative to image-based methods.
翻訳日:2023-01-03 13:51:26 公開日:2023-01-02
# 単語の代わりに意味を使って話題を追跡する

Using meaning instead of words to track topics ( http://arxiv.org/abs/2301.00565v1 )

ライセンス: Link先を確認
Judicael Poumay, Ashwin Ittoo(参考訳) 時間とともにトピックの進化を監視する能力は、ビジネスにとって非常に価値がある。 現在、既存のトピック追跡手法はすべて、単語の使用法をマッチングして語彙情報を使用する。 しかし、トピックを追跡するために意味情報を使うことを実験した研究はない。 そこで本研究では,単語埋め込みを用いた意味論的手法を提案する。 その結果,トピック追跡に対する意味論的アプローチは語彙的アプローチと同等であるが,異なる誤りを犯すことが示されている。 これはどちらの方法も互いに補完する可能性があることを示唆する。

The ability to monitor the evolution of topics over time is extremely valuable for businesses. Currently, all existing topic tracking methods use lexical information by matching word usage. However, no studies has ever experimented with the use of semantic information for tracking topics. Hence, we explore a novel semantic-based method using word embeddings. Our results show that a semantic-based approach to topic tracking is on par with the lexical approach but makes different mistakes. This suggest that both methods may complement each other.
翻訳日:2023-01-03 13:48:44 公開日:2023-01-02
# セマンティックスケールの不均衡に夢中になる

Delving into Semantic Scale Imbalance ( http://arxiv.org/abs/2212.14613v2 )

ライセンス: Link先を確認
Yanbiao Ma, Licheng Jiao, Fang Liu, Yuxin Li, Shuyuan Yang, Xu Liu(参考訳) ロングテールデータによって引き起こされるモデルバイアスは広く研究されている。 しかし、サンプル数に基づく尺度では、(1)十分なデータが与えられた場合、分類性能の向上は、追加のサンプルで限界となるという3つの現象を同時に説明することはできない。 2)データ不足時にトレーニングサンプル数が減少するにつれて,分類性能は急激に低下する。 (3) サンプルバランスデータセットでトレーニングされたモデルでは,クラスによってバイアスが異なる。 本研究では,クラスの特徴的多様性を測定するために使用されるクラスの意味的スケールを定義し,定量化する。 最初の2つの現象を完全に記述したセマンティックスケールの限界効果があることを実験的に発見するのはエキサイティングである。 さらに, サンプルバランスデータにおいても, 複数のデータセットのモデルバイアスを正確に反映し, クラスバランス研究の新しい視点を明らかにする意味尺度の不均衡の定量的測定を提案する。 意味的スケールの不均衡が普及していることから,一般的な損失改善スキームや,反復中に意味的スケールをリアルタイムで計算することの難しさを克服した動的再重み付けトレーニングフレームワークなど,意味的スケールバランス学習を提案する。 総合的な実験により、動的セマンティック・スケール・バランス・ラーニングにより、モデルは大規模で長い尾と長い尾の無い自然および医学的なデータセットにおいて、常に優れた性能を発揮することが示される。

Model bias triggered by long-tailed data has been widely studied. However, measure based on the number of samples cannot explicate three phenomena simultaneously: (1) Given enough data, the classification performance gain is marginal with additional samples. (2) Classification performance decays precipitously as the number of training samples decreases when there is insufficient data. (3) Model trained on sample-balanced datasets still has different biases for different classes. In this work, we define and quantify the semantic scale of classes, which is used to measure the feature diversity of classes. It is exciting to find experimentally that there is a marginal effect of semantic scale, which perfectly describes the first two phenomena. Further, the quantitative measurement of semantic scale imbalance is proposed, which can accurately reflect model bias on multiple datasets, even on sample-balanced data, revealing a novel perspective for the study of class imbalance. Due to the prevalence of semantic scale imbalance, we propose semantic-scale-balanced learning, including a general loss improvement scheme and a dynamic re-weighting training framework that overcomes the challenge of calculating semantic scales in real-time during iterations. Comprehensive experiments show that dynamic semantic-scale-balanced learning consistently enables the model to perform superiorly on large-scale long-tailed and non-long-tailed natural and medical datasets, which is a good starting point for mitigating the prevalent but unnoticed model bias.
翻訳日:2023-01-03 13:42:41 公開日:2023-01-02
# Argoverse 2: 自己認識と予測のための次世代データセット

Argoverse 2: Next Generation Datasets for Self-Driving Perception and Forecasting ( http://arxiv.org/abs/2301.00493v1 )

ライセンス: Link先を確認
Benjamin Wilson, William Qi, Tanmay Agarwal, John Lambert, Jagjeet Singh, Siddhesh Khandelwal, Bowen Pan, Ratnesh Kumar, Andrew Hartnett, Jhony Kaesemodel Pontes, Deva Ramanan, Peter Carr, James Hays(参考訳) Argoverse 2 (AV2) - 自動運転分野の研究の知覚と予測のための3つのデータセットのコレクション。 注釈付きSensor Datasetは、1000のマルチモーダルデータのシーケンスを含み、7つのリングカメラからの高解像度画像と2つのステレオカメラに加えて、ライダーポイント雲と6-DOFマップアライメントのポーズを含んでいる。 シーケンスには26のオブジェクトカテゴリに対する3次元立方体アノテーションが含まれており、これらはすべて3次元知覚モデルのトレーニングと評価を支援するのに十分なサンプルである。 Lidar Datasetには、ラベルなしのLidar点雲とマップ整列ポーズの2万のシーケンスが含まれている。 このデータセットはライダーセンサデータの史上最大のコレクションであり、自己教師付き学習とポイントクラウド予測の新たなタスクをサポートする。 最後に、モーション予測データセットには25万のシナリオが含まれており、各ローカルシーンにおける自動運転車と他のアクターとの興味深い、挑戦的なインタラクションのために掘り起こされている。 モデルは、各シナリオにおける「装飾されたアクター」の将来の動きを予測し、オブジェクトの位置、方向、速度、カテゴリーをキャプチャするトラック履歴を提供する。 3つのデータセットすべてにおいて、それぞれのシナリオには3dレーンと横断歩道ジオメトリを備えた独自のhdマップが含まれている。 これらのデータセットは、既存のデータセットが行なわない方法で、新しい機械学習研究の問題をサポートすると信じています。 すべてのデータセットはCC BY-NC-SA 4.0ライセンスでリリースされている。

We introduce Argoverse 2 (AV2) - a collection of three datasets for perception and forecasting research in the self-driving domain. The annotated Sensor Dataset contains 1,000 sequences of multimodal data, encompassing high-resolution imagery from seven ring cameras, and two stereo cameras in addition to lidar point clouds, and 6-DOF map-aligned pose. Sequences contain 3D cuboid annotations for 26 object categories, all of which are sufficiently-sampled to support training and evaluation of 3D perception models. The Lidar Dataset contains 20,000 sequences of unlabeled lidar point clouds and map-aligned pose. This dataset is the largest ever collection of lidar sensor data and supports self-supervised learning and the emerging task of point cloud forecasting. Finally, the Motion Forecasting Dataset contains 250,000 scenarios mined for interesting and challenging interactions between the autonomous vehicle and other actors in each local scene. Models are tasked with the prediction of future motion for "scored actors" in each scenario and are provided with track histories that capture object location, heading, velocity, and category. In all three datasets, each scenario contains its own HD Map with 3D lane and crosswalk geometry - sourced from data captured in six distinct cities. We believe these datasets will support new and existing machine learning research problems in ways that existing datasets do not. All datasets are released under the CC BY-NC-SA 4.0 license.
翻訳日:2023-01-03 13:40:36 公開日:2023-01-02
# 野生魚集団における個体再同定のための対比学習アプローチ

A contrastive learning approach for individual re-identification in a wild fish population ( http://arxiv.org/abs/2301.00596v1 )

ライセンス: Link先を確認
{\O}rjan Lang{\o}y Olsen and Tonje Knutsen S{\o}rdalen and Morten Goodwin and Ketil Malde and Kristian Muri Knausg{\aa}rd and Kim Tallaksen Halvorsen(参考訳) 地球と海洋の両方の生態学において、物理的タグ付けは人口動態と行動を研究するためによく用いられる方法である。 しかし,このようなタグ付け技術は,画像解析による個別再同定に置き換えられつつある。 本稿では,個人識別のための対比学習に基づくモデルを提案する。 モデルでは、プロジェクションヘッドがサポートしているインセプションv3ネットワークの最初の部分を使用し、コントラスト学習を用いて、一様写真のコレクションから類似画像や異種画像のペアを見つける。 本手法を,生態学的および商業的に重要な魚種であるSymphodus melopsに応用した。 写真は野生の個体群からの同じ個体の反復捕獲中に撮影され、個々の観察間隔は数日から数年に及ぶ可能性がある。 モデルでは,1ショット精度0.35,5ショット精度0.56,100ショット精度0.88を実現している。

In both terrestrial and marine ecology, physical tagging is a frequently used method to study population dynamics and behavior. However, such tagging techniques are increasingly being replaced by individual re-identification using image analysis. This paper introduces a contrastive learning-based model for identifying individuals. The model uses the first parts of the Inception v3 network, supported by a projection head, and we use contrastive learning to find similar or dissimilar image pairs from a collection of uniform photographs. We apply this technique for corkwing wrasse, Symphodus melops, an ecologically and commercially important fish species. Photos are taken during repeated catches of the same individuals from a wild population, where the intervals between individual sightings might range from a few days to several years. Our model achieves a one-shot accuracy of 0.35, a 5-shot accuracy of 0.56, and a 100-shot accuracy of 0.88, on our dataset.
翻訳日:2023-01-03 13:40:14 公開日:2023-01-02
# Muse: マスケ生成変換器によるテキスト対画像生成

Muse: Text-To-Image Generation via Masked Generative Transformers ( http://arxiv.org/abs/2301.00704v1 )

ライセンス: Link先を確認
Huiwen Chang, Han Zhang, Jarred Barber, AJ Maschinot, Jose Lezama, Lu Jiang, Ming-Hsuan Yang, Kevin Murphy, William T. Freeman, Michael Rubinstein, Yuanzhen Li, Dilip Krishnan(参考訳) 本稿では,画像変換モデルであるmuseについて述べる。画像生成性能は拡散モデルや自己回帰モデルよりも大幅に優れている。 事前訓練された大きな言語モデル(LLM)から抽出されたテキスト埋め込みを考慮すれば、Museはランダムにマスクされた画像トークンを予測するために訓練される。 Imagen や DALL-E 2 のようなピクセル空間拡散モデルと比較すると、Muse は離散トークンの使用とサンプリング反復の少ないため、はるかに効率的である。 事前訓練されたLLMを使用することで、高忠実度画像生成への変換や、オブジェクトや空間関係、ポーズ、濃度などの視覚概念の理解といった、きめ細かい言語理解が可能になる。 我々の900Mパラメータモデルは、CC3M上で新しいSOTAを達成し、FIDスコアは6.06である。 Muse 3Bパラメータモデルは、ゼロショットCOCO評価のFIDが7.88、CLIPスコアが0.32である。 museはまた、モデルを微調整したり反転させたりする必要なしに、多くの画像編集アプリケーションを直接可能にしている。 詳細はhttps://muse-model.github.ioで確認できる。

We present Muse, a text-to-image Transformer model that achieves state-of-the-art image generation performance while being significantly more efficient than diffusion or autoregressive models. Muse is trained on a masked modeling task in discrete token space: given the text embedding extracted from a pre-trained large language model (LLM), Muse is trained to predict randomly masked image tokens. Compared to pixel-space diffusion models, such as Imagen and DALL-E 2, Muse is significantly more efficient due to the use of discrete tokens and requiring fewer sampling iterations; compared to autoregressive models, such as Parti, Muse is more efficient due to the use of parallel decoding. The use of a pre-trained LLM enables fine-grained language understanding, translating to high-fidelity image generation and the understanding of visual concepts such as objects, their spatial relationships, pose, cardinality etc. Our 900M parameter model achieves a new SOTA on CC3M, with an FID score of 6.06. The Muse 3B parameter model achieves an FID of 7.88 on zero-shot COCO evaluation, along with a CLIP score of 0.32. Muse also directly enables a number of image editing applications without the need to fine-tune or invert the model: inpainting, outpainting, and mask-free editing. More results are available at https://muse-model.github.io
翻訳日:2023-01-03 13:40:00 公開日:2023-01-02
# 動的モジュール型およびスパース型汎用学習

Dynamically Modular and Sparse General Continual Learning ( http://arxiv.org/abs/2301.00620v1 )

ライセンス: Link先を確認
Arnav Varma, Elahe Arani and Bahram Zonooz(参考訳) 現実世界のアプリケーションは、常に変化する条件下でデータのストリームから継続的に学習する必要があることが多い。 このような静止しないデータから学習しようとすると、ディープニューラルネットワーク(DNN)は、以前に学習した情報を破滅的に忘れてしまう。 破滅的な忘れ方を避ける一般的なアプローチの中で、リハーサルベースの方法が有効であることが証明されている。 しかしながら、すべてのパラメータがすべてのタスクに応答するため、タスク干渉のため忘れやすい。 これに対抗するために、脳内のスパースコーディングからインスピレーションを得て、リハーサルベースの一般的な連続学習のために動的モジュール性とスパース性(dynamos)を導入します。 この設定では、DNNはニューロンの関連するサブセットを活性化することで刺激に反応することを学ぶ。 連続学習評価プロトコルにおける複数のデータセットに対するダイナモスの有効性を実証する。 最後に,刺激の類似性に対応する重なりを持つ神経細胞の部分集合を活性化し,再利用性を維持しつつ,モジュラーで特殊な表現を学習することを示す。

Real-world applications often require learning continuously from a stream of data under ever-changing conditions. When trying to learn from such non-stationary data, deep neural networks (DNNs) undergo catastrophic forgetting of previously learned information. Among the common approaches to avoid catastrophic forgetting, rehearsal-based methods have proven effective. However, they are still prone to forgetting due to task-interference as all parameters respond to all tasks. To counter this, we take inspiration from sparse coding in the brain and introduce dynamic modularity and sparsity (Dynamos) for rehearsal-based general continual learning. In this setup, the DNN learns to respond to stimuli by activating relevant subsets of neurons. We demonstrate the effectiveness of Dynamos on multiple datasets under challenging continual learning evaluation protocols. Finally, we show that our method learns representations that are modular and specialized, while maintaining reusability by activating subsets of neurons with overlaps corresponding to the similarity of stimuli.
翻訳日:2023-01-03 13:33:30 公開日:2023-01-02
# Tsetlin Machine Embedding:論理式を用いた単語表現

Tsetlin Machine Embedding: Representing Words Using Logical Expressions ( http://arxiv.org/abs/2301.00709v1 )

ライセンス: Link先を確認
Bimal Bhattarai and Ole-Christoffer Granmo and Lei Jiao and Rohan Yadav and Jivitesh Sharma(参考訳) ベクトル空間に単語を埋め込むことは、最先端自然言語処理(NLP)の基本的な第一歩である。 典型的なNLPソリューションは、ベクトル空間内で類似した単語を共配置することで一般化を改善するために定義済みのベクトル表現を用いる。 例えば、word2vecは、ニューラルネットワークを使用して単語のコンテキストをキャプチャする、自己教師付き予測モデルである。 同様に、GLoVeはコーパスワイドワード共起統計を組み込んだ教師なしの一般的なモデルである。 このような単語埋め込みは感情分析、文書分類、機械翻訳などの重要なNLPタスクを著しく向上させた。 しかし、埋め込みは密度の高い浮動小数点ベクトルであり、計算が高価で解釈が難しい。 本稿では,命題論理を用いて,単語の意味を,いくつかの定義語で表現することを提案する。 このような論理埋め込みを生成するために,Tsetlin Machineを用いた自動エンコーダを導入する。 この節は、"black"、"cup"、"hot"といった文脈的な単語からなり、"coffee"のような他の単語を定義する。 我々は,GLoVeを6つの分類タスクで上回り,いくつかの内在的および外在的ベンチマークに対する埋め込み手法の評価を行った。 さらに,学習中に得られる論理的表現を用いて,埋め込みの解釈可能性を検討する。 また、ベクトル空間内の単語クラスタを視覚化し、論理埋め込みが類似した単語を同じ場所に置く方法を示します。

Embedding words in vector space is a fundamental first step in state-of-the-art natural language processing (NLP). Typical NLP solutions employ pre-defined vector representations to improve generalization by co-locating similar words in vector space. For instance, Word2Vec is a self-supervised predictive model that captures the context of words using a neural network. Similarly, GLoVe is a popular unsupervised model incorporating corpus-wide word co-occurrence statistics. Such word embedding has significantly boosted important NLP tasks, including sentiment analysis, document classification, and machine translation. However, the embeddings are dense floating-point vectors, making them expensive to compute and difficult to interpret. In this paper, we instead propose to represent the semantics of words with a few defining words that are related using propositional logic. To produce such logical embeddings, we introduce a Tsetlin Machine-based autoencoder that learns logical clauses self-supervised. The clauses consist of contextual words like "black," "cup," and "hot" to define other words like "coffee," thus being human-understandable. We evaluate our embedding approach on several intrinsic and extrinsic benchmarks, outperforming GLoVe on six classification tasks. Furthermore, we investigate the interpretability of our embedding using the logical representations acquired during training. We also visualize word clusters in vector space, demonstrating how our logical embedding co-locate similar words.
翻訳日:2023-01-03 13:32:24 公開日:2023-01-02
# IRT2:Varyingスケールの知識グラフにおけるインダクティブリンクとランク付け

IRT2: Inductive Linking and Ranking in Knowledge Graphs of Varying Scale ( http://arxiv.org/abs/2301.00716v1 )

ライセンス: Link先を確認
Felix Hamann, Adrian Ulges, Maurice Falk(参考訳) 我々は,ラベル付きデータと分類情報が最初に不足する産業用ユースケースのためのドメイン固有知識モデルの構築という課題に対処した。 我々は,知識技術者がテキストコレクションを探索し,新たな(いわゆるオープンワールド)エンティティを知識グラフに発見・リンクする実践的ツールの基礎として,帰納的リンク予測モデルに注目している。 テキストマイニングに対するニューラルなアプローチは、過去数年間で驚くべき成果を上げてきたが、現在のベンチマークは、産業の野で遭遇した典型的な課題を適切に反映していない。 したがって,第1の貢献は irt2 (inductive reasoning with text) というオープンベンチマークであり,(1) さまざまなサイズの知識グラフ (ごく小さいものを含む) をカバーすること,(2) に付随的に低品質なテキストが言及されること,(3) トリプルコンプリートだけでなくランキングも含んでいること,など,発見課題のエキスパートを支援すること,などである。 インダクティブリンク予測のための2つのニューラルモデルを検討した。1つはエンドツーエンド学習に基づくもので、もう1つは知識グラフとテキストデータから別々のステップで学習する。 これらのモデルは、強い単語のベースラインと競合する。 その結果、利用可能なグラフデータがリンクのために減少すると、ニューラルアプローチのパフォーマンスが大幅に向上することが示された。 ランキングでは、結果は有望であり、ニューラルアプローチはスパースレトリバーよりも広いマージンで優れている。

We address the challenge of building domain-specific knowledge models for industrial use cases, where labelled data and taxonomic information is initially scarce. Our focus is on inductive link prediction models as a basis for practical tools that support knowledge engineers with exploring text collections and discovering and linking new (so-called open-world) entities to the knowledge graph. We argue that - though neural approaches to text mining have yielded impressive results in the past years - current benchmarks do not reflect the typical challenges encountered in the industrial wild properly. Therefore, our first contribution is an open benchmark coined IRT2 (inductive reasoning with text) that (1) covers knowledge graphs of varying sizes (including very small ones), (2) comes with incidental, low-quality text mentions, and (3) includes not only triple completion but also ranking, which is relevant for supporting experts with discovery tasks. We investigate two neural models for inductive link prediction, one based on end-to-end learning and one that learns from the knowledge graph and text data in separate steps. These models compete with a strong bag-of-words baseline. The results show a significant advance in performance for the neural approaches as soon as the available graph data decreases for linking. For ranking, the results are promising, and the neural approaches outperform the sparse retriever by a wide margin.
翻訳日:2023-01-03 13:31:04 公開日:2023-01-02