このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200120となっている論文です。

PDF登録状況(公開日: 20200120)

TitleAuthorsAbstract論文公表日・翻訳日
# 同一厚壁を有する導波路における共振散乱

Resonance scattering in a waveguide with identical thick barriers ( http://arxiv.org/abs/2001.07060v1 )

ライセンス: Link先を確認
A. Delitsyn and D. S. Grebenkov(参考訳) 任意の有界断面の無限導波路を横切る波動伝播は、内部が穴のある2つの同一の厚い障壁によってブロックされている。 穴が小さい場合、広い周波数の波はほとんど完全に反射される。 しかし、非常に小さな穴であっても、波がほぼ完全に伝達される共鳴周波数の存在を示す。 量子力学においてトンネル効果として知られるこの共鳴散乱は、散乱行列の複素値極の探索や非定常散乱理論のような一般的な抽象的な方法とは対照的に、より基本的なツールによって構成的に証明される。 特に共鳴周波数を決定する明示的な方程式を導出した。 使用済みの初等的な道具は、非熟練者や教育上魅力的である。

We consider wave propagation across an infinite waveguide of an arbitrary bounded cross-section, whose interior is blocked by two identical thick barriers with holes. When the holes are small, the waves over a broad range of frequencies are almost fully reflected. However, we show the existence of a resonance frequency at which the wave is almost fully transmitted, even for very small holes. This resonance scattering, which is known as tunneling effect in quantum mechanics, is demonstrated in a constructive way by rather elementary tools, in contrast to commonly used abstract methods such as searching for complex-valued poles of the scattering matrix or non-stationary scattering theory. In particular, we derived an explicit equation that determines the resonance frequency. The employed elementary tools make the paper accessible to non-experts and educationally appealing.
翻訳日:2023-06-07 06:32:10 公開日:2020-01-20
# 回転磁場と磁場の組み合わせによるカーボンナノチューブのスピン電流発生と制御

Spin current generation and control in carbon nanotubes by combining rotation and magnetic field ( http://arxiv.org/abs/2001.07024v1 )

ライセンス: Link先を確認
M\'arcio M. Cunha, Jonas R. F. Lima, Fernando Moraes, S\'ebastien Fumeron, Bertrand Berche(参考訳) 均一磁場下で回転するカーボンナノチューブにおける弾道電子の量子力学について検討した。 磁場がナノチューブ軸に平行であるとき、回転誘起電場はスピン軌道相互作用をもたらし、運動論的、慣性的、ゼーマン的な項とともに系のシュリンガー=パウリ・ハミルトニアンを構成する。 このハミルトニアンの完全な対角化は、電荷とスピン電流の計算につながる固有状態と固有エネルギーを与える。 我々の主な成果は、印加された磁場強度と回転速度を適切に組み合わせることで、一方の電流をゼロに調整し、他方の電流を有限に保ち、スピン電流発生器を発生させることである。

We study the quantum dynamics of ballistic electrons in rotating carbon nanotubes in the presence of a uniform magnetic field. When the field is parallel to the nanotube axis, the rotation-induced electric field brings about the spin-orbit interaction which, together with the kinetic, inertial, and Zeeman terms, compose the Schr\"odinger-Pauli Hamiltonian of the system. Full diagonalization of this Hamiltonian yields the eigenstates and eigenenergies leading to the calculation of the charge and spin currents. Our main result is the demonstration that, by suitably combining the applied magnetic field intensity and rotation speed, one can tune one of the currents to zero while keeping the other one finite, giving rise to a spin current generator.
翻訳日:2023-06-07 06:31:34 公開日:2020-01-20
# 単純強相関凝縮マッター系に対する一元結合クラスター変分量子固有解器の試験

Test of the unitary coupled-cluster variational quantum eigensolver for a simple strongly correlated condensed-matter system ( http://arxiv.org/abs/2001.06957v1 )

ライセンス: Link先を確認
Luogen Xu, Joseph T. Lee, and J. K. Freericks(参考訳) 変分量子固有ソルバは、今日のノイズの多い中間スケール量子コンピュータ上の強相関系を調べるために用いられる低深さ量子回路として提案されている。 本アルゴリズムのユニタリ結合クラスター変形の因子化形式に関する詳細について検討する。 非自明な振る舞いを持つ単純な強相関凝縮マターシステムに適用する。 この研究は、このアルゴリズムを実際、特に凝縮マッターシステムに適用する際に考慮すべき微妙な問題のいくつかを示している。

The variational quantum eigensolver has been proposed as a low-depth quantum circuit that can be employed to examine strongly correlated systems on today's noisy intermediate-scale quantum computers. We examine details associated with the factorized form of the unitary coupled-cluster variant of this algorithm. We apply it to a simple strongly correlated condensed-matter system with nontrivial behavior---the four-site Hubbard model at half filling. This work show some of the subtle issues one needs to take into account when applying this algorithm in practice, especially to condensed-matter systems.
翻訳日:2023-06-07 06:31:20 公開日:2020-01-20
# 古典的ハミルトン力学、量子力学および情報エントロピーの基本的な関係

The fundamental connections between classical Hamiltonian mechanics, quantum mechanics and information entropy ( http://arxiv.org/abs/2001.07206v1 )

ライセンス: Link先を確認
Gabriele Carcassi, Christine A. Aidala(参考訳) 古典システムと量子システムの主な違いは,情報エントロピーの観点から理解できることが示されている。 古典力学系は任意の精度で内部力学を知ることができるものと見なすことができ、量子系は内部力学系に全くアクセスできないものと考えることができる。 情報エントロピーは、システム全体の状態がその部分の状態をどの程度特定するかを特徴付けるのに使えるため、古典的なシステムは量子系ができない間に、任意に小さな情報エントロピーを持つことができる。 これは2つの理論の類似性と相違を理解するための洞察を与える。

We show that the main difference between classical and quantum systems can be understood in terms of information entropy. Classical systems can be considered the ones where the internal dynamics can be known with arbitrary precision while quantum systems can be considered the ones where the internal dynamics cannot be accessed at all. As information entropy can be used to characterize how much the state of the whole system identifies the state of its parts, classical systems can have arbitrarily small information entropy while quantum systems cannot. This provides insights that allow us to understand the analogies and differences between the two theories.
翻訳日:2023-06-07 06:21:11 公開日:2020-01-20
# Einstein-Podolsky-Rosen ペア付きダブルスリット

Double Slit with an Einstein-Podolsky-Rosen Pair ( http://arxiv.org/abs/2001.07168v1 )

ライセンス: Link先を確認
Bar Y. Peled, Amit Te'eni, Danko Georgiev, Avishy Carmi and Eliahu Cohen(参考訳) このやや教育的な論文では、二部量子系における相補関係を再考する。 連続変数系に着目し,ガウス状態への一般化を通じてepr様状態の影響力クラスを調べ,対称および非対称二重スリットシナリオにおける絡み合いと局所干渉の新たな定量的関係を示す。 このアプローチは、アンシラベースの量子測定と、特に弱い測定に関連している。 最後に、識別性、予測可能性、一貫性、可視性の概念を結びつけ、それらの間の特定の関係を描きます。

In this somewhat pedagogical paper we revisit complementarity relations in bipartite quantum systems. Focusing on continuous variable systems, we examine the influential class of EPR-like states through a generalization to Gaussian states and present some new quantitative relations between entanglement and local interference within symmetric and asymmetric double-double-slit scenarios. This approach is then related to ancilla-based quantum measurements, and weak measurements in particular. Finally, we tie up the notions of distinguishability, predictability, coherence and visibility while drawing some specific connections between them.
翻訳日:2023-06-07 06:20:44 公開日:2020-01-20
# 周期ポテンシャルにおける強相互作用ボソニック一次元系の量子モンテカルロ法による研究

Quantum Monte Carlo study of strongly interacting bosonic one-dimensional systems in periodic potentials ( http://arxiv.org/abs/2001.07163v1 )

ライセンス: Link先を確認
K. Dzelalija, L. Vranjes Markic(参考訳) 本稿では, 周期的外ポテンシャルにおける実粒子間相互作用を持つ1次元ボース系の拡散モンテカルロ(DMC)と経路積分モンテカルロ(PIMC)計算について述べる。 主目的は, ルッティンガー液体(ll)理論の予測, 特に, 予測されたロバストで脆弱な超流動状態において, ゼロ温度と有限温度の両方における超流動-モット絶縁体遷移について検証することである。 そこで本研究では,超流動分画$\rho_s/\rho_0$,一体密度行列,二体相関関数,静的構造因子について述べる。 DMCとPIMCは、$\rho_s/\rho_0$に対して非常に低温の限界をもたらすが、$\rho_s/\rho_0$をスケーリングするLLモデルは、データに適さない。 周期ポテンシャルの臨界深さは、相互作用のモデルが異なる超低温気体に対して得られた値に近いが、素のLLパラメータと同じ値で、LL記述の普遍性を示す。 相関関数の代数的崩壊は、モット絶縁体1の超流動状態と指数的崩壊、および特性距離より大きい距離の有限温度における全ての状態において観察される。

We present diffusion Monte Carlo (DMC) and path-integral Monte Carlo (PIMC) calculations of a one-dimensional Bose system with realistic interparticle interactions in a periodic external potential. Our main aim is to test the predictions of the Luttinger liquid (LL) theory, in particular with respect to the superfluid-Mott insulator transition at both zero and finite temperatures, in the predicted robust and fragile superfluid regimes. For that purpose, we present our results of the superfluid fraction $\rho_s/\rho_0$, the one-body density matrix, the two-body correlation functions, and the static structure factor. The DMC and PIMC results in the limit of very low temperature for $\rho_s/\rho_0$ agree, but the LL model for scaling $\rho_s/\rho_0$ does not fit the data well. The critical depth of the periodic potential is close to the values obtained for ultracold gases with different models of interaction, but with the same value of the bare LL parameter, demonstrating the universality of LL description. Algebraic decay of correlation functions is observed in the superfluid regime and exponential decay in the Mott-insulator one, as well as in all regimes at finite temperature for distances larger than a characteristic length.
翻訳日:2023-06-07 06:20:33 公開日:2020-01-20
# 安定状態の対称性と絡み合い

Symmetries and entanglement of stabilizer states ( http://arxiv.org/abs/2001.07106v1 )

ライセンス: Link先を確認
Matthias Englbrecht, Barbara Kraus(参考訳) 安定化剤状態は、量子エラー補正、測定ベースの量子計算、および量子通信において支配的な役割を果たす純粋状態の集合を構成する。 これらの応用の中心はこれらの状態の局所対称性である。 任意の安定化状態の局所対称性を特徴付け,それを決定するアルゴリズムを提供する。 本研究は,局所対称性の追加が絡み合い理論や量子誤差補正に応用できることを示すことにより,これらの結果の有用性を示す。

Stabilizer states constitute a set of pure states which plays a dominant role in quantum error correction, measurement--based quantum computation, and quantum communication. Central in these applications are the local symmetries of these states. We characterize all local symmetries of arbitrary stabilizer states and provide an algorithm which determines them. We demonstrate the usefulness of these results by showing that the additional local symmetries find applications in entanglement theory and quantum error correction.
翻訳日:2023-06-07 06:19:45 公開日:2020-01-20
# GHz帯Cバンド量子ドットを用いた時間ビン量子ビットの伝送

GHz-clocked teleportation of time-bin qubits with a telecom C-band quantum dot ( http://arxiv.org/abs/2001.07073v1 )

ライセンス: Link先を確認
M. Anderson, T. M\"uller, J. Huwer, J. Skiba-Szymanska, A. B. Krysa, R. M. Stevenson, J. Heffernan, D. A. Ritchie, and A. J. Shields(参考訳) テレポーテーションは量子力学の基本的な概念であり、量子中継ノードを介して量子通信チャネルの範囲を広げるための重要な応用である。 ファイバネットワーク上のセキュアな量子鍵分布などの現実技術と互換性を持つためには、リレーノードはGHzクロックレートで動作し、1550nmの低損失通信帯域でタイムビン符号化量子ビットを受け入れる必要がある。 InAs/InP液滴エピタキシー量子ドットの1550nm付近でのサブポアソニアン放出は,この技術の実現に最適であることを示す。 所要のオンデマンド光子放射を GHz クロックレートで生成するために, フレキシブルパルス光励起方式を開発し, 高速駆動条件が低光子放射率と互換性があることを実証した。 さらに, この駆動条件下でも, バイエクシトンカスケードから得られる光子対は, cw励起で得られた値に匹敵する90\%に近いエンタングルメント忠実度を示す。 Asymetric Mach Zehnder 干渉計と光子源を用いて、最終的に時間ビン符号化された光子を受信・送信できる時間ビン量子リレーを構築し、平均テレポーテーションフィデリティが0.82\pm0.01$であり、標準偏差が10倍近いことを実証した。

Teleportation is a fundamental concept of quantum mechanics with an important application in extending the range of quantum communication channels via quantum relay nodes. To be compatible with real-world technology such as secure quantum key distribution over fibre networks, such a relay node must operate at GHz clock rates and accept time-bin encoded qubits in the low-loss telecom band around 1550 nm. Here, we show that InAs/InP droplet epitaxy quantum dots with their sub-Poissonian emission near 1550 nm are ideally suited for the realisation of this technology. To create the necessary on-demand photon emission at GHz clock rates, we develop a flexible pulsed optical excitation scheme, and demonstrate that the fast driving conditions are compatible with a low multiphoton emission rate. We show further that, even under these driving conditions, photon pairs obtained from the biexciton cascade show an entanglement fidelity close to 90\%, comparable to the value obtained under cw excitation. Using asymetric Mach Zehnder interferometers and our photon source, we finally construct a time-bin qubit quantum relay able to receive and send time-bin encoded photons, and demonstrate mean teleportation fidelities of $0.82\pm0.01$, exceeding the classical limit by nearly 10 standard deviations.
翻訳日:2023-06-07 06:18:58 公開日:2020-01-20
# 赤外場を用いたアセチレン陽イオンの厳密な非断熱量子制御

Strictly Non-Adiabatic Quantum Control of the Acetylene Dication Using an Infrared Field ( http://arxiv.org/abs/2003.02096v1 )

ライセンス: Link先を確認
Chelsea Liekhus-Schmaltz, Xiaolei Zhu, Gregory A. McCracken, James P. Cryan, Todd Martinez, Philip H. Bucksbaum(参考訳) アセチレンの脱プロトン化において, 厳密に非断熱制御経路の存在を実証する。 この経路は、イオンの一致実験における運動エネルギーシフトを測定することによって実験的に同定される。 tdseシミュレーションを使用して、制御に最も強く影響する特性を識別します。 円錐交叉まわりの共振制御は非断熱力学の速度によって制限される。

We demonstrate the existence of a strictly non-adiabatic control pathway in deprotonation of the acetylene dication. This pathway is identified experimentally by measuring a kinetic energy shift in an ion coincidence experiment. We use a TDSE simulation to identify which properties most strongly affect our control. We find that resonant control around conical intersections is limited by the speed of non-adiabatic dynamics.
翻訳日:2023-06-07 06:10:36 公開日:2020-01-20
# ラグランジュ補間公式を用いたスピンプロジェクション演算子の導出

Derivation of Spin Projection Operator using Lagrange Interpolation Formula ( http://arxiv.org/abs/2001.08520v1 )

ライセンス: Link先を確認
M.D. Zviadadze and Zura Kakushadze(参考訳) この注記は、スピン射影作用素の明示的な形式を構成する量子力学的問題において、ラグランジュ多項式の作用素類似が自然に生じることを論じる。

This note discusses how an operator analog of the Lagrange polynomial naturally arises in the quantum-mechanical problem of constructing an explicit form of the spin projection operator.
翻訳日:2023-06-07 06:10:30 公開日:2020-01-20
# 強化学習によるフェイクニュース検出のための弱監視

Weak Supervision for Fake News Detection via Reinforcement Learning ( http://arxiv.org/abs/1912.12520v2 )

ライセンス: Link先を確認
Yaqing Wang, Weifeng Yang, Fenglong Ma, Jin Xu, Bin Zhong, Qiang Deng, Jing Gao(参考訳) 今日、ソーシャルメディアがニュースの主要な情報源となっている。 ソーシャルメディアのプラットフォームや、前例のない速さで偽ニュースを流し、世界中の聴衆にリーチし、ユーザーやコミュニティに大きなリスクを冒す。 したがって、できるだけ早く偽ニュースを検出することは極めて重要である。 近年,深層学習に基づく手法により,偽ニュース検出の性能が向上している。 しかし、そのようなモデルのトレーニングには大量のラベル付きデータが必要であるが、手動のアノテーションは時間がかかり高価である。 さらに、ニュースのダイナミックな性質から、注釈付きサンプルは急速に時代遅れになり、新たに出現したイベントのニュース記事は表現できない。 したがって、偽ニュース検出にディープラーニングモデルを用いる場合、新鮮で高品質なラベル付きサンプルを得る方法が大きな課題となる。 この課題に対処するために,ユーザからの報告を弱い監視として活用し,偽ニュース検出のためのトレーニングデータ量を増やす,弱教師付き偽ニュース検出フレームワークWeFENDを提案する。 提案するフレームワークは,アノテータ,強化セレクタ,フェイクニュース検出器の3つの主要コンポーネントから構成される。 annotatorは、ユーザのレポートに基づいて、ラベルのないニュースの弱いラベルを自動的に割り当てる。 強化学習技術を用いた強化セレクタは、弱ラベルデータから高品質のサンプルを選択し、検出器の予測性能を低下させる可能性のある低品質のサンプルをフィルタリングする。 偽ニュース検出装置は、ニュースコンテンツに基づいて偽ニュースを識別することを目的としている。 提案フレームワークをwechatの公式アカウントおよび関連ユーザレポートを通じて公開するニュース記事の大規模なコレクション上でテストした。 このデータセットの大規模な実験により、提案したWeFENDモデルが最先端の手法と比較して最高の性能を達成することが示された。

Today social media has become the primary source for news. Via social media platforms, fake news travel at unprecedented speeds, reach global audiences and put users and communities at great risk. Therefore, it is extremely important to detect fake news as early as possible. Recently, deep learning based approaches have shown improved performance in fake news detection. However, the training of such models requires a large amount of labeled data, but manual annotation is time-consuming and expensive. Moreover, due to the dynamic nature of news, annotated samples may become outdated quickly and cannot represent the news articles on newly emerged events. Therefore, how to obtain fresh and high-quality labeled samples is the major challenge in employing deep learning models for fake news detection. In order to tackle this challenge, we propose a reinforced weakly-supervised fake news detection framework, i.e., WeFEND, which can leverage users' reports as weak supervision to enlarge the amount of training data for fake news detection. The proposed framework consists of three main components: the annotator, the reinforced selector and the fake news detector. The annotator can automatically assign weak labels for unlabeled news based on users' reports. The reinforced selector using reinforcement learning techniques chooses high-quality samples from the weakly labeled data and filters out those low-quality ones that may degrade the detector's prediction performance. The fake news detector aims to identify fake news based on the news content. We tested the proposed framework on a large collection of news articles published via WeChat official accounts and associated user reports. Extensive experiments on this dataset show that the proposed WeFEND model achieves the best performance compared with the state-of-the-art methods.
翻訳日:2023-01-17 12:45:46 公開日:2020-01-20
# クラウド画像分類サービスに対する逆例の転送可能性

Transferability of Adversarial Examples to Attack Cloud-based Image Classifier Service ( http://arxiv.org/abs/2001.03460v3 )

ライセンス: Link先を確認
Dou Goodman(参考訳) 近年、Deep Learning(DL)技術はコンピュータビジョンタスク、特に視覚的分類問題に対して広範囲に展開され、新しいアルゴリズムは人間のパフォーマンスを達成または超えるように報告されている。 近年の研究では、DLモデルは敵の例に弱いことが示されている。 幸いなことに、敵対的な例を生成するには、通常、被害者モデルへのホワイトボックスアクセスが必要であり、現実のクラウドベースの画像分類サービスは、ホワイトボックス分類よりも複雑である。 攻撃者はクラウドプラットフォームで公開されているAPIにしかアクセスできない。 したがって、モデルをクラウドに保持することは、通常(偽)セキュリティの感覚を与える。 本稿では,実世界のクラウドベースの画像分類サービスのセキュリティに関する研究に焦点をあてる。 具体的には,置換モデルに基づく新しい攻撃手法FFL-PGD(Fast Featuremap Loss PGD)を提案する。 従来の研究では数百万のクエリの代わりに,画像毎に2つのクエリしか使用していない敵の例を見いだし,(2)実世界のクラウドベースの分類サービスに対するブラックボックス攻撃の広範な実証研究を初めて試みた。 Amazon, Google, Microsoft, Clarifaiの4つの人気クラウドプラットフォームの評価を通じて、FFL-PGD攻撃が、異なる分類サービスで90%以上成功していることを示す。 (3)クラウドベースの分類サービスにおいて,これらのセキュリティ課題に対処するための防御策について論じる。 我々の防衛技術は、主にモデル訓練段階と画像前処理段階に分けられる。

In recent years, Deep Learning(DL) techniques have been extensively deployed for computer vision tasks, particularly visual classification problems, where new algorithms reported to achieve or even surpass the human performance. While many recent works demonstrated that DL models are vulnerable to adversarial examples. Fortunately, generating adversarial examples usually requires white-box access to the victim model, and real-world cloud-based image classification services are more complex than white-box classifier,the architecture and parameters of DL models on cloud platforms cannot be obtained by the attacker. The attacker can only access the APIs opened by cloud platforms. Thus, keeping models in the cloud can usually give a (false) sense of security. In this paper, we mainly focus on studying the security of real-world cloud-based image classification services. Specifically, (1) We propose a novel attack method, Fast Featuremap Loss PGD (FFL-PGD) attack based on Substitution model, which achieves a high bypass rate with a very limited number of queries. Instead of millions of queries in previous studies, our method finds the adversarial examples using only two queries per image; and (2) we make the first attempt to conduct an extensive empirical study of black-box attacks against real-world cloud-based classification services. Through evaluations on four popular cloud platforms including Amazon, Google, Microsoft, Clarifai, we demonstrate that FFL-PGD attack has a success rate over 90\% among different classification services. (3) We discuss the possible defenses to address these security challenges in cloud-based classification services. Our defense technology is mainly divided into model training stage and image preprocessing stage.
翻訳日:2023-01-13 10:10:01 公開日:2020-01-20
# 知性、物理、情報 -- 機械学習における正確さと単純さのトレードオフ

Intelligence, physics and information -- the tradeoff between accuracy and simplicity in machine learning ( http://arxiv.org/abs/2001.03780v2 )

ライセンス: Link先を確認
Tailin Wu(参考訳) 機械が世界を理解でき、学習が上手になるにはどうすればいいのか? この目標を達成するために、多くの統合的な側面からインテリジェンスを眺めると同時に、タスクのパフォーマンスと複雑性の普遍的な2日間のトレードオフは、2つの実現可能な視点を提供します。 本論では,知性のいくつかの側面において,いくつかの重要な問題に対処し,物理と情報からの戦略とツールを用いて,2年間のトレードオフにおける相転移を研究する。 まず、エージェントが少ない例ですばやく学習できるように、学習モデルをより柔軟で効率的なものにするにはどうすればよいのか? 物理学者が世界をどのようにモデル化するかに触発されて、我々は、多くの小さな専門モデル(理論)とそれらが正確である領域を同時に学習するためのパラダイムとai物理学者エージェントを紹介します。 次に、表現学習では、いつ良い表現を学べるのか、学習はデータセットの構造にどのように依存するのか? 我々は、トレードオフハイパーパラメータをチューニングする際に位相遷移を研究することでこの問題にアプローチする。 情報ボトルネックでは,これらの相転移が予測可能であることを理論的に示し,データ,モデル,学習された表現,損失景観の関係構造を明らかにする。 第3に、エージェントはどうやって観察から因果性を発見できるのか? 我々は,観測時系列からの探索的因果発見のために,入力からの情報予測と最小化を組み合わせたアルゴリズムを導入することで,この問題の一部を解決した。 第4に、ノイズのラベル付けをより堅牢にするために、ノイズラベル付き分類のためのロバストなアルゴリズムであるランクプルーニングを導入する。 私の論文の成果に基づいて構築することは、世界を理解することができるよりインテリジェントなマシンを実現するための一歩になると思います。

How can we enable machines to make sense of the world, and become better at learning? To approach this goal, I believe viewing intelligence in terms of many integral aspects, and also a universal two-term tradeoff between task performance and complexity, provides two feasible perspectives. In this thesis, I address several key questions in some aspects of intelligence, and study the phase transitions in the two-term tradeoff, using strategies and tools from physics and information. Firstly, how can we make the learning models more flexible and efficient, so that agents can learn quickly with fewer examples? Inspired by how physicists model the world, we introduce a paradigm and an AI Physicist agent for simultaneously learning many small specialized models (theories) and the domain they are accurate, which can then be simplified, unified and stored, facilitating few-shot learning in a continual way. Secondly, for representation learning, when can we learn a good representation, and how does learning depend on the structure of the dataset? We approach this question by studying phase transitions when tuning the tradeoff hyperparameter. In the information bottleneck, we theoretically show that these phase transitions are predictable and reveal structure in the relationships between the data, the model, the learned representation and the loss landscape. Thirdly, how can agents discover causality from observations? We address part of this question by introducing an algorithm that combines prediction and minimizing information from the input, for exploratory causal discovery from observational time series. Fourthly, to make models more robust to label noise, we introduce Rank Pruning, a robust algorithm for classification with noisy labels. I believe that building on the work of my thesis we will be one step closer to enable more intelligent machines that can make sense of the world.
翻訳日:2023-01-12 09:37:11 公開日:2020-01-20
# CLUENER2020: 名前付きエンティティ認識データセットと中国語のベンチマーク

CLUENER2020: Fine-grained Named Entity Recognition Dataset and Benchmark for Chinese ( http://arxiv.org/abs/2001.04351v4 )

ライセンス: Link先を確認
Liang Xu, Yu tong, Qianqian Dong, Yixuan Liao, Cong Yu, Yin Tian, Weitang Liu, Lu Li, Caiquan Liu, Xuanwei Zhang(参考訳) 本稿では、中国語で名前付きエンティティ認識のための精細なデータセットであるCLUE(CLUENER2020)のNERデータセットを紹介する。 CLUENER2020には10のカテゴリがある。 人、組織、場所などの一般的なラベルとは別に、より多様なカテゴリを含んでいる。 現在の中国のNERデータセットよりも難しく、現実世界のアプリケーションをよりよく反映できる。 比較のために、シーケンスラベリングタスクとして最先端のベースラインをいくつか実装し、人間のパフォーマンスを報告し、分析する。 中国向けのきめ細かいNERの開発を促進するため、私たちはデータセット、ベースライン、リーダーボードをリリースしています。

In this paper, we introduce the NER dataset from CLUE organization (CLUENER2020), a well-defined fine-grained dataset for named entity recognition in Chinese. CLUENER2020 contains 10 categories. Apart from common labels like person, organization, and location, it contains more diverse categories. It is more challenging than current other Chinese NER datasets and could better reflect real-world applications. For comparison, we implement several state-of-the-art baselines as sequence labeling tasks and report human performance, as well as its analysis. To facilitate future work on fine-grained NER for Chinese, we release our dataset, baselines, and leader-board.
翻訳日:2023-01-11 22:48:49 公開日:2020-01-20
# 動的検索広告のための極端回帰

Extreme Regression for Dynamic Search Advertising ( http://arxiv.org/abs/2001.05228v3 )

ライセンス: Link先を確認
Yashoteja Prabhu, Aditya Kusupati, Nilesh Gupta and Manik Varma(参考訳) 本稿では,非常に多数のラベルとデータポイントの関係を正確に予測することを目的とした,eXtreme Regression (XR)と呼ばれる新たな学習パラダイムを提案する。 XRは、Dynamic Search Advertising (DSA)を含む多くの大規模ランキングおよびレコメンデーションアプリケーションに対するエレガントなソリューションを提供することができる。 XRは、最近人気になった極端分類器よりも正確なモデルを学ぶことができる。 すべてのラベルのエラーをまとめた従来の回帰指標は、ラベルのランク付け品質に極めて緩やかな限界を与えるため、XR問題には適さない。 また、既存の回帰アルゴリズムは効率的に数百万のラベルにスケールしません。 本稿では,(1)k最大の回帰誤差のみを和算するXRの新しい評価基準,(2)XRタスクをはるかに小さな回帰問題の階層に分解するXRegというアルゴリズムを用いて,高い効率のトレーニングと予測を行う。 本稿では、DSAや他のレコメンデーションタスクに有用なXRegの新しいラベルワイズ予測アルゴリズムについても紹介する。 ベンチマークデータセットの実験では、XRegは最先端の極端分類器や大規模回帰器やランク計よりも、新しいXR誤差メトリックを最大50%削減し、極端分類で使用される正当性スコア付き精度メートル法とDSAで使用されるクリックスルーレートメートル法で最大2%と2.4%改善できることを示した。 BingでDSAにXRegをデプロイすると、クエリカバレッジが27%向上した。 XRegのソースコードはhttp://manikvarma.org/code/XReg/download.htmlからダウンロードできる。

This paper introduces a new learning paradigm called eXtreme Regression (XR) whose objective is to accurately predict the numerical degrees of relevance of an extremely large number of labels to a data point. XR can provide elegant solutions to many large-scale ranking and recommendation applications including Dynamic Search Advertising (DSA). XR can learn more accurate models than the recently popular extreme classifiers which incorrectly assume strictly binary-valued label relevances. Traditional regression metrics which sum the errors over all the labels are unsuitable for XR problems since they could give extremely loose bounds for the label ranking quality. Also, the existing regression algorithms won't efficiently scale to millions of labels. This paper addresses these limitations through: (1) new evaluation metrics for XR which sum only the k largest regression errors; (2) a new algorithm called XReg which decomposes XR task into a hierarchy of much smaller regression problems thus leading to highly efficient training and prediction. This paper also introduces a (3) new labelwise prediction algorithm in XReg useful for DSA and other recommendation tasks. Experiments on benchmark datasets demonstrated that XReg can outperform the state-of-the-art extreme classifiers as well as large-scale regressors and rankers by up to 50% reduction in the new XR error metric, and up to 2% and 2.4% improvements in terms of the propensity-scored precision metric used in extreme classification and the click-through rate metric used in DSA respectively. Deployment of XReg on DSA in Bing resulted in a relative gain of 27% in query coverage. XReg's source code can be downloaded from http://manikvarma.org/code/XReg/download.html.
翻訳日:2023-01-11 05:48:08 公開日:2020-01-20
# TailorGAN: ユーザ定義のファッションデザイン

TailorGAN: Making User-Defined Fashion Designs ( http://arxiv.org/abs/2001.06427v2 )

ライセンス: Link先を確認
Lele Chen, Justin Tian, Guo Li, Cheng-Haw Wu, Erh-Kan King, Kuan-Ting Chen, Shao-Hang Hsieh, Chenliang Xu(参考訳) 属性編集はコンピュータビジョンの重要なトピックとなりつつある。 本稿では、対象属性(カラー/スリーブ)を有する基準衣服画像Aと他の画像Bとを与えられた場合、基準属性からのテクスチャと参照属性からの新たな属性を組み合わせた写真リアル画像を生成する。 そこで,これらの制約を克服するために,不連続属性(首輪や袖)を持つ衣服画像をペアデータなしで合成する,新しい自己教師付きモデルを提案する。 本手法は,再構築学習ステップと逆学習ステップから構成される。 モデルは再構築学習を通じてテクスチャと位置情報を学習する。 そして,モデルの性能を一般化して,逆学習による単一属性操作を実現する。 一方、クリーンな衣料品画像にカラーとスリーブのランドマークの注釈を付けたGarmentSetという新しいデータセットを作成した。 このデータセットと実世界のサンプルに関する広範な実験は、定量的比較と質的比較の両方において、最先端の手法よりも優れた結果を合成できることを示しています。

Attribute editing has become an important and emerging topic of computer vision. In this paper, we consider a task: given a reference garment image A and another image B with target attribute (collar/sleeve), generate a photo-realistic image which combines the texture from reference A and the new attribute from reference B. The highly convoluted attributes and the lack of paired data are the main challenges to the task. To overcome those limitations, we propose a novel self-supervised model to synthesize garment images with disentangled attributes (e.g., collar and sleeves) without paired data. Our method consists of a reconstruction learning step and an adversarial learning step. The model learns texture and location information through reconstruction learning. And, the model's capability is generalized to achieve single-attribute manipulation by adversarial learning. Meanwhile, we compose a new dataset, named GarmentSet, with annotation of landmarks of collars and sleeves on clean garment images. Extensive experiments on this dataset and real-world samples demonstrate that our method can synthesize much better results than the state-of-the-art methods in both quantitative and qualitative comparisons.
翻訳日:2023-01-10 12:35:29 公開日:2020-01-20
# 時空間目標を持つ動的時空間論理ゲーム

Dynamic Epistemic Logic Games with Epistemic Temporal Goals ( http://arxiv.org/abs/2001.07141v1 )

ライセンス: Link先を確認
Bastien Maubert, Aniello Murano, Sophie Pinchinat, Fran\c{c}ois Schwarzentruber and Silvia Stranieri(参考訳) ダイナミック・エピステミック・ロジック(Dynamic Epistemic Logic, DEL)は、エージェントがどのように行動を認識するか、そしてそれらが世界に与える影響を詳細に記述できる論理的フレームワークである。 DELゲームは、プレイヤーに利用可能なアクションが正確に記述された不完全な情報を持つゲームのクラスを定義する方法として最近導入された。 このフレームワークは、例えばプレイヤーが公開アクションや公開発表しか使えないゲームのクラスを簡単に定義できるようにする。 これらのゲームは到達可能性の目的のために研究され、その目的は、エピステミック論理で表されるいくつかのエピステミック特性を満たす状況に到達することである。 本研究は, 到達性目標に対する決定可能性の結果が, より一般的な勝利条件のクラス, すなわち, てんかん時相論理LTLKで表現可能なものにまで拡張されることを示す。 そのために、DEL公開アクションによって生成される無限のゲーム構造が正規であることを確立し、それらを解決するために依存する有限表現を得る方法を説明する。

Dynamic Epistemic Logic (DEL) is a logical framework in which one can describe in great detail how actions are perceived by the agents, and how they affect the world. DEL games were recently introduced as a way to define classes of games with imperfect information where the actions available to the players are described very precisely. This framework makes it possible to define easily, for instance, classes of games where players can only use public actions or public announcements. These games have been studied for reachability objectives, where the aim is to reach a situation satisfying some epistemic property expressed in epistemic logic; several (un)decidability results have been established. In this work we show that the decidability results obtained for reachability objectives extend to a much more general class of winning conditions, namely those expressible in the epistemic temporal logic LTLK. To do so we establish that the infinite game structures generated by DEL public actions are regular, and we describe how to obtain finite representations on which we rely to solve them.
翻訳日:2023-01-08 05:50:40 公開日:2020-01-20
# 離散選択における非関連代替品の独立性試験の基礎的限界

Fundamental Limits of Testing the Independence of Irrelevant Alternatives in Discrete Choice ( http://arxiv.org/abs/2001.07042v1 )

ライセンス: Link先を確認
Arjun Seshadri, Johan Ugander(参考訳) MNL(Multinomial Logit)モデルと、それが満足する公理であるIIA(Independent of Irrelevant Alternatives)は、互いに選択する最も広く使われているツールである。 MNLモデルは様々な分野のワークホースモデルとして機能するが、多くの実験文献がIIAが保持できない現実世界の設定を文書化していると主張し、広く批判されている。 モデリング仮定としてのiaの統計的テストは、過去数十年間、iaから特定の逸脱に焦点を当てた多くの実用テストの対象となっているが、仮説テストiaの形式的大きさ特性はまだよく分かっていない。 この研究では、本論文の曖昧さの一部を厳密な悲観主義に置き換え、最悪のケースのエラーが少ないiaの一般的なテストには、選択問題の選択肢の数に指数関数的なサンプルが必要になることを示した。 我々の分析による以前の研究よりも大きな利点は、それは完全に有限サンプルドメインにあり、離散選択の共通のデータポーア設定におけるテストの振る舞いを理解するのに不可欠であるということです。 我々の下限は構造に依存しており、最適化の潜在的な原因として、特定の選択集合(例えば、ペア)の集合で生じる違反にIIAのテストを制限すると、悲観的でない構造に依存した下限が得られる。 このテスト問題に対する我々の分析は、選択のデータセットから構築された特定の二部グラフのサイクル分解のユーレアン配向を数えて、高度に組み合わせた問題である。 与えられたテスト問題の比較構造とサンプル効率の基本的な関係を同定することにより、これらの関係が、個別に選択したテスト問題だけでなく、IIAテスト問題に対する厳密な再考の基盤となることを期待する。

The Multinomial Logit (MNL) model and the axiom it satisfies, the Independence of Irrelevant Alternatives (IIA), are together the most widely used tools of discrete choice. The MNL model serves as the workhorse model for a variety of fields, but is also widely criticized, with a large body of experimental literature claiming to document real-world settings where IIA fails to hold. Statistical tests of IIA as a modelling assumption have been the subject of many practical tests focusing on specific deviations from IIA over the past several decades, but the formal size properties of hypothesis testing IIA are still not well understood. In this work we replace some of the ambiguity in this literature with rigorous pessimism, demonstrating that any general test for IIA with low worst-case error would require a number of samples exponential in the number of alternatives of the choice problem. A major benefit of our analysis over previous work is that it lies entirely in the finite-sample domain, a feature crucial to understanding the behavior of tests in the common data-poor settings of discrete choice. Our lower bounds are structure-dependent, and as a potential cause for optimism, we find that if one restricts the test of IIA to violations that can occur in a specific collection of choice sets (e.g., pairs), one obtains structure-dependent lower bounds that are much less pessimistic. Our analysis of this testing problem is unorthodox in being highly combinatorial, counting Eulerian orientations of cycle decompositions of a particular bipartite graph constructed from a data set of choices. By identifying fundamental relationships between the comparison structure of a given testing problem and its sample efficiency, we hope these relationships will help lay the groundwork for a rigorous rethinking of the IIA testing problem as well as other testing problems in discrete choice.
翻訳日:2023-01-08 05:50:19 公開日:2020-01-20
# Memristorハードウェアフレンドリーな強化学習

Memristor Hardware-Friendly Reinforcement Learning ( http://arxiv.org/abs/2001.06930v1 )

ライセンス: Link先を確認
Nan Wu, Adrien Vincent, Dmitri Strukov, Yuan Xie(参考訳) 近年、機械やエージェントが明示的な監督ではなく環境との相互作用から学習できる強化学習(RL)を用いることで、各領域の高度な問題を解決するために大きな進歩を遂げている。 ムーアの法則の終わりが差し迫っているように思えるほど、高性能なニューロモルフィックハードウェアシステムを実現する新しい技術が注目を集めている。 すなわち、ハードウェアニューラルネットワークのシナプス重みとしてプログラム可能で非揮発性2次元デバイスであるメムリスタを利用するニューロモルフィックアーキテクチャは、そのような高エネルギー効率で複雑な神経システムを実現するための候補である。 しかし、統合学習能力を持つ統合型ハードウェアの課題の1つは、学習プロセス中に必要となるであろう大量の書き込みサイクルであり、この状況はrl状況下でさらに悪化する。 本稿では,rlにおけるアクタ-クリティックアルゴリズムのための記憶的ニューロモルフィックハードウェアの実装を提案する。 2倍のトレーニング手順(例えば、前段階のトレーニングと後段階のトレーニング)と複数のトレーニング手法を導入することで、重み付けの回数を大幅に減らし、効率的な内段階の学習実装に適している。 ケーススタディとして、逆振り子(RLと制御理論の両方において古典的な問題)のバランスをとることを考える。 本研究は,memristorをベースとするハードウェアニューラルネットワークを用いた複雑なタスク処理を,その場で強化学習によって実現する可能性を示すものである。

Recently, significant progress has been made in solving sophisticated problems among various domains by using reinforcement learning (RL), which allows machines or agents to learn from interactions with environments rather than explicit supervision. As the end of Moore's law seems to be imminent, emerging technologies that enable high performance neuromorphic hardware systems are attracting increasing attention. Namely, neuromorphic architectures that leverage memristors, the programmable and nonvolatile two-terminal devices, as synaptic weights in hardware neural networks, are candidates of choice to realize such highly energy-efficient and complex nervous systems. However, one of the challenges for memristive hardware with integrated learning capabilities is prohibitively large number of write cycles that might be required during learning process, and this situation is even exacerbated under RL situations. In this work we propose a memristive neuromorphic hardware implementation for the actor-critic algorithm in RL. By introducing a two-fold training procedure (i.e., ex-situ pre-training and in-situ re-training) and several training techniques, the number of weight updates can be significantly reduced and thus it will be suitable for efficient in-situ learning implementations. As a case study, we consider the task of balancing an inverted pendulum, a classical problem in both RL and control theory. We believe that this study shows the promise of using memristor-based hardware neural networks for handling complex tasks through in-situ reinforcement learning.
翻訳日:2023-01-08 05:49:46 公開日:2020-01-20
# 非侵入的負荷モニタリングにおける比較可能性:データと性能評価について

Towards Comparability in Non-Intrusive Load Monitoring: On Data and Performance Evaluation ( http://arxiv.org/abs/2001.07708v1 )

ライセンス: Link先を確認
Christoph Klemenjak, Stephen Makonin and Wilfried Elmenreich(参考訳) 非侵入負荷モニタリング(Non-Intrusive Load Monitoring, NILM)は、家庭や工業施設のエネルギー消費に関する洞察を提供する一連の技術である。 最新のコントリビューションでは、正確性と一般化能力の面で大幅に改善されている。 分解技術に関するあらゆる進歩にもかかわらず、性能評価とコンパラビリティはオープンな研究課題である。 評価手順の標準化とコンセンサスの欠如は再現性とコンパラビリティを極めて困難にしている。 本稿では、アルゴリズムの性能をテストするために使用される共通エネルギーデータセットのかなりの差異に注目しながら、nilmのコンパラビリティに注目する。 比較可能性に関する議論を、データ面やパフォーマンス指標に分割し、評価プロセスに関する詳細な見解を示します。 NILM関連研究において, プリプロセスやデータクリーニング方法, 統一性能報告の重要性, 負荷分散における複雑性対策の必要性について, 詳細な情報が必要であることが確認された。 さらに,評価の結果から,データセットを慎重に選択すべきであることが示唆された。 コンパラビリティを高めるための今後の作業の提案を定式化する。

Non-Intrusive Load Monitoring (NILM) comprises of a set of techniques that provide insights into the energy consumption of households and industrial facilities. Latest contributions show significant improvements in terms of accuracy and generalisation abilities. Despite all progress made concerning disaggregation techniques, performance evaluation and comparability remains an open research question. The lack of standardisation and consensus on evaluation procedures makes reproducibility and comparability extremely difficult. In this paper, we draw attention to comparability in NILM with a focus on highlighting the considerable differences amongst common energy datasets used to test the performance of algorithms. We divide discussion on comparability into data aspects, performance metrics, and give a close view on evaluation processes. Detailed information on pre-processing as well as data cleaning methods, the importance of unified performance reporting, and the need for complexity measures in load disaggregation are found to be the most urgent issues in NILM-related research. In addition, our evaluation suggests that datasets should be chosen carefully. We conclude by formulating suggestions for future work to enhance comparability.
翻訳日:2023-01-08 05:49:01 公開日:2020-01-20
# DDKSP:カーシェアリロケーション問題のためのデータ駆動確率プログラミングフレームワーク

DDKSP: A Data-Driven Stochastic Programming Framework for Car-Sharing Relocation Problem ( http://arxiv.org/abs/2001.08109v1 )

ライセンス: Link先を確認
Xiaoming Li, Chun Wang, Xiao Huang(参考訳) カーシェアリング問題は、共有経済における一般的な研究分野である。 本稿では,不確実な要求の下でカーシェアリング再配置問題(CSRP)について検討する。 通常、実際の顧客要求はパラメトリックなアプローチでは説明できない複雑な確率分布に従う。 この問題を解決するために、非パラメトリックなアプローチカーネル密度推定(KDE)と2段階確率プログラミング(SP)モデルを統合する、データ駆動カーネル確率計画(DDKSP)と呼ばれる革新的なフレームワークを提案する。 具体的には、確率分布は、SPの入力不確かさパラメータとして使用されるKDEによって歴史的データから導かれる。 さらにCSRPは2段階SPモデルとして定式化される。 一方,サンプル平均近似 (SAA) と呼ばれるモンテカルロ法とベンダー分解アルゴリズムを導入し,大規模最適化モデルを提案する。 最後に,ニューヨーク・タクシー・トリップのデータセットに基づく数値実験による検証により,提案手法がガウス分布,ラプラス分布,ポアソン分布の3.72%,4.58%,11%の純パラメトリック・アプローチをそれぞれ上回っていることが示された。

Car-sharing issue is a popular research field in sharing economy. In this paper, we investigate the car-sharing relocation problem (CSRP) under uncertain demands. Normally, the real customer demands follow complicating probability distribution which cannot be described by parametric approaches. In order to overcome the problem, an innovative framework called Data-Driven Kernel Stochastic Programming (DDKSP) that integrates a non-parametric approach - kernel density estimation (KDE) and a two-stage stochastic programming (SP) model is proposed. Specifically, the probability distributions are derived from historical data by KDE, which are used as the input uncertain parameters for SP. Additionally, the CSRP is formulated as a two-stage SP model. Meanwhile, a Monte Carlo method called sample average approximation (SAA) and Benders decomposition algorithm are introduced to solve the large-scale optimization model. Finally, the numerical experimental validations which are based on New York taxi trip data sets show that the proposed framework outperforms the pure parametric approaches including Gaussian, Laplace and Poisson distributions with 3.72% , 4.58% and 11% respectively in terms of overall profits.
翻訳日:2023-01-08 05:47:43 公開日:2020-01-20
# 社会認知エージェントの社会的アイデンティティに向けて

Towards Social Identity in Socio-Cognitive Agents ( http://arxiv.org/abs/2001.07142v1 )

ライセンス: Link先を確認
Diogo Rato, Samuel Mascarenhas, and Rui Prada(参考訳) 現在のソーシャルエージェントのアーキテクチャは、特定の課題に対処する社会的行動の特定のユニットを中心に設計されている。 それらの性能は制御された環境に適しているが、これらのエージェントを野生に展開することは困難である。 さらに、人間と共生できる自律型エージェントの需要が増大し、多様な社会的状況に対処できるより堅牢なソーシャルエージェントの設計が求められている。 このようなエージェントを設計するには、社会性や認知を1つとして考えるべきであると我々は信じている。 これには、社会的意味を持つ物理世界の解釈として社会現実を構築するためのメカニズムと、状況に合った認知リソースの選択的な展開が含まれる。 社会認知システムのためのエージェントアーキテクチャを設計する際に考慮すべきいくつかの設計原則を同定する。 これらの発言を考慮に入れ,認知的社会的フレームの概念に基づく社会的認知的エージェントモデルを提案し,その環境,その社会的文脈の解釈に基づくエージェントの認知の適応を可能にする。 当社のアプローチは,他のソーシャルアクタとその関係に関するエージェントの推論を支援する。 認知社会フレームは、社会集団を中心に構築され、社会集団のダイナミクス機構と社会アイデンティティの構成の基礎を形成する。

Current architectures for social agents are designed around some specific units of social behaviour that address particular challenges. Although their performance might be adequate for controlled environments, deploying these agents in the wild is difficult. Moreover, the increasing demand for autonomous agents capable of living alongside humans calls for the design of more robust social agents that can cope with diverse social situations. We believe that to design such agents, their sociality and cognition should be conceived as one. This includes creating mechanisms for constructing social reality as an interpretation of the physical world with social meanings and selective deployment of cognitive resources adequate to the situation. We identify several design principles that should be considered while designing agent architectures for socio-cognitive systems. Taking these remarks into account, we propose a socio-cognitive agent model based on the concept of Cognitive Social Frames that allow the adaptation of an agent's cognition based on its interpretation of its surroundings, its Social Context. Our approach supports an agent's reasoning about other social actors and its relationship with them. Cognitive Social Frames can be built around social groups, and form the basis for social group dynamics mechanisms and construct of Social Identity.
翻訳日:2023-01-08 05:41:43 公開日:2020-01-20
# 円ビン充填問題に対する適応型大規模近傍探索

Adaptive Large Neighborhood Search for Circle Bin Packing Problem ( http://arxiv.org/abs/2001.07709v1 )

ライセンス: Link先を確認
Kun He, Kevin Tole, Fei Ni, Yong Yuan, Linyun Liao(参考訳) そこで本研究では,複数の正方形箱に円のアイテムを密に詰め込み,使用済みの箱の数を最小限に抑えることを目的とした,CBPP (Circle bin packing problem) と呼ばれるパッキング問題に対処する。 そこで本研究では,Corner Occupying Action (GACOA) を用いたGreedy Algorithm を用いた適応型大近傍探索 (ALNS) アルゴリズムを提案する。 グリーディ解は通常局所最適トラップであり、alnは局所最小トラップに詰まるのを避けるために確率的なアニーリングスケジュールに依存する複数の近傍探索を可能にする。 具体的には、alnは、ある円を反復的に再割り当てすることで、局所最適から飛び出す現在のレイアウトを摂動させ、検索中に、ある確率で新しいレイアウトを受け入れる。 受理確率は、グローバルな最適点に到達するために探索方向を微調整するシミュレートアニールを用いて適応的に調整される。 異種インスタンスのGACOAに対して計算結果をベンチマークする。 ALNSは常にGACOAより優れており、いくつかのケースでは包装に使用されるビンの数が大幅に減少している。

We address a new variant of packing problem called the circle bin packing problem (CBPP), which is to find a dense packing of circle items to multiple square bins so as to minimize the number of used bins. To this end, we propose an adaptive large neighborhood search (ALNS) algorithm, which uses our Greedy Algorithm with Corner Occupying Action (GACOA) to construct an initial layout. The greedy solution is usually in a local optimum trap, and ALNS enables multiple neighborhood search that depends on the stochastic annealing schedule to avoid getting stuck in local minimum traps. Specifically, ALNS perturbs the current layout to jump out of a local optimum by iteratively reassigns some circles and accepts the new layout with some probability during the search. The acceptance probability is adjusted adaptively using simulated annealing that fine-tunes the search direction in order to reach the global optimum. We benchmark computational results against GACOA in heterogeneous instances. ALNS always outperforms GACOA in improving the objective function, and in several cases, there is a significant reduction on the number of bins used in the packing.
翻訳日:2023-01-08 05:41:27 公開日:2020-01-20
# SDRをHDR画像にマッピングする量子領域における曲線マルコフ・ガウス雑音を用いた適応ディザリング

Adaptive Dithering Using Curved Markov-Gaussian Noise in the Quantized Domain for Mapping SDR to HDR Image ( http://arxiv.org/abs/2001.06983v1 )

ライセンス: Link先を確認
Subhayan Mukherjee, Guan-Ming Su, and Irene Cheng(参考訳) 高ダイナミックレンジ(HDR)イメージングは、レギュラーディスプレイだけでなくスマートフォンでも、リアルなコンテンツによって注目を集めている。 十分なHDRコンテンツが配布される前は、HDRビジュアライゼーションは主に標準ダイナミックレンジ(SDR)コンテンツへの変換に依存していた。 SDR画像はしばしば、SDR-to-HDR変換(例えばビデオ伝送)の前に量子化される。 量子化は容易にバンド状アーティファクトにつながる。 一部の計算および/またはメモリI/O制限環境では、空間近傍情報を用いた従来のソリューションは実現不可能である。 本手法は,ノイズ発生(オフライン)とノイズ注入(オンライン)を含み,量子化画像の画素で動作する。 量子化画素のlumaと逆トーンマッピング関数の傾きに基づいて,ノイズパターンの大きさと構造を適応的に変化させる。 主観的ユーザ評価は,本手法の優れた性能を確認する。

High Dynamic Range (HDR) imaging is gaining increased attention due to its realistic content, for not only regular displays but also smartphones. Before sufficient HDR content is distributed, HDR visualization still relies mostly on converting Standard Dynamic Range (SDR) content. SDR images are often quantized, or bit depth reduced, before SDR-to-HDR conversion, e.g. for video transmission. Quantization can easily lead to banding artefacts. In some computing and/or memory I/O limited environment, the traditional solution using spatial neighborhood information is not feasible. Our method includes noise generation (offline) and noise injection (online), and operates on pixels of the quantized image. We vary the magnitude and structure of the noise pattern adaptively based on the luma of the quantized pixel and the slope of the inverse-tone mapping function. Subjective user evaluations confirm the superior performance of our technique.
翻訳日:2023-01-08 05:41:05 公開日:2020-01-20
# 正確性対複雑性:視覚的質問応答モデルにおけるトレードオフ

Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models ( http://arxiv.org/abs/2001.07059v1 )

ライセンス: Link先を確認
Moshiur R. Farazi, Salman H. Khan, Nick Barnes(参考訳) VQA(Visual Question Answering)は、AIエージェントの推論能力を検証するビジュアルチューリングテストとして登場した。 既存のVQAモデルへのピボットは、画像からの視覚的特徴と与えられた質問からの意味的特徴を組み合わせることで学習された共同埋め込みである。 その結果、多くの文献が、これらの2つのモード間の相互作用を効果的に捉えるために、視覚的注意機構と組み合わさった複雑な関節埋め込み戦略の開発に焦点を合わせている。 しかし、高次元(結合埋め込み)空間における視覚的特徴と意味的特徴のモデリングは計算に高価であり、より複雑なモデルはしばしばVQA精度の自明な改善をもたらす。 本研究では,VQAタスクにおけるモデル複雑性と性能のトレードオフを系統的に研究する。 VQAモデルは、事前処理、特徴抽出、マルチモーダル融合、注意、最終分類段階からなる多様なアーキテクチャを持つ。 特に、VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。 ひとつは最小限の複雑性に最適化され、もうひとつは最先端のvqaパフォーマンスに最適化された提案です。

Visual Question Answering (VQA) has emerged as a Visual Turing Test to validate the reasoning ability of AI agents. The pivot to existing VQA models is the joint embedding that is learned by combining the visual features from an image and the semantic features from a given question. Consequently, a large body of literature has focused on developing complex joint embedding strategies coupled with visual attention mechanisms to effectively capture the interplay between these two modalities. However, modelling the visual and semantic features in a high dimensional (joint embedding) space is computationally expensive, and more complex models often result in trivial improvements in the VQA accuracy. In this work, we systematically study the trade-off between the model complexity and the performance on the VQA task. VQA models have a diverse architecture comprising of pre-processing, feature extraction, multimodal fusion, attention and final classification stages. We specifically focus on the effect of "multi-modal fusion" in VQA models that is typically the most expensive step in a VQA pipeline. Our thorough experimental evaluation leads us to two proposals, one optimized for minimal complexity and the other one optimized for state-of-the-art VQA performance.
翻訳日:2023-01-08 05:40:48 公開日:2020-01-20
# 広角レンズを用いた交通監視カメラのオートカメラ校正

Autocamera Calibration for traffic surveillance cameras with wide angle lenses ( http://arxiv.org/abs/2001.07243v1 )

ライセンス: Link先を確認
Aman Gajendra Jain, Nicolas Saunier(参考訳) 広角レンズを用いた交通監視カメラの自動校正手法を提案する。 キャリブレーションプロセス全体を行うには、数分のビデオ撮影だけで十分です。 この方法は、地上面からのカメラの高さを、スケールのあいまいさを克服する唯一のユーザ入力として取り込む。 校正は2段階で行われる。 内因性校正 2.外因性校正 等距離魚眼歪みと理想的なカメラモデルとを仮定して固有校正を行う。 垂直交点における車両の移動から地上平面上の2つの消失点を推定することにより、極端に校正を行う。 固有のキャリブレーションの第1段階は、熱カメラにも有効である。 可視および熱カメラにおけるこの手法の有効性を実証する実験が行われている。 指数項:魚眼、校正、サーマルカメラ、インテリジェント輸送システム、消滅点

We propose a method for automatic calibration of a traffic surveillance camera with wide-angle lenses. Video footage of a few minutes is sufficient for the entire calibration process to take place. This method takes in the height of the camera from the ground plane as the only user input to overcome the scale ambiguity. The calibration is performed in two stages, 1. Intrinsic Calibration 2. Extrinsic Calibration. Intrinsic calibration is achieved by assuming an equidistant fisheye distortion and an ideal camera model. Extrinsic calibration is accomplished by estimating the two vanishing points, on the ground plane, from the motion of vehicles at perpendicular intersections. The first stage of intrinsic calibration is also valid for thermal cameras. Experiments have been conducted to demonstrate the effectiveness of this approach on visible as well as thermal cameras. Index Terms: fish-eye, calibration, thermal camera, intelligent transportation systems, vanishing points
翻訳日:2023-01-08 05:40:06 公開日:2020-01-20
# DeepFL-IQA:Deep IQA機能学習のための弱スーパービジョン

DeepFL-IQA: Weak Supervision for Deep IQA Feature Learning ( http://arxiv.org/abs/2001.08113v1 )

ライセンス: Link先を確認
Hanhe Lin, Vlad Hosu, Dietmar Saupe(参考訳) マルチレベル深層機能は、美学と画質評価(iqa)のための最先端の手法を駆り立てている。 しかし、ほとんどのIQAベンチマークは、ImageNetのアンダーパフォーマンスから派生した特徴を持つ、人工的に歪んだ画像で構成されている。 人工歪み画像のIQAに適した特徴を学習するための新しいIQAデータセットと弱い教師付き特徴学習手法を提案する。 データセットであるKADIS-700kは、14万枚の原像と25種類の歪みがあり、合計で700kの歪んだバージョンで構成されている。 我々の弱教師付き特徴学習はマルチタスク学習型学習として設計されており、11の既存の全参照IQAメトリクスを差分平均意見スコアのプロキシとして使用しています。 また,30名の観衆が主観的にアノテートした画像のベンチマークデータベースKADID-10kを導入する。 我々は、このデータベースおよび他の5つのベンチマークIQAデータベース上で、浅い回帰ネットワークをトレーニングし、テストすることで、画像品質評価(ノン参照)に画像特徴ベクトルを用いる。 提案手法はDeepFL-IQAと呼ばれ,他の特徴に基づくノン参照IQA法よりも優れており,KADID-10k上の全参照IQA法よりも優れている。 残りの5つのベンチマークIQAデータベースでは、DeepFL-IQAは、既存の最高のエンドツーエンドのディープラーニングベースのメソッドのパフォーマンスと平均的に一致します。

Multi-level deep-features have been driving state-of-the-art methods for aesthetics and image quality assessment (IQA). However, most IQA benchmarks are comprised of artificially distorted images, for which features derived from ImageNet under-perform. We propose a new IQA dataset and a weakly supervised feature learning approach to train features more suitable for IQA of artificially distorted images. The dataset, KADIS-700k, is far more extensive than similar works, consisting of 140,000 pristine images, 25 distortions types, totaling 700k distorted versions. Our weakly supervised feature learning is designed as a multi-task learning type training, using eleven existing full-reference IQA metrics as proxies for differential mean opinion scores. We also introduce a benchmark database, KADID-10k, of artificially degraded images, each subjectively annotated by 30 crowd workers. We make use of our derived image feature vectors for (no-reference) image quality assessment by training and testing a shallow regression network on this database and five other benchmark IQA databases. Our method, termed DeepFL-IQA, performs better than other feature-based no-reference IQA methods and also better than all tested full-reference IQA methods on KADID-10k. For the other five benchmark IQA databases, DeepFL-IQA matches the performance of the best existing end-to-end deep learning-based methods on average.
翻訳日:2023-01-08 05:39:54 公開日:2020-01-20
# G2MF-WA:弱アノテーションデータを用いた幾何学的マルチモデルフィッティング

G2MF-WA: Geometric Multi-Model Fitting with Weakly Annotated Data ( http://arxiv.org/abs/2001.06965v1 )

ライセンス: Link先を確認
Chao Zhang, Xuequan Lu, Katsuya Hotta, and Xi Yang(参考訳) 本稿では,これまで研究されてきた弱アノテート(WA)データポイントを考慮に入れた幾何学的マルチモデルフィッティングの問題に対処する。 弱い注釈では、ほとんどの手動アノテーションは正しく、必然的に間違ったアノテーションと混ざり合わなければならない。 WAデータは、例えば、ホモグラフィー推定の場合、画像を観察して同一平面上の点を単一のラベルで簡単にアノテートすることができるなど、特定のタスクに対して自然に対話的に取得することができる。 そこで本研究では,WAデータを完全に活用してマルチモデル適合性能を向上させる手法を提案する。 具体的には、同じ弱いラベルで注釈付けされたWAデータが同一モデルに割り当てられる確率が高いことを前提として、まずWAデータを用いてモデル提案サンプリング用グラフを構築する。 この事前知識をエッジ確率の計算に組み込むことで、頂点(すなわちデータポイント)は、潜在モデルが結合し、効果的な提案を生成するためのサブセット/クラスタを形成する可能性が高い。 提案が生成されると、$\alpha$-expansion がラベル付けに採用され、このメソッドは提案を更新します。 これは反復的に機能します。 大規模実験により本手法の有効性を検証し,提案手法が最先端技術よりも顕著に優れた結果をもたらすことを示す。

In this paper we attempt to address the problem of geometric multi-model fitting with resorting to a few weakly annotated (WA) data points, which has been sparsely studied so far. In weak annotating, most of the manual annotations are supposed to be correct yet inevitably mixed with incorrect ones. The WA data can be naturally obtained in an interactive way for specific tasks, for example, in the case of homography estimation, one can easily annotate points on the same plane/object with a single label by observing the image. Motivated by this, we propose a novel method to make full use of the WA data to boost the multi-model fitting performance. Specifically, a graph for model proposal sampling is first constructed using the WA data, given the prior that the WA data annotated with the same weak label has a high probability of being assigned to the same model. By incorporating this prior knowledge into the calculation of edge probabilities, vertices (i.e., data points) lie on/near the latent model are likely to connect together and further form a subset/cluster for effective proposals generation. With the proposals generated, the $\alpha$-expansion is adopted for labeling, and our method in return updates the proposals. This works in an iterative way. Extensive experiments validate our method and show that the proposed method produces noticeably better results than state-of-the-art techniques in most cases.
翻訳日:2023-01-08 05:33:23 公開日:2020-01-20
# ステレオビジョンに基づくスパース不均質推定による不均質計算のハイブリッドアルゴリズム

A hybrid algorithm for disparity calculation from sparse disparity estimates based on stereo vision ( http://arxiv.org/abs/2001.06967v1 )

ライセンス: Link先を確認
Subhayan Mukherjee and Ram Mohana Reddy Guddeti(参考訳) 本稿では,既存のブロックベースと領域ベースのステレオマッチングを組み合わせたステレオ不一致推定手法を提案する。 本手法は、ステレオ画像対の左または右画像の18%の画素のばらつき測定から、密度のばらつきマップを生成することができる。 K-Meansクラスタリングの高速実装を用いて,画像画素の輝度値のセグメンテーションを行う。 次に、これらのセグメント境界を形態的フィルタリングと連結成分分析によって洗練し、多くの冗長な境界画素を除去する。 次に、SADコスト関数による境界の格差を決定する。 最後に,スキャニングラインに沿った不一致伝播と周辺地域の不確かさを考慮した不確かさ予測を通じて,境界の不透明度からシーン全体の不透明度マップを再構成する。 ミドルベリー・ステレオビジョン・データセットの実験結果から,提案手法はSADやNCCなどの従来の不均質判定法を最大30%向上させ,不均質計算における絶対差(AD)コスト関数に基づく最近の手法と比較して2.6%向上することを示した。

In this paper, we have proposed a novel method for stereo disparity estimation by combining the existing methods of block based and region based stereo matching. Our method can generate dense disparity maps from disparity measurements of only 18% pixels of either the left or the right image of a stereo image pair. It works by segmenting the lightness values of image pixels using a fast implementation of K-Means clustering. It then refines those segment boundaries by morphological filtering and connected components analysis, thus removing a lot of redundant boundary pixels. This is followed by determining the boundaries' disparities by the SAD cost function. Lastly, we reconstruct the entire disparity map of the scene from the boundaries' disparities through disparity propagation along the scan lines and disparity prediction of regions of uncertainty by considering disparities of the neighboring regions. Experimental results on the Middlebury stereo vision dataset demonstrate that the proposed method outperforms traditional disparity determination methods like SAD and NCC by up to 30% and achieves an improvement of 2.6% when compared to a recent approach based on absolute difference (AD) cost function for disparity calculations [1].
翻訳日:2023-01-08 05:32:58 公開日:2020-01-20
# 効率の良い3dビュー登録のための平面対マッチング

Plane Pair Matching for Efficient 3D View Registration ( http://arxiv.org/abs/2001.07058v1 )

ライセンス: Link先を確認
Adrien Kaiser, Jos\'e Alonso Ybanez Zepeda, Tamy Boubekeur(参考訳) 本研究では,室内シーンの文脈において,重なり合う2対の3次元ビュー間の動き行列を推定する新しい手法を提案する。 マンハッタンの世界仮定を用いて、平面の形での軽量な幾何学的制約を問題に導入し、シーンの構造を考慮した複雑性を低減する。 特に、平面を垂直、水平、平行または非平行に分類する確率的枠組みを定義する。 私たちはこの分類を利用して、重なり合ったビュー内の平面のペアと、視点に依存しない構造メトリクスをマッチングします。 この分類を用いて動作計算を分割し、二次最小化器を用いてセンサの回転と変換を別々に推定する。 この手法をおもちゃの例で検証し,公開rgb-dデータセット上で定量的な実験を行い,最新手法との比較を行った。 本評価は,事前の粗い推定結果に適用した場合の計算オーバーヘッドを小さく抑えつつ,精度の向上を図っている。 私たちは、現在の結果の拡張と改善についてヒントを与えて結論付けます。

We present a novel method to estimate the motion matrix between overlapping pairs of 3D views in the context of indoor scenes. We use the Manhattan world assumption to introduce lightweight geometric constraints under the form of planes into the problem, which reduces complexity by taking into account the structure of the scene. In particular, we define a stochastic framework to categorize planes as vertical or horizontal and parallel or non-parallel. We leverage this classification to match pairs of planes in overlapping views with point-of-view agnostic structural metrics. We propose to split the motion computation using the classification and estimate separately the rotation and translation of the sensor, using a quadric minimizer. We validate our approach on a toy example and present quantitative experiments on a public RGB-D dataset, comparing against recent state-of-the-art methods. Our evaluation shows that planar constraints only add low computational overhead while improving results in precision when applied after a prior coarse estimate. We conclude by giving hints towards extensions and improvements of current results.
翻訳日:2023-01-08 05:32:11 公開日:2020-01-20
# 画像分類のためのスパースと協調競合表現の乗算融合

Multiplication fusion of sparse and collaborative-competitive representation for image classification ( http://arxiv.org/abs/2001.07090v1 )

ライセンス: Link先を確認
Zi-Qi Li, Jun Sun, Xiao-Jun Wu and He-Feng Yin(参考訳) 表現に基づく分類法は近年ホットな研究課題となり, 疎表現に基づく分類 (SRC) と協調表現に基づく分類 (CRC) の2つのアプローチが注目されている。 CRCは、SRCを成功させる空間というよりも、協調的な表現であることを明らかにした。 それでも、CRCの密度の高い表現は、分類タスクのパフォーマンスを低下させる差別的ではないかもしれない。 この問題をある程度緩和するために,画像分類のためのスパースおよび協調競合表現に基づく分類法(SCCRC)を提案する。 まず、試験試料の係数をそれぞれSRCとCCRCで求める。 そして、SRCとCCRCの係数を乗算して融合係数を求める。 最後に、テストサンプルは、最小の残差を持つクラスに指定されます。 いくつかのベンチマークデータベースの実験結果から,提案したSCCRCの有効性が示された。 SCCRCのソースコードはhttps://github.com/li-zi-qi/SCCRCで公開されている。

Representation based classification methods have become a hot research topic during the past few years, and the two most prominent approaches are sparse representation based classification (SRC) and collaborative representation based classification (CRC). CRC reveals that it is the collaborative representation rather than the sparsity that makes SRC successful. Nevertheless, the dense representation of CRC may not be discriminative which will degrade its performance for classification tasks. To alleviate this problem to some extent, we propose a new method called sparse and collaborative-competitive representation based classification (SCCRC) for image classification. Firstly, the coefficients of the test sample are obtained by SRC and CCRC, respectively. Then the fused coefficient is derived by multiplying the coefficients of SRC and CCRC. Finally, the test sample is designated to the class that has the minimum residual. Experimental results on several benchmark databases demonstrate the efficacy of our proposed SCCRC. The source code of SCCRC is accessible at https://github.com/li-zi-qi/SCCRC.
翻訳日:2023-01-08 05:31:53 公開日:2020-01-20
# 弱スーパービジョンによるアクティブ・インクリメンタル学習

Active and Incremental Learning with Weak Supervision ( http://arxiv.org/abs/2001.07100v1 )

ライセンス: Link先を確認
Clemens-Alexander Brust and Christoph K\"ading and Joachim Denzler(参考訳) 大量のラベル付きトレーニングデータが、deep modelが過去に達成した大きな成功への大きな貢献の1つです。 ベンチマーク以外のタスクのラベル取得は、資金と専門知識の両方の要件のために課題となることがある。 モデル改善の観点で有望で、各ラベルのみを求めるラベルなしの例を選択することで、アクティブラーニングは、時間とコストの観点からラベル付けプロセスの効率を高めることができる。 本研究では,逐次学習方式と能動学習方式の組み合わせについて述べる。 これにより、新たに観測されたラベルなしデータの継続的な探索が可能になる。 モデル不確実性および予測モデル出力変化(EMOC)に基づく選択基準について述べる。 オブジェクト検出タスクは、PASCAL VOCデータセット上で連続的な探索コンテキストで評価される。 また,カメラトラップの画像解析を行う実世界の生物多様性アプリケーションにおいて,能動・漸進学習に基づく弱教師付きシステムを検証する。 提案手法で作成した提案を受理または拒絶することで32画像のみをラベル付けすると,精度が25.4%から42.6%に向上する。

Large amounts of labeled training data are one of the main contributors to the great success that deep models have achieved in the past. Label acquisition for tasks other than benchmarks can pose a challenge due to requirements of both funding and expertise. By selecting unlabeled examples that are promising in terms of model improvement and only asking for respective labels, active learning can increase the efficiency of the labeling process in terms of time and cost. In this work, we describe combinations of an incremental learning scheme and methods of active learning. These allow for continuous exploration of newly observed unlabeled data. We describe selection criteria based on model uncertainty as well as expected model output change (EMOC). An object detection task is evaluated in a continuous exploration context on the PASCAL VOC dataset. We also validate a weakly supervised system based on active and incremental learning in a real-world biodiversity application where images from camera traps are analyzed. Labeling only 32 images by accepting or rejecting proposals generated by our method yields an increase in accuracy from 25.4% to 42.6%.
翻訳日:2023-01-08 05:31:39 公開日:2020-01-20
# ハイパースペクトル画像分類のためのスペクトルピラミッドグラフ注意ネットワーク

Spectral Pyramid Graph Attention Network for Hyperspectral Image Classification ( http://arxiv.org/abs/2001.07108v1 )

ライセンス: Link先を確認
Tinghuai Wang, Guangming Wang, Kuan Eeik Tan, Donghui Tan(参考訳) 畳み込みニューラルネットワーク(CNN)は、ハイパースペクトル画像(HSI)分類において大きな進歩を遂げている。 しかし、標準の畳み込みカーネルはデータポイント間の本質的な接続を無視し、低領域のデライン化と小さなスプリアス予測をもたらす。 さらに、HSIは高次元のスペクトル領域に沿って独自の連続的なデータ分布を持ち、高次元性を考慮したスペクトルコンテキストの特徴付けやラベル付きデータの限られた量を考慮した推論能力の向上には、多くの課題が残されている。 本稿では,これらの2つの問題に対処する新しいアーキテクチャを提案する。 具体的には、複数の埋め込み空間のスペクトルピラミッドの形で、複数のスペクトルコンテキスト情報を符号化するアーキテクチャを設計する。 各スペクトル埋め込み空間において,スペクトル特徴空間の接続に基づいて空間領域で解釈可能な推論を明示的に行うグラフ注意機構を提案する。 3つのHSIデータセットを用いた実験により,提案手法は既存の手法と比較して分類精度を大幅に向上できることが示された。

Convolutional neural networks (CNN) have made significant advances in hyperspectral image (HSI) classification. However, standard convolutional kernel neglects the intrinsic connections between data points, resulting in poor region delineation and small spurious predictions. Furthermore, HSIs have a unique continuous data distribution along the high dimensional spectrum domain - much remains to be addressed in characterizing the spectral contexts considering the prohibitively high dimensionality and improving reasoning capability in light of the limited amount of labelled data. This paper presents a novel architecture which explicitly addresses these two issues. Specifically, we design an architecture to encode the multiple spectral contextual information in the form of spectral pyramid of multiple embedding spaces. In each spectral embedding space, we propose graph attention mechanism to explicitly perform interpretable reasoning in the spatial domain based on the connection in spectral feature space. Experiments on three HSI datasets demonstrate that the proposed architecture can significantly improve the classification accuracy compared with the existing methods.
翻訳日:2023-01-08 05:31:25 公開日:2020-01-20
# 学習したテクスチャの摂動による幾何学情報の復元

Recovering Geometric Information with Learned Texture Perturbations ( http://arxiv.org/abs/2001.07253v1 )

ライセンス: Link先を確認
Jane Wu, Yongxu Jin, Zhenglin Geng, Hui Zhou, Ronald Fedkiw(参考訳) 正規化は、ニューラルネットワークのトレーニング時に過剰フィッティングを避けるために使用されるが、残念ながら、トレーニングデータに存在する高周波情報をキャプチャする能力を妨げる詳細レベルが減少する。 高周波の詳細を再導入するために様々なアプローチが用いられるが、通常はトレーニングデータと一致せず、時間的一貫性がないことが多い。 ネットワーク推論された布の場合、これらの感情は、細かなしわの欠如または不自然な出現または時間的非一貫性のしわによって表される。 そこで,本稿では,高周波情報を低周波データに手続き的に埋め込むことで,後者がネットワークに見出されると,その高周波の詳細をそのまま保持する一般戦略を提案する。 本研究では,スメアしたときのテクスチャ座標を学習することで,スメアがテクスチャ自体の高周波のディテールをスメアするのでなく,単に滑らかに歪ませるだけであることを示す。 特筆すべきは,布の過剰な外観を補正するために使用される摂動テクスチャ座標を規定し,複数のカメラからの外観を補正することで,紛失した幾何情報を自然に復元する。

Regularization is used to avoid overfitting when training a neural network; unfortunately, this reduces the attainable level of detail hindering the ability to capture high-frequency information present in the training data. Even though various approaches may be used to re-introduce high-frequency detail, it typically does not match the training data and is often not time coherent. In the case of network inferred cloth, these sentiments manifest themselves via either a lack of detailed wrinkles or unnaturally appearing and/or time incoherent surrogate wrinkles. Thus, we propose a general strategy whereby high-frequency information is procedurally embedded into low-frequency data so that when the latter is smeared out by the network the former still retains its high-frequency detail. We illustrate this approach by learning texture coordinates which when smeared do not in turn smear out the high-frequency detail in the texture itself but merely smoothly distort it. Notably, we prescribe perturbed texture coordinates that are subsequently used to correct the over-smoothed appearance of inferred cloth, and correcting the appearance from multiple camera views naturally recovers lost geometric information.
翻訳日:2023-01-08 05:31:08 公開日:2020-01-20
# ロシアwiktionaryの引用コーパスの解析

Analysis of the quotation corpus of the Russian Wiktionary ( http://arxiv.org/abs/2002.00734v1 )

ライセンス: Link先を確認
A. Smirnov, T. Levashova, A. Karpov, I. Kipyatkova, A. Ronzhin, A. Krizhanovsky, N. Krizhanovsky(参考訳) 開発したWiktionary parserを用いて,ロシアのWiktionaryにおける引用の定量的評価を行った。 辞書の引用数が急速に増えていることが判明した(2011年には51.5万、2012年には62万)。 これらの引用を抽出し、機械可読辞書のリレーショナルデータベースに保存する。 このデータベースでは、引用に関連するテーブルが設計された。 異なる年に書かれた文学作品の引用の分布のヒストグラムが製作された。 これは、ヒストグラムの特徴を19世紀の最も人気があり、引用された(ロシアのウィクチュアリで)作家の年代と結びつけて説明しようとしたものである。 ロシアのウィクティタリーに含まれる引用(例文)の3分の1以上は、ロシア国立コーパスから引用されたウィクティタリーの編集者によって取られていることが判明した。

The quantitative evaluation of quotations in the Russian Wiktionary was performed using the developed Wiktionary parser. It was found that the number of quotations in the dictionary is growing fast (51.5 thousands in 2011, 62 thousands in 2012). These quotations were extracted and saved in the relational database of a machine-readable dictionary. For this database, tables related to the quotations were designed. A histogram of distribution of quotations of literary works written in different years was built. It was made an attempt to explain the characteristics of the histogram by associating it with the years of the most popular and cited (in the Russian Wiktionary) writers of the nineteenth century. It was found that more than one-third of all the quotations (the example sentences) contained in the Russian Wiktionary are taken by the editors of a Wiktionary entry from the Russian National Corpus.
翻訳日:2023-01-08 05:30:49 公開日:2020-01-20
# 顔アンチスプーフィングのための深部時空間学習

Deep Frequent Spatial Temporal Learning for Face Anti-Spoofing ( http://arxiv.org/abs/2002.03723v1 )

ライセンス: Link先を確認
Ying Huang, Wenwei Zhang, and Jinzhuo Wang(参考訳) 対面防止は, 提示攻撃による侵入を避けることにより, 顔認識システムのセキュリティに不可欠である。 従来の研究は、この課題に深度と時間的監督を用いることの有効性を示した。 しかし、奥行き監視は一つのフレームでのみ考慮されることが多く、シーンの変化に頑健でない特定の信号を用いて時間的監視を行う。 本研究は,2つのストリームConvNetをモチベーションとして,頻繁,空間的,時間的情報を同時に活用する対面スプーフィングのための新しい2つのストリームFreqSaptialTemporalNetを提案する。 マルチフレームRGB画像のスプーフィングキューをマイニングする既存の手法と比較して、識別深層ニューラルネットワークの入力ストリームとしてマルチフレームのスペクトル画像を作成し、ライブと偽のビデオの一次的な違いを自動的に検出する。 大規模な実験では、提案したアーキテクチャを用いて有望な改善結果を示す。 一方,実画像と偽画像の詳細な可視化や大規模ネットワークのトレーニングにおけるデータ不足問題に寄与する,頻繁な拡張パイプラインを利用して,大量のスプーフィングトレーニングデータを得るための簡潔な手法を提案する。

Face anti-spoofing is crucial for the security of face recognition system, by avoiding invaded with presentation attack. Previous works have shown the effectiveness of using depth and temporal supervision for this task. However, depth supervision is often considered only in a single frame, and temporal supervision is explored by utilizing certain signals which is not robust to the change of scenes. In this work, motivated by two stream ConvNets, we propose a novel two stream FreqSaptialTemporalNet for face anti-spoofing which simultaneously takes advantage of frequent, spatial and temporal information. Compared with existing methods which mine spoofing cues in multi-frame RGB image, we make multi-frame spectrum image as one input stream for the discriminative deep neural network, encouraging the primary difference between live and fake video to be automatically unearthed. Extensive experiments show promising improvement results using the proposed architecture. Meanwhile, we proposed a concise method to obtain a large amount of spoofing training data by utilizing a frequent augmentation pipeline, which contributes detail visualization between live and fake images as well as data insufficiency issue when training large networks.
翻訳日:2023-01-08 05:24:17 公開日:2020-01-20
# シンノグラムとct画像再構成のための深層ネットワーク

A deep network for sinogram and CT image reconstruction ( http://arxiv.org/abs/2001.07150v1 )

ライセンス: Link先を確認
Wei Wang, Xiang-Gen Xia, Chuanjiang He, Zemin Ren, Jian Lu, Tianfu Wang and Baiying Lei(参考訳) シングラムのサンプリングレートがNyquist基準を満たし、サンプル信号がノイズフリーである場合に、CT画像を適切に再構成することができる。 しかし、実際には、シングラムは通常ノイズによって汚染され、再構成されたCT画像の品質が低下する。 本稿では,シンノグラムとct画像再構成のための深層ネットワークを設計する。 ネットワークは、フィルタバックプロジェクション(fbp)層によってリンクされる2つのカスケードブロックで構成されており、前者はシンノグラムのデノーズと完了を担当し、後者はct画像のノイズとアーティファクトを除去するために使用される。 実験の結果,本手法による再構成ct画像は,平均でpsnrとssimが最も高い値を示した。

A CT image can be well reconstructed when the sampling rate of the sinogram satisfies the Nyquist criteria and the sampled signal is noise-free. However, in practice, the sinogram is usually contaminated by noise, which degrades the quality of a reconstructed CT image. In this paper, we design a deep network for sinogram and CT image reconstruction. The network consists of two cascaded blocks that are linked by a filter backprojection (FBP) layer, where the former block is responsible for denoising and completing the sinograms while the latter is used to removing the noise and artifacts of the CT images. Experimental results show that the reconstructed CT images by our methods have the highest PSNR and SSIM in average compared to state of the art methods.
翻訳日:2023-01-08 05:23:35 公開日:2020-01-20
# 行動分類のための合成データの利点

The benefits of synthetic data for action categorization ( http://arxiv.org/abs/2001.11091v1 )

ライセンス: Link先を確認
Mohamad Ballout, Mohammad Tuqan, Daniel Asmar, Elie Shammas, George Sakr(参考訳) 本稿では,アクション分類に用いるニューラルネットワークのトレーニングデータとして合成ビデオを使用することの価値について検討する。 映像のテクスチャと背景が光学フローにおいてほとんど重要な役割を果たさないという事実に動機づけられ、簡易なテクスチャレスと背景レスのビデオを作成し、合成データを用いてテンポラルセグメントネットワーク(tsn)を訓練した。 その結果、合成データを単純化してTSNを増強することで、元のネットワーク精度が68.5%向上し、HMDB-51では71.8%、8000本の動画を追加すると72.4%となった。 また、UCF-101の25のクラスで単純な合成ビデオを使用したトレーニングは2500のビデオで30.71%、5000ビデオで52.7%を達成した。 最後に、UCF-25の実際のビデオの数を10%に減らし、それらを合成ビデオと組み合わせると、精度は85.41%に低下し、合成データが加えられない場合は77.4%に低下した。

In this paper, we study the value of using synthetically produced videos as training data for neural networks used for action categorization. Motivated by the fact that texture and background of a video play little to no significant roles in optical flow, we generated simplified texture-less and background-less videos and utilized the synthetic data to train a Temporal Segment Network (TSN). The results demonstrated that augmenting TSN with simplified synthetic data improved the original network accuracy (68.5%), achieving 71.8% on HMDB-51 when adding 4,000 videos and 72.4% when adding 8,000 videos. Also, training using simplified synthetic videos alone on 25 classes of UCF-101 achieved 30.71% when trained on 2500 videos and 52.7% when trained on 5000 videos. Finally, results showed that when reducing the number of real videos of UCF-25 to 10% and combining them with synthetic videos, the accuracy drops to only 85.41%, compared to a drop to 77.4% when no synthetic data is added.
翻訳日:2023-01-08 05:23:21 公開日:2020-01-20
# ラベルフリー組織の微細・多重仮想染色による組織学的染色のディジタル合成

Digital synthesis of histological stains using micro-structured and multiplexed virtual staining of label-free tissue ( http://arxiv.org/abs/2001.07267v1 )

ライセンス: Link先を確認
Yijie Zhang, Kevin de Haan, Yair Rivenson, Jingxi Li, Apostolos Delis, Aydogan Ozcan(参考訳) 組織染色は様々な疾患の診断に必須のステップであり、1世紀以上にわたって組織切片との対比として用いられてきた。 しかし、このプロセスは時間がかかり、労働集約的であり、高価であり、標本に破壊的である。 近年,組織特異的深層神経回路を用いて,組織化学染色の段階を完全に回避する非標識組織切片を仮想的に維持する能力が実証されている。 本稿では,ユーザが定義したマイクロ構造マップに従って異なる汚れをマージするラベルのない組織を用いて,仮想的なステンド画像を生成するディープラーニングベースのフレームワークを提案する。 本手法では,(1)ラベルのない組織試料の自己蛍光像,(2)同じ組織部位で仮想的に発生する異なる染色の顕微鏡マップを表すデジタル染色マトリックスの2つの異なる情報ソースを入力時に受信する1つのディープニューラルネットワークを用いる。 このデジタル染色マトリックスは、既存の染色を仮想的にブレンドし、新しい組織染色をデジタル合成するためにも用いられる。 我々はこの仮想維持ネットワークを非標識腎臓組織切片を用いて訓練し、ヘマトキシリンとエオシン(h&e)、ジョーンズ銀染色、マッソンのトリクロム染色の微構造的組み合わせを生成した。 単一のネットワークを用いることで、ラベルのない組織の仮想染色を複数の種類の染色で多重化し、同じ組織断面上で生成できる新しいデジタル組織学的染色を合成する方法を舗装する。

Histological staining is a vital step used to diagnose various diseases and has been used for more than a century to provide contrast to tissue sections, rendering the tissue constituents visible for microscopic analysis by medical experts. However, this process is time-consuming, labor-intensive, expensive and destructive to the specimen. Recently, the ability to virtually-stain unlabeled tissue sections, entirely avoiding the histochemical staining step, has been demonstrated using tissue-stain specific deep neural networks. Here, we present a new deep learning-based framework which generates virtually-stained images using label-free tissue, where different stains are merged following a micro-structure map defined by the user. This approach uses a single deep neural network that receives two different sources of information at its input: (1) autofluorescence images of the label-free tissue sample, and (2) a digital staining matrix which represents the desired microscopic map of different stains to be virtually generated at the same tissue section. This digital staining matrix is also used to virtually blend existing stains, digitally synthesizing new histological stains. We trained and blindly tested this virtual-staining network using unlabeled kidney tissue sections to generate micro-structured combinations of Hematoxylin and Eosin (H&E), Jones silver stain, and Masson's Trichrome stain. Using a single network, this approach multiplexes virtual staining of label-free tissue with multiple types of stains and paves the way for synthesizing new digital histological stains that can be created on the same tissue cross-section, which is currently not feasible with standard histochemical staining methods.
翻訳日:2023-01-08 05:23:00 公開日:2020-01-20
# 部分空間における最もスパースなベクトルの探索:理論、アルゴリズム、および応用

Finding the Sparsest Vectors in a Subspace: Theory, Algorithms, and Applications ( http://arxiv.org/abs/2001.06970v1 )

ライセンス: Link先を確認
Qing Qu, Zhihui Zhu, Xiao Li, Manolis C. Tsakiris, John Wright, and Ren\'e Vidal(参考訳) 低次元部分空間におけるスパースベクトル(方向)を見つける問題はスパースリカバリ問題の均一な変種と見なすことができ、これはロバストな部分空間回復、辞書学習、スパースブラインドデコンボリューション、その他の信号処理や機械学習における多くの問題に応用されている。 しかし、古典的なスパース回復問題とは対照的に、部分空間において最もスパースベクトルを見つけるための最も自然な定式化は通常非凸である。 本稿では,この問題を解決するための大域的非凸最適化理論の最近の進歩を概説する。最適化ランドスケープの幾何学的解析から,関連する非凸最適化問題を解くための効率的な最適化アルゴリズム,マシンインテリジェンス,表現学習,画像科学の応用などである。 最後に、今後の研究における興味深いオープンな問題をいくつか挙げて、このレビューを締めくくる。

The problem of finding the sparsest vector (direction) in a low dimensional subspace can be considered as a homogeneous variant of the sparse recovery problem, which finds applications in robust subspace recovery, dictionary learning, sparse blind deconvolution, and many other problems in signal processing and machine learning. However, in contrast to the classical sparse recovery problem, the most natural formulation for finding the sparsest vector in a subspace is usually nonconvex. In this paper, we overview recent advances on global nonconvex optimization theory for solving this problem, ranging from geometric analysis of its optimization landscapes, to efficient optimization algorithms for solving the associated nonconvex optimization problem, to applications in machine intelligence, representation learning, and imaging sciences. Finally, we conclude this review by pointing out several interesting open problems for future research.
翻訳日:2023-01-08 05:22:31 公開日:2020-01-20
# 道徳的感情変化のテキストベース推論

Text-based inference of moral sentiment change ( http://arxiv.org/abs/2001.07209v1 )

ライセンス: Link先を確認
Jing Yi Xie, Renato Ferreira Pinto Jr., Graeme Hirst, Yang Xu(参考訳) 本稿では,縦型コーパスによる公衆の道徳的感情変化を調査するためのテキストベースの枠組みを提案する。 我々のフレームワークは、言語の使用が人々の善悪に対する道徳的認識を知らせる、という前提に基づいており、ダイアクロニックな単語の埋め込みから学んだ道徳的バイアスを探索することによって、方法論を構築している。 パラメータフリーモデルが、道徳的関連性、道徳的極性、きめ細かい道徳的次元という3つの段階において、何世紀にもわたって奴隷制や民主主義といった概念に対する道徳的感情の歴史的シフトの推論をサポートするかを示す。 本研究では,個別概念の道徳的時間経過を可視化し,心理言語学的変数と大規模道徳的感情変化率との関係を分析する。 我々の研究は、社会における道徳的感情の変化を特徴づけるために自然言語処理を適用する機会を提供する。

We present a text-based framework for investigating moral sentiment change of the public via longitudinal corpora. Our framework is based on the premise that language use can inform people's moral perception toward right or wrong, and we build our methodology by exploring moral biases learned from diachronic word embeddings. We demonstrate how a parameter-free model supports inference of historical shifts in moral sentiment toward concepts such as slavery and democracy over centuries at three incremental levels: moral relevance, moral polarity, and fine-grained moral dimensions. We apply this methodology to visualizing moral time courses of individual concepts and analyzing the relations between psycholinguistic variables and rates of moral sentiment change at scale. Our work offers opportunities for applying natural language processing toward characterizing moral sentiment change in society.
翻訳日:2023-01-08 05:22:15 公開日:2020-01-20
# テキストシーケンスマッチングのための変換器の多段階頭部マッチングと集約

Multi-level Head-wise Match and Aggregation in Transformer for Textual Sequence Matching ( http://arxiv.org/abs/2001.07234v1 )

ライセンス: Link先を確認
Shuohang Wang, Yunshi Lan, Yi Tay, Jing Jiang, Jingjing Liu(参考訳) Transformerは多くの自然言語処理タスクにうまく適用されている。 しかし、テキストのシーケンスマッチングでは、ペアの配列表現間の単純なマッチングが不要なノイズをもたらす可能性がある。 本稿では,複数のレベルにおける頭部のマッチング表現を学習し,Transformerとのシーケンスマッチングの新しい手法を提案する。 提案手法は,SNLI,MNLI-match,MNLI-mismatch,QQP,SQuAD-binaryなど,事前に計算されたシーケンスベクトル表現のみに依存する複数のタスクに対して,新たな最先端性能を実現することができることを示す。

Transformer has been successfully applied to many natural language processing tasks. However, for textual sequence matching, simple matching between the representation of a pair of sequences might bring in unnecessary noise. In this paper, we propose a new approach to sequence pair matching with Transformer, by learning head-wise matching representations on multiple levels. Experiments show that our proposed approach can achieve new state-of-the-art performance on multiple tasks that rely only on pre-computed sequence-vector-representation, such as SNLI, MNLI-match, MNLI-mismatch, QQP, and SQuAD-binary.
翻訳日:2023-01-08 05:21:57 公開日:2020-01-20
# 新しい画像デハジングおよび評価方法

A Novel Image Dehazing and Assessment Method ( http://arxiv.org/abs/2001.06963v1 )

ライセンス: Link先を確認
Saad Bin Sami, Abdul Muqeet, Humera Tariq(参考訳) 異常な気象条件で撮影された画像は、しばしば色のコントラストと色再現性に苦しむ。 この劣化は、減衰量を表す透過マップと、添加音の色を表すエアライトによって表現される。 本稿では,風光量の推定にあいまいさがあるため,風光量ではなくヘイズレベルを用いて送信マップを推定する手法を提案する。 提案手法の質的,定量的結果は,提案手法の競争力を示す。 また,自然屋外画像の統計に基づく2つの指標を提案し,ヘイズ除去アルゴリズムの評価を行った。

Images captured in hazy weather conditions often suffer from color contrast and color fidelity. This degradation is represented by transmission map which represents the amount of attenuation and airlight which represents the color of additive noise. In this paper, we have proposed a method to estimate the transmission map using haze levels instead of airlight color since there are some ambiguities in estimation of airlight. Qualitative and quantitative results of proposed method show competitiveness of the method given. In addition we have proposed two metrics which are based on statistics of natural outdoor images for assessment of haze removal algorithms.
翻訳日:2023-01-08 05:21:29 公開日:2020-01-20
# ディープニューラルネットワークトレーニングにおけるデータ品質の影響

Impact of Data Quality on Deep Neural Network Training ( http://arxiv.org/abs/2002.03732v1 )

ライセンス: Link先を確認
Subrata Goswami(参考訳) データがニューラルネットワークのトレーニングに重要であることはよく知られている。 ネットワークのトレーニングに十分な量のデータについて書かれています。 しかし、そのようなネットワークがデータ品質に与える影響についてはあまり発表されていない。 優れたデータと見なされるもの(タスクのために)に関する情報が不足している。 この実証実験では、データ品質の影響について調べる。 論文では、単純な変更が平均精度(mAP)にどのように影響するかを示す。

It is well known that data is critical for training neural networks. Lot have been written about quantities of data required to train networks well. However, there is not much publications on how data quality effects convergence of such networks. There is dearth of information on what is considered good data ( for the task ). This empirical experimental study explores some impacts of data quality. Specific results are shown in the paper how simple changes can have impact on Mean Average Precision (mAP).
翻訳日:2023-01-08 05:14:35 公開日:2020-01-20
# UR2KiD: 局所対応を伴わない検索,キーポイント検出,キーポイント記述の統合

UR2KiD: Unifying Retrieval, Keypoint Detection, and Keypoint Description without Local Correspondence Supervision ( http://arxiv.org/abs/2001.07252v1 )

ライセンス: Link先を確認
Tsun-Yi Yang and Duy-Kien Nguyen and Huub Heijnen and Vassileios Balntas(参考訳) 本稿では,キーポイント検出,記述,画像検索という3つの関連タスクを,ポイント対ポイント対応を伴うデータトレーニングを必要とせず,単一の統合フレームワークを用いて協調的に行う方法について検討する。 標準ResNetアーキテクチャのシーケンシャルレイヤからの多様な情報を活用することで、ローカルアクティベーションノルム、チャネルのグルーピングとドロップ、自己蒸留といった一般的な技術を用いて、ローカル情報を符号化するキーポイントと記述子を抽出することができる。 その後、上記ローカル応答のプーリングに基づいて、画像検索のためのグローバル情報をエンドツーエンドパイプラインに符号化する。 局所マッチングにおける従来の手法とは対照的に,本手法はポイントワイド/ピクセルワイド対応には依存せず,SfMモデルからの深度マップも手作業で作成した合成アフィン変換も不要である。 この単純かつ直接的なパラダイムは、視点変化、スケール変化、夜間シフトローカライゼーションなど、様々な挑戦的なベンチマーク条件において、最先端の手法に対して非常に競争力のある結果が得られることを示す。

In this paper, we explore how three related tasks, namely keypoint detection, description, and image retrieval can be jointly tackled using a single unified framework, which is trained without the need of training data with point to point correspondences. By leveraging diverse information from sequential layers of a standard ResNet-based architecture, we are able to extract keypoints and descriptors that encode local information using generic techniques such as local activation norms, channel grouping and dropping, and self-distillation. Subsequently, global information for image retrieval is encoded in an end-to-end pipeline, based on pooling of the aforementioned local responses. In contrast to previous methods in local matching, our method does not depend on pointwise/pixelwise correspondences, and requires no such supervision at all i.e. no depth-maps from an SfM model nor manually created synthetic affine transformations. We illustrate that this simple and direct paradigm, is able to achieve very competitive results against the state-of-the-art methods in various challenging benchmark conditions such as viewpoint changes, scale changes, and day-night shifting localization.
翻訳日:2023-01-08 05:14:29 公開日:2020-01-20
# 確率的完全探索による強化学習

Reinforcement Learning with Probabilistically Complete Exploration ( http://arxiv.org/abs/2001.06940v1 )

ライセンス: Link先を確認
Philippe Morere, Gilad Francis, Tom Blau, Fabio Ramos(参考訳) 探究と搾取のバランスをとることは、強化学習(RL)における重要な課題である。 最先端のRLアルゴリズムは、特にスパース報酬の場合、第1の正の報酬が見つかるまで全方向を探索することしかできないような、高いサンプル複雑さに悩まされている。 これを軽減するために,R3L(Rapidly Randomly-Exploring Reinforcement Learning)を提案する。 探索問題を探索問題として定式化し,RRT(Rapidly-Exploring Random Tree)などの計画アルゴリズムを用いて初期解を求める。 これらの解はポリシーを初期化するためのデモとして使われ、その後汎用RLアルゴリズムによって洗練され、より速くより安定した収束をもたらす。 我々は、R3L探索が成功する解を見つけることの理論的保証と、そのサンプリング複雑性の限界を提供する。 実験により,本手法は古典的,本質的な探査技術より優れており,少数の探索サンプルが必要であり,漸近的性能が向上することを示した。

Balancing exploration and exploitation remains a key challenge in reinforcement learning (RL). State-of-the-art RL algorithms suffer from high sample complexity, particularly in the sparse reward case, where they can do no better than to explore in all directions until the first positive rewards are found. To mitigate this, we propose Rapidly Randomly-exploring Reinforcement Learning (R3L). We formulate exploration as a search problem and leverage widely-used planning algorithms such as Rapidly-exploring Random Tree (RRT) to find initial solutions. These solutions are used as demonstrations to initialize a policy, then refined by a generic RL algorithm, leading to faster and more stable convergence. We provide theoretical guarantees of R3L exploration finding successful solutions, as well as bounds for its sampling complexity. We experimentally demonstrate the method outperforms classic and intrinsic exploration techniques, requiring only a fraction of exploration samples and achieving better asymptotic performance.
翻訳日:2023-01-08 05:13:51 公開日:2020-01-20
# CNNベースのInSARデノベーションとコヒーレンスメトリクス

CNN-based InSAR Denoising and Coherence Metric ( http://arxiv.org/abs/2001.06954v1 )

ライセンス: Link先を確認
Subhayan Mukherjee, Aaron Zimmer, Navaneeth Kamballur Kottayil, Xinyao Sun, Parwant Ghuman, Irene Cheng(参考訳) 地中を反射するマイクロ波をベースとした地中移動推定のためのインターフェロメトリ合成開口レーダ(InSAR)画像は,リモートセンシングにおいてますます重要になっている。 しかし、ノイズは衛星で受信されたマイクロ波反射を損ね、信号の包み込み位相を汚染する。 本稿では,この問題領域に畳み込みニューラルネットワーク(cnns)を導入し,クリーンな地盤真理画像がない場合のinsar画像デノイジングフィルタ学習と,トレーニングデータのインテリジェントな前処理による推定コヒーレンスのアーティファクト削減のためのオートエンコーダcnnアーキテクチャの有効性を示す。 提案手法の優越性を示す4つの確立した手法と比較した。

Interferometric Synthetic Aperture Radar (InSAR) imagery for estimating ground movement, based on microwaves reflected off ground targets is gaining increasing importance in remote sensing. However, noise corrupts microwave reflections received at satellite and contaminates the signal's wrapped phase. We introduce Convolutional Neural Networks (CNNs) to this problem domain and show the effectiveness of autoencoder CNN architectures to learn InSAR image denoising filters in the absence of clean ground truth images, and for artefact reduction in estimated coherence through intelligent preprocessing of training data. We compare our results with four established methods to illustrate superiority of proposed method.
翻訳日:2023-01-08 05:13:35 公開日:2020-01-20
# CNNに基づくInSARコヒーレンス分類

CNN-based InSAR Coherence Classification ( http://arxiv.org/abs/2001.06956v1 )

ライセンス: Link先を確認
Subhayan Mukherjee, Aaron Zimmer, Xinyao Sun, Parwant Ghuman, and Irene Cheng(参考訳) 地中移動推定のためのリモートセンシングにおいて,地中目標から反射するマイクロ波に基づく干渉計測合成開口レーダ(InSAR)画像の重要性が高まっている。 しかし、反射はノイズによって汚染され、シグナルの包み込み位相が歪む。 汚染度(コヒーレンス)に基づく画像領域の区切りは、InSAR処理パイプラインの重要なコンポーネントである。 本稿では,この問題領域に畳み込みニューラルネットワーク(cnns)を導入し,学習データのインテリジェントな前処理によるコヒーレンスに基づく境界分割の改善と完全非一貫性領域における誤分類の低減効果を示す。 定量的および定性的な比較は、3つの確立された方法よりも提案手法の方が優れていることを示す。

Interferometric Synthetic Aperture Radar (InSAR) imagery based on microwaves reflected off ground targets is becoming increasingly important in remote sensing for ground movement estimation. However, the reflections are contaminated by noise, which distorts the signal's wrapped phase. Demarcation of image regions based on degree of contamination ("coherence") is an important component of the InSAR processing pipeline. We introduce Convolutional Neural Networks (CNNs) to this problem domain and show their effectiveness in improving coherence-based demarcation and reducing misclassifications in completely incoherent regions through intelligent preprocessing of training data. Quantitative and qualitative comparisons prove superiority of proposed method over three established methods.
翻訳日:2023-01-08 05:13:21 公開日:2020-01-20
# フィルタ性能最適化のためのCNNに基づくリアルタイムパラメータチューニング

CNN-Based Real-Time Parameter Tuning for Optimizing Denoising Filter Performance ( http://arxiv.org/abs/2001.06961v1 )

ライセンス: Link先を確認
Subhayan Mukherjee, Navaneeth Kamballur Kottayil, Xinyao Sun, and Irene Cheng(参考訳) 本稿では、畳み込みニューラルネットワーク(CNN)を用いて、最適なフィルタパラメータ値を予測することにより、フィルタリングに基づく復調アルゴリズムの品質をリアルタイムで向上する新しい方向を提案する。 我々は,最先端のフィルタリングに基づく denoising アルゴリズム BM3D を用いて,我々のアプローチを実証し,検証する。 入力ノイズ画像から, 最適フィルタパラメータ値をリアルタイムに予測するために, 単純で浅いCNNを提案し, 訓練する。 各トレーニング例は、ノイズの多い入力画像(トレーニングデータ)と、最良の出力(トレーニングラベル)を生成するフィルタパラメータ値で構成される。 BSD68データセット上で広く使われているPSNRとSSIMのメトリクスを用いた定性的および定量的結果は、CNN誘導BM3Dが、異なるノイズレベルにわたって元のBM3Dより優れていることを示している。 そこで本提案手法は,全画像に対するデフォルト値の固定値を用いた元のbm3dに対するcnnによる改善である。

We propose a novel direction to improve the denoising quality of filtering-based denoising algorithms in real time by predicting the best filter parameter value using a Convolutional Neural Network (CNN). We take the use case of BM3D, the state-of-the-art filtering-based denoising algorithm, to demonstrate and validate our approach. We propose and train a simple, shallow CNN to predict in real time, the optimum filter parameter value, given the input noisy image. Each training example consists of a noisy input image (training data) and the filter parameter value that produces the best output (training label). Both qualitative and quantitative results using the widely used PSNR and SSIM metrics on the popular BSD68 dataset show that the CNN-guided BM3D outperforms the original, unguided BM3D across different noise levels. Thus, our proposed method is a CNN-based improvement on the original BM3D which uses a fixed, default parameter value for all images.
翻訳日:2023-01-08 05:13:10 公開日:2020-01-20
# 教師なし学習における混合整数プログラミングの定式化

Mixed integer programming formulation of unsupervised learning ( http://arxiv.org/abs/2001.07278v1 )

ライセンス: Link先を確認
Arturo Berrones-Santos(参考訳) 混合二項二次実現可能性問題の観点から、ボルツマンマシンの新規な定式化および訓練手順を与える。 概念実証として、この理論はXORパターンを解析的に、数値的に検証する。

A novel formulation and training procedure for full Boltzmann machines in terms of a mixed binary quadratic feasibility problem is given. As a proof of concept, the theory is analytically and numerically tested on XOR patterns.
翻訳日:2023-01-08 05:12:51 公開日:2020-01-20
# 項グラフによる短いテキストの分類

Short Text Classification via Term Graph ( http://arxiv.org/abs/2001.10338v1 )

ライセンス: Link先を確認
Wei Pang(参考訳) ショートテキストクラスのカチオン(Short Text Classi cation)は、先行ラベルで短い文を分類する方法である。 しかし、短いテキストはテキスト長の短さに制限されており、スパース機能の問題につながる。 既存の方法のほとんどは、各短文を独立して、同一の分散(iid)として扱い、文自体にのみ局所的な文脈が集中し、文間の関係情報が失われる。 そこで,これらの制約を克服するために,グラフネットワークの強みと短文を組み合わせて,短文のばらばらさを解消するパスウォークモデルを提案する。 4つの異なるデータセットに対する実験結果から,我々のPathWalk法は最先端の結果を達成し,グラフネットワークの短文分類における効率性と堅牢性を示す。

Short text classi cation is a method for classifying short sentence with prede ned labels. However, short text is limited in shortness in text length that leads to a challenging problem of sparse features. Most of existing methods treat each short sentences as independently and identically distributed (IID), local context only in the sentence itself is focused and the relational information between sentences are lost. To overcome these limitations, we propose a PathWalk model that combine the strength of graph networks and short sentences to solve the sparseness of short text. Experimental results on four different available datasets show that our PathWalk method achieves the state-of-the-art results, demonstrating the efficiency and robustness of graph networks for short text classification.
翻訳日:2023-01-08 05:12:48 公開日:2020-01-20
# コード混合データの教師なし感性解析

Unsupervised Sentiment Analysis for Code-mixed Data ( http://arxiv.org/abs/2001.11384v1 )

ライセンス: Link先を確認
Siddharth Yadav, Tanmoy Chakraborty(参考訳) コード混合(code-mixing)は、2つ以上の言語を交互に使用するプラクティスである。 多言語社会では、その出現が増加し、その重要性が増している。 感情分析研究の主要な部分は単言語であり、そのほとんどがコード混合テキストの処理が不十分である。 本研究では,多言語および多言語間の埋め込みを用いて,モノリンガルテキストからコード混合テキストへの知識伝達を効率よく行う手法を提案する。 ゼロショット学習により、コード混合テキストを処理できる。 我々の手法は、英語とスペイン語のコード混合感情分析において、絶対3倍のF1スコアで最先端を破る。 我々は同じベンチマークで0.58F1スコア(並列コーパスなしで)と0.62F1スコア(並列コーパスなしで)をゼロショットで達成することができる。 私たちのコードは公開されています。

Code-mixing is the practice of alternating between two or more languages. Mostly observed in multilingual societies, its occurrence is increasing and therefore its importance. A major part of sentiment analysis research has been monolingual, and most of them perform poorly on code-mixed text. In this work, we introduce methods that use different kinds of multilingual and cross-lingual embeddings to efficiently transfer knowledge from monolingual text to code-mixed text for sentiment analysis of code-mixed text. Our methods can handle code-mixed text through a zero-shot learning. Our methods beat state-of-the-art on English-Spanish code-mixed sentiment analysis by absolute 3\% F1-score. We are able to achieve 0.58 F1-score (without parallel corpus) and 0.62 F1-score (with parallel corpus) on the same benchmark in a zero-shot way as compared to 0.68 F1-score in supervised settings. Our code is publicly available.
翻訳日:2023-01-08 05:05:22 公開日:2020-01-20
# シーケンス生成のためのnested-wasserstein自己模倣学習

Nested-Wasserstein Self-Imitation Learning for Sequence Generation ( http://arxiv.org/abs/2001.06944v1 )

ライセンス: Link先を確認
Ruiyi Zhang, Changyou Chen, Zhe Gan, Zheng Wen, Wenlin Wang, Lawrence Carin(参考訳) 強化学習(RL)はシーケンス生成モデルを改善するために広く研究されている。 しかしながら、rlトレーニングで使用される従来の報酬は、十分な意味情報をキャプチャできないため、モデルバイアスをレンダリングする。 さらに、スパースと遅延報酬はRL探索を非効率にする。 これらの問題を緩和するために、分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。 これをさらに活用するために、ネストされたワッサースタイン自己模倣学習フレームワークが開発され、探索の強化とセマンティックマッチングの改善のために、歴史的高次シーケンスを活用することが奨励されている。 提案手法は,wasserstein trust-regionsを用いた近位政策最適化の概略実行と解釈できる。 様々な非条件および条件付きシーケンス生成タスクの実験は、提案手法が一貫して性能改善につながることを示す。

Reinforcement learning (RL) has been widely studied for improving sequence-generation models. However, the conventional rewards used for RL training typically cannot capture sufficient semantic information and therefore render model bias. Further, the sparse and delayed rewards make RL exploration inefficient. To alleviate these issues, we propose the concept of nested-Wasserstein distance for distributional semantic matching. To further exploit it, a novel nested-Wasserstein self-imitation learning framework is developed, encouraging the model to exploit historical high-rewarded sequences for enhanced exploration and better semantic matching. Our solution can be understood as approximately executing proximal policy optimization with Wasserstein trust-regions. Experiments on a variety of unconditional and conditional sequence-generation tasks demonstrate the proposed approach consistently leads to improved performance.
翻訳日:2023-01-08 05:04:55 公開日:2020-01-20
# 生成型adversarial networkのレビュー : アルゴリズム,理論,応用

A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications ( http://arxiv.org/abs/2001.06937v1 )

ライセンス: Link先を確認
Jie Gui, Zhenan Sun, Yonggang Wen, Dacheng Tao, Jieping Ye(参考訳) GAN(Generative Adversarial Network)は近年ホットな研究トピックである。 GANは2014年から広く研究され、多くのアルゴリズムが提案されている。 しかし、gansの異なる変異種間の関係とそれらの進化を説明する包括的な研究は少ない。 本稿では,アルゴリズム,理論,応用の観点から,様々なGAN手法のレビューを行う。 まず、ほとんどのGANアルゴリズムのモチベーション、数学的表現、構造を詳細に紹介する。 さらにganは、半教師付き学習、転送学習、強化学習など、特定の用途のために他の機械学習アルゴリズムと組み合わせられている。 本稿では,これらのGAN手法の共通点と相違点を比較する。 第2に, GANに関する理論的問題について検討した。 第3に、画像処理やコンピュータビジョン、自然言語処理、音楽、音声、音声、医療分野、データサイエンスにおけるganの典型的な応用について述べる。 最後に, GANの今後のオープンな研究課題を指摘する。

Generative adversarial networks (GANs) are a hot research topic recently. GANs have been widely studied since 2014, and a large number of algorithms have been proposed. However, there is few comprehensive study explaining the connections among different GANs variants, and how they have evolved. In this paper, we attempt to provide a review on various GANs methods from the perspectives of algorithms, theory, and applications. Firstly, the motivations, mathematical representations, and structure of most GANs algorithms are introduced in details. Furthermore, GANs have been combined with other machine learning algorithms for specific applications, such as semi-supervised learning, transfer learning, and reinforcement learning. This paper compares the commonalities and differences of these GANs methods. Secondly, theoretical issues related to GANs are investigated. Thirdly, typical applications of GANs in image processing and computer vision, natural language processing, music, speech and audio, medical field, and data science are illustrated. Finally, the future open research problems for GANs are pointed out.
翻訳日:2023-01-08 05:04:21 公開日:2020-01-20
# プロジェクションに基づくパレートフロントモデリングのためのアクティブガウスプロセス回帰

Projection based Active Gaussian Process Regression for Pareto Front Modeling ( http://arxiv.org/abs/2001.07072v1 )

ライセンス: Link先を確認
Zhengqi Gao, Jun Tao, Yangfeng Su, Dian Zhou, and Xuan Zeng(参考訳) パレートフロント(Pareto Front、PF)モデリングは、経済学、医学、工学などあらゆる分野における意思決定に不可欠である。 運用研究文献では、この課題は多目的最適化アルゴリズムに基づいて解決されている。 しかし, PF の学習モデルがなければ, 新たに与えられた点が PF 上に存在するかどうかを調べることはできない。 本稿では,データマイニングの観点からタスクを再考する。 効率的なpfモデリングのために,新しい投影型アクティブガウス過程回帰 (p-agpr) 法を提案する。 第一に、P-aGPRは低から高の次元を持つ一連の射影空間を選択する。 次に、各射影空間において、その空間においてPFが満たすべき制約を表現するためにガウス過程回帰(GPR)モデルを訓練する。 また,モデリングの有効性と安定性を向上させるため,gprモデルで得られた不確実性情報を活用したアクティブラーニングフレームワークを開発した。 既存のP-aGPR法と異なり,提案手法は生成的PFモデルを提供するだけでなく,提供された点がPF上にあるか否かを高速に検証する。 その結果,最新のパッシブ学習法と比較して,提案手法は高いモデリング精度と安定性を実現できることがわかった。

Pareto Front (PF) modeling is essential in decision making problems across all domains such as economics, medicine or engineering. In Operation Research literature, this task has been addressed based on multi-objective optimization algorithms. However, without learning models for PF, these methods cannot examine whether a new provided point locates on PF or not. In this paper, we reconsider the task from Data Mining perspective. A novel projection based active Gaussian process regression (P- aGPR) method is proposed for efficient PF modeling. First, P- aGPR chooses a series of projection spaces with dimensionalities ranking from low to high. Next, in each projection space, a Gaussian process regression (GPR) model is trained to represent the constraint that PF should satisfy in that space. Moreover, in order to improve modeling efficacy and stability, an active learning framework has been developed by exploiting the uncertainty information obtained in the GPR models. Different from all existing methods, our proposed P-aGPR method can not only provide a generative PF model, but also fast examine whether a provided point locates on PF or not. The numerical results demonstrate that compared to state-of-the-art passive learning methods the proposed P-aGPR method can achieve higher modeling accuracy and stability.
翻訳日:2023-01-08 05:04:06 公開日:2020-01-20
# カーネル平均埋め込み仕様の削減によるモデル再利用

Model Reuse with Reduced Kernel Mean Embedding Specification ( http://arxiv.org/abs/2001.07135v1 )

ライセンス: Link先を確認
Xi-Zhu Wu, Wenkai Xu, Song Liu, and Zhi-Hua Zhou(参考訳) さまざまなタスク用に構築された機械学習モデルの公開プールを考えると、ユーザが自身の機械学習アプリケーション用にモデルを構築する計画がある場合、既存のモデルに対する以前の取り組みをスクラッチからではなく再利用できるように、プール内のモデルを構築することは可能か? ここでの大きな課題は、プール内のモデルの生のトレーニングデータにアクセスすることなく、現在のアプリケーションに役立つモデルを見つける方法です。 本稿では,二段階の枠組みを提案する。 アップロードフェーズでは、モデルがプールにアップロードされるとき、モデルの仕様として還元されたカーネル平均埋め込み(rkme)を構築します。 次に、展開段階では、rkme仕様の値に基づいて、現在のタスクと事前学習済みモデルの関連度を測定する。 理論的結果と広範な実験により,本手法の有効性が検証された。

Given a publicly available pool of machine learning models constructed for various tasks, when a user plans to build a model for her own machine learning application, is it possible to build upon models in the pool such that the previous efforts on these existing models can be reused rather than starting from scratch? Here, a grand challenge is how to find models that are helpful for the current application, without accessing the raw training data for the models in the pool. In this paper, we present a two-phase framework. In the upload phase, when a model is uploading into the pool, we construct a reduced kernel mean embedding (RKME) as a specification for the model. Then in the deployment phase, the relatedness of the current task and pre-trained models will be measured based on the value of the RKME specification. Theoretical results and extensive experiments validate the effectiveness of our approach.
翻訳日:2023-01-08 05:03:45 公開日:2020-01-20
# アンサンブルクラスタリングにおける異種転送学習

Heterogeneous Transfer Learning in Ensemble Clustering ( http://arxiv.org/abs/2001.07155v1 )

ライセンス: Link先を確認
Vladimir Berikov(参考訳) 本稿では,転送学習手法を用いたアンサンブルクラスタリング手法を提案する。 我々は,検討中のデータに加えて,ラベル付きデータの「類似性」も考慮したクラスタリング問題を考える。 データセットは、異なる特徴で記述できる。 本手法は,データの構造特性を記述したメタ機能の構築と,ソースからターゲットドメインへの転送に基づく。 モンテカルロモデルを用いた実験により,その効率性が確認された。 他の類似した手法と比較して、提案手法はソースドメインとターゲットドメインの任意の特徴記述の下で動作することができる。

This work proposes an ensemble clustering method using transfer learning approach. We consider a clustering problem, in which in addition to data under consideration, "similar" labeled data are available. The datasets can be described with different features. The method is based on constructing meta-features which describe structural characteristics of data, and their transfer from source to target domain. An experimental study of the method using Monte Carlo modeling has confirmed its efficiency. In comparison with other similar methods, the proposed one is able to work under arbitrary feature descriptions of source and target domains; it has smaller complexity.
翻訳日:2023-01-08 05:03:33 公開日:2020-01-20
# 臨床的に有意な黄斑浮腫自動スクリーニングのための効率的な枠組み

An Efficient Framework for Automated Screening of Clinically Significant Macular Edema ( http://arxiv.org/abs/2001.07002v1 )

ライセンス: Link先を確認
Renoh Johnson Chalakkal, Faizal Hafiz, Waleed Abdulla, and Akshya Swain(参考訳) 本研究は, 臨床上重要な黄斑浮腫 (CSME) の自動スクリーニングへの新たなアプローチを提案し, このようなスクリーニングに関連する2つの大きな課題,すなわち, セグメンテーションと不均衡データセットに対処する。 提案手法は,事前学習したディープニューラルネットワークとメタヒューリスティックな特徴選択を組み合わせることで,従来の排他的セグメンテーションに基づく特徴抽出を置き換える。 スクリューデータセットの効果を克服するために,機能空間のオーバーサンプリング技術が用いられ,k-NNベースの分類器によってスクリーニングが実現されている。 各データ処理ステップ(例えば、クラスバランス、特徴選択)の役割と、分類性能に対する関心領域と関心領域の制限の影響を批判的に分析する。 最後に、受信者動作特性曲線に対する操作点の選択と意味について論じる。 本研究は,これらの機械学習の基本的実践に従えば,基本的なk-NNに基づく分類器がCSMEスクリーニングを効果的に達成できることを示すものである。

The present study proposes a new approach to automated screening of Clinically Significant Macular Edema (CSME) and addresses two major challenges associated with such screenings, i.e., exudate segmentation and imbalanced datasets. The proposed approach replaces the conventional exudate segmentation based feature extraction by combining a pre-trained deep neural network with meta-heuristic feature selection. A feature space over-sampling technique is being used to overcome the effects of skewed datasets and the screening is accomplished by a k-NN based classifier. The role of each data-processing step (e.g., class balancing, feature selection) and the effects of limiting the region-of-interest to fovea on the classification performance are critically analyzed. Finally, the selection and implication of operating point on Receiver Operating Characteristic curve are discussed. The results of this study convincingly demonstrate that by following these fundamental practices of machine learning, a basic k-NN based classifier could effectively accomplish the CSME screening.
翻訳日:2023-01-08 04:57:34 公開日:2020-01-20
# 分割線形近似による解釈可能なニューラルネットワークモデル

An interpretable neural network model through piecewise linear approximation ( http://arxiv.org/abs/2001.07119v1 )

ライセンス: Link先を確認
Mengzhuo Guo, Qingpeng Zhang, Xiuwu Liao, Daniel Dajun Zeng(参考訳) 既存の解釈可能な手法の多くは、ブラックボックスモデルをポストホックな方法で説明し、より単純なモデルやデータ分析技術を使ってモデルが学習された後の予測を解釈する。 しかし 彼らは (a)異なる方法及びデータサンプルが与えられた同一の予測に関する矛盾した説明を導出することができる。 b) 予測精度を犠牲にして、より単純なモデルを用いて記述精度を高めることに焦点を当てる。 これらの問題に対処するため,線形成分と非線形成分を組み合わせたハイブリッド解釈モデルを提案する。 最初のコンポーネントは、モデルの表現性を高めるために、一括線形近似による明示的な特徴貢献を記述する。 他のコンポーネントは多層パーセプトロンを使用して特徴相互作用と暗黙の非線形性をキャプチャし、予測性能を向上させる。 ポストホックアプローチとは異なり、モデルが特徴形状の形で学習されると解釈可能性が得られる。 また,機能間の高次相互作用を探索し,提案モデルが適応に柔軟であることを実証する。 実験により,提案モデルは,最先端の精度を維持しつつ,特徴形状を記述し,良好な解釈性が得られることを示した。

Most existing interpretable methods explain a black-box model in a post-hoc manner, which uses simpler models or data analysis techniques to interpret the predictions after the model is learned. However, they (a) may derive contradictory explanations on the same predictions given different methods and data samples, and (b) focus on using simpler models to provide higher descriptive accuracy at the sacrifice of prediction accuracy. To address these issues, we propose a hybrid interpretable model that combines a piecewise linear component and a nonlinear component. The first component describes the explicit feature contributions by piecewise linear approximation to increase the expressiveness of the model. The other component uses a multi-layer perceptron to capture feature interactions and implicit nonlinearity, and increase the prediction performance. Different from the post-hoc approaches, the interpretability is obtained once the model is learned in the form of feature shapes. We also provide a variant to explore higher-order interactions among features to demonstrate that the proposed model is flexible for adaptation. Experiments demonstrate that the proposed model can achieve good interpretability by describing feature shapes while maintaining state-of-the-art accuracy.
翻訳日:2023-01-08 04:55:51 公開日:2020-01-20
# ディープラーニングを用いた小型ヒューマノイドロボットのリアルタイム物体検出と認識

Real-Time Object Detection and Recognition on Low-Compute Humanoid Robots using Deep Learning ( http://arxiv.org/abs/2002.03735v1 )

ライセンス: Link先を確認
Sayantan Chatterjee, Faheem H. Zunjani, Souvik Sen and Gora C. Nandi(参考訳) 近い将来、ヒューマノイドロボットはホームスペースを共有し、オブジェクト操作を通じて日常的および日常的な活動を支援することを想定しています。 ロボットのために開発されるために必要な基本的な技術のひとつは、オブジェクトを検出し、効果的な操作のために認識し、それらのオブジェクトをリアルタイムに決定できるようにすることだ。 本稿では、複数の低計算NAOロボットがカメラビュー内の物体のリアルタイム検出、認識、位置決めを行い、検出された物体に基づいてプログラム可能な動作を行うことを可能にする新しいアーキテクチャについて述べる。 提案する物体検出と局所化のアルゴリズムは、複数のシナリオにおける屋内実験に基づくyolov3の実証的修正であり、重量が小さく、計算量も少ない。 コンボリューションのための重みの量子化とフィルタサイズの再調整および層配置により、ロボットカメラフィードからの低解像度画像の推論時間が改善された。 YOLOv3は、情報保持率、低い推論時間、リアルタイム物体の検出と位置決めのための高精度なバランスを打つアルゴリズムを選択する目的で、バウンディングボックスアルゴリズムの比較研究を行った後、選択された。 このアーキテクチャはまた、カメラフィードからリアルタイムフレームをニューラルネットワークに供給し、検出されたクラスラベルに対応するカスタマイズ可能なアクションでロボットを誘導する効果的なエンドツーエンドパイプラインを備える。

We envision that in the near future, humanoid robots would share home space and assist us in our daily and routine activities through object manipulations. One of the fundamental technologies that need to be developed for robots is to enable them to detect objects and recognize them for effective manipulations and take real-time decisions involving those objects. In this paper, we describe a novel architecture that enables multiple low-compute NAO robots to perform real-time detection, recognition and localization of objects in its camera view and take programmable actions based on the detected objects. The proposed algorithm for object detection and localization is an empirical modification of YOLOv3, based on indoor experiments in multiple scenarios, with a smaller weight size and lesser computational requirements. Quantization of the weights and re-adjusting filter sizes and layer arrangements for convolutions improved the inference time for low-resolution images from the robot s camera feed. YOLOv3 was chosen after a comparative study of bounding box algorithms was performed with an objective to choose one that strikes the perfect balance among information retention, low inference time and high accuracy for real-time object detection and localization. The architecture also comprises of an effective end-to-end pipeline to feed the real-time frames from the camera feed to the neural net and use its results for guiding the robot with customizable actions corresponding to the detected class labels.
翻訳日:2023-01-08 04:55:32 公開日:2020-01-20
# ランダム部分更新戦略によるmoea/d

MOEA/D with Random Partial Update Strategy ( http://arxiv.org/abs/2001.06980v1 )

ライセンス: Link先を確認
Yuri Lavinas, Claus Aranha, Marcelo Ladeira and Felipe Campelo(参考訳) 資源割当に関する最近の研究は、moea/dの文脈において、いくつかの部分問題は他の問題よりも重要であり、最も関連する問題に焦点を合わせれば、アルゴリズムのパフォーマンスを一貫して改善できることを示唆している。 これらの研究は、アルゴリズムの任意のイテレーションで人口のほんの一部だけを更新するという共通の特徴を共有している。 そこで本研究では,各イテレーションで解のランダムなサブセットが選択される,よりシンプルな部分的更新戦略について検討する。 この新たなリソース割り当て手法を用いたMOEA/Dの性能は、標準的なMOEA/D-DEとMOEA/Dの相対的な改善に基づくリソース割り当てと比較して実験的に比較される。 その結果、MOEA/Dを新しい部分更新戦略で使用すると、HVおよびIGD値が改善され、特にイテレーション毎に更新されたソリューションの数が減少するにつれて、非支配的なソリューションの比率が大幅に高くなることが示唆された。

Recent studies on resource allocation suggest that some subproblems are more important than others in the context of the MOEA/D, and that focusing on the most relevant ones can consistently improve the performance of that algorithm. These studies share the common characteristic of updating only a fraction of the population at any given iteration of the algorithm. In this work we investigate a new, simpler partial update strategy, in which a random subset of solutions is selected at every iteration. The performance of the MOEA/D using this new resource allocation approach is compared experimentally against that of the standard MOEA/D-DE and the MOEA/D with relative improvement-based resource allocation. The results indicate that using the MOEA/D with this new partial update strategy results in improved HV and IGD values, and a much higher proportion of non-dominated solutions, particularly as the number of updated solutions at every iteration is reduced.
翻訳日:2023-01-08 04:54:47 公開日:2020-01-20